「業(yè)務(wù)介紹」
模型一定是基于業(yè)務(wù)的,所以首先介紹一下攜程的業(yè)務(wù)情況,即本文所提及模型的實(shí)際應(yīng)用場(chǎng)景。攜程金融主營(yíng)業(yè)務(wù)有三大模塊:
消費(fèi)金融,包括消費(fèi)分期(拿去花)和現(xiàn)金分期(借去花);
信用卡;
供應(yīng)鏈金融。
Fig . 1 攜程金融的主要業(yè)務(wù)范圍
「數(shù)據(jù)中臺(tái)」
模型亦是基于完善的技術(shù)平臺(tái)的,攜程金融數(shù)據(jù)中臺(tái)可以抽象為三個(gè)層次,底層是基礎(chǔ)數(shù)據(jù)層,中層業(yè)務(wù)抽象模型層,以及最上層的算法模型層。
Fig . 2 攜程金融大數(shù)據(jù)中臺(tái)的抽象結(jié)構(gòu)
中臺(tái)這個(gè)概念早期是由美軍的作戰(zhàn)體系演化而來的,技術(shù)上所說的“中臺(tái)”主要是指學(xué)習(xí)這種高效、靈活和強(qiáng)大的指揮作戰(zhàn)體系。比如電商領(lǐng)域,經(jīng)過十幾年的發(fā)展,組織龐大而復(fù)雜,業(yè)務(wù)不斷細(xì)化拆分,也導(dǎo)致野蠻發(fā)展的系統(tǒng)越來越不可維護(hù),開發(fā)和改造效率極低,也有很多新業(yè)務(wù)不得不重復(fù)造輪子,因此業(yè)界誕生了不少知名中臺(tái)系統(tǒng),最著名的是阿里云的數(shù)據(jù)中臺(tái)建設(shè)。
在攜程金融內(nèi)部,大數(shù)據(jù)中臺(tái)的目標(biāo)是為了解決效率問題,同時(shí)降低創(chuàng)新成本。
中臺(tái)的目標(biāo):減少溝通成本,提升協(xié)作效率;
中臺(tái)的實(shí)現(xiàn)手段:制定標(biāo)準(zhǔn) / 規(guī)范、提供高可用數(shù)據(jù) / 算法 / 應(yīng)用服務(wù)、提供統(tǒng)一、標(biāo)準(zhǔn)的數(shù)據(jù)研發(fā)工具;
中臺(tái)的原則:數(shù)據(jù)資產(chǎn)的集中管控,分布式執(zhí)行。
攜程金融的數(shù)據(jù)中臺(tái)收集了包括攜程 OTA 整個(gè)生態(tài)環(huán)境數(shù)據(jù),框架的最底層是計(jì)算與存儲(chǔ)資源層,其上是數(shù)據(jù)準(zhǔn)備層,融合多數(shù)據(jù)源,并對(duì)其做了抽取,清洗,能夠提供在線與離線的服務(wù),使其能夠?yàn)橛脩舢嬒瘢卣饕嫣峁┗A(chǔ)數(shù)據(jù),并應(yīng)用于模型算法?;A(chǔ)數(shù)據(jù)、用戶畫像、特征集市、模型服務(wù)這些內(nèi)容以數(shù)據(jù)資產(chǎn)的形式來管理?;谶@些數(shù)據(jù)資產(chǎn),可以為各個(gè)業(yè)務(wù)線 - 獲客,準(zhǔn)入,經(jīng)營(yíng),留存的全生命周期提供各種服務(wù),框架圖如下:
Fig . 3 攜程金融大數(shù)據(jù)中臺(tái)全景
「風(fēng)控模型體系」
消費(fèi)金融的風(fēng)險(xiǎn)大體可分為可控風(fēng)險(xiǎn)及不可控風(fēng)險(xiǎn),算法能解決的主要是可控風(fēng)險(xiǎn)??煽仫L(fēng)險(xiǎn)包含欺詐風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)及作業(yè)風(fēng)險(xiǎn);其中,欺詐風(fēng)險(xiǎn)指的是客戶在發(fā)起借款請(qǐng)求時(shí)即無意還款,按照人數(shù)可以分為團(tuán)伙欺詐和個(gè)人欺詐,欺詐者往往通過偽造身份信息、聯(lián)系方式信息、設(shè)備信息、資產(chǎn)信息等方式實(shí)施欺詐;信用風(fēng)險(xiǎn)指的是借款人因各種原因未能及時(shí)、足額償還債務(wù)或銀行貸款而違約的可能性。不可控風(fēng)險(xiǎn)包括市場(chǎng)風(fēng)險(xiǎn)、實(shí)質(zhì)風(fēng)險(xiǎn)及名義風(fēng)險(xiǎn)。
Fig . 4 風(fēng)險(xiǎn)基本分類
風(fēng)控模型貫穿獲客、準(zhǔn)入、經(jīng)營(yíng)、逾期的整個(gè)客戶生命周期,根據(jù)用戶生命周期的不同階段,可將風(fēng)控模型分為貸前信用風(fēng)險(xiǎn)模型、貸中行為風(fēng)險(xiǎn)模型、欺詐檢測(cè)及貸后催收模型。事實(shí)上,抓住信貸審批管理就能控制 80% 的風(fēng)險(xiǎn),一旦用戶獲得授信,后續(xù)的管理只能控制 20% 的風(fēng)險(xiǎn)。除此之外,貸前、貸中、貸后不同場(chǎng)景,可以從不同的觀測(cè)粒度進(jìn)行建模與抽象。拿攜程金融的業(yè)務(wù)來講,可以從每一筆交易角度來看,也可以從攜程生態(tài)中用戶賬戶來看,也可以從自然人概念為核心的客戶級(jí)別來看。一個(gè)自然人客戶與賬號(hào)可以是一對(duì)多的關(guān)系,一個(gè)賬號(hào)與交易也可以是一對(duì)多的關(guān)系。
Fig . 5 攜程金融風(fēng)控模型體系
如今在銀行、消費(fèi)金融公司等各種貸款業(yè)務(wù)機(jī)構(gòu),普遍使用信用評(píng)分,對(duì)客戶實(shí)行打分制,以期對(duì)客戶的風(fēng)險(xiǎn)水平有一個(gè)準(zhǔn)確的判斷,并作為風(fēng)險(xiǎn)定價(jià)的重要手段。行業(yè)內(nèi)常用的是 ABC 三張?jiān)u分卡。A 卡、B 卡、C 卡分別表示:申請(qǐng)?jiān)u分卡 (Application Score Card),行為評(píng)分卡 (Behavior Score Card),和催收評(píng)分卡 (Collection Score Card)。
A 卡:在獲客過程中用到的信用風(fēng)險(xiǎn)模型。從模型的角度來看,它會(huì)對(duì)用戶未來一定周期內(nèi)的逾期風(fēng)險(xiǎn)作預(yù)測(cè),即模型會(huì)在用戶授權(quán)的情況下收集用戶多維度的信息,以此來預(yù)測(cè)逾期概率。預(yù)測(cè)的逾期概率被用于風(fēng)控策略或者轉(zhuǎn)換成信用評(píng)分,比如國(guó)外經(jīng)典的 FICO 評(píng)分,國(guó)內(nèi)的螞蟻信用評(píng)分、京東小白評(píng)分、攜程金融的程信分等。A 卡評(píng)分除了用于決定是否通過用戶的信用申請(qǐng),還用于風(fēng)險(xiǎn)定價(jià),比如額度、利率等。
B 卡:行為評(píng)分是指,用戶拿到信用額度后,模型根據(jù)用戶的貸中行為數(shù)據(jù),進(jìn)行風(fēng)險(xiǎn)水平的預(yù)測(cè)。本質(zhì)上講,這個(gè)模型是一個(gè)事件驅(qū)動(dòng)的模型,在互聯(lián)網(wǎng)金融領(lǐng)域,一般會(huì)比 A 卡的預(yù)測(cè)時(shí)間窗口要短,對(duì)用戶的行為更為敏感。B 卡除了可以用于高風(fēng)險(xiǎn)用戶的攔截,也可以作為額度、利率調(diào)整的重要參考因素。
C 卡:催收評(píng)分會(huì)判斷,例如當(dāng)用戶出現(xiàn)逾期時(shí),機(jī)構(gòu)應(yīng)該先催誰(shuí),或者哪些用戶不用催,就自動(dòng)會(huì)把錢還回來。催收模型一定程度節(jié)約催收成本,提高回催率。
「風(fēng)控模型體系之貸前信用風(fēng)險(xiǎn)模型 (A 卡)」
貸前主要解決用戶準(zhǔn)入和風(fēng)險(xiǎn)定價(jià)問題,即面對(duì)一個(gè)新申請(qǐng)的進(jìn)件用戶,判斷用戶是否符合產(chǎn)品的放款條件及相應(yīng)的放款額度、價(jià)格、期限等問題。主要包括三類問題:
反欺詐識(shí)別:根據(jù)用戶提交的材料進(jìn)行身份核實(shí),確保用戶不存在欺詐行為;
信用評(píng)級(jí):與傳統(tǒng)銀行的信用評(píng)分卡原理類似,數(shù)據(jù)維度更加豐富,綜合用戶的社交數(shù)據(jù)、行為數(shù)據(jù)、收入數(shù)據(jù)等,判定用戶的信用風(fēng)險(xiǎn)等級(jí),評(píng)估用戶的履約能力;
風(fēng)險(xiǎn)定價(jià):根據(jù)用戶的負(fù)債能力和收入穩(wěn)定性,判斷用戶可承擔(dān)的月供金額,確定用戶的放款額度、償還期限等,并根據(jù)用戶風(fēng)險(xiǎn)等級(jí)確定用戶的費(fèi)率。這三個(gè)問題往往是互相影響、互為前提的。舉個(gè)簡(jiǎn)單的例子,對(duì)一個(gè)月收入 3000 的用戶來說,月供在 1000 左右,用戶可能履約良好,信用等級(jí)良好;但如果月供提高到 4000,嚴(yán)重超出了其收入水平,即便不是有意欺詐,也可能出現(xiàn)斷供的情況,從而得到比較差的信用等級(jí)。
本節(jié)重點(diǎn)闡述攜程金融在信用風(fēng)險(xiǎn)建模(A 卡)上的演進(jìn)和一些創(chuàng)新工作。
A 卡建模目前包括如下幾方面:
確保策略的一致性,盡量減少人工干預(yù),并利用機(jī)器學(xué)習(xí)的優(yōu)勢(shì)提升決策效率;
準(zhǔn)確反映并量化用戶的風(fēng)險(xiǎn)級(jí)別,策略人員可以控制和減少風(fēng)險(xiǎn)損失,因此對(duì)評(píng)分卡等級(jí)的排序能力、穩(wěn)定性要求會(huì)比較高。
好壞用戶定義:這一點(diǎn)可能是 A 卡甚至是互金大部分風(fēng)控模型的最基礎(chǔ)最核心的工作。對(duì)樣本標(biāo)簽的定義,需要與實(shí)際業(yè)務(wù)場(chǎng)景、策略目標(biāo)相一致,并綜合考慮不同定義下的樣本量。比如在現(xiàn)金分期場(chǎng)景中,可以畫一下用戶回款率(或者滾動(dòng)率)和逾期天數(shù)趨勢(shì)分布曲線,用戶逾期 N 天以后回款率或者滾動(dòng)率便已經(jīng)趨于穩(wěn)定 (梯度平穩(wěn)),則可以 N 天以上逾期作為篩選壞樣本的依據(jù)。在某些場(chǎng)景下,如曾經(jīng)的 Payday Loan,由于整個(gè)業(yè)務(wù)周期只有半月或 1 個(gè)月,為加快模型迭代速度,有時(shí)甚至?xí)x 7 甚至 1 逾期用戶為壞客戶。在一些銀行場(chǎng)景中,出于壞賬計(jì)提考慮,可能定義 90 天以上逾期為壞客戶??傊脡挠脩舻亩x不能純靠人工經(jīng)驗(yàn),應(yīng)該以場(chǎng)景的數(shù)據(jù)為基礎(chǔ),進(jìn)行數(shù)據(jù)分析之后確定。
樣本規(guī)模與算法演進(jìn):攜程金融的業(yè)務(wù)最早開始于 2015 年,模型進(jìn)行了多個(gè)版本的迭代。下面的表格展示的是拿去花業(yè)務(wù)中,我們 A 卡模型的演進(jìn)。業(yè)務(wù)初期,樣本數(shù)據(jù)量極少,往往根據(jù)相關(guān)業(yè)務(wù)經(jīng)驗(yàn)確定使用的特征和規(guī)則;隨著數(shù)據(jù)的慢慢積累,開始采用部分精細(xì)特征,使用簡(jiǎn)單的機(jī)器學(xué)習(xí)算法訓(xùn)練;當(dāng)樣本數(shù)據(jù)量積累到百萬級(jí)以上,我們嘗試采用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行特征自動(dòng)提取或者 end-to-end 的風(fēng)控模型訓(xùn)練;從 18 年上半年開始,我們升級(jí)到更加先進(jìn)的遷移學(xué)習(xí)體系,未來會(huì)持續(xù)落地更多的前沿算法。總之,攜程金融的風(fēng)控模型優(yōu)化的過程,實(shí)質(zhì)是緊隨著業(yè)務(wù)從無到有、從小到大,數(shù)據(jù)量由少變多,特征由粗到細(xì),模型由簡(jiǎn)單到復(fù)雜,效果由一般到突破的過程。
Fig . 6 攜程金融拿去花業(yè)務(wù) A 卡模型演進(jìn)
模型的評(píng)估與監(jiān)控:模型建立后,需要對(duì)模型的預(yù)測(cè)能力、穩(wěn)定性進(jìn)行評(píng)估??茨P托Ч荒苤豢?KS,KS 定義是從 0-1 概率之間好壞樣本累計(jì)概率最大差值,實(shí)際應(yīng)用中一般不會(huì)直接取這個(gè)閾值(cutoff)作為策略,因?yàn)樵谶@種 cutoff 下,通過率可能會(huì)很低;風(fēng)控不能不管業(yè)務(wù),舉個(gè)極端的例子,通過調(diào)整 cutoff,風(fēng)控幾乎可以做到任意想要的逾期率,但這樣通過率就很低了,業(yè)務(wù)規(guī)模可能只停留在極少數(shù)資質(zhì)優(yōu)秀的客戶;所以評(píng)估模型時(shí),基于風(fēng)險(xiǎn)的評(píng)估及基于業(yè)務(wù)的評(píng)估是必須的。因此,模型評(píng)估可分為三層:
第一層:機(jī)器學(xué)習(xí)模型評(píng)估指標(biāo)。信用評(píng)分模型常用的評(píng)估指標(biāo)為 KS、AUC 等。 考慮到金融業(yè)務(wù)反饋周期長(zhǎng)的特點(diǎn),除了劃分訓(xùn)練集、測(cè)試集外,通常會(huì)預(yù)留一段訓(xùn)練樣本覆蓋時(shí)間段之外的數(shù)據(jù)集,作為 OOT(跨時(shí)間)測(cè)試集,以測(cè)量模型在時(shí)間上的穩(wěn)定性;
第二層:風(fēng)控層面,比如在不同 bucket 下,預(yù)測(cè)概率的排序性能;
第三層:業(yè)務(wù)層面的攔截率,通過率,逾期表現(xiàn)等。
基于上面的評(píng)估分層,我們的監(jiān)控也做對(duì)應(yīng)的分層監(jiān)控,除了包含上述三個(gè)層面,還對(duì)輸入到模型中的特征進(jìn)行監(jiān)控,比如特征的分布、波動(dòng)率等。
「風(fēng)控模型體系之貸前信用風(fēng)險(xiǎn)模型發(fā)展歷程」
經(jīng)歷過了完全靠經(jīng)驗(yàn)的規(guī)則模型,當(dāng)積累了一定數(shù)據(jù)量時(shí),便可以用少量的維度與數(shù)據(jù)開始訓(xùn)練了,當(dāng)數(shù)據(jù)量較少時(shí),使用簡(jiǎn)單的 LR 就能達(dá)到不錯(cuò)的效果。隨著數(shù)據(jù)量的不斷增加,慢慢構(gòu)建起了身份屬性、消費(fèi)能力、用戶關(guān)系、信用記錄、出行記錄等特征,GBDT LR,RF,XGBOOOST,LightGBM 等更復(fù)雜的算法便可以派上用場(chǎng)了。當(dāng)數(shù)據(jù)達(dá)到一定規(guī)模時(shí),采用深度學(xué)習(xí)來進(jìn)行自動(dòng)化表征學(xué)習(xí)或者 end-to-end 的風(fēng)控模型學(xué)習(xí),我們測(cè)試過 DNN,這個(gè)算法在同等情況下,和 GBDT 之類的算法性能類似,并沒有太明顯的效果,一方面說明 GBDT 這類算法在處理非圖像、語(yǔ)音、文本這類局部結(jié)構(gòu)并不是特別明顯的數(shù)據(jù)的優(yōu)勢(shì),另一方面說明,不能直接將 CV\NLP 領(lǐng)域的算法拿來用,需要做一定的改造和優(yōu)化,因此我們陸續(xù)使用和改造了 ResNet、FractalNet 等網(wǎng)絡(luò)結(jié)構(gòu),相比于 DNN 和 GBDT 模型效果有比較明顯的提升;再進(jìn)一步,通過分析風(fēng)控這個(gè)場(chǎng)景,我們發(fā)現(xiàn),通過審批的用戶與開放自然流量的數(shù)據(jù)分布差異比較明顯,這一現(xiàn)象,基本打破了我們傳統(tǒng)監(jiān)督學(xué)習(xí)中訓(xùn)練集和預(yù)測(cè)集數(shù)據(jù)分布相似的假設(shè)。為解決這個(gè)問題,我們引入遷移學(xué)習(xí)框架,同等逾期條件下,通過率能明顯的提升。
Fig . 7 A 卡 V1-LR 模型
Fig . 8 A 卡 V2-GBDT 模型
Fig . 9 A 卡 V3-DNN 模型
Fig . 10 A 卡 V4- 分形網(wǎng)絡(luò)模型
Fig . 11 A 卡 VX- 遷移學(xué)習(xí)模型
「風(fēng)控模型體系之貸中反欺詐模型」
貸中反欺詐按粒度可分為兩類,用戶級(jí)與交易級(jí)。用戶級(jí)粒度相對(duì)粗一些,即斷定當(dāng)前客戶為欺詐客戶,可能的策略就是不允許欺詐用戶在平臺(tái)上發(fā)生交易行為;交易級(jí)是較細(xì)粒度的,即根據(jù)交易上下文、IP、設(shè)備、地域判斷當(dāng)前交易是否為欺詐交易,如果是,即不允許客戶進(jìn)行此筆交易。
貸中反欺詐有 3 個(gè)難點(diǎn):
① 長(zhǎng)尾分布:欺詐用戶其實(shí)是極少的
② 對(duì)抗性顯著:欺詐用戶會(huì)想辦法找出系統(tǒng)及規(guī)則的漏洞
③ 模仿正常行為:欺詐用戶會(huì)利用偽造消費(fèi)流水,前期正常還款等行為等,讓金融公司放松警惕,當(dāng)提額到一定程度后,便開始逾期。
在反欺詐領(lǐng)域,我們除了使用一般的機(jī)器學(xué)習(xí)模型,也構(gòu)建了一套基于社交網(wǎng)絡(luò)的模型體系。
「社交網(wǎng)絡(luò)在風(fēng)控模型中的應(yīng)用」
基于社交網(wǎng)絡(luò)的反欺詐,基本思想其實(shí)很簡(jiǎn)單,物以類聚,人以群分。比如一個(gè)欺詐分子,可能與其有關(guān)系(在 Graph 上表現(xiàn)為有直接的邊連接,這種也稱之為一階親密度;或者通過邊的游走能夠觸達(dá),這種稱之為多階親密度),那么可能這些與之有關(guān)系的用戶也是欺詐分子。如圖所示,通過梳理攜程生態(tài)內(nèi)關(guān)鍵實(shí)體、關(guān)系,我們首先構(gòu)建了一個(gè)龐大的異構(gòu)社交網(wǎng)絡(luò),該網(wǎng)絡(luò)包含 10 億級(jí)別的頂點(diǎn),50 億級(jí)別的邊。接下來是通過算法,發(fā)現(xiàn)社區(qū) (Community)。由于社交網(wǎng)絡(luò)的數(shù)據(jù)量相對(duì)來講是比較大的,因此在算法層面,對(duì)運(yùn)算效率要求也是比較高的,同時(shí)對(duì)于社區(qū)劃分的穩(wěn)定性有一定要求。在實(shí)際落地中采用 LPA、改進(jìn)的 Louvain,實(shí)現(xiàn) T 1 的社區(qū)發(fā)現(xiàn)。最后基于劃分的社區(qū),可以獲得社區(qū)的各種屬性統(tǒng)計(jì),這個(gè)作為反欺詐策略的重要參考。當(dāng)有一個(gè)用戶到來的時(shí)候,看其屬于哪個(gè)社區(qū),根據(jù)改社區(qū)的屬性確定該用戶是否為欺詐用戶。
目前在攜程金融的實(shí)際應(yīng)用中,基于社交網(wǎng)絡(luò)的風(fēng)控指標(biāo)已經(jīng)覆蓋了貸中 80% 的貸款請(qǐng)求,同時(shí)通過社交網(wǎng)絡(luò),挖掘關(guān)系人一度或者多度關(guān)系,對(duì)嚴(yán)重的逾期行為,通過多度關(guān)系進(jìn)行催收,提升回催率。
Fig . 12 攜程金融關(guān)系網(wǎng)絡(luò)
Fig . 13 社交網(wǎng)絡(luò)應(yīng)用的基本流程
作者介紹:
曾凡祥,攜程金融大數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)人。北京郵電大學(xué)博士、加拿大 McGill 大學(xué)訪問學(xué)者,致力于大數(shù)據(jù)和人工智能技術(shù)在金融風(fēng)控、精準(zhǔn)營(yíng)銷方面的研究和應(yīng)用。
本文來自 曾凡祥 在 DataFun 社區(qū)的演講,由 DataFun 編輯整理。
轉(zhuǎn)自:https://www.infoq.cn/article/wxLR2fE5oTTD_geYTbAG
聯(lián)系客服