內(nèi)容來源:2019年7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)于深圳正式召開。ZRobot CEO喬楊在AI+金融專場發(fā)表了《數(shù)字科技驅(qū)動的信貸反欺詐技術》的主題演講。筆記俠經(jīng)講者審閱,授權發(fā)布。
封面設計 & 責編 | 智勇
第 3878 篇深度好文:4598 字 | 12 分鐘閱讀
活動筆記·數(shù)字科技
本文優(yōu)質(zhì)度:★★★★★+ 口感:松花露
筆記君說:
數(shù)字科技時代,貸款越來越方便,直接用個人的信用就可以貸款,但總有一些人會用信用漏洞來騙貸、來欺詐,那么,我們應該如何預防欺詐性事件呢?
接下來,和筆記君一起走進今天的文章探索答案吧。
以下,盡情享用~
我今天分享的主題是“數(shù)字科技驅(qū)動的信貸反欺詐技術”,關于AI、數(shù)據(jù)挖掘技術、模型算法在這個領域的應用和嘗試。
首先介紹一下我們公司。
我們成立于2016年10月,成立之初的目的是利用海量高維的數(shù)據(jù)資源,結合行業(yè)內(nèi)最先進的數(shù)據(jù)挖掘技術和模型算法,借助京東數(shù)科豐富的實踐應用場景,不斷打磨自身的技術實力,同時賦能合作伙伴,幫助他們提升自身的風控實力和運營效率。
目前已經(jīng)和眾多的銀行、保險、證券、信托、小貸公司、持牌消金以及融資租賃公司等等展開合作,為他們提供了各類的產(chǎn)品支持以及智能風控、智能營銷解決方案,合作的機構近300家。
今天講的是,我們在反欺詐領域究竟做了哪些嘗試。
一、欺詐性案件背后的真相
大家經(jīng)常會在媒體上看到一些跟欺詐相關的令人觸目驚心的新聞報道,例如醫(yī)美中介欺詐、黑中介騙貸、洗錢套現(xiàn)等等。
隨著中國消費信貸及互聯(lián)網(wǎng)化的飛速發(fā)展,信貸產(chǎn)品種類的日益豐富,欺詐的手段也不斷在更新進化。欺詐分子是一群高智商且勤奮努力的人群,加上欺詐防范手段的滯后性,使得欺詐案件層出不窮,可謂道高一尺,魔高一丈。
從早期的傳統(tǒng)欺詐手段,已經(jīng)逐步進化為更加先進更難察覺的新型欺詐手段,比如早期的利誘員工到如今的潛入機構,本人申請到資信包裝等等。
欺詐領域經(jīng)常存在一種“道高一尺,魔高一丈”的情況,要怎么做才能實現(xiàn)“魔高一尺,道高一丈”,真正實現(xiàn)欺詐的有效防范?
風控從業(yè)者都知道,在信貸風險領域,我們最關注的是信用風險和欺詐風險。
信用風險非常好理解,最多的是從還款能力和意愿這兩個大維度去判斷。但是在欺詐風險領域,更多關注的是一方、二方、三方和多方混合欺詐,這就使得欺詐風險在判斷上更加復雜,難度更加大。
由于中國移動互聯(lián)網(wǎng)的發(fā)展,比歐美一些國家更加快速、更加發(fā)達,使得欺詐手段層出不窮,也使得我們在這個領域反欺詐的技術相對滯后。在美國,欺詐損失比例不到20%,而在中國為50%甚至更高。
所以在中國,整體信貸環(huán)境更加惡劣,防范欺詐風險的重要性更高。在建模方式上,我們通常是以已知的欺詐案件庫進行定義,再進行反欺詐模型的搭建,本身就很難進行有效的提前預警。
舉個例子,當時我在美國做反欺詐的時候,有一個客戶在拉斯維加斯的線下BestBuy(百思買)門店買了一部液晶電視,買完之后到周圍的麥當勞Drive-Through買了一個漢堡。
我們的交易反欺詐模型是實時在線上跑的,用戶每做一筆刷卡,系統(tǒng)都在計算是否可以通過。這個用戶平時是經(jīng)常在線上消費的,很少有在線下大額消費的行為,所以這筆交易被定義為高度欺詐嫌疑的交易。使得這個用戶在買麥當勞漢堡的時候,他的交易就被拒絕了。
這個用戶打電話進行投訴,他說:“如果你懷疑我是一個欺詐分子,為什么不在我買電視的時候把我的交易拒絕?而是在我購買2塊錢漢堡的時候拒絕?”——這就說明我們的模型是存在一定滯后性的。
二、如何預防欺詐
對于不同的欺詐類型,我們需要從三個維度進行考慮:了解客戶、了解員工以及了解對手。
▲ 長按圖片,分享給需要的人
但欺詐風險的防范必須了解所有交易參與對象,不然就會有疏漏,比如我們只去了解員工和對手,就會遺漏第一方欺詐的風險;只了解客戶和員工,就會給黑產(chǎn)、團伙欺詐等第三方欺詐以機會。
右邊不同的顏色是對應不同欺詐類型的防范措施,比如建立完善的內(nèi)控合規(guī)制度可以有效防范員工內(nèi)部欺詐。
但黑產(chǎn)識別是反欺詐領域最為關鍵的環(huán)節(jié),在這個環(huán)節(jié)ZRobot進行了大量的嘗試和探索,我們認為通過生物識別技術、點面結合的復雜網(wǎng)絡+機器學習技術(我們稱之為“漫網(wǎng)技術”)以及欺詐模型識別,尤其是我們提出的“斑馬”擴散技術是三方欺詐的最為有效的防范手段。
具體是什么原因呢?
首先,反欺詐的核心是證明交易對手是客戶本人,這是第一步,也是最關鍵的一步。
▲ 長按圖片,分享給需要的人
中國移動互聯(lián)網(wǎng)的高度發(fā)展,給了很多金融機構在前端非常有效的工具,用來和用戶交互,同時抓取有效的數(shù)據(jù)節(jié)點。
比如說現(xiàn)在非常成熟的移動APP,前端可以抓取的用戶標簽已經(jīng)多達200多個。在此基礎上做一些特征的延伸,是非常有想象空間的。通過輕量級的前端SDK生物探針部署,捕捉用戶多維度的生物行為并在云端進行實時計算判斷,同時結合傳統(tǒng)的人臉、指紋及聲紋識別,就可以在保障客戶體驗的同時達到欺詐風險防范的目的。
這樣的方式具備的優(yōu)勢非常明顯,比如無需硬件支持,驗證過程無感知,無需用戶主動配合,可進行連續(xù)判斷,同時可實現(xiàn)實時風險決策。
隨著欺詐手段的不斷升級,欺詐的團伙化特征也日益明顯,欺詐的上下游產(chǎn)業(yè)鏈也越來越龐大,越來越成熟。僅僅通過對個人的欺詐風險判斷不能防范團伙作案帶來的影響和損失。
我們提出的漫網(wǎng)技術有效的解決了這個問題:類似谷歌提出的Graph Learning(圖形學習), 對用戶全方位的關聯(lián)關系進行識別包括設備關聯(lián),通信關聯(lián)等等,構建用戶的關系網(wǎng)絡圖譜,通過無監(jiān)督算法將無差別用戶劃分為不同群組,同時針對關聯(lián)關系強弱進行判斷設定權重。漫網(wǎng)的優(yōu)點非常明顯,在反欺詐領域已經(jīng)取得了顯著的效果。
反欺詐中建模的流程和關注點,與傳統(tǒng)信用模型相比,欺詐模型構建存在很大的挑戰(zhàn):
基于業(yè)務知識及豐富的案件識別能力判斷哪些交易定性為欺詐交易。有了穩(wěn)定的案件庫和欺詐數(shù)據(jù)標簽之后,用作目標定義。特征工程設計的數(shù)據(jù)量及運算量大,近實時的數(shù)據(jù)挖掘包括瀏覽數(shù)據(jù)、網(wǎng)絡行為挖掘、網(wǎng)絡借貸、同一時間內(nèi)的設備環(huán)境特征等等。
由于欺詐手段方法更具多樣性,而信用風險主要來自還款能力和還款意愿,比較具象,所以設計多特征多子模型的融合,同時模型的更新迭代必須跟得上欺詐環(huán)境的變化,所以模型部署也要考慮到這個問題,比如高頻定期的模型效果監(jiān)控,如何建立自適應模型等等。
三、我們做了哪些嘗試和探索呢?
在這個領域我們做了哪些嘗試和探索呢?
在電商領域,用戶會在頁面留下大量觸點,比如點擊瀏覽不同層次頁面,但幾乎所有深層次頁面都會到SKU(庫存進出計量的單位)或單品頁面,所以我們提出了item2vector概念,類似文本挖掘領域的text2vector或word2vector,將文本分類為向量矩陣,比如高頻低頻文本,然后進行情感分析、語義分析等等。
所以我們是將電商領域的item抽出,把用戶瀏覽路徑轉(zhuǎn)換為向量形式,就可以用向量來描述一個用戶在一個瀏覽session(會話控制)當中對哪些品類或單品產(chǎn)生瀏覽記錄。
由于瀏覽是有時間順序的,所以我們將整個頁面瀏覽時間順序和向量放入卷積神經(jīng)網(wǎng)絡模型中加工訓練特征,通過RNN(遞歸神經(jīng)網(wǎng)絡)方式我們提煉了大量原本通過人類業(yè)務經(jīng)驗或其他構建特征方法所不能提煉的特征。這些特征做為機器學習模型訓練特征可大幅提升模型效果。
這是我們對于深度學習方面的突破,有了這一理論基礎,以及我們對于整個用戶畫像標簽的深度挖掘能力,就可以把自身積累的經(jīng)驗對外進行賦能。
另外,我們聊一下RNN(循環(huán)神經(jīng)網(wǎng)絡)和LSTM(長短期記憶網(wǎng)絡)的概念。
RNN的輸入維度為樣本數(shù)量, 時間序列數(shù),每個時間序列點的維度數(shù)量,輸出維度可根據(jù)不同的應用場景在1個或多個序列時間點輸出不同維度的結果;如圖所示從X0至XT共T+1個時間點,每個時間點的維度可以為一個多維的向量。
但在序列長度很長時,RNN會存在梯度消失和長期記憶被掩蓋等問題,LSTM在每一個單元里面加入了門的機制,用于決定上一個單元信息和本單元新輸入的信息多大程度的輸入到本單元,以及多大程度地輸出到下一個單元,有效解決了以上問題,同時能有效過濾無用特征。
具體是怎么應用呢?舉個例子:
下方左圖是基于地理位置軌跡的數(shù)據(jù)樣例,主要包含不同設備在不同時點駐留的位置經(jīng)緯度、位置類型、駐留分類等。經(jīng)過一系列數(shù)據(jù)清洗和特征加工得到完備的特征集合。
然后經(jīng)過序列截斷、padding、特征標準化、reshape等流程進入LSTM模型。左下角是我們使用到的一個LSTM神經(jīng)網(wǎng)絡結構樣例,經(jīng)過LSTM LAYER(含一個MASK LAYER),最終經(jīng)過2個dense layer得到輸出結果。
通過這樣的建模方式在訓練集上到底取得了什么效果?
基于上述數(shù)據(jù)和模型,最終我們在測試集上評估效果,單基于如上地理位置駐留數(shù)據(jù),經(jīng)過清洗、加工和建模,最終在我們的風險模型中KS能達到0.23,KS圖和按照預測出來的分數(shù)等分10組在測試集上的lift值如下圖所示,效果是非常明顯的。
金融領域的特征工程和建模方法經(jīng)歷了傳統(tǒng)的邏輯回歸,基于大量統(tǒng)計特征的機器學習方法也正在不斷融入在自然語言處理、語音、圖像等領域應用較廣的深度學習模型,剛剛展示的基于地理位置軌跡數(shù)據(jù)的LSTM模型是在金融領域的一次成功的應用。
大家可以質(zhì)疑這只是一個理論的測試集上的模型結果,那么實際應用中到底有沒有好的表現(xiàn)呢?
在我們內(nèi)部的實際數(shù)據(jù)上,剛才這個建模方式用到實際的風險中,用打出來的欺詐評分,把識別的人群進行了分組,欺詐評分最高的組可識別出來的欺詐人群的欺詐率已經(jīng)接近了平均比例的4倍。而最低的一組只有平均比例的0.05,所以接受前20%就可以把欺詐率降低一半,這就是實際運用的效果。
中國有一句古話叫做“近朱者赤,近墨者黑”,我們通常用的關聯(lián)關系都是在黑的領域進行擴散,在已知的欺詐群體或者是用戶至上進行關聯(lián)關系的擴散,把周圍的高危的群落識別出來,同樣的概念可以適用到白的這批用戶上。
所以我們提出的概念是不僅要關注黑,更要服務好白,因為已知的信用度很高,非常優(yōu)質(zhì)的客戶,跟他們的關系非常緊密的這群人,極大概率上也是一批非常優(yōu)質(zhì)的客戶,或者是你的潛在優(yōu)質(zhì)客戶。
把這個概念應用到額外授信、精準營銷領域,也可以取得非常好的效果。尤其是現(xiàn)在獲客成本高居不下,這種技術帶來的前景是非常大的。
剛才我說了欺詐評分可以有效把高危人群識別出來,前面提到的斑馬擴散技術,通過網(wǎng)絡擴散的方式,是可以把極端的人群作為有效的補充,更好地識別高危和低危的人群。
實際效果如何?通過擴散出來的人群前14%,欺詐比例為平均水平的3.3倍,最后的13%只有平均水平的0.3倍,因為他們選取的維度不一樣,因此可以結合我剛才說的建模方式做出的欺詐評分,可以更加有效的把這批高危和優(yōu)質(zhì)客戶識別出來。
最后我也希望行業(yè)人士能夠在業(yè)內(nèi)和我們做更多的交流,大家聯(lián)手在整個金融科技領域做出更多的貢獻,謝謝大家。
聯(lián)系客服