7 月 22 - 23 日,在中國科學技術(shù)協(xié)會、中國科學院的指導下,由中國人工智能學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的 2017 中國人工智能大會(CCAI 2017)在杭州國際會議中心盛大召開。
在本次大會上,螞蟻金服副總裁兼首席數(shù)據(jù)科學家漆遠博士發(fā)表了主題為《金融智能的發(fā)展與應用》的演講。漆遠表示,螞蟻金服今年的兩個關(guān)鍵詞,一個是“開放”,一個是“AI”。
在此次演講中,漆遠從風控系統(tǒng)、智能助理、定損寶等產(chǎn)品案例出發(fā),全面介紹了螞蟻金服產(chǎn)品背后的 AI 技術(shù)。
現(xiàn)場,螞蟻金服的“模型服務平臺”首次公開亮相,主打“模型所見即所得”。漆遠表示,數(shù)據(jù)是資產(chǎn),模型本身也是資產(chǎn)。未來,螞蟻金服也會將這個平臺作為其中一個AI能力向合作伙伴和客戶開放。
以下為漆遠博士演講實錄:
今天很高興給大家作一個分享,介紹一下AI在螞蟻金服的發(fā)展和應用。
首先我會講一講為什么我們要做AI,為什么呢?因為AI離不開場景和數(shù)據(jù),為什么要場景,因為我們要解決真正的問題,產(chǎn)生真正有意義的服務。在金融里面我們有大量的服務,從支付、保險、財富、到風控、微貸等各個領(lǐng)域,其中典型的場景就例如要判斷某個小企業(yè)是否具備相應的信用能夠承受貸款的風險。
在所有的場景里面產(chǎn)生了海量的數(shù)據(jù),而這些數(shù)據(jù)成為了人工智能的燃料,使得我們可以發(fā)展和應用一系列的人工智能技術(shù)。而這些場景、問題本身又為人工智能帶來了挑戰(zhàn),比如說時間敏感要求一筆交易需要毫秒級完成判斷。再如海量數(shù)據(jù),一天幾億筆的數(shù)據(jù),這就需要非常大規(guī)模的穩(wěn)定的風控的系統(tǒng)。還有業(yè)務多樣性,比如說怎么用遷移學習來發(fā)現(xiàn)不同任務之間的共性。再比如說系統(tǒng)性風險, 系統(tǒng)可以用一個網(wǎng)絡來表達,那你怎樣從網(wǎng)絡的角度分析問題。還有強數(shù)據(jù)安全和用戶隱私保護也是金融業(yè)務本身的屬性。
面對這些挑戰(zhàn)我們構(gòu)建了一個金融智能的平臺,從底層的圖像理解,以及使用阿里巴巴集團的語音識別能力,在此之上發(fā)展了NLP的能力,然后這上面進行機器學習、深度學習,分析時間序列,比如說預測余額寶的利率變化;在最頂層,我們發(fā)展推理和決策的能力,使我們能夠幫助我們的用戶和金融合作伙伴做出明智的決策。
在這個金融智能平臺中包括了一系列的人工智能技術(shù),比如說強化學習、無監(jiān)督學習、圖推理、共享學習。這些技術(shù)具備金融領(lǐng)域的實時對抗性、大規(guī)模以及安全加密性。
今天講幾個例子,從例子出發(fā)講講背后的技術(shù)。在這之前,我先講講螞蟻金服現(xiàn)在的兩個關(guān)鍵詞。螞蟻金服我們定位為Techfin,而科技公司的一個核心的是什么?是AI。所以今年螞蟻金服兩個關(guān)鍵詞,一個是“開放”,一個是“AI”,我們希望通過AI驅(qū)動所有的業(yè)務,同時作為科技公司,我們技術(shù)成熟一個開放一個,所以下面探討的技術(shù)也是探討如何開放給伙伴。
首先是在安全風控中,里面有用戶、設(shè)備、商家,他們之間通過資金流動形成互聯(lián)。傳統(tǒng)的風控技術(shù)中我們建立了很多的規(guī)則和模型。螞蟻金服過去十年通過使用大量的機器學習建立強大的風控系統(tǒng)。但是今天我們希望進一步地升級風控系統(tǒng)。比如說可信模型,我們想判斷有一筆交易是否存在賬號被盜。而這里面我們使用了一個跨界的技術(shù),其實就廣告CTR預估的技術(shù)。 在2014年Facebook廣告算法的文章中, 講的是GBDT+邏輯回歸。使用我們開發(fā)的參數(shù)服務器技術(shù),我們把邏輯回歸換成了大規(guī)模深度學習,使用到風控里面: 通過GBDT產(chǎn)生特征,然后DNN繼續(xù)學習。 因為在風控里面很多特征我們無法判斷哪些有用哪些沒有用,我們用GBDT產(chǎn)生海量特征然后把這些特征feed給深度學習模型。
前面是說我們把GBDT和DNN結(jié)合起來考慮風控。深度學習往下走,我們也考慮關(guān)系,用戶、商家、賣家等的關(guān)系,下面我舉一個例子,我們通過embedding技術(shù),把整個關(guān)系結(jié)合起來,形成圖形網(wǎng)絡,然后進行監(jiān)督學習、加強學習。
給大家看看例子,比如說支付寶賬號的賬戶(行為),我們一個網(wǎng)絡有好人、壞人,有設(shè)備比如說手機、計算機,iPad等,我判斷今天這個人是否注冊一個垃圾賬號特別簡單。我們可以把整個的圖關(guān)系通過一個embedding的技術(shù)產(chǎn)生一個深度學習的網(wǎng)絡,通過機器學習產(chǎn)生一個隱層表達,這個表達不光涵蓋了每個節(jié)點自身復雜的特征,同時還對網(wǎng)絡結(jié)構(gòu)做了一個encoding。在垃圾賬號的識別上,在經(jīng)典的Recall-Precision曲線中,Precision越高越好,接近1就是完美。原來的規(guī)則是不具可采信的,現(xiàn)在我們對圖使用embedding技術(shù)后有一個質(zhì)的飛躍,Recall在70%、80%的時候,Precision達到90%,而原來的算法Precision在40%幾,這基本相當于瞎猜。這個和以前的系統(tǒng)相比,Node2Vec也是非常先進了,我們在此基礎(chǔ)上又做出了明顯的提升。
將圖的關(guān)系和Feature結(jié)合起來,可以產(chǎn)生非常Power的模型,用在我們的模型里面。通過廣告的算法提升了系統(tǒng),我們進一步學習,將深度學習和圖模型結(jié)合起來,可以融合網(wǎng)絡關(guān)系與復雜特征。
下面講講另外一個方向,在過去的很多年,不管是中國還是美國,講起智能助理和機器人都是非常熱的話題。這里對話很關(guān)鍵,在螞蟻金服初始的對話從客服機器人開始,如果你使用支付寶,打開客服小螞答可以問各種各樣的問題,例如你問余額寶收益怎么算,他就給你一個這樣一個答復,提供工具輸入金額并計算。然后還有財富的理財渠道,你問某個企業(yè)業(yè)績怎樣就會開始進行輿情分析,輿情分析在金融里面非常多的應用,我們可以自動分析,海量的輿情在中國國內(nèi),為月新聞、周新聞相應地打出輿情分。
下面講兩個技術(shù),在對話機器人里面,在客服里面,假如問了這句話我怎樣申請退錢回來,它是沒有場景的。在問答系統(tǒng)中要理解它,就要真正知道在問什么,我們可以根據(jù)用戶的近期操作,這些操作本身就提供了一個背景和場景。我們通過LSTM對用戶行為軌跡做一個編碼,然后整個模型是一個深度排序模型,比較哪個更相似,通過LSTM建立模型,把怎樣申請退錢回來的用戶問題,和轉(zhuǎn)賬轉(zhuǎn)錯怎么辦和為什么銀行卡轉(zhuǎn)賬被退回來,這兩個進行答案匹配。我們給出正確的選擇轉(zhuǎn)賬到賬戶錯了怎么辦。這里有一系列的創(chuàng)新。這些創(chuàng)新今天不一一講。最后的結(jié)果,去年雙十一智能客服自助率做到97%。同時今年我們問題解決率超過了人工客服,機器人回答問題比人回答更為滿意。
這里對輿情分析背后技術(shù)簡單介紹,首先一個特別簡單的模型,就是統(tǒng)計這些感情單元,同時又和深度學習的方法結(jié)合,最后產(chǎn)生整體的判斷,這里面的話使用CNN,k-max pooling可以結(jié)合起來,還有TNN,將所有的信息結(jié)合起來進行一個綜合的評價。
剛才兩個例子講到對話機器人,第一個是客服,第二個是財富號的輿情分析。再就是保險,同時支付寶本身也在進行升級,您對支付寶可以說話,比如說我要給我的同事通過語音進行轉(zhuǎn)賬,自動完成轉(zhuǎn)賬并記錄到賬單里面。
下面第三個講機器學習平臺,這是我們團隊在阿里第一年開始做的工作,后來在螞蟻繼續(xù)和阿里集團合作開發(fā)。現(xiàn)在它是阿里和螞蟻金服使用最廣泛的大規(guī)模機器學習平臺。2015年我們用于廣告取得非常好的效果,后來用于淘寶推薦,前年用到雙11推薦,今年又用到了螞蟻的風控里面,其實它的核心技術(shù)就是我們能夠通過系統(tǒng)和算法的結(jié)合,處理海量數(shù)據(jù)。所以在風控系統(tǒng)里面,我們可以在同樣安全覆蓋的情況下,提升召回率,每天一千多萬筆可以準確輕松地通過審查。這個平臺前年做到了,但是今年才寫文章出來。它能支持100億特征、千億樣本、萬億參數(shù)。這是說它可以支持非常多的數(shù)據(jù)和特征,我們能從數(shù)據(jù)中提取價值做出預測。
假設(shè)非常多的數(shù)據(jù),萬億參數(shù)非常耗能耗的,同時需要很多的機器。很多時間的applications,我們希望速度比較快比較省能源。在非常非常經(jīng)典的矩陣分解中,相信很多做相關(guān)研究和做開發(fā)的同學都非常了解,如果我們把矩陣分解和哈希算法做結(jié)合,我們可以處理非常大的矩陣,比如說1億×1千萬的矩陣分解,我們2小時收斂,從工業(yè)界的角度具有非常大的價值。我們用到了口碑的場景中,點擊率的升幅超過120%。
剛才介紹的是機器學習,就是參數(shù)服務器,支持深度學習。下面再講一個技術(shù),我們的場景是營銷,比如說各種各樣的商家營銷,怎樣發(fā),發(fā)給誰,這是非常有價值的商業(yè)問題。這里面我們開發(fā)了加強學習技術(shù)。在這個算法中,我們有State、Action和Reward的狀態(tài),我們定義了一個空間,State是從多個業(yè)務抽取特征,刻畫用戶狀態(tài),Action是對哪些卡片和渠道做了相關(guān)決策組合,Reward就是用戶的點擊和簽約行為。整個框架是流式強化學習框架,所以能夠?qū)崟r實現(xiàn)Update。這上面講了一個流程,比如說花唄準入,比如說它是否點入和簽約,整個算法可以在框架上迭代,效果就是在深度學習基礎(chǔ)上有更好的效果提升,比如推薦卡片點擊率171%的增長和最終簽約率149%的增長。
剛才講了加強學習,講了深度學習,下面講另外一個例子。如果每個技術(shù)都作為一個好用的工具開放出來,您只想用這個工具而不太深入技術(shù)本身怎么辦?我們開發(fā)了一個模型服務平臺,將整個模型訓練給您可視化,您通過簡單的點擊、拖拽數(shù)據(jù)就能產(chǎn)生所有的結(jié)果。比如說您是開發(fā)應用的,您可以把算法在里面應用以后進行一鍵部署。當然如果您是開發(fā)算法的也可以寫出新的算法,例如加強學習等,可以通過統(tǒng)一的平臺進行服務。在螞蟻金服內(nèi)部,從芝麻信用到網(wǎng)商銀行的借貸,到風控都正在全面地使用我們的平臺。
我們今天講到了開放與AI,這里講到螞蟻金融云和開放平臺,希望我們的AI技術(shù)的能力開放服務于我們的客戶和合作伙伴。
這個模型服務平臺簡單來說我們就是模型所見即所得,不光數(shù)據(jù)是資產(chǎn),模型本身也是資產(chǎn)。做到可視化的,對于用戶來講,提供給開發(fā)人員非常方便的建模方式,非常容易使用,不需要知道某一行公式怎樣推導的,然后可以支持A/B測試,可以全流程地效果監(jiān)控,同時跨團隊地合作,并且可以實現(xiàn)多人同時開發(fā)。
接下來簡單展示訓練模型時的一個視頻。這是顯示的分類結(jié)果,這是得出來的樹狀模型,然后可以進行效果評估,這里可以比較兩個算法哪一個更好,拆分以后隨便選兩個算法自動評估,然后可以進行結(jié)果對比。我們以前在學校訓練完模型,然后手工測試幾個測試集就結(jié)束了,而在實際業(yè)界應用里一直有新的數(shù)據(jù)跑,新的預測,必須簡潔好用。在我們說話的時候,這就產(chǎn)生了一個部署的API,大家如果有問題還可以看一個請求示例,示范如何使用這個API。部署完了以后我們要知道效果好不好,是不是一直穩(wěn)定,比如我們要監(jiān)控信用分,KS值,它是AUC的變種。我們可以看到它對每一天當時的效果實時進行監(jiān)控。
剛才講了整體的從模型訓練到數(shù)據(jù)特征的產(chǎn)生,您可以從各種模塊,到訓練到部署產(chǎn)生API,到最后效果的監(jiān)控,全流程地展示。
那下面最后講一個例子,前幾周我們保險事業(yè)部和我們發(fā)布了一個產(chǎn)品叫“定損寶”,做什么呢?出了一個小車禍,照張像,哪里有問題,是撞了一個洞還是刮蹭進行判斷,這是非常復雜的事。我們不是做 OCR識別,也不是做數(shù)字識別,但是我們要做檢測,我們要檢測哪個部件比如說車門、車燈還是bumper,我們要理解這個場景,比如說有一個縫,本身計算機不知道是車上的縫還是墻上的縫,還必須知道這個問題多么嚴重,最后是一個決策,將多個數(shù)據(jù)源結(jié)合起來,給用戶和定損員一個輔助判斷 。
看這張圖像,您覺得車哪里有問題,我當時看了很久也沒看出來,不知道大家怎樣? 這里面有什么問題呢?如這里所示,有個特別微小的變形。但是這里我們要解決幾個問題,第一個是問題在哪里,第二個你要把問題分幾層,到底有多嚴重的問題,比如說這是輕度變形。有的變形了你得把整個部件換掉,有的稍微一修就修好了,最后告訴您修多少錢,在您的App里面把北京你所在位置附近的維修店全部選出來告訴您成本,您做一個決策是否要修。 下面舉幾個我們遇到的計算機視覺上的挑戰(zhàn)。比如部件識別,這里面有多少個部件呢?我不是很專業(yè),不算汽車愛好者,但是可以看出來這里有很多很多部件。所有的部件要找到,并且說有問題你都要看出來。再舉個例子,左邊一個強反光,強反光是不是有問題呢?我們要琢磨琢磨。還有,照相的時候人臉都對著框子里照,拍車照片的角度變化大很多 。
這個項目的開始和拿到初步的結(jié)果是算法團隊和業(yè)務同學通力合作的結(jié)果。算法同學積極學習業(yè)務,從開始看不出來圖像里車的問題,到現(xiàn)在都快成了專業(yè)的圖像定損員了。我們的技術(shù)有一系列的流程,從噪音去除到類別識別到目標檢測和程度判斷,到底多嚴重,是變形還是刮蹭。根據(jù)很多張圖片,最后我們要做預測結(jié)果的綜合,綜合以后我們做數(shù)據(jù)決策輔助,這要打通車的原件數(shù)據(jù)庫來分析,假如這個部件壞了多少錢。全國有4500萬案件/年, 60%的案件都是純外觀損傷的,它覆蓋了非常大的比例。每個成本平均150塊錢, 可以減少50%的作業(yè)量。
今天我介紹了一系列的技術(shù),以前我當老師寫NSF proposals,都有兩個目標要寫,一個是intellectual merits 就是技術(shù)的原創(chuàng)性,另外一個是broad impact,就是對世界的影響。一般第一個目標我們都拼命寫,第二段都是那種來回貼的那種,為什么?因為當時在學校的研究里工業(yè)界有距離,缺乏直接的對世界產(chǎn)生影響的辦法。今天我覺得學??梢院凸I(yè)界合作,工業(yè)界有更多的數(shù)據(jù),更大的問題更難的挑戰(zhàn),不僅應用技術(shù)還可以發(fā)展技術(shù),今天介紹的只是一部分的技術(shù),我們還有沒有發(fā)布的技術(shù)。
總結(jié)一下,今天講了深度學習和圖的結(jié)合,它主要是系統(tǒng)性風險的監(jiān)測與預測; 智能助理,我們達到了超越人滿意度的智能客服。今天智能助理完成任務基于一系列的場景,因為支付寶我們是一系列的金融生活服務平臺,今天就加上智能的定語叫智能的一系列的金融生活服務平臺; 今天也介紹了基于哈希的海量特征提取,完全是從工業(yè)的角度,希望算得快、便宜和省內(nèi)存;另外是深度強化學習,在營銷與推薦應用。在營銷比較關(guān)鍵,如果只是深度學習那么總是給你想要的,但是加強學習您可以探索一個在exploitation 和exploration的平衡:給你以前推薦你看過的類似的,也可以給你沒有看到的。
下面說些我們和其他公司可能都面臨的挑戰(zhàn),我們雖然有很多的數(shù)據(jù),但是比起我們的業(yè)務問題復雜度還是不夠,小數(shù)據(jù)、弱標注的數(shù)據(jù)的學習就很重要。另外,比如說怎樣處理有噪音與不確定性的推理,專家系統(tǒng)是從邏輯推出來的,但是它不能handle真實世界里的噪音和異常情況,今天講的Graph Emedding是一條路,但不是僅這一條還有其他的方向。 然后機器學習里面還有一個很重要的問題是模型的可解釋性,你要知道為什么,那在金融場景有非常多的應用,為什么信用分變低了你要給一個交代,就是解釋,今天的深度學習缺乏解釋性。還有如何從觀測的而不是隨機對比的數(shù)據(jù)中分析因果分析。還有長期目標與短期目標映射,怎樣把長期的目標和短期做的目標結(jié)合起來。最后,非線性動態(tài)網(wǎng)絡系統(tǒng),網(wǎng)絡本身在改變 這里和物理學一些概念很相關(guān),同時和圖理論非常相關(guān),這對風險、監(jiān)控和交易都會很有用。
最后,再次說,螞蟻是一家做普惠金融的科技公司。我們主題的是開放與AI, 技術(shù)成熟一個開放一個。從客服到模型部署平臺到其他的每一個案例,包括輿情平臺,我們都非常愿意賦能和服務客戶,和我們的合作伙伴、與我們的客戶共同探討和創(chuàng)造未來。
謝謝大家!
聯(lián)系客服