以人工智能驅(qū)動金融生活服務(wù)為切入點,北大“人工智能前沿”系列課程第三講為觀眾描述了AI在特定領(lǐng)域的實現(xiàn)和應(yīng)用。螞蟻金服VP、首席科學(xué)家、普渡大學(xué)終身教授漆遠博士擔(dān)任本節(jié)課的主講嘉賓。北大人工智能創(chuàng)新中心主任、百度創(chuàng)始七劍客之一雷鳴則依舊扮演主導(dǎo)者、提問者和辣評者的角色。兩位老師對AI技術(shù)落地經(jīng)驗的反思與討論,則成為個人宣講和強強對話這兩個環(huán)節(jié)的點睛之筆。
今天主要向大家介紹一下螞蟻金服在人工智能上的一些應(yīng)用和發(fā)展,也歡迎大家和我進行溝通、交流。兩年前,我來到杭州,并加入螞蟻金服。目前,螞蟻金服正在進行國際化建設(shè),我們在硅谷也建立了團隊。同時,我們的 country manager 在各國也有所發(fā)展。很多外國人并不了解杭州,當(dāng)我們在介紹杭州的時候,我們首先會說G20剛在杭州舉辦,奧巴馬、普京等各國元首都去過那兒。然后,我們會進一步介紹杭州與其他城市的不同之處。
其實,杭州的變化只是中國萬千城市的一個縮影。3年前我回國,發(fā)現(xiàn)從早上打車到中午吃飯,從看電影買票到全家去泰國旅游,所有活動我們都或多或少使用阿里系的產(chǎn)品,例如飛豬、支付寶。這個背后蘊藏著智慧城市生活服務(wù)的概念。舉幾個例子,支付寶可以在杭州城區(qū)購買地鐵票;當(dāng)芝麻信用超過一定分數(shù)時,人們可以免押金入住酒店,免押金租房;人們可以使用支付寶在中醫(yī)院掛號,可以乘坐公共汽車。其實所有這一切,都是依托場景。大家會問,講AI為什么要講這些? 最近有人寫了一篇文章,講AI的娛樂化趨向。其實是講了一個 common sense,就是做AI離不開場景。
場景的 vertical domain 非常重要。在杭州,人們拿一個手機,就可以享受各種各樣的服務(wù),而這些服務(wù)的背后產(chǎn)生了海量數(shù)據(jù)。對人進行多維度刻畫,也讓我們對社會有更好的理解,產(chǎn)生更有價值的服務(wù)。在浙江,一年有6億人次享受城市服務(wù),全部通過手機實現(xiàn)。例如,95%的超市、便利店可以用支付寶進行付款。
其實,我們和城市政府直接對接超過100項市政服務(wù),比如司機闖紅燈,可以通過支付寶進行直接賠付。正如ppt上列舉的,有很多各種各樣的場景,這些場景可以說是金融生活服務(wù),例如醫(yī)療,繳費,教育,乘坐高鐵、地鐵、汽車,交罰款,查稅。這些在杭州,大家已經(jīng)習(xí)以為常。但在3年前,我剛回國的時候,其實非常吃驚。因為在國外,大家基本使用電子郵件。我交水費一般去鎮(zhèn)中心去交一張紙,要交信封的,包括交手機費也是在網(wǎng)上填寫。在國內(nèi),手機費這些全部通過支付寶進行。還有一個非常有意思的應(yīng)用,芝麻信用分比較多,若手機會沒電,他可以幫你借充電寶。
所有這些案例背后,其實我們產(chǎn)生了一個顯微鏡或放大鏡,可以看到人的不同的角度。如果把它piece together,就是所謂的信息融合,其實可以產(chǎn)生非常多有價值的服務(wù)。這張圖其實說明了螞蟻金服是技術(shù)驅(qū)動金融生活的一個公司。我們是一個技術(shù)重塑金融的公司,并不是要做一個銀行,而是要做一個技術(shù)驅(qū)動的公司。就技術(shù)而言,人工智能、block chain(區(qū)塊鏈)其實會推動金融行業(yè)發(fā)生重大的變革。
其實場景或者計算的背景,比如card computing,GPU圖形計算卡上累計了各種各樣的場景,這些場景一邊為我們帶來數(shù)據(jù),一邊帶來真正有價值的服務(wù)。
我領(lǐng)導(dǎo)的部門在做什么?其實,剛才雷鳴有一個很好的介紹。我們在阿里做了一個科學(xué)技術(shù)研究院,后來我們希望更接近場景,在螞蟻金服建立了AI部門。其實就是把智能的技術(shù)賦能于各條業(yè)務(wù)線和各種應(yīng)用。這背后,首先,我們要有這種能力,比如自然語言處理、機器學(xué)習(xí)、圖像識別等。然后,我們把這些能力應(yīng)用在非常多的場景,例如做credit征信。大家知道,在美國,你想要買輛車,租房子,買房子,你的信用分直接決定你的貸款利率。我們說信用等于財富,在國內(nèi)如何產(chǎn)生信用分?這是個技術(shù)活,我們需要從數(shù)據(jù),從各個角度、維度來判斷一個人的信用。當(dāng)然不光是人,還有小微企業(yè)。我的朋友之前提到說,一個農(nóng)民、一個小企業(yè)需要買個拖拉機,或者買點種子。那么如何做?傳統(tǒng)的銀行做貸款靠人力其實非常昂貴。我們希望運用大數(shù)據(jù)的技術(shù),通過智能的技術(shù)把它自動化,降低成本。比如風(fēng)控,搜索,智能助理和營銷。關(guān)于智能助理,其實很多公司都在做。過去的一年,智能助理在硅谷有幾百家創(chuàng)業(yè)公司。這兩天有一篇文章說這幾百家估計都要完蛋。為什么呢?其實因為你做這個東西,大家首先要問一個問題,你這個技術(shù)能產(chǎn)生什么樣的價值,能提供什么樣的服務(wù)。而螞蟻金服有非常好的落地點,因為比如智能客服,我們有海量的電話要接,海量的問題要回答。比如,我們的基金銷售,理財顧問,保險顧問,審核等。在這一系列的環(huán)境中,智能助理是一個非常落地的場景。
另外一個應(yīng)用就是marketing(營銷),營銷從任何商業(yè)角度來講都是非常重要的。假如,今年給你10億做一個營銷策略,你怎么來花10億元?這其實是個數(shù)學(xué)問題,是個大數(shù)據(jù)問題,也是人工智能問題,那這個問題怎么解決?這張圖我們總結(jié)了螞蟻金服的一些應(yīng)用。簡單介紹一下一些主要應(yīng)用。第一個應(yīng)用,剛才提到的企業(yè)、個人的貸款,我們希望通過大數(shù)據(jù),能夠產(chǎn)生真實模型,包括定價,后面的反套現(xiàn)反欺詐等等。通過大數(shù)據(jù)、云計算,能夠使成本急速降低,保證風(fēng)控的質(zhì)量,才能大規(guī)模,低成本。另外一個就是交易風(fēng)險。顯而易見,支付寶在迅猛發(fā)展中有幾億用戶的情況下,我們推行國際化,我們在印度有合作伙伴ERE,我們在韓國、新加坡、菲律賓也有發(fā)展。如何把風(fēng)控能力輸出,一旦輸出之后,其實每個國家都不一樣,你怎么能夠控制這個風(fēng)險?
就剛剛提及的客服,我們延展了一系列這種應(yīng)用,后面我會專門提到一些應(yīng)用。財富,精準(zhǔn)營銷,個性化推薦,理財,智能投入等等。其實這兩個是密切相關(guān)的,因為好像信用評估,它可以理解為企業(yè)、個人微貸的底層核心能力。今年,我們信用的核心目標(biāo)是開放,開放,再開放。不只是自己在做,也希望有更多的開放平臺,和大家合力一起往前做得更好。
另外就是保險。保險本身是一個數(shù)據(jù)驅(qū)動的應(yīng)用,從營銷到保險的個性化定價,到新的基于互聯(lián)網(wǎng)的場景,新保險類別的開發(fā)等等,其實都離不開數(shù)據(jù)。下面給大家舉幾個例子,希望大家有一些直觀的感受和理解。
第一個例子就是客服,剛開始的時候,我們是從回答問題出發(fā),比如說花唄怎么還款,它能夠自動找到相關(guān)知識點,進行回答,告訴用戶花唄從哪里可以還款。其實如果只做一個Q&A的話,用到的技術(shù)相對簡單,有可能是一個知識庫的標(biāo)準(zhǔn)化問題,一個搜索的框架,有可能再結(jié)合簡單的knowledge base或者knowledge graph,就夠了,并不需要很多輪的對話。
第二個例子就是參與問題,比如,我們今天回答一個問題,我其實不光看到你說的話,同樣也可以看到用戶行為軌跡,多個數(shù)據(jù)源進行結(jié)合,然后自動判斷今天有可能有什么問題。有一個真實的案例是,我們團隊有一個同學(xué),他拿出支付寶打開“我的客服”。當(dāng)時在電梯里沒有信號,等我們出了電梯之后,“我的客戶”自動跳出問題——沒有wifi的情況下應(yīng)該怎么辦?由于系統(tǒng)自動在分析當(dāng)前你可能遇到的問題,沒有問題,也在參與問題。而這個其實解決了百分之七、八十的客戶問題。對于很多人來說,幸福都是相似的,不幸的是百花齊放的。其實對于客服很多不幸都是非常相似的,遭遇的問題都非常相似,特別適合機器學(xué)習(xí),幾個人問的問題,全國范圍內(nèi)都有同樣類似的原因。先把前面的問題解決掉,學(xué)到之后,普世地全部應(yīng)用。這樣的話,其實學(xué)完之后,機器可以立刻猜出來,你要問什么,如果你沒有問,我都知道你有什么問題了。
另外一個是客服工作臺,就是人機結(jié)合。今天大家講人工智能,其實是人工加上智能。很多地方機器做不到,我們希望人進來。那我們客服工作臺就是,我們看具體的客服人員,看他們怎么解決問題。我發(fā)現(xiàn)當(dāng)時客服工作臺還特別落后,很多做得好的客服人員,他其實根本不看這個工作臺,因為看到特別痛苦。那我們其實可以繼續(xù)學(xué)習(xí),怎么來優(yōu)化,好的員工經(jīng)驗怎么使用,優(yōu)化這個流程其實有重大的商業(yè)價值。剛才說的人工策略其實就是要判斷你的問題。先進入自助,大家比較痛苦,然后人工再介入。
其實人工智能重要的是要識得準(zhǔn),讀得懂。就是特別簡單的一個問題識別(CTR),包括上下語義匹配,客戶真實意圖識別。然后進行標(biāo)準(zhǔn)問題映射,再找到多方面的服務(wù)標(biāo)準(zhǔn)化或需求驅(qū)動。而做了這個之后,自助轉(zhuǎn)人工的需求猛地下降,也就是大家滿意度提高,而這個自助服務(wù)占比已經(jīng)從62%提升到90%。我們做了不到兩年,在去年雙11中達到97%。以往我們的雙11。阿里所有的客戶客服全部加班,做了不到一年半,其實他們?nèi)ツ暌呀?jīng)沒什么事了。以前都是比賽,誰回答問題多發(fā)iPad,去年都沒有團隊比賽。第一年的時候,我去看阿里的壯觀數(shù)據(jù),第二年我們要到一線,就去了成都的客服中心。和他們一起接電話,接到下午沒電話了,發(fā)現(xiàn)大部分都回答了。第三年我們就不去了。
今年我們的目標(biāo)已經(jīng)不是自助率,而是問題解決率。什么意思呢?你如果猛烈提升自助率,百分之百自助,但是有可能大家特別不happy,大家都會最后要再轉(zhuǎn)入人工。首先是浪費時間,用戶體驗非常差,所以,到今年夏天,我們的智能客服的問題解決率從百分五十幾,到現(xiàn)在快70%,而人工的用戶問題解決率是71%到72左右,我們的目標(biāo)就是要超過人工。超過這個意味著什么?其實我不光能夠自助,我回答問題比人還準(zhǔn)。那其實這個代表什么?我們項目做了不到一年,當(dāng)時就定個小目標(biāo),他們財務(wù)統(tǒng)計了一下,不到一年,我們?yōu)楣臼∫粌|,除去人的成本和GPU的成本。我們客服部門去年其實裁了100人。減少的100人去做遞推,做口碑業(yè)務(wù),這部分大量的人力就省下來了,這就是AI真實的案例。
其實AI有各種各樣的應(yīng)用。剛才講的應(yīng)用有關(guān)問答、參與問題,假如有問題已經(jīng)發(fā)生了怎么辦?我們能不能迅速定位迅速來解決它?這個就是異常檢測。核心思想有幾部分。一部分就是實時計算,要把數(shù)據(jù)實時性提高,做到秒級定位。原來一個流程發(fā)現(xiàn)一個問題,到電商的商務(wù)異常處理,需要兩小時。從發(fā)現(xiàn)問題13分鐘,到響應(yīng)介入50分鐘,到異常環(huán)節(jié)75分鐘,到最后環(huán)節(jié)要兩個多小時,125分鐘,這是以前的過程。現(xiàn)在的話,我們秒級解決問題,就是零分鐘預(yù)知,解決問題不到半個小時。這樣的一個例子其實省下了快1000通電話,而這個例子有很多,就省下無數(shù)的電話。這其實,大家說AI要代替人,其實也是解放人,因為做客服是比較鬧心的一個工種,因為你每天聽的都是別人在跟你講我當(dāng)前遇到的問題,心情都不是特別好,其實大量工作可以繼續(xù)幫你解放人。
那我們能做客服,能不能往前再走一步,我們回答其他的問題,我們還有一個APP叫聚寶,比如我們的理財服務(wù),我們這個余額寶的服務(wù),就是余額寶貨幣基金,我們還有這個其他的基金服務(wù)。我們就開發(fā)機器人,專門回答關(guān)于基金的各種問題。比如說這個問題,他講這個鏡頭是什么意思,然后就把相關(guān)的這個問題找出來。另外一個就非常個性化,他說我是不是這個mutual fund的持有人,機器人看到你已經(jīng)有這個icon,有這個標(biāo)志,自動就分析出來,你其實已經(jīng)持有了,因為這個跟用戶數(shù)據(jù)直接相關(guān)的。就是在做這種智能助理時候,一方面是你知識的理解,另外一方面是對用戶本身的理解,我們要懂,你懂世界,懂這個外邊的變化,要懂你的用戶叫KYC,或者銀行叫KY。另外一個比如說重倉跌多少,為什么漲?其實也是我們發(fā)展的一個project,那這個企業(yè)入駐,3500個是比較非常早期的,現(xiàn)在又過了半年,這個企業(yè)數(shù)字應(yīng)該大幅增長了。我們不貪多,但是我保證質(zhì)量好,我們的問題回答滿意度超過90%,這樣可以保證這個指數(shù)的曲線一直往上漲。
再舉一個例子,就是保險行業(yè)。保險行業(yè)今天有什么難點,很多人買保險,產(chǎn)品就像在美國一樣,國內(nèi)也一樣。就是特別小特別多,一看沒看明白到底保險產(chǎn)品什么意思,或者理賠的時候,流程特別復(fù)雜,而很多過程本身,其實你可以通過智能助理的手法來進行解決,或者輔助用戶,起到更好的理解產(chǎn)品的痛點,理解產(chǎn)品到底在說什么。
下面再給大家講一個案例,就是個性化產(chǎn)品和資訊推薦。這個其實已經(jīng)非常多了。如果只講個性化推薦呢,其實不值得一講了,因為所有的公司在做,但是為什么我講這個呢?因為跟傳統(tǒng)只做推薦不太一樣,阿里是一個生態(tài)系,那生態(tài)系里面其實各個數(shù)據(jù)都會進來。我不是說因為你看過的文章,又推一篇文章。對吧,這是頭條的經(jīng)典模式,那有各種各樣的,比如電商的購買行為能否助力財富和保險,我們叫遷移學(xué)習(xí),或者叫信息整合。這種情況下怎么能做到?
比如說這個資訊閱讀能否支付消費,其實還是比較跨越的。但是其實每一個人各個維度都有一個綜合的理解。我們其實就開發(fā)一些基于深度學(xué)習(xí)的技術(shù),叫我們叫螞蟻DNA,就是一個編碼技術(shù),其實很簡單,做一個embedding,然后把這個用戶實體包括產(chǎn)品,文本和外面的article,我們做一個統(tǒng)一空間里embedding,轉(zhuǎn)來轉(zhuǎn)去有很多點。然后,把這個人在這個點里邊直接表達出來。它的好處,比如說加密,如果你只看著點,你是不知道什么意思,但是很多合作方,比如說,我們保險公司合作,把這個用戶的數(shù)據(jù)加密,非常關(guān)鍵的一個問題。
這里有兩個簡單的例子,一個是用戶屬性,另一個是閱讀偏好。這個其實還是挺有意思的,有點surprise。你看這個我們發(fā)現(xiàn)男性45歲,政府機關(guān),喜歡看財經(jīng)政治教育,女性大學(xué)生喜歡看娛樂美食。我們后面會講到保險,他們做推薦的時候發(fā)現(xiàn)具有謹慎性偏好。我后面再講保險的會講到這個例子。其實一旦做了100點之后,原來以為八竿子打不著,是你放在一起,大家從一個新的維度來看他,這個時候你對人的理解更加深刻,對產(chǎn)品理解更加深刻。但是你要看到,一旦你真正能夠把算法、業(yè)務(wù)、系統(tǒng)整體的打通在一起看的時候,其實能得到很多好的效果。與以前算法相比,這個算法大規(guī)模提升深度學(xué)習(xí)近6倍左右。其實在我們聚寶里面,如果您看到一個基金推薦,不光那個基金是個性化推薦,連推薦原因都是個性化的。咱倆看到同一個基金,上面原因就是不一樣。有可能你喜歡跟大V,我喜歡看這個產(chǎn)品本身的分析。
另外一個是我們對保險的運營,比如對保險產(chǎn)品進行個性化推薦。當(dāng)然了,這個其實從一個科技公司的角度來說有很大好處,這個能力一旦建起來之后,你可以做輿情分析,財經(jīng)智能問答。因為你把這個底層能力一旦建立起來,對文本分析的能力,對事件和個人的描述能力,其實可以產(chǎn)生很多新的應(yīng)用。一個簡單的demo,我們輸入一個基金,可以找到相關(guān)的材料,比如說相關(guān)板塊的股票走勢,相關(guān)的股票等等。其實這全部是基于深度學(xué)習(xí)進行相關(guān)的開發(fā)。另一個例子是安全。安全上,其實我們每筆交易要控制是不是一個fraud,是不是一個虛假交易,那當(dāng)然貸款本身有風(fēng)險,這里講的主要是交易風(fēng)險,以及輿情風(fēng)險。其實他是也是一個多個數(shù)據(jù)源的融合,也有人的策略,人的規(guī)則,是整個結(jié)合。
最后我們講一下這個所謂的螞蟻安全大腦。這是螞蟻金服正在發(fā)展的,是從眼紋到人臉到正在聲紋等整個結(jié)合,用來證明“你就是你”這樣的問題。這個其實有非常大的價值。還有比如駕駛習(xí)慣,其實有很多都可以從技術(shù)來改變傳統(tǒng)保險產(chǎn)品開發(fā)的這個一個定義。比如健康險,我們通過新的數(shù)據(jù)源融合進來能夠反欺詐,更好地理解健康的風(fēng)險;比如說場景險,舉一個例子是完全互聯(lián)網(wǎng)化的一個場景險。就是在一個新的場景下,我們產(chǎn)生了這個保險的種類。您看這張圖有什么共性?其實就是穿緊身褲。embedding之后發(fā)現(xiàn),穿緊身褲的很多人,在淘寶天貓上購買手機新屏幕服務(wù),后來我們干脆就直接賣個保險?干脆我直接給你做個保險,這個保險呢,就是碎屏險。
就是你買了保險碎屏了,自動給你cover了。以前他們這些人就會就是在淘寶天貓上買哪能給我換換手機屏幕什么。這是非常小的一個險種。但是,非常值,就是直接通過大數(shù)據(jù)產(chǎn)生的。今年我在做這個報告,那個紅杉周奎總,他穿緊身牛仔褲上來之后,說剛聽了齊總的報告,拿出兩個手機說,我兩個手機屏幕都是碎的。然后他倆是男的,穿褲子非常謹慎,非常fashion,這真的不是我的托。
另外一個例子,這個也是真實的例子,你在淘寶天貓上買東西,不像Amazon,你買一個plan服務(wù),就是每年交多少錢?你退貨不要錢。中國很多用戶對價格特別敏感,有些人買了東西就喜歡退,有人買東西都不愛退,那其實不光是一個財富能力,還有一個人消費習(xí)慣的問題,那這個時候你怎么辦?怎么能夠真正理解用戶的消費行為,真正的提供這種服務(wù)。他有這個需求,有了需求之后呢?我們想怎么滿足這個需求。應(yīng)該說挺雷人保險產(chǎn)品,但是這個做出來之后,每年都是100%的速度增長,其實運費險平均大概5毛錢有一塊錢有一塊八,但是雙11一天,我們上億的保單,其實就是說長尾(long tail)現(xiàn)象,非常典型。它的特點什么東西能做到這個實時投保,差異化,實施預(yù)測,然后極速理賠。關(guān)于保險,大家不知道怎么買,是否需要不需要。
另外,理賠特別痛苦,我們不需要扯皮,我們立馬給你賠了。這其實也經(jīng)歷了一個比較坎坷的歷程,這個有這個需求之后我們開始做,阿里雖然搞運營挺強,但是我們運營一口價,5%。不管你的商品多貴,我5%。但是從商業(yè)角度其實不能成立,是一個虧本的買賣。后來那我們不懂,我們請人,我們請了精算師。精算師其實有很多行業(yè)知識了,比如在房屋、人壽、車險,但是這個保險精算師怎么能知道?是一個完全嶄新的領(lǐng)域,所以其實也并不太好定義這個資本,畢竟是一個嶄新的險種。后來我們自己拿R做統(tǒng)計模型統(tǒng)計來數(shù)數(shù)。當(dāng)統(tǒng)計模型做完之后,效果好像靠譜點,但是再往后既然都做了這個,我們再往前走一步,我們要做的什么?我們其實在模型一個人,一個人買商品和退貨,這3個之間的關(guān)系,最后我們算一個概率。這其實與廣告里面,一個用戶,一個商品,用戶會不會點擊這個廣告其實非常類似。只不過把這個東西換了換。今天說我要不要退這個東西,廣告說我要點不點這個廣告。畢竟每個click,其實對所有的這個互聯(lián)網(wǎng)公司,大眾公司都會產(chǎn)生非常大的商業(yè)價值。
其實,我們把核心的廣告算法拿過來用,用完之后效果特別好,這個廣告算法就是海量音子,我也不是特別有情懷分析了,全部扔進來自動計算,然后計算概率——多大可能性這個人會退貨。然后呢,預(yù)測很準(zhǔn),基本不能解釋。利用百萬的ID,但是效果特別好。但是今年機器學(xué)習(xí)一個重大趨勢,就是想做可解釋模型。有些場景,我們還是希望模型能夠解釋,但是對這個場景我并不關(guān)心解釋性。我更關(guān)心的是,我能算出來這人多大可能性會退貨。
今天給大家講了很多例子。從開始講移動互聯(lián)網(wǎng),講mobile first。其實很多公司今天都正在,或者已經(jīng)完成國內(nèi)互聯(lián)網(wǎng)領(lǐng)域的上半場。之后,大家開始真正競爭的是云計算的能力,比如阿里,比如螞蟻金服云,比如Microsoft他發(fā)明的云計算能力,還有Amazon,背后其實就是數(shù)據(jù)。誰的場景數(shù)據(jù)本身有價值。而這背后的話呢?其實阿里的網(wǎng)有一個比喻,數(shù)據(jù)是土壤,土壤上要蓋出樓,產(chǎn)生價值,那靠算法,靠人工智能。要真正能把價值能體現(xiàn)出來,而不是坐在金山上吃饅頭。這個背后,我們就要通過人工智能,讓用戶包含的社會數(shù)據(jù)產(chǎn)生價值,并將有價值的服務(wù)帶給用戶。
我剛才問雷老師,我們的背景很多是理工科的。我就準(zhǔn)備了一些機器學(xué)習(xí)相關(guān)的挑戰(zhàn)。比如說基于加強學(xué)習(xí)的對話系統(tǒng)。其實在對話系統(tǒng)很多數(shù)據(jù)沒有的情況下,一開始你很難做加強學(xué)習(xí),有可能你就做一個規(guī)則技術(shù)。但再往后面,有可能你需要完成任務(wù),以任務(wù)為目標(biāo)的時候,你在做task completion時候,其實就像下圍棋,你要完成任務(wù),贏別人。這時候你和用戶其實是interation。這個時候你可以考慮,怎么來介入,再往后面。大家也知道翻譯模型,對話系統(tǒng)很多用翻譯模型,我們叫做seq2seq,sequence to sequence。假如有一堆sequence,假如多輪對話,你能不能應(yīng)付,就是一個sequence到另一個sequence,再到一個sequence。這其實都是技術(shù)的挑戰(zhàn)。數(shù)據(jù)收集的挑戰(zhàn),數(shù)據(jù)標(biāo)注的挑戰(zhàn),你技術(shù)能不能做到這一步,真正建立這個模型的挑戰(zhàn),這都是各方面的技術(shù)的挑戰(zhàn)。
第二個問題的話呢?其實在也越來越明顯了,其實今天講大數(shù)據(jù),其實有點令人誤會。就很多場景下問題的復(fù)雜度而言,其實數(shù)據(jù)并不大。我們要分析市場風(fēng)云變幻。就如剛才雷老師說,你看一個公司過去兩年的這個交易數(shù)據(jù)數(shù)據(jù),其實一點不多,把季報全都加進來。其實一年就4份財報。在數(shù)據(jù)并不多的情況下,怎么能夠把這個小數(shù)據(jù)學(xué)習(xí)的問題解決?
很多問題的話,你要做推理,如果A發(fā)生了到B,B發(fā)生回到C,你怎樣把推理過程做好。今天,大家做很多深度學(xué)習(xí),比如說從一個文本里面,這件事會導(dǎo)致另外一件事,A會導(dǎo)致B的發(fā)生,你把這個相關(guān)的答案找到。但是并不能推到,B到C,C到D,他其實做不到的。如果做知識圖譜,其實跟深度學(xué)習(xí)沒什么關(guān)系,今天的深度學(xué)習(xí)圖譜其實是建了一個圖模型,然后把這這個點一個一個往下推,而這兩個框架是完全分離的框架,那其實也是挺分裂的。那大家能不能真正有一套機制能有推理的功能?這其實有從理論上的價值到商業(yè)上的價值,都是非常巨大。剛才已經(jīng)提到知識圖譜了,大家其實現(xiàn)在有一系列算法講知識圖譜,knowledge graph,但是從學(xué)術(shù)發(fā)表的很多文章,工業(yè)上沒法用了。就是有一些算法,我就不說哪個算法了。有的還是我好朋友寫的,但是工業(yè)很難用,為什么呢?因為它他基本上不能達到需要的準(zhǔn)確性。導(dǎo)致圖譜一部分算法還有很多手工的工作。
另外的無監(jiān)督學(xué)習(xí),這個喊得比較響。跟小數(shù)據(jù)學(xué)習(xí)相關(guān)的。很多數(shù)據(jù)是有標(biāo)注,很多數(shù)據(jù)沒有標(biāo)注,那怎么能夠把沒有標(biāo)注的數(shù)據(jù)都用起來,真正的做到把數(shù)據(jù)的所有價值都真正體現(xiàn)出來。那當(dāng)然,這里面還有這個在無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí),中間還有一個叫做半監(jiān)督學(xué)習(xí):有一部分有標(biāo)注,有沒有標(biāo)準(zhǔn)。我們怎么把它們結(jié)合起來一起進行學(xué)習(xí)?那這也是一個在今天的背景下非常有意義的一個方向。從工業(yè)界來講,更實用的是數(shù)據(jù)和模型的壓縮。剛才有人問我說深度學(xué)習(xí)能不能在這個量化交易用,尤其是高頻。我說那高頻呢,如果深度學(xué)習(xí)好幾層的模型,做圖像有100多層。然后您做高頻交易,希望在千分之一秒或者萬分之一秒,把交易完成了,這兩個互相矛盾。那工業(yè)很多應(yīng)用非常在乎實時性,不需要大量delay。所以怎么能做的快呢?這就需要模型的壓縮,要用hashing等技術(shù),那這個也非常好的方向。
那還有其他方向,我就不細講了,比如說保護用戶隱私,數(shù)據(jù)加密等等,都是非常有意思的方向。嗯,剛才那個和幾個同學(xué)在吃飯的時候,很多人問了我好多問題,跟技術(shù)沒關(guān)系的,跟商業(yè)有關(guān)系,所以呢,就臨時又加了一個slide,就講落地的經(jīng)驗和教訓(xùn)。今天做這個東西。首先不要為了技術(shù)做技術(shù),一定要想到有商業(yè)價值的,有數(shù)據(jù)的場景,那場景非常關(guān)鍵,否則的話,你這個技術(shù)你在公司里面做,做了沒有用,你在如果是start up,這公司已經(jīng)注定要完蛋,這就是其實非常關(guān)鍵的一個point。比如說我在阿里做第一個項目,是做參數(shù)服務(wù)器,就是分布式機器學(xué)習(xí)平臺,分布式的云計算怎么大規(guī)模學(xué),但是我們找的第一個應(yīng)用點特別簡單,大家猜猜什么場景,會有商業(yè)價值。對,就是廣告。
那我們就在CTR預(yù)估上采用這個系統(tǒng)。因為這個系統(tǒng)只要你能提升1‰,就是很多錢;提升百分之就是更多的錢。我們當(dāng)時做這個項目,在雙11實時預(yù)測的用戶產(chǎn)品推薦,后來變成阿里巴巴第一大大規(guī)模機器學(xué)習(xí)平臺。但是一開始你要找到一個商業(yè)價值的落地點,否則這個我們做參數(shù)服務(wù)器,同樣的技術(shù)就是死路一條。在公司,在商業(yè)環(huán)境肯定是沒有前途的。第二點就是說,從問題出發(fā),不是要炫耀,要有核心價值。這個再舉個例子,其實講到客服了,其實硅谷好多公司都在做這類產(chǎn)品,至少有幾十家,但是很多家都要完蛋。這些企業(yè)沒有什么區(qū)別,都要做深度學(xué)習(xí),都要做這個東西,但是背后的價值區(qū)別在哪里?它的落地點在哪里?其實公司沒有很大區(qū)別的。這個時候就要問你的核心價值在哪里,那我們當(dāng)時做這個產(chǎn)品,其實一開始我們很具體,就做客服,一開始大家覺得不是一個sexy的一個行業(yè),但是真正能做好就有巨大的商業(yè)價值,但是你同時要在場景中體現(xiàn)能力。
第三個非常關(guān)鍵,技術(shù)、產(chǎn)品和運營真正的融合,如果這個中間有個重大的隔閡或切斷,其實非常危險。對公司,對這個團隊,都是非常危險的事情。這是經(jīng)典的互聯(lián)網(wǎng)公司的一個笑話了:產(chǎn)品經(jīng)理都很恨工程師。工程師經(jīng)常說,產(chǎn)品經(jīng)理忍不住地笑工程師出事了;而工程師,比較痛恨產(chǎn)品經(jīng)理。但是這其實雙方應(yīng)該有一個度,如果大家離開學(xué)校到工業(yè)、互聯(lián)網(wǎng)公司會發(fā)現(xiàn),真正的融合是非常關(guān)鍵的。最起碼要on the same page,大家能夠討論這個問題,真正能想到未來的出路,要把技術(shù)的力量發(fā)展出來,把商業(yè)通過產(chǎn)品形式真正落地下來,這個也是非常關(guān)鍵的。
雷鳴:非常感謝漆遠的精彩演講。我們知道螞蟻金服的互聯(lián)網(wǎng)技術(shù)在國內(nèi),我相信在全球范圍內(nèi),排名都是領(lǐng)先的。他們內(nèi)部用機器學(xué)習(xí)、深度學(xué)習(xí)等人工智能相關(guān)的技術(shù)做了大量實踐。今天給我們披露了很多他們在實踐中的過程、經(jīng)歷、解決的問題、所運用的技術(shù),還有一些挑戰(zhàn)和限制等等。
下面我就跟漆遠老師就互聯(lián)網(wǎng)金融做一些探討。首先,提到金融,這個概念非常大,包含的東西太多了,如保險、征信、欺詐,金融客服等,剛才漆遠提到了不少,如果同學(xué)們感興趣,待會可以繼續(xù)提問,我在這方面也有一些問題。另外還有一個問題我想再跟漆遠探討一下,剛才提到一家美國公司叫作Kensho,這個公司名頭還是很大的,凡是提到人工智能創(chuàng)業(yè),大多會提到這家公司,他們的技術(shù)發(fā)展到現(xiàn)在,你怎么評價?你覺得他們在信息服務(wù),或者說輔助交易這些方面能解決多大的問題?
漆遠:我其實去年和Kensho的CEO、Founder見過面,有過交流,談了挺久,我對這個公司印象非常好。為什么好?他們有一個真實的問題,就是海量的資訊進來了,怎么能夠立刻提取出來背后的知識點,然后使基金策略師能夠使用到?以前你要一本一本看,那是相當(dāng)痛苦的一件事情,最好的基金經(jīng)理能看多快?再快也就像我們客服那個速度了。但是假如你真能夠即時提取知識,這是一個真實的需求。而這個真實需求又能映射到一個技術(shù)問題,有的問題不能映射到技術(shù)問題,需要別的解決方法,有可能是人,有可能是法規(guī)、政策等問題。那這個技術(shù)問題,技術(shù)獎勵做得好,確實能夠很大的程度上解決,或者減少這個問題。
第三個的話呢,他們的思路我覺得也挺落地的。這個公司除了做機器學(xué)習(xí),其實也搞了大量的眾包,crowdsourcing,這就是我講的人工加智能。Crowdsourcing本身也是非常有技術(shù)的問題,怎么建立獎勵機制,怎么能夠把這個任務(wù)分發(fā)到好的人,怎么評價一個人,這其實是mechanism design的問題。怎么設(shè)計一個好的機制,他們其實做得非常好。然后再講他們是不是能夠替換掉Bloomberg,我跟Bloomberg的CTO和技術(shù)方案方也有過深入交流。我覺得這兩家公司定位上有所不同,Bloomberg有自己的優(yōu)勢和發(fā)展,我覺得很難做一個判斷。但我覺得下一步的發(fā)展會非常有意思。
雷鳴:那就是等待時間來檢驗了。另外一個問題,我看現(xiàn)在也經(jīng)常提到一個數(shù)據(jù),就是關(guān)于機器在二級市場的自動交易問題。我們知道大量的高頻交易基金,回到5年前或者10年前,占整個交易領(lǐng)域的比重還是沒有那么大的。那現(xiàn)在的話呢?由于人工智能的崛起,用機器自動做交易的資金的比例最近幾年提升得非常快,數(shù)據(jù)不確切,大概也有百分之五十到一百的提升。
漆遠:在美國,幾年前曾經(jīng)的高潮時期已經(jīng)做到百分之九十以上的order是機器完成的了,后來降了一些,保守估計也有百分之六十到七十用的是algorithm trading,就是用算法進行交易。這塊國內(nèi)目前發(fā)展也比較快。
雷鳴:你剛才提到把每天的高頻交易都包括進去已經(jīng)達到百分之八九十了,交易量很大,但其實不從交易量,從管理財富這方面考慮,應(yīng)該沒有那么高吧?
漆遠: 財富管理和高頻交易還是不太一樣,從策略到產(chǎn)品,包括他們的目標(biāo)用戶都不一樣。很多高頻交易就是為自己掙錢,就是自己的錢自己掙,最出名的就是Renaissance,最核心的基金不對外開放。
雷鳴: 我想剛才你說的這些如Renaissance這些基金,他們交易量很大,如果當(dāng)天看盤中的話,就是整個盤上交易可能占的比例確實很高,但是他們是拿基金來回倒,從真正參與基金比上看我覺得應(yīng)該不會到百分之九十。但是有另一個數(shù)據(jù),就是現(xiàn)在用機器來管理財富的比例在提升,那么從長遠來看,你覺得將來會不會變成買股票的不是個人也不是基金經(jīng)理,都是機器在做這些事情?
漆遠:首先我想澄清一點,就是螞蟻金服我們自己不做高頻交易,剛才我講過,其實它的目標(biāo)是在做普惠金融,服務(wù)的是80%的普通的人。就是如果你特別有錢,你可以去找私有銀行搞定,我們是去服務(wù)普羅大眾的,包括小微企業(yè),做200萬以下貸款。特別高的貸款可以由大的國家銀行來貸。這里面我們認為有非常大的社會需求,而需求背后,我相信如果技術(shù)能做到,技術(shù)一定會慢慢進行填補。我不能預(yù)測未來會變成什么樣,但我個人相信這就是大勢所趨,不管是交易還是理財,都會往這個方向走。美國其實已經(jīng)有很好的例子了,一些技術(shù)公司轉(zhuǎn)型開始做財務(wù)管理。大方向是在往技術(shù)方面走。
雷鳴:我知道理財現(xiàn)在很多基本就是根據(jù)人回答問卷做自動配置。
漆遠:不光自動配置,一方面是了解需求,一方面是要理解市場本身,要進行對風(fēng)險的理解,在控制風(fēng)險的情況下,怎么把這個資產(chǎn)的回報進行增大話,但是不同的人也要理解他的需求,兩方面結(jié)合,兩方面都很重要。
雷鳴:這方面現(xiàn)在是不是美國很多比較領(lǐng)先的財富管理公司,包括一些傳統(tǒng)的公司也在慢慢地接受這些東西,在往上轉(zhuǎn),這樣的話,創(chuàng)業(yè)公司的空間還大嗎?
漆遠:非常好的問題。剛才也有個同學(xué)問類似的問題,創(chuàng)業(yè)公司的路在哪里? 其實美國有些計算機創(chuàng)業(yè)公司,IT公司也受到挑戰(zhàn),但今天他們并沒有完蛋,他們還在往前走。傳統(tǒng)的金融公司如果掉頭做,也是完全可以做到的。所以就要想,我能夠做什么跟他們不一樣的,或者我能做什么讓他會感興趣,產(chǎn)生互補性的。我覺得應(yīng)該從不同的角度來看這個問題。我現(xiàn)在在讀一本書叫《從0到1》,我覺得很有幫助,就是說做一個企業(yè)一定要想解決問題,做和別人不一樣的問題,如果你做的都是跟別人一模一樣,或者別人掉頭就能做的問題,那你這個策略要開始再思考。
雷鳴:下一個問題我就是想探討關(guān)于創(chuàng)業(yè)公司和現(xiàn)在已經(jīng)成型的這些大企業(yè)之間的關(guān)系。目前對互聯(lián)網(wǎng)金融,智能金融感興趣的創(chuàng)業(yè)公司還是很多的,比如剛才漆遠老師講的智能客服,再比如征信,貸款分析,自動交易等。其實每一塊我們剛往前看的時候,都有很大的機會,人工智能在深刻地改變各行各業(yè)。但機會到底是誰的?金融領(lǐng)域比較特殊,特殊在于剛才漆遠老師講了很多次的數(shù)據(jù)問題。金融很多時候需要一個大數(shù)據(jù),多一個維度的數(shù)據(jù),可能就會能得到更多的特征,有更多特征,就可以把這個東西做得更準(zhǔn)確。像螞蟻金服的金礦,這么多商家的交易記錄不對外開放,那么比如做中小企業(yè)貸款系統(tǒng)就很難跟它競爭。我個人覺得在智能創(chuàng)業(yè)過程中,需要找到一個比較好的切入點,要真正提供價值。另外一方面,想要提供價值,還得有數(shù)據(jù),模型也不是編出來的。
漆遠:價值我覺得跟場景相關(guān),如果你做了一個APP,我們沒有做,這個APP本身能收集新的數(shù)據(jù),這就是新的數(shù)據(jù)產(chǎn)生了。場景和數(shù)據(jù)是密不可分,先做個場景,問題出發(fā),然后做個場景,再解決問題,很難說撇開了場景和問題,單獨談數(shù)據(jù)。淘寶天貓的數(shù)據(jù)也是我們當(dāng)年說的——沒有天下沒有難做的生意——為了這個目標(biāo)去解決這個問題,后來自動產(chǎn)生了很多數(shù)據(jù)。另外,天貓?zhí)詫毎⒗锵涤泻芏鄶?shù)據(jù),但是跟真正外面的數(shù)據(jù)相比還只是大海里的一滴水。
雷鳴:你們每家都會這么講,谷歌說我們公司絕對沒有壟斷,在廣告市場只占比百分之幾……
漆遠: 我跟你講,這件事就看你怎么看。如果往下走,我們的方向非常簡單,就是開放開放再開放,就是希望跟更多的人合作,包括我今天來北大和一些老師談合作,希望更多的合作來產(chǎn)生更大的效應(yīng)。我不一定非要擁有這個數(shù)據(jù)才能做這個產(chǎn)品,大家應(yīng)該一起來往前走。
雷鳴:對于小公司來說,剛才其實講的挺好,也就是說,你可以自己產(chǎn)生數(shù)據(jù)。
漆遠:希望再做一個淘寶的人是可笑的。再造一個谷歌公司,這種想法也是非??尚Φ?,但是你可以做其他的方向。我自己也看和AI相關(guān)的公司,我看過很多公司。舉谷歌為例,當(dāng)時谷歌自己做知識圖譜,也是先買了一個小公司,大公司不是什么都要自己做啊。
雷鳴:所以漆老師已經(jīng)指出了另外一個方向,把技術(shù)做好了,也有被收購的價值。(笑聲)謝謝,徐小平老師來了也講,其實我們看到現(xiàn)在創(chuàng)業(yè)和VC這個交互市場還是越來越活躍,因為中國最近5年,從整個VC的這個資金池的總額,到投資人,包括天使投資的數(shù)量都在急劇增長,然后被投資企業(yè)也在進行公關(guān),所以我覺得確實,中國現(xiàn)在整個還在所謂創(chuàng)業(yè)的窗口上。因為資金量很大,但是失敗的溫度也是蠻高的。另外,好的項目,說實話,由于余凱和我們都是老朋友,余凱在創(chuàng)業(yè)的時候,你們看看余凱的股東列表,我覺得至少后面有6家VCR。如果你真的有好項目的話,VC恨不得把你給10萬塊兒瓜分掉。那么說到底人工智能對他們投資有沒有什么幫助呢?也有人在想,能不能通過大量的數(shù)據(jù)學(xué)習(xí)分析之后,做一個所謂的VC機器人?然后,你把一份商業(yè)計劃書交給他,他就會告訴你,這公司值不值得投,該投多少錢等等。
漆遠:下面的觀點謹代表個人觀點,這個問題太開放了。嗯,這個問題,我覺得是比較懸的。原因很簡單,我們看公司的時候一直看我剛才講的,解決什么問題,有什么技術(shù),但另外我剛才沒有講的是,我們還看是誰,看這個人,而這個東西就很難,今天機器還沒有到這個能力,能夠很好的判斷一個人的性格。我看公司,就是看我是不是能真的欣賞這個公司欣賞這個人。這個人可能非常好,有可能就是我們不投脾氣。有可能將來我的投后管理也特別痛苦,就像手里抓著炸藥,我也挺難受的。投資是為了他的發(fā)展,對吧?就是為了掙錢。有的投資呢?還希望是看誰投了。有的投資,我們叫做戰(zhàn)略性投資,有很多創(chuàng)業(yè)公司非常需要戰(zhàn)略性投資,因為能夠幫助他發(fā)展,而且戰(zhàn)略性投資理念往往會看這個創(chuàng)始人本身,而這些人的特質(zhì),我覺得今天機器還是比較難搞懂的。
雷鳴:嗯,確實是這樣。我記得徐小平老師說過,我們就是投人呢。如果我們看電影好,我們就投他,從這個理論來說,可能就有點慘了。因為他認為這個人好的話,這個公司不行了,他可能再起一個新的,他可以調(diào)整。從這個角度來說,機器分析一開始可能就不太好?,F(xiàn)在我有幾個朋友,其實在這個方向在做一些創(chuàng)業(yè)的工作,包括有家公司的CEO,可能明天上午我和他會打電話探討一下,因為他們有很多的數(shù)據(jù)啊,有些數(shù)據(jù)庫,有各種各樣的東西,那么到底能不能分析出一些有意思的點來,包括各種公司的融資資料,他們做在什么事,創(chuàng)始人背景等等。嗯,我覺得剛才漆遠老師講的這點特別好,一個人是很難用人工智能來分析的,包括人的表情。
漆遠:是的,表情怎么分析,今天都沒有達到一個工業(yè)界能夠?qū)嵱玫某潭?,再回到剛才講的數(shù)據(jù),假如真有這個數(shù)據(jù),我要說我既不知道一定行,也不確定一定不行。
雷鳴:人工智能相關(guān)技術(shù)運用到實際上,最近對社會有什么影響和發(fā)展?就是說,在金融領(lǐng)域中,你覺得未來5年在哪些地方人工智能會推進的比較快一些,能有比較大的突破?這個突破,我們指的不是理論上,是說我們老百姓能感覺得到的。
漆遠:這種事一般我都不干,因為未來很難預(yù)測。但是我覺得我們現(xiàn)在講創(chuàng)造未來,對吧?我們把它做出來。我覺得我們正在做的幾個方向,都比較靠譜。我覺得跟數(shù)據(jù)強相關(guān)的方向上,人工智能會比較容易發(fā)揮威力,比如說在保險行業(yè),比如說在理財上,如果是在一級市場我覺得就比較難,因為人的因素太多,如果是和數(shù)據(jù)相關(guān)的,我覺得越容易使這個機器學(xué)習(xí)人工智能發(fā)揮能力。比如說有些數(shù)據(jù)是已經(jīng)結(jié)構(gòu)化的,很容易用。有些數(shù)據(jù)是非結(jié)構(gòu)化的,其實還有有很多可以利用的非結(jié)構(gòu)化數(shù)據(jù)。其實處理很多非結(jié)構(gòu)化數(shù)據(jù),應(yīng)該有很多的應(yīng)用。在商業(yè)上,我覺得從保險理財?shù)轿①J,都是非常好的應(yīng)用。
金融這個領(lǐng)域的話,人工智能最近會有比較多的一個應(yīng)用啊,突破不好說,但是呢,確實能夠大幅度的提升以前的工作效率
雷鳴:從學(xué)術(shù)界進入到產(chǎn)業(yè)界,你覺得職業(yè)上最大的挑戰(zhàn)來源于哪里,如何去應(yīng)對這種挑戰(zhàn)?
漆遠:其實是兩重轉(zhuǎn)變。一個是從學(xué)術(shù)界到工業(yè)界,還有一個是從美國到中國,其實我過去十幾年都在美國,我剛回國不到3年。我覺得最大的挑戰(zhàn)其實不在技術(shù),我講實話。其實我一個技術(shù),真正的落地是個系統(tǒng)工程,系統(tǒng)工程是什么意思?是說產(chǎn)品的構(gòu)建需要好幾方的力量,大家真正凝成一股繩,真正地落地合作。你要做最新的技術(shù),最新的IDEA,那是奇思異想;而做工程,做公司,你要知道什么叫創(chuàng)造價值解決問題。這個時候你需要一個更體系化的思考。我覺得這是一個最大的區(qū)別和挑戰(zhàn),你怎么能夠讓大家真正的和你齊心合力,你能夠聽到大家的聲音,也能讓大家聽到你的聲音,一起往前走?我覺得不管是創(chuàng)業(yè)公司還是大公司,這都是非常重要的一個問題。你能夠讓大家理解到這件事的價值,你能夠讓大家理解,能夠讓大家擰成一條繩子一起往前走,這里面需要你自己的能力,也需要你團隊的能力。
視頻回放鏈接:http://www.iqiyi.com/l_19rrfk4wof.html
聯(lián)系客服