1. “人工智能(AI)的寒冬不會再來”
當(dāng)前AI的熱潮已經(jīng)達(dá)到了前所未有的程度,盡管有一些被媒體夸大的成分,但我們還是不得不承認(rèn)它所帶來的價值。 回顧AI的發(fā)展歷程,曾經(jīng)出現(xiàn)過兩次AI的寒冬,都是在一股大熱潮之后涌現(xiàn)出來的。對此,不少人可能會擔(dān)心下一個寒冬的來臨。但可以很樂觀地說,或許下一個寒冬根本就不存在。如果仔細(xì)回顧這段歷程,我們可以觀察到當(dāng)前的熱潮和歷史當(dāng)中的熱潮是有本質(zhì)性的區(qū)別的,就是AI真正開始跟產(chǎn)品深度結(jié)合了起來。百度的Andrew Ng在MIT Technology Review上也提到了這一點 [1]。
2. 為什么說自然語言處理技術(shù)對證券行業(yè)尤為重要?
證券行業(yè)充滿著博弈,任何的投資決策都需要經(jīng)過大量的信息搜集和處理過程。對于量化建模來說,我們需要的是各種結(jié)構(gòu)化的信號,一部分可能來自于量價信息,另一部分則可能來自于技術(shù)面或者基本面;對于主觀分析來說,為了了解一個公司或者行業(yè),分析師可能需要搜集和查閱各種相關(guān)研報、新聞、公告、基本面等數(shù)據(jù),隨后通過一系列的方法論來找出數(shù)據(jù)間的相關(guān)性,最后對未來趨勢做預(yù)測。
1、在大數(shù)據(jù)時代,我們所面臨的數(shù)據(jù)量是幾乎以指數(shù)增長的。其中,絕大部分屬于非結(jié)構(gòu)化信息,比如文本、圖片、音頻、視頻等。包含大量文本數(shù)據(jù)的新聞、股吧、論壇、微博其實跟投資決策都有一定的關(guān)系,但現(xiàn)階段并沒有很好地被利用,甚至被忽略,主要是源于技術(shù)的壁壘和領(lǐng)域的新穎性。在未來的幾年內(nèi),隨著移動互聯(lián)網(wǎng)的持續(xù)發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)仍然會以驚人的速度增加。
2、目前的量化建模主要依賴于結(jié)構(gòu)化數(shù)據(jù)。在這基礎(chǔ)上,當(dāng)我們把非結(jié)構(gòu)化文本轉(zhuǎn)換成結(jié)構(gòu)化信號之后,就可以用來豐富模型的輸入從而提升效果。在這方面,美國的量化走在我們的前面,他們早已開始使用自然語言的數(shù)據(jù)來提升量化模型的準(zhǔn)確率,代表性的公司包括two sigma, Sentient technology等。
3、一個分析師可能需要耗費大量的時間去搜集和查閱資料(包括新聞、研報等),從而找到一些信息之間的相關(guān)性,但整個過程需要大量的人力成本。事實上,其中的很多流程都可以被機(jī)器替代,比如運(yùn)用自然語言處理技術(shù)讓機(jī)器對原始信息做抽取和分類、做結(jié)構(gòu)化處理、并基于歷史數(shù)據(jù)做相關(guān)性驗證和邏輯推理等。代表性的公司有Kensho, Ravenpack等
4、對于投資這種極其專業(yè)化的領(lǐng)域,一個分析師能考慮到的邊界畢竟是有限的,大多數(shù)情況下他們只專注于自己熟悉的行業(yè)或領(lǐng)域。相反,AI技術(shù)可以無限地延伸知識的邊界,能夠提供更全面的信息和行業(yè)全貌。
2.1 自然語言處理的進(jìn)展、垂直領(lǐng)域中的應(yīng)用
近年來AI技術(shù)在兩大問題上取得了突破性的進(jìn)展,分別是圖像識別和語音識別,而且很多學(xué)者們預(yù)言下一個被顛覆的領(lǐng)域很可能是自然語言處理。比如當(dāng)我們使用Google翻譯的時候,就會發(fā)現(xiàn)這個系統(tǒng)正在變得越來越精準(zhǔn)。另外,在輿情分析、主題識別、文本分類、搜索、信息抽取、數(shù)據(jù)融合、聊天交互、智能問答等領(lǐng)域上也取得了很大的進(jìn)展。但值得警惕的是,現(xiàn)階段的技術(shù)很難支撐一個通用化的商業(yè)應(yīng)用。這就要求我們需要提前定義清楚問題的邊界,最好可以在一個細(xì)分的垂直領(lǐng)域里深挖下去。
3. 談?wù)勔恍?yīng)用場景
假設(shè)我們通過各方面搜集到的數(shù)據(jù)去評估一只股票/公司的價值,這個過程其實非常類似于我們對一個人構(gòu)建人物畫像。舉個例子,為了分析一個人的借貸風(fēng)險,我們首先需要搜集各方面的數(shù)據(jù)比如行為數(shù)據(jù)、交易數(shù)據(jù)、GIS數(shù)據(jù)、社交數(shù)據(jù)...,其次通過這些數(shù)據(jù)去還原這個人全方位的畫像,或者通過建模來預(yù)測其風(fēng)險指數(shù)。對于股票,也是類似的過程:通過對股票行情、新聞資訊、公告研報等數(shù)據(jù)的搜集和整理,我們可以多維度地從基本面、技術(shù)面、資金面以及,輿情影響、事件驅(qū)動等方面去刻畫這支股票的畫像。
在證券領(lǐng)域里,存在大量的非結(jié)構(gòu)化數(shù)據(jù),包括這里所提到的社交數(shù)據(jù)、股吧、論壇數(shù)據(jù)和新聞數(shù)據(jù)。雖然它潛在的價值巨大,但現(xiàn)階段并沒有被很好地挖掘。這好比在風(fēng)控領(lǐng)域,直到幾年前風(fēng)控模型還是主要依賴于信用數(shù)據(jù)來做的,當(dāng)時也并沒有考慮到所謂的非結(jié)構(gòu)化數(shù)據(jù)。但從現(xiàn)在的趨勢來看,越來越多的互聯(lián)網(wǎng)金融公司逐漸把行為數(shù)據(jù)、社交數(shù)據(jù)、交易數(shù)據(jù),甚至關(guān)系網(wǎng)絡(luò)也帶進(jìn)了其風(fēng)控模型。其中的道理是顯而易見的:只有這些日常生活中的真實的數(shù)據(jù),才能足以還原一個真實的人。
3.1 大數(shù)據(jù)熱點 - 實時捕捉全行業(yè)的動態(tài)
3.2 輿情分析 - 實時捕捉全網(wǎng)股民和專業(yè)機(jī)構(gòu)的態(tài)度
3.3 事件的影響 - 通過語義技術(shù)實時分析出事件對股票、行業(yè)的影響
第二、為了判斷事件的影響,我們需要去挖掘歷史數(shù)據(jù),找出類似的事件并從中學(xué)出一些有價值的模式(pattern)。這里有很多的挑戰(zhàn),比如怎么去處理稀疏事件?怎么去比較事件相似度?怎么去量化因果關(guān)系?怎么去排除環(huán)境中的干擾因素?怎么去設(shè)計模型使得不容易過擬合?此外,這對系統(tǒng)實時性的要求也非常高。在這類問題上,美國的kensho是最具有代表性的公司。
3.4 相關(guān)性分析 - 搭建包含各類金融實體的大規(guī)模金融知識圖譜
在這類總結(jié)性的問題上,機(jī)器會比人做得更加優(yōu)秀。兩個主要原因:1. 海量的信息處理能力機(jī)器要遠(yuǎn)優(yōu)于人;2. 機(jī)器能考慮到的邊界是無限的,但相反,一個分析師一般只會去關(guān)注某一個細(xì)分投資領(lǐng)域。搭建此類的知識圖譜是一個很復(fù)雜的過程,從信息的獲取、關(guān)鍵信息的抽取、標(biāo)簽化、關(guān)聯(lián)分析到推理,每一個環(huán)節(jié)都具有不同程度的挑戰(zhàn)性。但是如果有了這類的圖譜,我們就可以回答解釋很多有趣的問題
3.5 預(yù)測模型 - 結(jié)合深度和廣度的信息
對于一個預(yù)測模型來說,其核心的難點往往不在于算法本身,而是在于數(shù)據(jù)的理解和怎么從這些海量的異構(gòu)(heterogenous)數(shù)據(jù)中提取出有價值的信息并把這些信息融合在一起從而獲得更有效的模型。在股票的預(yù)測模型里,基本面、消息面、技術(shù)面、資金面其實都可以成為一種可衡量的指標(biāo)集合,如果融合在一起使用,則很有可能提升預(yù)測的準(zhǔn)確率。如前面所提到的一樣,其中消息面的很多分析需要依賴于自然語言處理技術(shù)。
隨著這波大數(shù)據(jù)時代的到來,證券行業(yè)的建模理念也可能從單一化的模式逐漸轉(zhuǎn)變成信息的廣度和深度融合的模式。在這種情況下,建模所面臨的有效信息量會隨著指數(shù)級上升,而且深度學(xué)習(xí)將會發(fā)揮其強(qiáng)大的作用。
3.6 智能機(jī)器人 - 服務(wù)于大批未被專業(yè)機(jī)構(gòu)覆蓋的人群
機(jī)器人投顧類似于聊天機(jī)器人,但又不同于我們常說的siri。 最大的區(qū)別在于,這是一個很垂直領(lǐng)域的應(yīng)用,并且有非常明確的目標(biāo)-就是要幫助用戶解決跟證券相關(guān)的疑惑或者投資者教育。目前在這個散戶為主的證券市場里,專業(yè)機(jī)構(gòu)(比如券商)的服務(wù)還是遠(yuǎn)遠(yuǎn)覆蓋不到每一位需要服務(wù)的客戶。更多的股票需要更細(xì)致專一的服務(wù),應(yīng)用AI技術(shù)的智能機(jī)器人,可以更好地記住每個散戶的個性化的用戶需求,從而提供個性化的股票知識教育、資訊推薦,甚至基于用戶個人的風(fēng)險喜好,推薦理財策略。
AI對證券行業(yè)的影響必將是深遠(yuǎn)的,在可預(yù)見的將來它會逐漸取代人的工作,而且在某些領(lǐng)域甚至?xí)^一流的分析師或者投資經(jīng)理。對海量的非結(jié)構(gòu)化數(shù)據(jù)的處理以及在證券行業(yè)的應(yīng)用仍處于一個比較初級的階段,但隨著技術(shù)的發(fā)展、人才的投入和數(shù)據(jù)的持續(xù)增加,我們可以期待這個行業(yè)慢慢被AI顛覆。 最后感謝Mars對本文提出的寶貴的修改建議。
參考:
[1] https://www.technologyreview.com/s/603062/ai-winter-isnt-coming/
[2] Nadler, D., & Schmidt, A. B. (2015). Market Impact of Macroeconomic Announcements: Do Surprises Matter.
本文作者: 李文哲,凡普金科&會牛科技的首席數(shù)據(jù)科學(xué)家、人工智能領(lǐng)域?qū)<?、將知識圖譜理論應(yīng)用于風(fēng)控的首創(chuàng)者。美國南加州大學(xué)博士,發(fā)表過10多篇頂會論文,其中兩篇拿到最佳論文獎。
聯(lián)系客服