//
最新的實(shí)驗(yàn)表明,人工智能選出的股票組合漲幅約為2%,基本與大盤持平,離所謂的“AI索羅斯”相去甚遠(yuǎn)。
自從ChatGPT問世后,人類就想到了用它來分析預(yù)測(cè)各種走勢(shì)。
天氣、流行病、股價(jià)走勢(shì),都在被給予厚望的清單里……
上月,一個(gè)名為The GPT Portfolio的賬號(hào)在推特迅速走紅。該賬號(hào)此前宣布,將借助ChatGPT進(jìn)行實(shí)盤投資。
根據(jù)他們的研究,ChatGPT 不僅能夠預(yù)測(cè)股市價(jià)格走勢(shì),還能產(chǎn)生超過 500% 的回報(bào)!
而在5月26日,摩根大通也宣布正在研發(fā)名為“IndexGPT”的金融服務(wù)工具,利用云計(jì)算和人工智能進(jìn)行證券的分析和選擇,為客戶提供智能化和個(gè)性化的投資建議。
一時(shí)間,似乎所有人都嗅到了GPT所散發(fā)出的財(cái)富的味道……
那么,AI+金融的組合,真有那么強(qiáng)大么?
今天,讓我們不妨先將目光聚焦回國(guó)內(nèi),分析度小滿最近發(fā)布的金融大模型——軒轅,看看是否能在該大模型身上,找到這些問題的答案。
1
數(shù)據(jù)越大越好?
上月月底,度小滿正式發(fā)布基于BLOOM-176B研發(fā)的軒轅大模型,是一個(gè)通用+金融領(lǐng)域的千億級(jí)參數(shù)大模型。其數(shù)據(jù)集不但包含了各種通用內(nèi)容,還包含了諸如金融研報(bào)、股票、基金、銀行、保險(xiǎn)等方向的專業(yè)知識(shí)。
在金融場(chǎng)景中的任務(wù)評(píng)測(cè)中,效果相較于通用大模型大幅提升,表現(xiàn)出金融領(lǐng)域的獨(dú)特優(yōu)勢(shì)。
在這里,我們就試著從金融數(shù)據(jù)、金融新聞理解、市場(chǎng)輿情分析這三個(gè)方面,對(duì)軒轅大模型在金融領(lǐng)域的表現(xiàn),進(jìn)行一番剖析。
首先來看金融數(shù)據(jù)方面。
眾所周知,對(duì)于垂直領(lǐng)域來說,大模型所具有的專業(yè)數(shù)據(jù)越多、質(zhì)量越高,其模型表現(xiàn)就越好。
那么在這方面,軒轅是否積累了足夠的金融數(shù)據(jù)呢?
一個(gè)不可否認(rèn)的事實(shí)是:盡管百度這些年一直在盡力在金融領(lǐng)域布局,其麾下的度小滿涵蓋了消費(fèi)金融、支付、互聯(lián)網(wǎng)理財(cái)、互聯(lián)網(wǎng)保險(xiǎn)、互聯(lián)網(wǎng)證券等多個(gè)板塊,但從體量上來說,其掌握的金融數(shù)據(jù),仍舊很難以與國(guó)內(nèi)的一些龐大的金融集團(tuán),例如中投相比。
中投在國(guó)內(nèi)控參股10多家金融機(jī)構(gòu),掌控萬億資產(chǎn),其投資和涉及的行業(yè)包括了信息科技、金融、彈性消費(fèi)品、醫(yī)療健康等領(lǐng)域,其中信息科技占比最高,為22.76%。此外,在工業(yè)、通訊服務(wù)、非彈性消費(fèi)品、原材料等領(lǐng)域也有一定分布。
而相較之下,度小滿的金融服務(wù),則更多地集中于互聯(lián)網(wǎng)金融領(lǐng)域。
既然沒有數(shù)據(jù)方面的絕對(duì)優(yōu)勢(shì),度小滿又怎么有信心問鼎國(guó)內(nèi)首個(gè)金融大模型呢?
原因就在于,在垂直領(lǐng)域,專有數(shù)據(jù)的運(yùn)用,其實(shí)遠(yuǎn)比追求“絕對(duì)數(shù)據(jù)”的優(yōu)勢(shì)要重要。
ARK(方舟基金)創(chuàng)投聯(lián)合負(fù)責(zé)人及分析師Will Summerlin在談到這點(diǎn)時(shí),曾說到:“對(duì)于想抓住這次AI革命的公司來說,運(yùn)用好自身的專有數(shù)據(jù)集,能讓他們快速針對(duì)自己的領(lǐng)域來訓(xùn)練或微調(diào)模型?!?/span>
在此前百度搭建的金融生態(tài)中,出現(xiàn)了面向大眾的消費(fèi)信貸服務(wù)品牌---有錢花、理財(cái)平臺(tái)--度小滿理財(cái),以及支付平臺(tái)——度小滿錢包。
這些APP中積累的信息,構(gòu)成了百度用來訓(xùn)練或調(diào)整模型的大量數(shù)據(jù),基于這些數(shù)據(jù),百度可以形成一套自身專有的反饋循環(huán)系統(tǒng),進(jìn)而逐漸形成對(duì)產(chǎn)品的洞察力。從而使其能不斷針對(duì)客戶數(shù)據(jù)優(yōu)化模型,讓模型隨著時(shí)間推移越來越好。
更重要的是,除了擁有數(shù)據(jù)之外,將數(shù)據(jù)與AI相結(jié)合的能力,也是構(gòu)建金融大模型不可或缺的一步。
早在2018年,創(chuàng)立之初,度小滿就看到了“NLP+金融”的潛力,開始進(jìn)行相應(yīng)的產(chǎn)業(yè)布局。
而當(dāng)時(shí)不僅全世界專注做NLP公司很少,成立專門的金融科技NLP團(tuán)隊(duì)的更是鮮見。
經(jīng)過數(shù)年的鉆研,2021年,在微軟舉辦的MS MARCO 比賽中的文檔排序Document Ranking(文檔排序)任務(wù)中,度小滿的AI-NLP團(tuán)隊(duì)排名第一并刷新紀(jì)錄。
2022年,軒轅 (XuanYuan) 預(yù)訓(xùn)練模型,也在中文語言理解領(lǐng)域最具權(quán)威性的測(cè)評(píng)基準(zhǔn)之一CLUE分類任務(wù)中排名第一。
于是,放眼國(guó)內(nèi),在金融領(lǐng)域擁有龐大數(shù)據(jù)的,在NLP上卻比不過度小滿;而在NPL上有所建樹的,卻又很少能搭建出度小滿那樣專有的金融生態(tài)。
如此一來,軒轅便確立了自身在“金融大模型”這一生態(tài)位中的獨(dú)特優(yōu)勢(shì)。
2
AI“索羅斯”?
很多投資者,都希望借助大模型的能力,來分析金融時(shí)事背后的原因。
畢竟,索羅斯這樣的金融大鱷,90年代正是憑借對(duì)歐洲輿情、時(shí)局的準(zhǔn)確判斷,做出了做空英鎊,做多馬克的決定,并一舉戰(zhàn)勝了英格蘭銀行。
而這種閱讀并理解時(shí)事,乃至解讀市場(chǎng)輿情的能力,則主要是由大模型的自然語言處理能力(NLP)決定的。因?yàn)闀r(shí)事解讀,輿情分析的主要任務(wù),是對(duì)大量的文本數(shù)據(jù)進(jìn)行語義分析和情感分析。
在NPL方面,軒轅大模型的一個(gè)最大特點(diǎn),就是“化大為小”,“化通為?!?。
具體來說,軒轅通過將開放領(lǐng)域?qū)W到的知識(shí)遷移到下游任務(wù),不僅改善了低資源任務(wù)數(shù)據(jù)相對(duì)不足的問題,也提高了自身的泛化能力和魯棒性。從而更好地適應(yīng)不同領(lǐng)域和場(chǎng)景的閱讀和分析需求。
然而,這種用大量通用數(shù)據(jù)預(yù)訓(xùn)練一個(gè)基礎(chǔ)模型,再用特定任務(wù)數(shù)據(jù)微調(diào)一個(gè)下游模型的做法,以往存在兩個(gè)缺點(diǎn):
一是預(yù)訓(xùn)練和微調(diào)的數(shù)據(jù)可能存在不一致或不匹配的問題,導(dǎo)致模型難以適應(yīng)新任務(wù);
二是微調(diào)的數(shù)據(jù)可能存在不足或不平衡的問題,導(dǎo)致模型難以學(xué)習(xí)到有效的特征。
對(duì)此,軒轅大模型在引入金融任務(wù)數(shù)據(jù)訓(xùn)練的同時(shí),還融合了不同粒度不同層級(jí)的交互信息,從而改進(jìn)了傳統(tǒng)訓(xùn)練模式。
具體來說,軒轅采用了多階段的訓(xùn)練策略,先從通用大規(guī)模的數(shù)據(jù)逐漸遷移到小規(guī)模的特定業(yè)務(wù)以及特定任務(wù),然后通過不同的階段逐漸訓(xùn)練,直到滿足目標(biāo)任務(wù)。
這樣可以緩解預(yù)訓(xùn)練和微調(diào)之間的數(shù)據(jù)不一致或不匹配的問題,提高模型的遷移能力和泛化能力。
同時(shí),在預(yù)訓(xùn)練階段,軒轅還使用了多種自監(jiān)督學(xué)習(xí)任務(wù),如掩碼語言模型、語句順序預(yù)測(cè)、語句內(nèi)部結(jié)構(gòu)預(yù)測(cè),這樣可以從不同角度和層次學(xué)習(xí)語言知識(shí)和語義信息,提高模型的表達(dá)能力和理解能力。
基于這樣的能力,我們也不難理解,為何軒轅大模型曾在2022年,在中文語言理解領(lǐng)域的CLUE分類任務(wù)中排名第一。并且距離人類“表現(xiàn)”僅差3.38分。
實(shí)際上,金融行業(yè)因其與數(shù)據(jù)的高度相關(guān)性,成為了NLP最早賦能的行業(yè)之一。
通過NLP,人們可以在證券投資中為量化投資貢獻(xiàn)因子,如熱點(diǎn)挖掘、輿情分析、事件驅(qū)動(dòng)分析,或是在大數(shù)據(jù)風(fēng)控中,用Tag抽取技術(shù)為構(gòu)建用戶畫像提供技術(shù)支持。
3
AI+投資,神話or噱頭?
人工智能選出的股票組合漲幅約為2%,基本與大盤持平,且按百分比計(jì)算,該組合中后五名股票的下跌幅度超過了前五名的漲幅。
針對(duì)這種情況,有文章分析稱,這是因?yàn)锳utopilot實(shí)驗(yàn)項(xiàng)目中的投資組合,是命令ChatGPT分析1萬條以上的新聞,并得到得分最高的前100只股票,再結(jié)合公司財(cái)報(bào)數(shù)據(jù)得到綜合打分,最終買入的前20只股票。
在失去空頭部分收益的情況下,實(shí)際的投資表現(xiàn)自然會(huì)與論文中的回測(cè)結(jié)果產(chǎn)生較大差異。
等一下,不是說AI已經(jīng)可以通過NLP,準(zhǔn)確地識(shí)別并分析金融事件、市場(chǎng)輿情了嗎?那為什么在結(jié)合了1萬條以上的新聞+公司財(cái)報(bào)的情況下,“AI分析師”的表現(xiàn)仍然不佳呢?
可能的原因之一,就在于AI也許很客觀,但人類卻不總是如此。
在人類構(gòu)筑的媒體世界里,雖然各類的網(wǎng)站、平臺(tái)或社交媒體數(shù)不勝數(shù),但在信息的傳播過程中,大部分普通人,卻往往會(huì)受到少數(shù)幾家頭部權(quán)威媒體的影響。
這些權(quán)威媒體、人士的傾向和態(tài)度,帶動(dòng)并影響了更多的網(wǎng)站、平臺(tái)。
于是在處理某些類型的金融產(chǎn)品或市場(chǎng)時(shí),大模型的數(shù)據(jù)源,可能會(huì)更偏向某些特定的網(wǎng)站或平臺(tái),而忽略了其他來源的信息,進(jìn)而產(chǎn)生了“數(shù)據(jù)偏見”。
此外,在處理自然語言時(shí),大模型可能會(huì)遇到一些語義歧義的情況,如果某些詞匯有多種含義,AI在處理時(shí)可能會(huì)選擇錯(cuò)誤的含義,導(dǎo)致信息的偏差和誤導(dǎo)。
這些部分,都是現(xiàn)階段AI無法獨(dú)自糾偏的。
不過,如果因?yàn)锳I不能讓人實(shí)現(xiàn)夢(mèng)想中的“投資神話”,就認(rèn)為金融大模型的存在,是一種錦上添花的技術(shù),也未免太淺薄了。
因?yàn)樵诳深A(yù)見的未來,傳統(tǒng)風(fēng)控模式面臨效率低下、容易出錯(cuò)、難以面對(duì)大規(guī)模數(shù)據(jù)處理等挑戰(zhàn)。
類似度小滿在內(nèi)的企業(yè),通過大模型技術(shù)探索,讓企業(yè)可以自動(dòng)化地處理大量數(shù)據(jù),快速、精準(zhǔn)、全面地分析和識(shí)別貸款潛在風(fēng)險(xiǎn),進(jìn)而優(yōu)化風(fēng)險(xiǎn)模型,提高風(fēng)險(xiǎn)控制的準(zhǔn)確性和效率。
此外,軒轅大模型不僅能夠解釋授信額度、計(jì)算收益率、決策參考等金融專業(yè)問題,還能夠結(jié)合資產(chǎn)狀況、收益目標(biāo)和風(fēng)險(xiǎn)偏好,以及外部的市場(chǎng)動(dòng)態(tài),給出更符合用戶需求的答案和建議。
由此可見,在拋下了“通過AI投資暴富”的狂想后,金融大模型仍舊可以在風(fēng)險(xiǎn)防范、金融知識(shí)普及方面,讓更多群體受益。
而這種更務(wù)實(shí)的方向,才是AI+金融正確的打開方式。
一封邀請(qǐng)信:
您好!誠(chéng)邀您加入我們的AI精英俱樂部,這是一個(gè)永久免費(fèi)但門檻較高的、聚集AI精英與愛好者的專業(yè)組織。我們致力于推動(dòng)AI技術(shù)在投資領(lǐng)域的應(yīng)用,為成員們提供一個(gè)共享和交流的平臺(tái),促進(jìn)互相學(xué)習(xí)和合作,共同探索AI技術(shù)在投資中的無限可能性。
作為成員,您將有機(jī)會(huì)與世界各地的AI專業(yè)人士互動(dòng),分享您的知識(shí)和經(jīng)驗(yàn),以及從他們那里學(xué)習(xí)到更多的技術(shù)和行業(yè)見解。
我們要求加入俱樂部的成員滿足以下標(biāo)準(zhǔn):
一、樂于分享:我們希望能積極分享自己的知識(shí)和經(jīng)驗(yàn),與俱樂部的其他成員共同成長(zhǎng)和進(jìn)步;
二、有AI技術(shù)背景:我們歡迎在AI領(lǐng)域具有豐富經(jīng)驗(yàn)和專業(yè)知識(shí)的成員,包括但不限于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域的從業(yè)者和研究者;
三、愿意將AI技術(shù)應(yīng)用到投資領(lǐng)域:包括但不限于量化交易、資產(chǎn)管理、風(fēng)險(xiǎn)評(píng)估、市場(chǎng)預(yù)測(cè)等,共同探索AI技術(shù)在投資領(lǐng)域的應(yīng)用前景;
四、擁有獨(dú)特資源:包括但不限于資金、人脈、數(shù)據(jù)資源等,這將有助于俱樂部的技術(shù)和項(xiàng)目合作。
如果您滿足以上標(biāo)準(zhǔn),并且對(duì)AI技術(shù)在投資領(lǐng)域有濃厚興趣,我們誠(chéng)邀您加入。
請(qǐng)將個(gè)人的有特點(diǎn)的介紹及微信號(hào)發(fā)送到changzhang@arfgc.com,審核通過后,我們會(huì)邀請(qǐng)您加入。
聯(lián)系客服