11 月初,一個名為“magi.com”的 AI 搜索引擎出現(xiàn)。如同一顆石子墜入到中文互聯(lián)網(wǎng)世界這片怒??癯?,新的產(chǎn)品或多或少總會有一些存在的反饋。
但現(xiàn)實情況是,基于知識圖譜 自然語言理解技術(shù)的 magi.com 掀起了不小的浪頭:上線第一周,0 投放達(dá)到 100 萬用戶周活;登上國內(nèi)第七大搜索引擎的位置;有網(wǎng)友在體驗之后,甚至期待它將是一款能夠擺脫“搜索引擎原罪”、真正面向 AI 時代的產(chǎn)品,乃至撬動現(xiàn)有的搜索引擎競爭格局。
一個巨大的懸念是,如果有一款搜索引擎未來會替代掉百度,它會是 magi.com 嗎?
帶著這樣的疑問,我們最近拜訪了 Magi 的開發(fā)團(tuán)隊 Peak Labs,從團(tuán)隊兩位核心人物——季逸超、劉欣旸口中得到的信息是,上述所有的浪花和遙遠(yuǎn)的想象,都非常戲劇性地不在團(tuán)隊的規(guī)劃之內(nèi)。
圖丨兩位受訪創(chuàng)始人(來源:Peak Labs)
“開發(fā) magi.com,我們沒想過要干掉百度搜索。百度已經(jīng)占據(jù)了國內(nèi)搜索引擎市場的 75%,形成了自己的護(hù)城河,我們起初并不是為了進(jìn)入到 to C 的市場去與巨頭競爭……
magi.com 一開始不是設(shè)計給吃瓜群眾用的,我們根本沒想到會有這么多人使用……
我們沒有投入這么多資源在 magi.com 上,在公眾發(fā)現(xiàn) magi.com 的當(dāng)天就出現(xiàn)了服務(wù)器壓力預(yù)警,現(xiàn)在每天都有黑客在攻擊我們……這種情況已經(jīng)打亂了團(tuán)隊原有的前進(jìn)節(jié)奏?!痹诓稍L中,身為團(tuán)隊創(chuàng)始人的季逸超道出 Peak Labs 目前面臨的一連串“甜蜜的煩惱”。
圖丨magi.com 似乎也在不經(jīng)意之間學(xué)習(xí)到了互聯(lián)網(wǎng)的幽默感(來源:magi.com)
季逸超曾經(jīng)在高中時期一人設(shè)計并開發(fā)出猛犸瀏覽器,并在之后獲得了 Macworld 2011 的特等獎,在開發(fā)者群體中小有名氣。他于 2012 年創(chuàng)辦 Peak Labs,專注于開發(fā)新形態(tài)互聯(lián)網(wǎng)產(chǎn)品。Peak Labs 曾經(jīng)在成立初期獲得真格、紅杉的投資,團(tuán)隊成員目前的平均年齡不到 27 歲。
首先,如果你還沒有體驗過 magi.com,這里有一個演示案例。
打開 magi.com,在搜索框中輸入“馬斯克”,你將收獲以下返回結(jié)果:
圖丨magi .com 返回的“馬斯克”檢索界面(來源:magi.com)
描述——特斯拉的創(chuàng)始人、特斯拉的靈魂人物、OpenAI的創(chuàng)始人之一、SpaceX的CEO、AI的懷疑者……;
屬性——包括公司成立、家庭成員信息……;
標(biāo)簽——公司、CEO、企業(yè)家……;
近義項——硅谷鋼鐵俠、Twitter、Model E;
不難看出,這四個板塊中的信息對應(yīng)用戶搜索“麻省理工科技評論”可能會出現(xiàn)的一些基本問題。而右側(cè)則為以上信息的“主要學(xué)習(xí)來源”。接下來才是常見的信息鏈接羅列。
紅黃綠三種不同顏色的色塊,則代表此處信息的可靠程度。上述展示中均沒有出現(xiàn)廣告。
在用戶體驗上,它比“經(jīng)典搜索引擎”多做的事情是給出答案,而非列舉鏈接。
而且,magi .com 還有一個自學(xué)習(xí)的過程,當(dāng)用戶停留在首頁超過 5 秒,你就能看到 magi.com 正在從哪個信源中又學(xué)習(xí)到了哪個知識點。
圖丨 Magi 展示的學(xué)習(xí)過程(來源:Magi.com)
據(jù)介紹,這種學(xué)習(xí)過程是在無人干預(yù)的情況下 7 x 24 小時不間斷運行的,實時新聞事件中的知識一般只需要 5 分鐘就會被掌握。隨著可交叉驗證的信息源不斷增加,先前學(xué)習(xí)到的知識的可信度會被重新評估,使結(jié)果中的錯誤被自動糾正。
2019 年,伴隨著互聯(lián)網(wǎng)誕生 50 周年,搜索引擎也在人類世界走過了近 30 年,成為僅次于即時通信的互聯(lián)網(wǎng)第二大應(yīng)用,搜索引擎的全球市場格局進(jìn)入到相對的穩(wěn)定期,但也被詬病商業(yè)化程度過高,magi.com 此時橫空出世,意不在殺入這片江湖,盡管擁有一個搜索引擎的表皮,它為網(wǎng)友們提供了互聯(lián)網(wǎng)數(shù)據(jù)交互的新方式。
magi.com 不被直接感知到的,是它與經(jīng)典搜索引擎最本質(zhì)的不同:不僅收錄互聯(lián)網(wǎng)上的海量文本,還會去嘗試?yán)斫獠W(xué)習(xí)這些文本中蘊含的知識。
Peak Labs 也在一份 Magi 的官方說明中寫到:“知識提取的重要性遠(yuǎn)高于單純地回答問題,主動發(fā)現(xiàn)潛在知識并持續(xù)提煉修正,顯著強于被動地根據(jù)輸入的問題去匹配結(jié)果?!?/p>
這也是 Peak Labs 設(shè)想的企業(yè)版 Magi 系統(tǒng)身為一個收費 AI 的自覺:7 x 24 小時不間斷地從“最臟的互聯(lián)網(wǎng)文本中自主閱讀文本并持續(xù)糾錯”,理解并充分利用互聯(lián)網(wǎng)中無窮無盡的知識完成“通識教育”,先成長為最大的通用知識圖譜,然后帶著最基本的人類世界的“常識”殺入到行業(yè)中,成為行業(yè)知識圖譜服務(wù)成長起來的最底層土壤,進(jìn)而提供定制化的服務(wù)。
用季逸超的話來說,Magi 系統(tǒng)將是“AI 背后的 AI”。
也就是說,被公眾認(rèn)知為 AI 搜索引擎的 magi.com,其實只是 Peak Labs 為 Magi 系統(tǒng)開發(fā)的一個必要組件兼功能展示界面。
圖丨面向公眾的 magi.com 和面向企業(yè)的 Magi 系統(tǒng)作為整個 Magi 項目的一體兩面(來源:Peak Labs)
“我們沒有使用任何開源或外部搜索解決方案,從零開始研發(fā)作為搜索引擎的 magi.com 的原因有二:
一則是希望它作為一個 Demo 展示,為企業(yè)用戶演示我們能力范圍內(nèi)可以利用 NLP 技術(shù)構(gòu)建怎樣的服務(wù)(例如行業(yè)知識圖譜),把企業(yè)用戶提出的天花亂墜的需求盡量合理化;
二則是我們利用 magi.com 通過互聯(lián)網(wǎng)進(jìn)行遠(yuǎn)程監(jiān)督,積累出一個巨大的有標(biāo)注數(shù)據(jù)集并持續(xù)自動優(yōu)化 Magi 的開放信息提取模型,進(jìn)而通過遷移學(xué)習(xí)為各行各業(yè)降低應(yīng)用 NLP 的門檻?!奔疽莩f。
據(jù)介紹,Magi 這一名稱的靈感,一則來自于其“東方智者”的寓意,一則來自日本著名科幻動畫 EVA 中的名為“MAGI System”的超級電腦。
Magi 在最臟的互聯(lián)網(wǎng)世界中自我學(xué)習(xí)并成長為具備有時效性的“跨領(lǐng)域常識”的知識引擎的過程中,還將孵化出自然語言處理領(lǐng)域的類似“ImageNet”的大規(guī)模有標(biāo)注數(shù)據(jù)集。熟悉計算機視覺領(lǐng)域的人都清楚,計算機視覺之所以成為全球范圍內(nèi)最熱門的 AI 應(yīng)用方向,進(jìn)而誕生出這么多獨角獸公司,ImageNet 的存在是起推動作用的必不可少的一環(huán)。
比起“新的 AI 搜索引擎干掉百度”,這條故事線的難度并不見得會更小。
圖丨magi .com 稱 Magi 去除了商業(yè)化的元素遭到創(chuàng)始人否認(rèn) (來源:新浪微博)
對于很多吃瓜群眾來說,magi.com 甫一上線便攪動互聯(lián)網(wǎng)世界一潭春水,也因為在長期被感知智能技術(shù)所支配的 AI 發(fā)展線中,他們第一次有機會得以一窺認(rèn)知智能技術(shù)的神奇所在。
過去數(shù)十年的人工智能浪潮,主要基于深度學(xué)習(xí)的爆發(fā),以語音識別、計算機視覺為代表的感知智能技術(shù),享受“數(shù)據(jù)、算法、算力”三位一體的紅利得到充分發(fā)展,而以自然語言處理、知識圖譜等為代表的認(rèn)知智能技術(shù),目前形成的市場規(guī)模遠(yuǎn)不及前兩者,尤其是相比于已經(jīng)成長為龐然大物的計算機視覺。
(來源:麻省理工科技評論)
以自然語言處理為例,其技術(shù)準(zhǔn)確率遠(yuǎn)遠(yuǎn)沒有達(dá)到計算機視覺和語音識別的水平,相應(yīng)的應(yīng)用產(chǎn)品(比如語音助手)經(jīng)常被人諷刺只能用來調(diào)戲,缺少實際價值。在創(chuàng)業(yè)公司方面,自然語言處理領(lǐng)域也沒有產(chǎn)生像商湯、曠視、依圖、云從這樣的“小巨頭”。有業(yè)內(nèi)人士曾表示,自然語言處理目前的發(fā)展大約落后于計算機視覺 3~5 年左右。
針對自然語言處理技術(shù)的商業(yè)化現(xiàn)狀,該方向的著名學(xué)者、賓夕法尼亞大學(xué)教授 Dan Roth 在接受《麻省理工科技評論》采訪時分析道:“在各種專業(yè)應(yīng)用中,必須要選擇正確的自然語言模型,沒有任何單一模型可以解決自然語言領(lǐng)域中所遇到的所有問題,自然語言處理沒有一個可以解決所有問題的魔術(shù)盒子存在,你必須要把所有相關(guān)的知識庫放進(jìn)盒子里,選擇對的算法,并且針對性的處理特定問題,那么這個盒子最后才有作用”。
這個過程中吊詭的地方還在于,有多少人工才能有多少認(rèn)知智能。
沖在這個建設(shè)大潮中第一線的大量“數(shù)據(jù)標(biāo)注民工”就印證著這一點?,F(xiàn)階段,對于絕大多數(shù)行業(yè)來說,進(jìn)行足夠好的數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注,是搭建供 AI 發(fā)揮價值的“基礎(chǔ)設(shè)施”的關(guān)鍵步驟。曾有業(yè)內(nèi)人士直接斷言,在相當(dāng)長的時間內(nèi),數(shù)據(jù)質(zhì)量決定了 AI 算法在真實場景中提供體驗的天花板。
圖丨基于知識圖譜的認(rèn)知智能(來源:復(fù)旦“知識工場”)
知識圖譜的行業(yè)應(yīng)用也在遵循類似宿命。知識圖譜旨在用圖的形式模擬人的知識,而語言正是人類知識的載體,借助自然語言處理,知識圖譜技術(shù)可以幫助機器擁有真正的知識。但在這之前,重復(fù)性的數(shù)據(jù)標(biāo)注同樣難以避開。尤其在諸如醫(yī)療這樣的高標(biāo)注門檻領(lǐng)域,需要浪費極其寶貴的智力資源——醫(yī)生——投入到大量的重復(fù)性勞作中,才能有之后收獲 AI 降低工作效率的可能。
Peak Labs 團(tuán)隊則認(rèn)為,存在一種從純文本自動構(gòu)建可信知識圖譜的技術(shù)能夠改變這種局面,“我們要給知識圖譜送彈藥”。
因此,區(qū)別于一般 AI 初創(chuàng)公司在成長初期優(yōu)先聚焦特定行業(yè)的思路,2015 年,Peak Labs 啟動開發(fā)了一款“彈藥”生產(chǎn)線——扎根開放領(lǐng)域的互聯(lián)網(wǎng)文本進(jìn)行知識提取的 Magi 項目,并選擇直面規(guī)?;蜏?zhǔn)確度這兩個知識工程中的核心矛盾點。
開放領(lǐng)域的互聯(lián)網(wǎng)文本??吹竭@幾個字,相信一些人的腦海中會出現(xiàn)這樣的認(rèn)知:這里面的信息該多臟啊。
對于這一事關(guān) Magi 最終呈現(xiàn)的準(zhǔn)確度問題,季逸超表示:“我們很難說 Magi 自動構(gòu)建信息的質(zhì)量一定好于人工整理的文本。但是,首先,它的質(zhì)量不差,并且可以量化。
其次,它的信息覆蓋率遠(yuǎn)非人工所及?,F(xiàn)在知識圖譜的準(zhǔn)確度已經(jīng)不是問題,因為知識圖譜更多是基于本來就存在的結(jié)構(gòu)化的內(nèi)容來進(jìn)一步描述實體之間的關(guān)系。知識圖譜現(xiàn)在主要的問題是不太堪用,經(jīng)常出現(xiàn)的一種情形是,它對自己能力范圍之外的只能回答 '對不起不知道',所以我們要做的是,讓知識圖譜原本不知道的這些內(nèi)容也能被收錄,并達(dá)到一個較高的可信度?!?/p>
圖丨誕生于 1994 年第一代真正基于互聯(lián)網(wǎng)的搜索引擎 Lycos(來源:互聯(lián)網(wǎng))
而要實現(xiàn)這樣的效果,擺在整個 Magi 項目面前的是以下 6 個重要技術(shù)挑戰(zhàn):
1、從純文本自動構(gòu)建可信的全領(lǐng)域知識圖譜。此前業(yè)內(nèi)主要依賴于人工編輯的各類數(shù)據(jù)庫或百科等結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)源進(jìn)行整理,以構(gòu)建可信的知識圖譜;
2、構(gòu)造大規(guī)模的帶標(biāo)注的跨領(lǐng)域數(shù)據(jù)集。類似于打造 NLP 領(lǐng)域的“ImageNet”,目前整個 NLP 領(lǐng)域都沒有一個可以達(dá)到類似 ImageNet 在計算機視覺領(lǐng)域地位的數(shù)據(jù)集;
3、通過互聯(lián)網(wǎng)進(jìn)行終身學(xué)習(xí)持續(xù)優(yōu)化。過去,機器學(xué)習(xí)存在的問題在于,數(shù)據(jù)訓(xùn)練模型往往是靜態(tài)的,針對模型缺陷的每一次反饋和調(diào)整都需要手動介入;另一方面,很多信息是實時更新的:以一款新發(fā)布的手機為例,發(fā)布會信息出來之后,通過抓取文本,產(chǎn)品的價格屬性很快就能得到更新,如果是百度百科之類還需要等待人工進(jìn)行編輯;
4、獲取常識并結(jié)構(gòu)化。現(xiàn)實中,越基礎(chǔ)的知識越缺乏結(jié)構(gòu)化的整理,Magi 則通過理解大量的純文本中的信息去掌握這些未被系統(tǒng)整理過的知識;
5、多任務(wù)遷移學(xué)習(xí)和跨領(lǐng)域遷移學(xué)習(xí)。即先通過整個互聯(lián)網(wǎng)文本進(jìn)行寬泛的背景知識學(xué)習(xí),然后遷移到某個具體領(lǐng)域中,為企業(yè)客戶減輕負(fù)擔(dān)。就像遷移能力幫助 CV 產(chǎn)生規(guī)?;纳虡I(yè)價值一樣,NLP 的商業(yè)化進(jìn)程遷移學(xué)習(xí)能力將同樣重要;
6、面向遠(yuǎn)期可解釋 AI 保證知識可溯源。這是為面向未來的人工智能發(fā)展所做的準(zhǔn)備。盡管 Magi 仍然使用了深度學(xué)習(xí)技術(shù),無法避開黑箱問題,但系統(tǒng)學(xué)習(xí)到的信息都留下了可溯源的痕跡。
據(jù)季逸超介紹,其中前兩個方向是目前學(xué)術(shù)領(lǐng)域也在攻堅的問題,同時兼顧這 6 個方向也要求相當(dāng)?shù)墓こ棠芰Α?/p>
在質(zhì)量參差不齊的海量互聯(lián)網(wǎng)文本中,為了提升信息的利用率,Magi 必須盡可能徹底地從每一段質(zhì)量參差不齊且主題各異的文本中提取出全部知識。這也決定一切現(xiàn)有的技術(shù)方案都不可用:這不再是一個清晰的序列標(biāo)注問題,交錯疊加的關(guān)系使得搜索空間爆炸式增長,不受限制的領(lǐng)域還意味著根本沒有可用的訓(xùn)練數(shù)據(jù)。
因此,團(tuán)隊用了近 4 年時間從零設(shè)計研發(fā)了整個技術(shù)堆棧:采用原創(chuàng) succinct 索引結(jié)構(gòu)的分布式搜索引擎、使用專門設(shè)計的 Attention 網(wǎng)絡(luò)的神經(jīng)提取系統(tǒng)、不依賴 Headless 瀏覽器的流式抓取系統(tǒng)、支持混合處理 170 余種語言的自然語言處理管線……與此同時,在團(tuán)隊里語言學(xué)家的幫助下,Magi 收獲了獨一無二的訓(xùn)練/預(yù)訓(xùn)練數(shù)據(jù)。
這個系統(tǒng)通過引入傳統(tǒng)搜索中的 query-independent 質(zhì)量因素,使得優(yōu)質(zhì)可靠的消息源會更被重視;而在泛化能力上,其基于多級遷移學(xué)習(xí)的提取模型,則摒棄了人工規(guī)則、角色標(biāo)注、依存分析等限制泛化能力的環(huán)節(jié),并且可在 zero-resource 的前提下直接應(yīng)用到各種外語文本上;隨著數(shù)據(jù)的積累以及來源多樣性的擴充,這個系統(tǒng)還能夠持續(xù)學(xué)習(xí)與調(diào)整,自動消除學(xué)習(xí)到的噪音和錯誤結(jié)果。
他認(rèn)為,Magi 背后的技術(shù)既可以用來從零為行業(yè)構(gòu)建知識圖譜,也可以和行業(yè)已有的專用知識圖譜結(jié)合,即知識圖譜填充。例如說人類專家描述一個病癥把發(fā)病率之類的信息列舉出來,但是 Magi 基于一些病友在網(wǎng)上交流發(fā)布的內(nèi)容,能夠把更多病癥相關(guān)的信息結(jié)構(gòu)化地填充進(jìn)來。
“這個角度來說,我們是知識圖譜的好伙伴?!?/p>
(來源:新浪微博)
從 2015 年啟動到今年年初,Peak Labs 才終于完成整個 Magi 系統(tǒng)的基本開發(fā)。Magi 的部分?jǐn)?shù)據(jù)與相關(guān)研究成果也將定期公開于 Zenodo 和 arXiv 等平臺。
按照團(tuán)隊原本擬定的 Magi 商業(yè)進(jìn)程,magi.com 上線之后將引入一些企業(yè)用戶,以驗證 Magi 的商業(yè)價值,即是否能夠真正幫助企業(yè)在應(yīng)用 AI 上減少前期流程和投入的成本,幫助提高 AI 產(chǎn)品的交付等。
在驗證了 Magi 的商業(yè)價值、有了幾個代表性的 NLP 行業(yè)應(yīng)用案例之后,預(yù)計大約是明年的三、四季度,Peak Labs 才會開始尋求新一輪融資。
盡管按照預(yù)想 Magi 本身的技術(shù)天然不挑行業(yè),但基于商業(yè)運作的考量,Peak Labs 更傾向于以下兩種類型的客戶:
“一類是例如旅行、社區(qū)型的有大量 UGC、PGC 內(nèi)容的客戶,他們希望能把用戶生產(chǎn)的文本中的價值利用起來更好地服務(wù)他們的用戶,確切來說即能替換掉一些原來由人力進(jìn)行重復(fù)閱讀與整理的環(huán)節(jié);另一類就是有大量結(jié)構(gòu)化數(shù)據(jù)需求的客戶,例如金融、獵頭等行業(yè),他們在工作流程中需要整理大量的外部或者內(nèi)部積累的文本資料供自身下游環(huán)節(jié)使用?!?/p>
沒想到,作為為潛在企業(yè)客戶展示 Demo 的 magi.com 引來大批吃瓜群眾圍觀,徹底打亂了團(tuán)隊的節(jié)奏。
根據(jù)阿里云的數(shù)據(jù)顯示,在 magi.com 被公眾發(fā)現(xiàn)的第一天就有 19 萬以上的用戶;從 11 月 1 日至 18 日,共有 1080000 名用戶使用 magi.com,進(jìn)行了超過 7000000 次的搜索;100000 多名用戶在其智能設(shè)備上將 magi.com 設(shè)為了 PWA(progressive web app)。值得一提的是,這些用戶中分享最為踴躍的是 95 后、00 后。
涌入的巨大流量一方面讓更多潛在企業(yè)客戶慕名而來,現(xiàn)覆蓋的行業(yè)領(lǐng)域已經(jīng)包括金融、咨詢、旅游甚至是醫(yī)療保險和人力資源,這些客戶正處于排隊提需求的狀態(tài),另一方面也讓團(tuán)隊重新思考了 to C 的 AI 搜索引擎的價值:或許 magi.com 真的可以成為一款陪伴 00 后這一批互聯(lián)網(wǎng)原住民成長的互聯(lián)網(wǎng)產(chǎn)品。
兩位創(chuàng)始人都表示,團(tuán)隊正考慮重新規(guī)劃節(jié)奏,to C 的產(chǎn)品改進(jìn)也會和面向企業(yè)的探索同時提上日程,但不會做競價排名,廣告不會被展示在 Magi 學(xué)習(xí)到的的結(jié)果之前。
對于 Magi 未來的命運走向,季逸超也曾在自己的微博中直言:“現(xiàn)在的 Magi 和當(dāng)年的猛犸對我來說并沒有什么不同,都飽含一個工程師樸素的初心,既不想拿廣告惡心你,也對你的隱私毫無興趣。我變禿了變胖了也變強了?!?/p>
聯(lián)系客服