11 月初，一個名為“magi.com”的 AI 搜索引擎出現(xiàn)。如同一顆石子墜入到中文互聯(lián)網(wǎng)世界這片怒?？癯?，新的產(chǎn)品或多或少總會有一些存在的反饋。

但現(xiàn)實情況是，基于知識圖譜自然語言理解技術(shù)的 magi.com 掀起了不小的浪頭：上線第一周，0 投放達(dá)到 100 萬用戶周活；登上國內(nèi)第七大搜索引擎的位置；有網(wǎng)友在體驗之后，甚至期待它將是一款能夠擺脫“搜索引擎原罪”、真正面向 AI 時代的產(chǎn)品，乃至撬動現(xiàn)有的搜索引擎競爭格局。

一個巨大的懸念是，如果有一款搜索引擎未來會替代掉百度，它會是 magi.com 嗎？

帶著這樣的疑問，我們最近拜訪了 Magi 的開發(fā)團(tuán)隊 Peak Labs，從團(tuán)隊兩位核心人物——季逸超、劉欣旸口中得到的信息是，上述所有的浪花和遙遠(yuǎn)的想象，都非常戲劇性地不在團(tuán)隊的規(guī)劃之內(nèi)。

圖丨兩位受訪創(chuàng)始人（來源：Peak Labs）

“開發(fā) magi.com，我們沒想過要干掉百度搜索。百度已經(jīng)占據(jù)了國內(nèi)搜索引擎市場的 75%，形成了自己的護(hù)城河，我們起初并不是為了進(jìn)入到 to C 的市場去與巨頭競爭……

magi.com 一開始不是設(shè)計給吃瓜群眾用的，我們根本沒想到會有這么多人使用……

我們沒有投入這么多資源在 magi.com 上，在公眾發(fā)現(xiàn) magi.com 的當(dāng)天就出現(xiàn)了服務(wù)器壓力預(yù)警，現(xiàn)在每天都有黑客在攻擊我們……這種情況已經(jīng)打亂了團(tuán)隊原有的前進(jìn)節(jié)奏?！痹诓稍L中，身為團(tuán)隊創(chuàng)始人的季逸超道出 Peak Labs 目前面臨的一連串“甜蜜的煩惱”。

圖丨magi.com 似乎也在不經(jīng)意之間學(xué)習(xí)到了互聯(lián)網(wǎng)的幽默感（來源：magi.com）

季逸超曾經(jīng)在高中時期一人設(shè)計并開發(fā)出猛犸瀏覽器，并在之后獲得了 Macworld 2011 的特等獎，在開發(fā)者群體中小有名氣。他于 2012 年創(chuàng)辦 Peak Labs，專注于開發(fā)新形態(tài)互聯(lián)網(wǎng)產(chǎn)品。Peak Labs 曾經(jīng)在成立初期獲得真格、紅杉的投資，團(tuán)隊成員目前的平均年齡不到 27 歲。

magi.com 是什么？

首先，如果你還沒有體驗過 magi.com，這里有一個演示案例。

打開 magi.com，在搜索框中輸入“馬斯克”，你將收獲以下返回結(jié)果：

圖丨magi .com 返回的“馬斯克”檢索界面（來源：magi.com）

描述——特斯拉的創(chuàng)始人、特斯拉的靈魂人物、OpenAI的創(chuàng)始人之一、SpaceX的CEO、AI的懷疑者……；

屬性——包括公司成立、家庭成員信息……；

標(biāo)簽——公司、CEO、企業(yè)家……；

近義項——硅谷鋼鐵俠、Twitter、Model E；

不難看出，這四個板塊中的信息對應(yīng)用戶搜索“麻省理工科技評論”可能會出現(xiàn)的一些基本問題。而右側(cè)則為以上信息的“主要學(xué)習(xí)來源”。接下來才是常見的信息鏈接羅列。

紅黃綠三種不同顏色的色塊，則代表此處信息的可靠程度。上述展示中均沒有出現(xiàn)廣告。

在用戶體驗上，它比“經(jīng)典搜索引擎”多做的事情是給出答案，而非列舉鏈接。

而且，magi .com 還有一個自學(xué)習(xí)的過程，當(dāng)用戶停留在首頁超過 5 秒，你就能看到 magi.com 正在從哪個信源中又學(xué)習(xí)到了哪個知識點。

圖丨 Magi 展示的學(xué)習(xí)過程（來源：Magi.com）

據(jù)介紹，這種學(xué)習(xí)過程是在無人干預(yù)的情況下 7 x 24 小時不間斷運行的，實時新聞事件中的知識一般只需要 5 分鐘就會被掌握。隨著可交叉驗證的信息源不斷增加，先前學(xué)習(xí)到的知識的可信度會被重新評估，使結(jié)果中的錯誤被自動糾正。

2019 年，伴隨著互聯(lián)網(wǎng)誕生 50 周年，搜索引擎也在人類世界走過了近 30 年，成為僅次于即時通信的互聯(lián)網(wǎng)第二大應(yīng)用，搜索引擎的全球市場格局進(jìn)入到相對的穩(wěn)定期，但也被詬病商業(yè)化程度過高，magi.com 此時橫空出世，意不在殺入這片江湖，盡管擁有一個搜索引擎的表皮，它為網(wǎng)友們提供了互聯(lián)網(wǎng)數(shù)據(jù)交互的新方式。

magi.com 不被直接感知到的，是它與經(jīng)典搜索引擎最本質(zhì)的不同：不僅收錄互聯(lián)網(wǎng)上的海量文本，還會去嘗試?yán)斫獠W(xué)習(xí)這些文本中蘊含的知識。

Peak Labs 也在一份 Magi 的官方說明中寫到：“知識提取的重要性遠(yuǎn)高于單純地回答問題，主動發(fā)現(xiàn)潛在知識并持續(xù)提煉修正，顯著強于被動地根據(jù)輸入的問題去匹配結(jié)果?！?/p>

這也是 Peak Labs 設(shè)想的企業(yè)版 Magi 系統(tǒng)身為一個收費 AI 的自覺：7 x 24 小時不間斷地從“最臟的互聯(lián)網(wǎng)文本中自主閱讀文本并持續(xù)糾錯”，理解并充分利用互聯(lián)網(wǎng)中無窮無盡的知識完成“通識教育”，先成長為最大的通用知識圖譜，然后帶著最基本的人類世界的“常識”殺入到行業(yè)中，成為行業(yè)知識圖譜服務(wù)成長起來的最底層土壤，進(jìn)而提供定制化的服務(wù)。

用季逸超的話來說，Magi 系統(tǒng)將是“AI 背后的 AI”。

也就是說，被公眾認(rèn)知為 AI 搜索引擎的 magi.com，其實只是 Peak Labs 為 Magi 系統(tǒng)開發(fā)的一個必要組件兼功能展示界面。

圖丨面向公眾的 magi.com 和面向企業(yè)的 Magi 系統(tǒng)作為整個 Magi 項目的一體兩面（來源：Peak Labs）

“我們沒有使用任何開源或外部搜索解決方案，從零開始研發(fā)作為搜索引擎的 magi.com 的原因有二：

一則是希望它作為一個 Demo 展示，為企業(yè)用戶演示我們能力范圍內(nèi)可以利用 NLP 技術(shù)構(gòu)建怎樣的服務(wù)（例如行業(yè)知識圖譜），把企業(yè)用戶提出的天花亂墜的需求盡量合理化；

二則是我們利用 magi.com 通過互聯(lián)網(wǎng)進(jìn)行遠(yuǎn)程監(jiān)督，積累出一個巨大的有標(biāo)注數(shù)據(jù)集并持續(xù)自動優(yōu)化 Magi 的開放信息提取模型，進(jìn)而通過遷移學(xué)習(xí)為各行各業(yè)降低應(yīng)用 NLP 的門檻?！奔疽莩f。

據(jù)介紹，Magi 這一名稱的靈感，一則來自于其“東方智者”的寓意，一則來自日本著名科幻動畫 EVA 中的名為“MAGI System”的超級電腦。

Magi 在最臟的互聯(lián)網(wǎng)世界中自我學(xué)習(xí)并成長為具備有時效性的“跨領(lǐng)域常識”的知識引擎的過程中，還將孵化出自然語言處理領(lǐng)域的類似“ImageNet”的大規(guī)模有標(biāo)注數(shù)據(jù)集。熟悉計算機視覺領(lǐng)域的人都清楚，計算機視覺之所以成為全球范圍內(nèi)最熱門的 AI 應(yīng)用方向，進(jìn)而誕生出這么多獨角獸公司，ImageNet 的存在是起推動作用的必不可少的一環(huán)。

比起“新的 AI 搜索引擎干掉百度”，這條故事線的難度并不見得會更小。

圖丨magi .com 稱 Magi 去除了商業(yè)化的元素遭到創(chuàng)始人否認(rèn) （來源：新浪微博）

現(xiàn)象級產(chǎn)品背后，兩大認(rèn)知智能技術(shù)正處于漫長的爆發(fā)前夜

對于很多吃瓜群眾來說，magi.com 甫一上線便攪動互聯(lián)網(wǎng)世界一潭春水，也因為在長期被感知智能技術(shù)所支配的 AI 發(fā)展線中，他們第一次有機會得以一窺認(rèn)知智能技術(shù)的神奇所在。

過去數(shù)十年的人工智能浪潮，主要基于深度學(xué)習(xí)的爆發(fā)，以語音識別、計算機視覺為代表的感知智能技術(shù)，享受“數(shù)據(jù)、算法、算力”三位一體的紅利得到充分發(fā)展，而以自然語言處理、知識圖譜等為代表的認(rèn)知智能技術(shù)，目前形成的市場規(guī)模遠(yuǎn)不及前兩者，尤其是相比于已經(jīng)成長為龐然大物的計算機視覺。

（來源：麻省理工科技評論）

以自然語言處理為例，其技術(shù)準(zhǔn)確率遠(yuǎn)遠(yuǎn)沒有達(dá)到計算機視覺和語音識別的水平，相應(yīng)的應(yīng)用產(chǎn)品（比如語音助手）經(jīng)常被人諷刺只能用來調(diào)戲，缺少實際價值。在創(chuàng)業(yè)公司方面，自然語言處理領(lǐng)域也沒有產(chǎn)生像商湯、曠視、依圖、云從這樣的“小巨頭”。有業(yè)內(nèi)人士曾表示，自然語言處理目前的發(fā)展大約落后于計算機視覺 3~5 年左右。

針對自然語言處理技術(shù)的商業(yè)化現(xiàn)狀，該方向的著名學(xué)者、賓夕法尼亞大學(xué)教授 Dan Roth 在接受《麻省理工科技評論》采訪時分析道：“在各種專業(yè)應(yīng)用中，必須要選擇正確的自然語言模型，沒有任何單一模型可以解決自然語言領(lǐng)域中所遇到的所有問題，自然語言處理沒有一個可以解決所有問題的魔術(shù)盒子存在，你必須要把所有相關(guān)的知識庫放進(jìn)盒子里，選擇對的算法，并且針對性的處理特定問題，那么這個盒子最后才有作用”。

這個過程中吊詭的地方還在于，有多少人工才能有多少認(rèn)知智能。

沖在這個建設(shè)大潮中第一線的大量“數(shù)據(jù)標(biāo)注民工”就印證著這一點?，F(xiàn)階段，對于絕大多數(shù)行業(yè)來說，進(jìn)行足夠好的數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注，是搭建供 AI 發(fā)揮價值的“基礎(chǔ)設(shè)施”的關(guān)鍵步驟。曾有業(yè)內(nèi)人士直接斷言，在相當(dāng)長的時間內(nèi)，數(shù)據(jù)質(zhì)量決定了 AI 算法在真實場景中提供體驗的天花板。

圖丨基于知識圖譜的認(rèn)知智能（來源：復(fù)旦“知識工場”）

知識圖譜的行業(yè)應(yīng)用也在遵循類似宿命。知識圖譜旨在用圖的形式模擬人的知識，而語言正是人類知識的載體，借助自然語言處理，知識圖譜技術(shù)可以幫助機器擁有真正的知識。但在這之前，重復(fù)性的數(shù)據(jù)標(biāo)注同樣難以避開。尤其在諸如醫(yī)療這樣的高標(biāo)注門檻領(lǐng)域，需要浪費極其寶貴的智力資源——醫(yī)生——投入到大量的重復(fù)性勞作中，才能有之后收獲 AI 降低工作效率的可能。

Peak Labs 團(tuán)隊則認(rèn)為，存在一種從純文本自動構(gòu)建可信知識圖譜的技術(shù)能夠改變這種局面，“我們要給知識圖譜送彈藥”。

因此，區(qū)別于一般 AI 初創(chuàng)公司在成長初期優(yōu)先聚焦特定行業(yè)的思路，2015 年，Peak Labs 啟動開發(fā)了一款“彈藥”生產(chǎn)線——扎根開放領(lǐng)域的互聯(lián)網(wǎng)文本進(jìn)行知識提取的 Magi 項目，并選擇直面規(guī)?；蜏?zhǔn)確度這兩個知識工程中的核心矛盾點。

從“最臟的互聯(lián)網(wǎng)文本”中成長出來的通用知識系統(tǒng)

開放領(lǐng)域的互聯(lián)網(wǎng)文本?？吹竭@幾個字，相信一些人的腦海中會出現(xiàn)這樣的認(rèn)知：這里面的信息該多臟啊。

對于這一事關(guān) Magi 最終呈現(xiàn)的準(zhǔn)確度問題，季逸超表示：“我們很難說 Magi 自動構(gòu)建信息的質(zhì)量一定好于人工整理的文本。但是，首先，它的質(zhì)量不差，并且可以量化。

其次，它的信息覆蓋率遠(yuǎn)非人工所及?，F(xiàn)在知識圖譜的準(zhǔn)確度已經(jīng)不是問題，因為知識圖譜更多是基于本來就存在的結(jié)構(gòu)化的內(nèi)容來進(jìn)一步描述實體之間的關(guān)系。知識圖譜現(xiàn)在主要的問題是不太堪用，經(jīng)常出現(xiàn)的一種情形是，它對自己能力范圍之外的只能回答 '對不起不知道'，所以我們要做的是，讓知識圖譜原本不知道的這些內(nèi)容也能被收錄，并達(dá)到一個較高的可信度?！?/p>

圖丨誕生于 1994 年第一代真正基于互聯(lián)網(wǎng)的搜索引擎 Lycos（來源：互聯(lián)網(wǎng)）

而要實現(xiàn)這樣的效果，擺在整個 Magi 項目面前的是以下 6 個重要技術(shù)挑戰(zhàn)：

1、從純文本自動構(gòu)建可信的全領(lǐng)域知識圖譜。此前業(yè)內(nèi)主要依賴于人工編輯的各類數(shù)據(jù)庫或百科等結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)源進(jìn)行整理，以構(gòu)建可信的知識圖譜；

2、構(gòu)造大規(guī)模的帶標(biāo)注的跨領(lǐng)域數(shù)據(jù)集。類似于打造 NLP 領(lǐng)域的“ImageNet”，目前整個 NLP 領(lǐng)域都沒有一個可以達(dá)到類似 ImageNet 在計算機視覺領(lǐng)域地位的數(shù)據(jù)集；

3、通過互聯(lián)網(wǎng)進(jìn)行終身學(xué)習(xí)持續(xù)優(yōu)化。過去，機器學(xué)習(xí)存在的問題在于，數(shù)據(jù)訓(xùn)練模型往往是靜態(tài)的，針對模型缺陷的每一次反饋和調(diào)整都需要手動介入；另一方面，很多信息是實時更新的：以一款新發(fā)布的手機為例，發(fā)布會信息出來之后，通過抓取文本，產(chǎn)品的價格屬性很快就能得到更新，如果是百度百科之類還需要等待人工進(jìn)行編輯；

4、獲取常識并結(jié)構(gòu)化。現(xiàn)實中，越基礎(chǔ)的知識越缺乏結(jié)構(gòu)化的整理，Magi 則通過理解大量的純文本中的信息去掌握這些未被系統(tǒng)整理過的知識；

5、多任務(wù)遷移學(xué)習(xí)和跨領(lǐng)域遷移學(xué)習(xí)。即先通過整個互聯(lián)網(wǎng)文本進(jìn)行寬泛的背景知識學(xué)習(xí)，然后遷移到某個具體領(lǐng)域中，為企業(yè)客戶減輕負(fù)擔(dān)。就像遷移能力幫助 CV 產(chǎn)生規(guī)?；纳虡I(yè)價值一樣，NLP 的商業(yè)化進(jìn)程遷移學(xué)習(xí)能力將同樣重要；

6、面向遠(yuǎn)期可解釋 AI 保證知識可溯源。這是為面向未來的人工智能發(fā)展所做的準(zhǔn)備。盡管 Magi 仍然使用了深度學(xué)習(xí)技術(shù)，無法避開黑箱問題，但系統(tǒng)學(xué)習(xí)到的信息都留下了可溯源的痕跡。

據(jù)季逸超介紹，其中前兩個方向是目前學(xué)術(shù)領(lǐng)域也在攻堅的問題，同時兼顧這 6 個方向也要求相當(dāng)?shù)墓こ棠芰Α?/p>

在質(zhì)量參差不齊的海量互聯(lián)網(wǎng)文本中，為了提升信息的利用率，Magi 必須盡可能徹底地從每一段質(zhì)量參差不齊且主題各異的文本中提取出全部知識。這也決定一切現(xiàn)有的技術(shù)方案都不可用：這不再是一個清晰的序列標(biāo)注問題，交錯疊加的關(guān)系使得搜索空間爆炸式增長，不受限制的領(lǐng)域還意味著根本沒有可用的訓(xùn)練數(shù)據(jù)。

因此，團(tuán)隊用了近 4 年時間從零設(shè)計研發(fā)了整個技術(shù)堆棧：采用原創(chuàng) succinct 索引結(jié)構(gòu)的分布式搜索引擎、使用專門設(shè)計的 Attention 網(wǎng)絡(luò)的神經(jīng)提取系統(tǒng)、不依賴 Headless 瀏覽器的流式抓取系統(tǒng)、支持混合處理 170 余種語言的自然語言處理管線……與此同時，在團(tuán)隊里語言學(xué)家的幫助下，Magi 收獲了獨一無二的訓(xùn)練/預(yù)訓(xùn)練數(shù)據(jù)。

這個系統(tǒng)通過引入傳統(tǒng)搜索中的 query-independent 質(zhì)量因素，使得優(yōu)質(zhì)可靠的消息源會更被重視；而在泛化能力上，其基于多級遷移學(xué)習(xí)的提取模型，則摒棄了人工規(guī)則、角色標(biāo)注、依存分析等限制泛化能力的環(huán)節(jié)，并且可在 zero-resource 的前提下直接應(yīng)用到各種外語文本上；隨著數(shù)據(jù)的積累以及來源多樣性的擴充，這個系統(tǒng)還能夠持續(xù)學(xué)習(xí)與調(diào)整，自動消除學(xué)習(xí)到的噪音和錯誤結(jié)果。

他認(rèn)為，Magi 背后的技術(shù)既可以用來從零為行業(yè)構(gòu)建知識圖譜，也可以和行業(yè)已有的專用知識圖譜結(jié)合，即知識圖譜填充。例如說人類專家描述一個病癥把發(fā)病率之類的信息列舉出來，但是 Magi 基于一些病友在網(wǎng)上交流發(fā)布的內(nèi)容，能夠把更多病癥相關(guān)的信息結(jié)構(gòu)化地填充進(jìn)來。

“這個角度來說，我們是知識圖譜的好伙伴?！?/p>

（來源：新浪微博）

意外走紅徹底打亂前進(jìn)節(jié)奏，潛在企業(yè)客戶正在排隊提需求

從 2015 年啟動到今年年初，Peak Labs 才終于完成整個 Magi 系統(tǒng)的基本開發(fā)。Magi 的部分?jǐn)?shù)據(jù)與相關(guān)研究成果也將定期公開于 Zenodo 和 arXiv 等平臺。

按照團(tuán)隊原本擬定的 Magi 商業(yè)進(jìn)程，magi.com 上線之后將引入一些企業(yè)用戶，以驗證 Magi 的商業(yè)價值，即是否能夠真正幫助企業(yè)在應(yīng)用 AI 上減少前期流程和投入的成本，幫助提高 AI 產(chǎn)品的交付等。

在驗證了 Magi 的商業(yè)價值、有了幾個代表性的 NLP 行業(yè)應(yīng)用案例之后，預(yù)計大約是明年的三、四季度，Peak Labs 才會開始尋求新一輪融資。

盡管按照預(yù)想 Magi 本身的技術(shù)天然不挑行業(yè)，但基于商業(yè)運作的考量，Peak Labs 更傾向于以下兩種類型的客戶：

“一類是例如旅行、社區(qū)型的有大量 UGC、PGC 內(nèi)容的客戶，他們希望能把用戶生產(chǎn)的文本中的價值利用起來更好地服務(wù)他們的用戶，確切來說即能替換掉一些原來由人力進(jìn)行重復(fù)閱讀與整理的環(huán)節(jié)；另一類就是有大量結(jié)構(gòu)化數(shù)據(jù)需求的客戶，例如金融、獵頭等行業(yè)，他們在工作流程中需要整理大量的外部或者內(nèi)部積累的文本資料供自身下游環(huán)節(jié)使用?！?/p>

沒想到，作為為潛在企業(yè)客戶展示 Demo 的 magi.com 引來大批吃瓜群眾圍觀，徹底打亂了團(tuán)隊的節(jié)奏。

根據(jù)阿里云的數(shù)據(jù)顯示，在 magi.com 被公眾發(fā)現(xiàn)的第一天就有 19 萬以上的用戶；從 11 月 1 日至 18 日，共有 1080000 名用戶使用 magi.com，進(jìn)行了超過 7000000 次的搜索；100000 多名用戶在其智能設(shè)備上將 magi.com 設(shè)為了 PWA（progressive web app）。值得一提的是，這些用戶中分享最為踴躍的是 95 后、00 后。

涌入的巨大流量一方面讓更多潛在企業(yè)客戶慕名而來，現(xiàn)覆蓋的行業(yè)領(lǐng)域已經(jīng)包括金融、咨詢、旅游甚至是醫(yī)療保險和人力資源，這些客戶正處于排隊提需求的狀態(tài)，另一方面也讓團(tuán)隊重新思考了 to C 的 AI 搜索引擎的價值：或許 magi.com 真的可以成為一款陪伴 00 后這一批互聯(lián)網(wǎng)原住民成長的互聯(lián)網(wǎng)產(chǎn)品。

兩位創(chuàng)始人都表示，團(tuán)隊正考慮重新規(guī)劃節(jié)奏，to C 的產(chǎn)品改進(jìn)也會和面向企業(yè)的探索同時提上日程，但不會做競價排名，廣告不會被展示在 Magi 學(xué)習(xí)到的的結(jié)果之前。

對于 Magi 未來的命運走向，季逸超也曾在自己的微博中直言：“現(xiàn)在的 Magi 和當(dāng)年的猛犸對我來說并沒有什么不同，都飽含一個工程師樸素的初心，既不想拿廣告惡心你，也對你的隱私毫無興趣。我變禿了變胖了也變強了?！?/p>

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

magi.com 是什么？

現(xiàn)象級產(chǎn)品背后，兩大認(rèn)知智能技術(shù)正處于漫長的爆發(fā)前夜

從“最臟的互聯(lián)網(wǎng)文本”中成長出來的通用知識系統(tǒng)

意外走紅徹底打亂前進(jìn)節(jié)奏，潛在企業(yè)客戶正在排隊提需求

magi.com 是什么？

現(xiàn)象級產(chǎn)品背后，兩大認(rèn)知智能技術(shù)正處于漫長的爆發(fā)前夜

意外走紅徹底打亂前進(jìn)節(jié)奏，潛在企業(yè)客戶正在排隊提需求