種一棵樹,最好的時間是十年前,其次是現(xiàn)在?!狣ambisa Moyo
7 月 10 日,自然語言處理頂會 ACL 2020 落下帷幕。本次大會共收到 3429 篇論文投稿,其中 779 篇被接收,接收率為 22.7%,與去年持平,低于近年來大部分年份的接收率。
在這 779 篇論文中,有 185 篇來自中國大陸,占被接收論文總數(shù)的 23.7%,僅次于美國。此外,今年的最佳論文二作和最佳 demo 論文一作均為華人學生。
然而,很多人可能不知道,2000 年 ACL 年會在中國香港舉辦時,只有微軟中國研究院的論文來自中國大陸;到了 2005 年,來自大陸的論文也只有三篇。
很多變化是過去十幾年發(fā)生的,尤其是過去的十年。在這十年里,中國的 NLP 學界在 ACL 年會中的投稿數(shù)、被接收論文數(shù)逐年上升,同時,中國的 NLP 學者也實現(xiàn)了多個 “第一次” 的突破:
2013 年,王海峰出任 ACL 五十年來首位華人主席;
2014 年,吳華出任 ACL 程序委員會主席,成為中國企業(yè)首位 ACL 程序委員會主席;
2015 年,ACL 年會首次在中國舉辦;大會上,哈工大教育部語言語音重點實驗室主任李生教授獲得 ACL 終身成就獎,成為首個獲得該獎項的華人;
2016 年,趙世奇當選 ACL 秘書長,成為首位當選該職位的亞洲人;
2018 年,ACL 宣布創(chuàng)建亞太區(qū)域分會(AACL)并計劃在 2020 年舉行首次會議,由王海峰擔任創(chuàng)始主席;
2020 年,百度領(lǐng)銜組織了 ACL 大會上首場同聲傳譯研討會(The 1st Workshop on Automatic Simultaneous Translation);
……
從這些突破中,我們可以看到中國科學家的快速成長,看到中國 NLP 學界在國際上不斷擴大的影響力,看到百度這家中國互聯(lián)網(wǎng)公司躋身世界科技巨頭的努力。
為什么一家中國互聯(lián)網(wǎng)公司能夠吸引眾多 NLP 領(lǐng)域的科學家,能夠成為國際 NLP 頂會的重要參與者?我們也許可以從百度早期的戰(zhàn)略布局中找到線索。
早在十年前,百度就已經(jīng)在 ACL 大會上留下了中國互聯(lián)網(wǎng)企業(yè)的身影。彼時,第三次人工智能浪潮還沒有掀起太多波瀾,李世石和 AlphaGo 的里程碑式對弈還有六年才會發(fā)生。
今年正值百度 NLP 的第十個年頭,我們回顧一下過去十年的路程,看看以百度為代表的中國企業(yè)如何憑借對整個領(lǐng)域的洞察在 NLP 領(lǐng)先布局、持續(xù)投入前沿技術(shù)研究及產(chǎn)業(yè)實踐,這對于當下提升科技競爭力以及如何在行業(yè)發(fā)展早期做好戰(zhàn)略布局仍具有借鑒意義。
百度與 ACL 的十年交集
2010 年,百度進入創(chuàng)建之后的第二個十年,中國互聯(lián)網(wǎng)也進入了高速發(fā)展期。
當時,百度已經(jīng)積累了大量的數(shù)據(jù)和用戶群體,有著豐富的應用場景可以挖掘。對于需要大量真實數(shù)據(jù)并希望自己的成果服務廣大用戶的研究者來說,百度的這些特質(zhì)有著強大的吸引力。于是,在這一年,百度迎來了 NLP 領(lǐng)域知名科學家——王海峰博士。
王海峰本碩博都畢業(yè)于哈工大,早在博士期間就做過將神經(jīng)網(wǎng)絡引入機器翻譯的研究。進入百度之前,他曾先后就職于微軟中國研究院、東芝等,并與 ACL 結(jié)緣,2004 年開始在 ACL 上發(fā)表論文,2006 年曾有 5 篇論文被收錄。
除了海量的數(shù)據(jù)、豐富的應用場景之外,真正讓王海峰下定決心加盟百度的契機其實是 2009 年 8 月的“百度世界大會”。 與以往三屆不同,2009 年百度世界大會給人的感覺是格外具有技術(shù)味道。李彥宏在這屆大會上推出了全新計算平臺 “框計算”——用戶只要在”百度框”中輸入服務需求,系統(tǒng)就能明確識別這種需求,并將該需求分配給最優(yōu)的內(nèi)容資源或應用提供商處理,最終精準高效地返回給用戶相匹配的結(jié)果。 從這次大會中,王海峰看到了百度對 AI 技術(shù)的重視和謀劃。他敏銳地判斷出,如果百度沿著“框計算” 的思路進一步發(fā)展,就需要更強大的自然語言處理技術(shù)的支撐,尤其是語言分析、語義理解、知識圖譜等方向。
2010 年,進入百度之后,王海峰所做的第一件事就是成立了“自然語言處理部”。
在此之前,百度在 NLP 方面的研發(fā)工作一直在業(yè)務需求下進行,并沒有構(gòu)成體系。NLP 部門的成立改變了這種 “指哪兒打哪兒” 的局面,對原有的工作進行了重新梳理與規(guī)劃,除分詞、專名識別、query 需求分析、query 改寫等傳統(tǒng)方向得到加強外,也逐步建設(shè)了機器翻譯、機器學習、語義理解、智能交互、深度問答、篇章理解等新的技術(shù)方向。
也是在這一年,王海峰敲定了百度在知識圖譜技術(shù)上的研發(fā)投入,而當時,知識圖譜還不是一個熱門的研究方向。
扎實的技術(shù)背景和豐富的行業(yè)經(jīng)驗賦予了王海峰在 NLP 領(lǐng)域強大的背書能力。因此,他的加入進一步提升了百度的人才吸引力,幫助百度招攬了以吳華博士為代表的一大批技術(shù)骨干。
吳華博士在人工智能領(lǐng)域浸潤 20 余年,專注于自然語言處理。據(jù)統(tǒng)計,她在機器翻譯及自然語言處理領(lǐng)域授權(quán)或公開的專利申請有 100 余項,發(fā)表學術(shù)論文 60 余篇。
隨著技術(shù)骨干的加入,百度開始在 NLP 領(lǐng)域的國際頂會中嶄露頭角。2010 年,王海峰、吳華的一篇論文被 ACL 錄用,百度也成為參加這個國際頂會的首個中國互聯(lián)網(wǎng)企業(yè)。
在這之后的十年里,百度幾乎每年都會在 ACL 上展示最新的研究成果,成為這一國際大會的重要參與者。同時,在王海峰等人的不斷努力下,中國研究者在 ACL 上的影響力不斷擴大,開始擁有更多的話語權(quán)。
2013 年,王海峰出任 ACL 五十年來首位華人主席。
在王海峰等人的共同推動下,2015 年,ACL 首次在中國舉辦,體現(xiàn)了國際學界對中國自然語言處理研究的重視和認可。
2018 年,在第 56 屆 ACL 年會開幕式上,時任 ACL 主席 Marti Hearst 宣布創(chuàng)建亞太區(qū)域分會(AACL)并計劃在 2020 年舉行首次會議。之后每兩年舉行一次會議,會議地點將設(shè)置在亞太地區(qū),由王海峰擔任 AACL 創(chuàng)始主席。
2020 年,百度 11 篇論文被 ACL 收錄,覆蓋了語義表示、情感分析、自動摘要、對話系統(tǒng)、機器翻譯、知識推理、AI 輔助臨床診斷等諸多熱點與前沿研究方向。同時,百度聯(lián)合谷歌、Facebook、清華大學等全球頂尖機構(gòu)共同舉辦了首屆同聲傳譯研討會,就 ERNIE 核心技術(shù)、開放域人機對話技術(shù)、智慧醫(yī)療、生物醫(yī)藥等業(yè)內(nèi)關(guān)注的話題做了演講,展現(xiàn)了中國企業(yè)在 NLP 及 AI 領(lǐng)域的技術(shù)創(chuàng)新與產(chǎn)業(yè)實踐。
如果將十年前的百度 NLP 比喻成一片苗圃,那么,經(jīng)過十年的澆灌,這片苗圃已然成林。王海峰等人的貢獻在于,他們很早就選到了優(yōu)質(zhì)的樹苗并悉心培育。
從今年百度被 ACL 接收的論文以及最近公布的研究進展中,我們可以看到這種前瞻視野和布局帶來的豐碩成果。
從 ACL、百度看 NLP 十年研究趨勢
如果仔細觀察近幾年的 ACL 接收論文和百度公布的研究成果,我們不難發(fā)現(xiàn) NLP 領(lǐng)域的幾個研究趨勢,包括 1)越來越多的研究者將知識融入到 NLP 模型中,以提高模型的理解和推理能力;2)多模態(tài)語義理解越來越受關(guān)注,同時在視頻網(wǎng)站、電商物流、自動駕駛等領(lǐng)域得到廣泛應用……
將知識融入 NLP 模型
語言和知識促進了人類文明的發(fā)展。人們從大量的數(shù)據(jù)和信息中獲取知識,語言是凝煉和傳承知識的載體,進而又將知識應用于生產(chǎn)生活的方方面面。早在十年前,王海峰就敏銳地覺察到知識的重要性,開始布局知識圖譜技術(shù)并逐漸加大研發(fā)投入。百度將多源異構(gòu)的海量互聯(lián)網(wǎng)信息匯聚在一起,從中挖掘知識、構(gòu)建大規(guī)模圖譜。而當時,知識圖譜對于大多數(shù)人來說還比較陌生。
2014 至 2017 年間,基于互聯(lián)網(wǎng)大數(shù)據(jù)和搜索應用,百度知識圖譜技術(shù)發(fā)展非常迅速。2016 年,百度構(gòu)建了全球最大的知識圖譜,擁有數(shù)億實體、數(shù)千億事實。2017 年,基于知識圖譜技術(shù)突破和產(chǎn)業(yè)化應用,百度 “知識圖譜技術(shù)及應用” 項目獲得“中國電子學會科技進步一等獎”。
此后,面向?qū)嶋H應用場景,百度系統(tǒng)地拓展了多源異構(gòu)知識圖譜的研發(fā)與應用。針對不同的應用場景和知識形態(tài),構(gòu)建了關(guān)注點圖譜、事件圖譜、多媒體圖譜、行業(yè)知識圖譜等多種圖譜。從認知深度、信息寬度和領(lǐng)域廣度多維度對實體圖譜進行了系統(tǒng)性的拓展和升級。在領(lǐng)域廣度方面,則從通用領(lǐng)域拓展到涵蓋醫(yī)療、法律等行業(yè)在內(nèi)的具有強知識性的專業(yè)領(lǐng)域。
特別地,在醫(yī)療領(lǐng)域,基于知識圖譜技術(shù)的輔助醫(yī)療決策等產(chǎn)品目前已在全國 300 多家醫(yī)院、1500 多家基層醫(yī)療機構(gòu)規(guī)?;涞貞?。相關(guān)產(chǎn)品榮獲 2019 年全國醫(yī)療人工智能應用創(chuàng)新獎。2019 年 7 月,在百度開發(fā)者大會上首次發(fā)布了“行業(yè)知識圖譜平臺”,整合知識圖譜構(gòu)建、存儲、問答、推理等技術(shù)能力,為行業(yè)知識的獲取與應用提供一體化解決方案。
此外,早在 2011 年,百度就著手研究基于知識的語言解析。2012 年,百度研發(fā)了基于海量數(shù)據(jù)訓練的神經(jīng)網(wǎng)絡深度語義匹配框架——SimNet。該框架率先將語義表示與匹配計算統(tǒng)一在一個端到端的神經(jīng)網(wǎng)絡模型里,并結(jié)合中文語言特性融合了多粒度知識,支持千億規(guī)模真實搜索點擊數(shù)據(jù)訓練。
去年,百度先后發(fā)布了知識增強的語義表示模型 ERNIE 和持續(xù)學習語義理解模型 ERNIE 2.0。2019 年 12 月,ERNIE 在國際權(quán)威的通用語言理解評估基準 GLUE 上首次突破 90 大關(guān),超越人類三個點,獲得全球第一。今年 3 月,在全球最大規(guī)模的國際語義評測 SemEval 上,ERNIE 獲得
5 項世界冠軍。在剛剛落下帷幕的世界人工智能大會,百度文心(ERNIE)知識增強語義理解技術(shù)與平臺獲得了大會最高榮譽獎項“卓越人工智能引領(lǐng)者”(SAIL)獎。
這些突破的取得,都離不開百度在相關(guān)方向上的前瞻布局和持續(xù)投入。
多模態(tài)語義理解
多模態(tài)語義理解是解決復雜場景智能化應用的關(guān)鍵技術(shù),近年來備受關(guān)注。
2010 年左右,科技產(chǎn)業(yè)處在迅速的變化之中,人們對信息媒介的需求已不僅僅局限于文字,而是向語音、圖像等多個方向擴展。于是,幾乎在成立 NLP 部門的同一時期,王海峰就已開始著手布局語音技術(shù)和視覺技術(shù),牽頭組建了當時的“多媒體部”。
這一決定是非常具有前瞻性的。因為當時,除了與搜索強相關(guān)的 NLP 業(yè)務,早期百度并沒有太多相關(guān)的智能技術(shù)需求。在多媒體部成立的初期,很多人也不知道這些技術(shù)有什么用。
憑借在語音、視覺、語言與知識等領(lǐng)域多年的技術(shù)積累與融合,2018 年百度發(fā)布了以 “多模態(tài)深度語義理解” 為核心的百度大腦 3.0。百度大腦是百度 AI 核心技術(shù)引擎,包括視覺、語音、自然語言處理、知識圖譜、深度學習等 AI 核心技術(shù)和 AI 開放平臺。如今,百度大腦已經(jīng)向所有開發(fā)者開放了 260 多項 AI 能力,其中包括機器同傳、拍照翻譯、文檔解析、圖文審核、視頻分類、對話情緒識別、圖文轉(zhuǎn)視頻等融合文本與語音、視覺技術(shù)的能力。
今年,百度在多模態(tài)語義理解上取得新突破,提出了知識增強的視覺 - 語言預訓練模型
ERNIE-ViL。ERNIE-ViL 首次將場景圖知識融入多模態(tài)預訓練, 刷新了 5 項多模態(tài)任務紀錄,并登頂權(quán)威榜單 VCR。
除了這些之外,近年來,百度 NLP 還在語義計算、閱讀理解、多輪對話、機器翻譯、開放平臺與數(shù)據(jù)等方向取得了突破性進展,并實現(xiàn)了大規(guī)模產(chǎn)業(yè)化應用。
對比百度所取得的 NLP 技術(shù)成果和 ACL 十年來的研究趨勢,我們可以發(fā)現(xiàn),這家公司對于 NLP 研究趨勢的把握是非常精準的,而這些都得益于王海峰等領(lǐng)軍人物對該領(lǐng)域的長期洞察。
正如非洲經(jīng)濟學家 Dambisa Moyo 在一本書里所提到的,“種一棵樹,最好的時間是十年前,其次是現(xiàn)在”。在 NLP 領(lǐng)域,百度既沒有錯過十年前的黃金 “種植期”,也沒有在十年的每一個“現(xiàn)在” 里松懈。尊重技術(shù)的發(fā)展規(guī)律,敏銳把握產(chǎn)業(yè)需求變遷,持續(xù)、堅定的投入,百度當年種下的一棵棵 NLP“小樹”已經(jīng)長成一片樹林,而且還在不斷生長出新的樹苗。 在王海峰、吳華等研究者的帶領(lǐng)下,我們有理由期待百度 NLP 的下一個十年。
參考資料:《AI已來:讓中國AI走向世界的王海峰》