數(shù)據(jù)和計算機科學家已經(jīng)進行了很長時間的研究,以提高從自然語言中獲取含義的能力–無論是他們試圖創(chuàng)建一個機器人來響應用戶在其網(wǎng)站上的問題還是確定人們在Twitter上喜歡或討厭他們的品牌。
壞消息是,我們?nèi)匀恍枰斫獯罅扛拍顏碚{(diào)整結(jié)果;好消息是,即使使用適度大小的數(shù)據(jù)集和計算預算,使用BERT和ERNIE之類的工具,也比以往任何時候都更容易獲得從自然語言處理(NLP)獲得好的結(jié)果!
讓我們從簡要回顧該學科的歷史開始。可以將NLP系統(tǒng)的開發(fā)分為三個主要階段:
在過去十年中,深度學習已改變了NLP的實踐。無論您是嘗試實現(xiàn)機器翻譯、問題回答、簡短文本分類還是情感分析,都有深度學習工具可用來幫助解決這些問題。但是,從歷史上看,創(chuàng)建正確的網(wǎng)絡然后對其進行訓練的過程需要大量時間,專業(yè)知識,龐大的數(shù)據(jù)集和大量的計算能力。
NLP 的整個革命源于2018年初的論文?ELMo(Embeddings from Language Models)。ELMo是一種使用深度雙向語言模型的,該模型在大型文本語料庫上進行了預訓練,以提高一系列NLP任務的性能。
這意味著什么?讓我們分解一下。'深度'指的是它正在使用多層神經(jīng)網(wǎng)絡(例如在'深度學習'中)。雙向的?嗯,歷史上大多數(shù)語言模型都是單向的,因此對于英語,他們會從左到右讀取單詞。在雙向模型中,所有單詞都被同時攝取。如果進行了足夠的訓練,可以更準確地推斷出上下文。預訓練意味著已經(jīng)在非常大的通用語言數(shù)據(jù)集上訓練了模型。在圖像識別和NLP中都顯示了預訓練,可以大大提高準確性和/或減少模型最終訓練所需的時間和成本。
在2018年11月,Google提出BERT,Bidirectional Encoder Representations from Transformers。這是用于上下文預訓練的新技術(shù)。上下文意味著它考慮了給定單詞周圍的單詞,因此與上下文無關(guān)模型不同,銀行在'銀行帳戶'和'河岸'中的概念并不相同。
BERT利用了許多現(xiàn)有方法,包括ELMo和。BERT的核心優(yōu)勢在于,它可以屏蔽任何給定輸入短語中的不同單詞,然后估算可能能夠'填充該位置'的各種單詞的可能性。
除了打破許多處理基于語言的任務的記錄外,BERT還大大降低了訓練語言模型的成本和復雜性。正如他們在陳述,'在這個版本中,世界上任何人可以訓練自己的國家的最先進的問答系統(tǒng),在約30分鐘的單云TPU,或只需幾個小時即可使用一個GPU。
要實現(xiàn)諸如情感分析之類的分類任務,只需要在Transformer輸出的頂部添加一個分類層即可。
對于必須將問題映射到較大文本正文中的問題回答任務,請為文本中任何給定問題的答案的起點和終點添加兩個額外的向量。
對于命名實體識別(NER-識別特定實體,例如人,公司或產(chǎn)品),可以通過將每個令牌的輸出向量輸入到預測NER標簽的分類層中來訓練模型,因此它只是另一個分類器。最重要的是,即使數(shù)據(jù)集少,經(jīng)驗有限,使用BERT也可以在非常短的時間內(nèi)創(chuàng)建最新的NLP模型。
BERT的操作方式存在兩個弱點。通過將其掩蓋的單詞視為獨立詞,它不會從訓練數(shù)據(jù)中學到很多東西,并且由于未將掩碼令牌傳遞到輸出,因此降低了微調(diào)結(jié)果的有效性。
在2019年6月,Google Brain團隊的成員發(fā)表了XLNet,通過使用一種稱為'置換語言建模'的技術(shù)避免了BERT遭受的問題。在置換語言建模中,像傳統(tǒng)語言模型一樣,模型被訓練為在給定上下文的情況下預測一個令牌,但不是順序地預測令牌,而是以隨機順序預測它們。最重要的是,XLNet在許多關(guān)鍵的NLP任務上均勝過BERT,并提高了技術(shù)水平。
在計算效率,百度研究團隊不甘示弱,于2019年推出ERNIE,隨后于2019年7月推出ERNIE 2.0。ERNIE代表通過kNowledge IntEgration實現(xiàn)卷積增強表示,把BERT許多概念統(tǒng)在一起,但也匹配來自其他資源(如百科全書,新聞媒體和在線論壇)的語義元素信息。例如,知道哈爾濱是中國黑龍江省的省會,哈爾濱是冬季結(jié)冰和積雪的城市,那么與BERT這樣的模型相比,它可以更好地執(zhí)行許多NLP任務它對世界的了解以及正在接受培訓的文本。盡管ERNIE方法的某些驅(qū)動程序旨在應對使用中文的獨特挑戰(zhàn),但在許多中英文雙語的NLP關(guān)鍵任務中,ERNIE 2的性能均優(yōu)于BERT和XLNet。
NLP領(lǐng)域正處于快速變化的時期,但是在不到18個月的時間里,預訓練的深度學習解決方案至少有四項重大突破,并且沒有理由相信不會有更多的突破。
聯(lián)系客服