自然語言處理的蓬勃發(fā)展及其未來

2019.10.17

數(shù)據(jù)和計算機科學家已經(jīng)進行了很長時間的研究，以提高從自然語言中獲取含義的能力–無論是他們試圖創(chuàng)建一個機器人來響應用戶在其網(wǎng)站上的問題還是確定人們在Twitter上喜歡或討厭他們的品牌。

壞消息是，我們?nèi)匀恍枰斫獯罅扛拍顏碚{(diào)整結(jié)果；好消息是，即使使用適度大小的數(shù)據(jù)集和計算預算，使用BERT和ERNIE之類的工具，也比以往任何時候都更容易獲得從自然語言處理（NLP）獲得好的結(jié)果！

NLP的簡要歷史

讓我們從簡要回顧該學科的歷史開始。可以將NLP系統(tǒng)的開發(fā)分為三個主要階段：

規(guī)則引擎 —早期，大多數(shù)NLP系統(tǒng)都是基于復雜的手寫規(guī)則集。好消息是他們很容易理解，但是做得不好，可以解釋，但不太準確
統(tǒng)計推論 —在80年代，研究人員開始使用'隱性馬爾可夫模型'使用'部分詞性標注'（標記名詞，動詞等）來返回單詞的統(tǒng)計可能含義以及它們之間的關(guān)系
深度學習 -在過去的十年中，神經(jīng)網(wǎng)絡已成為解決大多數(shù)非平凡的NLP問題的最常用方法，可以提高特定類別的NLP任務的性能

在過去十年中，深度學習已改變了NLP的實踐。無論您是嘗試實現(xiàn)機器翻譯、問題回答、簡短文本分類還是情感分析，都有深度學習工具可用來幫助解決這些問題。但是，從歷史上看，創(chuàng)建正確的網(wǎng)絡然后對其進行訓練的過程需要大量時間，專業(yè)知識，龐大的數(shù)據(jù)集和大量的計算能力。

ELMO

NLP 的整個革命源于2018年初的論文?ELMo（Embeddings from Language Models）。ELMo是一種使用深度雙向語言模型的，該模型在大型文本語料庫上進行了預訓練，以提高一系列NLP任務的性能。

這意味著什么？讓我們分解一下。'深度'指的是它正在使用多層神經(jīng)網(wǎng)絡（例如在'深度學習'中）。雙向的？嗯，歷史上大多數(shù)語言模型都是單向的，因此對于英語，他們會從左到右讀取單詞。在雙向模型中，所有單詞都被同時攝取。如果進行了足夠的訓練，可以更準確地推斷出上下文。預訓練意味著已經(jīng)在非常大的通用語言數(shù)據(jù)集上訓練了模型。在圖像識別和NLP中都顯示了預訓練，可以大大提高準確性和/或減少模型最終訓練所需的時間和成本。

谷歌的BERT

在2018年11月，Google提出BERT，Bidirectional Encoder Representations from Transformers。這是用于上下文預訓練的新技術(shù)。上下文意味著它考慮了給定單詞周圍的單詞，因此與上下文無關(guān)模型不同，銀行在'銀行帳戶'和'河岸'中的概念并不相同。

BERT利用了許多現(xiàn)有方法,包括ELMo和。BERT的核心優(yōu)勢在于，它可以屏蔽任何給定輸入短語中的不同單詞，然后估算可能能夠'填充該位置'的各種單詞的可能性。

除了打破許多處理基于語言的任務的記錄外，BERT還大大降低了訓練語言模型的成本和復雜性。正如他們在陳述，'在這個版本中，世界上任何人可以訓練自己的國家的最先進的問答系統(tǒng)，在約30分鐘的單云TPU，或只需幾個小時即可使用一個GPU。

要實現(xiàn)諸如情感分析之類的分類任務，只需要在Transformer輸出的頂部添加一個分類層即可。

對于必須將問題映射到較大文本正文中的問題回答任務，請為文本中任何給定問題的答案的起點和終點添加兩個額外的向量。

對于命名實體識別（NER-識別特定實體，例如人，公司或產(chǎn)品），可以通過將每個令牌的輸出向量輸入到預測NER標簽的分類層中來訓練模型，因此它只是另一個分類器。最重要的是，即使數(shù)據(jù)集少，經(jīng)驗有限，使用BERT也可以在非常短的時間內(nèi)創(chuàng)建最新的NLP模型。

XLNet

BERT的操作方式存在兩個弱點。通過將其掩蓋的單詞視為獨立詞，它不會從訓練數(shù)據(jù)中學到很多東西，并且由于未將掩碼令牌傳遞到輸出，因此降低了微調(diào)結(jié)果的有效性。

在2019年6月，Google Brain團隊的成員發(fā)表了XLNet，通過使用一種稱為'置換語言建模'的技術(shù)避免了BERT遭受的問題。在置換語言建模中，像傳統(tǒng)語言模型一樣，模型被訓練為在給定上下文的情況下預測一個令牌，但不是順序地預測令牌，而是以隨機順序預測它們。最重要的是，XLNet在許多關(guān)鍵的NLP任務上均勝過BERT，并提高了技術(shù)水平。

ERNIE

在計算效率，百度研究團隊不甘示弱，于2019年推出ERNIE，隨后于2019年7月推出ERNIE 2.0。ERNIE代表通過kNowledge IntEgration實現(xiàn)卷積增強表示，把BERT許多概念統(tǒng)在一起，但也匹配來自其他資源（如百科全書，新聞媒體和在線論壇）的語義元素信息。例如，知道哈爾濱是中國黑龍江省的省會，哈爾濱是冬季結(jié)冰和積雪的城市，那么與BERT這樣的模型相比，它可以更好地執(zhí)行許多NLP任務它對世界的了解以及正在接受培訓的文本。盡管ERNIE方法的某些驅(qū)動程序旨在應對使用中文的獨特挑戰(zhàn)，但在許多中英文雙語的NLP關(guān)鍵任務中，ERNIE 2的性能均優(yōu)于BERT和XLNet。