九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
自然語言處理的蓬勃發(fā)展及其未來

數(shù)據(jù)和計算機科學家已經(jīng)進行了很長時間的研究,以提高從自然語言中獲取含義的能力–無論是他們試圖創(chuàng)建一個機器人來響應用戶在其網(wǎng)站上的問題還是確定人們在Twitter上喜歡或討厭他們的品牌。

壞消息是,我們?nèi)匀恍枰斫獯罅扛拍顏碚{(diào)整結(jié)果;好消息是,即使使用適度大小的數(shù)據(jù)集和計算預算,使用BERT和ERNIE之類的工具,也比以往任何時候都更容易獲得從自然語言處理(NLP)獲得好的結(jié)果!

NLP的簡要歷史

讓我們從簡要回顧該學科的歷史開始。可以將NLP系統(tǒng)的開發(fā)分為三個主要階段:

  • 規(guī)則引擎 —早期,大多數(shù)NLP系統(tǒng)都是基于復雜的手寫規(guī)則集。好消息是他們很容易理解,但是做得不好,可以解釋,但不太準確
  • 統(tǒng)計推論 —在80年代,研究人員開始使用'隱性馬爾可夫模型'使用'部分詞性標注'(標記名詞,動詞等)來返回單詞的統(tǒng)計可能含義以及它們之間的關(guān)系
  • 深度學習 -在過去的十年中,神經(jīng)網(wǎng)絡已成為解決大多數(shù)非平凡的NLP問題的最常用方法,可以提高特定類別的NLP任務的性能

在過去十年中,深度學習已改變了NLP的實踐。無論您是嘗試實現(xiàn)機器翻譯、問題回答、簡短文本分類還是情感分析,都有深度學習工具可用來幫助解決這些問題。但是,從歷史上看,創(chuàng)建正確的網(wǎng)絡然后對其進行訓練的過程需要大量時間,專業(yè)知識,龐大的數(shù)據(jù)集和大量的計算能力。

ELMO

NLP 的整個革命源于2018年初的論文?ELMo(Embeddings from Language Models)。ELMo是一種使用深度雙向語言模型的,該模型在大型文本語料庫上進行了預訓練,以提高一系列NLP任務的性能。

這意味著什么?讓我們分解一下。'深度'指的是它正在使用多層神經(jīng)網(wǎng)絡(例如在'深度學習'中)。雙向的?嗯,歷史上大多數(shù)語言模型都是單向的,因此對于英語,他們會從左到右讀取單詞。在雙向模型中,所有單詞都被同時攝取。如果進行了足夠的訓練,可以更準確地推斷出上下文。預訓練意味著已經(jīng)在非常大的通用語言數(shù)據(jù)集上訓練了模型。在圖像識別和NLP中都顯示了預訓練,可以大大提高準確性和/或減少模型最終訓練所需的時間和成本。

谷歌的BERT

在2018年11月,Google提出BERT,Bidirectional Encoder Representations from Transformers。這是用于上下文預訓練的新技術(shù)。上下文意味著它考慮了給定單詞周圍的單詞,因此與上下文無關(guān)模型不同,銀行在'銀行帳戶'和'河岸'中的概念并不相同。

BERT利用了許多現(xiàn)有方法,包括ELMo和。BERT的核心優(yōu)勢在于,它可以屏蔽任何給定輸入短語中的不同單詞,然后估算可能能夠'填充該位置'的各種單詞的可能性。

除了打破許多處理基于語言的任務的記錄外,BERT還大大降低了訓練語言模型的成本和復雜性。正如他們在陳述,'在這個版本中,世界上任何人可以訓練自己的國家的最先進的問答系統(tǒng),在約30分鐘的單云TPU,或只需幾個小時即可使用一個GPU。

要實現(xiàn)諸如情感分析之類的分類任務,只需要在Transformer輸出的頂部添加一個分類層即可。

對于必須將問題映射到較大文本正文中的問題回答任務,請為文本中任何給定問題的答案的起點和終點添加兩個額外的向量。

對于命名實體識別(NER-識別特定實體,例如人,公司或產(chǎn)品),可以通過將每個令牌的輸出向量輸入到預測NER標簽的分類層中來訓練模型,因此它只是另一個分類器。最重要的是,即使數(shù)據(jù)集少,經(jīng)驗有限,使用BERT也可以在非常短的時間內(nèi)創(chuàng)建最新的NLP模型。

XLNet

BERT的操作方式存在兩個弱點。通過將其掩蓋的單詞視為獨立詞,它不會從訓練數(shù)據(jù)中學到很多東西,并且由于未將掩碼令牌傳遞到輸出,因此降低了微調(diào)結(jié)果的有效性。

在2019年6月,Google Brain團隊的成員發(fā)表了XLNet,通過使用一種稱為'置換語言建模'的技術(shù)避免了BERT遭受的問題。在置換語言建模中,像傳統(tǒng)語言模型一樣,模型被訓練為在給定上下文的情況下預測一個令牌,但不是順序地預測令牌,而是以隨機順序預測它們。最重要的是,XLNet在許多關(guān)鍵的NLP任務上均勝過BERT,并提高了技術(shù)水平。

ERNIE

在計算效率,百度研究團隊不甘示弱,于2019年推出ERNIE,隨后于2019年7月推出ERNIE 2.0。ERNIE代表通過kNowledge IntEgration實現(xiàn)卷積增強表示,把BERT許多概念統(tǒng)在一起,但也匹配來自其他資源(如百科全書,新聞媒體和在線論壇)的語義元素信息。例如,知道哈爾濱是中國黑龍江省的省會,哈爾濱是冬季結(jié)冰和積雪的城市,那么與BERT這樣的模型相比,它可以更好地執(zhí)行許多NLP任務它對世界的了解以及正在接受培訓的文本。盡管ERNIE方法的某些驅(qū)動程序旨在應對使用中文的獨特挑戰(zhàn),但在許多中英文雙語的NLP關(guān)鍵任務中,ERNIE 2的性能均優(yōu)于BERT和XLNet。

下一步是什么?

NLP領(lǐng)域正處于快速變化的時期,但是在不到18個月的時間里,預訓練的深度學習解決方案至少有四項重大突破,并且沒有理由相信不會有更多的突破。

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
NLP:自然語言領(lǐng)域NLP模型發(fā)展(ELmo→GPT/BERT→MT-DNN→XLNet→RoBERTa→ALBERT)l歷程簡介、重要算法介紹之詳細攻略daiding—已全部遷移新書中
使用 ELECTRA 進行更高效的 NLP 模型預訓練
20項任務橫掃BERT!CMU谷歌發(fā)布XLNet,NLP再迎屠榜時刻
框架|最新最先進的自然語言處理庫介紹,涵蓋BERT,GPT-2等
【深度學習】小白看得懂的BERT原理
《深入淺出Embedding》隨筆
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服