NewBeeNLP公眾號(hào)原創(chuàng)出品
公眾號(hào)專欄作者 @lucy
北航博士在讀 · 文本挖掘/事件抽取方向
本系列文章總結(jié)自然語(yǔ)言處理(NLP)中最基礎(chǔ)最常用的「文本分類」任務(wù),主要包括以下幾大部分:
文本分類是自然語(yǔ)言處理中最基本,也是最重要的任務(wù)。由于深度學(xué)習(xí)的成功,在過(guò)去十年里該領(lǐng)域的相關(guān)研究激增。鑒于已有的文獻(xiàn)已經(jīng)提出了許多方法,數(shù)據(jù)集和評(píng)估指標(biāo),因此更加需要對(duì)上述內(nèi)容進(jìn)行全面的總結(jié)。
本文通過(guò)回顧1961年至2020年的最新方法填補(bǔ)來(lái)這一空白,主要側(cè)重于從淺層學(xué)習(xí)模型到深度學(xué)習(xí)模型。我們首先根據(jù)方法所涉及的文本,以及用于特征提取和分類的模型,構(gòu)建了一個(gè)對(duì)不同方法進(jìn)行分類的規(guī)則。然后我們將詳細(xì)討論每一種類別的方法,涉及該方法相關(guān)預(yù)測(cè)技術(shù)的發(fā)展和基準(zhǔn)數(shù)據(jù)集。
此外,本綜述還提供了不同方法之間的全面比較,并確定了各種評(píng)估指標(biāo)的優(yōu)缺點(diǎn)。最后,我們總結(jié)了該研究領(lǐng)域的關(guān)鍵影響因素,未來(lái)研究方向以及所面臨的挑戰(zhàn)。
本部分按年份時(shí)間順序整理了文本分類任務(wù)相關(guān)的深度模型。
介紹了一種新穎地基于遞歸自動(dòng)編碼器機(jī)器學(xué)習(xí)框架,用于句子級(jí)地情感標(biāo)簽分布預(yù)測(cè)。該方法學(xué)習(xí)多詞短語(yǔ)的向量空間表示。在情感預(yù)測(cè)任務(wù)中,這些表示優(yōu)于常規(guī)數(shù)據(jù)集(例如電影評(píng)論)上的其他最新方法,而無(wú)需使用任何預(yù)定義的情感詞典或極性轉(zhuǎn)換規(guī)則。
論文還將根據(jù)經(jīng)驗(yàn)項(xiàng)目上的效果來(lái)評(píng)估模型在新數(shù)據(jù)集上預(yù)測(cè)情緒分布的能力。數(shù)據(jù)集由帶有多個(gè)標(biāo)簽的個(gè)人用戶故事組成,這些標(biāo)簽匯總后形成捕獲情感反應(yīng)的多項(xiàng)分布。與其他幾個(gè)具有競(jìng)爭(zhēng)力的baseline相比,我們的算法可以更準(zhǔn)確地預(yù)測(cè)此類標(biāo)簽的分布。
基于單個(gè)詞的向量空間模型在學(xué)習(xí)詞匯信息方面非常成功。但是,它們無(wú)法捕獲較長(zhǎng)短語(yǔ)的組成含義,從而阻止了它們更深入理解地理解語(yǔ)言。本文介紹了一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型,該模型學(xué)習(xí)任意句法類型和長(zhǎng)度的短語(yǔ)或句子的成分向量表示。
模型為解析樹(shù)中的每個(gè)節(jié)點(diǎn)分配一個(gè)向量和一個(gè)矩陣:其中向量捕獲成分的固有含義,而矩陣捕獲其如何改變相鄰單詞或短語(yǔ)的含義。該矩陣-向量RNN可以學(xué)習(xí)命題邏輯和自然語(yǔ)言中算子的含義。該模型在三種不同的實(shí)驗(yàn)中均獲得了SOTA效果:預(yù)測(cè)副詞-形容詞對(duì)的細(xì)粒度情緒分布;對(duì)電影評(píng)論的情感標(biāo)簽進(jìn)行分類,并使用名詞之間的句法路徑對(duì)名詞之間的因果關(guān)系或主題消息等語(yǔ)義關(guān)系進(jìn)行分類。
盡管語(yǔ)義詞空間在語(yǔ)義表征方面效果很好,但卻不能從原理上表達(dá)較長(zhǎng)短語(yǔ)的含義。在諸如情緒檢測(cè)等任務(wù)中的詞語(yǔ)組合性理解方向的改進(jìn)需要更豐富的監(jiān)督訓(xùn)練和評(píng)估資源, 以及更強(qiáng)大的合成模型。
為了解決這個(gè)問(wèn)題,我們引入了一個(gè)情感樹(shù)庫(kù)。它在11,855個(gè)句子的語(yǔ)法分析樹(shù)中包含215,154個(gè)短語(yǔ)的細(xì)粒度情感標(biāo)簽,并在情感組成性方面提出了新挑戰(zhàn)。為了解決這些問(wèn)題,我們引入了遞歸神經(jīng)張量網(wǎng)絡(luò)。在新的樹(shù)庫(kù)上進(jìn)行訓(xùn)練后,該模型在多個(gè)評(píng)價(jià)指標(biāo)上效果優(yōu)于之前的所有方法。它使單句正/負(fù)分類的最新技術(shù)水平從80%上升到85.4%。預(yù)測(cè)所有短語(yǔ)的細(xì)粒度情感標(biāo)簽的準(zhǔn)確性達(dá)到80.7%,相較于基準(zhǔn)工作提高了9.7%。此外,它也是是唯一一個(gè)可以在正面和負(fù)面短語(yǔ)的各個(gè)樹(shù)級(jí)別準(zhǔn)確捕獲消極影響及其范圍的模型。
我們?cè)诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)上進(jìn)行一系列實(shí)驗(yàn),這些卷積神經(jīng)網(wǎng)絡(luò)在針對(duì)句子級(jí)別分類任務(wù)的預(yù)訓(xùn)練單詞向量的基礎(chǔ)上進(jìn)行了訓(xùn)練。實(shí)驗(yàn)證明,幾乎沒(méi)有超參數(shù)調(diào)整和靜態(tài)矢量的簡(jiǎn)單CNN在多個(gè)基準(zhǔn)上均能實(shí)現(xiàn)出色的結(jié)果。
通過(guò)微調(diào)來(lái)學(xué)習(xí)針對(duì)特定任務(wù)的單詞向量可進(jìn)一步提高性能。此外,我們還提出了對(duì)體系結(jié)構(gòu)進(jìn)行簡(jiǎn)單的修改,以讓模型能同時(shí)使用針對(duì)特定任務(wù)的單詞向量和靜態(tài)向量。本文討論的CNN模型在7個(gè)任務(wù)中的4個(gè)上超過(guò)了現(xiàn)有的SOTA效果,其中包括情感分析和問(wèn)題分類。
準(zhǔn)確的句子表征能力對(duì)于理解語(yǔ)言至關(guān)重要。本文提出了一種被稱為動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Convolutional Neural Network , DCNN)的卷積體系結(jié)構(gòu),用來(lái)對(duì)句子的語(yǔ)義建模。網(wǎng)絡(luò)使用一種線性序列上的全局池化操作,稱為動(dòng)態(tài)k-Max池化。網(wǎng)絡(luò)處理長(zhǎng)度可變的輸入句子,并通過(guò)句子來(lái)生成特征圖, 該特征圖能夠顯式捕獲句中的短期和長(zhǎng)期關(guān)系。該網(wǎng)絡(luò)不依賴于語(yǔ)法分析樹(shù),并且很容易適用于任何語(yǔ)言。
本文在四個(gè)實(shí)驗(yàn)中測(cè)試了DCNN:小規(guī)模的二類和多類別情感預(yù)測(cè),六向問(wèn)題分類以及通過(guò)遠(yuǎn)程監(jiān)督的Twitter情感預(yù)測(cè)。相對(duì)于目前效果最好的基準(zhǔn)工作,本文的網(wǎng)絡(luò)在前三個(gè)任務(wù)中標(biāo)系出色的性能,并且在最后一個(gè)任務(wù)中將錯(cuò)誤率減少了25%以上。
許多機(jī)器學(xué)習(xí)算法要求將輸入表示為固定長(zhǎng)度的特征向量。當(dāng)涉及到文本時(shí),詞袋模型是最常見(jiàn)的表示形式之一。盡管非常流行,但詞袋模型有兩個(gè)主要缺點(diǎn):丟失了單詞的順序信息,并且也忽略了單詞的語(yǔ)義含義。例如在詞袋中,“powerful”,“strong”和“Paris”的距離相等(但根據(jù)語(yǔ)義含義,顯然“powerful”和”strong”的距離應(yīng)該更近)。
因此在本文中,作者提出了一種無(wú)監(jiān)督算法,用于學(xué)習(xí)句子和文本文檔的向量表示。該算法用一個(gè)密集矢量來(lái)表示每個(gè)文檔,經(jīng)過(guò)訓(xùn)練后該向量可以預(yù)測(cè)文檔中的單詞。它的構(gòu)造使本文的算法可以克服單詞袋模型的缺點(diǎn)。實(shí)驗(yàn)結(jié)果表明,本文的技術(shù)優(yōu)于詞袋模型以及其他用于文本表示的技術(shù)。最后,本文在幾個(gè)文本分類和情感分析任務(wù)上獲得了SOTA效果。
本文提出了通過(guò)字符級(jí)卷積網(wǎng)絡(luò)(ConvNets)進(jìn)行文本分類的實(shí)證研究。本文構(gòu)建了幾個(gè)大型數(shù)據(jù)集,以證明字符級(jí)卷積網(wǎng)絡(luò)可以達(dá)到SOTA結(jié)果或者得到具有競(jìng)爭(zhēng)力的結(jié)果??梢耘c傳統(tǒng)模型(例如bag of words,n-grams 及其 TFIDF變體)以及深度學(xué)習(xí)模型(例如基于單詞的ConvNets和RNN)進(jìn)行比較。
由于具有較強(qiáng)的序列長(zhǎng)期依賴保存能力,具有更復(fù)雜的計(jì)算單元的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)在各種序列建模任務(wù)上都取得了出色的結(jié)果。然而,現(xiàn)有研究探索過(guò)的唯一底層LSTM結(jié)構(gòu)是線性鏈。由于自然語(yǔ)言具有句法屬性, 因此可以自然地將單詞與短語(yǔ)結(jié)合起來(lái)。
本文提出了Tree-LSTM,它是LSTM在樹(shù)形拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)上的擴(kuò)展。Tree-LSTM在下面兩個(gè)任務(wù)上的表現(xiàn)優(yōu)于所有現(xiàn)有模型以及強(qiáng)大的LSTM基準(zhǔn)方法:預(yù)測(cè)兩個(gè)句子的語(yǔ)義相關(guān)性(SemEval 2014,任務(wù)1)和情感分類(Stanford情感樹(shù)庫(kù))。
現(xiàn)有的許多用于自然語(yǔ)言處理任務(wù)的深度學(xué)習(xí)模型都專注于學(xué)習(xí)不同輸入的語(yǔ)義合成性, 然而這需要許多昂貴的計(jì)算。本文提出了一個(gè)簡(jiǎn)單的深度神經(jīng)網(wǎng)絡(luò),它在情感分析和事實(shí)類問(wèn)題解答任務(wù)上可以媲美,并且在某些情況下甚至勝過(guò)此類模型,并且只需要少部分訓(xùn)練事件。盡管本文的模型對(duì)語(yǔ)法并不敏感, 但通過(guò)加深網(wǎng)絡(luò)并使用一種新型的輟學(xué)變量,模型相較于以前的單詞袋模型上表現(xiàn)出顯著的改進(jìn)。
此外,本文的模型在具有高句法差異的數(shù)據(jù)集上的表現(xiàn)要比句法模型更好。實(shí)驗(yàn)表明,本文的模型與語(yǔ)法感知模型存在相似的錯(cuò)誤,表明在本文所考慮的任務(wù)中,非線性轉(zhuǎn)換輸入比定制網(wǎng)絡(luò)以合并單詞順序和語(yǔ)法更重要。
文本分類是眾多NLP應(yīng)用中的一項(xiàng)基本任務(wù)。傳統(tǒng)的文本分類器通常依賴于許多人工設(shè)計(jì)的特征工程,例如字典,知識(shí)庫(kù)和特殊的樹(shù)形內(nèi)核。與傳統(tǒng)方法相比,本文引入了循環(huán)卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行文本分類,而無(wú)需手工設(shè)計(jì)的特征或方法。
在本文的模型中,當(dāng)學(xué)習(xí)單詞表示時(shí),本文應(yīng)用遞歸結(jié)構(gòu)來(lái)盡可能地捕獲上下文信息,相較于傳統(tǒng)的基于窗口的神經(jīng)網(wǎng)絡(luò),這種方法帶來(lái)的噪聲更少。本文還采用了一個(gè)最大池化層,該層可以自動(dòng)判斷哪些單詞在文本分類中起關(guān)鍵作用,以捕獲文本中的關(guān)鍵組成部分。
本文在四個(gè)常用數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明,本文所提出的模型在多個(gè)數(shù)據(jù)集上,特別是在文檔級(jí)數(shù)據(jù)集上,優(yōu)于最新方法。
在本文中,作者解決了如何在處理結(jié)構(gòu)化輸入時(shí)更好地呈現(xiàn)序列網(wǎng)絡(luò)的問(wèn)題。本文提出了一種機(jī)器閱讀模擬器,該模擬器可以從左到右遞增地處理文本,并通過(guò)記憶和注意力進(jìn)行淺層推理。閱讀器使用存儲(chǔ)網(wǎng)絡(luò)代替單個(gè)存儲(chǔ)單元來(lái)對(duì)LSTM結(jié)構(gòu)進(jìn)行擴(kuò)展。這可以在神經(jīng)注意力循環(huán)計(jì)算時(shí)啟用自適應(yīng)內(nèi)存使用,從而提供一種弱化token之間關(guān)系的方法。該系統(tǒng)最初設(shè)計(jì)為處理單個(gè)序列,但本文還將演示如何將其與編碼器-解碼器體系結(jié)構(gòu)集成。在語(yǔ)言建模,情感分析和自然語(yǔ)言推理任務(wù)上的實(shí)驗(yàn)表明,本文的模型與SOTA相媲美,甚至優(yōu)于目前的SOTA。
基于神經(jīng)網(wǎng)絡(luò)的方法已經(jīng)在各種自然語(yǔ)言處理任務(wù)上取得了長(zhǎng)足的進(jìn)步。然而在以往的大多數(shù)工作中,都是基于有監(jiān)督的單任務(wù)目標(biāo)進(jìn)行模型訓(xùn)練,而這些目標(biāo)通常會(huì)受訓(xùn)練數(shù)據(jù)不足的困擾。在本文中,作者使用多任務(wù)學(xué)習(xí)框架來(lái)共同學(xué)習(xí)多個(gè)相關(guān)任務(wù)(相對(duì)于多個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)可以共享)。
本文提出了三種不同的基于遞歸神經(jīng)網(wǎng)絡(luò)的信息共享機(jī)制,以針對(duì)特定任務(wù)和共享層對(duì)文本進(jìn)行建模。整個(gè)網(wǎng)絡(luò)在這些任務(wù)上進(jìn)行聯(lián)合訓(xùn)練。在四個(gè)基準(zhǔn)文本分類任務(wù)的實(shí)驗(yàn)表明,模型在某一任務(wù)下的性能可以在其他任務(wù)的幫助下得到提升。
本文提出了一種用于文檔分類的層次注意力網(wǎng)絡(luò)。該模型具有兩個(gè)鮮明的特征:(1)具有分層模型結(jié)構(gòu),能反應(yīng)對(duì)應(yīng)層次的文檔結(jié)構(gòu);(2)它在單詞和句子級(jí)別上應(yīng)用了兩個(gè)級(jí)別的注意機(jī)制,使它在構(gòu)建文檔表征時(shí)可以有區(qū)別地對(duì)待或多或少的重要內(nèi)容。
在六個(gè)大型文本分類任務(wù)上進(jìn)行的實(shí)驗(yàn)表明,本文所提出的分層體系結(jié)構(gòu)在很大程度上優(yōu)于先前的方法。此外,注意力層的可視化說(shuō)明該模型定性地選擇了富有主要信息的詞和句子。
本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的新框架,以識(shí)別評(píng)論中意見(jiàn)目標(biāo)的情緒。本文的框架采用多注意機(jī)制來(lái)捕獲相距較遠(yuǎn)的情感特征,因此對(duì)于不相關(guān)的信息魯棒性更高。多重注意力的結(jié)果與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)行非線性組合,從而增強(qiáng)了模型在處理更多并發(fā)情況時(shí)的表達(dá)能力。加權(quán)內(nèi)存機(jī)制不僅避免了工作量大的特征工程工作,而且還為句子的不同意見(jiàn)目標(biāo)提供了對(duì)應(yīng)的記憶特征。
在四個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了模型的優(yōu)點(diǎn):兩個(gè)來(lái)自SemEval2014,該數(shù)據(jù)集包含了例如餐館和筆記本電腦的評(píng)論信息; 一個(gè)Twitter數(shù)據(jù)集,用于測(cè)試其在社交媒體數(shù)據(jù)上的效果;以及一個(gè)中文新聞評(píng)論數(shù)據(jù)集,用于測(cè)試其語(yǔ)言敏感性。實(shí)驗(yàn)結(jié)果表明,本文的模型在不同類型的數(shù)據(jù)上始終優(yōu)于SOTA方法。
方面級(jí)別(aspect-level)的情感分類旨在識(shí)別特定目標(biāo)在其上下文中的情感極性。先前的方法已經(jīng)意識(shí)到情感目標(biāo)在情感分類中的重要性,并開(kāi)發(fā)了各種方法,目的是通過(guò)生成特定于目標(biāo)的表示來(lái)對(duì)上下文進(jìn)行精確建模。但是,這些研究始終忽略了目標(biāo)的單獨(dú)建模。
在本文中,作者認(rèn)為目標(biāo)和上下文都應(yīng)受到特殊對(duì)待,需要通過(guò)交互式學(xué)習(xí)來(lái)學(xué)習(xí)它們自己的特征表示。因此,作者提出了交互式注意力網(wǎng)絡(luò)(interactive attention networks , IAN),以交互方式學(xué)習(xí)上下文和目標(biāo)中的注意力信息,并分別生成目標(biāo)和上下文的特征表示。通過(guò)這種設(shè)計(jì),IAN模型可以很好地表示目標(biāo)及其搭配上下文,這有助于情感分類。在SemEval 2014數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本文模型的有效性。
本文提出了一種用于文本分類的低復(fù)雜度的詞語(yǔ)級(jí)深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu),該架構(gòu)可以有效地對(duì)文本中的遠(yuǎn)程關(guān)聯(lián)進(jìn)行建模。在以往的研究中,已經(jīng)有多種復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)已經(jīng)被用于該任務(wù),當(dāng)然前提是可獲得相對(duì)大量的訓(xùn)練數(shù)據(jù)。然而隨著網(wǎng)絡(luò)的深入,相關(guān)的計(jì)算復(fù)雜性也會(huì)增加,這對(duì)網(wǎng)絡(luò)的實(shí)際應(yīng)用提出了嚴(yán)峻的挑戰(zhàn)。
此外,最近的研究表明,即使在設(shè)置大量訓(xùn)練數(shù)據(jù)的情況下,較淺的單詞級(jí)CNN也比諸如字符級(jí)CNN之類的深度網(wǎng)絡(luò)更準(zhǔn)確,且速度更快。受這些發(fā)現(xiàn)的啟發(fā),本文仔細(xì)研究了單詞級(jí)CNN的深度化以捕獲文本的整體表示,并找到了一種簡(jiǎn)單的網(wǎng)絡(luò)體系結(jié)構(gòu),在該體系結(jié)構(gòu)下,可以通過(guò)增加網(wǎng)絡(luò)深度來(lái)獲得最佳精度,且不會(huì)大量增加計(jì)算成本。相應(yīng)的模型被稱為深度金字塔CNN(pyramid-CNN)。在情感分類和主題分類任務(wù)的六個(gè)基準(zhǔn)數(shù)據(jù)集上,本文提出的具有15個(gè)權(quán)重層的模型優(yōu)于先前的SOTA模型。
本文探討了一種簡(jiǎn)單有效的文本分類基準(zhǔn)。實(shí)驗(yàn)表明,本文的快速文本分類器fastText在準(zhǔn)確性方面可以與深度學(xué)習(xí)分類器相提并論,而訓(xùn)練和預(yù)測(cè)速度要快多個(gè)數(shù)量級(jí)??梢允褂脴?biāo)準(zhǔn)的多核CPU在不到十分鐘的時(shí)間內(nèi)在超過(guò)十億個(gè)單詞的數(shù)據(jù)集上訓(xùn)練fastText,并在一分鐘之內(nèi)對(duì)屬于312K個(gè)類別的50萬(wàn)個(gè)句子進(jìn)行分類。
ok,不知不覺(jué)接近一萬(wàn)字,為了方便大家精準(zhǔn)討論,我們新建立了文本分類討論組,歡迎過(guò)來(lái)玩耍~ 如果下方二維碼過(guò)期或者人滿,可以添加微信『text_b』,手動(dòng)邀請(qǐng)你呀
A Survey on Text Classification: From Shallow to Deep Learning,2020: https://arxiv.org/pdf/2008.00364.pdf
[2]Semi-supervised recursive autoencoders forpredicting sentiment distributions: https://www.aclweb.org/anthology/D11-1014/
[3]Semantic compositionality through recursive matrix-vector spaces: https://www.aclweb.org/anthology/D12-1110/
[4]Recursive deep models for semantic compositionality over a sentiment treebank: https://www.aclweb.org/anthology/D13-1170/
[5]Convolutional Neural Networks for Sentence Classification: https://www.aclweb.org/anthology/D14-1181.pdf
[6]A convolutional neural network for modelling sentences: https://doi.org/10.3115/v1/p14-1062
[7]Distributed representations of sentences and documents: http://proceedings.mlr.press/v32/le14.html
[8]Character-level convolutional networks for text classification: http://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification
[9]Improved semantic representations from tree-structured long short-term memory networks: https://doi.org/10.3115/v1/p15-1150
[10]Deep unordered composition rivals syntactic methods for text classification: https://doi.org/10.3115/v1/p15-1162
[11]Recurrent convolutional neural networks for text classification: http://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9745
[12]Long short-term memory-networks for machine reading: https://doi.org/10.18653/v1/d16-1053
[13]Recurrent neural network for text classification with multi-task learning: https://www.ijcai.org/Abstract/16/408
[14]Hierarchical attention networks for document classification: https://doi.org/10.18653/v1/n16-1174
[15]Recurrent Attention Network on Memory for Aspect Sentiment Analysis: https://www.aclweb.org/anthology/D17-1047/
[16]Interactive attention networks for aspect-level sentiment classification: https://www.ijcai.org/Proceedings/2017/568
[17]Deep pyramid convolutional neural networks for text categorization: https://doi.org/10.18653/v1/P17-1052
[18]Bag of tricks for efficient text classification: https://doi.org/10.18653/v1/e17-2068
- END -
聯(lián)系客服