選自arXiv,作者:Sam Wiseman、Stuart M.Shieber、Alexander M.Rush ,機(jī)器之心編譯,參與:高璇、王淑婷。
雖然神經(jīng)編碼器-解碼器模型在文本生成方面取得了很大的成功,但這種生成方式仍存在一些尚未解決的問題。而本文提出了一種使用隱藏的半馬爾可夫模型(HSMM)解碼器的神經(jīng)生成系統(tǒng),可以學(xué)習(xí)潛在的離散模板并生成。
隨著編碼器-解碼器模型在機(jī)器翻譯及其相關(guān)任務(wù)中不斷取得成功,人們對(duì)用該模型構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的通用自然語言生成(NLG)系統(tǒng) (Mei et al., 2016; Dusek and Jurc?cek ˇ , 2016; Lebret et al., 2016; Chisholm et al., 2017; Wiseman et al., 2017) 的興趣大增。這些編碼器-解碼器模型 (Sutskever et al., 2014; Cho et al., 2014; Bahdanau et al., 2015) 使用神經(jīng)編碼器模型來表示源知識(shí)庫(kù),并以源編碼為條件,用解碼器模型逐字進(jìn)行文本描述。這種生成方式與 NLG 中更為傳統(tǒng)的分工方式形成了鮮明對(duì)比,NLG 著重強(qiáng)調(diào)分別解決「說什么」和「如何說」這兩個(gè)問題,又因此形成了具有明確內(nèi)容選擇、宏觀和微觀計(jì)劃、表面實(shí)現(xiàn)組件的系統(tǒng)。
編碼器-解碼器生成系統(tǒng)可以提高 NLG 輸出的流暢性,同時(shí)減少所需的手動(dòng)操作。然而,由于通用編碼器-解碼器模型的黑箱特性,這些系統(tǒng)在很大程度上犧牲了兩個(gè)在更傳統(tǒng)系統(tǒng)中常見的重要需求,即(a)在形式和內(nèi)容上易于控制的(b)可解釋輸出。
本研究考慮構(gòu)建可解釋和可控的神經(jīng)生成系統(tǒng),并提出了具體的第一步:建立一種數(shù)據(jù)驅(qū)動(dòng)的新生成模型,以學(xué)習(xí)條件文本生成的離散、模版式結(jié)構(gòu)。核心系統(tǒng)使用一種新穎的神經(jīng)隱藏半馬爾可夫模型(HSMM)解碼器,它為模板式文本生成提供了一種原則性方法。研究人員進(jìn)一步描述了通過反向傳播推導(dǎo)以完全數(shù)據(jù)驅(qū)動(dòng)的方式訓(xùn)練該模型的有效方法。由神經(jīng) HSMM 引起的模版式結(jié)構(gòu)生成明確表示了「系統(tǒng)打算說什么」(以學(xué)習(xí)到的模板形式)以及「它想如何說」(以實(shí)例化模板的形式)。
研究人員可以實(shí)現(xiàn)與其它神經(jīng) NLG 方法媲美的性能,同時(shí)滿足上述兩個(gè)需求。實(shí)驗(yàn)表明,可以在產(chǎn)生顯式模板(如圖 1 所示)的同時(shí)獲得有競(jìng)爭(zhēng)力的自動(dòng)分?jǐn)?shù),并且可以通過操縱這些模板來控制和解釋生成。最后,雖然實(shí)驗(yàn)側(cè)重于從數(shù)據(jù)到文本的形式,但該方法代表了一種學(xué)習(xí)條件文本的離散、潛變量表示的方法。
圖 1:E2E 生成數(shù)據(jù)集 (Novikova et al., 2017) 中的模版式生成示例。知識(shí)庫(kù) x(上)包含 6 條記錄,y?(中)是系統(tǒng)生成; 記錄顯示為 [value] 類型。系統(tǒng)會(huì)學(xué)習(xí)生成的神經(jīng)模板(下)并將其用于生成 y?。每個(gè)單元格代表學(xué)習(xí)段中的一個(gè)片段,「空白」表示在生成期間通過復(fù)制產(chǎn)生的填空位置。
論文:Learning Neural Templates for Text Generation
論文鏈接:https://arxiv.org/pdf/1808.10122v1.pdf
摘要:雖然神經(jīng)編碼器-解碼器模型在文本生成方面取得了很大的成功,但這種生成方式仍存在一些尚未解決的問題。編碼器-解碼器模型在很大程度上無法解釋文本,并且難以控制其措辭或內(nèi)容。本文提出了一種使用隱藏的半馬爾可夫模型(HSMM)解碼器的神經(jīng)生成系統(tǒng),它學(xué)習(xí)潛在的、離散的模板并生成。我們展示了該模型學(xué)習(xí)有用模板的能力,并且這些模板讓生成變得更具解釋性和可控性。
圖 3:通過 HSMM 因子圖(在已知的分段下)來說明參數(shù)。這里我們假設(shè) z1 處于「紅色」?fàn)顟B(tài)(K 個(gè)可能性中的一種),并且在發(fā)出三個(gè)單詞后變?yōu)椤杆{(lán)色」?fàn)顟B(tài)。如 T 所示的轉(zhuǎn)換模型是兩個(gè)狀態(tài)和神經(jīng)編碼源 x 的函數(shù)。發(fā)射模型是「紅色」RNN 模型(注意力超過 x)的函數(shù),產(chǎn)生單詞 1、2 和 3。轉(zhuǎn)換后,下一個(gè)單詞 y4 由「藍(lán)色」RNN 生成,且獨(dú)立于之前的詞。
表 1:Dusek 和 Jurc?cek ˇ(2016)系統(tǒng)對(duì)比,后者構(gòu)成了 E2E challenge 基線、基于替代的非參數(shù)基線(見文本),以及我們?cè)?E2E 數(shù)據(jù)集上用于驗(yàn)證和測(cè)試的 HSMM 模型(非自回歸和自回歸版本分別表示為「NTemp」和「NTemp + AR」)?!窻OUGE」是 ROUGE-L。模型通過官方 E2E NLG Challenge 評(píng)分腳本來評(píng)估。
表 3:改變模板 z(i)對(duì) E2E 驗(yàn)證數(shù)據(jù)中單個(gè) x 的影響;使用所選 z(i)的分段來注釋生成。使用表 1 中的 NTemp + AR 模型獲得結(jié)果。
聯(lián)系客服