国产成人精品福利网站人,欧美精品久久天天躁免费观看

為什么使用自注意力機(jī)制？

AnonymousV臉 >《手機(jī)電腦類(lèi)知識(shí)的文章》

2018.09.18

關(guān)注

選自arXiv

作者：Gongbo Tang、Mathias Muller、Annette Rios、Rico Sennrich

機(jī)器之心編譯

參與：路

近期，非循環(huán)架構(gòu)（CNN、基于自注意力機(jī)制的 Transformer 模型）在神經(jīng)機(jī)器翻譯任務(wù)中的表現(xiàn)優(yōu)于 RNN，因此有研究者認(rèn)為原因在于 CNN 和自注意力網(wǎng)絡(luò)連接遠(yuǎn)距離單詞的路徑比 RNN 短。本文在主謂一致任務(wù)和詞義消歧任務(wù)上評(píng)估了當(dāng)前 NMT 領(lǐng)域中最流行的三種模型：基于 CNN、RNN 和自注意力機(jī)制的模型，發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果與上述論斷并不一致。該論文已被 EMNLP 2018 接收。

多種不同架構(gòu)對(duì)神經(jīng)機(jī)器翻譯（NMT）都很有效，從循環(huán)架構(gòu) (Kalchbrenner and Blunsom, 2013; Bahdanau et al., 2015; Sutskever et al., 2014; Luong et al., 2015) 到卷積架構(gòu) (Kalchbrenner and Blunsom, 2013; Gehring et al., 2017)，以及最近提出的完全自注意力（Transformer）模型 (Vaswani et al., 2017)。由于框架之間的對(duì)比主要依據(jù) BLEU 值展開(kāi)，因此弄清楚哪些架構(gòu)特性對(duì) BLEU 值有貢獻(xiàn)從本質(zhì)上講是比較困難的。

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）(Elman, 1990) 可以輕松處理可變長(zhǎng)度的輸入句子，因此是 NMT 系統(tǒng)的編碼器和解碼器的自然選擇。RNN 的大部分變體（如 GRU 和 LSTM）解決了訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)的長(zhǎng)距離依賴(lài)難題。Gehring 等人（2017）介紹了一種編碼器和解碼器都基于 CNN 的神經(jīng)架構(gòu)，并報(bào)告其 BLEU 值高于基于 RNN 的 NMT 模型。此外，該模型訓(xùn)練期間對(duì)所有分詞的計(jì)算可以完全并行執(zhí)行，提高了計(jì)算效率。Vaswani 等人（2017）提出 Transformer 模型，該模型完全基于注意力層，沒(méi)有卷積或循環(huán)結(jié)構(gòu)。他們報(bào)告該模型在英語(yǔ)-德語(yǔ)和英語(yǔ)-法語(yǔ)翻譯取得了當(dāng)前最優(yōu)的 BLEU 值。但 BLEU 值指標(biāo)比較粗糙，無(wú)法幫助觀察不同架構(gòu)如何改善機(jī)器翻譯質(zhì)量。

為了解釋 BLEU 值的提高，之前的研究進(jìn)行了理論論證。Gehring 等人（2017）和 Vaswani 等人（2017）都認(rèn)為神經(jīng)網(wǎng)絡(luò)中共依賴(lài)因素（co-dependent element）之間的路徑長(zhǎng)度會(huì)影響模型學(xué)習(xí)這些依賴(lài)關(guān)系的能力：路徑越短，模型學(xué)習(xí)此類(lèi)依賴(lài)關(guān)系就越容易。這兩篇論文認(rèn)為 Transformer 和 CNN 比 RNN 更擅長(zhǎng)捕捉長(zhǎng)距離依賴(lài)。

但是，這一斷言?xún)H基于理論論證，并未經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證。本文作者認(rèn)為非循環(huán)網(wǎng)絡(luò)的其它能力可能對(duì)其強(qiáng)大性能貢獻(xiàn)巨大。具體來(lái)說(shuō)，本文作者假設(shè) BLEU 值的提高取決于具備強(qiáng)大語(yǔ)義特征提取能力的 CNN 和 Transformer。

該論文評(píng)估了三種流行的 NMT 架構(gòu)：基于 RNN 的模型（下文用 RNNS2S 表示）、基于 CNN 的模型（下文用 ConvS2S 表示）和基于自注意力的模型（下文用 Transformer 表示）。受到上述關(guān)于路徑長(zhǎng)度和語(yǔ)義特征提取關(guān)系的理論陳述的啟發(fā)，研究者在主謂一致任務(wù)（需要建模長(zhǎng)距離依賴(lài)）和詞義消歧（WSD）任務(wù)（需要提取語(yǔ)義特征）上對(duì)三種模型的性能進(jìn)行了評(píng)估。這兩項(xiàng)任務(wù)分別基于對(duì)照翻譯對(duì)（contrastive translation pair）測(cè)試集 Lingeval97 (Sennrich, 2017) 和 ContraWSD (Rios et al., 2017)。

本論文的主要貢獻(xiàn)如下：

檢驗(yàn)了這一理論斷言：具備更短路徑的架構(gòu)更擅長(zhǎng)捕捉長(zhǎng)距離依賴(lài)。研究者在建模長(zhǎng)距離主謂一致任務(wù)上的實(shí)驗(yàn)結(jié)果并沒(méi)有表明，Transformer 或 CNN 在這方面優(yōu)于 RNN。

通過(guò)實(shí)驗(yàn)證明 Transformer 中注意力頭的數(shù)量對(duì)其捕捉長(zhǎng)距離依賴(lài)的能力有所影響。具體來(lái)說(shuō)，多頭注意力對(duì)使用自注意力機(jī)制建模長(zhǎng)距離依賴(lài)是必要的。

通過(guò)實(shí)驗(yàn)證明 Transformer 擅長(zhǎng) WSD，這表明 Transformer 是強(qiáng)大的語(yǔ)義特征提取器。

論文：Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

論文鏈接：https://arxiv.org/pdf/1808.08946.pdf

摘要：近期，非循環(huán)架構(gòu)（卷積、自注意力）在神經(jīng)機(jī)器翻譯任務(wù)中的表現(xiàn)優(yōu)于 RNN。CNN 和自注意力網(wǎng)絡(luò)連接遠(yuǎn)距離單詞的路徑比 RNN 短，有研究人員推測(cè)這正是其建模長(zhǎng)距離依賴(lài)能力得到提高的原因。但是，這一理論論斷并未得到實(shí)驗(yàn)驗(yàn)證，對(duì)這兩種網(wǎng)絡(luò)的強(qiáng)大性能也沒(méi)有其他深入的解釋。我們假設(shè) CNN 和自注意力網(wǎng)絡(luò)的強(qiáng)大性能也可能來(lái)自于其從源文本提取語(yǔ)義特征的能力。我們?cè)趦蓚€(gè)任務(wù)（主謂一致任務(wù)和詞義消歧任務(wù)）上評(píng)估了 RNN、CNN 和自注意力網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果證明：1）自注意力網(wǎng)絡(luò)和 CNN 在建模長(zhǎng)距離主謂一致時(shí)性能并不優(yōu)于 RNN；2）自注意力網(wǎng)絡(luò)在詞義消歧方面顯著優(yōu)于 RNN 和 CNN。

圖 1：NMT 中不同神經(jīng)網(wǎng)絡(luò)的架構(gòu)。

主謂一致

主謂一致任務(wù)是評(píng)估模型捕捉長(zhǎng)距離依賴(lài)能力的最流行選擇，曾在多項(xiàng)研究中使用 (Linzen et al., 2016; Bernardy and Lappin, 2017; Sennrich, 2017; Tran et al., 2018)。因此，我們也使用該任務(wù)評(píng)估不同 NMT 架構(gòu)的捕捉長(zhǎng)距離依賴(lài)能力。

表 2：不同 NMT 模型的結(jié)果，包括在 newstest2014 和 newstest2017 上的 BLEU 值、在驗(yàn)證集上的困惑度，以及長(zhǎng)距離依賴(lài)的準(zhǔn)確率。

圖 2：不同的 NMT 模型在主謂一致任務(wù)上的準(zhǔn)確率。

圖 3：ConvS2S 模型和 RNNS2S 模型在不同距離處的結(jié)果。

圖 4：在小型數(shù)據(jù)集上訓(xùn)練的 Transformer 和 RNNS2S 模型的結(jié)果。

WSD

主謂一致任務(wù)上的實(shí)驗(yàn)結(jié)果展示了 CNN 和 Transformer 在捕捉長(zhǎng)距離依賴(lài)方面并沒(méi)有優(yōu)于 RNN，即使 CNN 和 Transformer 中的路徑更短。這一發(fā)現(xiàn)與上文提到的理論斷言相悖。但是，從 BLEU 值來(lái)看，這些架構(gòu)在實(shí)驗(yàn)中的表現(xiàn)都很不錯(cuò)。因此，我們進(jìn)一步在 WSD 任務(wù)上評(píng)估這些架構(gòu)來(lái)驗(yàn)證我們的假設(shè)：非循環(huán)架構(gòu)更擅長(zhǎng)提取語(yǔ)義特征。

表 5：不同架構(gòu)在 newstest 數(shù)據(jù)集和 ContraWSD 上的結(jié)果。PPL 指在驗(yàn)證集上的困惑度。Acc 表示在測(cè)試集上的準(zhǔn)確率。

本文為機(jī)器之心編譯，轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。

------------------------------------------------

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類(lèi)似文章

號(hào)稱(chēng)打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

復(fù)旦大學(xué)邱錫鵬教授等「Transformers全面綜述」論文

在Transformer時(shí)代重塑RNN，RWKV將非Transformer架構(gòu)擴(kuò)展到數(shù)百億參數(shù)

深度學(xué)習(xí)架構(gòu)的對(duì)比分析

3行代碼就能可視化Transformer的奧義 | 開(kāi)源

今天來(lái)給大家聊一聊什么是Transformer網(wǎng)絡(luò)架構(gòu)

更多類(lèi)似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区