九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
沒有點(diǎn)積注意力就不香了嗎?Transformer中自注意力機(jī)制的反思

0. 背景

機(jī)構(gòu):Google Research
作者:Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng
論文地址:https://arxiv.org/abs/2005.00743

0.1 摘要

以當(dāng)下基于 Transformer 的各種先進(jìn)模型來看,使用點(diǎn)積自注意力(dot product self-attention)是至關(guān)重要且不可或缺的。但,事實(shí)真的如此嗎,沒有點(diǎn)積自注意力 Transformer 的各種模型就會(huì)不香嗎?點(diǎn)積自注意力是否真的不可替代?為此,本文提出 SYNTHESIZER 模型,該模型注意力權(quán)重的學(xué)習(xí)摒棄了傳統(tǒng)自注意力機(jī)制中 token 之間的交互。本文通過大量實(shí)驗(yàn)發(fā)現(xiàn):
(1)隨機(jī)初始化對(duì)齊矩陣所表現(xiàn)出的實(shí)力驚人
(2)學(xué)習(xí)注意力權(quán)重其實(shí)沒有必要基于 token-token 或者說 query-key 之間的交互
此外,實(shí)驗(yàn)表明 SYNTHESIZER 模型在多個(gè)任務(wù)(包括機(jī)器翻譯、語言建模、文本摘要、對(duì)話生成和自然語言理解)上可以與原始的 Transformer 相媲美。

1. 介紹

隨著基于 Transformer 的各種模型在眾多 NLP 任務(wù)上大獲成功,Transformer 的霸主地位已成事實(shí)。而 Transformer 的核心是 query-key-value 的點(diǎn)積自注意力,點(diǎn)積自注意力的基本作用是學(xué)習(xí)自對(duì)齊(self-alignment),即確定單個(gè) token 相對(duì)于序列中所有其他 token 的相對(duì)重要性。實(shí)際上query、key 和 values 隱含著自注意力模擬一個(gè)基于內(nèi)容的檢索過程,而這個(gè)過程的核心是 pairwise 之間的交互。本文則對(duì)這整個(gè)過程進(jìn)行了反思。

與傳統(tǒng)的做法相反,本文提出既不需要點(diǎn)積自注意力,也不需要基于內(nèi)容的記憶類自注意力。傳統(tǒng)上,注意力權(quán)重是在實(shí)例或樣本級(jí)學(xué)習(xí)的,其中權(quán)重通過實(shí)例級(jí)的 pairwise 交互產(chǎn)生。因此,這些特定于具體實(shí)例的交互往往在不同的實(shí)例間波動(dòng),缺乏一致的全局語境。為此,本文提出 SYNTHESIZER,該模型不再計(jì)算 token 之間兩兩點(diǎn)積,而是學(xué)習(xí)合成自對(duì)齊(self-alignment)矩陣,即合成自注意力矩陣。同時(shí)本文提出多種合成方式,并對(duì)其進(jìn)行全面評(píng)估。這些合成函數(shù)接收的信息源包括(1)單個(gè) token(2)token-token 之間的交互(3)全局任務(wù)信息。
 
其實(shí),SYNTHESIZER 是標(biāo)準(zhǔn) Transformer 的泛化。實(shí)驗(yàn)結(jié)果表明 SYNTHESIZER 憑借全局注意力權(quán)重也能夠獲得具有競(jìng)爭(zhēng)性的結(jié)果,而完全不用考慮 token-token 交互或任何實(shí)例級(jí)(局部)信息。隨機(jī)初始化的 SYNTHESIZER 在 WMT 2014 English-German 上取得27.27的BLEU。在某些情況下,可以用更簡(jiǎn)單的 SYNTHESIZER 變體替換流行的和完善的基于內(nèi)容的點(diǎn)積注意力,而不會(huì)犧牲太多性能??偟膩碚f,本文的發(fā)現(xiàn)將會(huì)促進(jìn) Transformer 模型中自注意機(jī)制真正作用和效用的進(jìn)一步研究和討論。
 
本文的貢獻(xiàn)如下:
1. 提出 Synthetic Attention,這是一種新的學(xué)習(xí)注意力權(quán)重的方式。該方法沒有使用點(diǎn)積注意力或基于內(nèi)容的注意力)。生成獨(dú)立于 token-token 交互的對(duì)齊矩陣,并探索了一組用于生成注意力矩陣的參數(shù)化函數(shù)。
2. 提出 SYNTHESIZER 模型,該模型利用了 Synthetic Attention。該模型在多個(gè)自然語言任務(wù)(包括機(jī)器翻譯和語言建模)上可以與最先進(jìn)的 Transformer 模型相比肩。
3. 證明(1)隨機(jī)可學(xué)習(xí)的對(duì)齊矩陣的性能具有競(jìng)爭(zhēng)性;(2)用各種 Transformer 模型進(jìn)行屠榜時(shí),token-token 的依賴關(guān)系并非必要。

2. 模型

2.1 Dense Synthesizer

2.2 Random Synthesizer:

2.3 模型分解


本文提出的各種合成函數(shù)如 Table 1所示。值得注意的是,常規(guī)的點(diǎn)積注意力也可以被納入 SYNTHESIZER 的合成器框架,換句話說,SYNTHESIZER 是 Transformer 模型的一般化形式。

3. 實(shí)驗(yàn)

文本在機(jī)器翻譯、語言模型、文本生成、多任務(wù)自然語言理解等任務(wù)上進(jìn)行了實(shí)驗(yàn)。

機(jī)器翻譯和語言建模: 
在 WMT’14 英德(EnDe)和英法(EnFr)機(jī)器翻譯任務(wù)數(shù)據(jù)集上評(píng)測(cè),結(jié)果如 Table 2 所示。


從上述 Table 2 可以看出,除了固定的 Random Synthesizer 表現(xiàn)較差之外,其他模型表現(xiàn)都差不多,盡管相比于 Transformers 略有下降。其實(shí)固定的 Random Synthesizer 結(jié)果也是蠻驚人的,EnDe上也有大概 24 BLEU。

語言建模任務(wù)上使用的數(shù)據(jù)集是 LM1B,混合 Synthesizer(Dense + Vanilla)取得效果最好,同時(shí)該混合 Synthesizer 模型也是的各種 Synthesizer 模型中唯一超過 Transformer 的。

文本生成:
在文本生成上分別使用了摘要生成方面的 CNN/Dailymail 數(shù)據(jù)集和對(duì)話生成方面的 PersonaChat 數(shù)據(jù)集,具體實(shí)驗(yàn)結(jié)果如 Table 3 所示:

實(shí)驗(yàn)結(jié)果可以看出 Synthesizer 的各個(gè)模型表現(xiàn)不一。在文本摘要生成這個(gè)任務(wù)上,雖然在不同指標(biāo)上最優(yōu)模型各不相同,但是整體上標(biāo)準(zhǔn) Transformer 效果比較好。但在對(duì)話生成這個(gè)任務(wù)上,各個(gè)指標(biāo)上都是 Synthesizer 優(yōu)于標(biāo)準(zhǔn) Transformer,特別是 Synthesizer(D)在各個(gè)指標(biāo)上都取得了最佳結(jié)果。而當(dāng) Dense 和 Random 混合了標(biāo)準(zhǔn)的 Transformer 后(即 D+V 和 R+V),指標(biāo)卻下降了。這意味著點(diǎn)積自注意力在這項(xiàng)任務(wù)上實(shí)際上可能是幫了倒忙的。

多任務(wù)自然語言理解: 
在自然語言理解任務(wù)上選用的是使用 GLUE 和 SuperGLUE。SYNTHESIZER 模型和 T5(base)在上述倆個(gè)benchmark上的實(shí)驗(yàn)結(jié)果如 Table 4 和Table 5 所示:


從實(shí)驗(yàn)結(jié)果可以看出,R+V 的混合模型在多數(shù)子任務(wù)上取得最好的效果。

4. 總結(jié)

本文提出一種新的 Transformer 模型 SYNTHESIZER,該模型它采用合成注意力(Synthetic Attention)。此外試圖更好地理解和評(píng)估全局對(duì)齊、局部對(duì)齊和實(shí)例對(duì)齊(單個(gè) token 和 token-token)在自注意力中的效用。并在機(jī)器翻譯、語言建模和對(duì)話生成等多個(gè)任務(wù)上證明了合成注意力可以與原始的 Transformer 相媲美。特別是在對(duì)話生成任務(wù)上,token-token 之間的交互實(shí)際上會(huì)降低性能。Synthesizer 的不同設(shè)置沒有絕對(duì)的優(yōu)劣,與具體的任務(wù)相關(guān)??偟膩碚f,本文是對(duì)當(dāng)下流行的自注意力機(jī)制的反思和探索,希望能夠拋磚引玉,進(jìn)一步促進(jìn) Transformer 中各個(gè)部分效用的研究。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【持續(xù)更新】ACL2020論文精選
清華&BAAI唐杰團(tuán)隊(duì)提出第一個(gè)開源的通用大規(guī)模預(yù)訓(xùn)練文本到視頻生成模型CogVideo,含94億超大參數(shù)量!代碼即將開源!
為什么使用自注意力機(jī)制?
【論文解讀】UniLM:一種既能閱讀又能自動(dòng)生成的預(yù)訓(xùn)練模型
Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion
適合你找個(gè)時(shí)間好好消化的文章,大模型核心技術(shù)——Transformer架構(gòu)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服