機(jī)構(gòu):Google Research
作者:Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng
0.1 摘要
以當(dāng)下基于 Transformer 的各種先進(jìn)模型來看,使用點(diǎn)積自注意力(dot product self-attention)是至關(guān)重要且不可或缺的。但,事實(shí)真的如此嗎,沒有點(diǎn)積自注意力 Transformer 的各種模型就會(huì)不香嗎?點(diǎn)積自注意力是否真的不可替代?為此,本文提出 SYNTHESIZER 模型,該模型注意力權(quán)重的學(xué)習(xí)摒棄了傳統(tǒng)自注意力機(jī)制中 token 之間的交互。本文通過大量實(shí)驗(yàn)發(fā)現(xiàn):
(1)隨機(jī)初始化對(duì)齊矩陣所表現(xiàn)出的實(shí)力驚人
(2)學(xué)習(xí)注意力權(quán)重其實(shí)沒有必要基于 token-token 或者說 query-key 之間的交互
此外,實(shí)驗(yàn)表明 SYNTHESIZER 模型在多個(gè)任務(wù)(包括機(jī)器翻譯、語言建模、文本摘要、對(duì)話生成和自然語言理解)上可以與原始的 Transformer 相媲美。
1. 介紹
隨著基于 Transformer 的各種模型在眾多 NLP 任務(wù)上大獲成功,Transformer 的霸主地位已成事實(shí)。而 Transformer 的核心是 query-key-value 的點(diǎn)積自注意力,點(diǎn)積自注意力的基本作用是學(xué)習(xí)自對(duì)齊(self-alignment),即確定單個(gè) token 相對(duì)于序列中所有其他 token 的相對(duì)重要性。實(shí)際上query、key 和 values 隱含著自注意力模擬一個(gè)基于內(nèi)容的檢索過程,而這個(gè)過程的核心是 pairwise 之間的交互。本文則對(duì)這整個(gè)過程進(jìn)行了反思。
與傳統(tǒng)的做法相反,本文提出既不需要點(diǎn)積自注意力,也不需要基于內(nèi)容的記憶類自注意力。傳統(tǒng)上,注意力權(quán)重是在實(shí)例或樣本級(jí)學(xué)習(xí)的,其中權(quán)重通過實(shí)例級(jí)的 pairwise 交互產(chǎn)生。因此,這些特定于具體實(shí)例的交互往往在不同的實(shí)例間波動(dòng),缺乏一致的全局語境。為此,本文提出 SYNTHESIZER,該模型不再計(jì)算 token 之間兩兩點(diǎn)積,而是學(xué)習(xí)合成自對(duì)齊(self-alignment)矩陣,即合成自注意力矩陣。同時(shí)本文提出多種合成方式,并對(duì)其進(jìn)行全面評(píng)估。這些合成函數(shù)接收的信息源包括(1)單個(gè) token(2)token-token 之間的交互(3)全局任務(wù)信息。
其實(shí),SYNTHESIZER 是標(biāo)準(zhǔn) Transformer 的泛化。實(shí)驗(yàn)結(jié)果表明 SYNTHESIZER 憑借全局注意力權(quán)重也能夠獲得具有競(jìng)爭(zhēng)性的結(jié)果,而完全不用考慮 token-token 交互或任何實(shí)例級(jí)(局部)信息。隨機(jī)初始化的 SYNTHESIZER 在 WMT 2014 English-German 上取得27.27的BLEU。在某些情況下,可以用更簡(jiǎn)單的 SYNTHESIZER 變體替換流行的和完善的基于內(nèi)容的點(diǎn)積注意力,而不會(huì)犧牲太多性能??偟膩碚f,本文的發(fā)現(xiàn)將會(huì)促進(jìn) Transformer 模型中自注意機(jī)制真正作用和效用的進(jìn)一步研究和討論。
本文的貢獻(xiàn)如下:
1. 提出 Synthetic Attention,這是一種新的學(xué)習(xí)注意力權(quán)重的方式。該方法沒有使用點(diǎn)積注意力或基于內(nèi)容的注意力)。生成獨(dú)立于 token-token 交互的對(duì)齊矩陣,并探索了一組用于生成注意力矩陣的參數(shù)化函數(shù)。
2. 提出 SYNTHESIZER 模型,該模型利用了 Synthetic Attention。該模型在多個(gè)自然語言任務(wù)(包括機(jī)器翻譯和語言建模)上可以與最先進(jìn)的 Transformer 模型相比肩。
3. 證明(1)隨機(jī)可學(xué)習(xí)的對(duì)齊矩陣的性能具有競(jìng)爭(zhēng)性;(2)用各種 Transformer 模型進(jìn)行屠榜時(shí),token-token 的依賴關(guān)系并非必要。
2. 模型
2.2 Random Synthesizer:
本文提出的各種合成函數(shù)如 Table 1所示。值得注意的是,常規(guī)的點(diǎn)積注意力也可以被納入 SYNTHESIZER 的合成器框架,換句話說,SYNTHESIZER 是 Transformer 模型的一般化形式。
從上述 Table 2 可以看出,除了固定的 Random Synthesizer 表現(xiàn)較差之外,其他模型表現(xiàn)都差不多,盡管相比于 Transformers 略有下降。其實(shí)固定的 Random Synthesizer 結(jié)果也是蠻驚人的,EnDe上也有大概 24 BLEU。
從實(shí)驗(yàn)結(jié)果可以看出,R+V 的混合模型在多數(shù)子任務(wù)上取得最好的效果。
聯(lián)系客服