視頻介紹:高質(zhì)量、強大且負責任的直接語音到語音翻譯
語音到語音翻譯 (S2ST) 是打破世界各地人們之間語言障礙的關(guān)鍵。自動 S2ST 系統(tǒng)通常由一系列語音識別、機器翻譯和語音合成子系統(tǒng)組成。然而,這種級聯(lián)系統(tǒng)可能會遭受更長的延遲、信息丟失(尤其是副語言和非語言信息)以及子系統(tǒng)之間的復合錯誤。
2019 年,我們推出了Translatotron,這是有史以來第一個能夠直接在兩種語言之間翻譯語音的模型。這種直接的 S2ST 模型能夠進行端到端的高效訓練,并且還具有在翻譯后的語音中保留源說話者的聲音(非語言信息)的獨特能力。然而,盡管它能夠以高保真度生成聽起來自然的翻譯語音,但與強大的基線級聯(lián) S2ST 系統(tǒng)(例如,由直接語音到文本翻譯模型 [ 1 , 2 ] 和Tacotron 2組成)相比,它仍然表現(xiàn)不佳TTS 模型)。
在“ Translatotron 2: Robust direct Speech-to-speech translation ”中,我們描述了 Translatotron 的改進版本,該版本顯著提高了性能,同時還應用了一種將源說話者的聲音轉(zhuǎn)換為翻譯語音的新方法。即使輸入語音包含多個說話者輪流發(fā)言,修改后的語音轉(zhuǎn)移方法也是成功的,同時也減少了誤用的可能性并更好地符合我們的AI 原則。在三個不同語料庫上的實驗一致表明 Translatotron 2 在翻譯質(zhì)量、語音自然度和語音魯棒性方面大大優(yōu)于原始 Translatotron。
Translatotron 2 由四個主要組件組成:語音編碼器、目標音素解碼器、目標語音合成器和將它們連接在一起的注意力模塊。編碼器、注意力模塊和解碼器的組合類似于典型的直接語音到文本翻譯 (ST) 模型。合成器以解碼器和注意力的輸出為條件。
Translatotron 和 Translatotron 2 之間的三個新變化是提高性能的關(guān)鍵因素:
雖然目標音素解碼器的輸出在原始 Translatotron 中僅用作輔助損失,但它是 Translatotron 2 中頻譜圖合成器的輸入之一。這種強大的條件使 Translatotron 2 更容易訓練并產(chǎn)生更好的性能。
原始 Translatotron 中的頻譜圖合成器是基于注意力的,類似于 Tacotron 2 TTS 模型,因此,它也存在 Tacotron 2 表現(xiàn)出的穩(wěn)健性問題。相比之下,Translatotron 2 中使用的頻譜圖合成器是持續(xù)時間-基于,類似于Non-Attentive Tacotron 使用的,它大大提高了合成語音的魯棒性。
3.Translatotron 和 Translatotron 2 都使用基于注意力的連接到編碼的源語音。然而,在 Translatotron 2 中,這種注意力是由音素解碼器而不是頻譜圖合成器驅(qū)動的。這確保了頻譜圖合成器看到的聲學信息與其正在合成的翻譯內(nèi)容保持一致,這有助于在說話者輪流中保留每個說話者的聲音。
最初的 Translatotron 能夠在翻譯后的語音中保留源說話者的聲音,方法是根據(jù)單獨訓練的說話人編碼器生成的說話人嵌入來調(diào)節(jié)其解碼器。然而,如果目標說話者的錄音片段被用作說話者編碼器的參考音頻,或者如果目標說話者的嵌入直接可用,則這種方法還使其能夠以不同說話者的聲音生成翻譯后的語音。雖然此功能很強大,但它有可能被濫用以欺騙包含任意內(nèi)容的音頻,這給生產(chǎn)部署帶來了擔憂。
為了解決這個問題,我們將 Translatotron 2 設(shè)計為僅使用單個語音編碼器,該編碼器負責語言理解和語音捕獲。這樣,訓練好的模型就不能被引導去再現(xiàn)非源語音。這種方法也可以應用于原始的 Translatotron。
為了在整個翻譯過程中保留說話者的聲音,研究人員通常更喜歡在兩側(cè)具有相同說話者聲音的平行話語上訓練 S2ST 模型。這樣一個兩邊都有人類錄音的數(shù)據(jù)集極難收集,因為它需要大量流利的雙語使用者。為了避免這種困難,我們使用了PnG NAT的修改版本,這是一種能夠跨語言語音傳輸?shù)?TTS 模型來合成此類訓練目標。我們修改后的 PnG NAT 模型以與我們之前的 TTS 工作相同的方式(與原始 Translatotron 使用的策略相同)結(jié)合了一個單獨訓練的揚聲器編碼器,因此它能夠進行零次語音傳輸。
Translatotron 2 在我們衡量的各個方面都大大優(yōu)于原始 Translatotron:更高的翻譯質(zhì)量(由BLEU衡量,越高越好)、語音自然度(由MOS衡量,越高越好)和語音魯棒性(由UDR衡量,越低越好)。它在更難的Fisher 語料庫中表現(xiàn)尤為出色。Translatotron 2 在翻譯質(zhì)量和語音質(zhì)量方面的性能接近強基線級聯(lián)系統(tǒng)的性能,并且在語音魯棒性方面優(yōu)于級聯(lián)基線。
除了西班牙語到英語 S2ST,我們還評估了 Translatotron 2 在多語言設(shè)置上的性能,其中模型從四種不同語言中輸入語音并將它們翻譯成英語。沒有提供輸入語音的語言,這迫使模型自行檢測語言。
源語言 fr de 這是 那
翻譯器 2 27.0 18.8 27.7 22.5
翻譯器 18.9 10.8 18.8 13.9
ST ( Wang et al. 2020 ) 27.0 18.9 28.0 23.9
訓練目標 82.1 86.0 85.1 89.3
在這項任務(wù)上,Translatotron 2 再次大幅超越了原來的 Translatotron。盡管 S2ST 和 ST 之間的結(jié)果不能直接比較,但接近的數(shù)字表明 Translatotron 2 的翻譯質(zhì)量與基線語音到文本翻譯模型相當,這些結(jié)果表明 Translatotron 2 在多語言 S2ST 上也非常有效。
聯(lián)系客服