国产午夜精品一区二区三区小说,午夜毛片视频

高質(zhì)量、強大且負責任的直接語音到語音翻譯

2022.02.18

語音到語音翻譯 (S2ST) 是打破世界各地人們之間語言障礙的關(guān)鍵。自動 S2ST 系統(tǒng)通常由一系列語音識別、機器翻譯和語音合成子系統(tǒng)組成。然而，這種級聯(lián)系統(tǒng)可能會遭受更長的延遲、信息丟失（尤其是副語言和非語言信息）以及子系統(tǒng)之間的復合錯誤。

2019 年，我們推出了Translatotron，這是有史以來第一個能夠直接在兩種語言之間翻譯語音的模型。這種直接的 S2ST 模型能夠進行端到端的高效訓練，并且還具有在翻譯后的語音中保留源說話者的聲音（非語言信息）的獨特能力。然而，盡管它能夠以高保真度生成聽起來自然的翻譯語音，但與強大的基線級聯(lián) S2ST 系統(tǒng)（例如，由直接語音到文本翻譯模型 [ 1 , 2 ] 和Tacotron 2組成）相比，它仍然表現(xiàn)不佳TTS 模型）。

在“ Translatotron 2: Robust direct Speech-to-speech translation ”中，我們描述了 Translatotron 的改進版本，該版本顯著提高了性能，同時還應用了一種將源說話者的聲音轉(zhuǎn)換為翻譯語音的新方法。即使輸入語音包含多個說話者輪流發(fā)言，修改后的語音轉(zhuǎn)移方法也是成功的，同時也減少了誤用的可能性并更好地符合我們的AI 原則。在三個不同語料庫上的實驗一致表明 Translatotron 2 在翻譯質(zhì)量、語音自然度和語音魯棒性方面大大優(yōu)于原始 Translatotron。

Translatotron 2

Translatotron 2 由四個主要組件組成：語音編碼器、目標音素解碼器、目標語音合成器和將它們連接在一起的注意力模塊。編碼器、注意力模塊和解碼器的組合類似于典型的直接語音到文本翻譯 (ST) 模型。合成器以解碼器和注意力的輸出為條件。

Translatotron 和 Translatotron 2 之間的三個新變化是提高性能的關(guān)鍵因素：

雖然目標音素解碼器的輸出在原始 Translatotron 中僅用作輔助損失，但它是 Translatotron 2 中頻譜圖合成器的輸入之一。這種強大的條件使 Translatotron 2 更容易訓練并產(chǎn)生更好的性能。
原始 Translatotron 中的頻譜圖合成器是基于注意力的，類似于 Tacotron 2 TTS 模型，因此，它也存在 Tacotron 2 表現(xiàn)出的穩(wěn)健性問題。相比之下，Translatotron 2 中使用的頻譜圖合成器是持續(xù)時間-基于，類似于Non-Attentive Tacotron 使用的，它大大提高了合成語音的魯棒性。

3.Translatotron 和 Translatotron 2 都使用基于注意力的連接到編碼的源語音。然而，在 Translatotron 2 中，這種注意力是由音素解碼器而不是頻譜圖合成器驅(qū)動的。這確保了頻譜圖合成器看到的聲學信息與其正在合成的翻譯內(nèi)容保持一致，這有助于在說話者輪流中保留每個說話者的聲音。

更強大、更負責任的語音保留

最初的 Translatotron 能夠在翻譯后的語音中保留源說話者的聲音，方法是根據(jù)單獨訓練的說話人編碼器生成的說話人嵌入來調(diào)節(jié)其解碼器。然而，如果目標說話者的錄音片段被用作說話者編碼器的參考音頻，或者如果目標說話者的嵌入直接可用，則這種方法還使其能夠以不同說話者的聲音生成翻譯后的語音。雖然此功能很強大，但它有可能被濫用以欺騙包含任意內(nèi)容的音頻，這給生產(chǎn)部署帶來了擔憂。

為了解決這個問題，我們將 Translatotron 2 設(shè)計為僅使用單個語音編碼器，該編碼器負責語言理解和語音捕獲。這樣，訓練好的模型就不能被引導去再現(xiàn)非源語音。這種方法也可以應用于原始的 Translatotron。

為了在整個翻譯過程中保留說話者的聲音，研究人員通常更喜歡在兩側(cè)具有相同說話者聲音的平行話語上訓練 S2ST 模型。這樣一個兩邊都有人類錄音的數(shù)據(jù)集極難收集，因為它需要大量流利的雙語使用者。為了避免這種困難，我們使用了PnG NAT的修改版本，這是一種能夠跨語言語音傳輸?shù)?TTS 模型來合成此類訓練目標。我們修改后的 PnG NAT 模型以與我們之前的 TTS 工作相同的方式（與原始 Translatotron 使用的策略相同）結(jié)合了一個單獨訓練的揚聲器編碼器，因此它能夠進行零次語音傳輸。

性能

Translatotron 2 在我們衡量的各個方面都大大優(yōu)于原始 Translatotron：更高的翻譯質(zhì)量（由BLEU衡量，越高越好）、語音自然度（由MOS衡量，越高越好）和語音魯棒性（由UDR衡量，越低越好）。它在更難的Fisher 語料庫中表現(xiàn)尤為出色。Translatotron 2 在翻譯質(zhì)量和語音質(zhì)量方面的性能接近強基線級聯(lián)系統(tǒng)的性能，并且在語音魯棒性方面優(yōu)于級聯(lián)基線。

多語言語音到語音翻譯

除了西班牙語到英語 S2ST，我們還評估了 Translatotron 2 在多語言設(shè)置上的性能，其中模型從四種不同語言中輸入語音并將它們翻譯成英語。沒有提供輸入語音的語言，這迫使模型自行檢測語言。

源語言 fr de 這是那

翻譯器 2 27.0 18.8 27.7 22.5

翻譯器 18.9 10.8 18.8 13.9

ST ( Wang et al. 2020 ) 27.0 18.9 28.0 23.9

訓練目標 82.1 86.0 85.1 89.3

在這項任務(wù)上，Translatotron 2 再次大幅超越了原來的 Translatotron。盡管 S2ST 和 ST 之間的結(jié)果不能直接比較，但接近的數(shù)字表明 Translatotron 2 的翻譯質(zhì)量與基線語音到文本翻譯模型相當，這些結(jié)果表明 Translatotron 2 在多語言 S2ST 上也非常有效。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

同聲傳譯被攻陷！谷歌發(fā)Translatotron直接語音翻譯

語音直接翻語音！谷歌語音翻譯新突破，不再需要中間文本

AAAI 2020丨溝壑易填：端到端語音翻譯中預訓練和微調(diào)的銜接方法

揭秘語音到語音翻譯黑科技，來挑戰(zhàn)國際口語翻譯大賽

綜述 | 跨語言自然語言處理筆記

一個神經(jīng)網(wǎng)絡(luò)學習一切！谷歌又放了個大衛(wèi)星(附論文)

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

Translatotron 2

更強大、更負責任的語音保留

性能

多語言語音到語音翻譯

更強大、更負責任的語音保留