九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
高質(zhì)量、強大且負責任的直接語音到語音翻譯

視頻介紹:高質(zhì)量、強大且負責任的直接語音到語音翻譯

語音到語音翻譯 (S2ST) 是打破世界各地人們之間語言障礙的關(guān)鍵。自動 S2ST 系統(tǒng)通常由一系列語音識別、機器翻譯和語音合成子系統(tǒng)組成。然而,這種級聯(lián)系統(tǒng)可能會遭受更長的延遲、信息丟失(尤其是副語言和非語言信息)以及子系統(tǒng)之間的復合錯誤。

2019 年,我們推出了Translatotron,這是有史以來第一個能夠直接在兩種語言之間翻譯語音的模型。這種直接的 S2ST 模型能夠進行端到端的高效訓練,并且還具有在翻譯后的語音中保留源說話者的聲音(非語言信息)的獨特能力。然而,盡管它能夠以高保真度生成聽起來自然的翻譯語音,但與強大的基線級聯(lián) S2ST 系統(tǒng)(例如,由直接語音到文本翻譯模型 [ 1 , 2 ] 和Tacotron 2組成)相比,它仍然表現(xiàn)不佳TTS 模型)。

在“ Translatotron 2: Robust direct Speech-to-speech translation ”中,我們描述了 Translatotron 的改進版本,該版本顯著提高了性能,同時還應用了一種將源說話者的聲音轉(zhuǎn)換為翻譯語音的新方法。即使輸入語音包含多個說話者輪流發(fā)言,修改后的語音轉(zhuǎn)移方法也是成功的,同時也減少了誤用的可能性并更好地符合我們的AI 原則。在三個不同語料庫上的實驗一致表明 Translatotron 2 在翻譯質(zhì)量、語音自然度和語音魯棒性方面大大優(yōu)于原始 Translatotron。

Translatotron 2

Translatotron 2 由四個主要組件組成:語音編碼器、目標音素解碼器、目標語音合成器和將它們連接在一起的注意力模塊。編碼器、注意力模塊和解碼器的組合類似于典型的直接語音到文本翻譯 (ST) 模型。合成器以解碼器和注意力的輸出為條件。

Translatotron 和 Translatotron 2 之間的三個新變化是提高性能的關(guān)鍵因素:

  1. 雖然目標音素解碼器的輸出在原始 Translatotron 中僅用作輔助損失,但它是 Translatotron 2 中頻譜圖合成器的輸入之一。這種強大的條件使 Translatotron 2 更容易訓練并產(chǎn)生更好的性能。

  2. 原始 Translatotron 中的頻譜圖合成器是基于注意力的,類似于 Tacotron 2 TTS 模型,因此,它也存在 Tacotron 2 表現(xiàn)出的穩(wěn)健性問題。相比之下,Translatotron 2 中使用的頻譜圖合成器是持續(xù)時間-基于,類似于Non-Attentive Tacotron 使用的,它大大提高了合成語音的魯棒性。

3.Translatotron 和 Translatotron 2 都使用基于注意力的連接到編碼的源語音。然而,在 Translatotron 2 中,這種注意力是由音素解碼器而不是頻譜圖合成器驅(qū)動的。這確保了頻譜圖合成器看到的聲學信息與其正在合成的翻譯內(nèi)容保持一致,這有助于在說話者輪流中保留每個說話者的聲音。

更強大、更負責任的語音保留

最初的 Translatotron 能夠在翻譯后的語音中保留源說話者的聲音,方法是根據(jù)單獨訓練的說話人編碼器生成的說話人嵌入來調(diào)節(jié)其解碼器。然而,如果目標說話者的錄音片段被用作說話者編碼器的參考音頻,或者如果目標說話者的嵌入直接可用,則這種方法還使其能夠以不同說話者的聲音生成翻譯后的語音。雖然此功能很強大,但它有可能被濫用以欺騙包含任意內(nèi)容的音頻,這給生產(chǎn)部署帶來了擔憂。

為了解決這個問題,我們將 Translatotron 2 設(shè)計為僅使用單個語音編碼器,該編碼器負責語言理解和語音捕獲。這樣,訓練好的模型就不能被引導去再現(xiàn)非源語音。這種方法也可以應用于原始的 Translatotron。

為了在整個翻譯過程中保留說話者的聲音,研究人員通常更喜歡在兩側(cè)具有相同說話者聲音的平行話語上訓練 S2ST 模型。這樣一個兩邊都有人類錄音的數(shù)據(jù)集極難收集,因為它需要大量流利的雙語使用者。為了避免這種困難,我們使用了PnG NAT的修改版本,這是一種能夠跨語言語音傳輸?shù)?TTS 模型來合成此類訓練目標。我們修改后的 PnG NAT 模型以與我們之前的 TTS 工作相同的方式(與原始 Translatotron 使用的策略相同)結(jié)合了一個單獨訓練的揚聲器編碼器,因此它能夠進行零次語音傳輸。

性能

Translatotron 2 在我們衡量的各個方面都大大優(yōu)于原始 Translatotron:更高的翻譯質(zhì)量(由BLEU衡量,越高越好)、語音自然度(由MOS衡量,越高越好)和語音魯棒性(由UDR衡量,越低越好)。它在更難的Fisher 語料庫中表現(xiàn)尤為出色。Translatotron 2 在翻譯質(zhì)量和語音質(zhì)量方面的性能接近強基線級聯(lián)系統(tǒng)的性能,并且在語音魯棒性方面優(yōu)于級聯(lián)基線。

多語言語音到語音翻譯

除了西班牙語到英語 S2ST,我們還評估了 Translatotron 2 在多語言設(shè)置上的性能,其中模型從四種不同語言中輸入語音并將它們翻譯成英語。沒有提供輸入語音的語言,這迫使模型自行檢測語言。

源語言 fr de 這是 那

翻譯器 2 27.0 18.8 27.7 22.5

翻譯器 18.9 10.8 18.8 13.9

ST ( Wang et al. 2020 ) 27.0 18.9 28.0 23.9

訓練目標 82.1 86.0 85.1 89.3

在這項任務(wù)上,Translatotron 2 再次大幅超越了原來的 Translatotron。盡管 S2ST 和 ST 之間的結(jié)果不能直接比較,但接近的數(shù)字表明 Translatotron 2 的翻譯質(zhì)量與基線語音到文本翻譯模型相當,這些結(jié)果表明 Translatotron 2 在多語言 S2ST 上也非常有效。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
同聲傳譯被攻陷!谷歌發(fā)Translatotron直接語音翻譯
語音直接翻語音!谷歌語音翻譯新突破,不再需要中間文本
AAAI 2020丨溝壑易填:端到端語音翻譯中預訓練和微調(diào)的銜接方法
揭秘語音到語音翻譯黑科技,來挑戰(zhàn)國際口語翻譯大賽
綜述 | 跨語言自然語言處理筆記
一個神經(jīng)網(wǎng)絡(luò)學習一切!谷歌又放了個大衛(wèi)星(附論文)
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服