久久影音先锋,成人午夜久久,成人免费一区二区三区视频软件

語(yǔ)音直接翻語(yǔ)音！谷歌語(yǔ)音翻譯新突破，不再需要中間文本

lovey6868 >《各領(lǐng)域前沿文章匯》

2019.05.16

關(guān)注

作者：Ye Jia等

編譯：劉靜

圖靈聯(lián)邦編輯部出品

語(yǔ)音翻譯系統(tǒng)在過去幾十年中得到了快速發(fā)展，其目標(biāo)是幫助使用不同語(yǔ)言的人們相互交流。

這些系統(tǒng)通常被分成三個(gè)獨(dú)立的部分：自動(dòng)語(yǔ)音識(shí)別將源語(yǔ)音轉(zhuǎn)錄為文本，機(jī)器翻譯將轉(zhuǎn)錄文本翻譯成目標(biāo)語(yǔ)言，文本語(yǔ)音合成（TTS）(從翻譯文本生成目標(biāo)語(yǔ)言的語(yǔ)音)。將任務(wù)劃分為這樣的級(jí)聯(lián)系統(tǒng)非常成功，為許多商業(yè)語(yǔ)音翻譯產(chǎn)品提供了支持，包括谷歌翻譯。

在谷歌發(fā)表的最新論文“ 使用序列到序列模型的直接語(yǔ)音翻譯 ”中，他們提出了一種基于單個(gè)注意序列到序列模型的實(shí)驗(yàn)性新系統(tǒng)，稱為Translatotron。

該系統(tǒng)不需要依賴中間文本表示，它避免了將任務(wù)劃分為單獨(dú)的階段，擁有比級(jí)聯(lián)系統(tǒng)更多的優(yōu)勢(shì)，包括：更快的推理速度、避免了識(shí)別和翻譯之間的復(fù)合錯(cuò)誤、使得在翻譯后保留原始發(fā)言者的聲音變得更簡(jiǎn)單，并且更好地處理不了需要翻譯的單詞（例如，名字和專有名詞）。

論文地址：

https://arxiv.org/abs/1904.06037

Translatotron

語(yǔ)音翻譯的端到端模型的出現(xiàn)始于2016年，當(dāng)時(shí)研究人員證明了使用單個(gè)序列到序列模型進(jìn)行語(yǔ)音到文本翻譯的可行性。

2017年，谷歌的研究證明了這種端到端模型可以勝過級(jí)聯(lián)模型。最近提出了許多進(jìn)一步改進(jìn)端到端語(yǔ)音到文本翻譯模型的方法，包括利用弱監(jiān)督數(shù)據(jù)的努力。

Translatotron更進(jìn)一步，通過證明單個(gè)序列到序列模型可以直接將語(yǔ)言從一種語(yǔ)言翻譯成另一種語(yǔ)言的語(yǔ)音，而不需要像級(jí)聯(lián)系統(tǒng)那樣依賴于任何一種語(yǔ)言的中間文本表示。

Translatotron是基于序列到序列的網(wǎng)絡(luò)，以源Spectrogram作為輸入并生成目標(biāo)語(yǔ)言中的翻譯內(nèi)容的Spectrogram。

它還使用了另外兩個(gè)經(jīng)過單獨(dú)訓(xùn)練的組件：一個(gè)神經(jīng)聲碼器，將輸出頻譜圖轉(zhuǎn)換為時(shí)域波形，還可以選擇使用一個(gè)演講者編碼器，用于保持合成翻譯語(yǔ)音中源說話者的語(yǔ)音的特征。

在訓(xùn)練期間，序列到序列模型使用多任務(wù)目標(biāo)來在生成目標(biāo)譜圖的同時(shí)預(yù)測(cè)源和目標(biāo)轉(zhuǎn)錄物。但是，在推理期間不使用轉(zhuǎn)錄本或其他中間文本表示。

Translatotron的模型結(jié)構(gòu)

性能

研究人員通過測(cè)量BLEU分?jǐn)?shù)來驗(yàn)證Translatotron的翻譯質(zhì)量，該分?jǐn)?shù)是通過語(yǔ)音識(shí)別系統(tǒng)轉(zhuǎn)錄的文本計(jì)算的。雖然結(jié)果落后于傳統(tǒng)的級(jí)聯(lián)系統(tǒng)，但這已經(jīng)證明了端到端直接語(yǔ)音到語(yǔ)音轉(zhuǎn)換的可行性。

在下面的音頻剪輯中，比較了從Translatotron到基線級(jí)聯(lián)方法的直接語(yǔ)音到語(yǔ)音翻譯輸出。在這種情況下，兩個(gè)系統(tǒng)都提供了合適的翻譯并使用相同的規(guī)范語(yǔ)音自然地說話。

保留聲音特征

通過集成演講者編碼器網(wǎng)絡(luò)，Translatotron還能夠在翻譯的語(yǔ)音中保留原說話人的聲音特征，這使得翻譯的語(yǔ)音聽起來更自然，不那么刺耳。這個(gè)特性利用了之前谷歌對(duì)TTS的說話人驗(yàn)證和說話人適應(yīng)的研究。

演講者編碼器在演講者驗(yàn)證任務(wù)上預(yù)先訓(xùn)練，學(xué)習(xí)從簡(jiǎn)短的示例話語(yǔ)中對(duì)演講者（說話人）特性進(jìn)行編碼。

在該編碼上調(diào)節(jié)頻譜圖解碼器使得可以合成具有類似說話人特性的語(yǔ)音，即使內(nèi)容是用不同的語(yǔ)言編寫的。

下面的音頻片段演示了Translatotron在將原始說話者的聲音轉(zhuǎn)換為翻譯后的語(yǔ)音時(shí)的性能。在這個(gè)例子中，Translatotron給出了比基線級(jí)聯(lián)模型更準(zhǔn)確的翻譯，同時(shí)能夠保留原始說話者的聲音特征。

與使用規(guī)范語(yǔ)音的輸出相比，保留原始語(yǔ)音的Translatotron輸出使用更少的數(shù)據(jù)進(jìn)行訓(xùn)練，因此它們產(chǎn)生的翻譯略有不同。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

同聲傳譯被攻陷！谷歌發(fā)Translatotron直接語(yǔ)音翻譯

高質(zhì)量、強(qiáng)大且負(fù)責(zé)任的直接語(yǔ)音到語(yǔ)音翻譯

揭秘語(yǔ)音到語(yǔ)音翻譯黑科技，來挑戰(zhàn)國(guó)際口語(yǔ)翻譯大賽

Google 全新的語(yǔ)音翻譯，難以想象這是一個(gè)機(jī)器人說的話

DeepMind發(fā)布WaveNets語(yǔ)音合成系統(tǒng)，稱世界最佳，直接提升50%！

迪士尼也來研究人工智能，將AI用于動(dòng)畫制作

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区