九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
語(yǔ)音直接翻語(yǔ)音!谷歌語(yǔ)音翻譯新突破,不再需要中間文本

作者:Ye Jia等

編譯:劉靜

圖靈聯(lián)邦編輯部出品

語(yǔ)音翻譯系統(tǒng)在過去幾十年中得到了快速發(fā)展,其目標(biāo)是幫助使用不同語(yǔ)言的人們相互交流。

這些系統(tǒng)通常被分成三個(gè)獨(dú)立的部分:自動(dòng)語(yǔ)音識(shí)別將源語(yǔ)音轉(zhuǎn)錄為文本,機(jī)器翻譯將轉(zhuǎn)錄文本翻譯成目標(biāo)語(yǔ)言,文本語(yǔ)音合成(TTS)(從翻譯文本生成目標(biāo)語(yǔ)言的語(yǔ)音)。將任務(wù)劃分為這樣的級(jí)聯(lián)系統(tǒng)非常成功,為許多商業(yè)語(yǔ)音翻譯產(chǎn)品提供了支持,包括谷歌翻譯。

在谷歌發(fā)表的最新論文“ 使用序列到序列模型的直接語(yǔ)音翻譯 ”中,他們提出了一種基于單個(gè)注意序列到序列模型的實(shí)驗(yàn)性新系統(tǒng),稱為Translatotron。

該系統(tǒng)不需要依賴中間文本表示,它避免了將任務(wù)劃分為單獨(dú)的階段,擁有比級(jí)聯(lián)系統(tǒng)更多的優(yōu)勢(shì),包括:更快的推理速度、避免了識(shí)別和翻譯之間的復(fù)合錯(cuò)誤、使得在翻譯后保留原始發(fā)言者的聲音變得更簡(jiǎn)單,并且更好地處理不了需要翻譯的單詞(例如,名字和專有名詞)。

論文地址:

https://arxiv.org/abs/1904.06037

Translatotron

語(yǔ)音翻譯的端到端模型的出現(xiàn)始于2016年,當(dāng)時(shí)研究人員證明了使用單個(gè)序列到序列模型進(jìn)行語(yǔ)音到文本翻譯的可行性。

2017年,谷歌的研究證明了這種端到端模型可以勝過級(jí)聯(lián)模型。最近提出了許多進(jìn)一步改進(jìn)端到端語(yǔ)音到文本翻譯模型的方法,包括利用弱監(jiān)督數(shù)據(jù)的努力。

Translatotron更進(jìn)一步,通過證明單個(gè)序列到序列模型可以直接將語(yǔ)言從一種語(yǔ)言翻譯成另一種語(yǔ)言的語(yǔ)音,而不需要像級(jí)聯(lián)系統(tǒng)那樣依賴于任何一種語(yǔ)言的中間文本表示。

Translatotron是基于序列到序列的網(wǎng)絡(luò),以源Spectrogram作為輸入并生成目標(biāo)語(yǔ)言中的翻譯內(nèi)容的Spectrogram。

它還使用了另外兩個(gè)經(jīng)過單獨(dú)訓(xùn)練的組件:一個(gè)神經(jīng)聲碼器,將輸出頻譜圖轉(zhuǎn)換為時(shí)域波形,還可以選擇使用一個(gè)演講者編碼器,用于保持合成翻譯語(yǔ)音中源說話者的語(yǔ)音的特征。

在訓(xùn)練期間,序列到序列模型使用多任務(wù)目標(biāo)來在生成目標(biāo)譜圖的同時(shí)預(yù)測(cè)源和目標(biāo)轉(zhuǎn)錄物。但是,在推理期間不使用轉(zhuǎn)錄本或其他中間文本表示。

Translatotron的模型結(jié)構(gòu)

性能

研究人員通過測(cè)量BLEU分?jǐn)?shù)來驗(yàn)證Translatotron的翻譯質(zhì)量,該分?jǐn)?shù)是通過語(yǔ)音識(shí)別系統(tǒng)轉(zhuǎn)錄的文本計(jì)算的。雖然結(jié)果落后于傳統(tǒng)的級(jí)聯(lián)系統(tǒng),但這已經(jīng)證明了端到端直接語(yǔ)音到語(yǔ)音轉(zhuǎn)換的可行性。

在下面的音頻剪輯中,比較了從Translatotron到基線級(jí)聯(lián)方法的直接語(yǔ)音到語(yǔ)音翻譯輸出。在這種情況下,兩個(gè)系統(tǒng)都提供了合適的翻譯并使用相同的規(guī)范語(yǔ)音自然地說話。

保留聲音特征

通過集成演講者編碼器網(wǎng)絡(luò),Translatotron還能夠在翻譯的語(yǔ)音中保留原說話人的聲音特征,這使得翻譯的語(yǔ)音聽起來更自然,不那么刺耳。這個(gè)特性利用了之前谷歌對(duì)TTS的說話人驗(yàn)證和說話人適應(yīng)的研究。

演講者編碼器在演講者驗(yàn)證任務(wù)上預(yù)先訓(xùn)練,學(xué)習(xí)從簡(jiǎn)短的示例話語(yǔ)中對(duì)演講者(說話人)特性進(jìn)行編碼。

在該編碼上調(diào)節(jié)頻譜圖解碼器使得可以合成具有類似說話人特性的語(yǔ)音,即使內(nèi)容是用不同的語(yǔ)言編寫的。

下面的音頻片段演示了Translatotron在將原始說話者的聲音轉(zhuǎn)換為翻譯后的語(yǔ)音時(shí)的性能。在這個(gè)例子中,Translatotron給出了比基線級(jí)聯(lián)模型更準(zhǔn)確的翻譯,同時(shí)能夠保留原始說話者的聲音特征。

與使用規(guī)范語(yǔ)音的輸出相比,保留原始語(yǔ)音的Translatotron輸出使用更少的數(shù)據(jù)進(jìn)行訓(xùn)練,因此它們產(chǎn)生的翻譯略有不同。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
同聲傳譯被攻陷!谷歌發(fā)Translatotron直接語(yǔ)音翻譯
高質(zhì)量、強(qiáng)大且負(fù)責(zé)任的直接語(yǔ)音到語(yǔ)音翻譯
揭秘語(yǔ)音到語(yǔ)音翻譯黑科技,來挑戰(zhàn)國(guó)際口語(yǔ)翻譯大賽
Google 全新的語(yǔ)音翻譯,難以想象這是一個(gè)機(jī)器人說的話
DeepMind發(fā)布WaveNets語(yǔ)音合成系統(tǒng),稱世界最佳,直接提升50%!
迪士尼也來研究人工智能,將AI用于動(dòng)畫制作
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服