作者:Ye Jia等
編譯:劉靜
圖靈聯(lián)邦編輯部出品
語(yǔ)音翻譯系統(tǒng)在過去幾十年中得到了快速發(fā)展,其目標(biāo)是幫助使用不同語(yǔ)言的人們相互交流。
這些系統(tǒng)通常被分成三個(gè)獨(dú)立的部分:自動(dòng)語(yǔ)音識(shí)別將源語(yǔ)音轉(zhuǎn)錄為文本,機(jī)器翻譯將轉(zhuǎn)錄文本翻譯成目標(biāo)語(yǔ)言,文本語(yǔ)音合成(TTS)(從翻譯文本生成目標(biāo)語(yǔ)言的語(yǔ)音)。將任務(wù)劃分為這樣的級(jí)聯(lián)系統(tǒng)非常成功,為許多商業(yè)語(yǔ)音翻譯產(chǎn)品提供了支持,包括谷歌翻譯。
在谷歌發(fā)表的最新論文“ 使用序列到序列模型的直接語(yǔ)音翻譯 ”中,他們提出了一種基于單個(gè)注意序列到序列模型的實(shí)驗(yàn)性新系統(tǒng),稱為Translatotron。
該系統(tǒng)不需要依賴中間文本表示,它避免了將任務(wù)劃分為單獨(dú)的階段,擁有比級(jí)聯(lián)系統(tǒng)更多的優(yōu)勢(shì),包括:更快的推理速度、避免了識(shí)別和翻譯之間的復(fù)合錯(cuò)誤、使得在翻譯后保留原始發(fā)言者的聲音變得更簡(jiǎn)單,并且更好地處理不了需要翻譯的單詞(例如,名字和專有名詞)。
論文地址:
https://arxiv.org/abs/1904.06037
Translatotron
語(yǔ)音翻譯的端到端模型的出現(xiàn)始于2016年,當(dāng)時(shí)研究人員證明了使用單個(gè)序列到序列模型進(jìn)行語(yǔ)音到文本翻譯的可行性。
2017年,谷歌的研究證明了這種端到端模型可以勝過級(jí)聯(lián)模型。最近提出了許多進(jìn)一步改進(jìn)端到端語(yǔ)音到文本翻譯模型的方法,包括利用弱監(jiān)督數(shù)據(jù)的努力。
Translatotron更進(jìn)一步,通過證明單個(gè)序列到序列模型可以直接將語(yǔ)言從一種語(yǔ)言翻譯成另一種語(yǔ)言的語(yǔ)音,而不需要像級(jí)聯(lián)系統(tǒng)那樣依賴于任何一種語(yǔ)言的中間文本表示。
Translatotron是基于序列到序列的網(wǎng)絡(luò),以源Spectrogram作為輸入并生成目標(biāo)語(yǔ)言中的翻譯內(nèi)容的Spectrogram。
它還使用了另外兩個(gè)經(jīng)過單獨(dú)訓(xùn)練的組件:一個(gè)神經(jīng)聲碼器,將輸出頻譜圖轉(zhuǎn)換為時(shí)域波形,還可以選擇使用一個(gè)演講者編碼器,用于保持合成翻譯語(yǔ)音中源說話者的語(yǔ)音的特征。
在訓(xùn)練期間,序列到序列模型使用多任務(wù)目標(biāo)來在生成目標(biāo)譜圖的同時(shí)預(yù)測(cè)源和目標(biāo)轉(zhuǎn)錄物。但是,在推理期間不使用轉(zhuǎn)錄本或其他中間文本表示。
Translatotron的模型結(jié)構(gòu)
性能
研究人員通過測(cè)量BLEU分?jǐn)?shù)來驗(yàn)證Translatotron的翻譯質(zhì)量,該分?jǐn)?shù)是通過語(yǔ)音識(shí)別系統(tǒng)轉(zhuǎn)錄的文本計(jì)算的。雖然結(jié)果落后于傳統(tǒng)的級(jí)聯(lián)系統(tǒng),但這已經(jīng)證明了端到端直接語(yǔ)音到語(yǔ)音轉(zhuǎn)換的可行性。
在下面的音頻剪輯中,比較了從Translatotron到基線級(jí)聯(lián)方法的直接語(yǔ)音到語(yǔ)音翻譯輸出。在這種情況下,兩個(gè)系統(tǒng)都提供了合適的翻譯并使用相同的規(guī)范語(yǔ)音自然地說話。
保留聲音特征
通過集成演講者編碼器網(wǎng)絡(luò),Translatotron還能夠在翻譯的語(yǔ)音中保留原說話人的聲音特征,這使得翻譯的語(yǔ)音聽起來更自然,不那么刺耳。這個(gè)特性利用了之前谷歌對(duì)TTS的說話人驗(yàn)證和說話人適應(yīng)的研究。
演講者編碼器在演講者驗(yàn)證任務(wù)上預(yù)先訓(xùn)練,學(xué)習(xí)從簡(jiǎn)短的示例話語(yǔ)中對(duì)演講者(說話人)特性進(jìn)行編碼。
在該編碼上調(diào)節(jié)頻譜圖解碼器使得可以合成具有類似說話人特性的語(yǔ)音,即使內(nèi)容是用不同的語(yǔ)言編寫的。
下面的音頻片段演示了Translatotron在將原始說話者的聲音轉(zhuǎn)換為翻譯后的語(yǔ)音時(shí)的性能。在這個(gè)例子中,Translatotron給出了比基線級(jí)聯(lián)模型更準(zhǔn)確的翻譯,同時(shí)能夠保留原始說話者的聲音特征。
與使用規(guī)范語(yǔ)音的輸出相比,保留原始語(yǔ)音的Translatotron輸出使用更少的數(shù)據(jù)進(jìn)行訓(xùn)練,因此它們產(chǎn)生的翻譯略有不同。
聯(lián)系客服