近日,第二十屆國(guó)際口語(yǔ)機(jī)器翻譯大會(huì)(International Conference on Spoken Language Translation ,簡(jiǎn)稱 IWSLT)在加拿大多倫多舉辦。
小米AI實(shí)驗(yàn)室憑借其領(lǐng)先的技術(shù)優(yōu)勢(shì),獲得“非實(shí)時(shí)英中語(yǔ)音到語(yǔ)音”(Speech-to-Speech)賽道自動(dòng)測(cè)評(píng)第一名的好成績(jī);同時(shí),在“非實(shí)時(shí)英中語(yǔ)音到文本”“實(shí)時(shí)英中語(yǔ)音到文本”賽道上也取得了新的突破。
IWSLT 始終聚焦于語(yǔ)音翻譯領(lǐng)域熱點(diǎn)問(wèn)題和應(yīng)用難題,每年都會(huì)發(fā)布不同類型的口語(yǔ)機(jī)器翻譯任務(wù),通過(guò)比賽推動(dòng)技術(shù)發(fā)展和交流,吸引了眾多國(guó)內(nèi)外公司和科研機(jī)構(gòu)參與。大賽至今已經(jīng)舉辦20年,成為機(jī)器翻譯領(lǐng)域最具影響力的國(guó)際賽事之一。
本屆IWSLT,小米AI實(shí)驗(yàn)室共參加了英語(yǔ)到中文普通話語(yǔ)向的3個(gè)賽道,分別是非實(shí)時(shí)語(yǔ)音到語(yǔ)音翻譯(Offline Speech to Speech Translation)、非實(shí)時(shí)語(yǔ)音到文本翻譯(Offline Speech Translation), 以及實(shí)時(shí)語(yǔ)音到文本翻譯(Simultaneous Speech to Text Translation)。在提交的英語(yǔ)到中文普通話語(yǔ)向上,在非實(shí)時(shí)語(yǔ)音到語(yǔ)音任務(wù)上獲得了自動(dòng)測(cè)評(píng)第一名;在非實(shí)時(shí)語(yǔ)音到文本翻譯任務(wù)上,在提交的受限系統(tǒng)中獲得了端到端的第二名;在實(shí)時(shí)語(yǔ)音到文本翻譯任務(wù)上獲得了第三名。
以下是官方公布的結(jié)果:
非實(shí)時(shí)語(yǔ)音到語(yǔ)音翻譯自動(dòng)測(cè)評(píng)結(jié)果小米第一
小米獲得了端到端語(yǔ)音翻譯(受限系統(tǒng))第二名
英到中實(shí)時(shí)語(yǔ)音到文本測(cè)評(píng)結(jié)果小米第三
*以上官方數(shù)據(jù)來(lái)源:Findings of the IWSLT 2023 Evaluation Campaign
語(yǔ)音翻譯技術(shù)可以將一種語(yǔ)言的語(yǔ)音轉(zhuǎn)換為另一種語(yǔ)言的文本或語(yǔ)音,即語(yǔ)音到文本翻譯(speech-to-text translation)和語(yǔ)音到語(yǔ)音翻譯(speech-to-speech translation)。這種技術(shù)的出現(xiàn)極大地減小了現(xiàn)實(shí)生活中跨語(yǔ)言溝通的障礙。
目前,在語(yǔ)音翻譯領(lǐng)域,有兩種主要的技術(shù)路線。第一種是端到端技術(shù)方案,它可以直接將源語(yǔ)音轉(zhuǎn)換為目標(biāo)文本。第二種是級(jí)聯(lián)技術(shù)方案,它需要先將源語(yǔ)音識(shí)別為源文本,然后再將源文本翻譯為目標(biāo)文本。本次IWSLT,我們提交的三個(gè)系統(tǒng)都是基于端到端語(yǔ)音到文本翻譯模型構(gòu)建的。
我們訓(xùn)練了一個(gè)用于參加非實(shí)時(shí)語(yǔ)音到文本翻譯賽道的系統(tǒng)。在這個(gè)系統(tǒng)的基礎(chǔ)上,我們加入了流式解碼,從而得到了我們的實(shí)時(shí)語(yǔ)音到文本翻譯系統(tǒng)。同樣地,在非實(shí)時(shí)語(yǔ)音到文本翻譯系統(tǒng)的基礎(chǔ)上,我們?cè)诜菍?shí)時(shí)語(yǔ)音到語(yǔ)音賽道提供更大規(guī)模Giga ST數(shù)據(jù)上進(jìn)行了進(jìn)一步的訓(xùn)練,從而得到了翻譯質(zhì)量更好的非實(shí)時(shí)語(yǔ)音到文本翻譯的系統(tǒng)。最后,我們將一個(gè)語(yǔ)音合成(TTS)系統(tǒng)串聯(lián)到非實(shí)時(shí)語(yǔ)音到文本翻譯系統(tǒng)上,得到了非實(shí)時(shí)語(yǔ)音到語(yǔ)音翻譯系統(tǒng)。
英語(yǔ)到中文普通話語(yǔ)向三個(gè)系統(tǒng)關(guān)系圖
硬核技術(shù)如何為翻譯賦能?背后有哪些創(chuàng)新奧秘?還得看小米AI實(shí)驗(yàn)室多維優(yōu)化技術(shù)打造不凡翻譯系統(tǒng)。小米不僅充分總結(jié)領(lǐng)域內(nèi)外的經(jīng)驗(yàn),而且積極開拓創(chuàng)新,對(duì)系統(tǒng)進(jìn)行了全方位多角度的“修煉”。
▍數(shù)據(jù)增強(qiáng),海量數(shù)據(jù)讓譯文更“靠譜”
訓(xùn)練數(shù)據(jù)的數(shù)量對(duì)于神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練至關(guān)重要,然而現(xiàn)有的真實(shí)語(yǔ)音到文本翻譯數(shù)據(jù)較少(約35萬(wàn)翻譯句對(duì)),給端到端語(yǔ)音到文本翻譯模型的訓(xùn)練造成困難。因此我們使用數(shù)據(jù)增強(qiáng)方法,基于數(shù)據(jù)量充分的英文語(yǔ)音識(shí)別數(shù)據(jù),使用機(jī)器翻譯模型將轉(zhuǎn)錄的英文文本翻譯到中文,從而得到英文語(yǔ)音到中文文本的翻譯數(shù)據(jù),用于訓(xùn)練端到端語(yǔ)音到文本翻譯模型。
在有限的參賽時(shí)間中,我們對(duì)約4500小時(shí)的語(yǔ)音識(shí)別數(shù)據(jù)進(jìn)行了翻譯增強(qiáng),最終得到約180萬(wàn)條語(yǔ)音到文本翻譯的數(shù)據(jù),相較以往數(shù)據(jù)量有極大提升,能更好地保證端到端語(yǔ)音到文本翻譯模型的翻譯質(zhì)量。
▍預(yù)訓(xùn)練加持,收斂更快,質(zhì)量更優(yōu)
在訓(xùn)練非實(shí)時(shí)端到端語(yǔ)音到文本翻譯模型時(shí),我們使用了預(yù)訓(xùn)練的HuBERT和mBERT對(duì)模型進(jìn)行初始化,使得模型的收斂速度非常快,同時(shí)也顯著提高了翻譯質(zhì)量。然而,在使用這兩個(gè)模型進(jìn)行初始化訓(xùn)練后,我們發(fā)現(xiàn)模型的訓(xùn)練不太穩(wěn)定,有時(shí)會(huì)突然崩塌。
在實(shí)驗(yàn)中,我們發(fā)現(xiàn)模型的輸入輸出層梯度波動(dòng)較大。因此,我們采取了兩個(gè)措施:首先,我們對(duì)詞表進(jìn)行了裁剪,將mBART的詞表從250k裁剪到70k;其次,對(duì)CNN層和Transformer編碼器的梯度進(jìn)行了縮放,以確保訓(xùn)練過(guò)程的穩(wěn)定。此外我們還采用了多任務(wù)學(xué)習(xí)、對(duì)比學(xué)習(xí)、自訓(xùn)練等方法,使得翻譯的質(zhì)量進(jìn)一步得到了提升。
端到端語(yǔ)音翻譯模型結(jié)構(gòu)
▍超級(jí)擬人技術(shù),讓語(yǔ)音更自然
在語(yǔ)音到語(yǔ)音翻譯系統(tǒng)中,采用了超級(jí)擬人的個(gè)性化定制方案實(shí)現(xiàn)語(yǔ)音合成。首先,使用aishell3數(shù)據(jù)集訓(xùn)練得到一個(gè)多說(shuō)話人的基座模型。其次,對(duì)Giga TTS中文數(shù)據(jù)集中的一部分進(jìn)行降噪和數(shù)據(jù)擴(kuò)充處理,并與基座模型生成的集內(nèi)說(shuō)話人的音色向量,進(jìn)行說(shuō)話人相似度的計(jì)算。最后,讓Giga TTS數(shù)據(jù)集,在說(shuō)話人相似度最高的向量上進(jìn)行個(gè)性化適配,最終生成自然且更加擬人化的語(yǔ)音。
語(yǔ)音合成流程
▍解碼“查漏補(bǔ)缺”,流式更順暢
在實(shí)時(shí)語(yǔ)音翻譯系統(tǒng)中,團(tuán)隊(duì)發(fā)現(xiàn)譯文存在翻譯不完全的情況。這是因?yàn)榉g解碼在輸入完全之前提前中斷,導(dǎo)致后續(xù)輸入的語(yǔ)音嚴(yán)重漏譯。因此,我們加入防止提前結(jié)束的策略,當(dāng)發(fā)現(xiàn)解碼過(guò)程中出現(xiàn)表示結(jié)束的詞(eos),而程序檢測(cè)到語(yǔ)句輸入尚未完成時(shí),便自發(fā)修正結(jié)束標(biāo)志,繼續(xù)解碼。通過(guò)這種“查漏補(bǔ)缺”式的干預(yù),讓翻譯完整通順,從而提高譯文質(zhì)量。
小米參賽系統(tǒng)論文:The Xiaomi AI Lab’s Speech Translation Systems for IWSLT 2023 Offline Task, Simultaneous Task and Speech-to-Speech Task
小米AI實(shí)驗(yàn)室機(jī)器翻譯團(tuán)隊(duì)組建于2018年,持續(xù)探索機(jī)器翻譯前沿技術(shù)。目前,翻譯技術(shù)已在小米手機(jī)和 AIoT 智能硬件產(chǎn)品中廣泛落地,為小米手機(jī)用戶打造了便捷好用、支持多場(chǎng)景翻譯需求的小愛(ài)翻譯App。
▍小愛(ài)實(shí)時(shí)翻譯
高通驍龍8+芯片內(nèi)置的第七代AI芯片提供了強(qiáng)大算力,小米MIX Fold 2折疊屏手機(jī)行業(yè)首發(fā)了基于驍龍AI芯片的全離線語(yǔ)音識(shí)別和機(jī)器翻譯(詳見又快又準(zhǔn)又安全?實(shí)時(shí)字幕有“芯”秘密?。S脩粼谟^看外語(yǔ)視頻、開外語(yǔ)在線會(huì)議、甚至無(wú)網(wǎng)需要外語(yǔ)交流時(shí)都可以接近實(shí)時(shí)地看到雙語(yǔ)字幕。同時(shí),音頻數(shù)據(jù)默認(rèn)保存在手機(jī)本地,無(wú)需上傳云端處理,隱私更安全。
▍小愛(ài)同聲傳譯
雙人對(duì)話,邊說(shuō)邊譯,面對(duì)面跨語(yǔ)言溝通無(wú)障礙,輕松應(yīng)對(duì)全球多個(gè)國(guó)家的不同英文口音。
▍MIUI筆記會(huì)議秘書
涉外會(huì)議中,使用小米MIUI筆記會(huì)議秘書,可以直接翻譯并記錄會(huì)議內(nèi)容,還有精細(xì)的聲紋識(shí)別可以將會(huì)中角色也區(qū)別開來(lái),全面解放你的雙手和頭腦,把時(shí)間留給思考,實(shí)現(xiàn)高效的AI會(huì)議紀(jì)要。
▍米家眼鏡相機(jī)
米家眼鏡相機(jī)也內(nèi)置了能提供實(shí)時(shí)中英互譯功能的“小愛(ài)翻譯”,用戶在參加外語(yǔ)會(huì)議和出國(guó)旅游時(shí),佩戴眼鏡就可以輕松理解外語(yǔ)內(nèi)容以及應(yīng)對(duì)外語(yǔ)交流。
—
近年來(lái),小米在機(jī)器翻譯方向的技術(shù)積累日漸豐厚,并已在小米手機(jī)和 AIoT 智能硬件產(chǎn)品中廣泛落地,陸續(xù)自研了“同聲傳譯”“會(huì)議秘書”“實(shí)時(shí)字幕”“通話翻譯”“圖片翻譯”“網(wǎng)頁(yè)翻譯”等功能。
通過(guò)“全能翻,極速譯”的小愛(ài)翻譯App,小米用戶無(wú)論是與外國(guó)友人面對(duì)面或通話溝通,還是觀看沒(méi)有字幕的外語(yǔ)視頻、瀏覽外文網(wǎng)頁(yè),甚至遇到含有外文的圖片時(shí),都能隨時(shí)隨地輕松翻譯,實(shí)現(xiàn)邊說(shuō)邊譯、邊聽邊譯、邊看邊譯,享受科技帶來(lái)的自在溝通的美好生活。
聯(lián)系客服