機(jī)器翻譯行云流水，小米又雙叒在國(guó)際賽事上獲獎(jiǎng)了

2023.07.17 上海

近日，第二十屆國(guó)際口語(yǔ)機(jī)器翻譯大會(huì)（International Conference on Spoken Language Translation ，簡(jiǎn)稱 IWSLT）在加拿大多倫多舉辦。

小米AI實(shí)驗(yàn)室憑借其領(lǐng)先的技術(shù)優(yōu)勢(shì)，獲得“非實(shí)時(shí)英中語(yǔ)音到語(yǔ)音”（Speech-to-Speech）賽道自動(dòng)測(cè)評(píng)第一名的好成績(jī)；同時(shí)，在“非實(shí)時(shí)英中語(yǔ)音到文本”“實(shí)時(shí)英中語(yǔ)音到文本”賽道上也取得了新的突破。

01 官方實(shí)測(cè)，小米語(yǔ)音翻譯表現(xiàn)優(yōu)異

IWSLT 始終聚焦于語(yǔ)音翻譯領(lǐng)域熱點(diǎn)問(wèn)題和應(yīng)用難題，每年都會(huì)發(fā)布不同類型的口語(yǔ)機(jī)器翻譯任務(wù)，通過(guò)比賽推動(dòng)技術(shù)發(fā)展和交流，吸引了眾多國(guó)內(nèi)外公司和科研機(jī)構(gòu)參與。大賽至今已經(jīng)舉辦20年，成為機(jī)器翻譯領(lǐng)域最具影響力的國(guó)際賽事之一。

本屆IWSLT，小米AI實(shí)驗(yàn)室共參加了英語(yǔ)到中文普通話語(yǔ)向的3個(gè)賽道，分別是非實(shí)時(shí)語(yǔ)音到語(yǔ)音翻譯（Offline Speech to Speech Translation）、非實(shí)時(shí)語(yǔ)音到文本翻譯（Offline Speech Translation）, 以及實(shí)時(shí)語(yǔ)音到文本翻譯（Simultaneous Speech to Text Translation）。在提交的英語(yǔ)到中文普通話語(yǔ)向上，在非實(shí)時(shí)語(yǔ)音到語(yǔ)音任務(wù)上獲得了自動(dòng)測(cè)評(píng)第一名；在非實(shí)時(shí)語(yǔ)音到文本翻譯任務(wù)上，在提交的受限系統(tǒng)中獲得了端到端的第二名；在實(shí)時(shí)語(yǔ)音到文本翻譯任務(wù)上獲得了第三名。

以下是官方公布的結(jié)果：

非實(shí)時(shí)語(yǔ)音到語(yǔ)音翻譯自動(dòng)測(cè)評(píng)結(jié)果小米第一

小米獲得了端到端語(yǔ)音翻譯（受限系統(tǒng)）第二名

英到中實(shí)時(shí)語(yǔ)音到文本測(cè)評(píng)結(jié)果小米第三

*以上官方數(shù)據(jù)來(lái)源：Findings of the IWSLT 2023 Evaluation Campaign

02 技術(shù)解讀，翻譯系統(tǒng)優(yōu)勢(shì)大揭秘

語(yǔ)音翻譯技術(shù)可以將一種語(yǔ)言的語(yǔ)音轉(zhuǎn)換為另一種語(yǔ)言的文本或語(yǔ)音，即語(yǔ)音到文本翻譯（speech-to-text translation）和語(yǔ)音到語(yǔ)音翻譯（speech-to-speech translation）。這種技術(shù)的出現(xiàn)極大地減小了現(xiàn)實(shí)生活中跨語(yǔ)言溝通的障礙。

目前，在語(yǔ)音翻譯領(lǐng)域，有兩種主要的技術(shù)路線。第一種是端到端技術(shù)方案，它可以直接將源語(yǔ)音轉(zhuǎn)換為目標(biāo)文本。第二種是級(jí)聯(lián)技術(shù)方案，它需要先將源語(yǔ)音識(shí)別為源文本，然后再將源文本翻譯為目標(biāo)文本。本次IWSLT，我們提交的三個(gè)系統(tǒng)都是基于端到端語(yǔ)音到文本翻譯模型構(gòu)建的。

我們訓(xùn)練了一個(gè)用于參加非實(shí)時(shí)語(yǔ)音到文本翻譯賽道的系統(tǒng)。在這個(gè)系統(tǒng)的基礎(chǔ)上，我們加入了流式解碼，從而得到了我們的實(shí)時(shí)語(yǔ)音到文本翻譯系統(tǒng)。同樣地，在非實(shí)時(shí)語(yǔ)音到文本翻譯系統(tǒng)的基礎(chǔ)上，我們?cè)诜菍?shí)時(shí)語(yǔ)音到語(yǔ)音賽道提供更大規(guī)模Giga ST數(shù)據(jù)上進(jìn)行了進(jìn)一步的訓(xùn)練，從而得到了翻譯質(zhì)量更好的非實(shí)時(shí)語(yǔ)音到文本翻譯的系統(tǒng)。最后，我們將一個(gè)語(yǔ)音合成（TTS）系統(tǒng)串聯(lián)到非實(shí)時(shí)語(yǔ)音到文本翻譯系統(tǒng)上，得到了非實(shí)時(shí)語(yǔ)音到語(yǔ)音翻譯系統(tǒng)。

英語(yǔ)到中文普通話語(yǔ)向三個(gè)系統(tǒng)關(guān)系圖

硬核技術(shù)如何為翻譯賦能？背后有哪些創(chuàng)新奧秘？還得看小米AI實(shí)驗(yàn)室多維優(yōu)化技術(shù)打造不凡翻譯系統(tǒng)。小米不僅充分總結(jié)領(lǐng)域內(nèi)外的經(jīng)驗(yàn)，而且積極開拓創(chuàng)新，對(duì)系統(tǒng)進(jìn)行了全方位多角度的“修煉”。

▍數(shù)據(jù)增強(qiáng)，海量數(shù)據(jù)讓譯文更“靠譜”

訓(xùn)練數(shù)據(jù)的數(shù)量對(duì)于神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練至關(guān)重要，然而現(xiàn)有的真實(shí)語(yǔ)音到文本翻譯數(shù)據(jù)較少（約35萬(wàn)翻譯句對(duì)），給端到端語(yǔ)音到文本翻譯模型的訓(xùn)練造成困難。因此我們使用數(shù)據(jù)增強(qiáng)方法，基于數(shù)據(jù)量充分的英文語(yǔ)音識(shí)別數(shù)據(jù)，使用機(jī)器翻譯模型將轉(zhuǎn)錄的英文文本翻譯到中文，從而得到英文語(yǔ)音到中文文本的翻譯數(shù)據(jù)，用于訓(xùn)練端到端語(yǔ)音到文本翻譯模型。

在有限的參賽時(shí)間中，我們對(duì)約4500小時(shí)的語(yǔ)音識(shí)別數(shù)據(jù)進(jìn)行了翻譯增強(qiáng)，最終得到約180萬(wàn)條語(yǔ)音到文本翻譯的數(shù)據(jù)，相較以往數(shù)據(jù)量有極大提升，能更好地保證端到端語(yǔ)音到文本翻譯模型的翻譯質(zhì)量。

▍預(yù)訓(xùn)練加持，收斂更快，質(zhì)量更優(yōu)

在訓(xùn)練非實(shí)時(shí)端到端語(yǔ)音到文本翻譯模型時(shí)，我們使用了預(yù)訓(xùn)練的HuBERT和mBERT對(duì)模型進(jìn)行初始化，使得模型的收斂速度非常快，同時(shí)也顯著提高了翻譯質(zhì)量。然而，在使用這兩個(gè)模型進(jìn)行初始化訓(xùn)練后，我們發(fā)現(xiàn)模型的訓(xùn)練不太穩(wěn)定，有時(shí)會(huì)突然崩塌。

在實(shí)驗(yàn)中，我們發(fā)現(xiàn)模型的輸入輸出層梯度波動(dòng)較大。因此，我們采取了兩個(gè)措施：首先，我們對(duì)詞表進(jìn)行了裁剪，將mBART的詞表從250k裁剪到70k；其次，對(duì)CNN層和Transformer編碼器的梯度進(jìn)行了縮放，以確保訓(xùn)練過(guò)程的穩(wěn)定。此外我們還采用了多任務(wù)學(xué)習(xí)、對(duì)比學(xué)習(xí)、自訓(xùn)練等方法，使得翻譯的質(zhì)量進(jìn)一步得到了提升。

端到端語(yǔ)音翻譯模型結(jié)構(gòu)

▍超級(jí)擬人技術(shù)，讓語(yǔ)音更自然

在語(yǔ)音到語(yǔ)音翻譯系統(tǒng)中，采用了超級(jí)擬人的個(gè)性化定制方案實(shí)現(xiàn)語(yǔ)音合成。首先，使用aishell3數(shù)據(jù)集訓(xùn)練得到一個(gè)多說(shuō)話人的基座模型。其次，對(duì)Giga TTS中文數(shù)據(jù)集中的一部分進(jìn)行降噪和數(shù)據(jù)擴(kuò)充處理，并與基座模型生成的集內(nèi)說(shuō)話人的音色向量，進(jìn)行說(shuō)話人相似度的計(jì)算。最后，讓Giga TTS數(shù)據(jù)集，在說(shuō)話人相似度最高的向量上進(jìn)行個(gè)性化適配，最終生成自然且更加擬人化的語(yǔ)音。

語(yǔ)音合成流程

▍解碼“查漏補(bǔ)缺”，流式更順暢

在實(shí)時(shí)語(yǔ)音翻譯系統(tǒng)中，團(tuán)隊(duì)發(fā)現(xiàn)譯文存在翻譯不完全的情況。這是因?yàn)榉g解碼在輸入完全之前提前中斷，導(dǎo)致后續(xù)輸入的語(yǔ)音嚴(yán)重漏譯。因此，我們加入防止提前結(jié)束的策略，當(dāng)發(fā)現(xiàn)解碼過(guò)程中出現(xiàn)表示結(jié)束的詞（eos），而程序檢測(cè)到語(yǔ)句輸入尚未完成時(shí)，便自發(fā)修正結(jié)束標(biāo)志，繼續(xù)解碼。通過(guò)這種“查漏補(bǔ)缺”式的干預(yù)，讓翻譯完整通順，從而提高譯文質(zhì)量。

小米參賽系統(tǒng)論文：The Xiaomi AI Lab’s Speech Translation Systems for IWSLT 2023 Offline Task, Simultaneous Task and Speech-to-Speech Task

03 產(chǎn)品應(yīng)用，觸手可及的翻譯體驗(yàn)

小米AI實(shí)驗(yàn)室機(jī)器翻譯團(tuán)隊(duì)組建于2018年，持續(xù)探索機(jī)器翻譯前沿技術(shù)。目前，翻譯技術(shù)已在小米手機(jī)和 AIoT 智能硬件產(chǎn)品中廣泛落地，為小米手機(jī)用戶打造了便捷好用、支持多場(chǎng)景翻譯需求的小愛(ài)翻譯App。

▍小愛(ài)實(shí)時(shí)翻譯

高通驍龍8+芯片內(nèi)置的第七代AI芯片提供了強(qiáng)大算力，小米MIX Fold 2折疊屏手機(jī)行業(yè)首發(fā)了基于驍龍AI芯片的全離線語(yǔ)音識(shí)別和機(jī)器翻譯（詳見又快又準(zhǔn)又安全？實(shí)時(shí)字幕有“芯”秘密?。Ｓ脩粼谟^看外語(yǔ)視頻、開外語(yǔ)在線會(huì)議、甚至無(wú)網(wǎng)需要外語(yǔ)交流時(shí)都可以接近實(shí)時(shí)地看到雙語(yǔ)字幕。同時(shí)，音頻數(shù)據(jù)默認(rèn)保存在手機(jī)本地，無(wú)需上傳云端處理，隱私更安全。

▍小愛(ài)同聲傳譯

雙人對(duì)話，邊說(shuō)邊譯，面對(duì)面跨語(yǔ)言溝通無(wú)障礙，輕松應(yīng)對(duì)全球多個(gè)國(guó)家的不同英文口音。

▍MIUI筆記會(huì)議秘書

涉外會(huì)議中，使用小米MIUI筆記會(huì)議秘書，可以直接翻譯并記錄會(huì)議內(nèi)容，還有精細(xì)的聲紋識(shí)別可以將會(huì)中角色也區(qū)別開來(lái)，全面解放你的雙手和頭腦，把時(shí)間留給思考，實(shí)現(xiàn)高效的AI會(huì)議紀(jì)要。

▍米家眼鏡相機(jī)

米家眼鏡相機(jī)也內(nèi)置了能提供實(shí)時(shí)中英互譯功能的“小愛(ài)翻譯”，用戶在參加外語(yǔ)會(huì)議和出國(guó)旅游時(shí)，佩戴眼鏡就可以輕松理解外語(yǔ)內(nèi)容以及應(yīng)對(duì)外語(yǔ)交流。

—

近年來(lái)，小米在機(jī)器翻譯方向的技術(shù)積累日漸豐厚，并已在小米手機(jī)和 AIoT 智能硬件產(chǎn)品中廣泛落地，陸續(xù)自研了“同聲傳譯”“會(huì)議秘書”“實(shí)時(shí)字幕”“通話翻譯”“圖片翻譯”“網(wǎng)頁(yè)翻譯”等功能。

通過(guò)“全能翻，極速譯”的小愛(ài)翻譯App，小米用戶無(wú)論是與外國(guó)友人面對(duì)面或通話溝通，還是觀看沒(méi)有字幕的外語(yǔ)視頻、瀏覽外文網(wǎng)頁(yè)，甚至遇到含有外文的圖片時(shí)，都能隨時(shí)隨地輕松翻譯，實(shí)現(xiàn)邊說(shuō)邊譯、邊聽邊譯、邊看邊譯，享受科技帶來(lái)的自在溝通的美好生活。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

揭秘語(yǔ)音到語(yǔ)音翻譯黑科技，來(lái)挑戰(zhàn)國(guó)際口語(yǔ)翻譯大賽

實(shí)時(shí)在線語(yǔ)音翻譯怎么進(jìn)行？大家快來(lái)試試

日語(yǔ)實(shí)時(shí)語(yǔ)音翻譯方法有哪些？看完即會(huì)

ai視頻如何翻譯字幕？還不會(huì)的小伙伴看過(guò)來(lái)

基于深度學(xué)習(xí)的實(shí)時(shí)翻譯，它搶在Google前做了

用實(shí)力說(shuō)話，科大訊飛包攬同聲傳譯三項(xiàng)冠軍！

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

01

官方實(shí)測(cè)，小米語(yǔ)音翻譯表現(xiàn)優(yōu)異

02

技術(shù)解讀，翻譯系統(tǒng)優(yōu)勢(shì)大揭秘

03

產(chǎn)品應(yīng)用，觸手可及的翻譯體驗(yàn)

官方實(shí)測(cè)，小米語(yǔ)音翻譯表現(xiàn)優(yōu)異

技術(shù)解讀，翻譯系統(tǒng)優(yōu)勢(shì)大揭秘