鑒于數(shù)據(jù)、計算力、算法等諸多門檻,自神經(jīng)機器翻譯(NMT)產(chǎn)品化以來,在很大程度上便是互聯(lián)網(wǎng)巨頭們的競技場。
如今,又一個新的挑戰(zhàn)者高調(diào)加入進來,直接把矛頭指向堪稱行業(yè)技術(shù)標桿的谷歌、微軟以及 Facebook。上周,來自德國的 DeepL 翻譯上線,號稱實現(xiàn)了 NMT 技術(shù)的新突破,打造出了“世界上最精確、語言組織最自然的機器翻譯系統(tǒng)”;并宣布在自家組織的盲測中,打敗了谷歌翻譯以及微軟與 Facebook 的 NMT 系統(tǒng),釁意十足。
目前,DeepL 翻譯已支持英德法西等 42 門歐洲語言,正在對漢、日、俄等語言進行訓(xùn)練,并計劃在將來發(fā)布一款 API,讓開發(fā)者能夠?qū)?DeepL 翻譯整合入其應(yīng)用中。
公司前身
?
首先要說,這家公司的來歷并不簡單。
公司的前身是運營已近十年的在線外語詞典 Linguee,DeepL 翻譯也完全由 Linguee 團隊打造。Linguee 在國內(nèi)沒什么存在感,至于在海外……有谷歌翻譯專美于前,存在感也不是很高,但還是有一批認可它的用戶。
Linguee 的英漢、漢英詞典界面
不過,Linguee 的成敗現(xiàn)在已經(jīng)不重要,畢竟都換馬甲了——Linguee 在今年正式更名 DeepL,以“Deep”提醒 VC 自己是一家正兒八經(jīng)的深度學習公司。
真正重要的是 Linguee 的技術(shù)積累。Linguee 由前谷歌翻譯研究員 Gereon Frahling 在 2007 年離職開發(fā),2009 年正式上線。就雷鋒網(wǎng)所知,Linguee 的核心優(yōu)勢是它的爬蟲和機器學習系統(tǒng),前者抓取互聯(lián)網(wǎng)上的雙語對照翻譯,后者對這些翻譯的質(zhì)量進行評估。兩者結(jié)合,使 Linguee 成為了當時“世界上首個翻譯搜索引擎”。十年積累,Linguee 無論在數(shù)據(jù)和對算法的研究上都不可小覷。
去年在倫敦 Noah 上演講的 Gereon Frahling
一年前,其研究團隊著手欲實現(xiàn)一個新目標:利用在機器翻譯領(lǐng)域的多年專業(yè)積累,打造一套業(yè)內(nèi)最先進的 NMT 系統(tǒng)。這便是 8 月 29 日上線的 DeepL 翻譯。
三大優(yōu)勢
既然底子厚實,我們來看看這些積累給 DeepL 帶來了哪些資源優(yōu)勢。
雷鋒網(wǎng)要提醒,以下信息均是 DeepL 一家之言,尚無第三方背書,大家需自行判斷其含金量。
數(shù)據(jù)
Linguee 的數(shù)據(jù)集有逾十億組對照翻譯語句,號稱是世界上最大的人工翻譯數(shù)據(jù)集。 Linguee 能隨時搜索近似翻譯結(jié)果。
計算力
DeepL 在冰島搭建了一臺超算,號稱在全球 HPC 中性能排名第 23 位,浮點運算能力達到 5.1 petaFLOPS。因而能實現(xiàn)令 DeepL 十分自豪的計算速度:每秒處理百萬量級的詞語翻譯。
算法
采用 CNN 而不是 NMT 產(chǎn)品通用的 RNN。DeepL 宣稱其技術(shù)積累使得它能夠克服 CNN 的主要短板,因而能實現(xiàn)比基于 RNN 的競品算法更精確、自然的翻譯結(jié)果。
效果展示
DeepL 宣稱其翻譯系統(tǒng)的表現(xiàn)打敗了谷歌翻譯以及微軟、Facebook 的 NMT 系統(tǒng), 是基于兩個指標:盲測反饋和 BLEU 分數(shù)。
盲測
DeepL 邀請了職業(yè)翻譯者,對 DeepL 翻譯、谷歌翻譯、微軟翻譯以及 Facebook 的 NMT 系統(tǒng)進行了盲測,要求測試者選出所認為的最好的翻譯結(jié)果。測試語言為三組,分別是英德、英法、英西互譯,樣本為 100 個句子。DeepL 并未公布每組參與測試的職業(yè)譯者數(shù)量。測試結(jié)果如下:
如圖所示,在每一門測試中,選擇 DeepL 的測試者都最多。 DeepL 在英譯德、英譯法、英譯西的優(yōu)勢尤其明顯。其官方統(tǒng)計是:選擇 DeepL 為最佳翻譯結(jié)果的次數(shù),與選擇另外三家 NMT 服務(wù)的平均比例為 3:1 。
BLEU
BLEU 是業(yè)內(nèi)評估機器翻譯質(zhì)量最常用的打分算法,其得分被認為與人類的評判結(jié)果具有較大相關(guān)性。
DeepL 宣布,其英譯德、英譯法的 BLEU 得分超過了所有已發(fā)表的 NMT 研究,包括谷歌 Transformer。結(jié)果如下:
如圖,在英譯法項目上,DeepL 的 BLEU 分數(shù)超過次優(yōu)方案約 3.5%。
業(yè)內(nèi)觀點
踏入江湖的第一日,DeepL 就自封“天下第一”。業(yè)內(nèi)同行對此怎么看?
對此,雷鋒網(wǎng)咨詢了搜狗語音交互中心總監(jiān)陳偉、商鵲網(wǎng) CEO 鄒劍宇,以及 Facebook 機器學習工程師王楊。需要說明的是,三位老師均表示:由于缺乏關(guān)于 DeepL 算法、數(shù)據(jù)庫的第一手資料,也沒有來自第三方的信息,無法對其翻譯水平做出客觀判斷。商鵲網(wǎng)的 CEO 鄒劍宇評論道:“從相關(guān)報道中,對算法的描述并不詳細,沒有論文披露細節(jié),所以并不好理解?!?div style="height:15px;">
因此,以下僅為這四位看到 DeepL 宣傳信息后的一些個人看法。
一、
在 Facebook從事應(yīng)用機器學習的工程師王楊,聽到這件事的第一反應(yīng)是懷疑——單是同時勝過谷歌翻譯和Facebook NMT這一點,不拿出有足夠說服力的證據(jù)就難以取信于人。谷歌的NMT 積累深厚,F(xiàn)acebook的NMT也在快速發(fā)展。一個新的產(chǎn)品想要如其所宣傳的那樣實現(xiàn)大幅超越,很難。
若 DeepL 確實在技術(shù)上實現(xiàn)了突破,那么不排除他們有全新的多語種(multilingual)模型。
至于 DeepL 的算法模型基于 CNN 而不是 RNN,王楊表示“這從側(cè)面支持了 Facebook 的研究”。FAIR(Facebook AI Research)一直認為 CNN 在機器翻譯上的潛力遠遠大過 RNN,尤其是計算速度,這也是 Facebook 在 NMT 領(lǐng)域的主要研究方向之一。
二、
搜狗語音交互中心總監(jiān)陳偉,他們機器翻譯團隊剛剛在 WMT 2017評測中獲得中英、英中兩個翻譯方向的第一名,他認為數(shù)據(jù)對 DeepL 的貢獻可能遠大過其它因素。而 Linguee 的數(shù)據(jù)爬取和積累,是一項不小的優(yōu)勢。
陳偉評論道:
“從 BLEU 對比看,提升的比較明顯,感覺他們十億量級的高質(zhì)量數(shù)據(jù)對效果幫助比較大。實測大家都覺得好,這至少說明它數(shù)據(jù)的全面性還是夠的。”
據(jù)一位德語專業(yè)的譯員說,DeepL 德英互譯的體驗確實不錯,這絲毫不意外——作為一家德國公司,順理成章的,DeepL 重點關(guān)注的是德英、法英這些語種的翻譯。這為 DeepL 在這幾門語種的數(shù)據(jù)積累也提供了一定的聚焦和便利。
DeepL 公布的盲測、BLEU 評分,衡量的均是德、法、西這三門歐洲語言與英語之間的互譯。
在算法方面,陳偉向雷鋒網(wǎng)表示:
“沒看到他們技術(shù)的詳細介紹,只了解到使用了 CNN 而沒有使用 RNN,但是我感覺架構(gòu)變動不會太大,應(yīng)該類似于 Facebook 的 convs2s。
他并不認可“CNN 是神經(jīng)機器翻譯未來”的說法:
在搜狗的實驗對比中,“RNN-NMT、CNN-NMT 和谷歌的 Transformer 框架。三個技術(shù)我們都認真研究和優(yōu)化過,目前 Transformer 框架已經(jīng)在搜狗翻譯系統(tǒng)上線,從機器評分和人工評測來看,都領(lǐng)先主要競品,較RNN-NMT、CNN-NMT提升也比較明顯。
業(yè)內(nèi)也沒有一致觀點認為 CNN 是 NMT 的未來。我覺得技術(shù)方案無論是 CNN、RNN、Transformer 都沒做到極致,目前主流技術(shù)框架到底是什么沒有定論,算法細節(jié)的打磨和多種技術(shù)的融合會是未來發(fā)展趨勢,另外數(shù)據(jù)量會是各家公司的技術(shù)壁壘?!?div style="height:15px;">
“報道說其訓(xùn)練引擎是基于一臺冰島超級計算機,可以說深度學習真的很需要計算力。Linguee 本身是一個不錯的語料庫公司,數(shù)據(jù)積累有自己的特點,這應(yīng)該是其引擎優(yōu)秀表現(xiàn)的一個基礎(chǔ)。
對于引擎的評測,Linguee引擎的盲測很好,BLEU 值超過其他引擎最優(yōu)質(zhì) 3 個百分點(行業(yè)通識是,2 個 BLEU 值的提高就可以稱作‘顯著’)?!?div style="height:15px;">