耳聽(tīng)也不一定為實(shí)，AI語(yǔ)音已能騙得百萬(wàn)巨款

2021.01.15

日前，AI換臉應(yīng)用ZAO在國(guó)內(nèi)市場(chǎng)引發(fā)了大量的關(guān)注，而人工智能的普及也讓日常生活發(fā)生了不小的改變。但AI作為工具來(lái)說(shuō)，自然是無(wú)所謂善惡的，就像ZAO以AI為武器試圖獲取用戶隱私相關(guān)信息一樣，在國(guó)外市場(chǎng)AI也成為了犯罪分子手中的工具。

日前根據(jù)《華爾街日?qǐng)?bào)》的報(bào)道，有黑客團(tuán)伙成功模仿了英國(guó)某能源公司在德國(guó)母公司CEO的聲音，并其手中騙取了22萬(wàn)歐元。而這一騙局說(shuō)起來(lái)也十分簡(jiǎn)單，這家英國(guó)能源公司的CEO以為其正在與他老板，也就是母公司的CEO通話，后者要求他將資金匯給匈牙利供應(yīng)商。

這種套路對(duì)于國(guó)人來(lái)說(shuō)是不是異常熟悉，這正是此前出現(xiàn)QQ冒充老板詐騙的變種或者升級(jí)版了。而二者的區(qū)別就在于，騙子是盜取QQ號(hào)利用文字詐騙，而海外黑客則技高一籌，直接模仿了老板的聲音。毫無(wú)疑問(wèn)，這伙黑客并不是什么能夠模仿他人聲音的奇人異士，而只是使用AI來(lái)復(fù)刻了德國(guó)老板的德味英語(yǔ)和說(shuō)話音調(diào)，讓來(lái)自英國(guó)的下屬認(rèn)可其就是他老板。那么這一切究竟是怎么做到的呢？我們不妨從頭說(shuō)起。

首先，我們此前曾經(jīng)提到過(guò)，目前在電話營(yíng)銷(xiāo)領(lǐng)域，機(jī)器人的比重越來(lái)越大，而且聲音也與真人無(wú)異。不過(guò)這種模式基于關(guān)鍵詞播放錄音，而錄音本身則是由真人完成，是千篇一律的話術(shù)。而量身定制的詐騙行為，肯定是不會(huì)用這樣無(wú)法隨機(jī)應(yīng)變的方式。

眾所周知，人工智能背后依靠的是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)作為技術(shù)支持，大數(shù)據(jù)作為訓(xùn)練對(duì)象。比如說(shuō)，谷歌Duplex作為當(dāng)下最知名的智能語(yǔ)音代表，其之所以能實(shí)現(xiàn)“自然對(duì)話”，背后靠的是自然語(yǔ)義理解、自然行為建模，以及自然語(yǔ)氣三大核心，谷歌在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，使用低置信度模型來(lái)解決響應(yīng)問(wèn)題、基于WaveNet和Tacotron的合成TTS（文本到語(yǔ)音）引擎，來(lái)控制語(yǔ)音語(yǔ)調(diào)。

其中，TTS引擎就是今天的主角，也正是海外黑客團(tuán)伙能夠合成他人自然語(yǔ)音的關(guān)鍵。比如說(shuō)，谷歌旗下的DeepMind團(tuán)隊(duì)在2016年推出的WaveNet，百度方面在2018年拿出的Deep Voice系統(tǒng)，就是典型的TTS引擎。但無(wú)論是WaveNet還是Deep Voice，其實(shí)都是從海量人聲樣本中提取數(shù)據(jù)及特征，并建立一個(gè)音頻模型，而語(yǔ)音合成神經(jīng)網(wǎng)絡(luò)則根據(jù)這些模型進(jìn)行調(diào)整，以設(shè)計(jì)出不同特征的聲音。在實(shí)踐過(guò)程中，Deep Voice能夠?qū)⒏鞣N文本特征（文字、音素、重音）轉(zhuǎn)換為聲學(xué)特征，然后再將這些聲學(xué)特征作為聲音波形合成模型輸入。

當(dāng)然，WaveNet與Deep Voice還要依靠大數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練，并需要一段時(shí)間的學(xué)習(xí)，才能達(dá)到模仿真人聲音的效果。而科技進(jìn)步的腳步是不會(huì)停下的，谷歌在去年實(shí)現(xiàn)了能夠?qū)崟r(shí)語(yǔ)音克隆的SV2TTS，這是一個(gè)三階深度學(xué)習(xí)框架，只需要5秒鐘的低分辨率原音信息，這一框架就能提取其中的聲紋和聲線來(lái)生成梅爾（mel）譜圖，最后基于自回歸波的語(yǔ)音生成網(wǎng)絡(luò)，將梅爾譜圖數(shù)據(jù)轉(zhuǎn)換為與原音相似度極高的合成語(yǔ)音波型文件。

而作為國(guó)際知名的科技巨頭和創(chuàng)新先鋒，谷歌并沒(méi)有將SV2TT敝帚自珍，而是將其上傳到Github等開(kāi)源社區(qū)中。因此這個(gè)詐騙了22萬(wàn)歐元的黑客團(tuán)伙，在通過(guò)某渠道獲得了德國(guó)老板的聯(lián)系方式，通過(guò)短暫對(duì)話拿到后者語(yǔ)音素材之后，很容易就以此為基礎(chǔ)生成了用于詐騙的實(shí)時(shí)語(yǔ)音。

那么有沒(méi)有辦法針對(duì)這種新型高科技詐騙的辦法呢？其實(shí)從技術(shù)層面來(lái)看很難，所謂以AI制AI的方法也并沒(méi)有太多普適性，但大家不妨多一個(gè)心眼，如果未來(lái)接到了你老板打來(lái)要求轉(zhuǎn)賬給其他人的電話，試試用其他方式聯(lián)絡(luò)老板來(lái)做個(gè)“雙因素驗(yàn)證”，畢竟騙子也不太可能做到面面俱到。