2014-12-19 02:06:00 不久前，百度的首席科學(xué)家吳恩達(dá)（Andrew Ng）在接受采訪時(shí)曾談到了百度最近人工智能項(xiàng)目的進(jìn)展情況，強(qiáng)調(diào)了近期百度重點(diǎn)是攻關(guān)語(yǔ)音識(shí)別?，F(xiàn)在他們已經(jīng)在這方面取得了突破。

這項(xiàng)成果的名字叫做Deep Speech，是一款采用深度學(xué)習(xí)技術(shù)的語(yǔ)音識(shí)別系統(tǒng)系統(tǒng)。其獨(dú)特之處在于，它可以在飯店等嘈雜環(huán)境下實(shí)現(xiàn)將近81%的辨識(shí)準(zhǔn)確率。

81%的準(zhǔn)確率聽(tīng)起來(lái)似乎不算高。但是同樣環(huán)境下，其他的商業(yè)版語(yǔ)音識(shí)別API，包括Bing、Google以及Wit.AI等的最高識(shí)別率也只有65%。相比之下這就算十分突出的表現(xiàn)了。而且按照吳恩達(dá)的說(shuō)法，這樣的結(jié)果依然低估了Deep Speech與其他語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率差異，因?yàn)镈eep Speech進(jìn)行比較時(shí)還把其他語(yǔ)音識(shí)別系統(tǒng)那些返回空白字符串的結(jié)果排除在外了。而且Deep Speech跟頂級(jí)的學(xué)術(shù)型語(yǔ)音識(shí)別模型（基于流行的數(shù)據(jù)集Hub5 00建模）相比也高出9個(gè)百分點(diǎn)。

百度首席科學(xué)家吳恩達(dá)稱(chēng)盡管這還只是一項(xiàng)研究，但是公司正在考慮將它集成到供智能手機(jī)和Baidu Eye之類(lèi)的可穿戴設(shè)備使用的語(yǔ)音識(shí)別軟件當(dāng)中。而且百度還在開(kāi)發(fā)與Amazon Echo類(lèi)似、集成有語(yǔ)音助手的家電產(chǎn)品，名字叫做CoolBox。除此以外，百度在開(kāi)發(fā)的智能自行車(chē)當(dāng)然也能利用Deep Speech技術(shù)。

Deep Speech的基礎(chǔ)是某種遞歸神經(jīng)網(wǎng)絡(luò)（RNN），這種遞歸神經(jīng)網(wǎng)絡(luò)經(jīng)常被用于語(yǔ)音識(shí)別和文本分析。

但是Deep Speech的成功主要得益于一個(gè)長(zhǎng)達(dá)10萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)訓(xùn)練集。這是百度人工智能實(shí)驗(yàn)室團(tuán)隊(duì)用新穎的辦法在嘈雜環(huán)境下建立的。其過(guò)程大致是這樣的。首先百度收集了7000小時(shí)的語(yǔ)音會(huì)話數(shù)據(jù)，然后再將這些語(yǔ)音文件與包含有背景噪音的文件合成到一起，最后形成約10萬(wàn)小時(shí)的訓(xùn)練集。這些背景噪音包括了飯店、電視、自助餐廳以及汽車(chē)內(nèi)、火車(chē)內(nèi)等場(chǎng)景。相比之下，Hub5 00的數(shù)據(jù)集總共只有2300小時(shí)。

當(dāng)然，這么龐大的數(shù)據(jù)大多數(shù)系統(tǒng)都不知道如何去處理。吳恩達(dá)表示，Deep Speech的成功很大程度上要取決于百度規(guī)模龐大的基于GPU的深度學(xué)習(xí)基礎(chǔ)設(shè)施。GPU（圖形處理器）往往是偏數(shù)學(xué)型計(jì)算的首選。許多深度學(xué)習(xí)系統(tǒng)都采用GPU避免通信瓶頸（不過(guò)微軟的深度學(xué)習(xí)系統(tǒng)Adam 卻走了不同的路線），但是像百度這樣大規(guī)模的設(shè)施卻是少見(jiàn)的。

百度的另一大改進(jìn)，是對(duì)這個(gè)龐大的數(shù)據(jù)集采用了端到端的深度學(xué)習(xí)模型，而不是標(biāo)準(zhǔn)的、計(jì)算代價(jià)高昂的聲學(xué)模型。傳統(tǒng)上一般都會(huì)把語(yǔ)音識(shí)別分別為多個(gè)步驟，其中一步叫做語(yǔ)音調(diào)適，但是百度卻不做這一步，而是給Deep Speech的算法提供大量的數(shù)據(jù)，然后讓它去學(xué)習(xí)所有需要學(xué)習(xí)的東西。這種做法除了收獲了準(zhǔn)確率以外，還顯著減少了代碼庫(kù)的規(guī)模。

這項(xiàng)研究是吳恩達(dá)領(lǐng)導(dǎo)的百度人工智能實(shí)驗(yàn)室多位研究人員的努力成果，論文發(fā)表在了康奈爾大學(xué)圖書(shū)館的arXiv.org網(wǎng)站上，感興趣的可到此處下載。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類(lèi)似文章

在語(yǔ)音識(shí)別這件事上，漢語(yǔ)比英語(yǔ)早一年超越人類(lèi)水平

百度稱(chēng)開(kāi)發(fā)出新語(yǔ)音識(shí)別系統(tǒng) 準(zhǔn)確率超蘋(píng)果谷歌|百度|語(yǔ)音識(shí)別

百度和微軟的漢語(yǔ)英語(yǔ)識(shí)別準(zhǔn)確率已分別超越人類(lèi)

百度的人工智能新產(chǎn)品，是一個(gè)計(jì)算機(jī)速記員

百度深度語(yǔ)音識(shí)別系統(tǒng)│2016年十大突破技術(shù)

百度開(kāi)發(fā)出深度語(yǔ)音識(shí)別系統(tǒng) 稱(chēng)超越蘋(píng)果谷歌

更多類(lèi)似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区