鳳凰科技訊 北京時間12月19日消息,據(jù)《福布斯》雜志網(wǎng)絡(luò)版報道,百度近日在美國康奈爾大學(xué)圖書館的arXiv.org網(wǎng)站上發(fā)表論文稱,已開發(fā)出了一種新的語音識別系統(tǒng)Deep Speech,準確率超過了蘋果、谷歌的產(chǎn)品。
百度首席科學(xué)家吳恩達以及由Awni Hannun領(lǐng)導(dǎo)的10人研究團隊在arXiv.org網(wǎng)站上稱,他們已經(jīng)開發(fā)出了一種新的,更為準確的語音識別系統(tǒng)Deep Speech,該系統(tǒng)使用了端對端的深度學(xué)習(xí)技術(shù)。語音識別是一項越來越重要的技術(shù),已經(jīng)被用于蘋果語音助手Siri、語音輸入功能Dictation以及谷歌語音搜索中。
吳恩達稱,按照衡量語音識別系統(tǒng)出錯率的標準基準,Deep Speech的準確性已經(jīng)超越了蘋果、谷歌的語音識別系統(tǒng)。特別是在汽車或人群等噪音環(huán)境下,Deep Speech的表現(xiàn)更為出色。
吳恩達稱,測試顯示,在噪音環(huán)境下,Deep Speech語音識別出錯率比谷歌語音識別引擎(Google Speech API)、語音識別公司wit.ai、微軟必應(yīng)語音搜索、蘋果Dictation的語音系統(tǒng)低10%以上。
百度團隊收集了9600人的7000個小時的語音,但多數(shù)是在安靜環(huán)境下。為了提升噪音環(huán)境下的語音識別能力,百度向語音樣本中添加了大約15種類型的噪音,比如酒店、汽車和地鐵內(nèi)的環(huán)境噪音,從而將語音樣本中的數(shù)據(jù)擴充到10萬個小時。然后,百度讓系統(tǒng)在噪音環(huán)境下學(xué)習(xí)識別語音。(編譯/簫雨)
聯(lián)系客服