中國領(lǐng)先的互聯(lián)網(wǎng)公司強(qiáng)大的語音技術(shù),使智能手機(jī)的使用變得更為容易。
三里屯是北京最繁華的地方,這里有很多游客、KTV、酒吧和奢侈品商店。漫步在三里屯,你會(huì)看到很多人在使用最新款的智能手機(jī),包括蘋果、三星或小米。然而,仔細(xì)看,你可能會(huì)發(fā)現(xiàn),他們當(dāng)中的一些人往往不使用手機(jī)上的觸摸屏,而是使用更高效、更直觀的工具 – 也就是他們的聲音。
在中國,智能手機(jī)用戶不斷增長,人數(shù)高達(dá)6億9100萬。其中越來越多的人開始不再經(jīng)常通過滑動(dòng)、輕擊、以及微型鍵盤的方式在百度上進(jìn)行搜索(百度是中國最受歡迎的搜索引擎)。中國是發(fā)展語音接口的理想市場,因?yàn)槭褂梦⑿陀|摸屏來進(jìn)行漢字輸入十分麻煩。不過,隨著百度在語音技術(shù)方面的不斷進(jìn)步,語音接口變得更為實(shí)用和有效,這使人們可以更為便利的與身邊的設(shè)備進(jìn)行互動(dòng)。
“我發(fā)現(xiàn)語音技術(shù)正在逐漸成為非常值得信賴的技術(shù),你只需單純的、想都不用想的使用它?!卑俣仁紫茖W(xué)家吳恩達(dá)(Andrew Ng)如是說,同時(shí),他還是斯坦福大學(xué)(Stanford University)的一名副教授。“最好的技術(shù)往往是看不見的,隨著語音識(shí)別變得更值得信賴,我希望它可以融入到我們的生活中?!?/p>
長期以來,語音接口一直是技術(shù)人員(科幻小說作家更不用提)的一個(gè)夢想。近年來,由于機(jī)器學(xué)習(xí)的迅猛進(jìn)步,語音控制變得更為實(shí)用。
語音識(shí)別不再僅僅局限于一小組預(yù)設(shè)的命令,它現(xiàn)在甚至可以在嘈雜的環(huán)境中使用,例如北京的街道。聲控虛擬助手為信息搜索帶來一種簡單的方法,即通過你的聲音來查找信息、播放歌曲、建立購物清單,例如蘋果的Siri、微軟的Cortana、在大多數(shù)智能手機(jī)上捆綁的谷歌軟件、亞馬遜的Alexa。這些系統(tǒng)并非完美無缺,它們有時(shí)會(huì)誤聽和誤解命令,會(huì)產(chǎn)生滑稽的結(jié)果,但是它們的性能正在穩(wěn)步提高,這讓我們看到了一個(gè)美妙的未來,那就是我們可以無需花費(fèi)很多精力來學(xué)習(xí)每個(gè)新設(shè)備的新型接口。
百度正在不斷取得驕人的進(jìn)步,尤其是在語音識(shí)別的準(zhǔn)確性方面,它擁有進(jìn)一步發(fā)展語音接口的能力。成立于2000年的百度,是中國對谷歌公司(已被中國政府屏蔽)的正面挑戰(zhàn),它在中國的搜索引擎市場中占據(jù)主導(dǎo)地位,市場份額達(dá)70%。同時(shí),百度公司已經(jīng)衍生出了多種其他服務(wù),涉及到音樂、電影流媒體、銀行、保險(xiǎn)等各個(gè)領(lǐng)域。
在中國,一個(gè)更高效的移動(dòng)接口將為人們帶來巨大幫助,那就是智能手機(jī)。相比于臺(tái)式機(jī)或筆記本電腦,智能手機(jī)更為常見,但是在瀏覽網(wǎng)頁、發(fā)送信息以及完成其他任務(wù)時(shí),智能手機(jī)較慢的反應(yīng)速度卻是令人感到痛苦和沮喪的。
中國有成千上萬的漢字,雖然人們可以通過拼音系統(tǒng)按照發(fā)音利用拉丁字母生成漢字,但是很多人(特別是年齡在50歲以上的人)不了解該系統(tǒng)。同時(shí),中國人普遍使用一些類似于微信的通訊應(yīng)用軟件來完成各種各樣的工作,例如在餐館支付餐費(fèi)。但是,中國有許多貧困地區(qū),識(shí)字水平仍然很低,互聯(lián)網(wǎng)在這些地區(qū)有著更大的可以產(chǎn)生較大的社會(huì)和經(jīng)濟(jì)效應(yīng)的機(jī)會(huì)。
“這是挑戰(zhàn),也是機(jī)遇,” 吳恩達(dá)如是說,他因?yàn)樵谒固垢4髮W(xué)的人工智能和機(jī)器人技術(shù)方面的貢獻(xiàn),被評選為為2008年度麻省理工科技評論35位35歲以下的創(chuàng)新者(TR35)之一?!皩τ诤芏嗔?xí)慣于使用臺(tái)式電腦的人來說,與其讓他們學(xué)習(xí)手機(jī)的新功能,不如從一開始就讓他們學(xué)習(xí)移動(dòng)設(shè)備的最佳適用方法。”
吳恩達(dá)認(rèn)為,可能很快就可以在各種設(shè)備上通過使用語音來相互交流。例如,如果僅僅通過語音便能夠向機(jī)器人或家用電器發(fā)送命令,那么你就可以更輕松地進(jìn)行操作。該公司在北京總部和硅谷的工廠設(shè)有研究小組,致力于不斷提高語音識(shí)別的準(zhǔn)確性,使計(jì)算機(jī)更好地分析語句的含義。
火爆的智能手機(jī)市場
中國火爆的移動(dòng)互聯(lián)網(wǎng)市場不斷推動(dòng)著語音技術(shù)的創(chuàng)新。
移動(dòng)互聯(lián)網(wǎng)用戶(以百萬計(jì))
移動(dòng)設(shè)備上的互聯(lián)網(wǎng)用戶的比例
在過去幾十年里,麻省理工學(xué)院的一位高級研究員-- 吉姆·格拉斯(Jim Glass)一直致力于語音技術(shù)的研究,他認(rèn)為這可能是發(fā)展語音控制的最好時(shí)機(jī)?!罢Z音已經(jīng)成為了我們社會(huì)發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn),”他說。“根據(jù)我的經(jīng)驗(yàn)來看,當(dāng)人們可以與設(shè)備交談,而不是通過遠(yuǎn)程控制來實(shí)現(xiàn)任務(wù)命令時(shí),他們會(huì)非常愿意這樣做?!?/p>
去年十一月是百度語音技術(shù)發(fā)展過程中的一個(gè)重要里程碑,它宣布其硅谷實(shí)驗(yàn)室已經(jīng)開發(fā)出了一個(gè)強(qiáng)大的新型語音識(shí)別引擎,被稱為深度語音識(shí)別系統(tǒng)(Deep Speech 2)。它包含了一個(gè)非常大的、 “深”的神經(jīng)網(wǎng)絡(luò),它學(xué)習(xí)了單詞和短語的關(guān)聯(lián)聲音,引入了數(shù)以百萬計(jì)的轉(zhuǎn)錄語音。Deep Speech 2在口語識(shí)別的準(zhǔn)確度方面十分驚人。事實(shí)上,研究人員發(fā)現(xiàn),有時(shí)它在識(shí)別漢語語音片段方面,要比人為識(shí)別更加準(zhǔn)確。
百度的進(jìn)步令人感到驚喜,因?yàn)槠胀ㄔ捲诎l(fā)音方面十分復(fù)雜,并且音調(diào)不同,詞和詞意就不同。Deep Speech 2另一個(gè)引人注目的原因是,在加利福尼亞實(shí)驗(yàn)室研究這項(xiàng)技術(shù)的人員中,幾乎沒有人講普通話、粵語、或其他任何中國方言。該引擎基本上是一個(gè)通用的語音系統(tǒng),如果輸入足夠多的示例,它同樣可以進(jìn)行英語的語音識(shí)別。
目前,百度搜索引擎聽到的大部分聲音命令都是比較簡單的查詢 -- 例如,關(guān)于明天的天氣或污染程度。對于這些問題的語音識(shí)別,該系統(tǒng)通常是非常準(zhǔn)確的。然而,越來越多的用戶開始問更加復(fù)雜的問題。面對這些情況,該公司在去年推出了自己的語音助手,作為其主要的移動(dòng)應(yīng)用程序的一部分,被稱為度秘(DuEr)。度秘可以幫助用戶查詢電影放映時(shí)間、或者是幫助用戶在一家餐廳訂位。
百度的最大挑戰(zhàn)是使其人工智能系統(tǒng),更為智能地理解和回應(yīng)更加復(fù)雜的口語短語。最終,百度希望度秘可以進(jìn)行有意義的來回對話,將變化的信息加入到討論內(nèi)容中。為了實(shí)現(xiàn)這個(gè)目標(biāo),百度北京公司的一個(gè)研究小組正在努力提升口譯用戶進(jìn)行查詢所使用的系統(tǒng)。包括使用百度已應(yīng)用于語音識(shí)別的神經(jīng)網(wǎng)絡(luò)技術(shù),但也需要其他的技巧。百度已經(jīng)聘請了一個(gè)團(tuán)隊(duì)來分析發(fā)送至度秘的查詢內(nèi)容,并糾正相關(guān)錯(cuò)誤,從而不斷提升該系統(tǒng),使其越來越好用。
“未來,我希望我們能夠與所有的設(shè)備交談,讓它們了解我們在說什么,” 吳恩達(dá)說。“我希望有一天,下一代人會(huì)感到困惑,為何我們在2016年對微波爐打招呼時(shí),它會(huì)無禮地坐在那里,對你說的話毫無反應(yīng)。”
聯(lián)系客服