物聯(lián)網(wǎng)智能交互與服務
Smart Interaction & Services for IoT
梁家恩
北京云知聲信息技術有限公司董事長/CTO
各位老師、各位嘉賓,大家下午好。今天非常容幸能參加這個會,作為人工智能界的一個晚輩,包括在市場上的創(chuàng)業(yè)公司,今天跟李院士還有各位世界級的專家一起分享壓力非常大,也非常容幸。我們其實是跟陳博士比較類似的,我的背景是中科大畢業(yè)的,后來在中科院待十年的時間。四年前我們在2012年決定,因為我覺得人工智能產(chǎn)業(yè)是一個秀才的團隊,大家基本上都是博士,至少也是碩士以上的學歷。我們當時也是從做研究開始走到人工智能創(chuàng)業(yè)場上,相信用我們的技術能力去改變一下這個世界。
我今天做這個分享的,無論是從高度、廣度、深度,我不會講的比專家們更專業(yè)。我想跟大家分享的是,我們在人工智能創(chuàng)業(yè)里面,技術其實僅僅是其中一個環(huán)節(jié),可能只占了30%左右的成分,我們把技術的圖景書寫下來以后,我們?nèi)绾慰创a(chǎn)業(yè)的發(fā)展。因為我們是從語音交互開始做這個行業(yè)的,所以我跟大家分享的是物聯(lián)網(wǎng)智能交互服務。
大家可以看到我們整個物聯(lián)網(wǎng)的話,可能下一場的工業(yè)革命,因為會有越來越多的設備連接到我們的互聯(lián)網(wǎng),可能是PC互聯(lián)網(wǎng),到移動互聯(lián)網(wǎng),到物聯(lián)網(wǎng)的趨勢。統(tǒng)計來說預計2020年的時候,整個市場上將會有超過200到300億臺的設備,會出現(xiàn)在我們的生活當中。在這里面帶來的結果就是有海量的數(shù)據(jù),有非常大的數(shù)據(jù)收集上來。這里面市場的價值也是非常大的,應該有萬億美元的規(guī)模,這都是我們看到很多的統(tǒng)計報告抽取出來的數(shù)據(jù)。
從交互的角度來說的話,我們其實經(jīng)歷了幾個時代。我們從PC時代開始講的話,當時是鼠標鍵盤是最主要的交互,然后接下來是移動時代。移動時代我們的觸碰包括傳感,已經(jīng)給我們帶來的很多的體驗上的改變。在物聯(lián)網(wǎng)時代就會更加的豐富多彩,語音、圖像,AR、VR,都會很大的應用空間。一個大的特點就是機器為中心轉(zhuǎn)為用戶為中心的交互,就需要我們有更好的智能化來支持這個交互過程。
人工智能這60年的發(fā)展風風雨雨,今天也非常容幸,我們在這個階段應該是第三次的春天。我想最大的一個特點就是說我們以前都是技術,都是科研人員在主導這個事情,包括政府的投入在做這個事情。第三次來說的話,大家可以看到很多的大企業(yè),包括創(chuàng)業(yè)的公司都在用產(chǎn)業(yè)力量推動發(fā)展。一個是用戶的數(shù)據(jù)規(guī)模在增加,另外是產(chǎn)業(yè)的需求非常強大。有需求的推動的話,就會有非常強的動力。作為基礎的話有兩點,一點就是我們的存儲跟計算能力的提升,另外就是學習算法的提升。大家看到寒武紀的CPU也是為我們的機器學習而生,我想會極大的推動這個產(chǎn)業(yè)的發(fā)展。我們相信有產(chǎn)業(yè)力量介入的情況下,應該會有比較大的成果沉淀下來。
這頁可能是我唯一講起來跟技術有關的。我們所有講的智能或者人工智能來說,學習是永恒的核心環(huán)節(jié)。現(xiàn)在非?;馃岬纳疃葘W習,跟它對應的就是淺度學習。所有的學習的根源就是來源于數(shù)據(jù),我們?nèi)绾螐臄?shù)據(jù)做機器學習跟人工智能。數(shù)據(jù)過來之后第一步的問題就是抽取特征,下來就是分類的問題,基本上我們大部分是集體學習,都解決這個層面的問題,這是核心的問題。這個部分我們稱之為感知的環(huán)節(jié),我如何從數(shù)據(jù)里面去感知,它到底是什么物體,如何辨識,產(chǎn)生一個概念。最后就形成我們的認知、決策、規(guī)劃、推理等等這些人工智能更復雜的行為,才能完成一個閉環(huán)的人工智能技術。
在這里面我們發(fā)展也經(jīng)歷了幾個階段,一個是最早的時候有一些經(jīng)驗特征和規(guī)則做分類,這是最早期的。大概九十年代左右的話統(tǒng)計學習就大行其道,因為這里面分成兩個問題,一個是特征工程,如何抽取特征,如何做分類優(yōu)化,都是做優(yōu)化的方式解決這個問題,數(shù)學上非常的嚴謹。最近是深度學習,是跟特征學習和分類優(yōu)化結合在一起,就像做一個整體的規(guī)劃,我們稱之為端到端到的規(guī)劃,也是Marc Hamilton教授興起的。他們覺得淺層的學習不足以表現(xiàn)人工智能分類的問題,所以有非常副復雜的網(wǎng)絡結構,結合大規(guī)模的數(shù)據(jù),碾壓了過去二三十年里面積累的統(tǒng)計學習的效果,但這塊還是有很多的數(shù)學性的原理或需要再去進一步的挖掘和探索。
深度學習未來是不是有可能再跟淺度學習有結合呢?去年3月份的文章里面,有一個編程學的文章。用非常小的數(shù)據(jù)去學習,我相信這又是另外一個興起的路徑。
我們最終的人工智能的技術其實我們可以解決很多的問題,但最終還要幫助到用戶,如何能解決他真實的問題。這種情況下才能夠說我們蓬勃發(fā)展,因為只有產(chǎn)業(yè)的推動,才是我們真正所有技術的完善最強的動力。用戶期待歸納為三點,一個就是我們有一個非常好的機器人,能很智能的交互,像我們?nèi)伺c人的交互,語音是非常自然的環(huán)節(jié)。交互之后需要的是內(nèi)容跟服務,能不能有非常優(yōu)質(zhì)的內(nèi)容和服務,而且可以優(yōu)化服務,這是一個需求。第三點是智能的學習,智能機器人能不能隨著我們越用就越智能。像我們知道AlphaGo就可以越來越會下棋,但這個下棋是一個規(guī)則和各種條件,相對比較整齊的情況下去做的,這里面基本上就是計算的過程。在我們交互的過程當中這個學習會比較復雜,因為我們現(xiàn)在比較好的學習的辦法可能只能取得20%或者10%的錯誤率的下降。
未來來說我們希望通過對話去完成所有的服務,這也是當初Googel提出的概念。現(xiàn)實會有非常多的問題,大家知道雖然我們現(xiàn)在興起了非常多的期待,但在現(xiàn)實當中我們有很多的問題需要解決。因為我們公式上推導非常順暢的東西,但實際應用當中并不過關。因為有一些真實的噪聲環(huán)境,還有功耗和資源的消耗,這個非常大。還有一些自然交互的體驗,因為交互過程當中其實現(xiàn)在人跟機器交互的時候還會存在困惑,把機器擺在那里面的話,其實人是一種交互的。另外一點現(xiàn)在機器的能力還沒有做到100%,所以這個過程中還會出現(xiàn)錯誤,出現(xiàn)錯誤的時候會有一種受錯感,就學習交互的設計來彌補。另外就是內(nèi)容跟服務的優(yōu)化,還有自學習的能力。這些現(xiàn)實的問題都是我們需要去解決掉的。
結合我們的經(jīng)驗來說,我們云知聲的定位就是一個面向物聯(lián)網(wǎng)的人工智能服務的公司,中間就是我們的人工智能技術,其中主要是語音識別、語義理解,包括語音合成,還有生文認證,等等這一系列跟語音交互密切相關的技術。我們搭建起來是一個云端新的產(chǎn)品的體系,這個新的體系的話主要解決的就是一個降噪的問題,因為通常在一個非常大的環(huán)境里面,我們需要有一個麥克風才能把聲音從非常復雜的環(huán)境當中拿出來,所以這是我們需要推出的AI新的需求。另外就是AI、UI,AI是語音作為交互主要手段的模塊,因為對于大多數(shù)的物聯(lián)網(wǎng)設備來說可能并沒有屏幕,甚至鍵盤可能都沒有,像手表、大屏電視等等這些設備。云端承載的東西是非常多的,一個是用戶所需要的內(nèi)容還有服務,還有根據(jù)用戶的習慣構建起來的用戶畫像,云端就構成了一個產(chǎn)品的閉環(huán)。
機器人來說,這三個產(chǎn)品如何能把我們的智能終端連接起來?首先是我們的放在聽覺的部分判斷聲音的方向和距離,定向降噪。AI、UI就是通過對話的方式解決人跟機器交互的問題,AI服務就是通過云端,用戶真正交互了以后,很多的內(nèi)容是從云端獲取的,同時云端也會學習人的需求。掌握了一個習慣之后我們可以有更好的服務,一個是技術層面模型的優(yōu)化,另外是從內(nèi)容和服務的角度去優(yōu)化這里面的內(nèi)容。
目前來說我們已經(jīng)在智能家居、智能車載,還有教育、醫(yī)療等等有廣泛的應用。我們已經(jīng)有其中六個大的家電廠商,有五家在我們的解決方案,我們在后視鏡的市場,也是113家參展的廠商,其中有將近60家用的我們的解決方案。還有教育跟醫(yī)療方面,都有非常多的應用。我們的云平臺到目前為止已經(jīng)支撐了降低1億的終端設備,另外每天的用戶的活躍用戶量都在1億上下。
大家可以看到人工智能在蓬勃發(fā)展的時候,未來會有一個什么樣的場景。剛才李院士也給我們分享,我們歸納為三類。一類是屬于災難的結果,因為從我們?nèi)说慕嵌葋碚f,以我們?nèi)说捏w力和結構來說的話,能成為食物鏈的上端,完全是因為我們具備地球上最強的大腦,最高的智慧。一旦我們失去這種能力,機器能取代我們的話這是非常危險的事情。但對這個技術的發(fā)展,像剛才李院士說的我們是要保持敬畏之心的。第二種是相對比較樂觀的看法,人工智能可以讓我們的生活變得更加美好。但與此同時將使得我們?nèi)祟惖恼J知能力得到比較大的飛越。過去我們是沒有辦法通過大數(shù)據(jù)認知這個世界的,當我們有人工智能技術之后可以很好的認識到世界真實的情況,很多經(jīng)驗性的東西可能將會被顛覆和推翻掉。一種悲觀的觀點可能會進入到第三次寒冬,我們過去兩次對人工智能有非常大的期待,也沒有落地。我想最關鍵的來說還是我們的產(chǎn)品服務能夠比較好的落地,能解決用戶的問題,但它的風險我們?nèi)绾慰刂扑磥韺θ祟惖奈kU,我相信在技術發(fā)展的過程當中還是會去持續(xù)發(fā)展的思考的問題。因為如果沒有敬畏之心的話,控制不了。
60周年我們也向60年來AI領域里面付出卓越努力的先輩和同行們致敬,謝謝大家。
聯(lián)系客服