機(jī)器之心原創(chuàng)
作者:李亞洲
吳恩達(dá),百度首席科學(xué)家、百度大腦項(xiàng)目負(fù)責(zé)人。在最近的百度語(yǔ)音開(kāi)放平臺(tái)三周年主題活動(dòng)上,機(jī)器之心對(duì)這位與 Geoffrey Hinton、Yoshua Bengio、Yann LeCun 齊名的人工智能專(zhuān)家進(jìn)行了專(zhuān)訪(fǎng),深度了解了百度的人工智能研究、吳恩達(dá)的人工智能之路,以及更多的有關(guān)人工智能技術(shù)的話(huà)題。
一、在百度的人工智能研究
2014 年 5 月 16 日,百度官方宣布建立硅谷實(shí)驗(yàn)室并任命吳恩達(dá)作為首席科學(xué)家,領(lǐng)頭百度北京與硅谷的實(shí)驗(yàn)室。當(dāng)時(shí),百度投入了 3 億美元在硅谷建起專(zhuān)注人工智能的實(shí)驗(yàn)室。
但吳恩達(dá)來(lái)到百度,并非重頭開(kāi)始建立深度學(xué)習(xí)。在 2013 年,百度就已建立深度學(xué)習(xí)研究院(IDL),并在圖像識(shí)別、基于圖像的搜索、語(yǔ)音識(shí)別、自然語(yǔ)言處理與語(yǔ)義智能、機(jī)器翻譯等領(lǐng)域做出重大進(jìn)展。當(dāng)時(shí),IDL 由余凱(2012 年加入百度,2015 年離職)組建,百度 CEO 李彥宏任院長(zhǎng),余凱任常務(wù)副院長(zhǎng)。
加入百度之后,吳恩達(dá)做了一件事?!杆嗁?gòu)了 1000 個(gè) GPU,并在 24 小時(shí)內(nèi)得到。而在谷歌,他可能幾周或幾個(gè)月才能得到?!巩?dāng)時(shí)深度學(xué)習(xí)創(chuàng)業(yè)公司 SkyMind 的聯(lián)合創(chuàng)始人 Adam Gibson 在一次采訪(fǎng)中曾這么說(shuō)道。
百度之前從未買(mǎi)過(guò)這樣的硬件。在這樣的支持下,吳恩達(dá)在百度建立了一個(gè)進(jìn)行深度學(xué)習(xí)的 GPU 集群,使得百度成為了世界上第一個(gè)建立深度學(xué)習(xí) GPU 集群的公司。幾年來(lái),百度不斷在 GPU 和超級(jí)計(jì)算機(jī)方向做投入,加大深度學(xué)習(xí)的研究。
在加入百度之后,曾幫助谷歌建立 Google Brain 的吳恩達(dá)也在百度建起了「大腦」。
圖片:百度大腦官網(wǎng)
從百度大腦的官網(wǎng),我們就可以明晰的看到吳恩達(dá)在百度的人工智能研究:機(jī)器學(xué)習(xí)、語(yǔ)音技術(shù)、圖像、自然語(yǔ)言處理、用戶(hù)畫(huà)像。
機(jī)器學(xué)習(xí)
今年 9 月份,吳恩達(dá)在百度世界大會(huì)上宣布開(kāi)源深度學(xué)習(xí)平臺(tái) PaddlePaddle。PaddlePaddle 的前身是百度于 2013 年自主研發(fā)的深度學(xué)習(xí)平臺(tái) Paddle(Parallel Distributed Deep Learning,并行分布式深度學(xué)習(xí)),一直為百度內(nèi)部工程師研發(fā)使用,并且已經(jīng)做出了一些實(shí)際的產(chǎn)品,較為成熟。
據(jù)介紹,PaddlePaddle 是一個(gè)云端托管的分布式深度學(xué)習(xí)平臺(tái),支持 GPU 運(yùn)算,支持?jǐn)?shù)據(jù)并行和模型并行。對(duì)于序列輸入、稀疏輸入和大規(guī)模數(shù)據(jù)的模型訓(xùn)練有著良好的支持,僅需少量代碼就能訓(xùn)練深度學(xué)習(xí)模型。
這是在谷歌宣布開(kāi)源 TensorFlow 之后,又一科技巨頭開(kāi)源的深度學(xué)習(xí)平臺(tái)。
不到一個(gè)月,百度再次宣布開(kāi)源基準(zhǔn)工具 DeepBench,可對(duì)硬件平臺(tái)的深度學(xué)習(xí)性能進(jìn)行評(píng)估,幫助硬件開(kāi)發(fā)人員優(yōu)化深度學(xué)習(xí)硬件,從而加快深度學(xué)習(xí)研究。
語(yǔ)音技術(shù)
「百度大腦已經(jīng)有好幾種不同的人工智能技術(shù),其中比較成熟的就是我們的語(yǔ)音技術(shù)?!箙嵌鬟_(dá)在百度語(yǔ)音開(kāi)放平臺(tái)三周年的主題活動(dòng)上說(shuō)。
長(zhǎng)久以來(lái),人與機(jī)器交談一直是人機(jī)交互領(lǐng)域內(nèi)的一個(gè)夢(mèng)想。最近幾年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,計(jì)算機(jī)理解自然語(yǔ)音的能力也有了徹底革新。但人機(jī)的自然交互,涉及到語(yǔ)音方面的多項(xiàng)技術(shù)。在此次主題活動(dòng)上,吳恩達(dá)談到了百度在語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音輸入方面的研究。
「這幾年來(lái),我們的團(tuán)隊(duì)在不斷地優(yōu)化語(yǔ)音識(shí)別系統(tǒng),在 2012 年開(kāi)始使用 DNN 模型,后來(lái)有比較好的特征,之后開(kāi)始用 Sequence Discriminative Training,也開(kāi)始使用 LSTM 模型,加上 CTC,今年我們的團(tuán)隊(duì)開(kāi)發(fā)了 Deep CNN 模型,效果在不斷進(jìn)步,這就是我們的語(yǔ)音識(shí)別系統(tǒng)?!?/p>
百度于 2015 年 11 月發(fā)布的 Deep Speech 2 已經(jīng)能夠達(dá)到 97% 的準(zhǔn)確率,并被麻省理工科技評(píng)論評(píng)為 2016 年十大技術(shù)突破之一。
語(yǔ)音識(shí)別的記錄不斷在被刷新,今年微軟在英語(yǔ)語(yǔ)識(shí)別上準(zhǔn)確率的突破也幾乎媲美人類(lèi)。但是,使用計(jì)算機(jī)生成語(yǔ)音——這個(gè)過(guò)程通常被稱(chēng)為語(yǔ)音合成(speech synthesis)或文本轉(zhuǎn)語(yǔ)音(TTS)——仍在很大程度上基于所謂的拼接 TTS(concatenative TTS),其中有一個(gè)由單個(gè)人錄制的大量短語(yǔ)音片段構(gòu)成的非常大的數(shù)據(jù)庫(kù),然后再將這些短語(yǔ)音組合起來(lái)構(gòu)成完整的話(huà)語(yǔ)。
今年 9 月份的時(shí)候,谷歌 DeepMind 爆出在語(yǔ)音合成上的突破性研究——WaveNet,將機(jī)器語(yǔ)音合成的表現(xiàn)與人類(lèi)之間水平的差距至少縮減了 50%。
「我們的語(yǔ)音合成模型也變得越來(lái)越好。這幾年來(lái)我們?cè)诤脦讉€(gè)技術(shù)方面有比較大的突破,語(yǔ)音合成效果變得越來(lái)越好。現(xiàn)在百度在中國(guó)語(yǔ)音合成的能力達(dá)到業(yè)界領(lǐng)先的水平。」據(jù)百度講,百度情感合成技術(shù)主要聚焦在為合成語(yǔ)音「加入情感」,目前可達(dá)到接近真人發(fā)聲效果。它們?cè)诮衲暝缧r(shí)候曾利用此技術(shù),復(fù)原已逝明星張國(guó)榮的聲音。
2016 年,我們也看到了深度學(xué)習(xí)在圖像(識(shí)別準(zhǔn)確率、風(fēng)格遷移)、自然語(yǔ)言處理、機(jī)器翻譯(谷歌神經(jīng)機(jī)器翻譯系統(tǒng))等其他領(lǐng)域取得的最新進(jìn)展。
比如在自然語(yǔ)言處理任務(wù)上,序列到序列模型的注意實(shí)現(xiàn)了很大的進(jìn)展。在后續(xù)的專(zhuān)訪(fǎng)中,吳恩達(dá)表達(dá)了自己的看法,「從研究者的角度來(lái)看,未來(lái)幾年有非常多有可能帶來(lái)突破的思想,它們有可能能夠以全新的方式創(chuàng)造出更好的自然語(yǔ)言處理系統(tǒng)。比如說(shuō),在詞嵌入(word embedding)上,我們可以看到仍有很大的進(jìn)展。在跨模型學(xué)習(xí)上,也有一些研究成果。當(dāng)你同時(shí)學(xué)習(xí)計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的時(shí)候,那是非常激動(dòng)人心的?!?/p>
在研究上,吳恩達(dá)認(rèn)為遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)是很好的研究方向。他拿百度的 NLP 團(tuán)隊(duì)在 2015 年研究舉例說(shuō),「如果同時(shí)學(xué)習(xí)多個(gè)語(yǔ)言對(duì)之間的翻譯,效果會(huì)比同時(shí)學(xué)習(xí)一個(gè)語(yǔ)言對(duì)的效果好?!?/p>
當(dāng)時(shí),谷歌的神經(jīng)機(jī)器翻譯的出現(xiàn)引起了業(yè)內(nèi)的極大關(guān)注。但在機(jī)器之心之前對(duì)百度 NLP 團(tuán)隊(duì)的專(zhuān)訪(fǎng)中,我們了解到百度的在線(xiàn)翻譯系統(tǒng)一年前就應(yīng)用了基于神經(jīng)網(wǎng)絡(luò)的翻譯方法。去年百度在 ACL 會(huì)議上發(fā)表論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術(shù)解決多語(yǔ)言翻譯及語(yǔ)料稀疏的問(wèn)題,這也就是吳恩達(dá)上面所說(shuō)的多任務(wù)學(xué)習(xí)。
說(shuō)到谷歌的神經(jīng)機(jī)器翻譯,我們依此為例向吳恩達(dá)追問(wèn)技術(shù)到產(chǎn)品的部署問(wèn)題。
吳恩達(dá)回應(yīng)說(shuō),「中國(guó)、美國(guó)和其它地方的公司在實(shí)現(xiàn)先進(jìn)人工智能的產(chǎn)品部署上都動(dòng)作很快。但很多人并不知道很多部署實(shí)際上是中國(guó)的公司最先開(kāi)始的,雖然不是全部,但也不少。就拿使用神經(jīng)網(wǎng)絡(luò)來(lái)為機(jī)器翻譯進(jìn)行序列學(xué)習(xí)的特定例子來(lái)說(shuō)吧。實(shí)際上,百度比谷歌更早搞明白如何開(kāi)發(fā)和部署它。除此之外,我們還能找到很多首先在中國(guó)被開(kāi)發(fā)出來(lái)或產(chǎn)品化的技術(shù)。」
他還提到,「中國(guó)科技行業(yè)的發(fā)展速度是激動(dòng)人心的。然而現(xiàn)在卻有一個(gè)令人吃驚的事實(shí)擺在我們面前:很多東西是最先在中國(guó)實(shí)現(xiàn)的,可能一年之后才傳入美國(guó),但人們首先想到的還是美國(guó)的例子,而不是中國(guó)的?!?/p>
也許這是對(duì)中國(guó)人工智能研究實(shí)力的一次很好回應(yīng)。
今年 10 月份的時(shí)候,白宮發(fā)布的《國(guó)家人工智能研究與發(fā)展策略規(guī)劃》報(bào)告中稱(chēng)中國(guó)的人工智能研究已經(jīng)走在了美國(guó)前面。在提及「深度學(xué)習(xí)」或「深度神經(jīng)網(wǎng)絡(luò)」的期刊論文數(shù)量上,中國(guó)在 2013 年就超越了美國(guó)。而且有媒體稱(chēng),中國(guó)的相關(guān)論文不僅數(shù)量上遠(yuǎn)超其他國(guó)家,質(zhì)量上的表現(xiàn)也毫不遜色。這一消息受到了業(yè)內(nèi)許多人士的質(zhì)疑,認(rèn)為數(shù)量不談,質(zhì)量上肯定還有很大差距。
眾說(shuō)紛紜,難以有一基準(zhǔn)評(píng)出高低。但高盛近期的一份調(diào)查報(bào)告認(rèn)為,人工智能前沿的參與者可能會(huì)繼續(xù)來(lái)自美國(guó)和中國(guó)。
人工智能之路
1976 年初生,吳恩達(dá)今年剛好 40 歲,不惑之年。他與 Geoffrey Hinton、Yoshua Bengio、Yann LeCun 合稱(chēng)為深度學(xué)習(xí)「四大天王」,但有人曾質(zhì)疑吳的人氣為何這么高?
在 VB 較早的一篇專(zhuān)訪(fǎng)中是這樣評(píng)論吳恩達(dá)的,「Bengio 在訓(xùn)練神經(jīng)網(wǎng)絡(luò)上取得很大進(jìn)展,LeCun 開(kāi)發(fā)了卷積神經(jīng)網(wǎng)絡(luò),Hinton 普及了受限玻爾茲曼機(jī)。而吳采用最好的,并進(jìn)行部署與改進(jìn)?!?/p>
談起吳恩達(dá),我們會(huì)想到他做過(guò)哪些事?取得過(guò)哪些成就?
吳恩達(dá)出生于倫敦,父親是一位香港醫(yī)生。吳恩達(dá)年輕時(shí)候是在香港和新加坡度過(guò)的,父親對(duì)人工智能在醫(yī)療領(lǐng)域的應(yīng)用的興趣影響到了他。
他告訴我們,「當(dāng)時(shí)我還在新加坡,我的父親是一位醫(yī)生,他對(duì)人工智能在醫(yī)療領(lǐng)域的應(yīng)用很感興趣。所以當(dāng)時(shí)我就很幸運(yùn)地有些人工智能方面的書(shū)。我很小就開(kāi)始學(xué)習(xí)人工智能,確切地說(shuō),是我 12 歲的時(shí)候。我 16 歲時(shí),很幸運(yùn)地進(jìn)入新加坡國(guó)立大學(xué)做實(shí)習(xí)。在那里,我開(kāi)始研究神經(jīng)網(wǎng)絡(luò),甚至和教授一起寫(xiě)了一篇小的研究論文。那篇論文今天看來(lái)不怎么樣,所以我也就不推薦你們讀了。不過(guò)打那時(shí)起,我就對(duì)神經(jīng)網(wǎng)絡(luò)以及它們從數(shù)據(jù)中學(xué)習(xí)的能力,非常著迷?!?/p>
21 歲時(shí),吳恩達(dá)獲得了卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。之后他在 1998 年獲得了麻省理工學(xué)院的碩士學(xué)位,并于 2002 年獲得了加州大學(xué)伯克利分校的博士學(xué)位,導(dǎo)師是 Michael I. Jordan。
在拿到博士學(xué)位后,吳恩達(dá)開(kāi)始了在斯坦福大學(xué)的工作。后來(lái),他成為了斯坦福大學(xué)計(jì)算機(jī)科學(xué)系和電子工程系副教授,人工智能實(shí)驗(yàn)室主任。
2010 年,時(shí)任斯坦福大學(xué)教授的吳恩達(dá)加入谷歌開(kāi)發(fā)團(tuán)隊(duì) X Lab,作為顧問(wèn)。他是較早從學(xué)界加入產(chǎn)業(yè)界的研究人員之一。
從 2010 年到今年,隨著人工智能、深度學(xué)習(xí)的興起,越來(lái)越多優(yōu)秀的學(xué)術(shù)界人才被企業(yè)所拉攏——Geoffrey Hinton、Russ Salakhutdinov、李飛飛。這一現(xiàn)象的加劇引起了業(yè)內(nèi)的一陣恐慌,害怕優(yōu)秀學(xué)者的流失會(huì)影響人工智能人才的造血。
談到這一現(xiàn)象吳恩達(dá)觀(guān)察到了不一樣的角度,他認(rèn)為近期的另一個(gè)變化就是公司也在創(chuàng)造人工智能人才,可能創(chuàng)造人才的規(guī)模要比學(xué)校更大:
「因?yàn)闃O大的缺乏人才,所以百度這樣的公司的招聘部門(mén)都投入很大。這也是為什么百度里有無(wú)數(shù)關(guān)于深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別的課程,我們會(huì)常規(guī)性的訓(xùn)練職員,從而讓他們更有所長(zhǎng)。
事實(shí)上,百度硅谷辦公室已經(jīng)有了這樣的榮譽(yù):硅谷學(xué)習(xí)人工智能的地方。所以,我認(rèn)為除了大學(xué)之外公司成為創(chuàng)造更多人工智能人才的地方來(lái)幫助我們做激動(dòng)人心的工作,這是一個(gè)非常有前景的發(fā)展,這就是我們所面臨的?!?/p>
教學(xué)課程,是吳恩達(dá)的另一榮譽(yù)。
2008 年,吳恩達(dá)發(fā)起了「Stanford Engineering Everywhere」(SEE)項(xiàng)目,把斯坦福的許多課程放到網(wǎng)上,供免費(fèi)學(xué)習(xí)。他自己也教了一些課程,如機(jī)器學(xué)習(xí)課程,包含了他錄制的視頻講座和斯坦福 CS299 課程的學(xué)生材料。2011 年 8 月時(shí),Coursera 作為一家公益創(chuàng)業(yè)公司正式成立,并逐漸成為了世界上最大的 MOOC 平臺(tái)之一。
同樣是 2011 年,吳恩達(dá)與 Jeff Dean、Greg Corrado 聯(lián)合創(chuàng)立了谷歌大腦。當(dāng)時(shí),吳恩達(dá)向谷歌 Jeff Dean 提及了自己在 X 內(nèi)部實(shí)驗(yàn)的項(xiàng)目 Project Marvin,然后他們用自己的空余時(shí)間催生出了谷歌大腦(后來(lái)拉來(lái)了有神經(jīng)科學(xué)背景的 Greg Corrado)。
在谷歌大腦期間,最出名的案例就是他們所開(kāi)發(fā)的人工神經(jīng)網(wǎng)絡(luò)通過(guò)觀(guān)看 YouTube 視頻,自主學(xué)會(huì)識(shí)別哪些是關(guān)于貓的視頻。這個(gè)案例為人工智能領(lǐng)域翻開(kāi)嶄新一頁(yè)。
從2002年博士畢業(yè)任教到現(xiàn)在成為百度首席科學(xué)家,吳恩達(dá) 14 年中在谷歌、斯坦福、百度都帶領(lǐng)、扶持過(guò)一些成功的人工智能團(tuán)隊(duì)?;谶@些經(jīng)驗(yàn),他近期曾在哈佛商業(yè)評(píng)論上撰文呼吁大部分有數(shù)據(jù)但缺乏深度人工智能知識(shí)的公司來(lái)設(shè)立首席人工智能官。
他對(duì)我們解釋說(shuō),「我們都知道人工智能意味著什么,在目前的發(fā)展環(huán)境下,公司需要重新考慮自身業(yè)務(wù)如何與新技術(shù)相結(jié)合以獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。越來(lái)越多的公司雇傭了熟悉人工智能的高管,我認(rèn)為這很快就會(huì)形成一個(gè)特定的職位。我認(rèn)為有專(zhuān)人來(lái)從事這一工作會(huì)使公司的運(yùn)轉(zhuǎn)效率更高,這個(gè)人需要擁有足夠的技術(shù)知識(shí),對(duì)人工智能的發(fā)展有獨(dú)到的見(jiàn)解。所以首席人工智能官需要通曉人工智能的運(yùn)行方式,而不僅僅是具有技術(shù)知識(shí),它需要有開(kāi)闊的眼界,明白如何將技術(shù)用于促進(jìn)商業(yè)發(fā)展,為公司帶來(lái)效益?!?/p>
聯(lián)系客服