佟達ThoughtWorks商業(yè)洞見
[摘要]
最近幾年,深度學(xué)習(xí)備受關(guān)注。在2016年的每一項人工智能成就背后,幾乎都能看到深度學(xué)習(xí)的影子。數(shù)據(jù)的獲取、存儲、計算能力的增強,以及算法的進步等因素合力推動了深度學(xué)習(xí)技術(shù)的崛起。深度學(xué)習(xí)目前的成果大多來自學(xué)術(shù)研究,然而,在不遠的將來,以深度學(xué)習(xí)驅(qū)動的人工智能技術(shù),將推動企業(yè)軟件開發(fā)產(chǎn)生巨大的變革。
2016年3月,由DeepMind研發(fā)的AlphaGo以4:1的戰(zhàn)績完勝世界圍棋冠軍李世乭,拉開人工智能瘋狂席卷IT圈的序幕。5月,Tesla在開啟Autopilot輔助駕駛模式后出現(xiàn)首例致死事故,將人工智能推上了風(fēng)口浪尖。霍金、比爾蓋茨、埃隆馬斯克等科技大咖相繼發(fā)言,討論人工智能是否會對人類未來發(fā)展不利,OpenAI應(yīng)運而生。10月,HBO電視劇《西部世界》的上映,再一次引爆大眾對于人工智能的關(guān)注。由于媒體的夸張宣傳,人們甚至覺得《終結(jié)者》中的世界就要到來。
伴隨著這一波人工智能浪潮崛起的,是一種被稱為“深度學(xué)習(xí)”的技術(shù)。不論是AlphaGo、自動駕駛,抑或是其他近期的人工智能突破,我們都能在其背后看到深度學(xué)習(xí)的影子。深度學(xué)習(xí)就像是人類打開的潘多拉盒子,放出了黑科技,席卷整個科技行業(yè)。
從Gartner2016年新技術(shù)發(fā)展曲線報告中可以看出,和人工智能相關(guān)的技術(shù),要么處于泡沫期的頂峰,要么處于正在走向泡沫期的路上。為什么人工智能會突然爆發(fā)?它會不會只是媒體吹出來的一個泡沫?作為人工智能再次興起的核心技術(shù)突破,深度學(xué)習(xí)到底是什么“黑科技”?
近20年間,互聯(lián)網(wǎng)經(jīng)歷了一場“大躍進”。根據(jù)IDC做的統(tǒng)計:在2006年,全世界創(chuàng)造的數(shù)據(jù)量約為161EB,預(yù)計每18個月這個數(shù)字會翻一番,在2010年達到988EB(1024GB為1TB,1024TB為1PB,1024PB為1EB,1024EB為1ZB)。而事實上,根據(jù)IDC后來的報告,2010年達到的數(shù)字是1227EB。最近的一次IDC互聯(lián)網(wǎng)報告是在2014年,其中提到2013年全世界產(chǎn)生的數(shù)據(jù)是4.4ZB,到2020年,這一數(shù)字將達到44ZB。
物聯(lián)網(wǎng)的發(fā)展正在加速這一過程。2013年,全世界接入互聯(lián)網(wǎng)的設(shè)備將近200億,到2020年,這一數(shù)字將達到300億。而全世界所有的“物體”總數(shù),大概是2000億。這些設(shè)備通過其內(nèi)嵌的傳感器監(jiān)控并收集數(shù)據(jù),并上報到云計算中心。
我們正處于“數(shù)字化一切”的時代。人們的所有行為,都將以某種數(shù)字化手段轉(zhuǎn)換成數(shù)據(jù)并保存下來。每到新年,各大網(wǎng)站、App就會給用戶推送上一年的回顧報告,比如支付寶會告訴用戶在過去一年里花了多少錢、在淘寶上買了多少東西、去什么地方吃過飯、花費金額超過了百分之多少的小伙伴;航旅縱橫會告訴用戶去年做了多少次飛機、總飛行里程是多少、去的最多的城市是哪里;同樣的,最后讓用戶知道他的行程超過了多少小伙伴。這些報告看起來非常酷炫,又冠以“大數(shù)據(jù)”之名,讓用戶以為是多么了不起的技術(shù)。然而,我們實際上在只是做一件事:數(shù)(shǔ)數(shù)(shù)。
實際上,企業(yè)對于數(shù)據(jù)的使用和分析,并不比我們每年收到的年度報告更復(fù)雜。已經(jīng)有30多年歷史的商業(yè)智能(Business Intelligence),看起來非常酷炫,其本質(zhì)依然是數(shù)數(shù),并把數(shù)出來的結(jié)果畫成圖給管理者看。只是在不同的行業(yè)、場景下,同樣的數(shù)字和圖表會有不同的名字。即使是最近幾年炙手可熱的大數(shù)據(jù)處理技術(shù),也不過是可以數(shù)更多的數(shù),并且數(shù)的更快一些而已。
比如我們每天都在使用的搜索引擎。在自然語言處理領(lǐng)域,有一種非常流行的算法模型,叫做詞袋模型(Bag of Words Model),即把一段文字看成一袋水果,這個模型就是要算出這袋水果里,有幾個蘋果、幾個香蕉和幾個梨。搜索引擎會把這些數(shù)字記下來,如果你想要蘋果,它就會把有蘋果的這些袋子給你。
當(dāng)我們在網(wǎng)上買東西或是看電影時,網(wǎng)站會推薦一些可能符合我們偏好的商品或是電影,這個推薦有時候還挺準。事實上,這背后的算法,是在數(shù)你喜歡的電影和其他人喜歡的電影有多少個是一樣的,如果你們同時喜歡的電影超過一定個數(shù),就把其他人喜歡、但你還沒看過的電影推薦給你。
搜索引擎和推薦系統(tǒng)在實際生產(chǎn)環(huán)境中還要做很多額外的工作,但是從本質(zhì)上來說,它們都是在數(shù)數(shù)。那么,數(shù)數(shù)有什么問題么? 有。
數(shù)字的發(fā)明,讓我們的祖先可以用簡便的記法記錄下物體的個數(shù)。比如有一個放牛娃,家里最初只有3頭牛,他可以記住每一頭牛的樣子,每天回到家,掃一眼牛棚,就知道家里的牛丟沒丟。后來,因為家里經(jīng)營的好,放牛娃的牛有100頭之多,隨之而來的是無法記清每頭牛的煩惱。如果沒有發(fā)明數(shù)字,他可能要把每一只牛照著模樣刻在石壁上,每天拉著一頭頭的牛到石壁邊去對照,看有沒有丟牛。當(dāng)有了數(shù)字,放牛娃只需要記下“100”這個數(shù)字,再畫一頭牛就夠了,以后每天數(shù)一下牛群里面牛的數(shù)量,再看看石壁上的數(shù)字是否一樣。
數(shù)數(shù),讓放牛娃的工作變得簡單,他不用把每一頭牛的樣子都刻在石壁上,減輕了工作量??墒沁@種辦法并非萬無一失,有一天,附近一個游手好閑的小混混從別處找來一頭病牛,混到了放牛娃的牛群之中,同時又牽走了一頭壯牛。放牛娃在一天結(jié)束、清點自己的牛群時,發(fā)現(xiàn)還是100頭牛,不多不少,就心滿意足的回家睡覺了。然而他卻不知道,他的一頭壯牛被小混混用病牛換走了。
對于主要以數(shù)數(shù)方式來使用數(shù)據(jù)的企業(yè),同樣面臨著無法關(guān)注數(shù)據(jù)細節(jié)的問題。當(dāng)數(shù)據(jù)量比較小的時候,可以通過人工查閱數(shù)據(jù)。而到了大數(shù)據(jù)時代,幾百TB甚至上PB的數(shù)據(jù)在分析師或者老板的報告中,就只是幾個數(shù)字結(jié)論而已。在數(shù)數(shù)的過程中,數(shù)據(jù)中存在的信息也隨之被丟棄,留下的那幾個數(shù)字所能代表的信息價值,不抵其真實價值之萬一。過去十年,許多公司花了大價錢,用上了物聯(lián)網(wǎng)和云計算,收集了大量的數(shù)據(jù),但是到頭來卻發(fā)現(xiàn)得到的收益并沒有想象中那么多。
我們所知的深度學(xué)習(xí),本質(zhì)上應(yīng)該叫做“基于深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)”。為什么用了”深度學(xué)習(xí)”這個名字,而不是深度神經(jīng)網(wǎng)絡(luò)呢?其中一個原因是,“神經(jīng)網(wǎng)絡(luò)”這個詞是一個禁忌。
神經(jīng)網(wǎng)絡(luò)算法的提出可以追溯到20世紀40年代。這一算法起源于生物學(xué)中對于動物大腦神經(jīng)元的研究,因此早期也被稱為人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network)。最初的神經(jīng)網(wǎng)絡(luò)是邏輯電路搭建,到了60年代,由于計算能力不足,無法構(gòu)建大規(guī)模神經(jīng)網(wǎng)絡(luò),而小規(guī)模神經(jīng)網(wǎng)絡(luò)的表現(xiàn)又差強人意。隨著其他機器學(xué)習(xí)方法的提出,很多科研人員開始轉(zhuǎn)向其他方向,人工神經(jīng)網(wǎng)絡(luò)的研究陷入了停滯。
典型神經(jīng)元的結(jié)構(gòu)
20世紀80年代,隨著通用計算機的出現(xiàn),人工神經(jīng)網(wǎng)絡(luò)的研究經(jīng)歷了一波復(fù)蘇。在這個階段,反向傳播(Back Propagation)算法逐漸成熟。直到今天,反向傳播算法都是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的最主要方法。然而,依然受限于當(dāng)時的硬件條件,神經(jīng)網(wǎng)絡(luò)的規(guī)模依然不大。同時,以支持向量機為代表的基于核方法的機器學(xué)習(xí)技術(shù),表現(xiàn)出了不俗的能力,因此,大量科研人員再一次放棄了神經(jīng)網(wǎng)絡(luò)。
然而并不是所有的科學(xué)家都放棄了神經(jīng)網(wǎng)絡(luò)。在那些留守的科學(xué)家中,有一位剛剛拿到人工智能學(xué)位不久的年輕人,他曾在劍橋大學(xué)國王學(xué)院拿到實驗物理學(xué)的學(xué)士學(xué)位,因為對認知科學(xué)抱有濃厚的興趣,因此選擇專攻人工智能。他堅信“既然大腦能夠工作,神經(jīng)網(wǎng)絡(luò)算法也一定能工作。大腦不可能是被編程出來的?!碑?dāng)他的研究成果并不如預(yù)期時,他總是對質(zhì)疑他的人回應(yīng):“再給我6個月,到時候我會證明它是可以工作的?!碑?dāng)幾個6個月過去,神經(jīng)網(wǎng)絡(luò)的效果依然不好,他會說:“再給我5年,一定能行。”又是好幾個5年過去,神經(jīng)網(wǎng)絡(luò)真的成了。這個人就是Geoffrey Hinton,深度學(xué)習(xí)之父。
神經(jīng)網(wǎng)絡(luò)在最初的幾十年內(nèi)都沒有表現(xiàn)出過人的性能,主要面臨著兩個困難。首先是計算性能不足。實際上,在90年代,Hinton以及他的學(xué)生就已經(jīng)在試驗和后來深度神經(jīng)網(wǎng)絡(luò)類似的結(jié)構(gòu),其中就有大名鼎鼎的Yann LeCunn,他所提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就是現(xiàn)在的“LeNet”。但是,增加神經(jīng)網(wǎng)絡(luò)的深度,就會讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度變慢。在那個內(nèi)存不過幾十MB,GPU還沒有出現(xiàn)的年代,要訓(xùn)練一個小規(guī)模的深度神經(jīng)網(wǎng)絡(luò)模型,需要花上數(shù)周甚至數(shù)月。
其次是訓(xùn)練數(shù)據(jù)不夠多。在機器學(xué)習(xí)領(lǐng)域流傳著一個傳說,叫做“維度詛咒(Curse of Dimensionality)”,隨著特征維度的增加,算法的搜索空間急劇變大,要在這樣的特征空間中尋找適合的模型,需要大量的訓(xùn)練數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)要解決的問題,通常具有成千上萬維的特征,我們假設(shè)有1000維特征,每一維特征有100個候選值,那么這個特征空間就是100的1000次方,可以想象,要在如此大的特征中尋找一個模型,需要多少數(shù)據(jù),而這個特征空間規(guī)模不過是深度學(xué)習(xí)問題中比較小的。幸好我們所在的這個世界,可以通過一個非常有用的先驗假設(shè)進行簡化:我們這個世界的事物都是通過更小的事物組合而成的。我們知道,所有的物體都是由分子構(gòu)成,分子由原子構(gòu)成,原子由質(zhì)子、中子和電子構(gòu)成,等等。不僅實際的物體滿足這一先驗假設(shè),抽象的概念也一樣如此。因此深度神經(jīng)網(wǎng)絡(luò)利用了這一假設(shè),通過將網(wǎng)絡(luò)層數(shù)加深,每一層神經(jīng)元都是前面一層神經(jīng)元輸出的組合,通過這樣的假設(shè),將整個搜索空間大大減小。然而,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)依然需要大量的數(shù)據(jù),才能得到一個比較好的結(jié)果。
深度神經(jīng)網(wǎng)絡(luò)構(gòu)建層級化特征
來到21世紀,正如我們前面所說,在21世紀的十幾年間,我們的數(shù)據(jù)量和計算能力都增長了不少,這為神經(jīng)網(wǎng)絡(luò)證明其能力提供了條件。事實上,在Hinton的帶領(lǐng)下,神經(jīng)網(wǎng)絡(luò)在2000年之后逐漸開始在一些比較小眾的領(lǐng)域獲得成功。而真正對學(xué)術(shù)界產(chǎn)生震動的,是2012年,Hinton實驗室的學(xué)生Alex Krizhevsky用基于深度神經(jīng)網(wǎng)絡(luò)的方法,在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)圖像識別挑戰(zhàn)賽中一戰(zhàn)成名,其網(wǎng)絡(luò)結(jié)構(gòu)也被人們稱為AlexNet。在那之前,圖像識別領(lǐng)域已經(jīng)被基于支持向量機的算法霸占多年,而AlexNet不僅打敗支持向量機,而且將錯誤率降低了將近一半。自此之后,圖像識別算法的冠軍就一直是深度學(xué)習(xí)算法。
基于深度學(xué)習(xí)的算法讓圖像識別精度在過去幾年大幅度提升
除了在圖像識別領(lǐng)域獲得巨大成功,在短短的幾年之內(nèi),在各種場景下,基于深度神經(jīng)網(wǎng)絡(luò)的算法都橫掃其他機器學(xué)習(xí)算法。包括語音識別、自然語言處理、搜索引擎、甚至自動控制系統(tǒng)。DeepMind的Alex Graves團隊在2014年的一篇論文中提出的神經(jīng)圖靈機(Neural Turing Machine)結(jié)構(gòu),以及后來在2016年提出的DNC(Deep Neural Computer)結(jié)構(gòu),甚至可以成功學(xué)習(xí)簡單的算法,這不禁讓我開始遐想有一天,計算機可以自己給自己編程。
深度學(xué)習(xí)的端到端架構(gòu),降低了企業(yè)引入深度學(xué)習(xí)的成本
相比其他經(jīng)典的機器學(xué)習(xí)算法來說,深度學(xué)習(xí)需要人工干預(yù)的比例小很多。比如,在經(jīng)典機器學(xué)習(xí)中,特征工程占用了科學(xué)家們開發(fā)算法的大部分精力,對于某些問題,比如圖像識別、語音識別,科學(xué)家們花了幾十年時間來尋找性能更好的特征。深度學(xué)習(xí)改變了這一情況。深度學(xué)習(xí)接收原始數(shù)據(jù),在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,尋找最適合的特征。事實證明,機器自己找到的特征,比人類科學(xué)家用幾十年找到的特征性能更好。正是由于深度學(xué)習(xí)的這一特點,深度學(xué)習(xí)的一個明顯趨勢,是端到端的解決問題。
比如下圖所示的語音識別。經(jīng)典語音識別需要對原始數(shù)據(jù)提取特征(比如梅爾倒譜系數(shù)),將提取到的特征建立時間序列模型(比如隱式馬爾科夫模型),得到聲學(xué)模型,然后根據(jù)發(fā)聲詞典,將輸入信號映射為一些音節(jié),最后,根據(jù)預(yù)先定義好的語言模型,將音節(jié)轉(zhuǎn)換為有意義的文字。這其中,特征提取、時間序列建模、發(fā)聲詞典等都需要人工預(yù)先定義好,對于不同的語種,比如中文和英文,還要使用不同的模型。
端到端的深度學(xué)習(xí)越來越流行
在深度學(xué)習(xí)流行起來的初期,語音識別流程中的特征提取以及時間序列建模等,都用深度神經(jīng)網(wǎng)來替代了。到了最近幾年,科學(xué)家發(fā)現(xiàn),對于語音識別這樣的問題,甚至流水線都是多余的,直接將原始數(shù)據(jù)接入到神經(jīng)網(wǎng)絡(luò)中,就能輸出我們期望的文本,這樣的結(jié)構(gòu)要比人工設(shè)計流程得到的結(jié)果更好。
這種端到端的深度學(xué)習(xí),在其他領(lǐng)域也被驗證是可行的。比如自動駕駛技術(shù),在MIT的自動駕駛項目中,就是用端到端的深度強化學(xué)習(xí)技術(shù),輸入是路況的所有信息,輸出就是對汽車的指令,比如加速、剎車、方向盤角度等等。
深度學(xué)習(xí)的端到端架構(gòu),降低了企業(yè)引入深度學(xué)習(xí)的成本。過去,企業(yè)要引入機器學(xué)習(xí),需要招聘一個科學(xué)家團隊,同時還需要一個開發(fā)團隊,將科學(xué)家所設(shè)計的算法模型翻譯成生產(chǎn)環(huán)境代碼。這樣的開發(fā)模式不僅成本高,響應(yīng)速度也非常慢。而深度學(xué)習(xí)的端到端架構(gòu),對于科學(xué)家的要求降低了很多,而且,由于不需要通過特征工程來尋找特征,開發(fā)周期也大大縮短。對于很多規(guī)模不大、但希望朝智能化演進的企業(yè)來說,先嘗試引入深度學(xué)習(xí)是個不錯的選擇。
在傳統(tǒng)的軟件開發(fā)中,用戶的交互方式是確定的,業(yè)務(wù)流程也是確定的;當(dāng)我們嘗試將人工智能技術(shù)融入到產(chǎn)品中,需要面對大量的不確定性。
首先是和用戶的交互方式將發(fā)生巨大變化。過去,我們通過按鈕、表單等控件來確保用戶是按照產(chǎn)品設(shè)計師的思路來使用軟件的。隨著深度學(xué)習(xí)在圖像識別、語音識別、文本識別等方面的快速發(fā)展,未來,我們的軟件在用戶的交互過程中,將更多的使用自然語言、語音、手勢、甚至是意識。具備觸屏功能的智能手機的出現(xiàn),掀起了一波用戶體驗升級的浪潮,所有應(yīng)用開發(fā)者都在尋找在觸屏應(yīng)用中更自然的交互方式。而這一次,用戶交互方式的升級將比觸屏帶來的影響更加深遠。Amazon在這方面做出了開創(chuàng)性的嘗試,其智能音箱Echo在設(shè)計之初就特意去掉了屏幕,讓語音變成唯一的交互渠道。Facebook Messenger在發(fā)布了聊天機器人的平臺之后,同樣也給出了設(shè)計指導(dǎo),開發(fā)者將以一種全新的方式去思考,軟件應(yīng)該如何與用戶更好的溝通。
其次是企業(yè)的業(yè)務(wù)決策會越來越多的依賴人工智能。過去,企業(yè)要基于數(shù)據(jù)進行決策,需要搭建數(shù)據(jù)倉庫,開發(fā)ETL程序,制作報表,等待分析師從各種各樣的報表中找到有價值的信息,最后做出業(yè)務(wù)改進的決策?,F(xiàn)在,我們有了深度學(xué)習(xí)這把強大的錘子,可以讓我們對數(shù)據(jù)有更加深刻的洞察力;同時,實時流式大數(shù)據(jù)架構(gòu)讓我們可以更快速地做出反饋。企業(yè)如果可以利用好這兩大利器,將釋放出更大的潛力。
算法驅(qū)動的產(chǎn)品架構(gòu)
IT軟件的運維也將迎來新的革命。軟件系統(tǒng)越來越復(fù)雜、規(guī)模越來越大,對于運維人員的挑戰(zhàn)就越來越高。在IT行業(yè)的早期,運維更多是修復(fù)性工作,即發(fā)現(xiàn)壞了,立即進行修復(fù)。后來,為了減少系統(tǒng)修復(fù)帶來的損失,運維工作開始強調(diào)預(yù)防性,即根據(jù)歷史維護記錄,找到系統(tǒng)故障的規(guī)律,提前進行修復(fù)。然而,據(jù)統(tǒng)計,有規(guī)律的故障只占所有故障中的18%。因此,我們需要更好的識別并預(yù)測故障的能力,即預(yù)測性運維。深度學(xué)習(xí)在自動學(xué)習(xí)特征方面的優(yōu)勢,注定其在預(yù)測性運維領(lǐng)域也會發(fā)揮很大的作用。
深度學(xué)習(xí)在這幾年越來越流行,尤其是在AlphaGo擊敗人類棋手之后,一些媒體甚至開始營造人工智能可能會取代人類的緊張氛圍。然而,就目前的研究成果來看,想要發(fā)展出科幻電影中具備獨立思考能力、甚至可以和人類談戀愛的人工智能,還有很長一段距離。且不說情感、人格這類形而上的概念,尚未有嚴格的科學(xué)定義,更不用提人工智能能否具備這些屬性。單從目前人類的工作是否會被人工智能所替代來看,至少當(dāng)前的深度學(xué)習(xí)還有很多局限性,要想打破局限,讓深度學(xué)習(xí)具有更大的作用,還有很多挑戰(zhàn)等待解決。
盡管深度學(xué)習(xí)已經(jīng)讓神經(jīng)網(wǎng)絡(luò)具備了很大的靈活性,然而深度學(xué)習(xí)目前還只能做到一個神經(jīng)網(wǎng)絡(luò)解決一個問題。比如訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)要么只能識別圖片,要么只能識別語音,不能同時識別。比如,我們可以給一個神經(jīng)網(wǎng)絡(luò)看一張圖片,神經(jīng)網(wǎng)絡(luò)可以識別到圖片中是貓還是狗;我們也可以給另一個神經(jīng)網(wǎng)絡(luò)聽一段聲音,這個神經(jīng)網(wǎng)絡(luò)可以識別出是聲音中是貓還是狗的叫聲;但是,現(xiàn)在還沒有一個神經(jīng)網(wǎng)絡(luò),既能通過視覺識別物體,還能通過聽覺識別物體。盡管借助多任務(wù)學(xué)習(xí)(Multi-task learning)技術(shù),神經(jīng)網(wǎng)絡(luò)可以在識別圖片類別的同時,識別輪廓、姿態(tài)、陰影、文字等等相關(guān)的內(nèi)容,相比我們?nèi)祟惗嗖哦嗨嚨拇竽X,現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)可以說是非常低能。
目前如果需要一個應(yīng)用支持不同的能力,必須組合使用多個神經(jīng)網(wǎng)絡(luò),這不僅對于計算資源是巨大的消耗,不同神經(jīng)網(wǎng)絡(luò)之間也難以形成有效的互動,比如圖片中的狗、聲音中的狗和一段文字中出現(xiàn)的狗,在各自的神經(jīng)網(wǎng)絡(luò)中都有不同的表示方式。而對于人類來說,這些其實都是同一個概念。
如何讓神經(jīng)網(wǎng)絡(luò)能夠同時實現(xiàn)多個目標,目前科學(xué)家們也都還沒有答案,不過從人類大腦得到的啟示是,通過某種方式,將負責(zé)不同功能的神經(jīng)網(wǎng)絡(luò)連接起來,組成更大的神經(jīng)網(wǎng)絡(luò),也許可以解決這個問題。Google在ICLR 2017上的一篇論文,通過一個系數(shù)門矩陣將多個子網(wǎng)絡(luò)連接起來,是在這個方向上的一個有趣嘗試。
Pedro Domingos教授在《The Master Algorithm》一書中回顧了機器學(xué)習(xí)的5大流派:符號主義、連接主義、進化主義、貝葉斯主義、分析主義。這5類機器學(xué)習(xí)算法并沒有絕對的優(yōu)劣,不同的算法適用于不同的場景和問題。比如以神經(jīng)網(wǎng)絡(luò)為主的連接主義算法,對于視覺、聽覺這類感知問題,具有更好的效果,但是卻不擅長邏輯推理。而邏輯推理剛好是符號主義算法所擅長的。書中提出了一種終極算法,能夠結(jié)合這五種主流機器學(xué)習(xí),可以適用于更大范圍的問題域。
深度學(xué)習(xí)正是連接主義發(fā)展而來,不過深度學(xué)習(xí)提供了可擴展性非常強的框架,以深度學(xué)習(xí)為基礎(chǔ),很有希望將其他幾類機器學(xué)習(xí)算法融入進來。OpenAI在進行深度強化學(xué)習(xí)的實驗過程中發(fā)現(xiàn),使用進化主義的遺傳算法替代經(jīng)典的反向傳播(BP)算法,模型可以更快的收斂,性能也更好;Google基于TensorFlow框架開發(fā)的概率編程工具庫Edward,證明了概率圖和神經(jīng)網(wǎng)絡(luò)可以無縫的結(jié)合在一起。
從目前的趨勢看來,終極算法非常有希望。不過,事情不會總是這么順利。當(dāng)年物理學(xué)家們希望尋找大統(tǒng)一理論來結(jié)合自然界四種基本力,電磁力、強核力、弱核力很快就結(jié)合到一個模型中,然而最后引力卻怎么都找不到結(jié)合的辦法。當(dāng)我們找到終極算法的時候,通用人工智能(Artificial General Intelligence)就離我們不遠了。
深度學(xué)習(xí)讓機器學(xué)習(xí)不再依賴于科學(xué)家尋找特征,但調(diào)試深度神經(jīng)網(wǎng)絡(luò)依然需要很多人工的工作,其中最主要的就是調(diào)參。這里所說的調(diào)參,不是調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)的每個神經(jīng)元的參數(shù),而是指調(diào)試超參數(shù)。超參數(shù)是用來控制神經(jīng)網(wǎng)絡(luò)的描述性參數(shù),比如,神經(jīng)網(wǎng)絡(luò)的層數(shù)、每一層的神經(jīng)元個數(shù)、學(xué)習(xí)率(Learning Rate)的大小、訓(xùn)練時間的長短等等。這些參數(shù)的微小差異,會給最終模型帶來巨大的性能差異,而這部分工作大多需要靠經(jīng)驗完成,很難總結(jié)出有效的最佳實踐。
然而這一狀況在未來將會有所改善。既然神經(jīng)網(wǎng)絡(luò)可以用于學(xué)習(xí)參數(shù),就應(yīng)該可以學(xué)習(xí)超參數(shù)。DeepMind提出的Learning to Learn算法,使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)和調(diào)整學(xué)習(xí)率,可以讓神經(jīng)網(wǎng)絡(luò)更快的收斂到理想的精度。正所謂,授人以魚不如授人以漁。
深度學(xué)習(xí)的火爆,吸引了越來越多的計算機科學(xué)家投身到這一領(lǐng)域。如果以目前學(xué)術(shù)成果的發(fā)展速度來預(yù)測,也許不超過10年,上述深度學(xué)習(xí)的挑戰(zhàn)就會被解決。與其杞人憂天的擔(dān)心人工智能會毀滅人類,不如提前布局,做好準備,迎接智能時代的到來。智能時代的IT系統(tǒng),將是“具備自主性的IT系統(tǒng),能夠根據(jù)人類制定的目標,針對復(fù)雜業(yè)務(wù)變化,做出認為的最優(yōu)選擇。”如果深度學(xué)習(xí)的幾大挑戰(zhàn)能夠在幾年之內(nèi)被解決,將大大加快未來IT系統(tǒng)實現(xiàn)的腳步。
本文收錄于《ThoughtWorks商業(yè)洞見——智能時代》
工業(yè)互聯(lián)網(wǎng) 智能制造
產(chǎn)業(yè)智能官 AI-CPS
加入知識星球“產(chǎn)業(yè)智能研究院”:先進產(chǎn)業(yè)OT(工藝 自動化 機器人 新能源 精益)技術(shù)和新一代信息IT技術(shù)(云計算 大數(shù)據(jù) 物聯(lián)網(wǎng) 區(qū)塊鏈 人工智能)深度融合,在場景中構(gòu)建狀態(tài)感知-實時分析-自主決策-精準執(zhí)行-學(xué)習(xí)提升的機器智能認知計算系統(tǒng);實現(xiàn)產(chǎn)業(yè)轉(zhuǎn)型升級、DT驅(qū)動業(yè)務(wù)、價值創(chuàng)新創(chuàng)造的產(chǎn)業(yè)互聯(lián)生態(tài)鏈。
版權(quán)聲明:產(chǎn)業(yè)智能官(ID:AI-CPS)推薦的文章,除非確實無法確認,我們都會注明作者和來源,涉權(quán)煩請聯(lián)系協(xié)商解決,聯(lián)系、投稿郵箱:erp_vip@hotmail.com。
聯(lián)系客服