大家好,今天開(kāi)始就進(jìn)入了專(zhuān)欄《AI不惑境》的更新了,這是第一篇文章,講述數(shù)據(jù)如何驅(qū)動(dòng)深度學(xué)習(xí)。
進(jìn)入到不惑境界,就是向高手邁進(jìn)的開(kāi)始了,在這個(gè)境界需要自己獨(dú)立思考。如果說(shuō)學(xué)習(xí)是一個(gè)從模仿,到追隨,到創(chuàng)造的過(guò)程,那么到這個(gè)階段,應(yīng)該躍過(guò)了模仿和追隨的階段,進(jìn)入了創(chuàng)造的階段。從這個(gè)境界開(kāi)始,講述的問(wèn)題可能不再有答案,更多的是激發(fā)大家一起來(lái)思考。
作者&編輯 | 全能言有三
深度學(xué)習(xí)成功源于三駕馬車(chē),模型,數(shù)據(jù)和硬件,這背后最核心的還是數(shù)據(jù),深度學(xué)習(xí)正是因?yàn)閷W(xué)會(huì)了從數(shù)據(jù)中抽象知識(shí),才能夠完成各種各樣的任務(wù)。
人工智能的發(fā)展,伴隨著對(duì)數(shù)據(jù)的使用方法的進(jìn)化,今天就來(lái)聊聊。
1 數(shù)據(jù)與學(xué)習(xí)
我一直對(duì)學(xué)生說(shuō),如果你不能認(rèn)識(shí)到數(shù)據(jù)對(duì)一個(gè)任務(wù)的重要性,不知道什么樣的數(shù)據(jù)能夠完成手中的任務(wù),就不算真正的入門(mén)深度學(xué)習(xí)。
在此之前,你可以去沉迷于各種框架,技巧,項(xiàng)目。
我們回想一下,大部分人的成長(zhǎng)是什么樣的過(guò)程。
(1) 一個(gè)剛剛出生的小孩,對(duì)這個(gè)世界的一切都表現(xiàn)出了無(wú)差別的興趣,接受各種信息就是成長(zhǎng)。
(2) 在青少年時(shí)期,我們?cè)诩议L(zhǎng)和老師的帶領(lǐng)下,從背課文寫(xiě)作業(yè)開(kāi)始學(xué)習(xí),大部分錯(cuò)誤的行為會(huì)得到糾錯(cuò),正確的行為會(huì)得到獎(jiǎng)勵(lì)。
(3) 隨著成長(zhǎng),有的人在自己工作的領(lǐng)域里熟練玩轉(zhuǎn)數(shù)據(jù)和模型,充分發(fā)掘和運(yùn)用已有的知識(shí),另一部分人所做的事情不再有答案,需要自己去探索新的規(guī)律,比如成立自己的公司,創(chuàng)作新的知識(shí)。
這幾個(gè)階段,背后的核心都是數(shù)據(jù)。
(1) 沒(méi)有知識(shí)的時(shí)候,所有已有的數(shù)據(jù)都是知識(shí)。
(2) 學(xué)習(xí)知識(shí)的時(shí)候,需要針對(duì)自己要學(xué)習(xí)的領(lǐng)域進(jìn)行已有數(shù)據(jù)庫(kù)的選擇,想學(xué)語(yǔ)言就要背單詞庫(kù),學(xué)數(shù)學(xué)就要做題庫(kù),學(xué)音樂(lè)就要練樂(lè)譜,這時(shí)候用已有的數(shù)據(jù)進(jìn)行學(xué)習(xí)。
(3) 使用知識(shí)的時(shí)候,就要調(diào)整自己學(xué)習(xí)到的知識(shí)用于新輸入的數(shù)據(jù),在這個(gè)過(guò)程中,知識(shí)也隨之更新。
(4) 創(chuàng)造知識(shí)的時(shí)候,就要觀察社會(huì)和科學(xué)規(guī)律,從中進(jìn)行總結(jié),面對(duì)的就是沒(méi)有人整理過(guò)的數(shù)據(jù)。
可以毫不夸張的說(shuō),人一生大部分時(shí)間都用著統(tǒng)計(jì)學(xué)獲取,整理和分析數(shù)據(jù),知識(shí)從數(shù)據(jù)中來(lái),就像老子說(shuō)的“道法自然”。
2 有監(jiān)督特征工程到無(wú)監(jiān)督特征學(xué)習(xí)
說(shuō)起無(wú)監(jiān)督和有監(jiān)督方法,仍然先舉一個(gè)依法治國(guó)和無(wú)為而治的對(duì)比。
依法治國(guó)核心就在于設(shè)定了各種各樣的法令讓大家遵循,而無(wú)為而治的核心就是不干預(yù),讓國(guó)家在自然規(guī)律下運(yùn)轉(zhuǎn)。很明顯后者是更高級(jí)的存在,也更難實(shí)現(xiàn),不確定性大。
這個(gè)例子說(shuō)的正是有監(jiān)督和無(wú)監(jiān)督方法在社會(huì)學(xué)的代表,從有監(jiān)督到無(wú)監(jiān)督是進(jìn)步的,然后我們?cè)倏纯粗悄芟到y(tǒng)的成長(zhǎng)。
(1) 最初級(jí)的智能系統(tǒng),其實(shí)就是用機(jī)器來(lái)使用專(zhuān)家的知識(shí),依靠的是專(zhuān)家在某一個(gè)領(lǐng)域的大量的經(jīng)驗(yàn)積累。從20世紀(jì)60年代開(kāi)始到80年代第二次人工智能浪潮,專(zhuān)家系統(tǒng)的研究是非常流行的,大家感興趣可以去了解。
(2) 隨著技術(shù)的發(fā)展,研究者發(fā)現(xiàn)專(zhuān)家系統(tǒng)實(shí)在是過(guò)于簡(jiǎn)單和脆弱,于是研究出了一系列的模型,包括人工神經(jīng)網(wǎng)絡(luò)/SVM等等。通過(guò)專(zhuān)家的經(jīng)驗(yàn)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,完成知識(shí)的初步抽象(提取特征),之后丟給模型進(jìn)行進(jìn)一步的學(xué)習(xí)。與專(zhuān)家系統(tǒng)相比模型的復(fù)雜度大大提升,因此也可以開(kāi)始解決更加復(fù)雜的問(wèn)題,比如人臉的檢測(cè),語(yǔ)音的識(shí)別。在20世紀(jì)末和21世紀(jì)初,有監(jiān)督的機(jī)器學(xué)習(xí)方法得到了非常廣泛的應(yīng)用和研究。
(3) 隨著大數(shù)據(jù)的爆發(fā)以及科學(xué)家的不斷探索,研究人員開(kāi)始認(rèn)識(shí)到通過(guò)專(zhuān)家的經(jīng)驗(yàn)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是不合適的,數(shù)據(jù)的維度太高,專(zhuān)家不可能知道每一個(gè)任務(wù)到底需要怎樣的預(yù)處理,所以無(wú)監(jiān)督特征學(xué)習(xí)方法誕生。對(duì)于一個(gè)無(wú)監(jiān)督的特征學(xué)習(xí)系統(tǒng),它的輸入應(yīng)該盡可能是原始的數(shù)據(jù),最大程度上保證信息的完整。至于學(xué)習(xí)的規(guī)則,仍然由專(zhuān)家來(lái)制定。
于是專(zhuān)家設(shè)計(jì)出各種各樣的模型架構(gòu)和優(yōu)化目標(biāo)來(lái)指導(dǎo)系統(tǒng)從數(shù)據(jù)中進(jìn)行學(xué)習(xí),與有監(jiān)督的特征工程的最大區(qū)別在于使用數(shù)據(jù)的方式,這一類(lèi)方法也被稱(chēng)為特征學(xué)習(xí),于是我們有了傳統(tǒng)的機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法之分。
(4) 再往后發(fā)展,就需要機(jī)器自己創(chuàng)造模型,人類(lèi)專(zhuān)家在其中所起的作用很小,甚至沒(méi)有,這也是人工智能的未來(lái),或許社會(huì)發(fā)展到一定的階段,真的會(huì)有創(chuàng)造生命的那一天吧。
3 深度學(xué)習(xí)第一階段-學(xué)習(xí)特征
在深度學(xué)習(xí)發(fā)展的第一階段中,重點(diǎn)就是專(zhuān)家設(shè)計(jì)模型和優(yōu)化策略,從數(shù)據(jù)中學(xué)習(xí)特征表達(dá)。
深度學(xué)習(xí)的成功很大程度上歸功于卷積神經(jīng)網(wǎng)絡(luò)CNN模型架構(gòu),在圖像,語(yǔ)音等領(lǐng)域都取得了大大突破。CNN是一種無(wú)監(jiān)督的特征學(xué)習(xí)模型,輸入原始數(shù)據(jù),然后完成學(xué)習(xí)。關(guān)于CNN的基礎(chǔ),大家可以去閱讀公眾號(hào)的相關(guān)文章。
聯(lián)系客服