原創(chuàng) AGI聯(lián)盟 吳博士 通用人工智能聯(lián)盟
大家好,今天我們繼續(xù)分享通用人工智能(AGI)技術(shù)的原創(chuàng)綜述,該簡(jiǎn)短的綜述將系統(tǒng)性地梳理目前的AGI發(fā)展?fàn)顟B(tài)和現(xiàn)狀,并前沿性收納最具有推動(dòng)力的成果,可以作為該領(lǐng)域的入門(mén)參考資料。本分享將持續(xù)五期,本期主要講述認(rèn)知架構(gòu)。
注:本文為PPT+講稿形態(tài),建議采用計(jì)算機(jī)而非手機(jī)顯示觀看,講稿位于所解釋的PPT的上方,此外由于講稿一部分是口述,有不夠嚴(yán)謹(jǐn)之處敬請(qǐng)諒解。
那我們開(kāi)始吧~
人腦中實(shí)際包括了兩個(gè)系統(tǒng)。其中系統(tǒng)一是快速、自動(dòng)地、無(wú)意識(shí)地對(duì)輸入進(jìn)行響應(yīng)的一個(gè)系統(tǒng)。而系統(tǒng)二是較為慢速的、有意識(shí)的、邏輯上的、有很多的思維步驟的一個(gè)系統(tǒng)。我們認(rèn)為認(rèn)知主要基于系統(tǒng)二進(jìn)行。
這樣的認(rèn)知系統(tǒng)能夠?qū)崿F(xiàn)的認(rèn)知功能包括通過(guò)知識(shí)去解答問(wèn)題,記住它的歷史經(jīng)歷,通過(guò)嘗試和歸納來(lái)進(jìn)行學(xué)習(xí),執(zhí)行多步的復(fù)雜任務(wù),以及推理復(fù)雜的問(wèn)題等等。
我們可以認(rèn)為第一代人工智能主要以知識(shí)驅(qū)動(dòng)為主,需要編寫(xiě)符號(hào)系統(tǒng)和大量的人工規(guī)則。第二代人工智能系統(tǒng)以數(shù)據(jù)驅(qū)動(dòng)為主,通常需要海量的數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò),從而實(shí)現(xiàn)對(duì)客觀現(xiàn)實(shí)世界的有效處理。我們需要構(gòu)建的第三代人工智能應(yīng)該是知識(shí)和數(shù)據(jù)的深度融合來(lái)驅(qū)動(dòng)的,它具有著表征學(xué)習(xí)亞符號(hào)空間模型進(jìn)行處理的特點(diǎn)??梢越邮苤R(shí),也具有著可解釋性和高可靠性。其特點(diǎn)是在認(rèn)知系統(tǒng)中具有著知識(shí)庫(kù)和邏輯推理的過(guò)程。
我們具體的介紹這兩個(gè)概念,認(rèn)知過(guò)程指的是基于擬達(dá)到的目標(biāo)進(jìn)行的,有意識(shí)的,有邏輯思考過(guò)程的,同時(shí)也可以借助歷史經(jīng)驗(yàn)和記憶的這樣一個(gè)推理過(guò)程和決策過(guò)程。實(shí)現(xiàn)認(rèn)知過(guò)程的結(jié)構(gòu)我們就稱為認(rèn)知架構(gòu)。
在認(rèn)知上,我們主要解決兩大科學(xué)問(wèn)題,首先是認(rèn)知架構(gòu)的組成結(jié)構(gòu)及運(yùn)作機(jī)理問(wèn)題,包括頂層框架的組成結(jié)構(gòu),認(rèn)知行為的運(yùn)作過(guò)程,這是一靜一動(dòng)。此外還有知識(shí)存儲(chǔ)的形態(tài)。第二個(gè)科學(xué)問(wèn)題,是適用于非結(jié)構(gòu)化數(shù)據(jù)處理的認(rèn)知架構(gòu)和構(gòu)建原理問(wèn)題。尤其是大語(yǔ)言模型為基礎(chǔ)的認(rèn)知能力及表達(dá)方式,以及第二類,基于元技能模型為基礎(chǔ)的認(rèn)知系統(tǒng)的構(gòu)建。其又包括事物及中間思考結(jié)果的表征模式問(wèn)題,即變量表征,以及元技能的統(tǒng)一表征模式,即函數(shù)表征。
認(rèn)知架構(gòu)的頂層結(jié)構(gòu)如這三個(gè)圖所描述。其中右下角這個(gè)圖是2013年AAAI論壇上總結(jié)出來(lái)的一個(gè)最基礎(chǔ)的頂層的認(rèn)知架構(gòu)。
其包括Working Memory 即工作記憶以及感知執(zhí)行這兩個(gè)輸入輸出的處理模塊。此外還具有Long Term Memory,即長(zhǎng)程記憶,包括過(guò)程記憶和聲明式記憶。我們以SOAR和ACT-R兩個(gè)最著名的認(rèn)知架構(gòu)為例。它們對(duì)這個(gè)基礎(chǔ)結(jié)構(gòu)又進(jìn)行了細(xì)化。例如SOAR中Long Term Memory進(jìn)一步規(guī)劃出過(guò)程、語(yǔ)義、情境記憶三種。
此外這三種具有各自的Learning方式。另外SOAR的決策過(guò)程是通過(guò)Decision Procedural模塊,通過(guò)一系列的決策組成的序列來(lái)進(jìn)行的。ACT-R將認(rèn)知的主要過(guò)程Matching Selection和Execution,即策略的匹配選擇和執(zhí)行過(guò)程顯式的表達(dá)了出來(lái)。此外它也具有若干Buffer,類似于Working Memory,在此為基礎(chǔ)也具有長(zhǎng)期的一些記憶體以及視覺(jué)和執(zhí)行模塊。上述部分是講述的認(rèn)知架構(gòu)的靜態(tài)頂層結(jié)構(gòu)。
下面介紹認(rèn)知行為的動(dòng)態(tài)運(yùn)作過(guò)程。這里邊以ACT-R和SOAR的文字和圖的對(duì)比,我們可以得到這兩個(gè)框架的頂層運(yùn)作過(guò)程是極為類似的。其主要過(guò)程包括從現(xiàn)實(shí)世界獲取感知到的數(shù)據(jù),之后進(jìn)行Operator或者說(shuō)策略的一個(gè)搜索和排序。之后選出最有競(jìng)爭(zhēng)力的一個(gè)算子或者策略,最后應(yīng)用這個(gè)算子得到輸出,這個(gè)輸出可以是內(nèi)部的也可以是輸出給客觀世界的。
在記憶結(jié)構(gòu)上,主要包括如下幾種記憶類型,首先具有Working Memory,它是當(dāng)前狀態(tài),例如傳感數(shù)據(jù)中間計(jì)算結(jié)果的一些存儲(chǔ)。第二類是過(guò)程記憶,它是長(zhǎng)程的無(wú)意識(shí)記憶的一個(gè)存儲(chǔ)體。第三類是顯示的聲明式記憶,包括語(yǔ)義記憶和情境記憶。語(yǔ)義記憶主要是一些事實(shí)和概念知識(shí),而情境記憶主要是智能體的歷史經(jīng)驗(yàn)的一個(gè)回憶。
對(duì)于上述概念,我們可以找到如下的一些人工記憶模型。例如經(jīng)典的知識(shí)圖譜三元組模型,以Neo4j的知識(shí)圖譜作為典型案例。其次除本地的存儲(chǔ)形態(tài)外,OpenCog認(rèn)為還具有Global Memory的一種隱存儲(chǔ)結(jié)構(gòu),即通過(guò)多個(gè)節(jié)點(diǎn)和所組成的一個(gè)子圖,構(gòu)成的一種隱記憶,與本地的類似三元組的記憶共同存在,即Global Local Memory。
這些是語(yǔ)義記憶的一些例子,是一些傳統(tǒng)的方案。近些年來(lái)隨著Transformer及大語(yǔ)言模型上的進(jìn)展,Transformer也被認(rèn)為具有著很強(qiáng)的語(yǔ)義記憶和陳述性記憶,尤其是常識(shí)記憶的能力,它可以記住很多知識(shí),這些知識(shí)是隱私地記錄在網(wǎng)絡(luò)中的。
尤其是記錄在Feed Forward Network中的。另外Deep Reinforcement Learning的神經(jīng)網(wǎng)絡(luò)更像過(guò)程性記憶或類似小腦記憶的一種形態(tài),它是不可解釋不可描述的,但是可以執(zhí)行并影響客觀環(huán)境。此外Memory Augmented Neural Network可以認(rèn)為是工作記憶或者陳述性記憶的一種實(shí)現(xiàn)方式。
傳統(tǒng)認(rèn)知架構(gòu)上面已經(jīng)介紹了,但具有一些問(wèn)題:首先是感知上的不夠靈活,使得只能處理無(wú)噪聲的結(jié)構(gòu)化數(shù)據(jù)。其次規(guī)則不夠靈活,多半是以確定性的符號(hào)和邏輯來(lái)執(zhí)行的?,F(xiàn)在的演進(jìn)方式需要在不顯式符號(hào)化表達(dá)的次符號(hào)空間進(jìn)行處理。同時(shí)利用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)進(jìn)行模糊式的非結(jié)構(gòu)化的處理能力。
這樣一個(gè)能力首先需要通過(guò)傳感和特征抽取模塊將真實(shí)世界的信息降維,抽取成表征信息,也就是feature。如上一章介紹的CLIP和VILD的工作。之后運(yùn)用working memory進(jìn)行存儲(chǔ)。并通過(guò)相應(yīng)的rule的激活選擇和執(zhí)行過(guò)程。、實(shí)現(xiàn)基于次符號(hào)空間的認(rèn)知架構(gòu)形態(tài)。我們可以發(fā)現(xiàn)人腦中的單詞也是固定的記憶在某些位置的,這跟feature的人工存儲(chǔ)形態(tài)類似。
傳統(tǒng)認(rèn)知架構(gòu)當(dāng)前發(fā)展成為了兩類新型架構(gòu),一類是神經(jīng)網(wǎng)絡(luò)輔助的元技能的認(rèn)知架構(gòu)。另一類可以認(rèn)為是顛覆性的基于大模型的端到端訓(xùn)練形成的技術(shù)。
下面我們介紹基于元技能與過(guò)程變量的這種實(shí)現(xiàn)形態(tài)。它的一個(gè)基礎(chǔ)特點(diǎn)就是這個(gè)架構(gòu)是比較可解釋的,有微觀特性的一個(gè)結(jié)構(gòu),而不像transformer只有宏觀特性,另外架構(gòu)里邊所需要做的事情是對(duì)元技能的一個(gè)組織管理和選擇的過(guò)程,跟傳統(tǒng)認(rèn)知架構(gòu)是一樣的。
首先先介紹這個(gè)元技能本身,它有幾大特性,一個(gè)是快速習(xí)得性,即可以被單次經(jīng)歷或者傳授來(lái)獲取或者更新,
第二是具有抽象性,可獨(dú)立于客觀物體和具體的環(huán)境,
第三是可以遷移到新的環(huán)境,
第四個(gè)是它可以組合工作,完成復(fù)雜的邏輯思考過(guò)程和復(fù)雜時(shí)序行為,
第五是基于元技能得組合可以實(shí)現(xiàn)一個(gè)塊,也就是宏技能,這樣一次就可以執(zhí)行一個(gè)整體,熟能生巧,這個(gè)宏技能經(jīng)過(guò)反復(fù)使用之后也可以化作新的元技能。
元技能的輸出是以過(guò)程變量作為表達(dá)的,過(guò)程變量首先可以作為上一個(gè)元技能的輸出,并且連接下一個(gè)元技能,作為中間變量使用,其次它具有特征空間表達(dá),是一個(gè)sub-symbolic的表達(dá)形態(tài)。
下面介紹認(rèn)知架構(gòu)核心組件之間的關(guān)系,元技能的選擇模塊,可以從元技能的存儲(chǔ)單元中選擇相應(yīng)的技能;過(guò)程變量的選擇,可以從過(guò)程變量存儲(chǔ)單元中的選擇相應(yīng)的中間思考結(jié)果變量,元技能執(zhí)行是核心,它用選擇到的元技能去處理過(guò)程變量,元技能執(zhí)行的結(jié)果會(huì)存儲(chǔ)到過(guò)程變量存儲(chǔ)單元,之后通過(guò)選擇到的新的再繼續(xù)執(zhí)行,這樣的一個(gè)回環(huán)的循環(huán)邏輯。感知和對(duì)外行為兩個(gè)基礎(chǔ)塊實(shí)現(xiàn)對(duì)環(huán)境的輸入輸出。
下面我們介紹幾個(gè)典型例子,包括Neural Production System,它是基于神經(jīng)網(wǎng)絡(luò)的認(rèn)知架構(gòu)的一個(gè)典型案例,可形成多步的推理和規(guī)劃,類似于人的認(rèn)知邏輯過(guò)程。具體的講,它首先實(shí)現(xiàn)的是一個(gè)多拍,每一拍多步的邏輯推理,在這個(gè)邏輯推理的每一步里,首先先選擇元技能,通過(guò)注意力機(jī)制,R就是選擇到這個(gè)技能,之后選擇主過(guò)程變量,那么P就是變量,之后類似的選出第二過(guò)程變量c,之后,采用MLP網(wǎng)絡(luò)作為技能的實(shí)現(xiàn)體,將過(guò)程變量通過(guò)技能進(jìn)行更新,實(shí)現(xiàn)更新后的過(guò)程變量改變值R,并把R用于更新這個(gè)過(guò)程變量V,執(zhí)行這個(gè)主過(guò)程變量的更新。
另外一個(gè)例子是Unification Network,這個(gè)Network實(shí)現(xiàn)了概念的抽象化,符號(hào)化,用抽象的語(yǔ)義去解決問(wèn)題的能力。如右圖中的例子,這個(gè)任務(wù)的目標(biāo)是把這個(gè)7和4里面的第一個(gè)數(shù),替換成后面這個(gè)序列里面的第一個(gè)數(shù),最后變成3和4。其中的數(shù)字7,具有兩種語(yǔ)義,
首先它具有著數(shù)字語(yǔ)義7的意思,同時(shí)它還有著一個(gè)語(yǔ)義是它這個(gè)序列里面的第一個(gè)數(shù)字這個(gè)位置的語(yǔ)義,那么如果我們只利用了它這個(gè)7的數(shù)字語(yǔ)義就沒(méi)有辦法完成這個(gè)任務(wù),那么做這個(gè)事兒的時(shí)候,我們需要提取的是這個(gè)7的另一個(gè)語(yǔ)義,也就是語(yǔ)義特性,
我們希望的是利用這個(gè)語(yǔ)義的相近性來(lái)實(shí)現(xiàn)把這個(gè)3替換掉這個(gè)7,因此首先先抽取出來(lái)表征距離和語(yǔ)義距離,以及這個(gè)新序列里面的表征距離和語(yǔ)義距離,之后去計(jì)算語(yǔ)義上的相似度,也就是位置上的相似度,那么如果度量成功,就是7跟3的語(yǔ)義比較接近,7跟9不接近,就作為一個(gè)相似度的度量去取一部分的表征距離,
然后用這個(gè)表征距離去替換一部分的屬性,也就是說(shuō)把這個(gè)3取出來(lái)它的特征,然后替掉這個(gè)7,那么也就是說(shuō)讓用一部分H替換掉A特征,那么實(shí)現(xiàn)這個(gè)U,采用U實(shí)現(xiàn)最后的網(wǎng)絡(luò)推理,
這樣的一個(gè)做法就實(shí)現(xiàn)了lifting,即提升了語(yǔ)義,在語(yǔ)義空間上進(jìn)行操作,從而實(shí)現(xiàn)了概念的一致化,就像我們通常說(shuō)的,張三做了一個(gè)什么什么什么事,那么把這個(gè)張三換成李四,仍然這個(gè)事這個(gè)做法是成立的,因此這個(gè)張三只是個(gè)代號(hào),并不是非要是張三,那用這種方法就可以把這個(gè)代號(hào)給抽象成一個(gè)真正的代號(hào),而不是放在具體的環(huán)境中的一個(gè)東西。
最后舉一個(gè)融合了神經(jīng)網(wǎng)絡(luò)和符號(hào)推理的融合框架,DeepProbLog,這個(gè)框架基于這個(gè)ProbLog搭建,因此它的整體上是一個(gè)統(tǒng)計(jì)邏輯編程的框架,在這個(gè)基礎(chǔ)上實(shí)現(xiàn)了對(duì)部分步驟的神經(jīng)網(wǎng)絡(luò)化,比如在某些步驟上通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,而整體上還是遵循統(tǒng)計(jì)邏輯編程,即概率推理的鏈條,并且由于整體上也是一個(gè)概率邏輯,
因此反向的這個(gè)誤差信息也可以用于訓(xùn)練這個(gè)神經(jīng)網(wǎng)絡(luò),它可以實(shí)現(xiàn)的一定的泛化性,例如說(shuō)照片3和照片5的加法,可以計(jì)算出8,如果只是用純神經(jīng)網(wǎng)絡(luò)去做,它可能會(huì)算不準(zhǔn),但是由于這個(gè)網(wǎng)絡(luò)只做了一部分工作,相當(dāng)于把3轉(zhuǎn)換成了數(shù)字的3,因此這個(gè)3和5到8的操作是基于符號(hào)邏輯處理的,是精確的,這是一個(gè)特點(diǎn),
另外由于后面這個(gè)addition是一個(gè)symbolic的處理過(guò)程,它還可以泛化到使用類似邏輯的任務(wù),假如說(shuō)我們知道兩位數(shù)的加法邏輯,那就可以把它泛化到兩位數(shù)的加法,因此呢,即使有這樣一個(gè)38加25的形態(tài),它也依舊可以處理,也就是說(shuō)把這個(gè)神經(jīng)網(wǎng)絡(luò)嵌入到了整個(gè)符號(hào)處理框架,實(shí)現(xiàn)了一個(gè)協(xié)同工作的機(jī)制,并且也幫助了符號(hào)處理系統(tǒng),實(shí)現(xiàn)了對(duì)有噪的現(xiàn)實(shí)世界的一個(gè)處理能力。
那么在當(dāng)前認(rèn)知架構(gòu)的現(xiàn)狀方面,我們進(jìn)行了一些概括。首先,傳統(tǒng)認(rèn)知框架具有較好的框架結(jié)構(gòu),但大多還很難處理現(xiàn)實(shí)世界的復(fù)雜問(wèn)題;其次基于神經(jīng)網(wǎng)絡(luò)進(jìn)行認(rèn)知架構(gòu)的改進(jìn)提升了在現(xiàn)實(shí)任務(wù)中進(jìn)行邏輯推理及規(guī)劃的能力,如NPS/Unification Network,但目前只能解決較為簡(jiǎn)單的任務(wù);第三,知識(shí)-數(shù)據(jù)雙驅(qū)動(dòng)(以NeSy代表),Neural ILP仍處于原始階段,但機(jī)制通用性不足。因此,我們可以這樣理解,認(rèn)知架構(gòu)是一種頂層設(shè)計(jì)思維,告訴我們需要做什么才是完整的類人腦功能結(jié)構(gòu),但目前,我們還需要更強(qiáng)有力的各個(gè)組件進(jìn)行支撐,才能讓這個(gè)框架變得更有價(jià)值,更通用。下面將介紹基于大模型的認(rèn)知技術(shù)進(jìn)展。
本期分享就到這里,對(duì)認(rèn)知架構(gòu)的更權(quán)威綜述還可以參考'40 years of cognitive architectures: core cognitive abilities and practical applications'. Artificial Intelligence Review 53.1 (2020): 17-94. 對(duì)典型的一個(gè)認(rèn)知架構(gòu)的具體實(shí)現(xiàn)感興趣的可以看看目前較為活躍的OpenCog(https://opencog.org/)。下期我們將關(guān)注基于大模型的認(rèn)知技術(shù)。
聯(lián)系客服