劉江老師曾是美團(tuán)技術(shù)學(xué)院的院長,是美團(tuán)技術(shù)同學(xué)的老朋友了。他之前也是北京智源人工智能研究院的副院長。智源研究院2018年成立,從一開始就是對(duì)標(biāo)OpenAI的,所以他跟蹤研究OpenAI和ChatGPT已經(jīng)好幾年了。
(合影)近期,劉江老師在大咖沙龍里作了題為《ChatGPT技術(shù)發(fā)展及未來展望》的分享。本次沙龍由美團(tuán)離職員工社群三塊錢(ID:exmeituaner)主辦。以下摘錄了劉江老師此次分享的大部分內(nèi)容。
今天很高興和大家交流我自己學(xué)習(xí)ChatGPT的一些心得?,F(xiàn)在大家對(duì)ChatGPT都是盲人摸象,很難看到全貌,我今天分享的也是一家之言,可能很多地方說的都不對(duì),僅供大家參考。
(茶歇由本來生活李敏同學(xué)贊助)
先說一個(gè)判斷,我認(rèn)為ChatGPT尤其是這幾天GPT4,可能是我們有生之年見到的最具革命性的通用技術(shù)創(chuàng)新,它預(yù)示著智能革命的開始,所帶來的產(chǎn)業(yè)機(jī)遇和挑戰(zhàn)都將是極其巨大的。人類歷史上可能只有工業(yè)革命能與之相提并論:
-工業(yè)革命實(shí)現(xiàn)了大多數(shù)人從農(nóng)業(yè)到工業(yè)的轉(zhuǎn)變;
-智能革命將實(shí)現(xiàn)大多數(shù)人從勞動(dòng)者到消費(fèi)者、自我興趣探索者的轉(zhuǎn)變。
因?yàn)樽兓?,它的底層邏輯并不容易看懂?/span>
我建議同學(xué)們首先都要去使用它,才能逐步理解它,然后大家一起多交流,才能打破盲人摸象的問題。這也是我和幾位專家一起在圖靈建了共學(xué)營的初衷。
然后更重要的是,我們所有人都要退后一步,打破所有習(xí)以為常的假設(shè),重新思考和評(píng)估一切。
(自由交流環(huán)節(jié))
ChatGPT到底是什么?應(yīng)該怎么理解?
下面我會(huì)從三個(gè)角度來分析。首先我們來看ChatGPT里的Chat。
(分享中的劉江老師)
第一個(gè)角度:Chat=下一代自然交互界面和主要入口
我有一些從事AI科研的朋友,他們的專業(yè)水平其實(shí)很好,但對(duì)ChatGPT進(jìn)行一番研究(往往是不太充分的研究)后的反應(yīng)是:ChatGPT好像沒有太大的技術(shù)創(chuàng)新啊?不就是把模型搞大了,參數(shù)更多嘛?用的基礎(chǔ)技術(shù)都是之前別人搞的嘛。其實(shí)也不是他們這么說,連深度學(xué)習(xí)三巨頭之一、圖靈獎(jiǎng)得主Yann Lecun也是這樣講的。
他們可能沒有意識(shí)到,其實(shí)ChatGPT僅僅在交互上的創(chuàng)新就會(huì)對(duì)產(chǎn)業(yè)格局乃至社會(huì)產(chǎn)生巨大影響。這也是我對(duì)過去幾十年信息技術(shù)行業(yè)最重要的觀察:價(jià)值最大的技術(shù),往往都改變了大眾交互方式。
我們來回顧一下人類和機(jī)器交互的歷史。
其實(shí)在最早的人機(jī)交互可能是手動(dòng)開關(guān)和打孔機(jī)。后來產(chǎn)生了一個(gè)里程碑式的交互進(jìn)步:
第一代交互方式:CLI命令行界面(Command-Line Interface)
人們開始可以通過鍵盤、命令、顯示器與機(jī)器進(jìn)行交流。但這必須是受過訓(xùn)練的技術(shù)人員才能完成的,需要記憶很多命令和選項(xiàng),對(duì)普通人門檻很高。
于是后來,更易用的交互方式誕生了:
第二代交互方式:GUI圖形用戶界面(Graphic User Interface)
到目前為止,我們大多是用的還是GUI,比如Windows、Mac電腦或蘋果、安卓手機(jī),我們通過屏幕上的窗口、菜單、圖標(biāo)等等,用鼠標(biāo)、手指、動(dòng)作與之互動(dòng),完成與機(jī)器的交流,普通用戶稍加學(xué)習(xí)都能操作。這個(gè)發(fā)明實(shí)際上是目前仍然市值最高的兩家IT公司——蘋果和微軟的基礎(chǔ),喬布斯和蓋茨先后從施樂公司的PARC研究院偷師,學(xué)到了這項(xiàng)技術(shù)。
但這還是有一定門檻的,還是得學(xué)。尤其輸入法就是個(gè)很大的障礙。很多老人和不識(shí)字的小孩子就不容易學(xué)會(huì)。輸入法沒問題的用戶,使用軟件的時(shí)候,還是要在各種菜單里尋找自己需要的功能,設(shè)計(jì)畫圖類的工作,還要通過鼠標(biāo)或者觸摸,一點(diǎn)一點(diǎn)的拖啊拽啊改啊,非常低效。
但今天ChatGPT普及之后,將使我們進(jìn)入新一代交互方式:
第三代交互方式:NUI自然用戶界面(Natural User Interface)
我們?nèi)酥g每天互相交流就是通過聽和說,這就是自然用戶界面。自然界面是人人生來都會(huì)的,不用學(xué),是因?yàn)樗緛砭褪俏覀兓?dòng)的方式。
雖然ChatGPT現(xiàn)在還主要是靠打字,但只是過渡。因?yàn)樗裁炊悸牭枚拥米?,是天生?yīng)該通過語音來使用的。我相信很快OpenAI推出的獨(dú)立ChatGPT App,會(huì)支持語音。
我這么講了以后,大家意識(shí)到為什么有些敏感的觀察家會(huì)說ChatGPT將殺死搜索引擎了嗎?對(duì),搜索引擎還是第一代交互方式——命令行界面,是上古時(shí)期的用戶體驗(yàn)。基于語音的自然界面,對(duì)它是一種跨代、降維打擊。未來,ChatGPT也很容易多媒體化,會(huì)支持圖片、視頻、音頻,這些方面的研發(fā)都已經(jīng)在最先進(jìn)的實(shí)驗(yàn)室里(比如OpenAI和智源)如火如荼的進(jìn)行中了,而且進(jìn)展很快。
最終,與之匹配的智能設(shè)備會(huì)是什么?之前小扎(指扎克伯格,Meta創(chuàng)始人)認(rèn)為是VR,現(xiàn)在看不太像,他自己也承認(rèn)現(xiàn)在AI更重要了。
我覺得AR眼鏡(能看能聽的)最有可能成為取代手機(jī)的主流計(jì)算設(shè)備,當(dāng)然愛美的女同學(xué)可以戴隱形眼鏡。我戴著眼鏡進(jìn)來會(huì)場一掃,哦,這是我的老朋友張義,這是三塊錢搞的活動(dòng),每個(gè)同學(xué)他都能認(rèn)出來,而且記住。它也能記錄所有我說的和我聽到的話,我看到的事情。第一人稱視角,跟鋼鐵俠里面的賈維斯一樣。這樣系統(tǒng)會(huì)和我是一樣的體驗(yàn),獲取我接受的所有數(shù)據(jù),它作為一個(gè)個(gè)人助理,會(huì)最懂我,也能給我最貼近需求的服務(wù)。
最懂我們的數(shù)字助理將成為我們獲取信息的主要入口。那個(gè)時(shí)候,手機(jī)就消失了,App可能也都不需要了。要知道,現(xiàn)在的科技巨頭大多是手機(jī)和App公司。所以這里的顛覆是巨大的。
我們?cè)賮砜碈hatGPT里的GPT。
第二個(gè)角度:GPT=通用智能大模型AGI
ChatGPT到底是什么?中國投資圈喜歡說AIGC(AI生成內(nèi)容, AI Generated Content),國外喜歡說GAI(生成式AI,Generative AI),其實(shí)這些表述都有一定的誤導(dǎo)性。正確的表述應(yīng)該是AGI(Artificial General Intelligence)或者通用人工智能大模型。
OpenAI從一開始就是要做AGI的,因此他們CEO之前在Twitter上對(duì)Generative AI這個(gè)詞大行其道表示過不滿。
為什么呢?AGI或者說通用人工智能,是指人工智能系統(tǒng)能夠干普通人能做的任何事情,并不只是生成。GPT的大思路其實(shí)是認(rèn)為人類智能各種表現(xiàn),本質(zhì)上都是通過生成完成的,都是根據(jù)已有的一些信息,產(chǎn)生下一個(gè)詞、再下一個(gè)詞。比如我們所謂的理解,其實(shí)是收到一些信息后,生成一段自己的話,表示類似的意思。仔細(xì)想想,情感、意識(shí)、自動(dòng)駕駛,其實(shí)也是這樣,我們之前認(rèn)為的很神奇的人的行為,這么看,也并不是那么神奇。
稱GPT這樣的技術(shù)為AIGC或者生成式人工智能,把這個(gè)大思路想小了。
這部分其實(shí)挺技術(shù)的,我來試著帶大家理解其中最重要的思想脈絡(luò)。
1. ChatGPT背后的大腦——GPT
僅僅有語音為主的自然用戶界面是不夠的,因?yàn)橹癝iri、Alexa和小度之類的語音應(yīng)用也火了一陣,但慢慢就沒有太多人用了。
ChatGPT只是冰山一角,本身看上去似乎只是個(gè)交互界面。而且根據(jù)《紐約時(shí)報(bào)》報(bào)道,這個(gè)轟動(dòng)世界的交互界面,是一個(gè)因?yàn)橛懈偁帲瑘F(tuán)隊(duì)停下手中的活,用了13天臨時(shí)趕出來的一個(gè)產(chǎn)品。
它真正強(qiáng)大的,是底下巨大的通用人工智能模型——GPT(最新的版本是GPT-4了)。
什么叫模型呢?可以比較粗略地理解為一個(gè)函數(shù)。
比如我們?cè)谥袑W(xué)都學(xué)過的函數(shù):y=ax+b,也可以叫它模型,這個(gè)模型只有兩個(gè)參數(shù):a和b。
GPT-4的參數(shù)量沒有公布,但GPT-3的參數(shù)已經(jīng)高達(dá)1750億……大家想象一下,這該是多么復(fù)雜的函數(shù),參數(shù)多到人已經(jīng)無法理解也無法解釋了。
為什么要把參數(shù)搞這么大呢?簡單地說,就是因?yàn)樽匀唤缱盥斆鞯臋C(jī)器——人腦也是這樣的。
我們知道,人腦主要是由神經(jīng)元細(xì)胞組成的,一個(gè)神經(jīng)元大概長成這樣:
除了綠色的細(xì)胞核部分,左邊很多樹枝似的叫樹突,負(fù)責(zé)接收其他神經(jīng)元的信號(hào),右邊長長的叫軸突,負(fù)責(zé)輸出信號(hào)給其他神經(jīng)元。這些突起之間通過突觸傳遞信息。人腦大約有1000億左右這樣的神經(jīng)元,100萬億個(gè)突觸。就是這么簡單的結(jié)構(gòu),一旦它們形成了一個(gè)復(fù)雜網(wǎng)絡(luò),就使我們每個(gè)人變得這么聰明,能學(xué)會(huì)很多東西,能產(chǎn)生感情,能思考,有自我意識(shí),還能彼此合作……
現(xiàn)在最先進(jìn)的人工智能系統(tǒng)(以ChatGPT和GPT-4為代表)和人腦類似,也是由許多人工神經(jīng)元組成的。人工智能模擬人類的神經(jīng)元,抽象成數(shù)學(xué)表達(dá),就是下面這張圖。有x輸入(變量),w神經(jīng)(參數(shù)),b神經(jīng)元,a輸出(輸出也可以很多個(gè))。大家看,是不是很像上面的大腦里的神經(jīng)元?
先進(jìn)的人工智能系統(tǒng)也是用很多很多這樣簡單的人工神經(jīng)元組成的,當(dāng)然里面細(xì)節(jié)非常多,有很高深的數(shù)學(xué)和計(jì)算機(jī)知識(shí)。
具體長什么樣呢?ChatGPT和GPT-4都沒有論文,找不到很直觀的比較詳細(xì)的架構(gòu)圖。我們用2012年的ResNet的圖來感受一下。ResNet有152層,幾十萬神經(jīng)元,總參數(shù)是6000多萬。
這個(gè)分層示意圖上的數(shù)字表示這一層上神經(jīng)元的數(shù)量,比如最右邊的1000、2048等。有些層上的數(shù)字比較小,需要將數(shù)字相乘,所以有些層神經(jīng)元是上萬的。
大家不要小看ResNet,這是我們中國人在這十幾年人工智能領(lǐng)域最高成就,也是全世界都認(rèn)可的,論文引用數(shù)已經(jīng)接近16萬了,非常恐怖的數(shù)字。2012年,當(dāng)時(shí)在微軟亞洲研究院的孫劍老師(去年不幸英年早逝,非常非常可惜)帶著何愷明、張祥雨、任少卿一起,通過ResNet,第一次將計(jì)算機(jī)視覺的水平提升到超過了人類。
而2020年,第一個(gè)大模型GPT-3誕生,最近GPT-4出來,把語言甚至某種意義上把通用智能都攻克了。
GPT-3有幾十億個(gè)神經(jīng)元,一共有1750億個(gè)參數(shù)。參數(shù)和人腦的突觸是對(duì)應(yīng)的,所以GPT-3大致相當(dāng)于人類大腦的千分之一水平。GPT-4的參數(shù)量沒有公布,但從OpenAI負(fù)責(zé)人在此前采訪的口氣來看,很可能沒有數(shù)量級(jí)的提升,更多是在原來規(guī)模上優(yōu)化。
這是因?yàn)椋|規(guī)模的大模型,潛力仍然還沒有挖盡。那什么叫大模型呢?
2. 小模型與大模型
大家可能不知道,原來搞AI的專業(yè)工作者其實(shí)分工非常細(xì)的。甚至早幾年大家一般不說我是搞人工智能的,而會(huì)說我是搞NLP(語言)、視覺、語音、機(jī)器學(xué)習(xí)的,比較新的結(jié)合商業(yè)需求又出來推薦系統(tǒng)、廣告、調(diào)度、自動(dòng)駕駛等等。而且往往還能分得更細(xì),比如語言里有機(jī)器翻譯、閱讀理解、問答、文字生成……,就好像語文考試?yán)锩娴牟煌}型,每種題型就是一門學(xué)科。
為什么分得這么細(xì),因?yàn)榫唧w做法都不太一樣。簡單地說,大家都在訓(xùn)練各種小的專用模型,而且模型規(guī)模都不大,幾千萬、幾億參數(shù)就了不起了。所以從現(xiàn)在來看都是小模型。
而大模型呢?GPT全名叫Generative PreTraining(中文意為生成式預(yù)訓(xùn)練,這是OpenAI自己的稱法,而不是媒體更喜歡說的Generative Pretrained Transformer,那是Google的BERT論文里搞錯(cuò)了,才這么叫開的)。
第一代GPT是2018年6月發(fā)布的,參數(shù)量是1.17億。
2019年2月升級(jí)為GPT-2,和同代Google搞的BERT都是10億級(jí)參數(shù)的模型。
而2020年5月,GPT-3一下子干到了1000億這級(jí)別上,提升了兩個(gè)數(shù)量級(jí)。這是人類歷史上第一個(gè)這么大規(guī)模的人工神經(jīng)網(wǎng)絡(luò),也就是現(xiàn)在已經(jīng)比較常見的“大模型”。
此外,還在網(wǎng)頁(WebGPT)、圖片(ImageGPT、DALL·E)、代碼(CodeX)、音樂(Jukebox)、語音(Whisper)等方面也做了很多工作。
GPT系列論文的思路非常一致,就是盡量選擇簡單的架構(gòu),用更多高質(zhì)量的數(shù)據(jù)、更多的算力訓(xùn)練出更大規(guī)模的模型,而且各個(gè)環(huán)節(jié)盡量減少人工干預(yù)。目的只有一個(gè),模型能像人腦一樣,更加通用,完成各種任務(wù)。到了GPT-3這個(gè)千億模型,這個(gè)想法基本上實(shí)現(xiàn)了。
而現(xiàn)在ChatGPT、GPT-4這種更新的大模型出來,效果更是驚人,AI似乎什么語言任務(wù)都會(huì)了,而且理解和生成能力都特別強(qiáng)。GPT-4在主要人類識(shí)別人才的許多考試都能考到優(yōu)等生的水平。
大模型為什么這么神奇?首先是我們前面講到的,它和人類大腦的原理類似。更有意思的是,研究發(fā)現(xiàn),大模型和小模型相比,真的有一些突變。
3. 大模型的突現(xiàn)能力
GPT-3和其他大模match型出現(xiàn)后,研究人員對(duì)比之前的小模型,發(fā)現(xiàn)有神奇的事情發(fā)生了,大模型突現(xiàn)出一些此前從未出現(xiàn)過的能力。
比如你讓它做一個(gè)復(fù)雜的數(shù)學(xué)題,一開始它會(huì)給出一個(gè)錯(cuò)誤答案。然后你可以說:錯(cuò)了,再仔細(xì)想想、一步一步來。咦,你發(fā)現(xiàn)它馬上就改成按步驟來算,就算對(duì)了。這種能力驕傲思維鏈。
有研究人員總結(jié)出100多種這類能力。請(qǐng)注意,在10億以及小幾百億參數(shù)的小模型里,是沒有這種能力的,只有大幾百億的大模型才會(huì)出現(xiàn)。
所以,大模型真的有點(diǎn)像動(dòng)物進(jìn)化,我們知道魚會(huì)游泳,鳥會(huì)游泳,狗的嗅覺很靈,獵豹跑得很快超級(jí)敏捷,但它們的大腦是沒那么聰明的,遠(yuǎn)不如靈長類。這就是小模型和大模型的區(qū)別。神經(jīng)元的數(shù)量還是極其關(guān)鍵的。
第三個(gè)角度:ChatGPT=AI時(shí)代的操作系統(tǒng)
如果說前兩個(gè)角度分別是從用戶和技術(shù)角度來看ChatGPT的話,我們接下來要從產(chǎn)業(yè)角度進(jìn)行分析。
大家都知道之前信息產(chǎn)業(yè)最核心的部分一直是操作系統(tǒng),PC時(shí)代是Windows,移動(dòng)時(shí)代是iOS和Android。而且操作系統(tǒng)天然具有壟斷性。芯片也很重要,但芯片相對(duì)被動(dòng),這也是為什么移動(dòng)時(shí)代并沒有出現(xiàn)統(tǒng)治性芯片公司的原因。
ChatGPT加上大模型不僅提供了交互界面,還提供了通用能力。而界面+通用能力,就構(gòu)成了操作系統(tǒng)。
操作系統(tǒng)意味著什么?它不僅提供用戶入口,而且所有的計(jì)算資源都是由它來管理。更可怕的是:過去的操作系統(tǒng)還不是智能的,ChatGPT是智能的操作系統(tǒng),它會(huì)越變?cè)綇?qiáng),可能具有終極性。
ChatGPT將是AI時(shí)代的操作系統(tǒng),影響非常巨大。
我們中國是沒有干成過操作系統(tǒng)的,操作系統(tǒng)一直在美國人手里。這一波如果不趕上,將錯(cuò)失AI時(shí)代操作系統(tǒng)。ChatGPT已經(jīng)明確不對(duì)中國開放,未來再這樣發(fā)展五年、十年,我們有可能成為一個(gè)相對(duì)低智能的社會(huì)。
在科學(xué)史上也有GPT這么一個(gè)縮寫,正好是另一個(gè)解釋:General Purpose Technology,也就是通用技術(shù)。比如電力、蒸汽機(jī)、電腦、互聯(lián)網(wǎng)……它們都是通用技術(shù)。它們的出現(xiàn)影響了各行各業(yè),本身還能持續(xù)改進(jìn),會(huì)發(fā)展出更多與之匹配的互補(bǔ)性技術(shù),引發(fā)連鎖創(chuàng)新。
我們都知道之前的通用技術(shù)帶來了怎樣的巨大影響。
機(jī)遇和挑戰(zhàn)同在,我希望中國更多的有識(shí)之士、有能力的人,投身于這個(gè)方向,擁抱新時(shí)代。
場地合作| 氪空間學(xué)院8號(hào)創(chuàng)新中心禮品贊助|本來生活李敏 美團(tuán) 袋鼠團(tuán)建