在思考這些問題之前,我們有必要了解并認(rèn)識ChatGPT。而在圖靈文化公司創(chuàng)始總編,聯(lián)合創(chuàng)始人劉江看來,計算機(jī)科學(xué)家斯蒂芬·沃爾弗拉姆所著的《這就是ChatGPT》,是能夠講透GPT的原理以及未來的佳作。
劉江 | 撰文
1
從2022年11月發(fā)布到現(xiàn)在差不多半年的時間,ChatGPT所引起的關(guān)注、產(chǎn)生的影響,可能已經(jīng)超越了信息技術(shù)歷史上幾乎所有熱點。它的用戶數(shù)2天達(dá)到100萬,2個月達(dá)到1億,打破TikTok之前的紀(jì)錄。而在2023年5月iOS App發(fā)布后,也毫無懸念地登頂蘋果應(yīng)用商店總排行榜。許多人平生第一次接觸到如此高智能、知錯能改的對話系統(tǒng)。撰寫文章、雖然很多時候會非常自信、“一本正經(jīng)的胡說八道”,甚至簡單的加減法也算不對,但你提示它錯了,或者讓它一步步地來,它會很靈地真的變得非??孔V,有條不紊地列出做事情的步驟,然后得出正確答案。有些復(fù)雜的任務(wù),你正等著看它笑話呢,它卻不緊不慢地給你言之成理的回答,讓你大吃一驚。原本不看好甚至在2019年微軟投資OpenAI的決策中投了反對票的蓋茨,現(xiàn)在將ChatGPT與PC、互聯(lián)網(wǎng)等相提并論,黃仁勛稱之為iPhone時刻,OpenAI的Sam Altman比作印刷機(jī),Google CEO Sundar Pichai說是火和電,與騰訊馬化騰“幾百年不遇”的觀點所見略同,總之都是開啟了新時代。阿里巴巴張勇的建議是:“所有行業(yè)、應(yīng)用、軟件、服務(wù),都值得基于大模型能力重做一遍”。以馬斯克為代表的很多專家更是因為ChatGPT的突破性能力可能對人類產(chǎn)生威脅,呼吁應(yīng)該暫停強(qiáng)大AI模型的開發(fā)。
剛剛結(jié)束的2023智源大會上,Sam Altman很自信地說AGI很可能在十年之內(nèi)到來,需要全球合作解決由此帶來的各種問題。而因為共同推動深度學(xué)習(xí)從邊緣到舞臺中央而獲得圖靈獎的三位科學(xué)家,意見卻明顯不同:Yann LeCun明確表示GPT代表的自回歸大模型存在本質(zhì)缺陷,需要圍繞世界模型另尋新路,所以他對AI的威脅并不擔(dān)心。
在另外一位講者插播視頻里出現(xiàn)的Yoshua Bengio雖然也不認(rèn)同單靠GPT路線就能通向AGI(他看好貝葉斯推理與神經(jīng)網(wǎng)絡(luò)的結(jié)合),但承認(rèn)大模型存在巨大潛力,從第一性原理來看也沒有明顯的天花板,因此他在呼吁暫停AI開發(fā)的公開信上簽了字。
壓軸演講的Geoffrey Hinton顯然同意自己的弟子Ilya Sutskever大模型能學(xué)習(xí)到真實世界壓縮表示的觀點,他意識到具備反向傳播(通俗地理解就是內(nèi)置知錯能改機(jī)制)而且能輕易擴(kuò)大規(guī)模的人工神經(jīng)網(wǎng)絡(luò),智能可能會很快超過人類,因此他也加入到呼吁AI風(fēng)險的隊伍中來。
ChatGPT代表的人工神經(jīng)網(wǎng)絡(luò)的逆襲之旅,在整個科技史上也算得上跌宕起伏。它曾經(jīng)在流派眾多的人工智能界內(nèi)部屢受歧視和打擊。不止一位天才先驅(qū)以悲劇結(jié)束一生:1943年Walter Pitts與Warren McCulloh提出神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)表示時才20歲,他中學(xué)都沒有念完,后來因為與導(dǎo)師維納失和,脫離學(xué)術(shù)界,因飲酒過度46歲即英年早逝;1958年30歲時通過感知機(jī)實際實現(xiàn)了神經(jīng)網(wǎng)絡(luò)的Frank Rosenblatt,43歲生日溺水身亡;反向傳播的主要提出者David Rumelhart則是50多歲正值盛年罹患罕見的不治之癥,1998年開始逐漸失智,2011年與病魔斗爭十多年后離世。一些頂級會議和明斯基這樣的學(xué)術(shù)巨人都曾毫不客氣地反對甚至排斥神經(jīng)網(wǎng)絡(luò),逼得Hinton等人不得不先后采用“關(guān)聯(lián)記憶”、“并行分布式處理”、“卷積網(wǎng)絡(luò)”、“深度學(xué)習(xí)”等更中性或者晦澀的術(shù)語為自己贏得一隅生存空間。Hinton自己從1970年代開始,堅守冷門方向幾十年,從英國到美國最后立足曾經(jīng)的學(xué)術(shù)邊陲加拿大,在資金支持匱乏的情況下努力建立起一個人數(shù)不多但精英輩出的學(xué)派。直到2012年他的博士生Ilya Sutskever等在ImageNet比賽中用新方法一飛沖天,深度學(xué)習(xí)開始成為AI的顯學(xué),并廣泛應(yīng)用于各個產(chǎn)業(yè)。2020年,他又在OpenAI帶隊,通過千億參數(shù)的GPT-3開啟了大模型時代。2015年30歲的Sam Altman和28歲的Greg Brockman與馬斯克聯(lián)手,召集了30歲的Ilya Sutskever等多位AI頂級人才,共同創(chuàng)立OpenAI,希望在谷歌、Facebook等諸多巨頭之外,建立中立的AI前沿科研力量,并雄心勃勃地把人類水平的人工智能作為自己的目標(biāo)。那時候,媒體基本上報道基本上都是以馬斯克支持成立了一家非營利AI機(jī)構(gòu)為標(biāo)題,并沒有多少人看好OpenAI。甚至Ilya Sutskever這樣的靈魂人物,加入前也經(jīng)過了一番思想斗爭。前三年,他們在強(qiáng)化學(xué)習(xí)、機(jī)器人、多智能體、AI安全等方面多線出擊,也的確沒有取得特別有說服力的成果。以至于主要贊助人馬斯克對進(jìn)展不滿意,動念要來直接管理,被理事會拒絕后,選擇了完全離開。2019年3月,Sam Altman開始擔(dān)任OpenAI的CEO,并在幾個月內(nèi)完成了組建商業(yè)公司、獲得微軟10億美元投資等,為后續(xù)發(fā)展做好了準(zhǔn)備。而科研方面,2014年Olin工學(xué)院本科畢業(yè)兩年后加入OpenAI的Alec Radford開始發(fā)力,作為主要作者,他在Ilya Sutskever等的指導(dǎo)下,連續(xù)完成了PPO(2017)、GPT-1(2018)、GPT-2(2019)、Jukebox(2020)、ImageGPT(2020)、CLIP(2021)、Whisper(2022)等多項開創(chuàng)性工作。尤其是2017年情感神經(jīng)元的工作,開創(chuàng)了“預(yù)測下一個字符”的極簡架構(gòu)結(jié)合大模型、大算力、大數(shù)據(jù)的技術(shù)路線,對后續(xù)GPT產(chǎn)生了關(guān)鍵影響。GPT的發(fā)展也不是一帆風(fēng)順的。從下圖1可以清晰地看到,GPT-1論文發(fā)表之后,OpenAI這種有意為之的更加簡單的decoder-only架構(gòu)(準(zhǔn)確地講是帶自回歸的encoder-decoder)并沒有得到太多關(guān)注,風(fēng)頭都被幾個月之后谷歌的BERT(encoder-only架構(gòu),準(zhǔn)確地講是encoder-非自回歸的decoder)搶去了。出現(xiàn)了一系列xxBERT類的很有影響的工作。圖1 大模型進(jìn)化樹,出自Amazon楊靖鋒等2023年4月的論文“Harnessing the Power of LLMs in Practice”
即使到今天,后者的引用數(shù)累計已經(jīng)超過6.8萬,比GPT-1的不到6000仍然高了一個數(shù)量級。兩篇論文技術(shù)路線不同,無論是學(xué)術(shù)界還是工業(yè)界,幾乎所有人當(dāng)時都選擇了BERT陣營。
2019年2月發(fā)布的GPT-2將最大參數(shù)規(guī)模提升到15億級別,同時使用了更大規(guī)模、更高質(zhì)量和更多樣的數(shù)據(jù),模型開始展現(xiàn)很強(qiáng)的通用能力。當(dāng)時令GPT-2登上技術(shù)社區(qū)頭條的,還不是研究本身(直到今天論文引用數(shù)也是6000出頭,遠(yuǎn)不如BERT),而是OpenAI出于安全考慮,最開始只開源了最小的3.45億參數(shù)模型,引起軒然大波。社區(qū)對OpenAI不Open的印象,始自這里。這前后OpenAI還做了規(guī)模對語言模型能力影響的研究,提出了“規(guī)模定律”(Scaling Law),確定了整個組織的主要方向:大模型。為此,將強(qiáng)化學(xué)習(xí)、機(jī)器人等其他方向都砍掉了。難能可貴的是,大部分核心研發(fā)人員選擇了留下,改變自己的研究方向,放棄小我,集中力量做大事,很多人轉(zhuǎn)而做工程和數(shù)據(jù)等工作,或者圍繞大模型重新定位自己的研究方向(比如強(qiáng)化學(xué)習(xí)就在GPT 3.5以及之后的演進(jìn)中發(fā)揮了重大作用)。這種組織上的靈活性,也是OpenAI能成功的重要因素。2020年GPT-3橫空出世,NLP小圈子里的一些有識之士開始意識到OpenAI技術(shù)路線的巨大潛力。在中國,北京智源人工智能研究院聯(lián)合清華大學(xué)等高校推出了GLM、CPM等模型,并積極在國內(nèi)學(xué)術(shù)界推廣大模型理念。從圖1看到,2021年之后,GPT路線已經(jīng)完全占據(jù)上風(fēng),而BERT這一“物種”的進(jìn)化樹幾乎停止了。2020年年底,OpenAI的兩位副總Dario和Daniela Amodei兄妹帶領(lǐng)多位GPT-3和安全團(tuán)隊的同事離開,創(chuàng)辦了Anthropic。Dario Amodei在OpenAI的地位非同一般,他是Ilya Sutskever之外,技術(shù)路線圖的另一個制定者,也是GPT-2和GPT-3項目以及安全方向的總負(fù)責(zé)人。而隨他離開的,有GPT-3和規(guī)模定律論文的多位核心。一年后,Anthropic發(fā)表論文“A General Language Assistant as a Laboratory for Alignment” ,開始用聊天助手研究對齊問題。此后逐漸演變?yōu)镃laude這個智能聊天產(chǎn)品。2022年6月,“Emergent Abilities of Large Language Models”論文發(fā)布,一作是從達(dá)特茅斯學(xué)院本科畢業(yè)才兩年的谷歌研究員Jason Wei(今年2月他也在谷歌精英跳槽潮中去了OpenAI)。文中研究了大模型的涌現(xiàn)能力,這類能力在小模型中不存在,只有模型規(guī)模擴(kuò)大到一定量級才會出現(xiàn)。也就是我們熟悉的“量變會導(dǎo)致質(zhì)變”。到11月中旬,本來一直在研發(fā)GPT-4的OpenAI員工收到管理層的指令,所有工作暫停,全力推出一款聊天工具,原因是有競爭。兩周后,ChatGPT誕生。這之后的事情已經(jīng)載入史冊。業(yè)界推測,OpenAI管理層應(yīng)該是得到了Anthropic Claude的進(jìn)展情況,意識到這一產(chǎn)品的巨大潛力,決定先下手為強(qiáng)。這展現(xiàn)出核心人員超強(qiáng)的戰(zhàn)略判斷力。要知道,即使是ChatGPT的核心研發(fā)人員也不知道為什么產(chǎn)品推出后會這么火(“我爸媽終于知道我在干什么了”),他們在自己試用時完全沒有驚艷的感覺。2023年3月,在長達(dá)半年的“評估、對抗性測試和對模型以及系統(tǒng)級緩解措施的迭代改進(jìn)”之后,GPT-4發(fā)布。微軟研究院對其內(nèi)部版本(能力超出公開發(fā)布的線上版本)研究的結(jié)論是:“在所有這些任務(wù)中,GPT-4的表現(xiàn)與人類水平驚人的接近……鑒于GPT-4的廣度和深度,我們認(rèn)為它可以合理地被視為通用人工智能(AGI)系統(tǒng)早期(但仍然不完整)的版本?!?/span>此后,國內(nèi)外的企業(yè)和科研機(jī)構(gòu)紛紛跟進(jìn),幾乎每周都有一個甚至多個新模型推出,但綜合能力上OpenAI仍然一騎絕塵,唯一可以與之抗衡的,是Anthropic。很多人會問,為什么中國沒有產(chǎn)生ChatGPT?其實正確的問題(prompt)應(yīng)該是:為什么全世界只有OpenAI能做出ChatGPT?他們成功的原因是什么?對此的思考,到今天仍有意義。2
他雖然并不是馬斯克那種大眾層面婦孺皆知的科技名人,但在科技極客小圈子里確是如雷貫耳的,被稱為“在世的最聰明的人”。谷歌的創(chuàng)始人之一Sergey Brin大學(xué)期間曾經(jīng)慕名到Wolfram的公司實習(xí)。而搜狗和百川智能創(chuàng)始人王小川更是他出名的鐵桿粉絲,“帶著崇敬和狂熱的心……關(guān)注和追隨多年”。Wolfram小時候是出名的神童。因為不屑于看學(xué)校推薦的“蠢書”,而且算術(shù)不好,也不愿意刷已經(jīng)被人解答過的題,一開始老師們還以為這孩子不行。結(jié)果人家13歲就自己寫了幾本物理書,其中之一名為《亞原子粒子物理》。15歲在 Australian Journal of Physics 發(fā)表了一篇正兒八經(jīng)的高能物理論文“Hadronic Electrons?”,提出了一種新形式的高能電子-強(qiáng)子耦合。這篇論文還有5次引用。在英國的伊頓公學(xué)、牛津大學(xué)等名校Wolfram都是晃了幾年,也不怎么上課,他厭惡已經(jīng)被人解決的問題,結(jié)果沒畢業(yè)就跑了,最后20歲在加州理工學(xué)院直接拿了博士,導(dǎo)師是大名鼎鼎的費(fèi)曼。1981年Wolfram榮獲第一屆麥克阿瑟天才獎,是最年輕的獲獎?wù)摺M慌际歉鲗W(xué)科的大家,包括1992年諾貝爾文學(xué)獎得主沃爾科特。他很快對純物理失去了興趣。1983年轉(zhuǎn)到普林斯頓高等研究院,開始研究元胞自動機(jī),希望找到更多自然和社會現(xiàn)象的底層規(guī)律。這一轉(zhuǎn)型產(chǎn)生了巨大影響。他成為復(fù)雜系統(tǒng)這一學(xué)科的開創(chuàng)者之一,有人認(rèn)為他做出了諾貝爾獎級的工作。20多歲的他也的確與多位諾貝爾獎得主蓋爾曼、菲利普·安德森(正是他1972年發(fā)表文章“More is Different”提出了涌現(xiàn)這一概念)等一起參與了圣塔菲研究所的早期工作,并在UIUC創(chuàng)立復(fù)雜系統(tǒng)研究中心。他還創(chuàng)辦了學(xué)術(shù)期刊 Complex Systems 。為了更方便地做元胞自動機(jī)相關(guān)的計算機(jī)實驗,他開發(fā)了數(shù)學(xué)軟件Mathematica(這個名字還是他的好友喬布斯取的),又進(jìn)而創(chuàng)辦軟件公司W(wǎng)olfram Research,轉(zhuǎn)身為一位成功的企業(yè)家。Mathematica軟件的強(qiáng)大,大家可以從本書后面對ChatGPT解讀時高度抽象和清晰的語法中直觀地感受到。說實話,這讓我動了想認(rèn)真學(xué)一下這一軟件和相關(guān)技術(shù)的念頭。1991年,Wolfram又返回研究狀態(tài),開始晝伏夜出,每天深夜埋頭做實驗、寫作長達(dá)十年,出版了1000多頁的巨著 A New Kind of Science。書中的主要觀點是:萬事皆計算,宇宙中各種復(fù)雜現(xiàn)象,包括人產(chǎn)生的還是自然中自發(fā)的,都可以用一些規(guī)則簡單的計算模擬。Amazon上書評的說法可能更好懂:“伽利略曾宣稱自然界是用數(shù)學(xué)的語言書寫的,但Wolfram認(rèn)為自然界是用編程語言(而且是非常簡單的編程語言)書寫的?!?/span>而且這些現(xiàn)象或者系統(tǒng),比如人類大腦的工作和氣象系統(tǒng)的演化,在計算方面是等效的,具有相同的復(fù)雜度,這稱為“計算等價原理”。書很暢銷,因為語言很通俗,又有近千幅圖片,但學(xué)術(shù)界尤其是物理老同行也有很多批評。主要集中在書中的理論并不原創(chuàng)(圖靈關(guān)于計算復(fù)雜性的工作,康威的生命游戲等都與此類似),而且缺乏數(shù)學(xué)嚴(yán)謹(jǐn)性,因此很多結(jié)論很難經(jīng)得住檢驗(比如自然選擇不是生物復(fù)雜性的根本原因,美國理論計算機(jī)科學(xué)家Scott Aaronson也指出Wolfram的方法無法解釋量子計算中非常核心的貝爾測試的結(jié)果)。而Wolfram回應(yīng)批評的方式是推出Wolfram|Alpha知識計算引擎,被很多人認(rèn)為是第一個真正實用的人工智能技術(shù),結(jié)合知識和算法,實現(xiàn)了用戶采用自然語言發(fā)出命令,系統(tǒng)直接返回答案。全世界的用戶可以通過網(wǎng)頁、Siri、Alexa包括ChatGPT插件來使用這一強(qiáng)大的系統(tǒng)。如果我們拿ChatGPT代表的神經(jīng)網(wǎng)絡(luò)來看Wolfram的理論,就會發(fā)現(xiàn)一種暗合關(guān)系:GPT底層的自回歸架構(gòu),與很多機(jī)器學(xué)習(xí)模型相比,的確可以歸類為“規(guī)則簡單的計算”,而其能力也是通過量變累積之下涌現(xiàn)出來的。Wolfram經(jīng)常為好萊塢的科幻電影做技術(shù)支持,用Mathematica和Wolfram編程語言生成一些逼真的效果,比較著名的包括《星際穿越》里的黑洞引力透鏡效應(yīng),和《降臨》里掌握了以后能夠超越時空的神奇外星人語言,都極富想象力。他當(dāng)年最終離開學(xué)術(shù)界,與普林斯頓同事不和有關(guān)。老師費(fèi)曼寫信勸他:“你不會理解普通人的想法的,他們對你來說只是傻瓜?!?/span>3
像Stephen Wolfram這樣的大神能動手為廣大讀者關(guān)注度極高的主題寫一本通俗讀物,這本身就是一個奇跡。他40年前從純物理轉(zhuǎn)向復(fù)雜系統(tǒng),就是想解決人類智能等現(xiàn)象的第一性原理,有很深的積累。由于他交游廣泛,與Geffrey Hinton、Ilya Sutskever、Dario Amodei等關(guān)鍵人物都有交流,也有第一手資料,保證了技術(shù)的準(zhǔn)確性。難怪本書出版后,OpenAI的CEO稱之為“ChatGPT原理的最好解釋”。全書分兩部分,篇幅很小,但是關(guān)于ChatGPT最重要的點都講到了,而且講得通俗透徹。比如,GPT技術(shù)路線的一大核心理念,是用最簡單的自回歸生成架構(gòu),來解決無監(jiān)督學(xué)習(xí)問題,也就是利用原始的數(shù)據(jù)無需人特意標(biāo)注,然后從中學(xué)習(xí)數(shù)據(jù)中對世界的映射。其中自回歸生成架構(gòu),就是書中講得非常通俗的“只是一次添加一個詞”。這里特別要注意的是,選擇這種架構(gòu)的目的并不是為了做生成任務(wù),而是為了理解或者學(xué)習(xí),是為了實現(xiàn)模型的通用能力。在2020年之前甚至之后的幾年里,業(yè)界很多專業(yè)人士都想當(dāng)然地以為GPT是搞生成任務(wù)的而選擇了無視。殊不知GPT-1論文的標(biāo)題就是“通過生成式預(yù)訓(xùn)練改進(jìn)語言理解”。再比如,對于沒有太多技術(shù)背景或者機(jī)器學(xué)習(xí)背景的讀者來說,了解人工智能最新動態(tài)時可能遇到的直接困難,是聽不懂老出現(xiàn)的基本概念“模型”、“參數(shù)(在神經(jīng)網(wǎng)絡(luò)中就是權(quán)重)”是什么意思,而這些概念并不是那么容易講清楚。本書中,大神作者非常貼心地用直觀的例子(函數(shù)和旋鈕)做了解釋。(參見“什么是模型”一節(jié))而關(guān)于神經(jīng)網(wǎng)絡(luò)的幾節(jié)內(nèi)容圖文并茂,相信對各類讀者更深刻地理解神經(jīng)網(wǎng)絡(luò)及其訓(xùn)練過程的本質(zhì),以及損失函數(shù)、梯度下降等概念都很有幫助。作者在講解中也沒有忽視思想性,比如下面的段落很好地介紹了深度學(xué)習(xí)的意義:“深度學(xué)習(xí)”在 2012 年左右的重大突破與如下發(fā)現(xiàn)有關(guān):與權(quán)重相對較少時相比,在涉及許多權(quán)重時,進(jìn)行最小化 (至少近似)可能會更容易。
換句話說,有時候用神經(jīng)網(wǎng)絡(luò)解決復(fù)雜問題比解決簡單問題更容易——這似乎有些違反直覺。大致原因在于,當(dāng)有很多“權(quán)重變量”時,高維空間中有“很多不同的方向”可以引導(dǎo)我們到達(dá)最小值;而當(dāng)變量較少時,很容易陷入局部最小值的“山湖”,無法找到“出去的方向”。
這一段講清楚了端到端學(xué)習(xí)的價值:在神經(jīng)網(wǎng)絡(luò)的早期發(fā)展階段,人們傾向于認(rèn)為應(yīng)該“讓神經(jīng)網(wǎng)絡(luò)做 盡可能少的事”。例如,在將語音轉(zhuǎn)換為文本時,人們認(rèn)為應(yīng)該先 分析語音的音頻,再將其分解為音素,等等。但是后來發(fā)現(xiàn),(至 少對于“類人任務(wù)”)最好的方法通常是嘗試訓(xùn)練神經(jīng)網(wǎng)絡(luò)來“解 決端到端的問題”,讓它自己“發(fā)現(xiàn)”必要的中間特征、編碼等。
掌握這些概念的why,都有益于理解GPT的大背景。嵌入這個概念無論對從事大模型研發(fā)的算法研究者,基于大模型應(yīng)用開發(fā)的程序員,還是想深入了解GPT的普通讀者,都是至關(guān)重要的,也是“ ChatGPT 的中心思想”,但相對比較抽象,不是特別容易理解。本書“'嵌入’的概念”一節(jié)是我見過的對這一概念最好的解釋,通過圖、代碼和文字解讀三種方式,相信大家都能掌握。當(dāng)然,后文中“意義空間和語義運(yùn)動定律”一節(jié)還有多張彩圖,可以進(jìn)一步深化這一概念。本節(jié)最后還介紹了常見詞標(biāo)記(token),并舉了幾個直觀的英文例子。接下來對ChatGPT工作原理和訓(xùn)練過程的介紹也是通俗而不失嚴(yán)謹(jǐn)。對Transformer這個比較復(fù)雜的技術(shù)講得非常細(xì)致,而且也如實告知了目前理論上并沒有搞清楚為什么這樣就有效果。第一部分最后收尾,結(jié)合作者的計算不可約理論,將ChatGPT的理解上升到一個高度,與Illya Sutskever在多個訪談里強(qiáng)調(diào)的GPT的大思路是通過生成來獲取世界模型的壓縮表示異曲同工。產(chǎn)生“有意義的人類語言”需要什么?過去,我們可能認(rèn)為人類大腦必不可少。但現(xiàn)在我們知道,ChatGPT 的神經(jīng)網(wǎng)絡(luò)也可以做得非常出色?!覐?qiáng)烈懷疑 ChatGPT 的成功暗示了一個重要的“科學(xué)”事實:有意義的人類語言實際上比我們所知道的更加結(jié)構(gòu)化、更加簡單,最終可能以相當(dāng)簡單的規(guī)則來描述如何組織這樣的語言。
語言是嚴(yán)肅思考、決策和溝通的工具,相比感知、行動,從孩子的獲取先后和難易程度來看,應(yīng)該是智能中最難的任務(wù)。但ChatGPT很可能已經(jīng)攻破了其中的密碼,正如Wolfram說的“”。這確實預(yù)示著未來我們通過計算語言或者其他表示方式,有可能進(jìn)一步大幅提升整體智能水平。由此推廣開來,人工智能的進(jìn)展,有可能在各學(xué)科產(chǎn)生類似的效應(yīng):原來以前認(rèn)為很難的課題,其實換個角度并不是那么難的。加上GPT這種通用智能助手的加持,“一些任務(wù)從基本不可能變成了基本可行”,最終使全人類的科技水平達(dá)到新高度。本書的第二部分是ChatGPT與Wolfram|Alpha 系統(tǒng)對比與結(jié)合的介紹,有較多實例。如果說GPT這種通用智能更像人類的話,大部分人類確實是天生不擅長精確計算和思考的,未來通用模型與專用模型的結(jié)合,應(yīng)該也是前景廣闊的方向。稍有遺憾的是,本書重點只講了ChatGPT的預(yù)訓(xùn)練部分,而沒有過多涉及后面也很重要的幾個微調(diào)步驟:監(jiān)督微調(diào)(SFT)、獎勵建模和強(qiáng)化學(xué)習(xí)。這方面比較好的學(xué)習(xí)資料是2023年5月OpenAI創(chuàng)始成員、前Tesla AI負(fù)責(zé)人Andrej Karpathy在微軟Build大會上的演講“State of GPT”。關(guān)于AI能力的上限,他認(rèn)為,根據(jù)“計算等價原理”,ChatGPT這種通用人工智能的出現(xiàn)證明了“(人類)本質(zhì)上沒有任何特別的東西——事實上,在計算方面,我們與自然中許多系統(tǒng)甚至是簡單程序基本上是等價的”。因此,曾經(jīng)需要人類努力完成的事情,會逐漸自動化,最終能通過技術(shù)免費(fèi)完成。很多人認(rèn)為是人類特有的創(chuàng)造力或原創(chuàng)力、情感、判斷力等,AI應(yīng)該也能夠擁有。最終,AI也會逐步發(fā)展出自己的世界。這是一種新的生態(tài),可能有自己的憲章,人類需要適應(yīng),與之共存共榮。根據(jù)“計算不可約性原理”(即“總有一些計算是沒有捷徑來加速或者自動化的”,作者認(rèn)為這是思考AI未來的核心),復(fù)雜系統(tǒng)中總是存在無限的“計算可約區(qū)”,這正是人類歷史上能不斷出現(xiàn)科學(xué)創(chuàng)新、發(fā)明和發(fā)現(xiàn)的空間。所以,人類會不斷向前沿進(jìn)發(fā),而且永遠(yuǎn)有前沿可以探索。同時,“計算不可約性原理”也決定了,人類、AI、自然界和社會等各種計算系統(tǒng)具有根本的不可預(yù)測性,始終存在“收獲驚喜的可能”。人類可貴的,是有內(nèi)在驅(qū)動力和內(nèi)在體驗,能夠內(nèi)在地定義目標(biāo)或者意義,從而最終定義未來。最高效的方式是發(fā)掘新的可能性,定義對自己有價值的東西。
從現(xiàn)在的回答問題轉(zhuǎn)向?qū)W會如何提出問題,以及如何確定哪些問題值得提出。也就是從知識執(zhí)行轉(zhuǎn)向知識戰(zhàn)略。
知識廣度和思維清晰度將很重要。
直接學(xué)習(xí)所有詳細(xì)的知識已經(jīng)變得不必要了:我們可以在更高的層次上學(xué)習(xí)和工作,抽象掉許多具體的細(xì)節(jié)?!罢稀?,而不是專業(yè)化。盡可能廣泛、深入地思考,盡可能多地調(diào)用知識和范式。
學(xué)會使用工具來做事。過去我們更倚重邏輯和數(shù)學(xué),以后要特別注意利用計算范式,并運(yùn)用與計算直接相關(guān)的思維方式。
本書已在賽先生書店上架,歡迎點擊圖片購買
ChatGPT是OpenAI開發(fā)的人工智能聊天機(jī)器人程序,于2022年11月推出,能夠自動生成一些表面上看起來像人類寫出的文字的東西,是一件很厲害且出乎大家意料的事。那么,它是如何做到的呢?又是為何能做到的呢?本書會大致介紹ChatGPT的內(nèi)部機(jī)理,然后探討一下為什么它能很好地生成我們認(rèn)為是有意義的文本。
本書適合想了解ChatGPT的所有人閱讀。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。