立志要將大模型變?yōu)锳GI時(shí)代基礎(chǔ)設(shè)施的智源,提出了一套自由探索 目標(biāo)導(dǎo)向的“智源模式”。
最近,微軟總裁布拉德?史密斯在東京接受采訪時(shí)的一句話,引起了人們的關(guān)注。
因?yàn)樗麑penAI的主要競爭對手定為了中國。
在史密斯看來,目前在人工智能領(lǐng)域,世界上三家公司處于絕對前列,一個(gè)是與微軟合作的 Open AI,第二個(gè)是谷歌,第三個(gè)是北京智源人工智能研究院 ( 以下簡稱智源 )。
這個(gè)被微軟總裁親自點(diǎn)名的中國機(jī)構(gòu),究竟是何方神圣?
事實(shí)上,盡管名頭相當(dāng)?shù)驼{(diào),但這家研究院卻是國內(nèi)不折不扣的大模型“先行者”之一。其推出的大模型“悟道2.0”, 參數(shù)量達(dá)到了驚人的1.75萬億,這是GPT-3.5的十倍。
并且,這家機(jī)構(gòu)其實(shí)很年輕——2018年創(chuàng)建,誕生至今也不過五年。
那么,這個(gè)既低調(diào)、又年輕的機(jī)構(gòu),究竟是如何在如此短的時(shí)間內(nèi),取得了比肩谷歌與微軟的技術(shù)實(shí)力,并成為深藏不露的“世界前三”的?
01 生于逆境
可以說,智源的誕生,是中國AI界在逆境中被“逼”出來的產(chǎn)物。
2018年,第一代 GPT 發(fā)布,包含 1.17 億個(gè)參數(shù),雖然效果一般,但已經(jīng)和國內(nèi)拉開了差距。
當(dāng)時(shí)中國的人工智能領(lǐng)域,在各個(gè)方面均處于一種“黯淡”的狀態(tài)。
在當(dāng)年上榜的機(jī)構(gòu)和企業(yè)數(shù)量中,中國僅有一家企業(yè)(國家電網(wǎng))在人工智能領(lǐng)域的論文數(shù)量能躋身全球企業(yè)前20。
而當(dāng)時(shí),中國在人工智能杰出人才數(shù)量上的占比,是人工智能人才總量前十國家中最低的,僅占到本國人工智能人才總量的5.4%。
面對如此差距和困境,那年11月,在科技部和北京市委的支持下,北大、清華、中國科學(xué)院、百度、小米、字節(jié)跳動(dòng)、等北京人工智能領(lǐng)域優(yōu)勢單位,共同建立了一個(gè)新型的研究機(jī)構(gòu),希望以此一改國內(nèi)人工智能“乏力”的局面。
這個(gè)機(jī)構(gòu),就是今天位于北京海淀區(qū)成府路150號(hào)的智源研究院。
智源誕生后,實(shí)行理事會(huì)領(lǐng)導(dǎo)下的院長負(fù)責(zé)制,由美國國家工程院外籍院士張宏江擔(dān)任理事長,北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授黃鐵軍擔(dān)任院長。
智源研究院的員工集合了一支包括清華、人大、北大等知名學(xué)府以及各合作企業(yè)組成的,不同專業(yè)方向的團(tuán)隊(duì)。
身為理事長的張宏江,是世界計(jì)算機(jī)領(lǐng)域影響因子最高的科學(xué)家之一(位居中國大陸第一),曾擔(dān)任IEEE多媒體學(xué)刊的主編,擁有超過180項(xiàng)國際專利,出版4本學(xué)術(shù)專著、發(fā)表400多篇學(xué)術(shù)論文。
理事長張宏江
智源研究院學(xué)術(shù)委員會(huì)主席的張鈸,不僅是清華大學(xué)計(jì)算機(jī)系教授,中國科學(xué)院院士,也是中國人工智能領(lǐng)域奠基人之一。
其在人工智能、人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域,已發(fā)表 200多篇學(xué)術(shù)論文和5篇專著。
張鈸院士
擔(dān)任智源研究院副院長、總工程師的林詠華,不僅曾任 IBM 中國研究院院長、IBM 全球杰出工程師、并且具有多年人工智能(視覺分析)、系統(tǒng)架構(gòu)、云計(jì)算的創(chuàng)新研發(fā)和管理經(jīng)驗(yàn)。
科研上,林詠華有超過 50 項(xiàng)全球?qū)@?,多篇學(xué)術(shù)文章發(fā)表在頂級(jí)國際會(huì)議和期刊。
智源研究院副院長林詠華
智源龐大的人才隊(duì)伍,不僅匯聚了中國AI圈內(nèi)的頂尖人才,其涉及的研究方向也頗為全面,包括AI數(shù)理基礎(chǔ)、AI認(rèn)知神經(jīng)基礎(chǔ)、機(jī)器學(xué)習(xí)、自然語言處理等。可以說涵蓋了大模型領(lǐng)域必備各個(gè)的知識(shí)體系。
除了頂尖的研究團(tuán)隊(duì),智源所擁有的雄厚技術(shù)優(yōu)勢,也是讓微軟覺得其不可小覷的原因。
2020年,智源研究院和清華大學(xué)聯(lián)合發(fā)布了首個(gè)支持PyTorch框架的高性能MoE系統(tǒng)FastMoE。
這是一種支撐萬億模型的核心技術(shù)。
通過將神經(jīng)網(wǎng)絡(luò)分成多個(gè)子網(wǎng)絡(luò)(也稱為專家),F(xiàn)astMoE能將一個(gè)大任務(wù)分成多個(gè)小任務(wù),每個(gè)小任務(wù)由一個(gè)“專家”來完成,這樣做就可以讓任務(wù)更加高效地完成。
其在大模型領(lǐng)域的意義,相當(dāng)于建筑工程中的“擴(kuò)大梁柱間距、增加支撐點(diǎn)”,能夠顯著提高模型的準(zhǔn)確性和泛化能力,讓模型支持大規(guī)模并行訓(xùn)練,擴(kuò)展了模型的規(guī)模。
除此之外,在2022年,智源還打造了擁有1000P算力池——九鼎智算平臺(tái)。
在這里,P 是一個(gè)數(shù)量級(jí),10 的 15 次方,1000P 就是 100億億,1000PFlops 算力就意味著每秒有 100 億億次的浮點(diǎn)運(yùn)算能力。
一個(gè) Atlas 800 組成的 AI 算力集群,以 1000P 算力為例,一個(gè)時(shí)鐘周期可以進(jìn)行“100億億”次計(jì)算。
以對 20 萬顆星體的數(shù)據(jù)探索為例,傳統(tǒng)方式需要一個(gè)有經(jīng)驗(yàn)的科學(xué)家用 169 天才能完成,而在1000P的算力下,只需要 10.02 秒。
九鼎智算平臺(tái)的建成,不僅打破了以往AI for Science等方向的算力限制,也讓類似chatGPT這樣超大參數(shù)量的大模型的訓(xùn)練成為了可能。
在人才、技術(shù)、算力的綜合支持下,智源團(tuán)隊(duì)在大模型方向上的結(jié)晶——悟道2.0,終于誕生了。
02 悟道2.0
目前,悟道2.0”模型的參數(shù)規(guī)模達(dá)到1.75萬億,是GPT-3的10倍,打破了之前由Google Switch Transformer預(yù)訓(xùn)練模型創(chuàng)造的1.6萬億參數(shù)記錄。是中國首個(gè)、全球最大的萬億級(jí)模型。
當(dāng)然,參數(shù)量越大不代表模型性能一定越好,悟道2.0的出眾之處,也在于其“精準(zhǔn)”的特點(diǎn)。
悟道2.0在世界公認(rèn)的9項(xiàng)Benchmark基準(zhǔn)測試任務(wù)上取得優(yōu)異成績,達(dá)到了精準(zhǔn)智能。
“悟道2.0”的高精度來自于一系列核心技術(shù)創(chuàng)新。例如:
GLM2.0:
GLM2.0是模型架構(gòu)創(chuàng)新的典范,更通用的預(yù)訓(xùn)練模型,GLM2.0模型可以同時(shí)處理多種自然語言處理任務(wù),而不需要使用不同的模型。
通過將不同的任務(wù)模塊化,GLM能夠同時(shí)在分類、無條件生成和有條件生成三類NLP任務(wù)取得最優(yōu)結(jié)果;在訓(xùn)練數(shù)據(jù)相同的前提下,其在SuperGLUE自然語言理解基準(zhǔn)上的性能表現(xiàn)遠(yuǎn)超BERT。
此前,憑借這樣的特點(diǎn),它首次打破了BERT和GPT壁壘,開創(chuàng)性地以單一模型兼容所有主流架構(gòu)。
而新一代版本更是以少勝多的高性能人工智能典范,以100億參數(shù)量,足以匹敵微軟170億參數(shù)的Turing-NLG模型。
P-tuning2.0算法:
想象一下,當(dāng)你只有很少的時(shí)間來學(xué)習(xí)新的東西時(shí),你就需要更好的提示,來幫助你更快地理解和記憶。
P-tuning2.0算法就是一種類似于這種提示的方法。
但是,不同的是,它使用連續(xù)的向量來表示提示,而不是人為設(shè)計(jì)的句子或單詞。這種連續(xù)向量可以在一個(gè)連續(xù)的空間中尋找最優(yōu)解,從而更好地幫助機(jī)器學(xué)習(xí)模型理解任務(wù)和學(xué)習(xí)目標(biāo)。
在知識(shí)探測任務(wù)等領(lǐng)域,P-tuning2.0算法的表現(xiàn)非常出色,可以提取高質(zhì)量的知識(shí),而且不需要額外的文本數(shù)據(jù)。因此,P-tuning2.0算法在少樣本學(xué)習(xí)中具有很高的應(yīng)用價(jià)值和性能表現(xiàn)。
CogView:
這是一種文本生成圖像的新框架,通過將VQ-VAE和Transformer進(jìn)行結(jié)合,CogView克服“上下溢收斂”文圖模型關(guān)鍵難題。
所謂“上下溢收斂”,是指因模型結(jié)構(gòu)不夠復(fù)雜或者訓(xùn)練數(shù)據(jù)不足,導(dǎo)致生成的圖像在訓(xùn)練過程中逐漸變得越來越相似,直到完全一樣的情況。
而VQ-VAE和Transformer,就相當(dāng)于是畫家手中更好的繪畫工具,能讓畫作更精湛。
VQ-VAE是一種用于圖像和文本編碼的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)⑤斎氲奈谋巨D(zhuǎn)化為潛在向量表示,而Transformer則能夠更好地處理序列數(shù)據(jù)和文本信息,并通過選擇不同的潛在向量表示,從而完成畫作的生成。
目前,CogView在MS COCO FID指標(biāo)上性能優(yōu)于DALL·E等模型。模型可直接實(shí)現(xiàn)類似OpenAI CLIP模型的自評(píng)分功能,生成國畫、油畫、卡通畫、輪廓畫等多元畫風(fēng)。
全鏈路提升:
除了上述幾點(diǎn)外,為了提升大規(guī)模預(yù)訓(xùn)練模型的產(chǎn)業(yè)普適性和易用性,悟道團(tuán)隊(duì)搭建高效預(yù)訓(xùn)練框架,在多個(gè)方面進(jìn)行了全鏈路的原創(chuàng)突破或迭代優(yōu)化:
高效編碼:研發(fā)了最高效、最抗噪的中文預(yù)訓(xùn)練語言模型編碼,解決生僻字等問題。
高效模型:構(gòu)建了世界首個(gè)純非歐空間模型,處理語言中的關(guān)系和層次結(jié)構(gòu)時(shí)更加高效和準(zhǔn)確。
高效訓(xùn)練:世界首創(chuàng)大規(guī)模預(yù)訓(xùn)練模型融合框架,形成高效訓(xùn)練新模式,訓(xùn)練時(shí)間縮短27.3%,速度提升37.5%。
高效微調(diào):世界首創(chuàng)多類別Prompt微調(diào),只需訓(xùn)練0.001%參數(shù)即可實(shí)現(xiàn)下游任務(wù)適配。
高效推理:世界首創(chuàng)低資源大模型推理系統(tǒng),單機(jī)單卡GPU即可以進(jìn)行千億參數(shù)規(guī)模的模型推理。
03 創(chuàng)新的基因
智源打造悟道2.0的最終愿景,大模型將成為一個(gè)AI未來平臺(tái)的起點(diǎn),成為類似“電”的基礎(chǔ)建設(shè),為社會(huì)源源不斷供應(yīng)智源。
2021年,在2021北京智源大會(huì)上,智源研究院學(xué)術(shù)副院長唐杰就表示,悟道2.0后續(xù)將支持智源研究院牽頭成立獨(dú)立的模型商業(yè)化運(yùn)營公司, 并將面向個(gè)人開發(fā)者、各個(gè)企業(yè),分別提供模型開源、API(應(yīng)用程序編程接口)調(diào)用、以及多模態(tài)的服務(wù),賦能AI技術(shù)研發(fā)。
而要想促成這種不完全以商業(yè)利潤為目標(biāo),而是以社會(huì)福利和公共利益為導(dǎo)向的大模型生態(tài),就必須打造一種新的、更進(jìn)步的科研體系。
這樣的體系,既需要“集中力量辦大事”的特點(diǎn),又需要一種不計(jì)回報(bào)的,對基礎(chǔ)研究的自由探索。
唯有“集中力量”,才能支撐起大模型愈發(fā)高昂的訓(xùn)練成本;
唯有“自由探索”,才能在基礎(chǔ)理論領(lǐng)域打開局面,使之成為一種更普及的應(yīng)用。
實(shí)際上,OpenAI的成功,也正是基于類似的體系。
在微軟與OpenAI建立了戰(zhàn)略合作伙伴關(guān)系后,OpenAI選擇了一種新的股權(quán)投資協(xié)議模式:以投資回報(bào)速度代替投資回報(bào)水平。
而這種做法,是建立在OpenAI最終回歸公益的愿景必然實(shí)現(xiàn)的強(qiáng)烈信念上。
在這樣的信念下,很多頂尖的AI研究人員,加入OpenAI,希望專心、自由地思考人類的終極問題。
在這一體系下,微軟的資金,加上OpenAI的自由探索精神,最終成就了今天的ChatGPT。
而立志要將大模型變?yōu)锳GI時(shí)代基礎(chǔ)設(shè)施的智源,經(jīng)過探索,提出了一套自由探索 目標(biāo)導(dǎo)向的“智源模式”:
即建立自由探索與目標(biāo)導(dǎo)向相結(jié)合的科研管理機(jī)制,以小同行視角遴選支持智源學(xué)者自由探索,以“集中力量辦大事”的科研組織模式推動(dòng)“悟道”大模型等重大科研任務(wù)的實(shí)施。
而在“自由探索”這點(diǎn)上,智源研究院賦予了科學(xué)家最大的技術(shù)路線決定權(quán)和經(jīng)費(fèi)使用權(quán),給予了科學(xué)家盡可能大的研究自由度。
而“目標(biāo)導(dǎo)向”,就是對于學(xué)界共識(shí)的方向,智源學(xué)者們的研究能夠聚焦在一個(gè)統(tǒng)一的愿景上,形成來自組織的合力。
托爾斯泰曾言:幸福的家庭都是相同的,不幸的家庭各有各的不幸。
而在通向AGI的大道上,我們也可以說:沒落的團(tuán)隊(duì)都走了不同的歧路,但成功團(tuán)隊(duì)的路徑總是相似的。
在大模型訓(xùn)練愈發(fā)消耗巨量資源的今天,我們可以預(yù)見,人類在AGI的成功,不會(huì)只是某一個(gè)企業(yè)的成功,而是一種新的生態(tài),新的科研體系的成功。
聯(lián)系客服