? 文 觀網(wǎng)財(cái)經(jīng)/賀喜格
美國在人工智能的發(fā)展戰(zhàn)略中,一直把中國當(dāng)作首要的比較和防范對象,并進(jìn)行了深刻觀察。美國“防務(wù)一號(Defense One)”網(wǎng)站曾經(jīng)發(fā)布《人工智能報(bào)告》稱,“中國人工智能發(fā)展勢頭很猛,但其缺點(diǎn)亦十分明顯:硬件和算法開發(fā)、人才流失和技術(shù)標(biāo)準(zhǔn)較低;創(chuàng)新人工智能框架方面發(fā)展薄弱。”
人工智能開發(fā)平臺建設(shè)初期需搭建底層技術(shù)框架,主要指深度學(xué)習(xí)框架,被稱為“智能時(shí)代的操作系統(tǒng)”。幾乎所有的深度學(xué)習(xí)開發(fā)者,都要使用深度學(xué)習(xí)框架,是人工智能發(fā)展中的“兵家必爭之地”。但應(yīng)用最廣的兩個(gè)深度學(xué)習(xí)框架,均出自美國科技巨頭之手。據(jù)弗若斯特沙利文公司(Frost & Sullivan)發(fā)布的《2021年中國AI開發(fā)平臺市場報(bào)告》(研究周期是2020年),由Google開發(fā)的TensorFlow依托工業(yè)界的部署優(yōu)勢,市場關(guān)注度持續(xù)第一;META(Facebook)開發(fā)的PyTorch憑借其易用性,其應(yīng)用數(shù)量在各大頂級學(xué)術(shù)會(huì)議論文中占比超過50%。
2016年,百度的PaddlePaddle打響了國產(chǎn)深度學(xué)習(xí)框架開源的第一槍。2019年4月,在首屆WAVE SUMMIT深度學(xué)習(xí)開發(fā)者峰會(huì)上,百度首次公布了PaddlePaddle 的中文名——飛槳,開始強(qiáng)調(diào)自己更適合中國開發(fā)者,以及更加專注于深度學(xué)習(xí)模型的產(chǎn)業(yè)實(shí)踐。與此同時(shí),飛槳PaddlePaddle的發(fā)展開始提速。
IDC發(fā)布的2021年上半年深度學(xué)習(xí)框架平臺市場份額報(bào)告顯示,百度在中國深度學(xué)習(xí)平臺市場中的綜合份額持續(xù)增長,超越Google和META(Facebook),躍居第一。由此,百度也加入了Google和META(Facebook)的戰(zhàn)局,在深度學(xué)習(xí)領(lǐng)域形成PaddlePaddle、PyTorch和TensorFlow——“PPT”三強(qiáng)鼎立的格局。
你方唱罷我登場,Google與Facebook兩強(qiáng)之爭
2015年11月 ,Google發(fā)布了TensorFlow的白皮書并很快將其開源。但即使以Google的影響力,開源TensorFlow并沒有在技術(shù)圈之外引起過多反響。
2016年3月,AlphaGo與世界圍棋冠軍李世石進(jìn)行了人機(jī)大戰(zhàn),并以4比1的總比分獲勝,成為當(dāng)年現(xiàn)象級事件。與此同時(shí),也點(diǎn)燃了大眾對人工智能的熱情,AI技術(shù)在各行各業(yè)的應(yīng)用開始加速,TensorFlow也隨之被外界所關(guān)注。
AlphaGo之所以能大放異彩,是因?yàn)樗幸粋€(gè)“最強(qiáng)大腦”,而這個(gè)大腦正建立在TensorFlow之上?!癟ensorFlow對于AlphaGo來說更多的是底層支撐技術(shù),我們的作用是讓AlphaGo運(yùn)作更順暢。”TensorFlow項(xiàng)目領(lǐng)導(dǎo)Rajat Monga如是說。
早在2011年,Google Brain(谷歌大腦)內(nèi)部孵化了一個(gè)叫做DistBelief的項(xiàng)目,這個(gè)項(xiàng)目也被視為TensorFlow的前身。它是為深度神經(jīng)網(wǎng)絡(luò)而構(gòu)建的一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),當(dāng)時(shí)被廣泛應(yīng)用在Google內(nèi)部的科研和商業(yè)產(chǎn)品中,如搜索、YouTube、語音搜索、廣告、相冊、地圖、街景和Google翻譯等。
之后Google決定把DistBelief打造成一個(gè)更加快速、穩(wěn)健、通用的深度學(xué)習(xí)框架,調(diào)動(dòng)了大批工程師投入到對DistBelief的改造,其中就包括在人工智能乃至整個(gè)計(jì)算機(jī)科學(xué)領(lǐng)域都赫赫有名的Jeff Dean,DistBelief迅速蛻變,成為一個(gè)工業(yè)級的深度學(xué)習(xí)框架,也就是后來的TensorFlow。
據(jù)Google當(dāng)時(shí)的介紹,TensorFlow在圖像分類的任務(wù)中,在100個(gè)GPUs和不到65小時(shí)的訓(xùn)練時(shí)間下,達(dá)到了78%的正確率。更快速高效的訓(xùn)練速度就是人工智能企業(yè)的核心競爭力之一,而分布式則意味著TensorFlow能夠真正大規(guī)模進(jìn)入到產(chǎn)業(yè)中,從而產(chǎn)生實(shí)質(zhì)影響。
除Google之外,eBay、Airbnb、Twitter、Uber也都在使用TensorFlow進(jìn)行AI模型訓(xùn)練和開發(fā),同時(shí),國內(nèi)也有大量公司使用TensorFlow開源框架。
通過TensorFlow建立的大規(guī)模深度學(xué)習(xí)模型的應(yīng)用場景非常廣泛,并且獲得了最前沿的成果,這些領(lǐng)域包括語音識別、自然語言處理、計(jì)算機(jī)視覺、機(jī)器人(9.120, 0.00, 0.00%)控制、信息抽取、藥物研發(fā)等。
數(shù)據(jù)科學(xué)網(wǎng)站KDnuggets的統(tǒng)計(jì)顯示,2018年時(shí),在GitHub的活躍度、Google上的搜索量、知名科技媒體Medium上的文章數(shù)量以及arXiv上的論文數(shù)量,TensorFlow所占比重都是最多的,遙遙領(lǐng)先于其他深度學(xué)習(xí)框架??萍即髲S背景、明星團(tuán)隊(duì)、先發(fā)優(yōu)勢,TensorFlow迅速成為最炙手可熱的深度學(xué)習(xí)框架。
但一家獨(dú)大的局面也并未持續(xù)太久。早在改名META之前,F(xiàn)acebook與Google的競爭就早已是公開的秘密,自然不會(huì)將深度學(xué)習(xí)框架這塊人工智能發(fā)展的“必爭之地”拱手讓人。就在AlphaGo擊敗李世石的同一年,F(xiàn)acebook內(nèi)部正在醞釀一場未來深度學(xué)習(xí)框架之爭的風(fēng)暴。
彼時(shí)Facebook AI還在使用Caffe、Torch框架。雖然TensorFlow的出現(xiàn)使得過去很多繁雜的工作得到簡化,但還有許多基于Caffe、Torch框架的研究,而Torch這樣的框架在使用時(shí)卻不甚便利,開發(fā)者甚至需要每組網(wǎng)絡(luò)層手動(dòng)編寫微分,然后再以一種復(fù)雜的方式組合在一起。
一個(gè)名為Soumith Chintala的人希望可以開發(fā)出新一代的框架,它可以自動(dòng)微分,而且使用動(dòng)態(tài)計(jì)算圖。后來,他成為了PyTorch的創(chuàng)始人。
TensorFlow在高速發(fā)展過程中,也產(chǎn)生了很多被人詬病的地方,比如API的穩(wěn)定性、效率和基于靜態(tài)計(jì)算圖的編程上的復(fù)雜性等。這些不足之處為競爭中的PyTorch送上了助攻。
2018年,Caffe2代碼并入PyTorch ,F(xiàn)acebook主力支持的兩大深度學(xué)習(xí)框架合二為一,PyTorch的發(fā)展駛?cè)肟燔嚨溃绕鹚俣攘钊诉粕?。Chintala也介紹,很多研究人員喜愛PyTorch。如今,PyTorch已經(jīng)在學(xué)術(shù)論文圈形成了絕對的優(yōu)勢。據(jù)統(tǒng)計(jì),在Hugging Face上有85%的模型是PyTorch獨(dú)家的,TensorFlow的比例僅為8%。而在最受歡迎的前30個(gè)項(xiàng)目中,所有項(xiàng)目都有使用PyTorch,而超過10個(gè)模型并未使用TensorFlow。
對八家頂尖研究期刊的統(tǒng)計(jì)數(shù)據(jù)顯示,誕生之初,僅有7%的論文使用了PyTorch框架,而到了2021年,這一比例已經(jīng)增長到了接近80%。
此外,在2019年,有55%的TensorFlow使用者轉(zhuǎn)而使用了PyTorch。
雖然隨著PyTorch的崛起,TensorFlow的威勢不再,但在工業(yè)界,TensorFlow仍然占據(jù)著主流框架的位置。
TensorFlow比PyTorch更適用于生產(chǎn)環(huán)境??蒲腥藛T最關(guān)心的是他們在研究當(dāng)中迭代的速度有多快,他們會(huì)優(yōu)先考慮框架實(shí)現(xiàn)新思路的能力。相反,工業(yè)界則認(rèn)為性能是最需要優(yōu)先考慮的。
另外,從一開始TensorFlow就是一個(gè)面向部署的首選框架,因?yàn)樗幸幌盗锌梢蕴岣叨说蕉松疃葘W(xué)習(xí)效率的工具,比如TensorFlow Serving和TensorFlow Lite。
PyTorch還不能夠很好地滿足工業(yè)界的需求,因此大多數(shù)在生產(chǎn)環(huán)境下的開發(fā)者都傾向選擇使用TensorFlow。但從1.6版本發(fā)布開始,PyTorch對生產(chǎn)環(huán)境的支持也更加友好,外界認(rèn)為 PyTorch 會(huì)逐漸在此方面縮小與TensorFlow的差距。
TensorFlow依托工業(yè)界的部署優(yōu)勢,PyTorch憑借其易用性優(yōu)勢,兩者一度占領(lǐng)了全球深度學(xué)習(xí)市場,但隨著中國企業(yè)加入到這場競爭中,這個(gè)格局已然出現(xiàn)了變化。
深度學(xué)習(xí)框架之爭的下半場,“PT”變成“PPT”
回望2016年,對于深度學(xué)習(xí)框架來說,是歷史性的一年,也正是在這一年,百度的PaddlePaddle開源,打響了國產(chǎn)深度學(xué)習(xí)框架開源的第一槍。百度的出征,也標(biāo)志著中國科技企業(yè)有能力參與到人工智能底層技術(shù)的競爭中。
其實(shí),PaddlePaddle的開發(fā)與應(yīng)用也已頗有些時(shí)日。當(dāng)時(shí)的深度學(xué)習(xí)框架大多只支持單 GPU運(yùn)算,對于百度這樣需要對大規(guī)模數(shù)據(jù)進(jìn)行處理的企業(yè),顯然遠(yuǎn)遠(yuǎn)不夠,極大拖慢了研究速度。百度急需一種能夠支持多GPU、多臺機(jī)器并行計(jì)算的深度學(xué)習(xí)平臺,由此促成了這個(gè)框架的誕生。
2016年百度世界大會(huì)上,PaddlePaddle正式對外開源開放。畢竟是國產(chǎn)框架,2019年,PaddlePaddle有了中文名,名叫“飛槳”,取自“聞?wù)f雙飛槳,翩然下廣津”。
到2020年,國產(chǎn)深度學(xué)習(xí)框架百花齊放,國內(nèi)頂級科技公司和研究機(jī)構(gòu)逐漸開始開源自己的深度學(xué)習(xí)計(jì)算框架,包括曠視的MegEngine、清華的Jittor、華為的MindSpore以及一流科技的OneFlow等等。
此時(shí),國產(chǎn)框架在技術(shù)上不再是單純的跟隨者。其中百度最早出發(fā),生態(tài)建設(shè)也最早起步。飛槳PaddlePaddle作為國內(nèi)最早的開源框架,模型庫最豐富,產(chǎn)業(yè)鏈生態(tài)也最成規(guī)模。它免費(fèi)開放了很多超大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練模型,可以直接在產(chǎn)業(yè)界落地使用。同時(shí),飛槳PaddlePaddle持續(xù)降低AI產(chǎn)業(yè)應(yīng)用門檻,將人工智能變?yōu)橹行∑髽I(yè)與普通產(chǎn)業(yè)從業(yè)者也能方便使用的工具。
簡而言之,易學(xué)易用,靈活高效,成為飛槳PaddlePaddle的一大亮點(diǎn)。
如今,在GitHub(世界最大開源代碼平臺)上,TensorFlow、PyTorch和飛槳PaddlePaddle組織下的開源代碼倉庫star總量位居前三,飛槳PaddlePaddle的star數(shù)超過1k的repo合計(jì),總star數(shù)已超過100k,還在不斷增長。在公開數(shù)據(jù)上看,這個(gè)國產(chǎn)框架已經(jīng)可與TensorFlow和PyTorch分庭伉禮。
數(shù)據(jù)調(diào)研機(jī)構(gòu)IDC發(fā)布的2021年上半年深度學(xué)習(xí)框架平臺市場份額報(bào)告也顯示,百度在中國深度學(xué)習(xí)平臺市場中的綜合份額持續(xù)增長,超過Google和Facebook,躍居第一。
至此,“PyTorch還是TensorFlow”這種“PT”里邊二選一的局面已成為過去,深度學(xué)習(xí)框架領(lǐng)域,PaddlePaddle、PyTorch、TensorFlow三強(qiáng)鼎立的“PPT”時(shí)代已經(jīng)來臨。
截至2021年底,飛槳PaddlePaddle已經(jīng)匯聚406萬開發(fā)者,創(chuàng)建了47.6萬個(gè)模型,服務(wù)15.7萬家企業(yè),幫助中國企業(yè)將智能化升級主導(dǎo)權(quán)掌握在自己手中。
“PPT”時(shí)代,深度學(xué)習(xí)框架如何競爭
“就我們的經(jīng)驗(yàn)來說,開發(fā)者才是推動(dòng)改天換地的在線體驗(yàn)背后的驅(qū)動(dòng)力(5.140, 0.00, 0.00%)量,特別是當(dāng)他們手握便利工具時(shí)更是如虎添翼?!边@是Fastly客戶解決方案高級副總裁Adam Denenberg曾說過的一句話?!暗瞄_發(fā)者得天下”,這話放在深度學(xué)習(xí)框架一樣適用,不遺余力吸引開發(fā)者進(jìn)入,成為了“PPT”三大深度學(xué)習(xí)框架的共同目標(biāo)。
而如何獲得開發(fā)者的青睞,則要看“PPT”等深度學(xué)習(xí)框架的完備性、高效性和易用性?!癙PT”間的競爭就是最典型的例子。
起初,TensorFlow憑借Google強(qiáng)大的技術(shù)實(shí)力,做到了技術(shù)領(lǐng)先,能為人所不能,對于需要將模型投入生產(chǎn)的人來說,TensorFlow強(qiáng)大的部署框架和端到端TensorFlow Extended平臺,使其表現(xiàn)一直很強(qiáng)勢,隨之也為它帶來越來越多的開發(fā)者,其開發(fā)社區(qū)生態(tài)也得到良性發(fā)展。
但系統(tǒng)復(fù)雜程度高、難以維護(hù)、API不穩(wěn)定等缺點(diǎn)一直都為開發(fā)者所詬病,PyTorch出現(xiàn)以后,其強(qiáng)勁的增長勢頭很大程度上是拜TensorFlow的這些缺點(diǎn)所賜,相當(dāng)一部分開發(fā)者轉(zhuǎn)而使用PyTorch。盡管在2019年推出的TensorFlow 2針對性地改善了一些問題,但PyTorch的增長勢頭已經(jīng)難以遏制,競爭格局已然形成。恐怕連Google自己也沒有想到,框架的易用性可以讓PyTorch搶走那么多開發(fā)者。
而在國外科技巨頭的競爭之外,國產(chǎn)的飛槳PaddlePaddle也以易學(xué)易用,靈活高效著稱。飛槳同樣依托了百度的技術(shù)實(shí)力和業(yè)務(wù)應(yīng)用積累。在訓(xùn)練部分的調(diào)用方式上,飛槳集中了瀏覽器和客戶端等多種主流調(diào)用方式,并支持CPU、GPU、FPGA等廣泛硬件,從而極力降低使用門檻。同時(shí),為了讓更多開發(fā)者和企業(yè)能夠?qū)F(xiàn)有項(xiàng)目接入到飛槳,做到了從基礎(chǔ)訓(xùn)練到分布架構(gòu)徹底開源。這些努力為其帶來不少開發(fā)者。
飛槳PaddlePaddle方面也曾表示,要發(fā)展成具有中國特色、最適合中國國情的深度學(xué)習(xí)平臺。從當(dāng)前國內(nèi)市場來看,飛槳所提供的適用中文文檔與數(shù)據(jù)集的開發(fā)框架社區(qū),也是其在“PPT”的競爭當(dāng)中站穩(wěn)腳跟的一大助力。更適合本土開發(fā)者和產(chǎn)業(yè)體系的框架,自然會(huì)使飛槳更具吸引力。
尾聲
其實(shí)有不少人對國產(chǎn)深度學(xué)習(xí)框架的發(fā)展持有懷疑態(tài)度,深度學(xué)習(xí)框架的搭建是一項(xiàng)費(fèi)時(shí)費(fèi)力的龐大工程,比如在使用飛槳PaddlePaddle時(shí)會(huì)擔(dān)心它的技術(shù)深度,感覺重復(fù)“造輪子”沒必要。
但深度學(xué)習(xí)技術(shù)仍在不斷發(fā)展,復(fù)雜程度也會(huì)跟著提高,強(qiáng)如“PPT”,也并不意味這三個(gè)框架已經(jīng)達(dá)到完美的程度,只能說各有千秋,最終誰能真正造成這個(gè)“輪子”未來仍有變數(shù),飛槳PaddlePaddle等國產(chǎn)框架依然有很大的機(jī)會(huì)。
另外,美國政界越來越多地關(guān)注人工智能領(lǐng)域的國際競爭,其中最受其重視的是,防止中國取得對人工智能的全球領(lǐng)導(dǎo)權(quán)。去年3月,美國人工智能國家安全委員會(huì)(NSCAI)向美國國會(huì)提交了一份長達(dá)756頁、關(guān)于人工智能領(lǐng)域競爭的報(bào)告,其中提出了以期壓制中國人工智能發(fā)展的建議。這說明了在人工智能領(lǐng)域構(gòu)建中國自主可控核心技術(shù)的重要性和必要性。
如果把人工智能產(chǎn)業(yè)比作一棟樓,那深度學(xué)習(xí)框架就好比是地基,地基不穩(wěn),工藝再好的樓也總是要面臨坍塌的風(fēng)險(xiǎn),高度依賴國外的深度學(xué)習(xí)框架便相當(dāng)于“被卡住了脖子”。有鑒于此,中國在推進(jìn)自身人工智能的發(fā)展時(shí),理應(yīng)準(zhǔn)備好相應(yīng)的對策,科技自立自強(qiáng)是人工智能發(fā)展格局的根本支撐,也是向世界證明中國人工智能的創(chuàng)新能力和底氣。
參考資料
Defense One 《Artificial Intelligence》
KDnuggets 《Deep Learning Framework Power Scores 2018》
騰訊科技 《TensorFlow項(xiàng)目負(fù)責(zé)人:我們讓AlphaGo更順暢》
Ryan O'Connor《PyTorch vs TensorFlow in 2022》
責(zé)任編輯:何中夫
聯(lián)系客服