九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
為AI而生的IPU芯片,或挑戰(zhàn)GPU的霸主位?

在CPU芯片領(lǐng)域,延續(xù)至今的“摩爾定律”正在隨著制程工藝逼近物理極限而有了延緩的趨勢,甚至失效的可能。就在摩爾定律的增長放緩腳步的同時,半導(dǎo)體芯片的計算也正在從通用走向?qū)S?,其中AI計算正是其中增長最快的一種專用計算。

現(xiàn)在,AI計算正在接棒摩爾定律,延續(xù)并超越其倍增神話。2019年,OpenAI發(fā)布了AI算力的增長情況,結(jié)果顯示AI算力以3.4個月的倍增時間實現(xiàn)了指數(shù)增長,從2012年起,該指標(biāo)已經(jīng)增長了30萬倍。

在AI算力爆炸式增長的過程中,英偉達(dá)的GPU功不可沒。廣為人知的一個故事就是2012年,來自多倫多大學(xué)的Alex和他的團(tuán)隊設(shè)計了AlexNet的深度學(xué)習(xí)算法,并用了2個英偉達(dá)的GTX580 GPU進(jìn)行訓(xùn)練后,打敗了其他所有計算機(jī)視覺團(tuán)隊開發(fā)的算法,成為那一屆ImageNet的冠軍。

此后,在計算機(jī)視覺和自然語言處理領(lǐng)域,GPU的高并行計算能力得到了充分的發(fā)揮,英偉達(dá)的GPU也隨著AI第三次浪潮的崛起而迎來井噴發(fā)展。與此同時,更多為機(jī)器學(xué)習(xí)而專門定制的專用芯片開始出現(xiàn),比如專用集成電路(ASIC)的張量處理單元TPU、神經(jīng)網(wǎng)絡(luò)單元NPU以及半定制芯片F(xiàn)PGA等等。

2018年底,英國一家名為Graphcore的創(chuàng)業(yè)公司推出了一種專門用于AI計算的處理器芯片IPU(Intelligence Processing Unit)。一經(jīng)問世,IPU就受到AI界越來越多的關(guān)注。

ARM創(chuàng)始人,被稱為英國半導(dǎo)體之父的赫曼·豪瑟曾為Graphcore的IPU給出很高評價,將其譽為“計算機(jī)史上三次革命中,繼CPU和GPU之后的第三次革命”。赫曼在芯片產(chǎn)業(yè)的地位自然不容置疑,但由于Graphcore是英國芯片產(chǎn)業(yè)中為數(shù)不多的新生力量,難免赫曼有“護(hù)犢子”的打廣告之嫌。

IPU出道2年時間,現(xiàn)已推出了量產(chǎn)第二代型號為GC2的IPU。那么,IPU的表現(xiàn)如何,與GPU相比有哪些優(yōu)勢之處,這是本文要重點探討的問題。

GPU所開啟的深度學(xué)習(xí)

一個廣為人們熟知的例子就是,在計算機(jī)視覺發(fā)展初期的2011年,谷歌大腦想要在YouTube的視頻中識別人類和貓,當(dāng)時這樣一個簡單的任務(wù),谷歌要動用一家大型數(shù)據(jù)中心內(nèi)的 2,000 顆服務(wù)器 CPU,這些CPU的運行會產(chǎn)生大量的熱量和能耗,關(guān)鍵是代價不菲,很少能有研究人員可以用得起這種規(guī)模的服務(wù)器。

不過在當(dāng)時,研究人員注意到了英偉達(dá)的GPU,斯坦福大學(xué)的吳恩達(dá)團(tuán)隊開始和英偉達(dá)合作,將GPU應(yīng)用于深度學(xué)習(xí)。后來證明,只需要12顆英偉達(dá)GPU就可以達(dá)到相當(dāng)于2000顆CPU提供的深度學(xué)習(xí)性能。此后越來越多的AI研究人員開始在GPU上加速其深度神經(jīng)網(wǎng)絡(luò) (DNN)的訓(xùn)練。

現(xiàn)在我們都知道,GPU能夠在深度學(xué)習(xí)的訓(xùn)練中大顯身手,正是源于GPU的計算架構(gòu)正好適用于深度學(xué)習(xí)的計算模式。深度學(xué)習(xí)是一種全新的計算模式,其采用的DNN算法包含數(shù)十億個網(wǎng)絡(luò)神經(jīng)元和數(shù)萬億個連接來進(jìn)行并行訓(xùn)練,并從實例中自己學(xué)習(xí)規(guī)律。

深度學(xué)習(xí)算法主要依賴的基本運算方法有矩陣相稱和卷積浮點運算,而GPU多核架構(gòu)在原本圖像渲染中可以大規(guī)模處理矩陣乘法運算和浮點運算,很好地可以處理并行計算任務(wù),使得DNN訓(xùn)練速度大幅提升。

此后,GPU成為輔助完成深度學(xué)習(xí)算法的主流計算工具,大放異彩。但GPU本身并非是專門為AI計算而設(shè)計的芯片,其中有大量的邏輯計算對于AI算法來說毫無用處,所以行業(yè)自然也需要專門針對AI算法的專用AI芯片。

近幾年,全球已經(jīng)有上百家公司投入到新型AI芯片的研發(fā)和設(shè)計當(dāng)中,當(dāng)然最終能夠成功流片并推出商用的仍然是幾家巨頭公司和少數(shù)實力雄厚的獨角獸公司。

這其中,2017年初創(chuàng)成立的Graphcore所研發(fā)的AI芯片IPU,則成為這些AI芯片當(dāng)中的另類代表,因其不同于GPU架構(gòu)的創(chuàng)新得到了業(yè)內(nèi)的關(guān)注。而這正是我們要著重介紹的部分。

更適合AI計算的IPU芯片

近兩年,AI 芯片出現(xiàn)了各種品類的井噴,其中甚至出現(xiàn)一些堪稱瘋狂的另類產(chǎn)品。

比如一家同樣創(chuàng)立四年的AI芯片創(chuàng)業(yè)公司Cerebras Systems就發(fā)布了史上最大的半導(dǎo)體芯片Wafer Scale Engine(WSE),號稱“晶圓級發(fā)動機(jī)”,擁有1.2萬億個晶體管,比英偉達(dá)最大的GPU要大出56.7倍。這塊芯片主要瞄準(zhǔn)的是超級計算和和大型云計算中心市場,其創(chuàng)新之處在于一體化的芯片設(shè)計大幅提高了內(nèi)部的數(shù)據(jù)通信數(shù)據(jù),但其架構(gòu)仍然類似于GPU的計算架構(gòu)。

而Graphcore的 IPU與GPU的架構(gòu)差異非常大,代表的是一種新的技術(shù)架構(gòu),可以說是專門為解決CPU和GPU在AI計算中難以解決的問題而設(shè)計的。

IPU為AI計算提供了全新的技術(shù)架構(gòu),同時將訓(xùn)練和推理合二為一,兼具處理二者工作的能力。

我們以目前已經(jīng)量產(chǎn)的IPU的GC2處理器來看,IPU GC2采用臺積電的16nm工藝,擁有 236億個晶體管,在120瓦的功耗下有125TFlops的混合精度,另外有45TB/s內(nèi)存的帶寬、8TB/s片上多對多交換總線,2.5 TB/s的片間IPU-Links。

其中,片內(nèi)有1216個IPU-Tiles獨立處理器核心,每個Tile中有獨立的IPU核,作為計算以及In-Processor-Memory(處理器內(nèi)的內(nèi)存)。對整個GC2來說共有7296個線程(每個核心最多可以跑6個線程),能夠支持7296個程序并行運行,處理器內(nèi)的內(nèi)存總共可以達(dá)到300MB,其設(shè)計思路就是要把所有模型放在片內(nèi)處理。

首先,IPU作為一個標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)處理芯片,可以支持多種神經(jīng)網(wǎng)絡(luò)模型,因其具備數(shù)以千計到數(shù)百萬計的頂點數(shù)量,遠(yuǎn)遠(yuǎn)超過GPU的頂點規(guī)模,可以進(jìn)行更高潛力的并行計算工作。此外,IPU的頂點的稀疏特性,令其也可以高效處理GPU不擅長的稀疏的卷積計算。其次,IPU 也支持了模型參數(shù)的復(fù)用,這些復(fù)用特性可以獲取數(shù)據(jù)中的空間或時間不變性,對于訓(xùn)練與推理的性能會有明顯幫助。

其次,為解決芯片內(nèi)存的寬帶限制,IPU采用了大規(guī)模并行MIMD(多指令流多數(shù)據(jù)流)眾核架構(gòu),同時,IPU架構(gòu)做了大規(guī)模分布式的片上SRAM。片內(nèi)300MB的SRAM,相對于GPU的GDDR、HBM來說,可以做到數(shù)十倍的性能提升,而且與訪問外存相比,SRAM的片內(nèi)時延基本可以忽略不計。

第三,IPU采用了高效的多核通信技術(shù)BSP(Bulk Synchronous Parallel)。IPU是目前世界上第一款采用BSP通信的處理器,支持內(nèi)部1216個核心之間的通信以及跨不同的IPU之間的通信。通過硬件支持BSP協(xié)議,并通過BSP協(xié)議把整個計算邏輯分成了計算、同步、交換,能極大方便工程師們的開發(fā)工作。

基于以上IPU的差異化特點,IPU在某些批量訓(xùn)練和推理中能夠獲得更好的性能、更低延時和更快網(wǎng)絡(luò)收斂。片內(nèi)的SRAM相對于片外存儲,也有高帶寬和低延時的優(yōu)勢。

今年7月,Graphcore發(fā)布了二代的Colossus MK2 IPU (MK2),以及包含四顆MK2芯片系統(tǒng)方案的IPU-Machine:M2000 (IPU-M2000),其核心數(shù)增加了20% ,達(dá)到1472個,8832個可并行執(zhí)行的線程。片內(nèi)SRAM則多出3倍,增加到900MB,互聯(lián)擴(kuò)展性能是上一代的16倍。顯然在計算、數(shù)據(jù)和通信擴(kuò)展層面,MK2都算是延續(xù)了第一代IPU堆料狂魔的作風(fēng)。

由4個IPU芯片構(gòu)成的IPU-M2000系統(tǒng),可以提供大約1 PetaFLOPs的算力。基于IPU的多層級存儲結(jié)構(gòu),與IPU Exchange Memory等技術(shù)優(yōu)化,整體與GPU的HBM2存儲比較,可以提供超過100倍的帶寬以及大約10倍的容量,可以適用于更復(fù)雜的AI模型和程序。

計算加上數(shù)據(jù)的突破可以讓IPU在原生稀疏計算中展現(xiàn)出領(lǐng)先GPU 10-50倍的性能優(yōu)勢,在通信上,Graphcore專為為AI橫向擴(kuò)展設(shè)計了IPU-Fabric,解決數(shù)據(jù)中心大規(guī)模計算橫向擴(kuò)展的關(guān)鍵問題。Graphcore將計算、數(shù)據(jù)、通信三者的突破技術(shù)結(jié)合,構(gòu)建了大規(guī)模可擴(kuò)展的IPU-POD系統(tǒng),最終可以提供一個AI計算和邏輯進(jìn)行解耦、系統(tǒng)易于部署、超低網(wǎng)絡(luò)延時、高可靠的AI超算集群。

可以預(yù)計,未來IPU在各類AI應(yīng)用中將具有更大的優(yōu)勢,而這也必然會引起英偉達(dá)的注意。那么,相較于英偉達(dá)GPU所占據(jù)的AI行業(yè)生態(tài)位的霸主地位,IPU會有哪些前景,也會遭遇哪些困境呢?

走向通用AI計算的“另辟蹊徑”

如果回顧下AI芯片的發(fā)展經(jīng)歷,我們看到在經(jīng)過這幾年專用AI芯片的井噴之后,也開始面臨一個尷尬困境,那就是ASIC芯片的靈活性或者說可編程性很差,對應(yīng)的專用AI芯片只能應(yīng)對一種算法應(yīng)用,而算法本身則在3-6個月的時間就有可能變化一次,或許出現(xiàn)很多AI芯片還未上市,算法就已經(jīng)發(fā)生進(jìn)化的問題,一些AI芯片注定無法生產(chǎn)。當(dāng)然,專用AI芯片的優(yōu)勢也很明顯,在性能、功耗和效率上遠(yuǎn)勝更加通用的GPU,對于一些非常具體的AI應(yīng)用場景,這些專用芯片就具有了巨大的收益。

從專注圖像渲染崛起的英偉達(dá)的GPU,走的也是相當(dāng)于ASIC的技術(shù)路線,但隨著游戲、視頻渲染以及AI加速需要的出現(xiàn),英偉達(dá)的GPU也在向著GPGPU(General Purpose GPU)的方向演進(jìn)。為保持其在GPU領(lǐng)域的寡頭地位,使得英偉達(dá)必須一直保持先進(jìn)的制程工藝,保持其通用性,但是要犧牲一定的效能優(yōu)勢。

這給后來者一定的啟發(fā),那就是AI芯片既要具備一定的靈活的可編程性(通用性),又要具備專用的高效性能優(yōu)勢。這為IPU找到了一個新的細(xì)分市場,也就是介入GPU不能很好發(fā)揮效能的神經(jīng)網(wǎng)絡(luò)模型,比如強(qiáng)化學(xué)習(xí)等類型,同時又避免的專用AI芯片的不可擴(kuò)展性,能夠部署在更大規(guī)模的云計算中心或超算中心,對新算法模型保持足夠的彈性計算空間。

目前來看,IPU正在成為僅次于GPU和谷歌TPU的第三大部署平臺,基于IPU的應(yīng)用已經(jīng)覆蓋包括自然語言處理、圖像/視頻處理、時序分析、推薦/排名及概率模型等機(jī)器學(xué)習(xí)的各個應(yīng)用場景。

典型的如通過IPU可以訓(xùn)練胸片,幫助醫(yī)學(xué)人員快速進(jìn)行新冠肺炎的診斷;如在金融領(lǐng)域,對涉及算法交易、投資管理、風(fēng)險管理及詐騙識別的場景進(jìn)行更快的分析和判斷;此外在生命科學(xué)領(lǐng)域、通信網(wǎng)絡(luò)等方面,都可以同IPU實現(xiàn)高于GPU性能的AI加速。

(NLP模型參數(shù)的指數(shù)增長)

當(dāng)然,IPU想要在AI計算中擁有挑戰(zhàn)GPU地位的資格,除了在性能和價格上面證明自己的優(yōu)勢之外,還需要在為機(jī)器學(xué)習(xí)框架提供的軟件棧上提供更多選擇,獲得主流AI算法廠商的支持,在標(biāo)準(zhǔn)生態(tài)、操作系統(tǒng)上也需要有廣泛的支持,對于開發(fā)者有更方便的開發(fā)工具和社區(qū)內(nèi)容的支持,才能從實際應(yīng)用中壯大IPU的開發(fā)生態(tài)。

今年, AI芯片產(chǎn)業(yè)正在遭遇洗牌期,一些AI芯片企業(yè)黯然退場,但這并不意味著AI計算遭遇寒冬,反而AI算力正在得到大幅提升,以今年數(shù)量級提升GPT-3的出場就可以看出這樣的趨勢。

一個AI芯片從產(chǎn)出到大規(guī)模應(yīng)用必須要經(jīng)過一系列的中間環(huán)節(jié),包括像上面提到的支持主流算法框架的軟件庫、工具鏈、用戶生態(tài)等等,打通這樣一條鏈條都會面臨一個巨大挑戰(zhàn)。

現(xiàn)在,GPU已經(jīng)形成一個非常完整的AI算力生態(tài)鏈路,而IPU則仍然在路上,是否能真正崛起,還需要整個AI產(chǎn)業(yè)和開發(fā)者用實際行動來投票。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
不是GPU的IPU,為什么更值得英偉達(dá)警惕?
Graphcore高級副總裁盧濤:構(gòu)建先進(jìn)計算平臺,幫助創(chuàng)新者實現(xiàn)下一突破
成為“AI芯片之王”,要燒掉多少錢?
GPU高功耗軟肋已成最大危機(jī)?“AI 硅腦”迎來戰(zhàn)國時代,GPU十年霸業(yè)將遭“圍剿” | 獨家觀點
AI原生芯片
第五類人工智能處理器殺出,訓(xùn)練推理通吃
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服