23Q1 AMD重磅推出結(jié)合CPU+GPU架構(gòu)的MI300正式進(jìn)軍AI訓(xùn)練端,對(duì)標(biāo)英偉達(dá)Grace Hopper,通過(guò)規(guī)格及性能全面提升,重點(diǎn)發(fā)力數(shù)據(jù)中心的HPC及AI領(lǐng)域,試圖重演16年CPU端突圍成功,但AMD的ROCm軟件系統(tǒng)相較英偉達(dá)CUDA起步晚且生態(tài)圈較為單薄,或?yàn)槠浯蚱朴ミ_(dá)獨(dú)大的一大障礙。
核心觀點(diǎn)
MI300在AI正面交鋒英偉達(dá),AMD能否復(fù)制16年CPU突圍戰(zhàn)的成功?
AMD曾在2016年通過(guò)Zen架構(gòu)及領(lǐng)先制程計(jì)劃,顛覆英特爾一家獨(dú)大的局面,并開(kāi)始蠶食其CPU市場(chǎng)份額。隨后,AMD在2018年P(guān)C端制程首度彎道超車英特爾,市場(chǎng)份額加速提升;19年聯(lián)手臺(tái)積電,率先躍入7nm制程,在服務(wù)器端也實(shí)現(xiàn)制程超越,股價(jià)在20年超過(guò)英特爾,市值也在22年開(kāi)始超越英特爾。23Q1 AMD重磅推出結(jié)合CPU+GPU架構(gòu)的MI300正式進(jìn)軍AI訓(xùn)練端,對(duì)標(biāo)英偉達(dá)Grace Hopper,通過(guò)規(guī)格及性能全面提升,重點(diǎn)發(fā)力數(shù)據(jù)中心的HPC及AI領(lǐng)域,試圖重演16年CPU端突圍成功。MI300將于下半年正式推出,管理層預(yù)計(jì)2024年將看到明顯貢獻(xiàn)。
MI300全方位追擊英偉達(dá)Grace Hopper,但軟件生態(tài)完善成破局關(guān)鍵
MI300結(jié)合AMD的Zen 4 CPU與CNDA 3 GPU,仿生人腦結(jié)構(gòu),順應(yīng)多模態(tài)模型發(fā)展趨勢(shì),制程躍入臺(tái)積電5nm體系,與英偉達(dá)看齊,算力及能耗性能相較前代MI250X也顯著提升。數(shù)據(jù)傳輸方面,MI300采用“統(tǒng)一內(nèi)存架構(gòu)”突破GPU與CPU之間的數(shù)據(jù)傳輸速度限制,類比英偉達(dá)NVLink技術(shù),能滿足未來(lái)AI訓(xùn)練和推理中,海量數(shù)據(jù)計(jì)算和傳輸?shù)男枨?。價(jià)格方面,高性價(jià)比策略的延續(xù)將為其與英偉達(dá)的競(jìng)爭(zhēng)中再添一碼。然而,AMD的ROCm軟件系統(tǒng)相較英偉達(dá)CUDA起步晚且生態(tài)圈較為單薄,或?yàn)槠浯蚱朴ミ_(dá)獨(dú)大的一大障礙。
AI為第一戰(zhàn)略重點(diǎn),豐富產(chǎn)品矩陣深化競(jìng)爭(zhēng)壁壘,微軟會(huì)否助力一臂?
AMD管理層強(qiáng)調(diào)AI為目前的第一戰(zhàn)略重點(diǎn),公司正致力于構(gòu)建更加多元的AI產(chǎn)品矩陣。目前發(fā)布的產(chǎn)品包括融合Ryzen AI以提高性能的Ryzen 7040系列CPU、自適應(yīng)數(shù)據(jù)中心平臺(tái)Versal AI、注重能耗性能的AMD Alveo V70 AI推理加速器,以及數(shù)據(jù)中心CPU第四代EPYC Genoa處理器(Genoa-X還未上市)。而即將上市的MI300將助陣其豐富的AI產(chǎn)品矩陣,欲在AI訓(xùn)練端攻城略地,跟英偉達(dá)正面交鋒。另外,考慮到TCO、可控性及自身生態(tài)圈集成,云廠商自研芯片也為大勢(shì)所趨。最近彭博報(bào)道微軟跟 AMD 合作研發(fā) AI 芯片,微軟雖否認(rèn),但也說(shuō)明了云廠商與芯片公司合作的可能性。
PC需求下行欲見(jiàn)底,管理層預(yù)計(jì)下半年市場(chǎng)將回暖
AMD 23Q1營(yíng)收及利潤(rùn)雖超預(yù)期,但同比均下滑,主要鑒于PC出貨量持續(xù)下行,公司控制出貨量以消耗下游庫(kù)存。雖然目前全球PC出貨量底部還未出現(xiàn),但管理層表示正致力于平衡出貨量與需求,預(yù)計(jì)下半年P(guān)C和服務(wù)器市場(chǎng)將恢復(fù),業(yè)務(wù)將錄得增長(zhǎng)。公司Q1推出了PC端亮眼產(chǎn)品組合:Ryzen 7000X3D通過(guò)3D V-Cache技術(shù)提高數(shù)據(jù)獲取速率及緩存容量、筆記本電腦搭載7945HX CPU在電子設(shè)備測(cè)評(píng)中領(lǐng)先,而Ryzen 7040系列Phoenix CPU相關(guān)產(chǎn)品將在5月中下旬開(kāi)始陸續(xù)上市。以上產(chǎn)品均基于Zen 4架構(gòu)和臺(tái)積電5nm制程。
第四代 EPYC 數(shù)據(jù)中心 CPU ,重磅升級(jí)發(fā)力云端
23Q1數(shù)據(jù)中心業(yè)務(wù)受限于宏觀經(jīng)濟(jì)營(yíng)收同比持平,但云巨頭進(jìn)一步擴(kuò)大AMD產(chǎn)品部署,當(dāng)季新增搭載28個(gè)項(xiàng)目。第四代EPYC CPU家族再添新成員,成為MI300之外下半年拉動(dòng)數(shù)據(jù)中心營(yíng)收增長(zhǎng)的第二引擎。Bergamo基于臺(tái)積電5nm制程,擁有多達(dá)128個(gè)內(nèi)核,計(jì)劃Q2末上市,公司預(yù)期其為下半年?duì)I收的重要貢獻(xiàn);Genoa-X對(duì)比同樣采用3D V-Cache技術(shù)的第三代EPYC CPU Milan-X,在內(nèi)存容量及帶寬再上一層樓。AMD主要競(jìng)爭(zhēng)對(duì)手英特爾23Q1同樣推出數(shù)據(jù)中心CPU,但其均采用Intel 7制程,等同于臺(tái)積電7nm制程,相較AMD仍然落后。
風(fēng)險(xiǎn)提示:新產(chǎn)品落地進(jìn)度推遲、PC恢復(fù)和AI技術(shù)落地不及預(yù)期等。
正文
MI300正面交鋒英偉達(dá),能否復(fù)制16年CPU突圍戰(zhàn)的成功?
回顧C(jī)PU領(lǐng)域中AMD與英特爾自2016年開(kāi)始的爭(zhēng)鋒歷程,AMD曾憑借領(lǐng)先的制程,一舉顛覆英特爾一家獨(dú)大的局面,成為其CPU業(yè)務(wù)和股價(jià)的拐點(diǎn)。在2020年7月,AMD和英特爾的股價(jià)首次出現(xiàn)倒掛,而到了2022年2月15日,AMD的市值達(dá)1977.5億美元,首度超越英特爾的市值。目前,AMD也試圖在數(shù)據(jù)中心的AI應(yīng)用,特別是訓(xùn)練端里,以新產(chǎn)品MI300跟英偉達(dá)正面交鋒,到底AMD這次能否復(fù)制他們?cè)贑PU一役中的成功?
2016年上半年, AMD發(fā)布了企業(yè)端CPU 技術(shù)路線圖,其中明確表示了制程上的突破,基于臺(tái)積電7nm的CPU將于2018/19年推出。隨后6月,AMD發(fā)表了Zen架構(gòu),涵蓋PC端及服務(wù)器端CPU產(chǎn)品,并在2017年宣布以Zen架構(gòu)重新整合其PC及服務(wù)器產(chǎn)品。在該Zen架構(gòu)技術(shù)路線圖中,AMD進(jìn)一步明確了2018/19年將有7nm產(chǎn)品推出,2020年將向更先進(jìn)制程邁進(jìn)。反觀彼時(shí)的英特爾,由于在制造更先進(jìn)制程芯片的過(guò)程中遭遇技術(shù)困難,10nm芯片良率不佳,導(dǎo)致原定于2016年下半年的10nm(相當(dāng)于臺(tái)積電7nm)量產(chǎn)多翻推遲至19年下半年。目前,AMD的Zen架構(gòu)已發(fā)展到臺(tái)積電5nm制程,而2022年新版技術(shù)路線圖進(jìn)一步更新了其進(jìn)入臺(tái)積電3/4nm制程的計(jì)劃。
2016年6月,AMD宣布推出Zen x86-64微架構(gòu)。對(duì)比彼時(shí)英特爾的Skylake架構(gòu),Zen的CPU部分面積較小,緩存空間有所提升,且散熱片間距加寬,默認(rèn)頻率更高,功耗更低,價(jià)格也較低。隨后在17年初上市,同樣基于Zen架構(gòu)的Ryzen 7系列PC端CPU,采用了14nm制程及8核16線程工藝,對(duì)標(biāo)同為14nm制程的英特爾酷睿i7-6900K(基于16年6月推出的Broadwell-E升級(jí)架構(gòu))。從此時(shí)開(kāi)始,AMD的PC端產(chǎn)品已逐漸逼近英特爾,而蠶食份額的趨勢(shì)也初見(jiàn)苗頭。服務(wù)器端方面,AMD于同年也推出了同樣基于Zen架構(gòu)的EPYC CPU產(chǎn)品,對(duì)標(biāo)英特爾Xeon CPU(同為14nm制程)。EPYC憑借高性能表現(xiàn)及高能耗效率,也開(kāi)始在數(shù)據(jù)中心的市場(chǎng)份額上攻城略地。
在英特爾正深陷良率等問(wèn)題不斷推遲10nm量產(chǎn)的同時(shí),AMD聯(lián)手臺(tái)積電,在制程上不斷取得突破,在PC及服務(wù)器端的制程上紛紛彎道超車英特爾,為市場(chǎng)份額的提升開(kāi)了綠燈。 2018年,AMD推出了采用當(dāng)時(shí)Global Foundry 12nm半節(jié)點(diǎn)制程的Zen+架構(gòu),并基于此推出PC端Ryzen 5 2600及Ryzen 7 2700 CPU,首度在制程上超越當(dāng)時(shí)還是14 nm的英特爾,加速搶占英特爾的CPU市場(chǎng)份額。
隨后在2019年,AMD在PC和服務(wù)器端的制程均更上一層樓。AMD推出了基于臺(tái)積電7nm制程(相當(dāng)于Intel 10nm制程)的Zen 2架構(gòu),當(dāng)中包括Ryzen 9系列的PC端CPU,以及EPYC Rome 服務(wù)器端CPU。Zen 2架構(gòu)采用了Chiplet小芯片設(shè)計(jì),通過(guò)CPU和IO核心分離,解決超多核心并行問(wèn)題的同時(shí)也降低了生產(chǎn)成本,并達(dá)到降低延遲的效果。而在差不多時(shí)間里,英特爾的Ice Lake PC產(chǎn)品也終于上市量產(chǎn),該產(chǎn)品采用了英特爾早在2015年發(fā)表的Intel 10nm制程。英特爾雖勉強(qiáng)追趕上AMD在PC端的制程進(jìn)度,但在制程上的落后也并沒(méi)有改善。
2020年7月底,英特爾宣布將推遲Intel 7nm(對(duì)標(biāo)臺(tái)積電5nm)制程至2022年以后。反觀AMD在20Q2財(cái)報(bào)中PC端業(yè)務(wù)營(yíng)收大漲45%,并進(jìn)一步上調(diào)了全年?duì)I收預(yù)期。當(dāng)月AMD股價(jià)大漲47%并首度超越英特爾的股價(jià)。同年10月,AMD宣布收購(gòu)頭部可編程邏輯器件(FPGA)生產(chǎn)商賽靈思(Xilinx),并于2022 Q1完成并表。對(duì)比英特爾在2015年收購(gòu)了FPGA生產(chǎn)商(Altera),收購(gòu)賽靈思能為AMD帶來(lái)FGPA、可編程SoC及自適應(yīng)計(jì)算加速平臺(tái)產(chǎn)品,并將AMD的產(chǎn)品矩陣擴(kuò)充至與英特爾看齊,為AMD數(shù)據(jù)中心及嵌入式業(yè)務(wù)如虎添翼。
2021年,AMD推出了基于臺(tái)積電7nm制程的Zen 3架構(gòu),并推出了EPYC Milan 服務(wù)器CPU,對(duì)比姍姍來(lái)遲的英特爾,此時(shí)才推出采用Intel 10nm制程的第三代Xeon可擴(kuò)展CPU。2022年,AMD基于臺(tái)積電5nm制程的Ryzen 7000系列產(chǎn)品順利量產(chǎn),再次拉開(kāi)與英特爾PC端制程的距離(當(dāng)時(shí)英特爾仍處于Intel 7階段,對(duì)標(biāo)臺(tái)積電7nm)。
16Q1,AMD在臺(tái)式機(jī)和筆記本的CPU份額僅為11.9%/6.6%。而Zen架構(gòu)及相關(guān)產(chǎn)品推出后,AMD開(kāi)始逐步蠶食英特爾的PC份額,并在18年制程反超英特爾后,份額提升加速。AMD的服務(wù)器CPU在16Q1份額僅為0.3%,市場(chǎng)基本被英特爾所壟斷,但2017年EPYC推出后,服務(wù)器CPU的份額也開(kāi)始一路上漲。至22Q2,AMD在PC端(臺(tái)式機(jī)/筆記本)CPU份額分別攀升到20.6%/24.8%,為史上最高,但隨后Q3出現(xiàn)回落。截止23Q1,AMD臺(tái)式機(jī)/筆記本CPU份額為19.2%/16.2%,服務(wù)器端CPU市場(chǎng)份額為18.0%;英特爾臺(tái)式機(jī)/筆記本CPU份額為80.8%/83.8%;服務(wù)器端CPU市場(chǎng)份額為82.0%。
AMD管理層在22Q3財(cái)報(bào)電話會(huì)表示,主要鑒于PC市場(chǎng)疲軟,客戶大幅調(diào)整供應(yīng)鏈中的庫(kù)存,導(dǎo)致該季度PC端營(yíng)收同比由Q2的增長(zhǎng)25%大幅降低至下滑40%。AMD的下游客戶先前積累了較多AMD產(chǎn)品庫(kù)存,因此在需求走弱后先消化額外庫(kù)存,導(dǎo)致AMD的PC份額短暫下滑,但隨后在Q4即開(kāi)始恢復(fù)。另外,AMD在服務(wù)器端也受到宏觀環(huán)境影響增速下調(diào),在22Q3開(kāi)始份額增長(zhǎng)也放緩。
目前,AMD的MI300 CPU+GPU正準(zhǔn)備進(jìn)軍AI訓(xùn)練市場(chǎng),與英偉達(dá)Grace Hopper正面交鋒。MI300或成為AMD與英偉達(dá)在AI競(jìng)爭(zhēng)的拐點(diǎn),能否重演2016年與英特爾在CPU角逐中的成功?AMD于CES 2023介紹了新一代Instinct MI300加速器,結(jié)合CPU與GPU,同時(shí)聚焦AI語(yǔ)言大模型訓(xùn)練端及推理端,對(duì)標(biāo)英偉達(dá)Grace Hopper(Grace CPU + Hopper H100 GPU),一改過(guò)去AMD的GPU產(chǎn)品主要應(yīng)用在圖像處理及AI推理領(lǐng)域的局限。我們認(rèn)為,MI300應(yīng)該是除了谷歌的TPU之外,能與英偉達(dá)在AI訓(xùn)練端上匹敵的產(chǎn)品。MI300在規(guī)格及性能方面全面追擊英偉達(dá)Grace Hopper,重點(diǎn)發(fā)力數(shù)據(jù)中心的HPC及AI領(lǐng)域。公司早前在22Q4財(cái)報(bào)電話會(huì)里提及,MI300已開(kāi)始送樣給重要客戶,而正式推出將會(huì)在下半年,2024年將看到明顯貢獻(xiàn)。AMD的宿敵英特爾也不甘示弱,在2022年的ISC,英特爾公布了其結(jié)合x(chóng)86 CPU與Xe GPU的Falcon Shores芯片組,該產(chǎn)品原定于2024年上市,但在2023年3月被公司宣布將推遲至2025年以后,具體架構(gòu)信息暫未公布。
我們將從芯片架構(gòu)和制程、算力、內(nèi)存帶寬、價(jià)格和軟件生態(tài)對(duì)AMD MI300和英偉達(dá)Grace Hopper兩者競(jìng)爭(zhēng)優(yōu)勢(shì)展開(kāi)對(duì)比:
1)芯片架構(gòu):CPU+GPU仿生人腦結(jié)構(gòu),制程看齊英偉達(dá)。MI300是AMD首款結(jié)合了Zen 4 CPU與CNDA 3 GPU的產(chǎn)品,也是市場(chǎng)上首款“CPU+GPU+內(nèi)存”一體化產(chǎn)品。MI300采用3D堆疊技術(shù)和Chiplet設(shè)計(jì),配備了9個(gè)基于5nm制程的芯片組(據(jù) PCgamers推測(cè),包括3個(gè)CPU和6個(gè)GPU),置于4個(gè)基于6nm制程的芯片組之上。因此在制程上,MI300屬臺(tái)積電5nm,相較MI200系列的6nm實(shí)現(xiàn)了躍遷,并與英偉達(dá)Grace Hopper的4nm制程(屬臺(tái)積電5nm體系)看齊。MI300晶體管數(shù)量達(dá)到1460億,多于英偉達(dá)H100的800億,以及前代MI250X的582億晶體管數(shù)量。CDNA 3架構(gòu)是MI300的核心DNA,MI300配備了24個(gè)Zen 4數(shù)據(jù)中心CPU核心和128 GB HBM3內(nèi)存,并以8192位寬總線配置運(yùn)行。
2)算力:MI300的性能逼近英偉達(dá)Grace Hopper。AMD上代MI250X(發(fā)布于2021年11月)FP32算力達(dá)47.9 TFLOPS,雖已超越英偉達(dá)A100的19.5TFLOPS(發(fā)布于2020年6月),但其發(fā)布時(shí)間在英偉達(dá)之后。AMD暫時(shí)未公布MI300與英偉達(dá)Grace Hopper在算力上的對(duì)比,但相較上一代的MI250X,MI300在AI上的算力(TFLOPS)預(yù)計(jì)能提升8倍,能耗性能(TFLOPS/watt)將優(yōu)化5倍。因此,此次MI300的性能提升后有望逼近Grace Hopper水平。另外,Grace Hopper支持8位浮點(diǎn)精度,而MI250X僅支持16位及以上,但MI300或?qū)⒃贏I訓(xùn)練中支持4位和8位浮點(diǎn)精度,可進(jìn)一步節(jié)省算力。
3)內(nèi)存帶寬:MI300通過(guò)“統(tǒng)一內(nèi)存架構(gòu)”(Unified Memory)便利GPU-CPU間數(shù)據(jù)傳輸,效果類比英偉達(dá)NVLink技術(shù)。MI300的3D Chiplet架構(gòu)使其內(nèi)部CPU和GPU可共享同一內(nèi)存空間,針對(duì)相同數(shù)據(jù)同時(shí)展開(kāi)計(jì)算,實(shí)現(xiàn)“zero-copy”(即CPU執(zhí)行計(jì)算時(shí)無(wú)需先將數(shù)據(jù)從某處內(nèi)存復(fù)制到另一個(gè)特定內(nèi)存區(qū)域),便利單節(jié)點(diǎn)內(nèi)GPU-CPU之間的數(shù)據(jù)傳輸,減少內(nèi)存帶寬的占用。而英偉達(dá)Grace Hopper則通過(guò)NVLink-C2C實(shí)現(xiàn)GPU-CPU高速互聯(lián),雙方作為內(nèi)存共享對(duì)等體可以直接訪問(wèn)對(duì)方的對(duì)應(yīng)內(nèi)存空間,支持900GB/s的互聯(lián)速度。盡管AMD暫未公布MI300的傳輸帶寬,但其創(chuàng)新的統(tǒng)一內(nèi)存架構(gòu)實(shí)現(xiàn)了GPU-CPU在物理意義上真正的內(nèi)存統(tǒng)一。AMD雖未公布MI300 HBM的更多信息,但最新代HBM3內(nèi)存帶寬約為819GB/s,與英偉達(dá)NVLink C2C 900GB/s帶寬相近。因此MI300內(nèi)GPU-CPU的統(tǒng)一架構(gòu)可繞過(guò)傳統(tǒng)連接協(xié)議速度的障礙,突破GPU-CPU之間的數(shù)據(jù)傳輸速度限制,滿足未來(lái)AI訓(xùn)練和推理中由模型大小和參數(shù)提升帶來(lái)的海量數(shù)據(jù)計(jì)算和傳輸需要。但值得一提的是,英偉達(dá)Grace Hopper還通過(guò)NVLink Switch實(shí)現(xiàn)多達(dá)256個(gè)GPU的互聯(lián),支持高達(dá)150TB的高帶寬內(nèi)存訪問(wèn),可有效解決GPU大規(guī)模并行運(yùn)算中“單節(jié)點(diǎn)本地內(nèi)存不足”的痛點(diǎn),在內(nèi)存帶寬表現(xiàn)上或更勝一籌。
4)價(jià)格:高性價(jià)比策略或?yàn)锳MD在與英偉達(dá)的競(jìng)爭(zhēng)中再添一碼。盡管AMD尚未公布MI300定價(jià),管理層在FY23Q1財(cái)報(bào)電話會(huì)中表示數(shù)據(jù)中心產(chǎn)品將延續(xù)往日的高性價(jià)比定價(jià)風(fēng)格,重點(diǎn)關(guān)注先把市場(chǎng)打開(kāi)。成本效益乃云廠商的重中之重,加上單一依賴一個(gè)廠商也并非他們所愿。公司預(yù)計(jì)MI300將于今年底前推出,并將搭載于勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室的百億級(jí)超級(jí)計(jì)算機(jī)EI Capitan及其他大型云端客戶AI模型中。
5)軟件生態(tài):對(duì)比英偉達(dá)的CUDA(Compute Unified Device Architecture)生態(tài)圈,AMD的ROCm(Radeon Open Compute Ecosystem)或是其打破英偉達(dá)獨(dú)大局勢(shì)的一大障礙。英偉達(dá)于2007年發(fā)布CUDA生態(tài)系統(tǒng),開(kāi)發(fā)人員可以通過(guò)CUDA部署GPU進(jìn)行通用計(jì)算(GPGPU)。通過(guò)先發(fā)優(yōu)勢(shì)和長(zhǎng)期耕耘,CUDA生態(tài)圈已較為成熟,為英偉達(dá)GPU開(kāi)發(fā)、優(yōu)化和部署多種行業(yè)應(yīng)用提供了獨(dú)特的護(hù)城河。AMD的ROCm發(fā)展目標(biāo)是去建立可替代CUDA的生態(tài)。而ROCm于2016年4月發(fā)布,相比2007年發(fā)布的CUDA起步較晚。全球CUDA開(kāi)發(fā)者2020年達(dá)200萬(wàn),2023年已達(dá)400萬(wàn),包括Adobe等大型企業(yè)客戶,而ROCm的客戶主要為研究機(jī)構(gòu),多應(yīng)用于HPC。對(duì)任何一種計(jì)算平臺(tái)和編程模型來(lái)說(shuō),軟件開(kāi)發(fā)人員、學(xué)術(shù)機(jī)構(gòu)和其他開(kāi)發(fā)者與其學(xué)習(xí)、磨合和建立生態(tài)圈都需要時(shí)間,更多的開(kāi)發(fā)者意味著不斷迭代的工具和更廣泛的多行業(yè)應(yīng)用,進(jìn)一步為選擇CUDA提供了更為充分的理由,正向循環(huán)、不斷完善的生態(tài)也將進(jìn)一步提高其用戶粘性。
ROCm暫時(shí)或難以匹敵CUDA的主要原因包括:1)ROCm僅支持Instinct系列(即Radeon Pro系列)GPU的部分 SKUs,包括Radeon Pro W6800 和 Radeon Pro V620,近期方擴(kuò)展至Radeon RX 6900 XT,Radeon RX 6600,以及已有9年歷史的Radeon R9 Fury,而CUDA廣泛支持英偉達(dá)多條產(chǎn)品線;2)CUDA1.0即支持Linux、Windows,而ROCm長(zhǎng)期只支持Linux(甚至是特定的Linux內(nèi)核版本),在今年4月剛剛宣布登錄Windows,但僅支持Radeon Pro W6800,Radeon RX 6900 XT和Radeon RX 6600;3)英偉達(dá)擁有豐富的CUDA軟件庫(kù),以便利開(kāi)發(fā)者利用GPU構(gòu)建新應(yīng)用或加速現(xiàn)有應(yīng)用,覆蓋廣泛終端應(yīng)用場(chǎng)景,包括資源受限的物聯(lián)網(wǎng)設(shè)備、自動(dòng)駕駛及超級(jí)計(jì)算機(jī)等領(lǐng)域,而ROCm軟件庫(kù)則僅包括CUDA中的一些部分,例如部分?jǐn)?shù)學(xué)函數(shù)、并行算法庫(kù)Trust(ROCm中為Parallel STL)以及深度學(xué)習(xí)庫(kù)中的cuDNN(ROCm中為MIOpen)。
針對(duì)這樣的現(xiàn)狀,AMD在豐富其軟件生態(tài)也持續(xù)有積極動(dòng)作。雖然目前僅有部分SKU支持Windows系統(tǒng),但主流Radeon顯卡用戶可以開(kāi)始試用過(guò)去僅專業(yè)顯卡才能使用的AMD ROCm (5.6.0 Alpha)。23Q1公司宣布其ROCm系統(tǒng)融入PyTorch 2.0框架,目前TensorFlow和Caffe深度學(xué)習(xí)框架也已加入第五代ROCm。ROCm也能對(duì)應(yīng)到CUDA的部分內(nèi)容,例如ROCm的HIP對(duì)應(yīng)CUDA API,只需要替換源碼中的CUDA為HPI就可以完全移植。
AMD強(qiáng)調(diào)AI為公司第一戰(zhàn)略重點(diǎn)定位,微軟或入局助其一臂之力,塑造AI訓(xùn)練端競(jìng)爭(zhēng)格局。AMD管理層在23Q1財(cái)報(bào)電話會(huì)中強(qiáng)調(diào)AI為目前公司第一戰(zhàn)略重點(diǎn),公司正致力于構(gòu)建更加多元的 AI 整合產(chǎn)品矩陣,包括融合Ryzen AI的Ryzen 7040系列CPU、自適應(yīng)數(shù)據(jù)中心平臺(tái)Versal AI、 Alveo加速器、第四代 EPYC Genoa 處理器,以及目前公布即將上市的Instinct MI300。
Ryzen 7040處理器配備8顆Zen 4核心和AMD RDNA3顯卡,內(nèi)置的Ryzen AI每秒可完成高達(dá)12兆次AI運(yùn)算,用于改善視頻背景中的模糊、自動(dòng)對(duì)焦及降噪功能。Versal AI Edge系列將協(xié)助開(kāi)發(fā)者加速傳感器系統(tǒng)和AI算法迭代,優(yōu)化AI性能功耗比,包括自動(dòng)駕駛、工業(yè)及醫(yī)療保健場(chǎng)景中的實(shí)時(shí)系統(tǒng),以及航空航天與國(guó)防場(chǎng)景中的多任務(wù)負(fù)載等。AMD Alveo V70 AI推理加速器采用XDNA架構(gòu),峰值A(chǔ)I算力達(dá)400TOPS,而其TDP僅75W,且其兼容TensorFlow和PyTorch框架,適用于視頻分析和自然語(yǔ)言處理應(yīng)用。根據(jù)CES 2023中的展示,在智慧城市、智慧零售等應(yīng)用中,Alveo V70的能效對(duì)比英偉達(dá)在2021年推出的T4推理加速器高逾70%(英偉達(dá)在今年的GTC里發(fā)布了新一代的L4推理加速器)。
另外,根據(jù)彭博社 5月4日的報(bào)道,微軟將注資 AMD 并開(kāi)展合作,推動(dòng)其在 AI 處理器領(lǐng)域的發(fā)展。該報(bào)道稱,目前合作研發(fā)的微軟 AI 芯片名為“雅典娜”(Athena),旨在為 chatGPT等大型語(yǔ)言模型(LLM)的訓(xùn)練及推理提供英偉達(dá)芯片以外的替代方案。隨后5月5日,微軟發(fā)言人Frank Shaw表示AMD參與“雅典娜”項(xiàng)目的報(bào)道不實(shí),但并未明確微軟與AMD的合作關(guān)系。我們認(rèn)為,大型云計(jì)算供應(yīng)商擁有財(cái)力物力,面對(duì)較高的外購(gòu)成本和較有限的靈活性,選擇自己設(shè)計(jì)AI芯片也并非意外。微軟與OpenAI的合作中應(yīng)用到大量的英偉達(dá)芯片,而若與AMD開(kāi)展戰(zhàn)略合作,或?qū)⑷〈糠钟ミ_(dá)芯片的需求。
云廠商自研芯片為大勢(shì)所趨,除微軟外,谷歌及亞馬遜等頭部云廠商也在推進(jìn)AI芯片自研進(jìn)程。谷歌于2016年推出基于ASIC專用芯片的AI推理芯片Tensor Processing Unit (TPU),在2017年迅速發(fā)展到第二代并擁有AI訓(xùn)練功能,TPU目前已發(fā)展到第四代,并應(yīng)用于PaLM等大語(yǔ)言模型的訓(xùn)練,但谷歌并沒(méi)有發(fā)售TPU,僅通過(guò)Google Cloud Platform對(duì)外進(jìn)行算力租賃服務(wù)。亞馬遜則分別在2019和2020年推出AI模型推理端芯片Inferentia以及訓(xùn)練端芯片Trainium,并整合到其AWS中。云廠商推進(jìn)芯片自研首先出于節(jié)約外采芯片成本、降低芯片能耗(ASIC基于專用性能耗更低)以削減TCO的考量。其次,公司推動(dòng)自研芯片,自主可控。另外,芯片自研可集成公司本身?yè)碛熊浖鷳B(tài)圈深化競(jìng)爭(zhēng)壁壘,如谷歌的TPU即為其TensorFlow深度學(xué)習(xí)框架量身打造,在其中充分發(fā)揮其性能。
綜上所述,AMD的MI300也許是谷歌TPU之外,最有潛力在AI訓(xùn)練端中與英偉達(dá)匹敵的芯片,但生態(tài)系統(tǒng)或是AMD打破英偉達(dá)獨(dú)大局勢(shì)的一大障礙?MI300在規(guī)格及性能上接近英偉達(dá)的Grace Hopper,其CPU+GPU架構(gòu)更加符合人腦信息處理流程,并能順應(yīng)多模態(tài)模型發(fā)展趨勢(shì)。MI300通過(guò)CPU與GPU統(tǒng)一內(nèi)存的架構(gòu),跟英偉達(dá)NVLink的傳輸性能可比,并逐步攻克PCIe總線瓶頸限制數(shù)據(jù)傳輸速率的問(wèn)題。然而,AMD對(duì)英偉達(dá)市場(chǎng)份額的挑戰(zhàn)并非一蹴而就。一方面,英偉達(dá)GPU芯片的算力壁壘以及AI訓(xùn)練端的深入布局一時(shí)難以撼動(dòng),另一方面,AMD的軟件生態(tài)也限制其與客戶系統(tǒng)的融合及滲透應(yīng)用場(chǎng)景。
人腦神經(jīng)網(wǎng)絡(luò)的運(yùn)作模式始終是人工智能追求的終極形態(tài)
AMD對(duì)芯片與人類大腦的操作理解較為超前。早在2011年,AMD產(chǎn)品構(gòu)想中就以CPU和GPU分別類比人類左右腦,并基于此提出了CPU+GPU的異構(gòu)產(chǎn)品策略。類比人腦,AMD認(rèn)為左腦更像CPU,負(fù)責(zé)對(duì)信息的邏輯處理,如串行運(yùn)算、數(shù)字和算術(shù)、分析思維、理解、分類、整理等,而右腦更像GPU,負(fù)責(zé)并行計(jì)算、多模態(tài)、創(chuàng)造性思維和想象等。
人類大腦神經(jīng)網(wǎng)絡(luò)的運(yùn)作模式,始終是人工智能追求的終極形態(tài),因此,我們認(rèn)為CPU+GPU的異構(gòu)集成,對(duì)比人類可實(shí)現(xiàn)左右腦協(xié)同工作,整體調(diào)動(dòng)神經(jīng)網(wǎng)絡(luò),或?qū)⒊蔀锳I芯片的主流技術(shù)方向。目前AMD的MI300、英偉達(dá)的 Grace Hopper和英特爾的Falcon Shores在此均有布局。GPU的算力高,并針對(duì)并行計(jì)算,但須由CPU進(jìn)行控制調(diào)用,發(fā)布指令。在AI訓(xùn)練端,CPU可負(fù)責(zé)控制及發(fā)出指令,指示GPU處理數(shù)據(jù)和完成復(fù)雜的浮點(diǎn)運(yùn)算(如矩陣運(yùn)算)。
在面對(duì)不同模態(tài)數(shù)據(jù)的推理時(shí),我們認(rèn)為,CPU與GPU的分工也各有不同,因此,同時(shí)部署CPU和GPU能提供最大的運(yùn)算支撐。例如,在處理語(yǔ)音、語(yǔ)言和文本數(shù)據(jù)的推理時(shí),AI模型需逐個(gè)識(shí)別目標(biāo)文字,計(jì)算有序,因此或更適合使用擅長(zhǎng)串行運(yùn)算的CPU進(jìn)行運(yùn)算支持;但在處理圖像、視頻等數(shù)據(jù)的推理時(shí)(對(duì)比人類的操作,每一個(gè)像素是同時(shí)進(jìn)入眼睛),需要大規(guī)模并行運(yùn)算,或更適宜由GPU負(fù)責(zé),例如英偉達(dá)L4 GPU可將AI視頻性能提高120倍,據(jù)英偉達(dá)測(cè)試,L4與基于CPU的傳統(tǒng)基礎(chǔ)設(shè)施相比能源效率提高99%。
以Grace Hopper為例,可以具體觀察CPU+GPU異構(gòu)的優(yōu)勢(shì)所在。英偉達(dá)通過(guò)NVLink-C2C技術(shù)使CPU+GPU構(gòu)成一個(gè)完整的系統(tǒng),并實(shí)現(xiàn)內(nèi)存相互訪問(wèn),無(wú)需沿循“CPU-內(nèi)存-主板-顯存-GPU”基于主板PCIe的迂回路線,從而減少CPU計(jì)算損耗,并大幅提升功耗、延時(shí)和帶寬。GPU在視頻處理、圖像渲染等方面的優(yōu)勢(shì)毋庸置疑,但并非所有工作負(fù)載都是單純的GPU-bound,因此我們認(rèn)為,其CPU部分或主要用于發(fā)出指令,以及在推理階段處理,尤其是文本、音頻等信息。
PC需求持續(xù)下行欲見(jiàn)底,發(fā)力云端AI欲與英偉達(dá)一決高下
AMD營(yíng)收及利潤(rùn)均超預(yù)期,但較低指引觸發(fā)股價(jià)下跌。AMD 23Q1營(yíng)收為53.53億美元,同比下滑9%,non-GAAP EPS為0.60美元,同比下滑47%,均略超彭博一致預(yù)期的53.18億美元和0.58美元,non-GAAP毛利率同比下降3pct至50%。公司指引二季度營(yíng)收約為53億美元,同比下降19%,但環(huán)比基本持平,其中客戶端、數(shù)據(jù)中心,以及游戲業(yè)務(wù)營(yíng)收同比將繼續(xù)下滑,但嵌入式業(yè)務(wù)營(yíng)收將增長(zhǎng);non-GAAP毛利率預(yù)計(jì)保持在50%水平。2023全年指引營(yíng)收將會(huì)由數(shù)據(jù)中心和嵌入式業(yè)務(wù)的同比增長(zhǎng)所拉動(dòng),而non-GAAP毛利率也將在下半年擴(kuò)大。雖然Q1營(yíng)收及利潤(rùn)表現(xiàn)均超市場(chǎng)預(yù)期,但二季度較悲觀的營(yíng)收指引導(dǎo)致盤后股價(jià)下跌6%。
AMD 23Q1營(yíng)收下滑主要鑒于PC出貨量持續(xù)下行,公司控制出貨量以消耗下游庫(kù)存,導(dǎo)致客戶端營(yíng)收同比大幅下滑。Q1營(yíng)收7.39億美元,同比降幅達(dá)65.2%,對(duì)比一季度IDC數(shù)據(jù),個(gè)人電腦Q1出貨量同比下滑29%,行業(yè)的不景氣也影響了主要競(jìng)爭(zhēng)對(duì)手英特爾的相關(guān)PC業(yè)務(wù),營(yíng)收下滑36%。
全球PC出貨量的底部目前雖還未出現(xiàn),但下半年有望迎來(lái)修復(fù)。AMD管理層預(yù)計(jì)今年整體PC銷售將下跌10%,即約2.6億部。競(jìng)爭(zhēng)對(duì)手英特爾也表示,2023年全年P(guān)C出貨量預(yù)計(jì)為2.7億,未來(lái)將提高并穩(wěn)定至每年3億部。AMD也表示正致力于平衡出貨量與需求,并認(rèn)為二季度和下半年P(guān)C市場(chǎng)將回暖。彭博數(shù)據(jù)顯示,2023年初戴爾、華碩、聯(lián)想等主要PC廠商存貨周轉(zhuǎn)天數(shù)(24.87/122.10/53.11)相較22年下半年(25.56/133.96/53.13),可以看到一些廠商的存貨周轉(zhuǎn)天數(shù)雖已開(kāi)始出現(xiàn)下降,但根據(jù)IDC數(shù)據(jù),PC出貨量環(huán)比依然下滑。
PC方面,AMD 23Q1推出Ryzen 7000X3D系列處理器(包括7950和7900),而7800也于4月初推出,配備AMD 3D V-Cache堆棧緩存技術(shù),擁有更高的數(shù)據(jù)獲取速率及緩存容量。移動(dòng)設(shè)備方面,筆記本電腦系列AMD Ryzen 9的7945HX CPU在電子設(shè)備測(cè)評(píng)平臺(tái)NotebookCheck中獲CPU性能測(cè)試排名第一。另外,Ryzen 7040系列Phoenix CPU處理器已量產(chǎn),相關(guān)筆記本產(chǎn)品將在5月中下旬開(kāi)始陸續(xù)上市。以上產(chǎn)品均基于Zen 4 架構(gòu)和臺(tái)積電5 nm 制程。
AMD數(shù)據(jù)中心業(yè)務(wù)23Q1營(yíng)收12.95億美元,同比12.93億美元基本持平。公司表示,二季度數(shù)據(jù)中心業(yè)務(wù)應(yīng)錄得增長(zhǎng),但也需取決于宏觀環(huán)境。數(shù)據(jù)中心經(jīng)營(yíng)利潤(rùn)率11.4%,同比降幅達(dá)21.6pct,經(jīng)營(yíng)利潤(rùn)率下滑主要由于公司發(fā)力產(chǎn)品矩陣及研發(fā)費(fèi)用投入。根據(jù)公司管理層,23Q1云巨頭進(jìn)一步擴(kuò)大了AMD產(chǎn)品部署,微軟Azure、谷歌云及甲骨文云等客戶的28個(gè)新項(xiàng)目搭載了EPYC系列CPU處理器。截至目前,已公開(kāi)的由AMD產(chǎn)品驅(qū)動(dòng)的項(xiàng)目超過(guò)640個(gè)。
公司早前在22Q4財(cái)報(bào)電話會(huì)也表示,數(shù)據(jù)中心CPU第四代EPYC系列新產(chǎn)品Bergamo預(yù)計(jì)于Q2末上市,EPYC Genoa-X處理器也將于本年內(nèi)上市,而公司也認(rèn)為Bergamo將會(huì)成為下半年?duì)I收的重要貢獻(xiàn)。Bergamo CPU基于臺(tái)積電5nm制程工藝,采用Zen 4C架構(gòu),具有多達(dá)128個(gè)內(nèi)核,針對(duì)吞吐量提升進(jìn)行了優(yōu)化。第四代EPYC家族的另一位新成員Genoa-X與前代EPYC中的Milan-X同樣采用3D V-Cache技術(shù),Milan-X基于Zen 3架構(gòu),最大緩存為768MB,而基于Zen 4架構(gòu)的Genoa-X在同為95核心的情況下最大三級(jí)緩存超過(guò)1GB。另外,公司在今年一月發(fā)布的Instinct MI300 CPU+GPU劍指人工智能和高性能計(jì)算,該產(chǎn)品預(yù)計(jì)下半年開(kāi)始放量,或可成為英偉達(dá)在AI訓(xùn)練端的有力競(jìng)爭(zhēng)者。
競(jìng)爭(zhēng)格局方面,AMD在服務(wù)器CPU的主要競(jìng)爭(zhēng)對(duì)手英特爾在23Q1推出了第四代可擴(kuò)展Xeon CPU Sapphire Rapids,采用Intel 7制程(之前為10ESF,是基于英特爾之前的10nm),相當(dāng)于臺(tái)積電的7nm制程。但AMD第四代數(shù)據(jù)中心EPYC產(chǎn)品Genoa早在2022年11月推出,并基于臺(tái)積電的5nm制程,單芯片核心數(shù)及線程數(shù)已達(dá)96和192;而Sapphire Rapids最大核心數(shù)為60,最大線程數(shù)為120,三級(jí)緩存為105MB,跟AMD Genoa的384MB差距也較大。另外,英特爾Q1也公布了第五代Xeon CPU Emerald Rapids,采用雙層Chiplet結(jié)構(gòu),同樣采用Intel 7制程,對(duì)比Sapphire Rapids有更多的核心數(shù)量以及更大的內(nèi)存空間,英特爾預(yù)計(jì)其將于2023年Q4開(kāi)始量產(chǎn)。但即使是進(jìn)一步升級(jí)的Emerald Rapids,其制程、核心及線程數(shù)(64/128)、三級(jí)緩存容量(320MB)仍相對(duì)落后于AMD Genoa。
嵌入式業(yè)務(wù)23Q1的營(yíng)收從去年的5.95億美元激增至15.6億美元,同比上漲163%,是AMD于22Q1收購(gòu)賽靈思后首個(gè)完全并表可比的季度。賽靈思的產(chǎn)品包括FPGAs、Zynq系列可編程SoC、Versal自適應(yīng)SoC以及Alveo自適應(yīng)數(shù)據(jù)中心加速器,跟AMD的產(chǎn)品產(chǎn)生協(xié)調(diào)效應(yīng),如虎添翼。公司管理層表示,整合賽靈思的產(chǎn)品進(jìn)行交叉銷售拉動(dòng)了公司在嵌入式市場(chǎng)銷售的擴(kuò)張。23Q1,AMD發(fā)布基于臺(tái)積電5nm制程Zen 4架構(gòu)的新一代EPYC 9000嵌入式處理器,以及基于臺(tái)積電7nm制程Zen 3架構(gòu)的Ryzen嵌入式5000系列CPU。目前,嵌入式和數(shù)據(jù)中心這兩個(gè)to B業(yè)務(wù)貢獻(xiàn)了AMD超過(guò)50%的營(yíng)收。
游戲業(yè)務(wù)包括個(gè)人電腦提供圖像處理器(顯卡)以及為Sony PlayStation 5等游戲機(jī)提供芯片。23Q1營(yíng)收為17.6億美元,同比跌6%,低于去年的18.8 億美元。公司管理層表示,在傳統(tǒng)感恩和圣誕節(jié)假期后的高端游戲機(jī)需求仍然強(qiáng)勁,而半定制SoC營(yíng)收同比錄得兩位數(shù)增長(zhǎng)。
風(fēng)險(xiǎn)提示
新產(chǎn)品落地進(jìn)度推遲:MI300、Bergamo等新產(chǎn)品的發(fā)售或受到市場(chǎng)需求波動(dòng)、供應(yīng)鏈擾動(dòng)、技術(shù)挑戰(zhàn)無(wú)法及時(shí)攻克等因素的影響,無(wú)法按照預(yù)期進(jìn)度落地放量,使得營(yíng)收提升不及預(yù)期。
PC出貨量恢復(fù)不及預(yù)期:若全球PC需求及出貨量持續(xù)下行,恢復(fù)不及預(yù)期,客戶端及游戲業(yè)務(wù)營(yíng)收跌幅可能會(huì)繼續(xù)擴(kuò)張。
AI技術(shù)落地和推進(jìn)不及預(yù)期:AMD重點(diǎn)發(fā)力AI領(lǐng)域,發(fā)布MI300進(jìn)軍AI訓(xùn)練端,而若AI市場(chǎng)技術(shù)落地和推進(jìn)受阻,AMD AI產(chǎn)品的需求及營(yíng)收可能受到影響。
相關(guān)信息數(shù)據(jù)來(lái)自于相關(guān)公司的公開(kāi)的客觀信息,不代表對(duì)相關(guān)公司的研究覆蓋和推薦。
相關(guān)研報(bào)研報(bào):《AMD:MI300在AI正面交鋒英偉達(dá),16年CPU突圍成功能否復(fù)制?》2023年5月18日
何翩翩 S0570523020002 | ASI353
關(guān)注我們
華泰證券研究所國(guó)內(nèi)站(研究Portal)
https://inst.htsc.com/research
訪問(wèn)權(quán)限:國(guó)內(nèi)機(jī)構(gòu)客戶
華泰證券研究所海外站
https://intl.inst.htsc.com/mainland訪問(wèn)權(quán)限:美國(guó)及香港金控機(jī)構(gòu)客戶添加權(quán)限請(qǐng)聯(lián)系您的華泰對(duì)口客戶經(jīng)理
聯(lián)系客服