過(guò)去,人工智能經(jīng)常被比作石油行業(yè):一旦對(duì)(數(shù)據(jù) / 石油)進(jìn)行開(kāi)采、精煉,就可以變?yōu)楦呃麧?rùn)的商品。現(xiàn)在看來(lái),人工智能在能耗層面的表現(xiàn)也可與石油行業(yè)一較高下。根據(jù)最新的論文結(jié)果,訓(xùn)練一個(gè) AI 模型產(chǎn)生的能耗多達(dá)五輛汽車(chē)一生排放的碳總量。
這篇 新論文 是馬薩諸塞大學(xué)阿默斯特校區(qū)的研究人員公布的,以常見(jiàn)的幾種大型 AI 模型的訓(xùn)練周期為例,發(fā)現(xiàn)該過(guò)程可排放超過(guò) 626,000 磅二氧化碳,幾乎是普通汽車(chē)壽命周期排放量的五倍(其中包括汽車(chē)本身的制造過(guò)程)。
這一結(jié)果也是很多 AI 研究人員沒(méi)有想到的。西班牙拉科魯尼亞大學(xué)的一位計(jì)算機(jī)科學(xué)家表示:“雖然我們中的很多人對(duì)此(能耗)有一個(gè)抽象的、模糊的概念,但這些數(shù)字表明事實(shí)比我們想象得要嚴(yán)重。我或者是其他 AI 研究人員可能都沒(méi)想過(guò)這對(duì)環(huán)境的影響如此之大。”
以自然語(yǔ)言處理為例,研究人員研究了該領(lǐng)域中性能取得最大進(jìn)步的四種模型:Transformer、ELMo、BERT 和 GPT-2。研究人員在單個(gè) GPU 上訓(xùn)練了至少一天,以測(cè)量其功耗。然后,使用模型原始論文中列出的幾項(xiàng)指標(biāo)來(lái)計(jì)算整個(gè)過(guò)程消耗的總能量。
結(jié)果顯示,訓(xùn)練的計(jì)算環(huán)境成本與模型大小成正比,然后在使用附加的調(diào)整步驟以提高模型的最終精度時(shí)呈爆炸式增長(zhǎng),尤其是調(diào)整神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)以盡可能完成詳盡的試驗(yàn),并優(yōu)化模型的過(guò)程,相關(guān)成本非常高,幾乎沒(méi)有性能收益。BERT 模型的碳足跡約為 1400 磅二氧化碳,這與一個(gè)人來(lái)回坐飛機(jī)穿越美洲的排放量相當(dāng)。
此外,研究人員指出,這些數(shù)字僅僅是基礎(chǔ),因?yàn)榕嘤?xùn)單一模型所需要的工作還是比較少的,大部分研究人員實(shí)踐中會(huì)從頭開(kāi)發(fā)新模型或者為現(xiàn)有模型更改數(shù)據(jù)集,這都需要更多時(shí)間培訓(xùn)和調(diào)整,換言之,這會(huì)產(chǎn)生更高的能耗。根據(jù)測(cè)算,構(gòu)建和測(cè)試最終具有價(jià)值的模型至少需要在六個(gè)月的時(shí)間內(nèi)訓(xùn)練 4,789 個(gè)模型,換算成碳排放量,超過(guò) 78,000 磅。
隨著 AI 算力的提升,這一問(wèn)題會(huì)更加嚴(yán)重。
這些結(jié)果也凸顯了 AI 另一個(gè)日益嚴(yán)重的問(wèn)題:產(chǎn)生結(jié)果所需的大量資源使學(xué)術(shù)界工作人員很難繼續(xù)研究。顯然,這種通過(guò)大量數(shù)據(jù)訓(xùn)練龐大模型的趨勢(shì)對(duì)學(xué)者尤其是研究生來(lái)說(shuō)并不可行,因?yàn)闆](méi)有資源,這讓學(xué)術(shù)界和工業(yè)界的研究人員之間出現(xiàn)公平訪問(wèn)的問(wèn)題。
拋開(kāi)環(huán)保和能耗本身,人工智能的訓(xùn)練過(guò)程同樣成本高昂。以機(jī)器學(xué)習(xí)為例,數(shù)據(jù)、算法、算力成本同樣“觸目驚心”。
與數(shù)據(jù)相關(guān)的機(jī)器學(xué)習(xí)成本主要表現(xiàn)在數(shù)據(jù)集方面,包括數(shù)據(jù)集的獲得、數(shù)據(jù)的標(biāo)注等。Dimensional Research 代表 Alegion 所做的一項(xiàng) 最新研究 表明,所有組織中的 96%都遇到了與訓(xùn)練數(shù)據(jù)質(zhì)量和數(shù)量相關(guān)的問(wèn)題。同一項(xiàng)研究表明,大多數(shù)項(xiàng)目需要超過(guò) 100,000 個(gè)數(shù)據(jù)樣本才能表現(xiàn)良好。
如果還沒(méi)有數(shù)據(jù),可以假設(shè)能夠在大約一個(gè)小時(shí)內(nèi)收集 5–10 個(gè)樣本并對(duì)它們進(jìn)行標(biāo)注。利用 亞馬遜的 Mechanical Turk 之類(lèi)的服務(wù)來(lái)實(shí)驗(yàn)整個(gè)過(guò)程,生成 100,000 個(gè)樣本數(shù)據(jù)集的話(huà),花費(fèi)大約為 70,000 美元。
如果已經(jīng)收集了大量數(shù)據(jù),則可以使用 Scale 之類(lèi)的服務(wù)來(lái)對(duì)其進(jìn)行標(biāo)注。在這種情況下,獲得 100,000 個(gè)帶有標(biāo)簽的數(shù)據(jù)樣本,則可能需要花費(fèi) 8,000 到 80,000 美元的費(fèi)用,具體的需要取決于標(biāo)注的復(fù)雜程度。
此外,檢查和校正數(shù)據(jù)樣本與生成和注釋數(shù)據(jù)樣本一樣耗時(shí)。Dimensional Research 研究報(bào)告中提到,66%的公司在其數(shù)據(jù)集中遇到偏差和錯(cuò)誤問(wèn)題。有些公司選擇采用完整的內(nèi)部方法(自己做所有標(biāo)注),也有一些公司會(huì)選擇外包和內(nèi)部混合使用。第二種常見(jiàn)的情況是將大部分工作外包,然后由個(gè)別人員負(fù)責(zé)驗(yàn)證和清理。外包 10 萬(wàn)個(gè)數(shù)據(jù)樣本的初始成本可能會(huì)增加大約 2500 至 5,000 美元。
Dimensional Research 報(bào)告指出,大多數(shù)企業(yè) AI 團(tuán)隊(duì)的成員不足 10 名。假設(shè)每個(gè)技術(shù)團(tuán)隊(duì)有 5 名成員,其中 3 個(gè)是外包。在這種配置下,團(tuán)隊(duì)可能足以并行處理兩個(gè)項(xiàng)目,平均每 1.5 個(gè)月研究一個(gè)項(xiàng)目?;诖说某杀臼?2 名員工(2 x 5,000 美元),3 名自由職業(yè)者(3 x 3,000 美元),每月的總成本是 19,000 美元。如果團(tuán)隊(duì)可以同時(shí)處理兩個(gè)項(xiàng)目,并且研究時(shí)間為 1.5 個(gè)月,則意味著該階段的成本約為每個(gè)項(xiàng)目 14,250 美元。
與算力相關(guān)的機(jī)器學(xué)習(xí)成本主要表現(xiàn)在基礎(chǔ)架構(gòu)、集成、維護(hù)以及各種處理器的功耗方面。
生產(chǎn)成本包括基礎(chǔ)架構(gòu)成本(云計(jì)算,數(shù)據(jù)存儲(chǔ)),集成成本(數(shù)據(jù)管道開(kāi)發(fā),API 開(kāi)發(fā),文檔)和維護(hù)成本。
其中,云計(jì)算的支出取決于部署算法的復(fù)雜性。如果模型不是很深,并且是在低維表格數(shù)據(jù)上進(jìn)行訓(xùn)練,則將獲得 4 個(gè)虛擬 CPU 運(yùn)行在 1 到 3 個(gè)節(jié)點(diǎn)上的服務(wù),每月費(fèi)用為 100 到 300 美元,即每年 1200 到 3600 美元。另一方面,對(duì)于無(wú)延遲的深度學(xué)習(xí)推理,價(jià)格從 10,000 美元到 30,000 美元不等。
集成可能比較棘手。在大多數(shù)情況下,只需要將 API 端點(diǎn)放在云中并記錄下來(lái),供系統(tǒng)的其余部分使用即可,準(zhǔn)備要使用的機(jī)器學(xué)習(xí)模型并編寫(xiě) API 腳手架最多需要 20 到 30 個(gè)開(kāi)發(fā)小時(shí),其中包括測(cè)試,成本約為 1,500 美元,加上修改系統(tǒng)的其余部分以使用新 API 所需的成本。穩(wěn)定的數(shù)據(jù)管道將花費(fèi)更多的時(shí)間,大概需要 80 個(gè)小時(shí)左右。
迄今為止,實(shí)施 AI 的最大成本是落地。太多人著迷于 ML 和 AI,并將其開(kāi)發(fā)預(yù)算投入到追求該技術(shù)而不是解決實(shí)際問(wèn)題上。我們正處于機(jī)器學(xué)習(xí)仍然是一項(xiàng)高度實(shí)驗(yàn)性技術(shù)的階段,其成功率差異很大。Garter 預(yù)測(cè),到 2022 年,將有 85%的 AI 項(xiàng)目交付錯(cuò)誤的結(jié)果。
除去附加項(xiàng)成本和一系列功耗所帶來(lái)的成本,機(jī)器學(xué)習(xí)項(xiàng)目可能會(huì)使公司花費(fèi) 51,750 美元至 136,750 美元(不包括難以確定的其他成本)。高差異是由數(shù)據(jù)的性質(zhì)決定的。這是一個(gè)非常樂(lè)觀的估計(jì)。如果企業(yè)位于美國(guó),并且使用的是明智的數(shù)據(jù)(自由職業(yè)者不會(huì)這樣做),則與人才相關(guān)的費(fèi)用將激增,使 ML 項(xiàng)目的費(fèi)用超過(guò) 108,500 美元。
這樣高昂的價(jià)格使想要解決新問(wèn)題或自動(dòng)化其流程和決策的個(gè)人、小型團(tuán)隊(duì)和初創(chuàng)企業(yè)無(wú)法使承擔(dān)。最艱難的步驟是第一步:獲取數(shù)據(jù)。沒(méi)有數(shù)據(jù),幾乎不可能在研究階段驗(yàn)證機(jī)器學(xué)習(xí)解決方案,從而導(dǎo)致幾乎死鎖。
綜上,這些因素都可能會(huì)導(dǎo)致人工智能研究的私有化。對(duì)此,一位大數(shù)據(jù)和人工智能領(lǐng)域的技術(shù)專(zhuān)家在接受 InfoQ 采訪時(shí)表示,BERT 模型其實(shí)可以解決一部分?jǐn)?shù)據(jù)問(wèn)題,因?yàn)橐_(dá)到同樣的效果,它需要的數(shù)據(jù)量相對(duì)較小,但算力確實(shí)是很難攻破的問(wèn)題,這也就意味著 硬件成本很難下降。目前,一種可行的解決方式是通過(guò)租用云端 TPU 的方式來(lái)降低成本,但人工智能逐漸趨于私有化確是事實(shí),未來(lái)學(xué)術(shù)界將在非強(qiáng)依賴(lài)算力的領(lǐng)域有更多創(chuàng)新,工業(yè)界由于尚可承擔(dān)算力提升帶來(lái)的各種成本,會(huì)在強(qiáng)依賴(lài)算力的領(lǐng)域有更多突破,這將實(shí)現(xiàn)學(xué)術(shù)界與工業(yè)界的合理分工。
聯(lián)系客服