只要有計(jì)算,就會(huì)帶來(lái)能耗。
2005年,阿里平臺(tái)上每10筆電商交易的能耗,可以用來(lái)煮熟4個(gè)雞蛋;2015年,每10筆電商交易的能耗,只夠煮熟1個(gè)雞蛋。
今年雙11,由于阿里工程師們大規(guī)模采用了為數(shù)據(jù)中心服務(wù)器“泡澡”散熱的黑科技,每10筆電商交易的能耗,只夠煮熟1個(gè)鵪鶉蛋了。
阿里數(shù)據(jù)中心服務(wù)器“泡澡”散熱的黑科技
千萬(wàn)別小瞧了從4個(gè)雞蛋到1個(gè)鵪鶉蛋的進(jìn)步。
2018年,我國(guó)數(shù)據(jù)中心總用電量為1608.89億千瓦時(shí)(度),幾乎是三峽大壩全年發(fā)電量(847億千瓦時(shí))的兩倍。
截至2019年,我國(guó)數(shù)據(jù)中心用電量已連續(xù)8年以超過(guò)12%的速度增長(zhǎng),據(jù)國(guó)網(wǎng)能源研究院預(yù)測(cè),今年我國(guó)數(shù)據(jù)中心整體用電量將突破2000億千瓦時(shí),到2030年將突破4000億千瓦時(shí)。
當(dāng)數(shù)據(jù)中心逐漸成為我國(guó)能耗大戶,4個(gè)雞蛋到1個(gè)鵪鶉蛋的進(jìn)步,不僅意味著未來(lái)更廉價(jià)的算力,對(duì)完成減能減排目標(biāo)更是意義重大。
自數(shù)據(jù)中心誕生的那天起,高能耗仿佛就是一種“原罪”。
IT設(shè)備、制冷、配電系統(tǒng),全部24小時(shí)運(yùn)轉(zhuǎn)全年無(wú)休,個(gè)個(gè)都是電老虎,尤其IT設(shè)備和制冷系統(tǒng),大約各占數(shù)據(jù)中心總能耗的40%。
要判斷一個(gè)數(shù)據(jù)中心的能耗水平,就看一項(xiàng)關(guān)鍵指標(biāo)——PUE指數(shù)。
PUE全稱“Power Usage Effectiveness(平均電能使用效率)”,是指數(shù)據(jù)中心總設(shè)備能耗/IT設(shè)備能耗。
PUE值越小,能效水平就越好,PUE值越接近1,就表明數(shù)據(jù)中心的能耗,大部分用于服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備。
要減少非IT設(shè)備能耗,就必須從降低制冷系統(tǒng)能耗下手,而且降低能耗的同時(shí),還不能影響制冷效果,因?yàn)閷?duì)數(shù)據(jù)中心來(lái)說(shuō),制冷降溫從來(lái)都是頭等大事。
就像手機(jī)電腦用久了會(huì)發(fā)燙,一枚公版GPU芯片,一旦滿負(fù)載運(yùn)行任務(wù),溫度會(huì)迅速飆升到85℃,甚至可以用來(lái)烤肉;服務(wù)器CPU芯片,工作狀態(tài)下表面溫度也能達(dá)到60-70℃,必須用20℃左右的空調(diào)冷風(fēng)一直吹,才能讓芯片溫度維持在50℃左右。
通常,服務(wù)器要求溫度保持在18℃到27℃之間,當(dāng)數(shù)以萬(wàn)計(jì)的芯片同時(shí)開(kāi)工,排放出大量廢熱,數(shù)據(jù)中心必須配置大型制冷系統(tǒng),快速吞吐冷熱空氣。
否則,機(jī)房溫度有可能在1分鐘之內(nèi)就飆升到50℃以上,一旦引發(fā)服務(wù)器停機(jī),后果不堪設(shè)想。
為了有效降低制冷系統(tǒng)能耗,全世界科技巨頭大開(kāi)腦洞,試著將數(shù)據(jù)中心放到大自然的冰箱中去,目前比較成功的嘗試,主要集中在海水冷卻和自然風(fēng)冷。
谷歌哈米納數(shù)據(jù)中心
2011年,谷歌在芬蘭哈米納市建立了海水冷卻數(shù)據(jù)中心,冷海水經(jīng)管道泵進(jìn)數(shù)據(jù)中心熱交換器中,吸收服務(wù)器熱量后排回大海。
用海水冷卻
谷歌稱,哈米納數(shù)據(jù)中心的PUE為1.14。
今年9月,微軟在蘇格蘭奧克尼島附近撈起一個(gè)沉在海底35.6米處的數(shù)據(jù)中心,這是一項(xiàng)為期兩年的實(shí)驗(yàn),同樣是利用深層冷海水為數(shù)據(jù)中心散熱,經(jīng)微軟驗(yàn)證,水下數(shù)據(jù)中心的PUE只有1.07。
微軟海底數(shù)據(jù)中心
Facebook則于2011年在瑞典呂勒奧鎮(zhèn)架設(shè)了第一個(gè)海外數(shù)據(jù)中心,此處距離北極圈只有100多公里,冬季平均氣溫為零下20℃,冷空氣經(jīng)簡(jiǎn)單過(guò)濾,就能為服務(wù)器降溫,據(jù)說(shuō)該數(shù)據(jù)中心PUE為1.04。
Facebook瑞典呂勒奧鎮(zhèn)數(shù)據(jù)中心
作為中國(guó)云計(jì)算領(lǐng)頭羊,阿里巴巴也在推進(jìn)數(shù)據(jù)中心自然制冷方面下過(guò)苦功。
2015年,阿里巴巴在千島湖建立數(shù)據(jù)中心,利用湖水自然冷卻為服務(wù)器降溫,年平均PUE低于1.3,最低可達(dá)1.17。
阿里巴巴千島湖數(shù)據(jù)中心
2016年,阿里巴巴在河北張北縣啟用新數(shù)據(jù)中心,當(dāng)?shù)厝昶骄鶜鉁?.3℃,數(shù)據(jù)中心采用新風(fēng)自然冷散熱方案,年均PUE為1.25,最低可達(dá)1.13。
外加張北擁有豐富的風(fēng)能和太陽(yáng)能資源,阿里云張北數(shù)據(jù)中心綠色能源使用率已超過(guò)50%,實(shí)際節(jié)約標(biāo)煤3萬(wàn)噸,相當(dāng)于種植了150萬(wàn)棵樹(shù)木。
阿里巴巴張北數(shù)據(jù)中心
越來(lái)越多的科技巨頭,將數(shù)據(jù)中心安置去嚴(yán)寒地區(qū),隨后卻發(fā)現(xiàn)了新的問(wèn)題。
隨著5G、AI、云計(jì)算、物聯(lián)網(wǎng)等新技術(shù)興起,如自動(dòng)駕駛等應(yīng)用場(chǎng)景對(duì)網(wǎng)絡(luò)時(shí)延的要求越來(lái)越苛刻,新建的數(shù)據(jù)中心在選址時(shí),必須考慮縮短與用戶之間的距離,盡可能靠近人口密集的城市地區(qū),否則就不得不付出額外的成本。
比如數(shù)據(jù)中心產(chǎn)業(yè)發(fā)達(dá)的芬蘭,為了確保網(wǎng)絡(luò)低延遲和數(shù)據(jù)連通性,芬蘭政府聯(lián)手特利亞電信等公司,專門架設(shè)了芬蘭到中歐的海底光纜,付出了十分高昂的代價(jià)。
工人們正在鋪設(shè)海底光纜
歐洲數(shù)據(jù)中心服務(wù)商Interxion也發(fā)現(xiàn),雖然寒帶地區(qū)可以獲得廉價(jià)能源和自然冷卻,但并不適合所有數(shù)據(jù)中心。
Interxion自己也是反復(fù)衡量之后,最終放棄了北歐,而是選擇在西班牙馬德里繼續(xù)擴(kuò)建其數(shù)據(jù)中心。
Interxion馬德里數(shù)據(jù)中心
盡管,從用電成本來(lái)看,馬德里是個(gè)非常糟糕的選擇——因?yàn)槲靼嘌拦I(yè)用電成本位居歐洲前列,電價(jià)幾乎是瑞典的兩倍。
可是從地理位置上看,馬德里在伊比利亞半島的位置卻無(wú)與倫比,多條連接歐洲、美洲、非洲的海底光纜在此交集,歐洲很多企業(yè)的數(shù)據(jù)中心和電信節(jié)點(diǎn)也都建在馬德里。
2017年9月,F(xiàn)acebook和微軟在美國(guó)和西班牙建立的海底光纜“Marea”投用
到底選擇中心城市和大量人口,還是選擇低溫低能耗,Interxion權(quán)衡利弊,最終還是選擇了前者。
既要節(jié)能環(huán)保,又要靠近人口密集區(qū),這就好比既要馬兒跑得快,又要馬兒不吃草,數(shù)據(jù)中心選址陷入兩難。
有沒(méi)有一種方案可以兩全其美?
阿里巴巴堅(jiān)信有,所以從2015年開(kāi)始,就開(kāi)始探索一種全新的制冷技術(shù)——浸沒(méi)式液冷技術(shù)。
阿里巴巴液冷技術(shù)
這項(xiàng)技術(shù)的原理說(shuō)起來(lái)挺簡(jiǎn)單——空氣的比熱容和液體相比差了幾千倍。
這便意味著,需要1000立方空氣(風(fēng)冷)散去的熱量,換做液體,可能只需要1個(gè)立方。
然而,電子元器件最怕進(jìn)水,如果把服務(wù)器直接浸沒(méi)在液體中,就要考慮液體是否絕緣,有沒(méi)有腐蝕性,在高溫下是否會(huì)揮發(fā)出有毒氣體……
總之,原理看似簡(jiǎn)單,操作起來(lái)困難重重。
“早幾年的時(shí)候,全球沒(méi)有一家大規(guī)模部署液冷服務(wù)器集群的企業(yè),也沒(méi)有成熟的液冷技術(shù),那是因?yàn)楝F(xiàn)實(shí)需求不高。”
阿里云基礎(chǔ)設(shè)施事業(yè)部架構(gòu)工程師鐘楊帆說(shuō),過(guò)去服務(wù)器功耗普遍較低,單個(gè)CPU功率在200瓦以下,當(dāng)時(shí)的制冷技術(shù)完全夠用,再加上液冷技術(shù)有一定革命性,研發(fā)難度很大,各大企業(yè)都沒(méi)有動(dòng)力去創(chuàng)新。
阿里張北數(shù)據(jù)中心工程師在冷凍機(jī)房巡查管道
然而,阿里巴巴預(yù)判,隨著AI、大數(shù)據(jù)等高性能計(jì)算興起,下一代服務(wù)器CPU功率超過(guò)300瓦、甚至400瓦,幾乎是板上釘釘?shù)氖?,所以浸沒(méi)式液冷技術(shù)哪怕再難,也必須將其攻克。
2017年云棲大會(huì),阿里巴巴正式對(duì)外展示全浸沒(méi)液冷服務(wù)器集群——麒麟。
麒麟無(wú)需風(fēng)扇或空調(diào)等大型制冷設(shè)備,可在任何地方部署,而且單位體積內(nèi)的計(jì)算能力,較過(guò)去提升了10倍。
2018年,阿里巴巴首次將浸沒(méi)式液冷服務(wù)器商業(yè)化,部署在張北阿里巴巴冬奧云數(shù)據(jù)中心,去年正式投入雙11服務(wù)支持。
今年9月,阿里云杭州仁和數(shù)據(jù)中心啟用,上線整棟液冷云數(shù)據(jù)中心,浸沒(méi)式液冷服務(wù)器集群規(guī)模預(yù)計(jì)將達(dá)到張北數(shù)據(jù)中心的10倍。
阿里巴巴仁和數(shù)據(jù)中心
鐘楊帆介紹,在杭州數(shù)據(jù)中心,浸沒(méi)式液冷服務(wù)器置于一個(gè)個(gè)箱體之內(nèi),每個(gè)箱體大約2.6米長(zhǎng)、0.8米寬、1.2米高,里面有48臺(tái)服務(wù)器、3臺(tái)交換機(jī),全部浸沒(méi)在約800升、共計(jì)1.5噸的絕緣無(wú)腐蝕性冷卻液中。
冷卻液吸收IT設(shè)備產(chǎn)生的熱量,通過(guò)溫度、流量控制后,流經(jīng)自然冷卻系統(tǒng)形成高效散熱,不再使用風(fēng)扇和空調(diào)等低效散熱系統(tǒng),散熱能耗卻趨近于0,整體節(jié)能可達(dá)70%以上。
服務(wù)器箱體常年密閉,冷卻液平時(shí)幾乎沒(méi)有損耗,每年損失少于1%。即使電子元器件浸沒(méi)在冷卻液中20年,液體成分和電子設(shè)備品質(zhì)都不會(huì)發(fā)生變化,極大延長(zhǎng)了設(shè)備使用壽命。
經(jīng)過(guò)計(jì)算,阿里云杭州數(shù)據(jù)中心的浸沒(méi)式液冷服務(wù)器集群PUE最低可達(dá)到1.07,年均PUE可達(dá)1.09,放眼全球都是頂尖水平。
相比傳統(tǒng)數(shù)據(jù)中心,阿里云杭州數(shù)據(jù)中心可每年省電7000萬(wàn)度,相當(dāng)于西湖周邊所有路燈連續(xù)點(diǎn)亮8年的耗電量。
今年天貓雙11的電商交易支付、物流等環(huán)節(jié),由張北、烏蘭察布、河源、南通、杭州等五大超級(jí)數(shù)據(jù)中心合力支撐。
在杭州數(shù)據(jù)中心內(nèi),有上萬(wàn)臺(tái)液冷服務(wù)器投入生產(chǎn)處理雙11的海量計(jì)算工作,這也是全球唯一投入大規(guī)模部署的液冷服務(wù)器集群。
在新一代綠色“黑科技”的加持下,如今每一萬(wàn)筆電商交易的耗電量,已經(jīng)控制在2度電以內(nèi),這意味著僅今年天貓雙11一天,就能為社會(huì)節(jié)省超過(guò)20萬(wàn)度電的能耗量。
近十億剁手黨們?cè)谙M(fèi)的同時(shí),還創(chuàng)造著史上最綠色環(huán)保的雙11。
在攻克浸沒(méi)式液冷技術(shù)的過(guò)程中,阿里工程師還設(shè)計(jì)出一套適合浸沒(méi)液冷的監(jiān)控管理系統(tǒng),將故障率降低了50%,AI機(jī)器人、智能運(yùn)維等技術(shù)也逐漸大規(guī)模使用。
機(jī)器人在工作
今年雙11,阿里云數(shù)據(jù)中心的巡檢機(jī)器人“天巡”升級(jí)到了第二代,不僅實(shí)現(xiàn)了無(wú)“人”值守,還可全自動(dòng)更換故障硬盤(pán):自動(dòng)巡檢——故障盤(pán)定位——取盤(pán)換盤(pán)——硬盤(pán)通電,整個(gè)動(dòng)作一氣呵成,只需4分鐘即可完成更換動(dòng)作。
阿里云自研的智能檢測(cè)系統(tǒng)可以做到1分鐘發(fā)現(xiàn)、1分鐘定位、分鐘級(jí)恢復(fù),通過(guò)技術(shù)手段實(shí)現(xiàn)了從故障預(yù)測(cè)、故障診斷到故障修復(fù)的系統(tǒng)化、自動(dòng)化流程,最大程度提升維修效率。
張北數(shù)據(jù)中心機(jī)房
阿里云表示,未來(lái)還將在華東、華南、華北等對(duì)能耗要求高、高溫高濕區(qū)域繼續(xù)推行浸沒(méi)式液冷解決方案,重構(gòu)傳統(tǒng)數(shù)據(jù)中心。
在阿里巴巴這些年的帶動(dòng)下,浸沒(méi)式液冷技術(shù)也逐漸為業(yè)內(nèi)認(rèn)可,國(guó)外如微軟、谷歌等公司都已成立實(shí)驗(yàn)室研究這一技術(shù)。
不過(guò),對(duì)承諾2060年前力爭(zhēng)實(shí)現(xiàn)碳中和的中國(guó)而言,浸沒(méi)式液冷技術(shù)的價(jià)值更是不言而喻。
2019年2月,工信部、國(guó)家機(jī)關(guān)事務(wù)管理局、國(guó)家能源局發(fā)布《關(guān)于加強(qiáng)綠色數(shù)據(jù)中心建設(shè)的指導(dǎo)意見(jiàn)》,提出到2022年,數(shù)據(jù)中心平均能耗基本達(dá)到國(guó)際先進(jìn)水平,新建大型、超大型數(shù)據(jù)中心的電能使用效率值達(dá)到1.4以下。
而國(guó)家能源局?jǐn)?shù)據(jù)顯示,今年上半年,由于依托大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等新技術(shù)的服務(wù)業(yè)發(fā)展勢(shì)頭強(qiáng)勁,互聯(lián)網(wǎng)數(shù)據(jù)服務(wù)業(yè)用電量同比激增71.6%。
假如,未來(lái)全中國(guó)所有服務(wù)器都采用浸沒(méi)式液冷技術(shù),每年將節(jié)省超過(guò)800億度電,接近三峽大壩一年的發(fā)電量。
然而,液冷數(shù)據(jù)中心的背后,是巨大創(chuàng)新和革命性變化,硬件與系統(tǒng)的變更,需要大量人力和物力投入,當(dāng)前這個(gè)領(lǐng)域幾乎空白,沒(méi)有標(biāo)準(zhǔn)可以借鑒。
張北數(shù)據(jù)中心建設(shè)變遷
為此,已經(jīng)趟了5年路的阿里巴巴,已向社會(huì)開(kāi)源了整套規(guī)范,涵蓋了數(shù)據(jù)中心的設(shè)計(jì)、施工、部署、運(yùn)維等各個(gè)環(huán)節(jié),這樣一來(lái),其他數(shù)據(jù)中心可以避開(kāi)阿里5年來(lái)走過(guò)的彎路,直接駛?cè)敫咝?、清潔、集約的綠色發(fā)展道路。
“經(jīng)歷了10年技術(shù)創(chuàng)新迭代與開(kāi)放,阿里巴巴數(shù)據(jù)中心已經(jīng)完成了從自研服務(wù)器架構(gòu)到智能運(yùn)維體系的全方位技術(shù)布局,除了支撐雙11之外,這些雙11的同款技術(shù),也將通過(guò)阿里云支撐全社會(huì),成為數(shù)字新基建的基礎(chǔ)設(shè)施?!卑⒗锇桶透笨偛?、阿里云基礎(chǔ)設(shè)施負(fù)責(zé)人周明說(shuō)。
參考資料:
The Register:Super cool: Arctic data centres aren't just for Facebook
The verge:Mark Zuckerberg shares pictures from Facebook's cold, cold data center
Web24 News:Bunkers, under the sea or in the Arctic, where are the data centers of Amazon, Google or Facebook?
CNBC:Water has become a big issue for Big Tech. But Microsoft has a plan
El Confidencial:Cómo se está evitando que Apple, Facebook o Google se coman la electricidad del mundo