3月3日凌晨,阿里云華北地區(qū)出現(xiàn)大規(guī)模宕機故障,多家互聯(lián)網(wǎng)公司都遭到了服務(wù)突然中斷的影響。事故發(fā)生后不久,阿里云官方凌晨回應(yīng)稱,華北2地域可用區(qū)C部分ECS服務(wù)器等實例出現(xiàn)IOHANG,經(jīng)緊急排查處理后逐步恢復(fù),此外將根據(jù)協(xié)議盡快賠償。
宕機,云服務(wù)商無法避免的事情
這些年,隨著互聯(lián)網(wǎng)經(jīng)濟的快速發(fā)展,云服務(wù)的技術(shù)水平、服務(wù)模式和使用規(guī)模都在持續(xù)提升,公有云服務(wù)日益被當做與水、電、煤氣同等級的基礎(chǔ)設(shè)施來看待。然而與其他基礎(chǔ)設(shè)施一樣,公有云服務(wù)同樣會出現(xiàn)故障。以2018年的情況為例,包括亞馬遜AWS、微軟Azure、谷歌云在內(nèi)的主流云計算廠商,都出現(xiàn)過規(guī)模較大的宕機事件。
2018年3月2日凌晨,因亞馬遜AWS的網(wǎng)絡(luò)服務(wù)出現(xiàn)問題,導(dǎo)致依賴AWS服務(wù)的部分Alexa開始出現(xiàn)失聲問題。該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷,Alexa也一直發(fā)出系統(tǒng)內(nèi)置道歉聲。隨后幾小時內(nèi),Alexa又接到了成千上萬封投訴。
2018年9月4日上午,微軟Azure美國中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣,影響冷卻系統(tǒng)的電壓,導(dǎo)致多個Azure服務(wù)出現(xiàn)連接問題,客戶難以訪問存儲在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括Office365、ActiveDirectory、VisualStudioOnline、VisualStudioTeamServices等。
2018年11月9日,谷歌公有云上提供的Kubernetes服務(wù)(GKE)宕機。節(jié)點池建置功能出現(xiàn)異常,維運人員無法透過CloudConsoleUI建立新節(jié)點。
在國內(nèi)云服務(wù)領(lǐng)域,阿里云,騰訊云在2018年也出現(xiàn)過宕機情況。
2018年6月27日,阿里云出現(xiàn)重大技術(shù)故障,恢復(fù)時間大概花費一小時。后經(jīng)過技術(shù)復(fù)盤,阿里給出的故障原因為工程師團隊上線自動化運維新功能時,執(zhí)行了一項變更驗證操作,該操作在測試環(huán)境中未發(fā)生問題,上線后觸發(fā)未知bug所致。
2018年7月24日,騰訊云出現(xiàn)宕機情況。用戶登錄騰訊云時反復(fù)出現(xiàn)超時、退出等情況,即便更換運營商,結(jié)果也一樣。隨后,騰訊云發(fā)布通知稱初步確定是運營商光纜中斷,運營商已經(jīng)找到斷點,主要受影響的為廣州區(qū)域部分用戶。
縱觀這些宕機事故,其原因可說是五花八門,有軟硬件故障造成、也有環(huán)境溫控失效造成、甚至還有雷擊天氣的因素。
可見,在當前技術(shù)條件下,無論在國內(nèi)還是國外,云服務(wù)廠商出現(xiàn)宕機情況都是難以避免的。
阿里云宕機損害品牌信譽
過去長時間以來,阿里云在國內(nèi)具有極高的信譽度,憑借這種信譽度阿里云贏得了巨大的市場,截止2018年底,阿里云的市場份額穩(wěn)居國內(nèi)第一。
除了穩(wěn)居國內(nèi)運服務(wù)市場第一外,阿里云這2年還加快了國際化步伐。如今已經(jīng)在全球19個地區(qū)運營了多達52個可用區(qū)。阿里云不但已經(jīng)實現(xiàn)了對美、英、德、日、中等云計算重要市場的覆蓋,而且還在新加坡、馬來西亞、印度尼西亞、澳大利亞、中東等區(qū)域快速拓展服務(wù)市場。據(jù)研究機構(gòu)Gartner數(shù)據(jù)顯示,2018年,阿里云在全球市場份額排名已升至第三。
阿里云國內(nèi)第一,全球第三的”江湖地位”,使得昨天這場宕機事件顯得更加引人注目。
事故發(fā)生后,阿里云及時做了回應(yīng)。阿里云回應(yīng)稱”北京時間2019年3月3日凌晨,華北2地域可用區(qū)C部分ECS服務(wù)器等實例出現(xiàn)IOHANG,經(jīng)緊急排查處理后逐步恢復(fù)。目前我們已經(jīng)全面排查其他地域及可用區(qū),未發(fā)現(xiàn)此類情況。非常抱歉給您帶來的影響!如有任何問題,可通過電話工單隨時反饋,感謝您的理解和支持!針對本次故障,我們將根據(jù)SLA協(xié)議,盡快處理賠償事宜?!?。
從阿里云的回應(yīng)來看,還是比較實誠的。但從目前的情況來看,此次宕機對阿里云品牌信譽還是帶來了不小的影響。
有受到影響的阿里云用戶紛紛在各種社交網(wǎng)站上吐槽,疑其技術(shù)保障體系的缺陷。
璽哥認為,阿里云必須重視用戶的質(zhì)疑和反應(yīng),因為對用戶來說,把自家的業(yè)務(wù)和服務(wù)放在阿里云平臺上,是對阿里云的信任和認可,現(xiàn)在因為阿里云的原因,自己的服務(wù)受到了影響,自己服務(wù)的客戶、收入也受到了影響。
本次宕機事件,一方面讓用戶開始對阿里云這個品牌本身產(chǎn)生了質(zhì)疑,另一方面,也迫使更多企業(yè)認真思考“多云戰(zhàn)略”。
“多云戰(zhàn)略”受關(guān)注,騰訊云們的機會來了
本次宕機事件后,如何預(yù)防服務(wù)中斷、避免關(guān)鍵數(shù)據(jù)丟失成為大家關(guān)注的重點,同時,“多云戰(zhàn)略”成了大家的焦點議題。
將關(guān)鍵計算能力、核心數(shù)據(jù)盡量分布在多個品牌的云上,這是避免損失的有效做法。這其實是“老生常談”,技術(shù)人員都知道,但過去多數(shù)企業(yè)的管理層都沒有對此真正重視起來。而近年來各種”宕機”事故的頻繁發(fā)生,也給企業(yè)敲響了警鐘,“多云戰(zhàn)略”已成為企業(yè)在IT基礎(chǔ)建設(shè)方面的共識。
所謂多云戰(zhàn)略,指的是企業(yè)同時采用兩家或以上的云服務(wù)供應(yīng)商,并且在多個云之間部署熱切換系統(tǒng)。這樣當任何一家云服務(wù)商出現(xiàn)運行故障時,企業(yè)的關(guān)鍵應(yīng)用和核心數(shù)據(jù),就能迅速切換到其他云服務(wù)商的設(shè)施上繼續(xù)運行。
實際上,多云戰(zhàn)略在歐美先進地區(qū)早已廣泛為企業(yè)接受。據(jù)IDC的預(yù)測數(shù)據(jù),到2020年9成以上的企業(yè)都會采用“多云”來構(gòu)建基礎(chǔ)IT能力。隨著國內(nèi)企業(yè)紛紛跟上這個技術(shù)潮流,期望同時采用多個云服務(wù)品牌,為關(guān)鍵應(yīng)用提供安全性。騰訊、電信等云服務(wù)商必將得到更多發(fā)展機會。
同時,歐美國家企業(yè)界的經(jīng)驗表明,由于企業(yè)普遍期望降低自身在IT方面的成本、同時又希望提升IT系統(tǒng)效率,所以他們在選擇云服務(wù)商時,往往傾向于采用行業(yè)內(nèi)排名靠前的品牌。在多云戰(zhàn)略中,企業(yè)也會同時采用兩家排名前列的品牌來支撐自身的IT系統(tǒng)。在歐美,亞馬遜AWS、微軟Azuer云等,都是各企業(yè)多云戰(zhàn)略中的常規(guī)選項,當前IT系統(tǒng)的高度復(fù)雜性、升級迭代的密集度,也只有這些頂級服務(wù)商才能勝任。
同理,在國內(nèi)云服務(wù)領(lǐng)域里,目前市場份額排名靠前的阿里云、騰訊云、電信云等,必將成為多數(shù)企業(yè)“多云戰(zhàn)略”中服務(wù)商品牌的主要選擇。
璽哥認為,正在使用阿里云的許多大企業(yè)、甚至中小企業(yè),在考慮部署多云戰(zhàn)略時,或?qū)Ⅱv訊云列入優(yōu)先考慮名單。換句話說,本次宕機事件后,在企業(yè)界興起的“多云戰(zhàn)略”技術(shù)潮流中,騰訊云極有可能成為最大的受益者。
騰訊云們的機會來了,但能否追趕上阿里云的腳步,就要看騰訊云能否抓住這個機會了。
聯(lián)系客服