核心提示: 伴隨著云計(jì)算的發(fā)展,云計(jì)算技術(shù)、應(yīng)急響應(yīng)機(jī)制都日趨成熟和完善。多數(shù)情況,云計(jì)算平臺(tái)都能持續(xù)、穩(wěn)定的正常運(yùn)行。
中國(guó)IDC圈7月11日?qǐng)?bào)道,伴隨著云計(jì)算的發(fā)展,云計(jì)算技術(shù)、應(yīng)急響應(yīng)機(jī)制都日趨成熟和完善。多數(shù)情況,云計(jì)算平臺(tái)都能持續(xù)、穩(wěn)定的正常運(yùn)行。
不過(guò),因天氣或者其他原因,全球各地大大小小的云計(jì)算廠商過(guò)去幾年,確實(shí)發(fā)生過(guò)眾多大大小小的"著名"故障。
1、2009年6月,因分布式拒絕服務(wù)攻擊(DDoS),亞馬遜EC2服務(wù)宕機(jī)5小時(shí)。
2、2009年6月,Rackspace因供電設(shè)備跳閘,備份發(fā)電機(jī)失效,導(dǎo)致服務(wù)器大面積停機(jī)。
3、2010年5月,一周內(nèi),亞馬遜弗吉尼亞數(shù)據(jù)中心上演了三次不同的宕機(jī)。第一次是不間斷電源(UPS)轉(zhuǎn)換到備份電源時(shí)失敗,一整個(gè)機(jī)架的服務(wù)器停機(jī)。第二次發(fā)生在四天之后,因一個(gè)電源分配箱短路,導(dǎo)致服務(wù)中斷8小時(shí)。兩天后,一輛汽車撞擊了電線桿子,切斷了數(shù)據(jù)中心的電源,導(dǎo)致半小時(shí)宕機(jī)。
4、2011年4月22日,由于技術(shù)原因?qū)е聛嗰R遜在美國(guó)東部地區(qū)的許多服務(wù)中斷。這個(gè)故障持續(xù)了大約四天時(shí)間,被認(rèn)為是亞馬遜史上最嚴(yán)重的云計(jì)算安全事件。
5、2012年2月28日,由于"閏年bug"導(dǎo)致微軟Azure在全球范圍內(nèi)大面積服務(wù)中斷,中斷時(shí)間超過(guò)24小時(shí)。
6、2014年8月18日,在Windows 8.01安全補(bǔ)丁例行發(fā)布后,Azure云因技術(shù)問(wèn)題引發(fā)部分用戶中斷服務(wù)長(zhǎng)達(dá)5個(gè)小時(shí)。微軟報(bào)告稱,Azure服務(wù)例如虛擬機(jī)網(wǎng)站、自動(dòng)化、備份和站點(diǎn)恢復(fù)都在多個(gè)地區(qū)出現(xiàn)中斷。
7、2014年11月,Azure多個(gè)主要Region的存儲(chǔ)服務(wù)出現(xiàn)問(wèn)題,引發(fā)11個(gè)小時(shí)的故障。該故障影響了19種Azure服務(wù),涉及12個(gè)Region,當(dāng)時(shí)似乎只有澳大利亞數(shù)據(jù)中心幸免于難。
8、2014年11月2日中午12點(diǎn),騰訊云在上海、廣州兩地的服務(wù)器出現(xiàn)故障,導(dǎo)致使用該服務(wù)器的用戶出現(xiàn)無(wú)法正常登錄、連接不穩(wěn)定等現(xiàn)象。故障持續(xù)約兩小時(shí)。
9、2015年6月6日,青云的服務(wù)商睿江科技機(jī)房因雷暴天氣引發(fā)電力故障,導(dǎo)致青云廣東1區(qū)全部硬件設(shè)備意外關(guān)機(jī)重啟,青云官網(wǎng)及控制臺(tái)無(wú)法訪問(wèn)、部署于GD1的用戶業(yè)務(wù)不可用。
10、2016年7月6日,上午10點(diǎn)22分,阿里云華北2地域可用區(qū)A由于網(wǎng)絡(luò)設(shè)備出現(xiàn)異常,導(dǎo)致部分產(chǎn)品訪問(wèn)受到影響。故障持續(xù)約1小時(shí)。
結(jié)束語(yǔ) | 寫給所有云計(jì)算用戶的話
當(dāng)企業(yè)把IT基礎(chǔ)設(shè)施托付給云服務(wù)商的時(shí)候,千萬(wàn)別忘了你才是這些系統(tǒng)的主人。
美國(guó)知名電腦周刊雜志eWeek 資深科技記者M(jìn)ike Elgan曾表示:"云計(jì)算不是萬(wàn)靈丹,我們不過(guò)是租別人的計(jì)算機(jī)而已。因此自己數(shù)據(jù)中心可能出現(xiàn)的問(wèn)題就算是轉(zhuǎn)向了云計(jì)算也依然存在",他建議"企業(yè)有自己的替代方案很重要".
Netflix的技術(shù)人員認(rèn)為,不論在何種情況下,每個(gè)系統(tǒng)必須靠自己存活。所以,他們?cè)谠O(shè)計(jì)系統(tǒng)時(shí)考慮了其所依賴的其他系統(tǒng)的故障并且能夠容忍故障。
從兩地三中心到同城雙活到異地多活,金融機(jī)構(gòu)、政府、大中型企業(yè)一直秉持"不把雞蛋放在一個(gè)籃子里"的思路,在災(zāi)備的路上越走越高精尖。
但是高精尖的背后是高昂的成本,對(duì)中小企業(yè)而言有些負(fù)擔(dān)過(guò)重。事實(shí)上,在云計(jì)算上也有對(duì)應(yīng)的服務(wù):地域(Region)和可用區(qū)(AZ:Availabe Zone)。所以對(duì)于自己的云端業(yè)務(wù),既可以分散到多個(gè)可用區(qū),也分散到多個(gè)地域。
除此之外,互聯(lián)網(wǎng)界對(duì)于系統(tǒng)如何達(dá)到高可用是有一些基本共識(shí)的,比如:大系統(tǒng)小做,服務(wù)拆分;并發(fā)控制,服務(wù)隔離;灰度發(fā)布;全方位監(jiān)控報(bào)警;核心服務(wù),平滑降級(jí)。這些最佳實(shí)踐,如果很好地落實(shí),對(duì)于提高系統(tǒng)可用性非常有幫助。
來(lái)源:中國(guó)IDC圈
速聯(lián)速通 專業(yè)的服務(wù)器托管、租用、云主機(jī)、域名、空間、大帶寬:百獨(dú)、G口、萬(wàn)兆。
|