設(shè)計和構(gòu)建一個具有高度彈性的數(shù)據(jù)中心費用高昂,而數(shù)據(jù)中的宕機(jī)損失也是如此。來自波洛蒙研究所的數(shù)據(jù)表明,數(shù)據(jù)中心的每次中斷平均成本從2010年的50萬美元增加到2016年的70多萬美元,增長了38%。
然而,波洛蒙研究所的“數(shù)據(jù)中心停機(jī)成本”報告顯示,停機(jī)的最高成本可能高達(dá)240萬美元。而最近發(fā)生的一些數(shù)據(jù)中心停運(yùn)事件的損失更為慘重,例如航空行業(yè)的數(shù)據(jù)中心設(shè)施,損失的費用可能會更高,估計有數(shù)千萬美元之巨。
對中斷事件進(jìn)行調(diào)查
鑒于直接的財務(wù)損失和聲譽(yù)受到損害這些后果,發(fā)生數(shù)據(jù)中心中斷的公司通常要進(jìn)行徹底的調(diào)查。雖然有些企業(yè)可能將事情的真相隱藏起來,但有些企業(yè)通過聘請第三方機(jī)構(gòu)的專家來處理這個過程。引入第三方服務(wù)的好處是,企業(yè)的數(shù)據(jù)中心設(shè)施或IT團(tuán)隊可能沒有資源或技能水平進(jìn)行深入調(diào)查,同時還要在業(yè)務(wù)中斷之后恢復(fù)服務(wù)。
在一些情況下,企業(yè)的內(nèi)部人員也可能試圖轉(zhuǎn)移責(zé)任或混淆事故的原因,特別是人為錯誤這一因素。如果沒有嚴(yán)格的調(diào)查和報告程序,那么中斷事件還會有再次發(fā)生的可能性。
調(diào)查表明,數(shù)據(jù)中心中斷主要是設(shè)施問題而不是IT的相關(guān)因素,企業(yè)的一種選擇是求助特定的機(jī)械和電氣(M&E)工程服務(wù)團(tuán)隊解決。例如,如果中斷事件涉及廠家的設(shè)備,將需要數(shù)據(jù)中心技術(shù)供應(yīng)商到達(dá)現(xiàn)場進(jìn)行處理。
行業(yè)專家Steve Carlini表示:“如果用戶的數(shù)據(jù)中心發(fā)生災(zāi)難性的中斷事件,我們將有一個專門處理這個問題的流程。這有點像汽車制造商在事故發(fā)生后立即著手處理,我們將在中斷事件發(fā)生后將技術(shù)團(tuán)隊派往現(xiàn)場,并開始進(jìn)行深入調(diào)查研究。”
英國數(shù)據(jù)中心工程服務(wù)專家Future技術(shù)公司也提供了類似的服務(wù),但其調(diào)查范圍更為廣泛。該公司首席執(zhí)行官JamesWilman表示:“我們進(jìn)入業(yè)務(wù)中斷的數(shù)據(jù)中心以確定故障根源,并且在許多情況下,可以通過解決方案解決數(shù)據(jù)中心或受到影響的基礎(chǔ)設(shè)施遇到的問題,以避免發(fā)生類似的事件。”
企業(yè)對于數(shù)據(jù)中心中斷調(diào)查的需求不斷增加。Wilman說,“在過去一年里,我們已經(jīng)完成了五到六個這樣的調(diào)查,這些數(shù)據(jù)中心的容量為1到5MW。”
行業(yè)專家Carlini表示,隨著數(shù)據(jù)中心的規(guī)模越來越大,對中斷事件調(diào)查的需求也越來越大。特別是電弧閃光(危險放電)事件的數(shù)量有所增加,調(diào)查工作需要專門培訓(xùn)的人員和設(shè)備來進(jìn)行。
Carlini表示,“數(shù)據(jù)中心的規(guī)模要比過往大得多,而對于設(shè)備器件的要求也就更高。例如,中小規(guī)模的數(shù)據(jù)中心可以采用普通規(guī)格的斷路器,數(shù)據(jù)中心設(shè)施管理人員可以簡單地重置跳閘的斷路器。而對于規(guī)模非常大的數(shù)據(jù)中心,這種操作必須是經(jīng)過專業(yè)培訓(xùn)的專業(yè)人士才能實施,因為其斷路器的規(guī)格更高,會產(chǎn)生更大的電弧。”
雖然數(shù)據(jù)中心中斷停機(jī)的最終根源可能與機(jī)電設(shè)備相關(guān),但確定其根本原因的過程往往始于IT設(shè)備。
Wilman說:“調(diào)查團(tuán)隊可能從服務(wù)器或IT設(shè)備中的實際組件開始著手,他們將確定這些組件是什么,這些組件受到影響的原因是什么,然后回到電源鏈,直到發(fā)現(xiàn)可能導(dǎo)致事件發(fā)生的原因。”
可能導(dǎo)致數(shù)據(jù)中心停機(jī)的因素有多種。根據(jù)Ponemon研究所的調(diào)查報告,2016年數(shù)據(jù)中心中斷的主要原因是供電系統(tǒng)的問題,尤其是UPS故障。人為錯誤是第二個主要原因,其次是冷卻系統(tǒng)或水冷系統(tǒng),還有與天氣有關(guān)的事故,以及發(fā)電機(jī)故障等。根據(jù)研究表明,IT設(shè)備故障僅占中斷事故的4%。
美國的Tier Ⅲ級數(shù)據(jù)中心中斷分布圖
數(shù)據(jù)中心中斷的多重原因
然而在實踐中,得出一個具體原因可能是一個挑戰(zhàn)。事實上,數(shù)據(jù)中心的中斷可能是各種問題的連鎖反應(yīng)。
“例如,一臺老化的設(shè)備發(fā)生故障,但是由于系統(tǒng)冗余,這個故障本身并不會導(dǎo)致停機(jī)中斷。”Wilman說。“在中斷發(fā)生后,數(shù)據(jù)中心的工作人員試圖隔離有問題的設(shè)備,但由于過時的信息或缺乏培訓(xùn)/知識,錯誤地執(zhí)行旁路操作,使問題得到進(jìn)一步惡化,最終導(dǎo)致關(guān)鍵負(fù)載宕機(jī)中斷。”
中斷也可能涉及多個設(shè)備,并且其問題的根源可能需要所有相關(guān)技術(shù)供應(yīng)商的意見。
Carlini說:“有時候問題不明確時,客戶會要求涉及設(shè)備所有公司的代表坐在一起查明原因。在這種情況下,采用一些監(jiān)控工具(DCIM軟件)可能會有所幫助。可以想象,考慮到涉及的人數(shù),這種方法可能會很笨拙。這就是建立監(jiān)控系統(tǒng)以確保數(shù)據(jù)通道的重要性的原因。”
在確定了中斷的原因之后,下一步就是將結(jié)果記錄在一份詳細(xì)的報告中,并提出將來如何避免中斷事件的建議。這個過程可能需要幾天,甚至幾周時間,具體取決于設(shè)施中斷的復(fù)雜程度,也取決于業(yè)主或運(yùn)營商設(shè)定的時間表。由此產(chǎn)生的報告往往是一個高度敏感的文件,特別是如果人為錯誤的責(zé)任。Wilman說:“有時數(shù)據(jù)中心工作人員認(rèn)為調(diào)查團(tuán)隊是針對他們的或者可能要找到替罪羊,他們可能會有些敵意。但事實并非如此,因為唯一的目的就是確定中斷的根本原因,并防止再次發(fā)生這樣的事件。”
但是,在大多數(shù)事件中,劃分責(zé)任可能不是優(yōu)先事項,但在外面攻擊或人為故意破壞的情況下,這一點變得至關(guān)重要。根據(jù)Ponemon研究所的報告,故意攻擊的安全漏洞(包括分布式拒絕服務(wù)攻擊)從2010年的2%上升到2016年的22%。在這種情況下,查明中斷事件的原因可能有助于防范未來的襲擊,但也有助于執(zhí)法機(jī)構(gòu)查明肇事者。
只要數(shù)據(jù)中心發(fā)生中斷,對于中斷調(diào)查服務(wù)的需求將繼續(xù)增長。然而,技術(shù)格局不斷轉(zhuǎn)變。數(shù)據(jù)中心的監(jiān)控和管理方式也在不斷發(fā)展。DCIM工具的使用(盡管并不像一些供應(yīng)商所希望的那樣普遍)正在增加,這從長遠(yuǎn)來看應(yīng)該會使數(shù)據(jù)中心運(yùn)營商對中斷更容易進(jìn)行自我診斷。設(shè)備制造商還將更多的智能和軟件嵌入到電力和冷卻設(shè)備中,以實現(xiàn)主動和預(yù)防性維護(hù),這也有助于減少設(shè)備故障發(fā)生的可能性。
防止數(shù)據(jù)中心中斷的方法也正在發(fā)生變化,以大型云計算運(yùn)營商為首的更多運(yùn)營商在“分布式彈性”進(jìn)行投入,軟件和網(wǎng)絡(luò)在確保可用性方面發(fā)揮更大的作用,而不是冗余的機(jī)械和電氣設(shè)備。在這種情況下,單個UPS、發(fā)電機(jī)或甚至整個數(shù)據(jù)中心的性能在這種情況下變得不太重要。
然而,與這種趨勢相對應(yīng)的是,如果在這樣一個高度分散的系統(tǒng)中發(fā)生服務(wù)中斷,那么追蹤最終原因?qū)⑿枰J(rèn)真嚴(yán)肅的調(diào)查工作。
來源:中國IDC圈
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機(jī)柜租用 石家莊機(jī)房 |