核心提示: 數據中心出現故障在所難免,事后經過分析大部分根因都是人為因素導致,也就是人禍占據了所有故障原因的七成以上。一方面人們享受著自己設計的數據中心所能帶來的工作和生活上的便利,另一方面也在承受著成長的煩惱,不斷為自己的過失買單。其實不僅在數據中心領域,縱觀上下數百年歷史,很多災難都來自于人禍。
數據中心出現故障在所難免,事后經過分析大部分根因都是人為因素導致,也就是人禍占據了所有故障原因的七成以上。一方面人們享受著自己設計的數據中心所能帶來的工作和生活上的便利,另一方面也在承受著成長的煩惱,不斷為自己的過失買單。其實不僅在數據中心領域,縱觀上下數百年歷史,很多災難都來自于人禍。劉少奇在回顧解放初三年困難時期歷史時,造成社會上到處鬧浮腫,餓死人,非正常死亡人口達數千萬的原因時,說“三分天災,七分人禍”,最終原因基本都是人禍。任何活動只要有人的參與,就不可避免地存在出現人為差錯的可能性,而機器出錯的概率要比人低得多。遠的不說,就在近期幾起重要的斷網事件都和人有關。2017年2月28日晚8點39分,百度移動端搜索發生故障,搜索請求無法顯示結果,至晚9點21分恢復,歷時42分鐘。故障期間導致手機用戶上億次的搜索受到影響。事后,工信部立即緊急約談百度公司,了解相關情況,要求互聯網公司日后盡量防止類似問題再次發生。故障源自于軟件更新中存在BUG(漏洞),導致服務器停止服務。在數據中心里運行著大量的軟件系統,不可避免存在軟件BUG,即使能夠達到CMM5級別的單位,其代碼缺陷率也不會低于千分之一,也就是一千行代碼里至少有一個BUG,那些擁有上千萬行代碼的軟件系統,BUG量可想而知。當然,一般人不會惡意在這些軟件系統中增加BUG,大多是在無意識、經驗不足、精力不集中等情況下造成的,但這就是人的因素導致的,說白了是人禍。這幾天,全球最大的公有云服務商亞馬遜的應用服務出現持續數小時故障。故障起因是AWS S3(云存儲)團隊在進行調試時輸入了一條錯誤指令,本應該將少部分的S3計費流程服務器移除,可是最終意外地移去了大量的服務器,這一服務水平協議違約可能造成數百萬乃至數千萬美元的損失,這又是一例嚴重的人為故障。回想了從2011年到現在亞馬遜出現了7次大規模的故障,大部分原因也都是來自人為。就在剛剛,微軟大量的Xbox、Skype和Outlook用戶抱怨他們的賬戶無法登錄,提示賬戶不存在,這又是一次影響全球的大規模登錄問題,雖然微軟還未公布原因,但已經承認存在問題,說不定又是人為因素導致的。所以,一旦有人為參與較多的數據中心時,大多都不靠譜。
我們對比無人值守的數據中心和有人數據中心,不難發現,雖無人值守數據中心擴容業務,安裝設備時經常人手不夠,但整體運行穩定度要比有人的數據中心高得多,這些無人數據中心在首次業務上線之后,很少有人去修改或調整系統運行的各種參數,讓數據中心自己運行,設備按照預定的程序指令運行,很少出錯。相反,在那些運維人力強大的數據中心,經常遇到這樣那樣的故障,多和人為因素有關。不少數據中心已經意識到了這一點,所以將數據中心的控制權放在技術實力最強的總部,輕易不做變更,如因業務部署需要做變更,變更手續和申請過程非常嚴格,經常要經過設備廠家的確認、實驗網模擬以及高層領導批準,再進行充分的方案討論,最終才能去實施,這樣數據中心的業務運行非常穩定,少有出錯。很多數據中心很喜歡軟件定義數據中心,就是希望可以通過軟件來統一控制和管理整個數據中心,將所有的控制權集中,由少數幾個技術實力雄厚的老專家控制,避免其它人胡亂改一通,引發一些未知故障。再或者直接將控制權交由軟件,將人的操作和方案交給軟件設備來執行,設備出錯的概率要比人小得多,由軟件自行管理整個數據中心,這樣不僅可以降低人力成本,還可以減少人為出錯的概率。
正所謂“成也蕭何,敗也蕭何”,人是數據中心活動中的最重要因素,沒有人的參與哪里來的數據中心,而偏偏人也同時給數據中心帶來成長的煩惱。要想擁有一個運營良好的數據中心,必須重視運行系統或與系統交互的人。如果數據中心能投入時間在員工技術水平、培訓、維護和運營等方面做出謹慎決策,往往能夠避免多數災難,讓數據中心長期穩定運行。很多針對數據中心發起的攻擊,都利用了人為的安全意識缺失而系統被攻破的。比如:2011年3月索尼公司遭黑,引發史上最嚴重的消費者資料“泄露”事故,超過7000萬玩家的郵箱、密碼、信用卡號等資料遭竊取。泄露的原因是索尼負責信息安全的員工,他沒及時給跑著過期Apache Web server軟件的服務器打補丁,也沒有安裝防火墻,結果門戶大開,引狼入室,黑客輕而易舉地盜取了內部數據。所以數據中心要通過有效的管理,規范的ITIL和IT服務實施,才能有效降低運維中的人為隱患。數據中心管理針對的重點應是人,而不是設備。
不難看出,數據中心的故障大多源自于人禍。運行中的數據中心,應減少人為參與的機會,要對人為行為進行充分的管理和評估。“三分技術,七分管理”,大量的事實表明,數據中心的好與差評判標準都是由管理水平的高低所決定的,而管理主要就是針對運維人的。加強運維人員的管理,提升運維人員的技能水平,才能減少人為犯錯的機會,避免產生人禍。數據中心是一個非常復雜的IT系統,難免會出現這樣那樣的問題,從而引發故障,若能夠通過有效管理減少其中人禍部分的因素,將能有效提升數據中心的運行穩定性。
來源:中國IDC圈
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房 |