摘要:服務器宕機一直是業界關注的焦點,我們該如何確保自己的品牌不會受到停機事故的負面影響呢?這確實是個值得思考的問題。
停機事故
2016年發生的一系列停機事故已經導致眾多知名品牌遭受嚴重損失,其商業信譽與消費者信心亦因此受到重大打擊。發生停機事故的主要原因之一在于計劃外的系統配置變更,這通常是因為即時bug或者潛在系統安全漏洞修復意外引發了更為嚴重的問題。
為了避免發生計劃外停機,我們將在這里回顧過去一年中出現的那些最為嚴重的服務停機事故,希望能夠以此為鑒指導新一年中的業務連續性保障工作。
美國西南航空
去年10月,836條西南航空航線遭遇延誤,而根源在于該公司航線技術系統中的問題。根據該公司介紹,技術人員不得不全力修復主要系統并利用備份規程以幫助客戶及其托運行李正確到達目的地。
達美航空
達美航空公司證實,亞特蘭大當地的一次電力中斷影響到其凌晨時開始進行的系統更新,并最終導致計算機系統癱瘓以及大量航班延誤。該公司同時警告稱,當周一其被迫因此取消大量航班,且機場屏幕及其它飛行狀態系統將無法正常顯示航班相關信息。
根據統計,此次時長達5小時的停機共造成2000次航班取消,總體損失估計達1.5億美元。
Salesforce
這家云應用廠商在其官方網站上指出,其NA14實例上的一套數據庫出現文件完整性問題,并導致超過12個小時的服務停機事故。
根據統計,由此次停機造成的經濟損失約為2000萬美元。
蘋果
去年6月,蘋果公司放下的iCloud、App Store、iTunes以及Apple TV等一系列互聯網服務發生長達9小時的停機事故。另外,去年12月初用戶們亦發現其暫時無法登錄自己的iCloud賬戶。
Slack
去年6月,高達300萬用戶在2小時內由于Web服務器過載而無法正常訪問Slack。
該公司目前正在就如何避免再次發生類似問題而進行討論。
身份是解決問題的關鍵
為了避免發生停機事故,IT運營團隊應當對現有服務進行分層,同時將系統身份識別作為業務中的關鍵性因素。其中頂級應用應是那些與業務成敗直接關聯的重要應用,例如銷售點、票務或者計費等功能相關的應用。
為頂級系統制定故障切換計劃
高可用性水平不可能自然實現,我們必須為其做好規劃及實施。具體而言,高可用性立足于系統架構中的各個方面。頂級系統需要切實配合故障切換計劃,同時利用額外負載容量處理意外出現的負載峰值。
投資建立高水平監控堆棧
如果無法把握服務的當前運行狀態,那么保證其運行狀態也將成為癡人說夢。事實上,準確了解IT系統運行狀態的惟一途徑就是在堆棧中的各個層面上引入一流監控工具(例如系統監控、應用監控、Web與用戶監控、日志記錄以及錯誤追蹤等方案)。目前IT行業正積極利用這種分層式功能獨立方案取代原有的整體式服務監控機制,從而適應持續提升的IT系統復雜性與動態水平。
在警報機制內區分有效信號與干擾信號
工具數量的增加同時意味著我們需要面對更多干擾信號。為了有效識別、分類并解決潛在問題,IT團隊必須找到可行方式以正確進行有效信號與干擾信號分離。通過采用警報關聯解決方案,IT團隊將能夠了解各監控工具的警報信息間存在哪些聯系,從而快速過濾掉非關鍵性問題,最終集中精力處理最重要的風險因素。
來源:機房360
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房 |