就在國內的人們互道“過年好”之際,國外的Gitlab(開源git倉庫管理平臺)出大事了。
Gitlab.com平臺因為其某位運維同學誤刪了數據而導致整個網站下線。經歷了千辛萬苦,其整個數據恢復過程近兩天才完成,期間 Gitlab還在Youtube上直播了整個數據恢復過程。根據官方對整個事情的描述,大概可以推斷Gitlab使用的是故障發(fā)生前6個小時的備份數據,也就是說這6個小時時間之內的數據最終還是丟失了。
這個事件看似是一個極低級的錯誤,暴露的卻是自動化運維能力弱和流程不規(guī)范的大問題。
關注一:讓運維自動化
自動化運維所能實現(xiàn)的不僅僅是通過技術和工具減少人工的參與成本,而是將人、流程和運維產品相結合,最終做到提高運維效率,最大限度減少類似Gitlab事件的發(fā)生。
在日常的IT運維工作中有大量的重復性工作,小到簡單的日常巡檢、配置和變更,大到產品的發(fā)布、流程的組織調度,都需要自動化操作,從而減少乃至消除運維中的延遲和事故。簡單地說,IT運維自動化是將事件與IT流程相關聯(lián),一旦被監(jiān)控對象發(fā)生性能超標或故障,會觸發(fā)相關事件以及事先定義好的流程,可自動啟動故障響應和恢復機制。
比如監(jiān)控易平臺(jiankongyi.com)可幫助IT運維人員完成日常的重復性工作,提高IT運維效率。同時,監(jiān)控易還能預測故障、在故障發(fā)生前就發(fā)出預警,通過精準有效的告警策略,讓IT運維人員把故障消除在發(fā)生前。監(jiān)控易可以根據故障類型和影響級別及時觸發(fā)工單流程,并可根據SLA進行事件升級,讓運維有序高效進行。
關注二:管好服務流程
如果說運維技術能夠發(fā)現(xiàn)問題、處理事件、保障系統(tǒng)運行,流程管理則是分配資源和人力,優(yōu)化流程,遇故障時盡快恢復系統(tǒng),做到未雨綢繆。
在此次Gitlab事件中,最令人不解的是運維人員在故障處置過程中,沒有經過變更管理流程,以及必要的授權、評估和測試,就直接在生產環(huán)境上進行了實驗性的操作,并且執(zhí)行的還是刪除數據庫目錄這樣的高危操作。
正如ITIL所描述的,變更發(fā)布管理之所以重要和優(yōu)秀,是因為其往往會經過多個控制環(huán)節(jié),以確保變更的成功,包括對變更申請、授權、評估、測試、審批、發(fā)布等一系列流程的管理,以確保生產環(huán)境的變更安全有效。
IT運維管體系涉及到多個相互獨立又彼此關聯(lián)的服務流程,如果能將這些現(xiàn)有的應用管理系統(tǒng)以及企業(yè)內部、外部系統(tǒng)及流程的接口整合銜接,建立標準的流程體系和統(tǒng)一的管理平臺,從而實現(xiàn)服務關系級別的管理。
服務關系管理是一個企業(yè)提高運營效率、實現(xiàn)數字化運營的保障,通過對服務關系的優(yōu)化改進、大數據分析,建立起強大的服務保障體系;通過數據展現(xiàn)業(yè)務與經營、收入與支出、效率與效果等各方面、多維度的運營分析,全面為企業(yè)決策提供充分可靠的依據。
服務魔方(fuwumofang.com)的服務關系管理,立足于對服務的質量監(jiān)控、服務流程的優(yōu)化梳理、服務關系的價值發(fā)掘。通過服務魔方的商業(yè)價值分析,能夠讓企業(yè)將進銷存與各部門、各業(yè)務流建立關聯(lián),打通信息孤島、共享數據,時刻掌握業(yè)務數據變化,清晰了解發(fā)展趨勢,為運營決策提供及時準確的數據和方法支撐。
來源:機房360
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房