微軟近日解釋了一連串故障事件導致北歐的一些Azure客戶在近7個小時的時間內無法訪問其服務。
影響概述:2017年9月29日協調世界時(UTC)13:27至20:15,由于一個存儲可擴展單元(storage scale unit)無法正常使用,北歐的一部分客戶在連接或管理該地區托管的資源方面遇到了困難。依賴該地區受影響的存儲資源、因此受拖累的服務包括:虛擬機、云服務、Azure Backup、App Services\Web Apps、Azure Cache、Azure Monitor、Azure Functions、Time Series Insights、Stream Analytics、HDInsight、Data Factory、Azure Scheduler以及Azure Site Recovery。
客戶影響:一部分存儲資源不可用,這導致相關的虛擬機關閉,以確保數據持久性。一些Azure Backup保管庫在故障持續的這段時間內不可用,從而導致備份和恢復操作失敗。Azure Site Recovery可能無法故障切換到最新的恢復點或無法復制虛擬機。HDInsight、Azure Scheduler和Azure Functions可能遇到了服務管理和作業故障,資源無不依賴受影響的存儲可擴展單元。Azure Monitor和Data Factory遇到了依賴這個可擴展單元的管道方面的延遲和錯誤。Azure Stream Analytics作業停止處理輸入及/或生成輸出持續了幾分鐘。Azure Media Services的數據流請求、上傳和編碼出現了故障和延遲。
解決方法:將虛擬機部署到配備托管磁盤的可用性集(Availability Sets)提供了彈性,可以為基于虛擬機的工作負載防范重大的服務影響。
根本原因和緩解方法:在一次常規的定期滅火系統維護期間,發生了意外釋放惰性滅火劑的情況。滅火機制被觸發后,它開始自動關閉空氣處理單元(AHU),這是為火勢控制和安全設計的系統。雖然數據中心里面的情況得到了重新確認,AHU也重新啟動,但受影響滅火區的隔離區的環境溫度還是高于正常的運行參數。由于受到內部散熱監測機制的觸發,受影響區域的一些系統自動關閉或重新啟動,防止這些系統過熱。觸發惰性滅火劑滅火在第一時間就知道了,在隨后的35分鐘內,所有AHU恢復正常,環境溫度恢復到了正常的運行水平。數據中心設施的電源在這次事件中沒有受到影響。所有系統已恢復到完全正常的運行狀態,在調查意外釋放惰性滅火劑期間,進一步的系統維護已被暫停。由于上述事件的性質以及受影響滅火區的隔離區域的散熱情況方面的差異,一些服務器和存儲資源沒有以一種受控的方式關閉。因此,需要另外的時間來排查故障,并恢復受影響的資源。一旦可擴展單元達到了所需的運行節點數量,客戶就看到情況得到逐漸而穩步的改善,直到20:15 UTC完全解決了故障,這時存儲和相關服務都已完全恢復過來。
后續步驟:我們對于給受影響的客戶帶來的影響深表歉意。我們在不斷采取措施改進微軟Azure平臺和我們幫助確保此類事件將來不會發生的流程。在這里,這包括(但不僅限于):滅火系統維護分析繼續開展,設備工程師查明意外釋放惰性滅火劑的原因,并且減小再次發生的風險。針對這種場景下的存儲資源,工程團隊繼續調查故障情況和恢復時間方面的改進。隨著重要的調查和分析工作深入開展下去,我們會在10月13日周五之前發布該RCA的補充信息。
來源:中國IDC圈
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房 |