6月17日下午16點30分左右開始,新浪微博經歷了“黑色一小時”,幾乎全平臺癱瘓,微博CIO王巍在事后回應稱,這次故障的原因是“外部機房整層掉電”。作為業內人士,很難想象,支撐著上億用戶的新浪微博數據中心會出現因電力保障問題而宕機的事故。
對此,中國IDC圈第一時間聯系到擁有20多年數據中心建設運維搶修經驗的資深專家張洋,請他分析一下此次新浪微博機房斷電宕機的可能原因。
1.人為原因方面——互鎖機制流程是否順暢?值班狀態有待確認
“武裝到牙齒的現代化部隊,也可能存在管理漏洞,在某種情形下,被‘敵人’輕易攻陷。自動化程度很高的數據中心,在運營維護上的一點小瑕疵,就可能導致整個數據中心宕機。新浪微博機房掉電宕機,有可能是設計上存在問題,但更大的可能,則是運行維護時人為因素造成。”在電話里,張洋開門見山,認為人為原因可能性最大。
張洋向中國IDC圈記者分析說,即使數據中心有雙路市電的保障,但如果一路市電失電,配電系統互鎖機制方面出現問題,那么所謂雙路市電只是形同虛設。正常情況下,一路市電斷電,UPS將自動啟用,隨后另一路市電及時切入。所謂互鎖機制,就是為了防止人為誤操作造成兩路市電之間發生短路的保障機制。
新浪微博機房這種等級的機房,一般只有兩路市電都中斷,才會啟用發電機。如果一路市電斷電時,值班人員或電力運維工程師技術能力有限,或由于其他原因應對不足,則可能直至UPS電力耗盡,仍未能切入另一路市電,最終造成數據中心電力中斷。
張洋說,通常情況下,市電中斷后,UPS自動啟用,一般可以維持數據中心繼續運行10分鐘以上,在這期間,系統會發出報警警示,如果技術人員沒有及時注意到系統報警,就可能造成另一路市電未能及時切入,或發電機未能及時啟動,造成掉電宕機。是否存在這樣的情況,還有該數據中心下一步披露的調查結論。
2.機房設計方面——辦公區是否為普通市電?雙路市電真偽待查
張洋認為,還有一種可能,就是設計上的瑕疵。如果機房運行維護辦公區也使用普通市電供電。市電斷電時,電腦、辦公系統全部失靈,工作人員之間無法交流、操控,數據中心就會全面癱瘓,報警信息無法及時處理,值班搶修人員無法及時到崗開展應急工作,最終導致數據中心掉電宕機。
在設計上,大型數據中心對每年斷電時間、頻率有著非常嚴格的要求,比一般的工業用電要求供電等級更高,而且還需要雙路以上(最高等級要求四路)來源于不同區域、不同變電站的市電接入,更高一級要求上兩級電力接入不允許是同一路變電站或者供電回路。
“如果不是數據中心場地高壓開關房及周邊事故,一般不會出現兩路市電同時停電的情況。但如果兩路市電同屬一個上級電站,那么,當該變電站出現問題時,所謂的‘雙路市電’會同時中斷,這也就是業內所說的‘偽雙路市電’。”張洋向中國IDC圈強調。
3.回應網友猜測——發電機故障可能性很低 高溫天氣無需背鍋
針對一些網友提出的“發電機故障或機房方面為降低成本而延遲發動機啟用”的猜測,張洋認為可能性不大。
張洋告訴中國IDC圈,對于新浪微博機房這種高等級機房來說,往往都是多臺發電機并機運行,發電機采用N+1配置,即使一臺發電機故障,也可以完全滿足系統正常運行。一般情況下,發動機啟動運行1分鐘內,就能正常供電,保障數據中心的運行。啟動發動機的成本并不高,只需要燃油方面的花費。即使電力供應正常,數據中心每個月都要啟動發電機至少一次,每次加載運行不低于十五分鐘,使發電機內部潤滑等部件保持狀態良好,可以隨時投入應急使用。
還有網友猜測,近期北京氣溫上升過高,達到歷史同期最高水平,炎熱天氣會增加數據中心負荷,導致宕機概率上升。張洋認為,該種猜測也不正確。
張洋說,天氣炎熱,室外溫度上升,在IT負載方面不會有任何變化,變化的就是空調部分的制冷效率。溫度上升,導致室外冷凝器的熱交換溫差降低,進而降低冷凝器熱轉化效率,使數據中心PUE值上漲。
一般的數據中心PUE會在1.5至2.0之間,這主要就是冬季夏季因氣溫引起的制冷供電功率的變化,數據中心用電設計都會保留最大用電負荷的冗余設計,所以溫度高了,只會影響到用電成本的增加,不會因此宕機。
發電機啟動一分鐘后,就能發電供數據中心機房使用,為什么這次此次新浪微博宕機時間卻長達一個多小時?
張洋解釋說,掉電后,發電機一分鐘發電供電是沒問題的,但如果數據中心路由器、核心交換機部分沒有配備機柜內備用UPS的話,掉電恢復時間可能從三五分鐘達到乃至十幾分鐘,抑或需要從根本上人工重新恢復數據再運行。一般的服務器都會設置掉電重啟,這個重啟時間也會從三五分鐘至十幾分鐘不等。如果部分服務器因掉電引起數據丟失、損壞,而需要通過其他手段進行恢復才能運行,就需要更長的時間了。
來源:中國IDC圈
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房 |