核心提示: 伴隨著云計算的發展,云計算技術、應急響應機制都日趨成熟和完善。多數情況,云計算平臺都能持續、穩定的正常運行。
中國IDC圈7月11日報道,伴隨著云計算的發展,云計算技術、應急響應機制都日趨成熟和完善。多數情況,云計算平臺都能持續、穩定的正常運行。
不過,因天氣或者其他原因,全球各地大大小小的云計算廠商過去幾年,確實發生過眾多大大小小的"著名"故障。
1、2009年6月,因分布式拒絕服務攻擊(DDoS),亞馬遜EC2服務宕機5小時。
2、2009年6月,Rackspace因供電設備跳閘,備份發電機失效,導致服務器大面積停機。
3、2010年5月,一周內,亞馬遜弗吉尼亞數據中心上演了三次不同的宕機。第一次是不間斷電源(UPS)轉換到備份電源時失敗,一整個機架的服務器停機。第二次發生在四天之后,因一個電源分配箱短路,導致服務中斷8小時。兩天后,一輛汽車撞擊了電線桿子,切斷了數據中心的電源,導致半小時宕機。
4、2011年4月22日,由于技術原因導致亞馬遜在美國東部地區的許多服務中斷。這個故障持續了大約四天時間,被認為是亞馬遜史上最嚴重的云計算安全事件。
5、2012年2月28日,由于"閏年bug"導致微軟Azure在全球范圍內大面積服務中斷,中斷時間超過24小時。
6、2014年8月18日,在Windows 8.01安全補丁例行發布后,Azure云因技術問題引發部分用戶中斷服務長達5個小時。微軟報告稱,Azure服務例如虛擬機網站、自動化、備份和站點恢復都在多個地區出現中斷。
7、2014年11月,Azure多個主要Region的存儲服務出現問題,引發11個小時的故障。該故障影響了19種Azure服務,涉及12個Region,當時似乎只有澳大利亞數據中心幸免于難。
8、2014年11月2日中午12點,騰訊云在上海、廣州兩地的服務器出現故障,導致使用該服務器的用戶出現無法正常登錄、連接不穩定等現象。故障持續約兩小時。
9、2015年6月6日,青云的服務商睿江科技機房因雷暴天氣引發電力故障,導致青云廣東1區全部硬件設備意外關機重啟,青云官網及控制臺無法訪問、部署于GD1的用戶業務不可用。
10、2016年7月6日,上午10點22分,阿里云華北2地域可用區A由于網絡設備出現異常,導致部分產品訪問受到影響。故障持續約1小時。
結束語 | 寫給所有云計算用戶的話
當企業把IT基礎設施托付給云服務商的時候,千萬別忘了你才是這些系統的主人。
美國知名電腦周刊雜志eWeek 資深科技記者Mike Elgan曾表示:"云計算不是萬靈丹,我們不過是租別人的計算機而已。因此自己數據中心可能出現的問題就算是轉向了云計算也依然存在",他建議"企業有自己的替代方案很重要".
Netflix的技術人員認為,不論在何種情況下,每個系統必須靠自己存活。所以,他們在設計系統時考慮了其所依賴的其他系統的故障并且能夠容忍故障。
從兩地三中心到同城雙活到異地多活,金融機構、政府、大中型企業一直秉持"不把雞蛋放在一個籃子里"的思路,在災備的路上越走越高精尖。
但是高精尖的背后是高昂的成本,對中小企業而言有些負擔過重。事實上,在云計算上也有對應的服務:地域(Region)和可用區(AZ:Availabe Zone)。所以對于自己的云端業務,既可以分散到多個可用區,也分散到多個地域。
除此之外,互聯網界對于系統如何達到高可用是有一些基本共識的,比如:大系統小做,服務拆分;并發控制,服務隔離;灰度發布;全方位監控報警;核心服務,平滑降級。這些最佳實踐,如果很好地落實,對于提高系統可用性非常有幫助。
來源:中國IDC圈
速聯速通 專業的服務器托管、租用、云主機、域名、空間、大帶寬:百獨、G口、萬兆。
|