摘要:服務(wù)器宕機一直是業(yè)界關(guān)注的焦點,我們該如何確保自己的品牌不會受到停機事故的負(fù)面影響呢?這確實是個值得思考的問題。
停機事故
2016年發(fā)生的一系列停機事故已經(jīng)導(dǎo)致眾多知名品牌遭受嚴(yán)重?fù)p失,其商業(yè)信譽與消費者信心亦因此受到重大打擊。發(fā)生停機事故的主要原因之一在于計劃外的系統(tǒng)配置變更,這通常是因為即時bug或者潛在系統(tǒng)安全漏洞修復(fù)意外引發(fā)了更為嚴(yán)重的問題。
為了避免發(fā)生計劃外停機,我們將在這里回顧過去一年中出現(xiàn)的那些最為嚴(yán)重的服務(wù)停機事故,希望能夠以此為鑒指導(dǎo)新一年中的業(yè)務(wù)連續(xù)性保障工作。
美國西南航空
去年10月,836條西南航空航線遭遇延誤,而根源在于該公司航線技術(shù)系統(tǒng)中的問題。根據(jù)該公司介紹,技術(shù)人員不得不全力修復(fù)主要系統(tǒng)并利用備份規(guī)程以幫助客戶及其托運行李正確到達目的地。
達美航空
達美航空公司證實,亞特蘭大當(dāng)?shù)氐囊淮坞娏χ袛嘤绊懙狡淞璩繒r開始進行的系統(tǒng)更新,并最終導(dǎo)致計算機系統(tǒng)癱瘓以及大量航班延誤。該公司同時警告稱,當(dāng)周一其被迫因此取消大量航班,且機場屏幕及其它飛行狀態(tài)系統(tǒng)將無法正常顯示航班相關(guān)信息。
根據(jù)統(tǒng)計,此次時長達5小時的停機共造成2000次航班取消,總體損失估計達1.5億美元。
Salesforce
這家云應(yīng)用廠商在其官方網(wǎng)站上指出,其NA14實例上的一套數(shù)據(jù)庫出現(xiàn)文件完整性問題,并導(dǎo)致超過12個小時的服務(wù)停機事故。
根據(jù)統(tǒng)計,由此次停機造成的經(jīng)濟損失約為2000萬美元。
蘋果
去年6月,蘋果公司放下的iCloud、App Store、iTunes以及Apple TV等一系列互聯(lián)網(wǎng)服務(wù)發(fā)生長達9小時的停機事故。另外,去年12月初用戶們亦發(fā)現(xiàn)其暫時無法登錄自己的iCloud賬戶。
Slack
去年6月,高達300萬用戶在2小時內(nèi)由于Web服務(wù)器過載而無法正常訪問Slack。
該公司目前正在就如何避免再次發(fā)生類似問題而進行討論。
身份是解決問題的關(guān)鍵
為了避免發(fā)生停機事故,IT運營團隊?wèi)?yīng)當(dāng)對現(xiàn)有服務(wù)進行分層,同時將系統(tǒng)身份識別作為業(yè)務(wù)中的關(guān)鍵性因素。其中頂級應(yīng)用應(yīng)是那些與業(yè)務(wù)成敗直接關(guān)聯(lián)的重要應(yīng)用,例如銷售點、票務(wù)或者計費等功能相關(guān)的應(yīng)用。
為頂級系統(tǒng)制定故障切換計劃
高可用性水平不可能自然實現(xiàn),我們必須為其做好規(guī)劃及實施。具體而言,高可用性立足于系統(tǒng)架構(gòu)中的各個方面。頂級系統(tǒng)需要切實配合故障切換計劃,同時利用額外負(fù)載容量處理意外出現(xiàn)的負(fù)載峰值。
投資建立高水平監(jiān)控堆棧
如果無法把握服務(wù)的當(dāng)前運行狀態(tài),那么保證其運行狀態(tài)也將成為癡人說夢。事實上,準(zhǔn)確了解IT系統(tǒng)運行狀態(tài)的惟一途徑就是在堆棧中的各個層面上引入一流監(jiān)控工具(例如系統(tǒng)監(jiān)控、應(yīng)用監(jiān)控、Web與用戶監(jiān)控、日志記錄以及錯誤追蹤等方案)。目前IT行業(yè)正積極利用這種分層式功能獨立方案取代原有的整體式服務(wù)監(jiān)控機制,從而適應(yīng)持續(xù)提升的IT系統(tǒng)復(fù)雜性與動態(tài)水平。
在警報機制內(nèi)區(qū)分有效信號與干擾信號
工具數(shù)量的增加同時意味著我們需要面對更多干擾信號。為了有效識別、分類并解決潛在問題,IT團隊必須找到可行方式以正確進行有效信號與干擾信號分離。通過采用警報關(guān)聯(lián)解決方案,IT團隊將能夠了解各監(jiān)控工具的警報信息間存在哪些聯(lián)系,從而快速過濾掉非關(guān)鍵性問題,最終集中精力處理最重要的風(fēng)險因素。
來源:機房360
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機柜租用 石家莊機房 |