就在國內的人們互道“過年好”之際,國外的Gitlab(開源git倉庫管理平臺)出大事了。
Gitlab.com平臺因為其某位運維同學誤刪了數據而導致整個網站下線。經歷了千辛萬苦,其整個數據恢復過程近兩天才完成,期間 Gitlab還在Youtube上直播了整個數據恢復過程。根據官方對整個事情的描述,大概可以推斷Gitlab使用的是故障發生前6個小時的備份數據,也就是說這6個小時時間之內的數據最終還是丟失了。
這個事件看似是一個極低級的錯誤,暴露的卻是自動化運維能力弱和流程不規范的大問題。
關注一:讓運維自動化
自動化運維所能實現的不僅僅是通過技術和工具減少人工的參與成本,而是將人、流程和運維產品相結合,最終做到提高運維效率,最大限度減少類似Gitlab事件的發生。
在日常的IT運維工作中有大量的重復性工作,小到簡單的日常巡檢、配置和變更,大到產品的發布、流程的組織調度,都需要自動化操作,從而減少乃至消除運維中的延遲和事故。簡單地說,IT運維自動化是將事件與IT流程相關聯,一旦被監控對象發生性能超標或故障,會觸發相關事件以及事先定義好的流程,可自動啟動故障響應和恢復機制。
比如監控易平臺(jiankongyi.com)可幫助IT運維人員完成日常的重復性工作,提高IT運維效率。同時,監控易還能預測故障、在故障發生前就發出預警,通過精準有效的告警策略,讓IT運維人員把故障消除在發生前。監控易可以根據故障類型和影響級別及時觸發工單流程,并可根據SLA進行事件升級,讓運維有序高效進行。
關注二:管好服務流程
如果說運維技術能夠發現問題、處理事件、保障系統運行,流程管理則是分配資源和人力,優化流程,遇故障時盡快恢復系統,做到未雨綢繆。
在此次Gitlab事件中,最令人不解的是運維人員在故障處置過程中,沒有經過變更管理流程,以及必要的授權、評估和測試,就直接在生產環境上進行了實驗性的操作,并且執行的還是刪除數據庫目錄這樣的高危操作。
正如ITIL所描述的,變更發布管理之所以重要和優秀,是因為其往往會經過多個控制環節,以確保變更的成功,包括對變更申請、授權、評估、測試、審批、發布等一系列流程的管理,以確保生產環境的變更安全有效。
IT運維管體系涉及到多個相互獨立又彼此關聯的服務流程,如果能將這些現有的應用管理系統以及企業內部、外部系統及流程的接口整合銜接,建立標準的流程體系和統一的管理平臺,從而實現服務關系級別的管理。
服務關系管理是一個企業提高運營效率、實現數字化運營的保障,通過對服務關系的優化改進、大數據分析,建立起強大的服務保障體系;通過數據展現業務與經營、收入與支出、效率與效果等各方面、多維度的運營分析,全面為企業決策提供充分可靠的依據。
服務魔方(fuwumofang.com)的服務關系管理,立足于對服務的質量監控、服務流程的優化梳理、服務關系的價值發掘。通過服務魔方的商業價值分析,能夠讓企業將進銷存與各部門、各業務流建立關聯,打通信息孤島、共享數據,時刻掌握業務數據變化,清晰了解發展趨勢,為運營決策提供及時準確的數據和方法支撐。
來源:機房360
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房