智能IT運維服務運維建設現在已經在各行各業的新一代運維建設中提上了日程安排,按照企業規模和既有運維成熟度來看,企業規模越大,運維成熟度越高的,越傾向於運維大數據平台(或者運維數據中台)的能力建設,均認為運維數據的治理能力和質量提升是智能運維的關鍵基礎,所以先從這個步驟入手是相當理性的選擇。其中部分企業做了指標智能化管理的一些試點,取得了一些成績,但同時也發現單獨依靠指標異常檢測去完成故障傳播鏈分析和根因定位效果很難實現,於是開始考慮多樣化數據融合的智能化場景。
相對規模小的,既有運維成熟度不是很高的,則傾向於場景化建設,針對告警繁雜處理不過來的,在告警抑製、告警智能化管理方麵進行建設;針對監控誤報漏報率高的,納入指標異常檢測替代固定閥值;希望從日誌數據中直接發現異常,但又不想過多通過寫SPL或者各類依賴正則的方式製作解析規則的,選擇基於日誌聚類的算法做實時異常檢測。
智能運維建設的三大原則
1、從自身運維基礎出發
不要被一堆美輪美奐的場景迷惑,異常檢測、根因定位、故障自愈、知識圖譜,不論哪一種智能運維場景都離不開自身的數據條件和運維基礎,應從自身基礎出發。
2、夯實運維數據處理能力自身能夠有資源建設和維護一支高素養運維開發團隊,先考慮運維數據中台能力建設,先把數據能力夯實,再選擇性看待一些智能化場景的落地。
3、循序漸進的場景化建設自身運維管理資源不足,隻有若幹運維開發人員,甚至多數為兼職的,優先考慮場景化建設,圍繞存在不足和挑戰的既有運維場景逐步做智能化改造,在改造中注意要循序漸進,不可貪多求全。