李兆康
本文從運維痛點和需求入手,提出建設(shè)運維監(jiān)控、日志分析、應用性能及RPA自動巡檢與處置等,全面實現(xiàn)自動化運維的經(jīng)驗分享。
隨著公司信息化建設(shè)和數(shù)字化轉(zhuǎn)型不斷深化,數(shù)字科技的投入逐年增加,IT系統(tǒng)架構(gòu)轉(zhuǎn)型為云化、容器化、微服務化,動態(tài)伸縮,關(guān)系復雜。當故障出現(xiàn)后,運維團隊花費大量精力聯(lián)合分析處理,不能快速和準確定位問題根源,無法有效診斷和預防故障,需要從網(wǎng)絡流量、主機性能、應用性能、日志報文等層面進行精細化的監(jiān)控預警。
當今世界,科技創(chuàng)新已經(jīng)成為產(chǎn)業(yè)變革的重要動力,在“新基建”政策和數(shù)字化轉(zhuǎn)型浪潮的推動下,云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、人工智能等新一代信息技術(shù)的快速發(fā)展,敏捷開發(fā)與運維一體化時代到來,產(chǎn)業(yè)應用場景日趨多樣,企業(yè)的業(yè)務架構(gòu)和網(wǎng)絡環(huán)境也隨之發(fā)生了重大的變化,業(yè)務系統(tǒng)的邏輯結(jié)構(gòu)正變得越來越復雜,這給企業(yè)的運維管理帶來了新的挑戰(zhàn)。
(一)設(shè)備種類繁多
隨著公司業(yè)務發(fā)展,業(yè)務系統(tǒng)越來越多,配套支撐的網(wǎng)絡、服務器、存儲、主機、中間件、數(shù)據(jù)庫、虛擬化、云平臺等基礎(chǔ)軟硬件規(guī)模呈指數(shù)增長,IT環(huán)境異構(gòu),軟硬件種類繁多,日常運維工作量巨大,運維監(jiān)控不全面,無法持續(xù)實時監(jiān)控IT系統(tǒng)。當系統(tǒng)出現(xiàn)故障后,運維團隊花費大量精力排查和解決,不能快速、準確定位問題根源,無法有效預防故障,造成故障處理效率偏低。
(二)日志分析量大
現(xiàn)代信息技術(shù)帶來了IT系統(tǒng)日志數(shù)據(jù)的爆發(fā)式增長,數(shù)據(jù)量大、多樣化、快速化給日志的分析挖掘帶來了很大的挑戰(zhàn),實時性要求也對計算性能提出了很高要求:當前各系統(tǒng)產(chǎn)生大量的運行和業(yè)務日志,無法跨系統(tǒng)共享,實際問題處理聯(lián)合分析耗費人力較多、時間長,缺少聯(lián)動分析預警能力。
(三)系統(tǒng)復雜度高
業(yè)務系統(tǒng)之間的關(guān)聯(lián)性逐漸增加,IT系統(tǒng)的規(guī)模及架構(gòu)也會隨之變得越來越復雜。導致運維團隊對于系統(tǒng)維護難度增加,往往需要投入更多的人力,來保障整個 IT系統(tǒng)的穩(wěn)定運行,從而避免對業(yè)務產(chǎn)生影響。然而更多的人力投入,不但增加了運維的成本,而且對運維管理工作造成影響的風險也隨之增加。
(四)新技術(shù)管理難
隨著敏捷開發(fā)與運維一體化時代的發(fā)展,越來越多的企業(yè)采用容器化部署,龐大的應用分布式服務集群包含了成百上千個實例,且這些實例都是隨時進行彈性伸縮,云化和微服務化的高速發(fā)展、以及網(wǎng)絡接入方式的多樣化等趨勢,使得運維在面對逐漸流行的容器化或其他高復雜度服務架構(gòu)等監(jiān)控時,成為各大企業(yè)運營人員關(guān)心的問題。
(一)基礎(chǔ)軟硬件監(jiān)控。
實現(xiàn)IT系統(tǒng)的基礎(chǔ)軟硬件性能監(jiān)控、網(wǎng)絡監(jiān)控、故障分析及定位、資產(chǎn)及配置文件的管理等功能,保障了日常運維工作的順利開展,提升了運維團隊的管控水平。通過SNMP、IPMI、SMI-S等協(xié)議添加網(wǎng)絡安全、服務器及存儲等硬件設(shè)備節(jié)點,通過WMI、SSH、Telnet添加主機、中間件、數(shù)據(jù)庫等軟件資源節(jié)點,通過Ping、Port、URL等協(xié)議添加應用服務,形成數(shù)據(jù)中心統(tǒng)一拓撲圖,展示節(jié)點及鏈路狀態(tài),以及形成業(yè)務管理視圖,展示業(yè)務系統(tǒng)的運行狀態(tài)、響應速度、網(wǎng)絡、計算、數(shù)據(jù)庫、存儲容量及整體健康度等。資源監(jiān)控指標需要重點關(guān)注,針對業(yè)務和資源情況進行個性化梳理、設(shè)置,確保監(jiān)控的準確性及實用性。例如:專線監(jiān)控應考慮專線帶寬大小、本端業(yè)務節(jié)點到對端業(yè)務節(jié)點的連通性情況;數(shù)據(jù)庫監(jiān)控應考慮業(yè)務占用表空間大小的情況。告警管理至關(guān)重要,告警閾值設(shè)置高了,容易遺漏系統(tǒng)運行故障;告警閾值設(shè)置低了,又會帶來大量的無效告警,影響運維團隊的工作效率。同樣,告警檢查的周期設(shè)置長短也存在類似的問題。往往運維團隊為了不遺漏告警,而提升告警的靈敏度,導致告警重復率很高。傳統(tǒng)告警提醒方式為郵件、短信,目前主流產(chǎn)品已經(jīng)支持與企業(yè)微信、釘釘?shù)燃?,通過團隊協(xié)作的方式快速處理問題,極大地提升故障的處理效率。一般系統(tǒng)還支持設(shè)備配置備份及巡檢功能,針對不同廠商的設(shè)備型號,分類批量設(shè)置備份或巡檢腳本,實現(xiàn)常規(guī)任務自動化處理。
(二)日志分析監(jiān)控。
實現(xiàn)日志跨系統(tǒng)集中存儲、索引、分析與歸檔,可視化展示及全庫檢索,實時監(jiān)控、深度分析,加速故障分析、追蹤和定位。同時建立指標歷史基線,分析變化趨勢,及時預警。通過文件、數(shù)據(jù)庫、執(zhí)行腳本讀取等采集方法將日志統(tǒng)一收集到系統(tǒng)集中管理,對日志進行切分、識別時間戳及實時索引和存儲,使用解析功能將日志中的字段提取出來,使用SPL對日志進行更多地聚合和關(guān)聯(lián)分析。搜索分析是日志價值探索的核心能力,搜索模塊由搜索欄、時間范圍、操作選項組成,在搜索框輸入搜索分析語句、選擇時間范圍和操作過濾出對應數(shù)據(jù),或者通過劃詞過濾搜索結(jié)果??梢暬梢杂行腋玫剡M行分析,以圖表形式展示多維度的日志信息,揭示日志模式和趨勢,幫助我們更好更容易地理解日志或提取日志信息,提高效率。告警提供從規(guī)則配置、事件觸發(fā)、發(fā)送通知、事件分析的一站式管理。系統(tǒng)還可作為日志服務器供應用運維團隊使用,不再需要登錄應用生產(chǎn)節(jié)點獲取日志,還提供將采集到的原始日志進行加密以及對敏感日志脫敏;日志保存時間需要滿足至少存儲180天的要求。
(三)應用性能監(jiān)控。
實現(xiàn)對應用系統(tǒng)代碼執(zhí)行效率等逐層進行深入分析,對業(yè)務調(diào)用的全面感知,加速故障分析、追蹤、定位和修復,開發(fā)測試階段及時預警,優(yōu)化迭代,對系統(tǒng)進行量化、可視化和精細化管理。通過探針對應用或進程進行監(jiān)控,以業(yè)務透視IT系統(tǒng)架構(gòu),對用戶事務請求進行完整地堆棧追蹤,對用戶級代碼進行分析,呈現(xiàn)每一個業(yè)務調(diào)用、每一個類、每一個方法的執(zhí)行效率,展示業(yè)務在各個環(huán)節(jié)的性能表現(xiàn),透析各個節(jié)點的調(diào)用拓撲,全維度展現(xiàn)業(yè)務調(diào)用流程。用戶的每一次請求到達服務端時,標記特定ID,實現(xiàn)服務端調(diào)用全鏈路的級級透傳,實現(xiàn)全鏈路調(diào)用追蹤,便于故障的快速定位。以機器學習知識為基礎(chǔ),結(jié)合歷史數(shù)據(jù)集,使用異常檢測算法,對實時數(shù)據(jù)進行高密度分類匹配,檢測事件異常。
(四)RPA自動巡檢處置。
RPA(Robotic Process Automation)是指使用軟件自動化來實現(xiàn)原本由用戶計算機完成的操作,這些軟件機器人自動處理大量重復的、基于規(guī)則的工作流程任務,準確快速地完成,減少人為錯誤,提高效率,大大降低運營成本。通過RPA技術(shù)與運維管理工作結(jié)合,巡檢機器人實時采集巡檢目標的運行信息,判斷運行狀態(tài)、是否報錯、是否需要進行相應處理,并發(fā)送至管理中心,進而能夠?qū)崟r監(jiān)測巡檢目標狀況,提高巡檢的效率與質(zhì)量。機器人每天實時模擬運維團隊對業(yè)務系統(tǒng)及管理節(jié)點進行信息采集,對自動任務等進行實時性及關(guān)鍵字進行判斷,一旦匹配設(shè)置的規(guī)則,則會通知運維團隊,并觸發(fā)預置的處置方案,快速恢復系統(tǒng)業(yè)務;還可以實現(xiàn)系統(tǒng)更新后的功能模塊及業(yè)務驗證。
通過自動化運維應用實踐實現(xiàn)了對業(yè)務流程的有效梳理,全局掌握IT資源和資產(chǎn)的詳細信息,提高了運維工作效率,有利于故障的快速恢復。近年來,在自動化運維的基礎(chǔ)上,提出了AIOps(智能運維),將AI應用于運維領(lǐng)域,基于已有的運維數(shù)據(jù)(日志、監(jiān)控信息、應用信息等),加上基于機器學習的大腦,做出分析決策,并執(zhí)行自動化腳本,從而達到運維管理的整體目標。AIOps是運維的發(fā)展趨勢,是自動化運維的下一個發(fā)展階段。同時匹配相應的制度流程、組織人員以及資金保障,全面提升運維能力,助力公司高質(zhì)量發(fā)展。
作者單位:中國建材集團財務有限公司