侯婧媖
摘要:通過對公司計算機終端運維監(jiān)控的需求分析,自行研究開發(fā)設計制作了計算機終端及網絡故障定位分析工具,實現了低成本、高效率的運維方式,降低了運維人員日常工作量,提高了運維工作效率,為運維人員提供了一個實用的計算機終端和網絡故障定位、分析的工具,能夠及時發(fā)現、分析和遠程判斷各種終端異常,試運行情況達到了預期的效果,有效地提升了公司對終端監(jiān)控、運維預警等的管理水平,為電力系統(tǒng)的規(guī)劃設計、基建、發(fā)電、輸電、供電和經營等各環(huán)節(jié)提供強有力的支撐。
關鍵詞:計算機終端 故障 定位分析
中圖分類號:TP309.1 文獻標識碼:A 文章編號:1007-9416(2016)12-0126-01
隨著“三集五大”體系的全面建成,業(yè)務應用系統(tǒng)在國網公司和省公司逐步集中部署,終端用戶面臨的業(yè)務系統(tǒng)應用異常或故障所涉及的技術環(huán)節(jié)越來越多,包括計算機終端運行、業(yè)務系統(tǒng)客戶端、網絡、服務器等因素,一些短時間內突發(fā)和間歇性的異常或故障,特別像配網搶修值班、95598等24小時開展的業(yè)務應用終端,由于沒有技術手段進行故障現場多環(huán)節(jié)數據的記錄,信息運維人員無法知曉故障發(fā)生時的各項運行數據,難以在事后開展有效的故障分析和準確定位故障原因,造成了同一故障頻發(fā)的現象,妨礙了信息技術服務質量的提升。
為了提升公司整體運維水平,提高運維效率,公司通過創(chuàng)新項目立項,成立技術開發(fā)團隊設計制作一套覆蓋計算機終端運行全環(huán)節(jié)的計算機終端及網絡故障定位分析工具,通過在目標機終端安裝系統(tǒng)客戶端工具,實時監(jiān)控終端的運行情況,當終端出現故障時能第一時間記錄當時終端、網絡的運行情況,為技術人員處理問題時提供判斷依據;同時能將各終端的運行信息進行收集整理,并進行科學的統(tǒng)計分析,達到對終端設備運行情況進行有效預警,降低終端出現故障的頻率,提升信息技術服務質量,提升信息化管理水平。
1 工具設計及研制
1.1 工具分析
根據工具架構模型,系統(tǒng)分為終端監(jiān)控工具和故障定位分析工具,終端監(jiān)控工具部署在終端一側以windows服務形式存在客戶終端中,負責信息采集、信息結構化、信息傳輸、信息暫存、故障處理等環(huán)節(jié);故障定位分析工具分析工具部署在服務端,主要有CPU、內存、網絡參數分析、進程分析、操作系統(tǒng)日志、客戶端日志分析等功能。兩個工具之間通過網絡通訊進行數據交換。數據采用XML封裝,HTTP協(xié)議接口標準。
1.2 關鍵技術實現過程
1.2.1 Windows日志讀取及分析
Windows日志從Windows2000版本后共包括9種審計策略。共分為:帳戶登錄、登錄、對象訪問、目錄服務訪問、進程追蹤、特權使用、帳戶管理、策略變更、系統(tǒng)事件9大類。本項目主要是對進程追蹤和系統(tǒng)事件進行關注。
每個windows日志都由兩部分組成:頭字段和描述字段。頭字段是相對內容和格式都固定的部分,包括的信息有:事件的id、日期和時間、事件的結果(成功還是失?。⑹录膩碓春皖悇e。通過對日志頭部字段的過濾能獲取到本項目相關的系統(tǒng)日志。
同時通過專業(yè)的分析,對某些特定事件的進行特殊識別,比如開關機事件(6006和6005),6006表示事件日志服務已停止,如果沒有在事件查看器中發(fā)現某日的事件ID號為6006的事件,就表示計算機在這天沒有正常關機。將這類事件放到事件庫中,工具能自動獲取一個時間段的這些事件日志,并將這些情況上傳到分析工具端。
1.2.2 網絡故障探測及識別
在現實的計算機終端運維中,用戶不能上網占有很大的工作量,用戶缺少專業(yè)的故障分析能力,經常需要運維人員到現場解決,但是經常出現運維人員到現場后故障就恢復了,根本無法找到發(fā)生故障的節(jié)點和原因,為了徹底解決這一狀況,本次項目通過使用Tracert(跟蹤路由)程序來解決。
Tracert(跟蹤路由)是路由跟蹤實用程序,用于確定IP數據包訪問目標所采取的路徑。Tracert命令使用用IP生存時間(TTL)字段和ICMP錯誤消息來確定從一個主機到網絡上其他主機的路由。
網絡故障定位分析主要是終端出現網絡故障時,終端工具根據Tracert指定出口路由器,并在網絡恢復后將Tracert結果上傳至后臺進行分析。
1.3 工具功能模塊
終端監(jiān)控工具在用戶終端設定為開機啟動,并始終以 windows 服務的模式進駐終端,負責終端信息的采集工作。在終端計算機運行使用過程中,終端監(jiān)控工具將實時采集終端計算機中的進程信息,并即時上傳至服務端工具中以便分析統(tǒng)計。在終端計算機運行使用過程中,終端監(jiān)控工具將實時采集終端計算機中的CPU運行信息,并即時上傳至服務端工具中以便分析統(tǒng)計。在終端計算機運行使用過程中,終端監(jiān)控工具將實時采集終端計算機中各應用的內存占用數量等信息,并即時上傳至服務端工具中以便分析統(tǒng)計。在終端計算機運行使用過程中,終端監(jiān)控工具將實時采集終端計算機的網絡信息(包括各個應用的占用流量等)進行采集,并即時上傳至服務端工具中以便分析統(tǒng)計。
分析工具分普通人員與管理員兩種角色,工具對每一臺終端進行管理與預警配置,包括CPU、內存、網絡使用情況的預警配置上限都可根據分析工具自定義。對終端上傳的數據進行分析(包括CPU、內存、網絡、進程);根據多方面的數據,及時告警;并對分析后的數據進行清晰的展示。
2 應用效果
本工具通過分析計算機終端機的故障表現、成因,并對windows程序、進程、硬件等核心技術進行了深入研究,結合網絡技術、數據庫技術、緩存技術,將計算機終端的各類運行數據、故障數據傳到服務端進行分析處理。實現了終端運行的實時監(jiān)控。
本工具通過系統(tǒng)監(jiān)控的形式、將CPU、網絡、內存、進程、操作系統(tǒng)日志等從上之下的數據,傳送到服務端,實現全面的、全覆蓋的記錄系統(tǒng)信息,實現運維能夠全面分析問題所在,能徹底定位出故障的原因。
參考文獻
[1]丁成章.利用傳輸網管對數據業(yè)務的故障定位與測試[J].光纖與電纜及其應用技術,2015(02).
[2]莊小艇.基于無線傳感器網絡的配電線路故障定位研究[J].中國新技術新產品,2013(24).