唐彬彬,葉 丹,俞曉峰,梁 強
(廣東電網(wǎng)有限責(zé)任公司河源供電局,廣東 河源 517000)
主站機房季度定檢信息作為定期分析主站設(shè)備運行狀態(tài)的依據(jù),對于主站設(shè)備故障診斷、缺陷處理等方面有重要意義[1]。在常規(guī)主站機房設(shè)備定檢過程中,通常依據(jù)設(shè)備資產(chǎn)表逐一進行設(shè)備的檢查和信息備份,但此種方法存在效率低和智能化程度低等問題[2]。同時,對于承載重要信息的機房設(shè)備,逐一操作擴大了工作范圍的同時,增加了工作中誤操作的風(fēng)險[3]。因此,本文通過分析機房主機設(shè)備定檢的業(yè)務(wù)特點,采用智能運維思維設(shè)計基于機房已有硬件資源的批量主機設(shè)備自動定檢信息獲取的功能,在不影響設(shè)備正常運行監(jiān)測的基礎(chǔ)上全面提升效率,降低了維護成本和作業(yè)過程風(fēng)險點,提高設(shè)備的精細(xì)化管理水平[4]。
本文基于Qt Design Studio界面和bash shell進行設(shè)計,由圖形界面控制、主控制流程、自動交互流程以及信息獲取流程等組成,主要功能論述如下。
圖形界面控制功能依托于調(diào)度自動化系統(tǒng)Qt圖形設(shè)置軟件設(shè)計功能界面,并集成對應(yīng)運行程序,通過界面熱點觸發(fā)完成主站機房設(shè)備巡檢信息自動獲取操作,實現(xiàn)巡檢操作的可視化。圖形界面具備巡檢信息運行開始、巡檢信息運行結(jié)束、巡檢主機設(shè)備列表編輯與保存、巡檢主機已完成設(shè)備列表展示以及實時程序運行信息實施展示等內(nèi)容。
主控制流程功能實現(xiàn)各子功能的交互與調(diào)用,協(xié)調(diào)完成主機地址管理與獲取、執(zhí)行程序發(fā)送與執(zhí)行、巡檢獲取文件回傳等關(guān)鍵功能,逐一實現(xiàn)批量巡檢設(shè)備信息獲取的全流程。批量巡檢設(shè)備信息獲取流程如圖1所示。
圖1 批量巡檢設(shè)備信息獲取流程
自動信息交互流程負(fù)責(zé)用戶地址管理、用戶賬號管理、用戶密碼管理和執(zhí)行程序的下發(fā)與執(zhí)行。調(diào)用用戶地址管理子程序完成當(dāng)前執(zhí)行巡檢設(shè)備地址獲取,用戶賬號和密碼子程序完成對應(yīng)巡檢設(shè)備的賬號、密碼獲取,因此在完成用戶地址、賬號和密碼的調(diào)用后,即可建立與被定檢設(shè)備的信息交互。執(zhí)行程序下發(fā)完成定檢信息獲取程序的下發(fā)至對應(yīng)地址的主機設(shè)備,隨后主控制流程功能觸發(fā)定檢信息獲取程序,在完成單臺主機設(shè)備的信息獲取后,將所收集的設(shè)備運行信息按主機名命名的文件夾集中保存至指定目錄,最后刪除遠程主機設(shè)備中的定檢信息獲取程序文件和所收集的設(shè)備運行信息并遞歸定檢至下一臺主機設(shè)備。自動信息交互流程如圖2所示。
圖2 自動信息交互流程
定檢信息獲取流程是完成主機設(shè)備信息查詢和獲取核心組成部分,在執(zhí)行自動信息交互流程后定檢信息獲取程序由主控制程序完成觸發(fā)和執(zhí)行。首先檢查當(dāng)前賬號是否具備巡檢信息獲取的權(quán)限,其次設(shè)定執(zhí)行結(jié)果輸出狀態(tài),當(dāng)執(zhí)行成功后輸出“完成”標(biāo)識符,執(zhí)行失敗后反饋“失敗”標(biāo)識符,最后依據(jù)流程逐一完成主機設(shè)備操作系統(tǒng)版本信息、設(shè)備廠商信息、IP/MAC地址、CPU信息、磁盤信息、內(nèi)存信息、系統(tǒng)信息、文件系統(tǒng)信息、系統(tǒng)運行時負(fù)載情況、物理內(nèi)存使用情況、交換分區(qū)使用情況、集群信息、日志文件信息、密碼周期檢查、數(shù)據(jù)庫運行狀態(tài)檢查以及數(shù)據(jù)庫信息等信息的獲取,并將獲取信息保存至對應(yīng)路徑下的文件夾中。定檢信息獲取流程如圖3所示。
圖3 定檢信息獲取流程
在可視化界面可通過查詢巡檢主機已完成設(shè)備列表和運行設(shè)備信息巡檢設(shè)備計數(shù)確定本次巡檢信息獲取工作結(jié)束,可在指定位置將本次巡檢所有主機的信息拷貝至移動終端,完成信息備份和開展線下主機設(shè)備運行狀態(tài)分析。
采用本文方法開展機房主機設(shè)備巡檢信息自動獲取的實用化過程中發(fā)現(xiàn)仍存在待進一步優(yōu)化的空間,優(yōu)化提升總結(jié)如下。
(1)不同主機操作系統(tǒng)的匹配方面。機房主機設(shè)備存在操作系統(tǒng)版本不同、操作系統(tǒng)不同的特點,因此在開展機房主機設(shè)備巡檢信息自動獲取時需考慮操作系統(tǒng)版本和操作系統(tǒng)不同時查詢命令的匹配。本文可實現(xiàn)通用版本Linux和麒麟2種操作系統(tǒng)的自動信息獲取,實現(xiàn)主機設(shè)備巡檢覆蓋,但存在少量主機設(shè)備應(yīng)用Windows等其他操作系統(tǒng)的情況。本文所涉及的主機設(shè)備巡檢信息獲取在不同操作系統(tǒng)上存在改進空間。
(2)業(yè)務(wù)流程優(yōu)化方面。本文所設(shè)計的界面化操作主機設(shè)備信息自動獲取當(dāng)前只能實現(xiàn)逐一巡檢,在巡檢過程中只有完成當(dāng)前巡檢主機信息回傳至指定路徑后才能開始下一臺主機設(shè)備的巡檢。相對于逐一主機設(shè)備的手動巡檢采用本文的方法雖極大提升了效率,但在硬件資源滿足條件的基礎(chǔ)上可以進一步優(yōu)化業(yè)務(wù)流程,實現(xiàn)多臺主機設(shè)備的并行執(zhí)行,提升定檢效率。
(3)主機設(shè)備業(yè)務(wù)運行狀態(tài)的方面。因部分主機存在運行業(yè)務(wù)多、硬件異常等情況,在執(zhí)行主機巡檢過程中存在卡頓的問題,如果不進行處理,將會無法繼續(xù)執(zhí)行。當(dāng)前本文采用手動跳過步驟繼續(xù)執(zhí)行的方法,但此種方式過于煩瑣,下一步采用的方法會主動判斷查詢子信息所消耗時間,當(dāng)時間超過一定閾值后自動跳轉(zhuǎn)至下一步驟繼續(xù)執(zhí)行,并對異常運行步驟進行統(tǒng)計記錄,便于后期分析排查。
(4)主機設(shè)備多網(wǎng)段方面。機房主機設(shè)備因設(shè)備眾多和業(yè)務(wù)區(qū)分要求具備多IP地址網(wǎng)段的特點,本文所采用的方法不能實現(xiàn)跨網(wǎng)段執(zhí)行,因此在進行主機設(shè)備信息獲取時需要提前依據(jù)網(wǎng)段編輯主機設(shè)備地址文件,在對應(yīng)網(wǎng)段部署此功能的主機上分別執(zhí)行[5]。
機房主機設(shè)備巡檢信息自動獲取功能是基于機房已有硬件資源的部署實現(xiàn),在實際應(yīng)用中證明采用此方法可實現(xiàn)機房主機設(shè)備信息高效批量獲取,極大提升工作效率和減少誤操作。此方法可在具備大量主機設(shè)備的調(diào)度自動化系統(tǒng)機房、通信網(wǎng)絡(luò)運行機房、信息中心機房以及數(shù)據(jù)中心等場景進行部署使用,具備較好的應(yīng)用前景。