李雅男
【摘 ?要】近年來,經(jīng)濟的發(fā)展,促進我國科技水平的提升。隨著科技的進步信息通信系統(tǒng)日漸一體化、集群化、復雜化,數(shù)據(jù)爆炸性的增長導致數(shù)據(jù)庫及中間件規(guī)模成無序增長態(tài)勢?,F(xiàn)有數(shù)據(jù)庫、中間件監(jiān)控技術不能主動發(fā)現(xiàn)問題、定位問題,運維業(yè)務系統(tǒng)繁多、流程復雜、服務響應時長。通過對數(shù)據(jù)庫及中間件自動化運維監(jiān)測系統(tǒng)的研究,建立了安全、高效的數(shù)據(jù)庫及中間件自動化運維管理體系,實現(xiàn)了對主機、中間件、數(shù)據(jù)庫的基本信息的監(jiān)控,實時發(fā)現(xiàn)異常信息并發(fā)出告警信息。本文就數(shù)據(jù)庫及中間件自動化運維監(jiān)測系統(tǒng)展開探討。
【關鍵詞】數(shù)據(jù)庫;中間件;自動化運維
引言
構建一個智能的自動化運維監(jiān)控平臺,以運行監(jiān)控和故障報警這兩個方面為重點,將所有信息系統(tǒng)中所涉及的系統(tǒng)功能模塊和數(shù)據(jù)庫等納入運維監(jiān)控平臺中,主要收集網(wǎng)絡數(shù)據(jù)、業(yè)務系統(tǒng)數(shù)據(jù)、數(shù)據(jù)庫及iis、tomcat等日志數(shù)據(jù),然后將收集到的數(shù)據(jù)進行提取需要的數(shù)據(jù)到監(jiān)控報警模塊,進行報警規(guī)則設置、報警閥值設置、報警聯(lián)系人設置和報警方式設置等。
1監(jiān)控目標
實時不間斷監(jiān)控主機、中間件、數(shù)據(jù)庫運行指標,及時提供報警,避免異常帶來的損失,解決傳統(tǒng)運維人員被動、效率低的問題;為企業(yè)提高運維效率,幫助企業(yè)簡化運維管理流程;保證服務可靠、安全、穩(wěn)定運行;監(jiān)控目標若出現(xiàn)故障,能夠第一時間進行報警,及時處理解決,從而保證業(yè)務持續(xù)性的穩(wěn)定運行;建立衡量數(shù)據(jù)庫中間件自動化運維的標準,通過電力行業(yè)特定領域廣泛認同的最佳實踐,制定一系列與自動化運維有關的KPI維度,主要包括穩(wěn)定性、問題發(fā)現(xiàn)和整體運行狀況預期的對比,來評估數(shù)據(jù)庫中間件系統(tǒng);實時地、量化地集中采集監(jiān)測數(shù)據(jù)庫及自動化運行指標,確保IT組件管理及運維能力成為業(yè)務增長的強大助力。通過數(shù)據(jù)庫及中間件自動化運維監(jiān)測系統(tǒng)系統(tǒng)可以幫助全面掌握中間件,數(shù)據(jù)庫信息,及時監(jiān)控避免故障帶來的損失解決傳統(tǒng)運維人員被動、效率低的問題;幫助一線運維人員從繁忙的日常檢查工作中解脫出來,提高運維效率;自動化運維系統(tǒng)可以幫助企業(yè)簡化運維管理流程,提升管理水平;通過采用該系統(tǒng)減少運維人員數(shù)量,提升運維水平,幫助企業(yè)節(jié)約運維成本。
2設計思路與實現(xiàn)
(1)短信通知功能。使用IDEA,JDK1.6,Java語言,SQLServer2008數(shù)據(jù)庫開發(fā),具體功能設計為:定時從數(shù)據(jù)庫中獲取需要監(jiān)測的路徑,測試連接情況。如果監(jiān)測到狀態(tài)變動(從上一次正常聯(lián)通到該次連接失敗,或者從上一次連接失敗到該次連接成功),則根據(jù)運維系統(tǒng)中記錄的相應管理人員手機號碼發(fā)送短信,提醒運維人員查看郵件報警的詳細信息,并解決問題。同時把此次短信內容、收件人和時間記錄在運維服務器。(2)錯誤現(xiàn)場拍照。使用IDEA,JDK1.6,Java語言,SQLServer2008數(shù)據(jù)庫開發(fā),具體功能設計為:定時從數(shù)據(jù)庫中獲取需要監(jiān)測的路徑,測試連接情況。如果監(jiān)測到狀態(tài)變動,則利用java環(huán)境自帶的threaddump功能實現(xiàn)java環(huán)境下的現(xiàn)場拍照,把錯誤信息通過郵件發(fā)送至運維系統(tǒng)中記錄的相應管理人員郵箱,以供運維人員根據(jù)錯誤現(xiàn)場追蹤和修復錯誤,同時把此次郵件內容、收件人和時間記錄在運維服務器。(3)數(shù)據(jù)庫備份檢查功能。使用VS2010,F(xiàn)rameWork4.5,C#語言,SQLServer2008數(shù)據(jù)庫開發(fā),具體功能設計為:對目標文件夾內的文件變動進行監(jiān)測,在變動發(fā)生時、結束時,將文件屬性情況各發(fā)一封郵件通知指定用戶。各系統(tǒng)管理員自行部署到數(shù)據(jù)庫服務器,可以監(jiān)測一個或多個文件夾,可以由一個或多個郵箱接收監(jiān)測信息,可以監(jiān)測文件夾內文件的增、刪、改和重命名情況。同時根據(jù)管理員的設計自動實現(xiàn)數(shù)據(jù)的遷移和備份工作。
3自動化運維監(jiān)控系統(tǒng)說明
(1)系統(tǒng)架構。WEb展現(xiàn)門戶(業(yè)務視圖;資源管理;監(jiān)控配置;統(tǒng)計報表;告警管理;系統(tǒng)配置);業(yè)務層web系統(tǒng);采集系統(tǒng);數(shù)據(jù)庫;遠程監(jiān)控端。(2)架構優(yōu)勢。深入監(jiān)控數(shù)據(jù)庫、中間件、主機運行細節(jié)和歷史信息;高效,顯著提高運維效率;跨平臺、易集成、易部署;生態(tài)、優(yōu)化,不在被監(jiān)控端安裝任何agent或插件,降低資源額外消耗和部署風險。(3)系統(tǒng)特色。易理解;易分析;易配置;易修改;易測試;頁面布局合理;通用操作規(guī)范;出錯處理。(4)功能說明。通過對目前IT系統(tǒng)環(huán)境和管理現(xiàn)狀的分析,我們需要建設一套統(tǒng)一的業(yè)務系統(tǒng)監(jiān)控平臺,這個平臺應該包括以下的管理需求:統(tǒng)一的設備、系統(tǒng)運行信息采集平臺;統(tǒng)一的數(shù)據(jù)處理和展現(xiàn)平臺;統(tǒng)一的告警平臺;統(tǒng)一的人員、權限的管理平臺。在這樣一個大環(huán)境下,結合上述需求,我們建立一個數(shù)據(jù)庫及中間件檢測系統(tǒng),該系統(tǒng)以實現(xiàn)“無人值守式的自動化運維”與“無死角監(jiān)控,及時發(fā)現(xiàn)問題”相接合的運維模式為目標。對被監(jiān)控目標的平臺本身及其承載的應用業(yè)務進行性能的自動監(jiān)控、分析、報警、統(tǒng)計和日常運維任務的自動化執(zhí)行。實現(xiàn)對系統(tǒng)運行狀態(tài)的自動化監(jiān)控。支持對不同設備、不同日期和時段設置差異化的監(jiān)控頻率,支持BS方式對當前監(jiān)控數(shù)據(jù)的實時刷新展示和歷史監(jiān)控數(shù)據(jù)的回看展示,支持對監(jiān)控點進行監(jiān)控用途描述,支持對監(jiān)控點上下閥值的實時顯示,支持監(jiān)控的異常數(shù)據(jù)實時手機短信報警,支持將指定日期、時間、頻率采集的監(jiān)控數(shù)據(jù)自動生成巡檢報告。
4多元化告警方式
多元化的告警包括短信告警、界面告警、機房語言告警及電話告警等,將相對應的告警信息通過不同的方式發(fā)送到不同的運維人員處。(1)告警閥值設置:實現(xiàn)對各類監(jiān)控指標告警閥值上下限設置,并在接收到實時數(shù)據(jù)時進行數(shù)據(jù)校驗,對不在范圍內的指標做出信息告警動作。(2)告警種類設置:對各類系統(tǒng)監(jiān)控指標進行歸類管理,以明確各項指標的數(shù)據(jù)來源及影響范圍。其中一級分類以數(shù)據(jù)來源區(qū)分。(3)階段告警策略:根據(jù)不同類型告警信息,實現(xiàn)階段性的信息告警策略設置。(4)延時告警策略:按告警類型設置可延時的告警時長,如該指標在延時判斷期內恢復,系統(tǒng)只形成告警記錄,不執(zhí)行告警動作策略。(5)告警方式設置:針對不同類型告警信息,設置不同方式的告警。(6)告警人員設置:在各類告警模式下,根據(jù)運維人員的責任分工及工作時間段,可靈活的將不同的運維人員添加到不同的告警策略中,完成告警信息的準確傳輸。(7)告警等級設置:根據(jù)各類指標在系統(tǒng)運行中的重要性,實現(xiàn)告警等級的劃分,如一般告警、重要告警及緊急告警,在運維人員接收到告警信息后,可根據(jù)告警等級對故障做有序的跟蹤及處理。
結語
通過數(shù)據(jù)庫自動化運維管理可以對于數(shù)據(jù)庫的各項指標進行監(jiān)控,實時發(fā)現(xiàn)異常信息并發(fā)出告警信息。實現(xiàn)數(shù)據(jù)庫的自動化性能監(jiān)測,自動發(fā)現(xiàn)數(shù)據(jù)庫性能問題,提醒數(shù)據(jù)庫管理員及時解決數(shù)據(jù)庫告警,性能指標可度量和可視化,穩(wěn)步提升數(shù)據(jù)庫系統(tǒng)的整體性能,支持數(shù)據(jù)庫瓶頸判斷和SQL語句消耗資源監(jiān)控,大大提高工作效率和提升運維水平,及時發(fā)現(xiàn)數(shù)據(jù)庫性能問題,及時解決數(shù)據(jù)庫告警,性能指標可度量和可視化,在減少運維工作人力投入的情況下,更能有效地保障數(shù)據(jù)庫的正常運行,保障各業(yè)務系統(tǒng)的平穩(wěn)運行,為整個應用系統(tǒng)的優(yōu)化、整合、擴容等關鍵決策提供可靠數(shù)據(jù)支撐。
參考文獻:
[1]喬凱,沈蘇彬.一種網(wǎng)絡監(jiān)測軟件的分析與改進[J].南京郵電大學學報(自然科學版),2015(01).
[2]李艷艷.大型ORACLE數(shù)據(jù)庫優(yōu)化設計方案[J].才智,2017(33).
(作者單位:信息化管理中心普光項目部)