張婧,韓旸
(中國科學技術信息研究所,北京 100038)
NSTL綜合運維管理系統(tǒng)應用實踐
張婧,韓旸
(中國科學技術信息研究所,北京 100038)
隨著信息技術的發(fā)展,各單位信息系統(tǒng)建設規(guī)模和復雜度日益提升,確保信息系統(tǒng)安全和業(yè)務連續(xù)性成為運維工作關注的核心。如何改變分散的、低水平監(jiān)控和運維現(xiàn)狀,借助高水平、安全、高效的統(tǒng)一運維技術實現(xiàn)信息系統(tǒng)高可靠運行,成為當前監(jiān)控和運維建設的發(fā)展方向。本文介紹了國家科技圖書文獻中心(NSTL)信息系統(tǒng)綜合運維平臺的建設實例和使用效果。
監(jiān)控;運維;信息系統(tǒng);網絡安全
信息技術的飛速發(fā)展使各個行業(yè)的信息服務系統(tǒng)已經深入社會的方方面面,重要信息系統(tǒng)的安全風險越來越高,中斷或停運導致的不良影響和損失不斷加大。各國政府和標準化機構為提高信息系統(tǒng)的服務管理水平,陸續(xù)出臺了一些規(guī)范標準。但是,這些標準多面向流程管理,不能代替信息系統(tǒng)運維的技術解決方案,在使用環(huán)境上也有諸多客觀限制。同時,由于信息系統(tǒng)的規(guī)模越來越大,設備數(shù)量猛增,從基礎設施到應用架構的系統(tǒng)復雜度也越來越高,使安全風險不斷加劇,給運維人員帶來嚴峻的挑戰(zhàn)。
國家科技圖書文獻中心(National Science and Technology Library,NSTL)承擔著國家科技文獻的在線文獻信息服務工作。NSTL網絡服務系統(tǒng)目前包括文獻服務、回溯分析、引文、數(shù)據加工、長期保存、集成揭示等應用系統(tǒng),網絡覆蓋了中心主站、9個成員單位和分布在全國的39個服務站及24個用戶管理平臺。十多年來,從網絡基礎設施、業(yè)務系統(tǒng)到文獻數(shù)據資源的規(guī)模都在持續(xù)增加,給運維人員帶來巨大的工作壓力,迫切需要改變傳統(tǒng)低效的人工運維模式。為此,自2013年開始,NSTL啟動IT綜合運維管理系統(tǒng)建設,系統(tǒng)覆蓋網絡、設備、主機、虛擬化平臺、數(shù)據庫和中間件以及NSTL網絡服務系統(tǒng)等業(yè)務,實現(xiàn)對日常運維管理網絡、設備、業(yè)務的實時監(jiān)測和預警。其設計思想和技術體系改變了在眾多信息系統(tǒng)運維中存在的分散、低水平、低效率的人工監(jiān)控運維狀況,形成集中高效、安全可靠的統(tǒng)一運維中心,提高運維工作效率,縮短故障處理時間,成效顯著。本文著重介紹NSTL綜合運維管理系統(tǒng)的特點和使用效果。
2.1 一體化管理
一體化管理是要建立一套集中、統(tǒng)一的立體監(jiān)控和智能分析平臺,以跟蹤各類核心業(yè)務的運行情況和IT故障的處理狀況,使信息孤島間建立起關聯(lián)關系,對各類IT信息進行集中采集、集中處理、集中展現(xiàn)。
集中采集,即實現(xiàn)對基礎資源監(jiān)控、環(huán)境監(jiān)控、應用監(jiān)控、上層業(yè)務等各層次被管理對象的集中采集,實現(xiàn)對物理環(huán)境、應用、業(yè)務各層面系統(tǒng)的集中接入和運行狀態(tài)的管理,將原本孤立的IT運行監(jiān)控手段納入統(tǒng)一的應用監(jiān)控平臺管理架構。
集中處理,即通過對各類被管對象產生的大量事件進行集中監(jiān)控處理,實現(xiàn)對各類狀態(tài)、風險的快速定位和分析處理。通過甄別源頭和成因,還原事件的發(fā)生過程,預計風險的影響范圍,為IT運行監(jiān)控運維管理提供可靠的技術手段。
集中展現(xiàn),即將各類處理信息在統(tǒng)一平臺上進行集中呈現(xiàn),通過業(yè)務影響視圖展示IT與業(yè)務的承載關系,通過性能視圖集中呈現(xiàn)各類異構平臺和環(huán)境的關鍵性能指標,幫助運維人員一目了然地掌握關鍵系統(tǒng)健康狀況。
2.2 規(guī)范化管理
從NSTL整個業(yè)務狀況來看,系統(tǒng)監(jiān)控的維度涵蓋從應用層到業(yè)務層的各類指標,需要和各監(jiān)控系統(tǒng)、業(yè)務系統(tǒng)進行集成接口開發(fā)、業(yè)務指標梳理、業(yè)務模型建立、上層展示功能梳理等多項工作。因此,要定制一套應用監(jiān)控接入規(guī)范,內容需涵蓋通信協(xié)議規(guī)范、接口數(shù)據文件內容規(guī)范、監(jiān)控詳細指標規(guī)范等,以便不同系統(tǒng)或功能模塊的整合與銜接,從而提升運維系統(tǒng)的可擴充性。
2.3 精細化管理
為更好地展示核心業(yè)務系統(tǒng)關鍵指標的運行狀態(tài),采用基于業(yè)務數(shù)據儀表盤的展示方式,將核心業(yè)務關鍵業(yè)務點以及相關關鍵績效指標(Key Performance Indicator)組織在一起集中分析和展示,同時結合各個維度、各個細粒度的統(tǒng)計分析報表,包括業(yè)務指標實時性能、業(yè)務占比、業(yè)務流量、訪問量、檢索量等,使維護人員能一目了然地查看業(yè)務系統(tǒng)的當前運轉情況和關鍵業(yè)務指標的當前值和歷史性能趨勢圖,實現(xiàn)對核心業(yè)務系統(tǒng)的精細化管理。
3.1 系統(tǒng)架構
綜合運維管理系統(tǒng)是一個整合網管、服務器監(jiān)控和應用監(jiān)控并且兼容SNMP、ICMP、syslog等多種標準協(xié)議的統(tǒng)一運維平臺[1],其服務層面采用B/S結構,配置有5臺物理服務器,其中2臺高性能服務器部署控制中心,3臺服務器存放告警和日志收集信息。
綜合運維管理系統(tǒng)采用統(tǒng)一的操作界面進行維護管理,統(tǒng)一操作臺既可以高兼容性地維護系統(tǒng)的文件、進程和服務,還可顯示不同設備的監(jiān)控曲線、拓撲圖、監(jiān)控規(guī)則邏輯圖、各類服務器系統(tǒng)的綜合狀態(tài)等。除安裝主機代理端和插件外,系統(tǒng)全部為圖形配置界面,日常配置管理和監(jiān)控都是通過Web方式實現(xiàn)。
綜合運維管理系統(tǒng)內部由若干控制引擎組成(見圖1),對應管理認證、加密、協(xié)議、監(jiān)測、通告、配置、數(shù)據、文件等不同應用,實現(xiàn)對監(jiān)測對象的信息采集、分析和告警。
圖1 綜合運維管理系統(tǒng)結構示意圖
3.2 監(jiān)測指標體系
綜合運維管理系統(tǒng)的監(jiān)測指標包含被監(jiān)測設備的硬件、操作系統(tǒng)、資源、進程、負載、端口等關鍵性參數(shù),通過預先設定臨界值和規(guī)則,當監(jiān)測指標高于或低于設定值時,系統(tǒng)就會根據預先設定的規(guī)則觸發(fā)告警。運維工作中,通過協(xié)議監(jiān)測和仿真監(jiān)測相結合,做到設備與服務分別監(jiān)測。例如,在對全國幾十個服務站的網絡和服務監(jiān)測過程中,系統(tǒng)通過獲取每次訪問的聯(lián)通性、響應時間及錯誤響應代碼,精準地實現(xiàn)了由網絡、線路、防火墻等原因導致的規(guī)模性訪問中斷的故障定位。網絡具體監(jiān)控指標體系見表1。
表1 網絡具體監(jiān)控指標體系
4.1 故障監(jiān)測
運維工作中最常遇見的就是設備發(fā)生故障,故障監(jiān)測是網絡管理最基本的功能,也是不可或缺的內容,具體包括故障檢測、隔離和糾正。它通過檢查錯誤日志,跟蹤、辨認錯誤信息,執(zhí)行診斷測試,糾正錯誤等環(huán)節(jié)實現(xiàn)故障監(jiān)測和定位,具體通過對網絡組成部件的狀態(tài)監(jiān)測來實現(xiàn)。簡單問題通常被記錄在錯誤日志中并不作特別處理;嚴重故障則需要通知網絡管理器,即所謂的“警報”,傳送告警給運維人員,并且還會直觀地反應在監(jiān)控對象的頁面上。告警通過警報引擎完成[3],具有限時、延時、防波動、自動跟蹤、取消警報、自動越級上報、自動節(jié)假日警報特別處置、自動區(qū)分對象差異警報等功能。
4.2 運行監(jiān)測
運行監(jiān)測指性能監(jiān)測和管理,評估系統(tǒng)資源運行狀況、通信效率等系統(tǒng)性能,包括監(jiān)視和分析被管網絡及所提供的各種服務。性能分析結果可能會觸發(fā)某個診斷測試過程或重新配置網絡以維持網絡的性能。性能管理,指收集分析有關被管網絡當前狀況的數(shù)據信息,并維持和分析性能日志,典型功能如收集統(tǒng)計信息、維護并檢查系統(tǒng)狀態(tài)日志、確定自然和人工狀態(tài)下系統(tǒng)的性能、改變系統(tǒng)操作模式以進行系統(tǒng)性能管理的操作等。此外,這些性能都采用獨有的防波動算法,能有效防止給用戶發(fā)無用或已失效的警報。
4.3 業(yè)務監(jiān)測
因為業(yè)務系統(tǒng)自身的特殊性,業(yè)務系統(tǒng)監(jiān)測相對硬件故障監(jiān)測要復雜得多。在NSTL業(yè)務監(jiān)測中,其關注點主要包括業(yè)務系統(tǒng)的安全穩(wěn)定性,覆蓋全國的服務站和用戶管理平臺的網絡連通性,用戶檢索量、文獻瀏覽量、全文訂單量、注冊用戶數(shù)、在線用戶數(shù)等業(yè)務統(tǒng)計數(shù)據以及相關網絡、設備、中間件、數(shù)據庫間邏輯關系和實時運行狀態(tài)等。業(yè)務監(jiān)測不僅需在綜合運維平臺展示這些指標,還要反映實時的系統(tǒng)運行狀態(tài)、相關設備連接關系、業(yè)務邏輯和重要配置管理信息。
4.4 其他功能
除監(jiān)測功能外,綜合運維管理系統(tǒng)還具有一些輔助功能。例如,設備巡檢、資產管理、ITSM運維流程管理、值班記錄等。另外,對虛擬化平臺設備的監(jiān)測也能提供較好地支持,可以動態(tài)呈現(xiàn)每臺虛擬機的運行狀態(tài)。
(1)基于策略的監(jiān)控?;诓呗缘谋O(jiān)控把常規(guī)網絡監(jiān)測提升到網元級的深度[4-5],使得設備、線路、路由、拓撲、流量、配置等環(huán)節(jié)的任一變化都能達到短信實時警報且具有高精度水平,其維護操作方式簡便,只需通過點擊界面選項完成,工作量顯著降低。這些簡單策略直接覆蓋主機、虛擬化、數(shù)據庫、中間件、存儲及所有應用監(jiān)控環(huán)節(jié),實現(xiàn)全監(jiān)控系統(tǒng)的動態(tài)跟蹤。同時,集監(jiān)控、運維、基礎管理的統(tǒng)一監(jiān)管平臺徹底消除了信息孤島,實現(xiàn)機構、人員、權限、資產、策略、檔案、配置、展示、警報、故障等全部元素的有機整合,覆蓋了信息系統(tǒng)各元素的全程。
(2)多種操作系統(tǒng)統(tǒng)一運維技術。在主機層面對CPU、內存、緩存、文件系統(tǒng)、裸設備和進程等元素的監(jiān)管,直接以統(tǒng)一圖形界面展現(xiàn),兼容于UNIX、Linux、Windows等不同操作系統(tǒng),也無需第三方平臺支持和代碼開發(fā)工作,從而實現(xiàn)對眾多品牌和不同操作系統(tǒng)的集成監(jiān)管,具有較高的安全性和可靠性。
(3)Agent模式。Agent是在被監(jiān)測服務器上安裝的客戶端軟件,利用Agent可以對服務器內存、緩存、CPU、磁盤空間等進行深度監(jiān)測,當這些重要指標超過所設閾值,系統(tǒng)便會觸發(fā)報警。此外,進程并發(fā)數(shù)量、進程存活、數(shù)據庫連接數(shù)、Sessions數(shù)、事務總數(shù)、DB名稱、高速緩沖區(qū)大小、共享池、表空間、管理員賬號等也可利用Agent模式監(jiān)測。
(4)層次化通告技術。為確保故障發(fā)生時,各層級管理員能及時收到事故通報告警信息,綜合運維管理系統(tǒng)采用三級延時通報技術。當故障發(fā)生時,系統(tǒng)會發(fā)送通告給設定的管理員,20分鐘后若問題未能解決,通告將會發(fā)送到上一級管理員;再過30分鐘問題仍未能處理解決,則會上報至更高級管理員或信息主管。警報延時發(fā)送的時間間隔可由管理員根據自身需要任意設定。另外,綜合運維管理系統(tǒng)還可為不同類別的用戶提供不同的定制通報信息。實踐中,這種通報機制可以避免告警信息漏報情況的發(fā)生,從而確保問題和故障能夠及時得到處理。
(5)安全設計。綜合運維管理系統(tǒng)在系統(tǒng)級采用C/S結構,除Windows版需要.Net支撐環(huán)境外,不依賴于任何第三方服務軟件;完全采用加密協(xié)議通道通信;同時還對服務器提供特別保護,當系統(tǒng)配置文件或賬號發(fā)生變動時可觸發(fā)告警。
6.1 網絡管理由分散轉變?yōu)榧?/p>
以前NSTL網絡服務系統(tǒng)的各個業(yè)務系統(tǒng)都是分散的,業(yè)務架構、業(yè)務流程比較復雜,多種軟件分布在一個或多個硬件上運行,無法統(tǒng)一運維管理。通過綜合運維管理系統(tǒng),使所有業(yè)務系統(tǒng)都能實現(xiàn)可視化、自動化管理;網絡拓撲、設備自動發(fā)現(xiàn);業(yè)務邏輯關系、關鍵技術指標、故障位置清晰可見。可與各業(yè)務系統(tǒng)接口對接,自動實現(xiàn)業(yè)務數(shù)據的實時同步更新,用戶訪問量、文獻檢索量、全文訂單量、下載量、用戶數(shù)等重要業(yè)務數(shù)據實時顯示,實現(xiàn)集中統(tǒng)一的自動化運維管理,工作效率明顯提高。
6.2 業(yè)務監(jiān)測由人工轉變?yōu)橹悄?/p>
對于提供文獻檢索服務的系統(tǒng),網站二級或三級頁面與首頁同等重要,以往檢索結果報錯不易被發(fā)現(xiàn)且響應時間嚴重滯后[2],現(xiàn)在利用綜合運維管理系統(tǒng)直接對二級、三級或特定頁面進行監(jiān)測,當監(jiān)測到檢索系統(tǒng)出現(xiàn)403或404一類的故障信息時,系統(tǒng)會在10分鐘內通知管理員處理,縮短故障處理時間。
NSTL分布在全國的服務站和用戶管理平臺大都采用公網連接,拓撲結構復雜。以往幾乎很難做到對服務站、管理平臺網絡和系統(tǒng)運行情況的實時監(jiān)控,但實施綜合運維管理系統(tǒng)后,通過展示中心能夠全面直觀地監(jiān)測所有服務站的運行情況,并詳細記錄和統(tǒng)計每個服務站點的聯(lián)通率、超時連接時間、累計應答超時次數(shù)等。這些數(shù)據對分析某一階段用戶訪問量、原文訂購量、原文傳遞時間變化提供參考依據,進而可對NSTL整體網絡運行平穩(wěn)度和文獻服務質量作出評價。從近6個月的監(jiān)測統(tǒng)計數(shù)據看,已開通的39個服務站平均聯(lián)通率為94.61%,17個用戶管理平臺平均聯(lián)通率為91.96%,網絡版期刊數(shù)據庫平均聯(lián)通率為94.00%,數(shù)據顯示網絡和服務系統(tǒng)運行情況良好,而這在以前是無法做到的。
應用自動部署主要用于NSTL主站與全國服務站間的系統(tǒng)同步,通過綜合運維管理系統(tǒng)文件自動發(fā)布和批量處理功能,使得所有服務站應用升級工作可以自動、有序地完成,改變以往人工遠程登錄對端系統(tǒng)來更新文件的模式,減輕工作量。
6.3 安全防護由被動轉變?yōu)橹鲃?/p>
以往網絡安全基本處于被動地應對,現(xiàn)在NSTL已經建立了統(tǒng)一的日志存放中心,積累了大量珍貴的網絡設備、安全設備等各類日志信息,這些日志信息還在持續(xù)增長。這些對于分析診斷故障和進行安全風險評估,起著極其重要的作用。綜合運維管理系統(tǒng)能夠獲取這些日志并與所收集的告警信息進行事件關聯(lián)分析[6],目前這項工作還在不斷探索,嘗試運用大數(shù)據分析能力和智能學習能力開展數(shù)據關聯(lián)分析,從而形成態(tài)勢感知和主動預警,若僅靠人工力量是難以實現(xiàn)的。
綜合運維管理系統(tǒng)投入使用以來,監(jiān)測網絡、設備、業(yè)務系統(tǒng)等節(jié)點數(shù)量已達200多個,監(jiān)測用戶服務站和用戶管理平臺節(jié)點63個、全國開通現(xiàn)刊數(shù)據庫節(jié)點51個、虛擬主機100余臺。實現(xiàn)NSTL網絡內設備故障精確定位和運行狀態(tài)準確監(jiān)測及告警,形成網絡、主機、應用統(tǒng)一的動態(tài)監(jiān)測和展示中心。監(jiān)測預警效果顯著,故障告警明顯減少,通過設定系統(tǒng)預警閾值,使系統(tǒng)發(fā)生故障的情況逐漸減少,有效地提升運維工作效率,保證網絡和系統(tǒng)的安全穩(wěn)定運行。但系統(tǒng)仍存在一些問題和不足,如當某些復雜原因引起多臺設備同時告警時,會造成系統(tǒng)負載過大而無法正常發(fā)送告警信息;系統(tǒng)還不能做到智能化關聯(lián)分析等。針對存在的問題和不足,下一步將對系統(tǒng)實施進一步升級改造。
[1] 呂德奎,崔艷軍.自動化綜合運維監(jiān)管平臺設計與實現(xiàn)[J].軟件導刊, 2015,14(6):91-94.
[2] 徐亮,鄒鑫灝.信息系統(tǒng)安全運維管理平臺建設研究[J].科技傳播,2015, 7(21):123-124.
[3] 朱偉.數(shù)據中心機房環(huán)境監(jiān)控系統(tǒng)的研究和應用[J].金融電子化, 2008(4):53-55.
[4] 楊達達.IP網監(jiān)控管理系統(tǒng)的設計及實踐研究[J].信息與電腦(理論版),2015(12):100-101.
[5] 沙永剛,張婧.基于狀態(tài)的應用監(jiān)控與恢復算法與模型[J].信息安全與技術, 2013,4(7):93-96.
[6] 張先哲.信息系統(tǒng)安全運維管理平臺建設研究[J].軟件工程師,2015(5): 38-39.
NSTL Integrated Operational Management System Application Practice
ZHANG Jing, HAN Yang
(Institute of Science and Technology Information of China, Beijing 100038, China)
With the development of information technology, the scale and complexity of information system are continuously growing. The way to ensure the information system security and business continuity becomes the core of the operation management. How to change the scattered and low levels of monitoring and operational status, and use the unification of a high level, safe and efficient operations technology to make information system running with high reliability, becomes the development direction of the current construction of monitoring and operation. This paper introduces the construction of the National Science and Technology Library information system integrated operational platform and its using effect.
Monitoring; Operation and Maintenance; Information System; Network Security
TP3
10.3772/j.issn.1673-2286.2016.7.012
張婧,女,高級工程師,研究方向:網絡信息安全,E-mail:zhangj@istic.ac.cn。
韓旸,男,學士,助理工程師,研究方向:網絡管理,E-mail:hany@istic.ac.cn。
2016-07-05)