劉繼全
(北京鐵路局 信息技術(shù)處, 北京 100860)
隨著信息技術(shù)日益發(fā)展,信息系統(tǒng)已經(jīng)成鐵路運(yùn)輸、管理和經(jīng)營等方面不可缺少的輔助手段。特別是近幾年來,隨著高速鐵路的陸續(xù)開通運(yùn)行和調(diào)度系統(tǒng)的不斷整合,對信息系統(tǒng)運(yùn)行安全、運(yùn)行質(zhì)量提出了更高的要求。以客票系統(tǒng)為例,隨著京津城際的開通,列車運(yùn)行間隔縮短到10 min左右。這就意味著如果客票系統(tǒng)故障延時(shí)超過10 min,就可能影響到車站的售票和乘車秩序。同樣,隨著列車的不斷提速,調(diào)度系統(tǒng)、施工命令等項(xiàng)目對信息運(yùn)行安全也提出了更高的要求。信息系統(tǒng)安全運(yùn)行成為我們的首要任務(wù)。
近年來,為了提高運(yùn)行維護(hù)質(zhì)量,確保信息系統(tǒng)安全,我們陸續(xù)采用了一些監(jiān)測技術(shù),對機(jī)房綜合環(huán)境、計(jì)算機(jī)生產(chǎn)任務(wù)運(yùn)行狀態(tài)等進(jìn)行監(jiān)控。目前存在的問題主要有:
(1)監(jiān)測范圍不足。信息系統(tǒng)運(yùn)行主要由4個(gè)部分組成:硬件設(shè)備、通信網(wǎng)絡(luò)、應(yīng)用軟件和機(jī)房環(huán)境,既有的監(jiān)測系統(tǒng)大都集中在對機(jī)房環(huán)境、應(yīng)用系統(tǒng)進(jìn)程等進(jìn)行監(jiān)測,監(jiān)測范圍不足。
(2)監(jiān)測信息不全。硬件設(shè)備故障占系統(tǒng)故障的比例較大,以往在發(fā)生設(shè)備故障時(shí),我們以及時(shí)恢復(fù)應(yīng)用為目標(biāo),采取的一些應(yīng)急措施例如設(shè)備重啟,致使“現(xiàn)場”被破壞,信息丟失,不利于事后故障分析。
(3)監(jiān)測平臺不同。2009年,北京鐵路局信息系統(tǒng)進(jìn)行整合,信息處有包括原3個(gè)鐵路分局電子所機(jī)房在內(nèi)的5個(gè)機(jī)房,采用的監(jiān)測系統(tǒng)各自不同,沒有統(tǒng)一部署,運(yùn)行值班人員不便維護(hù)和管理。
在應(yīng)用項(xiàng)目實(shí)時(shí)性越來越高、機(jī)房設(shè)備越來越多和安全問題各級領(lǐng)導(dǎo)越來越重視的情況下,為了保證信息系統(tǒng)穩(wěn)定運(yùn)行,我們提出了建立“大運(yùn)維”體系,實(shí)行“狀態(tài)修”標(biāo)準(zhǔn),以信息系統(tǒng)運(yùn)維安全為出發(fā)點(diǎn)和落腳點(diǎn),建立信息系統(tǒng)運(yùn)行安全綜合管理監(jiān)控平臺,在與傳統(tǒng)監(jiān)測系統(tǒng)有機(jī)融合的基礎(chǔ)上,采用先進(jìn)的技術(shù)手段,補(bǔ)強(qiáng)原有功能,拓展監(jiān)測范圍,提高監(jiān)測水平,加大故障發(fā)生前的預(yù)警預(yù)報(bào)比例,對系統(tǒng)設(shè)備、網(wǎng)絡(luò)、應(yīng)用軟件、機(jī)房環(huán)境實(shí)施綜合監(jiān)控和管理。
在信息系統(tǒng)運(yùn)行安全綜合管理監(jiān)控平臺上運(yùn)用后臺實(shí)時(shí)數(shù)據(jù)庫和前臺展示技術(shù),對生產(chǎn)用計(jì)算機(jī)的網(wǎng)絡(luò)聯(lián)通狀態(tài)、系統(tǒng)日志情況、機(jī)房綜合環(huán)境、計(jì)算機(jī)生產(chǎn)任務(wù)運(yùn)行狀態(tài)實(shí)施自動監(jiān)測,對各類異常情況第1時(shí)間報(bào)警通知值班人員,替代傳統(tǒng)的人工巡視和被動響應(yīng)的管理模式,實(shí)現(xiàn)計(jì)算機(jī)設(shè)備、網(wǎng)絡(luò)和生產(chǎn)任務(wù)的穩(wěn)定運(yùn)行。
網(wǎng)絡(luò)設(shè)備是計(jì)算機(jī)設(shè)備的重要組成部分,網(wǎng)絡(luò)設(shè)備運(yùn)行的正常與否關(guān)系到運(yùn)營生產(chǎn)信息的傳遞,所以對計(jì)算機(jī)網(wǎng)絡(luò)的監(jiān)測非常重要。網(wǎng)絡(luò)監(jiān)測運(yùn)用WWW和Java技術(shù),以及面向?qū)ο蟮木幊碳夹g(shù),實(shí)現(xiàn)對所轄多種類型網(wǎng)絡(luò)設(shè)備的性能和故障的監(jiān)控管理。實(shí)現(xiàn)對多種類型主機(jī)設(shè)備的性能和故障的監(jiān)控管理;實(shí)現(xiàn)對所轄的安全設(shè)備的性能和故障的監(jiān)控管理。實(shí)現(xiàn)對網(wǎng)絡(luò)流量及網(wǎng)絡(luò)鏈路質(zhì)量的監(jiān)控;實(shí)現(xiàn)對網(wǎng)絡(luò)主機(jī)及網(wǎng)絡(luò)設(shè)備的日志進(jìn)行管理。根據(jù)監(jiān)測到的性能原始數(shù)據(jù),對信息系統(tǒng)運(yùn)行狀況,運(yùn)行趨勢等進(jìn)行分析。
能夠?qū)崟r(shí)對核心生產(chǎn)網(wǎng)絡(luò)設(shè)備、客票相關(guān)設(shè)備和應(yīng)用服務(wù)器小型機(jī)進(jìn)行監(jiān)控,減少技術(shù)人員的工作強(qiáng)度??梢栽O(shè)置不同的用戶組分配權(quán)限,便于管理和考核。能夠在設(shè)備發(fā)生重大故障時(shí),通過短信方式通知機(jī)房值班人員及相應(yīng)的技術(shù)人員,提高應(yīng)急響應(yīng)時(shí)間,最大限度縮小故障的影響范圍。能夠?qū)⑹占降娜罩拘畔㈤L期保存,以便日后的故障分析并產(chǎn)生相應(yīng)的分析報(bào)表。
計(jì)算機(jī)運(yùn)行環(huán)境包含電力環(huán)境、周邊環(huán)境和安全環(huán)境等幾部分,對計(jì)算機(jī)運(yùn)行環(huán)境的監(jiān)測就是通過采用各種傳感器和變送器等設(shè)備將模擬信號轉(zhuǎn)換為數(shù)字信號,將信號接入到計(jì)算機(jī),然后對各種信息進(jìn)行綜合處理。采用數(shù)字信息處理和模擬信號集成技術(shù)對大中型計(jì)算機(jī)機(jī)房溫度、濕度、電源輸入頻率、電壓和電流等物理狀態(tài)實(shí)施監(jiān)測。
為實(shí)現(xiàn)對計(jì)算機(jī)生產(chǎn)任務(wù)實(shí)施監(jiān)測,采用控制機(jī)輪詢方式或代理機(jī)制,對計(jì)算機(jī)各應(yīng)用項(xiàng)目的狀態(tài)參數(shù)進(jìn)行對比,超出比較閾值的限度,系統(tǒng)作出判斷,按照用戶參數(shù)要求,將故障現(xiàn)象、原因和解決方法及時(shí)通過聲響、屏幕顯示等方式通知到值班員或項(xiàng)目管理員。
對主機(jī)房、各設(shè)備間進(jìn)行環(huán)境安全視頻圖像的監(jiān)控。
(1)自動發(fā)現(xiàn):能自動發(fā)現(xiàn)路由器、交換機(jī)、服務(wù)器和其它網(wǎng)絡(luò)設(shè)備。通過參照ARP表創(chuàng)建可能活動的設(shè)備列表,能夠加快發(fā)現(xiàn)進(jìn)程,但同時(shí)又執(zhí)行一次徹底的ping掃描,以避免忽略某些設(shè)備。還能發(fā)現(xiàn)設(shè)備上運(yùn)行的服務(wù)(如HTTP等)。通常在2 min之內(nèi)就能發(fā)現(xiàn)一個(gè)C級的網(wǎng)絡(luò)。
(2)映射設(shè)備:能自動為服務(wù)器、路由器、打印機(jī)、交換機(jī)和防火墻創(chuàng)建基礎(chǔ)架構(gòu)視圖。用戶根據(jù)業(yè)務(wù)要求創(chuàng)建業(yè)務(wù)視圖來分組設(shè)備。
(3)實(shí)時(shí)網(wǎng)絡(luò)監(jiān)控,及時(shí)告警:只要檢測到問題,就會通過e-mail或SMS通知管理員。綜合網(wǎng)絡(luò)管理系統(tǒng)的網(wǎng)絡(luò)監(jiān)控功能還包括運(yùn)行外部程序、系統(tǒng)命令或播放音頻文件。
(4)網(wǎng)絡(luò)流量分析:對WAN和LAN深入流量分析。能夠收集和分析諸如NetFlow、JFlow和SFlow等流量。深入分析網(wǎng)絡(luò)流量接口明細(xì),例如應(yīng)用、資源、目的地、會話以及QoS。除增強(qiáng)網(wǎng)絡(luò)監(jiān)控和排除故障外,可以提供帶寬趨勢信息,便于規(guī)劃容量??梢陨韶S富的網(wǎng)絡(luò)級或設(shè)備級的報(bào)表,以便分析可用性、應(yīng)答時(shí)間、網(wǎng)絡(luò)流量、接口利用率或應(yīng)用應(yīng)答時(shí)間。
(5)網(wǎng)絡(luò)鏈路質(zhì)量監(jiān)控:不良的WAN鏈路會影響業(yè)務(wù),網(wǎng)絡(luò)管理軟件有助于基本的WAN監(jiān)控并對發(fā)現(xiàn)WAN問題大有用處,使用WAN視圖幫助可視化WAN鏈路。當(dāng)鏈路失敗時(shí),視圖會反映出來,根據(jù)嚴(yán)重性以紅色,橙色或粉色顯示。
(6)豐富的報(bào)表:可以生成豐富的網(wǎng)絡(luò)級或設(shè)備級的報(bào)表,以便分析可用性、應(yīng)答時(shí)間、網(wǎng)絡(luò)流量、接口利用率或應(yīng)用應(yīng)答時(shí)間。
(1)采用BS方式,支持H3C、CISCO網(wǎng)絡(luò)設(shè)備,LINUX、SOLARIS、HPUIX、AIX操作系統(tǒng),Windows操作系統(tǒng)。不用安裝代理,只需在其中的Syslog中加入1條日志轉(zhuǎn)發(fā)語句即可,Windows系統(tǒng)采取主動添加,提供主機(jī)的用戶名和密碼。通過集中管理各種設(shè)備的日志,省略了每次都要登陸不同設(shè)備查看日志的繁重工作。
(2)可以通過數(shù)據(jù)庫過濾功能,設(shè)置1臺或1組相同設(shè)備的日志級別或關(guān)鍵詞過濾,以節(jié)省日志服務(wù)器存儲空間和日志級別較高的信息的快速過濾。
(3)可以設(shè)置告警級別提示,把1臺設(shè)備或1組設(shè)備,根據(jù)日志安全級別或事件ID或日志文件中的關(guān)鍵詞設(shè)置告警消息提示,在前臺顯示,并通過電子郵件或短信方式發(fā)給相應(yīng)的管理員。
(4)可在Evenlog主頁顯示所有添加的設(shè)備,可通過自定義時(shí)間間隔查看相應(yīng)時(shí)間段設(shè)備的日志情況。
(5)可以通過歸檔文件管理,設(shè)置文件歸檔時(shí)間間隔,并設(shè)置歸檔文件采用ZIP格式進(jìn)行壓縮時(shí)間間隔,可以及時(shí)存儲備份日志文件,將已經(jīng)備份的日志文件刪除,節(jié)省空間。可以將歸檔的文件自動加載到數(shù)據(jù)庫中進(jìn)行瀏覽,將已經(jīng)歸檔的日志根據(jù)日志級別和日期進(jìn)行瀏覽。
(6)可以針對某1臺設(shè)備或1組設(shè)備產(chǎn)生自定義的報(bào)表,使該設(shè)備設(shè)置的過濾條件產(chǎn)生的錯(cuò)誤信息以圖表的形式顯示。直觀地發(fā)現(xiàn)自定義時(shí)間段中哪種級別日志出現(xiàn)頻率較高,及時(shí)發(fā)現(xiàn)問題。
(7)可以在evenlog主頁查看和搜索相應(yīng)的設(shè)備信息,并按照設(shè)備主機(jī)名和主機(jī)組進(jìn)行排列。
(8)創(chuàng)建自定義報(bào)表配置之后,可以設(shè)置計(jì)劃,在指定的時(shí)間間隔自動生成報(bào)表。
(9)可以根據(jù)日志級別和相應(yīng)事件產(chǎn)生4種規(guī)范報(bào)表,在以后的工作中使用,產(chǎn)生法律效力。
(10)可以產(chǎn)生基于事件級別、事件分類和告警趨勢的報(bào)表,及時(shí)發(fā)現(xiàn)相應(yīng)設(shè)備或設(shè)備組的問題和漏洞。
(11)日志服務(wù)器發(fā)生問題,可以通過電子郵件方式通知管理員。
(12)可以通過用戶管理,實(shí)現(xiàn)管理員、操作員和訪客的權(quán)限。
(13)支持短信告警平臺。
(14)管理員分組管理,可以根據(jù)自己的權(quán)限管理本組的設(shè)備。
(15)可以查看管理員登陸的記錄,可以根據(jù)登陸情況確定是否查看日志。
(16)完善告警信息內(nèi)容,在原有的日志源進(jìn)程、主機(jī)名和告警名稱基礎(chǔ)上,增加危機(jī)程度、發(fā)生次數(shù)、信息內(nèi)容和相同信息內(nèi)容限制發(fā)送次數(shù)等參數(shù)內(nèi)容。
圖1 網(wǎng)絡(luò)管理解決方案示意圖
將綜合網(wǎng)絡(luò)管理系統(tǒng)部署在企業(yè)網(wǎng)絡(luò)中,可以通過SNMP(簡單網(wǎng)絡(luò)管理協(xié)議)管理整個(gè)網(wǎng)絡(luò)環(huán)境中的所有支持該協(xié)議的設(shè)備。圖1為網(wǎng)絡(luò)管理解決方案示意圖,圖2為網(wǎng)絡(luò)管理處理流程。
圖2 網(wǎng)絡(luò)管理處理流程
將日志分析系統(tǒng)部署在企業(yè)網(wǎng)絡(luò)中,通過Syslog方式獲取并統(tǒng)計(jì)整個(gè)網(wǎng)絡(luò)環(huán)境的日志。圖3為日志分析系統(tǒng)架構(gòu)示意圖,圖4為日志分析處理流程。
圖3 日志分析系統(tǒng)架構(gòu)示意圖
圖4 日志分析處理流程
綜合網(wǎng)絡(luò)監(jiān)測系統(tǒng)對WAN,服務(wù)器,應(yīng)用程序等所有IT設(shè)施提供全面的故障和性能管理。實(shí)現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)中心監(jiān)控能力,從而使復(fù)雜的IT管理簡單易行。它通過3種不同的方法執(zhí)行網(wǎng)絡(luò)監(jiān)控:SNMP、 WMI或 Telnet / SSH不間斷監(jiān)控重要的設(shè)備健康參數(shù),并支持閾值,另外也可以監(jiān)聽設(shè)備的SNMP陷阱。
日志分析系統(tǒng)是一套基于Web的日志分析工具,采用Syslog機(jī)制,不用安裝代理,通過網(wǎng)絡(luò)設(shè)備和服務(wù)器開啟Syslog服務(wù)來接收日志。它能全天候監(jiān)視網(wǎng)絡(luò)設(shè)備和服務(wù)器的日志,并收集、分析和匯總整個(gè)企業(yè)范圍內(nèi)網(wǎng)絡(luò)設(shè)備和服務(wù)器的日志。并在網(wǎng)絡(luò)設(shè)備和服務(wù)器產(chǎn)生嚴(yán)重的事件的時(shí)候通過短信或郵件方式立即通知管理員。
上述2個(gè)模塊的主程序均采用Java開發(fā),具有良好的跨平臺性。采用Apache作為Web服務(wù)器,實(shí)現(xiàn)B/S架構(gòu),用戶只需瀏覽器即可使用,大大簡便了用戶操作。數(shù)據(jù)庫采用MySql,MySql是一個(gè)快速、多線程和多用戶的SQL數(shù)據(jù)庫服務(wù)器。MySql的核心程序采用完全的多線程編程。線程是輕量級的進(jìn)程,它可以靈活地為用戶提供服務(wù),而不占用過多的系統(tǒng)資源。MySql擁有一個(gè)非??焖俣€(wěn)定的基于線程的內(nèi)存分配系統(tǒng),可以持續(xù)使用而不必?fù)?dān)心其穩(wěn)定性。另外,日志采集器采用C語言編寫,大大加快處理速度,提高吞吐量。
信息系統(tǒng)運(yùn)行安全綜合管理監(jiān)控平臺將日志分析、網(wǎng)絡(luò)管理、綜合監(jiān)控和視頻等功能集成為一個(gè)綜合監(jiān)控平臺,實(shí)現(xiàn)對全局網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的實(shí)時(shí)監(jiān)測、對各類關(guān)鍵設(shè)備的日志實(shí)時(shí)采集分析、短信報(bào)警和對機(jī)房環(huán)境的綜合實(shí)時(shí)監(jiān)測,最終實(shí)現(xiàn)對機(jī)房信息系統(tǒng)安全的全方位監(jiān)測,2009年6月開始試運(yùn)行,收到良好效果。以日志分析系統(tǒng)為例,采用傳統(tǒng)的人工監(jiān)測方式,每臺設(shè)備登陸查看日志需要5 min左右,所有的設(shè)備都要登陸查看一遍需要3 h~4 h,使用該系統(tǒng)后,現(xiàn)在查看20-30個(gè)設(shè)備日志只需要5 min左右。自2010年1月1日正式投入使用以來,截止到2010年5月,預(yù)警、主動發(fā)現(xiàn)故障所占比例由年初的21%上升到目前的82%左右。在信息系統(tǒng)安全生產(chǎn)中發(fā)揮了重要的作用,在確保計(jì)算機(jī)安全穩(wěn)定運(yùn)行及機(jī)房管理方面上了一個(gè)新臺階。
[1](美)Bhai Ji,Y. 網(wǎng)絡(luò)安全技術(shù)與解決方案[M]. 北京:人民郵電出版社,2009,3.
[2] 蔣建春.計(jì)算機(jī)網(wǎng)絡(luò)管理理論與實(shí)踐教程[M]. 北京:北京郵電出版社,2009,1.
[3] 殷兆麟,張永平,姜淑娟. java網(wǎng)絡(luò)高級編程[M]. 北京:清華大學(xué)出版社,2005,9.