劉雄雄,姬文海
(國能神東煤炭集團(tuán)有限責(zé)任公司,陜西 榆林 719315)
企業(yè)IT基礎(chǔ)設(shè)施是為企業(yè)提供通信網(wǎng)絡(luò)、信息服務(wù)等IT服務(wù)所必需的硬件、軟件和數(shù)據(jù)中心的集合。5G、物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)和人工智能等新技術(shù)持續(xù)推動煤炭行業(yè)智能制造發(fā)展,而這些新技術(shù)配套的IT基礎(chǔ)設(shè)施是企業(yè)安全生產(chǎn)的重要基礎(chǔ)。國外相關(guān)網(wǎng)站做過一項(xiàng)統(tǒng)計調(diào)查顯示應(yīng)用系統(tǒng)建設(shè)與系統(tǒng)運(yùn)維的持續(xù)時間大致為1∶5,即如果系統(tǒng)開發(fā)為5年,系統(tǒng)的運(yùn)維期則要25年[12]。顯然,IT運(yùn)維服務(wù)的質(zhì)量直接體現(xiàn)了企業(yè)IT能力。隨著神東煤炭集團(tuán)信息化建設(shè)的不斷深入,配套的服務(wù)器、交換機(jī)、應(yīng)用系統(tǒng)、通信機(jī)房等IT基礎(chǔ)設(shè)施的規(guī)模越來越大,神東公司安全生產(chǎn)對IT基礎(chǔ)設(shè)施的安全性、穩(wěn)定性和可靠性的要求越來越高,對IT基礎(chǔ)設(shè)施的集中運(yùn)維管理顯得日趨重要。
神東公司建成以大柳塔、布爾臺、東勝、伊旗維修中心、黑炭溝、李家畔等六大核心節(jié)點(diǎn)的萬兆環(huán)形以太網(wǎng),擁有辦公網(wǎng)、工業(yè)環(huán)網(wǎng)、語音通信專網(wǎng)、井下無線通信、地面無線網(wǎng)、數(shù)據(jù)中心存儲、服務(wù)器和虛擬機(jī)、通信機(jī)房、各類信息系統(tǒng)及其數(shù)據(jù)庫和中間件等IT基礎(chǔ)設(shè)施,形成覆蓋神東礦區(qū)的綜合信息網(wǎng)絡(luò),包含有線設(shè)備和無線設(shè)備2 000余臺,數(shù)據(jù)中心存儲500 T,物理服務(wù)器500余臺,虛擬服務(wù)器200余臺,大小通信機(jī)房40余個,業(yè)務(wù)信息系統(tǒng)100余個,關(guān)聯(lián)的各類虛擬機(jī)、服務(wù)器主機(jī)、數(shù)據(jù)庫、中間件等資源600多個。
神東公司辦公網(wǎng)設(shè)備和工業(yè)環(huán)網(wǎng)設(shè)備分別由華三IMC網(wǎng)管平臺和華為U2000網(wǎng)管平臺進(jìn)行管理。無線設(shè)備、服務(wù)器(含操作系統(tǒng))、虛擬機(jī)、存儲、光纖交換機(jī)、機(jī)房動環(huán)、應(yīng)用系統(tǒng)、數(shù)據(jù)庫、中間件等IT基礎(chǔ)設(shè)施尚未部署統(tǒng)一的運(yùn)維管理平臺。企業(yè)信息化水平越來越高,同時IT系統(tǒng)也越來越復(fù)雜,各種各樣的服務(wù)器、存儲設(shè)備以及網(wǎng)絡(luò)設(shè)備等使得維護(hù)人員應(yīng)接不暇,極難避免各種各樣故障產(chǎn)生,故障產(chǎn)生就會造成業(yè)務(wù)中斷,使得企業(yè)不能正常運(yùn)營。
根據(jù)國家信息技術(shù)服務(wù)標(biāo)準(zhǔn)(ITSS)規(guī)定[2],信息技術(shù)服務(wù)由人員、過程、技術(shù)和資源4個要素組成,包含規(guī)劃設(shè)計、部署實(shí)施、服務(wù)運(yùn)營、持續(xù)改進(jìn)和監(jiān)督管理5個生命周期,實(shí)施ITSS有利于強(qiáng)化信息技術(shù)服務(wù)效能、優(yōu)化信息技術(shù)服務(wù)成本、提升信息技術(shù)服務(wù)質(zhì)量、降低信息技術(shù)服務(wù)風(fēng)險。按照ITSS要求,運(yùn)維監(jiān)控類工具的管理對象主要包含硬件資源管理、通用軟件資源管理、應(yīng)用資源管理[3]。如圖1所示,數(shù)據(jù)中心運(yùn)維服務(wù)的服務(wù)對象分為機(jī)房設(shè)施、網(wǎng)絡(luò)及網(wǎng)絡(luò)設(shè)備、服務(wù)器及存儲、軟件、數(shù)據(jù)共5類;運(yùn)維服務(wù)的交付內(nèi)容包括例行操作、響應(yīng)支持、優(yōu)化改善和咨詢評估4類服務(wù)作業(yè)過程。神東IT集中運(yùn)維平臺采用自動化監(jiān)控手段,獲得管理對象的狀態(tài)數(shù)據(jù),為過程管理提供數(shù)據(jù)支撐,在硬件、軟件平臺、虛擬化、業(yè)務(wù)、用戶感知以及基礎(chǔ)設(shè)施等監(jiān)控對象的基礎(chǔ)上實(shí)現(xiàn)了事件管理、性能管理、視圖管理、告警管理、統(tǒng)計分析、日志管理等功能。
圖1 IT運(yùn)維維護(hù)對象Fig.1 IT operation and maintenance objects
隨著神東公司生產(chǎn)網(wǎng)、4G/5G網(wǎng)絡(luò)和大數(shù)據(jù)中心等IT基礎(chǔ)設(shè)施項(xiàng)目的實(shí)施,IT基礎(chǔ)設(shè)施規(guī)模不斷擴(kuò)大。因此,需要一套符合國家信息技術(shù)服務(wù)標(biāo)準(zhǔn)的IT集中運(yùn)維管理平臺,以實(shí)現(xiàn)對交換機(jī)、路由器、無線控制器、服務(wù)器(含操作系統(tǒng)、虛擬機(jī))、數(shù)據(jù)存儲、光纖交換機(jī)、應(yīng)用系統(tǒng)、數(shù)據(jù)庫、中間件和機(jī)房動環(huán)等IT基礎(chǔ)設(shè)施的集中監(jiān)控和智能分析,以提高IT運(yùn)維管理效率。
集中化管理是當(dāng)前IT運(yùn)維管理的發(fā)展趨勢,對主機(jī)設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備、備份設(shè)備、數(shù)據(jù)庫、中間件、應(yīng)用軟件、桌面系統(tǒng)等進(jìn)行“集中監(jiān)控、集中維護(hù)、集中管理”成為企業(yè)IT運(yùn)維管理的必然選擇[4]。神東IT集中運(yùn)維平臺按照國家信息技術(shù)服務(wù)標(biāo)準(zhǔn)設(shè)計,采用基于J2EE的B/S模式,平臺由3層架構(gòu)組成,即數(shù)據(jù)采集層、系統(tǒng)功能層和應(yīng)用展示層[5]。數(shù)據(jù)采集層通過SNMP、Telnet/SSH等采集手段,按照預(yù)設(shè)的采集策略完成資源配置數(shù)據(jù)、資源性能數(shù)據(jù)、網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)和告警數(shù)據(jù)的采集。系統(tǒng)功能層由多個模塊(資源管理、告警管理、拓?fù)涔芾怼⑿阅芄芾?和組件(網(wǎng)絡(luò)管理、主機(jī)管理、存儲管理、應(yīng)用管理)共同實(shí)現(xiàn)數(shù)據(jù)的處理。通過對事件的標(biāo)準(zhǔn)化、壓縮、過濾、歸并及關(guān)聯(lián)分析等一系列操作,一方面將處理結(jié)果發(fā)送到統(tǒng)一告警平臺,另一方面將處理結(jié)果存入告警庫,以便對告警數(shù)據(jù)的查詢和統(tǒng)計分析。應(yīng)用展示層通過統(tǒng)一的圖形平臺,為運(yùn)維人員提供個性化的的管理和展示界面。
ITSS體系對資源管理有明確的要求,不斷完善運(yùn)維工具,既可以減少不必要的工作量,也可以提升運(yùn)維工作質(zhì)量和效率[6]。運(yùn)維系統(tǒng)的總體目標(biāo)是,基于整個網(wǎng)絡(luò),按照業(yè)務(wù)和用戶為中心的建設(shè)原則[7],實(shí)現(xiàn)對神東公司所有IT基礎(chǔ)設(shè)施的集中監(jiān)控、集中維護(hù)和集中管理,確保運(yùn)維人員能夠高效管理運(yùn)維對象。根據(jù)ITSS標(biāo)準(zhǔn)體系要求,結(jié)合神東公司IT運(yùn)維管理現(xiàn)狀,提出以下5方面平臺目標(biāo):①實(shí)現(xiàn)路由器、交換機(jī)、防火墻、無線設(shè)備、服務(wù)器、虛擬機(jī)、存儲、光纖交換機(jī)、IP智能設(shè)備、機(jī)房動力環(huán)境、信息系統(tǒng)、數(shù)據(jù)庫、中間件等神東公司IT基礎(chǔ)設(shè)施的集中監(jiān)控、實(shí)時報警和可視化分析,通過手機(jī)短信、郵件、企業(yè)微信等多種方式進(jìn)行告警。②通過集中監(jiān)控管理平臺的建立,用電子巡檢方式代替了人工巡檢,大大縮短巡檢時間,提高設(shè)備巡檢效率[8]。③梳理IT基礎(chǔ)設(shè)施的物理連接關(guān)系,構(gòu)件IT基礎(chǔ)設(shè)施的業(yè)務(wù)模型,實(shí)現(xiàn)軟件、硬件全視角的監(jiān)視,當(dāng)故障發(fā)生時,可以進(jìn)行故障的快速定位,從而縮短故障解決時間,避免軟件部門和硬件部門因故障點(diǎn)定位而發(fā)生的扯皮現(xiàn)象。④實(shí)現(xiàn)對機(jī)房動力環(huán)境的集中監(jiān)控管理,提供可視化的監(jiān)控畫面,發(fā)現(xiàn)異常即可通過網(wǎng)絡(luò)自動遠(yuǎn)程報警和現(xiàn)場聲光報警,及時提醒運(yùn)維管理人員。⑤實(shí)現(xiàn)平臺用戶統(tǒng)一身份認(rèn)證和用戶權(quán)限的分級管理,提高各運(yùn)維部門運(yùn)維工作的規(guī)范性和協(xié)同性。
神東IT集中運(yùn)維監(jiān)控平臺實(shí)現(xiàn)網(wǎng)絡(luò)資源管理、業(yè)務(wù)管理、IP地址管理、CMDB管理、配線管理、網(wǎng)絡(luò)配置管理、告警管理、日志管理、自動化巡檢管理、報表管理、門戶管理、接口管理等功能。
網(wǎng)絡(luò)資源管理:對路由器、交換機(jī)、安全設(shè)備、無線設(shè)備、服務(wù)器、數(shù)據(jù)庫、中間件、虛擬化設(shè)備、存儲設(shè)備、通信機(jī)房等IT基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一管理,對上述網(wǎng)絡(luò)資源的狀態(tài)、性能、配置、信息4類指標(biāo)進(jìn)行統(tǒng)一綜合監(jiān)控。與神東機(jī)房動力環(huán)境監(jiān)測系統(tǒng)集成,獲取動力環(huán)境平臺的監(jiān)測數(shù)據(jù),比如溫濕度、煙感、漏水、空調(diào)、電量、電流、UPS、智能配電柜等機(jī)房環(huán)境信息。
業(yè)務(wù)管理:從關(guān)鍵業(yè)務(wù)或應(yīng)用系統(tǒng)視角,將組成業(yè)務(wù)系統(tǒng)的軟硬件資源按照其關(guān)聯(lián)關(guān)系組建業(yè)務(wù)邏輯模型,監(jiān)控其業(yè)務(wù)邏輯模型的可用性等業(yè)務(wù)層面指標(biāo),建立從業(yè)務(wù)視角出發(fā)的監(jiān)控視圖,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)故障的快速、準(zhǔn)確定位,快速恢復(fù)業(yè)務(wù)系統(tǒng)。
IP地址管理:記錄和展示IP地址和IP子網(wǎng)信息,圖形化管理IP地址和IP子網(wǎng)的容量、使用率,進(jìn)行IP地址審計、IP地址回收、IP地址分類分析,實(shí)現(xiàn)IP地址管理“帳實(shí)”相符,高效管理網(wǎng)絡(luò)中的IP地址資源。
配置管理數(shù)據(jù)庫:配置管理數(shù)據(jù)庫作為整個運(yùn)維管理的基礎(chǔ)模塊,是支撐運(yùn)維管理工作的重要組成部分。通過自動采集和手工方式,集中存儲配置項(xiàng)的基本信息、地址信息、維護(hù)信息和關(guān)聯(lián)關(guān)系,建設(shè)集中、完整、統(tǒng)一、實(shí)時的配置管理數(shù)據(jù)庫,為IT配置項(xiàng)管理提供記錄、查詢、匯總、統(tǒng)計分析的基礎(chǔ)數(shù)據(jù)[9]。
配線管理:實(shí)現(xiàn)以視圖方式展現(xiàn)綜合布線的設(shè)備接口、信息面板、設(shè)備位置、管道、線路、配線間、配線柜、配線架、配線接口等關(guān)聯(lián)信息。
網(wǎng)絡(luò)配置及告警管理:網(wǎng)絡(luò)配置是對網(wǎng)絡(luò)設(shè)備配置的集中管理,通過SNMP、SSH、Telnet協(xié)議實(shí)現(xiàn)配置備份和配置恢復(fù)。警告管理應(yīng)包括定義警告、警告瀏覽以及警告處理等功能[10]。平臺從IT基礎(chǔ)設(shè)施上收集到各類報警數(shù)據(jù),基于多種壓縮規(guī)則過濾和歸并,并結(jié)合告警級別和用戶權(quán)限等規(guī)則,通過平臺客戶端、郵件、短信、企業(yè)微信等方式,將告警內(nèi)容展示給維護(hù)人員,有效減少無用告警的數(shù)量。
日志管理:IT基礎(chǔ)設(shè)施日志信息數(shù)據(jù)量大、位置分散、解析困難,對運(yùn)維人員來說手工查看日志記錄,不僅效率低下,也難以發(fā)現(xiàn)日志中的有用信息[11]。通過采集路由器、交換機(jī)、服務(wù)器和應(yīng)用系統(tǒng)等IT基礎(chǔ)設(shè)施的運(yùn)行日志,從海量的Log日志中收集、過濾、分析和提取有價值的信息,實(shí)現(xiàn)了日志統(tǒng)一收集、分析處理、查詢告警等功能,為IT運(yùn)維人員提前發(fā)現(xiàn)系統(tǒng)故障、排查安全隱患提供有效工具。
其他管理:自動化巡檢管理是針對路由器、交換機(jī)、安全設(shè)備、無線設(shè)備、服務(wù)器、數(shù)據(jù)庫、中間件、虛擬化設(shè)備、存儲設(shè)備、通信機(jī)房等IT基礎(chǔ)設(shè)施,制定巡檢范圍、巡檢線路、巡檢內(nèi)容、巡檢周期等計劃,自定義設(shè)備運(yùn)行參數(shù)的閾值(CPU利用率、內(nèi)存利用率等),自動形成設(shè)備和系統(tǒng)運(yùn)行狀態(tài)的巡檢報告,以郵件、企業(yè)微信或短信等方式通知運(yùn)維人員。報表管理提供網(wǎng)絡(luò)類、主機(jī)類、虛擬化類和存儲類的運(yùn)行率報表、故障告警統(tǒng)計分析報表和性能分析報表,支持實(shí)時報表、日報表、周報表、月報表和年報表等。門戶管理通過創(chuàng)建資源、接口、業(yè)務(wù)3種類型過濾器,為運(yùn)維工程師展示網(wǎng)絡(luò)資源、系統(tǒng)和業(yè)務(wù)系統(tǒng)的個性化運(yùn)維數(shù)據(jù)和運(yùn)維圖表。接口管理是平臺與神東公司單點(diǎn)登錄用戶認(rèn)證進(jìn)行集成,實(shí)現(xiàn)用戶統(tǒng)一身份認(rèn)證;與神東機(jī)房動力環(huán)境監(jiān)測系統(tǒng)集成,實(shí)時監(jiān)控機(jī)房動力環(huán)境;與企業(yè)郵件服務(wù)器、短信、企業(yè)微信集成,實(shí)現(xiàn)平臺告警信息的個性化推送。
隨著神東智能化和信息化的深入發(fā)展,企業(yè)內(nèi)部的IT運(yùn)維管理仍然需要不斷探索、創(chuàng)新和發(fā)展,IT運(yùn)維管理正在向智能化方向發(fā)展。例如,IT服務(wù)質(zhì)量的衡量指標(biāo)由過去的底層設(shè)備、操作系統(tǒng)、應(yīng)用系統(tǒng)向業(yè)務(wù)的高可用和穩(wěn)定性方面轉(zhuǎn)變,衡量IT對業(yè)務(wù)影響程度的指標(biāo)變成了MTTR(平均故障修復(fù)時間),這就需要從業(yè)務(wù)的視角,實(shí)現(xiàn)覆蓋所有業(yè)務(wù)鏈路端的全局監(jiān)控、管理和分析,把監(jiān)控的點(diǎn)和面都做完整,還要與業(yè)務(wù)指標(biāo)進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)基于大數(shù)據(jù)的人工智能運(yùn)維,才能不斷滿足企業(yè)內(nèi)部IT運(yùn)維管理的發(fā)展需求。