李兢
(廣西電子政務(wù)外網(wǎng)管理中心,南寧 530000)
廣西電子政務(wù)外網(wǎng)云計(jì)算中心位于廣西南寧市,面積為25 000 m2,建設(shè)級(jí)別為A級(jí),機(jī)架數(shù)為2 800個(gè)。該項(xiàng)目是廣西政府系統(tǒng)電子政務(wù)“十二五”規(guī)劃重點(diǎn)項(xiàng)目,項(xiàng)目采用云計(jì)算、大數(shù)據(jù)等新一代信息技術(shù),建設(shè)廣西統(tǒng)一的政務(wù)云計(jì)算中心。目標(biāo)是要建成全國一流的綜合性云計(jì)算中心,為廣西乃至西南中南地區(qū)的電子政務(wù)建設(shè)應(yīng)用及信息化建設(shè)提供國內(nèi)一流的云計(jì)算技術(shù)支撐服務(wù)。通過項(xiàng)目建設(shè)切實(shí)推動(dòng)廣西壯族自治區(qū)實(shí)現(xiàn)電子政務(wù)集約化節(jié)約化建設(shè)與應(yīng)用,提高投資效益和質(zhì)量,全面提升各級(jí)政府公共服務(wù)水平和社會(huì)管理能力。
數(shù)據(jù)中心基礎(chǔ)設(shè)施作為承載信息系統(tǒng)運(yùn)行的物理環(huán)境,其穩(wěn)定性、可靠性、安全性決定了IT業(yè)務(wù)的持續(xù)性。如何做好運(yùn)維工作,實(shí)時(shí)掌控基礎(chǔ)設(shè)施運(yùn)行情況,及時(shí)發(fā)現(xiàn)隱患、故障,降低運(yùn)維管理成本,控制數(shù)據(jù)中心能耗,提高基礎(chǔ)設(shè)施利用率,掌握基礎(chǔ)設(shè)施容量情況,提升運(yùn)營水平和服務(wù)成熟度,成為未來工作重點(diǎn)。
針對(duì)這些情況,需建立數(shù)據(jù)中心基礎(chǔ)設(shè)施管理系統(tǒng)(DCIM)。系統(tǒng)要能全面管理基礎(chǔ)設(shè)施、智能輔助分析決策、高效有序運(yùn)維團(tuán)隊(duì),保障基礎(chǔ)設(shè)施可用性,主動(dòng)消除故障隱患風(fēng)險(xiǎn),縮短故障修復(fù)時(shí)間,降低能源消耗和運(yùn)維成本,提高基礎(chǔ)設(shè)施利用率,加強(qiáng)流程化管理服務(wù)水平,保障數(shù)據(jù)中心穩(wěn)定、安全、高效運(yùn)行。本文以廣西電子照政務(wù)外網(wǎng)云計(jì)算中心的DCIM為例,簡述實(shí)現(xiàn)思路與過程。
平臺(tái)總體架構(gòu)圖如圖1所示。平臺(tái)分為5個(gè)邏輯層:監(jiān)控設(shè)備層、采集層、數(shù)據(jù)處理層、基礎(chǔ)服務(wù)層、應(yīng)用層。各層之間相互獨(dú)立,從上往下相互依賴,各個(gè)功能和業(yè)務(wù)應(yīng)用以組建的方式進(jìn)行設(shè)計(jì)和開發(fā),使層內(nèi)各功能耦合度最小。
監(jiān)控設(shè)備層:覆蓋了數(shù)據(jù)中心動(dòng)力系統(tǒng)、環(huán)境系統(tǒng)、安防系統(tǒng)等所有基礎(chǔ)設(shè)施設(shè)備。
采集層:由各種I/O采集模塊、串口服務(wù)器等組成,連接所有傳感器和被監(jiān)控設(shè)備,實(shí)現(xiàn)監(jiān)控平臺(tái)與被監(jiān)控對(duì)象的數(shù)據(jù)通訊。所有硬件采用模塊化架構(gòu),I/O模塊采集傳感器數(shù)據(jù)后通過系統(tǒng)配置實(shí)現(xiàn)對(duì)所有傳感器的數(shù)據(jù)匹配對(duì)應(yīng);各種智能設(shè)備直接接入現(xiàn)場監(jiān)控層。
數(shù)據(jù)處理層:基于大數(shù)據(jù)架構(gòu),對(duì)各子系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一篩選、整合并加以關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時(shí)序模式和偏差分析。以為規(guī)劃、調(diào)優(yōu)、預(yù)測和變更等多個(gè)維度的綜合數(shù)據(jù)支撐,為決策與運(yùn)維奠定數(shù)據(jù)基礎(chǔ)。
基礎(chǔ)服務(wù)層:由動(dòng)環(huán)監(jiān)控服務(wù)器、熱場管理服務(wù)器、資產(chǎn)容量管理服務(wù)器、IT一體化監(jiān)控服務(wù)器等組成。服務(wù)器負(fù)責(zé)收集各子系統(tǒng)的監(jiān)控的實(shí)時(shí)數(shù)據(jù),進(jìn)行本地處理、存儲(chǔ),并將數(shù)據(jù)經(jīng)過濾后上傳至集中管理服務(wù)器,進(jìn)行統(tǒng)一監(jiān)控和管理。
應(yīng)用層:應(yīng)用層是直接與用戶交互到系統(tǒng)功能層,根據(jù)用戶需求到不同構(gòu)建不同到交互界面。包括資產(chǎn)管理、能耗管理、容量管理、運(yùn)維管理等子系統(tǒng)。
大數(shù)據(jù)平臺(tái)架構(gòu)如圖2所示。
2.2.1 大數(shù)據(jù)接入子系統(tǒng)
利用事件驅(qū)動(dòng)的架構(gòu)(Evnet-Driven Architecture)支持?jǐn)?shù)據(jù)中心各垂直子系統(tǒng)大規(guī)模TCP/IP鏈接的高并發(fā)處理,使用消息隊(duì)列模式的發(fā)布方式。利用均衡負(fù)載、反向映射等技術(shù),構(gòu)建接入服務(wù)器集群,實(shí)現(xiàn)高容錯(cuò)。
圖1 系統(tǒng)平臺(tái)架構(gòu)圖
圖2 DCIM大數(shù)據(jù)平臺(tái)架構(gòu)
2.2.2 流數(shù)據(jù)處理子系統(tǒng)
面對(duì)海量數(shù)據(jù)實(shí)時(shí)處理需求,采用“流處理”(Stream processing)系統(tǒng),一方面接受接入子系統(tǒng)傳入的數(shù)據(jù)流,另一方面完成對(duì)海量數(shù)據(jù)流的連續(xù)查詢、混合查詢、多條件查詢。
2.2.3 復(fù)雜事件處理子系統(tǒng)
在對(duì)監(jiān)控?cái)?shù)據(jù)處理的過程中,會(huì)產(chǎn)生大量有關(guān)聯(lián)性的事件。為更智能的分析處理海量事件,采用智能的復(fù)雜事件處理引擎(Complex Event Process)。復(fù)雜事件處理引擎接受從流數(shù)據(jù)平臺(tái)過來的數(shù)據(jù)輸入,解釋業(yè)務(wù)規(guī)則,并根據(jù)業(yè)務(wù)規(guī)則作出業(yè)務(wù)決策,實(shí)現(xiàn)事件過濾、合并、分流、定位、告警等服務(wù)。
2.2.4 分布式存儲(chǔ)子系統(tǒng)
DCIM采集到的數(shù)據(jù)經(jīng)過流數(shù)據(jù)平臺(tái)處理后必須做存儲(chǔ)處理。存儲(chǔ)方式采用分布式數(shù)據(jù)庫和分布式文件系統(tǒng)技術(shù),將可靠的PC服務(wù)器存儲(chǔ)設(shè)備集合起來協(xié)調(diào)工作,行程一個(gè)分布式、高容錯(cuò)的云存儲(chǔ)平臺(tái)。
2.2.5 大數(shù)據(jù)分析子系統(tǒng)
系統(tǒng)在采用分布式并行計(jì)算技術(shù)、復(fù)雜事件處理技術(shù)和機(jī)器學(xué)習(xí)的基礎(chǔ)上,利用聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘等手段,發(fā)現(xiàn)數(shù)據(jù)的相關(guān)性和規(guī)律。對(duì)采集到的歷史數(shù)據(jù)做智能處理和分析,對(duì)未來可能發(fā)生的故障做預(yù)測分析。
廣西電子政務(wù)外網(wǎng)云計(jì)算中心監(jiān)測參數(shù)項(xiàng)至少為300 000個(gè),每2 s進(jìn)行數(shù)據(jù)采集并存儲(chǔ),每日處理數(shù)量將高達(dá)上百億規(guī)模。數(shù)據(jù)形式是為多樣性,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。面對(duì)海量數(shù)據(jù),平臺(tái)既要支持傳感器數(shù)據(jù)流到實(shí)時(shí)分析與處理又要支持復(fù)雜查詢與深度分析所需到高性能、低延遲需求。傳統(tǒng)的數(shù)據(jù)庫存儲(chǔ)方式已不能滿足需求,采用大數(shù)據(jù)Hadoop YARN架構(gòu)存儲(chǔ)如圖3所示。
圖3 大數(shù)據(jù)存儲(chǔ)混合模式
底層由傳統(tǒng)關(guān)系型數(shù)據(jù)庫和Hadoop集群組成,系統(tǒng)配置信息存儲(chǔ)在關(guān)系數(shù)據(jù)庫,海量歷史數(shù)據(jù)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)上。通過Hive數(shù)據(jù)倉庫、HBase數(shù)據(jù)庫與上層進(jìn)行交互。為便于高效數(shù)據(jù)查詢、分析、計(jì)算,采用分布式計(jì)算、并行計(jì)算和實(shí)時(shí)計(jì)算承擔(dān)完成。
中間層采用了計(jì)算節(jié)點(diǎn)集群方式,運(yùn)行的程序既包括傳統(tǒng)應(yīng)用服務(wù)器和Web服務(wù)器,Hadoop應(yīng)用協(xié)作的分析服務(wù)器。
頂層主要用來呈現(xiàn),從承載方式看:主要包括Web瀏覽器、移動(dòng)設(shè)備以及桌面應(yīng)用等;從展示內(nèi)容看,既包括傳統(tǒng)的報(bào)表表格也包括組態(tài)和3D等新式交互體驗(yàn)。
圖4 系統(tǒng)功能圖
各子系統(tǒng)之間采用分布式集散結(jié)構(gòu),各子系統(tǒng)相對(duì)獨(dú)立,一個(gè)子系統(tǒng)發(fā)生故障,不影響其他子系統(tǒng)的正常運(yùn)作;DCIM系統(tǒng)平臺(tái)發(fā)生故障,各子系統(tǒng)仍能正常工作。同時(shí)各子系統(tǒng)之間又可通過在DCIM系統(tǒng)平臺(tái)上定義各自的聯(lián)動(dòng)策略,并可實(shí)現(xiàn)跨子系統(tǒng)的策略聯(lián)動(dòng)。系統(tǒng)主要包括四大部分:基礎(chǔ)設(shè)施管理、運(yùn)維管理、大數(shù)據(jù)分析、系統(tǒng)維護(hù)管理。平臺(tái)主要功能模塊,詳見圖4所示。
對(duì)機(jī)房、機(jī)柜、基礎(chǔ)設(shè)施設(shè)備等對(duì)象,綜合空間、U位、供電、制冷、承重、電力口、光口、網(wǎng)口等因素構(gòu)建容量模型。采用有線標(biāo)簽U位管理技術(shù)自動(dòng)實(shí)現(xiàn)對(duì)機(jī)柜空間管理,結(jié)合CFD技術(shù)模擬數(shù)據(jù)中心發(fā)熱量數(shù)據(jù)。容量管理具有規(guī)劃部署功能,提供可用機(jī)位、機(jī)柜位的搜索、預(yù)占、審核和上線功能。對(duì)于已經(jīng)預(yù)占的機(jī)位和空間,管理員可根據(jù)優(yōu)先級(jí),審核、取消、編輯和再分配。容量管理與資產(chǎn)管理、基礎(chǔ)設(shè)施監(jiān)控有緊密數(shù)據(jù)聯(lián)系,能根據(jù)資產(chǎn)變更和基礎(chǔ)設(shè)施運(yùn)行狀態(tài)自動(dòng)更新容量數(shù)據(jù)。與能耗系統(tǒng)有關(guān)聯(lián)性分析,根據(jù)IT設(shè)備實(shí)際能耗,對(duì)設(shè)備放置位置做建議。
對(duì)數(shù)據(jù)中心生命周期內(nèi)連續(xù)供應(yīng)的能源進(jìn)行品質(zhì)監(jiān)測、效率提升、運(yùn)營成本優(yōu)化的過程,是對(duì)資源消耗持續(xù)計(jì)量、統(tǒng)計(jì)、分析、診斷、控制及優(yōu)化提升的過程。能實(shí)時(shí)計(jì)算PUE、PPUE、CLF、RER等數(shù)值。結(jié)合能效數(shù)據(jù),采用大數(shù)據(jù)分析各系統(tǒng)能耗使用分布,梳理系統(tǒng)運(yùn)行過程中的能耗消耗點(diǎn),根據(jù)匹配的能耗知識(shí)庫,關(guān)聯(lián)出相應(yīng)的節(jié)能改進(jìn)建議措施;支持查看能耗基準(zhǔn)線、為數(shù)據(jù)中心擴(kuò)容提供容量規(guī)劃;根據(jù)采集的數(shù)據(jù),繪制出數(shù)據(jù)中心的能耗圖。
對(duì)數(shù)據(jù)中心的所有工作進(jìn)行規(guī)范化、流程化、標(biāo)準(zhǔn)化信息化、自動(dòng)化管理。運(yùn)維管理基于ITIL、ISO20000國際標(biāo)準(zhǔn)理論框,內(nèi)置標(biāo)準(zhǔn)流程、分析報(bào)表、服務(wù)臺(tái)、配置項(xiàng)管理、績效考核、事件管理等一整套專業(yè)的服務(wù)臺(tái)運(yùn)營模型。通過工單管理流程,記錄各種信息故障申報(bào)請(qǐng)求,并對(duì)故障處理的過程進(jìn)行跟蹤和處理,通過SLA(服務(wù)水平協(xié)議)完成績效考核指標(biāo);建立知識(shí)庫,提高故障排除效率;建立庫存信息,對(duì)備品備件、工具進(jìn)行統(tǒng)一管理;對(duì)設(shè)備供應(yīng)商進(jìn)行管理,為運(yùn)維人員提供有效的設(shè)備參考信息。系統(tǒng)具備關(guān)聯(lián)影響分析功能,對(duì)于運(yùn)維工作的運(yùn)行影響和業(yè)務(wù)影響進(jìn)行風(fēng)險(xiǎn)評(píng)估,結(jié)合3D可視化進(jìn)行展示。
對(duì)維護(hù)過程中基礎(chǔ)設(shè)施、系統(tǒng)或服務(wù)所作出的各種改變進(jìn)行管理。建立變更管理流程,流程可自定義,主要包括:變更角色、變更內(nèi)容分類、關(guān)聯(lián)影響分析、變更審核、變更實(shí)施、變更保障、變更驗(yàn)證、回退/補(bǔ)救、配置備份等步驟。系統(tǒng)規(guī)范了變更工作順序、記錄工作詳情、智能分析隱患、模擬變更結(jié)果,減少意外狀況,節(jié)省時(shí)間與成本,改善服務(wù)質(zhì)量。
采用標(biāo)簽綁定采集條方式實(shí)現(xiàn)設(shè)備一對(duì)一高效管理,每臺(tái)設(shè)備通過標(biāo)簽連接到機(jī)柜資產(chǎn)信息采集條,精確到U位。集成3D技術(shù),多圖層展示資產(chǎn)所在位置。建立資產(chǎn)全生命周期管理流程,對(duì)資產(chǎn)出入庫態(tài)、上下架、變更、折舊、報(bào)廢等進(jìn)行跟蹤。提供豐富的統(tǒng)計(jì)分析圖標(biāo)及可視化輔助決策、提供可定制化的變更管理流程。資產(chǎn)管理與財(cái)務(wù)管理進(jìn)行資產(chǎn)數(shù)據(jù)交互,通過財(cái)務(wù)審核和財(cái)務(wù)賬表,對(duì)IT資產(chǎn)進(jìn)行監(jiān)督。系統(tǒng)能自動(dòng)生成IT資產(chǎn)總賬、分類賬、明細(xì)賬。
管理有兩種內(nèi)容:第一對(duì)IT設(shè)備之間及機(jī)電設(shè)備之間的物理端口連線。第二基礎(chǔ)物理連接上對(duì)IT設(shè)備訪問,操作與控制。系統(tǒng)采用智能電子配線架,為系統(tǒng)管理員提供所有連接的狀態(tài)信息,通過對(duì)主干鏈路或重要物理連接實(shí)時(shí)監(jiān)控,使管理員能夠更快的發(fā)現(xiàn)和解決網(wǎng)絡(luò)中出現(xiàn)的問題。電子配線架與DCIM系統(tǒng)進(jìn)行集成,共享設(shè)備連接信息,DCIM系統(tǒng)結(jié)合容量數(shù)據(jù)、能耗數(shù)據(jù)、IT設(shè)備運(yùn)行數(shù)據(jù)等,對(duì)容量優(yōu)化、能耗提升決策、機(jī)架空間優(yōu)化等給出建議。
管理范圍包括動(dòng)力監(jiān)控系統(tǒng)、安防監(jiān)控系統(tǒng)、環(huán)境監(jiān)控系統(tǒng)等。使用傳感器、電控裝置、智能儀表、控制器等設(shè)備,對(duì)基礎(chǔ)設(shè)施各子系統(tǒng)和設(shè)施進(jìn)行實(shí)時(shí)監(jiān)測和控制,能模擬仿真基礎(chǔ)設(shè)施系統(tǒng)架構(gòu)、運(yùn)行狀態(tài)。采用統(tǒng)一接口,對(duì)各子系統(tǒng)報(bào)警信息進(jìn)行監(jiān)視、過濾、分級(jí),匯總,建立故障關(guān)聯(lián)模型,預(yù)見或及時(shí)感知直接故障和間接故障、提前決策。提供各類數(shù)據(jù)統(tǒng)計(jì)與分析。
在分布式并行計(jì)算技術(shù)、復(fù)雜事件處理技術(shù)和機(jī)器學(xué)習(xí)的基礎(chǔ)上,采用機(jī)器學(xué)習(xí)、人工智能、神經(jīng)網(wǎng)絡(luò)等先進(jìn)技術(shù),深度挖掘數(shù)據(jù)的相關(guān)性和規(guī)律,研究跨系統(tǒng)關(guān)聯(lián)模型,實(shí)現(xiàn)智能故障管理分析。掌握設(shè)備和子系統(tǒng)運(yùn)行趨勢,前瞻性發(fā)現(xiàn)設(shè)備和各子系統(tǒng)可預(yù)見非突發(fā)性故障。建立能耗和電費(fèi)成本模型,結(jié)合數(shù)據(jù)中心運(yùn)行參數(shù),計(jì)算動(dòng)態(tài)成本,為經(jīng)濟(jì)性提供參考。實(shí)時(shí)分析數(shù)據(jù)中心運(yùn)行參數(shù),結(jié)合系統(tǒng)配置信息,智能預(yù)警系統(tǒng)運(yùn)行狀態(tài)。
上述的8個(gè)子系統(tǒng)是相輔相成,不可分割的,系統(tǒng)關(guān)系如圖5所示。運(yùn)維管理是DCIM核心部分,通過它對(duì)數(shù)據(jù)中心所有工作進(jìn)行監(jiān)督和管理。變更管理既是為資產(chǎn)的數(shù)據(jù)操作提供需求,也是資產(chǎn)數(shù)據(jù)維護(hù)、更新、分析的依據(jù)和來源,資產(chǎn)管理以價(jià)值來體現(xiàn)整個(gè)系統(tǒng)的應(yīng)用?;A(chǔ)設(shè)施管理為數(shù)據(jù)中心運(yùn)行提供設(shè)備保證。容量管理、能耗管理、線纜連接管理對(duì)維護(hù)工作起到重要支撐作用。大數(shù)據(jù)分析系統(tǒng)匯聚各個(gè)系統(tǒng)數(shù)據(jù),通過數(shù)據(jù)匯聚、流數(shù)據(jù)處理、復(fù)雜事件處理等手段,從而實(shí)現(xiàn)數(shù)據(jù)中心管理智能化、自動(dòng)化、流程化。8個(gè)子系統(tǒng)形成一個(gè)高效、規(guī)范和充滿活力工作流程。因此,平臺(tái)在設(shè)計(jì)上沒有將各個(gè)功能模塊孤立出來,而是以操作人員基礎(chǔ),以工作流程為鎖鏈,以權(quán)限為安全機(jī)制,將各個(gè)功能模塊的功能集成在不同的工位操作界面上,使各個(gè)功能在工作流轉(zhuǎn)的過程中融會(huì)貫通,形成一個(gè)有機(jī)的整體具體的系統(tǒng)關(guān)系描述。
圖5 系統(tǒng)關(guān)系圖
隨著廣西電子政務(wù)外網(wǎng)業(yè)務(wù)向云架構(gòu)、云計(jì)算技術(shù)等不斷應(yīng)用,數(shù)據(jù)中心基礎(chǔ)設(shè)施作為最大的物理載體,規(guī)模將不斷的增大。利用DCIM系統(tǒng)對(duì)數(shù)據(jù)中心日常運(yùn)營工作進(jìn)行管理,可提高數(shù)據(jù)中心的可用性、效率、運(yùn)營管理水平和成熟度,達(dá)到最終的管理目標(biāo)。在這個(gè)系統(tǒng)的基礎(chǔ)上,可采用云服務(wù)的方式,將DCIM軟件系統(tǒng)的能力云化,使DCIM系統(tǒng)以軟件+智能硬件的方式實(shí)現(xiàn)SaaS服務(wù),對(duì)區(qū)內(nèi)其他電子政務(wù)外網(wǎng)節(jié)點(diǎn)的數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行管理。