亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)初步研究

        2022-06-30 07:46:34何欣玲黃思煒
        鐵路計算機(jī)應(yīng)用 2022年6期
        關(guān)鍵詞:數(shù)據(jù)中心運(yùn)維鐵路

        趙 天,劉 宇,何欣玲,黃思煒

        (中國鐵路信息科技集團(tuán)有限公司,北京 100844)

        隨著鐵路信息化的不斷發(fā)展,鐵路數(shù)據(jù)中心運(yùn)維工作日趨復(fù)雜。當(dāng)前,云計算已逐漸成為鐵路信息系統(tǒng)的主流技術(shù)架構(gòu),鐵路數(shù)據(jù)中心云化進(jìn)程不斷加快,其運(yùn)行與維護(hù)(簡稱:運(yùn)維)環(huán)境的復(fù)雜化和異構(gòu)特征越發(fā)突出,面對著更加多樣化的業(yè)務(wù)需求,鐵路數(shù)據(jù)中心的日常運(yùn)維工作不得不投入更多的人力和時間,成本越來越高。

        中國鐵路信息科技集團(tuán)有限公司發(fā)布的《十四五戰(zhàn)略發(fā)展規(guī)劃》中指出,鐵路數(shù)據(jù)中心將形成兩地三中心架構(gòu),構(gòu)建統(tǒng)一運(yùn)維管理,形成彈性分配資源的技術(shù)與服務(wù)管理體系[1]。兩地三中心即同城雙活中心、主數(shù)據(jù)中心和異地數(shù)據(jù)中心,且遠(yuǎn)期鐵路數(shù)據(jù)中心將朝著多地多中心方向發(fā)展。

        為應(yīng)對目前鐵路數(shù)據(jù)中心運(yùn)維工作面對的壓力和挑戰(zhàn),適應(yīng)鐵路信息化未來發(fā)展要求,鐵路數(shù)據(jù)中心需要采用更為高效的運(yùn)維模式,實(shí)現(xiàn)異地多中心的統(tǒng)一運(yùn)維管理,能夠及時、準(zhǔn)確地掌控各鐵路數(shù)據(jù)中心資源及業(yè)務(wù)應(yīng)用系統(tǒng)的運(yùn)行情況,實(shí)現(xiàn)鐵路數(shù)據(jù)中心運(yùn)維人力資源的統(tǒng)一調(diào)配,保障鐵路信息系統(tǒng)安全、穩(wěn)定地持續(xù)運(yùn)行。

        近年來,智能運(yùn)維在信息技術(shù)領(lǐng)域受到廣泛關(guān)注,隨著大數(shù)據(jù)分析、云應(yīng)用性能管理(APM,Application Performance Management)、智能異常檢測、機(jī)器學(xué)習(xí)等技術(shù)的興起和逐漸成熟,數(shù)據(jù)中心運(yùn)維逐漸轉(zhuǎn)向數(shù)字化和智能化[2],由傳統(tǒng)模式向智能運(yùn)維管理(AIOps,Artificial Intelligence for IT Operations)演進(jìn)。

        本文結(jié)合鐵路數(shù)據(jù)中心云化趨勢和多地多中心發(fā)展要求,為實(shí)現(xiàn)全路鐵路數(shù)據(jù)中心的集中運(yùn)維管理,提出鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)方案,重點(diǎn)對運(yùn)維數(shù)據(jù)采集、運(yùn)維監(jiān)控指標(biāo)體系及運(yùn)維數(shù)據(jù)存儲展開研究。

        1 鐵路數(shù)據(jù)中心智能運(yùn)維目標(biāo)

        (1)實(shí)現(xiàn)全路鐵路數(shù)據(jù)中心集中運(yùn)維管理:建立鐵路運(yùn)維管理中心,可采集和匯總異地多鐵路數(shù)據(jù)中心的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過大數(shù)據(jù)處理和智能分析,全面掌控各鐵路數(shù)據(jù)中心整體運(yùn)行狀況,包括網(wǎng)絡(luò)設(shè)備、物理服務(wù)器、存儲設(shè)備、虛擬服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫、應(yīng)用系統(tǒng)等運(yùn)行狀況。

        (2)統(tǒng)一鐵路數(shù)據(jù)中心運(yùn)維管理服務(wù)水平:規(guī)范各類監(jiān)控對象的監(jiān)控數(shù)據(jù)采集,建立標(biāo)準(zhǔn)的運(yùn)維管理指標(biāo)體系,以統(tǒng)一各鐵路數(shù)據(jù)中心運(yùn)維管理服務(wù)水平。

        (3)提高鐵路數(shù)據(jù)中心運(yùn)維效率:通過海量運(yùn)維數(shù)據(jù)有效采集、存儲、自動處理和智能分析,提供異常檢測、故障分析、運(yùn)維輔助決策等運(yùn)維應(yīng)用,支持階梯式運(yùn)維團(tuán)隊協(xié)同工作,確保鐵路數(shù)據(jù)中心安全穩(wěn)定運(yùn)行和資源配置持續(xù)優(yōu)化。

        2 鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)方案

        2.1 總體架構(gòu)

        構(gòu)建鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng),實(shí)現(xiàn)對多個異地鐵路數(shù)據(jù)中心的統(tǒng)一運(yùn)維管理,兼容跨區(qū)域復(fù)雜網(wǎng)絡(luò),從各鐵路數(shù)據(jù)中心采集各類監(jiān)控對象的運(yùn)維數(shù)據(jù),并匯集到運(yùn)維管理中心。

        鐵路數(shù)據(jù)中心運(yùn)維管理系統(tǒng)包括數(shù)據(jù)采集層、數(shù)據(jù)存儲層和業(yè)務(wù)服務(wù)層,總體架構(gòu)如圖1 所示。

        圖1 鐵路數(shù)據(jù)中心運(yùn)維管理系統(tǒng)總體架構(gòu)示意

        (1)監(jiān)控對象層:涉及各鐵路數(shù)據(jù)中心的各類監(jiān)控對象實(shí)體,包括供電、空調(diào)、溫濕度傳感器、UPS 等基礎(chǔ)環(huán)境設(shè)施,PC 服務(wù)器、存儲、以及路由器、交換機(jī)等IT 硬件設(shè)備,云平臺服務(wù)、虛擬機(jī)、操作系統(tǒng)、數(shù)據(jù)庫、中間件等系統(tǒng)軟件,以及各業(yè)務(wù)應(yīng)用系統(tǒng)等。

        (2)數(shù)據(jù)采集層:包括代理和采集控制平臺;代理從鐵路數(shù)據(jù)中心收集各類監(jiān)控對象的運(yùn)行狀態(tài)數(shù)據(jù)(即原始的運(yùn)維監(jiān)控數(shù)據(jù)),按照統(tǒng)一口徑進(jìn)行統(tǒng)計分析,生成運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù),與原始的運(yùn)維監(jiān)控數(shù)據(jù)一起上傳給采集控制平臺;采集控制平臺負(fù)責(zé)接收代理上傳的數(shù)據(jù),同時對代理進(jìn)行調(diào)度管理。

        (3)數(shù)據(jù)存儲層:存儲從監(jiān)控對象采集得到的原始運(yùn)維數(shù)據(jù),以及經(jīng)分析處理后的運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù)。

        (4)業(yè)務(wù)服務(wù)層:完成運(yùn)維指標(biāo)數(shù)據(jù)的關(guān)聯(lián)分析和智能分析,為運(yùn)維管理中心階梯式運(yùn)維團(tuán)隊(包括運(yùn)維管理人員及一線、二線、三線的運(yùn)維人員)提供運(yùn)維數(shù)據(jù)可視化展示、統(tǒng)計報表、自動告警通知,為異常檢測、故障分析、運(yùn)維輔助決策等運(yùn)維業(yè)務(wù)提供強(qiáng)有力支持,建立起7x24 h 的應(yīng)急響應(yīng)機(jī)制。

        2.2 數(shù)據(jù)采集層

        數(shù)據(jù)采集層主要由部署在鐵路數(shù)據(jù)中心一側(cè)的代理和運(yùn)維管理中心一側(cè)的采集控制平臺構(gòu)成。

        (1)代理是部署在各個鐵路數(shù)據(jù)中心不同網(wǎng)絡(luò)區(qū)域內(nèi)的各類專用程序,可采用拉和推2 種的工作模式,收集各類監(jiān)控對象的運(yùn)維數(shù)據(jù)。代理程序還會對運(yùn)維數(shù)據(jù)進(jìn)行預(yù)處理[3],剔除重復(fù)數(shù)據(jù)、空值數(shù)據(jù)和異常數(shù)據(jù)等,然后按照統(tǒng)一口徑進(jìn)行統(tǒng)計分析,生成運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù),將原始的運(yùn)維數(shù)據(jù)與監(jiān)控指標(biāo)數(shù)據(jù)一起上傳至采集控制平臺。

        (2)采集控制平臺是鐵路數(shù)據(jù)中心運(yùn)維管理系統(tǒng)的核心,負(fù)責(zé)接收代理上傳的數(shù)據(jù),并對代理進(jìn)行調(diào)度管理,控制代理采集和上報數(shù)據(jù)的周期;設(shè)置有插件庫,可按需向代理下發(fā)插件,完成代理程序的升級更新。采集控制平臺主要由數(shù)據(jù)服務(wù)網(wǎng)關(guān)、數(shù)據(jù)緩存隊列和大數(shù)據(jù)處理組件3 個組件來完成。

        數(shù)據(jù)服務(wù)網(wǎng)關(guān)由LVS+Keepalive+Nginx 組成;其中,LVS 負(fù)責(zé)接入代理數(shù)據(jù)流,可提供4 層高效負(fù)載均衡;Keepalive 保障LVS 具有高可用性,避免LVS 出現(xiàn)單點(diǎn)故障;Nginx 負(fù)責(zé)將數(shù)據(jù)均衡傳輸至數(shù)據(jù)緩存隊列,可支持7 層應(yīng)用數(shù)據(jù)傳輸負(fù)載均衡。

        數(shù)據(jù)緩存隊列采用Kafka 實(shí)現(xiàn),將接收的運(yùn)維監(jiān)控數(shù)據(jù)緩存起來,并通知采集控制平臺盡快將其存入數(shù)據(jù)庫。Kafka 是一個分布式、多分區(qū)、多訂閱者模式的日志和消息系統(tǒng),支持冗余備份,具有處理速度快、高吞吐、支持分布式部署等特點(diǎn)。

        大數(shù)據(jù)處理組件Spark 用于海量運(yùn)維監(jiān)控數(shù)據(jù)的大數(shù)據(jù)處理。通過流式計算,采用ETL 技術(shù)對運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù)進(jìn)行清理、過濾、轉(zhuǎn)換定義,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、規(guī)范化。Spark 可以采用圖形化和表格的形式進(jìn)行快捷配置,對運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù)進(jìn)行解析、提取、清洗、替換、分類、加注標(biāo)簽、添加信息項、歸并等處理,并將海量運(yùn)維數(shù)據(jù)快速存入數(shù)據(jù)庫中。

        2.3 數(shù)據(jù)存儲層

        在云計算環(huán)境下,鐵路數(shù)據(jù)中心每年會產(chǎn)生高達(dá)數(shù)以百TB 的運(yùn)維數(shù)據(jù),傳統(tǒng)關(guān)系型數(shù)據(jù)庫難以滿足其存儲要求。運(yùn)維監(jiān)控數(shù)據(jù)存儲需要考慮海量數(shù)據(jù)的寫入性能[4]、查詢效率、按時聚合等數(shù)據(jù)處理要求[5];此外,鑒于不同類型監(jiān)控對象間關(guān)聯(lián)關(guān)系是數(shù)據(jù)分析的關(guān)鍵[6],數(shù)據(jù)存儲還應(yīng)為關(guān)聯(lián)分析提供高效的數(shù)據(jù)訪問支持。

        數(shù)據(jù)存儲層使用ElasticSearch、 MongoDB、MySQL、Redis 等多種類型的數(shù)據(jù)庫,滿足異構(gòu)的海量原始運(yùn)維數(shù)據(jù)的不同存儲要求;采用集群部署方式,滿足數(shù)據(jù)量快速增加時橫向擴(kuò)容的需求。

        2.4 業(yè)務(wù)服務(wù)層

        提供統(tǒng)一運(yùn)維門戶,采用微服務(wù)技術(shù)架構(gòu),實(shí)現(xiàn)數(shù)據(jù)分析、報表和可視化功能模塊的組件化和服務(wù)化,每個服務(wù)可獨(dú)立開發(fā)、部署和發(fā)布,具有較好的可擴(kuò)展性,便于系統(tǒng)維護(hù)與升級。

        3 運(yùn)維數(shù)據(jù)采集需求及運(yùn)維管理指標(biāo)體系

        3.1 鐵路數(shù)據(jù)中心運(yùn)維數(shù)據(jù)采集需求

        在云計算架構(gòu)下,鐵路數(shù)據(jù)中心的資源種類更多,運(yùn)維監(jiān)控對象構(gòu)成更為復(fù)雜。鐵路數(shù)據(jù)中心運(yùn)維監(jiān)控對象可劃分為基礎(chǔ)環(huán)境設(shè)施、IT 硬件設(shè)備、系統(tǒng)軟件、業(yè)務(wù)應(yīng)用系統(tǒng)4 大類?;A(chǔ)環(huán)境設(shè)施包括供電、空調(diào)、UPS 等;IT 硬件設(shè)備包括PC 服務(wù)器、存儲、以及路由器、交換機(jī)、防火墻等;系統(tǒng)軟件包括云平臺服務(wù)、操作系統(tǒng)、數(shù)據(jù)庫、中間件、虛擬服務(wù)器等;業(yè)務(wù)應(yīng)用系統(tǒng)是部署在鐵路數(shù)據(jù)中心的各類鐵路信息系統(tǒng)。

        為此,需要采集的鐵路數(shù)據(jù)中心運(yùn)維數(shù)據(jù)主要包括以下4 類:

        (1)基礎(chǔ)環(huán)境設(shè)施數(shù)據(jù):包括機(jī)房溫度、濕度、供電、紅外等機(jī)房動環(huán)數(shù)據(jù)。

        (2)IT 硬件設(shè)備數(shù)據(jù):支撐整個業(yè)務(wù)、應(yīng)用系統(tǒng)的基礎(chǔ)設(shè)施運(yùn)行環(huán)境產(chǎn)生的數(shù)據(jù),包含對服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備的運(yùn)行日志數(shù)據(jù),指示燈報警數(shù)據(jù)等。

        (3)系統(tǒng)軟件數(shù)據(jù):包括操作系統(tǒng)、中間件、數(shù)據(jù)庫、大數(shù)據(jù)組件的運(yùn)行狀態(tài)數(shù)據(jù),系統(tǒng)軟件日志數(shù)據(jù)。

        (4)業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù):包括應(yīng)用系統(tǒng)的整體性能指標(biāo),系統(tǒng)運(yùn)行狀態(tài)、響應(yīng)時間、系統(tǒng)運(yùn)行日志等;還包括應(yīng)用系統(tǒng)中各個具體業(yè)務(wù)應(yīng)用的性能指標(biāo),如當(dāng)前請求的響應(yīng)時間、請求量、運(yùn)行狀態(tài)等。

        這些數(shù)據(jù)能夠表征鐵路數(shù)據(jù)中心的整體運(yùn)行狀況,運(yùn)維人員可利用這些數(shù)據(jù),了解系統(tǒng)運(yùn)行健康狀態(tài)和資源占用情況,分析和判斷業(yè)務(wù)應(yīng)用系統(tǒng)是否需要擴(kuò)容或縮容。

        3.2 運(yùn)維數(shù)據(jù)分類

        數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)應(yīng)能對每一種監(jiān)控對象采集動作抽象,實(shí)現(xiàn)基礎(chǔ)環(huán)境設(shè)施、IT 硬件設(shè)備、系統(tǒng)軟件、業(yè)務(wù)應(yīng)用系統(tǒng)的統(tǒng)一管理。運(yùn)維指標(biāo)數(shù)據(jù)可分為4 類:配置數(shù)據(jù)、監(jiān)測數(shù)據(jù)、日志數(shù)據(jù)和事件數(shù)據(jù)。

        (1)配置數(shù)據(jù):描述資源對象的配置屬性,包含資源對象本身的屬性,以及資源對象間關(guān)聯(lián)關(guān)系,這類數(shù)據(jù)僅在資源對象的屬性或資源對象間關(guān)聯(lián)關(guān)系發(fā)生變更時才有變化。

        (2)監(jiān)控數(shù)據(jù):主要是各類資源對象運(yùn)行過程中產(chǎn)生時序指標(biāo)數(shù)據(jù),隨著時間積累很快,例如:CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)狀態(tài)、流量、響應(yīng)時間等,主要用于反映業(yè)務(wù)和系統(tǒng)的運(yùn)行情況及狀態(tài);這類指標(biāo)數(shù)據(jù)必須采用相同的統(tǒng)計口徑,具有可比性。

        (3)日志數(shù)據(jù):日志數(shù)據(jù)一般是文本類型數(shù)據(jù),主要包括資源對象的運(yùn)行日志和業(yè)務(wù)應(yīng)用的運(yùn)行日志;可通過關(guān)鍵字或正則匹配,在日志數(shù)據(jù)中發(fā)現(xiàn)關(guān)鍵信息。

        (4)事件數(shù)據(jù):是運(yùn)維過程中,由監(jiān)控數(shù)據(jù)或日志數(shù)據(jù)產(chǎn)生的一類特殊數(shù)據(jù),用來記錄發(fā)生的特定事件的相關(guān)信息,例如報警、異常、上線變更、任務(wù)調(diào)度等事件;事件分為一般事件和告警事件。

        其中,監(jiān)控數(shù)據(jù)量最大,主要記錄每時每刻主機(jī)、業(yè)務(wù)服務(wù)請求的性能指標(biāo),這類指標(biāo)的樣本抽樣數(shù)據(jù)的采集需要做到秒級。日志數(shù)據(jù)占用的存儲空間最多。事件數(shù)據(jù)主要是各類業(yè)務(wù)應(yīng)用系統(tǒng)推送給監(jiān)控系統(tǒng)的郵件,數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM,Data Center Infrastructure Management)系統(tǒng)監(jiān)測的溫濕度、報警指示燈等消息事件等,這類數(shù)據(jù)需要由監(jiān)控系統(tǒng)進(jìn)行分析,并生成標(biāo)準(zhǔn)事件格式;告警是一種特殊的事件,告警數(shù)據(jù)包括監(jiān)控系統(tǒng)生成的告警信息,以及來自于業(yè)務(wù)應(yīng)用系統(tǒng)的告警信息。

        3.3 鐵路數(shù)據(jù)中心運(yùn)維管理指標(biāo)體系

        基于上述運(yùn)維數(shù)據(jù),構(gòu)建鐵路數(shù)據(jù)中心運(yùn)維管理指標(biāo)體系,如表1 所示。

        表1 鐵路數(shù)據(jù)中心運(yùn)維管理指標(biāo)體系

        各指標(biāo)數(shù)據(jù)項由指標(biāo)元數(shù)據(jù)定義,如表2 所示。

        表2 鐵路數(shù)據(jù)中心運(yùn)維指標(biāo)元數(shù)據(jù)定義

        鐵路數(shù)據(jù)中心資源種類繁多,需要根據(jù)不同種類資源定義其配置數(shù)據(jù)的數(shù)據(jù)模型,且配置數(shù)據(jù)的數(shù)據(jù)模型還會因資源屬性變更而發(fā)生變化。而監(jiān)控數(shù)據(jù)、日志數(shù)據(jù)、事件數(shù)據(jù)這3 類運(yùn)維指標(biāo)數(shù)據(jù),則可以定義相對固定的數(shù)據(jù)模型。表3 描述5 種數(shù)據(jù)模型:配置模型、指標(biāo)模型、日志模型、事件模型、告警模型。

        表3 運(yùn)維指標(biāo)數(shù)據(jù)的數(shù)據(jù)模型(數(shù)據(jù)定義)

        4 運(yùn)維監(jiān)控數(shù)據(jù)采集與存儲

        4.1 運(yùn)維監(jiān)控數(shù)據(jù)采集

        在云計算和異地多數(shù)據(jù)中心的架構(gòu)下,運(yùn)維監(jiān)控對象種類及數(shù)量急劇增加,涉及硬件層、云平臺服務(wù)層及應(yīng)用系統(tǒng)層,運(yùn)維數(shù)據(jù)采集方式存在諸多不同。針對不同類別監(jiān)控對象,可靈活采用多種數(shù)據(jù)采集方式。

        (1)基礎(chǔ)環(huán)境設(shè)施:對于機(jī)房空調(diào)、供水、供電、防火設(shè)備等設(shè)備設(shè)施,通過巡檢機(jī)器人[7]獲得動環(huán)報警器、設(shè)備指示燈的聲光電告警事件信息,通過嵌入式傳感器(如溫濕度傳感器)等獲取環(huán)境信息。

        (2)IT 硬件設(shè)備:對于云平臺的主控節(jié)點(diǎn)、計算節(jié)點(diǎn)、網(wǎng)絡(luò)節(jié)點(diǎn)等物理服務(wù)器和存儲設(shè)備,一般通過IPMI 協(xié)議獲取機(jī)柜、機(jī)箱或服務(wù)器的報警事件數(shù)據(jù),通過巡檢機(jī)器人檢查硬件報警指示燈信息,通過SNMP 協(xié)議主動獲得網(wǎng)絡(luò)設(shè)備性能指標(biāo)數(shù)據(jù);對于支持RESTful 協(xié)議的IT 硬件設(shè)備,可通過RESTful 主動采集其CPU、內(nèi)存等性能數(shù)據(jù)。

        (3)系統(tǒng)軟件:對于操作系統(tǒng)以及在其上運(yùn)行的KVM、Libvirt、QEMU 等基礎(chǔ)系統(tǒng)軟件,通常通過遠(yuǎn)程連接(RPC)獲取性能指標(biāo)和運(yùn)行日志;對于Keystone、Nova、Glance 等云服務(wù),通過RESTful的方式獲得其監(jiān)控數(shù)據(jù);對于虛擬機(jī),可通過內(nèi)部虛擬機(jī)守護(hù)代理(QGA,QEMU Guest Agent)程序獲得其性能指標(biāo)和日志數(shù)據(jù)。

        (4)業(yè)務(wù)應(yīng)用系統(tǒng):可通過Syslog 獲得業(yè)務(wù)應(yīng)用系統(tǒng)的運(yùn)行日志,通過HTTP/HTTPS 協(xié)議獲得其服務(wù)響應(yīng)狀態(tài)和響應(yīng)時間等性能指標(biāo)。

        代理程序通過本機(jī)或遠(yuǎn)程等方式執(zhí)行運(yùn)維數(shù)據(jù)采集任務(wù),并可采用分布式級聯(lián)的形式,對數(shù)據(jù)逐級匯聚后傳輸至采集控制平臺。針對不同的監(jiān)控對象,代理程序定制了不同的采控插件,擁有面向監(jiān)控對象的采控能力服務(wù)化封裝,以腳本或插件方式按需擴(kuò)展,實(shí)現(xiàn)大規(guī)模節(jié)點(diǎn)數(shù)據(jù)采集任務(wù)秒級調(diào)度,以及跨數(shù)據(jù)中心、多網(wǎng)絡(luò)環(huán)境下運(yùn)維數(shù)據(jù)采集的統(tǒng)一控制。

        4.2 運(yùn)維監(jiān)控數(shù)據(jù)存儲

        所采集的運(yùn)維監(jiān)控數(shù)據(jù)經(jīng)過預(yù)處理后,先寫入消息隊列中,采集控制平臺調(diào)度流式任務(wù),從消息隊列件里讀取數(shù)據(jù),根據(jù)數(shù)據(jù)的用途和訪問頻次進(jìn)行分類存儲[8]。根據(jù)重要程度/時間等要素,對運(yùn)維監(jiān)控數(shù)據(jù)進(jìn)行分類,不同類別數(shù)據(jù)采用不同的數(shù)據(jù)生命周期管理策略,實(shí)現(xiàn)數(shù)據(jù)的快速查詢匯聚,滿足多種數(shù)據(jù)使用需求。

        4.2.1 即時訪問的熱數(shù)據(jù)

        對于時序指標(biāo)數(shù)據(jù)、告警數(shù)據(jù)等查詢類數(shù)據(jù),可采用 ElasticSearch 進(jìn)行存儲;ElasticSearch 具有列數(shù)據(jù)庫的水平擴(kuò)展能力,支持吞吐量線性擴(kuò)展,特別適用于保存與時間有關(guān)的指標(biāo)數(shù)據(jù)。

        另外,在指標(biāo)閾值分析和儀表盤操作時,均需要高頻訪問最近24 h 的熱數(shù)據(jù)。使用Redis 內(nèi)存數(shù)據(jù)庫,將這類熱數(shù)據(jù)存儲在內(nèi)存,在出現(xiàn)高并發(fā)請求時,能大幅度減少磁盤IO,提高數(shù)據(jù)處理響應(yīng)速度,保證高效的數(shù)據(jù)查詢檢索和分析處理。

        4.2.2 無需即時訪問的溫數(shù)據(jù)

        資源配置數(shù)據(jù)和資源對象間關(guān)聯(lián)關(guān)系數(shù)據(jù)一般不需要即時訪問,但也會經(jīng)常被使用到,對于這類溫數(shù)據(jù)可以使用關(guān)系型數(shù)據(jù)庫進(jìn)行存儲。

        關(guān)系型數(shù)據(jù)庫能夠保證數(shù)據(jù)強(qiáng)一致性,適用于存儲系統(tǒng)配置信息、功能策略、管理參數(shù)、管理任務(wù)等數(shù)據(jù)量不大的關(guān)鍵數(shù)據(jù),并且還可采用反范式設(shè)計來平衡數(shù)據(jù)庫存取效率和事務(wù)完整性。

        資源對象間關(guān)聯(lián)關(guān)系數(shù)據(jù)涉及到的大量資源實(shí)體之間錯綜復(fù)雜的關(guān)系,可采用關(guān)系型數(shù)據(jù)庫MySQL 進(jìn)行存儲。MySQL 提供圖形數(shù)據(jù)存儲模式,能非常自然地映射資源間關(guān)系,可支持圖形數(shù)據(jù)高效檢索和拓?fù)潢P(guān)系分析。此外,MySQL 也具備事務(wù)一致性和一定水平擴(kuò)展能力,也適于應(yīng)用在資源配置數(shù)據(jù)分析方面。

        4.2.3 長期存檔的冷數(shù)據(jù)

        對于配置管理信息、運(yùn)維日志等使用頻次較低,但又需要長期存儲的冷數(shù)據(jù),采用文檔型數(shù)據(jù)庫MongoDB[9]進(jìn)行存儲。

        MongoDB 在海量數(shù)據(jù)存儲方面具備明顯優(yōu)勢[10],存儲模式靈活自由,檢索能力強(qiáng),讀寫性能均衡,可支持主備、分片式集群,在性能和擴(kuò)展能力也超過關(guān)系型SQL 數(shù)據(jù)庫。

        5 典型應(yīng)用場景

        目前,主要面向異常檢測、故障分析、運(yùn)維輔助決策3 類運(yùn)維業(yè)務(wù),進(jìn)行了初步應(yīng)用開發(fā)。

        5.1 異常檢測

        為實(shí)現(xiàn)精準(zhǔn)的監(jiān)控指標(biāo)異常檢測,除了常規(guī)的靜態(tài)閾值檢測外,還使用動態(tài)閾值、周期性分析等技術(shù)。相比傳統(tǒng)的靜態(tài)閾值檢測,動態(tài)閾值考慮了監(jiān)控數(shù)據(jù)的周期性變化、歷史趨勢變化以及波動幅度變化規(guī)律,通過對此對象的監(jiān)控數(shù)據(jù)走勢進(jìn)行數(shù)字建模,可計算得到監(jiān)控值在將來一段時間里的合理范圍。

        動態(tài)閾值技術(shù)主要有線性回歸、時間序列分解、長短期記憶網(wǎng)絡(luò)網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)。時間序列分解的計算速度最快,LSTM具有理論上最優(yōu)分析精度,線性回歸處于中間水平??紤]到數(shù)據(jù)中心監(jiān)控指標(biāo)異常檢測計算量極大,采用時間序列分解進(jìn)行動態(tài)閾值預(yù)測,效果如圖2 所示。

        圖2 基于動態(tài)閾值的異常檢測效果圖示例

        5.2 故障分析

        當(dāng)鐵路數(shù)據(jù)中心出現(xiàn)故障時,若故障排查完全由運(yùn)維人員的分析判斷,運(yùn)維人員需要登錄多臺設(shè)備,逐一檢查監(jiān)控對象的各項指標(biāo),依據(jù)經(jīng)驗(yàn)判斷故障,故障排查過程耗時費(fèi)力。

        為此,匯總歷史異常數(shù)據(jù),挖掘和分析與各類問題現(xiàn)象相關(guān)的運(yùn)維監(jiān)控數(shù)據(jù)項,確定相關(guān)性較高的數(shù)據(jù)項范圍,以此確定故障排查頁面所需要展示的數(shù)據(jù)項。通過對大量運(yùn)維監(jiān)控數(shù)據(jù)的關(guān)聯(lián)分析,故障分析功能可為運(yùn)維人員提供與故障診斷相關(guān)的重點(diǎn)關(guān)注數(shù)據(jù),并可自動分析可能的故障原因[11],便于運(yùn)維人員確定問題類型,快速定位問題,幫助其提高工作效率。圖3 為單機(jī)故障排查頁面,集中顯示CPU、內(nèi)存、磁盤等資源的消耗變化情況、設(shè)備近期工作強(qiáng)度變化情況、以及對應(yīng)集群和存儲等硬件環(huán)境的工作狀況。依據(jù)該頁面提供的綜合信息,運(yùn)維人員可快速判斷故障產(chǎn)生的位置和時間范圍,無需逐一查看各項指標(biāo)。

        圖3 單機(jī)故障排查頁面

        5.3 運(yùn)維輔助決策

        通過統(tǒng)計和預(yù)測各個鐵路數(shù)據(jù)中心資源的使用情況,為運(yùn)維人員提供資源負(fù)載清單,并對資源消耗情況進(jìn)行預(yù)測,便于運(yùn)維人員全面掌握每個鐵路數(shù)據(jù)中心各類資源的使用狀況(閑置、高負(fù)荷、使用率等)和趨勢,及時制定性能調(diào)優(yōu)方案,進(jìn)行合理調(diào)度管理;并根據(jù)各類資源的預(yù)計耗盡時間,提前進(jìn)行資源擴(kuò)容準(zhǔn)備,避免因資源耗盡而宕機(jī)的風(fēng)險。對于鐵路數(shù)據(jù)中心資源消耗預(yù)測,也可使用時間序列預(yù)測方法,對未來資源耗盡的時間進(jìn)行預(yù)測,如圖4 所示。

        圖4 運(yùn)維輔助決策支持應(yīng)用示例

        6 結(jié)束語

        結(jié)合鐵路數(shù)據(jù)中心云化趨勢和多地多中心發(fā)展要求,本文提出鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)方案。鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)劃分為監(jiān)控對象層、數(shù)據(jù)采集層、數(shù)據(jù)存儲層和業(yè)務(wù)服務(wù)層,兼容跨區(qū)域復(fù)雜網(wǎng)絡(luò)環(huán)境,從各個鐵路數(shù)據(jù)中心采集運(yùn)維數(shù)據(jù),匯集到運(yùn)維管理中心,實(shí)現(xiàn)對異地多數(shù)據(jù)中心的統(tǒng)一運(yùn)維管理。在全面分析鐵路數(shù)據(jù)中心運(yùn)維數(shù)據(jù)采集需求的基礎(chǔ)上,建立鐵路數(shù)據(jù)中心運(yùn)維管理指標(biāo)體系,深入探討運(yùn)維監(jiān)控數(shù)據(jù)采集與存儲技術(shù),為鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)的開發(fā)奠定了基礎(chǔ);此外,還初步開發(fā)了異常檢測、故障分析、運(yùn)維輔助決策典型運(yùn)維業(yè)務(wù)應(yīng)用。

        在實(shí)現(xiàn)鐵路數(shù)據(jù)中心運(yùn)維監(jiān)控數(shù)據(jù)采集與存儲的基礎(chǔ)上,下一步將聚焦于智能分析算法模型的研究,并基于此推進(jìn)運(yùn)維業(yè)務(wù)應(yīng)用的迭代開發(fā),提升鐵路數(shù)據(jù)中心運(yùn)維業(yè)務(wù)的自動化、智能化水平,促進(jìn)鐵路數(shù)據(jù)中心運(yùn)維業(yè)務(wù)模式創(chuàng)新,為形成彈性分配資源的技術(shù)與服務(wù)管理體系提供強(qiáng)有力支持。

        猜你喜歡
        數(shù)據(jù)中心運(yùn)維鐵路
        酒泉云計算大數(shù)據(jù)中心
        沿著中老鐵路一路向南
        云南畫報(2021年12期)2021-03-08 00:50:54
        運(yùn)維技術(shù)研發(fā)決策中ITSS運(yùn)維成熟度模型應(yīng)用初探
        風(fēng)電運(yùn)維困局
        能源(2018年8期)2018-09-21 07:57:24
        鐵路通信線路維護(hù)體制改革探索與實(shí)踐
        民航綠色云數(shù)據(jù)中心PUE控制
        電子測試(2018年11期)2018-06-26 05:56:24
        雜亂無章的光伏運(yùn)維 百億市場如何成長
        能源(2017年11期)2017-12-13 08:12:25
        基于ITIL的運(yùn)維管理創(chuàng)新實(shí)踐淺析
        無人機(jī)在鐵路工程建設(shè)中的應(yīng)用與思考
        GSM-R在鐵路通信中的應(yīng)用
        白嫩丰满少妇av一区二区| 99久久99久久久精品久久| 国产精品毛片99久久久久| 精品国产女主播一区在线观看| 久久青青草原国产毛片| 国内精品卡一卡二卡三| jizz国产精品免费麻豆| 亚洲中文字幕精品一区二区| 日本妇女高清一区二区三区| 中文有码无码人妻在线| 亚洲av日韩专区在线观看| 国产午夜精品一区二区三区不| 亚洲无人区乱码中文字幕| 色翁荡熄又大又硬又粗又动态图| 国产乱xxⅹxx国语对白| 亚洲国产cao| 成人影院羞羞的视频免费观看| 国产高清在线观看av片| 日韩人妻无码一区二区三区久久99 | 国产精品自产拍在线观看免费 | 四虎影视成人永久免费观看视频| 日韩精品大片在线观看| 亚洲av成人一区二区三区色| 女同同志熟女人妻二区| 国产莉萝无码av在线播放| 亚洲阿v天堂网2021| 日本一区二区在线播放| 99在线精品免费视频| 久久久久亚洲av无码a片软件 | 亚洲天堂成人av在线观看| 亚洲精品一区二区| 国产伦精品一区二区三区四区| av网址在线一区二区| 国内少妇毛片视频| 亚洲国产av一区二区三区四区| 亚洲av午夜福利精品一区二区| 国产在线一区二区三区四区不卡| 久久久日韩精品一区二区三区| 久久中文字幕日韩精品| 精品福利一区二区三区| 97人伦色伦成人免费视频|