亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時(shí)序數(shù)據(jù)的云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維體系

        2022-12-08 07:45:28程瑞營張攀肖雨喬宇杰張安奕
        電信科學(xué) 2022年11期
        關(guān)鍵詞:云網(wǎng)日志運(yùn)維

        程瑞營,張攀,肖雨,喬宇杰,張安奕

        基于時(shí)序數(shù)據(jù)的云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維體系

        程瑞營1,張攀1,肖雨1,喬宇杰1,張安奕2

        (1.國家電網(wǎng)有限公司信息通信分公司,北京 100761;2.北京郵電大學(xué),北京 100876)

        云計(jì)算在企業(yè)應(yīng)用中的拓展不但表現(xiàn)為平臺(tái)規(guī)模的拓展,也表現(xiàn)為平臺(tái)應(yīng)用的延伸?!霸凭W(wǎng)協(xié)同”和“微服務(wù)化”是當(dāng)前企業(yè)云平臺(tái)演進(jìn)的重要趨勢(shì)。隨著企業(yè)信息化建設(shè)重要性的持續(xù)提升,微服務(wù)化云網(wǎng)協(xié)同平臺(tái)的運(yùn)行維護(hù)面臨極大挑戰(zhàn)。首先分析了平臺(tái)運(yùn)維面臨的挑戰(zhàn),梳理了平臺(tái)人工智能運(yùn)維需求,提出了基于時(shí)序數(shù)據(jù)分析的平臺(tái)人工智能運(yùn)維技術(shù)體系,并給出了云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維子系統(tǒng)參考設(shè)計(jì)。所提技術(shù)體系和系統(tǒng)設(shè)計(jì)具有實(shí)用性和推廣性,可以作為企業(yè)云平臺(tái)建設(shè)和優(yōu)化的技術(shù)途徑參考。

        云平臺(tái);云網(wǎng)協(xié)同;微服務(wù);時(shí)序數(shù)據(jù);人工智能運(yùn)維

        0 引言

        隨著云計(jì)算技術(shù)的發(fā)展和應(yīng)用,云計(jì)算在企業(yè)中的應(yīng)用中不但表現(xiàn)為平臺(tái)規(guī)模的拓展,也表現(xiàn)為平臺(tái)應(yīng)用的延伸。其中,“云平臺(tái)規(guī)模的拓展”不但指云平臺(tái)所涉及的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備數(shù)量的增加,而且涉及平臺(tái)部署環(huán)境日益復(fù)雜,從最初的幾個(gè)機(jī)架,到機(jī)房,再到專業(yè)的數(shù)據(jù)中心,甚至可能涉及跨數(shù)據(jù)中心的部署[1]?!霸破脚_(tái)應(yīng)用的延伸”向下指的是云平臺(tái)需要與網(wǎng)絡(luò)以及網(wǎng)絡(luò)邊緣的邊緣設(shè)備和終端協(xié)同提供應(yīng)用,演進(jìn)為“云網(wǎng)協(xié)同”平臺(tái);向上指的是云平臺(tái)承載的應(yīng)用的進(jìn)一步解構(gòu)。“微服務(wù)”(micro-service)是實(shí)現(xiàn)云平臺(tái)應(yīng)用解構(gòu)的重點(diǎn)技術(shù)。通過將傳統(tǒng)的單體應(yīng)用分解為一系列的微服務(wù)組件,可以實(shí)現(xiàn)各個(gè)組件的獨(dú)立升級(jí)和改造,降低應(yīng)用升級(jí)成本;可以通過對(duì)現(xiàn)有組件的不同組合提供更多應(yīng)用,降低應(yīng)用開發(fā)成本[2-3]。

        而隨著企業(yè)數(shù)字化進(jìn)程的持續(xù)推進(jìn),信息化應(yīng)用對(duì)企業(yè)的重要性日益提升。云平臺(tái)作為企業(yè)信息化的底座,保障云平臺(tái)的穩(wěn)定高效運(yùn)行格外重要,這就對(duì)云平臺(tái)的運(yùn)行維護(hù)提出了更高的要求。人工智能運(yùn)維技術(shù)將基于大數(shù)據(jù)和人工智能技術(shù)的數(shù)據(jù)分析能力與系統(tǒng)運(yùn)行維護(hù)需求相結(jié)合,通過分析系統(tǒng)運(yùn)行時(shí)產(chǎn)生的各類時(shí)序數(shù)據(jù),如各類運(yùn)行指標(biāo)和日志可以幫助甚至代替運(yùn)維人員完成各類運(yùn)維操作,從而可以極大地降低運(yùn)維的復(fù)雜度和工作量。本文首先分析了現(xiàn)階段云平臺(tái)運(yùn)行維護(hù)面臨的各項(xiàng)挑戰(zhàn)和人工智能運(yùn)維需求,并提出了云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維體系,對(duì)體系中涉及的各項(xiàng)技術(shù)和相關(guān)研究進(jìn)展進(jìn)行了分析,并進(jìn)一步給出了云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維子系統(tǒng)的參考設(shè)計(jì)。

        1 云網(wǎng)協(xié)同平臺(tái)運(yùn)行維護(hù)面臨的挑戰(zhàn)

        “云網(wǎng)協(xié)同”和“微服務(wù)化”是當(dāng)前企業(yè)信息基礎(chǔ)設(shè)施演進(jìn)的重要趨勢(shì)。隨著企業(yè)信息化建設(shè)重要性的持續(xù)提升,微服務(wù)化云網(wǎng)協(xié)同平臺(tái)的運(yùn)行維護(hù)需要面對(duì)如下挑戰(zhàn)。

        (1)運(yùn)行感知的全域化

        具體表現(xiàn)為運(yùn)行狀態(tài)感知對(duì)象的多源異質(zhì)特征。“多源”指的是為了實(shí)現(xiàn)高效的平臺(tái)運(yùn)維,不僅要感知平臺(tái)應(yīng)用、中間件、微服務(wù)組件,乃至平臺(tái)基礎(chǔ)設(shè)施(服務(wù)器、存儲(chǔ)設(shè)備等)的狀態(tài),還要關(guān)注網(wǎng)絡(luò)側(cè)的網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)連接的狀態(tài)?!爱愘|(zhì)”不僅指平臺(tái)中各組件的狀態(tài)數(shù)據(jù)(既包括key-value類型的指標(biāo)數(shù)據(jù),也包括更接近自然語言的運(yùn)行日志),而且不同來源的運(yùn)行狀態(tài)數(shù)據(jù)質(zhì)量,在時(shí)間粒度、取值精確度、準(zhǔn)確度等方面也有差異。

        (2)狀態(tài)判定的復(fù)雜化

        在傳統(tǒng)的系統(tǒng)運(yùn)維體系中,基于閾值的異常檢測(cè)是發(fā)現(xiàn)系統(tǒng)異常的最常用手段[4]。然而隨著系統(tǒng)架構(gòu)由云平臺(tái)演進(jìn)為云網(wǎng)協(xié)同平臺(tái),由單體化應(yīng)用架構(gòu)演進(jìn)為微服務(wù)化應(yīng)用架構(gòu),這使得系統(tǒng)運(yùn)行狀態(tài)判定變得非常復(fù)雜,很多異常難以采用閾值的方式進(jìn)行檢測(cè)。具體表現(xiàn)為:在不同場(chǎng)景下閾值的取值有較大差異或任何一個(gè)單獨(dú)的參數(shù)都沒有超過閾值,但在出現(xiàn)特定參數(shù)取值的組合時(shí),系統(tǒng)狀態(tài)異常。

        (3)運(yùn)維應(yīng)用的豐富化

        傳統(tǒng)的系統(tǒng)運(yùn)維重點(diǎn)關(guān)注的是將系統(tǒng)運(yùn)行的各項(xiàng)指標(biāo)以直觀的方式呈現(xiàn)給運(yùn)維人員,后繼對(duì)于系統(tǒng)運(yùn)行狀態(tài)的評(píng)估、故障處置等主要由運(yùn)維人員自主完成。人工智能運(yùn)維能力的引入使得系統(tǒng)運(yùn)維應(yīng)用更全面地覆蓋系統(tǒng)狀態(tài)管理的前中后期,包括前期的異常預(yù)測(cè)、中期的異常檢測(cè)和根因分析,以及后期的異常預(yù)防等。其中,前期的異常預(yù)測(cè),主要指通過對(duì)系統(tǒng)狀態(tài)演化過程的監(jiān)測(cè)實(shí)現(xiàn)對(duì)系統(tǒng)未來狀態(tài)的預(yù)測(cè),發(fā)現(xiàn)潛在異常和風(fēng)險(xiǎn),以避免故障發(fā)生或?yàn)樘幚砉收蠣?zhēng)取時(shí)間;中期的異常檢測(cè)和根因分析,主要指及時(shí)準(zhǔn)確地發(fā)現(xiàn)異常以及定位導(dǎo)致異常的根因,實(shí)現(xiàn)更及時(shí)、更有效的故障處置(故障排除、故障緩解、故障隔離等);后期的異常預(yù)防,主要指通過對(duì)異常根因的分析以定位系統(tǒng)的薄弱環(huán)節(jié),并主動(dòng)對(duì)薄弱環(huán)節(jié)進(jìn)行修補(bǔ)和增強(qiáng),從根本上提升系統(tǒng)的可用性。

        近年來,基于時(shí)序數(shù)據(jù)的人工智能運(yùn)維技術(shù)和應(yīng)用得到了長(zhǎng)足的發(fā)展[5-7]。在云網(wǎng)協(xié)同平臺(tái)中集成人工智能運(yùn)維能力將成為解決前述挑戰(zhàn)的重要途徑。

        2 云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維需求分析

        實(shí)現(xiàn)云網(wǎng)協(xié)同平臺(tái)的人工智能運(yùn)維應(yīng)重點(diǎn)滿足如下關(guān)鍵需求。

        (1)全方位數(shù)據(jù)采集

        云網(wǎng)協(xié)同平臺(tái)的運(yùn)行狀態(tài)感知所涉及的數(shù)據(jù)層次復(fù)雜(多源),數(shù)據(jù)類型多樣(多模態(tài)),因此需要在云網(wǎng)協(xié)同平臺(tái)的人工智能運(yùn)維子系統(tǒng)中提供針對(duì)多源多模態(tài)的數(shù)據(jù)采集能力。這里的數(shù)據(jù)采集能力不是簡(jiǎn)單的數(shù)據(jù)獲取,還包括對(duì)原始數(shù)據(jù)的清洗、多源數(shù)據(jù)的時(shí)序?qū)R/歸并以及數(shù)據(jù)聚合等操作。其中“數(shù)據(jù)聚合”主要指將來自分布式組件的時(shí)序數(shù)據(jù)聚合在統(tǒng)一的數(shù)據(jù)處理平臺(tái)中,作為后繼分析的數(shù)據(jù)基礎(chǔ)。

        (2)立體化業(yè)務(wù)建模

        立體化多層級(jí)建模的基礎(chǔ)是多源多模態(tài)數(shù)據(jù)融合,并基于融合后的數(shù)據(jù)提取業(yè)務(wù)對(duì)象的水平鏈接關(guān)系(微服務(wù)與微服務(wù)間的調(diào)用關(guān)系)和垂直鏈接關(guān)系(業(yè)務(wù)對(duì)象與微服務(wù)間的調(diào)用關(guān)系、微服務(wù)與基礎(chǔ)設(shè)施的部署關(guān)系),從而構(gòu)建立體的業(yè)務(wù)拓?fù)淠P汀T凭W(wǎng)協(xié)同平臺(tái)業(yè)務(wù)建模涉及業(yè)務(wù)的淺層指標(biāo)和深層指標(biāo),淺層指標(biāo)指的是可以直接通過運(yùn)行監(jiān)控系統(tǒng)采集到的系統(tǒng)性能指標(biāo),含義更明確,但對(duì)復(fù)雜業(yè)務(wù)狀態(tài)的呈現(xiàn)能力不足;而深層指標(biāo)指的是基于機(jī)器學(xué)習(xí)等技術(shù)得出的對(duì)業(yè)務(wù)運(yùn)行狀態(tài)的評(píng)估指標(biāo),能更全面地反映業(yè)務(wù)狀態(tài),但可解釋性相對(duì)較差。

        (3)異常檢測(cè)/預(yù)測(cè)

        基于機(jī)器學(xué)習(xí)的異常檢測(cè)/預(yù)測(cè)能力是人工智能運(yùn)維技術(shù)的核心優(yōu)勢(shì),主要表現(xiàn)在基于機(jī)器學(xué)習(xí)的方法可以更好地滿足技術(shù)架構(gòu)復(fù)雜和組件關(guān)聯(lián)關(guān)系復(fù)雜的應(yīng)用場(chǎng)景中的運(yùn)維需求。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的異常檢測(cè)模型效能與參與訓(xùn)練的異常樣本數(shù)量和質(zhì)量有很大關(guān)系,然而IT系統(tǒng)中存在系統(tǒng)狀態(tài)(穩(wěn)態(tài))持續(xù)變化導(dǎo)致難以獲取和積累大量異常樣本的問題。因此,這需要在人工智能運(yùn)維系統(tǒng)中引入有較強(qiáng)適應(yīng)能力的算法和模型,可以隨著系統(tǒng)運(yùn)行持續(xù)更新和演進(jìn),不斷優(yōu)化運(yùn)維應(yīng)用效果。

        3 云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維技術(shù)體系

        針對(duì)上述需求,云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維技術(shù)體系主要涉及:面向日志的特征向量生成技術(shù)、微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣<夹g(shù)、業(yè)務(wù)對(duì)象建模技術(shù)、系統(tǒng)狀態(tài)管理技術(shù)4個(gè)方面,云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維技術(shù)體系如圖1所示。

        在圖1中,來自云網(wǎng)協(xié)同平臺(tái)各層級(jí)組件的時(shí)序運(yùn)行狀態(tài)數(shù)據(jù),主要有兩種類型:性能指標(biāo)和運(yùn)行日志。由于運(yùn)行日志更接近自然語言,無法直接與指標(biāo)類數(shù)據(jù)融合分析,因此需要先采用“面向日志的特征向量生成技術(shù)”生成特征向量,進(jìn)而可以與性能指標(biāo)數(shù)據(jù)進(jìn)行融合分析;微服務(wù)化是云網(wǎng)協(xié)同平臺(tái)的一個(gè)重要技術(shù)特征,平臺(tái)業(yè)務(wù)架構(gòu)從單點(diǎn)變?yōu)橛梢幌盗形⒎?wù)構(gòu)建的拓?fù)浠軜?gòu),需要基于性能指標(biāo)和運(yùn)行日志(生成的特征向量)完成“微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣!?;之后需要結(jié)合運(yùn)行日志的特征向量、微服務(wù)業(yè)務(wù)拓?fù)浜托阅苤笜?biāo)數(shù)據(jù)完成“業(yè)務(wù)對(duì)象建模”,進(jìn)而基于業(yè)務(wù)對(duì)象模型完成“系統(tǒng)狀態(tài)自適應(yīng)管理”,具體包括系統(tǒng)狀態(tài)評(píng)估、異常檢測(cè)/預(yù)測(cè)等。本節(jié)將對(duì)云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維技術(shù)體系涉及的各部分技術(shù)內(nèi)容分別加以介紹,并分析這些技術(shù)的研究進(jìn)展,從而為相關(guān)技術(shù)選型提供指導(dǎo)。

        圖1 云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維技術(shù)體系

        3.1 面向日志的特征向量生成技術(shù)

        面向日志的特征向量生成主要涉及日志模板提取和面向語境的數(shù)據(jù)特征提取。日志模板提取主要指從包含多種變量的、非結(jié)構(gòu)化的日志數(shù)據(jù)中提取能最大限度地保留原始語義的日志模板,過濾無關(guān)參數(shù),準(zhǔn)確傳遞日志信息。目前,此領(lǐng)域已經(jīng)有了一系列研究成果。Drain[8]采用了固定深度的解析樹,以長(zhǎng)度為依據(jù)進(jìn)行模板提取;頻繁模板樹(frequent template tree,F(xiàn)T-Tree)[9]利用擴(kuò)展的前綴樹結(jié)構(gòu),通過獲得頻繁出現(xiàn)單詞的最長(zhǎng)組合來完成模板提取。本文建議采用擴(kuò)展的前綴樹結(jié)構(gòu)完成日志模板提取,并結(jié)合日志相似度分析進(jìn)一步提升模板提取的泛度和信度,主要優(yōu)勢(shì)在于考慮日志的語境信息,同時(shí)注重日志模板的準(zhǔn)確性。面向語境的數(shù)據(jù)特征提取主要指集合日志的語境信息,將字符串形式的日志模板進(jìn)行編碼,轉(zhuǎn)化為可用于異常檢測(cè)模型的數(shù)字特征向量,實(shí)現(xiàn)挖掘日志的深層特征信息。云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維場(chǎng)景中主要涉及業(yè)務(wù)拓?fù)淠P蜕珊蜆I(yè)務(wù)對(duì)象模型生成等兩個(gè)語境,需要分別生成對(duì)應(yīng)的特征向量。目前常用的特征提取方法主要有基于文本詞頻統(tǒng)計(jì)分析的TF-IDF(term frequency inverse document frequency)[10]和基于Skip-gram模型或詞袋模型(bag-of-words)的Word2Vec[11]。其中,TF-IDF的準(zhǔn)確度不夠高,并且缺乏對(duì)單詞位置信息的記錄;Word2vec 雖然通用性強(qiáng),但是無法針對(duì)特定任務(wù)做動(dòng)態(tài)優(yōu)化。針對(duì)上述問題,考慮將日志文本看作特征詞條組成的多維空間,將日志文本特征提取問題轉(zhuǎn)化為日志文本空間的尋優(yōu)問題,遺傳算法作為通用性的優(yōu)化搜索算法,可以通過不斷進(jìn)化得到日志的最優(yōu)特征向量。因此,本文建議采用語境方面優(yōu)化的遺傳算法完成面向語境的數(shù)據(jù)特征提取,其主要優(yōu)勢(shì)在于關(guān)注日志的上下文語境信息,提取日志模板的深層特征。

        3.2 微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣<夹g(shù)

        微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣V饕婕按怪蓖負(fù)浣?、水平拓?fù)浣:突趦烧叩牧Ⅲw拓?fù)浣#酵負(fù)?垂直拓?fù)淙鐖D2所示。垂直拓?fù)浣V饕傅氖轻槍?duì)微服務(wù)架構(gòu)下業(yè)務(wù)層、微服務(wù)層以及基礎(chǔ)設(shè)施層中各實(shí)體部署關(guān)系的拓?fù)浣?。水平拓?fù)浣V饕傅氖轻槍?duì)分布式部署的微服務(wù)間調(diào)用關(guān)系的拓?fù)浣!AⅢw拓?fù)浣V饕傅氖腔诖怪蓖負(fù)浣:退酵負(fù)浣?,?shí)現(xiàn)微服務(wù)架構(gòu)下云業(yè)務(wù)拓?fù)涞娜轿涣Ⅲw化感知。

        微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣R鉀Q的關(guān)鍵問題是如何采集微服務(wù)調(diào)用信息。Google提出了分布式調(diào)用鏈追蹤跟蹤系統(tǒng)Dapper[12],采用侵入式的微服務(wù)拓?fù)涓兄夹g(shù),被其他設(shè)計(jì)調(diào)用鏈系統(tǒng)的公司廣泛使用;Twitter基于Dapper開發(fā)了開源的分布式實(shí)時(shí)數(shù)據(jù)追蹤系統(tǒng)Zipkin[13];Istio是由Google、IBM 與 Lyft 共同開發(fā)的開源服務(wù)網(wǎng)格(service mesh)項(xiàng)目,其可以采用非侵入的方式獲取微服務(wù)調(diào)用信息[14]。Linkerd[15]是由Buoyant推出的開源服務(wù)網(wǎng)格項(xiàng)目,也支持非侵入方式的微服務(wù)調(diào)用信息采集。其中,侵入式的微服務(wù)拓?fù)涓兄夹g(shù)可以直接獲得高可信度的狀態(tài)數(shù)據(jù),但實(shí)施難度大;相比之下,采取非侵入式獲取微服務(wù)調(diào)用信息成為本文針對(duì)微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣8扑]的方法。

        3.3 業(yè)務(wù)對(duì)象建模技術(shù)

        云網(wǎng)協(xié)同平臺(tái)業(yè)務(wù)對(duì)象建模的難點(diǎn)主要在于業(yè)務(wù)對(duì)象運(yùn)行狀態(tài)的多源異質(zhì)特征,既包括微服務(wù)層中各個(gè)微服務(wù)的調(diào)用時(shí)延、處理時(shí)延、調(diào)用成功率等的狀態(tài)信息,也包括基礎(chǔ)設(shè)施層中各實(shí)體的多維度資源(如CPU、內(nèi)存、硬盤I/O、網(wǎng)絡(luò)I/O等)狀態(tài)信息。高質(zhì)量地實(shí)現(xiàn)多源異質(zhì)數(shù)據(jù)融合、完成業(yè)務(wù)對(duì)象建模是后繼各運(yùn)維應(yīng)用的基礎(chǔ)。業(yè)務(wù)對(duì)象建模主要涉及多源數(shù)據(jù)共有/私有信息特征提取、一致性驗(yàn)證以及數(shù)據(jù)融合等環(huán)節(jié)。

        圖2 水平拓?fù)?垂直拓?fù)?/p>

        多源數(shù)據(jù)共有/私有信息特征提取一方面要完成對(duì)來自多個(gè)數(shù)據(jù)源的共有信息的提取和歸并,以避免多源數(shù)據(jù)中共有特征的相互強(qiáng)化對(duì)后繼數(shù)據(jù)分析造成的不良影響,另一方面要完成對(duì)各個(gè)數(shù)據(jù)源的私有特征的提取,保證各數(shù)據(jù)源的私有特征不會(huì)在本環(huán)節(jié)丟失。文獻(xiàn)[16]將獨(dú)立子空間分析(independent subspace analysis,ISA)和多維獨(dú)立成分分析(multidimensional ICA,MICA)擴(kuò)展到多源數(shù)據(jù)場(chǎng)景,在保持特征子空間獨(dú)立性的同時(shí),捕獲高階統(tǒng)計(jì)相關(guān)性,實(shí)現(xiàn)處理不同維度的數(shù)據(jù)。文獻(xiàn)[17]提出了一種基于一維卷積神經(jīng)網(wǎng)絡(luò)(one-dimensional convolution neural network,1D-CNN)聯(lián)合特征提取的設(shè)備健康監(jiān)測(cè)與故障診斷方法,通過將原始信號(hào)并行輸入1D-CNN中提取代表型特征域,并結(jié)合特征域耦合模型完成故障的模式識(shí)別,在保證后繼故障檢測(cè)準(zhǔn)確度的同時(shí),降低了處理時(shí)延。上述方法在一定程度上實(shí)現(xiàn)了多源數(shù)據(jù)共用/私有信息特征的提取,但是無法處理含有多個(gè)隨機(jī)變量的數(shù)據(jù),且在發(fā)現(xiàn)多源多模態(tài)數(shù)據(jù)的互補(bǔ)性、兼顧數(shù)據(jù)的共有特征和私有特征方面有所不足。在此背景下,本文建議采用嵌入多視圖學(xué)習(xí)的多標(biāo)簽學(xué)習(xí)方法解決多源數(shù)據(jù)共有/私有信息特征提取,文獻(xiàn)[18]提出了一種多視圖協(xié)同訓(xùn)練的多標(biāo)簽算法(MLCT),該算法通過在視圖中選擇并傳遞可靠的標(biāo)簽樣本給其他圖實(shí)現(xiàn)分類性能的提升。

        一致性驗(yàn)證主要完成對(duì)多源數(shù)據(jù)特征中“不一致”的特征的沖突檢測(cè)和消解和“一致”的特征的合并和增強(qiáng)。本環(huán)節(jié)中一致特征是指多個(gè)信息源表現(xiàn)出的相似或相關(guān)特征。針對(duì)這種情況則需要強(qiáng)化相關(guān)特征的影響。文獻(xiàn)[19]提出針對(duì)關(guān)聯(lián)數(shù)據(jù)的一致性特征發(fā)現(xiàn)問題進(jìn)行研究,設(shè)計(jì)了一種基于條件包含依賴(conditional inclusion dependencies,CIND)和內(nèi)容相關(guān)條件函數(shù)依賴(content-related conditional functional dependencies,CCFD)的異構(gòu)關(guān)聯(lián)數(shù)據(jù)一致性特征發(fā)現(xiàn)方法;文獻(xiàn)[20]提出基于組回歸算法舍棄重要性較低的數(shù)據(jù)特征,合并相似度較高的特征。本文建議采用基于組回歸的多源數(shù)據(jù)特征一致性驗(yàn)證方法,針對(duì)冗余特征進(jìn)行合并,針對(duì)沖突特征進(jìn)行修剪,在保證多源數(shù)據(jù)特征提取的全面性的同時(shí),實(shí)現(xiàn)特征空間的精簡(jiǎn)。

        數(shù)據(jù)融合主要完成對(duì)多源數(shù)據(jù)中信息的關(guān)聯(lián)、重新定位、完善以及篩選等過程。當(dāng)前數(shù)據(jù)融合方法主要可以分為基于神經(jīng)網(wǎng)絡(luò)的方法和基于邏輯推理的方法。其中,基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合方法對(duì)參與模型訓(xùn)練的數(shù)據(jù)集要求較高,且建模的可解釋性較低。因此,針對(duì)數(shù)據(jù)融合本文建議采用基于邏輯推理的方法。在邏輯推理方法中,Dempster-Shafer(D-S)證據(jù)推理是用于對(duì)不確實(shí)信息做智能處理的典型方法。近年來,針對(duì)D-S理論出現(xiàn)了多種改進(jìn)方法,文獻(xiàn)[21]提出了一種新的對(duì)D-S理論的信度差異測(cè)度,通過考慮質(zhì)量函數(shù)的信度測(cè)度和似然測(cè)度來反映不同類型子集之間的相關(guān)性,利用可信度權(quán)重、信息容量權(quán)重確定信息的綜合權(quán)重,實(shí)現(xiàn)多源數(shù)據(jù)融合。文獻(xiàn)[22]將非負(fù)稀疏約束深度神經(jīng)網(wǎng)絡(luò)(non-negative sparse constrained deep neural network,NSCDNN)和D-S理論結(jié)合,通過非負(fù)約束和稀疏約束對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將改進(jìn)的動(dòng)態(tài)分級(jí)算法與NSCDNN模型的分類置信度和準(zhǔn)確率相結(jié)合,可以有效地處理來自不同傳感器的信息的不確定性,提高故障檢測(cè)準(zhǔn)確性。

        3.4 系統(tǒng)狀態(tài)管理技術(shù)

        系統(tǒng)狀態(tài)管理技術(shù)主要用于支撐各種平臺(tái)運(yùn)維應(yīng)用,涉及針對(duì)平臺(tái)組件、系統(tǒng)和業(yè)務(wù)的狀態(tài)評(píng)估和異常檢測(cè)/預(yù)測(cè)等。

        (組件/系統(tǒng)/業(yè)務(wù))狀態(tài)評(píng)估主要指的是通過直觀的、更容易理解的方式向系統(tǒng)運(yùn)維人員展示相關(guān)對(duì)象的整體運(yùn)行狀態(tài),幫助運(yùn)維人員高效地了解當(dāng)前系統(tǒng)整體狀態(tài)。狀態(tài)評(píng)估方法主要有兩個(gè)類別:一是基于已知規(guī)則的狀態(tài)評(píng)估,二是非基于已知規(guī)則的狀態(tài)評(píng)估?;谝阎?guī)則的狀態(tài)評(píng)估方法主要包括基于系統(tǒng)結(jié)構(gòu)建模分析的層次分析(analytic hierarchy process,AHP)法、基于系統(tǒng)內(nèi)部指標(biāo)的頻譜分析法,或基于專家系統(tǒng)、通過提取狀態(tài)特征并建立規(guī)則集來評(píng)估系統(tǒng)狀態(tài)的方法。這種方法主要存在構(gòu)建描述規(guī)則集成本高和規(guī)則集難以準(zhǔn)確描述狀態(tài)的問題。因此非基于已知規(guī)則的狀態(tài)評(píng)估方法在近年來得到了廣泛關(guān)注和應(yīng)用,也是本文針對(duì)狀態(tài)評(píng)估建議采用的方法。文獻(xiàn)[23]指出了主成分分析(principal component analysis,PCA)法在系統(tǒng)狀態(tài)評(píng)估應(yīng)用中的有效性。文獻(xiàn)[24]將圖模型與最鄰近分類(-nearest neighbor,NN)算法分類相結(jié)合,實(shí)現(xiàn)了無監(jiān)督分析。

        (組件/系統(tǒng)/業(yè)務(wù))異常檢測(cè)/預(yù)測(cè)是指通過對(duì)組件/系統(tǒng)/業(yè)務(wù)的運(yùn)行狀態(tài)中不匹配預(yù)期模式的觀測(cè)值、觀測(cè)值序列、事件的識(shí)別發(fā)現(xiàn)(對(duì)應(yīng)告警)或提前發(fā)現(xiàn)(對(duì)應(yīng)預(yù)警)組件/系統(tǒng)/業(yè)務(wù)的異常,并給出針對(duì)導(dǎo)致異常的根源的判定。異常檢測(cè)是人工智能運(yùn)維領(lǐng)域的研究和應(yīng)用熱點(diǎn),主要可以分為如下幾個(gè)類別。

        ·基于距離的異常檢測(cè):主要是根據(jù)計(jì)算的距離判定是否存在異常點(diǎn)。相關(guān)算法有NN[25]、對(duì)于數(shù)據(jù)流使用滑動(dòng)窗口優(yōu)化的算法[26]和根據(jù)本地信息降低參數(shù)敏感度的異常檢測(cè)算法[27]。

        ·基于密度的異常檢測(cè)算法:主要是指通過尋找所有數(shù)據(jù)點(diǎn)中密度較低的區(qū)域識(shí)別異常點(diǎn),這是最早的異常檢測(cè)方法。其中最經(jīng)典的方法為局部異常因子(local outlier factor,LOF)算法[28]。

        ·基于聚類的異常檢測(cè):主要是將全部數(shù)據(jù)聚類,尋找偏離任何一類的點(diǎn)作為異常點(diǎn)。文獻(xiàn)[29]提供了一種基于聚類模型的方法,通過半自動(dòng)化的方法組合具有相同根因的告警形成集群,從而消除通用告警影響,對(duì)其余告警進(jìn)行更準(zhǔn)確的分析。文獻(xiàn)[30]提出了一個(gè)基于集群間依賴關(guān)系圖的聚類分解方法,降低了異常檢測(cè)的復(fù)雜性并且縮短了計(jì)算時(shí)間。

        ·基于深度學(xué)習(xí)的異常檢測(cè):這種方式要求用于分析的數(shù)據(jù)為大量的、有標(biāo)簽的數(shù)據(jù)。文獻(xiàn)[31]提出了一種基于對(duì)系統(tǒng)正常行為的學(xué)習(xí)進(jìn)行系統(tǒng)異常行為檢測(cè)的方法,實(shí)現(xiàn)了對(duì)受復(fù)雜非線性參數(shù)影響的生產(chǎn)過程的質(zhì)量檢測(cè)。文獻(xiàn)[32]提出了一種基于重構(gòu)特征表示的變分長(zhǎng)短期記憶(variational LSTM,VLSTM)學(xué)習(xí)模型,實(shí)現(xiàn)了工業(yè)應(yīng)用的高維異常檢測(cè)。以上方法對(duì)數(shù)據(jù)量有較高要求。針對(duì)數(shù)據(jù)量較少的情況,文獻(xiàn)[33]提出了一種基于小樣本的異常檢測(cè)方法,通過對(duì)已知故障類型的樣本進(jìn)行分類,對(duì)未知故障類型的樣本進(jìn)行聚類,實(shí)現(xiàn)了在線自適應(yīng)異常檢測(cè),此方法屬于有監(jiān)督學(xué)習(xí),需要有標(biāo)簽的數(shù)據(jù)集作為訓(xùn)練集。在實(shí)際應(yīng)用中,異常檢測(cè)需要提前發(fā)現(xiàn)潛在的異常風(fēng)險(xiǎn),并且IT系統(tǒng)中異常數(shù)據(jù)在整個(gè)數(shù)據(jù)中占少數(shù),而且有標(biāo)簽數(shù)據(jù)集的獲取通常需要投入大量的人力成本,因此,本文建議采用基于小樣本的無監(jiān)督異常檢測(cè)方法。

        4 云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維系統(tǒng)參考設(shè)計(jì)

        近年來,隨著企業(yè)對(duì)其IT設(shè)施的依賴和重視程度的日益提升。面向企業(yè)IT設(shè)施的運(yùn)維應(yīng)用和系統(tǒng)框架得到了長(zhǎng)足的發(fā)展。

        Zenoss[34]是一款開源的企業(yè)級(jí)網(wǎng)絡(luò)監(jiān)控應(yīng)用,允許IT管理員通過Web控制臺(tái)監(jiān)控網(wǎng)絡(luò)架構(gòu)的狀態(tài)和健康度,主要對(duì)服務(wù)器性能、網(wǎng)絡(luò)及應(yīng)用級(jí)別完成監(jiān)控。Zabbix[35]是一個(gè)開源的分布式監(jiān)控應(yīng)用,主要對(duì)各種網(wǎng)絡(luò)參數(shù)和本地服務(wù)器健康性和完整性進(jìn)行監(jiān)控。與Zenoss、Zabbix等相似的IT系統(tǒng)監(jiān)控和運(yùn)維應(yīng)用很多,這些應(yīng)用往往都可以提供運(yùn)行狀態(tài)監(jiān)測(cè)、分析、可視化和告警等功能,但這些應(yīng)用可運(yùn)維管控的對(duì)象往往非常受限,前面列出的Zenoss和Zabbix在服務(wù)器和網(wǎng)絡(luò)設(shè)備運(yùn)維管控方面功能較為完備,但無法滿足多樣化的IT系統(tǒng)環(huán)境,如對(duì)虛擬化環(huán)境的管理等。

        ELK(Elasticsearch,Logstash,Kibana)[36]是當(dāng)前在很多企業(yè)中得到廣泛應(yīng)用的運(yùn)維應(yīng)用框架。ELK是3種開源工具的組合,其中Elasticsearch提供了強(qiáng)大的日志和運(yùn)行狀態(tài)數(shù)據(jù)查詢功能,Logstash可以與多種日志和運(yùn)行狀態(tài)數(shù)據(jù)采集軟件配合完成系統(tǒng)運(yùn)行狀態(tài)監(jiān)測(cè),Kibana則提供了易用友好的數(shù)據(jù)可視化能力。組合應(yīng)用這3款開源工具可以非??旖荨⒌统杀镜卮罱ㄒ惶纵^為完備IT系統(tǒng)運(yùn)維應(yīng)用。但ELK提供的運(yùn)行狀態(tài)數(shù)據(jù)分析能力非常受限,往往需要基于ELK進(jìn)行定制開發(fā)和功能擴(kuò)展才能具體應(yīng)用于系統(tǒng)運(yùn)維中。

        綜上所述,現(xiàn)有面向企業(yè)的IT運(yùn)維系統(tǒng)難以滿足上述云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維需求,因此本節(jié)提出了云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維系統(tǒng)參考設(shè)計(jì)。該設(shè)計(jì)在國家電網(wǎng)有限公司信息通信分公司科技項(xiàng)目中得以應(yīng)用,并通過應(yīng)用進(jìn)一步驗(yàn)證了相關(guān)設(shè)計(jì)的可行性。同時(shí)該設(shè)計(jì)可以作為其他分布式IT系統(tǒng)運(yùn)維架構(gòu)設(shè)計(jì)的參考。

        云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維系統(tǒng)(以下簡(jiǎn)稱“人工智能運(yùn)維系統(tǒng)”)可以被認(rèn)為是針對(duì)運(yùn)維應(yīng)用場(chǎng)景的大數(shù)據(jù)應(yīng)用平臺(tái)的垂直領(lǐng)域應(yīng)用,需要具備數(shù)據(jù)采集、聚合、存儲(chǔ)、分析和應(yīng)用等功能。其中“應(yīng)用”部分不但需要向運(yùn)維人員提供數(shù)據(jù)查詢和告知的能力,還要提供針對(duì)云網(wǎng)協(xié)同平臺(tái)的調(diào)控能力,完成(或輔助運(yùn)維人員完成)運(yùn)維所需的故障和故障預(yù)防處置,從而構(gòu)建針對(duì)運(yùn)維的“感知—分析—控制”閉環(huán)。云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維系統(tǒng)參考設(shè)計(jì)如圖3所示。

        圖3 云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維系統(tǒng)參考設(shè)計(jì)

        人工智能運(yùn)維系統(tǒng)一方面接入“云網(wǎng)協(xié)同平臺(tái)”,從運(yùn)行監(jiān)控系統(tǒng)和各層級(jí)(業(yè)務(wù)層、基礎(chǔ)設(shè)施層等)子系統(tǒng)處獲取所需的時(shí)序運(yùn)行狀態(tài)數(shù)據(jù)(包括性能指標(biāo)和運(yùn)行日志),另一方面為各人工智能運(yùn)維算法、模型、模塊等提供運(yùn)行環(huán)境,基于這些算法、模型、模塊完成人工智能運(yùn)維應(yīng)用所需的數(shù)據(jù)分析,將應(yīng)用分析結(jié)果呈現(xiàn)給運(yùn)維人員,實(shí)現(xiàn)(或輔助實(shí)現(xiàn))對(duì)云網(wǎng)協(xié)同平臺(tái)的高效監(jiān)控和調(diào)控。

        4.1 數(shù)據(jù)接入子系統(tǒng)

        數(shù)據(jù)接入子系統(tǒng)主要用于完成從各層級(jí)的數(shù)據(jù)源中獲取數(shù)據(jù),主要由兩部分構(gòu)成,一部分是數(shù)據(jù)采集/接收/導(dǎo)入組件,另一部分是數(shù)據(jù)總線。

        (1)數(shù)據(jù)采集/接收/導(dǎo)入組件

        此組件提供3種類型的數(shù)據(jù)接入能力?!皵?shù)據(jù)采集”指的是由此組件主動(dòng)訪問數(shù)據(jù)源獲取所需數(shù)據(jù);“數(shù)據(jù)接收”指的是由此組件被動(dòng)接收來自數(shù)據(jù)源的數(shù)據(jù);“數(shù)據(jù)導(dǎo)入”指的是數(shù)據(jù)管理員以文件或數(shù)據(jù)庫導(dǎo)入的方式將獲得的數(shù)據(jù)導(dǎo)入系統(tǒng)之中。在實(shí)際部署中需要根據(jù)數(shù)據(jù)源情況部署多個(gè)數(shù)據(jù)采集/接收/導(dǎo)入節(jié)點(diǎn)以支持不同類型數(shù)據(jù)(數(shù)據(jù)接入方式(采集/接收/導(dǎo)入)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)到達(dá)速率和并發(fā)性等不同)的接入。

        (2)數(shù)據(jù)總線

        數(shù)據(jù)總線一方面作為對(duì)采集到的消息的高速緩存,另一方面向數(shù)據(jù)存儲(chǔ)和各數(shù)據(jù)分析模塊進(jìn)行數(shù)據(jù)分發(fā)。在數(shù)據(jù)總線中保存的數(shù)據(jù)一般被稱為“在線數(shù)據(jù)”。當(dāng)前基于Kafka實(shí)現(xiàn)數(shù)據(jù)總線是業(yè)界較為常用的技術(shù)路線。Kafka是由Apache軟件基金會(huì)(Apache Software Foundation,ASF)開發(fā)的支持高吞吐量的分布式發(fā)布/訂閱消息中間件。

        4.2 數(shù)據(jù)存儲(chǔ)子系統(tǒng)

        數(shù)據(jù)存儲(chǔ)子系統(tǒng)主要用于完成對(duì)數(shù)據(jù)的持久化存儲(chǔ)。在數(shù)據(jù)存儲(chǔ)子系統(tǒng)中保存的數(shù)據(jù)一般被稱為“離線數(shù)據(jù)”。人工智能運(yùn)維系統(tǒng)中需要提供3種數(shù)據(jù)存儲(chǔ)方式:面向運(yùn)行狀態(tài)數(shù)據(jù)/日志采集的時(shí)序數(shù)據(jù)存儲(chǔ)、面向數(shù)據(jù)分析結(jié)果存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和面向累積型數(shù)據(jù)存儲(chǔ)的分布式數(shù)據(jù)存儲(chǔ)。運(yùn)行狀態(tài)數(shù)據(jù)/日志屬于典型的時(shí)序數(shù)據(jù)。為了提升運(yùn)維系統(tǒng)的感知能力,運(yùn)維系統(tǒng)往往需要“盡可能多”“盡可能細(xì)致”地采集各個(gè)被監(jiān)測(cè)系統(tǒng)的運(yùn)行狀態(tài)數(shù)據(jù)/日志。這就對(duì)相關(guān)數(shù)據(jù)存儲(chǔ)的寫入性能提出了極高的要求。近年來,時(shí)序數(shù)據(jù)庫(如IoTDB、TDEngine等)得到了長(zhǎng)足的發(fā)展,其高寫入性能在工程實(shí)踐中得到了廣泛的認(rèn)可。因此,本文提出了可以根據(jù)運(yùn)行狀態(tài)數(shù)據(jù)/日志采集需求選擇使用時(shí)序數(shù)據(jù)庫。而當(dāng)相關(guān)系統(tǒng)需要保存的歷史數(shù)據(jù)量較大時(shí),則可以考慮使用Hive作為累積型數(shù)據(jù)存儲(chǔ)。MySQL作為最經(jīng)典的結(jié)構(gòu)化數(shù)據(jù)庫,往往被用于存儲(chǔ)配置信息、數(shù)據(jù)分析結(jié)果等。因?yàn)樾枰槍?duì)不同應(yīng)用場(chǎng)景采用不同數(shù)據(jù)存儲(chǔ)方案,所以在本文設(shè)計(jì)中提出為各種類型的數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)相應(yīng)的數(shù)據(jù)總線接口適配。

        數(shù)據(jù)存儲(chǔ)子系統(tǒng)同時(shí)也被用于實(shí)現(xiàn)數(shù)據(jù)分析邏輯與數(shù)據(jù)應(yīng)用的解耦,基于數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)數(shù)據(jù)分析邏輯與數(shù)據(jù)應(yīng)用的解耦如圖4所示。數(shù)據(jù)分析子系統(tǒng)一方面從數(shù)據(jù)接入子系統(tǒng)的數(shù)據(jù)總線中獲取數(shù)據(jù),另一方面從數(shù)據(jù)存儲(chǔ)子系統(tǒng)中獲取離線數(shù)據(jù),而后基于這些數(shù)據(jù)完成數(shù)據(jù)分析,并將數(shù)據(jù)分析結(jié)果寫入數(shù)據(jù)存儲(chǔ)子系統(tǒng)之中。而數(shù)據(jù)應(yīng)用子系統(tǒng)將主要從數(shù)據(jù)存儲(chǔ)子系統(tǒng)中讀取數(shù)據(jù)分析的結(jié)果并給予呈現(xiàn)。在某些應(yīng)用場(chǎng)景中,數(shù)據(jù)應(yīng)用子系統(tǒng)也需要直接接入數(shù)據(jù)分析子系統(tǒng)以獲取數(shù)據(jù)分析過程數(shù)據(jù)(未持久化或無須持久化的過程數(shù)據(jù))。

        圖4 基于數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)數(shù)據(jù)分析邏輯與數(shù)據(jù)應(yīng)用的解耦

        4.3 數(shù)據(jù)分析子系統(tǒng)

        數(shù)據(jù)分析子系統(tǒng)將基于來自數(shù)據(jù)接入子系統(tǒng)的在線數(shù)據(jù)和來自數(shù)據(jù)存儲(chǔ)子系統(tǒng)的離線數(shù)據(jù),根據(jù)本地維護(hù)的各種數(shù)據(jù)分析算法和模型完成數(shù)據(jù)分析,其主要由兩部分構(gòu)成:數(shù)據(jù)分析基礎(chǔ)框架和各類數(shù)據(jù)分析算法/模型。

        (1)數(shù)據(jù)分析基礎(chǔ)框架

        目前業(yè)界中較為常用的數(shù)據(jù)分析基礎(chǔ)框架主要有Flink和Spark。Flink主要適用于流式數(shù)據(jù)分析;Spark則在批量式的數(shù)據(jù)分析場(chǎng)景中有一些優(yōu)勢(shì)。

        (2)數(shù)據(jù)分析算法/模型

        本文涉及日志特征向量生成、微服務(wù)業(yè)務(wù)拓?fù)浣?、業(yè)務(wù)對(duì)象建模以及系統(tǒng)狀態(tài)管理4個(gè)領(lǐng)域的算法和模型。隨著系統(tǒng)應(yīng)用的持續(xù)進(jìn)行,相關(guān)數(shù)據(jù)分析算法/模型將不斷優(yōu)化和演進(jìn),甚至針對(duì)同一種數(shù)據(jù)分析算法/模型可能有多個(gè)不同版本。

        4.4 數(shù)據(jù)應(yīng)用子系統(tǒng)

        數(shù)據(jù)應(yīng)用子系統(tǒng)中提供了一系列人工智能運(yùn)維應(yīng)用,主要如下。

        (1)平臺(tái)總體運(yùn)行狀態(tài)(健康度)評(píng)估

        從基礎(chǔ)設(shè)施(主要涉及平臺(tái)中的各服務(wù)器和存儲(chǔ)設(shè)備)和服務(wù)(針對(duì)平臺(tái)運(yùn)行依賴的各項(xiàng)(微)服務(wù))兩個(gè)維度對(duì)平臺(tái)的總體運(yùn)行狀態(tài)進(jìn)行打分,滿分為100,85~100為狀態(tài)良好,70~85為狀態(tài)不佳,70以下為狀態(tài)異常。此部分除了給出平臺(tái)健康度評(píng)分外,還會(huì)同時(shí)給出導(dǎo)致評(píng)分下降的最主要的5個(gè)指標(biāo)。

        (2)基于規(guī)則的平臺(tái)(基礎(chǔ)設(shè)施/服務(wù))運(yùn)行狀態(tài)異常檢測(cè)及告警

        這個(gè)部分支持基于規(guī)則的異常檢測(cè),并在異常檢測(cè)規(guī)則被觸發(fā)時(shí)發(fā)出告警,并在告警中包含被觸發(fā)的規(guī)則和相關(guān)日志(指標(biāo))。

        (3)基于模型的平臺(tái)(基礎(chǔ)設(shè)施/服務(wù))運(yùn)行狀態(tài)異常檢測(cè)及告警

        這個(gè)部分支持模型的異常檢測(cè),并在異常檢測(cè)模型輸出值超過閾值時(shí)發(fā)出告警,并根據(jù)告警根因分析模型的輸出給出根因列表及相關(guān)貢獻(xiàn)度。這里需要特別指出的是,針對(duì)基礎(chǔ)設(shè)施、不同的平臺(tái)服務(wù)和不同的平臺(tái)應(yīng)用需要建立不同的異常檢測(cè)模型和根因分析模型。

        (4)基于預(yù)測(cè)的(基礎(chǔ)設(shè)施/服務(wù))運(yùn)行狀態(tài)異常預(yù)警

        這個(gè)部分支持基于模型的運(yùn)行指標(biāo)預(yù)測(cè),并針對(duì)預(yù)測(cè)值進(jìn)行基于規(guī)則和基于模型的異常檢測(cè)模型和根因分析,從而實(shí)現(xiàn)異常預(yù)警。

        4.5 容器管理環(huán)境

        由于相比虛擬機(jī),容器技術(shù)有更高的基礎(chǔ)設(shè)施資源利用率和更高的資源調(diào)度靈活性,所以在本文提出的云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維系統(tǒng)參考設(shè)計(jì)中推薦采用容器環(huán)境作為人工智能運(yùn)維系統(tǒng)的運(yùn)行環(huán)境,運(yùn)維應(yīng)用子系統(tǒng)、數(shù)據(jù)分析子系統(tǒng)以及數(shù)據(jù)接入子系統(tǒng)均可以考慮采用容器化部署。而數(shù)據(jù)總線以及數(shù)據(jù)存儲(chǔ)子系統(tǒng),則可以根據(jù)平臺(tái)規(guī)模確定是否選用容器化部署。一般來說,當(dāng)平臺(tái)規(guī)模不大時(shí)可以優(yōu)先考慮采用容器化部署。為了提升容器化部署和調(diào)度的便捷性,需要相應(yīng)引入容器管理環(huán)境。

        5 結(jié)束語

        本文首先分析了企業(yè)云平臺(tái)向微服務(wù)化云網(wǎng)協(xié)同平臺(tái)演進(jìn)的趨勢(shì),對(duì)比了很多現(xiàn)有的針對(duì)云平臺(tái)的運(yùn)維在國內(nèi)外的解決方法,而后進(jìn)一步剖析了云網(wǎng)協(xié)同平臺(tái)運(yùn)行維護(hù)面臨的挑戰(zhàn)和需求;進(jìn)而提出了云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維技術(shù)體系,涉及面向日志的特征向量生成技術(shù)、微服務(wù)業(yè)務(wù)拓?fù)浣<夹g(shù)、業(yè)務(wù)對(duì)象建模技術(shù)以及系統(tǒng)狀態(tài)管理技術(shù)4個(gè)方面,并對(duì)各部分技術(shù)及其研究進(jìn)展分別加以說明,另外針對(duì)每個(gè)方面分別給出了較推薦的方案;最后給出了云網(wǎng)協(xié)同平臺(tái)人工智能運(yùn)維系統(tǒng)參考設(shè)計(jì)。本文的研究成果在國家電網(wǎng)有限公司信息通信分公司科技項(xiàng)目中得以應(yīng)用,其中平臺(tái)計(jì)算資源(CPU、內(nèi)存)占用狀態(tài)的異常檢測(cè)/預(yù)測(cè)模型、存儲(chǔ)資源(如機(jī)械式硬盤)性能異常檢測(cè)/預(yù)測(cè)模型以及平臺(tái)服務(wù)(如組件注冊(cè)服務(wù)、資源調(diào)度服務(wù)、系統(tǒng)運(yùn)行狀態(tài)監(jiān)測(cè)服務(wù)等)響應(yīng)時(shí)延異常檢測(cè)/預(yù)測(cè)模型在應(yīng)用中取得了良好的應(yīng)用效果,進(jìn)一步驗(yàn)證了本文成果的可行性和實(shí)用價(jià)值。隨著越來越多的各種類型的企業(yè)越來越關(guān)注信息化建設(shè),信息系統(tǒng)在日趨復(fù)雜化的同時(shí),其運(yùn)維的重要性也越來越高。本文的研究成果對(duì)相關(guān)企業(yè)開展運(yùn)維系統(tǒng)技術(shù)選型和設(shè)計(jì)提供了有益的參考。

        [1] 史凡. 云網(wǎng)絡(luò):云網(wǎng)融合的新型網(wǎng)絡(luò)發(fā)展趨勢(shì)[J]. 中興通訊技術(shù), 2022, 28(1): 8-10.

        SHI F. Cloud network: new network development trend of cloud network convergence[J]. ZTE Technology Journal, 2022, 28(1): 8-10.

        [2] 宋志剛, 林杰, 王金超. 基于容器云為云網(wǎng)融合提供全面運(yùn)維服務(wù)的“云網(wǎng)管+”平臺(tái)[J]. 信息技術(shù)與信息化, 2021(2): 118-121.

        SONG Z G, LIN J, WANG J C. “Cloud network management+” platform based on container cloud to provide comprehensive operation and maintenance services for cloud network convergence[J]. Information Technology and Informatization, 2021(2): 118-121.

        [3] 官東亮. 基于微服務(wù)的業(yè)務(wù)平臺(tái)架構(gòu)重構(gòu)[J]. 電信科學(xué), 2020, 36(9): 75-83.

        GUAN D L. Service platform architecture reconstruction based on microservices[J]. Telecommunications Science, 2020, 36(9): 75-83.

        [4] 董娜, 劉偉娜, 侯波濤. 基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法[J]. 電力信息與通信技術(shù), 2018, 16(1): 6-10.

        DONG N, LIU W N, HOU B T. Modeling method of network abnormal behavior based on big data[J]. Electric Power Information and Communication Technology, 2018, 16(1): 6-10.

        [5] 任毅華, 萬志遠(yuǎn), 呂東. 人工智能技術(shù)的變電運(yùn)維軟件設(shè)計(jì)與研究[J]. 電子世界, 2022(1): 29-30.

        REN Y H, WAN Z Y, LYU D. Design and research of substation operation and maintenance software with artificial intelligence technology[J]. Electronics World, 2022(1): 29-30.

        [6] 陳真, 王雅志. 基于人工智能的運(yùn)維系統(tǒng)建設(shè)研究與應(yīng)用[J]. 常州工學(xué)院學(xué)報(bào), 2021, 34(3): 35-40. CHEN Z, WANG Y Z. Research and application of the construction of operation and maintenance system based on artificial intelligence[J]. Journal of Changzhou Institute of Technology, 2021, 34(3): 35-40.

        [7] 李朝霞, 劉金春, 邢鑫. 人工智能在網(wǎng)絡(luò)運(yùn)維中的應(yīng)用[J]. 電子技術(shù)與軟件工程, 2021(10): 5-6.

        LI Z X, LIU J C, XING X. Artificial intelligence in network operations and maintenance[J]. Electronic Technology & Software Engineering, 2021(10): 5-6.

        [8] HE P J, ZHU J M, ZHENG Z B, et al. Drain: an online log parsing approach with fixed depth tree[C]//Proceedings of 2017 IEEE International Conference on Web Services. Piscataway: IEEE Press, 2017: 33-40.

        [9] ZHANG S L, MENG W B, BU J H, et al. Syslog processing for switch failure diagnosis and prediction in datacenter networks[C]//Proceedings of 2017 IEEE/ACM 25th International Symposium on Quality of Service (IWQoS). Piscataway: IEEE Press, 2017: 1-10.

        [10] RAMOS J. Using TF-IDF to determine word relevance in document queries[C]//Proceedings of the 1st Instructional Conference on Machine Learning. [S.l.:s.n.], 2003: 29-48.

        [11] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint, 2013, arXiv: 1301.3781.

        [12] SIGELMANB H , BARROSO L A , BURROWS M , et al. Dapper, a large-scale distributed systems tracing infrastructure[EB]. 2010.

        [13] Zipkin, from Twitter a distributed tracing system [EB]. 2022.

        [14] 嚴(yán)麗云, 楊新章, 何震葦, 等. 基于運(yùn)營商視角的服務(wù)網(wǎng)格技術(shù)評(píng)測(cè)與集成方案[J]. 電信科學(xué), 2020, 36(6): 144-153.

        YAN L Y, YANG X Z, HE Z W, et al. Service mesh technology evaluation and integration scheme based on telecom operator perspective[J]. Telecommunications Science, 2020, 36(6): 144-153.

        [15] Buoyant. Linkerd[EB]. 2016.

        [16] SILVA R F, PLIS S M, ADALI T, et al. Multidataset independent subspace analysis extends independent vector analysis[C]//Proceedings of 2014 IEEE International Conference on Image Processing (ICIP). Piscataway: IEEE Press, 2014: 2864-2868.

        [17] 劉立, 朱健成, 韓光潔, 等. 基于1D-CNN聯(lián)合特征提取的軸承健康監(jiān)測(cè)與故障診斷[J]. 軟件學(xué)報(bào), 2021, 32(8): 2379-2390. LIU L, ZHU J C, HAN G J, et al. Bearing health monitoring and fault diagnosis based on joint feature extraction in 1D-CNN[J]. Journal of Software, 2021, 32(8): 2379-2390.

        [18] XING Y Y, YU G X, DOMENICONI C, et al. Multi-label co-training[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Amsterdam: Elsevier, 2018: 2882-2888.

        [19] 杜岳峰, 李曉光, 宋寶燕. 異構(gòu)模式中關(guān)聯(lián)數(shù)據(jù)的一致性規(guī)則發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2020, 57(9): 1939-1948.

        DU Y F, LI X G, SONG B Y. Discovering consistency constraints for associated data on heterogeneous schemas[J]. Journal of Computer Research and Development, 2020, 57(9): 1939-1948.

        [20] DINH V, HO L S T. Consistent feature selection for neural networks via Adaptive Group Lasso[EB]. 2020.

        [21] WANG H F, DENG X Y, JIANG W, et al. A new belief divergence measure for Dempster–Shafer theory based on belief and plausibility function and its application in multi-source data fusion[J]. Engineering Applications of Artificial Intelligence, 2021(97): 104030.

        [22] ZHANG Z, JIANG W, GENG J, et al. Fault diagnosis based on non-negative sparse constrained deep neural networks and dempster-shafer theory[J]. IEEE Access, 2020(8): 18182-18195.

        [23] WANG X, HE Y L, XU Y, et al. Comprehensive evaluation modeling and analysis based on ELM integrated AHP and PCA: application to food safety[C]//Proceedings of 2019 Chinese Automation Congress (CAC). Piscataway: IEEE Press, 2019: 4092-4097.

        [24] ZHANG G C, CHEN L, LIANG K K. Fault detection and diagnosis for aerostat sensors based on PCA and contribution graph[C]//Proceedings of 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference. Piscataway: IEEE Press, 2019: 224-228.

        [25] 李泰, 韓強(qiáng), 黃銀龍, 等. 基于kNN算法的紅外測(cè)溫圖譜的溫度數(shù)字識(shí)別研究[J]. 電力信息與通信技術(shù), 2019, 17(6): 14-19.

        LI T, HAN Q, HUANG Y L, et al. Research on digital recognition of infrared temperature map based on kNN algorithm[J]. Electric Power Information and Communication Technology, 2019, 17(6): 14-19.

        [26] ANGIULLI F, FASSETTI F. Distance-based outlier queries in data streams: the novel task and algorithms[J]. Data Mining and Knowledge Discovery, 2010, 20(2): 290-324.

        [27] LIU J, DENG H F. Outlier detection on uncertain data based on local information[J]. Knowledge-Based Systems, 2013(51): 60-71.

        [28] 姜紅紅, 張濤, 趙新建, 等. 基于大數(shù)據(jù)的電力信息網(wǎng)絡(luò)流量異常檢測(cè)機(jī)制[J]. 電信科學(xué), 2017, 33(3): 134-141.

        JIANG H H, ZHANG T, ZHAO X J, et al. A big data based flow anomaly detection mechanism of electric power information network[J]. Telecommunications Science, 2017, 33(3): 134-141.

        [29] JULISCH K. Clustering intrusion detection alarms to support root cause analysis[J]. ACM Transactions on Information and System Security, 2003, 6(4): 443-471.

        [30] BENNACER L, CIAVAGLIA L, GHAMRI-Doudane S, et al. Scalable and fast root cause analysis using inter cluster inference[C]//Proceedings of 2013 IEEE International Conference on Communications (ICC). Piscataway: IEEE Press, 2013: 3563-3568.

        [31] STOJANOVIC L, DINIC M, STOJANOVIC N, et al. Big-data-driven anomaly detection in industry (4.0): An approach and a case study[C]//Proceedings of 2016 IEEE International Conference on Big Data (Big Data). Piscataway: IEEE Press, 2016: 1647-1652.

        [32] ZHOU X K, HU Y Y, LIANG W, et al. Variational LSTM enhanced anomaly detection for industrial big data[J]. IEEE Transactions on Industrial Informatics, 2021, 17(5): 3469-3477.

        [33] DONG L, LIU S L, ZHANG H L. A method of anomaly detection and fault diagnosis with online adaptive learning under small training samples[J]. Pattern Recognition, 2017(64): 374-385.

        [34] Cloud developer center launched by Zenoss[EB]. Telecomworldwire, 2022.

        [35] 李晨, 解思江, 郝穎, 等. 信息系統(tǒng)安全運(yùn)行自動(dòng)化手段在電力公司的探索[J]. 電信科學(xué), 2017, 33(S1): 123-128.

        LI C, XIE S J, HAO Y, et al. Study on the automatic maintenance for information system security in power company[J]. Telecommunications Science, 2017, 33(S1): 123-128.

        [36] 唐穎淳. 利用Kafka實(shí)現(xiàn)大話務(wù)并發(fā)數(shù)據(jù)流的吞吐系統(tǒng)[J]. 電信科學(xué), 2018, 34(S2): 134-139.

        TANG Y C. Using Kafka to implement the throughput system of large traffic and concurrent data flow[J]. Telecommunications Science, 2018, 34(S2): 134-139.

        Time series data based AI operation and maintenance system of cloud network collaboration platform

        CHENG Ruiying1, ZHANG Pan1, XIAO Yu1, QIAO Yujie1, ZHANG Anyi2

        1.State Grid Corporation of China State Grid Information & Telecommunication Branch, Beijing 100761, China 2. Beijing University of Posts and Telecommunications, Beijing 100876, China

        The expansion of cloud computing in enterprise applications is not only the expansion of platform scale, but also the extension of platform applications. “Cloud-network collaboration” and “micro-service” are important trends in the evolution of enterprise cloud platforms. As the importance of enterprise information construction continues to rise, the operation and maintenance of the microservice-oriented cloud-network collaboration platform faces great challenges. The challenges faced by the operation and maintenance were analyzed, the requirements for artificial intelligence operation and maintenance of the platform were sorted out, a technical system for artificial intelligence operation and maintenance of the platform based on time-series data analysis was proposed, and an artificial intelligence operation and maintenance subsystem for the cloud network collaborative platform was designed. The proposed technical system and system design are practical and generalizable, and can be used as a reference for the technical approach of enterprise cloud platform construction and optimization.

        cloud platform, cloud network collaboration, micro-service, time series data, artificial intelligence operation and maintenance

        TP393

        A

        10.11959/j.issn.1000-0801.2022290

        2022-04-19;

        2022-11-10

        國家電網(wǎng)有限公司信息通信分公司科技項(xiàng)目(No.52993920002P)

        Science and Technology Project from State Grid Information and Telecommunication Branch of China (No.52993920002P)

        程瑞營(1995-),女,國家電網(wǎng)有限公司信息通信分公司助理工程師,主要從事與信息系統(tǒng)運(yùn)維、人工智能等相關(guān)的工作。

        張攀(1989-),男,博士,國家電網(wǎng)有限公司信息通信分公司高級(jí)工程師,主要從事與信息系統(tǒng)運(yùn)維、人工智能等相關(guān)的工作。

        肖雨(1997-),女,國家電網(wǎng)有限公司信息通信分公司助理工程師,主要從事與信息系統(tǒng)運(yùn)維、人工智能等相關(guān)的工作。

        喬宇杰(1995-),女,國家電網(wǎng)有限公司信息通信分公司助理工程師,主要從事與信息系統(tǒng)運(yùn)維、人工智能等相關(guān)的工作。

        張安奕(1998-),女,北京郵電大學(xué)博士生,主要研究方向?yàn)槿斯ぶ悄艿取?/p>

        猜你喜歡
        云網(wǎng)日志運(yùn)維
        下期要目
        新型云網(wǎng)融合編排與調(diào)度系統(tǒng)架構(gòu)與分析
        一名老黨員的工作日志
        基于ONAP開源架構(gòu)的云網(wǎng)操作系統(tǒng)研究
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        航天云網(wǎng)科技發(fā)展有限責(zé)任公司
        運(yùn)維技術(shù)研發(fā)決策中ITSS運(yùn)維成熟度模型應(yīng)用初探
        風(fēng)電運(yùn)維困局
        能源(2018年8期)2018-09-21 07:57:24
        雜亂無章的光伏運(yùn)維 百億市場(chǎng)如何成長(zhǎng)
        能源(2017年11期)2017-12-13 08:12:25
        游學(xué)日志
        在线观看日本一区二区| 亚洲国产精品无码中文字| 国产 字幕 制服 中文 在线| 日韩在线不卡免费视频| 一区二区三区四区四色av| h视频在线播放观看视频| 久久久久久亚洲av无码蜜芽| 亚洲第一网站免费视频| 蜜桃av噜噜一区二区三区香| 国产自拍在线视频91| 无码va在线观看| 国产成人精品三级91在线影院| 国产一区不卡视频在线| 水野优香中文字幕av网站| 亚洲色www成人永久网址| 欧美日韩中文字幕久久伊人| 亚洲一区二区三区在线激情| 国产乱子伦精品无码专区| 成av人片一区二区三区久久| 天啦噜国产精品亚洲精品| 国产av一啪一区二区| 狠狠噜狠狠狠狠丁香五月| 欧美高大丰满freesex| 夫妻一起自拍内射小视频| 9久久婷婷国产综合精品性色 | 久久热免费最新精品视频网站| 国产激情久久久久久熟女老人av | 国产精品va在线观看一| 国产黑丝美女办公室激情啪啪| 337p日本欧洲亚洲大胆精品| 亚洲综合久久久| 69久久精品亚洲一区二区| 女人高潮久久久叫人喷水| 国产亚洲精品第一综合麻豆| 熟女人妻中文字幕一区| 亚洲熟妇自偷自拍另类| 国产真实夫妇交换视频| 囯产精品无码一区二区三区AV| 少妇被爽到高潮喷水免费福利 | 白白青青视频在线免费观看| 国产女主播一区二区三区|