亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機器學習的云平臺故障排查方法

2022-01-23 13:40:42王艷艷張文正沈佳輝李小真

浙江電力 2021年12期

王艷艷，張文正，沈佳輝，王亭，李小真

（1.國網(wǎng)浙江省電力有限公司信息通信分公司，杭州 310016；2.浙江華云信息科技有限公司，杭州 310012）

0 引言

云計算是一種通過虛擬化技術建立統(tǒng)一的基礎設施、服務、信息及應用的資源池，采用分布式技術對各種基礎設施資源進行有效組織和運用的運行模式[1]。云計算同時提供了一種面向企業(yè)應用實現(xiàn)按需資源分配的模型，全新、高效地部署企業(yè)應用[2]，從而使得客戶獲得低成本、高性能、快速配置和海量化的計算服務成為可能。企業(yè)將業(yè)務部署在云端時會面臨如下困難：

1）監(jiān)控手段對云上業(yè)務的運行狀態(tài)無法形成全方位感知，難以構建云上業(yè)務全鏈路拓撲和業(yè)務系統(tǒng)畫像，對業(yè)務的監(jiān)控能力較弱。

2）云端業(yè)務故障來自于業(yè)務所依賴的多個應用程序或不同應用程序之間的復雜交互，缺少有效的鏈路追蹤與請求回溯能力，難以快速界定故障源頭。

3）隨著云端業(yè)務規(guī)模擴大，對業(yè)務系統(tǒng)的健康管控和故障處理效率也提出了更高的要求，亟需構建自動化智能化的手段，實現(xiàn)系統(tǒng)健康分析和異常智能預警，及時發(fā)現(xiàn)系統(tǒng)問題風險。

浙江電網(wǎng)容器云平臺（以下簡稱“浙電容器云平臺”）正是在上述背景下應運而生。經(jīng)過5 年的建設，現(xiàn)有覆蓋二級核心域的物理機10 余臺，業(yè)務支撐20 余個，在各個業(yè)務監(jiān)控上均取得了不錯的效果。但其在運維過程中仍然存在以下問題：云環(huán)境下的網(wǎng)絡拓撲結構異常復雜，由于容器的地址動態(tài)變化，導致實時獲取浙電容器云平臺上業(yè)務的拓撲結構面臨巨大挑戰(zhàn)；相比傳統(tǒng)的CS/BS 架構，云計算環(huán)境中的系統(tǒng)故障由于容器云環(huán)境的動態(tài)變化難以排查[3]。云環(huán)境下系統(tǒng)運維的前提是各節(jié)點的網(wǎng)絡拓撲結構[4]，因此如何高效準確地識別網(wǎng)絡拓撲結構直接決定了故障排查的效果。此外，在獲取網(wǎng)絡拓撲結構后，對于運行故障的排查，傳統(tǒng)的故障感知虛擬機重構框架等方法[5]通常以全局工作負載性能數(shù)據(jù)報告和故障事件的歷史發(fā)生率作為輸入，通過計算故障的統(tǒng)計信息進行故障預測排查。雖然該框架擁有良好的性能，但仍然存在效率低、過程繁瑣等問題。

傳統(tǒng)的故障排查技術[6-7]依賴人工判斷，效率不高且實時性較差，嚴重影響故障恢復的速度。近年來，基于機器學習的聚類方法在模式分析分類、決策指定以及數(shù)據(jù)挖掘領域應用廣泛且效果顯著[8]，將機器學習方法應用于云平臺的拓撲結構識別和故障排查，不僅能克服傳統(tǒng)方法低效、過程復雜、局限性等問題，還能提高結果的準確性與效率。因此針對該平臺，本文提出了基于機器學習的浙電容器云平臺故障排查方法。首先通過聚類技術識別云環(huán)境下的網(wǎng)絡拓撲結構，利用SVM（支持向量機）作為分類器，可以在沒有任何假設條件的情況下，對采集到的各節(jié)點的狀態(tài)信息進行自動化異常分類，憑借其最小化經(jīng)驗分類和最大化分類間隔的優(yōu)勢，大大提高了故障排查的效率及其準確率，促進了云計算在電力系統(tǒng)智能運維中的應用。

1 關鍵技術

1.1 平均鏈接聚類法

平均鏈接聚類法屬于層次聚類法的一種[9]。層次聚類法對給定的數(shù)據(jù)對象集合進行層次化劃分，其優(yōu)點是可以將聚類結果以樹狀圖譜的形式展示出來，可根據(jù)相應的需求劃分簇類數(shù)而不需要重復聚類，且不需要預先設置類簇個數(shù)，如圖1 所示選擇25 則可將數(shù)據(jù)集劃分為兩類。

圖1 層次聚類

本文選擇平均鏈接聚類方法用于云環(huán)境中數(shù)據(jù)包傳輸速率的聚類，以便動態(tài)生成網(wǎng)絡的拓撲結構。具體來說，平均鏈接聚類方法在計算時依據(jù)類簇之間的距離來測量相似度，同時在測量類簇之間的距離時，考慮的不是兩類之間的最短距離或最遠距離，而是介于兩者之間的中間值，避免了使用最短距離判斷時破壞類的緊湊性，以及使用最長距離時易產(chǎn)生違背閉合性類簇的弊端[10]。

1.2 支持向量機

SVM 是一種定義在特征空間上按監(jiān)督學習方式對數(shù)據(jù)進行二元分類的線性分類器，其決策邊界是對學習樣本求解的最大邊距超平面，SVM還可通過核函數(shù)進行非線性分類[11]。SVM 的目的是求解能夠正確劃分訓練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。在本方法中將浙電容器云平臺的故障排查問題由二次約束規(guī)劃問題轉換為分類決策問題，即尋找最優(yōu)超平面問題。

2 基于機器學習的故障排查方法

2.1 浙電容器云平臺的網(wǎng)絡拓撲識別

云環(huán)境下的浙電容器云平臺在實時運行中，各節(jié)點如服務器和虛擬機的狀態(tài)變化直接影響運行結果。如何根據(jù)各節(jié)點的實時數(shù)據(jù)信息，高效、精準地跟蹤變化以提前采取相關措施，是實現(xiàn)云環(huán)境下浙電容器平臺良好運行最關鍵的操作，而云平臺各節(jié)點的網(wǎng)絡拓撲結構識別是實現(xiàn)這一操作的前提。

該拓撲識別過程具體分為3 個步驟：

1）采用多包組探針進行端對端節(jié)點的時延測量。

2）利用基于平均鏈接的層次聚類方法實現(xiàn)接受節(jié)點對的層次劃分。

3）采用文獻[12]提出的拓撲生成算法，自動實現(xiàn)虛擬機的拓撲結構識別，方法總體框架如圖2 所示。

圖2 網(wǎng)絡拓撲結構識別

2.1.1 共享鏈路上節(jié)點對時延測量

本文采用多包組探測包法來探測節(jié)點間的時延。2 個節(jié)點間共享鏈路的長度可由其時延表示，共享鏈路上端對端的時延通過一個三包組里首末2 個探測包到達同一目標節(jié)點的時間差來測量。三包組由首、中、末3 個部分組成，其首、末是同一目標節(jié)點的2 個小探測包，中是發(fā)送到另一目標節(jié)點的大探測包，其目的是間隔開2 個小探測包。

節(jié)點的拓撲結構中包含一個發(fā)送節(jié)點和若干個目的節(jié)點。在發(fā)送節(jié)點發(fā)送一個三包組探針包給每個目的節(jié)點N，每一對目的節(jié)點（Ri，k，Rj，k）都滿足i，j∈N，其中Ri，k表示接受2 個小包的目的節(jié)點，Rj，k表示接受大包的目的節(jié)點，由于需要進行多次測量取平均值，所以k 表示其節(jié)點對是在進行第k 次測量時得到。

初始狀態(tài)，首包B1、末包B2和2 個小包之間的間隔為d，其目的節(jié)點為R3，K，大包的目的節(jié)點為R2，K，由于三包組末端包B3在大包B2之后發(fā)送，所以兩小包之間的間隔會在沿著節(jié)點間的共享路徑傳輸時不斷增加，其目的節(jié)點對得到的時延值T2，3=d+Δd。用T 表示B1和B3到達節(jié)點R3，K的時間差值，取多次測量后的探測時延平均值，并用Ti，j來表示。通過統(tǒng)計所有節(jié)點對的測量值產(chǎn)生一組度量集合T={Ti，j}，i，j∈N，并將其用于下一階段的聚類。

2.1.2 平均鏈接聚類法識別拓撲結構

本文將節(jié)點對的包組時延平均值集合T 作為平均鏈接聚類算法的輸入。聚類過程分為如下4個步驟：

1）數(shù)據(jù)初始化，將集合T 中的每一個Ti，j，各自歸為一類Ci，i∈T，即每個數(shù)據(jù)樣本自成一類，計算每個類簇之間的相似性。

2）選取計算結果中相似性最高的合并對象，合并生成一個新的類簇。

3）計算當前所有類簇兩兩之間的相似性。

4）重復步驟2）和3），直到所有的數(shù)據(jù)樣本都歸為一個類簇。

采用平均鏈接聚類法計算類簇之間的距離。計算2 個類簇之間所有對象兩兩之間的距離，接著計算其距離平均值作為這2 個類簇的距離，最后將類簇之間距離最小的2 個進行合并，其算法公式為：

式中：Ci和Cj表示類簇，且i，j∈T；a 和b 分別是類簇Ci和Cj中的對象；d（a，b）表示2 個對象之間的距離。

將輸入的節(jié)點對時延平均值的集合進行層次聚類后，利用拓撲結構生成算法即可得到實時的網(wǎng)絡拓撲圖。

2.2 基于SVM-Random 的故障排查

基于浙電容器云平臺上的網(wǎng)絡拓撲圖，對其進行智能化故障排查是提高其系統(tǒng)性能的有效手段，通過故障排查可以在系統(tǒng)發(fā)生故障時定位到病灶并采取及時措施，甚至可以在系統(tǒng)發(fā)生故障之前進行排查。該系統(tǒng)的各節(jié)點實時狀態(tài)數(shù)據(jù)被收集并用于反映各服務器和虛擬機的當前狀態(tài)，本文提出結合機器學習與SVM-Random（隨機搜索方法）的在線故障排查模型，其總體框架如圖3所示。

圖3 浙電容器云平臺故障排查方法框架

首先利用Kafka 工具[13]收集各節(jié)點的性能數(shù)據(jù)，包括IO、內(nèi)存利用率和CPU 利用率等。再通過SVM 實現(xiàn)故障分類，同時采用Random 方法[14]優(yōu)化SVM 的參數(shù)，將狀態(tài)分為不同的類別。最后通過故障排查策略設置閾值精化排查結果，提高了排查和預測結果的準確性。

2.2.1 故障排查模型

利用Kafka 消息系統(tǒng)工具來實現(xiàn)服務器和虛擬機狀態(tài)信息的讀取和收集。Kafka 是一個基于zookeeper[15]協(xié)調(diào)、可分區(qū)、多副本的數(shù)據(jù)流處理分布式日志系統(tǒng)，具有高吞吐量、可持久化以及易于擴展等優(yōu)點。利用Kafka 工具讀取節(jié)點的日志文件以獲取其狀態(tài)信息，包括CPU 利用率、內(nèi)存利用率、IO 設備以及網(wǎng)絡IO，并將獲取到的狀態(tài)信息作為訓練SVM 模型的特征向量以尋找到最優(yōu)分類超平面。

為降低原始狀態(tài)信息數(shù)據(jù)的復雜度，減少冗余和相關性，對數(shù)據(jù)進行訓練前利用PCA（主元分析法）進行特征的提取。

1）將收集的狀態(tài)信息組織為m·l 階的數(shù)據(jù)矩陣Xm·l，其中m 為狀態(tài)信息指標的個數(shù)，l 為樣本總數(shù)。再對矩陣中的數(shù)據(jù)進行零均值化，即對數(shù)據(jù)矩陣中的值減去該狀態(tài)信息指標的平均值。

2）利用公式（2）計算矩陣Xn·l的協(xié)方差矩陣CX：

其中xi∈Rn為節(jié)點樣本J，J∈{1，2，…，m}的一個特征向量，yi∈{+1，-1} 為其標簽，yi為+1時其為運行正常的節(jié)點，yi為-1 時即為運行異常的節(jié)點。基于此并選擇懲罰參數(shù)C>0，且i，j∈{1，2，…，m}，將故障排查問題轉換為如下二次約束規(guī)劃問題：

式中：ai，aj為拉格朗日乘子，且ai，aj≥0；K 為高斯核函數(shù)，即，其中σ2為控制因子。

通過以上公式即可得最優(yōu)解：a*=（，，…，），選擇a*的一個分量且其小于懲罰因子C，通過以下公式得到b*：

在構建基于SVM 的故障分類模型時，一個合適的核函數(shù)能夠在實現(xiàn)非線性分類的情況下提高模型性能效率。由于高斯核函數(shù)可以逼近任何非線性函數(shù)，具有強泛化能力、收斂速度快以及模型參數(shù)少等優(yōu)點，所以采用高斯核函數(shù)作為故障排查模型的核函數(shù)，最后的分類決策數(shù)為：

式中：sgn 為符號函數(shù)。

此外，本文提出利用超參數(shù)優(yōu)化方法對模型的關鍵參數(shù)進行優(yōu)化，以提高最終排查的準確性和過程效率。由于隨機搜索優(yōu)化方法[16]擁有簡單、搜索速度快的特點，以及比網(wǎng)格搜索更好的性能，且對于有連續(xù)變量的參數(shù)，隨機搜索會將其做為一個分布采樣，因此本方法選擇隨機搜索方法對參數(shù)進行優(yōu)化。通過節(jié)點狀態(tài)信息數(shù)據(jù)（包括節(jié)點數(shù)據(jù)正常樣本與異常樣本）對此模型進行訓練，以提高模型的學習能力。為了進一步提高基于SVM-Random 的故障排查模型的效率，本文還加入了故障排查策略。

2.2.2 故障排查策略

故障排查策略分為故障初步排查和故障精確排查2 個階段。

1）故障初步排查階段。

利用訓練好的SVM 模型對收集到的各節(jié)點數(shù)據(jù)信息進行分類，得到狀態(tài)正常類和狀態(tài)異常類2 個集合，分別表示為X1和Y1。云環(huán)境下虛擬機故障率由狀態(tài)異常節(jié)點到超平面的距離來判斷，其故障率與距離成正相關。由于SVM 模型的訓練結果存在一定誤差，即有可能導致實際異常的節(jié)點被誤劃到狀態(tài)正常類的集合中。在此階段將訓練樣本集M={x1，x2，…，xm}作為輸入，得到f1，f2，V 3 個輸出，其中，f1表示從SVM 模型分類決策函數(shù)中得到的目標值，f2表示從訓練好的SVM 模型中得到的ai的值總和，V 表示得到的初步排查的狀態(tài)分類結果。

2）故障精確排查階段。

由于在超平面附近的數(shù)據(jù)存在擺動過大的可能性，且有可能將狀態(tài)異常的節(jié)點劃到狀態(tài)正常類當中，因此通過精確排查階段來提高最終排查結果的準確性。在進行初步分類后，云環(huán)境下節(jié)點i 的故障率Pi表示為：

式中：vi∈V 是節(jié)點i 由故障初步排查階段得到的值，若其為負數(shù)則劃分到狀態(tài)正常類，若為正數(shù)則劃分到狀態(tài)異常類。

在此精確排查階段，設置Q∈（0，1）為訓練虛擬機集合故障率的閾值，當故障率Pi≤Q 時，則認為節(jié)點i 處于異常運行狀態(tài)，用Y2來表示在精確排查階段獲得狀態(tài)異常集。初步排查階段獲得的輸出作為此階段的輸入，判斷V 中每一個樣本的故障率，若其故障率滿足Pi≤Q 則將vi設置為它的相反數(shù)，即重新歸類到狀態(tài)異常集合中，更新完成的V 則為最終的故障排查結果。

3 應用效果與分析

為了表征浙江電容器云平臺中虛擬機的運行狀態(tài)，本方法利用Kafka 收集50 臺虛擬機的主機性能指標以進行故障預測排查，這些指標包括CPU 利用率、內(nèi)存利用率、IO 設備以及網(wǎng)絡IO。由于過大的狀態(tài)信息采集間隔易造成監(jiān)控盲區(qū)，漏掉發(fā)生異常的虛擬機，過小的間隔又會造成耗時成本增加，影響檢測性能，因此本方法采集時間間隔設置為20 s 一個周期。

每臺虛擬機配備CentOS 8.1 操作系統(tǒng)，運行1 個探針以負責對收集到的狀態(tài)信息進行降維與故障預測。云平臺中被監(jiān)控的虛擬機參數(shù)如表1所示。

表1 云平臺中設備參數(shù)

實驗共收集到2 000 條性能指標數(shù)據(jù)，經(jīng)過人工分析得到其中1 805 條為正常狀態(tài)數(shù)據(jù)。為使訓練集和測試集的分布具有一致性，采用系統(tǒng)抽樣的方法設置訓練集個數(shù)占比為65%，測試集占比為35%，即訓練集包含1 300 條數(shù)據(jù)，測試集包含700 條數(shù)據(jù)。SVM 中的參數(shù)設置為C=256，核函數(shù)為高斯核函數(shù)，控制因子σ2=10，對比分析SVM-Random 初排查算法與加入精確排查后的SVM-Random 算法，實驗結果如圖4 所示。

圖4 云平臺故障預測結果

從圖4 可以看出，與初排查方法相比，加入精確排查算法后的SVM-Random 模型的準確率、精確率以及召回率分別提升了5.36%，2.00%和2.26%，故本方法能夠有效提升分類效果，可以實現(xiàn)故障精準排查。

本節(jié)設置參數(shù)優(yōu)化算法對比實驗，在加入精排查階段SVM 模型的基礎上對比隨機搜索法與網(wǎng)格搜索法，對比結果如表2 所示。

表2 參數(shù)優(yōu)化方法對比結果

從表2 可以看出，基于網(wǎng)格搜索法進行參數(shù)尋優(yōu)的準確率雖略高于隨機搜索法，但尋優(yōu)的時間成本過高。因此選擇隨機搜索法能夠有效保障效率與準確率，在最少的時間內(nèi)可獲得準確率更高的參數(shù)。

以上結果表明，SVM-Random 算法模型在具有良好分類效果以實現(xiàn)故障精準排查的同時，還能保證時間效率，證明了機器學習在電力云中的技術可行性、應用前景和價值，進一步擴大了云計算在電力系統(tǒng)中的應用范圍，使得系統(tǒng)的業(yè)務感知更精確、排障時間更迅速。

圖5 展示了采用平均鏈接聚類算法實時生成的浙電容器云平臺的部分網(wǎng)絡拓撲結構，通過調(diào)用關系圖以及關系業(yè)務拓撲圖，清晰明確地展現(xiàn)了各業(yè)務的關聯(lián)，能夠直觀地對問題進行定界，清晰了解業(yè)務之間的關聯(lián)。圖6 展示了浙江電力公司開發(fā)的運維系統(tǒng)對容器云平臺中的各節(jié)點監(jiān)控。表3 則展示了通過SVM-Random 算法排查出的故障示例。統(tǒng)一的智能化監(jiān)控平臺可以更精確地發(fā)現(xiàn)電力系統(tǒng)中的各類問題，形成全方位的感知，提升健康運維監(jiān)管能力。

圖5 浙電容器云平臺部分網(wǎng)絡拓撲結構

圖6 浙電容器云平臺的節(jié)點性能監(jiān)控

表3 浙電容器云平臺的故障排查結果示例

4 結語

本文提出了一種基于機器學習的浙電容器云平臺的故障排查方法，首先基于平均鏈接聚類算法，動態(tài)實時地識別網(wǎng)絡拓撲結構，再基于SVMRandom 方法成功排查浙電容器云平臺中的各個節(jié)點故障，有效提高了浙電容器云平臺的可靠性和性能，驗證了機器學習方法在電力系統(tǒng)中的應用前景。

本文所做研究僅是云平臺故障診斷的基本階段，后續(xù)還需采用將機器學習方法應用到事務聚合分析、調(diào)用鏈查詢、全鏈日志關聯(lián)中，以便能夠成功分析出故障產(chǎn)生的原因以及對故障進行溯源，為電力系統(tǒng)的運維提供更多的參考信息和決策支持。