亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

FD-LSTM:基于大規(guī)模系統(tǒng)日志的故障分析模型*

2021-02-03 07:24:46方姣麗李勝國

計(jì)算機(jī)工程與科學(xué) 2021年1期

方姣麗,左克，黃春，劉杰，李勝國，盧凱

(國防科技大學(xué)計(jì)算機(jī)學(xué)院，湖南長沙 410073)

1 引言

在通往E級系統(tǒng)的道路上，可靠性(僅次于并行管理和能源效率)被視為三大挑戰(zhàn)之一。為保證系統(tǒng)的可靠性，已有許多容錯(cuò)技術(shù)被提出并應(yīng)用于系統(tǒng)，主要有被動(dòng)容錯(cuò)與主動(dòng)容錯(cuò)2種機(jī)制。被動(dòng)容錯(cuò)主要是回滾恢復(fù)方法，通過定期保存程序執(zhí)行現(xiàn)場以及其他重要信息，并在系統(tǒng)發(fā)生故障時(shí)實(shí)施系統(tǒng)恢復(fù)，保證程序能夠持續(xù)正確地運(yùn)行。而為避免系統(tǒng)發(fā)生失效，在故障及差錯(cuò)的潛伏期內(nèi)及時(shí)地發(fā)現(xiàn)故障、修復(fù)故障或者隔離故障，這就是主動(dòng)容錯(cuò)機(jī)制。相比于被動(dòng)容錯(cuò)的回滾恢復(fù)等方法，大量的研究集中在主動(dòng)容錯(cuò)的預(yù)測故障上，即預(yù)測故障的能力，這樣就可以在任何故障出現(xiàn)之前采取規(guī)避措施。這將允許在系統(tǒng)仍然正常運(yùn)行的情況下采用緩解機(jī)制，從而能夠更容易地推理全局應(yīng)用狀態(tài)，并降低保存和隨后恢復(fù)數(shù)據(jù)的昂貴成本。

本文使用我國某大規(guī)模計(jì)算系統(tǒng)投產(chǎn)后的作業(yè)故障日志信息，對日志信息進(jìn)行分析處理，設(shè)計(jì)實(shí)現(xiàn)故障分析模型FD-LSTM(Fault Diagnosis-Long Short-Term Memory)，主要工作有：(1)分析處理該大規(guī)模計(jì)算系統(tǒng)的日志信息，得到系統(tǒng)的故障時(shí)間分布特性和空間分布特性，并與國外系統(tǒng)的故障時(shí)空分布特性進(jìn)行了對比；(2)由于系統(tǒng)的故障類型包括軟件故障、硬件故障、人為故障及不明原因的各種故障，采用K-Means方法對故障進(jìn)行聚類，并分析了每種故障類型的特點(diǎn)；(3)結(jié)合故障類型、故障日志時(shí)間序列和系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)并實(shí)現(xiàn)了FD-LSTM模型；(4)通過實(shí)驗(yàn)論證了時(shí)間預(yù)測和空間預(yù)測的精度與故障聚類類型相關(guān)，聚類結(jié)果可以分為2類，一類是與時(shí)間相關(guān)的故障，比如，由于熱和網(wǎng)絡(luò)的原因引起的故障，另一類則是與時(shí)間無關(guān)的故障，比如純硬件故障的單結(jié)點(diǎn)內(nèi)存硬件故障。實(shí)驗(yàn)結(jié)果表明，與時(shí)間相關(guān)的故障類型，基于LSTM進(jìn)行故障發(fā)生時(shí)間和故障結(jié)點(diǎn)位置的預(yù)測效果較好。故障發(fā)生時(shí)間預(yù)測的RMSE(Root Mean Square Error)可低至0.461，同時(shí)，對故障發(fā)生的結(jié)點(diǎn)位置號cn進(jìn)行預(yù)測，預(yù)測精度可達(dá)80.56%。

2 相關(guān)研究技術(shù)

2.1 故障分析技術(shù)

故障預(yù)測是一個(gè)被廣泛研究的領(lǐng)域。目前，已有眾多方法用來實(shí)現(xiàn)故障預(yù)測，這些方法大致可以分為3類:(1)基于故障機(jī)理PoF(Physics-of-Failure)的方法，PoF是一種根據(jù)故障發(fā)生的內(nèi)在機(jī)制和根本原因進(jìn)行間接預(yù)測的方法；(2)數(shù)據(jù)驅(qū)動(dòng)DD(Data-Driven)的方法，DD是一種應(yīng)用統(tǒng)計(jì)學(xué)或者機(jī)器學(xué)習(xí)等技術(shù)手段對可靠性指標(biāo)進(jìn)行直接預(yù)測的方法；(3)融合的方法，這種方法是前2種方法的結(jié)合[1]。近年來，數(shù)據(jù)驅(qū)動(dòng)的方法由于其便捷性和高效性等特點(diǎn)，在實(shí)際可靠性預(yù)測中的應(yīng)用日漸廣泛。

故障時(shí)間序列是一個(gè)重要的可靠性指標(biāo)，能夠展示故障的動(dòng)態(tài)演化過程，對系統(tǒng)故障的預(yù)測可以通過對故障時(shí)間序列的預(yù)測來實(shí)現(xiàn)。通過對故障預(yù)測領(lǐng)域?qū)嵺`狀況的全面調(diào)查可知，故障時(shí)間序列目前已經(jīng)可以被多種數(shù)據(jù)驅(qū)動(dòng)的方法預(yù)測，可以用二維矩陣(如表1所示)來分析研究現(xiàn)狀[2]，包括：(1)被預(yù)測的故障類型；(2)所使用的預(yù)測方法。

Table 1 Failure prediction in high-performance computing systems (accuracy/recall value in %)表1 高性能計(jì)算系統(tǒng)中的故障預(yù)測(精度/召回值以%為單位)

說明：

加了底紋的文字顯示了預(yù)測此類故障的能力；

上標(biāo)A：不同數(shù)據(jù)集的結(jié)果；

上標(biāo)B:不同訓(xùn)練參數(shù)的結(jié)果；

上標(biāo)C：不同參數(shù)的結(jié)果差異很大；

上標(biāo)D：論文列出了幾種方法或設(shè)置；

上標(biāo)*：提供了許多結(jié)果，請見參考文獻(xiàn)；

-：未給出數(shù)值結(jié)果。

表1中的水平維度對故障進(jìn)行分類，從而顯示出有哪些故障。SW/S代表軟件或系統(tǒng)故障，Node代表硬件故障，在這2種情況下，故障的根本原因都是不確定的(不是精確的)。精確的故障預(yù)測可以分為磁盤Disk、內(nèi)存和網(wǎng)絡(luò)故障預(yù)測。由于內(nèi)存和網(wǎng)絡(luò)故障沒有預(yù)測精度和召回值，故沒有列出，而GPU故障預(yù)測工作非常有限，也略去。水平維度的日志類表示的是通過系統(tǒng)日志來預(yù)測即將發(fā)生的故障的方法。

表1所列的方法要么需要復(fù)雜的特征提取，要么無法捕獲長期的依賴關(guān)系，難以適應(yīng)系統(tǒng)規(guī)模；同時(shí)，這些方法沒有對故障的發(fā)生時(shí)間進(jìn)行有效預(yù)測，并且也不是所有方法都給出了某一確定故障類型的預(yù)測結(jié)果。最近 Coates 等人[24]證明，大規(guī)模的訓(xùn)練可以通過在HPC基礎(chǔ)架構(gòu)上的深度學(xué)習(xí)來完成，具有可接受的分類性能和可伸縮的效率。

2.2 長短時(shí)記憶網(wǎng)絡(luò)(LSTM)

循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)對較長時(shí)間序列的處理效果不理想，原因之一就是無法記住長距離之前的信息，而LSTM 網(wǎng)絡(luò)通過引入一組存儲(chǔ)器單元，允許網(wǎng)絡(luò)學(xué)習(xí)何時(shí)忘記歷史信息以及何時(shí)用新信息更新存儲(chǔ)器單元，可以很好地處理時(shí)間敏感的數(shù)據(jù), 成功地解決了原始循環(huán)神經(jīng)網(wǎng)絡(luò)中存在的問題。LSTM可以隨著時(shí)間的推移而忘記或重新學(xué)習(xí)，使其成為了較其他 RNNs 如 Logit模型和多層感知機(jī)更好的選擇。最近有關(guān)利用日志數(shù)據(jù)對故障發(fā)生時(shí)間和故障位置進(jìn)行預(yù)測的研究成果有Das等人[25]完成的Desh。其研究表明可以使用0.5的閾值來推斷結(jié)點(diǎn)故障，即當(dāng)LSTM獲得MSE≤0.5時(shí)，可以考慮使用預(yù)測結(jié)果來檢查故障。由于Desh和本文研究的日志數(shù)據(jù)記錄的故障數(shù)據(jù)來自于不同的HPC系統(tǒng)，使用的日志數(shù)據(jù)格式與內(nèi)容也不相同，因此，本文利用日志數(shù)據(jù)進(jìn)行故障預(yù)測，以區(qū)別于Desh，但本文將利用其研究結(jié)果的LSTM閾值來評估預(yù)測結(jié)果。

3 FD-LSTM

本文構(gòu)建的FD-LSTM預(yù)測模型的整體框架如圖1所示，包括輸入層、隱藏層、輸出層、網(wǎng)絡(luò)訓(xùn)練和網(wǎng)絡(luò)預(yù)測5個(gè)功能模塊。輸入層負(fù)責(zé)對原始故障時(shí)間序列進(jìn)行初步處理，包括劃分?jǐn)?shù)據(jù)集、標(biāo)準(zhǔn)化和數(shù)據(jù)分割，得到的新故障時(shí)間序列X1,X2,…,Xt滿足網(wǎng)絡(luò)輸入要求;隱藏層采用如圖2所示的 FD-LSTM 細(xì)胞搭建循環(huán)神經(jīng)網(wǎng)絡(luò)；輸出層提供預(yù)測結(jié)果P1,P2,…,Pt;網(wǎng)絡(luò)訓(xùn)練計(jì)算模型輸出與理論輸出的損失，采用Adam 優(yōu)化算法;網(wǎng)絡(luò)預(yù)測采用迭代的方法逐點(diǎn)預(yù)測,對預(yù)測結(jié)果反標(biāo)準(zhǔn)化，可以得到與測試集對應(yīng)的故障發(fā)生時(shí)間或結(jié)點(diǎn)位置。

Figure 1 Overall framework of the FD-LSTM prediction model圖1 FD-LSTM 預(yù)測模型的整體框架

在圖2所示的FD-LSTM隱藏層細(xì)胞結(jié)構(gòu)中，從細(xì)胞狀態(tài)ct-1到ct是細(xì)胞狀態(tài)的更新，細(xì)胞狀態(tài)類似于傳送帶,直接在整個(gè)鏈上運(yùn)行，只有一些少量的線性交互,信息很容易在上面流轉(zhuǎn)而保持不變。LSTM 通過精心設(shè)計(jì)的稱作為“門”的結(jié)構(gòu)來刪除或者增加信息到細(xì)胞狀態(tài)。門是一種讓信息選擇式通過的方法，包含一個(gè) Sigmoid 神經(jīng)網(wǎng)絡(luò)層和一個(gè)按位的乘法操作。f、i、o分別表示遺忘門、輸入門、輸出門。FD-LSTM網(wǎng)絡(luò)采用 BPTT (Backwards Propagation Through Time)算法進(jìn)行訓(xùn)練。下面給出FD-LSTM網(wǎng)絡(luò)的訓(xùn)練過程：

Figure 2 FD-LSTM hidden layer cell structure圖2 FD-LSTM隱藏層細(xì)胞結(jié)構(gòu)

(1)計(jì)算遺忘門的輸出值ft。FD-LSTM 的第1步是決定從單元狀態(tài)中丟棄什么信息，這是通過一個(gè)遺忘門實(shí)現(xiàn)的。遺忘門的輸入是ht-1和xt，輸出一個(gè)0～1的數(shù)值來決定單元狀態(tài)ct-1中丟棄多少信息，所以該門主要用于控制歷史信息的輸入，過濾掉沒用的信息。遺忘門的計(jì)算方法如式(1)所示：

ft=σ(Wf·[ht-1,xt]+bf)

(1)

其中，σ代表Sigmoid 激勵(lì)函數(shù)，Wf代表遺忘門權(quán)值矩陣，bf代表偏置向量，xt代表當(dāng)前時(shí)刻的輸入數(shù)據(jù)，ht-1代表FD-LSTM 單元前一時(shí)刻的輸出值。

(2)計(jì)算輸入門的值。包含2部分內(nèi)容:①輸入門 Input Gate 的值，也就是決定哪些信息需要更新;②一個(gè) tanh 層生成的向量δ，也就是備選的用來更新的內(nèi)容。這2部分的計(jì)算如式(2)和式(3)所示:

it=σ(Wi·[ht-1,xt]+bi)

(2)

δt=tanh(Wc·[ht-1,xt]+bc)

(3)

其中,Wi是輸入門的權(quán)值矩陣，bi是當(dāng)前時(shí)刻的偏置向量，tanh 是雙曲正切激活函數(shù)，Wc，bc分別是計(jì)算單元狀態(tài)的權(quán)值矩陣和偏置向量。

(3)更新舊的單元狀態(tài)。將向量ct-1更新為向量ct，讓舊的單元狀態(tài)和遺忘門的輸出ft按元素相乘，丟棄掉不需要的信息，然后加上it·δt組成的新的候選值向量，也就是決定添加多少新的信息到單元狀態(tài)。更新單元狀態(tài)的實(shí)質(zhì)就是丟棄舊信息，添加新信息。更新過程如式(4)所示:

ct=ft·ct-1+it·δt

(4)

(4)計(jì)算輸出門的值。輸出門使用 Sigmoid 激活函數(shù)確定最終輸出哪些信息。然后，單元狀態(tài)經(jīng)過 tanh 激活函數(shù)，由于 tanh 的輸出值在-1～1，所以輸出一個(gè)元素值為-1～1的向量，并將該向量和輸出門的輸出按元素相乘，最終確定要輸出的信息。計(jì)算方法如式(5)和式(6)所示：

ot=σ(Wo·[ht-1,xt]+bo)

(5)

ht=ot*tanh(ct)

(6)

其中,Wo為輸出門的權(quán)值矩陣，bo為當(dāng)前時(shí)刻的偏置向量，ht為t時(shí)刻FD-LSTM 單元的輸出，ot為輸出門的輸出。

(5)反向調(diào)整。

FD-LSTM 網(wǎng)絡(luò)模型參數(shù)反向調(diào)整使用的是最小化代價(jià)函數(shù)方法，能夠使輸出值盡可能逼近目標(biāo)值。假設(shè)RUL(t)為t時(shí)刻的RUL真實(shí)值，RULest(t)是t時(shí)刻的 RUL預(yù)測值。FD-LSTM 使用式(7)得到損失函數(shù)：

J(t)=∑‖RUL(t)-RULest(t)‖2

(7)

對于FD-LSTM 梯度優(yōu)化問題，常見的優(yōu)化算法有 AdaGrad、RMSprop、隨機(jī)梯度下降法 SGD(Stochastic Gradient Descent) 和適應(yīng)性動(dòng)量估計(jì)算法Adam(Adaptive moment estimation)等。本文選用Adam算法,該算法是一種有效的基于梯度的隨機(jī)優(yōu)化方法，融合了AdaGrad和RMSPro算法的優(yōu)勢，能夠?qū)Σ煌瑓?shù)計(jì)算適應(yīng)性學(xué)習(xí)率并且占用較少的存儲(chǔ)資源。相比于其他隨機(jī)優(yōu)化方法，Adam算法在實(shí)際應(yīng)用中整體表現(xiàn)更優(yōu)[26]。

4 實(shí)驗(yàn)設(shè)計(jì)

聚類分析法是大數(shù)據(jù)挖掘的主要手段之一。系統(tǒng)的故障類型包括軟件故障、硬件故障、人為故障以及不明原因的各種故障，可以使用K-Means對故障類型進(jìn)行聚類。在使用K-Means對故障進(jìn)行聚類時(shí)，K值的確定方法為手肘法，其核心指標(biāo)是誤差平方和SSE(Sum of the Squared Errors)，其計(jì)算表達(dá)式為:

(8)

其中，Ci是第i個(gè)簇，p是Ci中的樣本點(diǎn)，mi是Ci的質(zhì)心(Ci中所有樣本的均值)，SSE是所有樣本的聚類誤差，代表了聚類效果的好壞。其核心思想是：隨著聚類數(shù)K的增大，樣本劃分會(huì)更加精細(xì)，每個(gè)簇的聚合程度會(huì)逐漸提高，那么誤差平方和SSE自然會(huì)逐漸變小。當(dāng)K小于真實(shí)聚類數(shù)時(shí)，由于K的增大會(huì)大幅增加每個(gè)簇的聚合程度，故SSE的下降幅度會(huì)很大；而當(dāng)K到達(dá)真實(shí)聚類數(shù)時(shí)，再增加K所得到的聚合程度會(huì)迅速變小，所以SSE的下降幅度會(huì)驟減；然后隨著K值的繼續(xù)增大而趨于平緩。也就是說SSE和K的關(guān)系圖是一個(gè)手肘的形狀，而這個(gè)肘部對應(yīng)的K值就是數(shù)據(jù)的真實(shí)聚類數(shù)。

對數(shù)據(jù)集進(jìn)行分析和預(yù)處理后，利用sklearn的預(yù)處理模塊對數(shù)據(jù)特征中的非數(shù)值特征進(jìn)行編碼，接著對所有特征進(jìn)行歸一化處理，然后轉(zhuǎn)化為有監(jiān)督學(xué)習(xí)問題。考慮到上一故障的提前時(shí)間和故障數(shù)據(jù)，本文將把監(jiān)督學(xué)習(xí)問題作為預(yù)測當(dāng)前故障的提前時(shí)間(time-interval)。將聚類后的故障數(shù)據(jù)集劃分為訓(xùn)練集和測試集。為了對模型進(jìn)行訓(xùn)練，利用數(shù)據(jù)集的前4/5進(jìn)行訓(xùn)練，剩下的1/5進(jìn)行評估。FD-LSTM模型中，隱藏層有50個(gè)神經(jīng)元，輸出層有1個(gè)神經(jīng)元(回歸問題)，輸入變量是一個(gè)時(shí)間步(t-1)的特征，損失函數(shù)采用MAE(Mean Absolute Error)，模型采用50個(gè)epochs并且每個(gè)batch的大小為72。最后，在fit()函數(shù)中設(shè)置validation_data參數(shù)，記錄訓(xùn)練集和測試集的損失，并在完成訓(xùn)練和測試后繪制損失圖。

5 結(jié)果分析

5.1 數(shù)據(jù)分析預(yù)處理

本節(jié)將對某系統(tǒng)故障日志數(shù)據(jù)進(jìn)行分析處理，并得到該系統(tǒng)的故障時(shí)空分布特性。鑒于Mohammed等人[27]對國外的超大規(guī)模計(jì)算系統(tǒng)的組件故障分布進(jìn)行的研究，可以推斷兩者分布具有相似性，即不符合正態(tài)分布。

從某系統(tǒng)取得日志數(shù)據(jù)文件后，對部分?jǐn)?shù)據(jù)文件進(jìn)行分析處理，調(diào)整日志中故障排列順序，使數(shù)據(jù)按時(shí)間先后順序排列，由于故障發(fā)生時(shí)間不確定，同時(shí)也為了便于預(yù)測故障發(fā)生時(shí)間，按照數(shù)據(jù)集中時(shí)間先后順序計(jì)算相鄰故障發(fā)生的時(shí)間間隔(單位：s)并保存為time-interval列，排除間隔時(shí)間中的異常值后，此時(shí)數(shù)據(jù)集總共有1 048 574行。每個(gè)故障結(jié)點(diǎn)發(fā)生的故障統(tǒng)計(jì)數(shù)目如圖3所示，發(fā)生故障的結(jié)點(diǎn)數(shù)目較多，其中，管理結(jié)點(diǎn)(結(jié)點(diǎn)編號為mn3，在圖3橫坐標(biāo)的最后)的故障發(fā)生數(shù)目330 429，明顯高于其他所有結(jié)點(diǎn)的。

Figure 3 Statistics on the number of times of faulty node failure (including mn3 node)圖3 故障結(jié)點(diǎn)故障發(fā)生次數(shù)統(tǒng)計(jì)(含mn3結(jié)點(diǎn))

Figure 4 Distribution of system fault space圖4 系統(tǒng)故障空間分布

為了得到較好的預(yù)測結(jié)果，在對故障結(jié)點(diǎn)位置進(jìn)行預(yù)測的時(shí)候本文暫時(shí)不對管理結(jié)點(diǎn)進(jìn)行預(yù)測，即除去數(shù)據(jù)集中管理結(jié)點(diǎn)的相關(guān)數(shù)據(jù)，此時(shí)數(shù)據(jù)集總共有718 142行，為便于查看故障空間分布特征，統(tǒng)計(jì)該系統(tǒng)每個(gè)機(jī)柜的故障發(fā)生次數(shù)，可以得到如圖4所示的故障空間分布。通過對故障日志數(shù)據(jù)的處理，可以驗(yàn)證故障的空間分布不服從正態(tài)分布，與Mohammed等人[27]結(jié)果(如圖4所示)相似。

圖5為故障提前時(shí)間分布特征，也并非正態(tài)分布。經(jīng)分析故障發(fā)生的間隔時(shí)間基本在0～20 s。計(jì)算各個(gè)數(shù)值變量之間的相關(guān)系數(shù)，得到一個(gè)5*5矩陣，可用熱度圖可視化相關(guān)系數(shù)矩陣，如圖6所示。

Figure 5 Time distribution of fault圖5 故障發(fā)生時(shí)間分布

Figure 6 Heat chart of correlation of numerical variables圖6 數(shù)值變量相關(guān)關(guān)系熱度圖

5.2 K-Means聚類

采用手肘法得到如圖7所示的K與SSE關(guān)系圖。顯然，肘部對應(yīng)的K值為3(曲率最高)，故對于這個(gè)數(shù)據(jù)集的聚類而言，最佳聚類數(shù)應(yīng)該選3，聚類結(jié)果餅圖如圖8所示，由此可知，聚類0占比58.28%，聚類1占比22.90%，聚類2占比18.82%。

Figure 7 K-SSE relationship diagram圖7 K-SSE關(guān)系圖

Figure 8 Pie chart of clustering results圖8 聚類結(jié)果餅圖

聚類結(jié)果與故障數(shù)據(jù)特征關(guān)系由圖9所示的雷達(dá)圖可知，聚類0故障是最常見的故障，因此聚類統(tǒng)計(jì)數(shù)目最多，最為頻發(fā)，聚類1故障在故障位置和故障校驗(yàn)碼上的特征最為明顯，相比于聚類0的故障，聚類1的故障發(fā)生頻率較低，因此可以判斷，聚類1中嚴(yán)重程度較高的故障數(shù)高于聚類0的，而聚類2中嚴(yán)重程度較高的故障數(shù)最多，頻發(fā)度最低。

Figure 9 Cluster radar chart圖9 聚類雷達(dá)圖

對故障數(shù)據(jù)及聚類后故障類別的故障優(yōu)先級進(jìn)行統(tǒng)計(jì)，可以驗(yàn)證前述推斷，故障優(yōu)先級越高，故障嚴(yán)重程度越低。其統(tǒng)計(jì)圖如圖10所示，具體故障優(yōu)先級對應(yīng)數(shù)目如表2所示。本文在取得日志故障數(shù)據(jù)后，去除管理結(jié)點(diǎn)故障日志數(shù)據(jù)后有718 142條數(shù)據(jù)，其中，故障優(yōu)先級為5和7的故障均為管理結(jié)點(diǎn)的故障優(yōu)先級，因此，表2中無優(yōu)先級為5和7的故障。在進(jìn)行K-Means聚類時(shí)，數(shù)據(jù)預(yù)處理剔除了極少數(shù)異常數(shù)據(jù)。

Figure 10 Detailed fault priority ranking圖10 詳細(xì)故障優(yōu)先級分級

Table 2 Detailed fault priority ranking

5.3 FD-LSTM

HPC系統(tǒng)在硬件、軟件和應(yīng)用程序?qū)用嫔蠒?huì)發(fā)生各種各樣的故障，包括由于電源不良、網(wǎng)絡(luò)接口卡出現(xiàn)故障或無法解釋的重啟等結(jié)點(diǎn)故障，以及對并行文件系統(tǒng)的寫入失敗故障，需要從并行文件系統(tǒng)重新啟動(dòng)的不常見硬件故障，工作停止了進(jìn)展但沒有失敗的工作掛起故障，以及由于浮點(diǎn)異?；蛴捎谒矐B(tài)處理器故障導(dǎo)致的內(nèi)存分段違規(guī)的作業(yè)失敗故障等等[27]。利用K-Means聚類的故障分類結(jié)果，分別對故障聚類基于FD-LSTM進(jìn)行故障預(yù)測，可以從模型預(yù)測結(jié)果判斷故障聚類類型是否與時(shí)間相關(guān)。

5.3.1 故障發(fā)生時(shí)間的預(yù)測

利用FD-LSTM模型，對K-Means聚類的每個(gè)類別進(jìn)行單獨(dú)的故障發(fā)生時(shí)間預(yù)測測試后繪制的損失圖如圖11所示。從訓(xùn)練與測試損失折線圖可以明顯看出，基于K-Means聚類的FD-LSTM故障預(yù)測效果要優(yōu)于初始故障預(yù)測。

Figure 11 Chart of predicting training and test loss圖11 故障發(fā)生時(shí)間預(yù)測訓(xùn)練與測試損失圖

基于FD-LSTM對各個(gè)類別進(jìn)行故障發(fā)生時(shí)間預(yù)測的RMSE如表3所示。

Table 3 RMSE based on FD-LSTM time prediction for each category表3 基于FD-LSTM的各類別故障發(fā)生時(shí)間預(yù)測的RMSE

聚類2類故障發(fā)生時(shí)間實(shí)際預(yù)測結(jié)果最好，聚類1的最差。由于某一故障發(fā)生后，受其影響結(jié)點(diǎn)編號(cn號)很可能不是單一的，故而，在某一結(jié)點(diǎn)發(fā)生故障后，在幾乎沒有提前時(shí)間的情況下也很可能會(huì)相繼有幾個(gè)結(jié)點(diǎn)發(fā)生故障，因此實(shí)際很多故障發(fā)生時(shí)間極短，而預(yù)測得到的發(fā)生時(shí)間很多也極短。

5.3.2 故障結(jié)點(diǎn)位置預(yù)測

通過上述對故障提前時(shí)間的預(yù)測可知，故障聚類類別2的時(shí)間相關(guān)關(guān)系更加密切，因此對聚類類別進(jìn)行單獨(dú)的故障結(jié)點(diǎn)位置cn號預(yù)測，預(yù)測測試后繪制損失圖如圖12a所示。為與之對比，再對聚類類別1進(jìn)行故障結(jié)點(diǎn)位置cn號預(yù)測，從訓(xùn)練與測試損失折線圖可以看出，聚類2擬合得更好。統(tǒng)計(jì)分析通過聚類2對故障的發(fā)生結(jié)點(diǎn)位置進(jìn)行預(yù)測的結(jié)果，通過式(9)計(jì)算預(yù)測精度Precission：

Precission=TP/(TP+FP)

(9)

由于現(xiàn)在的分簇結(jié)構(gòu)一般是4個(gè)cn號位于一個(gè)簇內(nèi)，而簇內(nèi)是共享內(nèi)存和網(wǎng)絡(luò)的，也就是說，簇內(nèi)任意一個(gè)結(jié)點(diǎn)發(fā)生故障，整個(gè)簇都需要更換。因此，TP包含正確預(yù)測的故障結(jié)點(diǎn)cn號及同簇結(jié)點(diǎn)cn號的數(shù)目。FD是錯(cuò)誤預(yù)測的故障數(shù)目計(jì)算得到的聚類2的精度為80.56%。

Figure 12 Chart of node fault location prediction training and test loss圖12 結(jié)點(diǎn)故障位置預(yù)測訓(xùn)練與測試損失圖

6 結(jié)束語

研究人員一致認(rèn)為，故障預(yù)測即使不完美，精度有限，但還是有用的。假設(shè)50%的結(jié)點(diǎn)故障被正確預(yù)測，而剩下的結(jié)點(diǎn)故障被錯(cuò)誤預(yù)測(假陽性)，那么就可以避免一半昂貴的檢查點(diǎn)/重新啟動(dòng)，這需要通過更廉價(jià)的進(jìn)程遷移進(jìn)行全局協(xié)調(diào)[25]。

通過本文前述研究可以得知，系統(tǒng)故障的時(shí)空分布特性都不符合正態(tài)分布，故本文設(shè)計(jì)并實(shí)現(xiàn)了FD-LSTM，相比經(jīng)典LSTM，它更適用于基于故障日志時(shí)間序列的故障預(yù)測中。本文使用K-Means對故障類型進(jìn)行聚類，聚類結(jié)果可以分為兩大類：一類為與時(shí)間相關(guān)的故障類型，比如，由于熱和網(wǎng)絡(luò)的原因引起的故障；另一類是與時(shí)間無關(guān)的故障類型，比如純硬件故障的單結(jié)點(diǎn)內(nèi)存硬件故障。實(shí)驗(yàn)結(jié)果表明，與時(shí)間相關(guān)的故障類型，基于FD-LSTM進(jìn)行故障發(fā)生時(shí)間和故障結(jié)點(diǎn)位置的預(yù)測效果較好。故障發(fā)生時(shí)間預(yù)測的RMSE可低達(dá)0.461。對故障發(fā)生的結(jié)點(diǎn)位置進(jìn)行預(yù)測，預(yù)測精度可達(dá)80.56%。

本文對故障發(fā)生時(shí)間與發(fā)生位置的預(yù)測是相對獨(dú)立的，目前有利用LSTM和事物的時(shí)空關(guān)系進(jìn)行的研究[28],接下來可以考慮聯(lián)合故障時(shí)空信息對故障進(jìn)行預(yù)測。為了充分挖掘和利用數(shù)據(jù)信息，Wang等人[29]使用Bi-LSTM取得了很好的研究效果，因此未來的工作可以考慮使用雙向LSTM。大規(guī)模計(jì)算系統(tǒng)的故障日志數(shù)據(jù)收集難度較大，收集而來的故障日志數(shù)據(jù)需要進(jìn)行復(fù)雜的清洗處理，而故障隨時(shí)會(huì)產(chǎn)生，因此日志數(shù)據(jù)是在不斷生成的，目前也不能做到因果推理，在未來的工作中，還可以對日志進(jìn)行NLP分析，研究分析如何做到在線演化和因果推理，得到故障傳播模型等。