李 寧,張建功,劉 學
(國網河北省電力有限公司 滄州供電分公司,河北 滄州 061000)
為提高交換機故障研判的精度,文章提出了一種基于Attention 機制的門控循環(huán)單元(Gated Recurrent Unit,GRU)故障判斷模型,采用GRU 模型從交換機故障前10 min 的內存占用率、中央處理器(Central Processing Unit,CPU)使用率以及風扇轉速等數據中提取故障類型特征向量,進行建模學習,并引入Attention 機制為不同隱藏狀態(tài)設置不同的權重,增強網絡模型,該模型旨在快速判斷交換機故障類型。通過實驗證明,該方法具備更高的交換機故障判斷準確性,可以幫助網絡運維人員快速發(fā)現和解決交換機故障,提高網絡的穩(wěn)定性和可靠性。
在網絡故障判斷領域,很多研究者使用機器學習、深度學習等技術來實現網絡故障的自動判斷和診斷。其中,基于神經網絡的方法具有很好的效果與應用前景。
常見的交換機故障分為硬件故障和軟件故障,其中硬件故障包括電源故障、端口故障、模塊故障、線纜故障以及背板故障等;軟件故障包括密碼丟失、系統(tǒng)錯誤、配置不當以及外部因素等[1]。在交換機故障判斷方面,也有一些研究者使用神經網絡等技術進行研究。例如,鄧科等人使用BP 神經網絡對交換機故障進行診斷,并進行了實驗驗證[2]。侯曉凱使用神經網絡對網絡設備的CPU 使用率進行預測,可以幫助運維人員更好地了解交換機的負載情況[3]。
然而,這些方法在實際應用中還存在一些局限性。例如,一些方法需要收集大量的數據進行訓練,且在不同的網絡環(huán)境中可能會出現一定的誤判情況。交換機故障的誘發(fā)原因很多,排查范圍很廣,因此排查故障原因較為困難且對運維人員的技術和經驗水平要求較高,采用深度學習算法輔助運維人員快速判斷交換機故障類別,提高交換機運維效率。本文提出了一種新的基于神經網絡的交換機故障判斷方法,旨在提高判斷的準確性和實用性。
神經網絡是一種模擬人類神經系統(tǒng)的計算模型,它由多個神經元組成,并通過權重和偏置等參數進行計算和學習。本文使用了一種基于Attention 機制的GRU 模型來實現交換機故障判斷。
GRU 是長短期記憶網絡(Long Short-Term Memory,LSTM)的變體,能夠有效處理高維時間序列數據,其核心是通過引入一個反饋連接,將神經元的輸出作為下一時刻的輸入,因此在處理序列數據時可以保留先前的信息。GRU將LSTM的遺忘門、輸入門、輸出門簡化為更新門和重置門,加快模型的計算速度,解決深度學習模型運算速度慢的問題,從而減少模型階段性重訓練時間成本。在交換機故障研判中,文章使用GRU 模型能夠提高對交換機歷史數據的利用率和輸出的準確性,可以在保留先前信息的同時考慮后續(xù)數據的影響[4,5]。
本文所提模型結構如圖1 所示,基于Attention 機制的GRU 模型可分解為輸入層、GRU 層、Attention層和輸出層。
圖1 模型結構
2.2.1 數據預處理和特征提取
本文使用了真實的交換機數據集進行實驗驗證。該數據集包含了交換機故障前10 min 的內存占用率、CPU 使用率以及風扇轉速等數據,每個交換機的數據長度為600 個時間步長。在使用數據集之前,需要對數據進行預處理和特征提取,以便于神經網絡的訓練和學習。
具體來說,首先對數據進行歸一化處理,將數據的取值范圍限制在[0,1]。其次,將數據集按照時間步長進行切分,每個時間步長的數據作為一個樣本。對于每個樣本,提取了以下特征。
均值:每個時間步長的數據平均值。
標準差:每個時間步長的數據標準差。
3.1 苗床準備:篩選田園土,腐熟馬糞,大糞按5∶4∶1比例配制,并按每15千克營養(yǎng)土加80%代森錳鋅5克混合均勻,按所需苗床面積鋪10厘米厚營養(yǎng)土,整平待用。
最小值:每個時間步長的數據最小值。
最大值:每個時間步長的數據最大值。
這些特征可以反映出交換機在故障前10 min 內的性能狀況,有助于神經網絡學習交換機故障的模式和規(guī)律。
2.2.2 GRU 層
GRU 是循環(huán)神經網絡(Recurrent Neural Network,RNN)的一種,其輸入輸出結構與普通的RNN 一樣的,其計算效率和訓練效率高。GRU 的內部結構如圖2 所示,其計算過程如下所述。
圖2 GRU 內部結構
圖2 中:rt為重置門;zt為更新門;ht-1為上一節(jié)點傳輸下來的狀態(tài);xt為當前節(jié)點的輸入;σ為Sigmoid 激活函數;RELU 為Relu 激活函數。
重置門表達式為
候選隱藏層狀態(tài)表達式為
更新表達式為
式中:⊙為矩陣對應元素乘積操作;Wxr、Whr、Wxz、Whz、Whx、Whh為對應的權重;br、bz、bh分別為rt、zt、t對應的偏置向量。GRU 使用一個門控單元zt同時進行遺忘和選擇性記憶;(1-zt)⊙ht-1是對原本隱藏狀態(tài)的選擇性遺忘;zt⊙是對當前節(jié)點信息的選擇性記憶,zt∈(0,1);zt趨近于1 則記憶的越多,越趨近于0 則遺忘的越多。
2.2.3 注意力機制
Attention 機制是一種模擬人腦將注意力著重放在重要信息的一種行為,可以對輸入特征賦予不同的權重,從而加強重要信息的影響,其權重計算過程為
式中:St為Attention 層t時刻的輸出;⊙為矩陣對應元素乘積操作;Wa為對應的權重,ba為偏置向量。
文章使用TensorFlow 深度學習框架來實現GRU網絡模型,并使用交叉熵損失函數進行模型的訓練,使用Adam 優(yōu)化器對模型參數進行更新,并設置合適的學習率和批次大小等參數。
為了防止過擬合,本文使用了一些常見的正則化技術,如L1 和L2 正則化、Dropout 等。此外,本文還使用早停法防止模型在訓練過程中出現過擬合情況。
為驗證所提方法的可行性和有效性,文章在一臺機房的交換機上進行實驗,將其故意設置成2 種不同的故障狀態(tài):一種是端口故障;另一種是鏈路故障。本文使用交叉驗證的方法,將數據集按照4 ∶1 的比例分為訓練集和測試集,訓練集用于訓練模型,測試集用于評估模型的性能。
實驗結果表明,本文提出的基于Attention 機制的GRU 交換機故障判斷方法,在判斷故障類型和故障時間等方面均取得了較好的效果。端口故障和鏈路故障的判斷結果對比如圖3 所示,模型的準確率分別為94.23%和91.67%。根據混淆矩陣計算F1 得分如圖4 所示,分別為0.95 和0.92。在故障時間的判斷上,模型的平均誤差在5 min 以內。
圖3 準確率變化折線
圖4 F1 得分
通過分析實驗結果發(fā)現,在故障判斷中,CPU使用率、內存占用率等特征的影響最為顯著。這表明在交換機故障判斷中,這些性能指標是比較重要的參考依據。
本文提出了一種基于Attention 機制的GRU 交換機故障判斷方法,該方法能夠利用交換機故障前10 min 的CPU 使用率、內存占用率以及風扇轉速等數據,對交換機故障進行快速判斷。實驗結果表明,該方法在判斷故障類型和故障時間等方面具有較好的效果,可以為網絡管理員提供快速的故障判斷和處理方法。在未來的研究中,可以考慮結合其他監(jiān)測數據和技術,如網絡流量監(jiān)測、異常檢測等,來提高交換機故障判斷的準確性和魯棒性。同時,也可以探索一些新的神經網絡模型和算法,如卷積神經網絡等,來進一步提高模型的性能和可靠性。