文 | 凌永志,魯納納,孫啟濤,銀磊
隨著風電技術(shù)的快速發(fā)展,陸上大兆瓦、低風速機型的不斷涌現(xiàn),海上大兆瓦、緊湊型機組的研發(fā)與投產(chǎn)也取得實質(zhì)性的進展,但愈來愈復雜的風電機組結(jié)構(gòu)使得故障率也逐漸提高,因此,設(shè)備和系統(tǒng)的維護及檢修技術(shù)顯得極為重要。
主軸軸承作為發(fā)電機組傳動系統(tǒng)的關(guān)鍵部件,由于受到自然風的影響,承受著巨大的隨機沖擊力,因而,頻繁發(fā)生多種類型的故障。主軸軸承一旦出現(xiàn)故障,若不能及時維護,輕則迫使機組停機,必須更換昂貴組件;重則損毀整個機組,造成巨大損失。因此,開展風電機組主軸軸承的故障分析工作顯得尤為重要。有學者采用支持向量機方法建模,挖掘出主軸軸承存在磨損的潛在故障,但結(jié)合風速基于功率異常的分析方法針對性不夠,不能將故障定位到具體部件。此外,該方法對現(xiàn)有的數(shù)據(jù)及風電機組指標利用不夠,易造成誤報。
隨機森林不僅對噪聲和異常值具備較好的容忍度,而且訓練速度較快,不易出現(xiàn)過擬合,目前已在各種分類及預測問題中得到廣泛應用?,F(xiàn)今,XGBoost集成學習算法也備受青睞,主要應用于特征選擇、狀態(tài)預測以及故障診斷等領(lǐng)域,并取得相對顯著的成果。將隨機森林與XGBoost算法相結(jié)合,可以在一定程度上提高分類準確率,但隨機森林不能很好地處理非平衡數(shù)據(jù),預測效果也需加入多指標評估。因此,本文引入SMOTE采樣方法來改進隨機森林算法處理非平衡數(shù)據(jù)時的不足,用改進后的隨機森林和專家經(jīng)驗結(jié)合的方法進行特征選擇,并加入皮爾遜相關(guān)性系數(shù),確保輸入變量能夠表征主軸軸承狀態(tài),最后進行XGBoost分類模型訓練。仿真結(jié)果表明:所提方法具有較高的準確性及穩(wěn)定性,而且可以實現(xiàn)提前一周預測主軸軸承故障。
隨機森林利用Bootstrap方法從原始N個訓練樣本集中有放回地抽取n(n≤N)個樣本,并且重復K次,建立K個決策樹。決策樹節(jié)點分裂的方法為,先從M個屬性中隨機抽取m個屬性(一般取不大于log2M+1的最大正整數(shù)),再從m個屬性中選出最優(yōu)屬性作為分裂屬性。該算法基于基尼指數(shù)來選擇劃分最優(yōu)屬性,其具體計算如下:
倘若當前樣本D中第i類樣本的占比為π(i=1,2,…, |y|),且滿足為分類類別總數(shù),則D的基尼值為:
其中,Gini(D)取值為[0,1]。
假設(shè)用測試屬性a把隨機變量D劃分為D1和D2兩類,則屬性a的基尼指數(shù)為:
如果A=a1,a2,…,am為候選屬性集合,則選出滿足劃分后基尼指數(shù)最小的屬性為最優(yōu)劃分屬性,即:
XGBoost算法使得梯度提升思想得到高效的系統(tǒng)實現(xiàn),該算法的基學習器應用分類回歸CART,由于單棵CART過于簡單,不能很好地分類故障,故選擇K個CART函數(shù)線性組合構(gòu)成集成樹來預測分類目標值,即:
為了更好地學習模型中的函數(shù)集合,XGBoost的目標函數(shù)如式(5)所示:
式中,l是一個可微凸函數(shù),用來評估分類預測值與真實值yi的殘差,并稱其為損失函數(shù);Ω為正則項,用來懲罰模型復雜度,有效防止模型過擬合。由于式(5)用傳統(tǒng)方法不易求解,因此,采用貪婪學習fk以使目標函數(shù)最小。
對式(6)損失函數(shù)采用泰勒級數(shù)展開,并移去常數(shù)項且保留至二階項,即:
定義Ij= {i|q(Xi)=j}是落在第j個葉子節(jié)點上實例的索引號,則模型復雜度可表示為 :γ和λ為正規(guī)化系數(shù)。
則模型目標函數(shù)為:
對于一個確定的結(jié)構(gòu)q(X),葉子節(jié)點j的最優(yōu)權(quán)重和對應的最優(yōu)目標函數(shù)值分別為:
假設(shè)IL和IR為分裂后左右子節(jié)點的實例集,設(shè)I=IL∪IR,則分裂后的結(jié)構(gòu)損失為式(11),此式可用來確定是否分裂以及分裂候選點。
本節(jié)主要介紹風電機組主軸軸承異常捕捉及預測的具體實驗步驟,分析隨機森林和XGBoost算法在風電機組主軸軸承故障預測上應用的可行性。
為了更好地闡述數(shù)據(jù)的預處理方式及模型評價和故障預測的評估標準,給出具體實驗步驟如下:
(1)數(shù)據(jù)探索:選取風電機組發(fā)生主軸軸承磨損故障前一周的數(shù)據(jù),先對監(jiān)測指標做質(zhì)量分析和特征分析。質(zhì)量分析主要檢查數(shù)據(jù)集中是否有缺失值、異常值、不一致值等無法直接用于分析的數(shù)據(jù);特征分析包括:數(shù)據(jù)分布分析、指標對比分析及定量數(shù)據(jù)統(tǒng)計分析。監(jiān)測指標說明如表1,部分指標的分布如圖1(a)―(d),統(tǒng)計分布見表2。
由圖1(a)-(d)以及表2易知,風速實時值、功率實時值以及發(fā)電機轉(zhuǎn)速實時值均服從偏正態(tài)分布,風速均值為10.41,標準差為4.88;功率均值為422.87,標準差為597.75;發(fā)電機轉(zhuǎn)速均值為1535.52,標準差為252.71;主軸軸承A溫度服從正態(tài)分布,其均值為6.48,標準差為12.47。
(2) 數(shù)據(jù)清洗
數(shù)據(jù)清洗主要是刪去原始數(shù)據(jù)集中無關(guān)數(shù)據(jù)、重復數(shù)據(jù)、平滑噪聲數(shù)據(jù),篩選掉與挖掘主題無關(guān)的數(shù)據(jù),處理缺失值、異常值等。處理數(shù)據(jù)缺失值的方法有三類:刪除記錄、數(shù)據(jù)插補和不處理??紤]到缺失數(shù)據(jù)較少,因此,采用刪除記錄的方法。處理異常值的方法有刪除記錄、視為缺失值(按照缺失值處理)、平均值修正、不處理等。本文在分析異常值出現(xiàn)的原因后,選擇刪除記錄的方法。
表1 全部檢測指標的統(tǒng)計分析
表2 部分指標的統(tǒng)計分布
表3 部分指標的標準化處理
(3)數(shù)據(jù)標準化及不平衡處理
為消除指標之間的量綱和取值范圍差異的影響,需對數(shù)據(jù)進行標準化處理,常見數(shù)據(jù)標準化方法主要有:minmax標準化、0-1標準化等。由于min-max標準化是消除量綱最簡單的方法,故本文采用min-max標準化。原始數(shù)據(jù)集中存在正負樣本不平衡的問題,會導致模型無法正確分類。數(shù)據(jù)平衡處理方法主要有:ADASYN采樣方法、SMOTE采樣方法等。其中,SMOTE采樣方法是處理非平衡數(shù)據(jù)的常用手段。因此,本文采用該采樣方法,來處理原始數(shù)據(jù)集中正負樣本不平衡的問題,提高模型分類準確性,部分監(jiān)測指標標準化結(jié)果如表3所示。
表4 分類器的比較結(jié)果
(4) 數(shù)據(jù)相關(guān)性分析
使用隨機森林方法對步驟(3)的數(shù)據(jù)進行特征選擇,特征重要度越大,與主軸軸承狀態(tài)相關(guān)性越強,其相關(guān)性分析結(jié)果如圖2所示。
從圖2中首先挑選出與主軸軸承狀態(tài)相關(guān)性較大的變量,結(jié)合主軸軸承的故障機理,進一步進行變量的篩選,再經(jīng)過皮爾遜相關(guān)性系數(shù)計算,刪去各變量之間相關(guān)性較大的變量,降低數(shù)據(jù)維度,并防止模型訓練過擬合。最終,輸入的變量有風速實時值、發(fā)電機功率實時值、發(fā)電機轉(zhuǎn)速實時值、X方向振動值、Y方向振動值、機艙溫度、室外溫度、輪轂溫度、齒輪箱非驅(qū)動端溫度、齒輪箱油溫、主軸軸承A溫度、扭纜角度、年發(fā)電量、電網(wǎng)電流L1;輸出變量為主軸軸承狀態(tài)值(“0”為正常,“1”為故障)。
(5)數(shù)據(jù)建模
采用XGBoost算法,將已處理好的數(shù)據(jù)輸入到XGBoost分類模型進行訓練,并加入交叉驗證,防止訓練過擬合。訓練完后導入需要分析的測試數(shù)據(jù),進行故障預測。
(6)模型評價及故障預測
模型評價主要是計算模型的準確率P、召回率R、F1值、AUC和ROC曲線等指標。若準確率、召回率、F1值、AUC均大于0.9,ROC曲線為接受者操作特征曲線,用于評價模型的預測能力,若曲線越接近左上角,則模型越理想。其中,F(xiàn)1值為準確率和召回率的綜合評價指標,其計算方式為:F1=2×P×R/(P+R),F(xiàn)1值越大,模型越理想;AUC為ROC曲線與坐標軸圍成的面積,數(shù)值小于或等于1,AUC越大,模型越理想。
在故障預測階段進行規(guī)定時間的實時診斷,若某一天的預測數(shù)據(jù)中“1”所占的比例大于0.9,則判斷該天主軸軸承發(fā)生故障。
通過仿真結(jié)果可知,準確率、召回率、F1值、AUC的數(shù)值分別為:0.9942、0.9943、0.9942、0.9943,均大于0.9,滿足訓練要求。圖3(a)為模型測試ROC曲線,易知 ROC曲線非常接近左上角,滿足訓練要求。圖3(b)為隨著迭代次數(shù)增加,訓練集和測試集的AUC整體上均呈現(xiàn)上升的變化趨勢。輸入測試集對主軸軸承故障進行預測,如圖3(c)-3(d)所示。
由圖3(d)不難發(fā)現(xiàn),測試集為主軸軸承磨損故障前一周的數(shù)據(jù),2019年10月26日發(fā)生主軸軸承磨損故障。經(jīng)過模型預測后,可查看到2019年10月20日時預測數(shù)據(jù)中“1”所占的比例已經(jīng)大于0.9,結(jié)合圖3(c)中主軸軸承正常結(jié)果可知,本文方法可以提前一周預測主軸軸承故障。
在改進隨機森林特征選擇的同一前提下,將XGBoost與較經(jīng)典的AdaBoost、GBDT、MLP和RF等分類預測算法在同一測試集上對其訓練時間和準確率進行對比,結(jié)果如表4所示。
由表4可知,XGBoost與其他算法相比,具有更高的故障預測準確率,平均提高1.73%,雖然GBDT和RF耗時短,但兩者都是基于決策樹,其準確率均略差于XGBoost,由此很好地驗證了XGBoost用于故障預測的有效性。
為了實現(xiàn)風電機組主軸軸承早期故障的捕捉,從而達到故障預測的目的,本文設(shè)計了基于改進隨機森林和XGBoost的風電機組主軸軸承故障預測算法。由案例分析結(jié)果可知,該算法可以提前一周預測主軸軸承故障,與其他機器學習算法相比,XGBoost具有更優(yōu)的故障預測準確率。此方法具有很好的實際應用價值,值得推廣。