劉長良,張書瑤,王梓齊
(1.華北電力大學(xué) 新能源電力系統(tǒng)國家重點實驗室,北京 102206;2.華北電力大學(xué)控制與計算機工程學(xué)院,河北 保定 071000)
齒輪箱是風(fēng)電機組的重要機械部件且常年處于運轉(zhuǎn)狀態(tài),極易發(fā)生故障造成機組停機,給生產(chǎn)帶來經(jīng)濟損失。據(jù)文獻統(tǒng)計[1-2],由齒輪箱引起的故障停機時間顯著高于其他部件,因此有必要對齒輪箱進行狀態(tài)監(jiān)測。目前齒輪箱狀態(tài)監(jiān)測方法研究可分為離線監(jiān)測和在線監(jiān)測兩種。離線監(jiān)測主要有油液成分監(jiān)測[3]和振動監(jiān)測[4]。在線監(jiān)測是利用監(jiān)控與數(shù)據(jù)采集(supervisory control and data acquisition,SCADA)系統(tǒng)[5]在線采集風(fēng)電機組運行數(shù)據(jù)并對齒輪箱進行在線狀態(tài)監(jiān)測,因不需額外加裝傳感器且實時高效,已成為齒輪箱狀態(tài)監(jiān)測的研究重點。
基于正常行為建模的狀態(tài)監(jiān)測方法是一種目前受到廣泛關(guān)注的建模方式,其基本思想是根據(jù)正常運行狀態(tài)下的歷史數(shù)據(jù),對實時值進行估計,步驟主要分為數(shù)據(jù)處理、狀態(tài)變量建模和殘差分析3部分。根據(jù)是否顯式包含可估參數(shù),通常可以分為參數(shù)建模和非參數(shù)建模方法兩種。參數(shù)建模方法主要有BP神經(jīng)網(wǎng)絡(luò)[6-7]、分段支持向量機[8]、深度學(xué)習(xí)網(wǎng)絡(luò)[9]等;非參數(shù)建模方法主要有K近鄰(K-nearest neighbor,KNN)回歸算法[10-11]、非線性狀態(tài)估計(nonlinear state estimate technology,NSET)方法[12]、核密度估計[13]等。參數(shù)建模方法具有易于理解且訓(xùn)練速度快的優(yōu)點,但依托訓(xùn)練樣本且模型后期維護困難,不適于風(fēng)電機組復(fù)雜的運行狀況。KNN回歸算法是一種常用的非參數(shù)回歸方法,具有思路簡單、應(yīng)用靈活、對異常值不敏感的優(yōu)點,且不需要像神經(jīng)網(wǎng)絡(luò)等前期進行參數(shù)或結(jié)構(gòu)的學(xué)習(xí)和尋優(yōu)。但KNN回歸算法仍需要一定的訓(xùn)練數(shù)據(jù),在訓(xùn)練集過于龐大時,會嚴(yán)重影響運算效率。
訓(xùn)練集中常存在離群點和相似點。離群點雖然不會對預(yù)測精度產(chǎn)生較大影響,但KNN回歸算法距離度量過程需要遍歷訓(xùn)練集中每一個訓(xùn)練樣本,所以離群點的存在會使運算時間延長。文獻[11]提出了一種剪輯算法,剔除了訓(xùn)練集中與樣本整體偏離較大的離群點,實現(xiàn)了工業(yè)應(yīng)用中運算效率的提高。相似點中包含大量的相似信息,不僅會占用計算資源,且會使選出用于計算預(yù)測值的近鄰樣本不能達到全面覆蓋真實運行狀況的期望,適度的剔除可以提升運算效率。文獻[14]根據(jù)樣本相似度剔除了訓(xùn)練集中相似點來縮小訓(xùn)練集,在運算精度和運算效率方面均有提升。
本文針對風(fēng)電機組狀態(tài)監(jiān)測問題,提出了改進距離度量公式的KNN回歸算法,并同時剪輯離群點和相似點對訓(xùn)練集進行優(yōu)化以提升運算效率。以某2 MW風(fēng)電機組SCADA系統(tǒng)采集數(shù)據(jù)為例,對風(fēng)電機組發(fā)生故障停機和維修投運后的2組全工況歷史數(shù)據(jù)分別進行實驗。對對照組進行實驗確定剪輯離群點和相似點的閾值,以實驗組基準(zhǔn)集的殘差為依據(jù),利用SPC技術(shù)結(jié)合滑動窗口法得到異常率曲線,實現(xiàn)風(fēng)電機組齒輪箱的狀態(tài)監(jiān)測。
KNN回歸算法是一種基于實例的學(xué)習(xí)方法,其核心思想是建立向量空間模型,基于某種距離度量方式,找到訓(xùn)練集中與測試點最接近的 k個近鄰點,利用這 k個近鄰點對測試集進行預(yù)測,在回歸問題中常采用平均法,即這 k個近鄰點輸出的平均值作為預(yù)測結(jié)果,其步驟如下:
2)遍歷訓(xùn)練集中各點 Xi,求其與測試集中某點的歐氏距離 L:
3)對求得的距離大小進行排序,選擇訓(xùn)練集中與 X 最近的 k 個近鄰點 Xj(1≤j≤k),這 k個近鄰點輸出的平均值作為 X的輸出預(yù)測值,即:
經(jīng)典KNN回歸算法中認為測試集實際輸出未知,所以在距離計算時不考慮輸出值,但在風(fēng)電機組齒輪箱狀態(tài)監(jiān)測問題中,測試集實際輸出 y可以由SCADA系統(tǒng)測得,所以本文針對狀態(tài)監(jiān)測問題特點提出對經(jīng)典KNN回歸算法距離度量公式的改進。
經(jīng)典KNN回歸算法的本質(zhì)是根據(jù)輸入值 X 定量預(yù)測得到預(yù)測輸出值,即,此時輸出值y未知;狀態(tài)監(jiān)測問題關(guān)注當(dāng)前研究對象是否偏離正常狀態(tài),所以選定一個狀態(tài)特征作為對研究對象運行狀態(tài)的反映,如本文所選齒輪箱軸承溫度,并建立齒輪箱正常運行情況下的模型,在實際生產(chǎn)中,各個狀態(tài)特征與當(dāng)前運行狀態(tài)都存在關(guān)聯(lián),其實時值可以在線采集,所以狀態(tài)監(jiān)測問題的實質(zhì)是:已知當(dāng)前實時運行狀態(tài)和正常行為模型,求得模型輸出,并與正常運行狀態(tài)求偏差,若偏差超過設(shè)定閾值,則認為此時研究對象已處在異常狀態(tài)。其中 X 為其他狀態(tài)特征(如風(fēng)速、環(huán)境溫度等),y為齒輪箱軸承實時溫度,為計算得到的齒輪箱軸承溫度。本文針對這一特點,改進經(jīng)典KNN回歸算法距離度量公式,使測試集實際輸出與輸入向量地位等價參與距離計算,改進后距離度量公式如下:
由表1可知,改進KNN回歸算法預(yù)測精度較未改進提升59.6%,在運算效率基本不變的情況下,預(yù)測精度有大幅度提升。
表1 改進KNN回歸算法測試
KNN回歸算法是數(shù)據(jù)驅(qū)動的一種惰性算法,所以運算效率和預(yù)測精度很大程度取決于訓(xùn)練集的選取,但由于實際工況復(fù)雜,訓(xùn)練集中常存在離群點和相似點對預(yù)測過程造成影響,所以在本文提出同時剪輯訓(xùn)練集中離群點和相似點的思路,應(yīng)用提出的兩種剪輯算法分別對離群點和相似點予以剔除以優(yōu)化訓(xùn)練集。
由于實際運行現(xiàn)場不可避免地存在噪聲等因素,且SCADA系統(tǒng)采集數(shù)據(jù)具有隨機性,數(shù)據(jù)中常存在遠離訓(xùn)練集中大部分點的點,即離群點。離群點不能反映風(fēng)電機組齒輪箱正常工作狀態(tài),有可能是存在故障的點。從預(yù)測角度來說,當(dāng)選取 k值較小時,離群點不會影響預(yù)測精度,當(dāng)選擇 k值較大時,會造成預(yù)測精度降低;從運算效率角度來看,KNN回歸算法距離度量會遍歷訓(xùn)練集全體,所以離群點存在會使運算效率降低,增加存儲成本,因此提出一種改進文獻[11]的剪輯離群點流程的訓(xùn)練集優(yōu)化方法,具體步驟如下:
2)對訓(xùn)練集中每一個點遍歷步驟1),得到對應(yīng)的預(yù)測值。
3)求得預(yù)測值與實際輸出值的相對誤差絕對值Qi
式中:yi——實際輸出值;
相似點是指訓(xùn)練集中距離較小的點,其過多會使訓(xùn)練集中儲存大量重復(fù)冗余的信息。從預(yù)測精度角度考慮,當(dāng)選擇的 k個近鄰點中存在大量相似點而無法覆蓋風(fēng)電機組齒輪箱真實運行狀況時會使預(yù)測精度下降;從運算效率考慮,相似點會占用計算空間,使運算效率下降,所以在此提出一種改進文獻[14]中相似度函數(shù)的剪輯相似點算法,具體步驟如下:
其中,Lij表示Xi與Xj之間的距離度量。
正常行為建模(normal behavior modeling,NBM)應(yīng)用于狀態(tài)監(jiān)測的基本思想是:根據(jù)正常狀態(tài)下的歷史數(shù)據(jù)建立有關(guān)預(yù)測量的模型并得到預(yù)測輸出值,通過模型預(yù)測輸出與實際輸出值的殘差判斷齒輪箱是否偏離正常運行狀態(tài)。本文采用結(jié)合訓(xùn)練集優(yōu)化的改進KNN回歸算法對風(fēng)電機組齒輪箱進行狀態(tài)監(jiān)測,其具體流程如圖1所示。
圖1 改進KNN回歸算法流程圖
1)離線過程:采集正常運行狀況的SCADA系統(tǒng)歷史數(shù)據(jù)并進行預(yù)處理,包括剔除缺失和異常數(shù)據(jù)、選取狀態(tài)向量,結(jié)合1.3訓(xùn)練集優(yōu)化方法對原始訓(xùn)練集進行離群點和相似點剪輯得到新訓(xùn)練集。
2)在線過程:采集SCADA系統(tǒng)實時數(shù)據(jù),利用改進KNN回歸算法得到預(yù)測輸出值。
本文的研究對象為福建省某風(fēng)場的一臺2 MW雙饋式風(fēng)電機組,型號為Vestas公司的V90-2.0 MW。機組的切入風(fēng)速為4 m/s,切出風(fēng)速為25 m/s,齒輪箱結(jié)構(gòu)為二級螺旋齒輪和一級行星齒輪,SCADA系統(tǒng)的采樣周期為10 min。該機組于2016年7月13日10:20發(fā)生齒輪箱故障導(dǎo)致停運,經(jīng)維修后于7月18日9:30恢復(fù)正常重新投運。
從 SCADA數(shù)據(jù)庫中導(dǎo)出2016年1月 1日0:00-7月13日10:20齒輪箱故障前的運行數(shù)據(jù)和7月18日9:30-12月31日23:50齒輪箱維修后的運行數(shù)據(jù),分別稱為實驗組(故障前)和對照組(維修后)。數(shù)據(jù)中可用的運行參數(shù)有8個,分別為風(fēng)速、發(fā)電機轉(zhuǎn)速、葉輪轉(zhuǎn)速、風(fēng)向角、環(huán)境溫度、無功功率、有功功率、齒輪箱軸承溫度。
齒輪箱軸承是齒輪箱主軸的載體,在選取的參數(shù)中,齒輪箱軸承溫度能夠直觀迅速地反映齒輪箱整體運行狀況,故選作預(yù)測向量。剔除數(shù)據(jù)缺失、有功功率不大于零、風(fēng)速小于切入風(fēng)速或大于切出風(fēng)速的數(shù)據(jù)點,并基于拉依達準(zhǔn)則去除異常數(shù)據(jù)后,實驗組和對照組分別用14 000組數(shù)據(jù)進行實驗。
經(jīng)過計算各項和齒輪箱軸承溫度的皮爾遜相關(guān)系數(shù)得到,風(fēng)速、發(fā)電機轉(zhuǎn)速、葉輪轉(zhuǎn)速、有功功率4項與齒輪箱軸承溫度存在著正相關(guān)關(guān)系,可以作為狀態(tài)向量;環(huán)境溫度雖然與齒輪箱軸承溫度相關(guān)性不大,但是由于環(huán)境溫度的變化對齒輪箱工作環(huán)境影響較大,所以把環(huán)境溫度也作為一個狀態(tài)向量考慮;由于葉輪轉(zhuǎn)速和發(fā)電機轉(zhuǎn)速存在顯著的相關(guān)性,所以本文選用風(fēng)速、發(fā)電機轉(zhuǎn)速、環(huán)境溫度、有功功率作為狀態(tài)向量并對其進行歸一化以避免量綱影響。運行參數(shù)變化范圍及皮爾遜相關(guān)系數(shù)見表2。
表2 運行參數(shù)變化范圍及皮爾遜相關(guān)系數(shù)
實驗組和對照組分別以各自數(shù)據(jù)的第1~7 000號樣本作為訓(xùn)練集,第7 001~14 000號數(shù)據(jù)為測試集,其中第7 001~7 500號作為預(yù)測精度基準(zhǔn)。本實驗基于 Matlab 2019(運行于 Intel i7-10710U CPU,16.0 GB RAM的PC機)進行。對對照組測試集分別應(yīng)用經(jīng)典和改進KNN回歸算法,其中經(jīng)典KNN回歸算法RMSE為0.040 7,改進后RMSE為0.016 2,較未改進提升60.20%,仿真結(jié)果表明改進距離度量公式使預(yù)測精度顯著提升。
本文對對照組訓(xùn)練集進行離群點剪輯,以對照組基準(zhǔn)集的RMSE和測試集運算效率作為根據(jù),確定剪輯閾值θ1并對測試集進行預(yù)測,圖2和表3為新訓(xùn)練集 DT的樣本個數(shù)、基準(zhǔn)集RMSE及運算時間。
圖2 剪輯離群點訓(xùn)練集樣本個數(shù)、均方根誤差
表3 剪輯離群點訓(xùn)練集剩余樣本個數(shù)、均方根誤差及運算時間1)
由圖表可以得到以下結(jié)論:
1)從運算效率來看,隨著閾值θ1的減小,訓(xùn)練集樣本個數(shù)減少,運算效率隨之上升;當(dāng)θ1≥0.2,訓(xùn)練集樣本個數(shù)下降緩慢,在 0.1≤θ1≤0.2時,訓(xùn)練集樣本個數(shù)減少速度上升,之后仍在快速下降,說明離群點大部分處于θ1≥0.2的部分,當(dāng)θ1≤0.1時,訓(xùn)練集中剩余樣本點分布密集,可以認為是有效數(shù)據(jù)。
2)從預(yù)測精度來看,當(dāng)θ1≤0.05時,RMSE迅速上升,說明此時訓(xùn)練集損失一部分有效訓(xùn)練樣本,使預(yù)測精度下降。
綜合以上分析,選擇θ1=0.1,此時預(yù)測精度下降3.0%,運算效率提升14.07%,訓(xùn)練集 DT剩余樣本數(shù)為6 091。
表4 剪輯相似點訓(xùn)練集剩余樣本個數(shù)、均方根誤差及運算時間
圖3 剪輯相似點訓(xùn)練集樣本個數(shù)、均方根誤差
分析圖表可得以下結(jié)論:
1)從RMSE來看,其整體趨勢呈現(xiàn)一直上升的狀態(tài),即預(yù)測精度下降,當(dāng)θ2=0.035時,相比于原始訓(xùn)練集RMSE降低了88.89%,此時預(yù)測精度不符合工程要求和設(shè)計預(yù)期。
2)從剪輯后訓(xùn)練集樣本個數(shù)來看,當(dāng)θ2≤0.01時,訓(xùn)練集樣本個數(shù)下降速度平緩,當(dāng)θ2≥0.01時,訓(xùn)練集樣本個數(shù)下降速度加快,可以認為此時已經(jīng)基本剔除極端相似的點,當(dāng)閾值繼續(xù)增大時,可能會過度剪輯造成預(yù)測精度下降。
統(tǒng)計過程控制(statistical process control,SPC)技術(shù)[15-16],主要是利用過程波動的統(tǒng)計規(guī)律性對過程進行分析控制。由于齒輪箱故障多表現(xiàn)為某部件溫度升高,所以在此只考慮報警上限。本文設(shè)定報警閾值的步驟如下:
若 X的取值長期超出式(8)的區(qū)間,可以認為過程受到了異常因素的影響出現(xiàn)故障。因此,根據(jù)正態(tài)分布的均值 μ和方差 σ2可以設(shè)計預(yù)測殘差的預(yù)警閾值。
式中:ei——預(yù)測殘差;
n——測試集的樣本個數(shù)。
若齒輪箱軸承溫度長期高于閾值T,則認為此時齒輪箱已出現(xiàn)顯著故障。
圖4 預(yù)測殘差與閾值
式中:N——當(dāng)前滑動窗口中超出閾值的點個數(shù);
M——滑動窗口長度。
本文取滑動窗口長度為1 000,則齒輪箱異常率如圖5所示。
圖5 齒輪箱異常率
改進KNN回歸算法監(jiān)測齒輪箱狀態(tài)得到的異常率曲線在第1~300個滑動窗口處較低且平穩(wěn),認為此時齒輪箱仍處于正常運行狀態(tài),第300~1 000個滑動窗口處異常率出現(xiàn)逐漸上升現(xiàn)象,認為此時齒輪箱已處于前期故障中,第1 000號窗口后,齒輪箱異常率相較前1 000號窗口異常率迅速上升至較大值,此時異常率遠高于第1~300個滑動窗口,且多次出現(xiàn)起伏現(xiàn)象,認為此時齒輪箱已處于嚴(yán)重故障狀態(tài)。
經(jīng)典KNN回歸算法報警閾值為0.080 8,高于改進后算法報警閾值,在故障預(yù)警中會表現(xiàn)出對齒輪箱軸承溫度變化不敏感,雖然異常率曲線與改進后趨勢相同,但故障預(yù)警能力較改進后弱,可能會延誤報警。
本文針對風(fēng)電機組齒輪箱狀態(tài)監(jiān)測提出了KNN回歸算法建立正常行為模型,并對經(jīng)典KNN回歸算法距離度量提出了改進。應(yīng)用剪輯算法優(yōu)化訓(xùn)練集,實現(xiàn)了風(fēng)電機組齒輪箱的狀態(tài)監(jiān)測,得到以下結(jié)論:
1)結(jié)合狀態(tài)監(jiān)測問題特點,對經(jīng)典KNN回歸算法進行距離度量公式的改進,大幅度提高了KNN回歸算法的預(yù)測精度。
2)對訓(xùn)練集剪輯離群點和相似點進行優(yōu)化,可以在工程允許的精度損失范圍內(nèi),壓縮訓(xùn)練集樣本個數(shù),提升運算效率。
3)結(jié)合訓(xùn)練集優(yōu)化的改進KNN回歸算法能夠?qū)崿F(xiàn)風(fēng)電機組齒輪箱故障的提前預(yù)警,且滑動窗口法監(jiān)測齒輪箱異常率比殘差報警方式更直觀、清晰,且誤報警率低,更適用于工業(yè)生產(chǎn)中。