何 康, 汪 勇, 陳榮澤, 任少君, 司風琪
(1. 東南大學 能源與環(huán)境學院, 南京 210096;2. 上海發(fā)電設備成套設計研究院有限責任公司, 上海 200240)
機器學習以訓練樣本集為基礎,采用一系列數學方法從數據中提取變量間的關聯性,并且形成相應的數學表達式。實際上,根據系統特性的不同,變量間的關聯性會呈現出不同的特點,如靜態(tài)特性和動態(tài)特性、線性和非線性、單模態(tài)和多模態(tài)等。神經網絡作為常用的數據驅動建模方法之一[1-3],由于該方法直接面對樣本本身,因此當訓練樣本無法體現變量間的關聯性時,所建立的模型也難以反映系統真實的特性。因此,高質量樣本是保證神經網絡模型準確性的重要前提。一般而言,高質量樣本需要具備以下性質:
(1) 靜態(tài)特性。電站信息化系統保存了設備海量的運行數據,雖然這些數據能夠真實地反映出系統實際的運行狀態(tài),但其中也包含了大量的動態(tài)過程數據,而這些數據無法準確反映系統的靜態(tài)特性。因此,需要對原始數據進行篩選才能得到適用于靜態(tài)模型的訓練樣本。
(2) 分布均勻。在實際運行過程中,電站設備的運行模式會周期性發(fā)生變化,進而產生大量冗余數據。因此,對原始數據進行樣本約簡不僅可以找到反映過程特性的主要因素,而且能夠減小樣本規(guī)模,提升神經網絡模型的學習速率和精度。此外,還會存在設備在某些工況下運行樣本不足的情形,對于這類樣本則需要進行擴展和補充,從而提升訓練樣本分布的均勻性。
綜上所述,為了提高神經網絡模型的建模效果,以自聯想神經網絡為研究對象,提出了一種面向海量過程數據的高質量樣本提取方法,主要包括基于隱變量的系統級穩(wěn)態(tài)因子計算、海量樣本約簡和少數類工況樣本過采樣均衡三個步驟,最后利用實際工程案例驗證了所提方法的有效性。
研究學者們已經通過提取固定時間序列的趨勢特征[4]和統計特征[5]來反映系統單變量的穩(wěn)態(tài)程度,并通過與經驗值進行比較來剔除動態(tài)樣本。相比于趨勢特征法,統計特征法不依賴于趨勢的提取速度,對訓練樣本及滑動窗口的敏感度低。R檢驗法[6]作為一種統計特征法,其對濾波后的數據采用兩種不同方法得到方差的無偏估計并建立檢驗統計量。該方法不需要時間窗,采用的邏輯運算少,占用存儲空間小,且具有較高的計算速度。因此,采用R檢驗法進行單變量的穩(wěn)態(tài)因子計算。假設樣本X∈Rn×p(R為實數組成的矩陣),n為樣本數量,p為參數個數,Xi表示X的第i組樣本。R檢驗法的具體步驟如下。
Xf,i=λ1Xi+(1-λ1)Xf,i-1
(1)
(2)
式中:λ1、λ2均為濾波系數,均取0.2[7]。
(3)
式中:λ3為濾波系數,取0.1[7]。
(4)
(5)
(5) 計算Xi的穩(wěn)態(tài)因子Ri[7]。
(6)
(6) 返回步驟2進行計算,直至所有的Xi計算完畢。
熱工過程常涉及到多變量,通過單變量穩(wěn)態(tài)判定并不能反映多變量系統工況的變化,因此需要研究面向系統級的多變量穩(wěn)態(tài)因子計算方法。
隱變量分析作為一種特征提取方法,它將高維度數據經過映射轉換到低維度空間,并且將新得到的特征變量作為系統的隱變量[8]。主成分分析(PCA)法是一種常見的隱變量分析方法,它通過線性映射將原始數據映射到低維度空間,只需要使用少量特征就能夠解釋原始數據間的相關性。圖1為PCA法的基本原理示意圖,原始高維數據X經過線性映射投影到低維空間得到低維數據Z,即完成了對原始數據的降維處理。因此,為了更好地提取數據的特征,采用PCA法[9]提取系統隱變量,并通過隱變量的穩(wěn)態(tài)程度來表征系統數據的穩(wěn)態(tài)程度。
圖1 PCA法的基本原理示意圖
圖2為基于隱變量的系統級穩(wěn)態(tài)因子計算原理示意圖。具體計算步驟如下:
(1) 使用PCA法得到關于X的系統級隱變量Z及第k個隱變量對應的貢獻率Gk。
(2) 根據1.1節(jié)中的方法計算第i組樣本Xi的第k個隱變量的穩(wěn)態(tài)因子Rk,i。
(3) 計算第i組樣本Xi的系統級穩(wěn)態(tài)因子Rsys,i,并得到系統級穩(wěn)態(tài)因子序列Rsys。
(7)
Rsys={Rsys,1,Rsys,2,…,Rsys,n}
(8)
式中:m為隱變量的個數。
圖2 基于隱變量的系統級穩(wěn)態(tài)因子計算流程
機組設備常常在一個或多個工況下長時間運行,所產生的運行數據中會存在大量冗余信息。為減少冗余信息的影響,有學者提出了一種壓縮近鄰(CNN)法[10],按照最近鄰規(guī)則將原始數據集壓縮成一個新的數據集。但CNN法依據樣本和壓縮集已有各樣本之間距離與閾值的關系決定樣本是否加入壓縮集,并沒有考慮樣本的穩(wěn)態(tài)屬性。結合系統級穩(wěn)態(tài)因子計算方法,提出了SWCNN法,其具體計算步驟如下。
(1) 初始化壓縮集X’為空集,初始距離閾值為D,穩(wěn)態(tài)權重序列集合W為空集。計算樣本X的穩(wěn)態(tài)因子序列Rsys。
(2) 判斷X是否為空,如果為空進入步驟7。
(3) 按照式(9)計算Xi的穩(wěn)態(tài)權重Wi,按照式(10)計算權重閾值Di。
(9)
Di=D/Wi
(10)
(i=1,2,…,l;s=1,2,…,l)
(11)
(5) 從樣本集X中剔除樣本Xi并記作:
X=X-Xi
(12)
如果Dmin大于權重閾值Di,則將Xi歸入壓縮集X’并記作:
X’=X’∪Xi
(13)
同時,將Xi對應的穩(wěn)態(tài)權重Wi歸入穩(wěn)態(tài)權重序列W,并記作:
W=W∪Wi
(14)
(6) 返回步驟2進行下一次計算。
(7) 輸出壓縮集X’及對應的穩(wěn)態(tài)權重序列W。
機組在某些工況下的運行時間較短,所產生的運行數據量較少甚至沒有運行數據,從而造成樣本分布不均。為減少樣本分布不均勻對模型的影響,主要從欠采樣[11]和過采樣兩個方面進行研究。欠采樣通過減少多數類樣本數量以實現樣本的均勻分布,但這種方法會遺失部分有用信息。與欠采樣相比,過采樣增加少數類樣本以實現樣本的均勻分布,這種方法在降低過擬合的可能性的同時還可以避免信息遺失,因此更適合處理熱工過程數據?,F有的過采樣算法研究基本只考慮了樣本的距離因素,未考慮樣本間的差異性。因此,提出了一種基于穩(wěn)態(tài)權重的合成少數類過采樣(SWSMOTE)法,其具體計算步驟如下。
(1) 對于原始數據集X,采用SWCNN法得到壓縮集X’和對應的穩(wěn)態(tài)權重序列W,并且利用1.2節(jié)計算得到的系統隱變量將壓縮數據集X’分成J類,將第j類的樣本個數記作dj。初始化新樣本集合Q’為空集,j=1和該類的樣本需求數量dj,max。
(2) 如果dj=dj,max,則進入步驟4。
(15)
(4) 如果j (5) 將壓縮樣本集X’和生成的新樣本集Q’合并,輸出全部樣本集Xnew,記作: Xnew=X’∪Q’ (16) 圖3為熱工過程海量數據的高質量樣本提取流程圖,整個算法的步驟總結如下: (1) 使用系統級穩(wěn)態(tài)因子的計算方法獲取關于X的系統隱變量和穩(wěn)態(tài)因子序列。 (2) 根據計算得到的系統穩(wěn)態(tài)因子,利用SWCNN法對原始數據進行壓縮約簡,得到壓縮集及對應的穩(wěn)態(tài)權重序列,并將其作為SWSMOTE法的輸入。 (3) 根據SWCNN法得到的壓縮集和穩(wěn)態(tài)權重序列,以及系統級穩(wěn)態(tài)因子計算得到的系統隱變量,利用SWSMOTE法對樣本進行均衡,得到高質量樣本集。 圖3 熱工過程的高質量樣本提取方法 燃氣輪機是燃氣-蒸汽聯合循環(huán)機組的核心設備,其運行狀態(tài)對機組的安全穩(wěn)定運行有著重要作用。研究對象是某額定功率為130 MW的燃氣輪機,其系統結構見圖4。 圖4 燃氣輪機系統結構 選用該燃氣輪機的發(fā)電功率、環(huán)境溫度、壓氣機出口溫度、壓氣機出口壓力、透平進口溫度、透平出口溫度這6個過程參數作為模型變量,各參數運行范圍見表1。從分散控制系統(DCS)中采集14 385組運行數據作為原始訓練樣本。同時,采用MATLAB軟件進行計算分析。 表1 6個過程參數的運行范圍 對這6個參數進行主成分分析,選擇2個主成分作為隱變量,其對系統的貢獻率之和為94.26%。計算樣本穩(wěn)態(tài)因子序列作為近鄰壓縮計算的權重閾值,并且對原始樣本進行約簡。采用系統級隱變量對約簡后的數據進行分類,獲得每種類別的樣本數量。根據樣本數量的不平衡率,用SWSMOTE法進行插值,并且設定dj,max=max{d1,d2,…,dJ}。在插值過程中,當類別中樣本數量小于6時,插值效果較差,因此針對該類情況不進行插值。 圖5為原始數據和高質量樣本的分布,圖中數值表示該類樣本數量占總樣本數量的比值。由圖5可得:原始數據分布不均勻,而提取后的高質量樣本分布得較為均勻,除個別類別樣本數量太少的工況以外,其他工況樣本數量均占總樣本數量的5%左右。 圖5 原始數據和高質量樣本的分布 自聯想神經網絡(AANN)是在1987年由Ballard針對編碼/解碼問題首先提出的,其網絡原型是一種具有對稱拓撲結構的五層前饋傳遞網絡。AANN首先通過輸入層、映射層和瓶頸層實現了輸入數據信息的壓縮。從網絡輸入的高維參數空間中提取了反映系統結構的最具代表性的低維子空間,同時有效地濾去了測量數據中的噪聲和測量誤差,再通過瓶頸層、解映射層和輸出層實現數據的解壓縮,將前面壓縮的信息還原到各個參數值,實現各測量數據的重構。AANN的具體結構可見參考文獻[12]。采用AANN[12]分別對經過穩(wěn)態(tài)篩選的原始數據和高質量樣本進行訓練,得到2個模型,并且從模型精度和訓練時間對模型性能進行評價。模型學習率設為0.015,訓練結束條件為各樣本達到最大迭代次數(2 500)或者模型精度達到預設精度(0.05)。訓練完成后利用原始數據進行測試,同時采用均方根誤差衡量模型效果。均方根誤差ERMS的計算公式為: (17) 圖6展示了測試樣本在不同第一隱變量和第二隱變量區(qū)間下平均均方根誤差的分布情況。 圖6 不同第一隱變量和第二隱變量分布區(qū)間下樣本測試平均均方根誤差 由圖6可得:從精度來看,原始數據在樣本分布密集處的平均均方根誤差較小,精度較高。第一隱變量在[-0.07,0.56],樣本數量占比為41.09%,平均均方根誤差為0.03;第二隱變量在[-0.86,-0.34],樣本數量占比為50.25%,平均均方根誤差為0.04。而在樣本數量較少的區(qū)域,模型測試誤差呈現出直線上升的趨勢。第一隱變量在[1.30,1.95],樣本數量占比為5.81%,平均均方根誤差為0.12;第二隱變量在樣本分布較少的[0.26,0.82],樣本數量占比為8.85%,而平均均方根誤差已經達到2.78。經過SWSMOTE法處理后的數據,雖然在樣本分布密集處的精度有所下降,但是在其他區(qū)域內的平均均方根誤差有明顯的下降,第一隱變量在[1.30,1.95]和第二隱變量在[0.26,0.82]時,平均均方根誤差已經分別降至0.07和0.05,其他區(qū)域樣本的平均均方根誤差在0.06左右??傮w來說,由于個別區(qū)域只有0~6個樣本,無法采用SWSMOTE法,但是所提出的算法大大改善了原始數據分布不均勻所帶來的誤差不均衡的問題,總體平均均方根誤差也較為均衡。 圖7為使用原始數據和高質量樣本建模時的預處理時間和訓練時間的對比。從學習時間來看,由于樣本數量的增加,采用原始數據對AANN模型進行訓練的時間高達535.25 s,使用高質量樣本進行數據預處理和模型訓練時間加起來僅為49.68 s,模型訓練時間減少90%。綜上所述,采用高質量樣本所建立的模型不但提高了模型精度,還減少了模型學習時間。 圖7 預處理時間和訓練時間的對比 提出了一種面向熱工過程海量運行數據的高質量樣本提取方法,該方法通過PCA法提取了參數主要特征的貢獻率,結合SWCNN法對原始樣本進行約簡,降低了樣本規(guī)模。此外,該方法引入了SWSMOTE技術對少數類工況進行過采樣,進一步提升了訓練樣本的均勻性。以燃氣輪機為對象進行案列分析,分別采用原始數據和高質量樣本建立AANN模型,結果表明:提出的高質量樣本提取方法將燃氣輪機的原始數據數量壓縮到10%左右,模型平均均方根誤差從0.042下降至0.031,模型訓練時間減少90%。在剔除了冗余信息的同時,最大程度地保留了樣本穩(wěn)態(tài)信息,改善了樣本的不均勻屬性所帶來的精度不高的問題,具有廣闊的工程應用前景。4 高質量樣本提取流程
5 結果分析
5.1 燃氣輪機系統模型
5.2 高質量樣本提取
5.3 模型訓練與測試
6 結語