李思思, 閻高偉, 閆 飛, 程 蘭, 杜永貴
(1.太原理工大學 電氣與動力工程學院,太原 030024;2.山西工程技術(shù)學院,陽泉 045000)
流程工業(yè)在實際運行過程中,由于運行任務與設定值的變化、外界環(huán)境的改變、設備重組等因素,會導致工況發(fā)生改變[1]。球磨機是應用于電力、化工等流程領域的典型設備,具有強耦合、非線性和多工況等特點。該設備負荷參數(shù)的準確檢測對于磨礦作業(yè)環(huán)節(jié)的質(zhì)量控制、磨礦效率和能耗降低起著至關(guān)重要的作用。因此,本文以球磨機負荷參數(shù)的預測為例開展研究。
目前,球磨機負荷參數(shù)檢測受限于建模機理及物理條件的復雜性,常采用軟測量方法建模,即選擇與主導變量相關(guān)的輔助變量(筒體振動或振聲信號[2-3])建立軟測量模型得到負荷參數(shù)預測值。常見的建模方法有偏最小二乘(Partial Least Squares,PLS)[4]、核模糊回歸[5]以及極限學習機(Extreme Learning Machine,ELM)[6]等。上述建模方法僅適用于單一工況的數(shù)據(jù)。
在實際運行過程中,不定期添加鋼球或輸入礦石成分的變化會引起工況的改變。工況改變后導致待測數(shù)據(jù)(目標域數(shù)據(jù))和歷史數(shù)據(jù)(源域數(shù)據(jù))分布存在差異及待測工況數(shù)據(jù)不足的問題。若根據(jù)源域數(shù)據(jù)建立軟測量回歸模型,則會違背機器學習方法建立在數(shù)據(jù)同分布條件的前提;若利用少量目標域數(shù)據(jù)建模,模型預測效果往往不理想。近年來,為適應工況的變化,廣泛采用即時學習、集成學習的建模策略。文獻[7]提出一種基于k近鄰的局部建模方法。文獻[8]引入因果關(guān)系利用動態(tài)主成分分析實現(xiàn)過程監(jiān)控。Ma等[9]和Jaffel等[10]運用移動窗策略,對模型實時更新。針對在線測量中可能產(chǎn)生的偏差,Shao等[11]提出半監(jiān)督的選擇性集成建模策略。然而,即時學習在數(shù)據(jù)分布差異大的情況下會形成較大的期望風險,集成學習更新策略由于各子模型的輸出置信難以估計,存在較大的結(jié)構(gòu)風險。
因此,針對工況改變引起的模型失配問題引入遷移學習[12-14]策略。該策略放寬了數(shù)據(jù)服從同分布的假設,通過抽取領域間“隱含語義”或挖掘領域間“共享知識結(jié)構(gòu)”,利用源領域已有的知識來解決未知目標領域(但與源領域相關(guān))中僅有少量有標簽樣本數(shù)據(jù)甚至沒有標簽樣本情況下的學習問題。遷移學習方法分為特征表示法和實例權(quán)重法。流形正則化域適應[15]通過特征映射實現(xiàn)知識的遷移。但是,流形正則化域適應是一種無監(jiān)督的方法,在特征變換過程中不能有效利用已有的標簽信息,導致算法性能受到影響。為此,將標簽信息引入流形正則化域適應的目標函數(shù),研究基于半監(jiān)督域適應的球磨機負荷參數(shù)軟測量方法,該方法優(yōu)點為:① 通過遷移學習的方法實現(xiàn)變工況數(shù)據(jù)的建模;② 將標簽信息考慮在特征空間變換的過程中以提高負荷參數(shù)預測精度。為進一步提高模型預測精度,采用多源域集成策略,利用多源域信息互補,更加有效地遷移源域知識到目標領域,提高目標領域的預測能力。
遷移學習是運用已有的知識對不同但相關(guān)領域問題進行求解的一種新的機器學習方法。該方法放寬了傳統(tǒng)機器學習中的兩個基本假設:① 用于學習的訓練樣本與新的測試樣本滿足獨立同分布的條件;② 必須有足夠可利用的標記樣本才能習得一個好的模型。本文通過流形正則化保持空間結(jié)構(gòu)不變;通過最大方差保證目標域數(shù)據(jù)對不同負荷參數(shù)表示能力;通過希爾伯特-施密特獨立標準(Hilbert-Schmidt Independence Criterion,HSIC)[16]引入標簽信息;通過擴展非參數(shù)最大均值差異減小源域和目標域的均值距離,得到特征變換矩陣,將歷史數(shù)據(jù)和待測數(shù)據(jù)映射到公共子空間。具體方法如下。
針對不同工況數(shù)據(jù)分布差異性的問題,采用流形正則化域適應的方法實現(xiàn)負荷參數(shù)預測。該方法首先集成流形約束、最大方差及擴展非參數(shù)最大均值差異方法得到最佳特征變換矩陣;然后,將目標域數(shù)據(jù)和源域數(shù)據(jù)的特征信息通過投影變換矩陣投影到公共子空間;最后,應用統(tǒng)計方法(如PLS)或神經(jīng)網(wǎng)絡(如反向傳輸神經(jīng)網(wǎng)絡(Back Propagation,BP))建立軟測量模型,從而合理、有效地對目標域球磨機負荷參數(shù)進行預測。其目標函數(shù)為
(1)
式中:V為特征變換矩陣;L為Laplacian矩陣;Mc為擴展非參數(shù)最大均值差異矩陣;上標s、t分別表示源域數(shù)據(jù)及目標域數(shù)據(jù);X=[Xs,Xt];λ1、λ2為平衡因子。
流形正則化域適應屬于無監(jiān)督特征映射方法,無法將標簽信息融入特征映射的過程來提高公共子空間數(shù)據(jù)的可辨識屬性。為提高模型預測精度,將少量目標域及源域的標簽信息引入流形正則化域適應,解決數(shù)據(jù)分布差異造成模型預測精度低的問題以及待測工況樣本少的問題。
本文通過HSIC將標簽信息引入流形正則化域適應。HSIC計算兩組數(shù)據(jù)集間再生核希爾伯特空間的協(xié)方差來衡量數(shù)據(jù)之間的獨立性。設Kx、Ky為兩組數(shù)據(jù)集X、Y相應的核矩陣,由文獻[16]得希爾伯特經(jīng)驗估計為
EHSIC=(n-1)-2Tr(KxHKyH)
(2)
max Tr(VTXHYHXTV)
(3)
將式(3)引入式(1)得到半監(jiān)督域適應的目標函數(shù)
(4)
為求得特征變換矩陣V,將式(4)最大化問題轉(zhuǎn)化為
(5)
引入拉格朗日乘子
(6)
式(6)對V求偏導,并令其為0,得:
τV=(λ3XsLs(Xs)T+
(7)
半監(jiān)督域適應方法具體過程如表1所示。
表1 半監(jiān)督域適應方法
半監(jiān)督域適應方法利用源域數(shù)據(jù)、目標域數(shù)據(jù)、源域數(shù)據(jù)標簽及少量目標域數(shù)據(jù)的標簽信息得到特征變換矩陣;然后,將源域數(shù)據(jù)及目標域數(shù)據(jù)投影到公共子空間。該過程充分考慮標簽信息對特征變換矩陣的作用、數(shù)據(jù)流形結(jié)構(gòu)的不變性,從而提高球磨機負荷參數(shù)的預測精度。
半監(jiān)督域適應是遷移已有單一源域的知識來解決未知目標領域的域適應學習方法。當歷史數(shù)據(jù)庫中有多個源域時,如果僅使用其中一個域作為源域進行訓練就會忽略其它域?qū)δ繕擞虻挠杏眯畔?,且不同源域?shù)據(jù)存在信息相關(guān)與互補的特點,因此,可以充分利用多個源域的數(shù)據(jù)從而提高模型的預測性能。本文建立基于半監(jiān)督多源域適應集成的軟測量模型。該模型首先根據(jù)式(8)求得特征變換矩陣V′;然后分別將多個源域及目標域數(shù)據(jù)投影到公共子空間,并建立相應的回歸模型;最后通過最大均值差異(Maximum Mean Discrepancy, MMD)加權(quán)多個源域負荷參數(shù)預測值。
(8)
(9)
半監(jiān)督多源域適應方法具體過程如表2所示。
表2 半監(jiān)督多源域適應方法
球磨機負荷參數(shù)(如料球比(Material to Ball Volume Ratio,MBVR)、濃度(Pulp Density,PD)、充填率(Charge Volume Ratio,CVR))的準確檢測對于磨礦作業(yè)環(huán)節(jié)的質(zhì)量控制、磨礦效率和能耗降低起著至關(guān)重要的作用[17]。為此,采集與負荷參數(shù)相關(guān)的振動信號,建立模型,得到負荷參數(shù)預測值。
實驗采用Φ602 mm×715 mm小型實驗球磨機。其中,球磨機最大鋼球裝載量為0.6 t,實驗過程筒體轉(zhuǎn)速為43 r/min。磨機筒體中部有圓形加料口,用于添加鋼球、物料和水。實驗過程采用的物料是鐵礦粉,密度為2.3 t/m3。研磨介質(zhì)采用直徑為30 mm的鋼球。球磨機型號為Y112M-4的三相異步電機驅(qū)動。三相電機功率為4 kW、額定電流為8.8 A、電壓380 V、轉(zhuǎn)速為1 440 r/min。
首先,在軸承座上安裝振動傳感器,通過振動傳感器采集振動信號;然后利用數(shù)據(jù)采集模塊將振動傳感器輸出的模擬信號放大并轉(zhuǎn)換成數(shù)字信號,送入上位機,用LabVIEW編寫的程序完成數(shù)據(jù)的讀取、顯示和保存工作。
通過改變介質(zhì)充填率(Ball Charge Volume Ratio,BCVR)來模擬工況突變,即分別采集BCVR為0.30、0.35、0.40、0.45、0.50的5組實驗數(shù)據(jù)。這5組數(shù)據(jù)對應工況為工況1、工況2、工況3、工況4、工況5。每組實驗通過連續(xù)添加物料量改變CVR、MBVR、PD。每個工況下的數(shù)據(jù)如表3所示。以工況1的數(shù)據(jù)為例,分別固定球磨機筒體內(nèi)球和水的質(zhì)量,筒體內(nèi)物料由起始重量25.5 kg逐漸增加到174 kg,共增加了139次。
表3 工況突變實驗情況
將每個工況振動信號平均分為28個樣本,每個樣本覆蓋長度大于濕式球磨機旋轉(zhuǎn)一周所用時間,然后將時域信號通過快速傅里葉變換轉(zhuǎn)換為頻域信號。
鄰域保持嵌入(Neighborhood Preserving Embedding,NPE)[18]算法通過最優(yōu)映射變換矩陣將數(shù)據(jù)從高維空間映射到低維的特征空間中。在低維空間中保持數(shù)據(jù)固有的局部領域流形結(jié)構(gòu)不變性。以介質(zhì)充填率變化的五種工況為例,每個工況下隨機選取500個振動信號的樣本,通過NPE將高維頻譜特征降維至三維空間進行可視化。圖1給出了五種工況下數(shù)據(jù)三維空間的分布情況。從圖1可知,在不同工況下,數(shù)據(jù)分布存在差異性。
圖1 不同工況數(shù)據(jù)降維后的分布情況
Fig.1 The distribution of data of different working conditions after dimensionality reduction
基于半監(jiān)督域適應球磨機負荷參數(shù)建模方法通過特征映射將數(shù)據(jù)從高維空間投影到公共子空間,實現(xiàn)負荷參數(shù)較高精度預測。
2.2.1 特征映射
特征映射具體過程如下:根據(jù)表1的Step1~Step3將源域數(shù)據(jù)、目標域有標簽數(shù)據(jù)、目標域無標簽數(shù)據(jù)分別投影到公共子空間。其中式(7)中參數(shù)λ3、λ4和λ5通過網(wǎng)格搜索法確定。
為得到特征變換后的數(shù)據(jù)分布情況,采用半監(jiān)督域適應將源域和目標域數(shù)據(jù)進行特征映射,并與傳統(tǒng)降維方法(NPE)作對比。首先,利用工況1的數(shù)據(jù)作為源域數(shù)據(jù),工況3的數(shù)據(jù)作為目標域數(shù)據(jù)。然后,分別通過NPE、半監(jiān)督域適應得到特征變換后的數(shù)據(jù)。最后,以特征變換后的第一維數(shù)據(jù)為例繪制圖2。圖2中:NPE_S、NPE_T、SDA_S、SDA_T分別為NPE降維后源域數(shù)據(jù)、目標域數(shù)據(jù)、半監(jiān)督域適應變換后的源域數(shù)據(jù)、目標域數(shù)據(jù)。由圖2可知,半監(jiān)督域適應方法可以有效減小特征變換后源域和目標域數(shù)據(jù)中心差異。
圖2 數(shù)據(jù)分布圖
2.2.2 負荷參數(shù)預測
為驗證本文方法的有效性,設計兩組對比試驗。第一組在工況變化后,利用少量目標域數(shù)據(jù)建模得到負荷參數(shù)預測值。第二組借助源域數(shù)據(jù)建模得到負荷參數(shù)預測值。為了評價各種模型的預測能力,本文使用均方根誤差(Root Mean Square Error,RMSE)作為度量準則。
在第一組實驗中,隨機選取目標域數(shù)據(jù)中的20個樣本作為少量帶標簽樣本。利用偏最小二乘回歸(Partial Least Squares Regression,PLSR)建立軟測量回歸模型得到負荷參數(shù)預測值。參數(shù)預測情況如圖3及表4所示。圖3中傳統(tǒng)方法指利用工況3中隨機抽取的20個樣本建立偏最小二乘回歸模型得到負荷參數(shù)預測值。表4中,“少量3”表示利用傳統(tǒng)方法建模得到負荷參數(shù)預測的RMSE。由圖3可知,根據(jù)少量待測工況樣本建立的模型無法預測負荷參數(shù)值。因此有必要借助歷史工況數(shù)據(jù)建模。
圖3 少量樣本建模負荷參數(shù)預測結(jié)果
Fig.3 Load parameter prediction results of a small amount samples
第二組實驗借助源域數(shù)據(jù)建模。為模擬實際工業(yè)過程中目標域存在少量帶標簽樣本的現(xiàn)象,隨機選取目標域數(shù)據(jù)中的20個樣本作為少量帶標簽樣本。半監(jiān)督域適應方法根據(jù)“2.2.1”節(jié)中投影到公共子空間的源域數(shù)據(jù)和目標域少量帶標簽數(shù)據(jù),建立PLSR模型從而得到目標域中無標簽樣本的負荷參數(shù)預測結(jié)果。近年來,為使系統(tǒng)模型能夠及時適應工況的變化,即時學習和集成學習的建模策略被廣泛采用。因此,本文采用傳統(tǒng)方法、即時學習、集成學習及“1.1”節(jié)中的流形正則化域適應方法作為對比實驗。傳統(tǒng)方法利用PLSR建立軟測量回歸模型;即時學習通過在歷史數(shù)據(jù)庫中尋找與目標域數(shù)據(jù)相似的樣本,然后根據(jù)相似樣本建立PLSR回歸模型;集成學習使用各個學習器間不存在依賴關(guān)系的隨機森林建立模型。對比結(jié)果如圖4及表4所示。
圖4 工況2→工況3負荷參數(shù)預測結(jié)果
Fig.4 Load parameters prediction results of working condition 2 transfer to working condition 3
表4 單源域負荷參數(shù)預測均方根誤差對比
Tab.4 Comparison of RMSE in single source domain load parameter prediction
傳統(tǒng)方法即時學習隨機森林流形正則半監(jiān)督域適應料球比少量30.501 8----1→30.604 60.449 80.421 40.244 70.149 72→30.240 90.370 10.301 90.225 00.135 44→30.253 60.336 30.437 90.247 30.218 35→30.528 30.467 30.488 00.345 00.232 1濃度少量30.083 6----1→30.117 90.068 50.068 60.035 10.029 82→30.045 00.051 50.086 30.040 20.023 54→30.065 70.059 10.087 20.049 80.034 85→30.156 00.141 10.097 30.039 80.035 9充填率少量30.076 3----1→30.177 80.139 00.120 80.105 40.042 62→30.053 10.052 30.084 30.050 60.030 44→30.045 70.040 40.051 10.035 70.032 55→30.168 70.162 90.068 80.039 20.037 2
表4中“1→3”為工況1的數(shù)據(jù)作為源域數(shù)據(jù)工況3的數(shù)據(jù)作為目標域數(shù)據(jù)。由圖4及表4可知:①當數(shù)據(jù)分布差異大時,傳統(tǒng)方法、即時學習、集成學習結(jié)果相對較差。其原因為即時學習存在期望風險,集成學習存在結(jié)構(gòu)風險,傳統(tǒng)方法建立在數(shù)據(jù)同分布的前提下;②在料球比、濃度、充填率參數(shù)預測中,流形正則化域適應、半監(jiān)督域適應都能以一定的精度實現(xiàn)負荷參數(shù)的預測,但是半監(jiān)督域適應精度相對較高,其原因為考慮了標簽對投影矩陣的影響。
在工業(yè)過程中,不同工況信息存在互補的特點,因此,可將多個源域的數(shù)據(jù)作為歷史數(shù)據(jù)建模得到負荷參數(shù)預測值。采用流形正則化多源域適應方法作為對比實驗。流形正則化多源域適應方法通過加權(quán)策略融合多個源域的數(shù)據(jù)。半監(jiān)督多源域適應和流形正則化多源域適應方法建模后得到負荷參數(shù)預測均方根誤差結(jié)果,如表5所示。表中“1&2→3”為工況1、工況2的數(shù)據(jù)作為源域數(shù)據(jù),工況3數(shù)據(jù)作為目標域數(shù)據(jù)。為直觀了解負荷參數(shù)預測情況,則以工況1和工況2為源域數(shù)據(jù)、工況3數(shù)據(jù)為目標數(shù)據(jù)為例,得到目標域料球比預測曲線,如圖5所示。由表5可知,半監(jiān)督多源域適應方法比流形正則化多源域適應方法的預測均方根誤差小,精度高。對比表4及表5中工況3的預測均方根誤差得出,當充分利用多源域數(shù)據(jù)作為歷史數(shù)據(jù)時,半監(jiān)督多源域適應方法可以挖掘出更多與負荷參數(shù)相關(guān)的特征信息,從而得到較高預測精度。
表5 多源域負荷參數(shù)預測均方根誤差對比
Tab.5 Comparison of RMSE in multi source domain load parameter prediction
1&2→34&5→3料球比流形正則化多源域適應0.224 10.255 4半監(jiān)督多源域適應0.128 40.189 8濃度流形正則化多源域適應0.027 30.035 0半監(jiān)督多源域適應0.022 40.021 4充填率流形正則化多源域適應0.043 50.032 2半監(jiān)督多源域適應0.025 60.027 2
圖5 工況1 &工況2→工況3料球比預測結(jié)果
Fig.5 The MBVR prediction results of working condition 1 and working condition 2 transfer to working condition 3
本文針對球磨機工況改變后,歷史數(shù)據(jù)與待測數(shù)據(jù)分布差異導致的模型失配問題以及待測工況樣本少的問題,研究了半監(jiān)督域適應方法及半監(jiān)督多源域適應方法,得出如下結(jié)論:
(1) 域適應方法能夠有效改善數(shù)據(jù)概率分布失配對軟測量建模的影響,半監(jiān)督域適應方法將標簽信息融入特征映射的過程能提高模型預測能力。
(2) 半監(jiān)督多源域適應方法利用多源域信息互補的特點,更加有效地遷移不同源域知識到目標領域,提高目標領域的預測能力。
(3) 利用多工況下小型試驗球磨機數(shù)據(jù)進行實驗,結(jié)果表明:本文方法在一定程度上能有效跟蹤實際值的變化。這對選礦過程全流程優(yōu)化運行和控制具有十分重要的意義。