李 哲,孟巧榮,王然風(fēng),付 翔,程 凱,王 珺
(太原理工大學(xué) 礦業(yè)工程學(xué)院,山西 太原 030024)
隨著我國能源結(jié)構(gòu)的進(jìn)一步優(yōu)化,潔凈煤技術(shù)的發(fā)展成為提高煤質(zhì)的重要舉措[1,2]。國家最新戰(zhàn)略規(guī)劃要求各選煤廠在大方向上由信息化逐步向智能化過渡[3]。重介質(zhì)分選是煤炭分選的主要工藝之一,其原理是通過離心力和重力雙重作用實(shí)現(xiàn)煤矸分離[4]。重介質(zhì)旋流器具有較高的分選精度,較強(qiáng)的適應(yīng)能力,較寬的懸浮液密度可調(diào)節(jié)范圍以及較大的工業(yè)處理量等特點(diǎn)[5]。
傳統(tǒng)重介分選過程的灰分控制都屬于未建??刂疲鴮?duì)于重介分選過程來說,建立數(shù)學(xué)模型在實(shí)驗(yàn)研究中進(jìn)行仿真是有必要的。趙春祥根據(jù)重選控制流程中各工藝環(huán)節(jié)物理參數(shù)間的動(dòng)態(tài)平衡關(guān)系,提出具有普遍意義的重介質(zhì)選煤過程的數(shù)學(xué)模型,準(zhǔn)確描述出控制系統(tǒng)中控制變量和被控制變量之間的函數(shù)關(guān)系[6]。邱佳楷為滿足原煤煤質(zhì)變化對(duì)重介質(zhì)懸浮液密度大范圍調(diào)節(jié)的需求,在重介質(zhì)分選過程中采用反分流工藝,設(shè)計(jì)了密度寬域智能控制機(jī)理建模[7]。王光輝等結(jié)合機(jī)理研究、大數(shù)據(jù)分析以及人工智能算法,建立出一個(gè)由機(jī)理過程和數(shù)據(jù)綜合驅(qū)動(dòng)的重介質(zhì)選煤過程數(shù)學(xué)模型[8]。這些研究都基于工藝流程對(duì)重介質(zhì)分選做出了機(jī)理建模。但是前述文獻(xiàn)的機(jī)理建模沒有全面涵蓋重介生產(chǎn)全部工藝環(huán)節(jié),特別是對(duì)于重介精煤在帶式輸送機(jī)傳輸這一過程,不考慮這個(gè)環(huán)節(jié)就難以科學(xué)準(zhǔn)確建模,也為后續(xù)基于灰分儀的閉環(huán)控制帶來了挑戰(zhàn)。同時(shí),所需的工業(yè)參數(shù)單靠現(xiàn)場經(jīng)驗(yàn)難以界定,且對(duì)于灰分測量時(shí)滯這一重點(diǎn)問題沒有給出有效的解決辦法。代偉與張凌智等人給出了一個(gè)由基于數(shù)據(jù)的虛擬未建立動(dòng)態(tài)補(bǔ)償器所構(gòu)建的自適應(yīng)運(yùn)動(dòng)反饋控制方式及其穩(wěn)定性分析理論研究[9]。程凱根據(jù)重介精煤灰分?jǐn)?shù)據(jù)噪聲特性和灰分回控過程中控制對(duì)灰分預(yù)測精度、預(yù)測時(shí)間的需求,給出了基于EMD-LSTM的重介精煤灰分時(shí)間序列預(yù)測方案[10],通過基于控制過程的預(yù)測,得出利用EMD方法將灰分?jǐn)?shù)據(jù)進(jìn)行降噪處理后所得結(jié)果較好,但并沒有建立關(guān)于重介分選系統(tǒng)的數(shù)學(xué)模型。
本研究在前人研究基礎(chǔ)上嘗試建立具有灰分預(yù)測效果的模型:即利用隨機(jī)森林建模的方式[11,12],跳過包含人工操作、煤質(zhì)波動(dòng)、工況變化在內(nèi)的所有影響因素直接構(gòu)建關(guān)于輸入與輸出的數(shù)學(xué)模型,并在訓(xùn)練模型的過程中將t+T時(shí)刻的精煤灰分值前置一段時(shí)間T再去對(duì)應(yīng)t時(shí)刻輸入數(shù)據(jù),以此消除灰分測量時(shí)滯給控制系統(tǒng)帶來的不穩(wěn)定性。
傳統(tǒng)重介質(zhì)選煤過程中利用灰分儀測出灰分再對(duì)控制系統(tǒng)做出反饋,而灰分檢測儀在工業(yè)中一般有十幾分鐘的系統(tǒng)延遲,要使工業(yè)現(xiàn)場高效穩(wěn)定運(yùn)行就需要控制系統(tǒng)能夠提前感知到灰分的變化,而本文提出的通過隨機(jī)森林建模[13-17]跳過控制流程,利用系統(tǒng)的輸入輸出值來建立數(shù)學(xué)模型,從而改善工業(yè)現(xiàn)場由于灰分測量的延遲時(shí)間而造成的控制系統(tǒng)難以穩(wěn)定運(yùn)行的現(xiàn)狀。控制流程如圖1所示,通過密度計(jì)、磁性物含量儀、灰分儀分別測得的數(shù)據(jù)m、n、h作為隨機(jī)森林模型訓(xùn)練集,在煤質(zhì)信息改變、工況變化或有其他原因造成模型誤差過大時(shí)閉合開關(guān)A進(jìn)行模型更新。
圖1 重介分選控制流程
建立經(jīng)驗(yàn)?zāi)B(tài)分解-隨機(jī)森林模型主要有四個(gè)階段,分別是:對(duì)現(xiàn)場數(shù)據(jù)進(jìn)行灰分前置對(duì)應(yīng)(即上文提到的用t時(shí)刻的輸入m、n對(duì)應(yīng)t+T時(shí)刻的輸出h)、進(jìn)行有效特征提取得到高相關(guān)度數(shù)據(jù)集作為模型訓(xùn)練集、訓(xùn)練隨機(jī)森林模型和測試隨機(jī)森林模型。
本研究選取中興選煤廠某天連續(xù)5 h自動(dòng)控制生產(chǎn)下的重介分選流程數(shù)據(jù),其樣分布如圖2所示,數(shù)據(jù)均位于合理區(qū)間,符合正態(tài)分布規(guī)律。
圖2 樣本分布情況
將取得的數(shù)據(jù)設(shè)置為三個(gè)不同樣本容量的對(duì)照組,分別為:0~100 min,0~200 min,0~300 min。通過在中興選煤廠的現(xiàn)場測量,已知該工業(yè)現(xiàn)場磁性物含量、密度、灰分?jǐn)?shù)據(jù)以及灰分回控的13 min延遲時(shí)間。為了消除模型中的延遲環(huán)節(jié),首先將灰分?jǐn)?shù)據(jù)前置13 min與輸入(密度數(shù)據(jù)、磁性物含量數(shù)據(jù))部分相對(duì)應(yīng)。由于現(xiàn)場采回的煤質(zhì)信號(hào)含有過多的高頻細(xì)節(jié)信息,且有一些因?yàn)楣に嚮蛟O(shè)備故障等問題或造成的突變及擾動(dòng),而在基于RF算法進(jìn)行系統(tǒng)建模時(shí),如果用于訓(xùn)練模型的數(shù)據(jù)變化過于突然,會(huì)導(dǎo)致訓(xùn)練效果較差。所以需要先將從工業(yè)現(xiàn)場采回的樣本做EMD[18-22]信號(hào)分解進(jìn)行數(shù)據(jù)降噪預(yù)處理。
EMD依靠精煤數(shù)據(jù)本身的時(shí)間尺度特性進(jìn)行,基函數(shù)無需提前設(shè)定。這一特點(diǎn)與傅里葉分解、小波分解有著本質(zhì)性的差別。也正因?yàn)樗倪@種特點(diǎn),使得EMD在理論上可以被用來處理任何類型的信號(hào),包括在處理分析極不平穩(wěn)的非線性信號(hào)時(shí),EMD也能保證具有較高的分解精度,即信噪比。以精煤灰分信號(hào)為例,通過EMD分解得到一些精煤煤質(zhì)信號(hào)的分量信息。數(shù)據(jù)處理流程如圖3所示。
圖3 EMD處理流程
其中分解步驟如下:
1)原始灰分信號(hào)h(t)的極大值和極小值點(diǎn),并對(duì)這一系列極值點(diǎn)進(jìn)行擬合,得到灰分信號(hào)的上下包絡(luò)線hmin(t)和hmax(t)。
2)求上下包絡(luò)線的均值:
3)對(duì)于非平穩(wěn)信號(hào),信號(hào)不是在某一個(gè)區(qū)域內(nèi)單調(diào)遞增的,會(huì)出現(xiàn)拐點(diǎn)。這些能反映原始信號(hào)h(t)的具體特征的拐點(diǎn)若未被選中,則得到的第一階模態(tài)函數(shù)并不準(zhǔn)確,也就是通常得到的d1(t)不滿足IMF的兩個(gè)條件,需要繼續(xù)進(jìn)行篩選。
4)對(duì)所剩信號(hào)d1(t)進(jìn)行步驟1)—3)的處理,當(dāng)SD小于門限值(一般為0.2~0.3)時(shí)停止,這樣取到最合適的第一階模態(tài)分量,IMF1。篩分門限值SD求法如下:
5)對(duì)灰分信號(hào)h(t)與IMF1作差得到r1(t),并將這一殘差量代替原始灰分信號(hào)h(t)重復(fù)步驟1)—5),重復(fù)n次后即可得到符合要求的殘差值rn(t)。此時(shí)得到原始灰分信號(hào)經(jīng)過EMD分解后可表示為:
將灰分?jǐn)?shù)據(jù)進(jìn)行EMD分解后所得分量如圖4所示。
圖4 灰分?jǐn)?shù)據(jù)EMD分量
計(jì)算灰分分量特征的Pearson相關(guān)系數(shù),并根據(jù)相關(guān)系數(shù)的大小進(jìn)行排列,見表1。相關(guān)系數(shù)在這里用來描述IMF分量與原始數(shù)據(jù)的相關(guān)程度,相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng):相關(guān)系數(shù)越接近于1或-1,相關(guān)度越強(qiáng),相關(guān)系數(shù)越接近于0,相關(guān)度越弱?;曳址至刻卣髦蠭MF1的Pearson相關(guān)系數(shù)0.693明顯低于其余分量,其余四維特征的相關(guān)系數(shù)都在0.8以上,與原始數(shù)據(jù)有極強(qiáng)相關(guān)性。所以將這四維分量值作為進(jìn)行重構(gòu)得到模型訓(xùn)練集。即將精煤灰分信號(hào)中所含的高頻噪聲信號(hào)IMF1去除,保留頻率較低的近似趨勢(shì)曲線IMF2—IMF4。將煤質(zhì)信號(hào)分解后的分量按此原則有選擇地進(jìn)行重構(gòu),重構(gòu)后的灰分圖像與原始灰分?jǐn)?shù)據(jù)對(duì)比如圖5所示。
表1 精煤灰分值相關(guān)系數(shù)對(duì)比
圖5 原始灰分與EMD處理灰分對(duì)比
按上述方法分別將磁性物含量數(shù)據(jù)與密度數(shù)據(jù)進(jìn)行EMD分解,并根據(jù)分量的相關(guān)性強(qiáng)弱進(jìn)行選擇,最后將相關(guān)性較高的分量進(jìn)行重構(gòu)得到處理后的數(shù)據(jù),配合灰分值數(shù)據(jù)作為模型訓(xùn)練集。處理后的數(shù)據(jù)與原始數(shù)據(jù)對(duì)比如圖6、圖7所示。
圖6 原始磁性物含量與EMD處理后對(duì)比
圖7 原始密度與EMD處理密度對(duì)比
隨機(jī)森林算法(RF)是由多個(gè)決策樹組成的一種智能集成學(xué)習(xí)算法。決策樹(Classification and Regression Trees,CART)是一種統(tǒng)計(jì)模型,此類模型在輸入特征后可得到不同類或值。決策樹結(jié)構(gòu)如同一棵樹,包含內(nèi)部節(jié)點(diǎn)、分支和葉節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)表示屬性,分支表示屬性測試,葉節(jié)點(diǎn)表示沿某一條路徑的屬性測試值。
Gn={(X1,Y1),(X2,Y2),…(Xn,Yn)}
(4)
式中,X為包含m個(gè)特征的輸入向量;Y為輸出值;Gn為由n個(gè)觀測值組成的訓(xùn)練集。訓(xùn)練過程中首先將X劃分為兩簇分支,為趨于最優(yōu)化劃分,采用葉節(jié)點(diǎn)方差確定劃分點(diǎn)k和閾值D,葉節(jié)點(diǎn)p的方差定義為:
式中,YP為葉節(jié)點(diǎn)p截止到Y(jié)i的平均值。然后,繼續(xù)以相同的方式劃分下一級(jí)葉節(jié)點(diǎn),直至預(yù)設(shè)的節(jié)點(diǎn)閾值,訓(xùn)練停止。訓(xùn)練結(jié)束后建立估計(jì)函數(shù)S,新的X可以通過S得到估計(jì)值Y。
隨機(jī)森林算法將多個(gè)決策樹組合在一起,實(shí)現(xiàn)數(shù)據(jù)分類或回歸,其調(diào)節(jié)參數(shù)少、訓(xùn)練速度快、估計(jì)精度高、泛化能力強(qiáng)。該算法通過Bootstrap抽樣法從原始數(shù)據(jù)中抽取多個(gè)樣本數(shù)據(jù),構(gòu)造新的訓(xùn)練樣本集合?;贑ART思想對(duì)每個(gè)訓(xùn)練集建立決策樹。最終,根據(jù)q棵決策樹的結(jié)果求平均,得出最終估計(jì)值Y為:
RF算法原理如下:①基于Bootstrap抽樣法在原始數(shù)據(jù)Gn中提取q個(gè)訓(xùn)練樣本集,即構(gòu)建q棵決策樹;②每棵樹有m個(gè)特征變量,在每個(gè)節(jié)點(diǎn)處隨機(jī)選取r個(gè)特征變量,繼而選擇最佳分割點(diǎn);③決策樹分裂達(dá)到預(yù)定的節(jié)點(diǎn)閾值后停止生長;④每棵樹的估計(jì)值求平均得出最終估計(jì)值。建模流程如圖8所示。
利用方均根誤差(RMSE)、平均絕對(duì)誤差(MAE)和計(jì)算時(shí)間作為模型評(píng)價(jià)的指標(biāo)。其中:
用前文設(shè)置的三個(gè)不同樣本容量的訓(xùn)練集進(jìn)行相同的EMD-RF模型訓(xùn)練流程,并將三個(gè)模型分別命名為:RF1,RF2,RF3。分別計(jì)算三個(gè)模型的評(píng)價(jià)指標(biāo)數(shù)據(jù),見表2。
表2 三種模型的估計(jì)誤差與計(jì)算時(shí)間對(duì)比
從表2可以得出,隨著樣本容量的增大,隨機(jī)森林模型的RMSE、MAE數(shù)值逐漸減小,并在三百組樣本時(shí)取到最佳的評(píng)價(jià)數(shù)據(jù),計(jì)算時(shí)間也較為合理,所以取該樣本容量所建模型與其余機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比。
將幾種較為常見的機(jī)器學(xué)習(xí)回歸算法進(jìn)行了擬合度對(duì)比,包括BP神經(jīng)網(wǎng)絡(luò)、基于最小二乘法的有源自回歸模型(ARX)、傳遞函數(shù)模型(TF)及隨機(jī)森林(RF)算法建模。
將同樣基于最小二乘法原理訓(xùn)練所得模型(ARX,TF)代入測試集進(jìn)行測試,如圖9所示,由曲線可以直觀看出這兩種模型對(duì)測試集灰分的估計(jì)有較為嚴(yán)重的失真,分別將BP神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法也用同樣一組數(shù)據(jù)進(jìn)行測試,如圖10所示。并分別計(jì)算出四種機(jī)器學(xué)習(xí)的評(píng)價(jià)指標(biāo)數(shù)據(jù),見表3。對(duì)比圖9、圖10可以明顯看出后兩種機(jī)器學(xué)習(xí)算法要優(yōu)于前兩種。
表3 幾種模型的估計(jì)誤差與計(jì)算時(shí)間對(duì)比
圖9 ARX和TF模型估計(jì)值測試結(jié)果
圖10 BP和RF模型估計(jì)值測試結(jié)果
經(jīng)過對(duì)比可知,隨機(jī)森林模型的RMSE和MAE數(shù)值分別為0.94和0.46,均為幾種模型中的最低值,基于最小二乘的兩種模型的計(jì)算時(shí)間最短,但由于模型較為簡單,導(dǎo)致估算的誤差較大。盡管RF3模型計(jì)算時(shí)間較長,但也處于能夠接受的范圍。由于未采樣部分?jǐn)?shù)據(jù)能保證模型的泛化能力,所以隨機(jī)森林對(duì)精煤灰分值的估計(jì)相較于其他回歸算法的精度更高。
取2021年山西焦煤集團(tuán)中興選煤廠兩段相似工況進(jìn)行對(duì)比,已知現(xiàn)場精煤產(chǎn)品灰分目標(biāo)均值為11%,合格區(qū)間為10.5%~11.5%。當(dāng)現(xiàn)場目標(biāo)灰分值發(fā)生調(diào)整時(shí),采用基于EMD-RF算法的建模能夠有效降低控制系統(tǒng)響應(yīng)時(shí)間,保持灰分響應(yīng)曲線平穩(wěn)變化,且總體收斂度維持于合格區(qū)間內(nèi),將精煤灰分值基本控制在10.6%~11.4%區(qū)間內(nèi)。而沒有采用模型的系統(tǒng)在相似工況下,灰分值調(diào)整較慢,且收斂程度明顯較弱。對(duì)比如圖11所示。加入RF模型相較于無模型指導(dǎo)下的生產(chǎn)效果有明顯改善。
圖11 加入指導(dǎo)模型前后工業(yè)運(yùn)行對(duì)比
1)訓(xùn)練集數(shù)據(jù)將灰分?jǐn)?shù)據(jù)做了前置對(duì)應(yīng),可以在一定程度上消除灰分測量時(shí)滯過大造成的控制系統(tǒng)誤差。
2)利用基于EMD-RF算法的模型訓(xùn)練方法得到的灰分估計(jì)模型,RMSE和MAE數(shù)值分別為0.94和0.46,這兩項(xiàng)指標(biāo)評(píng)價(jià)相較于其他機(jī)器學(xué)習(xí)算法能達(dá)到較高水平,且計(jì)算時(shí)間維持在合理范圍內(nèi)。
3)利用EMD-RF算法建立的模型應(yīng)用于指導(dǎo)工業(yè)生產(chǎn)時(shí),能較好地將精煤灰分值控制在合理區(qū)間內(nèi)。相較于無模型指導(dǎo)下的生產(chǎn)效果有明顯提升。