王民華,牛 顯
(1.山西能源學(xué)院 礦業(yè)工程系,山西 太原 030006;2.內(nèi)蒙古工業(yè)大學(xué) 礦業(yè)學(xué)院,內(nèi)蒙古 呼和浩特 010051)
采空區(qū)遺煤自燃是煤炭開采過程中面臨的主要災(zāi)害之一,對(duì)采空區(qū)遺煤自燃特征參數(shù)的快速準(zhǔn)確預(yù)測(cè),是實(shí)現(xiàn)煤礦安全高效生產(chǎn)的重要的技術(shù)保障。煤自燃災(zāi)害的防治應(yīng)當(dāng)遵循精準(zhǔn)、快速、智能的原則,以實(shí)現(xiàn)煤自燃火災(zāi)由被動(dòng)治理向主動(dòng)防控的根本性轉(zhuǎn)變[1],煤炭自燃智能預(yù)測(cè)預(yù)報(bào),是礦井自燃災(zāi)害主動(dòng)防控的主要技術(shù)手段之一。近年來煤礦智能化開采是我國煤炭綜采技術(shù)發(fā)展的新階段,也是煤炭工業(yè)技術(shù)革命和升級(jí)發(fā)展的需求和必然方向,智能化開采的核心三要素為智能感知、智能決策和智能控制[2]。進(jìn)行礦井災(zāi)害智能決策研究,可以為煤礦智能化提供數(shù)據(jù)支持,準(zhǔn)確及時(shí)修正控制決策方案,為礦井自適應(yīng)智能化開采提供安全技術(shù)保障。
隨著計(jì)算機(jī)與信息科學(xué)技術(shù)的進(jìn)步,煤自燃預(yù)測(cè)預(yù)報(bào)方法正朝著智能化的方向發(fā)展,多年來大量學(xué)者開展了機(jī)器學(xué)習(xí)在煤炭自燃預(yù)測(cè)方向的研究。王德明等[3]根據(jù)專家給出的危險(xiǎn)性判別指標(biāo),建立了一種新的基于無導(dǎo)師神經(jīng)網(wǎng)絡(luò)的聚類發(fā)火危險(xiǎn)性預(yù)測(cè)模型;徐精彩等[4]運(yùn)用動(dòng)量法對(duì)BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行了算法改進(jìn),建立了了煤自燃極限參數(shù)的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型;周福寶等[5]提出了一種基于BP 網(wǎng)絡(luò)的多參數(shù)火區(qū)復(fù)燃預(yù)測(cè)方法,并建立了預(yù)測(cè)模型;桂祥友等[6]運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)模型對(duì)煤炭自然發(fā)火進(jìn)行預(yù)測(cè);程結(jié)園等[7]提出了基于小波神經(jīng)網(wǎng)絡(luò)的多傳感器信息融合技術(shù)應(yīng)用于煤炭自燃火災(zāi)的監(jiān)測(cè),建立一個(gè)煤炭自燃監(jiān)測(cè)的綜合評(píng)判系統(tǒng);趙偉等[8]建立了基于模糊C 均值聚類的方法的礦井待開采煤層自燃的可能程度預(yù)測(cè)模型;邊冰等[9]利用LVQ(學(xué)習(xí)向量量化)神經(jīng)網(wǎng)絡(luò)建立了一種基于學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)的煤自然發(fā)火預(yù)報(bào)系統(tǒng);溫廷新等[10]提出了基于KPCA-Fisher 判別分析的煤炭自燃預(yù)測(cè)模型;邢媛媛等[11]根據(jù)最小信息鑒別原理,利用反熵權(quán)法確定了評(píng)價(jià)指標(biāo)的權(quán)重,構(gòu)建了基于理想點(diǎn)法的煤炭自燃風(fēng)險(xiǎn)評(píng)價(jià)模型;孟倩[12]運(yùn)用用支持向量機(jī)、粒子群算法、粗糙集等智能算法進(jìn)行煤炭自燃預(yù)測(cè)的建模,并進(jìn)行了模型預(yù)測(cè)對(duì)比;鄧軍等[13-15]建立了PCA-PSOSVM 預(yù)測(cè)模型、參數(shù)優(yōu)化的PSO-RF 預(yù)測(cè)模型、COWA 修正的G1 組合權(quán)重云等模型用于識(shí)別煤礦自燃危險(xiǎn)性。
綜上所述,在煤炭自燃數(shù)據(jù)驅(qū)動(dòng)智能預(yù)測(cè)方向,經(jīng)過多年研究,形成了大量研究成果,但能用于生產(chǎn)現(xiàn)場(chǎng)實(shí)際成功的預(yù)測(cè)模型案例鮮有報(bào)道。主要原因是數(shù)據(jù)樣本過少,以及現(xiàn)場(chǎng)監(jiān)測(cè)樣本數(shù)據(jù)多為不發(fā)火狀態(tài),數(shù)據(jù)樣本特征單一,足夠多的樣本容量和均勻的樣本分布是決定預(yù)測(cè)模型的準(zhǔn)確性和穩(wěn)健性的2 個(gè)關(guān)鍵因素[16]。在機(jī)器學(xué)習(xí)中煤炭自燃預(yù)測(cè)屬于典型的小樣本預(yù)測(cè)問題,目前對(duì)于小樣本數(shù)據(jù)增強(qiáng)和重構(gòu)的有效方法之一,是運(yùn)用GANs 生成式對(duì)抗網(wǎng)絡(luò),生成虛擬樣本。GANs 作為一個(gè)具有“無限”生成能力的模型,利用欠完備的2 組樣本數(shù)據(jù),生成與真實(shí)數(shù)據(jù)分布一致的數(shù)據(jù)樣本,并且能增強(qiáng)數(shù)據(jù)特征[17]。為此,通過生成式對(duì)抗網(wǎng)絡(luò)生成更加真實(shí)的采空區(qū)遺煤自燃樣本數(shù)據(jù),提高模型的泛化能力,形成自適應(yīng)的采空區(qū)遺煤自燃智能決策模型。
生成對(duì)抗網(wǎng)絡(luò)是一種無監(jiān)督的學(xué)習(xí)方法,它是根據(jù)博弈論中的二人零和博弈理論提出的,GANs具有1 個(gè)生成器網(wǎng)絡(luò)和1 個(gè)判別器網(wǎng)絡(luò),并通過對(duì)抗學(xué)習(xí)進(jìn)行訓(xùn)練[18]。GANs 示意圖如圖1。
圖1 GANs 示意圖Fig.1 Schematic diagram of GANs
GANs 訓(xùn)練過程中,先將數(shù)據(jù)樣本噪聲z~PZ送到生成器。判別器對(duì)真實(shí)數(shù)據(jù)或生成數(shù)據(jù)中的部分樣本進(jìn)行判斷。判別器的輸出可以表示為:
式中:Preal為判別器對(duì)真實(shí)樣本的判別概率;Pfake為判別器對(duì)生成樣本的判別概率;D(x)為生成器函數(shù);G(z)為判別器函數(shù);D(G(z))為復(fù)合函數(shù)。
生成器希望增大判別器G(z)的概率輸出Pfake,對(duì)給定的生成器,判別器則要在最小化Pfake的同時(shí)尋求Preal的最大化。判別器和生成器中損失函數(shù)為:
式中:LG、LD為生成器和判別器的損失函數(shù);E為樣本的期望值。
在生成器和判別器之間建立1 個(gè)博弈關(guān)系,使2 個(gè)網(wǎng)絡(luò)可以同時(shí)訓(xùn)練,其博弈模型目標(biāo)函數(shù)可以表示為[18]:
式中:VGANs(G,D)為對(duì)抗網(wǎng)絡(luò)的價(jià)值函數(shù)。
GANs 網(wǎng)絡(luò)在使用權(quán)重剪枝的方式時(shí),會(huì)讓大多數(shù)的權(quán)重極端化,會(huì)使得網(wǎng)絡(luò)的擬合能力大大減弱,同時(shí),權(quán)重更新變化過大導(dǎo)致訓(xùn)練不穩(wěn)定,容易發(fā)生梯度消失或者梯度爆炸。2017 年蒙特利爾大學(xué)學(xué)者M(jìn)artin[19]等提出一種WGANs-GP 的形式作為改進(jìn),用梯度懲罰(Gradient Penalty)的方式代替權(quán)重剪枝,使得權(quán)重的分布正?;?,不再集中在剪枝范圍的兩極,緩解訓(xùn)練困難的問題。
由于采空區(qū)觀測(cè)工作量大,埋管維護(hù)工作困難,所以采空區(qū)遺煤自然預(yù)測(cè)所使用的樣本數(shù)據(jù)容量較少,屬于典型的面向小樣本數(shù)據(jù)特征的預(yù)測(cè),所建立的機(jī)器學(xué)習(xí)預(yù)測(cè)模型往往外推泛化能力較弱。通過WGANs-GP 學(xué)習(xí)原始數(shù)據(jù)樣本的內(nèi)部分布信息,從而得到與小樣本分布一致的生成樣本,然后將生成樣本添加到原樣本中以達(dá)到數(shù)據(jù)增強(qiáng)的作用[20]。采用WGANs-GP 算法通過生成器D 能夠?qū)W習(xí)到采空區(qū)遺煤自燃監(jiān)測(cè)數(shù)據(jù)的真實(shí)分布,那么生成器D 就能生成原來不存在采空區(qū)遺煤自燃監(jiān)測(cè)數(shù),但又很真實(shí)的樣本數(shù)據(jù),然后把真實(shí)數(shù)據(jù)集和虛擬數(shù)據(jù)集進(jìn)行合并,再運(yùn)用機(jī)器學(xué)習(xí)算法訓(xùn)練擴(kuò)容增強(qiáng)的數(shù)據(jù)集建立采空區(qū)遺煤自燃預(yù)測(cè)模型。預(yù)測(cè)模型框架圖如圖2。
圖2 預(yù)測(cè)模型框架圖Fig.2 Frame diagram of prediction model
現(xiàn)場(chǎng)數(shù)據(jù)實(shí)測(cè)來源于晉煤控股三元福達(dá)煤業(yè)15101 工作面,15101 工作面煤層平均厚度4.5 m,采用一次采全高綜合機(jī)械化采煤法,礦井屬高瓦斯礦井,15#煤層自燃傾向性為Ⅱ級(jí)。15101 工作面現(xiàn)場(chǎng)監(jiān)測(cè)方案為:在進(jìn)回風(fēng)巷共布置8 個(gè)測(cè)站,每個(gè)測(cè)站距離為15 m,預(yù)先把熱電偶線和束管布置在鋼管內(nèi),觀測(cè)有效工作面推進(jìn)距離為150 m。工作面測(cè)點(diǎn)布置示意圖如圖3。
圖3 工作面測(cè)點(diǎn)布置示意圖Fig.3 Schematic diagram of measuring point layout in working face
隨工作面推進(jìn)過程中共收集到包含工作面距離、采空區(qū)溫度、O2、CO、CO2、CH4信息的312 條數(shù)據(jù)信息,剔除數(shù)據(jù)噪聲共保留272 條數(shù)據(jù)用于預(yù)測(cè)模型的學(xué)習(xí)訓(xùn)練。由于數(shù)據(jù)樣本中CO 數(shù)據(jù)只有3 號(hào)測(cè)站測(cè)得有效數(shù)據(jù),CO 數(shù)據(jù)特征值不明顯,屬性的取值對(duì)特征的提取意義不大,數(shù)據(jù)樣本中剔除了CO數(shù)據(jù),本次預(yù)測(cè)模型,采用工作面距離、O2、CO2、CH4為輸入值,采空區(qū)溫度為輸出預(yù)測(cè)值。
采用Facebook 公司發(fā)布的Python 機(jī)器學(xué)習(xí)庫PyTorch 來構(gòu)建和訓(xùn)練WGAN-GP 模型。WGAN-GP模型中判別器G 和生成器D 都是3 層全連通神經(jīng)網(wǎng)絡(luò),其中神經(jīng)網(wǎng)絡(luò)的層數(shù)和神經(jīng)元數(shù)量對(duì)于在當(dāng)前樣本數(shù)據(jù)下模型所生成樣本數(shù)據(jù)的特征質(zhì)量有決定性的作用,參考文獻(xiàn)[21-24],采用試錯(cuò)法,確定了判別器G 和生成器D 的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。
生成器D 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù):輸入維度100 的隨機(jī)噪聲;第1 層全連接神經(jīng)網(wǎng)絡(luò)32 個(gè)神經(jīng)元、LeakyReLU 激活函數(shù);第2 層全連接神經(jīng)網(wǎng)絡(luò)64 個(gè)神經(jīng)元、LeakyReLU 激活函數(shù);第3 層全連接神經(jīng)網(wǎng)絡(luò)128 個(gè)神經(jīng)元,LeakyReLU 激活函數(shù);第3 層全連接神經(jīng)網(wǎng)絡(luò)5 個(gè)神經(jīng)元,Tanh 激活函數(shù)。
判別器G 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù):輸入維度為5 的樣本;第1 層全連接神經(jīng)網(wǎng)絡(luò)256 個(gè)神經(jīng)元,LeakyReLU 激活函數(shù);第2 層全連接神經(jīng)網(wǎng)絡(luò)128個(gè)神經(jīng)元,LeakyReLU 激活函數(shù);第3 層全連接神經(jīng)網(wǎng)絡(luò)1 個(gè)神經(jīng)元。
訓(xùn)練中為了保持對(duì)抗訓(xùn)練平衡,設(shè)置判別器模型與生成器模型的更新次數(shù)為1∶2,以確保判別器損失值不會(huì)為0。其他參數(shù)具體設(shè)置為:學(xué)習(xí)率0.000 1、小批量大小16、adam 一階矩估計(jì)參數(shù)0.5、adam 二階矩估計(jì)參數(shù)0.999。
WGAN-GP 模型生成的數(shù)據(jù)樣本中,存在一定量的數(shù)據(jù)偏離了真實(shí)數(shù)據(jù)的上下限,例如溫度數(shù)據(jù)中存在小于20 ℃的數(shù)據(jù),和實(shí)際情況不符,這種和實(shí)際情況不符生成的原始分布的數(shù)據(jù)加入訓(xùn)練集后,將會(huì)嚴(yán)重影響模型的泛化能力。為了解決生成數(shù)據(jù)分布特征和實(shí)際情況不符的問題,采用斯皮爾曼等級(jí)相關(guān)系數(shù)對(duì)生成的虛擬數(shù)據(jù)和實(shí)測(cè)數(shù)據(jù)的相關(guān)性進(jìn)行評(píng)價(jià)。虛擬數(shù)據(jù)預(yù)處理后,對(duì)各參數(shù)之間的相關(guān)屬性ρ 進(jìn)行分析,其計(jì)算方式如下[25]:
式中:n 為數(shù)據(jù)的數(shù)量;di為2 個(gè)數(shù)據(jù)次序的差。
實(shí)測(cè)數(shù)據(jù)參數(shù)相關(guān)性分布圖如圖4,虛擬擴(kuò)容數(shù)據(jù)參數(shù)相關(guān)性分布圖如圖5。由圖4 和圖5 可知,虛擬擴(kuò)容數(shù)據(jù)各參數(shù)屬性之間的相關(guān)性和實(shí)測(cè)數(shù)據(jù)各參數(shù)屬性的相關(guān)性非常相近,說明擴(kuò)容數(shù)據(jù)能夠很好表達(dá)實(shí)測(cè)數(shù)據(jù)的特征分布。
圖4 實(shí)測(cè)數(shù)據(jù)參數(shù)相關(guān)性分布圖Fig.4 Correlation distribution of measured data parameters
圖5 虛擬擴(kuò)容數(shù)據(jù)參數(shù)相關(guān)性分布圖Fig.5 Correlation distribution of virtual capacity expansion data parameters
使用對(duì)抗神經(jīng)網(wǎng)絡(luò)生成虛擬數(shù)據(jù)樣本的數(shù)量,不是越多越好,往往生成的虛擬數(shù)據(jù)樣本中存在特征不明顯的低質(zhì)量數(shù)據(jù),會(huì)影響后期預(yù)測(cè)模型的預(yù)測(cè)精度和外推能力,虛擬樣本的生成數(shù)量需要根據(jù)真實(shí)樣本數(shù)據(jù)特征,以及所預(yù)測(cè)問題的具體情況選擇,參照文獻(xiàn)[26-28],并結(jié)合研究數(shù)據(jù)集的特征,發(fā)現(xiàn)實(shí)測(cè)數(shù)據(jù)集擴(kuò)容1 倍虛擬數(shù)據(jù)時(shí),數(shù)據(jù)樣本集的特征分布和實(shí)測(cè)數(shù)據(jù)集非常相似,為此,使用1 倍的生成虛擬樣本進(jìn)行真實(shí)樣本數(shù)據(jù)的擴(kuò)充。生成的擴(kuò)容數(shù)據(jù)集分布如圖6~圖9,由實(shí)測(cè)和擴(kuò)容樣本數(shù)據(jù)集分布示意圖可知,所生成的數(shù)據(jù)集分布相似,并且比原實(shí)測(cè)數(shù)據(jù)集有一定的外擴(kuò)。
圖6 實(shí)測(cè)和擴(kuò)容溫度數(shù)據(jù)集分布示意圖Fig.6 Distribution diagram of measured and dilated temperature data sets
圖7 實(shí)測(cè)和擴(kuò)容氧氣體積分?jǐn)?shù)數(shù)據(jù)集分布示意圖Fig. 7 Distribution diagram of measured and expanded oxygen volume fraction data sets
圖8 實(shí)測(cè)和擴(kuò)容甲烷數(shù)據(jù)集分布示意圖圖Fig. 8 Schematic diagram of the distribution of measured and expanded methane data sets
圖9 實(shí)測(cè)和擴(kuò)容二氧化碳數(shù)據(jù)集分布示意圖Fig. 9 Distribution diagram of measured and expanded CO2 data sets
使用WGAN-GP 模型生成的數(shù)據(jù)樣本和現(xiàn)場(chǎng)實(shí)測(cè)的數(shù)據(jù)樣本進(jìn)行混合,得到數(shù)據(jù)增強(qiáng)擴(kuò)容的采空區(qū)遺煤自燃預(yù)測(cè)訓(xùn)練數(shù)據(jù)集,使用AI 模型進(jìn)行數(shù)據(jù)集的學(xué)習(xí)訓(xùn)練,并建立采空區(qū)遺煤自燃預(yù)測(cè)模型。
機(jī)器學(xué)習(xí)算法在工業(yè)問題預(yù)測(cè)中應(yīng)用較為廣泛,近年來發(fā)展較快的深度學(xué)習(xí)模型也已經(jīng)在許多工業(yè)問題預(yù)測(cè)中進(jìn)行了運(yùn)用,例如DCNN、RNN、LSTM、GRU 等模型,在相關(guān)工業(yè)問題預(yù)測(cè)和機(jī)械故障診斷中都獲得了一定競爭力的性能,但是深度學(xué)習(xí)模型往往較為復(fù)雜,對(duì)于很多工業(yè)預(yù)測(cè)性問題的解決有一定的局限性,使用配置良好的簡單機(jī)器學(xué)習(xí)模型對(duì)工業(yè)性預(yù)測(cè)問題的解決,完全可以取得良好的效果。BP 神經(jīng)網(wǎng)絡(luò)是工業(yè)預(yù)測(cè)中應(yīng)用最為廣泛和成熟的人工神經(jīng)網(wǎng)絡(luò),為此,使用遺傳算法GA 對(duì)BP神經(jīng)網(wǎng)絡(luò)的參數(shù)和結(jié)構(gòu)進(jìn)行尋優(yōu),消除BP 神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)建立采空區(qū)遺煤自燃預(yù)測(cè)的進(jìn)化神經(jīng)網(wǎng)絡(luò)(GABPNN)預(yù)測(cè)模型,并和其它模型進(jìn)行對(duì)比分析。
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)化過程中,搜索空間取1個(gè)隱含層,節(jié)點(diǎn)數(shù)范圍為5~50;種群規(guī)模為35 個(gè),雜交概率0.82,變異概率0.25;初始權(quán)值進(jìn)化過程中,搜索范圍為-10.0~10.0;種群規(guī)模80 個(gè),雜交概率0.96,變異概率0.05。BP 網(wǎng)絡(luò)學(xué)習(xí)率取0.1,動(dòng)量項(xiàng)系數(shù)為0.5。在模型訓(xùn)練過程中,隨機(jī)抽取樣本數(shù)量的20%為測(cè)試樣本。GA-BPNN 實(shí)測(cè)數(shù)據(jù)訓(xùn)練集測(cè)試樣本如圖10,GA-BPNN 增強(qiáng)擴(kuò)容訓(xùn)練集測(cè)試樣本如圖11。
圖10 GA-BPNN 實(shí)測(cè)數(shù)據(jù)訓(xùn)練集測(cè)試樣本Fig.10 GA-BPNN test sample of training set of measured data
圖11 GA-BPNN 增強(qiáng)擴(kuò)容訓(xùn)練集測(cè)試樣本Fig.11 GA-BPNN test sample of enhanced capacity expansion training set
為了進(jìn)一步研究使用WGANs-GP 模型對(duì)實(shí)測(cè)數(shù)據(jù)進(jìn)行增強(qiáng)擴(kuò)容數(shù)據(jù)集對(duì)采空區(qū)遺煤自燃預(yù)測(cè)模型性能的影響,使用相同增強(qiáng)擴(kuò)容的數(shù)據(jù)集分別建立了GA-SVM 預(yù)測(cè)模型和隨機(jī)森林RF 預(yù)測(cè)模型。
支持向量機(jī)(SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的一種通用學(xué)習(xí)方法,采用遺傳算法(GA)對(duì)其參數(shù)優(yōu)化,提高模型的訓(xùn)練效果。支持向量機(jī)優(yōu)化學(xué)習(xí)參數(shù)為3 個(gè),懲罰系數(shù)C、不敏感損失系數(shù)ε、基函數(shù)帶寬δ。種群規(guī)模設(shè)置為80 個(gè),雜交概率(交叉概率)0.9,變異概率0.1,倒序概率0.2。在模型訓(xùn)練過程中,隨機(jī)抽取樣本數(shù)量的20%為測(cè)試樣本。GA-SVM 實(shí)測(cè)數(shù)據(jù)訓(xùn)練集測(cè)試樣本如圖12,GA-SVM 增強(qiáng)擴(kuò)容訓(xùn)練集測(cè)試樣本如圖13。
圖12 GA-SVM 實(shí)測(cè)數(shù)據(jù)訓(xùn)練集測(cè)試樣本Fig. 12 GA-SVM test sample of measured data training set
圖13 GA-SVM 增強(qiáng)擴(kuò)容訓(xùn)練集測(cè)試樣本Fig.13 GA-SVM test sample of augmentation and capacity expansion training set
隨機(jī)森林(RF)是一種基于分類樹的算法,它可以用于分類和回歸問題,它由決策樹的分類器構(gòu)成,樹的構(gòu)建遵從分類與回歸樹策略。隨機(jī)森林(RF)模型訓(xùn)練速度快,容易做成并行化方法,對(duì)于不平衡數(shù)據(jù)集來說,隨機(jī)森林可以平衡誤差。隨機(jī)森林在解決回歸問題時(shí),在超越訓(xùn)練集數(shù)據(jù)范圍的預(yù)測(cè)能力較差。
決策樹的數(shù)量達(dá)到100 時(shí),R2呈平緩趨勢(shì)且數(shù)值達(dá)到最大,決策樹的深度為4.5~5.5 時(shí),模型擬合效果達(dá)到最好[29]。為此,訓(xùn)練過程中決策樹量參數(shù)設(shè)置為100,決策樹深度參數(shù)設(shè)置為5。在模型訓(xùn)練過程中,隨機(jī)抽取樣本數(shù)量的20%為測(cè)試樣本。RF 實(shí)測(cè)數(shù)據(jù)訓(xùn)練集測(cè)試樣本如圖14,RF 增強(qiáng)擴(kuò)容訓(xùn)練集測(cè)試樣本如圖15。
圖14 RF 實(shí)測(cè)數(shù)據(jù)訓(xùn)練集測(cè)試樣本Fig.14 RF test sample of training set of measured data
圖15 RF 增強(qiáng)擴(kuò)容訓(xùn)練集測(cè)試樣本Fig.15 RF test sample of enhanced capacity expansion training set
不同訓(xùn)練數(shù)據(jù)集和模型預(yù)測(cè)性能指標(biāo)見表1。由表1 可知,使用增強(qiáng)擴(kuò)容的數(shù)據(jù)集進(jìn)行訓(xùn)練,3 種預(yù)測(cè)模型的R2指標(biāo)均有提高,GA-BPNN 模型提高了12%,GA-SVM 模型提高了4%,RF 模型提高了3%,GA-BPNN 模型R 2 指標(biāo)提高幅度最大;3 種預(yù)測(cè)模型MAE 指標(biāo)均降低,GA-BPNN 模型降低了0.67 ℃,GA-SVM 模型降低了0.54 ℃,RF 模型降低了0.33 ℃;3 種預(yù)測(cè)模型RMSE 指標(biāo)均降低,GABPNN 模型降低了0.41 ℃,GA-SVM 模型降低了0.46 ℃,RF 模型降低了0.39 ℃。增強(qiáng)擴(kuò)容的數(shù)據(jù)集對(duì)3 種預(yù)測(cè)模型的泛化能力都有提高,其中GABPNN 模型預(yù)測(cè)性能提高幅度較大。
表1 不同訓(xùn)練數(shù)據(jù)集和模型預(yù)測(cè)性能指標(biāo)Table 1 Performance indicators predicted by different training data sets and models
1)采用WGAN-GP 生成式對(duì)抗神經(jīng)網(wǎng)絡(luò),進(jìn)行反映真實(shí)數(shù)據(jù)特征分布的虛擬樣本生成過程中,需要根據(jù)實(shí)測(cè)數(shù)據(jù)及樣本實(shí)際合理范圍上下限進(jìn)行數(shù)據(jù)的處理,虛擬數(shù)據(jù)擴(kuò)容的數(shù)量對(duì)數(shù)據(jù)的相關(guān)性及后期模型預(yù)測(cè)精度的影響非常大。所使用的數(shù)據(jù)集,在擴(kuò)容1 倍的虛擬樣本數(shù)據(jù)后,增強(qiáng)擴(kuò)容數(shù)據(jù)集的各參數(shù)的相關(guān)性變化不大。
2)采用斯皮爾曼等級(jí)相關(guān)系數(shù)對(duì)生成的虛擬數(shù)據(jù)和實(shí)測(cè)數(shù)據(jù)的相關(guān)性系數(shù)進(jìn)行計(jì)算,虛擬數(shù)據(jù)和實(shí)測(cè)數(shù)據(jù)集中各參數(shù)屬性的相關(guān)系數(shù)變化幅度較小,各指標(biāo)相關(guān)性變化幅度均未超過20,數(shù)據(jù)集擴(kuò)容后各參數(shù)相關(guān)性變化不大,較好保留了數(shù)據(jù)的特征分布。
3)使用增強(qiáng)擴(kuò)容數(shù)據(jù)集進(jìn)行3 種預(yù)測(cè)模型的訓(xùn)練,各模型的預(yù)測(cè)性能均有提高,其中R2指標(biāo)GABPNN 模型提高12%,GA-SVM 模型提高4%,RF 模型提高3%,;MAE 指標(biāo)均降低,GA-BPNN 模型降低0.67 ℃,GA-SVM 模型降低了0.54 ℃,RF 模型降低0.33 ℃;RMSE 指標(biāo)均降低,GA-BPNN 模型降低0.41 ℃,GA-SVM 模型降低0.46 ℃,RF 模型降低0.39 ℃。增強(qiáng)擴(kuò)容的數(shù)據(jù)集對(duì)3 種預(yù)測(cè)模型的性能都有提高,其中GA-BPNN 模型預(yù)測(cè)性能提高幅度最大。