季玉潔,李 祥,劉翠茹
1.國電科學技術研究院有限公司; 2.國電南京煤炭質量監(jiān)督檢驗有限公司,江蘇 南京 210031)
煤的熱值、工業(yè)分析與元素分析數(shù)據(jù)間有著密切的關系,只要用熱值和工業(yè)分析數(shù)據(jù)將這種關系定量表示出來,則煤中各元素含量完全可以由熱值和工業(yè)分析結果從理論上進行近似計算[1]。經(jīng)驗法、回歸分析法和算法等[1-6]已經(jīng)提出了煤的熱值與工業(yè)分析及元素分析數(shù)據(jù)之間較精準的預測模型。但這些預測模型往往未能全面系統(tǒng)地考慮煤的熱值和工業(yè)分析數(shù)據(jù)間的交互作用和綜合關聯(lián)關系,特別是通過線性回歸法直接獲得預測模型時,這種交互作用和綜合關聯(lián)關系的損失尤為明顯。而主成分分析法可將原始變量重新組合成一組新的互相無關的綜合變量,同時根據(jù)實際需要,從中取出幾個綜合變量,盡可能多地反映原始變量的信息[7]。
鑒于此,本文擬以主成分分析法對煤的發(fā)熱量和工業(yè)分析數(shù)據(jù)進行預處理,在不損失原始變量信息的情況下對變量進行壓縮,獲得煤的發(fā)熱量和工業(yè)分析數(shù)據(jù)的綜合作用參數(shù)(即主成分),研究所得主成分與煤的元素分析數(shù)據(jù)間的關系,進而提出煤元素分析的通用預測模型,并檢驗模型適應性。
以2016年4月至2017年10月間國電南京煤炭質量監(jiān)督檢驗有限公司所測561個煤樣的煤質分析數(shù)據(jù)(見表1)為研究對象。表2表明研究所用煤質分析數(shù)據(jù)具有較廣的覆蓋范圍。
表1 煤質分析數(shù)據(jù)
注:*由“差減法”得到。
表2 煤質分析數(shù)據(jù)范圍
注:*由“差減法”得到。
為提高科學性和嚴謹性,本文對原始數(shù)據(jù)進行了以下處理:
(1)對原始數(shù)據(jù)進行隨機重排,重排后結果見表1;
(2)以表1中前500組數(shù)據(jù)為訓練組,后61組數(shù)據(jù)為檢驗組;
(3)對訓練組數(shù)據(jù)進行主成分分析;
(4)將檢驗組數(shù)據(jù)進行去中心化,進而使訓練組和檢驗組數(shù)據(jù)轉換到同一個坐標系下。其原因是:在進行主成分分析時訓練組數(shù)據(jù)進行了去中心化,即每一個因變量減去其所在列的平均值[8]。
主成分分析法的基本原理見文獻[4-7]。其主要步驟是:
(1)列出指標數(shù)據(jù)矩陣X;
(2)計算X的協(xié)方差矩陣;
(3)計算協(xié)方差矩陣的特征值和特征向量;
(4)計算各成分貢獻率及累計貢獻率;
(5)確定主成分個數(shù)和主成分方程。
本文借助MATLAB軟件對訓練組中煤的工業(yè)分析和發(fā)熱量數(shù)據(jù)進行主成分分析,結果見表3。
表3 主成分的特征值、貢獻率及累計貢獻率
根據(jù)主成分特征值大于1的原則[9],確定影響煤的工業(yè)分析和發(fā)熱量數(shù)據(jù)的主要是前3個主成分,其累計貢獻率達100%,已覆蓋原始數(shù)據(jù)的全部信息。前3個主成分記作Z1、Z2和Z3,其得分見表4。由文獻[8,10,11]和各主成分的表達式知:第一主成分主要受Ad和Vd的綜合影響,其中Ad和Vd分別有較高程度的負載荷和正載荷;第二主成分主要受Vd和FCd的綜合影響,其中Vd和FCd分別有較高程度的正載荷和負載荷;第三主成分主要受Qgr,d的影響,其具有較高的負載荷。
表4 前3個主成分的得分
3個主成分的方程如下:
其中,c為主成分載荷矩陣,
(a)
(b)
(c)
(d)
(e)
(a)~(e)的預測效果見圖1。由圖1知,3個主成分與煤中各元素的三元線性擬合優(yōu)度分別為0.997 8、0.937 3、0.972 2、0.207 6和0.247 9。這表明基于主成分—三元線性回歸分析的Cd、Hd和Od預測模型具有極好的適應性和有較廣的適應范圍,其中Cd∈[13.35,79.05]、Hd∈[1.08,5.04]和Od∈[1.28,21.88]。值得注意的是,不同于文獻[1,2,13],本文中Od預測模型的預測精度較高,這表明主成分分析在原始數(shù)據(jù)處理時起到了關鍵作用。而基于主成分—三元線性回歸分析的Nd和Sd預測模型適應性比較差,其原因是煤中N、S元素含量少、賦存形式復雜,且在煤轉化(熱解、氣化和燃燒等)中析出規(guī)律相當復雜[14,15],與Ad、Vd、FCd和Qgr,d間并非簡單的線性關系,即煤中N、S元素與3個主成分間并非簡單的線性關系。
BP網(wǎng)絡是基于BP誤差傳播算法的多層前饋網(wǎng)絡,多層BP網(wǎng)絡有輸入節(jié)點、輸出節(jié)點和一層或多層隱含節(jié)點[16]。通常將一個具有多個輸出的網(wǎng)絡模型轉化為多個具有一個輸出的網(wǎng)絡模型效果會更好,訓練也更方便[17]。鑒于此,本文以主成分Z1-Z3作為輸入數(shù)據(jù),以Nd和Sd作為輸出數(shù)據(jù),分別建立基于主成分—BP網(wǎng)絡的煤中Nd和Sd的預測模型。
2.3.1 BP網(wǎng)絡參數(shù)設置
所建BP網(wǎng)絡的設計函數(shù)為newff,訓練函數(shù)為train。輸入層到隱層的激勵函數(shù)為S型正切函數(shù)tansig,隱含層到輸出層的激勵函數(shù)為對數(shù)函數(shù)purelin。訓練過程的其他參數(shù)設置如下:
net.trainParam.epochs = 500;%訓練次數(shù)設置
net.trainParam.goal = 1e-6;%訓練精度設置
net.trainParam.lr = 0.0001;%學習速率設置
net.trainParam.max_fail = 20;% 驗證檢查設置
理論上,在閉區(qū)間內(nèi)的任何一個連續(xù)函數(shù)都可以用單隱層的BP網(wǎng)絡逼近,因此一個三層的BP網(wǎng)絡可以完成任意的n維到m維的映射,而隱含層神經(jīng)元數(shù)目往往需要設計者根據(jù)經(jīng)驗和多次實驗來確定[18],大多數(shù)學者認為確定隱層最優(yōu)神經(jīng)元數(shù)最有效的方法是通過反復試驗,將能使樣本誤差達到預設精度的隱含層神經(jīng)元數(shù)目作為網(wǎng)絡模型最優(yōu)的隱含層神經(jīng)元數(shù)目[19]。同時,隱含層神經(jīng)元數(shù)目越多,網(wǎng)絡越復雜,泛化能力也就越差,且過多的網(wǎng)絡節(jié)點會增加訓練網(wǎng)絡的時間;相反,隱含層神經(jīng)元數(shù)目過少,將使得學習在局部最小中搜索,不能得到可靠的結果[16]。因此,必然存在一個最佳隱含層神經(jīng)元數(shù)。
鑒于此,本文確定BP網(wǎng)絡最優(yōu)隱含層節(jié)點數(shù)的方法為:
(2)采用試湊法確定BP網(wǎng)絡最優(yōu)隱含層節(jié)點數(shù)。即從hn=3開始,將輸入層、隱含層節(jié)點數(shù)和輸出層相同的BP網(wǎng)絡循環(huán)運行3 000次,每次運行時,BP網(wǎng)絡初始權值和閾值不斷變化,保存每次運行產(chǎn)生的BP網(wǎng)絡和相應的標準偏差δ;全部運行結束后,獲得δ值最小時的BP網(wǎng)絡;遞增hn,重復上述過程,直到hn=13。
(3)比較hn從3到13過程中的δ值,其中δ值最小時所對應的hn值為最優(yōu)隱藏節(jié)點數(shù)(見表5),即BP net-Nd和BP net-Sd最優(yōu)hn值分別為6和7。
表5 不同隱含層節(jié)點數(shù)所對應BP網(wǎng)絡的最小標準偏差
2.3.2 基于BP網(wǎng)絡的Nd和Sd預測模型適應性分析
圖2 基于主成分—BP網(wǎng)絡的Nd和Sd預測模型結果比較
將檢驗組數(shù)據(jù)進行主成分變換后,直接加載訓練好的最優(yōu)BP網(wǎng)絡,獲得相應的Nd和Sd預測值。由圖2知,預測值和實驗值間的線性擬合優(yōu)度分別為0.561 0和0.542 0。比較圖1和圖2,基于主成分-BP網(wǎng)絡的Nd和Sd預測模型的適應性較基于主成分-三元線性回歸分析時有大幅提升。然而由于煤中N和S元素含量少、賦存形式過于復雜,即便是具有高度非線性泛化能力的BP網(wǎng)絡,也未能精準預測煤中N、S元素含量。在預測精度允許的情況下,可使用預測模型(f)和(g)(見圖2)對煤中N、S元素含量進行預測。
(1)基于主成分—三元線性回歸分析的Cd、Hd和Od預測模型具有較好的適應性和較廣的適應范圍;
(2)基于主成分—三元線性回歸分析的Nd和Sd預測模型的適應性較差,即以主成分—三元線性回歸分析法預測煤中的Nd和Sd是失效的;
(3)基于主成分—BP網(wǎng)絡的Nd和Sd預測模型的適應性較主成分—三元線性回歸分析時有大幅提升。然而煤中N和S元素含量少、賦存形式過于復雜,即便是具有高度非線性泛化能力的BP網(wǎng)絡,也未能精準預測煤中N和S元素含量。