趙先枝, 陳軍林
(1. 內(nèi)蒙古煤炭地質(zhì)勘查(集團(tuán))一五三有限公司,內(nèi)蒙古 呼和浩特 010010;2. 中國(guó)地質(zhì)大學(xué)(北京) 地球科學(xué)與資源學(xué)院,北京 100083))
煤炭發(fā)熱量是評(píng)價(jià)煤質(zhì)的關(guān)鍵指標(biāo),對(duì)于煤炭利用、煤炭?jī)r(jià)值評(píng)估等非常重要[1]。精確的煤炭發(fā)熱量數(shù)據(jù)需要通過實(shí)驗(yàn)測(cè)試得到,但煤炭發(fā)熱量的實(shí)驗(yàn)測(cè)定在當(dāng)前技術(shù)條件下較繁瑣、耗時(shí)且昂貴[2]。在對(duì)煤炭發(fā)熱量精度要求不高的情況下,通常通過建立數(shù)學(xué)模型,利用測(cè)試相對(duì)廉價(jià)且容易獲取的指標(biāo)來預(yù)測(cè)煤炭發(fā)熱量。在煤炭發(fā)熱量預(yù)測(cè)方面,前人提出了線性回歸[3-4]、BP神經(jīng)網(wǎng)絡(luò)[5]、支持向量回歸[6-7]等方法。其中實(shí)際應(yīng)用最廣泛的是線性回歸,該方法模型簡(jiǎn)單、計(jì)算快速,但存在以下問題:對(duì)于非線性數(shù)據(jù)擬合能力欠佳,難以表達(dá)較為復(fù)雜的自變量和因變量關(guān)系;需要數(shù)據(jù)服從特定的分布假設(shè);對(duì)異常值敏感。
分位數(shù)回歸是Roger Koenker和Gilbert Bassett于1978年提出的一種回歸分析方法[8],經(jīng)過不斷發(fā)展形成了線性分位數(shù)回歸、神經(jīng)網(wǎng)絡(luò)分位數(shù)回歸、分位數(shù)回歸森林等方法。分位數(shù)回歸具有如下優(yōu)點(diǎn):不需要對(duì)數(shù)據(jù)做任何的分布假定;具有對(duì)異常點(diǎn)不敏感的特征;模型比較穩(wěn)??;能夠給出比傳統(tǒng)回歸分析更豐富的預(yù)測(cè)結(jié)果;可用來研究自變量與因變量之間的關(guān)系。目前關(guān)于分位數(shù)回歸在煤炭發(fā)熱量預(yù)測(cè)方面的應(yīng)用研究較少。本文采用線性分位數(shù)回歸和分位數(shù)回歸森林2種分位數(shù)回歸分析方法對(duì)煤炭發(fā)熱量進(jìn)行預(yù)測(cè),分析各預(yù)測(cè)變量對(duì)結(jié)果變量的影響,并與傳統(tǒng)線性回歸方法進(jìn)行對(duì)比,分析不同回歸分析方法在煤炭發(fā)熱量預(yù)測(cè)中的效果。
為建立可靠的數(shù)學(xué)模型,需要充足的數(shù)據(jù)來進(jìn)行回歸模型訓(xùn)練和測(cè)試。美國(guó)地質(zhì)調(diào)查局的COALQUAL(https://ncrdspublic.er.usgs.gov/coalqual/)煤炭質(zhì)量數(shù)據(jù)庫[9]包含了美國(guó)25個(gè)州的煤質(zhì)樣品測(cè)試數(shù)據(jù),數(shù)據(jù)量大且煤質(zhì)分析指標(biāo)較全面,可以公開使用。本文從該數(shù)據(jù)庫中選取煤質(zhì)工業(yè)分析數(shù)據(jù)和元素分析數(shù)據(jù)組成數(shù)據(jù)集,考慮到實(shí)際應(yīng)用中更多地使用工業(yè)分析數(shù)據(jù)進(jìn)行發(fā)熱量計(jì)算,選取煤炭的全水分Mt、灰分Asd、揮發(fā)分Vad3個(gè)工業(yè)分析指標(biāo)來進(jìn)行回歸分析,計(jì)算低位發(fā)熱量Qnet,ad。
數(shù)據(jù)集中一些數(shù)據(jù)存在空值、異常值等問題,因此在回歸分析之前,需要進(jìn)行數(shù)據(jù)預(yù)處理,剔除包含空值的數(shù)據(jù),刪除明顯在正常煤質(zhì)指標(biāo)范圍之外的異常數(shù)據(jù)。經(jīng)過數(shù)據(jù)預(yù)處理得到4 540個(gè)煤質(zhì)樣品測(cè)試數(shù)據(jù),其中80%的數(shù)據(jù)用來訓(xùn)練回歸模型,其余數(shù)據(jù)用來測(cè)試回歸模型。
線性回歸方程為
式中:yi為第i(i=1,2,…,n,n為樣本個(gè)數(shù))個(gè)樣本的因變量; β0為常數(shù)項(xiàng); βj為第j(j=1,2,…,p,p為自變量個(gè)數(shù))個(gè)自變量的回歸系數(shù);xij為第i個(gè)樣本的第j個(gè)自變量。
通過已知的自變量和因變量求解式(1)中的常數(shù)項(xiàng)和回歸系數(shù),得到自變量和因變量之間的函數(shù)關(guān)系,利用該函數(shù)關(guān)系可對(duì)新的樣本進(jìn)行預(yù)測(cè)。
線性分位數(shù)回歸是線性回歸的擴(kuò)展,其方程與線性回歸方程相似:
式中:τ為分位點(diǎn),取值范圍為0~1;Qτ(yi)為因變量yi的τ分位數(shù)估計(jì)值; β0(τ)為 常數(shù)項(xiàng); βj(τ)為第j個(gè)自變量的τ分位數(shù)回歸系數(shù)。
通過使中值絕對(duì)偏差達(dá)到最小來找到最佳的分位數(shù)回歸線。
式中:M為中值絕對(duì)偏差; ρτ為檢查函數(shù)。
檢查函數(shù)根據(jù)誤差的分位數(shù)和符號(hào)(正或負(fù))為誤差賦予不對(duì)稱權(quán)重。
式中μ為單個(gè)數(shù)據(jù)點(diǎn)的誤差。
傳統(tǒng)線性回歸分析預(yù)測(cè)的結(jié)果是因變量的條件期望,分位數(shù)回歸的預(yù)測(cè)結(jié)果則是因變量的條件分位數(shù),不同分位點(diǎn)對(duì)應(yīng)不同的條件分位數(shù)估計(jì)值[10],多個(gè)條件分位數(shù)估計(jì)值構(gòu)成了因變量的條件概率分布[11]。
由線性回歸擴(kuò)展得到的線性分位數(shù)回歸能處理的問題有限,預(yù)測(cè)結(jié)果往往精度不高。近年來有許多學(xué)者將分位數(shù)回歸思想應(yīng)用到機(jī)器學(xué)習(xí)算法中[12-14],如將分位數(shù)回歸與隨機(jī)森林[15]結(jié)合,形成了分位數(shù)回歸森林方法。該方法繼承了隨機(jī)森林算法抗過擬合能力強(qiáng)、穩(wěn)定性高、無需復(fù)雜調(diào)參、可處理非線性回歸問題等優(yōu)點(diǎn)。其計(jì)算過程如下:
(1) 生成多棵決策樹,存儲(chǔ)每棵決策樹每個(gè)葉節(jié)點(diǎn)的所有觀測(cè)值。
(2) 給定觀測(cè)變量x,遍歷所有決策樹,計(jì)算每棵決策樹觀測(cè)值的權(quán)重wi(x)。
(3) 對(duì)于所有y∈R,利用權(quán)重wi(x)計(jì)算分布函數(shù)的估計(jì):
式中:X為自變量矩陣;I(·)為示性函數(shù);Y為決策樹節(jié)點(diǎn)上的因變量觀測(cè)值。
(4) 計(jì)算條件分位數(shù)的估計(jì)值:
式中inf{·}為取下限函數(shù)。
回歸模型需要先確定輸入變量集,以確保所使用的自變量能夠反映因變量的變化,同時(shí)自變量之間能夠排除多重共線性。不同自變量之間及其與發(fā)熱量之間的關(guān)系可用相關(guān)系數(shù)(表1)來表示。從表1可看出,Mt與Qnet,ad之間的相關(guān)性很高,且呈負(fù)相關(guān),說明該指標(biāo)是回歸分析預(yù)測(cè)發(fā)熱量的主要指標(biāo)。而Vad,Asd與Qnet,ad的相關(guān)系數(shù)均較小,說明這2個(gè)指標(biāo)對(duì)于發(fā)熱量預(yù)測(cè)的重要性遠(yuǎn)低于Mt。Mt,Vad,Asd3個(gè)預(yù)測(cè)變量之間的相關(guān)性也較小,則可同時(shí)使用Mt,Vad,Asd來構(gòu)建回歸模型。因此,發(fā)熱量預(yù)測(cè)模型以Mt,Vad,Asd為預(yù)測(cè)變量,以Qnet,ad為結(jié)果變量。
表1 煤質(zhì)參數(shù)相關(guān)系數(shù)Table 1 Correlation coefficients of coal quality parameters
利用訓(xùn)練數(shù)據(jù)訓(xùn)練線性回歸模型,得到回歸方程:Qnet,ad=37.736-0.087Vad-0.647Mt-0.387Asd。對(duì)線性回歸方程進(jìn)行檢驗(yàn),得到方差膨脹因子小于10,表明自變量之間不存在多重共線性,且回歸方程F檢驗(yàn)顯示回歸效果顯著。
用測(cè)試數(shù)據(jù)對(duì)訓(xùn)練好的線性回歸模型進(jìn)行驗(yàn)證。選取9個(gè)分位點(diǎn)(τ=0.1~0.9),利用R語言軟件包quantreg,quantregForest分別執(zhí)行線性分位數(shù)回歸、分位數(shù)回歸森林,采用均方誤差、平均絕對(duì)誤差、均方根誤差和決定系數(shù)4個(gè)指標(biāo)來評(píng)價(jià)回歸分析結(jié)果,得到不同回歸模型評(píng)價(jià)結(jié)果,見表2。
表2 不同回歸模型評(píng)價(jià)結(jié)果Table 2 Evaluation results of different regression models
從表2可看出,不同回歸分析方法得到的結(jié)果有一定差別,但決定系數(shù)均在0.96以上(τ= 0.5時(shí)),說明用Mt,Vad,Asd3個(gè)指標(biāo)來預(yù)測(cè)煤炭低位發(fā)熱量是可行的,能夠得到較為可信的發(fā)熱量預(yù)測(cè)值。分位數(shù)回歸森林方法的預(yù)測(cè)誤差隨分位點(diǎn)增大呈先減小后增大趨勢(shì),在τ= 0.5處預(yù)測(cè)誤差最小,且決定系數(shù)最大達(dá)0.984,預(yù)測(cè)效果優(yōu)于線性回歸和線性分位數(shù)回歸方法。
不同回歸分析方法下回歸擬合線如圖1所示??煽闯鼍€性回歸擬合線為1條,且穿過數(shù)據(jù)點(diǎn)分布范圍的中心,反映的是數(shù)據(jù)點(diǎn)的平均趨勢(shì),但僅1條線無法限定數(shù)據(jù)點(diǎn)的分布范圍;分位數(shù)回歸擬合線為多條,大部分?jǐn)?shù)據(jù)點(diǎn)分布在τ= 0.1和τ= 0.9對(duì)應(yīng)的2條擬合線之間的范圍內(nèi)(未包括在該范圍內(nèi)的數(shù)據(jù)點(diǎn)為異常點(diǎn))。由此可知,線性回歸給出的預(yù)測(cè)值是1個(gè)均值,而通過分位數(shù)回歸能夠給出預(yù)測(cè)值的范圍,在評(píng)估煤質(zhì)時(shí)更具有實(shí)際意義。
圖1 不同回歸分析方法下回歸擬合線Fig. 1 Regression fitting lines under different regression analysis methods
通過線性分位數(shù)回歸可計(jì)算出不同分位點(diǎn)對(duì)應(yīng)的回歸系數(shù),見表3。
為研究不同預(yù)測(cè)變量對(duì)結(jié)果變量的影響,根據(jù)表3可得線性分位數(shù)回歸系數(shù)隨分位點(diǎn)變化曲線,如圖2所示。可看出Mt回歸系數(shù)隨分位點(diǎn)增大呈增大趨勢(shì),其絕對(duì)值則越來越小,說明Mt對(duì)低發(fā)熱量煤炭的發(fā)熱量預(yù)測(cè)影響大,對(duì)高發(fā)熱量煤炭的發(fā)熱量預(yù)測(cè)影響小。Vad和Asd的回歸系數(shù)隨分位點(diǎn)增大呈先減小后略增大趨勢(shì),其絕對(duì)值則先增大后稍有減小,說明Vad和Asd對(duì)低發(fā)熱量煤炭的發(fā)熱量預(yù)測(cè)影響小,對(duì)高發(fā)熱量煤炭的發(fā)熱量預(yù)測(cè)影響大。
表3 不同分位點(diǎn)下線性分位數(shù)回歸系數(shù)Table 3 Linear quantile regression coefficients under different quantiles
圖2 線性分位數(shù)回歸系數(shù)隨分位點(diǎn)變化曲線Fig. 2 Variation curves of linear quantile regression coefficients with quantiles
(1) 應(yīng)用線性回歸、線性分位數(shù)回歸、分位數(shù)回歸森林3種回歸分析方法進(jìn)行了煤炭發(fā)熱量預(yù)測(cè),其中分位數(shù)回歸森林的預(yù)測(cè)誤差最小。
(2) 分位數(shù)回歸方法能夠預(yù)測(cè)煤炭發(fā)熱量的條件分位數(shù),而不僅僅是條件均值,從而為煤炭發(fā)熱量預(yù)測(cè)提供了更豐富的信息。
(3) 根據(jù)煤質(zhì)參數(shù)相關(guān)系數(shù)評(píng)估全水分、灰分、揮發(fā)分對(duì)于煤炭發(fā)熱量預(yù)測(cè)的重要程度,結(jié)果表明全水分對(duì)于煤炭發(fā)熱量預(yù)測(cè)的重要程度遠(yuǎn)大于灰分和揮發(fā)分。
(4) 利用線性分位數(shù)回歸分析了全水分、灰分、揮發(fā)分對(duì)煤炭發(fā)熱量預(yù)測(cè)的影響,結(jié)果表明:全水分對(duì)低發(fā)熱量煤炭的發(fā)熱量預(yù)測(cè)影響大,對(duì)高發(fā)熱量煤炭的發(fā)熱量預(yù)測(cè)影響??;揮發(fā)分和灰分對(duì)低發(fā)熱量煤炭的發(fā)熱量預(yù)測(cè)影響小,對(duì)高發(fā)熱量煤炭的發(fā)熱量預(yù)測(cè)影響大。