宋敬茹 楊曉蕪
(華北理工大學(xué)礦業(yè)工程學(xué)院,河北 唐山 063210)
為了預(yù)測各種類型的數(shù)據(jù),大量學(xué)者嘗試建立相關(guān)的回歸模型[1],并對研究數(shù)據(jù)采用回歸方法進(jìn)行分析,以節(jié)約獲取數(shù)據(jù)的時間、經(jīng)費(fèi)和人物力。然而,大多數(shù)方法主要集中在傳統(tǒng)線性回歸模型,如線性回歸和偏最小二乘回歸[2],但這些方法更適合于具有線性相關(guān)的參數(shù)變量[3]。
因此,近年來,機(jī)器學(xué)習(xí)因其更強(qiáng)大的靈活性和對數(shù)據(jù)的高度適應(yīng)性而不斷發(fā)展和開始流行起來[4],在回歸分析方法上選取機(jī)器學(xué)習(xí)也變得逐漸活躍,如支持向量回歸(SVR)、隨機(jī)森林回歸(RFR)和增強(qiáng)回歸樹(BRT)。研究發(fā)現(xiàn),SVR、RFR和BRT都能夠嘗試為各種類型的數(shù)據(jù)提供相當(dāng)好的預(yù)測方法。Mountrakis等[5]通過研究發(fā)現(xiàn),與傳統(tǒng)的線性方法相比,使用SVR算法可以降低回歸模型估計的誤差。Wang等[6]探究發(fā)現(xiàn),RFR可以將決策樹與回歸分析模型的套袋算法相結(jié)合,其樣本選擇策略可以避免回歸的過擬合。同時,使用機(jī)器學(xué)習(xí)進(jìn)行回歸分析已廣泛應(yīng)用于許多數(shù)據(jù)預(yù)測相關(guān)領(lǐng)域,覆蓋面甚廣。因此,本文利用R軟件,采用SVR、RFR和BRT 3種機(jī)器學(xué)習(xí)對數(shù)據(jù)進(jìn)行回歸建模的預(yù)測分析,并對回歸模型結(jié)果進(jìn)行比較分析,選擇適合研究數(shù)據(jù)的最優(yōu)機(jī)器學(xué)習(xí)回歸模型。
本實驗采用數(shù)據(jù)來自中國國家氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn/),共計66個國家基礎(chǔ)氣象站點(diǎn)樣本數(shù)據(jù),并收集了對應(yīng)所有氣象站點(diǎn)的經(jīng)度、緯度和高程海拔數(shù)據(jù)信息。因數(shù)據(jù)量較大,無法全部展開,故只展示前30個樣本數(shù)據(jù)組,而全部66組數(shù)據(jù)均會作為本研究的實測值用以建立機(jī)器學(xué)習(xí)的回歸模型。為充分體現(xiàn)機(jī)器學(xué)習(xí)回歸模型的預(yù)測結(jié)果,建模數(shù)據(jù)基于新疆地區(qū)降雨量數(shù)據(jù),因該地的特殊地理位置和氣候現(xiàn)狀使得降雨量數(shù)據(jù)存在明顯的差異,見表1。
為進(jìn)一步建模做準(zhǔn)備,對表1數(shù)據(jù)進(jìn)行統(tǒng)計描述,見表2各個參數(shù)數(shù)據(jù)大致呈正態(tài)分布。通過對表1的數(shù)據(jù)進(jìn)行統(tǒng)計分析,其中經(jīng)度、緯度因地理位置變異系數(shù)最小分別為0.06和0.07,又因為新疆維吾爾自治區(qū)同時具有高原和盆地導(dǎo)致海拔方差最大為350427.84,海拔數(shù)據(jù)較為不穩(wěn)定。同時發(fā)現(xiàn)4個參數(shù)的均值均滿足在95%置信區(qū)間內(nèi)分布,因此本次回歸分析中4個參數(shù)均在可利用范圍內(nèi)。
1.2.1 相關(guān)分析
相關(guān)性分析是研究自變量和因變量之間關(guān)系程度的常用統(tǒng)計方法,以準(zhǔn)確描述變量之間的相關(guān)性,相關(guān)系數(shù)大致包括3類,相關(guān)系數(shù)中皮爾遜系數(shù)[7]最常用于范圍廣泛的值,范圍在[-1,1],值在[0.8,1]或[-1,-0.8]表明其高度緊密相關(guān);值在[0.5,0.8]或[-0.5,-0.8]表現(xiàn)顯著緊密關(guān)系;處于[0.3,0.5]或[-0.3,-0.5]的值表明兩者關(guān)系為實相關(guān)性;值處于[0.0,0.3]或[-0.0,-0.3]表明參數(shù)兩兩之間呈現(xiàn)微相關(guān)性,見表3。本文選取經(jīng)度、緯度和海拔為自變量,降雨量為因變量,其相關(guān)系數(shù)的計算公式[7]:
表1 回歸分析數(shù)據(jù)
(1)
1.2.2 機(jī)器學(xué)習(xí)回歸分析
1.2.2.1 支持向量回歸分析
近年來,支持向量機(jī)(SVM)在各種分類和回歸問題中的應(yīng)用越來越多,在分類和回歸問題中均能得到較好的應(yīng)用。支持向量回歸(SVR)是由支持向量分類(SVM)方法演變而來[8],SVR使用條帶來進(jìn)行參數(shù)回歸擬合,其優(yōu)點(diǎn)在于可以處理復(fù)雜參數(shù)關(guān)系,以高精度來不斷靠近呈現(xiàn)較為復(fù)雜非線性關(guān)系的數(shù)據(jù)[9]。通過調(diào)節(jié)超參數(shù)以期找到一個超平面,同時滿足從所有數(shù)據(jù)到此超平面的距離最小[10],且滿足于各個參數(shù)數(shù)據(jù)之間關(guān)系存在為非線性的情況。因SVR所具有的長處,其用于回歸分析獲得的結(jié)果顯著優(yōu)于其它普通線性模型。
1.2.2.2 隨機(jī)森林回歸分析
隨機(jī)森林回歸(RFR)是一種統(tǒng)計算法理論,其是利用Bootsrap重抽樣方法從原始樣本中抽取多個樣本,對每個Bootsrap樣本進(jìn)行決策樹建模,組合多棵決策樹的預(yù)測,并通過投票得出最終預(yù)測結(jié)果[11]。其中每個決策樹的建立都是一個隨機(jī)抽樣的過程[12]。在研究中采用自舉法,即通過抽樣獲得的樣本集中可能存在重復(fù)的樣本,可以有效避免過擬合,且具有較高的精度和泛化能力[13],RFR分析可以通過降低OBB error誤差值以獲取更優(yōu)回歸結(jié)果。
表2 數(shù)據(jù)統(tǒng)計
1.2.2.3 增強(qiáng)回歸樹分析
增強(qiáng)回歸樹(BRT)是由眾多較短的決策樹(百棵以上)建立的,通過在梯度上減少殘差的模型,能夠在回歸分析法中不間斷的以遞歸形式分裂來消除眾多影響因子之間相互作用[14]。Boosting法用較短的回歸樹(tree)集合來表明與影響因子之間存在的非線性關(guān)系,BRT為解決單一決策樹面臨的缺陷,其隨機(jī)抽取并采用“梯度下降法”以降低回歸分析殘差,提升模型整體性能。在“梯度下降法”過程中tree的棵數(shù)逐漸遞增,模型的穩(wěn)定能力和預(yù)測精度呈現(xiàn)顯著提升[15]。
表3 相關(guān)系數(shù)與相關(guān)程度關(guān)系
1.2.3 回歸分析評定指標(biāo)
本文采用適合小樣本數(shù)據(jù)的留一交叉驗證法(LOOCV),從3個角度出發(fā)進(jìn)行回歸分析評定,3個指標(biāo)分別是擬合程度,即調(diào)整型決定系數(shù)(Adjusted-R2)、回歸誤差;均方根誤差(RMSE)和回歸模型穩(wěn)定程度;相對分析誤差(RPD)。Adjusted-R2值高低表明擬合程度得優(yōu)劣,RMSE值大小則闡明建立回歸分析的誤差的大小,RPD值所對應(yīng)的穩(wěn)定程度水平如表4。
表4 RPD值對應(yīng)的穩(wěn)定程度
(2)
(3)
(4)
(5)
1.2.4 回歸分析框架
為了清晰直觀地說明研究過程,本文建立了一個基于機(jī)器學(xué)習(xí)進(jìn)行研究的回歸分析框架,結(jié)合上述所有分析方法,系統(tǒng)化、全面化的對基于機(jī)器學(xué)習(xí)的回歸分析過程進(jìn)行描述,見圖1。
圖1 回歸分析框架圖
根據(jù)表1中樣本參數(shù)進(jìn)行相關(guān)性分析,在表5各參數(shù)與降雨量相關(guān)程度分析結(jié)果中可以看出經(jīng)度、緯度和海拔均滿足了p≤0.05的顯著水平,分析得出經(jīng)度數(shù)據(jù)與降雨量數(shù)據(jù)的相關(guān)性較高為0.533*且呈現(xiàn)為顯著相關(guān)程度,而緯度數(shù)據(jù)與降雨量數(shù)據(jù)的相關(guān)性最低為0.377*,但也滿足了實相關(guān),海拔數(shù)據(jù)與降雨量數(shù)據(jù)相關(guān)性為0.471*。
表5 參數(shù)與降雨量相關(guān)性分析
基于3種機(jī)器學(xué)習(xí)算法并結(jié)合經(jīng)、緯度和海拔等參數(shù)數(shù)據(jù)信息對降雨量進(jìn)行回歸分析預(yù)測,產(chǎn)生的預(yù)測值的結(jié)果各有不同,3種算法回歸結(jié)果如圖2。通過觀察圖2可明顯發(fā)現(xiàn),基于RFR算法的回歸分析能夠使得降水量的真實值和預(yù)測值更加接近1∶1線,即回歸結(jié)果較SVR和BRT的結(jié)果更優(yōu)。
僅憑觀察圖2無法深切探究出3種機(jī)器學(xué)習(xí)回歸分析的最優(yōu)預(yù)測結(jié)果,為更具清晰化地對比3種機(jī)器學(xué)習(xí),故基于式(2)~(5)共3個指標(biāo)全方位的對3種機(jī)學(xué)器習(xí)的回歸分析結(jié)果進(jìn)行詳細(xì)對比,結(jié)果見表6。
表6 機(jī)器學(xué)習(xí)的回歸分析對比
圖2 3種機(jī)器學(xué)習(xí)的回歸分析結(jié)果圖
依據(jù)SVR算法回歸結(jié)果計算出的Adjusted-R2值為0.67,RMSE值為65.08,RPD值為1.80;RFR算法回歸結(jié)果中的Adjusted-R2值為0.92,RMSE值為32.35,RPD值為3.61;BRT算法回歸結(jié)果中的Adjusted-R2值為0.87,RMSE值為41.03,RPD值為2.85。綜上,RFR算法回歸結(jié)果的Adjusted-R2值最大,RMSE值最小,RPD值最高。由此可知,相較于SVR和BRT機(jī)器學(xué)習(xí)回歸結(jié)果,RFR算法回歸擬合效果最好、誤差最低以及穩(wěn)定性最優(yōu),故3種機(jī)器學(xué)習(xí)對比而言,利用RFR算法進(jìn)行回歸分析能取得更好結(jié)果。
本文采取SVR、RFR和BRT 3種機(jī)器學(xué)習(xí)回歸模型對降雨量數(shù)據(jù)分別進(jìn)行了預(yù)測分析,并對回歸分析結(jié)果進(jìn)行全面評定對比。結(jié)果顯示,使用機(jī)器學(xué)習(xí)算法可以有效提高數(shù)據(jù)預(yù)測結(jié)果的準(zhǔn)確性。就整體觀察而言,基于SVR、RFR和BRT 3種機(jī)器學(xué)習(xí)對降雨量數(shù)據(jù)進(jìn)行回歸分析預(yù)測都取得了較好的結(jié)果,但利用回歸結(jié)果圖和Adjusted-R2值、RMSE值及RPD值進(jìn)行綜合評定,發(fā)現(xiàn)RFR算法回歸結(jié)果明顯優(yōu)于SVR和BRT結(jié)果,故最終選定基于RFR算法的回歸分析,且認(rèn)為利用該算法能夠較好地對降雨量數(shù)據(jù)進(jìn)行預(yù)測。RFR模型為數(shù)據(jù)量預(yù)測復(fù)雜等問題提供合理解決方法,達(dá)到高效預(yù)測數(shù)據(jù)的目的,與此同時對進(jìn)一步深入探究回歸分析算法具有一定的參考價值。