陸龍妹 趙明松 盧宏亮 張平
摘? 要:機器學(xué)習(xí)方法在回歸問題中的應(yīng)用十分廣泛,人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)和隨機森林(random forest,RF)均是經(jīng)典的機器學(xué)習(xí)算法,在回歸問題中均有眾多的應(yīng)用。神經(jīng)網(wǎng)絡(luò)和RF算法均為決策樹算法的擴展,且均在解決回歸問題中有著良好的精度。ANN是一種可以廣泛應(yīng)用于各個學(xué)科的經(jīng)典機器學(xué)習(xí)算法;RF算法具有結(jié)構(gòu)清晰、易于解釋、運行效率高且對于數(shù)據(jù)要求低等優(yōu)勢,且RF模型具有穩(wěn)定性較高,不易出現(xiàn)過擬合問題等特點。文章通過2個回歸問題的案例,比較神經(jīng)網(wǎng)絡(luò)和RF算法在回歸問題中的區(qū)別,為研究2種算法在回歸問題中的應(yīng)用提供參考。
關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò);隨機森林;重要性評價;回歸問題;機器學(xué)習(xí)
中圖分類號:TP391.77? ? ? 文獻標(biāo)志碼:A 文章編號:2095-2945(2019)10-0031-03
Abstract: The machine learning method is widely used in regression. Artificial neural network (ANN) and random forest (RF) are classical machine learning algorithms widely applied in regression problems. Both neural network and RF algorithm are extensions of decision tree algorithm, and both of them have good accuracy in solving regression problems. ANN is a classical machine learning algorithm which can be widely used in various disciplines, RF algorithm has the advantages of clear structure, easy interpretation, high running efficiency and low data requirements, and the RF model has high stability. It is not easy to have the characteristics of over-fitting problem and so on. In this paper, two cases of regression problems are used to compare the difference between neural network and RF algorithm in regression problems, which provides a reference for the study of the application of the two algorithms in regression problems.
Keywords: artificial neural network; stochastic forest; importance evaluation; regression problem; machine learning
1 概述
隨著計算機和信息技術(shù)不斷地發(fā)展,大數(shù)據(jù)的到來使機器學(xué)習(xí)算法成為解決實際問題的重要工具,對于機器學(xué)習(xí)算法的研究也成為了熱門的研究方向。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是模擬人腦神經(jīng)元進行預(yù)測的一種經(jīng)典機器學(xué)習(xí)算法,其特點是預(yù)測精度高,應(yīng)用廣泛,但是參數(shù)較難設(shè)置[1],隨機森林(random forest,RF)是Breiman和Cutler在2001年提出的一種極具分類樹的集成算法,其基本思想是通過大量分類樹的集合以提高模型預(yù)測精度[2]。
國內(nèi)外學(xué)者在使用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)和RF模型進行回歸問題方面開展了較多的研究。比如在醫(yī)學(xué)[3-4]、生物[5-6]、工程[7-8]及遙感[9]等方面均有較多涉及。劉藝梁等[10]分析對比了邏輯回歸和人工神經(jīng)網(wǎng)絡(luò)在滑坡災(zāi)害空間預(yù)測中的應(yīng)用,結(jié)果表明邏輯回歸預(yù)測精度相對較高,但兩者模型之間可以相互驗證;王宜懷等[11]證明了人工神經(jīng)網(wǎng)絡(luò)可以很好地處理非線性回歸問題;張華偉等[12]使用隨機森林模型進行了文本分類處理,結(jié)果表明,隨機森林算法與C4.5、KNN、SMO和SVM等文本分類算法相似。
本研究以UCI機器學(xué)習(xí)數(shù)據(jù)倉庫(Machine Learning Data Repository)中提供的葡萄酒數(shù)據(jù)為研究數(shù)據(jù),以樣本中的葡萄酒質(zhì)量評分為目標(biāo)變量,其他相關(guān)特征為自變量,分別使用ANN和RF算法建立葡萄酒評級模型,比較兩種的在葡萄酒評級模型上的表現(xiàn),研究為進一步研究ANN和RF模型在回歸問題中的實際應(yīng)用提供了思路。
2 研究方法
2.1 ANN算法
神經(jīng)網(wǎng)絡(luò)是由多個非常簡單的處理單元彼此按某種方式相互連接而形成的計算機系統(tǒng),該系統(tǒng)靠其狀態(tài)對外部輸入信息的動態(tài)響應(yīng)來處理信息的。人工神經(jīng)網(wǎng)絡(luò)是一種旨在模仿人腦結(jié)構(gòu)及其功能的信息處理系統(tǒng)。反向傳播(Back propagation,BP)是使用多層前饋網(wǎng)絡(luò)進行監(jiān)督學(xué)習(xí)的最廣泛使用的算法。反向傳播學(xué)習(xí)算法[11]的基本思想是重復(fù)應(yīng)用鏈?zhǔn)揭?guī)則來計算網(wǎng)絡(luò)中每個權(quán)重對任意誤差函數(shù)的影響。誤差函數(shù)計算公式為:
2.2 RF算法
RF是由Breinman提出的一種基于分類樹的集成算法,是機器學(xué)習(xí)中較為重要的一種方法。RF算法的基本原理與分類回歸樹(classification and regression tree, CART)算法類似,在基于CART算法的基礎(chǔ)上加入隨機化的特點,即在樣本數(shù)據(jù)中進行隨機采樣,生成大量的分類回歸樹,最后以投票的方式獲得最終的結(jié)果。RF模型具有提高預(yù)測精度、減少過擬合,對缺失數(shù)據(jù)和多元共線性不敏感,且具有簡單處理大量的定量和定性數(shù)據(jù)能力的優(yōu)點。
2.3 模型評價指標(biāo)
本研究隨機選取3674個樣本作為建模集,1224個樣點測試集。使用基于R語言環(huán)境下的Boruta和caret、randomForest和rpart軟件包進行建模預(yù)測。模型精度評定選用均方根誤差(RMSE)和決定系數(shù)(R2)三個標(biāo)準(zhǔn)。公式如下:
3 結(jié)果與分析
3.1 樣本數(shù)據(jù)統(tǒng)計分析
樣本數(shù)據(jù)包含4898個葡萄酒案例以及與其相關(guān)的化學(xué)特征信息。特征信息包括酸度、含糖量、氯化物含量、硫的含量、酒精度、pH值和密度等。以質(zhì)量尺度0到10為評級指標(biāo),其中質(zhì)量指數(shù)越高代表葡萄酒的品級越高。
由表1樣本中葡萄酒質(zhì)量評分統(tǒng)計特征可知,總樣本、建模集和測試集目標(biāo)變量的統(tǒng)計特征最大值、最小值和均值均分別為9、3和5.88,標(biāo)準(zhǔn)差和變異系數(shù)也基本相同,整體分布相近,可以用于建模和預(yù)測。
3.2 神經(jīng)網(wǎng)絡(luò)算法結(jié)果分析
神經(jīng)網(wǎng)絡(luò)模型精度分析:
ANN模型建模結(jié)果表明(表2),(1)由建模集可知,ANN模型最終可以解釋葡萄酒質(zhì)量的48%(R2=0.53),測試集R2略低于建模集;(2)測試集中,RMSE為0.75,略高于建模集(RMSE=0.75),但仍有較高的精度,說明ANN模型可以有效地預(yù)測葡萄酒質(zhì)量。
3.3 RF算法結(jié)果分析
3.3.1 RF模型精度分析
RF模型的精度通過計算RMSE、R2等參數(shù)來進行評估。結(jié)果(表3)表明,(1)RF模型最終結(jié)果可以解釋葡萄酒質(zhì)量的53%(R2=0.53);建模集中的決定系數(shù)與測試集相近,R2均為0.53,該模型避免了過擬合問題且模型較為穩(wěn)定;(2)測試集中,RMSE為0.62,略高于建模集(RMSE=0.61),有較高的精度,說明RF模型在葡萄酒預(yù)測中具有較高的精度,且具有較好的泛化能力。
表3 RF模型葡萄酒質(zhì)量預(yù)測精度分析
3.3.2 RF特征重要性分析
預(yù)測因子重要性排序表明(圖1),對于葡萄酒質(zhì)量,特征變量對其影響的重要性由高到底依次分別為酒精度(alcohol)、密度(density)、揮發(fā)性酸(volatile acidity)、游離二氧化硫(free sulfur dioxide)、氯化物(chlorides)、總二氧化硫(total sulfur dioxide)、甜度(residual sugar)、檸檬酸(citric acid)、pH值、游離酸度(fixed acidity)和硫酸鹽(sulphates)。其中酒精度對于葡萄酒的影響最為明顯,即為最重要的預(yù)測因子。
3.4 ANN和RF算法對比
由表2、表3可知,(1)建模集和測試集中,RF模型的R2均為0.53,分別高出ANN模型0.05和0.08,RMSE分別為0.61、0.62,均低于ANN模型(RMSE=0.75、0.78),整體而言,RF模型的模型解釋度和泛化能力均高于ANN模型;(2)對比建模集和測試集可知,RF模型建模集和測試集預(yù)測結(jié)果相似,相較于ANN模型更加穩(wěn)定;(3)相較于ANN模型,RF模型具有可以對特征變量進行重要性評分的優(yōu)勢。綜上所述,ANN和RF模型在回歸問題中均有較好的預(yù)測精度,在葡萄酒評分預(yù)測中,RF模型具有預(yù)測精度更高、不易過擬合且可以對自變量進行解釋的優(yōu)勢。
4 結(jié)論
本文基于神經(jīng)網(wǎng)絡(luò)和隨機森林模型建立葡萄酒質(zhì)量評級模型,分析兩種機器學(xué)習(xí)算法在回歸問題中區(qū)別。結(jié)論如下:
(1)ANN和RF模型在葡萄酒評級問題中有良好的表現(xiàn),無論是建模集還是預(yù)測集均有較高的預(yù)測精度,相較而言RF模型預(yù)測精度更好、泛化能力更強,且參數(shù)方面更為簡單。
(2)相較于ANN模型,RF模型可以對模型中所使用的特征變量進行評分,從而更好地分析自變量對于響應(yīng)變量的重要性。綜合而言,兩種模型在回歸算法中均有較好的表現(xiàn),研究如何使用兩種模型解決其他回歸問題有一定的意義。
參考文獻:
[1]朱大奇.人工神經(jīng)網(wǎng)絡(luò)研究現(xiàn)狀及其展望[J].江南大學(xué)學(xué)報,2004,3(01):106-113.
[2]Breiman L. Random Forests[J]. Machine Learning, 2001,45(1):5-32.
[3]李雅潔,吳偉,周寶森.人工神經(jīng)網(wǎng)絡(luò)在腦卒中早期快速分類診斷中的應(yīng)用[J].實用醫(yī)學(xué)雜志,2008,24(10):1738-1740.
[4]Xiao-Yan W U, Zhen-Yu W U, Kang L I. Identification of differential gene expression for microarray data using recursive random forest[J].中華醫(yī)學(xué)雜志(英文版),2008,121(24):2492.
[5]Shatnawi M, Zaki N, Yoo P D. Protein inter-domain linker prediction using Random Forest and amino acid physiochemical properties[J]. Bmc Bioinformatics, 2014,15(S16):S8.
[6]熊行創(chuàng),方向,歐陽證,等.基于人工神經(jīng)網(wǎng)絡(luò)的生物組織質(zhì)譜成像分類與識別方法[J].分析化學(xué),2012,40(1):43-49.
[7]趙慧,汪云甲.融合多尺度分割與ANN算法的矸石山提取[J].計算機工程與應(yīng)用,2012,48(22):222-225.
[8]Cabrera D, Sancho F, Sánchez R V, et al. Fault diagnosis of spur gearbox based on random forest and wavelet packet decomposition[J].機械工程前沿:英文版,2015,10(3):277-286.
[9]駱劍承,周成虎,楊艷.人工神經(jīng)網(wǎng)絡(luò)遙感影像分類模型及其與知識集成方法研究[J].遙感學(xué)報,2001,5(2):122-129.
[10]劉藝梁,殷坤龍,劉斌.邏輯回歸和人工神經(jīng)網(wǎng)絡(luò)模型在滑坡災(zāi)害空間預(yù)測中的應(yīng)用[J].水文地質(zhì)工程地質(zhì),2010,37(5):92-96.
[11]王宜懷,王林.基于人工神經(jīng)網(wǎng)絡(luò)的非線性回歸[J].計算機工程與應(yīng)用,2004,40(12):79-82.
[12]張華偉,王明文,甘麗新.基于隨機森林的文本分類模型研究[J].山東大學(xué)學(xué)報(理學(xué)版),2006,41(3):145-149.