[沈金榕 周楊景]
基于決策樹和逐步回歸的大數(shù)據(jù)研究
[沈金榕 周楊景]
針對(duì)大數(shù)據(jù)中自變量極多而導(dǎo)致的計(jì)算復(fù)雜,獲取的自變量對(duì)因變量不顯著等問題,提出了基于決策樹的逐步回歸解決方法??偨Y(jié)了其優(yōu)點(diǎn)和局限性。
逐步回歸 決策樹 F檢驗(yàn) ID3算法
沈金榕
就職于中國(guó)電信廣東研究院市場(chǎng)運(yùn)營(yíng)研究所,長(zhǎng)期從事客戶研究、移動(dòng)互聯(lián)網(wǎng)消費(fèi)行為跟蹤研究等方面工作。
周楊景
廣東工業(yè)大學(xué)信息工程學(xué)院,碩士研究生,主要研究方向?yàn)閿?shù)據(jù)庫(kù)技術(shù)研究。中國(guó)電信廣東研究院市場(chǎng)運(yùn)營(yíng)研究所專家,長(zhǎng)期深耕客戶研究、市場(chǎng)研究領(lǐng)域。
我們生活在互聯(lián)網(wǎng)時(shí)代,各行各業(yè)每時(shí)每刻都會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)表面上看都是毫無(wú)關(guān)聯(lián)、雜亂無(wú)章的數(shù)據(jù),但是數(shù)據(jù)的背后卻隱藏著我們想不到的有用信息,面對(duì)著大量的數(shù)據(jù),如何有效利用和處理這些數(shù)據(jù),讓數(shù)據(jù)為我們所用成為世界共同關(guān)系的問題。逐步回歸法和決策樹是目前在處理數(shù)據(jù)上用的比較多的方法。逐步回歸法的基本思想是剔除對(duì)因變量不起作用或作用很小的因子,挑選出顯著性因子,從而得到最優(yōu)的回歸模型。決策樹的基本思想是利用樹的結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行分類,采用自頂向下的方式,從樹的根節(jié)點(diǎn)開始,對(duì)每一個(gè)葉節(jié)點(diǎn)進(jìn)行屬性值的測(cè)試比較,然后按照給定實(shí)例的屬性值確定對(duì)應(yīng)的分枝,最后在決策樹的葉子節(jié)點(diǎn)得到結(jié)論。其中這個(gè)過程在以新的節(jié)點(diǎn)為根的子樹上重復(fù)[2]。
在回歸分析中,自變量之間的多重相關(guān)性是遇到的最典型的問題,變量之間的多重相關(guān)性會(huì)嚴(yán)重?fù)p害參數(shù)估計(jì)的準(zhǔn)確性和合理性,擴(kuò)大模型誤差,并破壞模型的穩(wěn)健性。逐步回歸法能夠克服自變量的多重共線性,免去多重共線的復(fù)雜計(jì)算,而決策樹方法有良好的預(yù)測(cè)準(zhǔn)確性,能夠快速分類,可以作為一種衡量變量?jī)r(jià)值大小,尋找最佳變量的工具。但是存在一個(gè)問題,當(dāng)自變量較多時(shí),并不是所有的自變量都會(huì)對(duì)因變量產(chǎn)生顯著影響,如果只使用逐步回歸方法剔除自變量,計(jì)算量非常大,耗費(fèi)的時(shí)間較多,由于決策樹具有快速準(zhǔn)確的尋找最佳變量,準(zhǔn)確性高,計(jì)算復(fù)雜度低,在眾多自變量中,先采用決策樹方法選擇出重要的自變量集合,然后使用逐步回歸方法建立自變量與因變量的關(guān)系,得到回歸方程。
逐步回歸方法中全部自變量按其對(duì)因變量的貢獻(xiàn)程度大小,由大到小逐個(gè)引入回歸方程,對(duì)那些因變量作用不顯著的自變量不會(huì)被引入回歸方程中,已被引入回歸方程的自變量在引入新自變量進(jìn)行F檢驗(yàn)后失去重要性時(shí),需要從回歸方程中剔除。逐步回歸的基本步驟可用圖1描述。
圖1 逐步回歸的基本步驟
下面簡(jiǎn)明給出逐步回歸法的求解。
設(shè)有m個(gè)自變量,n組觀察值,得到m元的線性回歸模型為
其中,i=1,2,…,n表示第i組觀察值,j=1,2,…,m表示第j個(gè)自變量,表示偏回歸系數(shù),表示隨機(jī)誤差。
(1)進(jìn)一步計(jì)算未選入自變量的偏決定系數(shù):
其中i是還沒被選入的一個(gè)自變量。
上述步驟循環(huán)重復(fù),直到所有對(duì)因變量有顯著作用的自變量都已選入,對(duì)因變量沒有顯著作用的自變量都已剔除,從而獲得回歸方程。
決策樹是一個(gè)可以自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分類的樹形結(jié)構(gòu),是樹形結(jié)構(gòu)的知識(shí)表示,可以直接轉(zhuǎn)換為決策規(guī)則。
決策樹生長(zhǎng)過程可用圖2描述:
下面是決策樹的構(gòu)建過程[8]:
輸入:節(jié)點(diǎn)n,數(shù)據(jù)集D,分割方法(Splitting Selection Method)CL
輸出:以節(jié)點(diǎn)n為根節(jié)點(diǎn)的基于數(shù)據(jù)集D、分割算法CL的決策樹
圖2 決策樹生長(zhǎng)過程
Procedure BuildTree
初始化樹的根節(jié)點(diǎn);
在D中計(jì)算CL來(lái)求解節(jié)點(diǎn)n的分割標(biāo)準(zhǔn)(Splitting Cirterion);
if(節(jié)點(diǎn)n滿足分割條件)
決策樹包含很多生成算法,經(jīng)典的ID3算法,它具有高效、準(zhǔn)確等特點(diǎn)。ID3算法是以信息熵的下降速度作為測(cè)試屬性的標(biāo)準(zhǔn),就是選擇使得信息增益度公式中值最大的屬性作為測(cè)試屬性。該算法根據(jù)屬性集的取值選擇實(shí)例的類別,核心是在決策樹上各級(jí)節(jié)點(diǎn)上選擇屬性,用信息增益率來(lái)作為屬性選擇標(biāo)準(zhǔn),使得在每一非葉節(jié)點(diǎn)進(jìn)行測(cè)試時(shí),系統(tǒng)的熵值最小,期望該非葉節(jié)點(diǎn)到達(dá)各后代葉節(jié)點(diǎn)的平均路徑最短,生成的決策樹平均深度較小,從而獲取對(duì)因變量具有顯著重要的自變量,再把這些自變量采用逐步回歸法建立和因變量最有顯著影響的自變量和因變量的回歸方程。
逐步回歸克服多重共線性,決策樹預(yù)測(cè)準(zhǔn)確度高,尋找最佳變量等優(yōu)點(diǎn),使得它們?cè)谶@個(gè)大數(shù)據(jù)時(shí)代應(yīng)用的非常廣,在自變量很多的時(shí)候,為了避免逐步回歸計(jì)算復(fù)雜,采用決策樹的ID3算法對(duì)自變量進(jìn)行篩選,找出對(duì)因變量影響大的自變量,在通過逐步回歸方法建立自變量與因變量的回歸方程。逐步回歸方法也有局限性,如果某一變量只對(duì)因變量影響顯著而對(duì)其余變量作用不顯著時(shí),那么對(duì)該自變量作顯著性檢驗(yàn),很可能該自變量不能引入方程,最終得到的回歸方程不是最優(yōu)的。決策樹存在過度擬合問題,不能解決增量數(shù)據(jù)集等問題。這些都是今后值得深入研究的問題。
1 王冬梅,沈頌東.逐步回歸分析法[J].工業(yè)技術(shù)經(jīng)濟(jì),1997,03:54-57
2 馮少榮.決策樹算法的研究與改進(jìn)[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,04:496-500
3 JohnDurkin,蔡競(jìng)峰,蔡自興.決策樹技術(shù)及其當(dāng)前研究方向[J].控制工程,2005,01:15-18+21
4 S. Sonoda, Y. Takahashi, K. Kawagishi, N. Nishida and S. Wakao, "Application of Stepwise Multiple Regression to Design Optimization of Electric Machine," in IEEE Transactions on Magnetics, vol. 43, no. 4, pp. 1609-1612, April 2007
5 Y. Lan and S. Guo, "Multiple Stepwise Regression Analysis on Knowledge Evaluation," Management of e-Commerce and e-Government, 2008. ICMECG '08. International Conference on, Jiangxi, 2008, pp. 297-302
6 N. Zhou, Z. Huang, F. Tuffner, D. Trudnowski and W. Mittelstadt, "A modifed stepwise linear regression method for estimating modal sensitivity," 2011 IEEE Power and Energy Society General Meeting, San Diego, CA, 2011, pp. 1-7
7 周元嬌.篩選逐步回歸方法的改進(jìn)研究[D].揚(yáng)州大學(xué),2011
8 王威.基于決策樹的數(shù)據(jù)挖掘算法優(yōu)化研究[D].西南交通大學(xué),2005
9 Mircea Eremia; Chen-Ching Liu; Abdel-Aty Edris, "Decision Trees," in Advanced Solutions in Power Systems:HVDC, FACTS, and Artifcial Intelligence , 1, Wiley-IEEE Press, 2016
10 Dydo, J. G. Bazan, S. Buregwa-Czuma, W. Rz?sa and A.
Skowron, "Verifying cuts as a tool for improving a classifer based on a decision tree," 2016 Federated Conference on Computer Science and Information Systems (FedCSIS), Gdansk, Poland, 2016
11 Swetapadma; A. Yadav, "A Novel Decision Tree Regression Based Fault Distance Estimation Scheme for Transmission Lines," in IEEE Transactions on Power Delivery , vol.PP, no.99, pp.1-1
12 邵俊.基于逐步回歸預(yù)測(cè)模型的話務(wù)管理系統(tǒng)設(shè)計(jì)[D].復(fù)旦大學(xué),2013
13 楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,01:43-45
2016-11-24)
10.3969/j.issn.1006-6403.2016.12.011