亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹和逐步回歸的大數(shù)據(jù)研究

        2017-01-12 05:57:14沈金榕周楊景
        廣東通信技術(shù) 2016年12期
        關(guān)鍵詞:因變量決策樹回歸方程

        [沈金榕 周楊景]

        基于決策樹和逐步回歸的大數(shù)據(jù)研究

        [沈金榕 周楊景]

        針對(duì)大數(shù)據(jù)中自變量極多而導(dǎo)致的計(jì)算復(fù)雜,獲取的自變量對(duì)因變量不顯著等問題,提出了基于決策樹的逐步回歸解決方法??偨Y(jié)了其優(yōu)點(diǎn)和局限性。

        逐步回歸 決策樹 F檢驗(yàn) ID3算法

        沈金榕

        就職于中國(guó)電信廣東研究院市場(chǎng)運(yùn)營(yíng)研究所,長(zhǎng)期從事客戶研究、移動(dòng)互聯(lián)網(wǎng)消費(fèi)行為跟蹤研究等方面工作。

        周楊景

        廣東工業(yè)大學(xué)信息工程學(xué)院,碩士研究生,主要研究方向?yàn)閿?shù)據(jù)庫(kù)技術(shù)研究。中國(guó)電信廣東研究院市場(chǎng)運(yùn)營(yíng)研究所專家,長(zhǎng)期深耕客戶研究、市場(chǎng)研究領(lǐng)域。

        1 引言

        我們生活在互聯(lián)網(wǎng)時(shí)代,各行各業(yè)每時(shí)每刻都會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)表面上看都是毫無(wú)關(guān)聯(lián)、雜亂無(wú)章的數(shù)據(jù),但是數(shù)據(jù)的背后卻隱藏著我們想不到的有用信息,面對(duì)著大量的數(shù)據(jù),如何有效利用和處理這些數(shù)據(jù),讓數(shù)據(jù)為我們所用成為世界共同關(guān)系的問題。逐步回歸法和決策樹是目前在處理數(shù)據(jù)上用的比較多的方法。逐步回歸法的基本思想是剔除對(duì)因變量不起作用或作用很小的因子,挑選出顯著性因子,從而得到最優(yōu)的回歸模型。決策樹的基本思想是利用樹的結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行分類,采用自頂向下的方式,從樹的根節(jié)點(diǎn)開始,對(duì)每一個(gè)葉節(jié)點(diǎn)進(jìn)行屬性值的測(cè)試比較,然后按照給定實(shí)例的屬性值確定對(duì)應(yīng)的分枝,最后在決策樹的葉子節(jié)點(diǎn)得到結(jié)論。其中這個(gè)過程在以新的節(jié)點(diǎn)為根的子樹上重復(fù)[2]。

        在回歸分析中,自變量之間的多重相關(guān)性是遇到的最典型的問題,變量之間的多重相關(guān)性會(huì)嚴(yán)重?fù)p害參數(shù)估計(jì)的準(zhǔn)確性和合理性,擴(kuò)大模型誤差,并破壞模型的穩(wěn)健性。逐步回歸法能夠克服自變量的多重共線性,免去多重共線的復(fù)雜計(jì)算,而決策樹方法有良好的預(yù)測(cè)準(zhǔn)確性,能夠快速分類,可以作為一種衡量變量?jī)r(jià)值大小,尋找最佳變量的工具。但是存在一個(gè)問題,當(dāng)自變量較多時(shí),并不是所有的自變量都會(huì)對(duì)因變量產(chǎn)生顯著影響,如果只使用逐步回歸方法剔除自變量,計(jì)算量非常大,耗費(fèi)的時(shí)間較多,由于決策樹具有快速準(zhǔn)確的尋找最佳變量,準(zhǔn)確性高,計(jì)算復(fù)雜度低,在眾多自變量中,先采用決策樹方法選擇出重要的自變量集合,然后使用逐步回歸方法建立自變量與因變量的關(guān)系,得到回歸方程。

        2 逐步回歸方法

        逐步回歸方法中全部自變量按其對(duì)因變量的貢獻(xiàn)程度大小,由大到小逐個(gè)引入回歸方程,對(duì)那些因變量作用不顯著的自變量不會(huì)被引入回歸方程中,已被引入回歸方程的自變量在引入新自變量進(jìn)行F檢驗(yàn)后失去重要性時(shí),需要從回歸方程中剔除。逐步回歸的基本步驟可用圖1描述。

        圖1 逐步回歸的基本步驟

        下面簡(jiǎn)明給出逐步回歸法的求解。

        設(shè)有m個(gè)自變量,n組觀察值,得到m元的線性回歸模型為

        其中,i=1,2,…,n表示第i組觀察值,j=1,2,…,m表示第j個(gè)自變量,表示偏回歸系數(shù),表示隨機(jī)誤差。

        (1)進(jìn)一步計(jì)算未選入自變量的偏決定系數(shù):

        其中i是還沒被選入的一個(gè)自變量。

        上述步驟循環(huán)重復(fù),直到所有對(duì)因變量有顯著作用的自變量都已選入,對(duì)因變量沒有顯著作用的自變量都已剔除,從而獲得回歸方程。

        3 決策樹方法

        決策樹是一個(gè)可以自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分類的樹形結(jié)構(gòu),是樹形結(jié)構(gòu)的知識(shí)表示,可以直接轉(zhuǎn)換為決策規(guī)則。

        決策樹生長(zhǎng)過程可用圖2描述:

        下面是決策樹的構(gòu)建過程[8]:

        輸入:節(jié)點(diǎn)n,數(shù)據(jù)集D,分割方法(Splitting Selection Method)CL

        輸出:以節(jié)點(diǎn)n為根節(jié)點(diǎn)的基于數(shù)據(jù)集D、分割算法CL的決策樹

        圖2 決策樹生長(zhǎng)過程

        Procedure BuildTree

        初始化樹的根節(jié)點(diǎn);

        在D中計(jì)算CL來(lái)求解節(jié)點(diǎn)n的分割標(biāo)準(zhǔn)(Splitting Cirterion);

        if(節(jié)點(diǎn)n滿足分割條件)

        4 基于決策樹的逐步回歸法

        決策樹包含很多生成算法,經(jīng)典的ID3算法,它具有高效、準(zhǔn)確等特點(diǎn)。ID3算法是以信息熵的下降速度作為測(cè)試屬性的標(biāo)準(zhǔn),就是選擇使得信息增益度公式中值最大的屬性作為測(cè)試屬性。該算法根據(jù)屬性集的取值選擇實(shí)例的類別,核心是在決策樹上各級(jí)節(jié)點(diǎn)上選擇屬性,用信息增益率來(lái)作為屬性選擇標(biāo)準(zhǔn),使得在每一非葉節(jié)點(diǎn)進(jìn)行測(cè)試時(shí),系統(tǒng)的熵值最小,期望該非葉節(jié)點(diǎn)到達(dá)各后代葉節(jié)點(diǎn)的平均路徑最短,生成的決策樹平均深度較小,從而獲取對(duì)因變量具有顯著重要的自變量,再把這些自變量采用逐步回歸法建立和因變量最有顯著影響的自變量和因變量的回歸方程。

        5 結(jié)語(yǔ)

        逐步回歸克服多重共線性,決策樹預(yù)測(cè)準(zhǔn)確度高,尋找最佳變量等優(yōu)點(diǎn),使得它們?cè)谶@個(gè)大數(shù)據(jù)時(shí)代應(yīng)用的非常廣,在自變量很多的時(shí)候,為了避免逐步回歸計(jì)算復(fù)雜,采用決策樹的ID3算法對(duì)自變量進(jìn)行篩選,找出對(duì)因變量影響大的自變量,在通過逐步回歸方法建立自變量與因變量的回歸方程。逐步回歸方法也有局限性,如果某一變量只對(duì)因變量影響顯著而對(duì)其余變量作用不顯著時(shí),那么對(duì)該自變量作顯著性檢驗(yàn),很可能該自變量不能引入方程,最終得到的回歸方程不是最優(yōu)的。決策樹存在過度擬合問題,不能解決增量數(shù)據(jù)集等問題。這些都是今后值得深入研究的問題。

        1 王冬梅,沈頌東.逐步回歸分析法[J].工業(yè)技術(shù)經(jīng)濟(jì),1997,03:54-57

        2 馮少榮.決策樹算法的研究與改進(jìn)[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,04:496-500

        3 JohnDurkin,蔡競(jìng)峰,蔡自興.決策樹技術(shù)及其當(dāng)前研究方向[J].控制工程,2005,01:15-18+21

        4 S. Sonoda, Y. Takahashi, K. Kawagishi, N. Nishida and S. Wakao, "Application of Stepwise Multiple Regression to Design Optimization of Electric Machine," in IEEE Transactions on Magnetics, vol. 43, no. 4, pp. 1609-1612, April 2007

        5 Y. Lan and S. Guo, "Multiple Stepwise Regression Analysis on Knowledge Evaluation," Management of e-Commerce and e-Government, 2008. ICMECG '08. International Conference on, Jiangxi, 2008, pp. 297-302

        6 N. Zhou, Z. Huang, F. Tuffner, D. Trudnowski and W. Mittelstadt, "A modifed stepwise linear regression method for estimating modal sensitivity," 2011 IEEE Power and Energy Society General Meeting, San Diego, CA, 2011, pp. 1-7

        7 周元嬌.篩選逐步回歸方法的改進(jìn)研究[D].揚(yáng)州大學(xué),2011

        8 王威.基于決策樹的數(shù)據(jù)挖掘算法優(yōu)化研究[D].西南交通大學(xué),2005

        9 Mircea Eremia; Chen-Ching Liu; Abdel-Aty Edris, "Decision Trees," in Advanced Solutions in Power Systems:HVDC, FACTS, and Artifcial Intelligence , 1, Wiley-IEEE Press, 2016

        10 Dydo, J. G. Bazan, S. Buregwa-Czuma, W. Rz?sa and A.

        Skowron, "Verifying cuts as a tool for improving a classifer based on a decision tree," 2016 Federated Conference on Computer Science and Information Systems (FedCSIS), Gdansk, Poland, 2016

        11 Swetapadma; A. Yadav, "A Novel Decision Tree Regression Based Fault Distance Estimation Scheme for Transmission Lines," in IEEE Transactions on Power Delivery , vol.PP, no.99, pp.1-1

        12 邵俊.基于逐步回歸預(yù)測(cè)模型的話務(wù)管理系統(tǒng)設(shè)計(jì)[D].復(fù)旦大學(xué),2013

        13 楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,01:43-45

        2016-11-24)

        10.3969/j.issn.1006-6403.2016.12.011

        猜你喜歡
        因變量決策樹回歸方程
        調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
        采用直線回歸方程預(yù)測(cè)桑癭蚊防治適期
        線性回歸方程的求解與應(yīng)用
        線性回歸方程要點(diǎn)導(dǎo)學(xué)
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        走進(jìn)回歸分析,讓回歸方程不再是你高考的絆腳石
        適應(yīng)性回歸分析(Ⅳ)
        ——與非適應(yīng)性回歸分析的比較
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        偏最小二乘回歸方法
        基于決策樹的出租車乘客出行目的識(shí)別
        免费在线亚洲视频| 免费大片黄国产在线观看| 区二区三区玖玖玖| 国产nv精品你懂得| 蜜桃网站在线免费观看视频| 久久蜜桃资源一区二区| 精品国产av色一区二区深夜久久| 久久精品国产9久久综合| 亚洲红杏AV无码专区首页| 沐浴偷拍一区二区视频| 宅男666在线永久免费观看| 国内精品久久久久久无码不卡| 果冻国产一区二区三区| 成人av蜜桃在线观看| 亚洲精品久久久久久久久久吃药| 91精品手机国产在线能| 国产女主播视频一区二区三区| av在线观看免费天堂| 中文字幕在线亚洲日韩6页| 精品一精品国产一级毛片| 热综合一本伊人久久精品| 小妖精又紧又湿高潮h视频69| 亚洲永久无码7777kkk| 国产亚洲欧洲三级片A级| 久久午夜av一区二区| 欧美精品videosex极品| 中文字幕天堂网| 国产精品黄页免费高清在线观看| 少妇真人直播免费视频| 亚洲欧美日本| 人妻中文字幕av有码在线| 一区二区三区激情免费视频| 成 人免费va视频| 四虎成人精品国产一区a| 亚洲国产成人va在线观看天堂| 永久免费人禽av在线观看| 欧美色综合高清视频在线| 日韩美女人妻一区二区三区| 免费无码专区毛片高潮喷水| 人妻少妇av无码一区二区| 果冻蜜桃传媒在线观看|