亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹構(gòu)造算法的分析

        2017-11-07 06:23:42周亮
        科技與創(chuàng)新 2017年21期
        關(guān)鍵詞:周亮剪枝列表

        周亮

        (六九零二科技有限公司,江蘇 南京 210009)

        決策樹構(gòu)造算法的分析

        周亮

        (六九零二科技有限公司,江蘇 南京 210009)

        隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,以及軟硬件技術(shù)的極速更新,各種數(shù)據(jù)爆發(fā)式增長,多維大數(shù)據(jù)集開始出現(xiàn)。迫切需要從中提取有用的模式,簡化信息處理,將數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的知識(shí)。決策樹(Decision Tree)是一種分類預(yù)測模型,可用于挖掘有用知識(shí),包括ID3、C4.5、C5.0、PUBLIC、CHAID、SLIQ和SPRINT等,對(duì)比分析了常用的幾種決策樹算法。

        數(shù)據(jù)挖掘;決策樹;ID3;C4.5

        隨著云計(jì)算和各類互聯(lián)網(wǎng)的興起,我們逐步進(jìn)入了云時(shí)代。各種交易數(shù)據(jù)、通信數(shù)據(jù)、傳感器數(shù)據(jù)以及其他開放數(shù)據(jù)源迅速積聚了大量的數(shù)據(jù)。決策樹是一種通過對(duì)已有數(shù)據(jù)進(jìn)行分類,尋找數(shù)據(jù)中的特征以實(shí)現(xiàn)對(duì)新數(shù)據(jù)進(jìn)行分類和預(yù)測的技術(shù),并以此為依據(jù)對(duì)新產(chǎn)生的數(shù)據(jù)結(jié)果進(jìn)行預(yù)測。

        1 決策樹的構(gòu)建過程

        構(gòu)造決策樹由樹構(gòu)造(Tree Building)和樹剪枝(Tree Pruning)兩個(gè)階段組成。

        1.1 樹構(gòu)造

        采用無回溯的貪心策略來構(gòu)造樹。這個(gè)過程從根決策節(jié)點(diǎn)開始,從上到下測試待分類項(xiàng)中相應(yīng)的特征屬性,并按照其結(jié)果選擇輸出分支,直至到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類別作為決策結(jié)果。其非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測試,每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出,而每個(gè)葉節(jié)點(diǎn)存放至一個(gè)類別。

        1.2 樹剪枝

        樹剪枝的目的是為了簡化決策樹規(guī)模,避免過度分割。剪枝通常分為預(yù)剪枝和后剪枝,在決策樹生成過程中就對(duì)樹進(jìn)行了剪枝,提前停止了樹的分支生長,稱為預(yù)剪枝;后剪枝就是在樹完全構(gòu)造之后,通過特定標(biāo)準(zhǔn)對(duì)樹進(jìn)行剪枝,去掉部分分支,得到更簡潔的決策樹。

        2 主要決策樹算法分析比較

        2.1 ID3算法

        可以進(jìn)一步得到信息增益為Gain(X,T)=H(T)-H(X,T),ID3算法生成的決策樹規(guī)則簡單、易理解,且分類速度快,但也存在不少的缺點(diǎn):①抗噪性差,對(duì)噪聲比較敏感;②小規(guī)模數(shù)據(jù)集構(gòu)造的樹會(huì)存在過擬合問題;③由于ID3不能接受增量訓(xùn)練集,使得每次增加實(shí)例都必須重構(gòu)新決策樹,開銷大;④多值屬性的偏向性會(huì)導(dǎo)致最后選取的屬性并不總是最優(yōu)的屬性。

        2.2 C4.5算法

        以ID3為基礎(chǔ)使用信息增益率為標(biāo)準(zhǔn)選擇屬性,在樹構(gòu)造中剪枝以降低擬合度,可以處理連貫屬性。假設(shè)用離散屬性X來劃分訓(xùn)練數(shù)據(jù)集T,劃分為T1,T2,…,Tn,共n個(gè)子集,則用X對(duì)T進(jìn)行劃分所得分割信息量為:

        根據(jù)分割信息量可以得出信息增益率為:

        C4.5以信息增益率為屬性劃分標(biāo)準(zhǔn),產(chǎn)生的分類規(guī)則簡單易懂,可解釋性高,準(zhǔn)確率較高。用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足,遇到大量連續(xù)屬性可以實(shí)現(xiàn)離散化處理,但C4.5算法也存在一些不足:①C4.5適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當(dāng)訓(xùn)練集大得無法在內(nèi)存容納時(shí)程序無法運(yùn)行;②在決策樹構(gòu)造出來之后,C4.5就很難再調(diào)整樹結(jié)構(gòu)和內(nèi)容,難于改善決策樹的性能。

        2.3 PUBLIC算法

        PUBLIC算法由Rajeev等人提出,在構(gòu)建決策樹過程中引入樹剪枝過程,剪枝基于MDL策略,使用基于最小編碼代價(jià)的算法。PUBLIC是一種典型的預(yù)剪枝算法,它采用GINI系數(shù)作為屬性分裂標(biāo)準(zhǔn)構(gòu)造一棵最二叉決策樹。PUBLIC在決策樹開始但未完成時(shí)進(jìn)行剪枝。為了降低工作量,提升工作效率不會(huì)再繼續(xù)分裂,將成為葉子的節(jié)點(diǎn)。

        同等數(shù)據(jù)集規(guī)模下,PUBLIC的優(yōu)勢(shì)在于相較于采用預(yù)剪枝算法生成的決策樹效率大幅提高,但可以得到相同的決策樹。

        2.4 SPRINT算法

        SPRINT算法基于SLIQ對(duì)其缺陷進(jìn)行了改進(jìn),是一種并行化可伸縮歸納決策樹算法。SPRINT計(jì)算速度快,真正突破了主存限制,特別是對(duì)于多核對(duì)線程處理器,可以發(fā)揮并行計(jì)算的優(yōu)勢(shì)。SPRINT對(duì)SLIQ的改進(jìn)主要包括改進(jìn)SLIQ的數(shù)據(jù)結(jié)構(gòu),合并類表和屬性表,只有屬性列表,沒有類列表。SPRINT的屬性列表有一個(gè)特殊的數(shù)據(jù)結(jié)構(gòu),包括類別、屬性值和ID關(guān)鍵字。當(dāng)一個(gè)節(jié)點(diǎn)分解時(shí),對(duì)應(yīng)的屬性列表也同時(shí)分裂為兩個(gè)子列表,所以,有序的連續(xù)屬性列表分裂后的列表依然是有序的而無需再排序。

        SPRINT也存在缺點(diǎn),比如,屬性列表的大小有可能是初始數(shù)據(jù)的脊背,而每個(gè)節(jié)點(diǎn)都會(huì)保存一個(gè)屬性列表,這導(dǎo)致存儲(chǔ)屬性列表代價(jià)很大。此外,很多計(jì)算資源都用在了維護(hù)節(jié)點(diǎn)屬性列表,開銷較大。

        3 結(jié)論

        本文選取了經(jīng)典的4種決策樹構(gòu)造算法,并進(jìn)行了分析對(duì)比,指出了主要差異,總結(jié)出了各自的優(yōu)、缺點(diǎn),對(duì)于不同算法的適用場景進(jìn)行了分析,有助于根據(jù)不同場景選擇最優(yōu)的決策樹構(gòu)造算法。

        [1]楊明.決策樹學(xué)習(xí)算法ID3的研究[J].微機(jī)發(fā)展,2002(05).

        TP311.13

        A

        10.15913/j.cnki.kjycx.2017.21.062

        2095-6835(2017)21-0062-02

        周亮(1983—),男,江蘇淮安人,碩士學(xué)位,工程師,中級(jí)職稱,主要研究方向?yàn)橛?jì)算機(jī)科學(xué)與通信技術(shù)。

        〔編輯:張思楠〕

        猜你喜歡
        周亮剪枝列表
        巧用列表來推理
        人到晚年宜“剪枝”
        學(xué)習(xí)運(yùn)用列表法
        基于YOLOv4-Tiny模型剪枝算法
        善良的印記
        擴(kuò)列吧
        獨(dú)孤求知者周亮
        汽車觀察(2018年9期)2018-10-23 05:46:20
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        “反比例函數(shù)”測試卷
        周亮
        国产一级毛片AV不卡尤物| 亚洲av午夜精品无码专区| 一区二区三区一片黄理论片| av素人中文字幕在线观看| 久久久www成人免费精品| 最新国产一区二区精品久久| 成人国产自拍在线播放| 日本视频在线观看二区| 中国丰满人妻videoshd| 青青青爽国产在线视频| 日本一级淫片免费啪啪| 精品国产日韩一区2区3区| 美女把尿囗扒开让男人添| 欧美中文在线观看| 亚洲国产都市一区二区| 桃红色精品国产亚洲av| 亚洲色婷婷一区二区三区| 国产在线网址| 饥渴少妇一区二区三区| 2021亚洲国产精品无码| 国产精品久久毛片av大全日韩| 最新国产成人在线网站| 国产精品麻豆一区二区三区| 久久国产成人精品国产成人亚洲| 亚洲精品国偷拍自产在线观看蜜臀| 国产在线高清无码不卡| 一区二区三区免费观看日本| 欧美成人猛交69| 中文字幕日韩高清| 亚洲av中文字字幕乱码| 老鸭窝视频在线观看| 国产成人无码一区二区三区在线| 国产精品美女黄色av| 国产精品一二三区亚洲| 免费va国产高清大片在线| 亚洲夜夜骑| 亚洲中文字幕高清在线视频一区| 欧美丰满老熟妇aaaa片| 国产午夜影视大全免费观看| 无码一区二区三区在线在看| 国产一区二区不卡av|