亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        分析數(shù)據(jù)挖掘中決策樹算法及其應用

        2015-08-18 10:25:29戴艷麗江蘇省宿遷高等師范學校江蘇宿遷223800
        科技傳播 2015年23期
        關鍵詞:決策樹增益數(shù)據(jù)挖掘

        戴艷麗江蘇省宿遷高等師范學校,江蘇宿遷 223800

        分析數(shù)據(jù)挖掘中決策樹算法及其應用

        戴艷麗
        江蘇省宿遷高等師范學校,江蘇宿遷223800

        數(shù)據(jù)分析中一種比較新的形式就是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的應用非常廣泛,在金融保險業(yè)、政府部門、運輸領域等都有廣泛的應用。本文通過分析決策樹的算法研究,闡述了ID3、C4.5、CART等算法的優(yōu)劣勢以及在數(shù)據(jù)挖掘中的運用,在實際的科研活動中,要進行綜合考慮和科學總結,為未來相關方面的發(fā)展提供更加科學和合理的依據(jù)。

        數(shù)據(jù)挖掘;決策樹算法;應用

        數(shù)據(jù)分析中一種比較新的形式就是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘就是指挖掘具有價值的但有相當隱蔽性的信息?,F(xiàn)在,數(shù)據(jù)挖掘的應用非常廣泛,在金融保險業(yè)、政府部門、運輸領域等都有廣泛的應用。決策樹算法在數(shù)據(jù)挖掘中可以起到很好的作用,本文將通過分析決策樹的算法研究和在數(shù)據(jù)挖掘中的改進,希望對決策樹在數(shù)據(jù)挖掘中的應用提供幫助。

        1 決策樹算法的概述

        決策樹算法是一種數(shù)學歸納方法,強調從復雜無序的事例中,推導出最終結果的方法,在分類器、預測模型和數(shù)據(jù)挖掘中應用比較廣泛。決策樹算法要首先建立一個決策樹模型,然后通過所建立的模型對復雜無序的數(shù)據(jù)進行逐項測試,從根節(jié)點一直到最終的葉節(jié)點。

        2 數(shù)據(jù)挖掘中常見的決策樹算法研究

        決策樹經過長時間的發(fā)展,現(xiàn)在常見的算法主要包括ID3算法、C4.5算法以及CART算法。下面我們對相關的算法做一個簡單的介紹。

        2.1ID3算法

        ID3算法在決策樹算法中,是一種比較主流的算法。它的屬性選擇的標準是信息增益方法,通過在各級結點上運用信息增益方法,來確定結點生成時的屬性。這樣做可以使取得相關信息最?。?]。ID3算法的流程圖如圖1所示。

        主要公式為:假設U是整個集合,{X1,……,Xn}是整個集合的一個部分,它的概率分布可以表示為Pi=P(Xi),則稱:

        為信息源的信息熵。里面的對數(shù)取2為底,當Pi為零的時候,則

        通過上面的分析,我們對ID3算法已經有了一個簡單的了解,下面對ID3算法的優(yōu)劣勢進行相應的研究。ID3算法具有的優(yōu)勢是:1)由于ID3算法對所有可能出現(xiàn)的決策樹都有所涉及,所以具有完整性;2)信息增益減少了訓練樣例不夠準確的敏感性;3)算法在所用時間上比較少,同時分類效率較高;4)ID3算法的結點數(shù)量在所有算法中最小。ID3算法的劣勢是:1)由于ID3算法的假設前提比較單一,所以不具有對所有假設進行表示的特點;2)ID3算法在進行測試之后,不會選擇在對這個點進行測試,所以相對來說得到的結果只是個體最優(yōu)的;3)ID3算法對于屬性值數(shù)目比較依賴,但屬性值本身并不能保證是最優(yōu)的;4)ID3算法的開銷較大;5)ID3算法主要基于屬性選擇,而屬性選擇是否對決策樹有很大影響,在學術界缺乏確定的結論。通過對ID3算法的優(yōu)劣勢分析,可以認為ID3算法的理論明白,方法也并不復雜,在數(shù)據(jù)挖掘中,可以得到一個很好的應用。

        2.2C4.5算法

        C4.5算法是昆蘭在1993年創(chuàng)立的,它創(chuàng)立的主要依據(jù)是ID3算法,但更加完整。相比于ID3算法,C4.5算法對于屬性的不間斷性和屬性值不完整的情況進行了改變,在決策樹剪枝階段也有了比較成熟的算法。C4.5算法采用的是信息增益率為基準進行屬性測試。信息增益率的英文名稱是:information gain ratio?;竟綖椋?/p>

        假設整個集合為S,離散屬性A的不同取值用n表示,子集劃分為S1,……,Sn,用A表示的信息增益率為:

        其中:

        C4.5算法的優(yōu)點是對于離散和連續(xù)屬性都可以很好地進行處理,信息增益率相比信息增益屬性來說,對于整個決策樹保持穩(wěn)定也更加有利。但同時C4.5算法也暴露出了一些問題:1)C4.5算法的結果在準確性上有很大提高,但對于全局最優(yōu)效果還有待加強;2)決策樹的整體性能在決策樹構造完成后不易改變;3)C4.5算法在分組時的效率有待提高;4)C4.5算法的核心信息增益率也有著局限性,如果信息熵的值選擇較小的話,那么信息增率的牢固性則很可能達不到要求[2]。

        2.3CART算法

        CART屬于挖掘算法,最早在統(tǒng)計學中開始廣泛應用,相對來說比較靈活。CART算法的一個特點就是是一種監(jiān)督學習法,即在使用時,要首先建立一個可以對CART進行評價的樣本集。一般情況下CART的學習樣本集為:

        其中X為屬性向量,Y為標簽向量,其中,回歸樹的Y的數(shù)量值是有序的,分類樹的Y的數(shù)值是無序的。

        CART算法是基于統(tǒng)計理論建立的,它的解析能力比較強大,對非參數(shù)的識別具有一定作用,對于相關的數(shù)據(jù)要求也不是特別的嚴格,可以是無序或者離散的,最終獲得的數(shù)據(jù)結果的規(guī)則也比較簡單。當然,CART算法也存在著一定缺陷。相對來說CART算法在穩(wěn)定性方面的表現(xiàn)不盡如人意,所建立的模型之間的差異也比較明顯,對于樣本較小的處理結果能力有待提高。

        3 數(shù)據(jù)挖掘中決策樹算法的改進

        3.1決策樹算法的優(yōu)化

        在數(shù)據(jù)挖掘中,決策樹的算法要有所優(yōu)化。首先應該明確加權簡化熵的理念,所謂的加權簡化熵指的是決策樹的權值取決于屬性A的值的具體數(shù)量,然后根據(jù)子集Vi計算相應的簡化熵值,再和權值進行相乘,所得結果就是加權簡化熵。最后在對結果進行比較得出最優(yōu)選擇,主要公式為:

        其中P為A對應的概率。

        3.2新算法的優(yōu)劣勢分析

        通過與傳統(tǒng)的ID3算法進行比較,發(fā)現(xiàn)新算法具有下面的優(yōu)點:1)權值的引入是一個比較新的觀念,對于決策屬性的取值有很大的幫助;2)由于新算法解決了決策樹“空枝”的問題,所以算法的可靠性和易讀性得到了提升;3)新算法相比傳統(tǒng)算法在時間上的節(jié)省比較多,提升了運行效率。

        3.3挖掘流程闡述

        數(shù)據(jù)挖掘的過程比較復雜,首先要通過對數(shù)據(jù)進行分析,分出不同的數(shù)據(jù)類型和格式,在經過清理篩選等工作,存入SQL SERVER。然后選擇ID3、C4.5、CART或者改進算法,生成對應的決策樹,并對其進行檢測[3]。

        4 結論

        隨著社會經濟的發(fā)展,數(shù)據(jù)挖掘的作用越來越重要,決策樹算法在數(shù)據(jù)挖掘中的作用也越來越廣泛,各種決策樹算法的各有其自己的優(yōu)劣勢。在數(shù)據(jù)挖掘中,要根據(jù)實際情況,進行綜合考慮和科學總結,為未來相關方面的研究提供更加科學和合理的依據(jù)。

        [1]張悅,楊學全.決策樹算法在學生選課系統(tǒng)中的應用[J].科技經濟市場,2014(7):185.

        [2]張莉.數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢[J].赤峰學院學報(自然科學版),2014(18):14-15.

        [3]胡常偉,錢程.基于決策樹的模具制造企業(yè)訂單履約數(shù)據(jù)挖掘[J].模具工業(yè),2014(11):4-7.

        TP3

        A

        1674-6708(2015)152-0033-02

        猜你喜歡
        決策樹增益數(shù)據(jù)挖掘
        基于增益調度與光滑切換的傾轉旋翼機最優(yōu)控制
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于單片機的程控增益放大器設計
        電子制作(2019年19期)2019-11-23 08:41:36
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于決策樹的出租車乘客出行目的識別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        基于肺癌CT的決策樹模型在肺癌診斷中的應用
        手机在线看片在线日韩av| 一区二区三区不卡在线| 欧美性猛交xxxx乱大交蜜桃| 久久精品一品道久久精品9| 亚洲综合网站精品一区二区| 蜜桃av观看亚洲一区二区| 国产一区二区免费在线观看视频 | 97色综合| 国产日韩精品视频一区二区三区| 自拍偷区亚洲综合激情| 精品一区二区在线观看免费视频 | 国产三区三区三区看三区| 成年人观看视频在线播放| 欧美日韩精品乱国产| 国产边摸边吃奶叫床视频| 成人激情五月天| 国产女人成人精品视频| 99精品国产兔费观看久久| 国产高潮精品一区二区三区av| 国产精品成年人毛片毛片| 青青草成人免费在线视频| 揄拍成人国产精品视频| 久久久久久久97| 久久久久久国产精品美女| 欧美精品在线一区| 国产成人高清精品亚洲一区| 日本精品一区二区三区二人码| 美女脱了内裤张开腿让男人桶网站| 男受被做哭激烈娇喘gv视频| 国产在线一91区免费国产91| 97久久综合区小说区图片专区| 亚洲成人av一区免费看| 欧美激情视频一区二区三区免费| 99久久er这里只有精品18| 白色橄榄树在线免费观看| 91九色国产在线观看| 日本一二三区免费在线| 三年片在线观看免费观看大全中国| 亚洲精品一区二区| 亚洲精品日韩自慰喷水白浆| 一区二区三区岛国av毛片|