亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹算法分析與改進

        2016-10-08 20:58:15張永昭岳晟劉曉楠
        財稅月刊 2016年6期
        關(guān)鍵詞:匯總改進數(shù)據(jù)挖掘

        張永昭 岳晟 劉曉楠

        摘 要 ID3、C4.5、CART是三種已經(jīng)研究發(fā)展很多年的經(jīng)典算法,是從事數(shù)據(jù)挖掘研究工作基礎(chǔ)模板。三種決策樹模型應(yīng)用廣泛,原理簡明,各有所長,但缺點同樣明顯。經(jīng)過深入的學(xué)習(xí)研究,團隊對三種算法的特點及改進進行了匯總,為進一步的研究做了總結(jié)性分析;并運用分析成果對ID3算法進行了改進。

        關(guān)鍵詞 數(shù)據(jù)挖掘;決策樹算法;特點;改進;匯總

        引言:

        近年來,決策樹方法在機器學(xué)習(xí)、知識發(fā)現(xiàn)等領(lǐng)域得到了廣泛應(yīng)用。數(shù)據(jù)挖掘作為一種發(fā)現(xiàn)大量數(shù)據(jù)中潛在信息的數(shù)據(jù)分析方法和技術(shù),已經(jīng)成為各界關(guān)注的熱點。其中,決策樹以其出色的數(shù)據(jù)分析效率、直觀易懂等特點,倍受青睞。構(gòu)造決策樹有多種算法,國際上最早的、具有影響力的決策樹是由Quinlan于1986年提出的ID3算法[1],是基于信息熵的決策樹分類算法。ID3算法采用信息熵作為屬性選擇標準,可這個標準易偏向于取值較多的候選屬性。

        一、ID3算法優(yōu)化

        1.改進思路

        針對ID3算法的缺點④,即信息增益的計算依賴于特征數(shù)目較多的特征,而屬性取值最多的屬性并不一定最優(yōu),這會導(dǎo)致結(jié)果與實際誤差較大?;谏鲜鰧D3算法改進方案的分析,本文提出以下改進思路:

        (1)提出子屬性信息熵的概念。假設(shè)所有屬性集合為{A1,A2,…,An},對于屬性Ai有子屬性{Ai1,Ai2, …, Aim}。定義Aij的子屬性信息熵為。

        (2)引入屬性優(yōu)先[18]的概念。不同的屬性對決策的影響程度不同,這種影響程度可以在輔助知識的的基礎(chǔ)上事先加以假設(shè),給每個屬性賦予一個權(quán)值{w1,w2,…,wn},通過權(quán)值,弱化非重要屬性,強化重要屬性。

        (3)引入屬性修正信息熵的概念,目的是弱化非重要多值屬性對信息增益的影響。假設(shè)所有屬性集合為{A1,A2,…,An},每個屬性發(fā)生概率分別是{P1,P2,…,Pn},對于屬性Ai每個子屬性發(fā)生的概率為{Pi1,Pi2,…,Pim}。定義屬性Ai的屬性修正信息熵為。

        而entropy(Ai)采用ID3中的算法計算。

        2.算法步驟

        (1)對當(dāng)前例子集合,計算各個屬性的修正信息熵。

        (2)選擇修正信息熵最小的屬性Ai作為根節(jié)點。

        (3)把在Ai處取值相同的例子歸于同一子集,Ai取幾個值就得幾個子集。

        (4)依次對每種取值情況下的子集,遞歸調(diào)用建樹算法,即返回(1)。

        (5)若子集只含有單個屬性,則分支為葉子節(jié)點,判斷其屬性值并標上相應(yīng)的符號,然后返回調(diào)用處。

        二、實例分析

        針對表1中的數(shù)據(jù),用ID3算法求解得圖1所示決策樹。

        由表一,對于該例子集合的屬性集合為{天氣,溫度,濕度,風(fēng)} 。對于“天氣”屬性有子屬性{多云,雨,晴},對于“溫度”屬性有子屬性{高,低,適中},對于“濕度”屬性有子屬性{正常,大},對于“風(fēng)”屬性有子屬性{無風(fēng),中風(fēng),大風(fēng)}。

        由經(jīng)驗我們假定“天氣”的優(yōu)先權(quán)值為0.95,“風(fēng)”的優(yōu)先權(quán)值為0.35,濕度和溫度的優(yōu)先權(quán)值為0。

        計算“天氣”的子屬性的子屬性信息熵:

        由ID3算法可知:

        由5.1中屬性修正信息熵的定義可得:

        同理,,。所以選取“濕度”為根節(jié)點。接下來將例子集分成兩個子集:

        接下來重復(fù)上面步驟,可得決策樹如圖2所示。

        通過比較,可以得到以下結(jié)論:

        (1)優(yōu)化算法所生成是二叉樹,而ID3算法所生成的是多叉樹,簡化了決策問題處理的復(fù)雜度。

        (2)引入子屬性信息熵、優(yōu)先權(quán)、屬性修正信息熵的概念,從本例來看,根節(jié)點選擇了濕度而沒有選擇屬性值最多的天氣,所以本優(yōu)化算法確實能克服傳統(tǒng)ID3算法的多值偏向性。

        三、結(jié)束語

        數(shù)據(jù)挖掘技術(shù)是當(dāng)前數(shù)據(jù)庫和人工智能領(lǐng)域研究的熱點課題,分類是數(shù)據(jù)挖掘的一種非常重要的任務(wù)。決而策樹算法是一種非常重要的數(shù)據(jù)挖掘分類算法。本文主要對三種算法的特點及改進進行了匯總。對于ID3算法,目前的改進方向主要集中在解決ID3偏向于選擇取值較多的屬性的不足、解決不能處理連續(xù)值的屬性、解決易受噪聲干擾和優(yōu)化儲存這四個方面。

        本文對這三種決策樹算法當(dāng)前研究情況進行了總結(jié)分析,并運用分析結(jié)果對經(jīng)典ID3算法提出了改進方法。通過進行實例分析,了解和熟悉實際應(yīng)用上的差別,為對決策樹算法進一步的研究作準備。

        猜你喜歡
        匯總改進數(shù)據(jù)挖掘
        常用縮略語匯總
        系統(tǒng)抽樣的非常規(guī)題匯總
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        論離婚損害賠償制度的不足與完善
        商(2016年27期)2016-10-17 06:57:20
        高校安全隱患與安全設(shè)施改進研究
        商(2016年27期)2016-10-17 05:02:12
        “慕課”教學(xué)的“八年之癢”
        淺析秦二廠設(shè)計基準洪水位提升對聯(lián)合泵房的影響
        科技視界(2016年20期)2016-09-29 13:36:14
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        供應(yīng)商匯總
        日本一道dvd在线中文字幕| 乱色熟女综合一区二区三区| 亚洲另类精品无码专区| 久久精品国产72国产精福利| 中文字幕一区二区三区综合网| 狠狠躁夜夜躁人人爽超碰97香蕉| 男女裸交无遮挡啪啪激情试看 | 亚洲另类欧美综合久久图片区 | 人妻少妇无码中文幕久久| 翘臀诱惑中文字幕人妻| 公和我做好爽添厨房| 久久精品国产第一区二区三区 | 手机在线观看日韩不卡av| 成人免费777777被爆出| 精品无码av不卡一区二区三区| 国内精品嫩模av私拍在线观看| 综合国产婷婷精品久久99之一| 在线精品国产一区二区三区| 亚洲精品乱码久久久久久麻豆不卡 | 亚洲精品中文有码字幕| 国产日韩厂亚洲字幕中文| 免费a级毛片无码| 国产免费av片在线观看播放| 少妇高潮呻吟求饶视频网站| 国产大屁股喷水视频在线观看 | 国产亚洲欧美在线观看的| 在线观看日韩精品视频网站| 国产三级精品视频2021| 少妇放荡的呻吟干柴烈火动漫| 久久道精品一区二区三区| 日日高潮夜夜爽高清视频| 免费人成激情视频在线观看冫| 国产精品久久久久久久成人午夜| 日韩av免费在线不卡一区| 中文字日产幕码三区的做法大全| 人妻无码aⅴ不卡中文字幕| 无码一区二区三区网站| 日本免费看片一区二区三区| 99热爱久久99热爱九九热爱| 亚洲片一区二区三区| 白色白色视频在线观看|