亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于約簡屬性和閾值分割的決策樹構(gòu)建方法

        2020-11-18 09:14:56譚正華戴立平李國泰
        計算機工程與應(yīng)用 2020年22期
        關(guān)鍵詞:特征信息

        譚正華,戴立平,文 陽,李國泰

        湘潭大學(xué) 信息工程學(xué)院,湖南 湘潭411105

        1 引言

        決策樹是由貪心算法發(fā)展而來,由Hunt 等人于1966 年提出的[1]。它是數(shù)據(jù)挖掘分類算法里的關(guān)鍵分支,廣泛運用于諸多領(lǐng)域。主要的決策樹算法模型有ID3、C4.5、CART等[2]。其中C4.5算法分類精度高,對于小數(shù)據(jù)集處理速度快,且分類規(guī)則易理解,是最為經(jīng)典的決策樹算法。

        文獻[3]針對C4.5 算法需要多次掃描、運行效率低的問題,提出了信息增益率的對數(shù)優(yōu)化,提高了算法的運行效率;Mantas等[4]提出了一種改進的C4.5算法——Credal-C4.5算法,通過使用新的不精確信息增益率分類標準,來估計特征和類別變量的概率,有效地解決了噪聲數(shù)據(jù)分類中過度擬合的問題;Ngoc等[5]提出了利用決策樹對英文情感詞典進行分類,并在該基礎(chǔ)上擴展出新的正極性與負極性關(guān)聯(lián)規(guī)則,為決策樹與關(guān)聯(lián)規(guī)則的結(jié)合提供了新的方法;文獻[6]提出了一種新的VFC4.5 算法,通過使用算術(shù)平均值和中值來減少候選閾值分割點的數(shù)量,改進了連續(xù)值屬性分割的方式;Sergio等[7]提出了基于C4.5 分類器的進化分割點選擇多元離散化分類,使用適應(yīng)度函數(shù)來定義數(shù)據(jù)集的最佳離散化方案,提高了數(shù)據(jù)離散精度。

        本文在C4.5 分類算法的基礎(chǔ)上,提出了一種新的基于約簡屬性和閾值分割優(yōu)化的決策樹構(gòu)建方法。該方法在離散化連續(xù)值特征屬性過程中優(yōu)化了最佳閾值分割點的選擇,修正了信息增益率的計算方式,解決了分類數(shù)據(jù)集中特征屬性冗余造成分類準確率降低的問題,提高了算法的運行效率與準確率。

        2 C4.5算法原理

        C4.5算法是對ID3算法的改進,由Quinlan[8]于1993年提出,其基本原理為:

        首先采用熵值H(X,a)表示數(shù)據(jù)集分類為獲取屬性字段a 的代價,定義為:

        其中,k 為屬性a 的取值個數(shù),n 為樣本總數(shù)。然后用信息增益比表示單位代價獲取到的信息量,定義為:

        其中,I(X,a)為信息增益,將每一個屬性的信息增益比作一個計算,來確定測試屬性字段。

        C4.5算法與ID3算法的不同主要有:

        (1)在分支屬性的選取上,C4.5 算法采用的是單位代價內(nèi)獲取到的信息量;

        (2)C4.5能夠完成連續(xù)值屬性的離散化;

        (3)選用常值或者均值,取代數(shù)據(jù)樣本集的未知字段,能夠完成缺省字段值的處理;

        (4)對于模型優(yōu)劣程度的評估,采用了K 次迭代交叉驗證;

        (5)該算法產(chǎn)生的是if-then 的規(guī)則集合,該規(guī)則集合會形成一條路徑,由根節(jié)點到葉節(jié)點的規(guī)則生成。

        雖然C4.5算法相對于ID3算法有所改進,提高了識別效果,但還是沒能夠脫離信息熵的范疇,樹的分化仍舊是一個多叉樹;同時需要將數(shù)據(jù)集中的屬性做一個掃描排序,增加了時間復(fù)雜度[9]。

        3 基于屬性相關(guān)性的約簡方法

        如何解決決策樹屬性冗余約簡問題,采用概率論中的Pearson系數(shù)[10]來對屬性間的相關(guān)性進行度量。屬性約簡的目標為:對于決策屬性和特征屬性,兩者之間的相關(guān)性越大越好,以保證特征屬性子集中沒有其他無關(guān)屬性;對于特征屬性,每個屬性間的相關(guān)性越小越好,使得屬性子集中沒有冗余屬性[11]。

        Pearson系數(shù)有如下定義:

        定義1 對于隨機變量X 的概率分布為P{X=Xk}=Pk(k=1,2,…),當絕對收斂時,則稱該級數(shù)的和為X 的數(shù)學(xué)期望E(X):

        定義2 若隨機變量X 存在E{[X-E(X)]2},則稱其為X 的方差,用D(X)表示:

        定義3 隨機變量Y 的數(shù)學(xué)期望為E(Y),與隨機變量X 的協(xié)方差用Cov(X,Y)表示,其中:

        那么隨機變量X、Y 之間的相關(guān)系數(shù)(Pearson)表示為:

        在兩個任意隨機變量之間,如下等式成立:

        在決策樹模型中,X、Y 表示數(shù)據(jù)集中的兩個特征屬性集合,數(shù)據(jù)樣本總數(shù)為num,其屬性值分別為X={X1,X2,…,Xm},包含了m 個屬性值;Y={Y1,Y2,…,Yn},包含了n 個屬性值。其中Xi表示特征屬性X 中的第i個值,Yj表示特征屬性Y 中的第j 個值,nai表示滿足條件X=Xi的樣本個數(shù),用nbj表示Y=Yj的樣本個數(shù),當存在X=Xi且Y=Yj的樣本數(shù)時,用naibj表示,其結(jié)果如圖1所示。

        圖1 結(jié)果覆蓋示意圖

        特征屬性X、Y 的相關(guān)系數(shù)ρxy取絕對值,由式(4)、式(8)可推導(dǎo)得出:

        結(jié)合式(3)可得:

        對于數(shù)據(jù)集中存在的特征屬性,兩者間的相關(guān)性越大則p 值越大,反之越小。當屬性間相關(guān)性較大時,比較屬性間的信息增益率,那么可以通過去除信息增益率較小的冗余屬性,達到約簡數(shù)據(jù)集特征屬性,提高決策樹模型準確率的目的。

        一般情況下,當0.8 ≤ρxy≤1 時,表示兩個特征屬性極強相關(guān);0.6 ≤ρxy<0.8 時,強相關(guān);0.4 ≤ρxy<0.6 時,中等程度相關(guān);0.2 ≤ρxy<0.4 時,弱相關(guān);0 ≤ρxy<0.2時,極弱或者無相關(guān)。

        4 基于閾值分割點的邊界判定優(yōu)化

        傳統(tǒng)C4.5算法對連續(xù)值的處理如下[12]:

        (1)對數(shù)據(jù)樣本子集中的變量統(tǒng)一排序,以升序的排列方式得到屬性序列{A1,A2,…,An};

        (2)根據(jù)屬性值劃分,得到n-1 個候選分割閾值點,對于第i 個分割閾值點,分割取值設(shè)置為Si=middle{Ai,Ai+1}={Ai,Ai+1}/2,將樣本集劃分為兩個子集;

        (3)產(chǎn)生的候選閾值分割點共有n-1 個,并對閾值分割點的信息增益率系數(shù)進行計算,最佳的閾值分割點為計算系數(shù)最大的點。

        在上述計算中,需要計算n-1 個閾值分割點的信息增益率,當數(shù)據(jù)總量較大時,容易出現(xiàn)時間復(fù)雜度較高的問題。針對以上問題,在C4.5 決策樹對連續(xù)變量分裂屬性的處理上,提出了一種優(yōu)化閾值分割點的方法,減少了分割閾值點的劃分,降低了算法的時間復(fù)雜度。當數(shù)據(jù)集樣本較大時,能夠較好地提高運行效率。

        4.1 閾值分割點的邊界判定定義

        定義4 邊界點:對于訓(xùn)練集T,T 中有連續(xù)字段A,當將A 字段中的連續(xù)字段屬性值按照從小到大排列后,有一個點S 將T 劃為兩個子集T1和T2,能夠使得T1<S <T2,其中T1中所有的A 屬性值都小于T,T2中所有的A 字段值都會比T 大,那么就可以將T 定義為一個邊界點。

        定理1 關(guān)于邊界點判定定理:定義T 為樣本數(shù)據(jù)集,A 為字段屬性,E 為在屬性A 上劃分樣本數(shù)據(jù)集T 所得到的平均類熵,S 為字段A 的閾值點。如果存在S,使得E(A,S;T)最小,則S 是一個邊界點。

        通過上述判定定理,離散化閾值分割點存在邊界點中,最佳劃分點總是在邊界處,如果把同一個類分成了不同的類,那么這樣的分割點是不會有信息增益的。因此并不需要測試所有的分割閾值點,只需要測試邊界點[13]。

        4.2 分割點的優(yōu)化判定方法

        基于邊界點判定定理,通過邊界點的劃分,降低算法的時間復(fù)雜度,減少處理連續(xù)屬性的計算量,其步驟如下:

        步驟1 對連續(xù)屬性進行升序排序,得到序列;

        步驟2 劃分閾值分割點,對每個閾值分割點是否屬于邊界點進行判定;

        步驟3 計算邊界點的信息增益,選擇信息增益最大的邊界點進行離散化;

        步驟4 將連續(xù)屬性值離散為兩部分,構(gòu)造決策樹節(jié)點。

        優(yōu)化的C4.5決策樹構(gòu)造偽代碼如下:

        輸入:節(jié)點N ,訓(xùn)練樣本集S,分類屬性集A;

        輸出:一棵決策樹;

        算法流程如圖2所示。

        圖2 閾值分割流程圖

        在對最佳閾值分割點進行判定時,為避免特征屬性分化選擇偏連續(xù)值屬性,對處理連續(xù)值特征屬性的方法進行了修正[14]。其中最佳分割點為信息增益最大的點,而不是信息增益率最大的點。離散化后再計算該特征屬性的信息增益率。修正步驟為:

        步驟1 將該節(jié)點上的連續(xù)屬性值進行升序排序,得到屬性序列為{A1,A2,…,An,…,Atotal};

        步驟2 按照升序序列產(chǎn)生total-1 個閾值分割點,其中第n 個分割點的取值為(An+An+1)/2,將樣本數(shù)據(jù)集分成兩個子集,通過邊界點優(yōu)化方法劃分邊界點,減少閾值分割點的計算;

        步驟3 計算邊界點的信息增益,選擇信息增益最大的邊界點作為該特征屬性的最佳分割點;

        步驟4 離散化該連續(xù)值特征屬性,計算該最佳邊界分割點的信息增益率,并對其減去lb(N-1)/||D 進行修正,修正方法為:

        其中,N 為連續(xù)特征的取值個數(shù),D 為訓(xùn)練數(shù)據(jù)集data_set 的樣本量,GainRatioX為該節(jié)點屬性X 離散化后的信息增益率。

        5 實驗結(jié)果及分析

        本文實驗在Pycharm 平臺上進行,算法實現(xiàn)采用python 語言。實驗環(huán)境如下:Windows10、CPU-Intel?CoreTMi5-4200U@1.60 GHz,8 GB RAM。實驗分為兩部分:(1)采用傳統(tǒng)的C4.5算法;(2)采用改進的C4.5算法。首先對數(shù)據(jù)集特征屬性進行約簡,去掉冗余屬性,然后對連續(xù)值特征屬性離散化進行優(yōu)化處理,并對信息增益率計算進行修正。本文采用的數(shù)據(jù)集來自于UCI機器學(xué)習平臺,實驗以CPU 運行時長和準確率作為衡量算法時間復(fù)雜度和準確率高低的評判標準,測試案例為生成分類決策樹。

        本文采用的數(shù)據(jù)集共三個,具體內(nèi)容參見表1。

        表1 數(shù)據(jù)集具體內(nèi)容

        上述數(shù)據(jù)集中,iris數(shù)據(jù)集樣本量較少,屬性較少且特征屬性全為連續(xù)值屬性;wine數(shù)據(jù)集屬性較多且特征屬性全為連續(xù)值屬性;abalone數(shù)據(jù)集樣本量較多,特征屬性包含了連續(xù)值屬性和離散值屬性。

        5.1 數(shù)據(jù)集處理

        計算數(shù)據(jù)集中特征屬性間的相關(guān)系數(shù)ρ,結(jié)果如表2、表3、表4所示。

        iris、wine、abalone數(shù)據(jù)集每個特征屬性的信息增益率如表5、表6、表7所示。

        當特征屬性個數(shù)numfeature<10,選取ρ ≥0.9 的特征屬性;當numfeature≥10 時,選取ρ ≥0.85 的特征屬性。通過比較特征屬性的信息增益率,三個數(shù)據(jù)集的冗余屬性分別為iris{Petal.Length}、wine{Totalphenols}、abalone{Length,Wholeweight,Visceraweight,Shellweight},去除該數(shù)據(jù)集中的冗余屬性,新數(shù)據(jù)集用于改進的C4.5算法。

        表2 iris數(shù)據(jù)集特征屬性相關(guān)系數(shù)

        表3 wine數(shù)據(jù)集特征屬性相關(guān)系數(shù)

        表4 abalone數(shù)據(jù)集特征屬性相關(guān)系數(shù)

        表5 iris特征屬性的信息增益率

        表6 wine特征屬性的信息增益率

        表7 abalone特征屬性的信息增益率

        5.2 實驗結(jié)果

        實驗采用多次驗證的方法[15],從數(shù)據(jù)集隨機抽取70%作為訓(xùn)練集,30%作為測試集,進行10次實驗,取實驗的平均值作為實驗結(jié)果。實驗結(jié)果如表8、表9、表10所示。

        表8 iris數(shù)據(jù)集實驗結(jié)果

        表9 wine數(shù)據(jù)集實驗結(jié)果

        傳統(tǒng)C4.5算法和改進C4.5算法的實驗結(jié)果如圖3、圖4所示。

        表10 abalone數(shù)據(jù)集實驗結(jié)果

        圖3 CPU耗時對比圖

        圖4 準確率對比圖

        實驗結(jié)果表明:改進的C4.5 算法在時間運行效率和模型準確率上有了一定的提高。利用基于閾值分割點的邊界判定優(yōu)化可以減少連續(xù)值屬性離散化的計算量,有效提高決策樹的生成效率。當樣本數(shù)據(jù)量較少時,運行效率約提升了50%,隨著樣本數(shù)量的增加,運行效率提升更為明顯。同時針對數(shù)據(jù)集中冗余屬性的約簡和信息增益率的修正,有效地提高了模型分類的準確率。

        6 結(jié)束語

        本文采用約簡屬性和閾值分割優(yōu)化方法,可以有效地提高決策樹模型的生成效率和準確率。該方法在具有多個連續(xù)值屬性的數(shù)據(jù)集中效果較為明顯,如本文中小樣本數(shù)據(jù)集iris和wine,改進前后的差別明顯,具有較好的應(yīng)用前景和價值。本文主要針對多特征屬性和多連續(xù)值屬性的數(shù)據(jù)樣本進行改進。當數(shù)據(jù)樣本量較大時,如abalone 樣本集,運行時間較長且模型準確率較低,這是C4.5算法本身的缺陷,也是下一步研究和改進的方向。

        猜你喜歡
        特征信息
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認識
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        色av综合av综合无码网站| 国产三级国产精品国产专区| 丝袜美腿亚洲综合一区| 中文字幕亚洲一区二区三区| 亚洲av永久无码精品一福利| 色伦专区97中文字幕| 四虎4545www国产精品| 人妻少妇精品一区二区三区| 一区二区三区av资源网| 国产激情视频免费在线观看| 日本精品αv中文字幕| 精品国产高清一区二区广区| 91成人自拍视频网站| 亚洲视频在线一区二区| 日本爽快片18禁免费看| 国产清品夜色一区二区三区不卡| 国产一区二区三区白浆在线观看| 亚洲无精品一区二区在线观看| 四虎影视成人永久免费观看视频| 久久精品无码专区免费青青| 日韩人妻无码精品久久伊人| 亚洲视频综合在线第一页| 亚洲女优中文字幕在线观看 | 日本久久久免费高清| 成人国产av精品麻豆网址| 人人妻人人澡人人爽国产一区| 特级毛片a级毛片免费播放| 老熟妇Av| 亚洲av乱码一区二区三区观影| 成人国产一区二区三区| 99精品久久精品一区二区| 色偷偷88888欧美精品久久久 | 亚洲精品美女久久久久99| 人人狠狠综合久久亚洲婷婷| 午夜一区二区三区av| 国产一区二区三区口爆在线| 日韩女同视频在线网站| 内射囯产旡码丰满少妇| 久久精品国产免费观看99| 中国黄色偷拍视频二区| 亚洲中文字幕无码不卡电影|