鄧志軒 鄭忠龍 鄧大勇
大數(shù)據(jù)時(shí)代下,數(shù)據(jù)快速擴(kuò)展,在生產(chǎn)實(shí)踐中獲得的屬性越來越多.一部分屬性可能是冗余的或與分類任務(wù)無關(guān),在進(jìn)行任何進(jìn)一步數(shù)據(jù)處理之前都需要將它們刪除.屬性約簡(或特征選擇) 是一種用于減少屬性的技術(shù).其目的是找到最佳屬性子集來預(yù)測樣本類別.屬性約簡還可以促進(jìn)數(shù)據(jù)可視化和數(shù)據(jù)理解[1].
屬性約簡過程中存在一個(gè)關(guān)鍵問題:屬性評估.如何有效地評估屬性是最重要的步驟之一,它直接影響分類器的性能.迄今為止已經(jīng)提出了許多屬性評估準(zhǔn)則,例如信息熵[2]、依賴性[1]、相關(guān)性[3]和一致性[4]等.通常,不同的評估標(biāo)準(zhǔn)可能導(dǎo)致不同的最佳特征子集.但是,每項(xiàng)措施都旨在確定特征子集的區(qū)分能力.
粗糙集理論[5-6]是一種有效屬性約簡工具,產(chǎn)生了增量式約簡[7]、動態(tài)約簡[8]、多決策表約簡[9]和并行約簡[10-11]等屬性約簡方法.但是,傳統(tǒng)粗糙集模型僅適用于非數(shù)值型數(shù)據(jù).需要對數(shù)值型特征進(jìn)行離散化,而離散化會帶來信息損失.
研究者們通過拓展粗糙集模型來解決這一問題,如鄰域粗糙集[12-21]、模糊粗糙集[22-25]等.文獻(xiàn)[13-14]基于鄰域信息粒子逼近,提出了鄰域信息決策模型和數(shù)值型屬性的選擇算法,能夠無須離散化而直接處理數(shù)值型屬性,解決了離散化帶來的信息損失問題,使粗糙集模型得以更方便地處理現(xiàn)實(shí)生活中大量存在的數(shù)值型變量.后繼的研究者引入加權(quán)依賴度[15]、局部粗糙集[16]、模糊鄰域與模糊決策[17]、Fish swarm 算法[12,18]等豐富了鄰域粗糙集理論,并將其應(yīng)用推廣于多標(biāo)記數(shù)據(jù)的特征選擇[19]、并行屬性約簡[20]、動態(tài)圖像分類[21]等方面.但并未考慮如何處理包含多個(gè)領(lǐng)域數(shù)據(jù)的數(shù)據(jù)集,而不同類型數(shù)據(jù)的處理準(zhǔn)則和要求有所不同,如果放在同一個(gè)信息表中處理,處理結(jié)果往往不盡如人意.
F-粗糙集[26-29]是第一個(gè)動態(tài)粗糙集模型,其子集可以很好地表示不同情況下的概念,從而解決處理包含多個(gè)領(lǐng)域數(shù)據(jù)的動態(tài)屬性約簡問題.其后研究結(jié)合了模糊粗糙集[28],初步應(yīng)用于非數(shù)值型數(shù)據(jù).F-粗糙集比較突出的應(yīng)用在于概念漂移探測[29],但相對較缺少非數(shù)值型數(shù)據(jù)處理方面的應(yīng)用.
為了更好地解決鄰域粗糙集和F-粗糙集所遇到的問題.本文結(jié)合鄰域粗糙集和F-粗糙集的優(yōu)勢,提出了一種新的粗糙集模型—F-鄰域粗糙集.首先定義F-鄰域粗糙集的鄰域關(guān)系,使用鄰域決策子系統(tǒng)來表示不同情況.然后,使用F-屬性依賴度和屬性重要度矩陣來評估屬性.充分考慮了在多種情況下同一概念的不同,同時(shí)克服了鄰域粗糙集模型和F-粗糙集模型的缺陷.最后設(shè)計(jì)了兩個(gè)屬性約簡算法,證明了約簡結(jié)果的等價(jià)性,并說明了它們的適用范圍.實(shí)驗(yàn)結(jié)果表明,相對于鄰域粗糙集、F-粗糙集和主成分分析(Principal component analysis,PCA),本文算法能獲得更好的分類準(zhǔn)確率.
本節(jié)簡單介紹鄰域粗糙集[13-14]和F-粗糙集[26-27]的基本概念.
在信息系統(tǒng)IS=(U,A) 中,U={x1,x2,···,xn}為實(shí)數(shù)空間上的非空有限集合.如果A為條件屬性,d為決策屬性,則稱(U,A,d) 為一個(gè)決策系統(tǒng).
定義1[13].對于xk ∈U,定義xk的鄰域?yàn)?/p>
F-粗糙集是一個(gè)擁有多個(gè)信息表(或決策表)的粗糙集模型,它與其他粗糙集模型具有很好的兼容性.下面介紹F-粗糙集的基本概念.用FIS={ISi:ISi=(Ui,A),i=1,2,···,n}表示信息系統(tǒng)簇,與其對應(yīng)的決策系統(tǒng)簇用F表示,其中,ISi=(Ui,A),而DTi=(Ui,A,d).
圖1 概念X 在FIS 中的上近似、下近似、邊界區(qū)域、負(fù)區(qū)域Fig.1 Concept X in the FIS upper approximation,lower approximation,boundary region,and negative region
本節(jié)結(jié)合鄰域粗糙集和F-粗糙集,定義了F-鄰域粗糙集的基本概念,包括F-鄰域上下近似、邊界區(qū)域等;提出F-鄰域依賴度并證明其單調(diào)性,提出屬性重要度矩陣.
注2.數(shù)據(jù)類型為數(shù)值型,或者混合數(shù)據(jù)類型,即有些是數(shù)值型,另一些是非數(shù)值型.
F-鄰域粗糙集繼承了F-粗糙集的動態(tài)性.不同的信息子系統(tǒng)包含的信息是不一樣的,隨著時(shí)間或空間的變化而變化,F(xiàn)-鄰域粗糙集與F-粗糙集一樣包含了這些變化信息,而且可以研究這些變化.
例1.設(shè)F={NDT1,NDT2},鄰域決策系統(tǒng)NDTi=(Ui,A,d),a,b,c是條件屬性,d是一個(gè)決策屬性,f(x,a) 表示樣本在屬性a上的取值,具體各個(gè)樣本在屬性a,b,c,d上的取值如表1 和表2所示.
概念X的鄰域δ(x) 在NDT1和NDT2中是不同的,當(dāng)指定鄰域大小為0.5 時(shí)(為了方便計(jì)算采用歐氏距離),x在條件屬性{a,b,c}下的鄰域計(jì)算式為
表1 鄰域決策子系統(tǒng)NDT1Table 1 A neighborhood decision subsystem NDT1
表2 鄰域決策子系統(tǒng)NDT2Table 2 A neighborhood decision subsystem NDT2
F-鄰域粗糙集的屬性約簡,結(jié)合了鄰域粗糙集處理連續(xù)型數(shù)據(jù)和F-粗糙集的動態(tài)性的優(yōu)點(diǎn),可以對數(shù)值型數(shù)據(jù)和動態(tài)變化的數(shù)據(jù)進(jìn)行約簡.
通過定義7 將并行約簡的概念擴(kuò)展到鄰域決策系統(tǒng)中,定義8 和定義9 是對鄰域決策系統(tǒng)屬性重要度的擴(kuò)展,假設(shè)F中只含有一個(gè)鄰域決策系統(tǒng),那么,F(xiàn)-鄰域?qū)傩灾匾燃礊樵摏Q策系統(tǒng)的鄰域?qū)傩灾匾?F-鄰域粗糙集的屬性重要度有以下性質(zhì):
性質(zhì)1.B1是鄰域決策子系統(tǒng)NDT ∈F的一個(gè)約簡,則存在一個(gè)F-鄰域并行約簡B2使得B1?B2.
性質(zhì)2.如果a為一個(gè)鄰域決策子系統(tǒng)NDT ∈F的核屬性,則a為F-鄰域并行約簡的核屬性.
性質(zhì)3.如果a為F-鄰域并行約簡的核屬性,則存在一個(gè)鄰域決策子系統(tǒng)NDT ∈F,使得a為NDT的核屬性.
性質(zhì)1~3 可以根據(jù)F-鄰域并行約簡、核屬性的定義直接得出.
定理1.在一個(gè)鄰域決策系統(tǒng)簇F中,F(xiàn)-鄰域依賴度γ(F,B,d) 具有單調(diào)性,如果B1?B2?··· ?A,則γ(F,B1,d)≤γ(F,B2,d)≤··· ≤γ(F,A,d).
因?yàn)棣?F,B,d) 的單調(diào)性,根據(jù)文獻(xiàn)[30]中的定律1,γ(F,B,d) 可以作為屬性約簡準(zhǔn)則,由此可得到定理2.
定理2.在一個(gè)鄰域決策系統(tǒng)簇F中,B ?A是F的鄰域并行約簡,當(dāng)且僅當(dāng)B ?A滿足下面兩個(gè)條件:
2) 證明確保F-鄰域并行約簡的最小性.
假設(shè)存在S ?B,使得γ(F,S,d)=γ(F,A,d).根據(jù)1) 可知:POS(F,S,d)=POS(F,A,d),即S是F的F-鄰域并行約簡,與B ?A是F的F-鄰域并行約簡矛盾. □
根據(jù)以上性質(zhì)和定理,還可以得到以下兩個(gè)命題:
命題1.給定一個(gè)鄰域決策子系統(tǒng)簇F,a ∈B?A.如果σ(B,a)=0,則屬性a可以被約簡.
σ(B,a)=0 表明,如果屬性a被約簡,F(xiàn)的所有決策子系統(tǒng)也能保持正域不變.
命題2.給定一個(gè)鄰域決策子系統(tǒng)簇F,a ∈A,若σ(A,a)>0,則屬性a為F-鄰域并行約簡的核屬性.
σ(A,a)>0 表明,如果屬性a被約簡,至少有一個(gè)鄰域決策子系統(tǒng)不能保持正區(qū)域不變,所以屬性a為F-鄰域并行約簡的核屬性.
第2.1 節(jié)已經(jīng)構(gòu)建了F-鄰域并行約簡的概念.本小節(jié)引入屬性重要度矩陣并證明F-鄰域?qū)傩灾匾群蛯傩灾匾染仃嚇?gòu)建的約簡準(zhǔn)則等價(jià).
文獻(xiàn)[27]所提出的屬性重要度矩陣是求并行約簡的一種方法,基于此我們構(gòu)造了F-鄰域并行約簡,屬性重要度矩陣的定義如下:
定義11.F是一個(gè)鄰域決策系統(tǒng)簇,NDTi=(Ui,A,d)∈F,i=1,2,···,n,B ?A,B關(guān)于F的屬性重要度矩陣定義為
其中,σij=σ(aj,Ui)=γi(Ui,B,d)-γi(Ui,B-{aj},d),aj ∈B,n表示F中鄰域決策子系統(tǒng)的個(gè)數(shù),m表示條件屬性的個(gè)數(shù).矩陣H[B,F(xiàn)]的行表示不同的屬性在同一鄰域決策子系統(tǒng)下的屬性重要度,列表示相同的屬性在不同鄰域決策子系統(tǒng)下的屬性重要度.
定理3.在一個(gè)鄰域決策系統(tǒng)簇F中,B ?A是F的F-鄰域并行約簡,當(dāng)且僅當(dāng)B ?A滿足下面兩個(gè)條件:
i)POS(F,B,d)=POS(F,A,d);
ii) 屬性重要度矩陣H[B,F(xiàn)]中沒有全零的列.
證明.條件i) 確保了F-鄰域正區(qū)域保持不變;條件ii) 確保了F-鄰域并行約簡的最小性.
1) 條件i) 由定義9 直接得出;
2) 證明確保F-鄰域并行約簡的最小性.
反設(shè):屬性重要度矩陣H[B,F(xiàn)]中有全零的列,使得B ?A是F的F-鄰域并行約簡.由于σij=γi(Ui,B,d)-γi(Ui,B-{aj},d),σij=0 說明屬性aj在Ui中對依賴度無影響,若aj所對應(yīng)的列元素全為零,表明σj=γ(F,B,d)-γ(F,B-{aj},d)=0,則有B-{aj} ?B,γ(F,B-{aj},d)=γ(F,B,d),與定理2 矛盾.
定理2 的約簡準(zhǔn)則等價(jià)于定理3 的約簡準(zhǔn)則,定理2 中第1 部分的證明已得出定理2 與定理3 的條件i) 等價(jià);H[B,F(xiàn)]中沒有全零的列,由定理3可知B中所有屬性對γ(F,B,d) 都有影響,則有任意S ?B,γ(F,S,d)(F,B,d)?γ(F,S,d)/=γ(F,A,d).
因?yàn)槎ɡ? 和定理3 的約簡準(zhǔn)則等價(jià),所以可以用F-鄰域?qū)傩灾匾群袜徲驅(qū)傩灾匾染仃噥砬蟮肍-鄰域并行約簡,兩種方法求得的約簡結(jié)果是相同的,具體算法可見第3.2 節(jié).
為了求屬性約簡,需要定義H的改進(jìn)矩陣H′,改進(jìn)矩陣H′定義如下.
定義12.F是一個(gè)鄰域決策系統(tǒng)簇,NDTi=(Ui,A,d)∈F,i=1,2,···,n,B ?A,B關(guān)于F的改進(jìn)屬性重要度矩陣定義為
H′是H的改進(jìn)矩陣,若aj ∈B,則σ′ij=0,這意味著隨著B中包含的屬性越多,H′就越稀疏.如果B中的屬性隨時(shí)間變化而增多,直到POS(F,B,d)=POS(F,A,d),也就是H′為零矩陣為止,這就是一個(gè)增量式約簡過程.
屬性約簡是粗糙集理論最重要的應(yīng)用之一,而并行約簡是屬性約簡的一個(gè)重要延伸.并行約簡是在若干個(gè)信息子系統(tǒng)(或決策子系統(tǒng)) 中尋找穩(wěn)定的、泛化能力強(qiáng)的條件屬性約簡.基于屬性重要度,有以下F-鄰域并行約簡算法(算法1),本算法借鑒了文獻(xiàn)[27]算法的思想,根據(jù)屬性集A中各元素在鄰域決策子表簇F中的屬性重要度找到屬性核,然后通過屬性重要度找到其他屬性.
算法1 首先從局部的鄰域決策子表中計(jì)算出決策屬性對條件屬性的依賴度和條件屬性的屬性重要度,得出各個(gè)子表的核屬性,然后,從鄰域決策子表簇整體出發(fā),計(jì)算出條件屬性的屬性重要度,最后,得出原屬性集的一個(gè)F-鄰域并行約簡.
算法1 的時(shí)間復(fù)雜度主要由F-鄰域?qū)傩灾匾群筒襟E4 的時(shí)間復(fù)雜度決定.其中計(jì)算一個(gè)條件屬性的F-鄰域?qū)傩灾匾鹊臅r(shí)間復(fù)雜度為U代表決策子表中數(shù)據(jù)的個(gè)數(shù),m代表?xiàng)l件屬性的個(gè)數(shù).在最壞的情況下,步驟4 需計(jì)算次F-鄰域?qū)傩灾匾?因此算法1 的時(shí)間復(fù)雜度為
基于屬性重要度矩陣,有以下F-鄰域并行約簡算法(算法2),根據(jù)屬性重要度矩陣H(A,F(xiàn)) 找到屬性核B,然后通過建立B的改進(jìn)屬性重要度矩陣H′找到其他屬性,直到H′(P,F(xiàn)) 為零矩陣為止.
算法2 是根據(jù)定義13 和定義14 構(gòu)造F-鄰域并行約簡算法.鄰域并行約簡P先從空集開始,通過計(jì)算不同(相同) 的屬性在同一(不同) 鄰域決策子系統(tǒng)下的屬性重要度建立屬性重要矩陣,先從中選出所有子系統(tǒng)中屬性重要度都不為零(即矩陣H中沒有零元素的列) 所對應(yīng)的屬性加入P中,然后計(jì)算改進(jìn)屬性重要度矩陣H′把非零元素個(gè)數(shù)最多的列所對應(yīng)的屬性加入P中,直到H′為零矩陣.該算法保證了對正區(qū)域有影響的屬性不會被刪除.
算法2 的時(shí)間復(fù)雜度主要是由建立矩陣以及改進(jìn)矩陣組成,使用與算法1 相同的方法計(jì)算屬性重要度,它的時(shí)間復(fù)雜度為O(mUlogU),其中,U代表決策子表中數(shù)據(jù)的個(gè)數(shù),m代表?xiàng)l件屬性的個(gè)數(shù),那么建立一個(gè)屬性重要度矩陣的時(shí)間復(fù)雜度為O(nm2U′logU′),其中,U′代表F中最大子表的數(shù)據(jù)個(gè)數(shù),n代表子表個(gè)數(shù).在最壞的情況下,改進(jìn)的矩陣的個(gè)數(shù)為m,因此算法2 的時(shí)間復(fù)雜度為O(nm3U′logU′),略高于算法1.
算法1 和算法2 的約簡結(jié)果是相同的,所以在大部分情況下使用算法1 或算法2 并沒有區(qū)別.算法1 使用的F-鄰域?qū)傩灾匾缺砻鲗傩詫︵徲驔Q策系統(tǒng)簇整體的影響;算法2 使用的屬性重要度矩陣表明屬性對鄰域決策系統(tǒng)簇中各個(gè)子系統(tǒng)的影響.當(dāng)實(shí)驗(yàn)需要測量屬性對鄰域決策系統(tǒng)簇的影響時(shí)應(yīng)該使用算法1,實(shí)驗(yàn)需要測量屬性對各個(gè)決策子系統(tǒng)的影響時(shí)應(yīng)該使用算法2,實(shí)驗(yàn)對以上兩個(gè)數(shù)據(jù)都需要時(shí)應(yīng)該同時(shí)使用算法1 和算法2.
本節(jié)在UCI 數(shù)據(jù)集、真實(shí)數(shù)據(jù)集以及MATLAB 生成數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),通過對比實(shí)驗(yàn),驗(yàn)證了相對于鄰域粗糙集、F-粗糙集和PCA,F(xiàn)-鄰域粗糙集在分類準(zhǔn)確率上都具有優(yōu)勢.
本節(jié)設(shè)計(jì)了一些實(shí)驗(yàn)來測試所提出的F-鄰域粗糙模型的性能,使用UCI 數(shù)據(jù)庫(http://archive.ics.uci.edu/ml/datasets.html) 中Iris 等9 個(gè)數(shù)據(jù)集;兩個(gè)真實(shí)數(shù)據(jù)集Cevaluation,Rapequality;一個(gè)MATLAB 生成數(shù)據(jù)集Generated data.Cevaluation 數(shù)據(jù)集來自于國內(nèi)某高校研二、研三的研究生綜合測評數(shù)據(jù),包含240 個(gè)樣本和26 個(gè)屬性,其中研二和研三的綜合測評計(jì)分規(guī)則不同.Rapequality數(shù)據(jù)集用于描述油菜加工品質(zhì),包含138 個(gè)樣本和26 個(gè)屬性.如表3 所示.
實(shí)驗(yàn)的目的是驗(yàn)證F-鄰域粗糙集約簡的有效性,并通過對比約簡后屬性子集的分類質(zhì)量揭示它的可行性.由于本次實(shí)驗(yàn)使用算法1 與算法2的約簡結(jié)果的等價(jià)性,在實(shí)驗(yàn)中使用的算法為算法2.實(shí)驗(yàn)的評估是使用決策樹模型中比較穩(wěn)定的CART 分類器,以10 折交叉驗(yàn)證計(jì)算分類準(zhǔn)確率,以分類準(zhǔn)確率的高低為標(biāo)準(zhǔn).同時(shí)為了構(gòu)造鄰域決策系統(tǒng)簇F,對每個(gè)數(shù)據(jù)集進(jìn)行了分塊,每一塊都作為一個(gè)鄰域決策系統(tǒng).實(shí)驗(yàn)選取δ=0.1,δ=0.05,δ=0.01 三個(gè)鄰域參數(shù)進(jìn)行驗(yàn)證,所有算法在MATLAB R2018a 上實(shí)現(xiàn).
表3 數(shù)據(jù)集描述Table 3 Description of datasets
先與NRS 進(jìn)行比較,目的是為了比較NRS 與NPRMS 的約簡質(zhì)量.因此,計(jì)算兩種算法基于CART 分類器在δ=0.1,δ=0.05,δ=0.01 下的分類準(zhǔn)確率,如表4~6 所示.
從表4~6 中可以發(fā)現(xiàn),在3 個(gè)參數(shù)下,除了abalone 數(shù)據(jù)集在鄰域0.1 和0.05 下沒有約簡,其他情況下兩種方法都能有效地減少屬性.雖然在除soy,Iris,wine 和Cevaluation 之外的數(shù)據(jù)集上,F(xiàn)-鄰域并行約簡(NPRMS) 的約簡屬性子集數(shù)目要高于NRS,但是在wpbc,sonar,debrecen,EEGEye和Generated data 數(shù)據(jù)上,NPRMS 僅僅多出了一個(gè)屬性,在分類準(zhǔn)確率上則提升了5~17.5 個(gè)百分點(diǎn)不等.其在這些數(shù)據(jù)集上分類準(zhǔn)確率的大幅提升可以表明,NPRMS 在這些數(shù)據(jù)集上的性能要優(yōu)于NRS.值得注意的是在Rapequality 數(shù)據(jù)集上,當(dāng)參數(shù)為0.1 和0.5 時(shí),NPRMS 和NRS 的約簡完全相同;當(dāng)參數(shù)為0.01 時(shí),NPRMS 的約簡子集還是沒有變化,NRS 則減少了兩個(gè)屬性,降低了3個(gè)百分點(diǎn)的分類準(zhǔn)確率.在Rapequality 數(shù)據(jù)集上,NPRMS 有效地保留了決策子系統(tǒng)中的有效信息,而NRS 約簡掉兩個(gè)屬性時(shí)分類準(zhǔn)確率出現(xiàn)了明顯降低,說明NRS 在參數(shù)為0.01 的約簡中丟失了有效信息,NPRMS 的表現(xiàn)符合我們?yōu)榱擞行У乇A粲行畔⒍袴-粗糙集引入鄰域粗糙集的初衷.
表4 δ=0.1 時(shí)兩種算法約簡的結(jié)果Table 4 Results of two algorithm reductions when δ=0.1
表5 δ=0.05 時(shí)兩種算法約簡的結(jié)果Table 5 Results of two algorithm reductions when δ=0.05
由于F-粗糙集并行約簡(OPRMAS)[29]不能直接處理數(shù)值型數(shù)據(jù),先把數(shù)據(jù)進(jìn)行離散化處理,再通過OPRMAS 算法約簡,根據(jù)約簡結(jié)果從原數(shù)據(jù)中挑選出這些屬性數(shù)據(jù),經(jīng)過CART 分類器判別得到最后結(jié)果.我們選取鄰域參數(shù)δ=0.01 時(shí),NRS與NPRMS 的結(jié)果與之進(jìn)行比較.PCA 是經(jīng)典的特征選擇方法,其對于條件屬性的特征選擇不需要決策屬性,所以我們在使用PCA 進(jìn)行降維時(shí),去除了數(shù)據(jù)中的決策屬性,在判別分類準(zhǔn)確率時(shí),再將決策屬性加入已降維的數(shù)據(jù)進(jìn)行判別;其還可以控制保留屬性的數(shù)目,為了方便比較,將PCA 保留屬性的數(shù)目設(shè)置為與NPRMS 相同.
從表7 和圖2 中可以看出,在NRS 和NPRMS選擇合理的鄰域參數(shù)的情況下,NRS,OPRMAS,PCA,NPRMS 四種方法的屬性數(shù)目和分類準(zhǔn)確率比較.NPRMS 較于NRS 分類準(zhǔn)確率有所提升,且約簡子集數(shù)目并未顯著增加,特別是在Cevaluation 上,由于其研一、研二兩部分測評規(guī)則的不同,NRS 表現(xiàn)得并不好,而OPRMAS 和NPRMS 的約簡效果明顯優(yōu)于NRS 和PCA;雖然OPRMAS在sonar,spambase 和EEGEye 上分類準(zhǔn)確率要高于NPRMS,但其在sonar 和spambase 上的約簡子集中屬性數(shù)目多于NPRMS,在EEGEye 上更是并未減少數(shù)據(jù)集原本的屬性數(shù)目,而在Cevaluation 上兩種方法雖然約簡結(jié)果相同,但NPRMS 比OPRMAS 少了離散化的步驟,因此具有一定優(yōu)勢.
表6 δ=0.01 時(shí)兩種算法約簡的結(jié)果Table 6 Results of two algorithm reductions when δ=0.01
表7 在各個(gè)數(shù)據(jù)集中三種算法約簡的結(jié)果Table 7 Results of three algorithmic reductions in each dataset
圖2 在各個(gè)數(shù)據(jù)集中算法的分類準(zhǔn)確率Fig.2 Classification accuracy of algorithms in each dataset
造成以上實(shí)驗(yàn)結(jié)果的原因有:1) NRS 算法由于鄰域半徑造成的信息丟失等原因,所得的并不是最優(yōu)約簡,而NPRMS 是動態(tài)約簡,可以有效地減少信息損失;2) 在樣本數(shù)量多屬性數(shù)目少的數(shù)據(jù)集中,離散化帶來信息損失尤為明顯,使OPRMAS 在這類數(shù)據(jù)集上的約簡效果較差,甚至可能并無約簡效果,而NPRMS 不需要離散化,保留了必要的信息,從而可以實(shí)現(xiàn)較好的約簡;3) 在有的數(shù)據(jù)集中包含多種規(guī)則,NRS 等大部分算法并沒有考慮這種情況,只是把其當(dāng)作一般的數(shù)據(jù)集一樣約簡,所以其約簡后的分類準(zhǔn)確率并不理想;而OPRMAS 正是基于這種情況而誕生的算法,這種數(shù)據(jù)集下它的約簡效果較好是可以預(yù)見的;NPRMS 結(jié)合了OPRMAS這方面的優(yōu)點(diǎn),也能較好地適用于該類數(shù)據(jù)集的約簡.
NPRMS (或 NPRAS) 相 較 于 NRS 和OPRMAS,準(zhǔn)確率有所提升,其性質(zhì)又決定了其具有更廣泛的適用范圍,因此F-鄰域并行約簡更具優(yōu)勢.
減少冗余屬性可以提高分類性能并降低分類成本.在本文中,首先介紹了兩種粗糙集模型:F-粗糙集和鄰域粗糙集.由于兩種粗糙集模型都具有自身的優(yōu)勢,但雙方都未考慮對方的優(yōu)點(diǎn),因此提出了F-鄰域粗糙集.該模型結(jié)合了兩個(gè)粗糙集模型的優(yōu)勢,是一個(gè)無需離散化處理數(shù)值型數(shù)據(jù)的動態(tài)粗糙集模型.最后,用F-屬性重要度和屬性重要度矩陣來評估屬性,使用它們來設(shè)計(jì)屬性約簡算法,并說明兩種算法的相同點(diǎn)和不同點(diǎn).實(shí)驗(yàn)結(jié)果表明兩種算法能獲得較高的分類準(zhǔn)確率.實(shí)驗(yàn)中還發(fā)現(xiàn)決策子系統(tǒng)的劃分對所提出的兩種屬性約簡算法的性能的影響較大.應(yīng)該根據(jù)屬性數(shù)目和數(shù)據(jù)項(xiàng)數(shù)目為每個(gè)數(shù)據(jù)集選擇合適的決策子系統(tǒng)劃分.
未來的工作可能包括:1) 如何將所提出的模型應(yīng)用于具有不確定性的分類學(xué)習(xí)和推理領(lǐng)域;2) 在所提出的模型中,在數(shù)據(jù)集中劃分決策子系統(tǒng)對所提出算法的性能具有重要影響.它需要由用戶提前劃分.如何為每個(gè)數(shù)據(jù)集自動自動劃分決策子系統(tǒng)的最佳解決方案也是一項(xiàng)有意義的工作.