沈 玉 峰
(安徽三聯學院計算機工程學院 安徽 合肥 230601)
粗糙集[1]是人工智能領域的重要分支,屬性約簡[2]是粗糙集理論的重點研究內容。屬性約簡的目的是為了將原始信息系統的冗余屬性進行甄別和刪除,從而提高數據集的知識發(fā)現性能。然而隨著信息技術的發(fā)展以及數據采集技術的提高,實際應用環(huán)境下的數據總是時刻處于動態(tài)更新之中,傳統的各種屬性約簡算法是針對靜態(tài)的數據設計的,而對于動態(tài)的數據集,這些算法的處理效率較為低下,不能很好地適應實際的工程需求[3-4]。
為了改善動態(tài)數據下的屬性約簡性能,學者們提出了一種改進的屬性約簡方法——增量式屬性約簡[5],增量式屬性約簡的核心思想是增量式學習,即在原始屬性約簡的基礎上融入增量式學習,當信息系統發(fā)生更新時,增量式屬性約簡算法能夠將原來的屬性約簡結果加以利用,在其基礎上進一步計算出新的屬性約簡結果。由于增量式屬性約簡的高效性,目前已成為屬性約簡領域的研究熱點[6-7]。
對象的動態(tài)增加和減少是信息系統最為常見的一種動態(tài)更新形式,為此學者對這類屬性約簡問題進行了大量的研究。最早的屬性約簡是基于粗糙集的正區(qū)域來構造,Chan[5]研究了正區(qū)域隨信息系統變化時的增量式更新,提出了最早的增量式屬性約簡算法。在Chan的研究思路基礎上,Shu等[8]提出了一種改進的增量式屬性約簡,進一步提高了動態(tài)數據的處理效率。同時,Wei等[9]通過辨析矩陣的視角給出了一種新的增量式屬性約簡算法。信息熵作為一種新的屬性集不確定性度量,是構造屬性約簡的一種常用方法[10-12],因此學者們在信息熵的基礎上進一步地提出了多種的增量式屬性約簡算法。Liang等[13]研究了條件信息熵隨信息系統對象變化時的增量式更新,并基于這種更新機制提出了條件信息熵的增量式屬性約簡算法。類似于這種增量式更新的方法,趙小龍等[14]提出了數值型數據下條件信息熵的增量式更新,并提出了對應的增量式屬性約簡,Jing等[15]采用同樣的推導思路,研究了粒計算中知識粒度隨對象變化時的增量式更新,提出了基于知識粒度的增量式屬性約簡算法。同樣在不完備信息系統中,Xie等[16]基于一致性度量的增量式更新方法設計了一種類似的增量式屬性約簡算法。綜合已有的研究成果可以看出,對屬性集度量函數進行增量式學習的構造是目前增量式屬性約簡的研究重點。
信息系統屬性集的區(qū)分度度量是Teng等[17]提出的一種新的度量方法,它通過信息系統的等價類直接進行計算,能夠更加精準地評估出屬性集之間的依賴關系,并且具有時間復雜度低的優(yōu)越性,Teng等通過實驗證明了基于區(qū)分度屬性約簡的高效性和優(yōu)越性。然而目前還未有利用區(qū)分度度量進行增量式屬性約簡的研究,因此這促使我們進行相關的研究和探索。
研究區(qū)分度的增量式學習是設計區(qū)分度增量式屬性約簡的關鍵。矩陣是一種重要的數據處理工具,由于它在計算方面的可擴展性,目前已廣泛地運用于粗糙集的各類增量式學習之中[9,18-20]。本文將通過矩陣的方法去構造區(qū)分度的增量式學習,進一步提出相應的增量式屬性約簡算法。首先運用矩陣的形式去表示信息系統的區(qū)分度度量,然后在矩陣表示的基礎上,分別研究了信息系統對象增加和減少時區(qū)分度的增量式學習,理論分析表明了這種增量式學習的高效性,它可以快速地更新出區(qū)分度結果,最后基于區(qū)分度的增量式學習提出對應的增量式屬性約簡算法。UCI數據集的實驗結果表明,所提出的增量式屬性約簡算法具有更高的動態(tài)數據屬性約簡性能,能夠適應數據動態(tài)變化時的屬性約簡。
屬性約簡[1-2]是粗糙集理論的重要應用。在屬性約簡中,所討論的數據集被描述成信息系統的形式。通常一個信息系統表示為S=(U,AT),其中U為該信息系統的對象集,即數據集所有樣本的集合;AT為該信息系統的屬性集,即數據集所有特征的集合。若信息系統包含決策屬性D,即每個對象都有一個類別的標記,那么該信息系統又稱為決策信息系統[1]。
對于信息系統S=(U,AT),設屬性子集A?AT在論域U×U下確定的等價關系為:
EU×U(A)={(x,y)|a(x)=a(y),?a∈A,x,y∈U}
(1)
等價關系EU×U(A)滿足自反性、對稱性和傳遞性。若U={x1,x2,…,xn},EU×U(A)可以將論域U誘導出一組劃分,表示為U/EU×U(A)={[x1]A,[x2]A,…,[xn]A},其中[xi]A(1≤i≤n)為對象xi在等價關系EU×U(A)下的等價類,表示為[xi]A={xj∈U|(xi,xj)∈EU×U(A)}。
通過等價關系將信息系統的論域進行信息粒化,其?;蟮牧W蛹礊榈葍r類,最后基于等價類去誘導粗糙集的上下近似,并且選擇出信息系統的屬性約簡[1-2,10]。在文獻[17]中,Teng等提出了一種基于區(qū)分度的屬性約簡算法。
定義1[17]設信息系統S=(U,AT),|U|=n,屬性集A?AT在論域U×U下確定的等價關系為EU×U(A),且誘導的劃分為U/EU×U(A)。定義信息系統論域U下屬性集A的區(qū)分度為:
(2)
知識是粗糙集和粒計算的研究核心,在粗糙集理論中,同一個等價類中對象之間不具有知識的區(qū)分性,相反,不同等價類之間則表現出了知識的區(qū)分性。因此在信息系統中,給定屬性集下的知識量可以通過不同等價類之間對象的數量來表示,即定義1中的區(qū)分度度量[17]。在區(qū)分度的基礎上,Teng等進一步提出了一個屬性集相對另一個屬性的知識量,稱之為相對區(qū)分度,具體如定義2所示。
定義2[17]設信息系統S=(U,AT),屬性集A1,A2?AT在論域U×U下確定的等價關系分別為EU×U(A1)和EU×U(A2),對論域U構造出的劃分分別為U/EU×U(A1)和U/EU×U(A2)。定義論域U下屬性集A2關于A1的相對區(qū)分度為:
(3)
定義2中的相對區(qū)分度可以看作是一種屬性集之間關系程度的度量。因此在文獻[17]中,利用相對區(qū)分度作為評估屬性集的啟發(fā)式函數,Teng等定義了一種新的屬性約簡方法。
定義3[17]設決策信息系統S=(U,C∪D),其中C為條件屬性集,D為決策屬性集。若屬性集red?C是該信息系統的一個屬性約簡,那么當且僅當如下同時成立:
DisU(D|C)=DisU(D|red)
(4)
a∈redDisU(D|C) (5) 算法1所示的是對應的屬性約簡算法。 算法1[17]基于區(qū)分度的屬性約簡算法 輸入:決策信息系統S=(U,C∪D)。 輸出:屬性約簡結果red。 Step1初始化屬性約簡集red=?; Step2對于?a∈C-red,計算屬性a的屬性重要度: sigred(a)=DisU(D|red)-DisU(D|red∪{a}) Step3找出C-red中屬性重要度最大的屬性,記為a′; Step4若sigred(a′)>0,那么red=red∪{a′},并跳轉入Step 2,若sigred(a′)=0,則跳轉入Step 5; Step5返回屬性約簡結果red。 矩陣是一種重要的數據表達形式,在粗糙集理論中,學者們通過矩陣對粗糙集中各類計算模型進行重構,提出了多種形式的模型和算法[9,18-20]。在本節(jié),將在前人研究的基礎上,通過矩陣的方法去表示區(qū)分度,并進一步通過矩陣去構造區(qū)分度的增量式更新。 定義4[18]設信息系統S=(U,AT),|U|=n,屬性集A?AT在論域U×U下確定的等價關系為EU×U(A),定義等價關系EU×U(A)的關系矩陣為: (6) 定義4是通過矩陣的形式對等價關系進行表達,若信息系統論域中對象xi和xj滿足等價關系,那么區(qū)分度關系矩陣中第i行第j列元素為1,否則為0。 (7) (8) 證畢。 (9) 證畢。 定理1展示了區(qū)分度的另一種表示方式,即通過區(qū)分度關系矩陣的方法來表示,而不必對信息系統中每個對象的等價類進行計算。 例1表1所示的是一個信息系統,其中{a,b,c}為該信息系統的屬性集,x1,x2,…,x6為該信息系統的6個對象。 表1 信息系統 令屬性集A={a,b},對A構建等價關系EU×U(A),那么可以得到每個對象的等價類為: [x1]A=[x5]A=[x6]A={x1,x5,x6} [x2]A=[x4]A={x2,x4} [x3]A={x3} 那么根據定義1關于區(qū)分度的定義,可以得到: 36-3×3-2×2-1=22 基于定理1的方法進行計算: 對比可以看出兩種計算結果是一致的。 在定理1的基礎上,接下來將通過矩陣進一步表示相對區(qū)分度。 DisU(A2|A1)=DisU(A1)-DisU(A1∪A2)= (10) 式中: 證明根據定理1可以直接得到。 類似于定理1,定理2利用矩陣的方法表示相對區(qū)分度。 證畢。 例2設信息系統如表1所示,令屬性集A1={a,b},A2={c},那么: [x1]A2=[x2]A2=[x3]A2=[x6]A2={x1,x2,x3,x6} [x4]A2=[x5]A2={x4,x5} 根據定義2有: DisU(A2|A1)=14-2-1-1-1-1-2=6 兩種計算結果是一致的。 由于現實應用環(huán)境下,信息系統往往都是不斷動態(tài)變化的。本節(jié)將通過矩陣方法去研究信息系統對象發(fā)生變化時,區(qū)分度的增量式更新,其中包含對象增加時區(qū)分度的增量式更新和對象減少時區(qū)分度的增量式更新。 2.2.1信息系統對象增加時區(qū)分度的增量式更新 設信息系統S=(U,AT),其中論域U={x1,x2,…,xn},屬性集A?AT在論域U下確定的等價關系記為EU×U(A),當信息系統增加對象集U+={xn+1,xn+2,…,xn+k}后,新的信息系統記為S=(U′=U∪U+,AT),屬性集A?AT在論域U′下確定的等價關系記為EU′×U′(A)。 定義5信息系統S=(U,AT)增加對象集U+后更新為S=(U′=U∪U+,AT)。設對象集U+與論域U在屬性集A?AT下確定的等價關系記為EU+×U(A),那么對應的關系矩陣定義為: 1≤i≤k,1≤j≤n (11) 定義6信息系統S=(U,AT)增加對象集U+后更新為S=(U′=U∪U+,AT) 。設U+與U+在屬性集A?AT下確定的等價關系記為EU+×U+(A),那么對應的關系矩陣定義為: 1≤i,j≤k (12) 根據定義5和定義6,接下來可以增量式地得到信息系統S=(U′=U∪U+,AT)下等價關系EU′×U′(A)所對應的關系矩陣。具體如定理3所示。 (13) 證畢。 在定理3的基礎上,可以得到論域增加對象集后區(qū)分度的增量式更新。 (14) 證畢。 在定理4的基礎上,可以進一步得到相對區(qū)分度的增量式更新,具體見定理5。 (15) 證明根據定理2可以得到: 在定理3中,四個子矩陣是相互獨立的,因此: 證畢。 類似于定理4,對于計算對象增加后的相對區(qū)分度,定理5同樣具有很高的計算效率。 例3設表1所示的信息系統增加對象集U+={x7,x8,x9},新信息系統如表2所示。 表2 新的信息系統 設屬性集A1={a,b},A2={c}。那么: [x1]A1=[x5]A1=[x6]A1={x1,x5,x6} [x2]A1=[x4]A1=[x7]A1={x2,x4,x7} [x3]A1=[x9]A1={x3,x9};[x8]A1={x8} [x1]A2=[x2]A2=[x3]A2=[x6]A2= [x7]A2=[x9]A2={x1,x2,x3,x6,x7,x9} [x4]A2=[x5]A2=[x8]A2={x4,x5,x8} 則: 23-15=8 采用矩陣的方法進行增量式計算: 由于DisU(A2|A1)在例2中已經計算得出,因此根據定理5可以得到: 6+6+3-4-3=8 兩種計算結果是一致的,但是基于矩陣方法進行增量式計算,可以在原來計算結果上進行進一步計算,大幅度地減少了重復計算量,具有更高的計算效率。 2.2.2信息系統對象減少時區(qū)分度的增量式更新 在上小節(jié)中,給出了當信息系統對象增加時區(qū)分度的增量式更新方法,本節(jié)仿照上節(jié)的研究思路,提出信息系統對象減少時區(qū)分度的增量式更新。 設信息系統S=(U,AT),其中論域U={x1,x2,…,xn},屬性集A?AT在論域U下確定的等價關系記為EU×U(A),當信息系統減少對象集U-={xt1,xt2,…,xtk},其中U-?U,新的信息系統記為S=(U′=U-U-,AT),屬性集A?AT在論域U′下確定的等價關系記為EU′×U′(A)。 定義7信息系統S=(U,AT)減少對象集U-后更新為S=(U′=U-U-,AT)。對象集U-與論域U在屬性集A?AT下確定的等價關系記為EU-×U(A),那么定義關系矩陣: 1≤i≤k,1≤j≤n (16) (17) 證明當信息系統減少對象集U-后,那么滿足: EU-×U(A)?EU×U(A),EU×U-(A)?EU×U(A) 證畢。 (18) 證明根據定理1, 證畢。 DisU′(A2|A1)=DisU(A2|A1)- (19) 證明根據定理2有: 所以DisU′(A2|A1)=DisU(A2|A1)- 證畢。 例4設表2所示的信息系統減少對象集U-={x7,x8,x9},那么新信息系統即為表1。 令屬性集A1={a,b},A2={c}。那么: 根據例3和定理8可以得到: DisU′(A2|A1)=8-2·(3-2)=6 與例2的計算結果是一致的。 根據第2節(jié)提出的區(qū)分度增量式更新方法,在算法1的基礎上,本節(jié)將進一步地提出對應的區(qū)分度增量式屬性約簡算法,具體如算法2和算法3所示。 算法2信息系統對象增加時基于區(qū)分度的增量式屬性約簡算法 輸入:更新后的信息系統S=(U′=U∪U+,C∪D),更新前信息系統的約簡集red,相對區(qū)分度DisU(D|red)和DisU(D|C)。 輸出:新的屬性約簡結果red′。 Step1根據DisU(D|red)和DisU(D|C)增量式計算DisU′(D|red)和DisU′(D|C)。 Step2 若DisU′(D|red)=DisU′(D|C),則跳轉入Step 7; 若DisU′(D|red)>DisU′(D|C),則跳轉入Step 5; 若DisU′(D|red) Step3對于?a∈red,計算a的屬性重要度: sigred(a)=DisU′(D|red-{a})-DisU′(D|red) Step4找出red中屬性重要度最大的屬性a′,若sigred(a′)>0,則red=red-{a′},并跳轉入Step 3,若sigred(a′)=0,則跳轉入Step 7。 Step5對于?a∈C-red,計算a的屬性重要度: sigred(a)=DisU′(D|red)-DisU′(D|red∪{a}) Step6找出C-red中屬性重要度最大的屬性a′,若sigred(a′)>0,則red=red∪{a′},并跳轉入Step 5,若sigred(a′)=0,則跳轉入Step 7。 Step7red′←red。 Step8返回新的屬性約簡結果red′。 算法3信息系統對象減少時基于區(qū)分度的增量式屬性約簡算法 輸入:更新后的信息系統S=(U′=U-U-,C∪D),更新前信息系統的約簡集red,相對區(qū)分度DisU(D|red)和DisU(D|C)。 輸出:新的屬性約簡結果red′。 Step1根據DisU(D|red)和DisU(D|C)增量式計算DisU′(D|red)和DisU′(D|C) Step2 若DisU′(D|red)=DisU′(D|C),則跳轉入Step 7; 若DisU′(D|red)>DisU′(D|C),則跳轉入Step 5; 若DisU′(D|red) Step3對于?a∈red,計算a的屬性重要度: sigred(a)=DisU′(D|red-{a})-DisU′(D|red) Step4找出red中屬性重要度最大的屬性a′,若sigred(a′)>0,則red=red-{a′},并跳轉入Step 3,若sigred(a′)=0,則跳轉入Step 7。 Step5對于?a∈C-red,計算a的屬性重要度: sigred(a)=DisU′(D|red)-DisU′(D|red∪{a}) Step6找出C-red中屬性重要度最大的屬性a′,若sigred(a′)>0,則red=red∪{a′},并跳轉入Step 5,若sigred(a′)=0,則跳轉入Step 7。 Step7red′←red。 Step8返回新的屬性約簡結果red′。 本文稱算法2和算法3為基于區(qū)分度的增量式屬性約簡算法,那么Teng等[17]提出的算法(算法1)即為基于區(qū)分度的非增量式屬性約簡算法。 觀察算法2和算法3可以看出,它們均在原來信息系統屬性約簡的結果上進行增量式計算,這種增量式的計算可以大幅度減少對原先信息系統中數據的重復計算,從而提高了動態(tài)數據的約簡效率。 在算法2和算法3中,設|U|=n、|U+|=|U-|=k和|C|=c,從red至red′的屬性集大小變化量為r,那么算法2和算法3的時間復雜度為O(c·r·n·k)。 本實驗采用MATLAB 2014作為實驗平臺進行算法的實現和運行,實驗所運行的硬件環(huán)境為Intel i7 4790 3.5 kGHz CPU和16 GB DDR3內存。實驗所使用的數據集如表3所示,這6個數據集均來自UCI機器學習數據集庫,部分數據集中包含連續(xù)型的屬性值,實驗前需要進行離散化處理。 表3 實驗數據集 表3列舉的數據集均為靜態(tài)完整的數據集,為了運用文中提出的增量式屬性約簡算法,本實驗采用其他學者常用的實現方法[13-16],將數據集的論域隨機分割成多個子數據集,本實驗選擇分割的數量為8個。對于數據集對象逐漸增加的情形,實驗中隨機選擇其中一個子數據集作為初始的數據集,然后從剩余的子數據集中選擇出一個與初始數據集進行合并,這樣便模擬出了數據集對象的一次動態(tài)增加,重復上述步驟,最后直至完成數據集的7次更新。類似地,對于數據集對象逐漸減少的情形,實驗中隨機選擇其中一個子數據集,然后從完整數據集中刪除該子數據集,這樣便模擬出了數據集對象的一次動態(tài)減少,重復進行此步驟,便構造出了數據集對象的7次動態(tài)減少。 將傳統的區(qū)分度屬性約簡算法和本文提出的區(qū)分度增量式屬性約簡算法,分別對數據集對象動態(tài)增加的情形和對象動態(tài)減少的情形進行屬性約簡。然后通過屬性約簡的效率、屬性約簡集的大小以及屬性約簡結果的分類性能來比較兩種算法的屬性約簡性能,從而驗證出本文所提出算法的有效性。 圖1為基于區(qū)分度的增量式屬性約簡算法(算法2)與區(qū)分度的非增量式屬性約簡算法(算法1)在各個數據集下對象7次增加時的屬性約簡效率比較。其中每個子圖的橫坐標表示的是數據集的更新次數,縱坐標表示的是算法進行屬性約簡時所需的用時。 (a) iono (b) gcd (c) tic (d) td (e) mgt (f) ci圖1 各數據集對象增加時屬性約簡用時比較 觀察圖1每個數據集的實驗結果可以發(fā)現,隨著數據集更新次數的增加,兩種算法在屬性約簡的用時方面表現出了明顯的差距,其中本文所提出的增量式屬性約簡用時大幅度低于非增量式算法。這主要是由于本文所提出的增量式算法是在原來屬性約簡的結果上進行計算,減少了對原來數據的重復計算,大幅度提高了計算效率。 圖2為基于區(qū)分度的增量式屬性約簡算法(算法3)與區(qū)分度的非增量式屬性約簡算法(算法1)在各個數據集下對象7次減少時的屬性約簡效率比較。其中每個子圖的橫坐標表示的是數據集的更新次數,縱坐標表示的是算法進行屬性約簡的用時。 (a) iono (b) gcd (c) tic (d) td (e) mgt (f) ci圖2 各數據集對象減少時屬性約簡用時比較 觀察圖2同樣可以發(fā)現,隨著數據集更新次數的增加,兩種算法在屬性約簡的用時方面也表現出了明顯的差距,同樣本文所提出的增量式屬性約簡用時大幅度低于已提出的非增量式屬性約簡算法。其原因同樣是由于本文所提出的算法通過增量式計算提高了約簡效率,每次屬性約簡時避免了對舊數據的重復計算。 對于實驗中動態(tài)更新的信息系統,屬性約簡算法在信息系統每次更新時都能得到個當時對應的屬性約簡結果。將7次屬性約簡結果的約簡集大小取平均值,這樣就得到了對應算法的平均約簡結果。表4為非增量式屬性約簡算法(算法1)與文中提出的增量式屬性約簡算法(算法2)在各個數據集下論域7次動態(tài)增加時的平均約簡結果。表5為非增量式屬性約簡算法(算法1)與文中提出的增量式屬性約簡算法(算法3)在各個數據集下論域7次動態(tài)減少時的平均約簡結果。 表4 數據集對象動態(tài)增加時平均約簡結果比較 表5 數據集對象動態(tài)增加時平均約簡結果比較 續(xù)表5 觀察表4可以發(fā)現,對于論域逐漸增加的信息系統,本文提出的增量式屬性約簡算法(算法2)在大部分數據集中具有較小的平均屬性約簡結果,例如數據集iono、gcd、tic、mgt和ci。而對于非增量式屬性約簡算法(算法1),只在小部分的數據集擁有較小的平均屬性約簡結果,例如數據集td。產生這種差異主要是由于增量式屬性約簡算法的約簡機制導致的,增量式屬性約簡在進行約簡時,是根據原先信息系統的約簡結果進行進一步計算,這樣避免了對整個屬性集進行重新搜索,從而增量式算法約簡出的屬性更少。觀察表5結果同樣可以發(fā)現,對于論域逐漸減少的信息系統,文中提出的增量式屬性約簡算法(算法3)具有更小的平均屬性約簡結果,例如數據集iono、gcd、tic和td。 為了測試兩類屬性約簡算法約簡結果的分類性能,本實驗通過支持向量機分類器(SVM)與改進的決策樹分類器(C4.5)分別對每次更新時的屬性約簡結果進行分類訓練,并得到約簡集對應的分類精度,最后將所有分類精度取均值,得到對應屬性約簡算法的平均分類精度。表6為各個數據集論域動態(tài)增加時兩類算法的平均分類精度比較結果,表7為各個數據集論域動態(tài)減少時兩類算法的平均分類精度比較結果。 表6 數據集對象增加時約簡結果分類精度比較 % 表7 數據集對象減少時約簡結果分類精度比較 % 觀察表6可以發(fā)現,本文所提出的區(qū)分度增量式屬性約簡算法(算法2)在數據集tic和mgt下擁有較高的SVM分類精度,在數據集iono、tic、mgt和ci下擁有較高的C4.5分類精度,基于區(qū)分度的非增量式屬性約簡算法在其他數據集擁有較高的分類精度,可以發(fā)現兩類算法的平均分類精度在大部分數據集上相差不大。觀察表7可以發(fā)現,所提出的區(qū)分度增量式屬性約簡算法(算法3)在數據集td、mgt和ci下擁有較高的SVM分類精度,在數據集iono、tic和mgt下擁有較高的C4.5分類精度,同樣在大部分數據集下,兩類算法具有相近的平均分類精度。因此表6和表7說明了所提出的區(qū)分度增量式屬性約簡算法同樣能夠得到較優(yōu)的屬性約簡結果。 綜合4.2節(jié)、4.3節(jié)和4.4節(jié)三個部分的實驗比較結果,說明對于樣本動態(tài)增加或減少的數據集,本文提出的區(qū)分度增量式屬性約簡算法具有較高的屬性約簡性能,能夠滿足數據變化時屬性約簡的實時需求。同時所提出的增量式屬性約簡算法能夠比非增量式算法選擇出更小的約簡集,并且也能夠保持同樣的分類性能。所以本文提出的區(qū)分度增量式屬性約簡是一種較優(yōu)的動態(tài)數據屬性約簡算法。 屬性約簡是粗糙集理論在機器學習和知識發(fā)現領域中的一項重要應用。然而現實環(huán)境下的數據總是實時更新的,針對這一數據環(huán)境,學者們在傳統屬性約簡算法的基礎上,將增量式學習融入其中,提出了多種增量式屬性約簡算法。區(qū)分度作為一種重要的屬性集評估方法,目前已成為屬性約簡的一種重要的方法,本文針對樣本不斷動態(tài)變化的數據集環(huán)境,提出一種基于區(qū)分度的增量式屬性約簡算法。首先通過矩陣方法去表示區(qū)分度,并通過矩陣研究了區(qū)分度的增量式學習,然后基于區(qū)分度的增量式更新提出一種增量式屬性約簡算法,最后通過實驗驗證了所提出增量式屬性約簡算法的有效性。由于文中僅針對數據集樣本的變化進行了研究,因此接下來將進一步探索數據集屬性變化時屬性約簡的增量式更新。2 基于矩陣方法的區(qū)分度增量式更新
2.1 區(qū)分度的矩陣表達
2.2 信息系統對象變化時區(qū)分度的增量式更新
3 增量式屬性約簡算法
4 實驗分析
4.1 實驗數據與實驗設計
4.2 屬性約簡效率比較
4.3 屬性約簡結果比較
4.4 屬性約簡結果的分類性能比較
4.5 實驗總結
5 結 語