柳 葉,代建華+,陳姣龍
1.湖南師范大學(xué) 智能計算與語言信息處理湖南省重點實驗室,長沙410081
2.湖南師范大學(xué) 信息科學(xué)與工程學(xué)院,長沙410081
隨著科學(xué)技術(shù)的迅猛發(fā)展,人們面對的數(shù)據(jù)集往往是復(fù)雜且龐大的。在高維數(shù)據(jù)中存在著大量的冗余屬性,這給數(shù)據(jù)分析、機器學(xué)習(xí)帶來諸多干擾信息,從而導(dǎo)致學(xué)習(xí)效率低、分類效果差和計算量大等不利影響。因此,屬性約簡具有重要的應(yīng)用價值。
粗糙集理論是波蘭學(xué)者Pawlak提出的一種研究信息系統(tǒng)的不確定性和不完備性的有力工具[1]。該理論已經(jīng)被廣泛地應(yīng)用于不確定性度量、規(guī)則提取和屬性約簡等方面[2]。在粗糙集理論模型中,現(xiàn)有的屬性選擇方法大致可以分為三類:(1)基于上、下近似算子的屬性選擇方法[3-7];(2)基于差別矩陣的屬性選擇方法[8-9];(3)基于熵理論的屬性選擇方法[10-21]。
在熵理論中,互信息作為一種度量數(shù)據(jù)相關(guān)性的有力工具,被廣泛地應(yīng)用于屬性選擇之中。目前基于互信息的屬性選擇方法可大致地分為兩種策略:一是最大化待選屬性所能提供的分類信息;二是最小化待選屬性所帶來的冗余信息。然而,最大化待選屬性所提供的分類信息并不意味著冗余信息就一定少,反之亦然。實際上,在現(xiàn)有的屬性選擇方法中,不難發(fā)現(xiàn)與決策密切相關(guān)的屬性之間存在著冗余的情況并不少見。同樣地,在最小化冗余信息的同時,可能一些方法更傾向于選擇與決策相關(guān)性較低的低冗余屬性?,F(xiàn)有的方法很難有效地衡量屬性所提供的分類信息和冗余信息,而且很少有方法考慮到新增待選屬性對已選屬性所保留的分類信息的影響。
因此,本文首先通過互信息定義了有效分類信息率,并提出了基于有效分類信息率的屬性選擇策略(attribute selection based on effective classification information ratio,ASECIR)。其次考慮到新增待選屬性對已選屬性所保留的分類信息的影響,進一步構(gòu)造了獨立有效分類信息率的概念,并提出了基于獨立有效分類信息率的屬性選擇策略(attribute selection based on independent-and-effective classification information ratio,ASIECIR)。最后通過實驗驗證了本文工作的有效性。
本文的主要貢獻如下:
(1)提出了基于有效分類信息率和基于獨立有效分類信息率的兩種屬性選擇方法;
(2)提出了有效分類信息率的概念,有效分類信息率能有效地評估待選屬性所能提供的分類信息,一定程度上也對自身與類之間的冗余信息進行了評估;
(3)提出了獨立有效分類信息率的概念,有機地將待選屬性所提供的新增有效分類信息和已選屬性保留的有效分類信息與冗余信息相結(jié)合,對待選屬性的重要性評價更加合理。
定義1(決策信息表DIS)[22]給定一個四元組<U,C∪D,V,f>,其中U={x1,x2,…,xn}為n維的樣本集合;C={c1,c2,…,cm}為m維的條件屬性集合,D表示決策屬性;表示屬性的值的集合,Vb是一個給定的屬性b的值域;f是一個映射函數(shù),U×C∪D→V滿足:?b∈C∪D,xi∈U,有f(xi,b)=Vb。稱該四元組為一個決策信息系統(tǒng),簡稱DIS(decision information system)。
互信息是熵理論中十分重要的信息度量結(jié)構(gòu),可以有效地描述兩個變量之間的關(guān)聯(lián)?;バ畔⒖梢远x如下形式:
其中,H(P)和H(P|Q)分別表示相關(guān)變量的信息熵和條件熵。當公式中的變量P、Q分別表示決策屬性和條件屬性時,I(P;Q)則表示條件屬性Q包含決策屬性P的分類信息質(zhì)量,即共享的有效分類信息量。另外,當P、Q都表示兩個任意的條件屬性時,I(P;Q)則表示條件屬性P、Q所共有的信息量,即冗余信息量。
基于互信息的特點,學(xué)者們將互信息廣泛地應(yīng)用于屬性選擇中,用來評價屬性之間的相關(guān)性程度。文獻[10]提出了基于聯(lián)合互信息的屬性選擇方法(joint mutual information,JMI):
文獻[11]提出了一種基于對稱相關(guān)性的雙輸入對稱相關(guān)屬性選擇方法(double input symmetrical relevance,DISR)。文獻[12]利用聯(lián)合互信息提出了規(guī)范化最大聯(lián)合互信息屬性選擇(normalized joint mutual information maximization,NJMIM):
為了提高待選屬性在自身信息量中的比重,文獻[13]利用互信息提出了一種信息增益率的啟發(fā)式屬性選擇算法(GainRatio):
文獻[14]設(shè)計了一種基于互信息的屬性貪心選擇算法(mutual information feature selection,MIFS)。文獻[15]通過加權(quán)的方式評估待選屬性與決策標簽之間的互信息,提出了改進的屬性選擇方法(mutual information feature selector under uniform information distribution,MIFSU)。文獻[16]提出了最小冗余最大相關(guān)屬性選擇方法(maximum relevancy minimum redundancy,mRMR)。文獻[18]引入平均歸一化互信息作為屬性間冗余信息的度量方法,提出了一種歸一化互信息屬性選擇方法(normalized mutual information feature selection,NMIFS):
上述MIFS、MIFSU、mRMR 和NMIFS 的共同特點是,都考慮到了待選屬性與已選屬性之間的冗余信息,但忽視了對待選屬性和已選屬性與決策標簽之間的類相關(guān)信息的考察,即多元互信息。
I(D;ci;cj)=I(D;ci)+I(D;cj)-I(D;ci,cj) (10)
公式描述了兩個屬性與決策類之間的關(guān)聯(lián),當某個屬性cj被選中時,此時I(D;ci;cj)可以表示為已選屬性cj關(guān)于決策屬性提供的有利于分類的信息。而對待選屬性ci而言,I(D;ci;cj)則表示待選屬性ci所提供的聯(lián)合分類信息對決策D來說是冗余的信息量,也稱之為類相關(guān)冗余信息。
文獻[17]利用多元互信息引入類相關(guān)冗余的概念,并構(gòu)造了一種條件信息屬性選擇算法(conditional informative feature extraction,CIFE)。文獻[19]提出了一種最大相關(guān)和最大獨立的屬性選擇方法(maxrelevance and max-independence,MRI):
現(xiàn)有的方法對于屬性的相關(guān)性和冗余性分析存在著一定的局限性。MIFS、mRMR、MIFSU、NMIFS只關(guān)注屬性間的冗余,而忽視了待選屬性和已選屬性與決策類之間的類相關(guān)信息。另外,CIFE、GainRatio和NJMIM 在評價待選屬性的重要性時,忽視了已選屬性對決策類的貢獻度。換句話說,只著重考慮待選屬性所提供的新增分類信息,而忽視了增加待選屬性后對已選屬性所保留的有效分類信息的影響。
從上述分析來看,該如何分析待選屬性所提供的分類信息和冗余信息,以及新增待選屬性對已選屬性所保留的分類信息的影響是基于互信息的屬性選擇方法重點關(guān)注的問題。
本章將引入有效分類信息率和獨立有效分類信息率的概念。
定義2(有效分類信息率)給定一決策信息系統(tǒng)DIS=<U,C∪D,V,f>,其中U={x1,x2,…,xn}為n維樣本集合;C={c1,c2,…,cm}為m維條件屬性集合,D表示決策屬性。已知S為已選屬性集(S≠?),且S?C。假設(shè)ci∈C-S為待選屬性,則待選屬性ci關(guān)于決策D所提供的有效分類信息率(effective classification information ratio,ECIR)可定義如下:
ECIR主要關(guān)注的核心問題是待選屬性能提供多少新增的分類信息。待選屬性ci新增的分類信息(I(D;S∪{ci})-I(D;S))在它與決策類D所共有的互信息中的占比越大,說明該屬性所提供的新增有效分類信息越多,且與已選屬性所共有的類相關(guān)信息相對較低。ECIR從理論上有效地將待選屬性提供的分類信息和類相關(guān)冗余信息統(tǒng)一,有利于尋找較高分類信息和較低類相關(guān)冗余的屬性。
為了便于理解,通過一個圖來進一步說明上述定義,如圖1所示。圖1描述的是候選屬性和已選屬性關(guān)于決策類之間的關(guān)系的Venn 圖,其中黑色陰影部分表示待選屬性提供的新增有效分類信息,紅點部分表示待選屬性和已選屬性的類相關(guān)冗余信息。假設(shè)ck、ck+1表示兩個待選屬性,S代表已選屬性子集。屬性ck的黑色陰影部分面積表示待選屬性ck關(guān)于決策類所提供的新增有效分類信息(I(D;S∪{ck})-I(D;S)),紅色陰影部分表示ck和屬性子集B關(guān)于決策類的類相關(guān)冗余信息(即多元互信息,I(D;S;ck))。另外,屬性ck+1與決策類間不存在類相關(guān)冗余信息,即有I(D;S;ck+1)=0 且I(D;S∪{ck+1})-I(D;S)=I(D;ck+1)。
圖1 Venn圖(待選特征和已選特征關(guān)于決策類的聯(lián)系)Fig.1 Venn diagram(relationship between candidate and selected attributes about decision-class)
假設(shè)I(D;S∪{ck})-I(D;S)=I(D;ck+1),即在圖1中屬性ck、ck+1的黑色陰影部分的面積是相等的。換句話說,屬性ck、ck+1可提供的有效分類信息量是等同的。在這種情況下,現(xiàn)有的屬性選擇機制很難做出合理的判斷。例如MIFS、MIFSU、mRMR和NMIFS在過度強調(diào)屬性間的冗余信息時,權(quán)重的取值會影響到評價指標傾向于選擇哪個屬性。當權(quán)重越大時,評價指標更傾向于選擇屬性ck+1,反之,則傾向于選擇屬性ck。再比如屬性選擇指標CIFE,當已選擇的屬性只有一個時,CIFE評估屬性ck、ck+1的重要性是等同的,此時CIFE會根據(jù)序號優(yōu)先級,直接選擇ck。
然而,定義的ECIR 卻能緩解這種現(xiàn)象的發(fā)生。根據(jù)定義2,可分別計算出待選屬性ck、ck+1的有效分類信息率:ECIR(ck+1;S;D)>ECIR(ck;S;D),說明待選屬性ck+1提供的有效分類信息率大于待選屬性ck。
考慮到ECIR 只關(guān)注待選屬性所提供的有效分類信息,而忽視了加入待選屬性后對已選屬性所保留的分類信息的影響,因此,本文進一步提出了獨立有效分類信息率的概念。
定義3(獨立有效分類信息率)給定一決策信息系統(tǒng)DIS=<U,C∪D,V,f>,其中U={x1,x2,…,xn}為n維的樣本集合;C={c1,c2,…,cm}為m維的條件屬性集合,D表示決策屬性。已知S為已選屬性集(S≠?),且S?C。假設(shè)ci∈C-S為待選屬性,則獨立有效分類信息率(independent-and-effective classification information ratio,IECIR)可定義如下:
IECIR 有效地將待選屬性所提供的分類信息和冗余信息以及新增待選屬性對已選屬性所保留的分類信息之間的關(guān)聯(lián)進行了統(tǒng)一。IECIR 有助于增強屬性的有效分類信息和冗余信息的取舍。通過最大化待選屬性和已選屬性的有效分類信息率,在一定程度上也降低了屬性的冗余性,進一步提高了屬性子集的整體識別能力。
在前文,本文分析了現(xiàn)有方法所存在的問題,即無法權(quán)衡待選屬性所提供的分類信息和冗余信息,以及新增待選屬性時對已選屬性所保留的分類信息的影響。針對這些問題,本文提出了有效分類信息率ECIR和獨立有效分類信息率IECIR的概念。本章依據(jù)上述定義的ECIR 和IECIR,提出了兩種屬性選擇方法。
定義4(特征重要性評估函數(shù)1)給定一決策信息系統(tǒng)DIS=<U,C∪D,V,f>,其中U={x1,x2,…,xn}為n維的樣本集合;C={c1,c2,…,cm}為m維的條件屬性集合,D表示決策屬性。假設(shè)已知S為已選屬性子集,ci為待選屬性且ci∈C-S。在基于有效分類信息率的屬性選擇方法下,待選屬性ci的重要性的計算如下所示:
本文通過式(15)來計算候選屬性的重要性,Sig1(ci;S;D)值越大說明該候選屬性越重要。
根據(jù)定義4,本文設(shè)計了一個啟發(fā)式屬性選擇算法,具體的實現(xiàn)步驟在算法1中給出。
算法1基于有效分類信息率的屬性選擇算法
輸入:一個決策信息系統(tǒng)DIS=<U,C∪D,V,f>,其中U={x1,x2,…,xn}為n維的樣本集合,C={c1,c2,…,cm}為m維的條件屬性集合,D表示決策屬性。
輸出:S為已選屬性子集。
首先,計算等價類的時間復(fù)雜度為O(|U|2|C|)。因此,計算互信息等熵度量的時間復(fù)雜度為O(|U|2|C|+|U|2)。進而,屬性選擇算法的時間復(fù)雜度為O(|S||C|(|U|2|C|+|U|2))。
考慮到ASECIR 只關(guān)注待選屬性所提供的新增的有效分類信息,而忽視了加入待選屬性后對已選屬性所保留的分類信息的影響,本文進一步提出基于獨立有效分類信息率的屬性選擇方法。
定義5(特征重要性評估函數(shù)2)給定一個決策信息系統(tǒng)DIS=<U,C∪D,V,f>,其中U={x1,x2,…,xn}為n維的樣本集合;C={c1,c2,…,cm}為m維的條件屬性集合,D表示決策屬性。假設(shè)已知S為已選屬性子集,ci為待選屬性且ci∈C-S。在基于獨立有效分類信息率的屬性選擇方法下,待選屬性ci的重要性定義如下所示:
若S=?,Sig2(ci;S;D)=I(D;ci)/H(D)。
通過式(16)來計算候選屬性的重要性,Sig2(ci;S;D)值越大說明該候選屬性越重要。
根據(jù)定義5,本文設(shè)計了一個啟發(fā)式屬性選擇算法,具體的實現(xiàn)步驟在算法2中給出。
算法2基于獨立有效分類信息率的屬性選擇算法
輸入:一個決策信息系統(tǒng)DIS=<U,C∪D,V,f>,其中U={x1,x2,…,xn}為n維的樣本集合,C={c1,c2,…,cm}為m維的條件屬性集合,D表示決策屬性。
輸出:S為已選屬性子集。
首先,計算等價類的時間復(fù)雜度為O(|U|2|C|)。因此,計算互信息等熵度量的時間復(fù)雜度為O(|U|2|C|+|U|2) 。進而,屬性選擇算法的時間復(fù)雜度為O(|S||C|(|U|2|C|+|U|2))。與屬性選擇算法GainRatio的時間復(fù)雜度較為相近,但總體要低于mRMR、MIFS、CIFE、MRI 等具有代表性的屬性選擇算法的時間復(fù)雜度,其原因在于mRMR、MIFS 等方法的屬性重要性計算中需要重復(fù)計算已選屬性的互信息。
本章將通過與現(xiàn)有的方法進行對比實驗,進一步說明本文提出的兩種屬性選擇方法(ASECIR 和ASIECIR)的合理性。
為了綜合地對比ASECIR和ASIECIR的有效性,本文選取8種具有代表性的基于互信息的屬性特征選擇算法進行實驗比較,包括DISR[11]、NJMIM[12]、GainRatio[13]、MIFS[14]、mRMR[16]、NMIFS[18]、CIFE[17]、MRI[19]。用 于本文的實驗基準數(shù)據(jù)均來自UCI數(shù)據(jù)庫,數(shù)據(jù)集的詳細信息展示在表1 中??紤]到部分實驗數(shù)據(jù)是實值型數(shù)據(jù),因此采用離散化技術(shù)對實值數(shù)據(jù)進行離散化處理。
表1 基準數(shù)據(jù)的描述Table 1 Description of benchmark dataset
為了公平地判斷所選屬性子集的分類精度,本文使用了KNN分類器(K=3)、C4.5分類器以及SVM分類器對所選的屬性子集進行10次10折交叉驗證,并取10次結(jié)果的平均值作為算法分類精度的評估值。
本文所有的實驗都是在相同的軟硬件環(huán)境下進行的。軟硬件環(huán)境:Windows 7系統(tǒng)、Intel?CoreTMi5-5200U CPU@2.20 GHz處理器、8.00 GB內(nèi)存、MATLAB2019a、WEKA 3.8。
表2~表4 分別展示了在KNN(K=3)、C4.5 以及SVM 分類器下分類精度的實驗結(jié)果,每一行中的最優(yōu)分類精度值用粗體以及下劃線突出顯示,最后兩行代表每個算法在所有基準數(shù)據(jù)下的平均分類精度(Avg.Acc)和平均序值(Avg.Rank)。
在表2 中,ASIECIR 和ASECIR 在所有方法中取得了最好和次優(yōu)的平均分類精度,分別達到了83.36%和82.66%,且ASIECIR 的平均序值低于其他方法。在表3 中,ASIECIR 和ASECIR 在所有數(shù)據(jù)集上獲得了最好和次優(yōu)的次數(shù)最多,且兩種方法的平均分類精度值(82.13%、81.78%)高于其他方法,ASIECIR 的平均序值也優(yōu)于其他方法。此外,在所有對比方法中,除MRI 之外的其他對比方法的平均分類精度均低于80.00%。在表4 中,ASIECIR 和ASECIR 在所有方法中取得了最好和次優(yōu)的平均分類精度,分別達到了81.38%和81.01%,且ASIECIR的平均序值低于其他方法。此外,在所有對比方法中,MRI 和DISR 方法的總體表現(xiàn)優(yōu)于其他6 種對比方法。
表2 在KNN分類器上不同方法的分類精度Table 2 Classification accuracy with different methods by KNN classifier
表3 在C4.5分類器上不同方法的分類精度Table 3 Classification accuracy with different methods by C4.5 classifier
表4 在SVM分類器上不同方法的分類精度Table 4 Classification accuracy with different methods by SVM classifier
從上述結(jié)果總結(jié)如下:(1)ASECIR 和ASIECIR的平均分類精度高于其他對比算法,且ASECIR低于ASIECIR。此外,在對比方法中,MRI 的總體性能雖然低于本文所提出的兩種屬性選擇算法,但優(yōu)于其他對比方法。由此可以發(fā)現(xiàn),本文設(shè)計的獨立分類信息率能夠有效地提高特征選擇的性能;(2)ASIECIR的平均序值低于其他方法,且ASECIR和ASIECIR在所有方法中是獲得最優(yōu)結(jié)果最多的兩種方法,其中ASIECIR 的表現(xiàn)更好。總體取得了較為理想的分類性能。
綜合上述分析,可以發(fā)現(xiàn)在對特征的相關(guān)性和冗余性的分析研究上,本文所設(shè)計的有效分類信息率和獨立有效分類信息率對待選屬性的重要性評估總體上表現(xiàn)得更為出色,也從實驗上進行驗證所提出的理論模型的合理性。
為了進一步分析所提出的屬性選擇方法與其他方法之間分類性能效果上的差異性,本文利用在三種分類器上得到的分類結(jié)果進行Bonferroni-Dunn后續(xù)檢驗測試。Bonferroni-Dunn 測試方法是通過比較對比方法與一個核心方法的平均序值差值和臨界差值的大小來分析對比方法與核心方法之間的關(guān)聯(lián)。在該實驗中,以ASIECIR為核心方法和對比的8種方法進行Bonferroni-Dunn后續(xù)檢驗。臨界差值(critical difference,CD)的計算如下公式所示:
其中,K表示實驗方法的個數(shù)(K=9),N為實驗數(shù)據(jù)集的個數(shù)(N=13)。pα表示在顯著性水平為α下的臨界值。在本文中,首先令顯著性水平α=0.05,通過文獻[23]可知pα=2.724,故CDα=2.926。若某個方法的平均序值與ASIECIR的平均序值的差值越大,則說明ASIECIR 的效果顯著優(yōu)于該方法的程度越大。特別地,若該方法的平均序值與ASIECIR 的差值超過CD值,則說明ASIECIR的性能效果顯著優(yōu)于該方法。
Bonferroni-Dunn 檢驗的相關(guān)實驗結(jié)果展示于圖2中,其中圖(a)~(c)分別表示在KNN、C4.5以及SVM分類器上的Bonferroni-Dunn檢驗結(jié)果。從圖2(a)中可以發(fā)現(xiàn)ASIECIR 方法的性能顯著優(yōu)于CIFE。除CIFE以外的其他對比方法雖然都與ASIECIR在一個CD 值范圍內(nèi),但距離最近的對比方法NJMIM 和MRI 仍與ASIECIR 存在著較大的差異,差值至少超過1.5。由此進一步說明ASIECIR 的性能優(yōu)于其他對比方法的程度很大。在圖2(b)中,ASIECIR 的性能優(yōu)于對比方法MIFS、CIFE 和NMIFS。同時,距離最近的對比方法GainRatio 與ASIECIR 方法的平均序值的差值至少超過1.5。在圖2(c)中,ASIECIR 方法在SVM 分類器上的性能顯著優(yōu)于對比方法NJMIM和MIFS。其中,距離ASIECIR方法最近的對比方法NMIFS和MRI方法的平均序值仍與ASIECIR方法有著較為明顯的差距。
圖2 Bonferroni-Dunn檢驗Fig.2 Bonferroni-Dunn test
綜合上述結(jié)果分析可以發(fā)現(xiàn),本文所提出的ASIECIR 與現(xiàn)有的一些屬性選擇方法之間存在著一定的性能差異,且ASIECIR 表現(xiàn)總體更優(yōu)。由此說明,本文所設(shè)計的獨立分類有效信息率的屬性重要性評估函數(shù)在一定程度上具備很好的區(qū)分屬性相關(guān)性和冗余性的能力,可以作為一種可行的屬性重要性評估策略用于屬性選擇的研究中。
本文提出了基于有效分類信息率的屬性選擇方法,可以有效地選擇能提供大量有效分類信息同時攜帶較少冗余信息的待選屬性??紤]到新增的待選屬性對已選屬性所保留的分類信息的影響,進一步提出了基于獨立有效分類信息率的屬性選擇方法。實驗結(jié)果表明,所提出的屬性選擇方法在選擇重要屬性的機制、分類精度上都明顯地優(yōu)于許多現(xiàn)有的屬性選擇方法。在未來的工作中,將進一步深入探討更復(fù)雜情況下(例如,動態(tài)的決策信息系統(tǒng)和存在決策部分缺失的數(shù)據(jù))的屬性相關(guān)性和冗余性的關(guān)聯(lián),并設(shè)計出有效的屬性選擇方法。