陳 鵬,趙建成,余肖生
(三峽大學(xué) 計(jì)算機(jī)與信息學(xué)院, 湖北 宜昌 443002)
解決穩(wěn)定性-可塑性難題是ANN學(xué)習(xí)中的關(guān)鍵問(wèn)題,尤其是當(dāng)數(shù)據(jù)樣本的數(shù)量隨時(shí)間增加時(shí),ANN模型必須以自主和增量的方式學(xué)習(xí)這些樣本。為了解決穩(wěn)定性-可塑性難題[1],Simpson[2]提出了2種混合的ANN模型(Fuzzy Min-Max(FMMN)網(wǎng)絡(luò)),即模式分類的監(jiān)督模型;模式聚類的無(wú)監(jiān)督模型[3]。FMMN使用超盒模糊集在其網(wǎng)絡(luò)結(jié)構(gòu)中創(chuàng)建和存儲(chǔ)知識(shí),即作為隱藏節(jié)點(diǎn),該網(wǎng)絡(luò)已經(jīng)得到了廣泛的研究與應(yīng)用,尤其是在分類任務(wù)上[2]。為了提升FMMN網(wǎng)絡(luò)的性能,Mohammed等[4]提出了增強(qiáng)的模糊最小-最大神經(jīng)網(wǎng)絡(luò)(EFMMN),該算法在解決超盒的重疊測(cè)試和收縮測(cè)試時(shí)都更加有效。為了避免在獲勝超盒附近產(chǎn)生過(guò)多的小超盒,從而降低FMMN的網(wǎng)絡(luò)復(fù)雜度,Mohammed等[5]提出了K最近鄰超盒展開(kāi)規(guī)則的改進(jìn)的模糊最小最大神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)表明通過(guò)該網(wǎng)絡(luò)可以有效地降低網(wǎng)絡(luò)的復(fù)雜度。Nandedkar等[6-7]提出了通用反射模糊最小-最大神經(jīng)網(wǎng)絡(luò)(GRFMN)。 GRFMM將FMM聚類和分類算法以及人體反射機(jī)制的概念組合到一個(gè)通用框架中,以解決重疊問(wèn)題。劉金海等[8]提出了一種基于數(shù)據(jù)質(zhì)心的模糊最小最大神經(jīng)網(wǎng)絡(luò)分類方法,該方法能夠根據(jù)實(shí)際數(shù)據(jù)的質(zhì)心特征自適應(yīng)地調(diào)節(jié)超盒隸屬度,從而來(lái)提高分類的精準(zhǔn)率。
為了使FMMN實(shí)現(xiàn)半監(jiān)督的能力,Ngan等[9]提出了模糊最小最大神經(jīng)網(wǎng)絡(luò)中的半監(jiān)督聚類。Liu等[10]提出了一種基于模糊最小最大神經(jīng)網(wǎng)絡(luò)的半監(jiān)督分類方法(SS-FMM)。在SS-FMM中,對(duì)模糊最小最大網(wǎng)絡(luò)進(jìn)行了修改,以處理標(biāo)記和未標(biāo)記的數(shù)據(jù)。
現(xiàn)有的FMMN及其變體,在訓(xùn)練網(wǎng)絡(luò)以及進(jìn)行最終預(yù)測(cè)時(shí),都沒(méi)有考慮之前訓(xùn)練的樣本位于該超盒內(nèi)的大體分布情況,僅計(jì)算樣本點(diǎn)的隸屬度的高低來(lái)選擇擴(kuò)展的超盒,這樣不利于超盒更加準(zhǔn)確的收縮以及最終精準(zhǔn)的預(yù)測(cè)。同時(shí),現(xiàn)有方法都過(guò)于依賴擴(kuò)展系數(shù)的選擇,如果選擇糟糕的擴(kuò)展系數(shù),則會(huì)導(dǎo)致模型性能變差,另外對(duì)于每個(gè)數(shù)據(jù)集選擇最佳的擴(kuò)展系數(shù)也是非常耗費(fèi)時(shí)間的事情。因此,提出了帶質(zhì)心的K最近鄰增強(qiáng)模糊最小最大神經(jīng)網(wǎng)絡(luò)的集成方法(ensemble method ofk-nearest neighbor enhancement fuzzy minimax neural networks with centroid,簡(jiǎn)稱為E-CFMM),該方法考慮了每個(gè)超盒數(shù)據(jù)集中的位置,即增加質(zhì)心的同時(shí),又集成了5個(gè)不同的擴(kuò)展系數(shù)的弱分類器,并將5個(gè)弱分類器的預(yù)測(cè)結(jié)果作為隨機(jī)森林的輸入數(shù)據(jù)進(jìn)行再訓(xùn)練。這樣既可以不用考慮擴(kuò)展系數(shù)的問(wèn)題又能提高整體網(wǎng)絡(luò)的預(yù)測(cè)性能。
FMMN的網(wǎng)絡(luò)結(jié)構(gòu)由3層組成,如圖1所示。首先,F(xiàn)a是輸入層,其輸入節(jié)點(diǎn)數(shù)等于輸入要素?cái)?shù)。其次,F(xiàn)b是超盒層,每個(gè)Fb節(jié)點(diǎn)代表一個(gè)超級(jí)盒子模糊集。Fa和Fb節(jié)點(diǎn)之間的連接是最小和最大點(diǎn),它們存儲(chǔ)在2個(gè)矩陣V和W中,而隸屬函數(shù)是Fb的傳遞函數(shù)[2]。第三,F(xiàn)c是輸出層,其節(jié)點(diǎn)數(shù)等于輸出類數(shù)。
圖1 FMMN網(wǎng)絡(luò)結(jié)構(gòu)
FMMN學(xué)習(xí)算法包括3個(gè)過(guò)程,即超盒擴(kuò)展、超盒重疊測(cè)試和超盒壓縮[11]。在FMMN是通過(guò)使用一組數(shù)據(jù)樣本Ah來(lái)進(jìn)行學(xué)習(xí)的,其中h=1…N,N是訓(xùn)練樣本的總個(gè)數(shù)。根據(jù)訓(xùn)練樣本,F(xiàn)MMN逐步創(chuàng)建許多超盒。每個(gè)超盒由單元超立方體(In)中n維空間中的一組最小和最大點(diǎn)表示。每個(gè)超盒模糊集定義為[5]:
Bj={Ah,Vj,Wj,f(Ah,Vj,Wj)},?Ah∈In
(1)
式中:Bj是超框模糊集;Ah=(ah1,ah2,…,ahn)是輸入數(shù)據(jù);Vj=(vj1,vj2, …,vjn)和Wj=(wj1,wj2,…,wjn)分別是Bj的最小值和最大值。
當(dāng)訓(xùn)練數(shù)據(jù)樣本包含在超盒中時(shí),則該數(shù)據(jù)樣本具有該超盒的完全隸屬度。超盒的大小由擴(kuò)展系數(shù)控制,擴(kuò)展系數(shù)的大小為θ∈[0,1]。每個(gè)Fc節(jié)點(diǎn)代表一個(gè)類別,F(xiàn)c節(jié)點(diǎn)的輸出代表Ah在輸出類別k中的適合程度。Fb和Fc節(jié)點(diǎn)之間的連接是二進(jìn)制值來(lái)表示。
1.1.1隸屬度函數(shù)
當(dāng)提供新的訓(xùn)練樣本時(shí),F(xiàn)MMN使用隸屬度函數(shù),其取值范圍為0~1,用于表示樣本相對(duì)于超盒的擬合度,查找最匹配的超盒。隸屬度函數(shù)使用式(2) 計(jì)算[2]:
max(0,1-max(0,γmin(1,vji-ahi)))]
(2)
式中:Bj表示第j個(gè)超盒;Ah=(ah1,ah2,…,ahn)∈In是第h個(gè)輸入樣本,并且γ是一個(gè)靈敏度參數(shù),用于調(diào)節(jié)隸屬函數(shù)隨著Ah與Bj之間的距離增加而減小的速度。
1.1.2擴(kuò)展規(guī)則
在訓(xùn)練階段,執(zhí)行超盒擴(kuò)展過(guò)程以將輸入數(shù)據(jù)包括在各自的超盒中。當(dāng)超盒Bj擴(kuò)展為包括輸入模式Ah時(shí),必須滿足以下約束[2]:
(3)
如果輸入數(shù)據(jù)不屬于任何超盒,即不滿足式(3)中的約束,則創(chuàng)建了一個(gè)新的超盒以便輸入數(shù)據(jù)被網(wǎng)絡(luò)學(xué)習(xí)。如果輸入數(shù)據(jù)滿足式(3)中的擴(kuò)展要求,則通過(guò)式(4)更新該超盒。公式如下:
(4)
1.1.3重疊測(cè)試
重疊測(cè)試是確定是否有不同類別的重疊的超盒。由于擴(kuò)展過(guò)程中可能會(huì)導(dǎo)致現(xiàn)有超盒之間存在重疊的情況,所以需要通過(guò)測(cè)試來(lái)確定是否存在重疊。這個(gè)測(cè)試主要考慮以下4種情況[2]。如果滿足其中任意一個(gè)情況,就認(rèn)為超盒之間存在重疊。
情況1:
Vji (5) 情況2: Vki (6) 情況3: Vji min(min(Wki-Vji,Wji-Vki),δold) (7) 情況4: Vki min(min(Wji-Vki,Wki-Vji),δold) (8) 最初假定δold=1。如果δold-δnew>0,則Δ=i&δold=δnew。這表明重疊檢測(cè)到第一個(gè)維度,測(cè)試?yán)^續(xù)進(jìn)行下一個(gè)維度。如果不存在其他重疊區(qū)域,則測(cè)試停止,并通過(guò)設(shè)置Δ=-1,即將下一個(gè)收縮步驟表示為“不必要”[12]。注意,相同類別的超盒可以存在重疊。 1.1.4收縮規(guī)則 如果來(lái)自不同類別的超盒存在重疊,則會(huì)啟動(dòng)超級(jí)框收縮過(guò)程以消除重疊的區(qū)域。在收縮過(guò)程中,通過(guò)僅調(diào)整每個(gè)重疊的超級(jí)盒中n個(gè)維度中的一個(gè)維度來(lái)保持超級(jí)盒尺寸盡可能大。即,通過(guò)最小化調(diào)整每個(gè)超級(jí)框來(lái)消除重疊區(qū)域。 增強(qiáng)的模糊最小最大神經(jīng)網(wǎng)絡(luò)主要在擴(kuò)展規(guī)則、重疊測(cè)試以及收縮方面進(jìn)行了改進(jìn)。 在擴(kuò)展規(guī)則方面,為了解決現(xiàn)有FMMN擴(kuò)展過(guò)程中可能會(huì)導(dǎo)致后續(xù)過(guò)程中的不同類的超盒超范圍擴(kuò)展這一難題[13]。Mohammed 等[4]提出如下的新擴(kuò)展規(guī)則: maxn(Wji,Ahi)-minn(Vji,Ahi)≤θ (9) 根據(jù)式(9),第j個(gè)超級(jí)框的每個(gè)維度都經(jīng)過(guò)獨(dú)立測(cè)試,以調(diào)節(jié)其是否超過(guò)擴(kuò)展系數(shù)(θ)。當(dāng)所有超盒尺寸不超過(guò)θ時(shí)使用擴(kuò)展。 在重疊測(cè)試和收縮方面,在超盒重疊測(cè)試期間,使用FMMN模型中給出的當(dāng)前4種情況不足以識(shí)別整個(gè)覆蓋范圍。為了解決此難題,Mohammed 等[4]進(jìn)一步完善了重疊測(cè)試的情況,將重疊測(cè)試和收縮由4種情況修改為如下的9種情況: 情況1: Vji δnew=min(Wji-Vki,δold) (10) 情況2: Vki δnew=min(Wki-Vji,δold) (11) 情況3: Vji=Vki δnew=min(min(Wji-Vki,Wki-Vji),δold) (12) 情況4: Vji δnew=min(min(Wji-Vki,Wki-Vji),δold) (13) 情況5: Vki=Vji δnew=min(min(Wji-Vki,Wki-Vji),δold) (14) 情況6: Vki δnew=min(min(Wji-Vki,Wki-Vji),δold) (15) 情況7: Vji δnew=min(min(Wji-Vki,Wki-Vji),δold) (16) 情況8: Vki δnew=min(min(Wji-Vki,Wki-Vji),δold) (17) 情況9: Vki=Vji δnew=min(Wki-Vji,δold) (18) 為了避免在獲勝超盒附近產(chǎn)生過(guò)多的小超盒,Mohammed等[5]提出了K最近鄰模糊最小最大神經(jīng)網(wǎng)絡(luò)。該模型與原始FMMN僅關(guān)注一個(gè)獲勝的超盒不同,該模型選擇了K個(gè)具有相同類別標(biāo)簽的超盒來(lái)確定超盒擴(kuò)展過(guò)程最終獲勝的超盒,這樣能夠避免在獲勝超盒附近產(chǎn)生過(guò)多的小超盒,從而降低FMMN網(wǎng)絡(luò)復(fù)雜度。同時(shí),該模型可以應(yīng)用于FMMN的多種變體,包括增強(qiáng)模糊最小最大神經(jīng)網(wǎng)絡(luò),形成K最近鄰增強(qiáng)模糊最小最大神經(jīng)網(wǎng)絡(luò)(KEFMMN)。 首先,選擇獲勝的超盒(具有最高隸屬函數(shù)的超盒),然后,使用式(3)將其所有維度與擴(kuò)展系數(shù)進(jìn)行比較。獲勝的超盒對(duì)式(3)的任何違反都會(huì)導(dǎo)致選擇下一個(gè)最近的超盒,以通過(guò)相同的檢查步驟。如果所有K最近鄰超盒都不能滿足式(3),則將創(chuàng)建一個(gè)新的超盒來(lái)對(duì)輸入樣本學(xué)習(xí)。通過(guò)這種方式,能夠避免在獲勝超盒附近創(chuàng)建過(guò)多的小型超盒,從而降低了網(wǎng)絡(luò)的復(fù)雜度。 FMMN及其變體在訓(xùn)練網(wǎng)絡(luò)的時(shí)候沒(méi)有考慮超盒內(nèi)部訓(xùn)練數(shù)據(jù)的分布情況,并且考慮擴(kuò)展系數(shù)的問(wèn)題也不是很充分,導(dǎo)致每次訓(xùn)練新數(shù)據(jù)集都要重新選擇最優(yōu)的擴(kuò)展系數(shù)。E-CFMM通過(guò)增加數(shù)據(jù)質(zhì)心來(lái)表示超盒內(nèi)部訓(xùn)練數(shù)據(jù)的分布情況,通過(guò)集成的方法來(lái)解決選擇擴(kuò)展系數(shù)的問(wèn)題。第一,每個(gè)超盒增加了數(shù)據(jù)質(zhì)心,在擴(kuò)展規(guī)則、收縮規(guī)則以及預(yù)測(cè)的時(shí)候都考慮了數(shù)據(jù)質(zhì)心的問(wèn)題;第二,增加了刪除同類型超盒的步驟,以便減少網(wǎng)絡(luò)復(fù)雜度;第三,通過(guò)集成的方法解決了傳統(tǒng)的FMMN及其變體選擇最優(yōu)擴(kuò)展系數(shù)的問(wèn)題。具體如下。 當(dāng)輸入為第1個(gè)訓(xùn)練數(shù)據(jù)或者沒(méi)有滿足擴(kuò)展要求而要單獨(dú)形成超盒的數(shù)據(jù)時(shí),此時(shí)形成的超盒,如式(19)所示: Vji=Wji=Cji=ahi,(i=1,2,…,n) (19) 式中:ahi是第h個(gè)數(shù)據(jù)樣本的第i維度值;j為第j個(gè)超盒,i樣本的維度。 當(dāng)輸入的數(shù)據(jù)滿足擴(kuò)展超盒,則通過(guò)遞推算術(shù)平均法進(jìn)行更新質(zhì)心值,如式(20)所示[14]: (20) 在訓(xùn)練模糊最小最大神經(jīng)網(wǎng)絡(luò)時(shí),選擇獲勝的超盒不僅依靠隸屬度而且還考慮輸入的樣本點(diǎn)與超盒數(shù)據(jù)質(zhì)心之間的距離,具體設(shè)計(jì)如下: 當(dāng)輸入的樣本點(diǎn)位于相同類別的超盒隸屬度為1時(shí),即輸入的樣本點(diǎn)完全位于某個(gè)相同類別的超盒內(nèi),這時(shí)不考慮輸入樣本點(diǎn)與超盒內(nèi)的數(shù)據(jù)質(zhì)心之間的距離。當(dāng)輸入的樣本點(diǎn)位于相同類別的超盒隸屬度不為1時(shí),則考慮樣本點(diǎn)與這些超盒數(shù)據(jù)質(zhì)心之間的距離。樣本點(diǎn)與質(zhì)心之間距離的計(jì)算公式采用歐式距離計(jì)算,具體計(jì)算如式(21)所示。 (21) 式中:n為輸入樣本的維度;x表示輸入的樣本;y表示超盒數(shù)據(jù)質(zhì)心。 在計(jì)算完具體的距離以后,需要將其轉(zhuǎn)換為具體的距離權(quán)值。計(jì)算方法如式(22)所示。 (22) 式中:m為相同超盒的個(gè)數(shù);dist為式(21)計(jì)算的結(jié)果。 在選擇最終獲勝的超盒時(shí),將每個(gè)超盒的隸屬度的值(由式(2)所求)與其距離權(quán)值相加,用相加后的值由大到小排序超盒,選擇前K個(gè)獲勝超盒,并進(jìn)行下一步的擴(kuò)展判斷。 從3.2節(jié)選擇的K個(gè)獲勝的超盒中,選擇第1個(gè)超盒進(jìn)行擴(kuò)展條件判斷,如果滿足擴(kuò)展條件,則進(jìn)行重疊測(cè)試。如果存在重疊則進(jìn)行收縮,收縮的規(guī)則如表1所示。其中情況1、2以及情況4都考慮了質(zhì)心是否在重疊區(qū)域的問(wèn)題。并且在每個(gè)收縮后的超盒都增加一個(gè)長(zhǎng)度為0.01單位的間隔,這樣可以避免輸入的樣本點(diǎn)剛好落在2個(gè)重復(fù)超盒收縮的邊界。 表1 E-CFMM的收縮規(guī)則 續(xù)表(表1) 續(xù)表(表1) 通過(guò)表1的方式收縮存在重疊的超盒后,還要判斷本次超盒收縮得是否過(guò)多,當(dāng)收縮不到原來(lái)超盒大小的1/3時(shí),則拒絕本次收縮并選擇下一個(gè)候選超盒進(jìn)行擴(kuò)展和收縮判斷,如果所有的候選超盒都不滿足上述情況,則樣本點(diǎn)單獨(dú)形成一個(gè)超盒。當(dāng)收縮大于原來(lái)超盒大小的1/3時(shí),則還要判斷收縮后的超盒的數(shù)據(jù)質(zhì)心還在不在超盒內(nèi),如果不在,則需要使用如下的方法更新質(zhì)心: 如果超盒數(shù)據(jù)質(zhì)心小于該超盒的下限V,則該質(zhì)心獨(dú)立形成一個(gè)超盒,并將原來(lái)的超盒所隸屬的樣本數(shù)量與質(zhì)心形成的超盒所隸屬的樣本數(shù)量平分,原來(lái)的超盒數(shù)據(jù)質(zhì)心設(shè)置為超盒的下限V。 如果超盒數(shù)據(jù)質(zhì)心大于該超盒的上限W,則該質(zhì)心獨(dú)立形成一個(gè)超盒,并將原來(lái)的超盒所隸屬的樣本數(shù)量與質(zhì)心形成的超盒所隸屬的樣本數(shù)量平分,原來(lái)的超盒數(shù)據(jù)質(zhì)心設(shè)置為超盒的上限W。 由于利用重疊測(cè)試值來(lái)判斷不同類別的超盒之間是否存在重疊時(shí),可能會(huì)導(dǎo)致同類超盒存在完全被包住的情況,如果不刪除被完全包住的超盒的話不但不會(huì)提升模型的準(zhǔn)確率而且還可能會(huì)增加網(wǎng)絡(luò)的復(fù)雜度。為此,增加刪除同類完全被包住的超盒的方法,并更新較大超盒的質(zhì)心以及超盒樣本數(shù)量。更新質(zhì)心的方法見(jiàn)式(23),更新超盒樣本數(shù)量方法見(jiàn)式(24)。 (23) cardin_parent=cardin_parent+cardin_current (24) 式中:cardin_parent表示較大超盒所擬合的樣本數(shù)量;cardin_current表示較小超盒所擬合的樣本數(shù)量;cluster_parent表示較大超盒的數(shù)據(jù)質(zhì)心;cluster_current表示較小超盒的數(shù)據(jù)質(zhì)心。 第1步,訓(xùn)練弱分類器。首先,選擇5個(gè)帶質(zhì)心的K最近鄰增強(qiáng)模糊最小最大神經(jīng)網(wǎng)絡(luò)作為弱分類器,擴(kuò)展系數(shù)分別為0.1、0.3、0.5、0.7、0.9。其次,打散訓(xùn)練集,將訓(xùn)練集平分,其中前一部分訓(xùn)練集用于訓(xùn)練弱分類器,而后一部分訓(xùn)練集用于通過(guò)訓(xùn)練好的弱分類器來(lái)進(jìn)一步生成訓(xùn)練數(shù)據(jù)。復(fù)次,每個(gè)弱分類器隨機(jī)選擇前一部分訓(xùn)練集中的1/3的數(shù)據(jù)用于訓(xùn)練初始網(wǎng)絡(luò),再隨機(jī)選擇1/3的訓(xùn)練樣本測(cè)試第一個(gè)弱分類器,并保留預(yù)測(cè)錯(cuò)誤的樣本,測(cè)試之后用這些數(shù)據(jù)訓(xùn)練第一個(gè)弱分類器。再次,在錯(cuò)誤的樣本中添加新的訓(xùn)練樣本,使得數(shù)量等于訓(xùn)練樣本的1/3,并將該數(shù)據(jù)用于測(cè)試第2個(gè)弱分類器,進(jìn)行上面同樣的操作。如果是第5個(gè)弱分類器產(chǎn)生的預(yù)測(cè)錯(cuò)誤的樣本,則留給第1個(gè)弱分類器進(jìn)行訓(xùn)練使用。當(dāng)某個(gè)弱分類器預(yù)測(cè)錯(cuò)誤率為0或者在3輪中最小錯(cuò)誤率沒(méi)有改變時(shí),則停止訓(xùn)練該弱分類器。最后,當(dāng)沒(méi)有可以訓(xùn)練的弱分類器時(shí),則停止訓(xùn)練,進(jìn)行下一步的操作。 第2步,形成隨機(jī)森林所需要的新的數(shù)據(jù)。訓(xùn)練完成弱分類器之后,使用后一部分訓(xùn)練集和測(cè)試集用于剛剛訓(xùn)練好的弱分類器形成新的樣本,此時(shí)每個(gè)弱分類器輸出10個(gè)離散屬性值,分別為: 該超盒預(yù)測(cè)的類別值。 測(cè)試樣本所屬的超盒的樣本的數(shù)量。 求得測(cè)試樣本中最高隸屬度相同類別的超盒個(gè)數(shù)。 求得測(cè)試樣本中最高隸屬度不同類別的超盒個(gè)數(shù)。 測(cè)試樣本與數(shù)據(jù)質(zhì)心之間距離最小的超盒類別,如果多個(gè)選擇第1個(gè)。 求得測(cè)試樣本中最大隸屬度所屬的類別,如果多個(gè)選擇第1個(gè)。 測(cè)試樣本最大隸屬度是否為1。 測(cè)試樣本點(diǎn)與超盒數(shù)據(jù)質(zhì)心之間距離最近的5個(gè)超盒所屬類別中,類別相同個(gè)數(shù)最多的類別,如果多個(gè)選擇第1個(gè)。 測(cè)試樣本點(diǎn)所求得的前5個(gè)最大隸屬度所屬類別中,類別相同個(gè)數(shù)最多的類別,如果多個(gè)選擇第一個(gè)。 測(cè)試超盒的正確率,其正確率轉(zhuǎn)換為0~10個(gè)等級(jí),等級(jí)越大正確率就越大,其中使用的數(shù)據(jù)為訓(xùn)練弱分類器的數(shù)據(jù)。 第3步,數(shù)據(jù)預(yù)處理。首先,將每個(gè)弱分類器輸出的10個(gè)離散屬性值進(jìn)行拼接組成擁有50個(gè)條件屬性和1個(gè)決策屬性的數(shù)據(jù)。其次,使用信息增益與屬性依賴度進(jìn)行特征選擇,選出信息增益與屬性依賴度之和大于零的特征。最后,進(jìn)行標(biāo)準(zhǔn)歸一化。其中,信息增益計(jì)算方法參見(jiàn)式(25),屬性依賴度計(jì)算方法參見(jiàn)式(26)。 (25) 式中:a為離散屬性,有V個(gè)可能的取值{a1,a2,…,aV};Dv表示所有在屬性a上取值為aV的樣本。Ent(D)計(jì)算方法參見(jiàn)式(27)。 (26) 式中:U為論域;PosB(D)表示正域,其計(jì)算方法參見(jiàn)式(28)。 (27) 式中:i表示第i類樣本所占的比例為pi(i=1,2,…,N)。 (28) 本文中,X為依據(jù)決策屬性劃分的數(shù)據(jù)集,R為一個(gè)條件屬性,U為整個(gè)數(shù)據(jù)集,Y為依據(jù)R的值劃分的數(shù)據(jù)集。 第4步,訓(xùn)練并測(cè)試隨機(jī)森林。將這些整理好的訓(xùn)練數(shù)據(jù)作為隨機(jī)森林的訓(xùn)練數(shù)據(jù),將整理好的測(cè)試數(shù)據(jù)作為隨機(jī)森林的測(cè)試數(shù)據(jù),最后輸出預(yù)測(cè)結(jié)果。 實(shí)驗(yàn)部分使用UCI資料庫(kù)中的數(shù)據(jù)集[15]。這些基準(zhǔn)數(shù)據(jù)集已被廣泛用于評(píng)估機(jī)器學(xué)習(xí)算法。數(shù)據(jù)集的詳細(xì)信息如表2所示。在以下實(shí)驗(yàn)中,所有數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之比為8∶2。 表2 實(shí)驗(yàn)數(shù)據(jù)集 為了進(jìn)一步比較E-CFMM與其他算法的性能,使用準(zhǔn)確度、精確率、召回率以及F-score,并使用ROC曲線和AUC值以及箱型圖的方式來(lái)做性能評(píng)估指標(biāo)分析。表3為由二分類問(wèn)題定義的混淆矩陣表。 表3 混淆矩陣 準(zhǔn)確度定義如下: Accurate=(TP+TN)/(TP+TN+FN+FP) (29) 精準(zhǔn)率定義如下: (30) 召回率是分類器正確檢測(cè)到正類實(shí)例的比率,其計(jì)算公式如下: (31) 根據(jù)精準(zhǔn)率和召回率的計(jì)算結(jié)果,F(xiàn)-score的公式定義如下: (32) 此外,AUC得分是根據(jù)ROC曲線下的面積來(lái)測(cè)量的,該曲線根據(jù)真實(shí)陽(yáng)性率(TPR)和錯(cuò)誤陽(yáng)性率(FPR)繪制。 TPR=TP/(TP+FN) (33) FPR=FP/(FP+TN) (34) 為了比較FMMN、EFMNN、KNEFMNN以及CFMM之間的準(zhǔn)確度和運(yùn)行時(shí)間。在實(shí)驗(yàn)中使用3種不同尺寸的擴(kuò)展系數(shù),即小尺寸θ=0.1,中等尺寸θ=0.55和大尺寸θ=1.0。其他參數(shù)設(shè)置為K=2,γ=1。比較結(jié)果如表4所示。 通過(guò)表4可以看出:在不同擴(kuò)展系數(shù)下,CFMM在準(zhǔn)確率方面都是最好的。同時(shí),相比于其他模糊最小最大神經(jīng)網(wǎng)絡(luò)方法,CFMM在準(zhǔn)確率方面隨著擴(kuò)展系數(shù)θ=1的增大而更有優(yōu)勢(shì)。但CFMM在訓(xùn)練時(shí)間方面比其他方法耗時(shí)要多,特別是在小尺寸的擴(kuò)展系數(shù)的時(shí)候。導(dǎo)致CFMM訓(xùn)練時(shí)間長(zhǎng)的根本原因在于增加了計(jì)算質(zhì)心和更新質(zhì)心這2個(gè)步驟所消耗的時(shí)間。導(dǎo)致CFMM的準(zhǔn)確率隨著擴(kuò)展系數(shù)θ=1的增大而增大的根本原因在于擴(kuò)展系數(shù)越大,超盒擴(kuò)展的越“粗糙”,而考慮了質(zhì)心以及新的收縮規(guī)則的情況會(huì)使得超盒擴(kuò)展得更加準(zhǔn)確。 表4 CFMM與FMMN、EFMNN、KNEFMNN在不同擴(kuò)展系數(shù)下的實(shí)驗(yàn)結(jié)果 由于FMMN及其變體需要考慮擴(kuò)展系數(shù)選擇的問(wèn)題,而E-CFMM不需要考慮擴(kuò)展系數(shù)的問(wèn)題,為了更直觀地表現(xiàn)實(shí)驗(yàn)結(jié)果,對(duì)準(zhǔn)確度、精準(zhǔn)率、召回率以及F-score進(jìn)行比較。因?yàn)樵u(píng)估指標(biāo)只適用于二分類的情況,因此使用Circle、Ionosphere和Spiral數(shù)據(jù)集作為比較的數(shù)據(jù)集。此處,F(xiàn)MMN及其變體的擴(kuò)展系數(shù)與E-CFMM中的弱分類器的擴(kuò)展系數(shù)相同,即擴(kuò)展系數(shù)分別選擇0.1、0.3、0.5、0.7、0.9,而E-CFMM采用運(yùn)行5次的結(jié)果作為比較結(jié)果。其中K=2,γ=1。箱型圖比較結(jié)果見(jiàn)圖2~4。 圖2 E-CFMM與FMMN及其變體 在Circle數(shù)據(jù)集上的比較結(jié)果 圖3 E-CFMM與FMMN及其變體 在Ionosphere數(shù)據(jù)集上的比較結(jié)果 圖4 E-CFMM與FMMN及其變體 在Spiral數(shù)據(jù)集上的比較結(jié)果 通過(guò)箱型圖的比較可以發(fā)現(xiàn),E-CFMM算法每次運(yùn)行的結(jié)果在準(zhǔn)確度、精準(zhǔn)率、召回率以及F-score方面大部分優(yōu)于FMMN及其變體,并且E-CFMM不受到擴(kuò)展系數(shù)選擇的影響。這主要是因?yàn)椴煌臄?shù)據(jù)集在使用訓(xùn)練好的每個(gè)帶有不同擴(kuò)展系數(shù)的弱分類器生成數(shù)據(jù)時(shí),最接近擁有最優(yōu)擴(kuò)展系數(shù)的弱分類器生成的條件屬性在使用隨機(jī)森林訓(xùn)練時(shí),該條件屬性會(huì)有更高的信息增益率,即越接近擁有最優(yōu)擴(kuò)展系數(shù)的弱分類器生成的條件屬性越重要。 刪除同類完全包住的超盒對(duì)E-CFMM的影響,如表5所示。 表5 比較刪除同類完全包住的超盒對(duì)E-CFMM的影響 雖然同類超盒可能有一些其他有用信息,但通過(guò)表5可以發(fā)現(xiàn),刪除同類完全包住的超盒對(duì)E-CFMM幾乎沒(méi)有影響。導(dǎo)致這個(gè)現(xiàn)象的原因是因?yàn)榧煞椒ㄓ懈玫姆夯芰Α?/p> 在分類性能方面,E-CFMM與其他流行的機(jī)器算法(如樸素貝葉斯、K最近鄰、支持向量機(jī)和隨機(jī)森林)進(jìn)行了比較,其中支持向量機(jī)使用了徑向基函數(shù)(RBF)內(nèi)核。此處,直接利用了scikit-learn工具箱[16]的這些機(jī)器學(xué)習(xí)算法,所有的參數(shù)都使用默認(rèn)值,對(duì)于具有隨機(jī)性的算法,采用運(yùn)行5次取平均值的方法來(lái)表示預(yù)測(cè)結(jié)果。最終實(shí)驗(yàn)結(jié)果如表6所示。 表6 E-CFMM與其他機(jī)器學(xué)習(xí)的實(shí)驗(yàn)結(jié)果比較 通過(guò)表6發(fā)現(xiàn),如果從最小錯(cuò)誤率的個(gè)數(shù)來(lái)看,所提出來(lái)的算法(E-CFMM)與隨機(jī)森林的性能差不多,相比于其他的機(jī)器學(xué)習(xí)算法來(lái)說(shuō)最優(yōu)結(jié)果的個(gè)數(shù)最多。 為了更全面地比較E-CFMM與其他機(jī)器學(xué)習(xí)方法的分類性能,此處采用假設(shè)檢驗(yàn)來(lái)進(jìn)行測(cè)試。零假設(shè)是:H0: 10個(gè)不同的實(shí)驗(yàn)數(shù)據(jù)集中,E-CFMM與流行的機(jī)器學(xué)習(xí)算法的性能上沒(méi)有差異。為了拒絕這個(gè)假設(shè),在本次實(shí)驗(yàn)使用Friedman秩和檢驗(yàn)用作測(cè)試多個(gè)方法之間的顯著性差異。首先,F(xiàn)riedman秩和檢驗(yàn)對(duì)分類算法的性能進(jìn)行排名,其中最佳分類器被分配為第1等級(jí),第2個(gè)最佳分類器被分配為第2等級(jí),依此類推。最后,F(xiàn)riedman檢驗(yàn)對(duì)分類器的平均等級(jí)進(jìn)行比較。表7顯示了E-CFMM與流行的機(jī)器學(xué)習(xí)算法的測(cè)試誤差等級(jí)以及10個(gè)數(shù)據(jù)集中的平均等級(jí)。 表7 E-CFMM與流行的機(jī)器學(xué)習(xí)算法的測(cè)試誤差等級(jí) 以及10個(gè)數(shù)據(jù)集中的平均等級(jí) 如果實(shí)驗(yàn)結(jié)果滿足零假設(shè)的話,則說(shuō)明所有算法的執(zhí)行情況相似,因此它們的平均秩Rj應(yīng)該相等,弗里德曼(Friedman)統(tǒng)計(jì)量計(jì)算參見(jiàn)式(35): (35) (36) 該度量根據(jù)具有k-1和(k-1)·(N-1)自由度的F分布進(jìn)行分配。如果否定假設(shè)被拒絕,即模糊最小最大神經(jīng)網(wǎng)絡(luò)的性能在統(tǒng)計(jì)上不同,則需要進(jìn)行事后檢驗(yàn),以便發(fā)現(xiàn)這些模型的平均等級(jí)之間的關(guān)鍵差異。 使用95%置信區(qū)間(α=0.05)作為識(shí)別模糊最小最大神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)意義的閾值,使用弗里德曼檢驗(yàn)計(jì)算出F分布: 本次實(shí)驗(yàn)具有10個(gè)數(shù)據(jù)集和5個(gè)分類器,F(xiàn)F根據(jù)F分布具有分布5-1=4和(5-1)×(10-1)=36自由程度,F(xiàn)(4,36)的顯著性水平的臨界值α=0.05是2.634。觀察到FF>F(4,36),因此原假設(shè)被拒絕。這也就意味著在所考慮的數(shù)據(jù)集上, E-CFMM與流行的機(jī)器學(xué)習(xí)算法的性能上有差異。 下面比較E-CFMM算法與其他機(jī)器學(xué)習(xí)算法的性能指標(biāo),如表8~10所示,算法的ROC曲線結(jié)果見(jiàn)圖5。 表8 在Circle數(shù)據(jù)集上各種機(jī)器學(xué)習(xí)算法的精準(zhǔn)率、召回率和F-score 表9 在Ionosphere數(shù)據(jù)集上各種機(jī)器學(xué)習(xí)算法的精準(zhǔn)率、召回率和F-score 表10 在Spiral數(shù)據(jù)集上各種機(jī)器學(xué)習(xí)算法的精準(zhǔn)率、召回率和F-score 通過(guò)表8~10可以發(fā)現(xiàn),E-CFMM算法在Ionosphere數(shù)據(jù)集以及Spiral數(shù)據(jù)集上無(wú)論是在精準(zhǔn)率、召回率以及F-score方面都表現(xiàn)的最優(yōu)。同時(shí),通過(guò)圖5可以發(fā)現(xiàn),E-CFMM算法在Circle數(shù)據(jù)集和Spiral數(shù)據(jù)集中AUC表現(xiàn)也是最優(yōu)的。 圖5 不同算法在不同數(shù)據(jù)集表現(xiàn)的ROC曲線 為了使得實(shí)驗(yàn)結(jié)果更具有參考價(jià)值,增加對(duì)機(jī)器學(xué)習(xí)方法的重要參數(shù)的比較實(shí)驗(yàn)。表11~14展示了不同參數(shù)下的樸素貝葉斯、KNN、SVM和RF的性能,表中字體加粗的表示其性能優(yōu)于E-CFMM。 通過(guò)表11~14可以發(fā)現(xiàn):當(dāng)隨機(jī)森林的n_estimators設(shè)置為100時(shí)與E-CFMM的性能不相上下,其他的參數(shù)的機(jī)器學(xué)習(xí)方法的性能都略低于E-CFMM,尤其是樸素貝葉斯在準(zhǔn)確率方面大部分結(jié)果都是低于E-CFMM。 表11 不同版本的樸素貝葉斯的性能 表12 不同參數(shù)下的KNN性能 表13 不同參數(shù)下的SVM性能 表14 不同參數(shù)下的RF性能 提出了一種帶質(zhì)心的K最近鄰增強(qiáng)模糊最小最大神經(jīng)網(wǎng)絡(luò)的集成網(wǎng)絡(luò)方法(E-CFMM),通過(guò)實(shí)驗(yàn)發(fā)現(xiàn):E-CFMM可以有效地克服FMMN及其變體過(guò)于依賴擴(kuò)展系數(shù)的選擇問(wèn)題而且還提升了準(zhǔn)確度,并且通過(guò)箱型圖的分析看出,E-CFMM算法每次運(yùn)行的結(jié)果在準(zhǔn)確度、精準(zhǔn)率、召回率以及F-score方面大部分是優(yōu)于FMMN及其變體。同時(shí),可以發(fā)現(xiàn)E-CFMM測(cè)試誤差平均等級(jí)是1.95,這在其他機(jī)器學(xué)習(xí)方法的測(cè)試誤差平均等級(jí)中是最低的。1.2 增強(qiáng)的模糊最小最大神經(jīng)網(wǎng)絡(luò)(EFMMN)
1.3 K最近鄰模糊最小最大神經(jīng)網(wǎng)絡(luò)(KFMMN)
2 帶質(zhì)心的K最近鄰增強(qiáng)模糊最小最大神經(jīng)網(wǎng)絡(luò)的集成方法
2.1 增加超盒的數(shù)據(jù)質(zhì)心
2.2 擴(kuò)展規(guī)則
2.3 收縮規(guī)則
2.4 刪除同類完全被包住的超盒
2.5 集成方法
3 實(shí)驗(yàn)結(jié)果及分析
3.1 數(shù)據(jù)集
3.2 性能評(píng)估指標(biāo)
3.3 帶質(zhì)心的K最近鄰增強(qiáng)模糊最小最大神經(jīng)網(wǎng)絡(luò)(CFMM)與其他模糊最小最大網(wǎng)絡(luò)的比較
3.4 E-CFMM與其他模糊最小最大網(wǎng)絡(luò)的比較
3.5 刪除同類完全包住的超盒對(duì)E-CFMM的影響
3.6 E-CFMM與其他機(jī)器學(xué)習(xí)算法的比較
4 結(jié)論