周 塔 , 鄧趙紅 , 蔣亦樟 , 王士同
1(江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122)
2(江蘇科技大學(xué) 電子信息學(xué)院,江蘇 張家港 215600)
模糊系統(tǒng)作為智能計算領(lǐng)域的一個及其重要的研究分支,由于其自身較強的可解釋性和學(xué)習(xí)能力而被廣泛地應(yīng)用到多個領(lǐng)域[1,2].Takagi-Sugeuo-Kang(TSK)模糊系統(tǒng)由于其輸出的簡潔性,其訓(xùn)練過程通??梢赞D(zhuǎn)化為二次規(guī)劃問題或者線性回歸問題進行求解,這就使得TSK模型比其他模型訓(xùn)練過程更迅捷、更高效.同時,因其較好的逼近性能而被應(yīng)用到多個領(lǐng)域,比如模式識別、圖像處理和數(shù)據(jù)挖掘等[3,4].模糊系統(tǒng)是根據(jù)模糊集和模糊推理理論而形成的智能系統(tǒng),它主要是把自然界的模糊語言向模糊規(guī)則進行轉(zhuǎn)換.正是憑借這一特性,模糊系統(tǒng)在日常生活中仍被廣泛使用.目前,已經(jīng)建立或者識別的TSK模糊分類器大致可分為以下幾種:基于遺傳算法的TSK模糊分類器、基于神經(jīng)-模糊混合的TSK模糊分類器和類似層次狀的TSK模糊分類器.對于遺傳算法的TSK模糊分類器而言,它主要是模仿人類的進化過程去構(gòu)造結(jié)構(gòu)和識別參數(shù).典型工作包括基于TSK模糊分類器的多目標(biāo)遺傳算法,該算法將規(guī)則選擇問題轉(zhuǎn)化為多目標(biāo)的組合優(yōu)化問題.對于神經(jīng)-模糊混合的TSK模糊分類器,它主要是把人工神經(jīng)網(wǎng)絡(luò)和模糊系統(tǒng)進行組合.典型的工作包括基于TSK模糊分類器的BP神經(jīng)網(wǎng)絡(luò),這類工作主要是通過BP神經(jīng)網(wǎng)絡(luò)和BP算法混合而成,用來訓(xùn)練分類器和SVM的相關(guān)參數(shù).這類的工作可以參考文獻[1,5?8].而對于類似層次狀的TSK模糊分類器,主要包括具有層次模糊系統(tǒng)和具有全局逼近性能的模糊系統(tǒng).關(guān)于這類算法及其改進算法可以參考文獻[9?15].這3類TSK模糊分類器都不可避免地遇到這樣的挑戰(zhàn):(1) 當(dāng)輸入的樣本維數(shù)過高時,會出現(xiàn)維數(shù)災(zāi)難;(2) 在TSK模糊系統(tǒng)中,不恰當(dāng)?shù)哪:齽澐衷谀撤N程度上也會影響模糊規(guī)則意義的表達(dá);(3) 訓(xùn)練完模糊系統(tǒng)后的修整技術(shù)在某種程度上會去除一些不合理的模糊劃分,但是這種后續(xù)處理方法勢必也影響了分類的精度.
我們所提出的模糊分類器RCC-DTSK-C類似于層次狀的TSK模糊分類器,但是有本質(zhì)的區(qū)別,它能有效地避免TSK模糊分類器所面臨的巨大挑戰(zhàn).這一點在文后有詳細(xì)的報道.
深度學(xué)習(xí)理論已經(jīng)成為當(dāng)前研究的熱點,它在很多領(lǐng)域都取得了成功[16?27].我們知道,深度結(jié)構(gòu)能夠快速而有效地捕獲源數(shù)據(jù)中的細(xì)節(jié),而恰好這些細(xì)節(jié)有時候卻能更好地表達(dá)可解釋性.
本文利用棧式結(jié)構(gòu)[28]構(gòu)造深度TSK模糊分類器來學(xué)習(xí)模糊規(guī)則,以提高分類性能.深度結(jié)構(gòu)能夠估算TSK模糊分類器的預(yù)測誤差,棧式結(jié)構(gòu)可以幫助我們解決困難的非凸優(yōu)化問題,而這些問題也正是深度學(xué)習(xí)要解決的.
本文基于以下幾種考慮構(gòu)造了可解釋性很強的TSK模糊分類器.
(1) 模糊劃分?jǐn)?shù)不確定,完全隨機生成,比如隨機生成3個模糊劃分,對應(yīng)高斯隸屬函數(shù)中心點為[0,0.5,1],其語義表示為{差,中等,好};再如隨機生成5個模糊劃分,對應(yīng)高斯隸屬函數(shù)中心點為[0,0.25,0.5,0.75,1],其語義表示為{很差,差,中等,好,非常好};
(2) 隨機選取源數(shù)據(jù)集中的部分或者大部分特征數(shù)據(jù);
(3) 每個基訓(xùn)練單元中的模糊分類器擁有相同的輸入空間;
(4) 由于0階TSK模糊分類器的輸出結(jié)果是常數(shù),對于系統(tǒng)易于分析和表達(dá),本文將以0階TSK模糊系統(tǒng)為基礎(chǔ)訓(xùn)練模型,探討隨機模糊劃分和規(guī)則組合的深度0階TSK模糊系統(tǒng)的建模方法.
根據(jù)文獻[1],經(jīng)典模糊系統(tǒng)主要有Takagi-Sugeno-Kang模糊系統(tǒng)(TSK-FS)、Mamdani-Larsen模糊系統(tǒng)(ML-FS)[1]和廣義模糊系統(tǒng)(GFM)[1]這3種.對于經(jīng)典TSK-FS而言,其模糊規(guī)則表示為
這里,x=[x1,x2,…,xd]T為輸入向量,表示第i個輸入變量xi所對應(yīng)的第k條規(guī)則描述的模糊子集,K代表模糊規(guī)則數(shù).每條規(guī)則都與x相對應(yīng),同時把輸入空間的模糊子集Ak∈Rd映射到輸出空間的模糊子集fk(x),其中,Ak表示為則為模糊子集fk(x)相對應(yīng)的隸屬函數(shù).那么第k條規(guī)則隸屬函數(shù)uk(x)表示為
在反模糊化之前,若采用重心反模糊化操作,則最終的輸出f(x)即可描述為
經(jīng)典模糊系統(tǒng)模型可以分為TSK模糊系統(tǒng)、ML模糊系統(tǒng)和GFM模糊系統(tǒng).對于ML模糊系統(tǒng),其模糊規(guī)則表示為
對于GFM模糊系統(tǒng),其模糊規(guī)則表示為
其中,Bk(?)表示ML模型中第k條模糊規(guī)則對應(yīng)的模糊集,bk和vk分別稱為質(zhì)心和模糊系數(shù).
在公式(11)和公式(12)中,ujk表示為xj=(xj1,xj2,…,xjd)T隸屬于第k類的隸屬程度.這里,h為尺度參數(shù),該尺度參數(shù)可以人為地調(diào)節(jié).
根據(jù)文獻[30],有:
即0階TSK的輸出y0則可表示為
以上描述可參見文獻[2].由此可知,模糊規(guī)則假設(shè)的參數(shù)確定后,模糊規(guī)則的參數(shù)學(xué)習(xí)問題可轉(zhuǎn)化為線性回歸問題[1,31]來求解.這就使得在系統(tǒng)建模時,用線性回歸模型替代TSK來進行處理.
通常情況下,0階TSK模糊分類器的分類性能比1階TSK差.但是1階TSK模糊分類器很難對每條模糊規(guī)則下的(d+1)參數(shù)給出清晰的解釋.當(dāng)每條規(guī)則下僅有1個參數(shù),那么的正負(fù)值就很容易解釋為屬于或者不屬于第k類的度值[30].本文提出深度結(jié)構(gòu)的目的就是提高分類性能,且保證RCC-DTSK-C具有高可解釋性.因此,本文使用0階TSK模糊分類器作為基訓(xùn)練單元構(gòu)造深度TSK模糊分類器RCC-DTSK-C.
這里,我們提出一個棧式結(jié)構(gòu)的深度模糊學(xué)習(xí)模型RCC-DTSK-C.該模型利用0-階TSK模糊分類器作為一個基訓(xùn)練模塊.
為了更方便解釋基訓(xùn)練單元的實現(xiàn)機制,此處以單輸出0階TSK模糊分類器為例(如圖1所示).
Fig.1 Base training unit corresponding to single output 0-order TSK fuzzy classifier圖1 單輸出0階TSK模糊分類器對應(yīng)的基訓(xùn)練單元
我們的工作過程分為以下幾步.
(1) 直接采用P個高斯隸屬函數(shù),分別為F1,F2,…,FP,中心為[0/(P?1),1/(P?1),…,(P?1)/(P?1)].例如,如果P=3,那么隸屬函數(shù)表示為F1,F2,F3,中心為[0,0.5,1],它們的語義解釋為:差、中等、好.
(2) 隨機生成特征選擇矩陣FSM,其每一元素值通過隨機分配0,1進行賦值.即FSM[fsmik]d×K:當(dāng)fsmik=0時,表示第i維屬性未被選中;否則,表示已被選中.其中,i=1,2,…,d,k=1,2,…,K.
(3) 隨機生成規(guī)則組合矩陣RRC(random rule-combination matrix),其元素值由隨機生成的0,1二值構(gòu)成.RRC[3,1,4]=1表示第4條規(guī)則的第3個輸入特征采用“非常差”的高斯函數(shù),即第3維屬性的F1被選中,它將被用在第4規(guī)則中.
通過以上分析,在這種0階TSK模糊分類器中所有規(guī)則可改寫為(以5維輸入空間的第k條規(guī)則為例)
其中,“Can be ignored”表示當(dāng)前這一維特征丟棄(未被選中).
關(guān)于本文為什么要使用棧式結(jié)構(gòu),后文有詳細(xì)的解釋,此處只介紹棧式結(jié)構(gòu)的構(gòu)成.X作為第j個基訓(xùn)練單元的輸入,即Xj=X.當(dāng)運行第j個基訓(xùn)練單元后,它就生成預(yù)測結(jié)果.根據(jù)棧式原理,RCC-DTSK-C將預(yù)測結(jié)果隨機投影到源訓(xùn)練集Xj中.最終,第j+1個0階TSK模糊分類器的輸出由源訓(xùn)練集Xj與第j個基訓(xùn)練單元后的隨機投影(如圖2所示),即
其中,Yj是第j個基訓(xùn)練單元的輸出;Rj是一個隨機投影矩陣,其元素值由0或者1隨機賦值;γ是一個很小的常數(shù).
Fig.2 Structure of RCC-DTSK-C with single output圖2 單輸出的RCC-DTSK-C結(jié)構(gòu)
近年來報道了很多關(guān)于TSK模糊模型及其應(yīng)用工作[32?34],這些工作大都構(gòu)造了一些不同的模糊分類器去驗證分類性能和獲取高的可解釋性.基于棧式結(jié)構(gòu)的思想,圖1提出了一個基訓(xùn)練單位模型.該模型由單一輸出的0階TSK模糊分類器構(gòu)成.圖2構(gòu)造了一個新的深度TSK模糊分類器.為了保證可解釋性和滿足Kuncheva在文獻[35]中的陳述:如果隸屬函數(shù)的整個選擇是不一致的或者隸屬函數(shù)的形狀是不規(guī)則的,那么它們也不太可能與語言準(zhǔn)確地關(guān)聯(lián).與其他報道算法不同的是,我們所提的方法通過確定隸屬函數(shù)的中心很好地解釋了隸屬函數(shù)不規(guī)則和語言標(biāo)簽歧義的問題.我們隨機引用了P個高斯型的隸屬函數(shù)F1,F2,…,FP,比如P=3,它們的標(biāo)簽標(biāo)記為F1:低,F2:中等,F3:高.它們分別中心化為[0,0.5,1].我們認(rèn)為,規(guī)則的可解釋性是設(shè)置分類器時值得考慮的一個非常重要的部分.
通常情況下,我們考慮有N對數(shù)據(jù)構(gòu)成的訓(xùn)練集(xn,tn),其中,xn是特征向量,xn∈Rd;tn是相應(yīng)輸入特征向量的標(biāo)簽.為了方便,我們定義一個矩陣X作為訓(xùn)練集,T訓(xùn)練樣本的類標(biāo)簽.設(shè)置X1作為原始輸入的第1層,即X1=X.
我們這里提出的深度0階TSK模糊分類器RCC-DTSK-C是深度學(xué)習(xí)的又一次嘗試.該分類器構(gòu)建機制類似于多層的極限學(xué)習(xí)機ELM,但是有本質(zhì)的不同.在RCC-DTSK-C中,把模糊規(guī)則映射到多層TSK的每一個隱含層中.
與隨機構(gòu)建TSK的策略類似,RCC-DTSK-C隨機分配了高斯函數(shù)的標(biāo)準(zhǔn)差、隨機規(guī)則組合矩陣RRC以及特征選擇矩陣FSM.RCC-DTSK-C利用由0或1二進制構(gòu)成的RRC決定在某一個規(guī)則中某一個輸入屬性的哪個隸屬函數(shù)被使用.RCC-DTSK-C提出的最大的優(yōu)點是允許隸屬函數(shù)不連續(xù).比如,基于RRC,對于某個規(guī)則的輸入屬性,隸屬函數(shù)1或者隸屬函數(shù)4被選中,這就意味著RCC-DTSK-C僅僅考慮F1和F4,而隸屬函數(shù)則不予考慮.然而這與文獻[36]中提出的方法有區(qū)別,文獻[36]方法僅限于使用連續(xù)的隸屬函數(shù).那么對于上面例子而言,文獻[36]中提到的方法顯然不能使用,它應(yīng)該修改為:對于該條規(guī)則的輸入屬性而言,所有隸屬函數(shù)都應(yīng)該被考慮.換句話說,在F1,F2,…,FP之間的每一個隸屬函數(shù)都應(yīng)該被考慮.當(dāng)然,這就不可避免地計算了很多無關(guān)緊要的隸屬函數(shù)值,最終肯定會影響分類的精度.此外,根據(jù)后續(xù)迭代層次的數(shù)目劃分了輸入空間,我們使用上述設(shè)置標(biāo)簽的方法(F1:特別特別差,F2:特別差,…,FP:特別特別好)對輸入屬性進行劃分,于是對每一輸入屬性就得到了P個劃分.這里我們還設(shè)置了“Can be ignored”,利用“Can be ignored”除去部分屬性,這樣,模糊if-then規(guī)則就可以被重新定義.正如上面提到的每一個計算出的模糊函數(shù)值代表了一個有效的模糊輸入屬性,這個模糊輸入屬性被翻譯成非常有用的規(guī)則.舉例如下:
該條規(guī)則就可以重新寫成:
對于RCC-DTSK-C,隨機輸入規(guī)則數(shù)(隱含層節(jié)點數(shù)),輸出y的值通過一個方程快速的計算得到.
圖1展示了典型的3層TSK結(jié)構(gòu).與圖1類似,圖2展示了RCC-DTSK-C的基本思想.這里值得注意的是,我們所提的方法可以應(yīng)用于多輸入和多輸出系統(tǒng),具體細(xì)節(jié)將在后面章節(jié)詳細(xì)討論.
對于一個含有N個數(shù)據(jù)的訓(xùn)練集(含有標(biāo)簽)可用向量(xn,tn)表示,(xn,tn)∈Rn×Rm,其中,xn表示特征數(shù)據(jù),tn表示標(biāo)簽.
根據(jù)第2.3節(jié)的描述,本節(jié)給出RCC-DTSK-C訓(xùn)練算法,具體訓(xùn)練步驟如下.
輸入和輸出:
輸入:訓(xùn)練集X=[x1,x2,…,xN]T,標(biāo)簽T=[t1,t2,…,tN]T,xi∈Rn,ti∈Rc;
輸出:預(yù)測函數(shù)以及每個基訓(xùn)練單元的模糊規(guī)則.
初始化:
隨機選擇模糊規(guī)則數(shù)L;隨機選擇深度DEP;模糊劃分?jǐn)?shù)P;
隨機生成P個高斯函數(shù)的核寬φp(φp∈R+),p=1,2,…,P
X1=X
訓(xùn)練過程:
fordep=1 toDEPdo
· 算法分析1
算法1中提出的規(guī)則組合矩陣RRC、特征選擇矩陣FSM以及生成P個高斯函數(shù)核寬φ,它們元素的值都是隨機生成,很顯然,所得到的預(yù)測結(jié)果一般來講不是很精確,但是該結(jié)果要比隨機猜想的值要好一些.我們觀察算法1為什么可以從定性的角度獲得增強的分類性能.在步驟12中,我們可以清楚地看到,算法的每一個基訓(xùn)練單元都在相同的數(shù)據(jù)空間上運行,而原來的訓(xùn)練集落在這個數(shù)據(jù)空間中.因此,參與各基訓(xùn)練單元的模糊規(guī)則的每個特征都具有相同的物理解釋.更重要的是,每個基訓(xùn)練單元運行在原來的訓(xùn)練集加上隨機投影,即γYdepRdep.因此,即使這些附近的數(shù)據(jù)具有相同的標(biāo)簽,由于Rdep的隨機性,相同的輸出Ydep也可能會引發(fā)不同的轉(zhuǎn)移到原始訓(xùn)練集中.我們說,對于RCC-DTSK,更好的線性可分性最終可以預(yù)測,算法1的確可以提高分類性能.
· 算法分析2
· 算法分析3
下面分析算法的時間復(fù)雜度.我們首先分析第dep個基訓(xùn)練單元的時間復(fù)雜度.根據(jù)算法,第dep個基訓(xùn)練單元的時間復(fù)雜度主要包括隨機生成規(guī)則組合矩陣RRC的時間復(fù)雜度、生成特征選擇矩陣FSM的時間復(fù)雜度、計算規(guī)則層輸出矩陣O的時間復(fù)雜度、計算輸出權(quán)重W的時間復(fù)雜度.對于RRCdep,其時間復(fù)雜度是O(PdKdep).對于FSMdep,其時間復(fù)雜度是O(dKdep).Odep的時間復(fù)雜度可由步驟6~步驟8得到,其時間復(fù)雜度是O(PNd2Kdep).很明顯,步驟9中Wdep的時間復(fù)雜度是O(N3+NKdep+Nm),步驟10的時間復(fù)雜度是O(NmKdep),步驟11和步驟12的時間復(fù)雜度是O(Nd+Nmd).所以,由于m非常小,那么第dep個基訓(xùn)練單元的時間復(fù)雜度為
其中,d是特征數(shù),Kdep是模糊規(guī)則數(shù).訓(xùn)練模型的深度是DEP,所以整個RCC-DTSK-C時間復(fù)雜度粗略地表示為.在每個基訓(xùn)練單元里,模糊規(guī)則數(shù)K相對來說是比較小的,如果樣本數(shù)N不是太大,那么該時間復(fù)雜度還是可以接受的.
為了進一步表現(xiàn)RCC-DTSK-C的分類性能,我們采用了如表1所羅列的6個數(shù)據(jù)集[38],這些數(shù)據(jù)集可以從https://archive.ics.uci.edu/ml/datasets.html下載,其中包括小/中等/大樣本數(shù)據(jù)集,大樣本數(shù)據(jù)集Airline可以從http://stat-computing.org/dataexpo/2009/下載.我們還采用了0階TSK模糊分類器、1階TSK模糊分類器以及KEEL軟件工具箱中的兩個進化模糊分類器(FURIA & C4.5)在這些數(shù)據(jù)集中進行了對比.KEEL(基于進化學(xué)習(xí)的知識提取)是一種免費軟件(GPLv3)Java套件,它允許用戶評估不同類型的數(shù)據(jù)挖掘問題的進化學(xué)習(xí)和基于軟件計算的技術(shù)的行為:回歸、分類、聚類、模式挖掘等等.KEEL軟件工具箱可從http:www.keel.es/download.php下載.受論文版面的限制,關(guān)于數(shù)據(jù)集更多的細(xì)節(jié)可以參考各自的網(wǎng)頁.對于數(shù)據(jù)集Airline,1987年10月~2008年4月,航空公司的數(shù)據(jù)集包括與美國的所有商業(yè)航班的航班到達(dá)和離港詳細(xì)信息.這是一個大型數(shù)據(jù)集,共有近1.2億條記錄,占用了1.6千兆字節(jié)的壓縮空間和12千兆字節(jié)[39].我們挑選了1990年~1993年這4年的數(shù)據(jù).在我們的實驗中,所有數(shù)據(jù)集都被歸一化.我們將每個數(shù)據(jù)集樣本的75%數(shù)據(jù)用于訓(xùn)練,剩余部分用于測試.我們使用分類精度和訓(xùn)練/測試時間作為性能指標(biāo)來評估所有比較分類器的性能,其中,分類精度定義為正確分類的樣本數(shù)與總樣本數(shù)的比率.所有實驗都在具有64GB內(nèi)存的E5-2609 v2 2.5GHZ CPU(2個處理器)的計算機上進行.
Table 1 Datasets表1 數(shù)據(jù)集
我們知道,雖然有很多不同的分類器被開發(fā)出來,比如BP神經(jīng)網(wǎng)絡(luò)和支持向量機,但是我們這里采用常見的0階和1階TSK模糊分類器[1,2]作為比較的方法,因為分類的準(zhǔn)確性和可解釋性可以同時從它們觀察得到.而其他的分類器,比如支持向量機SVM和BP網(wǎng)絡(luò)就像黑盒子.RCC-DTSK-C與其他非模糊深度分類器相比有如下優(yōu)勢.
a) 訓(xùn)練計算量小:大多數(shù)非模糊深度分類器訓(xùn)練通常需要很多次迭代,無疑會增加訓(xùn)練的計算量;而RCC-DTSK-C在訓(xùn)練過程中無需迭代,極大地提高了訓(xùn)練效率.
b) 無需大量訓(xùn)練樣本:大多數(shù)非模糊深度分類器在很大程度上要求大量的訓(xùn)練樣本,而RCC-DTSK-C在訓(xùn)練過程中只需要隨機挑選部分樣本數(shù)據(jù)即可.
c) 訓(xùn)練結(jié)果具有強的可解釋性:大多數(shù)非模糊深度分類器通常輸出結(jié)果難以解釋,而RCC-DTSK-C的輸出具有強的可解釋性.
3.2.1 分類器參數(shù)設(shè)置
下面我們列出這幾種分類器各自的參數(shù)設(shè)置.因為0階TSK和1階TSK模糊分類器都用到模糊聚類方法(fuzzy c-means,簡稱FCM)和SVM,所以先介紹FCM和SVM的參數(shù)設(shè)置.SVM的正則化參數(shù)設(shè)置通過網(wǎng)格搜索從0.01到100,步長是0.1,FCM中的聚類數(shù)和模糊規(guī)則數(shù)相等,尺度參數(shù)r值的個數(shù)可以設(shè)置網(wǎng)格搜索從0.01到100,步長是是0.1.對于分類器FURIA和C4.5,它們的參數(shù)則采用KEEL軟件工具箱中的默認(rèn)值.對于RCCDTSK-C,層數(shù)DEP的取值為2或3,數(shù)據(jù)集Balloons每一層的模糊規(guī)則數(shù)搜索范圍設(shè)置為2~4,步長為1;數(shù)據(jù)集Climate-Model-Simulation-Crashes每一層的模糊規(guī)則數(shù)搜索范圍設(shè)置為3~5,步長為1;數(shù)據(jù)集Airline每一層的模糊規(guī)則數(shù)搜索范圍設(shè)置為150~400,步長為50;數(shù)據(jù)集Balance-Scale每一層的模糊規(guī)則數(shù)搜索范圍設(shè)置為5到30,步長為1;數(shù)據(jù)集Abalone每一層的模糊規(guī)則數(shù)搜索范圍設(shè)置為10~25,步長為1;數(shù)據(jù)集Yeast每一層的模糊規(guī)則數(shù)搜索范圍設(shè)置為5~15,步長為1.
3.2.2 分類性能比較
由于對輸入特征和模糊隸屬函數(shù)都是隨機選擇的,那么對于一個數(shù)據(jù)集而言,RCC-DTSK-C的結(jié)構(gòu)就有多種組合.對每個數(shù)據(jù)集,我們稍微改變每層規(guī)則數(shù),并同時運行10次,取平均值,得到了平均模糊規(guī)則數(shù)、平均訓(xùn)練精度/平均測試精度、平均訓(xùn)練時間/平均測試時間.最后,我們也列出了所有數(shù)據(jù)集的平均模糊規(guī)則數(shù)、平均訓(xùn)練精度/平均測試精度.結(jié)果見表2、表3.
Table 2 Average number of fuzzy rules and average classification accuracies (%)表2 平均模糊規(guī)則數(shù)和平均分類精度 (%)
Table 3 Average training time and test time表3 平均訓(xùn)練時間和測試時間
根據(jù)表2,我們發(fā)現(xiàn),RCC-DTSK-C幾乎優(yōu)于所有其他幾個分類器,且取得了最好的平均分類訓(xùn)練精度,分別是80.63%,99.20%,91.98%和57.81%.對于AIR大樣本數(shù)據(jù)集,0階TSK、1階TSK、FURIA和C4.5均運行相當(dāng)緩慢,表2中用“---”標(biāo)記;而RCC-DTSK-FC也能正常運行,這也直接說明了RCC-DTSK-C適用于大樣本數(shù)據(jù).表2中,RCC-DTSK-C的測試精度也明顯高于其他分類器,這就說明RCC-DTSK-C具有良好的泛化性能.根據(jù)表3,由于FURIA和C4.5是基于JAVA平臺的軟件系統(tǒng),時間對比沒有意義,在表3中用“---”標(biāo)記,這里用RCCDTSK-C與0階TSK和1階TSK模糊分類器進行了對比.我們發(fā)現(xiàn),RCC-DTSK-C運行慢于0階TSK模糊分類器,但是明顯快于1階TSK模糊分類器.
接下來,我們研究RCC-DTSK-C隨著層數(shù)變化而引起性能的變化.表4列出了每個數(shù)據(jù)集運行10次得到的平均訓(xùn)練精度和平均測試精度.通過實驗發(fā)現(xiàn),RCC-DTSK-FC在大多數(shù)情況下可以通過多層結(jié)構(gòu)達(dá)到令人滿意的分類性能,層數(shù)的搜索范圍為2~3.因此本文認(rèn)為,RCC-DTSK-C的深度為2或3.因為在這個范圍內(nèi),RCCDTSK-C的分類精度非常接近或者高于對比分類器的分類精度.根據(jù)分析,層數(shù)的選擇對分類精度有影響.然而如何在每個數(shù)據(jù)集上確定RCC-DTSK-C的合適層數(shù),是將來一個有趣的研究課題.
Table 4 Training accuracies and test accuracies of RCC-DTSK-C for different layers (%)表4 RCC-DTSK-C對于不同層的訓(xùn)練精度和測試精度 (%)
3.2.3 可解釋性
為了更好地描述RCC-DTSK-C的可解釋性,我們記錄了當(dāng)RCC-DTSK-C在每個數(shù)據(jù)集取得最好的精度時對應(yīng)的結(jié)構(gòu).RCC-DTSK-C規(guī)則結(jié)構(gòu)的表示形式為“第1層模糊規(guī)則數(shù)-第2層模糊規(guī)則數(shù)-…-第DEP層模糊規(guī)則數(shù)”.表4描述了各個數(shù)據(jù)集對應(yīng)最好的精度.從表4可以看出,RCC-DTSK-C獲取最好的精度時,其層數(shù)為2或3;RCC-DTSK-C獲得最好的精度時,對應(yīng)的結(jié)構(gòu)分別為4-3-2;5-3-2;350-100-50;20-10-2;25-5-2;15-4-2.比如,4-3-2意味著RCC-DTSK-FC有3層結(jié)構(gòu):第1層、第2層和第3層的模糊規(guī)則數(shù)分別是4,3,2.
限于文章篇幅,我們這里以數(shù)據(jù)集BAL為例進一步展示RCC-DTSK-C的可解釋性.由于RCC-DTSK-C的可解釋性與RCC-DTSK-C的相應(yīng)結(jié)構(gòu)和模糊規(guī)則有關(guān),在前面的實驗中,RCC-DTSK-C在數(shù)據(jù)集BAL運行的最好精度是80.92%,其對應(yīng)的結(jié)構(gòu)是4-3-2.為了方便觀察模糊規(guī)則的可解釋性,我們?nèi)?個模糊劃分?jǐn)?shù),且在RCC-DTSK-C獲得的所有模糊規(guī)則中提取了前4個規(guī)則,然后在表5中對這些規(guī)則進行了總結(jié).
Table 5 Rule presentation表5 規(guī)則展示
表5中,“Can be ignored”表示在相應(yīng)的模糊規(guī)則中沒有選擇相應(yīng)的特征.比如,我們可以方便地把表5中的規(guī)則1表示為:
其中,表5中的+1,?1分別表示數(shù)據(jù)集BAL中對應(yīng)的”Inflated T”和”Inflated F”.
很明顯,這種模糊規(guī)則具有很高的可解釋性.
為了對RCC-DTSK-C的可解釋性進行更深入的研究,表6列出了模糊劃分、特征選擇矩陣、規(guī)則組合矩陣、前4個模糊規(guī)則的學(xué)習(xí)參數(shù)以及每一層模糊規(guī)則“THEN-part”的輸出.對于模糊劃分(模糊隸屬函數(shù)),不同的專家有自己的建議和理解.換句話說,對于模糊規(guī)則,其解釋可能因不同的專家而異,從而只能提供模糊規(guī)則的底層解釋.例如,第1個模糊規(guī)則中的模糊劃分可以解釋為語言意義由氣球決策專家決定.因此,對于DEP=3,我們獲得了相應(yīng)的語言規(guī)則,見表6.
Table 6 Four rules presentation for BAL dataset表6 對于數(shù)據(jù)集BAL的4條規(guī)則展示
3.2.4 非參數(shù)統(tǒng)計分析
Milton Friedman[40]開發(fā)了非參數(shù)統(tǒng)計測試,即Friedman等級測試,用于檢測多個測試中的差異.這里,我們對表1中列出的所有數(shù)據(jù)集進行Friedman排名測試.Friedman排名測試用于評估在這些數(shù)據(jù)集的多個比較方法中是否存在差異.圖3顯示了Friedman排名測試中這5個分類器對所有數(shù)據(jù)集的排名結(jié)果.從圖3可以看出,RCC-DTSK-C在這些分類器中保持最好的排名.Friedman測試得到的相應(yīng)p值為0,這表明在所有的分類器中確實存在顯著的差異.總之,這些結(jié)果也表明RCC-DTSK-C明顯優(yōu)于其他幾種分類器.
Fig.3 Nonparametric statistical analysis圖3 非參數(shù)統(tǒng)計分析
本文通過棧式結(jié)構(gòu)原理,以提高分類性能和較強的可解釋性為目的,提出一種深度TSK模糊分類器RCCDTSK-C.RCC-DTSK-C以棧式方式構(gòu)建,提出隨機選取特征,不固定模糊劃分和隨機規(guī)則組合,生成每一個basetraining中的模糊規(guī)則.在RCC-DTSK-C的第1層和其他隱含層中始終保持相同的數(shù)據(jù)空間,使得每個隱含層的每個特征仍然保持與輸入層相同的物理意義.我們對所有數(shù)據(jù)集的實證結(jié)果表明,RCC-DTSK-C在分類性能上明顯優(yōu)于其他幾種分類器.更重要的是,通過對數(shù)據(jù)集BAL的進一步研究發(fā)現(xiàn),RCC-DTSK-C還具有較強的可解釋性.