方志堅(jiān) 傅仰耿 陳建華
(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州, 350116)
隨著互聯(lián)網(wǎng)絡(luò)及媒體設(shè)備的高速發(fā)展,各個(gè)行業(yè)領(lǐng)域每時(shí)每刻均在產(chǎn)生大量的數(shù)據(jù)。數(shù)據(jù)信息量的激增導(dǎo)致了海量數(shù)據(jù)庫(kù)的產(chǎn)生,如何在海量信息源中提取隱藏和有價(jià)值的信息,并應(yīng)用這些信息構(gòu)建決策支持的模型一直在商務(wù)管理、生產(chǎn)控制和市場(chǎng)分析等領(lǐng)域有著強(qiáng)烈的需求。因此數(shù)據(jù)挖掘如今成為一個(gè)熱門(mén)的研究領(lǐng)域。數(shù)據(jù)分類(lèi)是數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要的分支,這是由于大多數(shù)的實(shí)際工程問(wèn)題均能轉(zhuǎn)換成分類(lèi)問(wèn)題。分類(lèi)就是利用已知標(biāo)簽的數(shù)據(jù)來(lái)構(gòu)建相關(guān)的模型,進(jìn)而確定未知類(lèi)別數(shù)據(jù)標(biāo)簽的決策過(guò)程。
目前已經(jīng)有許多經(jīng)典的分類(lèi)算法被提出,例如:K近鄰[1]、支持向量機(jī)[2]和粗糙集[3]等方法。K近鄰算法原理相對(duì)簡(jiǎn)單,方法易于實(shí)現(xiàn),并且支持增量學(xué)習(xí),具有對(duì)復(fù)雜決策空間進(jìn)行建模的能力,其缺點(diǎn)在于尋找近鄰點(diǎn)需要大量的計(jì)算,且當(dāng)數(shù)據(jù)中包含弱相關(guān)屬性時(shí),其分類(lèi)精度會(huì)下降;支持向量機(jī)在已知核函數(shù)的情況下,能夠大大減少對(duì)高維問(wèn)題的求解復(fù)雜度,其在一定程度上具有泛化推廣的能力,因此也導(dǎo)致了支持向量機(jī)的分類(lèi)精度十分依賴(lài)核函數(shù)的選擇,而如何選擇核函數(shù)一直是一個(gè)公認(rèn)的難題;粗糙集的優(yōu)點(diǎn)在于不需要附加信息或先驗(yàn)知識(shí),就能夠處理存在不精確乃至不完整數(shù)據(jù)的問(wèn)題。但它只能處理離散化的屬性,且產(chǎn)生的決策規(guī)則不穩(wěn)定,準(zhǔn)確率有待提高。
置信規(guī)則庫(kù)推理方法(Belief rule-base inference methodology using evidential reasoning approach, RIMER)最早由Yang等[4]提出,囊括了傳統(tǒng)IF-THEN規(guī)則庫(kù)[5]、D-S證據(jù)理論[6,7]、決策理論[8]和模糊理論[9]等方面的知識(shí),具有對(duì)不完整或不精確信息進(jìn)行建模的能力。當(dāng)前,以RIMER為核心的置信規(guī)則庫(kù)(Belief rule base,BRB)系統(tǒng)已經(jīng)廣泛應(yīng)用于輸油管道檢漏[10]、工程系統(tǒng)安全評(píng)估[11]和軍事能力評(píng)估[12]等工程領(lǐng)域。傳統(tǒng)的RIMER方法不適用于屬性數(shù)量過(guò)多的問(wèn)題,這是由于BRB在構(gòu)建過(guò)程中需要遍歷所有前件屬性的各個(gè)候選值,因此隨著屬性數(shù)量的增多,BRB的規(guī)則條數(shù)將呈指數(shù)級(jí)增長(zhǎng),這必然會(huì)導(dǎo)致“組合爆炸”問(wèn)題的產(chǎn)生。鑒于此,前人提出了通過(guò)線(xiàn)性組合的方式構(gòu)建規(guī)則庫(kù),使得規(guī)則庫(kù)的條數(shù)不再隨屬性數(shù)量的增長(zhǎng)而增長(zhǎng)。由于規(guī)則庫(kù)在結(jié)構(gòu)上發(fā)生了改變,使得原有方法中的激活公式不再適用于現(xiàn)有方法。因此,Chang等[13]將原有方法中的激活規(guī)則改為激活屬性,即不再關(guān)注哪條規(guī)則被激活,而是注重前件屬性的哪些候選值被激活。將BRB應(yīng)用于分類(lèi)算法中,Ye等[14]提出設(shè)定規(guī)則數(shù)等于分類(lèi)數(shù),以輸入值和候選值之間距離倒數(shù)的歸一化值作為個(gè)體匹配度,即對(duì)于任何輸入值,規(guī)則庫(kù)中的每條規(guī)則都將被激活,激活權(quán)重表現(xiàn)為每條規(guī)則對(duì)分類(lèi)結(jié)果的貢獻(xiàn)度。這些方法不僅解決了“組合爆炸”問(wèn)題,而且在分類(lèi)準(zhǔn)確性上獲得了不錯(cuò)的效果。然而采用線(xiàn)性組合方式也存在兩點(diǎn)不足:(1)線(xiàn)性組合迫使每個(gè)前件屬性候選值的個(gè)數(shù)必須相等,這也就忽略了各個(gè)前件屬性間的差異;(2)激活權(quán)重公式的改變導(dǎo)致后件置信度受到了來(lái)自非激活前件屬性候選值的影響,即在原始RIMER方法中,參與證據(jù)推理(Evidertail reasoning, ER)合成的置信度所對(duì)應(yīng)規(guī)則的候選值都存在個(gè)體匹配度,而采用線(xiàn)性組合的方式,常常出現(xiàn)個(gè)體匹配度為0的屬性參與激活合成,這必然會(huì)影響后件置信度。
本文提出一種改進(jìn)置信規(guī)則庫(kù)推理的分類(lèi)方法。首先,在文獻(xiàn)[13]研究的基礎(chǔ)上,將評(píng)價(jià)等級(jí)個(gè)數(shù)設(shè)定為兩個(gè),即后件評(píng)價(jià)等級(jí)個(gè)數(shù)不再等于分類(lèi)數(shù)。對(duì)于一組輸入值,RIMER過(guò)程只得出該輸入值是否滿(mǎn)足某種特定條件,以及以多大的置信度滿(mǎn)足該條件。其次,對(duì)于某一具體問(wèn)題不再局限于設(shè)定一個(gè)規(guī)則庫(kù),而是同時(shí)存在多個(gè)規(guī)則庫(kù)進(jìn)行決策。依據(jù)數(shù)據(jù)的特性,采用One-versus-One和有向無(wú)環(huán)圖來(lái)構(gòu)建決策模型。最后,再根據(jù)各個(gè)規(guī)則庫(kù)的決策結(jié)果進(jìn)行類(lèi)別“投票”,票數(shù)最高的即為最終分類(lèi)結(jié)果。
采用規(guī)則形式表示相關(guān)信息在人工智能領(lǐng)域是一種非常常見(jiàn)的方式,在置信規(guī)則庫(kù)推理方法中,規(guī)則化的信息表示體現(xiàn)在了置信規(guī)則庫(kù)中。
置信規(guī)則庫(kù)由傳統(tǒng)IF-THEN規(guī)則庫(kù)演化而來(lái),Yang等將置信框架引入IF-THEN規(guī)則中,使得傳統(tǒng)的IF-THEN規(guī)則能夠合理地表示不完整或不確定信息的知識(shí),從而提出新的規(guī)則表達(dá)式。新的規(guī)則即稱(chēng)為置信規(guī)則,其中第k條置信規(guī)則可表示為
(1)
BRB系統(tǒng)的規(guī)則推理由計(jì)算激活權(quán)重、修正后件置信度和合成激活規(guī)則3步組成。在計(jì)算激活權(quán)重前,需先計(jì)算各個(gè)前件屬性候選值的個(gè)體匹配度,計(jì)算方法為
(2)
其中,輸入值向量表示為x={x1,x2,…,xT}。
第k條規(guī)則激活權(quán)重的計(jì)算公式為
(3)
(4)
式中:Ut表示第k條規(guī)則的第t個(gè)前件屬性;Rk表示第k條規(guī)則的前件屬性集合。
由激活規(guī)則的后件置信度和激活權(quán)重可以求得基本屬性的基本可信值為
mj,k=ωkβj,k
(5)
(6)
(7)
最后將激活的規(guī)則使用ER法則合成,得到相對(duì)于評(píng)價(jià)等級(jí)Dj的基本可信度分配值,即
(8)
(9)
(10)
(11)
(12)
(13)
圖1 BRB參數(shù)訓(xùn)練模型Fig.1 BRB parameter training model
專(zhuān)家根據(jù)歷史信息和先驗(yàn)知識(shí)給定的初始BRB系統(tǒng)存在主觀(guān)局限性,特別是當(dāng)BRB系統(tǒng)應(yīng)用于復(fù)雜決策問(wèn)題時(shí),人為方式難以精確地給出這些參數(shù)值。故Yang等[15]提出了BRB系統(tǒng)參數(shù)訓(xùn)練模型,通過(guò)比較觀(guān)測(cè)輸出和推導(dǎo)輸出的差值來(lái)矯正BRB系統(tǒng)的參數(shù),進(jìn)而提高RIMER方法決策的準(zhǔn)確性。訓(xùn)練模型如圖1所示。參數(shù)優(yōu)化模型可表示為
min{Δ(P)}
s.t.A(P)=0,B(P)≥0
(14)
式中:p=(βi,k,θk,δk,i)為待訓(xùn)練的參數(shù)向量;Δ(P)為目標(biāo)函數(shù),當(dāng)Δ(P)越小時(shí),表明該BRB系統(tǒng)更符合實(shí)際系統(tǒng),故最小化Δ(P)是參數(shù)訓(xùn)練的最終目的;A(P)和B(P)分別是等式和不等式約束條件。在參數(shù)訓(xùn)練過(guò)程中,文獻(xiàn)[15]給出如下規(guī)定
(15)
(2) 標(biāo)準(zhǔn)化規(guī)則權(quán)重θk,使其不小于0且不大于1,即
0≤θk≤1k=1,2,…,L
(16)
(3) 任意一條置信規(guī)則的后件置信度均不小于0且不大于1,其中第k條規(guī)則的第j個(gè)評(píng)價(jià)等級(jí)上的置信度需滿(mǎn)足
0≤βj,k≤1j=1,2,…,N;k=1,2,…,L
(17)
(4) 假設(shè)第k條規(guī)則是完整的,即輸入不包含不確定或模糊信息,則該條規(guī)則的后件置信度之和等于1,即
(18)
目前,置信規(guī)則庫(kù)推理方法應(yīng)用于分類(lèi)已經(jīng)在淋巴結(jié)疾病診斷[16]和UCI分類(lèi)數(shù)據(jù)集的測(cè)試[17]上取得了一定的進(jìn)展。采用置信規(guī)則庫(kù)推理方法解決分類(lèi)問(wèn)題主要有以下兩種構(gòu)建規(guī)則庫(kù)策略。
(1)采用遍歷前件屬性候選值的方式,無(wú)需改變?cè)糂RB系統(tǒng),在處理分類(lèi)問(wèn)題時(shí),只需要將后件置信度轉(zhuǎn)換成分類(lèi)結(jié)果信息,即可直接將RIMER方法應(yīng)用到分類(lèi)問(wèn)題中。然而該方法只能應(yīng)用于數(shù)據(jù)屬性數(shù)目較少的情況,這是由于遍歷組合方式繼承了傳統(tǒng)RIMER方法中固有的“組合爆炸”問(wèn)題。隨著數(shù)據(jù)屬性數(shù)目的增多,規(guī)則庫(kù)的條數(shù)將呈指數(shù)級(jí)增長(zhǎng)。以數(shù)據(jù)集Wine為例,其數(shù)據(jù)屬性個(gè)數(shù)有13個(gè),假設(shè)每個(gè)前件屬性候選值的個(gè)數(shù)均為3個(gè),那么BRB的規(guī)則條數(shù)就達(dá)到了313條,此時(shí)參數(shù)訓(xùn)練所耗費(fèi)的時(shí)間是令人無(wú)法忍受的。通過(guò)遍歷組合方式構(gòu)建的規(guī)則庫(kù)大小可表示為
(19)
其中Tk表示第k個(gè)前件屬性候選值的個(gè)數(shù)。通過(guò)對(duì)UCI上210組分類(lèi)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn),前件屬性個(gè)數(shù)小于10的分類(lèi)數(shù)據(jù)集個(gè)數(shù)僅為54組,而屬性個(gè)數(shù)大于10的有156組,由此可知分類(lèi)數(shù)據(jù)通常為多屬性的情況。因此采用遍歷組合方式構(gòu)建規(guī)則庫(kù)并不適用于大部分的分類(lèi)問(wèn)題。
(2)采用線(xiàn)性組合方式構(gòu)建置信規(guī)則庫(kù)中的規(guī)則。例如,有3個(gè)前件屬性,每個(gè)前件屬性的候選值依次為:{1,2,3},{4,5,6}和{7,8,9},則通過(guò)線(xiàn)性組合方式構(gòu)建的置信規(guī)則庫(kù)為
R1:ifA1is 1∧A2is 4∧A3is 7,then{D}
R2:ifA1is 2∧A2is 5∧A3is 8,then{D}
R3:ifA1is 3∧A2is 6∧A3is 9,then{D}
(20)
可以看出,采用線(xiàn)性組合的方式,規(guī)則庫(kù)中規(guī)則的條數(shù)只與前件屬性候選值的個(gè)數(shù)有關(guān),而與前件屬性個(gè)數(shù)無(wú)關(guān),這樣就有效避免了“組合爆炸”問(wèn)題的產(chǎn)生。然而,采用線(xiàn)性組合方式構(gòu)建的置信規(guī)則庫(kù)中常常會(huì)出現(xiàn)“零激活”問(wèn)題,這是由于在計(jì)算個(gè)體匹配度時(shí),至多僅有兩個(gè)候選值的個(gè)體匹配度非零,其余的皆為零。根據(jù)式(3)可知,只要規(guī)則中存在某個(gè)前件屬性候選值的個(gè)體匹配度為零,那么該條規(guī)則的激活權(quán)重就為零,即不被激活。因此,激活權(quán)重公式可修正為
(21)
即將個(gè)體匹配度的累乘形式改為累加形式,這樣激活條件變?yōu)榱酥灰?guī)則中某個(gè)屬性候選值的個(gè)體匹配度不為零,那么該條規(guī)則就會(huì)被激活。
采用線(xiàn)性組合方式構(gòu)建的BRB分類(lèi)方法在一定程度上已能有效地解決分類(lèi)問(wèn)題,然而由于線(xiàn)性組合的方式也暴露出以下兩點(diǎn)不足:
(1)線(xiàn)性組合的方式迫使每個(gè)前件屬性候選值的個(gè)數(shù)必須相等,這樣就忽略了各個(gè)前件屬性間的差異。在原始BRB規(guī)則庫(kù)中,各個(gè)前件屬性候選值個(gè)數(shù)一般不相等,其個(gè)數(shù)往往取決于該屬性值的區(qū)間大小以及所占的權(quán)重比例,通常情況下,區(qū)間越大,比重越大,則候選值的個(gè)數(shù)也就越多。文獻(xiàn)[13]所提出的方法中,前件屬性權(quán)重已從激活規(guī)則公式中刪去,也就是說(shuō),該方法認(rèn)為各個(gè)前件屬性同等重要,這往往不可取,因?yàn)檫@樣會(huì)夸大弱屬性的效用,而弱化了強(qiáng)屬性的分類(lèi)支持度,導(dǎo)致最終的分類(lèi)準(zhǔn)確性下降。
(2)激活權(quán)重公式的改變導(dǎo)致了后件置信度受到了來(lái)自非激活前件屬性候選值的影響。即原始方法中,參與ER合成的置信度,其所對(duì)應(yīng)規(guī)則的候選值都存在個(gè)體匹配度。從修正后的激活權(quán)重公式來(lái)看,規(guī)則中存在某個(gè)屬性候選值的個(gè)體匹配度不為零,那么該條規(guī)則所攜帶的信息就會(huì)參與ER合成。倘若只有一個(gè)候選值的個(gè)體匹配度不為零,那么完全可以弱化該條規(guī)則對(duì)結(jié)果所占比重的影響。特別是當(dāng)該激活點(diǎn)屬于噪音情況時(shí),肯定會(huì)對(duì)結(jié)果造成不利的影響,使得最終的分類(lèi)準(zhǔn)確性下降。從式(8~13)的計(jì)算過(guò)程可以看出,隨著后件評(píng)價(jià)等級(jí)個(gè)數(shù)的增加,該缺點(diǎn)所帶來(lái)的影響也會(huì)隨之增大。
針對(duì)現(xiàn)有置信規(guī)則庫(kù)推理分類(lèi)方法的不足,本文提出一種二擇眾倉(cāng)決策法。對(duì)原有的方法作如下改進(jìn):
(1)將規(guī)則表達(dá)式修正為
(22)
即每條規(guī)則僅設(shè)計(jì)兩個(gè)評(píng)價(jià)等級(jí),置信規(guī)則庫(kù)的推理結(jié)果只對(duì)輸入值作出是與否的置信決策,而不再作多值判定,僅僅是在二者間選擇。其好處是規(guī)則變得簡(jiǎn)單,在處理信息時(shí)更加快捷高效,而且該設(shè)計(jì)策略能夠很好地改善第2節(jié)中所提到的第2點(diǎn)不足,從而使得分類(lèi)準(zhǔn)確性有所提高。
(2)引入眾倉(cāng)決策模型。在對(duì)規(guī)則表達(dá)式作出修正后可以很明顯地看出由于后件評(píng)價(jià)等級(jí)個(gè)數(shù)只有兩個(gè),那么由此類(lèi)規(guī)則所構(gòu)建的置信規(guī)則庫(kù)只能對(duì)二分類(lèi)問(wèn)題做出判定,而無(wú)法解決多分類(lèi)問(wèn)題。因此本文創(chuàng)新性地提出采用多規(guī)則庫(kù)的方式解決同一個(gè)分類(lèi)問(wèn)題,即每一個(gè)置信規(guī)則庫(kù)都是一個(gè)二分類(lèi)決策器,而由多個(gè)二分類(lèi)決策器構(gòu)成了眾倉(cāng)決策模型,進(jìn)而解決多分類(lèi)問(wèn)題。采用眾倉(cāng)模型后,每一個(gè)置信規(guī)則庫(kù)只關(guān)心兩個(gè)類(lèi)別間或兩個(gè)大類(lèi)別間的差異,此時(shí)每一個(gè)置信規(guī)則庫(kù)都可以有自己的前件屬性權(quán)重值。例如:存在一個(gè)4屬性、3類(lèi)別的分類(lèi)數(shù)據(jù)集,可以在兩兩類(lèi)別間設(shè)置一個(gè)置信規(guī)則庫(kù),假設(shè)區(qū)分1,2類(lèi)別僅需要前兩個(gè)屬性,那么對(duì)于第1個(gè)置信規(guī)則庫(kù)完全可以將3,4屬性的權(quán)重值設(shè)置為零。該優(yōu)點(diǎn)是現(xiàn)有置信規(guī)則庫(kù)分類(lèi)方法所不能擁有的,只有一個(gè)置信規(guī)則庫(kù)的分類(lèi)方法,其前件屬性權(quán)重必須同時(shí)考慮區(qū)別1,2,3類(lèi)。因此,采用眾倉(cāng)決策模型可以很好地解決第2節(jié)中所提到的第1點(diǎn)不足。
圖2給出了三類(lèi)別示例。如圖所示,在類(lèi)別1與類(lèi)別2間、類(lèi)別1與類(lèi)別3間找到一個(gè)可分平面十分容易,然而在類(lèi)別2與類(lèi)別3間找到一個(gè)可分平面就相對(duì)比較困難,采用現(xiàn)有的分類(lèi)方法無(wú)法直接了斷地解決該瓶頸,只能通過(guò)增加規(guī)則條數(shù)或參數(shù)訓(xùn)練復(fù)雜度的方法來(lái)解決,這必然會(huì)對(duì)類(lèi)別1產(chǎn)生影響。若是采用二擇眾倉(cāng)決策法,類(lèi)別1與類(lèi)別2間、類(lèi)別1與類(lèi)別3間的分類(lèi)器在訓(xùn)練過(guò)程中可以很快地獲得精準(zhǔn)結(jié)果,而對(duì)于類(lèi)別2與類(lèi)別3間的分類(lèi)器,在訓(xùn)練過(guò)程中就可以發(fā)現(xiàn)這是整個(gè)分類(lèi)問(wèn)題的瓶頸,這樣就不再是“黑箱”操作,而是清楚明了地知道問(wèn)題瓶頸所在的位置,此時(shí)可以通過(guò)增加規(guī)則條數(shù)或增加參數(shù)訓(xùn)練復(fù)雜度的方法來(lái)解決,同時(shí)對(duì)類(lèi)別1不會(huì)造成任何影響。這也是二擇眾倉(cāng)決策法的優(yōu)點(diǎn)之一。
圖2 三類(lèi)別示例Fig.2 Illustraction example of three categories
二擇眾倉(cāng)決策法不改變RIMER方法的整個(gè)體系結(jié)構(gòu),單個(gè)置信規(guī)則庫(kù)的所有操作都與原來(lái)一致,改變的只是評(píng)價(jià)等級(jí)個(gè)數(shù),也就是讓單個(gè)置信規(guī)則庫(kù)只解決一個(gè)小問(wèn)題,將處理結(jié)果返回給該體系外的眾倉(cāng)決策模型,該模型將多個(gè)小問(wèn)題的結(jié)果進(jìn)行融合,從而解決問(wèn)題。這樣不僅繼承了原有RIMER方法中的優(yōu)點(diǎn),而且在一定程度上改善了由線(xiàn)性組合方式所帶來(lái)的不足。二擇眾倉(cāng)決策法的具體實(shí)現(xiàn)步驟為
(1)依據(jù)數(shù)據(jù)的特性選擇合適的眾倉(cāng)決策模型。以Glass數(shù)據(jù)集為例,通過(guò)查看其類(lèi)別描述可獲得如下信息:
Class Distribution: (out of 214 total instances)
——163 Window glass (building windows and vehicle windows)
-- 87 float processed
-- 70 building windows
-- 17 vehicle windows
-- 76 non-float processed
-- 76 building windows
-- 0 vehicle windows
-- 51 Non-window glass
-- 13 containers
-- 9 tableware
-- 29 headlamps
圖3 Glass數(shù)據(jù)集的眾倉(cāng)決策模型Fig.3 Multiply decision-making model of Glass dataset
可以看出Glass數(shù)據(jù)集的類(lèi)別結(jié)構(gòu)層次分明,能很容易地采用有向無(wú)環(huán)圖來(lái)構(gòu)建眾倉(cāng)決策模型,如圖3所示。Glass數(shù)據(jù)集中類(lèi)別4的個(gè)數(shù)為零,故未在圖中標(biāo)出。從圖3可以看出,對(duì)Glass數(shù)據(jù)集進(jìn)行分類(lèi)需要設(shè)計(jì)6個(gè)BRB分類(lèi)器,其中BRB1用來(lái)區(qū)分Window glass與Non-window glass這兩類(lèi),Window glass有4個(gè)類(lèi)別標(biāo)簽:1,2,3和4,Non-window有3個(gè)類(lèi)別標(biāo)簽:5,6和7。即BRB1是區(qū)分1,2,3,4類(lèi)和5,6,7類(lèi)的分類(lèi)器。BRB2,BRB3和BRB1同理不再贅述。BRB4,BRB5和BRB6采用One-versus-one算法,即在兩兩類(lèi)間訓(xùn)練一個(gè)分類(lèi)器,當(dāng)對(duì)一個(gè)未知樣本進(jìn)行分類(lèi)時(shí),每個(gè)分類(lèi)器都對(duì)其進(jìn)行判定,并給相應(yīng)的類(lèi)別“投上一票”,最后票數(shù)最多的類(lèi)別作為該樣本的類(lèi)別。該步驟可用圖4所示的流程圖表示。
(2)由于各個(gè)分類(lèi)器在訓(xùn)練的過(guò)程中相互不存在影響,可以采用并行的策略同時(shí)進(jìn)行訓(xùn)練。訓(xùn)練的過(guò)程中發(fā)現(xiàn)有瓶頸問(wèn)題,可以不斷調(diào)整訓(xùn)練參數(shù),以獲得更加滿(mǎn)意的結(jié)果。本文中的實(shí)驗(yàn)均采用差分進(jìn)化算法對(duì)BRB的參數(shù)進(jìn)行訓(xùn)練。以均方差(Mean squared error, MSE)作為參數(shù)訓(xùn)練模型中的目標(biāo)函數(shù),即
(23)
(3)后件置信度轉(zhuǎn)換成類(lèi)別信息。由于后件評(píng)價(jià)等級(jí)只有兩個(gè),將兩個(gè)評(píng)價(jià)等級(jí)與兩個(gè)分類(lèi)級(jí)別對(duì)應(yīng)起來(lái),則最終的分類(lèi)結(jié)果為
(24)
其中i,j表示類(lèi)別的編號(hào)。
通過(guò)實(shí)驗(yàn)將二擇眾倉(cāng)決策法與現(xiàn)有的分類(lèi)方法進(jìn)行對(duì)比,以差分進(jìn)化算法作為參數(shù)訓(xùn)練的優(yōu)化算法。一般情況下將種群規(guī)模設(shè)置在50,交叉概率為0.9,縮放因子為0.5。實(shí)驗(yàn)環(huán)境為:Intel(R)Core(TM)i5-4570 CPU @3.20 GHz處理器,8 GB內(nèi)存,Windows7操作系統(tǒng)。程序均在Matlab2014b中實(shí)現(xiàn)。
本實(shí)驗(yàn)所使用的3個(gè)數(shù)據(jù)集均來(lái)自UCI公共測(cè)試集,分別為:Iris,Wine和Glass。表1顯示了3個(gè)測(cè)試數(shù)據(jù)集的基本信息。
表1 數(shù)據(jù)集基本信息
采用十折交叉驗(yàn)證法,即將樣本數(shù)據(jù)分成10份,每次取其中的1份作為測(cè)試集,其余的作為訓(xùn)練集。十折交叉驗(yàn)證法的實(shí)驗(yàn)結(jié)果如表2所示。
表2 十折交叉驗(yàn)證結(jié)果
為了進(jìn)一步驗(yàn)證本文方法的有效性,將本文方法與文獻(xiàn)[13,14]同樣是采用置信規(guī)則庫(kù)推理的分類(lèi)方法進(jìn)行對(duì)比,并選取近兩年來(lái)對(duì)這3個(gè)數(shù)據(jù)集進(jìn)行分類(lèi)的其他方法進(jìn)行對(duì)比,對(duì)比結(jié)果如表3和圖5~7所示。
表3 不同方法在不同數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率對(duì)比
圖5 Iris數(shù)據(jù)集的各方法分類(lèi)準(zhǔn)確率對(duì)比 圖6 Wine數(shù)據(jù)集的各方法分類(lèi)準(zhǔn)確率對(duì)比
圖7 Glass數(shù)據(jù)集的各方法分類(lèi)準(zhǔn)確率對(duì)比 Fig.7 Classification accuracy contrast by using different methods on Glass dataset
將本文方法與非BRB方法進(jìn)行對(duì)比,可以看出除了FGGCA的Glass數(shù)據(jù)集外,余下結(jié)果都不如本文的方法來(lái)得更優(yōu)。將本文方法與文獻(xiàn)[13,14]的方法進(jìn)行對(duì)比,文獻(xiàn)[14]的實(shí)驗(yàn)缺失Wine數(shù)據(jù)集的結(jié)果,然而從Iris和Glass數(shù)據(jù)集來(lái)看,其結(jié)果均不如本文的方法好。而對(duì)比文獻(xiàn)[13]方法,在Glass數(shù)據(jù)上本文的方法有了很大的提升,這是由于Glass數(shù)據(jù)集帶有二分類(lèi)的特性,特別適用于本文提出的方法。沒(méi)有任何一種方法能對(duì)所有數(shù)據(jù)集均達(dá)到最優(yōu)的結(jié)果,但縱觀(guān)全局來(lái)看,本文的方法在一定程度上提升了分類(lèi)的準(zhǔn)確性。
本實(shí)驗(yàn)在于說(shuō)明文獻(xiàn)[13]提出的方法隨著類(lèi)別個(gè)數(shù)的增多,其分類(lèi)準(zhǔn)確率將會(huì)急劇下降。而采用二擇眾倉(cāng)決策方法,將會(huì)大幅度地減少準(zhǔn)確率的下降程度。實(shí)驗(yàn)數(shù)據(jù)樣本來(lái)源于Brodatz庫(kù)中的14幅紋理圖像,其在Brodatz庫(kù)中的編號(hào)分別為D1,D6,D12,D15,D20,D34,D37,D52,D56,D65,D72,D87,D93和D110,具體如圖8所示。
圖8 Brodatz庫(kù)中的14幅紋理圖像Fig.8 Fourteen texture images from Brodatz library
這14幅紋理圖像原始大小均為640像素×640像素,將每幅圖像不重疊地切割成4×4=16幅子圖,每幅子圖大小均為160像素×160像素,共獲得14×16=224幅樣本圖像。選取每幅圖像的前8幅子圖作為訓(xùn)練數(shù)據(jù),后8幅子圖作為測(cè)試數(shù)據(jù)。使用Matlab2014b所提供的graycomatrix和graycoprops函數(shù)獲取每幅子圖的灰度共生矩陣特征值,并以此作為分類(lèi)依據(jù)。實(shí)驗(yàn)類(lèi)別個(gè)數(shù)從初始的4個(gè)逐步增加至14個(gè)。實(shí)驗(yàn)結(jié)果如圖9所示。
圖9 實(shí)驗(yàn)結(jié)果對(duì)比Fig.9 Experimental results comparison
從實(shí)驗(yàn)結(jié)果可以看出,在類(lèi)別個(gè)數(shù)較少時(shí),文獻(xiàn)[13]方法與二擇眾倉(cāng)決策方法差別不大。但隨著類(lèi)別個(gè)數(shù)的增多,其準(zhǔn)確率會(huì)急劇下降,對(duì)14幅紋理圖像同時(shí)進(jìn)行分類(lèi)時(shí)其準(zhǔn)確率僅有30.36%。這是由于線(xiàn)性組合方式并不適用于類(lèi)別個(gè)數(shù)較多的情況,這已在第2節(jié)中做了詳細(xì)說(shuō)明。而采用二擇眾倉(cāng)決策方法后會(huì)大幅度地減少該不足所帶來(lái)的影響,對(duì)14幅紋理圖像同時(shí)進(jìn)行分類(lèi)時(shí)依然能保持較高的準(zhǔn)確率,說(shuō)明本文所提出的方法具有較強(qiáng)的魯棒性。
雖然通過(guò)線(xiàn)性組合方式構(gòu)建置信規(guī)則庫(kù)避免了規(guī)則條數(shù)隨著問(wèn)題屬性數(shù)量的增多而激增,但該方式仍然存在不足。鑒于此,本文提出一種改進(jìn)置信規(guī)則庫(kù)推理的分類(lèi)方法,首先將一個(gè)大的分類(lèi)問(wèn)題切割成若干個(gè)相對(duì)獨(dú)立的分類(lèi)小問(wèn)題,每個(gè)小問(wèn)題都是一個(gè)二分類(lèi)問(wèn)題;其次將規(guī)則的后件評(píng)價(jià)等級(jí)設(shè)置為兩個(gè)讓每個(gè)置信規(guī)則庫(kù)只處理一個(gè)小問(wèn)題,以此減小線(xiàn)性組合所來(lái)的的誤差;最后,采用眾倉(cāng)決策的方式將若干個(gè)小問(wèn)題的結(jié)果進(jìn)行整合,從而得出最終的分類(lèi)結(jié)果,通過(guò)實(shí)驗(yàn)分析驗(yàn)證了該方法的可行性。本文在現(xiàn)有置信規(guī)則庫(kù)推理分類(lèi)算法的基礎(chǔ)上,通過(guò)改進(jìn)分類(lèi)器的設(shè)計(jì),從而進(jìn)一步提高了分類(lèi)準(zhǔn)確率。如何處理類(lèi)別數(shù)量更多的分類(lèi)問(wèn)題將是下一步研究的方向。
參考文獻(xiàn):
[1] Cover T,Hart P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.
[2] Cortes C,Vapnik V.Support-vector networks[J].Machine Learning,1995,20(3):273-297.
[3] Bazan J G,Nguyen H S,Nguyen S H,et al.Rough set algorithms in classification problem[J].Rough Set Methods and Applications,2000,56(1):49-88.
[4] Yang Jianbo,Liu Jun,Wang Jin,et al.Belief rule-base inference methodology using the evidential reasoning approach-RIMER[J].IEEE Transactions on Systems, Man and Cybernetics,Part A:Systems and Humans,2006,36(2):266-285.
[5] Sun R.Robust reasoning:Integrating rule-based and similarity-based reasoning[J].Artificial Intelligence,1995,75(2):241-295.
[6] Dempster A P.A generalization of Bayesian inference[J].Journal of the Royal Statistical Society,1968,30(2):205-247.
[7] Shafer G.A mathematical theory of evidence[M].Princeton: Princeton University Press,1976:10-39.
[8] Hwang C L,Yoon K.Methods for multiple attribute decision making[M].[S.l.]: Sringer Berlin Heidelberg,981:58-191.
[9] Zadeh L A.Fuzzy sets[J].Information and Control,1965,8(3):338-353.
[10] 周志杰,楊劍波,胡昌華,等.置信規(guī)則庫(kù)專(zhuān)家系統(tǒng)與復(fù)雜系統(tǒng)建模[M].北京:科學(xué)出版社,2011:9-41.
Zhou Zhijie,Yang Jianbo,Hu Changhua,et al.Belief rule base of expert system and complex system modeling[M].Beijing:Science Press,2011:9-41.
[11] Liu Jun,Yang Jianbo Ruan Da,et al.Self-tuning of fuzzy belief rule bases for engineering system safety analysis[J].Annals of Operations Research,2008,163(1):143-168.
[12] Jiang Jiang,Li Xuan,Zhou Zhijie,et al.Weapon system capability assessment under uncertainty based on the evidential reasoning approach[J].Expert Systems with Applications,2011,38(11):13773-13784.
[13] Chang Leilei,Zhou Zhijie,You Yuan,et al.Belief rule based expert system for classification problems with new rule activation and weight calculation procedures[J].Information Sciences,2016,336(1):75-91.
[14] 葉青青,楊隆浩,傅仰耿.基于改進(jìn)置信規(guī)則庫(kù)推理的分類(lèi)方法[J].計(jì)算機(jī)科學(xué)與探索,2016,10(5):709-721.
Ye Qingqing,Yang Longhao,F(xiàn)u Yanggeng.Classification approach based on improved belief rule-base reasoning[J].Computer Science and Technology,2016,10(5):709-721.
[15] Yang Jianbo,Liu Jun,Xu Dongling,et al.Optimization models for training belief-rule-based systems[J].IEEE Transactions on Systems,Man,and Cybernetics,Part A:Systems and Humans,2007,37(4):569-585.
[16] Zhou Zhiguo, Liu Fang,Jiao Licheng,et al.A bi-level belief rule based decision support system for diagnosis of lymph node metastasis in gastric cancer[J].Knowledge-Based Systems,2013,54:128-136.
[17] Calzada A,Liu J,Wang H,et al.A new dynamic rule activation method for extended belief rule-based systems[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(4):880-894.
[18] Nie Qingfeng,Jin Lizou,F(xiàn)ei Shumin,et al.Neural network for multi-class classification by boosting composite stumps[J].Neurocomputing,2015,149:949-956.
[19] Sanchez M A,Castillo O,Castro J R,et al.Fuzzy granular gravitational clustering algorithm for multivariate data[J].Information Sciences,2014,279:498-511.
[20] Shao Yuanhai,Chen Weijie,Wang Zhen,et al.Weighted linear loss twin support vector machine for large-scale classification[J].Knowledge-Based Systems,2015,73:276-288.