基于置信規(guī)則庫(kù)推理的二擇眾倉(cāng)分類(lèi)方法

2018-06-29 00:54:04方志堅(jiān)傅仰耿陳建華

數(shù)據(jù)采集與處理 2018年3期

方志堅(jiān) 傅仰耿陳建華

(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，福州, 350116)

引言

隨著互聯(lián)網(wǎng)絡(luò)及媒體設(shè)備的高速發(fā)展，各個(gè)行業(yè)領(lǐng)域每時(shí)每刻均在產(chǎn)生大量的數(shù)據(jù)。數(shù)據(jù)信息量的激增導(dǎo)致了海量數(shù)據(jù)庫(kù)的產(chǎn)生，如何在海量信息源中提取隱藏和有價(jià)值的信息，并應(yīng)用這些信息構(gòu)建決策支持的模型一直在商務(wù)管理、生產(chǎn)控制和市場(chǎng)分析等領(lǐng)域有著強(qiáng)烈的需求。因此數(shù)據(jù)挖掘如今成為一個(gè)熱門(mén)的研究領(lǐng)域。數(shù)據(jù)分類(lèi)是數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要的分支，這是由于大多數(shù)的實(shí)際工程問(wèn)題均能轉(zhuǎn)換成分類(lèi)問(wèn)題。分類(lèi)就是利用已知標(biāo)簽的數(shù)據(jù)來(lái)構(gòu)建相關(guān)的模型,進(jìn)而確定未知類(lèi)別數(shù)據(jù)標(biāo)簽的決策過(guò)程。

目前已經(jīng)有許多經(jīng)典的分類(lèi)算法被提出，例如：K近鄰[1]、支持向量機(jī)[2]和粗糙集[3]等方法。K近鄰算法原理相對(duì)簡(jiǎn)單，方法易于實(shí)現(xiàn)，并且支持增量學(xué)習(xí)，具有對(duì)復(fù)雜決策空間進(jìn)行建模的能力,其缺點(diǎn)在于尋找近鄰點(diǎn)需要大量的計(jì)算，且當(dāng)數(shù)據(jù)中包含弱相關(guān)屬性時(shí)，其分類(lèi)精度會(huì)下降;支持向量機(jī)在已知核函數(shù)的情況下，能夠大大減少對(duì)高維問(wèn)題的求解復(fù)雜度，其在一定程度上具有泛化推廣的能力,因此也導(dǎo)致了支持向量機(jī)的分類(lèi)精度十分依賴(lài)核函數(shù)的選擇，而如何選擇核函數(shù)一直是一個(gè)公認(rèn)的難題;粗糙集的優(yōu)點(diǎn)在于不需要附加信息或先驗(yàn)知識(shí)，就能夠處理存在不精確乃至不完整數(shù)據(jù)的問(wèn)題。但它只能處理離散化的屬性，且產(chǎn)生的決策規(guī)則不穩(wěn)定，準(zhǔn)確率有待提高。

置信規(guī)則庫(kù)推理方法(Belief rule-base inference methodology using evidential reasoning approach, RIMER)最早由Yang等[4]提出，囊括了傳統(tǒng)IF-THEN規(guī)則庫(kù)[5]、D-S證據(jù)理論[6,7]、決策理論[8]和模糊理論[9]等方面的知識(shí)，具有對(duì)不完整或不精確信息進(jìn)行建模的能力。當(dāng)前，以RIMER為核心的置信規(guī)則庫(kù)(Belief rule base，BRB)系統(tǒng)已經(jīng)廣泛應(yīng)用于輸油管道檢漏[10]、工程系統(tǒng)安全評(píng)估[11]和軍事能力評(píng)估[12]等工程領(lǐng)域。傳統(tǒng)的RIMER方法不適用于屬性數(shù)量過(guò)多的問(wèn)題，這是由于BRB在構(gòu)建過(guò)程中需要遍歷所有前件屬性的各個(gè)候選值，因此隨著屬性數(shù)量的增多，BRB的規(guī)則條數(shù)將呈指數(shù)級(jí)增長(zhǎng)，這必然會(huì)導(dǎo)致“組合爆炸”問(wèn)題的產(chǎn)生。鑒于此，前人提出了通過(guò)線(xiàn)性組合的方式構(gòu)建規(guī)則庫(kù)，使得規(guī)則庫(kù)的條數(shù)不再隨屬性數(shù)量的增長(zhǎng)而增長(zhǎng)。由于規(guī)則庫(kù)在結(jié)構(gòu)上發(fā)生了改變，使得原有方法中的激活公式不再適用于現(xiàn)有方法。因此，Chang等[13]將原有方法中的激活規(guī)則改為激活屬性，即不再關(guān)注哪條規(guī)則被激活，而是注重前件屬性的哪些候選值被激活。將BRB應(yīng)用于分類(lèi)算法中，Ye等[14]提出設(shè)定規(guī)則數(shù)等于分類(lèi)數(shù)，以輸入值和候選值之間距離倒數(shù)的歸一化值作為個(gè)體匹配度，即對(duì)于任何輸入值，規(guī)則庫(kù)中的每條規(guī)則都將被激活，激活權(quán)重表現(xiàn)為每條規(guī)則對(duì)分類(lèi)結(jié)果的貢獻(xiàn)度。這些方法不僅解決了“組合爆炸”問(wèn)題，而且在分類(lèi)準(zhǔn)確性上獲得了不錯(cuò)的效果。然而采用線(xiàn)性組合方式也存在兩點(diǎn)不足：(1)線(xiàn)性組合迫使每個(gè)前件屬性候選值的個(gè)數(shù)必須相等，這也就忽略了各個(gè)前件屬性間的差異；(2)激活權(quán)重公式的改變導(dǎo)致后件置信度受到了來(lái)自非激活前件屬性候選值的影響,即在原始RIMER方法中，參與證據(jù)推理(Evidertail reasoning, ER)合成的置信度所對(duì)應(yīng)規(guī)則的候選值都存在個(gè)體匹配度，而采用線(xiàn)性組合的方式，常常出現(xiàn)個(gè)體匹配度為0的屬性參與激活合成，這必然會(huì)影響后件置信度。

本文提出一種改進(jìn)置信規(guī)則庫(kù)推理的分類(lèi)方法。首先，在文獻(xiàn)[13]研究的基礎(chǔ)上，將評(píng)價(jià)等級(jí)個(gè)數(shù)設(shè)定為兩個(gè)，即后件評(píng)價(jià)等級(jí)個(gè)數(shù)不再等于分類(lèi)數(shù)。對(duì)于一組輸入值，RIMER過(guò)程只得出該輸入值是否滿(mǎn)足某種特定條件，以及以多大的置信度滿(mǎn)足該條件。其次，對(duì)于某一具體問(wèn)題不再局限于設(shè)定一個(gè)規(guī)則庫(kù)，而是同時(shí)存在多個(gè)規(guī)則庫(kù)進(jìn)行決策。依據(jù)數(shù)據(jù)的特性，采用One-versus-One和有向無(wú)環(huán)圖來(lái)構(gòu)建決策模型。最后，再根據(jù)各個(gè)規(guī)則庫(kù)的決策結(jié)果進(jìn)行類(lèi)別“投票”，票數(shù)最高的即為最終分類(lèi)結(jié)果。

1 置信規(guī)則庫(kù)推理方法

采用規(guī)則形式表示相關(guān)信息在人工智能領(lǐng)域是一種非常常見(jiàn)的方式，在置信規(guī)則庫(kù)推理方法中，規(guī)則化的信息表示體現(xiàn)在了置信規(guī)則庫(kù)中。

1.1 置信規(guī)則庫(kù)表示

置信規(guī)則庫(kù)由傳統(tǒng)IF-THEN規(guī)則庫(kù)演化而來(lái)，Yang等將置信框架引入IF-THEN規(guī)則中，使得傳統(tǒng)的IF-THEN規(guī)則能夠合理地表示不完整或不確定信息的知識(shí)，從而提出新的規(guī)則表達(dá)式。新的規(guī)則即稱(chēng)為置信規(guī)則，其中第k條置信規(guī)則可表示為

(1)

1.2 置信規(guī)則庫(kù)系統(tǒng)推理過(guò)程

BRB系統(tǒng)的規(guī)則推理由計(jì)算激活權(quán)重、修正后件置信度和合成激活規(guī)則3步組成。在計(jì)算激活權(quán)重前，需先計(jì)算各個(gè)前件屬性候選值的個(gè)體匹配度，計(jì)算方法為

(2)

其中,輸入值向量表示為x={x1,x2,…,xT}。

第k條規(guī)則激活權(quán)重的計(jì)算公式為

(3)

(4)

式中:Ut表示第k條規(guī)則的第t個(gè)前件屬性;Rk表示第k條規(guī)則的前件屬性集合。

由激活規(guī)則的后件置信度和激活權(quán)重可以求得基本屬性的基本可信值為

mj,k=ωkβj,k

(5)

(6)

(7)

最后將激活的規(guī)則使用ER法則合成，得到相對(duì)于評(píng)價(jià)等級(jí)Dj的基本可信度分配值，即

(8)

(9)

(10)

(11)

(12)

(13)

1.3 參數(shù)學(xué)習(xí)模型

圖1 BRB參數(shù)訓(xùn)練模型Fig.1 BRB parameter training model

專(zhuān)家根據(jù)歷史信息和先驗(yàn)知識(shí)給定的初始BRB系統(tǒng)存在主觀(guān)局限性，特別是當(dāng)BRB系統(tǒng)應(yīng)用于復(fù)雜決策問(wèn)題時(shí)，人為方式難以精確地給出這些參數(shù)值。故Yang等[15]提出了BRB系統(tǒng)參數(shù)訓(xùn)練模型，通過(guò)比較觀(guān)測(cè)輸出和推導(dǎo)輸出的差值來(lái)矯正BRB系統(tǒng)的參數(shù)，進(jìn)而提高RIMER方法決策的準(zhǔn)確性。訓(xùn)練模型如圖1所示。參數(shù)優(yōu)化模型可表示為

min{Δ(P)}

s.t.A(P)=0,B(P)≥0

(14)

式中：p=(βi,k,θk,δk,i)為待訓(xùn)練的參數(shù)向量;Δ(P)為目標(biāo)函數(shù)，當(dāng)Δ(P)越小時(shí)，表明該BRB系統(tǒng)更符合實(shí)際系統(tǒng)，故最小化Δ(P)是參數(shù)訓(xùn)練的最終目的；A(P)和B(P)分別是等式和不等式約束條件。在參數(shù)訓(xùn)練過(guò)程中，文獻(xiàn)[15]給出如下規(guī)定

(15)

(2) 標(biāo)準(zhǔn)化規(guī)則權(quán)重θk，使其不小于0且不大于1，即

0≤θk≤1k=1,2,…,L

(16)

(3) 任意一條置信規(guī)則的后件置信度均不小于0且不大于1，其中第k條規(guī)則的第j個(gè)評(píng)價(jià)等級(jí)上的置信度需滿(mǎn)足

0≤βj,k≤1j=1,2,…,N;k=1,2,…,L

(17)

(4) 假設(shè)第k條規(guī)則是完整的，即輸入不包含不確定或模糊信息，則該條規(guī)則的后件置信度之和等于1，即

(18)

2 現(xiàn)有置信規(guī)則庫(kù)推理的分類(lèi)方法

目前，置信規(guī)則庫(kù)推理方法應(yīng)用于分類(lèi)已經(jīng)在淋巴結(jié)疾病診斷[16]和UCI分類(lèi)數(shù)據(jù)集的測(cè)試[17]上取得了一定的進(jìn)展。采用置信規(guī)則庫(kù)推理方法解決分類(lèi)問(wèn)題主要有以下兩種構(gòu)建規(guī)則庫(kù)策略。

(1)采用遍歷前件屬性候選值的方式，無(wú)需改變?cè)糂RB系統(tǒng)，在處理分類(lèi)問(wèn)題時(shí)，只需要將后件置信度轉(zhuǎn)換成分類(lèi)結(jié)果信息，即可直接將RIMER方法應(yīng)用到分類(lèi)問(wèn)題中。然而該方法只能應(yīng)用于數(shù)據(jù)屬性數(shù)目較少的情況，這是由于遍歷組合方式繼承了傳統(tǒng)RIMER方法中固有的“組合爆炸”問(wèn)題。隨著數(shù)據(jù)屬性數(shù)目的增多，規(guī)則庫(kù)的條數(shù)將呈指數(shù)級(jí)增長(zhǎng)。以數(shù)據(jù)集Wine為例，其數(shù)據(jù)屬性個(gè)數(shù)有13個(gè)，假設(shè)每個(gè)前件屬性候選值的個(gè)數(shù)均為3個(gè)，那么BRB的規(guī)則條數(shù)就達(dá)到了313條，此時(shí)參數(shù)訓(xùn)練所耗費(fèi)的時(shí)間是令人無(wú)法忍受的。通過(guò)遍歷組合方式構(gòu)建的規(guī)則庫(kù)大小可表示為

(19)

其中Tk表示第k個(gè)前件屬性候選值的個(gè)數(shù)。通過(guò)對(duì)UCI上210組分類(lèi)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn)，前件屬性個(gè)數(shù)小于10的分類(lèi)數(shù)據(jù)集個(gè)數(shù)僅為54組，而屬性個(gè)數(shù)大于10的有156組，由此可知分類(lèi)數(shù)據(jù)通常為多屬性的情況。因此采用遍歷組合方式構(gòu)建規(guī)則庫(kù)并不適用于大部分的分類(lèi)問(wèn)題。

(2)采用線(xiàn)性組合方式構(gòu)建置信規(guī)則庫(kù)中的規(guī)則。例如，有3個(gè)前件屬性，每個(gè)前件屬性的候選值依次為：{1,2,3}，{4,5,6}和{7,8,9}，則通過(guò)線(xiàn)性組合方式構(gòu)建的置信規(guī)則庫(kù)為

R1:ifA1is 1∧A2is 4∧A3is 7,then{D}

R2:ifA1is 2∧A2is 5∧A3is 8,then{D}

R3:ifA1is 3∧A2is 6∧A3is 9,then{D}

(20)

可以看出，采用線(xiàn)性組合的方式，規(guī)則庫(kù)中規(guī)則的條數(shù)只與前件屬性候選值的個(gè)數(shù)有關(guān)，而與前件屬性個(gè)數(shù)無(wú)關(guān)，這樣就有效避免了“組合爆炸”問(wèn)題的產(chǎn)生。然而，采用線(xiàn)性組合方式構(gòu)建的置信規(guī)則庫(kù)中常常會(huì)出現(xiàn)“零激活”問(wèn)題，這是由于在計(jì)算個(gè)體匹配度時(shí)，至多僅有兩個(gè)候選值的個(gè)體匹配度非零，其余的皆為零。根據(jù)式(3)可知，只要規(guī)則中存在某個(gè)前件屬性候選值的個(gè)體匹配度為零，那么該條規(guī)則的激活權(quán)重就為零，即不被激活。因此，激活權(quán)重公式可修正為

(21)

即將個(gè)體匹配度的累乘形式改為累加形式，這樣激活條件變?yōu)榱酥灰?guī)則中某個(gè)屬性候選值的個(gè)體匹配度不為零，那么該條規(guī)則就會(huì)被激活。

采用線(xiàn)性組合方式構(gòu)建的BRB分類(lèi)方法在一定程度上已能有效地解決分類(lèi)問(wèn)題，然而由于線(xiàn)性組合的方式也暴露出以下兩點(diǎn)不足：

(1)線(xiàn)性組合的方式迫使每個(gè)前件屬性候選值的個(gè)數(shù)必須相等，這樣就忽略了各個(gè)前件屬性間的差異。在原始BRB規(guī)則庫(kù)中，各個(gè)前件屬性候選值個(gè)數(shù)一般不相等，其個(gè)數(shù)往往取決于該屬性值的區(qū)間大小以及所占的權(quán)重比例，通常情況下，區(qū)間越大，比重越大，則候選值的個(gè)數(shù)也就越多。文獻(xiàn)[13]所提出的方法中，前件屬性權(quán)重已從激活規(guī)則公式中刪去，也就是說(shuō)，該方法認(rèn)為各個(gè)前件屬性同等重要，這往往不可取，因?yàn)檫@樣會(huì)夸大弱屬性的效用，而弱化了強(qiáng)屬性的分類(lèi)支持度，導(dǎo)致最終的分類(lèi)準(zhǔn)確性下降。

(2)激活權(quán)重公式的改變導(dǎo)致了后件置信度受到了來(lái)自非激活前件屬性候選值的影響。即原始方法中，參與ER合成的置信度，其所對(duì)應(yīng)規(guī)則的候選值都存在個(gè)體匹配度。從修正后的激活權(quán)重公式來(lái)看，規(guī)則中存在某個(gè)屬性候選值的個(gè)體匹配度不為零，那么該條規(guī)則所攜帶的信息就會(huì)參與ER合成。倘若只有一個(gè)候選值的個(gè)體匹配度不為零，那么完全可以弱化該條規(guī)則對(duì)結(jié)果所占比重的影響。特別是當(dāng)該激活點(diǎn)屬于噪音情況時(shí)，肯定會(huì)對(duì)結(jié)果造成不利的影響，使得最終的分類(lèi)準(zhǔn)確性下降。從式(8～13)的計(jì)算過(guò)程可以看出，隨著后件評(píng)價(jià)等級(jí)個(gè)數(shù)的增加，該缺點(diǎn)所帶來(lái)的影響也會(huì)隨之增大。

3 基于二擇眾倉(cāng)的置信規(guī)則庫(kù)推理的分類(lèi)方法

針對(duì)現(xiàn)有置信規(guī)則庫(kù)推理分類(lèi)方法的不足，本文提出一種二擇眾倉(cāng)決策法。對(duì)原有的方法作如下改進(jìn)：

(1)將規(guī)則表達(dá)式修正為

(22)

即每條規(guī)則僅設(shè)計(jì)兩個(gè)評(píng)價(jià)等級(jí)，置信規(guī)則庫(kù)的推理結(jié)果只對(duì)輸入值作出是與否的置信決策，而不再作多值判定，僅僅是在二者間選擇。其好處是規(guī)則變得簡(jiǎn)單，在處理信息時(shí)更加快捷高效，而且該設(shè)計(jì)策略能夠很好地改善第2節(jié)中所提到的第2點(diǎn)不足，從而使得分類(lèi)準(zhǔn)確性有所提高。

(2)引入眾倉(cāng)決策模型。在對(duì)規(guī)則表達(dá)式作出修正后可以很明顯地看出由于后件評(píng)價(jià)等級(jí)個(gè)數(shù)只有兩個(gè)，那么由此類(lèi)規(guī)則所構(gòu)建的置信規(guī)則庫(kù)只能對(duì)二分類(lèi)問(wèn)題做出判定，而無(wú)法解決多分類(lèi)問(wèn)題。因此本文創(chuàng)新性地提出采用多規(guī)則庫(kù)的方式解決同一個(gè)分類(lèi)問(wèn)題，即每一個(gè)置信規(guī)則庫(kù)都是一個(gè)二分類(lèi)決策器，而由多個(gè)二分類(lèi)決策器構(gòu)成了眾倉(cāng)決策模型，進(jìn)而解決多分類(lèi)問(wèn)題。采用眾倉(cāng)模型后，每一個(gè)置信規(guī)則庫(kù)只關(guān)心兩個(gè)類(lèi)別間或兩個(gè)大類(lèi)別間的差異，此時(shí)每一個(gè)置信規(guī)則庫(kù)都可以有自己的前件屬性權(quán)重值。例如：存在一個(gè)4屬性、3類(lèi)別的分類(lèi)數(shù)據(jù)集，可以在兩兩類(lèi)別間設(shè)置一個(gè)置信規(guī)則庫(kù)，假設(shè)區(qū)分1，2類(lèi)別僅需要前兩個(gè)屬性，那么對(duì)于第1個(gè)置信規(guī)則庫(kù)完全可以將3，4屬性的權(quán)重值設(shè)置為零。該優(yōu)點(diǎn)是現(xiàn)有置信規(guī)則庫(kù)分類(lèi)方法所不能擁有的，只有一個(gè)置信規(guī)則庫(kù)的分類(lèi)方法，其前件屬性權(quán)重必須同時(shí)考慮區(qū)別1，2，3類(lèi)。因此，采用眾倉(cāng)決策模型可以很好地解決第2節(jié)中所提到的第1點(diǎn)不足。

圖2給出了三類(lèi)別示例。如圖所示，在類(lèi)別1與類(lèi)別2間、類(lèi)別1與類(lèi)別3間找到一個(gè)可分平面十分容易，然而在類(lèi)別2與類(lèi)別3間找到一個(gè)可分平面就相對(duì)比較困難，采用現(xiàn)有的分類(lèi)方法無(wú)法直接了斷地解決該瓶頸，只能通過(guò)增加規(guī)則條數(shù)或參數(shù)訓(xùn)練復(fù)雜度的方法來(lái)解決，這必然會(huì)對(duì)類(lèi)別1產(chǎn)生影響。若是采用二擇眾倉(cāng)決策法，類(lèi)別1與類(lèi)別2間、類(lèi)別1與類(lèi)別3間的分類(lèi)器在訓(xùn)練過(guò)程中可以很快地獲得精準(zhǔn)結(jié)果，而對(duì)于類(lèi)別2與類(lèi)別3間的分類(lèi)器，在訓(xùn)練過(guò)程中就可以發(fā)現(xiàn)這是整個(gè)分類(lèi)問(wèn)題的瓶頸，這樣就不再是“黑箱”操作，而是清楚明了地知道問(wèn)題瓶頸所在的位置，此時(shí)可以通過(guò)增加規(guī)則條數(shù)或增加參數(shù)訓(xùn)練復(fù)雜度的方法來(lái)解決，同時(shí)對(duì)類(lèi)別1不會(huì)造成任何影響。這也是二擇眾倉(cāng)決策法的優(yōu)點(diǎn)之一。

圖2 三類(lèi)別示例Fig.2 Illustraction example of three categories

二擇眾倉(cāng)決策法不改變RIMER方法的整個(gè)體系結(jié)構(gòu)，單個(gè)置信規(guī)則庫(kù)的所有操作都與原來(lái)一致，改變的只是評(píng)價(jià)等級(jí)個(gè)數(shù)，也就是讓單個(gè)置信規(guī)則庫(kù)只解決一個(gè)小問(wèn)題，將處理結(jié)果返回給該體系外的眾倉(cāng)決策模型，該模型將多個(gè)小問(wèn)題的結(jié)果進(jìn)行融合，從而解決問(wèn)題。這樣不僅繼承了原有RIMER方法中的優(yōu)點(diǎn)，而且在一定程度上改善了由線(xiàn)性組合方式所帶來(lái)的不足。二擇眾倉(cāng)決策法的具體實(shí)現(xiàn)步驟為

(1)依據(jù)數(shù)據(jù)的特性選擇合適的眾倉(cāng)決策模型。以Glass數(shù)據(jù)集為例，通過(guò)查看其類(lèi)別描述可獲得如下信息：

Class Distribution: (out of 214 total instances)

——163 Window glass (building windows and vehicle windows)

-- 87 float processed

-- 70 building windows

-- 17 vehicle windows

-- 76 non-float processed

-- 76 building windows

-- 0 vehicle windows

-- 51 Non-window glass

-- 13 containers

-- 9 tableware

-- 29 headlamps

圖3 Glass數(shù)據(jù)集的眾倉(cāng)決策模型Fig.3 Multiply decision-making model of Glass dataset

可以看出Glass數(shù)據(jù)集的類(lèi)別結(jié)構(gòu)層次分明，能很容易地采用有向無(wú)環(huán)圖來(lái)構(gòu)建眾倉(cāng)決策模型，如圖3所示。Glass數(shù)據(jù)集中類(lèi)別4的個(gè)數(shù)為零，故未在圖中標(biāo)出。從圖3可以看出，對(duì)Glass數(shù)據(jù)集進(jìn)行分類(lèi)需要設(shè)計(jì)6個(gè)BRB分類(lèi)器，其中BRB1用來(lái)區(qū)分Window glass與Non-window glass這兩類(lèi)，Window glass有4個(gè)類(lèi)別標(biāo)簽：1，2，3和4，Non-window有3個(gè)類(lèi)別標(biāo)簽：5，6和7。即BRB1是區(qū)分1，2，3，4類(lèi)和5，6，7類(lèi)的分類(lèi)器。BRB2，BRB3和BRB1同理不再贅述。BRB4，BRB5和BRB6采用One-versus-one算法，即在兩兩類(lèi)間訓(xùn)練一個(gè)分類(lèi)器，當(dāng)對(duì)一個(gè)未知樣本進(jìn)行分類(lèi)時(shí)，每個(gè)分類(lèi)器都對(duì)其進(jìn)行判定，并給相應(yīng)的類(lèi)別“投上一票”，最后票數(shù)最多的類(lèi)別作為該樣本的類(lèi)別。該步驟可用圖4所示的流程圖表示。

(2)由于各個(gè)分類(lèi)器在訓(xùn)練的過(guò)程中相互不存在影響，可以采用并行的策略同時(shí)進(jìn)行訓(xùn)練。訓(xùn)練的過(guò)程中發(fā)現(xiàn)有瓶頸問(wèn)題，可以不斷調(diào)整訓(xùn)練參數(shù)，以獲得更加滿(mǎn)意的結(jié)果。本文中的實(shí)驗(yàn)均采用差分進(jìn)化算法對(duì)BRB的參數(shù)進(jìn)行訓(xùn)練。以均方差(Mean squared error， MSE)作為參數(shù)訓(xùn)練模型中的目標(biāo)函數(shù)，即

(23)

(3)后件置信度轉(zhuǎn)換成類(lèi)別信息。由于后件評(píng)價(jià)等級(jí)只有兩個(gè)，將兩個(gè)評(píng)價(jià)等級(jí)與兩個(gè)分類(lèi)級(jí)別對(duì)應(yīng)起來(lái)，則最終的分類(lèi)結(jié)果為

(24)

其中i,j表示類(lèi)別的編號(hào)。

4 實(shí)驗(yàn)分析與結(jié)果對(duì)比

通過(guò)實(shí)驗(yàn)將二擇眾倉(cāng)決策法與現(xiàn)有的分類(lèi)方法進(jìn)行對(duì)比，以差分進(jìn)化算法作為參數(shù)訓(xùn)練的優(yōu)化算法。一般情況下將種群規(guī)模設(shè)置在50，交叉概率為0.9，縮放因子為0.5。實(shí)驗(yàn)環(huán)境為：Intel(R)Core(TM)i5-4570 CPU @3.20 GHz處理器，8 GB內(nèi)存，Windows7操作系統(tǒng)。程序均在Matlab2014b中實(shí)現(xiàn)。

4.1 實(shí)驗(yàn)1

本實(shí)驗(yàn)所使用的3個(gè)數(shù)據(jù)集均來(lái)自UCI公共測(cè)試集，分別為：Iris，Wine和Glass。表1顯示了3個(gè)測(cè)試數(shù)據(jù)集的基本信息。

表1 數(shù)據(jù)集基本信息

采用十折交叉驗(yàn)證法，即將樣本數(shù)據(jù)分成10份，每次取其中的1份作為測(cè)試集，其余的作為訓(xùn)練集。十折交叉驗(yàn)證法的實(shí)驗(yàn)結(jié)果如表2所示。

表2 十折交叉驗(yàn)證結(jié)果

為了進(jìn)一步驗(yàn)證本文方法的有效性，將本文方法與文獻(xiàn)[13，14]同樣是采用置信規(guī)則庫(kù)推理的分類(lèi)方法進(jìn)行對(duì)比，并選取近兩年來(lái)對(duì)這3個(gè)數(shù)據(jù)集進(jìn)行分類(lèi)的其他方法進(jìn)行對(duì)比，對(duì)比結(jié)果如表3和圖5～7所示。

表3 不同方法在不同數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率對(duì)比

圖5 Iris數(shù)據(jù)集的各方法分類(lèi)準(zhǔn)確率對(duì)比圖6 Wine數(shù)據(jù)集的各方法分類(lèi)準(zhǔn)確率對(duì)比

圖7 Glass數(shù)據(jù)集的各方法分類(lèi)準(zhǔn)確率對(duì)比 Fig.7 Classification accuracy contrast by using different methods on Glass dataset

將本文方法與非BRB方法進(jìn)行對(duì)比，可以看出除了FGGCA的Glass數(shù)據(jù)集外，余下結(jié)果都不如本文的方法來(lái)得更優(yōu)。將本文方法與文獻(xiàn)[13，14]的方法進(jìn)行對(duì)比，文獻(xiàn)[14]的實(shí)驗(yàn)缺失Wine數(shù)據(jù)集的結(jié)果，然而從Iris和Glass數(shù)據(jù)集來(lái)看，其結(jié)果均不如本文的方法好。而對(duì)比文獻(xiàn)[13]方法，在Glass數(shù)據(jù)上本文的方法有了很大的提升，這是由于Glass數(shù)據(jù)集帶有二分類(lèi)的特性，特別適用于本文提出的方法。沒(méi)有任何一種方法能對(duì)所有數(shù)據(jù)集均達(dá)到最優(yōu)的結(jié)果，但縱觀(guān)全局來(lái)看，本文的方法在一定程度上提升了分類(lèi)的準(zhǔn)確性。

4.2 實(shí)驗(yàn)2

本實(shí)驗(yàn)在于說(shuō)明文獻(xiàn)[13]提出的方法隨著類(lèi)別個(gè)數(shù)的增多，其分類(lèi)準(zhǔn)確率將會(huì)急劇下降。而采用二擇眾倉(cāng)決策方法，將會(huì)大幅度地減少準(zhǔn)確率的下降程度。實(shí)驗(yàn)數(shù)據(jù)樣本來(lái)源于Brodatz庫(kù)中的14幅紋理圖像，其在Brodatz庫(kù)中的編號(hào)分別為D1，D6，D12，D15，D20，D34，D37，D52，D56，D65，D72，D87，D93和D110，具體如圖8所示。

圖8 Brodatz庫(kù)中的14幅紋理圖像Fig.8 Fourteen texture images from Brodatz library

這14幅紋理圖像原始大小均為640像素×640像素，將每幅圖像不重疊地切割成4×4=16幅子圖，每幅子圖大小均為160像素×160像素，共獲得14×16=224幅樣本圖像。選取每幅圖像的前8幅子圖作為訓(xùn)練數(shù)據(jù)，后8幅子圖作為測(cè)試數(shù)據(jù)。使用Matlab2014b所提供的graycomatrix和graycoprops函數(shù)獲取每幅子圖的灰度共生矩陣特征值，并以此作為分類(lèi)依據(jù)。實(shí)驗(yàn)類(lèi)別個(gè)數(shù)從初始的4個(gè)逐步增加至14個(gè)。實(shí)驗(yàn)結(jié)果如圖9所示。

圖9 實(shí)驗(yàn)結(jié)果對(duì)比Fig.9 Experimental results comparison

從實(shí)驗(yàn)結(jié)果可以看出，在類(lèi)別個(gè)數(shù)較少時(shí)，文獻(xiàn)[13]方法與二擇眾倉(cāng)決策方法差別不大。但隨著類(lèi)別個(gè)數(shù)的增多，其準(zhǔn)確率會(huì)急劇下降，對(duì)14幅紋理圖像同時(shí)進(jìn)行分類(lèi)時(shí)其準(zhǔn)確率僅有30.36%。這是由于線(xiàn)性組合方式并不適用于類(lèi)別個(gè)數(shù)較多的情況，這已在第2節(jié)中做了詳細(xì)說(shuō)明。而采用二擇眾倉(cāng)決策方法后會(huì)大幅度地減少該不足所帶來(lái)的影響，對(duì)14幅紋理圖像同時(shí)進(jìn)行分類(lèi)時(shí)依然能保持較高的準(zhǔn)確率，說(shuō)明本文所提出的方法具有較強(qiáng)的魯棒性。

5 結(jié)束語(yǔ)

雖然通過(guò)線(xiàn)性組合方式構(gòu)建置信規(guī)則庫(kù)避免了規(guī)則條數(shù)隨著問(wèn)題屬性數(shù)量的增多而激增，但該方式仍然存在不足。鑒于此，本文提出一種改進(jìn)置信規(guī)則庫(kù)推理的分類(lèi)方法，首先將一個(gè)大的分類(lèi)問(wèn)題切割成若干個(gè)相對(duì)獨(dú)立的分類(lèi)小問(wèn)題，每個(gè)小問(wèn)題都是一個(gè)二分類(lèi)問(wèn)題；其次將規(guī)則的后件評(píng)價(jià)等級(jí)設(shè)置為兩個(gè)讓每個(gè)置信規(guī)則庫(kù)只處理一個(gè)小問(wèn)題，以此減小線(xiàn)性組合所來(lái)的的誤差；最后，采用眾倉(cāng)決策的方式將若干個(gè)小問(wèn)題的結(jié)果進(jìn)行整合，從而得出最終的分類(lèi)結(jié)果，通過(guò)實(shí)驗(yàn)分析驗(yàn)證了該方法的可行性。本文在現(xiàn)有置信規(guī)則庫(kù)推理分類(lèi)算法的基礎(chǔ)上，通過(guò)改進(jìn)分類(lèi)器的設(shè)計(jì)，從而進(jìn)一步提高了分類(lèi)準(zhǔn)確率。如何處理類(lèi)別數(shù)量更多的分類(lèi)問(wèn)題將是下一步研究的方向。

參考文獻(xiàn):

[1] Cover T，Hart P．Nearest neighbor pattern classification[J]．IEEE Transactions on Information Theory，1967，13(1)：21-27．

[2] Cortes C，Vapnik V．Support-vector networks[J]．Machine Learning，1995，20(3)：273-297．

[3] Bazan J G，Nguyen H S，Nguyen S H，et al．Rough set algorithms in classification problem[J]．Rough Set Methods and Applications，2000，56(1)：49-88．

[4] Yang Jianbo，Liu Jun，Wang Jin，et al．Belief rule-base inference methodology using the evidential reasoning approach-RIMER[J]．IEEE Transactions on Systems, Man and Cybernetics，Part A：Systems and Humans，2006，36(2)：266-285．

[5] Sun R．Robust reasoning：Integrating rule-based and similarity-based reasoning[J]．Artificial Intelligence，1995，75(2)：241-295．

[6] Dempster A P．A generalization of Bayesian inference[J]．Journal of the Royal Statistical Society，1968，30(2)：205-247．

[7] Shafer G．A mathematical theory of evidence[M]．Princeton: Princeton University Press，1976：10-39．

[8] Hwang C L，Yoon K．Methods for multiple attribute decision making[M]．[S．l.]: Sringer Berlin Heidelberg，981：58-191．

[9] Zadeh L A．Fuzzy sets[J]．Information and Control，1965，8(3)：338-353．

[10] 周志杰，楊劍波，胡昌華，等．置信規(guī)則庫(kù)專(zhuān)家系統(tǒng)與復(fù)雜系統(tǒng)建模[M]．北京：科學(xué)出版社，2011：9-41．

Zhou Zhijie，Yang Jianbo，Hu Changhua，et al．Belief rule base of expert system and complex system modeling[M]．Beijing:Science Press，2011：9-41．

[11] Liu Jun，Yang Jianbo Ruan Da，et al．Self-tuning of fuzzy belief rule bases for engineering system safety analysis[J]．Annals of Operations Research，2008，163(1)：143-168．

[12] Jiang Jiang，Li Xuan，Zhou Zhijie，et al．Weapon system capability assessment under uncertainty based on the evidential reasoning approach[J]．Expert Systems with Applications，2011，38(11)：13773-13784．

[13] Chang Leilei，Zhou Zhijie，You Yuan，et al．Belief rule based expert system for classification problems with new rule activation and weight calculation procedures[J]．Information Sciences，2016，336(1)：75-91．

[14] 葉青青，楊隆浩，傅仰耿．基于改進(jìn)置信規(guī)則庫(kù)推理的分類(lèi)方法[J]．計(jì)算機(jī)科學(xué)與探索，2016，10(5)：709-721．

Ye Qingqing，Yang Longhao，F(xiàn)u Yanggeng．Classification approach based on improved belief rule-base reasoning[J]．Computer Science and Technology，2016，10(5)：709-721．

[15] Yang Jianbo，Liu Jun，Xu Dongling，et al．Optimization models for training belief-rule-based systems[J]．IEEE Transactions on Systems，Man，and Cybernetics，Part A：Systems and Humans，2007，37(4)：569-585．

[16] Zhou Zhiguo, Liu Fang，Jiao Licheng，et al．A bi-level belief rule based decision support system for diagnosis of lymph node metastasis in gastric cancer[J]．Knowledge-Based Systems，2013，54：128-136．

[17] Calzada A，Liu J，Wang H，et al．A new dynamic rule activation method for extended belief rule-based systems[J]．IEEE Transactions on Knowledge and Data Engineering，2015，27(4)：880-894．

[18] Nie Qingfeng，Jin Lizou，F(xiàn)ei Shumin，et al．Neural network for multi-class classification by boosting composite stumps[J]．Neurocomputing，2015，149：949-956．

[19] Sanchez M A，Castillo O，Castro J R，et al．Fuzzy granular gravitational clustering algorithm for multivariate data[J]．Information Sciences，2014，279：498-511．

[20] Shao Yuanhai，Chen Weijie，Wang Zhen，et al．Weighted linear loss twin support vector machine for large-scale classification[J]．Knowledge-Based Systems，2015，73：276-288．

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放