(1.廣西師范學(xué)院 計(jì)算機(jī)與信息工程學(xué)院, 南寧 530023;2.廣西科技師范學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,廣西 來(lái)賓 546199)
模式識(shí)別領(lǐng)域中普遍存在的一個(gè)問(wèn)題是,同一個(gè)分類(lèi)方法在不同的應(yīng)用中分類(lèi)性能不盡相同。沒(méi)有哪種分類(lèi)方法能夠普遍適用于所有的分類(lèi)情況。為了解決這樣的問(wèn)題,分類(lèi)器融合技術(shù)成為了模式識(shí)別領(lǐng)域的一個(gè)重要技術(shù)。當(dāng)前許多研究表明,多分類(lèi)器融合技術(shù)對(duì)于模式識(shí)別的性能有較大的提高[1-3]。目前多分類(lèi)器融合技術(shù)已經(jīng)在很多領(lǐng)域上得到實(shí)踐,例如圖像分類(lèi)、語(yǔ)音識(shí)別、手寫(xiě)技術(shù)識(shí)別等[4]。模式識(shí)別領(lǐng)域統(tǒng)一將分類(lèi)器技術(shù)劃分為以下兩種形式:分類(lèi)器動(dòng)態(tài)選擇[5]和分類(lèi)器融合。動(dòng)態(tài)分類(lèi)器選擇方法的核心思想是:預(yù)測(cè)當(dāng)前識(shí)別任務(wù)多分類(lèi)器系統(tǒng)中識(shí)別最準(zhǔn)確的基分類(lèi)器,選擇預(yù)測(cè)的基分類(lèi)器作為多分類(lèi)器系統(tǒng)融合決策的輸出。而分類(lèi)器融合方法的核心思想是:全面地考慮每一個(gè)基分類(lèi)器的決策輸出,結(jié)合每一個(gè)基分類(lèi)器的決策輸出作為多分類(lèi)器的最終決策輸出,這種思想會(huì)得到更多的決定性決策信息。
基于這兩種思想比較,更多的學(xué)者致力于研究多分類(lèi)器融合方法。常規(guī)的多分類(lèi)器融合技術(shù)包括多數(shù)投票法[6],人工神經(jīng)網(wǎng)絡(luò)法,加權(quán)平均值法,決策模板[7]和D-S證據(jù)理論[8],行為-知識(shí)空間方法(BKS)[9]等。存在的問(wèn)題是,一些基分類(lèi)器存在實(shí)時(shí)性能不穩(wěn)定的情況,所以在使用多分類(lèi)器融合方法時(shí)容易受到這種基分類(lèi)器的影響而導(dǎo)致性能的不穩(wěn)定。因此,更多的研究者開(kāi)始把目光投向基分類(lèi)器的選擇,特別是集成過(guò)程中的基分類(lèi)器選擇[10]。這些基于基分類(lèi)器選擇的多分類(lèi)器系統(tǒng)方法不再局限于基于單個(gè)或基于全部基分類(lèi)器進(jìn)行融合決策,而是靈活性地組合部分互補(bǔ)性強(qiáng)且對(duì)實(shí)時(shí)樣本有較高識(shí)別率的基分類(lèi)器來(lái)完成融合決策[11]。
一些研究發(fā)現(xiàn),不同分類(lèi)器對(duì)于分類(lèi)具有互補(bǔ)性,異分類(lèi)器的融合能夠有效提高分類(lèi)精度以及推廣能力,而提高分類(lèi)器間相異性的手段之一就是采用具有互補(bǔ)分類(lèi)信息的多個(gè)不同特征集[12-13]。這些不同特征集可以是同一特征集的不同子集,也可以是異類(lèi)或不同特征空間中的特征子集[13]。
針對(duì)上述動(dòng)態(tài)選擇基分類(lèi)器與分類(lèi)器融合方法存在實(shí)時(shí)性能不穩(wěn)定的問(wèn)題,本文提出一種自適應(yīng)子融合集成分類(lèi)器方法,首先通過(guò)有放回地隨機(jī)選擇樣本完成樣本集采樣,產(chǎn)生多個(gè)不同的訓(xùn)練集,然后通過(guò)線性判決思想(Fisher線性判決思想是:一個(gè)好的特征應(yīng)該使類(lèi)內(nèi)離散度盡可能小,而類(lèi)間離散度盡可能大。)在不同訓(xùn)練子集中進(jìn)行特征提取,并利用簡(jiǎn)單的分類(lèi)器對(duì)輸入的特征變量單獨(dú)進(jìn)行分類(lèi),最后基于本文提出的一種基分類(lèi)器選擇模型完成實(shí)時(shí)的子融合系統(tǒng)構(gòu)建,并在該子融合系統(tǒng)上按分類(lèi)的結(jié)果進(jìn)行投票,選擇得票最多的作為分類(lèi)結(jié)果輸出。
多分類(lèi)器系統(tǒng)作為一種集成分類(lèi)算法(Ensemble learning),通過(guò)基分類(lèi)器集合和組合規(guī)則或組合算法模型構(gòu)成。根據(jù)基分類(lèi)器決策輸出信息的不同,多分類(lèi)器系統(tǒng)一般被劃分為三個(gè)不同的層次[14]:決策層融合(Abstract level),排序?qū)尤诤?Rank level)和度量層融合(Measurement level)。在決策層融合層次上,各個(gè)基分類(lèi)器的輸出為某個(gè)確定的類(lèi)別號(hào);在排序?qū)尤诤蠈哟紊?,各個(gè)基分類(lèi)器的輸出為測(cè)試樣本屬于各類(lèi)可能性的一個(gè)排序列表;在度量層融合層次上,各個(gè)基分類(lèi)器的輸出為測(cè)試樣本屬于各類(lèi)的后驗(yàn)概率。
在實(shí)際應(yīng)用中,大部分用于集成的基分類(lèi)器可以獲取類(lèi)似于后驗(yàn)概率的中間度量值,如k-NN分類(lèi)器可以利用測(cè)試樣本到各類(lèi)中心的最近鄰距離來(lái)構(gòu)建函數(shù)求取測(cè)試樣本屬于各類(lèi)的可能性。這種可能性在同質(zhì)基分類(lèi)器構(gòu)成的多分類(lèi)器系統(tǒng)中可以作為基分類(lèi)器選擇的考慮因素。因此,本文主要研究度量層融合層次之上的多分類(lèi)器聯(lián)合方法。
度量層融合層次的多分類(lèi)器系統(tǒng)問(wèn)題可以定義如下:
輸入:
[e1(x)e2(x) …eK(x)]:各基分類(lèi)器對(duì)樣本x的識(shí)別輸出,其中,ek(x)=[ω(C1)ω(C2) …ω(CM)](k∈{1,2,…,K}),ω(Ci)∈[0,1],ω(Ci)(i∈{1,2,…,M})為后驗(yàn)概率、隸屬度或某種模糊測(cè)度,說(shuō)明樣本x歸屬于各類(lèi)的程度。
輸出:
E(x)=Ci:多分類(lèi)器系統(tǒng)識(shí)別樣本所歸屬的類(lèi)別,其中i∈{1,2,…,M}。
輸出結(jié)果的獲取可以通過(guò)多種不同形式實(shí)現(xiàn),常見(jiàn)的有提取最大值、計(jì)算平均值和加權(quán)平均等。
上述定義中,分量ωk(Ci)與ωj(Ci)的距離越小,說(shuō)明它們之間的決策支持度越大。反之,則說(shuō)明決策支持度越小。
上述定義中,第k個(gè)基分類(lèi)器識(shí)別樣本x歸屬于Ci類(lèi)的程度ωk(Ci)越靠近[0,1]區(qū)間中值0.5,其決策置信度越小.反之,則說(shuō)明決策置信度越大。
自適應(yīng)子融合系統(tǒng)可以針對(duì)不同的輸入樣本,動(dòng)態(tài)挑選出不同數(shù)目的基分類(lèi)器組成子融合系統(tǒng)進(jìn)行樣本識(shí)別。根據(jù)上述實(shí)時(shí)決策支持度和實(shí)時(shí)決策置信度的定義,設(shè)計(jì)基分類(lèi)器動(dòng)態(tài)挑選的策略,其過(guò)程為:首先提取實(shí)時(shí)決策支持度最高的基分類(lèi)器,然后在多分類(lèi)器系統(tǒng)中將其它基分類(lèi)器的實(shí)時(shí)決策置信度一一與該基分類(lèi)器的實(shí)時(shí)決策置信度進(jìn)行比較,動(dòng)態(tài)選擇出比該基分類(lèi)器實(shí)時(shí)決策置信度高的基分類(lèi)器,并一起構(gòu)成子融合系統(tǒng),最后通過(guò)簡(jiǎn)單多數(shù)投票決定輸入樣本所歸屬的類(lèi)別號(hào)。
為了提高多分類(lèi)器系統(tǒng)的泛化能力,自適應(yīng)子融合系統(tǒng)通過(guò)有放回隨機(jī)選擇多個(gè)不同的訓(xùn)練集,并在這些訓(xùn)練集上通過(guò)線性判決思想隨機(jī)動(dòng)態(tài)地提取特征構(gòu)成各基分類(lèi)器訓(xùn)練的特征子集。自適應(yīng)子融合系統(tǒng)的方法模型框架如圖1所示。訓(xùn)練樣本和訓(xùn)練特征集的差異保證了多分類(lèi)器系統(tǒng)中基分類(lèi)器的互補(bǔ)性。
圖1 自適應(yīng)子融合集成分類(lèi)器方法模型
在每個(gè)隨機(jī)訓(xùn)練樣本集基礎(chǔ)上隨機(jī)提取有較優(yōu)線性可分性的特征子集,首先在特征集上隨機(jī)地限定特征提取范圍,該提取范圍為隨意的部分特征組合,以提高基分類(lèi)器的差異性。然后,在隨機(jī)挑選出第一個(gè)特征的基礎(chǔ)上利用線性判決思想在這些隨機(jī)提取的特征組合中通過(guò)迭代重組出線性可分性較強(qiáng)的特征子集。具體特征子集生成算法如算法1所示。
算法1:特征選擇:
Input: 特征集F.
Output: 特征子集S.
1)獲取特征集F的特征個(gè)數(shù)m;
2)初始化: Lsd=0, max_Lsd=0, first_i=0, S=φ,i=0;
3)隨機(jī)生成長(zhǎng)度為m的二進(jìn)制字符串a(chǎn);
4)在a中隨機(jī)選擇值為1的某個(gè)位置first_i;
5)S=S∪{F[first_i]};
6)max_Lsd=calculate_Lsd(S);
7)while i 8) if (a[i]==1 && i!=first_i) then 9) Lsd=calculate_Lsd(S∪{ F[i]}); 10) if Lsd>max_Lsd then 11) S=S∪{F[i]}; max_Lsd=Lsd; 12) end if 13) end if 14) i++; 15)end while 16)return(S,a). 其中,步驟6)中calculate_Lsd函數(shù)為特征集輸入?yún)?shù)S在當(dāng)前隨機(jī)樣本集中的線性可分度,線性可分度Lsd的計(jì)算公式如式(1)所示。其中,c為特征集S存在的類(lèi)別數(shù),Xi為當(dāng)前隨機(jī)樣本集中屬于第i類(lèi)的樣本集合。 (1) 特征子集生成算法在自適應(yīng)子融合系統(tǒng)中是基于多個(gè)不同樣本集分別實(shí)現(xiàn)的,其實(shí)現(xiàn)過(guò)程可以并行處理。因此,有可能存在相同的特征子集被不同基分類(lèi)器提取。本文通過(guò)兩種不同的策略來(lái)優(yōu)化提取的特征子集,提高基分類(lèi)器的差異性。這兩種策略分別是變異策略和交叉策略,具體方法如下所示: 交叉策略:隨機(jī)選擇一個(gè)不同的特征選擇向量a2,在a2中隨機(jī)選擇一個(gè)交叉區(qū)域,將a的相應(yīng)交叉區(qū)域由a2交叉區(qū)域代替。 例如,存在相同特征子集的特征選擇向量為a=10011100,選擇的a2為a2=00100110,交叉區(qū)域?yàn)?011,則進(jìn)行交叉操作后有:a=10000110。 通過(guò)雙重循環(huán)將所有生成的特征子集進(jìn)行比較,存在相同的特征子集進(jìn)行1次或多次變異和交叉操作,直至得到一個(gè)與現(xiàn)有所有特征子集不重復(fù)的新特征子集。 在隨機(jī)樣本和特征子空間生成后,分別訓(xùn)練基分類(lèi)器,因?yàn)樽赃m應(yīng)子融合系統(tǒng)基于1.2節(jié)中定義的實(shí)時(shí)決策支持度和實(shí)時(shí)決策置信度動(dòng)態(tài)選擇集成,所以動(dòng)態(tài)選擇基分類(lèi)器操作在測(cè)試階段進(jìn)行。 首先通過(guò)多分類(lèi)器系統(tǒng)中的各個(gè)基分類(lèi)器對(duì)輸入測(cè)試樣本進(jìn)行分類(lèi)識(shí)別,然后分別計(jì)算各基分類(lèi)器的實(shí)時(shí)決策支持度DS,并從中挑選出獲得當(dāng)前實(shí)時(shí)決策支持度最高的基分類(lèi)器,將其作為自適應(yīng)子融合系統(tǒng)的基分類(lèi)器,并用該基分類(lèi)器的實(shí)時(shí)決策置信度與其它基分類(lèi)器的實(shí)時(shí)決策置信度進(jìn)行比較,進(jìn)一步挑選出實(shí)時(shí)決策置信度比其高的基分類(lèi)器作為自適應(yīng)子融合系統(tǒng)的成員,完成用來(lái)融合決策的子系統(tǒng)構(gòu)建,算法流程如下: 算法2:基分類(lèi)器動(dòng)態(tài)選擇. Input: 分類(lèi)器集合E. Output: 分類(lèi)器子集合S. 1)初始化:S=φ; 2)從E中選擇當(dāng)前樣本識(shí)別中DS最高的基分類(lèi)器ec; 3)S={ec}; 4)E=E-{ec}; 5)θ=DC(ec); 6)while E!=NULL 7) if DC(E[0])>θthen 8)S=S∪{ei}; 9) end if 10)E=E-{ei}; 11)end while 12)return(S). 該方法對(duì)于輸出結(jié)果帶有類(lèi)似后驗(yàn)概率的分類(lèi)器進(jìn)行直接軟迭代集成,對(duì)于其他輸出形式的基分類(lèi)器需要先將其輸出值轉(zhuǎn)化到[0,1]上的可信度,然后再利用算法。本文定義其輸出值轉(zhuǎn)化方法為: ek(x)=[Pk(C1|x),Pk(C2|x),…,Pk(CM|x)] 基于上述方法可以得到多分類(lèi)器系統(tǒng)的決策矩陣如下: 自適應(yīng)子融合集成分類(lèi)方法融合了一系列基分類(lèi)器的分類(lèi)結(jié)果, 直接采用多數(shù)投票法來(lái)決定識(shí)別結(jié)果,讓當(dāng)前被自適應(yīng)子融合系統(tǒng)選中的基分類(lèi)器都對(duì)輸入的特征向量進(jìn)行投票,匯總各類(lèi)得票數(shù),找出其中擁有票數(shù)最多的類(lèi)別作為融合系統(tǒng)對(duì)該特征向量識(shí)別的類(lèi)別。 本實(shí)驗(yàn)使用的是UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的四類(lèi)數(shù)據(jù)集進(jìn)行相關(guān)測(cè)試。數(shù)據(jù)集樣本如表1所示。實(shí)驗(yàn)數(shù)據(jù)屬于多分類(lèi)樣本數(shù)據(jù)集,需限定使用方法為多分類(lèi)方法,以保證分類(lèi)的效果,實(shí)驗(yàn)基分類(lèi)器如表2所示。有效劃分訓(xùn)練集與測(cè)試集比重往往可以提高分類(lèi)的效率,參照先驗(yàn)知識(shí)且經(jīng)過(guò)多次試驗(yàn)測(cè)試集與訓(xùn)練集比例,最終發(fā)現(xiàn)30%作為訓(xùn)練集、70%作為測(cè)試集的實(shí)驗(yàn)效果最好,因此我們將各類(lèi)數(shù)據(jù)集分別按照0.3的比例劃分。 本文將分類(lèi)準(zhǔn)確率作為衡量融合集成分類(lèi)器方法識(shí)別效果的衡量標(biāo)準(zhǔn),具體方法是測(cè)試集中分類(lèi)正確數(shù)量占總測(cè)試集的百分比,公式如式(2): (2) 其中:Nk表示測(cè)試集中分類(lèi)正確的數(shù)量,Nc表示測(cè)試集的總數(shù)。 表2實(shí)驗(yàn)結(jié)果數(shù)據(jù)表明,本文提出的自適應(yīng)子融合集成分類(lèi)方法與其他基分類(lèi)器比較,本文方法的識(shí)別效果更優(yōu),在所用數(shù)據(jù)集都得到了有效提升。同時(shí),表2也表明了在Vehicle數(shù)據(jù)集、Glass數(shù)據(jù)集上一些基分類(lèi)器識(shí)別性能較差的現(xiàn)象。驗(yàn)證了本文前面提到的基分類(lèi)器實(shí)時(shí)穩(wěn)定性差從而導(dǎo)致一些融合方法的性能不穩(wěn)定的問(wèn)題。本文提出的自適應(yīng)子融合集成多分類(lèi)器方法從表3中明顯證明識(shí)別性能優(yōu)于其他兩種多分類(lèi)器融合方法,并且在Wine數(shù)據(jù)集和Vehicle數(shù)據(jù)集效果提升稍好于其他兩類(lèi)數(shù)據(jù)集。通過(guò)表2、表3,我們可以得出以下結(jié)論:多分類(lèi)問(wèn)題,數(shù)據(jù)類(lèi)別越多,分類(lèi)的準(zhǔn)確率越高,即分類(lèi)效果越好。 表1 實(shí)驗(yàn)的四類(lèi)數(shù)據(jù)集 表2 本文方法與基本分類(lèi)器識(shí)別準(zhǔn)確度比較 % 表3 本文方法與其他多分類(lèi)器聯(lián)合方法識(shí)別準(zhǔn)確度比較 % 從圖2中,我們可以直觀看到各基分類(lèi)器與多分類(lèi)器融合方法的分類(lèi)性能,并且在分類(lèi)性能上多分類(lèi)器融合方法普遍優(yōu)于基分類(lèi)器方法,本文方法在識(shí)別準(zhǔn)確率上同樣高于所比較的其他分類(lèi)融合方法。 圖2 各基分類(lèi)器與分類(lèi)器融合方法性能比較 本文基于Fisher線性判決思想來(lái)完成隨機(jī)特征子集內(nèi)的特征選擇有效提高基分類(lèi)器的差異性,結(jié)合決策支持度DS與決策置信度DC完成基分類(lèi)器的動(dòng)態(tài)選擇,并讓每一個(gè)被選中的基分類(lèi)器對(duì)輸入的特征向量進(jìn)行投票,計(jì)算所有投票數(shù),獲取子融合系統(tǒng)中投票數(shù)最多的類(lèi)別作為當(dāng)前輸入樣本的分類(lèi)結(jié)果,有效提高了分類(lèi)器識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,本文研究的度量層融合層次之上的多分類(lèi)器聯(lián)合方法能獲得較好的識(shí)別性能,較單個(gè)分類(lèi)器的識(shí)別準(zhǔn)確度都有所提高。 我們的工作存在如下不足:在未來(lái)的研究中需要解決的問(wèn)題,如基分類(lèi)器選擇當(dāng)前實(shí)時(shí)決策支持度最高者,是否可以通過(guò)先驗(yàn)概率或判別函數(shù)確定基分類(lèi)器會(huì)有更好的分類(lèi)效果。2.2 基分類(lèi)器動(dòng)態(tài)選擇
2.3 融合決策過(guò)程
3 實(shí)驗(yàn)結(jié)果與分析
4 結(jié)論