周 鵬,劉 河,黎雋男
(1.重慶人文科技學(xué)院 工商學(xué)院,重慶 401524;2.重慶市教育科學(xué)研究院,重慶 400015;3.重慶工商大學(xué) 人工智能學(xué)院,重慶 400067)
數(shù)據(jù)分類[1]是統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的一個(gè)重要任務(wù)。在數(shù)據(jù)分類中,通過學(xué)習(xí)足夠的有標(biāo)記樣本,一個(gè)分類模型能對(duì)無(wú)標(biāo)記樣本進(jìn)行類別預(yù)測(cè)。半監(jiān)督分類能利用少量有標(biāo)記和大量無(wú)標(biāo)記的樣本去訓(xùn)練分類模型和完成分類任務(wù)。經(jīng)過數(shù)十年的研究,學(xué)者們提出了許多半監(jiān)督分類范式[2],包括半監(jiān)督支持向量機(jī)、半監(jiān)督優(yōu)化路徑森林[3]、半監(jiān)督k近鄰分類器[4]、半監(jiān)督自標(biāo)記方法[5]等。半監(jiān)督支持向量機(jī)、半監(jiān)督優(yōu)化路徑森林和半監(jiān)督k近鄰分類器是算法水平方法。他們能改進(jìn)傳統(tǒng)的分類器(或分類模型),如支持向量機(jī)分類器、優(yōu)化路徑森林分類器[3]和最近鄰分類器[4],以使得被改進(jìn)的分類器能適用于包含有標(biāo)記和無(wú)標(biāo)記樣本的半監(jiān)督數(shù)據(jù)集。而半監(jiān)督自標(biāo)記方法是數(shù)據(jù)水平方法,它能用被自己預(yù)測(cè)的樣本來(lái)擴(kuò)充初始的有標(biāo)記集,然后用被擴(kuò)充的有標(biāo)記集來(lái)訓(xùn)練給定的分類模型和完成數(shù)據(jù)分類任務(wù)。
Yarowsky(1995)[5]提出了最早的自標(biāo)記方法,并把它應(yīng)用于文本分類。Triguero等(2015)[6]于2015年對(duì)自標(biāo)記方法進(jìn)行了綜述,并把自標(biāo)記方法大致劃分為自訓(xùn)練方法、協(xié)同訓(xùn)練方法、基于多視圖的自標(biāo)記方法和基于分歧的自標(biāo)記方法。STSFCM(Self-Training with Semi-Supervised Fuzzy C-Means)[7]和STDP(Self-Training with Density Peaks)[8]是典型的自訓(xùn)練方法。在迭代過程中,STSFCM和STDP分別用半監(jiān)督模糊C均值聚類[9]和密度峰值聚類[10]來(lái)發(fā)現(xiàn)容易被預(yù)測(cè)正確的(即具有高置信度的)無(wú)標(biāo)記樣本,并用一個(gè)給定的分類器來(lái)迭代地預(yù)測(cè)和學(xué)習(xí)他們。
Triguero 等(2014)[11]發(fā)現(xiàn),由于初始有標(biāo)記樣本數(shù)量不足和分布受限,因此在迭代過程中,自標(biāo)記方法會(huì)不可避免地誤預(yù)測(cè)無(wú)標(biāo)記樣本。如果自標(biāo)記方法把被誤預(yù)測(cè)樣本加入有標(biāo)記集,那么自標(biāo)記方法的性能將明顯降低,且將造成更多的誤預(yù)測(cè)。學(xué)者們提出用數(shù)據(jù)剪輯技術(shù)(如ENN(Edited Nearest Neighbor)[11]、CEWS(Cut Edge Weight Statistic)[11]、ENaNE(Extended Natural Neighbor Editing)[12]等)去識(shí)別和移除在自標(biāo)記方法迭代過程中的被誤預(yù)測(cè)樣本,從而克服誤標(biāo)記。例如,MLSTE[13]用ENN 去識(shí)別和移除在自訓(xùn)練方法迭代過程中的被誤預(yù)測(cè)樣本。STDPCEWS[14]用CEWS 去識(shí)別和移除在STDP 迭代過程中的被誤預(yù)測(cè)樣本。STDPNF[13]用ENaNE 去識(shí)別和移除在STDP迭代過程中的被誤預(yù)測(cè)樣本。然而,許多數(shù)據(jù)剪輯技術(shù)嚴(yán)重依賴于特定的假設(shè)。例如,ENN、CEWS 和ENaNE 假設(shè)被誤預(yù)測(cè)的樣本與其周圍樣本有不同的類別。當(dāng)給定假設(shè)不被滿足時(shí),數(shù)據(jù)剪輯技術(shù)容易誤識(shí)別被誤預(yù)測(cè)的樣本。
為了克服誤標(biāo)記問題和相關(guān)解決方案(即數(shù)據(jù)剪輯技術(shù)[11—14])中的缺陷,本文提出一種基于近鄰規(guī)則和粒子群優(yōu)化的自標(biāo)記方法(a Self-Labeled Method based on Nearest Neighbor rules and Particle Swarm Optimization,SLM-NNPSO),采用一種新的近鄰規(guī)則去快速地發(fā)現(xiàn)具有高置信度的無(wú)標(biāo)記樣本,提出用粒子群優(yōu)化算法去識(shí)別和移除被誤預(yù)測(cè)的樣本,而無(wú)須依賴任何假設(shè),并在來(lái)自銷售市場(chǎng)、醫(yī)學(xué)檢測(cè)、圖像識(shí)別等領(lǐng)域的真實(shí)數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn),以驗(yàn)證SLM-NNPSO的優(yōu)越性。
設(shè)XSSL={x1,…,xn}代表一個(gè)包含有標(biāo)記和無(wú)標(biāo)記樣本的半監(jiān)督數(shù)據(jù)集,XSSL=XL∪XU。XSSL中的樣本數(shù)為n。XL={(x1,y1),(x2,y2),…,(xl,yl)}代表有標(biāo)記樣本集。yi(i=1,2,…,l)是樣本xi的類標(biāo)記。XU={xl+1,…,xn}代表無(wú)標(biāo)記樣本集。xi={xi,1,xi,2,…,xi,d,…,xi,D}代表具有D個(gè)屬性的第i個(gè)樣本。本文涉及的主要術(shù)語(yǔ)和符號(hào)如下:
(1)Particle={P1,P2,…,PN}代表一個(gè)擁有N個(gè)粒子的粒子群。
(2)Si=(Si,1,Si,2,…,Si,M)代表粒子Pi的位置向量。
(3)Vi=(Vi,1,Vi,2,…,Vi,M)代表粒子Pi的速度向量。
(4)c1和c2代表學(xué)習(xí)率。
(5)w代表慣性權(quán)重。
(6)gbest代表粒子群Particle中最好的粒子的位置。
(7)pbesti代表粒子Pi在迭代過程中的最好位置。
(8)NN(xi,XSSL)代表樣本xi在半監(jiān)督數(shù)據(jù)集XSSL上的k近鄰集合。
(9)XConf代表具有高置信度的無(wú)標(biāo)記樣本集。
(10)Xnew代表新預(yù)測(cè)的樣本集。
(11)Xcorrect代表被正確預(yù)測(cè)的樣本集。
(12)代表用粒子Pi在Xnew上形成的樣本子集。
(13)fitnessig代表粒子Pi第g次迭代的適應(yīng)度值。
(14)fitnessgbest代表最好粒子的適應(yīng)度值。
Kennedy和Eberhart于1995年提出了粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)[15]。與傳統(tǒng)方法(如數(shù)據(jù)剪輯技術(shù)等)[11—14]相比,PSO 不需要對(duì)樣本的幾何、分布、類關(guān)系等作出具體假設(shè)[16]。與遺傳算法、蟻群算法、模擬退火算法等優(yōu)化算法相比,PSO易于實(shí)現(xiàn),收斂速度快,且易于找到全局最優(yōu)解。PSO有兩種版本,即CPSO(Continuous PSO)[17]和BPSO(Binary PSO)[16]。學(xué)者們已經(jīng)把BPSO應(yīng)用于許多組合問題,如特征選擇、樣本子空間優(yōu)化等[16,17]。接下來(lái),本文簡(jiǎn)單地介紹BPSO的原理。
設(shè)Particle={P1,P2,…,PN}是一個(gè)擁有N個(gè)粒子的粒子群。每個(gè)粒子Pi(i=1,2,…,N)有一個(gè)位置向量Si=(Si,1,Si,2,…,Si,M) 和 速 度 向 量Vi=(Vi,1,Vi,2,…,Vi,M) 。M是針對(duì)特定問題的解空間的維數(shù)。位置Si,j(i=1,2,…,N;j=1,2,…,M)僅有0或1的值,這暗示是否需要選擇粒子Pi(i=1,2,…,N) 的第j(j=1,2,…,M) 個(gè)解空間。起初,BPSO用式(1)和式(2)來(lái)初始化每個(gè)粒子Pi的位置向量Si和速度向量Vi:
在式(1)中,函數(shù)rand()返回0至1之間的隨機(jī)值。在式(2)中,Vmax是一個(gè)參數(shù),它用來(lái)控制每個(gè)粒子Pi的速度Vi,j的最大值。當(dāng)初始化位置向量Si和速度向量Vi之后,BPSO迭代地更新每個(gè)粒子Pi的速度向量Vi和位置向量Si,并計(jì)算每個(gè)粒子Pi的適應(yīng)度值(通常用一個(gè)與問題相關(guān)的適應(yīng)度函數(shù)來(lái)計(jì)算適應(yīng)度值),直到BPSO達(dá)到最大迭代次數(shù)G。在迭代過程中,BPSO用式(3)和式(4)來(lái)更新每個(gè)粒子Pi的速度向量Vi和位置向量Si。
在式(3)中,r1和r2是0 到1 之間的隨機(jī)值;c1和c2是學(xué)習(xí)率參數(shù);w是慣性權(quán)重參數(shù);gbest代表在粒子群Particle中的最好粒子的位置,最好粒子具有最大的適應(yīng)度值,gbestj代表最好粒子的位置在第j(j=1,2,…,M)個(gè)解空間上的值;pbesti代表粒子Pi在迭代過程中的最好位置,gbestj和pbesti,j僅有0或1的值。當(dāng)?shù)Y(jié)束之后,BPSO 輸出在粒子群Particle中的最好粒子的位置gbest。受BPSO 的啟發(fā),本文所提出的SLM-NNPSO 用BPSO 來(lái)識(shí)別和移除被誤預(yù)測(cè)的樣本,從而克服誤標(biāo)記問題,且無(wú)須特定的假設(shè)。
SLM-NNPSO的流程圖如下頁(yè)圖1所示。SLM-NNPSO包含如下主要步驟:(1)SLM-NNPSO 用有標(biāo)記集XL去訓(xùn)練一個(gè)給定的分類模型C;(2)SLM-NNPSO 用近鄰規(guī)則從無(wú)標(biāo)記集XU中發(fā)現(xiàn)具有高置信度的無(wú)標(biāo)記樣本集XConf;(3)SLM-NNPSO 用分類模型C來(lái)預(yù)測(cè)具有高置信度的無(wú)標(biāo)記樣本的類別,從而形成新預(yù)測(cè)的樣本集合Xnew;(4)SLM-NNPSO 用BPSO 來(lái)識(shí)別和移除被誤預(yù)測(cè)的樣本,并把被正確預(yù)測(cè)的樣本Xcorrect加入有標(biāo)記集XL中;(5)重復(fù)步驟(1)至步驟(4),當(dāng)沒有發(fā)現(xiàn)具有高置信度的無(wú)標(biāo)記樣本時(shí),SLM-NNPSO 輸出在迭代過程中被訓(xùn)練的分類模型C。
圖1 SLM-NNPSO的流程圖
在SLM-NNPSO 的迭代過程中,SLM-NNPSO 用近鄰規(guī)則從無(wú)標(biāo)記樣本集XU中發(fā)現(xiàn)一些容易被分類模型預(yù)測(cè)正確的無(wú)標(biāo)記樣本,即具有高置信度的無(wú)標(biāo)記樣本,如定義1所示。
定義1(具有高置信度的無(wú)標(biāo)記樣本):設(shè)NNk(xi,XSSL)代表樣本xi在半監(jiān)督數(shù)據(jù)集XSSL上的k近鄰集合。如果一個(gè)無(wú)標(biāo)記樣本xi是具有高置信度的無(wú)標(biāo)記樣本,那么xi在半監(jiān)督數(shù)據(jù)集XSSL上的k近鄰集合包含有標(biāo)記樣本,且這些有標(biāo)記樣本僅屬于某一類,如式(5)所示。
在式(5)中,函數(shù)l()返回給定樣本的類別。因此,l({xj|xj∈NNk(xi,XSSL)}) 返回集合{xj|xj∈NNk(xi,XSSL)}中的所有樣本類別。函數(shù)unique()返回給定集合不重復(fù)的值。因此,unique(l({xj|xj∈NNk(xi,XSSL)})) 返回l({xj|xj∈NNk(xi,XSSL)})中的不重復(fù)的類別。如果|unique(l({xj|xj∈NNk(xi,XSSL)}))|等于l,那么無(wú)標(biāo)記樣本xi在半監(jiān)督數(shù)據(jù)集XSSL上的k近鄰集合包含某一類有標(biāo)記樣本。
雖然SLM-NNPSO能發(fā)現(xiàn)一些具有高置信度的(即容易被預(yù)測(cè)正確的)無(wú)標(biāo)記樣本給被訓(xùn)練的分類模型預(yù)測(cè)和學(xué)習(xí),但是由于初始有標(biāo)記樣本過少且可能包含噪聲,SLM-NNPSO 仍可能誤預(yù)測(cè)無(wú)標(biāo)記樣本,因此,在SLM-NNPSO 的迭代過程中,SLM-NNPSO 用BPSO 在新預(yù)測(cè)的樣本集Xnew中識(shí)別和移除被誤預(yù)測(cè)的樣本,從而形成被正確預(yù)測(cè)的樣本集Xcorrect。實(shí)際上,上述問題可以被視為一個(gè)基于BPSO 的樣本子空間優(yōu)化(Sample Subspace Optimization, SSO)問題[16,17]。BPSOSSO 的偽代碼如算法1所示(見表1)。
表1 算法1:BPSOSSO
如前文描述,BPSO 擁有具有N個(gè)粒子的粒子群Particle={P1,P2,…,PN}。每個(gè)粒子Pi有一個(gè)速度向量Vi=(Vi,1,Vi,2,…,Vi,M) 和位置向量Si=(Si,1,Si,2,…,Si,M) 。在SLM-NNPSO中,每個(gè)粒子Pi可以視為Xnew中的一個(gè)樣本子集。同樣,Si,j(i=1,2,…,N;j=1,2,…,M)僅有0 值或1 值。如果Si,j等于0,那么用粒子Pi所形成的樣本子集包含Xnew中的第j個(gè)樣本,反之亦然。在SLM-NNPSO 的BPSO 中,M等于Xnew的樣本個(gè)數(shù)(即|Xnew|)。SLM-NNPSO 中的BPSO 需要一個(gè)與問題相關(guān)的適應(yīng)度函數(shù)去評(píng)估每一個(gè)粒子的適應(yīng)度值。本文用式(6)來(lái)計(jì)算每個(gè)粒子Pi的適應(yīng)度值。
在式(6)中,fitnessig代表粒子Pi在第g次迭代中的適應(yīng)度值;accuracy(f,XTraining,XValidating)返回一個(gè)給定分類器f在驗(yàn)證集XValidating上的分類正確率,且分類器f把XTraining作為訓(xùn)練集。本文把式(6)中的分類器f設(shè)置為k近鄰分類器(k=3),且讓XTraining=XL∪,并讓XValidating=XL。算法1 描述了用BPSO 去識(shí)別和移除被誤預(yù)測(cè)樣本的偽代碼。本文把算法1 記為BPSOSSO(BPSO-based SSO)
在算法1的第9行上,fitnessgbest代表在Particle中最好粒子的適應(yīng)度值。在算法1的第18行上,代表粒子Pi在第g次迭代中的位置向量。在算法1 的第26 行上,算法1用gbest來(lái)從Xnew中發(fā)現(xiàn)樣本 子 集Xcorrect。 具 體 地,如 果gbestj(j=1,…,M) 為0,那么這代表子集Xcorrect包含Xnew中的第j個(gè)樣本,反之亦然。與數(shù)據(jù)剪輯技術(shù)[11—15]相比,由于BPSO 的特性,因此算法1無(wú)須對(duì)樣本的幾何、分布、類關(guān)系等作出具體假設(shè)。
SLM-NNPSO的偽代碼如算法2所示(見表2)。
SLM-NNPSO 需 要 輸 入 參 數(shù)c1、c2、Vmax、G、w和k。其中,c1和c2是算法1中的學(xué)習(xí)率參數(shù);Vmax是算法1中的速度邊界參數(shù),G是算法1 中的最大迭代次數(shù)參數(shù),w是算法1 中的慣性權(quán)重參數(shù),k是用于公式(5)和發(fā)現(xiàn)高置信度無(wú)標(biāo)記樣本的參數(shù)。在算法2 的第5 行上,SLM-NNPSO 用BPSO(即算法1BPSOSSO)重新標(biāo)記集合Xnew中選出被正確標(biāo)記的集合Xcorrect,從而過濾掉被誤預(yù)測(cè)的樣本,且不需要特定的假設(shè)。接下來(lái),本文將用實(shí)驗(yàn)來(lái)證明SLM-NNPSO的有效性。
本文用一臺(tái)具有2.10GHz 的Inter(R)Xeon(R)Silver 4100 CPU 和32G 內(nèi)存的個(gè)人電腦去運(yùn)行所有的仿真實(shí)驗(yàn)。從UCI機(jī)器學(xué)習(xí)公開數(shù)據(jù)庫(kù)(http://archive.ics.uci.edu/ml/)和Kaggle 機(jī)器學(xué)習(xí)公開數(shù)據(jù)庫(kù)(https://www.kaggle.com/)中選取12個(gè)真實(shí)數(shù)據(jù)集來(lái)作為實(shí)驗(yàn)的數(shù)據(jù)。表3詳細(xì)地描述了這12 個(gè)真實(shí)數(shù)據(jù)集的名稱、屬性數(shù)、樣本數(shù)、類別數(shù)和應(yīng)用背景。
表3 實(shí)驗(yàn)的真實(shí)數(shù)據(jù)集
從表3 中可以發(fā)現(xiàn),實(shí)驗(yàn)數(shù)據(jù)集的樣本數(shù)在214 到5000范圍內(nèi),實(shí)驗(yàn)數(shù)據(jù)集的屬性數(shù)在6到44范圍內(nèi),實(shí)驗(yàn)數(shù)據(jù)集的類別數(shù)在2到10范圍內(nèi)。本文用10折交叉驗(yàn)證把每個(gè)真實(shí)數(shù)據(jù)集劃分為測(cè)試集和訓(xùn)練集。在訓(xùn)練集中,本文把10%~50%的樣本作為有標(biāo)記樣本,并且把剩余樣本作為無(wú)標(biāo)記樣本。全部實(shí)驗(yàn)重復(fù)10 次,把10 次實(shí)驗(yàn)的平均分類正確率(Average Classification Accuracy,ACA)作為評(píng)估標(biāo)準(zhǔn),如式(7)所示:
在式(7)中,代表第i次實(shí)驗(yàn)的測(cè)試集,代表在中被訓(xùn)練的分類模型預(yù)測(cè)正確的樣本。另外,表4描述了實(shí)驗(yàn)所采取的對(duì)比方法。本文將5個(gè)流行的半監(jiān)督自標(biāo)記方法作為對(duì)比方法。在表4中,MLSTE[13]、STDPCEWS[8]和STDPNF[9]是自訓(xùn)練方法,Op-FSCO[18]是基于多視圖的自標(biāo)記方法,Tri-training[19]是基于分歧的自標(biāo)記方法。本文把對(duì)比方法的參數(shù)設(shè)置為他們的標(biāo)準(zhǔn)版本。
表4 用于對(duì)比的半監(jiān)督自標(biāo)記方法
在對(duì)比方法中,本文把k近鄰分類器(k=3)設(shè)置為最終訓(xùn)練的分類器。換句話說,在實(shí)驗(yàn)中,表4 中的自標(biāo)記方法用少量有標(biāo)記樣本和大量無(wú)標(biāo)記樣本去訓(xùn)練k 近鄰分類器(k=3)。然后,本文用平均分類正確率來(lái)評(píng)估對(duì)比方法的有效性。
本文用表3中的真實(shí)數(shù)據(jù)集和表4中的對(duì)比方法來(lái)驗(yàn)證SLM-NNPSO 的有效性。用10 折交叉驗(yàn)證把每個(gè)真實(shí)數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,在每個(gè)真實(shí)數(shù)據(jù)集的訓(xùn)練集上,把10%的樣本作為有標(biāo)記樣本,且把剩余樣本作為無(wú)標(biāo)記樣本。
下頁(yè)表5展示了對(duì)比方法就訓(xùn)練k近鄰分類器的平均分類正確率。從表5 中可以看出,在8 個(gè)真實(shí)數(shù)據(jù)集(即Audio、SPECTF Heart、Wisconsin Diagnostic Breast Cancer、Glass、Vehicle、Vertebral Column、Wholesale Customers 和Wine Quality White)上,SLM-NNPSO實(shí)現(xiàn)了最高的平均分類正確率。在4 個(gè)真實(shí)數(shù)據(jù)集(即Contraceptive Method Choice、Yeast、WaveForm 和Wireless Indoor Localization)上,SLM-NNPSO 所實(shí)現(xiàn)的平均分類正確率稍微低于對(duì)比方法??赡艿脑蚴?,由于有標(biāo)記集包含噪聲或離群點(diǎn),因此SLM-NNPSO 中的BPSO(即算法1BPSOSSO)僅搜索到一個(gè)局部最優(yōu)解。
表5 對(duì)比方法訓(xùn)練k近鄰分類器的平均分類正確率 (單位:%)
從表5中的“平均值”行也可以發(fā)現(xiàn),在所有數(shù)據(jù)集的平均分類正確率上,SLM-NNPSO能實(shí)現(xiàn)最高的平均值,且比MLSTE、STDPCEWS、STDPNF、Op-FSCO 和Tri-training分別平均高出1.11%、1.25%、0.55%、1.53%和1.19%。
本文用Friedman檢驗(yàn)[20]中的平均秩去分析表5中的數(shù)據(jù)。平均秩是表5中各組數(shù)據(jù)的秩的平均值。例如,對(duì)比方法在表5 中的“Audio”行上的秩(升序)為1,3,4,2,5,6。如果一個(gè)對(duì)比方法越優(yōu)越,它將能實(shí)現(xiàn)越高的平均秩。從表5 的平均秩行可以看出,SLM-NNPSO 實(shí)現(xiàn)了最高的平均秩。
另外,本文也采用Wilcoxon 秩和檢驗(yàn)[20]去分析表5 中的數(shù)據(jù)。本文把Wilcoxon 秩和檢驗(yàn)的顯著性水平設(shè)置為0.05。在表5 的“Wilcoxon 秩和檢驗(yàn)”行中,符號(hào)“+”代表SLM-NNPSO 顯著地優(yōu)于該欄上的對(duì)比方法,符號(hào)“=”代表SLM-NNPSO和該欄上的對(duì)比方法沒有顯著差別,符號(hào)“-”代表該欄上的對(duì)比方法顯著優(yōu)于SLM-NNPSO。從表5 的“Wilcoxon 秩和檢驗(yàn)”行可以看出,就訓(xùn)練k 近鄰分類器而言,SLM-NNPSO 顯著地優(yōu)于MLSTE、STDPCEWS、Op-FSCO和Tri-training。
總的來(lái)說,表5 中的數(shù)據(jù)能證明,在大多數(shù)的數(shù)據(jù)集上,SLM-NNPSO能優(yōu)于5個(gè)流行的自標(biāo)記方法。
為了討論初始有標(biāo)記樣本比例的影響,本文把初始的有標(biāo)記樣本的比例從10%增加到50%。圖2 展示了對(duì)比方法在不同有標(biāo)記樣本比例的情況下訓(xùn)練k 近鄰分類器的平均分類正確率。
圖2 對(duì)比方法在6個(gè)真實(shí)數(shù)據(jù)集上的平均分類正確率
從圖2 可以看出,隨著初始有標(biāo)記樣本比例的增加,初始有標(biāo)記樣本將變多,且所有對(duì)比方法將實(shí)現(xiàn)更高的平均分類正確率。另外,當(dāng)初始有標(biāo)記樣本比例為10%、20%、40%和50%時(shí),SLM-NNPSO 在Wisconsin Diagnostic Breast Cancer 上實(shí)現(xiàn)了最高的平均分類正確率。當(dāng)初始有標(biāo)記樣本比例為10%、40%和50%時(shí),SLM-NNPSO 在Vehicle 上實(shí)現(xiàn)了最高的平均分類正確率。當(dāng)初始有標(biāo)記樣本比例介于10%~50%時(shí),SLM-NNPSO 在Vertebral Column 上實(shí)現(xiàn)了最高的平均分類正確率。當(dāng)初始有標(biāo)記樣本比例為10%、40%和50%時(shí),SLM-NNPSO在Wholesale Customers上實(shí)現(xiàn)了最高的平均分類正確率。當(dāng)初始有標(biāo)記樣本比 例 為 20% 、30% 、40% 和 50% 時(shí),SLM-NNPSO 在Yeast 上實(shí)現(xiàn)了最高的平均分類正確率。當(dāng)初始有標(biāo)記樣本比例為10%、20%、40%和50%時(shí),SLM-NNPSO 在Wine Quality White 上實(shí)現(xiàn)了最高的平均分類正確率。
總的來(lái)說,圖2 中的數(shù)據(jù)能證明,在大多數(shù)的初始有標(biāo)記樣本的比例下,SLM-NNPSO 能優(yōu)于5 個(gè)流行的自標(biāo)記方法。
下頁(yè)表6 展示了對(duì)比方法在真實(shí)數(shù)據(jù)集上的平均運(yùn)行時(shí)間(10次執(zhí)行)。從表6中可以看出,就平均運(yùn)行時(shí)間而言,在全部數(shù)據(jù)集上,SLM-NNPSO 快于STDPCEWS 和Op-FSCO。
表6 對(duì)比方法的平均運(yùn)行時(shí)間 (單位:秒)
為了克服自標(biāo)記方法中的誤標(biāo)記問題和相關(guān)解決方案(即數(shù)據(jù)剪輯技術(shù))中的缺陷,本文提出一種基于近鄰規(guī)則和粒子群優(yōu)化的自標(biāo)記方法SLM-NNPSO,其包含如下主要步驟:(1)用有標(biāo)記集去訓(xùn)練一個(gè)給定的分類模型;(2)用近鄰規(guī)則從無(wú)標(biāo)記集中發(fā)現(xiàn)具有高置信度的無(wú)標(biāo)記樣本集;(3)用分類模型來(lái)預(yù)測(cè)具有高置信度的無(wú)標(biāo)記樣本;(4)用BPSO來(lái)識(shí)別和移除被誤預(yù)測(cè)的樣本,并把被正確預(yù)測(cè)的樣本加入有標(biāo)記集中;(5)重復(fù)步驟(1)至步驟(4),當(dāng)沒有發(fā)現(xiàn)具有高置信度的無(wú)標(biāo)記樣本時(shí),SLM-NNPSO輸出在迭代過程中被訓(xùn)練的分類模型。相比于已有的半監(jiān)督自標(biāo)記方法,SLM-NNPSO 具有如下優(yōu)勢(shì):(1)它能用近鄰規(guī)則去快速地發(fā)現(xiàn)迭代過程中具有高置信度的無(wú)標(biāo)記樣本;(2)它能用BPSO來(lái)識(shí)別和移除被誤預(yù)測(cè)的樣本,且不需要對(duì)被誤預(yù)測(cè)的樣本作出具體的假設(shè)。在仿真實(shí)驗(yàn)中,本文用12個(gè)來(lái)自各個(gè)領(lǐng)域的真實(shí)數(shù)據(jù)集和5個(gè)流行的自標(biāo)記方法(即MLSTE、STDPCEWS、STDPNF、Op-FSCO和Tri-training)來(lái)驗(yàn)證SLM-NNPSO的有效性。結(jié)果顯示:(1)由于SLM-NNPSO能用粒子群優(yōu)化去更好地克服誤標(biāo)記問題,因此,在大多數(shù)的數(shù)據(jù)集上,且在大多數(shù)的初始有標(biāo)記樣本比例下,SLM-NNPSO 均優(yōu)于5 個(gè)流行的自標(biāo)記方法;(2)就平均運(yùn)行時(shí)間而言,SLM-NNPSO 快于STDPCEWS和Op-FSCO。