亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        可能性聚類假設(shè)的半監(jiān)督分類方法

        2020-05-15 08:11:16但雨芳陶劍文徐浩特
        關(guān)鍵詞:集上實(shí)例標(biāo)簽

        但雨芳,陶劍文,徐浩特

        1.寧波職業(yè)技術(shù)學(xué)院 電子信息工程學(xué)院,浙江 寧波315800

        2.寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波315211

        3.江西理工大學(xué) 信息工程學(xué)院,江西 贛州341000

        1 引言

        有效的機(jī)器學(xué)習(xí)需要大量帶標(biāo)簽的數(shù)據(jù),在實(shí)際應(yīng)用中,充足的帶標(biāo)簽數(shù)據(jù)通常難以獲取,雖然手工標(biāo)注數(shù)據(jù)可以一定程度上彌補(bǔ)帶標(biāo)簽數(shù)據(jù)的缺乏,但是這個(gè)過程較費(fèi)時(shí)費(fèi)力。為此,半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning,SSL)[1-11]方法得以提出,其從少量標(biāo)記的數(shù)據(jù)和大量未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)得到模型,解決了帶標(biāo)簽數(shù)據(jù)不充足而導(dǎo)致有監(jiān)督學(xué)習(xí)得到的模型泛化能力不強(qiáng),以及由無監(jiān)督學(xué)習(xí)得到的模型不精確等問題。吳明勝等人[12]提出一種基于協(xié)同訓(xùn)練與差分進(jìn)化的改進(jìn)ELM算法的半監(jiān)督分類方法來改善神經(jīng)網(wǎng)絡(luò)的輸入層參數(shù)的隨機(jī)初始值對分類的影響,祖寶開等人[13]提出了基于分塊低秩圖的大規(guī)模遙感圖像半監(jiān)督分類應(yīng)用來有效提升分類性能,因基于圖的半監(jiān)督學(xué)習(xí)方法(Graph based SSL,GSSL)[14-17]憑借其直觀性和良好的學(xué)習(xí)性能而得到廣泛的研究。GSSL具有兩種不同類型的推理方式,即轉(zhuǎn)導(dǎo)式推理(Transductive inference)[5,7,18-19]和歸納式推理(Inductive inference)[6,20-21],轉(zhuǎn)導(dǎo)式推理在假設(shè)學(xué)習(xí)過程中無標(biāo)簽的數(shù)據(jù)正好是測試數(shù)據(jù),對于新來的樣例(out-of-sample)并沒有很好的預(yù)測效果;比如,方法LGC[5]、GFHF[7]、LNP[18]和ACA-S3VM[19]等;而歸納式學(xué)習(xí)在假設(shè)學(xué)習(xí)過程中將所有數(shù)據(jù)歸到一起找出其共性,進(jìn)而得到一個(gè)模型,且測試數(shù)據(jù)不在訓(xùn)練數(shù)據(jù)內(nèi);流行正則化框架(Manifold Regularization,MR)[20]就是一個(gè)非常常見的歸納式GSSL 推理模型,比如:方法GLSSVM[6]、FME/U[21]等;其中,Nie 等人[21]所提方法FME/U對MR框架進(jìn)行了一般化歸納。通常情況下,采用GSSL推理方式,都需要采用某些假設(shè)。其中,最常見的假設(shè)之一是聚類假設(shè):“類似的實(shí)例應(yīng)該享有相同的標(biāo)簽”[2-3,9-11,22]。而該假設(shè)還具有一個(gè)隱含的前提,即每個(gè)實(shí)例都應(yīng)該明確地屬于某一個(gè)類別。然而,在某些實(shí)際分類應(yīng)用中,很難嚴(yán)格符合這一前提。比如,在圖像分割中,邊界像素可以屬于任一類,在電影類型分類中,中國文學(xué)家莫言的長篇小說《紅高梁》改編成電影,該電影可以是戰(zhàn)爭類型,也可以是文藝類型等等。

        為了解決聚類假設(shè)的硬劃分問題,Wang 等人[17]提出了一種基于新聚類假設(shè)的半監(jiān)督分類(即SSCCM)方法,是聚類假設(shè)的一種軟劃分方法,其旨在“類似實(shí)例應(yīng)該共享相同的標(biāo)簽隸屬度”,每個(gè)實(shí)例都可以隸屬于多個(gè)類標(biāo)簽,且有對應(yīng)的隸屬度值,很好地利用了模糊聚類假設(shè)[23]。然而,其約束條件使得每個(gè)實(shí)例對于不同標(biāo)簽的隸屬度之和總為1,可能會(huì)導(dǎo)致某些噪聲的標(biāo)簽隸屬度與某些正常數(shù)據(jù)的標(biāo)簽隸屬度一樣,甚至對于某一個(gè)或多個(gè)類,噪聲的標(biāo)簽隸屬度值可能比正常數(shù)據(jù)的更大,即相關(guān)性更大,這樣就會(huì)因?yàn)樵肼晢栴}導(dǎo)致錯(cuò)誤分類。

        針對SSCCM 方法存在的問題,本文提出一種基于可能性聚類假設(shè)的半監(jiān)督分類(即SSPCA)方法,該方法的主要思路是:首先,以每個(gè)數(shù)據(jù)點(diǎn)與其局部加權(quán)均值(Local Weighted Mean,LWM)[24-26]的標(biāo)簽隸屬度相似,然后,通過決策函數(shù)和隸屬度函數(shù)各自得到的分類預(yù)測結(jié)果進(jìn)行相互驗(yàn)證,以此來提高分類的可靠性,最后加入了一個(gè)關(guān)于模糊熵的正則項(xiàng),通過增大樣本判別信息量來得到一個(gè)泛化能力更強(qiáng)的隸屬度函數(shù),從而克服噪聲和異常數(shù)據(jù)對分類結(jié)果的干擾,更進(jìn)一步提高該分類方法的魯棒性。本文的主要貢獻(xiàn)在于:(1)提出了一種基于可能性聚類的半監(jiān)督分類方法;(2)該方法引入了一個(gè)關(guān)于模糊熵的正則化項(xiàng),得到一個(gè)具有更強(qiáng)泛化能力的標(biāo)簽隸屬度函數(shù),使其克服噪聲和異常數(shù)據(jù)的影響來提高該方法的魯棒性;(3)最后在實(shí)際數(shù)據(jù)集上做了大量的實(shí)驗(yàn),證明了該方法的魯棒有效性和分類可靠性。

        2 SSPCA

        2.1 問題描述

        當(dāng)前,在實(shí)際分類應(yīng)用中基于半監(jiān)督的聚類方法存在一些實(shí)例難以將其明確分配給單一類,例如那些邊界實(shí)例,由于傳統(tǒng)的硬聚類假設(shè)隱含地約束每個(gè)實(shí)例具有清晰的標(biāo)簽分配,不能充分反映實(shí)際數(shù)據(jù)的分布情況,還有可能違反這些邊界實(shí)例的分布。因此,該假設(shè)應(yīng)用于半監(jiān)督分類時(shí),對那些邊界實(shí)例的預(yù)測效果會(huì)比較差,尤其是當(dāng)一些帶標(biāo)簽的實(shí)例位于邊界附近時(shí),將會(huì)進(jìn)一步“誤導(dǎo)”分類。Wang 等人[17]提出聚類假設(shè)的軟劃分方法在一定程度上改善了傳統(tǒng)聚類假設(shè)的硬劃分方法,其每個(gè)實(shí)例都將擁有關(guān)于不同類的標(biāo)簽隸屬度值,而不是只屬于某一個(gè)類,這樣,可以減小那些邊界實(shí)例的“誤導(dǎo)”分類影響。例如,圖1 中有一個(gè)無標(biāo)簽的實(shí)例x2,按照SSCCM 方法可知,x2屬于Class1 和Class2的隸屬度值各為0.5。圖1 中,在類簇Class1 和Class2 中,帶問號的人造數(shù)據(jù)○和☆是不帶標(biāo)簽的數(shù)據(jù),其他人造數(shù)據(jù)是帶標(biāo)簽數(shù)據(jù),虛線是兩類簇的正中間分割線。但是,直觀上看,x1可以看成是邊界點(diǎn)或者是離群點(diǎn),x2肯定比x1更像是屬于Class1 和Class2 的實(shí)例,然而,繼續(xù)按照SSCCM 方法來計(jì)算隸屬度,距離哪個(gè)類最近,其隸屬度值就越大,反之越小,因此,實(shí)例x1屬于Class1 和Class2 的隸屬度值分別是0.6 和0.4,x1屬于Class1 的隸屬度值比x2要大,導(dǎo)致x1比x2更加像是屬于Class1。這樣的結(jié)果主要是由于SSCCM 中約束單個(gè)實(shí)例的所擁有的不同標(biāo)簽的隸屬度之和總為1,哪怕是x1這樣的邊界點(diǎn)或者離群點(diǎn)都不例外。

        圖1 問題描述

        為了克服離群點(diǎn)數(shù)據(jù)給分類帶來的負(fù)面影響,本文將提出一個(gè)基于可能性聚類假設(shè)的半監(jiān)督分類(即SSPCA)方法。

        2.2 SSPCA方法

        為了使聚類假設(shè)的分類方法具備更加好的分類可靠性和魯棒性,SSPCA 方法實(shí)現(xiàn)如下三個(gè)目標(biāo):(1)任意一個(gè)實(shí)例應(yīng)該與其對應(yīng)的局部加權(quán)均值點(diǎn)具有相似的標(biāo)簽隸屬度;(2)決策函數(shù)與隸屬度函數(shù)對某一測試實(shí)例的分類結(jié)果可以進(jìn)行相互驗(yàn)證且具有收斂性;(3)克服噪聲和異常數(shù)據(jù)其帶來的分類影響。本文所提分類方法將通過歐氏距離求得每個(gè)數(shù)據(jù)點(diǎn)的局部加權(quán)均值,然后通過平方損失函數(shù)迭代求得所需要的決策函數(shù)以及標(biāo)簽隸屬度函數(shù),并利用加入的模糊熵正則項(xiàng)來克服噪聲和異常數(shù)據(jù)的影響,提高該方法的魯棒性,最終構(gòu)建一個(gè)優(yōu)化后的雙重驗(yàn)證分類器模型:決策函數(shù)f(x)和隸屬度函數(shù)w(x)。

        設(shè)給定數(shù)據(jù)集X={x1,x2,…,xi,xi+1,…,xn},其中為l 個(gè)帶標(biāo)簽的數(shù)據(jù)集,其相應(yīng)的l 個(gè)標(biāo)簽集Yl={y1,y2,…,yl}T∈?l×M,n為數(shù)據(jù)集的總數(shù)量,且l ?n,為(n-l)個(gè)無標(biāo)簽的數(shù)據(jù)集,其中,每個(gè)xi∈?d為第i個(gè)實(shí)例,有d 個(gè)維度。每個(gè)實(shí)例xi的LWM(即?)的定義為:

        其中,Ne(xi)定義為xi的k 個(gè)最近鄰實(shí)例的集合,xj∈Ne(xi)。G=(X,W)定 義 為 無 向 權(quán) 值 圖,其 中,W ∈?n×n為權(quán)重,Wji=Wij≥0。其中元素值的計(jì)算方法為:

        其中,γ 是控制高斯核函數(shù)的局部作用范圍,γ 越大,局部作用范圍(即,寬度)越小,反之,其局部作用范圍越大,在γ固定的情況下,Wij值的變化是隨著xi和xj間的距離增加而單調(diào)變小的,由此將聚類問題轉(zhuǎn)化為圖劃分問題。和分別是l 個(gè)帶標(biāo)簽數(shù)據(jù)和(n-l)個(gè)無標(biāo)簽實(shí)例的LWM。是M 個(gè)類的編碼表示,如果xi屬于第m 類,那么yi=cm,數(shù)據(jù)標(biāo)簽和類別編碼都是按照屬于M 個(gè)類中的一個(gè)類別來進(jìn)行編碼的,即數(shù)據(jù)標(biāo)簽和類別的編碼都是維度為M 的向量,所以,SSPCA 能直接應(yīng)用到多類分類任務(wù)中去。設(shè)yi∈?1×M和cm∈?1×M,如果xi屬于第m 類,那么yi的第m 個(gè)元素就指定為1,即yim=1,m=1,2,…,M,yi的其他元 素 為 0,即 yio=0,o=1,2,…,M,且;且cm=1,m=1,2,…,M 的第m 個(gè)元素設(shè)置為1,即cmm,cm的其他元素為0,即cmo=0,o=1,2,…,M,且。除了決策函數(shù)f(x),該方法還需要定義一個(gè)隸屬度函數(shù)w(x),對任意一個(gè)實(shí)例xi都會(huì)有w(xi)∈?M,且wm(xi)為xi屬于第m 類的隸屬度值。最后,通過本文改進(jìn)的分類方法,依據(jù)局部學(xué)習(xí)原理來約束每個(gè)實(shí)例與其相應(yīng)的LWM 共享相同的隸屬度向量[25-26],SSPCA 的優(yōu)化問題可描述為:

        對于帶標(biāo)簽的實(shí)例,標(biāo)簽隸屬度函數(shù)公式可以描述為:

        其中,Xm為帶標(biāo)簽實(shí)例集中屬于第m 類標(biāo)簽的實(shí)例子集。由此可知,公式(2)可改寫成公式(4)。

        通過SSPCA 方法,使得每個(gè)實(shí)例都有關(guān)于所有標(biāo)簽的隸屬度值,并且,每個(gè)實(shí)例和它對應(yīng)的LWM都共享相同的隸屬度值。

        需要說明的是,在公式(2)中,采用的是平方損失函數(shù),采用其他分類損失函數(shù)也可以用在開發(fā)基于可能性聚類假設(shè)的不同半監(jiān)督分類方法中。本文的公式(2)與SSCCM[17]中公式(3)對比,放松了標(biāo)簽隸屬度加權(quán)和為1 的約束條件,并加入了模糊熵正則項(xiàng)來克服噪聲和異常數(shù)據(jù)對分類的影響,使得模型更具有魯棒性。

        3 優(yōu)化

        SSPCA 的優(yōu)化問題是一個(gè)關(guān)于(f,w)非凸的問題,本文是采取交替迭代優(yōu)化的策略來分別實(shí)現(xiàn)決策函數(shù)f(x)和標(biāo)簽隸屬度函數(shù)w(x)的優(yōu)化求解,并且每一步迭代都有一個(gè)閉環(huán)解。

        先固定w(x)求解f(x),由于公式(4)中的第六項(xiàng)沒有關(guān)于f(x)的計(jì)算,所以SSPCA 的優(yōu)化求解可以描述為公式(5):

        其中

        令?F1/?α=0,求解α,其描述為:

        依據(jù)推導(dǎo)求得α的解,定理1得證。

        再固定f(x)求解w(x),那么SSPCA 的優(yōu)化問題可以描述為公式(10)。

        定理2目標(biāo)函數(shù)(即,公式(10))的原始優(yōu)化問題的最優(yōu)解為:

        證明令?F2/?wm(xj)=0求解wm(xj),可得:

        得出wm(xj)的解為:

        因此,任意實(shí)例x 的標(biāo)簽隸屬度值都可以由公式(11)推導(dǎo)得到,定理2成立。

        4 算法描述

        SSPCA的優(yōu)化采用的是交替迭代策略,SSPCA屬于直接尋求大邊界分離器的半監(jiān)督大邊界方法的范疇。實(shí)際上,迭代式學(xué)習(xí)過程常用于各種半監(jiān)督學(xué)習(xí)方法中。無標(biāo)簽實(shí)例的隸屬度初始值可以通過幾種策略獲得,例如,隨機(jī)化策略,或者某些模糊聚類技術(shù)(如FCM),或者簡單地置全零,在這種情況下,SSPCA 實(shí)際上是從帶標(biāo)簽的數(shù)據(jù)上開始學(xué)習(xí),來初始化決策函數(shù)f(x)。當(dāng)|F(αm,wm(x))-F(αm-1,wm-1(x))|<εF(αm-1,wm-1(x))時(shí),迭代終止,其中F(αm,wm(x))表示第m 次迭代時(shí)目標(biāo)函數(shù)的值,ε是預(yù)定義的閾值。

        SSPCA算法描述

        輸入:帶標(biāo)簽的數(shù)據(jù)集Xl和其對應(yīng)的標(biāo)簽集Yl,無標(biāo)簽的數(shù)據(jù)集Xu,正則項(xiàng)參數(shù)λ,λs,C,迭代終止的閾值ε,以及最大迭代次數(shù)T。

        輸出:決策函數(shù)f(x),標(biāo)簽隸屬度函數(shù)w(x)。

        處理過程:

        1.初始化無標(biāo)簽數(shù)據(jù)集的標(biāo)簽隸屬度值;

        2.通過公式(6)獲得α的初始值;

        3.通過公式(11)獲得w(x)的初始值;

        4.計(jì)算目標(biāo)函數(shù)的F(α0,w0(x))值;

        5.依次以m=1,2,...,T 重復(fù)以下步驟:

        {

        5.1 通過公式(6)更新α的值;

        5.2 通過公式(11)更新w(x)的值;

        5.3 更新目標(biāo)函數(shù)的F(αm,wm(x))值;

        5.4 如果|F(αm,wm(x))-F(αm-1,wm-1(x))|<εF(αm-1,wm-1(x)),則終止重復(fù)計(jì)算,并返回f(x)和w(x);

        5.5 否則,回到5.1 繼續(xù)計(jì)算,直到5.4 的判斷條件滿足為止。

        }

        5 討論

        5.1 SSPCA的分類可靠性

        為了更進(jìn)一步增強(qiáng)分類的可靠性,SSPCA 通過決策函數(shù)和標(biāo)簽隸屬度函數(shù)相互鑒定彼此的預(yù)測分類結(jié)果,使其分類結(jié)果更具可靠性。由此可得出定理3。

        定理3SSPCA 利用決策函數(shù)和標(biāo)簽隸屬度函數(shù)來進(jìn)行預(yù)測,并且它們各自的預(yù)測結(jié)果通常是一致的(實(shí)際一致或間接一致)。若兩個(gè)預(yù)測結(jié)果不一致,則相應(yīng)的實(shí)例可能位于決策邊界附近,并且這些預(yù)測可能是不可靠的。

        證明數(shù)據(jù)可以由定理1 得出的決策函數(shù)或者是由定理2 得出的標(biāo)簽隸屬度函數(shù)來進(jìn)行分類預(yù)測,在?j=1,2, …,M;j ≠m 的情況下,如果用f(x)來 預(yù)測,fm(x)>fj(x,)那 么x ∈Xm;如 果 用w(x)來 預(yù) 測,wm(x)>wj(x),同樣可得x ∈Xm的結(jié)果。在λs固定不變的情況下,fm(x)+λsfm(x)>fj(x)+λ fs(jx)也能得到上面一致的預(yù)測結(jié)果;當(dāng)λs=0,f(x)和w(x)的預(yù)測結(jié)果總是一致的。當(dāng)λs0,通過f(x)使得x 和x?享相同的標(biāo)簽分配時(shí),即,f(x)和w(x)的 預(yù) 測 結(jié) 果 也 是 一 致 的;若fj(x )-fm則f(x)和w(x)預(yù)測結(jié)果也是一致的。如果x 位于決策邊界附近,x 和x?的預(yù)測差異是很明顯的,有可能x?直接位于與x 相異的類別中,那么,對x 的這種預(yù)測是不可靠的。可以總結(jié)出三種實(shí)例:(1)實(shí)際一致性實(shí)例,通過f(x)得到實(shí)例x 和?享有相同的標(biāo)簽分配,使得f(x)和w(x)對x的預(yù)測結(jié)果一致;(2)間接一致性實(shí)例,x 不是實(shí)際一致性實(shí)例,但是使得f(x)和w(x)對x 的預(yù)測結(jié)果仍然一致;(3)不一致性實(shí)例,f(x) w和 (x)對x 的預(yù)測結(jié)果不一致。從而定理得證。

        實(shí)際上,只需要一個(gè)函數(shù)來預(yù)測新實(shí)例,如果期望得到某些實(shí)例屬于每個(gè)類的隸屬度,則首選標(biāo)簽隸屬度函數(shù)。用這兩種函數(shù)來預(yù)測實(shí)例,則是利用它們的預(yù)測不一致性來檢測那些難以分類的邊界實(shí)例,并對它們進(jìn)行特殊處理,例如手動(dòng)標(biāo)記,以提高分類可靠性.這兩個(gè)函數(shù)的預(yù)測可以相互驗(yàn)證,并且可以通過檢查它們的一致性來增強(qiáng)半監(jiān)督分類的可靠性。

        5.2 SSPCA算法的收斂性

        為了證明算法1的收斂性,可得出定理4:

        定理4在上述算法SSPCA 中獲得的序列{F(αm,wm),m=1,2,… ,T}是收斂的。

        證明由于目標(biāo)函數(shù)F(α,w)在(α,w)上是一個(gè)雙凸函數(shù)[29]。固定不變w(x),且目標(biāo)函數(shù)在α 上是凸函數(shù),因此可以通過公式(6)最小化F(α,wm)或等效地優(yōu)化公 式(5)來 獲 得 最 優(yōu) α*。αm+1=α*,得 出 :F(αm+1,wm)=F(α*,wm)≤F(αm,wm)。此時(shí),固定αm+1,且目標(biāo)函數(shù)在w上是凸函數(shù),因此,可以通過公式(11)最小化F(αm+1,wm)或等效地優(yōu)化公式(10)來獲得最優(yōu)w*。wm+1=w*,得 出:F(αm+1,wm+1)=F(αm+1,w*)≤F(αm+1,wm),可推理得出:F(αm+1,wm+1)≤F(αm+1,wm)≤F(αm,wm),?m ∈N,{F(αm,wm)}是單調(diào)減小的。此外,由于目標(biāo)函數(shù)是非負(fù)的,因此具有較低的界限。從而定理成立。

        5.3 SSPCA的泛化誤差界

        在統(tǒng)計(jì)學(xué)習(xí)理論中,VC 維(Vapnik Chervonenkis dimension)[30]提供了一個(gè)可分析機(jī)器學(xué)習(xí)的泛化誤差界方法[31]。因此,本文采用VC 維方法對SSPCA 進(jìn)行泛化誤差界的分析。

        定理5(SSPCA 泛化誤差界)設(shè)H 為再生核希爾伯特空間(RKHS),核SSPCA 方法的學(xué)習(xí)函數(shù)fΦ∈H 的泛化誤差界在概率1-δ(0 <δ <1)下滿足下式:

        由定理5 分析可得,該方法的泛化誤差可以通過隸屬度函數(shù)wm(x)來調(diào)節(jié)控制,使其具有取得更優(yōu)泛化性能的可能性。

        6 實(shí)驗(yàn)分析

        該部分將在真實(shí)數(shù)據(jù)集(UCI[32]、Benchmark[2])上進(jìn)行SSPCA 方法與最新的半監(jiān)督分類方法的比較,以及SSPCA 方法與hard SSPCA 方法的比較。在UCI 和benchmark 數(shù)據(jù)集上進(jìn)行SSPCA 與最新的半監(jiān)督分類方法和SSPCA 方法與hard SSPCA 方法的分類結(jié)果比較。研究如下幾個(gè)問題:

        (1)SSPCA 與最新的半監(jiān)督分類方法如何進(jìn)行比較的。

        (2)SSPCA與hard SSPCA如何進(jìn)行比較的。

        (3)正則化參數(shù)λs是如何影響SSPCA 內(nèi)在一致性的。

        6.1 比較的方法

        該實(shí)驗(yàn)部分將本文的SSPCA 方法與LapSVM[20]、LapRLS[20]、TSVM[33]、meanS3VM[34],以及SSCCM[17]5 個(gè)最新的半監(jiān)督分類方法進(jìn)行比較。

        LapSVM:拉普拉斯支持向量機(jī)。該方法采用流型假設(shè)進(jìn)行半監(jiān)督分類,其使用的損失函數(shù)是鉸鏈損失(hinge loss)函數(shù),按照拉普拉斯圖平滑地在整個(gè)數(shù)據(jù)分布上來尋找一個(gè)最大面的決策函數(shù)。

        LapRLS:拉普拉斯正則化最小平方。方法采用的也是流型假設(shè)進(jìn)行半監(jiān)督分類,但是,其使用的損失函數(shù)是最小平方損失函數(shù)。

        TSVM:轉(zhuǎn)導(dǎo)式支持向量機(jī)。該方法采用的是聚類假設(shè),目的是為了在帶標(biāo)記和未標(biāo)記的數(shù)據(jù)上尋找一個(gè)分界面,以便通過低密度區(qū)域引導(dǎo)出分類邊界。

        MeanS3VM:基于無標(biāo)簽數(shù)據(jù)的標(biāo)簽均值的一種半監(jiān)督SVM。也采用聚類假設(shè),實(shí)際上包含兩種實(shí)現(xiàn)方法[28],即基于交替最優(yōu)化的meanS3VM-iter 方法和基于多重內(nèi)核學(xué)習(xí)的meanS3VM-mkl方法。

        SSCCM:基于修改聚類假設(shè)的一種新的半監(jiān)督分類方法。也采用的是聚類假設(shè),其目的是為了在帶標(biāo)簽和無標(biāo)簽的數(shù)據(jù)上尋找一個(gè)隸屬度函數(shù)和一個(gè)決策函數(shù),使得相似的實(shí)例應(yīng)該共享相似的標(biāo)簽隸屬度,且一個(gè)實(shí)例可以隸屬于多個(gè)類。

        此外,本文還將SSPCA 方法與hard-SSPCA 方法進(jìn)行比較,hard-SSPCA 分類方法只是采用了聚類假設(shè),它指定每個(gè)實(shí)例都明確屬于一個(gè)類標(biāo)簽,而沒有多類標(biāo)簽的概念,可描述為:

        6.2 實(shí)驗(yàn)設(shè)置

        該部分將分別細(xì)化實(shí)驗(yàn)參數(shù)設(shè)置。對于UCI 數(shù)據(jù)集,數(shù)據(jù)集的設(shè)置將會(huì)參照文獻(xiàn)[17,34-35]。其每個(gè)數(shù)據(jù)集都是隨機(jī)分成一個(gè)訓(xùn)練集和一個(gè)測試集,其中,訓(xùn)練集僅包含10 個(gè)帶標(biāo)簽的實(shí)例,其他的都是無標(biāo)簽實(shí)例。這一處理過程通過采用線性核,先重復(fù)20 次的分類學(xué)習(xí),然后得到一個(gè)平均測試性能的結(jié)果。這些需要進(jìn)行比較的最新方法(SSCCM 方法除外)上,將正則化參數(shù)C1和C2分別固定為1 和0.1,采取1 對多策略來解決多分類問題。

        對于Benchmark 數(shù)據(jù)集,實(shí)驗(yàn)參數(shù)設(shè)置是參照文獻(xiàn)[2,34]進(jìn)行設(shè)置的,每個(gè)數(shù)據(jù)集有兩個(gè)設(shè)置,一是10 個(gè)帶標(biāo)簽實(shí)例,二是100 個(gè)其他實(shí)例,此外,每個(gè)數(shù)據(jù)集的每次設(shè)置都有12 個(gè)關(guān)于有標(biāo)簽數(shù)據(jù)的子集以及得到在無標(biāo)簽數(shù)據(jù)上的平均測試性能結(jié)果。那些被比較的方法(SSCCM除外)中,正則化參數(shù)C1和C2分別設(shè)置為100和0.1,在SSCCM、SSPCA 和Hard SSPCA 方法中,參數(shù)λ、λs、m和ε分別設(shè)置為1、0.1、5 和10-3。需要使用線性核和RBF 核,當(dāng)標(biāo)記10 個(gè)實(shí)例時(shí),RBF 內(nèi)核中的寬度參數(shù)設(shè)置為實(shí)例之間的平均距離,并在具有100 個(gè)帶標(biāo)簽實(shí)例時(shí),通過對標(biāo)簽數(shù)據(jù)進(jìn)行10 倍交叉驗(yàn)證,最后選擇在每個(gè)數(shù)據(jù)集上關(guān)于這兩個(gè)內(nèi)核之間更好的結(jié)果。方法的結(jié)果取自文獻(xiàn)[2,17,34](每個(gè)數(shù)據(jù)集在每次運(yùn)行時(shí),帶標(biāo)簽實(shí)例和無標(biāo)簽實(shí)例的劃分參考文獻(xiàn)[2,17,34])。

        6.3 實(shí)驗(yàn)結(jié)果分析

        特別說明,在以下實(shí)驗(yàn)數(shù)據(jù)表格中,每列中的粗體值表示驗(yàn)證方法達(dá)到的最佳測試準(zhǔn)確度或平均性能結(jié)果。每行(最后一行除外)對應(yīng)于每種方法在各個(gè)數(shù)據(jù)集上的測試準(zhǔn)確度,最后一列顯示了在所有數(shù)據(jù)集上各個(gè)方法的平均測試性能,其中,在表1~表3中,最后一行給出了各個(gè)數(shù)據(jù)集上關(guān)于SSPCA 的一致率。表1~表3結(jié)果,可得出如下幾點(diǎn)結(jié)論:

        表1 各方法在9個(gè)二類UCI數(shù)據(jù)集上的性能比較

        表2 各方法在9個(gè)多類UCI數(shù)據(jù)集上的性能比較

        表3 各方法在6個(gè)基準(zhǔn)數(shù)據(jù)集上的性能比較

        (1)SSPCA 與那5 個(gè)最新方法的實(shí)驗(yàn)比較是在9 個(gè)二分類的UCI 數(shù)據(jù)集上進(jìn)行的,實(shí)驗(yàn)結(jié)果如表1 所示,所提方法的平均性能是最好的。此外,其一致率均接近1;盡管在Heart 數(shù)據(jù)集上得到的一致率最差,其值也高達(dá)0.993 3。值得說明的是,其中方法LapSVM和LapRLS在4 個(gè)數(shù)據(jù)集上的測試性能都達(dá)到了最佳,而這兩種方法是針對流型結(jié)構(gòu)的數(shù)據(jù)進(jìn)行處理的,因此,其可能的原因是這4 個(gè)數(shù)據(jù)集上的數(shù)據(jù)均具有流型化結(jié)構(gòu)。另外,MeanS3VM-iter 和MeanS3VM 均在Sat16 數(shù)據(jù)集上的測試性能最優(yōu),其可能的原因是該數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)復(fù)雜,MeanS3VM 主要也是針對結(jié)構(gòu)復(fù)雜的無標(biāo)簽數(shù)據(jù)在訓(xùn)練期間起到負(fù)面效果時(shí)進(jìn)行處理。然而,在個(gè)別數(shù)據(jù)集上其他方法的測試性能略優(yōu)的同時(shí),所提方法的性能也是緊隨其后的,且所提方法在大多數(shù)數(shù)據(jù)集上均具有最佳的測試性能。這表明增加模糊熵的聚類假設(shè)對于半監(jiān)督分類中克服噪聲的影響是有很明顯效果的。

        (2)SSPCA 與那5 個(gè)最新方法在9 種多類UCI 數(shù)據(jù)集上進(jìn)行比較的結(jié)果顯示在表2中,其結(jié)構(gòu)與表1相同。從表2 中可看出,雖然,MeanS3VM-iter 方法在CMC 數(shù)據(jù)集上測試性能最佳,然而,SSPCA 方法的測試性能與該方法也是非常接近;另外,SSCCM 方法在數(shù)據(jù)集TAE上的性能略優(yōu)于所提方法,其可能的原因是該數(shù)據(jù)集上的數(shù)據(jù)分布本身比較有規(guī)則,噪聲或者異常數(shù)據(jù)少或是沒有,而無法體現(xiàn)所提方法的優(yōu)勢。然而,可以很明顯看出SSPCA 在7 個(gè)數(shù)據(jù)集上的測試性能均優(yōu)于其他方法,并在平均測試性能上達(dá)到了最優(yōu)。同樣,SSPCA 的一致率均接近1,即使在肺癌數(shù)據(jù)集上得到的一致率最差,其值也高達(dá)0.990 2。最后,由于所提方法是針對多類分類的,相較于在二分類的UCI 數(shù)據(jù)集上的測試結(jié)果,該方法在多分類的UCI數(shù)據(jù)集上也具有明顯優(yōu)勢。

        (3)SSPCA 與那5 個(gè)最新方法在6 個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行比較的結(jié)果見表3,其中,上半部分和下半部分分別對應(yīng)于有10 和100 個(gè)帶標(biāo)簽實(shí)例的實(shí)驗(yàn)結(jié)果。從表3上下兩個(gè)部分可以明顯看出,方法TSVM 在表中的上下兩個(gè)部分的G241c數(shù)據(jù)集上都具有最佳測試性能,且在上半部分中,SSPCA的一致率表現(xiàn)一般也是在G241c數(shù)據(jù)集上得到的,其可能的原因是,G241c 數(shù)據(jù)集上的數(shù)據(jù)分布可能本身具有明顯的類簇特征以及噪聲數(shù)據(jù)較少現(xiàn)象,TSVM 方法處理的數(shù)據(jù)正好是需要這樣的數(shù)據(jù)分布和數(shù)據(jù)特征。當(dāng)有10 個(gè)帶標(biāo)簽的實(shí)例時(shí),在個(gè)別數(shù)據(jù)集上,SSPCA 并沒有比SSCCM 更好。一個(gè)可能的原因是數(shù)據(jù)集上的數(shù)據(jù)分布本身比較有規(guī)則,噪聲數(shù)據(jù)較少,而無法體現(xiàn)SSPCA 的優(yōu)勢。由此可見,SSPCA 對具有參雜噪聲數(shù)據(jù)或者是異常數(shù)據(jù)的數(shù)據(jù)集來說可能分類效果更佳。盡管如此,SSPCA 在6 個(gè)數(shù)據(jù)集中的3個(gè)數(shù)據(jù)集上均達(dá)到最佳測試性能;并其平均性能也是最佳,一致率均接近1。然而,在100 個(gè)帶標(biāo)簽實(shí)例的情況下,SSPCA 在其中的4 個(gè)數(shù)據(jù)集上性能均達(dá)到最佳,并且在平均性能上也是最佳;同樣,一致率均接近1,而一致率最低為0.987 6是在BCI數(shù)據(jù)集上得到的。很重要的一點(diǎn)是,通過在原SSCCM 方法上增加模糊熵的聚類假設(shè)后,在大多數(shù)數(shù)據(jù)集上,SSPCA的性能均優(yōu)于SSCCM,這表明模糊熵的加入對于半監(jiān)督分類中克服噪聲或者異常數(shù)據(jù)的影響是很顯著的。

        6.4 SSPCA與hard-SSPCA進(jìn)行比較

        表4 顯示了SSPCA 和hard-SSPCA 在二分類UCI 數(shù)據(jù)集上的比較結(jié)果,比較表4和表5的測試結(jié)果,可以看出SSPCA 在多類分類問題上略優(yōu)于在二類分類。雖然,在個(gè)別數(shù)據(jù)集上方法hard-SSPCA 的測試性能略優(yōu),其結(jié)果差距也是微乎其微。從表4~6 整體上來看,在其他數(shù)據(jù)集上,方法SSPCA 的測試性能和平均測試性能均優(yōu)于方法hard-SSPCA。這一結(jié)果表明,加入了基于隸屬度的SSPCA分類方法體現(xiàn)了其有效魯棒性。

        表4 hard-SSPCA和SSPCA在二類UCI數(shù)據(jù)集上的性能比較

        表5 hard-SSPCA和SSPCA在多類UCI數(shù)據(jù)集上的性能比較

        表6 hard-SSPCA和SSPCA在基準(zhǔn)數(shù)據(jù)集上的性能比較

        圖2 對于不同λs值,w(x)和f(x)之間的預(yù)測和實(shí)際(本質(zhì))一致率比較

        6.5 一致性分析

        圖2 為在6 個(gè)UCI 數(shù)據(jù)集上對應(yīng)于不同λs值{0,0.001,0.01,0.1,1,10,100,1 000}的SSPCA 實(shí)際一致率的實(shí)驗(yàn)結(jié)果。在圖2 中,當(dāng)λs足夠小時(shí),預(yù)測一致率可以達(dá)到1,然后隨著λs的增加而一致率逐漸降低,由于間接一致性實(shí)例變成了不一致性實(shí)例,最終變得與實(shí)際一致率相等了。同時(shí),直到λs變?yōu)?,然后減小時(shí),實(shí)際一致率增加,原因可能是當(dāng)λs遠(yuǎn)小于或大于1時(shí),SSPCA的目標(biāo)將更多地集中在數(shù)據(jù)或者在數(shù)據(jù)的LWM 的分類上,而不是在它們的預(yù)測一致性上。

        7 結(jié)束語

        在現(xiàn)有研究基礎(chǔ)之上,本文提出了一種基于可能性聚類的半監(jiān)督分類方法。其經(jīng)過模糊熵正則項(xiàng)的加入,增大樣本的判別信息量,通過學(xué)習(xí)得到一個(gè)更具泛化性的分類模型,從而克服了噪聲和異常數(shù)帶來的負(fù)面影響來提高該方法的魯棒性。所提方法SSPCA 與最新的半監(jiān)督分類方法以及hard-SSPCA 在真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)比較,驗(yàn)證了所提方法SSPCA 的分類可靠性、魯棒性以及兩個(gè)函數(shù)的預(yù)測一致性。然而,在優(yōu)化過程中如何選擇一個(gè)有效的核函數(shù)/核空間以及如何在理論上進(jìn)行分析論證所提方法的一致性都是本研究值得更深層次探討的問題。

        猜你喜歡
        集上實(shí)例標(biāo)簽
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        復(fù)扇形指標(biāo)集上的分布混沌
        標(biāo)簽化傷害了誰
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        完形填空Ⅱ
        完形填空Ⅰ
        幾道導(dǎo)數(shù)題引發(fā)的解題思考
        日本韩国三级aⅴ在线观看| 麻豆国产在线精品国偷产拍| 亚洲有码转帖| 丰满人妻无套中出中文字幕| 亚洲专区一区二区三区四区五区| 精品一区二区三区芒果| 欧洲熟妇色xxxx欧美老妇多毛 | 中文字幕亚洲乱码熟女一区二区| 在线亚洲AV不卡一区二区| 国产成人综合久久大片| 国产裸体美女永久免费无遮挡 | 无码专区久久综合久中文字幕| www.av在线.com| 午夜蜜桃视频在线观看| 国产麻豆剧果冻传媒一区| 国产成人麻豆精品午夜福利在线 | 国产啪精品视频网站免| 国产一级黄色片在线播放| 成人无码av一区二区| 日本强好片久久久久久aaa| 少妇高潮无码自拍| 亚洲熟女一区二区三区250p| 午夜福利av无码一区二区| 国产精品三级在线观看| 国产视频在线播放亚洲| 久久精品网站免费观看| 美丽的熟妇中文字幕| 天天射色综合| 福利利视频在线观看免费| 激烈的性高湖波多野结衣| 午夜高清福利| 国产三级精品三级在线| 熟女体下毛荫荫黑森林| 国产精品视频二区不卡| 久久久久亚洲AV无码专区一区| 精品人妻久久一日二个| 亚洲精品无人区| 国产免费播放一区二区| 五月婷婷开心五月播五月| 人妻丰满熟妇无码区免费| 亚洲人成电影在线无码|