亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于成對(duì)約束的半監(jiān)督聚類(lèi)方法

        2019-11-12 09:37:10陶性留王曉瑩
        關(guān)鍵詞:集上約束聚類(lèi)

        陶性留,俞 璐,王曉瑩

        (1.陸軍工程大學(xué) 通信工程學(xué)院,江蘇 南京 210007;2.陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007)

        0 引言

        現(xiàn)實(shí)社會(huì)中,面臨的數(shù)據(jù)越來(lái)越多,越來(lái)越寬泛,越來(lái)越復(fù)雜,同樣數(shù)據(jù)特征的維度也越來(lái)越高。如何去挖掘有價(jià)值的信息一直是廣受關(guān)注的熱點(diǎn)。聚類(lèi)是數(shù)據(jù)挖掘和模式識(shí)別的重要工具,它是將數(shù)據(jù)樣本劃分為不同的簇,使同一簇的數(shù)據(jù)樣本具有較高的相似性,常見(jiàn)的方法有K-means[1-2]、FCM[3-4]等。而半監(jiān)督聚類(lèi)[5]作為半監(jiān)督學(xué)習(xí)的一個(gè)重要分支,它以無(wú)監(jiān)督的聚類(lèi)算法為基礎(chǔ),通過(guò)利用少量的監(jiān)督信息來(lái)提高聚類(lèi)的性能。目前,半監(jiān)督聚類(lèi)中常見(jiàn)的先驗(yàn)知識(shí)表現(xiàn)為部分樣本的類(lèi)標(biāo)簽信息或是反映兩樣本是否歸于同一簇的成對(duì)約束信息。所謂成對(duì)約束關(guān)系具體分為兩種:

        (1)兩個(gè)樣本同屬于一個(gè)簇團(tuán)(必須鏈接集Must-link,ML);

        (2)兩個(gè)樣本屬于不同簇團(tuán)(不能鏈接集Cannot-link,CL)。很顯然,這是一種相對(duì)較弱的指導(dǎo)信息,因?yàn)榕袛鄡蓚€(gè)樣本是否屬于同一簇團(tuán)要比判斷它們分屬于哪個(gè)簇團(tuán)更加容易。通常可以通過(guò)生活經(jīng)驗(yàn)或者常識(shí)來(lái)判斷。

        基于成對(duì)約束的半監(jiān)督聚類(lèi)方法的基本思想是利用先驗(yàn)監(jiān)督信息來(lái)調(diào)整樣本數(shù)據(jù)之間的作用力,根據(jù)少量被正確劃分的樣本數(shù)據(jù),促使其近鄰能被正確地劃分,進(jìn)而實(shí)現(xiàn)整個(gè)數(shù)據(jù)集的劃分。該聚類(lèi)算法通常在經(jīng)典的算法框架下,合理設(shè)計(jì)出目標(biāo)函數(shù)再進(jìn)行一定程度的優(yōu)化之后得到更加符合實(shí)際,更加令人滿意的聚類(lèi)算法。本文考慮在之前研究的FCM-NMF[6]算法上添加成對(duì)約束條件,以使聚類(lèi)性能得到進(jìn)一步的提高。

        1 相關(guān)工作

        1.1 NMF算法[7]

        (1)

        (2)

        其中⊙是Hadamard積運(yùn)算符,代表矩陣對(duì)應(yīng)元素相乘。這時(shí)用系數(shù)矩陣HT代替原始矩陣,就可以實(shí)現(xiàn)對(duì)原始矩陣進(jìn)行降維,從而減少存儲(chǔ)空間,減少計(jì)算資源。

        1.2 基于非負(fù)矩陣分解和模糊C均值的聚類(lèi)方法(FCM-NMF)

        通過(guò)利用非負(fù)矩陣分解獨(dú)特的優(yōu)勢(shì),不僅可以進(jìn)行降維,而且物理意義明確。但也有可能破壞數(shù)據(jù)樣本之間的本質(zhì)結(jié)構(gòu),影響聚類(lèi)效果。為了減少負(fù)面影響,希望在NMF壓縮樣本數(shù)據(jù)的過(guò)程中進(jìn)行模糊聚類(lèi)。對(duì)于大量高維數(shù)據(jù),通過(guò)NMF提取樣本的本質(zhì)特征,同時(shí)保留作FCM模糊分析聚類(lèi),提出了新的聚類(lèi)算法FCM-NMF。它將NMF分解對(duì)原始數(shù)據(jù)樣本的影響加入到FCM的目標(biāo)函數(shù)中,由交替迭代產(chǎn)生的新的低維表示矩陣可以用來(lái)描述樣本之間的本質(zhì)關(guān)系。改進(jìn)目標(biāo)函數(shù)如下:

        (3)

        式(3)中,λ≥0是平衡系數(shù);第一項(xiàng)表示模糊C均值聚類(lèi)框架,第二項(xiàng)表示利用NMF算法處理原始數(shù)據(jù)的過(guò)程對(duì)聚類(lèi)的影響程度。

        使用梯度下降法和交替迭代法解得各變量的更新公式如下:

        (4)

        i=1,2,···,c;j=1,2,···,n

        (5)

        i=1,2,···,c;j=1,2,···,n

        (6)

        (7)

        H=H⊙[1×sum(Uf)]T

        1.3 基于非負(fù)矩陣分解的約束聚類(lèi)[8]

        基于非負(fù)矩陣分解的約束聚類(lèi)的主要思想在于:當(dāng)給定數(shù)據(jù)集X、必須鏈接集ML和不能鏈接集CL時(shí),希望通過(guò)借助非負(fù)矩陣分解的手段,在FCM-NMF的聚類(lèi)框架中去尋找?guī)в邢闰?yàn)知識(shí)信息的系數(shù)表示矩陣H??梢詷?gòu)造以下目標(biāo)函數(shù):

        (8)

        其中定義了監(jiān)督矩陣R,它是由先驗(yàn)知識(shí)構(gòu)成的,反映了樣本i與樣本j之間的成對(duì)約束關(guān)系。

        (9)

        Must-link上兩點(diǎn)之間的相似性被強(qiáng)制近似為1,CL上兩點(diǎn)之間的相似性被強(qiáng)制近似為0。同時(shí)定義了價(jià)值系數(shù)矩陣A,其元數(shù)α與β表示所確定的ML與CL的重要性,其數(shù)值在0~1之間。

        (10)

        HHT是可以近似監(jiān)督矩陣R,從而解決了利用系數(shù)表示矩陣來(lái)表示約束就成了問(wèn)題,使得模型物理意義得以明確。然后,進(jìn)行優(yōu)化目標(biāo)函數(shù),利用交替迭代法求解出基矩陣W和系數(shù)表示矩陣H的更新公式:

        (11)

        (12)

        2 基于成對(duì)約束的半監(jiān)督聚類(lèi)方法

        2.1 模型建立

        由相關(guān)知識(shí)可知,基于非負(fù)矩陣分解和模糊C均值的聚類(lèi)方法(FCM-NMF算法),其核心思想利用NMF作為特征提取的手段,為了盡可能不破壞樣本之間的本質(zhì)聯(lián)系,將特征提取手段與聚類(lèi)過(guò)程加以結(jié)合,融合NMF和FCM算法改變目標(biāo)函數(shù)的形式,生成新的低維表示矩陣。該算法物理意義較為清晰,同時(shí)在實(shí)驗(yàn)中證明了其正確性和有效性。本節(jié)考慮將成對(duì)約束條件加入FCM-NMF的目標(biāo)函數(shù)框架中,通過(guò)少量監(jiān)督信息的引入,進(jìn)一步改善聚類(lèi)性能。改進(jìn)的目標(biāo)函數(shù)如下所示:

        (13)

        在公式(13)中,λ≥0是平衡系數(shù),f是模糊系數(shù),其值介于1~2.5之間。第一項(xiàng)表示模糊C均值聚類(lèi)框架,hj到vi的歐幾里得距離用dij表示。第二項(xiàng)表示加入了成對(duì)約束監(jiān)督信息的NMF算法處理原始數(shù)據(jù)的過(guò)程對(duì)聚類(lèi)的影響程度。當(dāng)約束數(shù)量為0時(shí),該算法退化為FCM-NMF算法。

        2.2 模型求解

        很明顯,公式(13)的目標(biāo)函數(shù)是非凸的,解出它的全局最優(yōu)是不實(shí)際的。因此,利用交替迭代法則去探索非凸函數(shù)的局部最優(yōu)解是一個(gè)可行的辦法。通過(guò)迭代以下步驟來(lái)解決優(yōu)化問(wèn)題,直到目標(biāo)函數(shù)收斂或超出閾值條件:

        (14)

        i=1,2,…,c;j=1,2,…,n

        (2)固定W,H,U,通過(guò)V最優(yōu)化J。V的更新準(zhǔn)則為:

        (15)

        i=1,2,…,c;j=1,2,…,n

        (3)固定V,H,U,通過(guò)W最優(yōu)化J。W的更新規(guī)則與NMF算法一致,為:

        (16)

        (4)固定W,V,U,通過(guò)H最優(yōu)化J。

        (17)

        其中,H=H⊙[1×sum(Uf)]T。1 代表具有c行的全1向量,Uf是指U矩陣的對(duì)應(yīng)每個(gè)元素的f次冪。利用梯度下降法得到以下附加的更新規(guī)則:

        (18)

        δ是控制梯度下降步長(zhǎng)的參數(shù)矩陣。令

        (19)

        然后,能得到:

        由于會(huì)展旅游業(yè)相關(guān)制度的不完善,也導(dǎo)致了成都市會(huì)展業(yè)和旅游業(yè)的融合不暢,由此導(dǎo)致會(huì)展旅游業(yè)的整體營(yíng)銷(xiāo)模式不成體系,發(fā)展滯后。目前成都市會(huì)展旅游業(yè)的營(yíng)銷(xiāo)模式主要還是以承辦單位為主,很多會(huì)展雖然主辦方為政府和行業(yè)協(xié)會(huì),但是這些單位往往不會(huì)參與對(duì)展會(huì)的營(yíng)銷(xiāo),而是由承辦單位來(lái)進(jìn)行營(yíng)銷(xiāo)宣傳,但是其作用肯定是不如主辦單位的影響力大。旅游管理部門(mén)很少關(guān)注會(huì)展旅游這一方面,在營(yíng)銷(xiāo)上也很少配合承辦單位,常常出現(xiàn)會(huì)展旅游業(yè)中旅游業(yè)管理缺位的局面。承辦單位在會(huì)展?fàn)I銷(xiāo)模式上也較為傳統(tǒng),缺乏創(chuàng)新。

        (20)

        H最終的更新公式為:

        (21)

        Ω=XTW+2(A⊙R⊙AT)H

        +4(A⊙A)(H⊙H⊙H)

        Λ=HWTW+2(A⊙(HHT)⊙AT)H

        +4(A⊙A)(H⊙H⊙H)

        2.3 聚類(lèi)算法

        基于成對(duì)約束的半監(jiān)督聚類(lèi)算法具體流程如表1所示。通過(guò)上述推導(dǎo)求解,可以獲得基矩陣W,系數(shù)矩陣H,隸屬度矩陣U,聚類(lèi)中心矩陣V的更新表達(dá)公式。W是降維后的低秩空間的表現(xiàn)形式,H是原始數(shù)據(jù)X經(jīng)降維后的低維表達(dá)方式,V是該聚類(lèi)過(guò)程中所形成的簇中心向量的組合形式,而隸屬度矩陣U是對(duì)所有樣本進(jìn)行軟聚類(lèi)的模糊隸屬度的呈現(xiàn)方式,Uij越大,則反映樣本j屬于簇i的概率越大,可根據(jù)其獲取樣本的標(biāo)簽向量Y∈R1×n。

        表1 基于成對(duì)約束的半監(jiān)督聚類(lèi)算法

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)環(huán)境與方法

        在本節(jié)中,通過(guò)在wdbc數(shù)據(jù)集和wine數(shù)據(jù)集兩個(gè)UCI驗(yàn)證集上的實(shí)驗(yàn)驗(yàn)證基于成對(duì)約束的半監(jiān)督聚類(lèi)算法的性能,包含在不同數(shù)量的監(jiān)督信息的指導(dǎo)下其算法性能的變化情況和價(jià)值系數(shù)的變動(dòng)對(duì)聚類(lèi)準(zhǔn)確率的影響。所有這些算法都是在MATLAB R2014a中實(shí)現(xiàn)的。將這些算法的最大迭代次數(shù)設(shè)置為10 000,并在接下來(lái)的所有實(shí)驗(yàn)中保持不變。針對(duì)每種算法實(shí)驗(yàn),分別進(jìn)行20次,并將實(shí)驗(yàn)數(shù)據(jù)結(jié)果平均值予以記錄。表2顯示了驗(yàn)證數(shù)據(jù)集的統(tǒng)計(jì)信息。并且選取了3種半監(jiān)督聚類(lèi)算法與之對(duì)比,分別是PMF[9]、SS-NMF[10]和CCSR[5]。

        表2 驗(yàn)證數(shù)據(jù)集的統(tǒng)計(jì)信息

        PMF算法分別將樣本之間的約束關(guān)系ML和CL抽象為樣本數(shù)據(jù)結(jié)構(gòu)關(guān)系的正邊和負(fù)邊,而利用先驗(yàn)監(jiān)督信息構(gòu)造的鄰接矩陣則是通過(guò)圖正則化進(jìn)行處理。SS-NMF是一種基于Symmetric NMF的約束聚類(lèi)算法,它對(duì)滿足ML的樣本進(jìn)行獎(jiǎng)勵(lì),對(duì)違反CL的樣本進(jìn)行懲罰,同時(shí)修改樣本的鄰接矩陣。CCSR算法將數(shù)據(jù)點(diǎn)映射到一個(gè)新的特征空間,同時(shí)讓其滿足約束條件,它是圖聚類(lèi)的一種方式,支持非線性可分?jǐn)?shù)據(jù)。

        3.2 評(píng)價(jià)標(biāo)準(zhǔn)

        對(duì)于每個(gè)數(shù)據(jù)集,選取準(zhǔn)確率(ACC)、歸一化互信息(NMI)和F度量(F-score)作為聚類(lèi)效果的評(píng)價(jià)指標(biāo)。下面的公式是本實(shí)驗(yàn)聚類(lèi)的評(píng)價(jià)指標(biāo)。

        (22)

        式中,TP是指在同一個(gè)類(lèi)中聚集的兩個(gè)文檔是正確分類(lèi)的,TN是指在同一個(gè)類(lèi)中聚集的兩個(gè)文檔是正確分開(kāi)的。FP表示不應(yīng)該屬于一個(gè)類(lèi)別的文檔應(yīng)該屬于錯(cuò)誤的類(lèi)別,F(xiàn)N表示不應(yīng)該被分開(kāi)的文檔應(yīng)該屬于錯(cuò)誤的類(lèi)別。

        (23)

        聚類(lèi)中常用NMI來(lái)衡量?jī)煞N聚類(lèi)結(jié)果的接近程度。PAB(a,b)表示A和B的聯(lián)合概率分布,H(A,B)表示兩類(lèi)結(jié)果的聯(lián)合熵。

        (24)

        (25)

        (26)

        F-score是一種考慮到信息檢索的精度和召回程度,以便于不同技術(shù)或系統(tǒng)之間進(jìn)行結(jié)果比較的測(cè)量方法。在上面的公式中,P和R分別表示信息的精度和召回率。上述三個(gè)聚類(lèi)評(píng)價(jià)指標(biāo)的取值均在0~1之間,指標(biāo)值越大,聚類(lèi)效果越好。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        通過(guò)觀察圖1,從總體來(lái)看,隨著約束對(duì)的增加,兩個(gè)數(shù)據(jù)集上的聚類(lèi)性能趨勢(shì)上均朝著好的方向發(fā)展,在wdbc數(shù)據(jù)集和wine數(shù)據(jù)集上實(shí)驗(yàn)中其準(zhǔn)確率最好可達(dá)95.86%和93.10%,較沒(méi)有約束的聚類(lèi)算法性能有著極大的改善,說(shuō)明了成對(duì)約束信息確實(shí)可以指導(dǎo)聚類(lèi)過(guò)程,同時(shí)也說(shuō)明該算法優(yōu)于FCM-NMF算法,驗(yàn)證了該算法的正確性和有效性。從細(xì)節(jié)上來(lái)說(shuō),在隨著約束信息增加的有些過(guò)程,其算法性能不但沒(méi)有提高,反而降低了。這也是一種合理的現(xiàn)象,原因在于,首先是約束信息是通過(guò)隨機(jī)方式獲取的,有些樣本之間的關(guān)系對(duì)這個(gè)數(shù)據(jù)集結(jié)構(gòu)刻畫(huà)得更深入,而有些關(guān)系早已在FCM-NMF算法基礎(chǔ)上明確,其指導(dǎo)聚類(lèi)的過(guò)程意義不大。再者由于成對(duì)約束是一種弱指導(dǎo)信息,模型的輸出樣本也許不一定滿足成對(duì)約束關(guān)系,有可能會(huì)衍生出輸出模型與監(jiān)督信息不一致的性能平衡問(wèn)題。

        圖1 wdbc和wine數(shù)據(jù)集上聚類(lèi)性能

        圖2顯示了wdbc和wine數(shù)據(jù)集上價(jià)值系數(shù)α和β的變動(dòng)對(duì)聚類(lèi)準(zhǔn)確率的影響。在兩個(gè)數(shù)據(jù)集上分別加入九組和五組的約束信息,通過(guò)調(diào)節(jié)價(jià)值系數(shù)的數(shù)值觀察其聚類(lèi)準(zhǔn)確率的變化情況。通過(guò)大量實(shí)驗(yàn)可以看出價(jià)值系數(shù)α與β設(shè)定對(duì)聚類(lèi)性能的影響匪淺,它們反映了的半監(jiān)督信息ML與CL對(duì)聚類(lèi)的重要性。該參數(shù)的設(shè)定與數(shù)據(jù)集本身有著密切的關(guān)系。在本實(shí)驗(yàn)中,將wdbc數(shù)據(jù)集中α設(shè)為0.7,β設(shè)為0.5可以尋求到準(zhǔn)確率的局部最優(yōu)解。而在wine數(shù)據(jù)集中α設(shè)為0.8,β設(shè)為0.9可以尋求到局部最優(yōu)解。

        圖2 wdbc和wine數(shù)據(jù)集上價(jià)值系數(shù)α和β的變動(dòng)對(duì)聚類(lèi)準(zhǔn)確率的影響

        圖3顯示了wdbc和wine數(shù)據(jù)集上各半監(jiān)督聚類(lèi)算法性能對(duì)比圖。首先可以看到,在兩個(gè)數(shù)據(jù)集上,隨著成對(duì)約束數(shù)目增加,各算法均呈現(xiàn)上升趨勢(shì)。再者,CCSR在wdbc數(shù)據(jù)集上的性能表現(xiàn)很好,但在wine數(shù)據(jù)集上性能很差,或許因?yàn)樵趙ine數(shù)據(jù)集上的監(jiān)督信息不夠,不足以支持其達(dá)到最佳效果。相反SS-NMF在wine數(shù)據(jù)集上性能非常好,但是在wdbc數(shù)據(jù)集上其劣勢(shì)卻很明顯。因?yàn)镾S-NMF修改的是鄰接矩陣,而不是直接改變目標(biāo)函數(shù)。PMF算法總體性能良好,在驗(yàn)證集上,比無(wú)監(jiān)督聚類(lèi)準(zhǔn)確率最佳分別改善可以接近10%和8%。相較于本算法差距比較明顯,因?yàn)镻MT在獎(jiǎng)勵(lì)ML時(shí)約束的提供了一個(gè)負(fù)項(xiàng),這對(duì)于整體聚類(lèi)意義不大。通過(guò)驗(yàn)證集的實(shí)驗(yàn)驗(yàn)證了所提的基于成對(duì)約束的半監(jiān)督聚類(lèi)方法的有效性和穩(wěn)定性。

        圖3 wdbc和wine數(shù)據(jù)集上各半監(jiān)督聚類(lèi)算法性能對(duì)比

        4 結(jié)論

        本文提出了基于成對(duì)約束的半監(jiān)督聚類(lèi)方法。其核心思想是在FCM-NMF算法的基礎(chǔ)上,依靠少量的成對(duì)約束監(jiān)督信息的加入,改善整體聚類(lèi)性能。但也有可能衍生出輸出模型與監(jiān)督信息不一致的性能平衡問(wèn)題,有待作深入探討。下一步考慮將成對(duì)約束條件作為監(jiān)督信息應(yīng)用于多視角聚類(lèi)任務(wù),并針對(duì)這個(gè)問(wèn)題展開(kāi)研究。

        猜你喜歡
        集上約束聚類(lèi)
        “碳中和”約束下的路徑選擇
        Cookie-Cutter集上的Gibbs測(cè)度
        約束離散KP方程族的完全Virasoro對(duì)稱
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        復(fù)扇形指標(biāo)集上的分布混沌
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        適當(dāng)放手能讓孩子更好地自我約束
        人生十六七(2015年6期)2015-02-28 13:08:38
        一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
        自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
        中文字幕日本五十路熟女| 国产精品久久久久久无码| 国内免费AV网站在线观看| 亚洲午夜无码久久久久软件| 日韩人妖干女同二区三区| 欧美老熟妇乱子| 国产人妻久久精品二区三区| 亚洲国产日韩在线人成蜜芽| 黄页免费人成网址大全| 久久精品第九区免费观看| 台湾无码av一区二区三区| 亚洲女同精品一区二区久久| 国产伦一区二区三区久久| 精品人妻伦一二三区久久| 最近中文字幕视频完整版在线看| 91av视频在线| 熟妇人妻丰满少妇一区 | 亚洲国产成a人v在线观看| 午夜视频一区二区三区在线观看| 无码人妻久久一区二区三区蜜桃| 国产成人av 综合 亚洲| 久久精品成人亚洲另类欧美| 日本乱熟人妻中文字幕乱码69| 国产三级精品三级| 日本强好片久久久久久aaa| 中文字幕亚洲区第一页| 中文字幕久久久人妻人区| 亚洲精品久久久久久久久久吃药| 四虎影视亚洲精品| 亚洲大片一区二区三区四区| 精品熟人妻一区二区三区四区不卡 | 国产亚洲亚洲精品777| 国产精品高清亚洲精品| 天堂一区二区三区在线观看视频 | 亚洲国产精品无码av| 亚洲熟伦熟女新五十路熟妇| 亚洲男人在线无码视频| 涩涩鲁精品亚洲一区二区| 久久99精品九九九久久婷婷| 在线a亚洲视频播放在线观看| 久久青青草原一区网站|