亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶行為特征的多維度文本聚類

        2018-12-14 05:31:12黎萬(wàn)英黃瑞章丁志遠(yuǎn)陳艷平徐立洋
        計(jì)算機(jī)應(yīng)用 2018年11期
        關(guān)鍵詞:多維度度量約束

        黎萬(wàn)英,黃瑞章,2,3,丁志遠(yuǎn),陳艷平,2,徐立洋

        (1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng) 550025; 2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室(貴州大學(xué)),貴陽(yáng) 550025;3.計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)),南京 210093)(*通信作者電子郵箱rzhuang@gzu.edu.cn)

        0 引言

        隨著Twitter、微博等社交媒體的廣泛使用,給傳統(tǒng)文本內(nèi)容聚類方法帶來(lái)挑戰(zhàn)。由于社交媒體中存在大量短文本,導(dǎo)致基于文本內(nèi)容聚類中的特征稀疏問(wèn)題比較嚴(yán)重。另外,除了文本內(nèi)容,社交媒體數(shù)據(jù)還包含很多用戶行為信息,如:點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論、關(guān)注、引用等(也稱“用戶行為特征”)。缺少用戶行為特征的聚類方法不能對(duì)社交媒體數(shù)據(jù)的分布特征進(jìn)行建模。除了Twitter、微博等“新媒體”外,有些傳統(tǒng)文本中也包含有用戶行為信息,如學(xué)術(shù)論文中的合作作者和參考文獻(xiàn)等。

        為了在文本內(nèi)容的基礎(chǔ)上有效利用用戶行為特征進(jìn)行聚類,本文提出了結(jié)合用戶行為特征的多維度文本聚類(Multi-dimensional Text Clustering with User Behavior Characteristics, MTCUBC)模型,該模型主要針對(duì)傳統(tǒng)多維度聚類中存在的兩個(gè)問(wèn)題:1)傳統(tǒng)多維度聚類主要使用文本內(nèi)容和超鏈接等“靜態(tài)特征”,缺乏對(duì)用戶行為特征的有效利用;2)傳統(tǒng)多維度聚類只是簡(jiǎn)單地將多個(gè)維度空間進(jìn)行線性疊加,沒(méi)有考慮不同維度空間的差異性。本文提出的MTCUBC模型根據(jù)文本相似性在不同空間上應(yīng)該保持一致的原則,將用戶行為特征作為約束(constrains)來(lái)輔助聚類。同時(shí),采用度量學(xué)習(xí)(metric learning)方法來(lái)精確地調(diào)節(jié)每個(gè)屬性值,從而提高聚類的效果。

        本文通過(guò)兩個(gè)數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該方法與單維度文本聚類方法相比有明顯的改進(jìn),與多維度聚類方法比較也有明顯的提升。

        1 相關(guān)工作

        在相關(guān)研究中,多維度聚類備受關(guān)注,例如:在網(wǎng)絡(luò)中,廣泛使用圖像、音頻、超鏈接、文本等不同類型的特征來(lái)進(jìn)行聚類。在早期的研究中,數(shù)據(jù)的標(biāo)注信息經(jīng)常被用作多維度聚類的約束。例如,文獻(xiàn)[1]提出了一種將有標(biāo)記和未標(biāo)記樣本進(jìn)行合并的方法; 文獻(xiàn)[2]提出了一種成對(duì)約束(pair-wise)的聚類框架,使用標(biāo)記數(shù)據(jù)作為約束來(lái)指導(dǎo)聚類過(guò)程; 文獻(xiàn)[3-4]均研究了帶標(biāo)記和未標(biāo)記樣本聚類結(jié)果的影響。這類方法的實(shí)現(xiàn)需要部分?jǐn)?shù)據(jù)帶有標(biāo)注信息,難以在無(wú)標(biāo)注數(shù)據(jù)集中使用。

        在約束聚類中,文獻(xiàn)[1,5]通過(guò)修改聚類目標(biāo)函數(shù)實(shí)現(xiàn)多維度空間聚類,其中,文獻(xiàn)[1]在K-Means算法的基礎(chǔ)上,提出如何修改利用流行的聚類算法應(yīng)用到實(shí)際問(wèn)題中,文獻(xiàn)[5]提出半監(jiān)督聚類算法,將部分未標(biāo)記的數(shù)據(jù)進(jìn)行聚類,然后用已知類來(lái)預(yù)測(cè)未來(lái)樣本點(diǎn)的類別。文獻(xiàn)[6]提出了成對(duì)約束聚類方法。這類模型均使用約束來(lái)修改聚類的目標(biāo)函數(shù),但由于特征的高維稀疏性而影響聚類效果,沒(méi)有考慮能改善文本間距離測(cè)量的距離度量方法。

        文獻(xiàn)[7]提出學(xué)習(xí)距離矩陣的方法;文獻(xiàn)[8]給出成對(duì)約束的聚類框架,并提出一種主動(dòng)選擇成對(duì)約束的方法來(lái)改進(jìn)聚類效果;文獻(xiàn)[9]將社會(huì)行為信息的相似性嵌入到視覺(jué)空間中; 為了提高多維度聚類的結(jié)果,文獻(xiàn)[10]使用相似的文章來(lái)學(xué)習(xí)距離矩陣;文獻(xiàn)[11]提出使用相似的文章作為約束,為每個(gè)類學(xué)習(xí)出一個(gè)距離矩陣的聚類方法;文獻(xiàn)[12]提出一種可以同時(shí)進(jìn)行多維度聚類和特征選擇的方法,該方法主要是針對(duì)高維數(shù)據(jù)稀疏問(wèn)題;文獻(xiàn)[13]提出基于隱馬爾可夫條件隨機(jī)場(chǎng)的多維度聚類框架;文獻(xiàn)[14]提出一種多維度K-Means聚類算法,該算法為每個(gè)維度指定一個(gè)權(quán)重,使其與聚類結(jié)果相關(guān)聯(lián),其中維度用給定的內(nèi)核矩陣表示,并且內(nèi)核的加權(quán)組合與簇并行學(xué)習(xí);文獻(xiàn)[15]提出一種多類型的網(wǎng)絡(luò)文本聚類(Multi-type Features based Web Document Clustering, MFRC),為每一個(gè)特征空間設(shè)置一個(gè)權(quán)重值。

        在成對(duì)約束聚類中,文獻(xiàn)[10]結(jié)合梯度下降和迭代過(guò)程來(lái)學(xué)習(xí)馬氏矩陣(Mahalanobis metric);文獻(xiàn)[16]提出冗余成分分析算法,它只用必連約束來(lái)學(xué)習(xí)馬氏距離,但是這些矩陣學(xué)習(xí)方法都只訓(xùn)練出一個(gè)距離矩陣。

        與前面的模型相比,本文提出的MTCUBC模型允許度量學(xué)習(xí)方法利用成對(duì)約束和無(wú)標(biāo)簽數(shù)據(jù)來(lái)學(xué)習(xí)出多個(gè)距離矩陣,使實(shí)驗(yàn)結(jié)果有很大提升。

        2 模型的提出

        2.1 社會(huì)特征的學(xué)習(xí)

        本文將社會(huì)維度中的用戶行為特征嵌入到詞維度聚類中,因此,如何將復(fù)雜、無(wú)結(jié)構(gòu)的用戶行為特征加入到有結(jié)構(gòu)的詞維度空間是本文首先要解決的問(wèn)題。用論文中作者和參考文獻(xiàn)間的關(guān)系來(lái)舉例說(shuō)明,xi={a1,a2, …,an}表示社會(huì)維度中第i篇論文中出現(xiàn)的作者和論文引用參考文獻(xiàn)中的作者的表示,其中作者出現(xiàn)為1,不出現(xiàn)為0,并且當(dāng)前論文中的作者及參考文獻(xiàn)中的作者只取前三位。社會(huì)維度中,作者間的相似性對(duì)于詞維度的聚類有幫助,為了證明這一點(diǎn),本文收集了兩個(gè)數(shù)據(jù),以Aminer論文集[17]為例進(jìn)行說(shuō)明,該數(shù)據(jù)集收集了3 000篇論文,統(tǒng)計(jì)有8 812個(gè)詞和22 373個(gè)作者。對(duì)于每篇論文中的作者,若他們引用的文章都有較高的相似性、較低的差異性,則這些文章中的作者有相同的愛(ài)好領(lǐng)域。本文抽象出社會(huì)維度中的作者特征和詞維度中的詞特征向量來(lái)計(jì)算它們之間的相似度,假如要給作者推薦參考文獻(xiàn),除了從文章的內(nèi)容以外,社會(huì)相似度也是一個(gè)可靠、可以考慮的指標(biāo)。

        2.2 基于約束的聚類算法

        由于有標(biāo)簽的樣本比較少,文獻(xiàn)[16]考慮到使用約束方法比提供有標(biāo)簽的數(shù)據(jù)更現(xiàn)實(shí),因此使用相似文章對(duì)來(lái)學(xué)習(xí)距離,雖然類標(biāo)簽可能未知,但用戶仍然可以指定對(duì)應(yīng)樣本是否屬于同一個(gè)簇,所以約束的方法也比類標(biāo)簽更通用。

        針對(duì)傳統(tǒng)聚類方法不能直接利用約束的問(wèn)題,基于約束的聚類算法是使用標(biāo)注數(shù)據(jù)作為約束來(lái)輔助聚類,但本文中沒(méi)有標(biāo)注好的樣本,是通過(guò)在社會(huì)維度(social)聚類后,挑選具有較高相似度的文章對(duì)作為約束來(lái)輔助詞(word)維度聚類,此時(shí)挑選的文章對(duì)類別是確定的。利用約束將目標(biāo)函數(shù)和約束條件結(jié)合起來(lái)可以解決這一問(wèn)題。

        設(shè)M表示是一組必須關(guān)聯(lián)的文章,其中(xi,xj)∈M表示xi和xj應(yīng)該被聚到同一個(gè)類中。讓W(xué)={ωij}作為M中違反約束的懲罰因子,所以目標(biāo)是最小化下面的目標(biāo)函數(shù):

        (1)

        其中:I為指示函數(shù),I[true]=1和I[false]=0。li和lj在社會(huì)維度中有較高的相似度,在詞向量維度聚類中應(yīng)該被聚到同一個(gè)類中,否則將會(huì)受到相應(yīng)懲罰。

        2.3 基于度量學(xué)習(xí)聚類

        為調(diào)節(jié)向量中每個(gè)屬性的貢獻(xiàn)度,本模型不是統(tǒng)一地給定某個(gè)權(quán)重參數(shù),而是通過(guò)一個(gè)度量學(xué)習(xí)矩陣來(lái)給每個(gè)屬性一個(gè)權(quán)重,這樣更能滿足每個(gè)屬性間的差異性。

        在調(diào)整矩陣聚類相關(guān)工作中,文獻(xiàn)[10, 17]調(diào)整矩陣權(quán)重同時(shí)滿足最小化必連(must-linked)樣本間的距離和最大化必不連(cannot-kinked)樣本間的距離,而且存在基本的限制:對(duì)于所有的類都只能用同一個(gè)矩陣, 允許每個(gè)簇h有單獨(dú)的一個(gè)權(quán)重矩陣Ah,可以證明,在這種廣義K-means模型下,完整的數(shù)據(jù)最大對(duì)數(shù)似然函數(shù)等價(jià)于最小化目標(biāo)函數(shù):

        (2)

        其中:第二項(xiàng)是第li個(gè)高斯與協(xié)方差矩陣Ali-1的正態(tài)常數(shù)。

        2.4 MTCUBC模型

        結(jié)合式(1)和(2),即結(jié)合約束與度量學(xué)習(xí)方法。在較少約束違反的情況下,最小化在學(xué)習(xí)矩陣下的聚類分散度,可以得到目標(biāo)函數(shù):

        (3)

        如果統(tǒng)一約束開(kāi)銷ωij,所有約束違背都平等對(duì)待; 然而,在必連(must-link)集合中,對(duì)那些違背約束且離得遠(yuǎn)的點(diǎn)的懲罰應(yīng)該大于那些違背約束且離得相對(duì)較近的點(diǎn)。直觀地說(shuō):如果兩個(gè)必連點(diǎn)根據(jù)當(dāng)前的距離度量方法相距很遠(yuǎn),則度量是非常不充分的,并且需要對(duì)它進(jìn)行嚴(yán)格的修改。由于兩個(gè)簇中參與了同一個(gè)必連的違背行為,相應(yīng)的懲罰應(yīng)該影響到兩個(gè)簇的度量, 這可以通過(guò)對(duì)式(3)的第二部分乘以一個(gè)懲罰值來(lái)實(shí)現(xiàn),該懲罰值表示為:

        (4)

        加入懲罰值后的目標(biāo)函數(shù)如下:

        (5)

        懲罰僅針對(duì)那些違背約束的樣本。M是社會(huì)維度中滿足一定相似度的樣本。忽略不相連(cannot-link)的樣本,因?yàn)樵谏鐣?huì)維度中不同作者的兩篇文章,在詞向量維度中其內(nèi)容可能相似。從式(5)可以看出,公式由兩部分組成,其中懲罰因子wij為每個(gè)約束提供一個(gè)權(quán)重,同時(shí)該約束也體現(xiàn)公式中兩部分之間的相對(duì)重要性。

        3 算法求解

        步驟2 重復(fù)下面的過(guò)程直到收斂:

        ③t=t+1。

        EM算法和復(fù)雜度分析如下。

        算法主要分兩個(gè)步驟:一是從社會(huì)維度中挑選相似對(duì),二是計(jì)算詞維度中特征間的距離。在第一步中,要計(jì)算兩兩向量間的距離,時(shí)間復(fù)雜的在O(m2I)級(jí)別上,其中I為迭代次數(shù),m表示論文的數(shù)量。第二步中,時(shí)間復(fù)雜度O(Ikm),其中I為迭代的次數(shù),k為類的個(gè)數(shù),m為論文數(shù)量。

        K-Means算法對(duì)初始化和類的個(gè)數(shù)比較敏感,好的初始中心點(diǎn)對(duì)K-Means聚類算法很重要。首先介紹初始化方法,本實(shí)驗(yàn)采用的方法是先在必連集合中隨機(jī)挑選一個(gè)點(diǎn)作為初始化中心點(diǎn),在必連以外的集合中挑選第二個(gè)中心點(diǎn)且離第一個(gè)中心點(diǎn)的距離最遠(yuǎn),同理,第三個(gè)中心點(diǎn)是所有樣本點(diǎn)中距離前兩個(gè)中心點(diǎn)距離最遠(yuǎn)的點(diǎn)。這樣做可以加快數(shù)據(jù)的聚類收斂速度, 由于K-Means對(duì)初始點(diǎn)比較敏感,該方法也能一定程度上促進(jìn)聚類。

        期望最大(Expectation Maximization, EM)算法是在概率模型中尋找參數(shù)最大似然估計(jì)的算法。求解式(5)中的矩陣A,同時(shí)要找到聚類的最優(yōu)效果,不斷迭代優(yōu)化聚類結(jié)果,該過(guò)程就是一個(gè)EM算法過(guò)程。下面具體介紹EM的實(shí)現(xiàn)過(guò)程。

        E步 在文獻(xiàn)[14,18]中,通過(guò)使用能夠代表當(dāng)前類的樣本點(diǎn)用于更新數(shù)據(jù)點(diǎn)的分布。在簡(jiǎn)單的K-Means中,聚類過(guò)程中是沒(méi)有交互的,本文的方法是在E步和M步中不斷交替:E步是將每個(gè)樣本點(diǎn)分配到每個(gè)類中,M步將重新估計(jì)中心點(diǎn)和度量學(xué)習(xí)距離矩陣,在本文模型作用下使所有樣本點(diǎn)到各自的類中心點(diǎn)距離之和最小。

        值得注意的是,這個(gè)分配步驟是依賴于順序的,因?yàn)镸的子集和每個(gè)類有關(guān),可能會(huì)改變樣本點(diǎn)的分配。做了隨機(jī)分配的實(shí)驗(yàn):每個(gè)點(diǎn)會(huì)分配到離它最近的類中去,同時(shí)也會(huì)涉及到最少數(shù)量的約束對(duì)。實(shí)驗(yàn)表明,分配的順序不會(huì)導(dǎo)致聚類質(zhì)量的顯著差異,所以在評(píng)估中使用隨機(jī)分配的策略。

        在E步驟中,樣本點(diǎn)的分配遵循的原則是保持目標(biāo)函數(shù)Jmtcubc最小,因此,當(dāng)所有的點(diǎn)都被重新分配時(shí),目標(biāo)函數(shù)Jmtcubc相比上一次將會(huì)減少或是保持不變。簡(jiǎn)而言之,結(jié)合成對(duì)約束和度量學(xué)習(xí)來(lái)指導(dǎo)聚類過(guò)程使聚類達(dá)到更好的效果。

        M步 用每個(gè)類中的所有點(diǎn)xh重新估計(jì)當(dāng)前的類中心μh,因此,每個(gè)簇中的分布對(duì)于目標(biāo)函數(shù)Jmtcubc來(lái)說(shuō)都是最小的。因?yàn)榧s束違背值依賴于類的分配,而成對(duì)約束不參與中心點(diǎn)的重新估計(jì)步驟,所以這些在M步都不會(huì)發(fā)生,因此,只有Jmtcubc的第一個(gè)距離分量最小化,重新估計(jì)樣本中心點(diǎn)的步驟實(shí)際上與K-Means算法類似。

        (6)

        其中Mh是必連約束的子集,包含當(dāng)前分配給第h個(gè)簇的點(diǎn)。

        (7)

        因?yàn)槊總€(gè)Ah是式(7)中的協(xié)方差矩陣之和的逆,其和不能為奇異值,如果其中任何一個(gè)元素為奇異值時(shí),可以通過(guò)添加單位矩陣乘以矩陣A-1的跡(trace)的一部分來(lái)加以限制:Ah-1=Ah-1+εtr(Ah-1)I。從直觀上看,距離學(xué)習(xí)修改了聚類變形算法使得相似的點(diǎn)離得更近。

        4 實(shí)驗(yàn)及分析

        本文在兩個(gè)數(shù)據(jù)集上驗(yàn)證MTCUBC模型的有效性, 實(shí)驗(yàn)結(jié)合了用戶行為特征和文本詞向量空間的特征,使用社會(huì)特征輔助詞向量空間的聚類。

        4.1 數(shù)據(jù)集

        用向量空間模型表示文本特征時(shí),很難對(duì)稀疏高維數(shù)據(jù)集進(jìn)行聚類, 因?yàn)榫垲愃惴ㄈ菀子龅骄植孔顑?yōu)而停止迭代,從而導(dǎo)致聚類質(zhì)量差。在以往的研究中,文獻(xiàn)[19]在文本集上用SP-K-means(SParse K-means)算法,其文本集大小比單詞空間的維數(shù)小,可以看出,在大多數(shù)初始化過(guò)程中,集群之間的文檔遷移很少,這導(dǎo)致算法收斂后的聚類質(zhì)量較差。這種現(xiàn)象在許多實(shí)際應(yīng)用中出現(xiàn),例如,當(dāng)將搜索結(jié)果聚類到網(wǎng)絡(luò)搜索引擎中時(shí),通常聚類中的網(wǎng)頁(yè)數(shù)量是數(shù)以百萬(wàn)計(jì)的,然而,特征空間的維度,對(duì)應(yīng)于所有網(wǎng)頁(yè)中的單詞的數(shù)量是成千上萬(wàn)的,而且因?yàn)樗话倭康乃锌赡艿膯卧~,所有每個(gè)網(wǎng)頁(yè)都是稀疏的,在這種情況下,度量學(xué)習(xí)結(jié)合成對(duì)約束方法就可以凸顯它的優(yōu)勢(shì),并且可以顯著提高聚類的質(zhì)量。為了證明MTCUBC模型中度量學(xué)習(xí)文本聚類的有效性,本文使用了具有稀疏性、高維特征的Aminer論文數(shù)據(jù)集[17]和NIPS Papers數(shù)據(jù)集[20]。

        Aminer論文數(shù)據(jù)集和NIPS Papers論文數(shù)據(jù)集,收集了大量關(guān)于計(jì)算機(jī)科學(xué)的學(xué)術(shù)論文信息, 兩個(gè)數(shù)據(jù)集都包含論文信息、論文引用、作者信息和合作者信息等, 每篇文章都包含paperID、authorID、摘要和參考文獻(xiàn)等屬性。在數(shù)據(jù)預(yù)處理中,本文只考慮每篇論文的前三個(gè)作者, 同樣,參考文獻(xiàn)的作者也是只取前三個(gè)。在兩個(gè)數(shù)據(jù)集中,將詞向量維度和社會(huì)維度分別用view1、view2表示。實(shí)驗(yàn)數(shù)據(jù)集的統(tǒng)計(jì)信息如表 1 所示。

        表1 Aminer 和NIPS Paper數(shù)據(jù)集信息

        4.2 聚類評(píng)估

        本文主要采用NMI(Normalized Mutual Information)作為聚類算法的度量標(biāo)準(zhǔn)。NMI的定義如下:

        (8)

        算法聚類后的簇集合表示為C={c1,c2,…,ck},標(biāo)準(zhǔn)的聚類標(biāo)簽表示為:L={l1,l2,…,lj}。其中I(X;Y)=H(X)-H(X|Y)表示隨機(jī)變量間的互信息,H(X)為X的熵,H(X|Y)為在給定Y時(shí)X的條件熵。NMI取值范圍為0~1,值越大說(shuō)明聚類效果越好。

        4.3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)表明,在兩個(gè)數(shù)據(jù)集中,社會(huì)維度特征的加入對(duì)MTCUBC算法的實(shí)驗(yàn)結(jié)果有一定的影響, 從而證明結(jié)合社會(huì)維度約束的度量學(xué)習(xí)方法的NMI值比單獨(dú)的社會(huì)維度或詞維度的聚類結(jié)果好; 同時(shí)MTCUBC模型的結(jié)果也比基于特征選擇的加權(quán)多視角聚類(Weighted Multi-view Clustering with Feature Selection, WMCFS)模型[12]、多視角聚類(Multi-view Clustering)[21]中的多視角EM算法(Multi-View EM, MVEM)的結(jié)果好, 其中WMCFS算法出自文獻(xiàn)[12],它提出一種可以同時(shí)進(jìn)行多維度聚類和特征選擇的方法, 該方法主要是針對(duì)高維數(shù)據(jù)稀疏提出的解決辦法。

        由表2可以看出: MTCUBC模型與相對(duì)應(yīng)的單維度(social-single和word-single)聚類結(jié)果相比有明顯的提升,提升效果達(dá)到10個(gè)百分點(diǎn)到14個(gè)百分點(diǎn); 與其他兩個(gè)多維度算法(WMCFS和WMCFS)聚類結(jié)果相比提升7個(gè)百分點(diǎn)。

        表2 MTCUBC模型在兩個(gè)數(shù)據(jù)集上與單維度和多維度方法的對(duì)比實(shí)驗(yàn)

        圖1表示MTCUBC模型在兩個(gè)數(shù)據(jù)集中,幾個(gè)多維度聚類模型的聚類效果與加入約束對(duì)數(shù)量間的關(guān)系??梢钥闯?,在沒(méi)有約束的情況下:WMCFS模型變成傳統(tǒng)的K-means算法,MVEM模型變成單維度的文本聚類,MTCUBC模型的結(jié)果優(yōu)于WMCFS模型,因?yàn)閺氖?5)可以看出,MTCUBC模型由兩部分組成,第二部分的約束不起作用,度量學(xué)習(xí)矩陣的結(jié)果取決于第一部分,其結(jié)果優(yōu)于WMCFS模型。此時(shí),單維度的MVEM模型優(yōu)于MTCUBC模型,MVEM聚類算法是一個(gè)基于概率的算法,準(zhǔn)確度高于MTCUBC模型。

        在加入約束后,每個(gè)方法的聚類效果都有所提升,在加入2 000個(gè)左右約束對(duì)時(shí),聚類的提升效果不明顯,分析原因是加入的這些約束對(duì)中,很大比例的約束對(duì)相似度比較高,能被分到同一個(gè)類中,或是不能被分到同一個(gè)簇中但受到的懲罰比較小,沒(méi)能改變其最初的聚類結(jié)果。

        在約束對(duì)超過(guò)2 000時(shí),聚類效果提升比較明顯,在約束對(duì)數(shù)量達(dá)到10 000對(duì)左右時(shí)算法處于收斂狀態(tài)。在沒(méi)有約束時(shí),MVEM算法效果比本文MTCUBC模型好,但隨著約束對(duì)數(shù)量的增加,本文模型MTCUBC的聚類效果超越了WMCFS算法。整個(gè)過(guò)程中MTCUBC算法都比WMCFS算法的效果好,WMCFS算法是使用一個(gè)合適的參數(shù),把多個(gè)維度線性疊加,而本文模型使用度量學(xué)習(xí)方法將多個(gè)維度結(jié)合,度量矩陣能影響到每個(gè)向量中的元素,而非簡(jiǎn)單的維度之間的疊加關(guān)系。

        圖1 MTCUBC模型與幾個(gè)多維度算法在兩個(gè)數(shù)據(jù)集上NMI對(duì)比

        5 結(jié)語(yǔ)

        為提高聚類效果,除利用文本自身內(nèi)容外,還充分利用和文本內(nèi)容相關(guān)的用戶行為信息,帶約束的聚類方法結(jié)合度量學(xué)習(xí)方法來(lái)改善傳統(tǒng)多維度聚類中不同維度線性結(jié)合問(wèn)題,使得用戶行為信息在聚類過(guò)程中充分發(fā)揮作用; 同時(shí),每個(gè)簇中都會(huì)學(xué)習(xí)出一個(gè)度量矩陣,改善多個(gè)類共用一個(gè)度量矩陣的情況。本文中對(duì)懲罰的開(kāi)銷值ωij有待細(xì)化,深究每一維數(shù)據(jù)的權(quán)重值。

        在未來(lái)的工作中,為得到更準(zhǔn)確的聚類結(jié)果和充分利用社會(huì)信息,擬研究如何利用更多空間聚類結(jié)果來(lái)互相輔助提升聚類效果。例如,可以將社會(huì)維度,詞維度、主題維度等特征綜合利用,并使用雙向輔助作用來(lái)提高聚類結(jié)果。

        猜你喜歡
        多維度度量約束
        有趣的度量
        模糊度量空間的強(qiáng)嵌入
        “碳中和”約束下的路徑選擇
        “多維度評(píng)改”方法初探
        約束離散KP方程族的完全Virasoro對(duì)稱
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
        多維度市南
        商周刊(2017年7期)2017-08-22 03:36:22
        地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
        適當(dāng)放手能讓孩子更好地自我約束
        人生十六七(2015年6期)2015-02-28 13:08:38
        多維度巧設(shè)聽(tīng)課評(píng)價(jià)表 促進(jìn)聽(tīng)評(píng)課的務(wù)實(shí)有效
        體育師友(2012年4期)2012-03-20 15:30:10
        亚洲成在人线视av| 在线观看亚洲AV日韩A∨| 日本加勒比东京热日韩| 午夜香蕉av一区二区三区| 久久久人妻精品一区bav| 亚洲一区毛片在线观看| 国模无码一区二区三区| 人妻妺妺窝人体色www聚色窝| AV无码免费不卡在线观看| 亚洲人妻av在线播放| 国产在线91精品观看| 99无码熟妇丰满人妻啪啪| 无码任你躁久久久久久| 亚洲av影院一区二区三区四区| 亚洲av高清在线一区二区三区 | 亚洲av男人电影天堂热app| 日韩成人无码| 中字无码av电影在线观看网站| 精品一区二区三区中文字幕在线| 国产一区二区三区的区| 一本大道熟女人妻中文字幕在线| 久久亚洲国产成人精品性色| 人妻精品丝袜一区二区无码AV | 国产成人综合在线视频| 免费无码又爽又刺激又高潮的视频| 久久精品国产福利亚洲av| 在线观看国产成人av天堂野外 | 欧美性巨大╳╳╳╳╳高跟鞋| 人妻AV无码一区二区三区奥田咲| 99熟妇人妻精品一区五一看片| 日本人妻精品有码字幕| 亚洲av综合av一区| 扒开双腿疯狂进出爽爽爽视频| 国产精品久久久久亚洲| 日韩va高清免费视频| 偷拍一区二区视频播放器| 三年在线观看免费大全下载| 国产精品每日更新在线观看 | 精品一区二区中文字幕| 亚洲熟女少妇精品综合| 色噜噜狠狠综曰曰曰|