亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聯(lián)合熵的多視圖集成聚類分析

        2023-10-17 05:50:34趙曉杰牛雪瑩張繼福
        計(jì)算機(jī)工程 2023年10期
        關(guān)鍵詞:視圖不確定性權(quán)重

        趙曉杰,牛雪瑩,張繼福

        (太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)

        0 概述

        多視圖聚類是將給定的多視圖數(shù)據(jù)依據(jù)相似性劃分為不同的簇,使得相同簇中的對(duì)象盡量相似,不同簇中的對(duì)象盡量不同[1]。多視圖數(shù)據(jù)可以使得問(wèn)題描述的角度更全面,提供比傳統(tǒng)單視圖數(shù)據(jù)更豐富的信息來(lái)揭示其內(nèi)在結(jié)構(gòu),并已成功應(yīng)用于社交網(wǎng)絡(luò)[2-3]、多模態(tài)生物特征分析等領(lǐng)域[4-5]。多視圖集成聚類作為一類典型多視圖聚類分析方法,通過(guò)集成聚類的思想使多個(gè)視圖較弱的基本分區(qū)集成為一個(gè)較強(qiáng)的一致分區(qū),并利用多個(gè)獨(dú)立的基聚類器分別對(duì)原始數(shù)據(jù)集進(jìn)行聚類,然后使用某種集成策略獲得最終的聚類結(jié)果,其關(guān)鍵在于從特征融合轉(zhuǎn)移到分區(qū)融合,相較于特征融合更有利于單視圖高層信息的保持。但如何充分利用多視圖數(shù)據(jù)的一致性和互補(bǔ)性,是改善并提升多視圖集成聚類效果的關(guān)鍵。

        分區(qū)融合策略是多視圖集成聚類的關(guān)鍵步驟之一,可分為視圖加權(quán)和簇加權(quán)兩種。視圖加權(quán)[6-7]主要是根據(jù)每個(gè)視圖的基聚類損失來(lái)確定每個(gè)視圖的權(quán)重,并將每個(gè)視圖視為一個(gè)整體,同一視圖中的基聚類簇被賦予相同的權(quán)重,而簇加權(quán)是根據(jù)每個(gè)視圖分區(qū)中基聚類簇的質(zhì)量來(lái)確定權(quán)重的。簇加權(quán)可比視圖加權(quán)獲得更加詳細(xì)和靈活的信息,更有利于融合多視圖分區(qū)。目前,簇加權(quán)[8]主要采用基聚類簇內(nèi)最小平均距離,更加緊密的、數(shù)據(jù)對(duì)象之間距離更小的簇被賦予高權(quán)重,稀疏的簇被賦予低權(quán)重?;垲惔氐氖杳艹潭葍H能體現(xiàn)數(shù)據(jù)本身分布特性,并不能反映簇質(zhì)量?jī)?yōu)劣,即基于最小平均距離的簇評(píng)價(jià)標(biāo)準(zhǔn)并不能很好地表示聚類質(zhì)量?jī)?yōu)劣。本文采用聯(lián)合熵估計(jì)多視圖聚類簇的不確定性,提出一種基于聯(lián)合熵的多視圖集成聚類算法。聯(lián)合熵體現(xiàn)了多視圖中所有基聚類簇的數(shù)據(jù)分布特征,保留了基聚類簇加權(quán)優(yōu)勢(shì),體現(xiàn)了不同視圖相似對(duì)象構(gòu)成的對(duì)應(yīng)類簇存在差異性,有效地提升了多視圖集成聚類效果。本文設(shè)計(jì)基于聯(lián)合熵的基聚類簇質(zhì)量評(píng)估方法,構(gòu)造基于基聚類簇質(zhì)量評(píng)估的加權(quán)共協(xié)矩陣,提出基于聯(lián)合熵的多視圖集成聚類算法(Multi-View Ensemble Clustering algorithm based on Joint Entropy,MVECJE)。

        1 相關(guān)工作

        多視圖聚類綜合了數(shù)據(jù)的多個(gè)視圖信息,獲得了優(yōu)于單視圖聚類的性能,已成為一個(gè)研究熱點(diǎn)[9-11]。多視圖聚類按照視圖的融合方式主要分為基于特征融合的多視圖聚類[12-15]和基于集成的多視圖聚類[16-19]兩大類。

        基于特征融合的多視圖聚類分析的基本思想是將多視圖數(shù)據(jù)的多種特征表示融合成為一個(gè)單一表示,并應(yīng)用傳統(tǒng)的聚類分析實(shí)現(xiàn)聚類分析任務(wù),同時(shí)該類方法在聚類結(jié)果的解釋方面具有一定優(yōu)勢(shì)。典型的研究工作主要包括:文獻(xiàn)[20]利用正則相關(guān)分析的方法從多個(gè)視圖的特征中選取相關(guān)度最高的視圖,以此作為數(shù)據(jù)融合后的唯一表示;文獻(xiàn)[21]利用譜聚類將數(shù)據(jù)在每種視圖下都表示成一個(gè)圖,并為每個(gè)圖賦以權(quán)重,并用隨機(jī)游走的方法進(jìn)行融合形成數(shù)據(jù)的唯一表示;文獻(xiàn)[22]提出一種多核K-means 算法來(lái)組合多視圖數(shù)據(jù),并將此組合作為數(shù)據(jù)的最終表示;文獻(xiàn)[23]用一種核的方法給各視圖自適應(yīng)地賦予權(quán)重,之后將這些加權(quán)的視圖融合為一個(gè)最終的表示。這類方法融合后的表示具有可解釋性強(qiáng)的特點(diǎn),但大多依賴于融合前圖的初始化,而初始化圖的質(zhì)量通常難以得到保障。

        基于集成的多視圖聚類分析融合各個(gè)視圖的聚類結(jié)果。與特征融合不同,它們會(huì)保持?jǐn)?shù)據(jù)的原始表示[24]。但在多視圖數(shù)據(jù)中,低質(zhì)量視圖可能會(huì)影響最終的聚類性能,所以,在融合過(guò)程中不能平等地對(duì)待所有視圖的聚類結(jié)果。為了確定不同視圖對(duì)于最終聚類結(jié)果的貢獻(xiàn),研究者提出了許多視圖加權(quán)的多視圖聚類方法:文獻(xiàn)[17]給每個(gè)視圖賦一個(gè)權(quán)重并給出一個(gè)超參數(shù)對(duì)權(quán)重進(jìn)行約束;文獻(xiàn)[25]通過(guò)一個(gè)自加權(quán)的方法來(lái)給視圖自動(dòng)賦權(quán)重,并且不需要額外的超參數(shù)。一般來(lái)說(shuō),大多數(shù)現(xiàn)有的視圖加權(quán)方法根據(jù)每個(gè)視圖的聚類損失來(lái)確定每個(gè)視圖的權(quán)重,以使損失較低的視圖具有較高的權(quán)重。但一個(gè)低損失的視圖不能保證其內(nèi)部的簇就一定具有高質(zhì)量,因?yàn)橐晥D加權(quán)是針對(duì)每個(gè)視圖整體的加權(quán),視圖內(nèi)部簇的質(zhì)量好壞并不能在視圖權(quán)重上得到體現(xiàn)。所以,通過(guò)將每個(gè)視圖作為一個(gè)整體來(lái)粗略地分配權(quán)重,并不能反映一個(gè)視圖中各個(gè)簇的重要性。針對(duì)視圖加權(quán)的問(wèn)題,一些研究者提出了基于距離對(duì)簇加權(quán)的多視圖聚類方法。這類方法雖然改進(jìn)了視圖加權(quán)的方法,研究核心從視圖層面轉(zhuǎn)移到了簇層面,但以距離衡量簇內(nèi)相似度的加權(quán)方式并不完善。因?yàn)橐暯堑牟煌?,簇的相似度是存在差異的,但不同視圖中對(duì)應(yīng)簇的點(diǎn)是一樣的,在這種情況下,不同視圖下同樣點(diǎn)構(gòu)成的簇由于相似度的不同,被賦予了不同的權(quán)重,不利于得到有效的相似度矩陣。

        綜上所述,基于特征融合的多視圖聚類分析方法太過(guò)依賴初始圖的質(zhì)量,基于集成的多視圖聚類分析方法則容易忽略視圖內(nèi)部基聚類簇的質(zhì)量,從而影響視圖內(nèi)部基聚類簇局部特性的體現(xiàn)。

        2 關(guān)鍵視圖與聯(lián)合熵

        在多視圖聚類中,如何處理少數(shù)關(guān)鍵視圖是關(guān)鍵和核心,影響著多視圖聚類性能。文獻(xiàn)[6]通過(guò)折中稀疏權(quán)重與平均權(quán)重調(diào)整各視圖權(quán)重,從而保證了少數(shù)關(guān)鍵視圖信息,其基本概念描述如下:

        假設(shè)一個(gè)多視圖數(shù)據(jù)集由V個(gè)視圖組成,每個(gè)視圖有N個(gè)實(shí)例,由表示,其中,表示來(lái)自第v個(gè)視圖的第i個(gè)實(shí)例,d(v)表示第v個(gè)視圖的特征維數(shù)。視圖中的實(shí)例在高維映射下可以表示為,這些實(shí)例將會(huì)被分成M個(gè)不相交的基聚類簇,其目標(biāo)函數(shù)可表示為:

        在式(1)中,當(dāng)p→1時(shí),僅選擇一個(gè)最佳視圖,而當(dāng)p→∞時(shí),每個(gè)視圖上權(quán)重ωv趨于相等。為了評(píng)判關(guān)鍵視圖,在聚類過(guò)程中嵌入一種核方法對(duì)多視圖重要性自動(dòng)排序;然后,根據(jù)視圖排序?qū)σ晥D賦予權(quán)重,這樣就在稀疏權(quán)重與平均權(quán)重之間進(jìn)行了折中,從而避免了視圖賦權(quán)中極端情況的產(chǎn)生。盡管視圖權(quán)重體現(xiàn)了視圖整體的重要性,但視圖內(nèi)部基聚類簇的重要性并未得到體現(xiàn)。

        采用傳統(tǒng)聚類算法,在給定的輸入?yún)?shù)下,生成的若干類簇稱之為基聚類,基聚類中的每一個(gè)類簇稱之為基聚類簇,基聚類簇是由相似數(shù)據(jù)對(duì)象構(gòu)成的一個(gè)數(shù)據(jù)子集[26]。為了使視圖內(nèi)部基聚類簇的重要性得以體現(xiàn),首先按照選取的聚類算法,按不同參數(shù)運(yùn)行M次,生成M個(gè)基聚類,且每個(gè)基聚類中包含了若干基聚類簇。在基聚類的生成過(guò)程中,盡管選用了同一聚類算法在不同參數(shù)下產(chǎn)生基聚類,但在選擇聚類算法時(shí),盡量選取輸入?yún)?shù)少,且在不同輸入?yún)?shù)下生成不同基聚類的算法,從而保證基聚類的多樣性。

        MVKKM 是一種多核K-means 聚類算法[6],僅有聚類個(gè)數(shù)k和視圖權(quán)重約束p兩個(gè)輸入?yún)?shù),相比其他聚類算法,MVKKM 輸入?yún)?shù)少,且在不同參數(shù)下生成的聚類簇也不盡相同,從而保證了基聚類的多樣性。假定數(shù)據(jù)集O={o1,o2,…,oN},其中,oi是第i個(gè)數(shù)據(jù)對(duì)象,N是數(shù)據(jù)集O中數(shù)據(jù)對(duì)象的個(gè)數(shù)。采用MVKKM 算法并選用M個(gè)不同參數(shù)對(duì)數(shù)據(jù)集O進(jìn)行聚類,生成M個(gè)基聚類,每個(gè)基聚類由一定數(shù)量的基聚類簇組成。M個(gè)基聚類的集合表示如下:

        其中:Π表示所有基聚類的集合;π(m)表示第m個(gè)基聚類中包含的n(m)個(gè)基聚類簇;表示π(m)中第n(m)個(gè)基聚類簇。

        為了便于表示與計(jì)算,將所有基聚類中的基聚類簇表示為如下集合:

        其中:Ci表示第i個(gè)基聚類簇;nc表示Π中所有基聚類簇的個(gè)數(shù)。

        基聚類的形式化表示如下:

        其中:π表示基聚類;p為參數(shù),不同的p產(chǎn)生不同的基聚類π。

        聯(lián)合熵是信息熵的推廣,用于對(duì)與一組隨機(jī)變量相關(guān)的不確定性進(jìn)行度量,并具有以下特性:1)非負(fù)性,即一組隨機(jī)變量的聯(lián)合熵是一個(gè)非負(fù)數(shù);2)高值性,即一組變量的聯(lián)合熵大于或等于該組變量的所有單個(gè)熵的最大值;3)低值性,即一組變量的聯(lián)合熵小于或等于該組變量各個(gè)熵的總和。相關(guān)概念定義如下:

        對(duì)于一對(duì)離散隨機(jī)變量(X,Y),聯(lián)合熵H(X,Y)定義如下:

        其中:x和y分別是X和Y的特定值;p(x,y)是這些值產(chǎn)生交集時(shí)的聯(lián)合概率。

        當(dāng)且僅當(dāng)隨機(jī)變量X和Y相互獨(dú)立時(shí),則認(rèn)為H(X,Y)=H(X)+H(Y)。因此,給定n個(gè)獨(dú)立的隨機(jī)變量X1,X2,…,Xn時(shí),有:

        3 多視圖集成聚類

        3.1 基聚類簇質(zhì)量評(píng)估

        視圖權(quán)重主要針對(duì)分布稀疏性,只能體現(xiàn)視圖整體的重要性,并不能體現(xiàn)視圖內(nèi)部基聚類簇的重要性,影響了多視圖聚類效果。為了使視圖內(nèi)部基聚類簇的重要性得以體現(xiàn),對(duì)由式(3)得到的基聚類簇集合中的每個(gè)簇進(jìn)行不確定性分析。由式(5)可知,聯(lián)合熵度量了一組隨機(jī)變量的不確定性,而基聚類簇中的數(shù)據(jù)對(duì)象可看作一組隨機(jī)變量,因而聯(lián)合熵可有效刻畫基聚類簇的不確定性[26]。

        對(duì)于由式(2)得到的基聚類集合Π,參照式(5),式(3)中的基聚類簇Ci相對(duì)于基聚類π(m)∈Π的不確定性描述如下:

        由式(8)可知,對(duì)于任意的i、j和m,都有p(Ci,∈[0,1],因而H(m)(Ci)∈[0,+∞)。當(dāng)基聚類簇Ci中的所有數(shù)據(jù)對(duì)象都屬于π(m)中的同一基聚類簇時(shí),Ci對(duì)π(m)的不確定性達(dá)到最小,即0;當(dāng)基聚類簇Ci中的數(shù)據(jù)對(duì)象屬于π(m)中更多不同的基聚類簇時(shí),Ci相對(duì)于π(m)的不確定性就會(huì)變大,表明Ci中的數(shù)據(jù)對(duì)象相對(duì)于π(m)不會(huì)出現(xiàn)在同一基聚類簇中。

        對(duì)于任意的基聚類簇Ci,參照式(6),基聚類簇Ci對(duì)于基聚類集合Π的不確定性描述如下:

        其中:M表示集合Π中基聚類的個(gè)數(shù)。

        由式(9)可知,任意的基聚類簇Ci在集合Π中的不確定性,都有H(Π)(Ci)∈[0,+∞)。

        為了將基聚類簇不確定性取值范圍控制在[0,1]之間,可采用指數(shù)函數(shù)對(duì)基聚類簇不確定性進(jìn)行轉(zhuǎn)換,并將其定義為基聚類簇不確定性指數(shù)(Cluster Uncertainty Index,CUI),描述如下:

        其中:M表示集合Π中基聚類的個(gè)數(shù)。

        由式(10)可知:當(dāng)基聚類簇Ci的不確定性為最小值0時(shí),其CUI 值將達(dá)到最大值,即1;當(dāng)基聚類簇Ci的不確定性趨于無(wú)窮時(shí),其CUI 值趨近于0。

        3.2 加權(quán)共協(xié)矩陣

        共協(xié)矩陣描述了在基聚類集合中每一對(duì)數(shù)據(jù)出現(xiàn)在同一基聚類簇的頻率,可用來(lái)表征基聚類結(jié)構(gòu)。雖然共協(xié)矩陣常應(yīng)用于集成聚類分析中,但由于其平等地對(duì)待所有數(shù)據(jù)對(duì)象,因此未能有效地體現(xiàn)基聚類特性,影響了集成聚類性能。由式(10)可知,CUI 刻畫了基聚類中基聚類簇的不確定性,并且不同基聚類簇的CUI 值是不同的,因此以CUI 值作為權(quán)值,可使基聚類簇重要性得到有效體現(xiàn)。對(duì)于給定基聚類集合Π,參照文獻(xiàn)[27]共協(xié)矩陣的描述,加權(quán)共協(xié)矩陣定義如下:

        在式(11)中,權(quán)值是由CUI 值來(lái)表征的,體現(xiàn)了基聚類簇重要性,CUI 值越大,基聚類簇越重要,反之亦然。

        3.3 基聚類集成

        依據(jù)式(11)定義的加權(quán)共協(xié)矩陣,可獲得多視圖集成聚類的一致劃分,并采用自底向上策略實(shí)現(xiàn)聚合聚類。假設(shè)每個(gè)數(shù)據(jù)對(duì)象是一個(gè)單獨(dú)的基聚類簇或區(qū)域,初始的N個(gè)數(shù)據(jù)對(duì)象視為N個(gè)初始區(qū)域,基本步驟如下:

        2)根據(jù)基聚類簇間相似度S(t)將相似度最高的兩個(gè)區(qū)域合并成一個(gè)新的區(qū)域,并更新區(qū)域集。第t步中的區(qū)域集合描述如下:

        其中:表示R(t)集合中的第i個(gè)區(qū)域;|R(t)|表示R(t)中的區(qū)域個(gè)數(shù)。

        在區(qū)域合并后,將根據(jù)新的區(qū)域集合更新相似度矩陣,為下一次迭代過(guò)程做準(zhǔn)備,迭代到第t步的相似度矩陣S(t)中的第(i,j)項(xiàng)描述如下:

        3)當(dāng)區(qū)域集合中的個(gè)數(shù)|R(t′)|=k時(shí)迭代終止,并將最后的區(qū)域集R(t′)作為最終的結(jié)果輸出。

        在上述基聚類集成步驟中,采用聯(lián)合熵來(lái)評(píng)估基聚類簇的不確定性,并以CUI 值作為加權(quán)共協(xié)矩陣中的權(quán)值,以此構(gòu)建新的初始相似度矩陣,體現(xiàn)重要數(shù)據(jù)對(duì)象的地位與作用。

        3.4 基于聯(lián)合熵的多視圖集成聚類算法

        依據(jù)上文所述,利用聯(lián)合熵,多視圖集成聚類分析基本思想為:首先針對(duì)各視圖數(shù)據(jù),采用多核K-means 聚類MVKKM 算法生成基聚類集合;然后利用式(11)得到加權(quán)共協(xié)矩陣,并作為初始相似度矩陣;最后利用層次聚類思想,自底向上地聚合基聚類簇,進(jìn)而得到最終的多視圖集成聚類簇。算法描述如下:

        算法MVECJE

        輸入多視圖數(shù)據(jù)集,k

        輸出聚類結(jié)果R(t′)(|R(t′)|=k)

        1.利用MVKKM 算法生成M個(gè)基聚類;

        2.由式(9)計(jì)算基聚類集合中所有基聚類簇的不確定性;

        3.由式(10)計(jì)算基聚類集合中所有基聚類簇的CUI 值;

        4.由式(11)計(jì)算得到WWCA矩陣;

        5.初始化相似度矩陣S(0)和區(qū)域集合R(0),|R(0)|=N;

        6.While |R(t)|>k Do(t=1,2,…,N-1)

        7.依據(jù)S(t-1)將R(t-1)中兩個(gè)相似度最高區(qū)域進(jìn)行合并;

        8.由式(12)、式(13)得到新的R(t)和S(t);

        9.End While

        時(shí)間復(fù)雜度分析如下:MVECJE 算法中的主要操作包括生成基聚類與迭代生成基聚類簇。生成基聚類主要是利用MVKKM 算法,參照文獻(xiàn)[6]可知,時(shí)間復(fù)雜度為O(N2(V+τ)τ′),其中,N為數(shù)據(jù)對(duì)象的個(gè)數(shù),V為視圖個(gè)數(shù),τ為核K-means 算法的迭代 次數(shù),τ′為整體的迭代次數(shù)。生成基聚類簇的過(guò)程需要迭代t次,每次迭代后需要更新并保存相似度矩陣,時(shí)間復(fù)雜度為O(tN2)。因此,MVECJE 算法時(shí)間復(fù)雜度為

        4 實(shí)驗(yàn)分析

        實(shí)驗(yàn)環(huán)境:Intel?CoreTMi7-7700HQ CPU@2.80 GHz,8 GB內(nèi)存,Windows 10。為了驗(yàn)證MVECJE 算法的有效性,采 用NMI、ACC 和ARI 這3 個(gè)聚類性能指標(biāo)[28],對(duì)比算法為CoregSC[29]、AWGL[17]、MMSC[16]、DIMSC[13]、COMVSC[30]、MVKKM[6]和CWK2M[8]。選取4 個(gè)廣泛使用的多視圖數(shù)據(jù)集進(jìn)行性能評(píng)估,即MSRC-v1、Caltech101-7和Handwritten numerals(HW)3 個(gè)圖像數(shù)據(jù)集和1 個(gè)Reuters 文本數(shù)據(jù)集,詳見(jiàn)表1,其中括號(hào)內(nèi)的數(shù)字是特征維數(shù)。

        表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental datasets

        4.1 聚類簇權(quán)重

        為了進(jìn)一步驗(yàn)證簇權(quán)重在集成過(guò)程中的重要性,在MVECJE 算法中,刪除簇權(quán)重處理步驟,即對(duì)基聚類直接進(jìn)行集成處理,并標(biāo)記為MVEC_1 算法。對(duì)比在4 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,詳見(jiàn)表2,其中加粗?jǐn)?shù)據(jù)表示最優(yōu)值,下同。

        表2 聚類簇權(quán)重對(duì)聚類性能的影響Table 2 Effect of cluster weight on clustering performance

        由表2 可知,聚類簇權(quán)重可以有效改善聚類性能,相對(duì)于MVECJE算法,MVEC_1 算法的3個(gè)聚類指標(biāo)值都有不同程度的提高,其主要原因是利用聯(lián)合熵賦予的聚類簇權(quán)重,體現(xiàn)了各多視圖聚類簇的重要程度。

        4.2 聚合迭代

        為了驗(yàn)證MVECJE 算法中聚合迭代次數(shù)對(duì)聚類性能的影響,以3 個(gè)評(píng)價(jià)指標(biāo)值作為y軸、以迭代次數(shù)作為x軸繪制曲線。在表1 所示的4 個(gè)數(shù)據(jù)集上MVECJE 算法的NMI、ACC、ARI 聚類指標(biāo)如圖1所示。

        圖1 迭代次數(shù)對(duì)聚類性能的影響Fig.1 Effect of the number of iterations on clustering performance

        由圖1 可知,隨著迭代次數(shù)的增加,體現(xiàn)聚類性能的NMI、ACC、ARI 聚類指標(biāo)值逐步提升,且多視圖聚類性能也逐步趨于穩(wěn)定,其主要原因是在每次聚合迭代集成過(guò)程中,根據(jù)更新后的相似度矩陣合并了相似度高的聚類簇,隨著迭代次數(shù)的增加,聚類簇的變化也逐漸變小,并趨于穩(wěn)定。

        4.3 聚類性能

        為了驗(yàn)證MVECJE 算法的聚類準(zhǔn)確性,對(duì)同一數(shù)據(jù)集使用相同的內(nèi)核:M=15。對(duì)MSRC-v1、Caltech101-7 和HW 數(shù)據(jù)集使用高斯核,并將標(biāo)準(zhǔn)差設(shè)置為每個(gè)視圖中數(shù)據(jù)對(duì)象之間成對(duì)的歐氏距離的中位數(shù),對(duì)Reuters 數(shù)據(jù)集使用線性核。對(duì)于MVKKM 和CWK2M,參數(shù)p以對(duì)數(shù)形式進(jìn)行搜索(lgp從0.1 到2,步長(zhǎng)為0.2),而初始中心的選擇則通過(guò)全局核K-Means 算法來(lái)對(duì)每個(gè)視圖進(jìn)行選擇。由于MVKKM 和CWK2M 的中心初始化是相對(duì)固定的,因此僅運(yùn)行1次,其他對(duì)比算法則運(yùn)行30次,并返回30 次結(jié)果的平均值。

        由表3 可知,MVECJE 算法在4 個(gè)數(shù)據(jù)集上均表現(xiàn)出良好的聚類性能,尤其在Caltech101-7 和HW 數(shù)據(jù)集上優(yōu)勢(shì)最為明顯,而在MSRC-v1 和Reuters 數(shù)據(jù)集上,僅ACC 指標(biāo)值略遜于CWK2M 算法。具體分析如下:

        表3 多視圖聚類性能對(duì)比Table 3 Comparison of multi-view clustering performance

        1)MVECJE 是一種集成聚類方法,提高了聚類結(jié)果的質(zhì)量和健壯性,且充分利用了基聚類,并采用了基于聯(lián)合熵的簇評(píng)估方式,使得其具有良好的聚類性能。

        2)CoregSC、AWGL 和MMSC 是基于譜聚類的多視圖聚類分析方法,聚類性能大多依賴于關(guān)聯(lián)矩陣的構(gòu)造,但關(guān)聯(lián)矩陣的質(zhì)量通常是難以保障的,而MVECJE 則不需要構(gòu)造關(guān)聯(lián)矩陣這一過(guò)程,從而也體現(xiàn)了MVECJE 的優(yōu)越性。

        3)DIMSC 和COMVSC 是基于子空間的多視圖聚類分析方法,且這兩種多視圖聚類分析方法都沒(méi)有進(jìn)行加權(quán)操作,都將每個(gè)視圖同等對(duì)待。因此,視圖與視圖內(nèi)部聚類簇的重要性將難以體現(xiàn),而MVECJE 則是在聚類簇這一層面上進(jìn)行的分析,從表3 中也可直觀看出,MVECJE 相比于DIMSC 和COMVSC 的優(yōu)勢(shì)是非常明顯的。

        4)MVKKM 是一種視圖加權(quán)的多視圖聚類分析方法,而MVECJE 則是以聯(lián)合熵為基礎(chǔ)并對(duì)聚類簇加權(quán)的多視圖集成聚類算法。由于MVECJE 考慮了比MVKKM 更細(xì)粒度的權(quán)重,因此獲得了優(yōu)于MVKKM 的聚類性能。

        5)CWK2M 和MVECJE 都是基于簇加權(quán)的多視圖聚類分析方法,但對(duì)簇加權(quán)的方式不同:CWK2M采用歐氏距離為簇加權(quán),MVECJE 對(duì)簇聯(lián)合熵加權(quán)。MVECJE 算法在MSRC-v1 和Reuters 數(shù)據(jù)集上,僅ACC 指標(biāo)值略遜于CWK2M 算法,這可能是因?yàn)閿?shù)據(jù)集對(duì)象個(gè)數(shù)較少,無(wú)法有效地體現(xiàn)聯(lián)合熵加權(quán)的有效性。

        為了驗(yàn)證MVECJE 算法的聚類效率,采用表1所示的數(shù)據(jù)集,對(duì)不同算法的聚類效率進(jìn)行對(duì)比,如表4 所示。

        表4 聚類效率對(duì)比Table 4 Comparison of clustering efficiency 單位:s

        由表4可知,除CoregSC 效率較高、CWK2M 效率較低以外,包括MVECJE 在內(nèi)的其他算法聚類效率基本相同,主要原因是:CoregSC 算法通過(guò)將各視圖的特征向量矩陣正則化為一個(gè)共同一致的特征向量矩陣,使得每個(gè)視圖的特征向量相似,因此無(wú)須像其他聚類算法一樣將所有視圖的特征向量矩陣進(jìn)行組合;CWK2M 算法采用了一種基于距離的簇加權(quán)方法,其簇權(quán)重需要重復(fù)迭代計(jì)算。

        5 結(jié)束語(yǔ)

        本文采用聯(lián)合熵評(píng)估基聚類簇質(zhì)量,提出一種多視圖集成聚類分析方法,有效地刻畫了基聚類簇的重要程度與質(zhì)量?jī)?yōu)劣,體現(xiàn)了基聚類簇在不同視圖中存在差異化的特點(diǎn),并改善了多視圖集成聚類性能。下一步研究工作是針對(duì)聚類簇集成,優(yōu)化其迭代步驟,降低時(shí)間復(fù)雜度。

        猜你喜歡
        視圖不確定性權(quán)重
        法律的兩種不確定性
        法律方法(2022年2期)2022-10-20 06:41:56
        權(quán)重常思“浮名輕”
        英鎊或繼續(xù)面臨不確定性風(fēng)險(xiǎn)
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        5.3 視圖與投影
        視圖
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        Y—20重型運(yùn)輸機(jī)多視圖
        SA2型76毫米車載高炮多視圖
        具有不可測(cè)動(dòng)態(tài)不確定性非線性系統(tǒng)的控制
        日韩极品视频在线观看| 日韩国产成人精品视频| 在线免费观看韩国a视频| 中文字幕久久久久久精| 日韩人妖一区二区三区| 国产成人综合久久大片| 亚洲中文字幕久久在线| 国产噜噜亚洲av一二三区| 伊人五月亚洲综合在线| 日韩精品视频免费网站| 日本护士xxxxhd少妇| 亚洲av综合av成人小说| 亚洲爆乳精品无码一区二区| 老少交欧美另类| 精品 无码 国产观看| 久久精品国产精品亚洲艾| 久久综合老鸭窝色综合久久| av高清在线不卡直播| 成人精品视频一区二区| 亚洲日韩欧洲无码av夜夜摸| 亚洲色婷婷综合开心网| 国产亚洲精品高清视频| 亚洲精品国产第一综合色吧 | 中文字幕精品一区二区2021年| 日日干夜夜操高清视频| 久久久综合九色合综国产| 青青草好吊色在线视频| 中文字幕人妻少妇伦伦| 医院人妻闷声隔着帘子被中出| 国产乱xxⅹxx国语对白| 国产精品久久久久久久专区| 精品熟妇av一区二区三区四区 | 日韩在线精品免费观看| 亚洲一区二区三区少妇| 亚洲h在线播放在线观看h| 久久亚洲精品无码gv| 揄拍成人国产精品视频肥熟女| 亚洲一区二区三区av色婷婷| 亚洲毛片免费观看视频| 精品亚洲国产成人蜜臀av| 国产精成人品日日拍夜夜免费|