亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        峰值點(diǎn)非負(fù)矩陣分解聚類算法

        2021-11-10 09:09:34徐曉華姜玉麟葛方毅

        徐曉華,方 威,何 萍,仁 祥,姜玉麟,葛方毅

        (揚(yáng)州大學(xué)信息工程學(xué)院,揚(yáng)州 225000)

        隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的發(fā)展,人類已經(jīng)獲取了大量的高維數(shù)據(jù)。在信號(hào)處理[1]、模式識(shí)別[2]和計(jì)算機(jī)視覺[3]領(lǐng)域,如何將高維數(shù)據(jù)轉(zhuǎn)換為更有效的低維表示是至關(guān)重要的問題。在大多數(shù)情況下,數(shù)據(jù)被組織成矩陣或張量,因此一些線性模型,例如主成分分析(Principal component analysis,PCA)[4],局部線性嵌入(Locally linear embedding,LLE)[5]和線性判別分析(Linear discriminant analy?sis,LDA)[6]可以很好地工作。與上述方法不同,Lee and Seung 在Nature 上提出了非負(fù)矩陣分解[7](Non?negative matrix factorization,NMF)方法,它要求分解原始矩陣和通過分解得到的兩個(gè)矩陣都是非負(fù)的,并實(shí)現(xiàn)線性降維。非負(fù)矩陣分解及其改進(jìn)算法已成功應(yīng)用于文本聚類[8]、圖像去噪[9]以及人臉識(shí)別[10]等領(lǐng)域。

        然而傳統(tǒng)NMF 方法的單一非負(fù)約束束不能滿足各個(gè)領(lǐng)域的需求,因此仍存在一些缺陷和局限性。為了挖掘高維數(shù)據(jù)間潛在的流形結(jié)構(gòu)信息,Cai 等[11]基于數(shù)據(jù)點(diǎn)之間的相似性構(gòu)造一個(gè)鄰居圖和一個(gè)加權(quán)鄰接矩陣提出了圖正則非負(fù)矩陣分解(Graph?regularized non?negative matrix factoriza?tion,GNMF),而考慮到NMF 和GNMF 中單個(gè)聚類中心不足以描述原始數(shù)據(jù)的復(fù)雜結(jié)構(gòu),Gao 等[12]采用多個(gè)中心點(diǎn)來表示樣本的類別從而提出了局部中心結(jié)構(gòu)非負(fù)矩陣分解(Local centroids struc?tured non?negative matrix factorization, LCSN?MF)。為了自適應(yīng)學(xué)習(xí)局部流形結(jié)構(gòu),Huang 等[13]提出自適應(yīng)鄰域的概念,為每個(gè)數(shù)據(jù)點(diǎn)自適應(yīng)分配鄰居從而提出了具有自適應(yīng)領(lǐng)域的非負(fù)矩陣分解(Non?negative matrix factorization with adaptive neighbor,NMFAN)。一般來說,簇中心是由一些局部密度較低的點(diǎn)所圍繞,且這些點(diǎn)距離其他高密度的點(diǎn)的距離都比較遠(yuǎn),針對(duì)簇中心的該特性,文獻(xiàn)[14]中提出了密度峰值算法,該算法通過計(jì)算最近鄰的距離,并依據(jù)密度大小進(jìn)行排列得到數(shù)據(jù)的多個(gè)峰值點(diǎn),從而得到聚類中心以實(shí)現(xiàn)數(shù)據(jù)的高效聚類。

        然而GNMF 所構(gòu)造的近鄰圖是基于傳統(tǒng)的歐幾里得距離,在處理復(fù)雜數(shù)據(jù)結(jié)構(gòu)時(shí)有時(shí)并不能準(zhǔn)確地描繪出樣本間的真實(shí)距離。此外,LCSNMF模型中對(duì)每個(gè)簇指定了相同的中心點(diǎn)數(shù),而在實(shí)際應(yīng)用中不同簇的結(jié)構(gòu)都存在差異,這樣的描述顯然是有缺陷的。針對(duì)上述兩個(gè)算法中存在的問題,本文提出了峰值點(diǎn)非負(fù)矩陣分解算法(Peaks non?negative matrix factorization,PNMF)。該算法通過找到數(shù)據(jù)的多個(gè)密度峰值點(diǎn),并將其峰值點(diǎn)與樣本點(diǎn)構(gòu)造二部圖,再通過構(gòu)造基于測(cè)地線距離的數(shù)據(jù)近鄰圖,并將其融入非負(fù)矩陣分解模型。在利用多個(gè)密度峰值點(diǎn)表示樣本的類別的同時(shí),也考慮了數(shù)據(jù)內(nèi)在的流形結(jié)構(gòu)。在多種類型的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在特征提取和數(shù)據(jù)聚類等方面優(yōu)于其他同類的算法。

        1 相關(guān)工作

        1.1 非負(fù)矩陣分解

        對(duì)于非負(fù)數(shù)據(jù)矩陣X∈Rm×n,NMF[7]算法可以將其分解為兩個(gè)非負(fù)矩陣F∈Rm×k和G∈Rn×k的乘積形式,其中k為樣本簇?cái)?shù)。F中的每個(gè)列向量可以看作是每個(gè)簇的聚類中心,G中的每個(gè)行向量是每個(gè)樣本點(diǎn)與中心點(diǎn)之間的相關(guān)度。最初的NMF 提議采用Frobenius 范數(shù)來最大程度地減少重構(gòu)誤差,旨在解決以下問題

        1.2 圖正則非負(fù)矩陣分解

        由于NMF 是學(xué)習(xí)歐氏空間中輸入數(shù)據(jù)的低維表示的線性方法,因此它無法發(fā)現(xiàn)輸入數(shù)據(jù)的固有幾何結(jié)構(gòu)。因此,Cai 等研究了一種GNMF 的算法,該算法將基于圖的正則化器引入非負(fù)矩陣分解中,以在矩陣分解過程中保留數(shù)據(jù)的固有幾何結(jié)構(gòu)[11]。該問題的算法模型表示為

        式中:λ為平衡參數(shù);L為拉普拉斯矩陣。

        1.3 局部中心結(jié)構(gòu)非負(fù)矩陣分解

        在NMF 和GNMF 等算法中每個(gè)類別僅由一個(gè)中心點(diǎn)表示,然而這種表示由于缺少類別的結(jié)構(gòu)信息往往是模糊且粗糙的。針對(duì)上述問題,Gao等[12]提出了LCSNMF,該算法將非負(fù)數(shù)據(jù)矩陣X∈Rm×n分解成兩個(gè)矩陣F∈Rm×k和G∈Rn×k,這里k=ac且a為每個(gè)簇中的中心點(diǎn)數(shù),且每個(gè)簇都由a個(gè)中心點(diǎn)來表示。LCSNMF 的優(yōu)化問題可以記為

        因?yàn)槊總€(gè)簇有多個(gè)中心點(diǎn),所以在分解后需要利用K?means[15]算法對(duì)系數(shù)矩陣G進(jìn)一步聚類,但是因?yàn)榭紤]到K?means 算法對(duì)初始值較敏感,可能無法獲得最優(yōu)解,為了解決這一問題,LCSNMF 構(gòu)造了一個(gè)由中心點(diǎn)和樣本點(diǎn)組成的二部圖,其相似度矩陣S為

        2 峰值點(diǎn)非負(fù)矩陣分解

        雖然LCSNMF 算法采用了利用多個(gè)中心點(diǎn)來表示一個(gè)簇中樣本點(diǎn)的方法,但實(shí)際應(yīng)用中每個(gè)簇的結(jié)構(gòu)不盡相同,對(duì)不同的簇指定相同的中心點(diǎn)數(shù)量顯然是不合理的,對(duì)于結(jié)構(gòu)復(fù)雜的數(shù)據(jù)無法得到最優(yōu)聚類結(jié)果。針對(duì)于該問題,本文提出了PNMF,本算法先通過密度峰值算法為數(shù)據(jù)集找到多個(gè)密度峰值點(diǎn),再利用密度峰值點(diǎn)的線性組合得到簇中心點(diǎn)進(jìn)行聚類,此外利用測(cè)地線距離構(gòu)建流形近鄰圖正則項(xiàng)融入NMF 框架。

        2.1 測(cè)地線距離

        在很多研究中,一般都會(huì)使用樣本點(diǎn)之間距離作為相似性度量。常用的距離度量包括歐氏距離、曼哈頓距離等。為了更好地利用復(fù)雜結(jié)構(gòu)的數(shù)據(jù)中的流形結(jié)構(gòu)信息,采用測(cè)地線距離[16]作為本文的距離度量標(biāo)準(zhǔn)。首先為原始數(shù)據(jù)中的所有樣本點(diǎn)構(gòu)造一個(gè)加權(quán)無向圖H=,每個(gè)樣本點(diǎn)都是圖H中的一個(gè)頂點(diǎn),邊的集合表示為E={eij},即樣本點(diǎn)xi和xj之間的歐氏距離。令q表示樣本點(diǎn)xi到xj的路徑,Qij={q1,q2,…}表示所有樣本點(diǎn)xi到xj的路徑的集合,則樣本點(diǎn)xi和xj間的測(cè)地線距離為

        2.2 密度峰值

        假設(shè)數(shù)據(jù)集X∈Rm×n中樣本點(diǎn)xi和xj之間的測(cè)地線距離為dij,假如將樣本點(diǎn)xi的鄰域定義為以樣本點(diǎn)xi為中心,截?cái)嗑嚯xdcut為半徑的范圍,那該鄰域內(nèi)樣本點(diǎn)xi的局部密度就可以定義為

        式中截?cái)嗑嚯xdcut的值取太大會(huì)使得每個(gè)數(shù)據(jù)點(diǎn)都被歸為一類以致區(qū)分度不高,dcut的值取太小會(huì)使得每個(gè)數(shù)據(jù)點(diǎn)都被單獨(dú)分為一個(gè)類。根據(jù)文獻(xiàn)[14]中的經(jīng)驗(yàn),在實(shí)驗(yàn)中對(duì)于dcut的選取,使平均每個(gè)點(diǎn)的鄰居數(shù)為所有點(diǎn)的1%。其中χ(a)為比較函數(shù),且如果a<0 值為1;否則為0。

        另外,從局部密度比xi大的樣本點(diǎn)中選取與最接近xi的樣本點(diǎn),并將它們之間的距離表示為

        當(dāng)有局部密度更大的樣本點(diǎn)時(shí),將δi定義為從最接近xi的樣本點(diǎn)到xi的距離;如果xi已經(jīng)是局部密度最大的樣本點(diǎn)時(shí),δi定義為數(shù)據(jù)集中離xi最遠(yuǎn)的樣本點(diǎn)到xi的距離。

        因此對(duì)于密度峰值點(diǎn)的選取,綜合考慮樣本點(diǎn)局部密度和與密度中心的距離。在實(shí)際應(yīng)用中,不同類中樣本的個(gè)數(shù)相差較大,密度也不盡相同,這樣會(huì)使得選取的峰值點(diǎn)分布不均,首先將所有樣本點(diǎn)作為密度峰值點(diǎn)的候補(bǔ)集合,再考慮每個(gè)樣本點(diǎn)的局部密度和與密度中心的距離按從大到小的順序依次選出一個(gè)樣本點(diǎn),并從此前的候補(bǔ)集中去除以該點(diǎn)為中心、半徑為dcut的領(lǐng)域內(nèi)的樣本點(diǎn),直到剩下的密度峰值點(diǎn)的數(shù)目為k,然后可以得到峰值矩陣Xdp∈Rm×k。

        在人造數(shù)據(jù)集Twomoons 中,將提出的PNMF 通過密度峰值算法在Twomoons 數(shù)據(jù)集中找到多個(gè)密度峰值點(diǎn),如圖1 所示,密度峰值[17]算法通過考慮樣本點(diǎn)之間的距離和密度得到選取的密度峰值點(diǎn)能更好地獲得數(shù)據(jù)本身的流形結(jié)構(gòu)。

        圖1 Twomoons 數(shù)據(jù)集上的密度峰值點(diǎn)Fig.1 Peaks on the Twomoons dataset

        2.3 峰值點(diǎn)非負(fù)矩陣分解

        在得到數(shù)據(jù)集中的密度峰值點(diǎn)后,本文提出的PNMF 算法將原矩陣分解為

        式中:Xdp∈Rm×k為密度峰值矩陣;F∈Rk×k為峰值點(diǎn)的非負(fù)線性組合;G∈Rn×k為樣本點(diǎn)與峰值點(diǎn)的關(guān)聯(lián)矩陣。

        根據(jù)流形假設(shè):如果在原始空間中樣本點(diǎn)xi和xj間的測(cè)地線dij距離相近,那么它們?cè)谧涌臻g下的表示gi和gj間的距離也應(yīng)該是相近的,因此構(gòu)造圖正則項(xiàng)tr(GTLgeoG),其中Lgeo=D(W)-W為原始空間中樣本點(diǎn)間流形距離的拉普斯拉斯矩陣,其中D(W) =diag(W1),W定義為

        將密度峰值矩陣融入NMF 分解模型,利用密度峰值點(diǎn)與樣本點(diǎn)的關(guān)聯(lián)矩陣G構(gòu)造二部圖,引入基于測(cè)地線距離的流形圖正則項(xiàng),最終得到PNMF 的優(yōu)化模型為

        2.4 模型優(yōu)化

        目標(biāo)函數(shù)式(12)中的F,G,P并非同時(shí)都是凸的,因此很難找到全局最小值解,下面將介紹一種迭代算法來獲取模型的局部最優(yōu)解。

        更新因子P:先固定因子F,G,求解因子P,此時(shí)的優(yōu)化問題為

        該問題的最優(yōu)解由拉普拉斯矩陣LS前c小的特征值所對(duì)應(yīng)的特征向量組成。

        更新因子F:先固定因子P,G,求解因子F。此時(shí)的優(yōu)化問題為

        則式(15)關(guān)于F的偏導(dǎo)數(shù)為

        因此,F(xiàn)的更新公式為

        更新因子G:先固定因子P,F(xiàn),求解因子G。此時(shí)的優(yōu)化問題為

        其中正則項(xiàng)tr(PTLS P)可以寫成

        則式(20)關(guān)于G的偏導(dǎo)數(shù)為

        因此,G的更新公式為

        2.5 復(fù)雜度分析

        計(jì)算更新P的復(fù)雜度為L(zhǎng)S特征值分解需要O((n+k)3)。F的更新中分子的復(fù)雜度為O(mnk),分母的復(fù)雜度為O(mnk),因此更新F的復(fù)雜度為O(mnk)。在G的更新中分子的復(fù)雜度為O(mnk), 分 母 的 復(fù) 雜 度 為O(mnk) +O((m+n)c)+O(mnk) =O(mnk),因此更新F的復(fù)雜度為O(mnk)。

        綜上,因?yàn)閗≤min{m,n},迭代更新一次PNMF 算法需要復(fù)雜度為O(mnk) +O((n+k)3) +O(mnk) +O(mnk) =O(n3)。如果更新迭代t次,則算法復(fù)雜度為O(n3t)。

        3 實(shí)驗(yàn)分析

        為了驗(yàn)證所提出的PNMF 算法的有效性,分別在3 個(gè)常見的面部數(shù)據(jù)集(Yale,ORL,COIL20)、1 個(gè)文本數(shù)據(jù)集TDT2 以及1 個(gè)聲音數(shù)據(jù)集ISOLET 上進(jìn)行聚類實(shí)驗(yàn),并選取NMF、GN?MF、LSCNMF 和NMFAN 為比較算法。本節(jié)將給出數(shù)據(jù)集、評(píng)價(jià)指標(biāo)和實(shí)驗(yàn)分析等內(nèi)容,此外每次實(shí)驗(yàn)獨(dú)立隨機(jī),重復(fù)20 次取平均和標(biāo)準(zhǔn)差作為最后實(shí)驗(yàn)結(jié)果。

        3.1 數(shù)據(jù)集

        為了進(jìn)一步驗(yàn)證PNMF 算法的有效性,選擇的數(shù)據(jù)集有:Yale、ORL、COIL20、TDT2 和ISO?LET。

        Yale 人臉數(shù)據(jù)集包含來自15 個(gè)主題的165 張圖像,每個(gè)人有11 張圖像。圖像顯示了在不同照明條件下(左燈,中央燈和右燈)、面部表情(正常,快樂,悲傷,困倦,驚訝和眨眼)以及戴著或不戴眼鏡的變化。

        ORL 數(shù)據(jù)集具有40 個(gè)不同主題中的每個(gè)主題的10 個(gè)不同圖像。一些圖像是在不同的時(shí)間拍攝的,它們具有不同的照明,面部表情(睜開/閉合的眼睛,微笑/沒有笑容)和面部細(xì)節(jié)(有眼鏡/無眼鏡)。

        COIL20 圖像數(shù)據(jù)集包含不同角度觀看的20個(gè)對(duì)象的32×32 灰度面部圖像,每個(gè)對(duì)象有72 個(gè)圖像。

        TDT2 文本數(shù)據(jù)集來自NIST 主題檢測(cè)與跟蹤語料庫(kù)。TDT2 包括1998 年上半年收集的數(shù)據(jù),來自6 個(gè)來源,包括2 個(gè)新聞通訊社(APW、NYT)、2 個(gè)廣播節(jié)目(美國(guó)之音、PRI)和2 個(gè)電視節(jié)目(CNN、ABC)。它包含11 201 個(gè)主題文檔,分為96 個(gè)語義類別。實(shí)驗(yàn)中選擇其子集包括1 319個(gè)主題文檔,分為5 個(gè)語義類別。

        ISOLET 聲音數(shù)據(jù)集來自UCI 機(jī)器學(xué)習(xí)資料庫(kù),它包括150 名受試者說出字母表中每個(gè)字母的名字兩次,因此每個(gè)人有52 個(gè)樣本。選取原始數(shù)據(jù)集的子集,共包括2 098 個(gè)樣本。

        在實(shí)驗(yàn)中將所有圖像均壓縮成32×32 大小的灰度圖,將其每列相連構(gòu)成大小為1 024 維的向量,其中TDT2 文本數(shù)據(jù)集維度為14 964,ISO?LET 聲音數(shù)據(jù)集維度為617,所有數(shù)據(jù)集都進(jìn)行歸一化處理。圖2 給出了3 個(gè)面部數(shù)據(jù)庫(kù)的一些樣本示例。

        圖2 實(shí)驗(yàn)數(shù)據(jù)集示例Fig.2 Instances of experimental datasets

        3.2 聚類評(píng)價(jià)指標(biāo)

        為了更好地評(píng)估每個(gè)數(shù)據(jù)集上每種算法的聚類性能,使用了3 個(gè)常用的聚類評(píng)估指標(biāo):ACC、NMI 和Rand Index[18]。

        聚類準(zhǔn)確率(ACC):它查找真實(shí)類與聚類結(jié)果之間的一對(duì)一關(guān)系,并從相應(yīng)類中獲取每個(gè)聚類所具有的數(shù)據(jù)樣本,定義為

        式中:ri表示xi的聚類結(jié)果;li表示數(shù)據(jù)xi的真實(shí)標(biāo)簽;n為整體的樣本數(shù)量;map(ri)表示最佳映射函數(shù),并使用Kuhn?Munkres 算法確定最佳映射。此外δ(a,b)表示Delta 函數(shù),且如果a=b值為1,否則為0。

        標(biāo)準(zhǔn)互信息(NMI):NMI 使用互信息函數(shù)和熵函數(shù)來評(píng)估聚類結(jié)果,定義如下

        Rand Index:它將聚類結(jié)果與數(shù)據(jù)的真實(shí)類別進(jìn)行比較,計(jì)算正確聚類結(jié)果的比例。Rand Index值越大,聚類效果越好。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        在實(shí)驗(yàn)中,對(duì)于NMF、GNMF 和NMFAN 算法,將分解的規(guī)模k默認(rèn)設(shè)為數(shù)據(jù)集中簇的個(gè)數(shù);對(duì)于LCSNMF 算法和PNMF 算法,將簇平均樣本點(diǎn)個(gè)數(shù)的1%~10%作為每個(gè)簇中心點(diǎn)的個(gè)數(shù)m,并且每個(gè)簇中的每個(gè)樣本點(diǎn)與s個(gè)中心點(diǎn)相關(guān),且m是從{1、2、3、4、5、6、7}中選擇的,s是從{1、2、3、4}中選擇的。此外,對(duì)于PNMF 算法模型中的正則化參數(shù),在{1、10、100、1 000、10 000}的范圍內(nèi)選擇參數(shù)λ1,但是基于測(cè)地距離的圖正則項(xiàng)的參數(shù)λ2和GNMF 一致,均設(shè)置固定值為100。與譜聚類等其他聚類算法相比,K?means 因其有效性和效率高而得到廣泛運(yùn)用,實(shí)驗(yàn)中和文獻(xiàn)[19?20]中一樣使用K?means 應(yīng)用于矩陣分解后的表示矩陣G,就可以得到最終的聚類結(jié)果。

        表1~5 分別顯示了面部、文本和人臉數(shù)據(jù)集上的聚類性能。從表1~5 可以看出,在大多數(shù)情況下,PNMF 聚類評(píng)估指數(shù)的結(jié)果更好。從實(shí)驗(yàn)結(jié)果來看,構(gòu)造基于歐幾里得距離的近鄰圖的GN?MF 和NMFAN 不如構(gòu)造基于流形距離近鄰圖的PNMF 的聚類性能好,說明了傳統(tǒng)的歐幾里得距離在面對(duì)更加復(fù)雜高維的數(shù)據(jù)時(shí),并不能很好且準(zhǔn)確地表示數(shù)據(jù)間的真實(shí)距離。LCSNMF 由于其簇中心選取的局限性,效果也不如PNMF,而傳統(tǒng)的NMF 聚類因?yàn)槿狈s束,性能不是很好。從實(shí)驗(yàn)結(jié)果來看,本文提出的利用多個(gè)峰值點(diǎn)與樣本點(diǎn)構(gòu)造二部圖的方法可以更好地捕獲復(fù)雜數(shù)據(jù)的內(nèi)部幾何結(jié)構(gòu),從而提高聚類效果。

        表1 Yale 數(shù)據(jù)集上的聚類性能比較Table 1 Comparison of clustering performance on Yale dataset

        表2 ORL 數(shù)據(jù)集上的聚類性能比較Table 2 Comparison of clustering performance on ORL dataset

        表3 COIL20 數(shù)據(jù)集上的聚類性能比較Table 3 Comparison of clustering performance on COIL20 dataset

        表4 TDT2 數(shù)據(jù)集上的聚類性能比較Table 4 Comparison of clustering performance on TDT2 dataset

        表5 ISOLET 數(shù)據(jù)集上的聚類性能比較Table 5 Comparison of clustering performance on ISOLET dataset

        3.4 參數(shù)討論

        本節(jié)將給出PNMF 在不同正則化參數(shù)設(shè)置下的聚類性能。在PNMF 算法中,簇中心點(diǎn)數(shù)m設(shè)置決定了矩陣分解的大小,而樣本點(diǎn)可以關(guān)聯(lián)的中心點(diǎn)數(shù)s決定了二部圖的構(gòu)造,因此對(duì)聚類的結(jié)果有一定影響。另外,參數(shù)λ1和λ2來平衡二部圖的正則項(xiàng)和基于測(cè)地距離的近鄰圖正則項(xiàng)。在實(shí)驗(yàn)中,將λ2和GNMF 都設(shè)置一致為100,并討論了參數(shù)λ1對(duì)聚類性能的影響。

        以COIL20 數(shù)據(jù)集為例,將m設(shè)置為1~7,將s設(shè)置為1~4。在這種參數(shù)變化的情況下,測(cè)試了COIL20 的3 個(gè)聚類指標(biāo)變化。測(cè)試結(jié)果如圖3~5所示。從測(cè)試結(jié)果來看,當(dāng)m=5 且s=4 時(shí),COIL 20 的聚類性能最佳。且隨著s值的增加可以增強(qiáng)聚類性能,并且當(dāng)m為4~6 時(shí),每個(gè)聚類指標(biāo)的值都較高。從實(shí)驗(yàn)結(jié)果可以看出,聚類中心點(diǎn)的數(shù)量m對(duì)聚類性能影響較小,但s的值對(duì)聚類性能顯得更敏感,可能因?yàn)閟的值決定構(gòu)造的二部圖的質(zhì)量,因此對(duì)結(jié)果有一定影響。

        圖3 COIL20 在不同m 及s 下的ACCFig.3 ACC under different m and s on COIL20

        然后將討論正則化參數(shù)對(duì)提出的PNMF 模型的影響。模型具有兩個(gè)正則化參數(shù)即λ1和λ2,它們分別來平衡二部圖正則項(xiàng)和基于流形距離圖正則項(xiàng)。在實(shí)驗(yàn)中將λ2設(shè)置為100,然后討論λ1的變化對(duì)COIL20 數(shù)據(jù)集的3 個(gè)聚類性能指標(biāo)的影響,λ1的值選自{1、10、100、1 000、10 000},實(shí)驗(yàn)結(jié)果如圖6 所示。

        從圖6 可以看出,PNMF 對(duì)λ1只是一點(diǎn)點(diǎn)敏感??梢园l(fā)現(xiàn),隨著λ1值的增加,3 個(gè)性能指標(biāo)呈略微上升的趨勢(shì)。

        圖4 COIL20 在不同m 及s 下的NMIFig.4 NMI under different m and s on COIL20

        圖5 COIL20 在不同m 及s 下的Rand IndexFig.5 Rand index under different m and s on COIL20

        圖6 COIL20 在不同λ1 下的聚類結(jié)果Fig.6 Clustering results of COIL20 under different λ1

        4 結(jié)論

        本文提出了一種新方法PNMF。首先計(jì)算每個(gè)樣本點(diǎn)的局部密度,利用局部密度從數(shù)據(jù)集中找到多個(gè)密度峰點(diǎn),它為每個(gè)簇指定多個(gè)中心點(diǎn),并利用密度峰值點(diǎn)和樣本點(diǎn)構(gòu)造二部圖。另外采用流形結(jié)構(gòu)下的測(cè)地線距離,并用測(cè)地線距離構(gòu)造了數(shù)據(jù)的近鄰圖,從而描述了局部幾何關(guān)系,使得樣本點(diǎn)之間距離更準(zhǔn)確。為了證明該算法的有效性,本文比較了該算法在幾個(gè)面部數(shù)據(jù)集以及文本、聲音數(shù)據(jù)集上的聚類效果。實(shí)驗(yàn)結(jié)果表明,PNMF 相比其他NMF 算法具有更好的聚類性能。

        日韩精品极视频在线观看免费| 久久亚洲精品成人综合| 亚洲国产av精品一区二| 亚洲国产综合精品中文| 日本二一三区免费在线| 小说区激情另类春色| 少妇高潮一区二区三区99| 无码日韩精品一区二区三区免费 | 在线视频一区二区亚洲| 内射中出后入内射极品女神视频| 一区二区三区极品少妇| 国产视频一区二区三区在线免费| 99久久99久久久精品齐齐| 国产激情电影综合在线看| 精品国产av 无码一区二区三区| 午夜高清福利| 欧美日韩亚洲国产无线码| 新视觉亚洲三区二区一区理伦| 激情综合五月婷婷久久| 久久综合亚洲色hezyo国产| 国产乱人伦av在线a| 欧美一级在线全免费| 久久少妇呻吟视频久久久| 男女视频在线观看一区| 国产麻豆md传媒视频| 无码国产精品第100页| 日本一区二区三区在线播放| 中文字幕手机在线精品| 极品美女一区二区三区免费| 久久精品成人无码观看不卡| 国产乱沈阳女人高潮乱叫老 | 中文字幕精品久久久久人妻红杏1| 粉嫩极品国产在线观看| 久久午夜伦鲁鲁片免费| 99久久婷婷国产精品综合网站| 国产欧美精品一区二区三区四区 | 丰满少妇被猛烈进入高清播放| 国模少妇一区二区三区| 波多野无码AV中文专区 | 热久久久久久久| 白白白色视频在线观看播放 |