亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進的近鄰傳播聚類算法的Gap統(tǒng)計研究

        2017-02-22 07:10:47張正軍王俐莉
        計算機技術與發(fā)展 2017年1期
        關鍵詞:南京

        唐 丹,張正軍,王俐莉

        (1.南京理工大學 理學院 統(tǒng)計與金融數(shù)學系,江蘇 南京 210094;2.海軍指揮學院科研部,江蘇 南京 210016)

        基于改進的近鄰傳播聚類算法的Gap統(tǒng)計研究

        唐 丹1,張正軍1,王俐莉2

        (1.南京理工大學 理學院 統(tǒng)計與金融數(shù)學系,江蘇 南京 210094;2.海軍指揮學院科研部,江蘇 南京 210016)

        由于K-means算法初始聚類中心的選取具有隨機性,聚類結果可能不穩(wěn)定,導致Gap統(tǒng)計估計的聚類數(shù)也可能不穩(wěn)定。針對這些不足,提出一種改進的近鄰傳播算法-mAP。該算法考察數(shù)據(jù)的全局分布特性,不同的點賦予不同的P值。在Gap統(tǒng)計中用mAP算法代替K-means算法,提出基于mAP的Gap統(tǒng)計mAPGap。mAP能在較短的時間內得到較好的聚類效果,而且不需要預先設定初始聚類中心,聚類結果更穩(wěn)定。實驗結果表明,mAPGap在估計聚類數(shù)的穩(wěn)定性和聚類精度上都優(yōu)于原Gap。

        聚類分析;近鄰傳播聚類;偏向參數(shù);K-means算法;Gap統(tǒng)計

        0 引 言

        數(shù)據(jù)集的聚類數(shù)估計是數(shù)據(jù)分析中的一項重要課題。2000年,R.Tibshirani等提出確定最佳聚類數(shù)的Gap統(tǒng)計量[1],采用的聚類算法是K-means算法,該算法需要選取初始聚類中心,通常隨機選取K個樣本點作為初始聚類中心。2013年,劉倩基于Gap統(tǒng)計方法研究了K-means算法,提出了一種基于數(shù)據(jù)分布規(guī)律具有自適應特點的DSA-K-means算法[2]。2013年,陸琴琴針對基于矩Gap統(tǒng)計的圖像分割算法中K-means算法存在的缺陷,提出了MMGSK算法[3]。

        2007年,F(xiàn)rey[4]和MezardM[5]提出了屬于劃分聚類方法的近鄰傳播(AffinityPropagation,AP)算法。該算法具有如下優(yōu)點:能在較短時間內得到較好的聚類效果[6];算法中類代表點是原始數(shù)據(jù)中的點,而不是數(shù)據(jù)的均值點;以誤差平方和作為衡量算法優(yōu)劣程度的準則函數(shù)時,算法聚類的誤差平方和顯著低于其他方法聚類的誤差平方和。但是AP算法對偏向參數(shù)P的設定,沒有考慮數(shù)據(jù)的分布結構,認為所有數(shù)據(jù)點成為類代表點的可能性相同。

        文中提出了利用全局數(shù)據(jù)信息設置偏向參數(shù)P的改進的AP算法-mAP(modifiedAffinityPropagation),同時提出了自適應的增加步長,得到數(shù)據(jù)集的聚類數(shù),運用Gap統(tǒng)計量估計出該數(shù)據(jù)集的合理聚類數(shù)。

        1 mAP模型

        AP是一種基于近鄰信息傳播的聚類算法,根據(jù)N個數(shù)據(jù)點之間的相似度進行聚類[7]。這些相似度組成N×N的相似度矩陣S。S矩陣的對角線上的數(shù)值s(k,k)稱為偏向參數(shù)preference,記作P,表示數(shù)據(jù)點k作為類代表點的適合程度。該值越大,k點成為類代表點的可能性也越大,同時得到的聚類數(shù)越多[8]。AP算法中傳遞兩種類型的消息,即歸屬度a(i,j)和吸引度r(i,j),前者表示xi選擇xj作為類代表的合適程度,后者表示xi對xj作為類代表點的支持程度[9]。AP算法通過迭代過程不斷更新每一個點的吸引度和歸屬度值,直到迭代過程收斂,類代表也隨之固定,同時將其余的數(shù)據(jù)點分配到相應的聚類中[10]。

        傳統(tǒng)的AP算法中相似度矩陣對角線上的偏向參數(shù)P是相同的,一般取所有相似度的中值(median(s(:,3)),意味著數(shù)據(jù)點在開始時被選擇作為類代表點的概率是相同的。但是,P值的這種初始設置方法是不科學、不精確的,因為它忽略了數(shù)據(jù)點結構的差異對某點成為類代表點的可能性的影響。類代表點的選擇與點的位置密切相關:對給定的數(shù)據(jù)集X和點xi,xj,如果xi是邊緣數(shù)據(jù)點而xj是中心數(shù)據(jù)點,那么從其他點到xi的距離和大于到xj的距離和,xj成為類代表的可能性要大于xi。

        針對如上假設,文中提出基于全局數(shù)據(jù)點設置P的值,同時為了獲得不同的聚類數(shù),提出一種自適應設置步長獲得不同聚類數(shù)的方法。具體步驟如下:

        (1)對任意點xi,計算從其他所有點到xi的相似度之和:

        (1)

        (2)

        (3)對AP算法設置步長,獲得不同聚類數(shù)。

        根據(jù)上述討論可知,當每個數(shù)據(jù)點的P值相同時,聚類數(shù)隨P值的增大而增大。所以為了得到不同的聚類數(shù),P存在取值區(qū)間[Pmin,Pmax]。WangCD[11]通過研究得到:

        (3)

        由于AP算法每個點的P值相同,可以通過下式獲得:

        (4)

        其中,Npref是輸入?yún)?shù),表示設置Npref個不同P。

        (4)對mAP算法設置步長,獲得不同聚類數(shù)。

        對i=1,2,…,n(n代表樣本點個數(shù)),有:

        (5)

        (6)

        其中

        (7)

        由于對每個點的PiMin都是Pmin乘以一個權重,所以會使得每個點的初始P值變小。為了確保能夠取到1~maxK類,這里把Pmin取得更小,是用相似度矩陣元素的最小值乘以樣本點個數(shù)n。

        對于連續(xù)的k,mAP算法得到的分類情況會大量重復。文中根據(jù)mAP算法的聚類結果動態(tài)計算步長,在不改變結果的基礎上優(yōu)化了算法的運行時間。

        2 mAP算法

        s(i,k)=-‖xi-xk‖,i≠k

        (8)

        (2)對于每一個Npref,根據(jù)式(5)~(7)計算每個點的偏向參數(shù),能得到Npref個1*n數(shù)組。

        (3)消息傳遞。

        ①更新吸引度矩陣r(i,k)和歸屬度矩陣a(i,k)。

        r(i,k)=s(i,k)-max{a(i,k')+s(i,k')}(k'≠k)

        (9)

        (10)

        (11)

        ②引入阻尼系數(shù)λ,消除可能出現(xiàn)的震蕩。

        (12)

        其中,λ(0<λ<1)越大越能消除震蕩,但會減緩算法收斂的速度。

        (4)循環(huán)執(zhí)行步驟(3),直到滿足終止條件。終止條件為達到最大迭代次數(shù)maxits或聚類劃分連續(xù)Convits次不變。

        (5)輸出聚類結果。輸出Npref組類代表點及其對應的數(shù)據(jù)點劃分。

        3 mAPGap模型(Gap Statistic Based on mAP)

        原Gap統(tǒng)計方法的主要思想是:選擇一個參考分布,將待分類數(shù)據(jù)的離散程度與由參考分布生成數(shù)據(jù)集的離散程度進行比較,以分類數(shù)為自變量,建立一個比較統(tǒng)計量,通過分析該統(tǒng)計量關于類數(shù)的變化情況確定最佳聚類數(shù)[12]。

        原Gap統(tǒng)計的主要內容是:假設數(shù)據(jù)是通過K-means算法已被聚為k類:C1,C2,…,Ck,nr=|Cr|。令:

        (13)

        其中,Dr表示聚類r中所有數(shù)據(jù)兩兩之間的距離平方之和。

        再令:

        (14)

        其中,Wk表示k類離差程度的總和。

        由此定義Gap統(tǒng)計量:

        (15)

        為了區(qū)分基于不同算法的Gap統(tǒng)計,這里把基于K-means算法的原Gap統(tǒng)計記作KMGap。

        由于KMGap統(tǒng)計需要預先生成大量的參考數(shù)據(jù)集,因而不適宜通過mAP算法實現(xiàn)不同類數(shù)的聚類,而且參考數(shù)據(jù)集類內離差程度是均勻分布下大量數(shù)據(jù)集類內離差程度的期望,根據(jù)Khinchin大數(shù)定律[14]知,使用K-means算法聚類能夠保證結果的穩(wěn)定性。鑒于以上兩點,對參考數(shù)據(jù)集的聚類方法仍使用K-means算法。

        使用mAP算法對樣本數(shù)據(jù)集進行聚類,當選擇負的歐氏距離作為兩個樣本點的相似度時,mAP算法的準則函數(shù)也即是使每個樣本點到其類代表點的平方距離之和最小,這與K-means算法的準則函數(shù)一致。因此使用mAP算法對樣本數(shù)據(jù)集進行聚類,使用K-means算法對參考數(shù)據(jù)集進行聚類,再利用Gap統(tǒng)計量估計該數(shù)據(jù)集的聚類數(shù)是合理的。

        mAPGap的計算可分為以下3步:

        (1)利用mAP算法,將樣本數(shù)據(jù)集聚集為k(k=1,2,…,K)類,計算Wk(在偏向參數(shù)不同時會出現(xiàn)相同的分類數(shù)k,這里Wk取它們的平均值)。

        (16)

        Gap(k)≥Gap(k+1)-sk+1

        (17)

        4 仿真實驗與分析

        文中實驗采用MATLAB7.0開發(fā)環(huán)境,在Windows7操作系統(tǒng)的計算機上運行通過。

        4.1 實驗數(shù)據(jù)集

        表1 實驗數(shù)據(jù)集描述

        4.2 實驗評價標準

        實驗采用3種評價指標對聚類結果進行評價:

        (1)對三個數(shù)據(jù)集,分別利用KMGap、APGap、mAPGap重復運行20次,估計出最佳聚類數(shù)的正確率p。

        (2)算法運行時間t。雖然AP算法復雜度為O(N*N*logN),而K-means的是O(N*K),但當樣本容量不是非常大時,兩者時間相近。故這里對具體數(shù)據(jù)集的運行時間進行比較。

        (3)聚類精度。定義為:

        (18)

        其中,TC為正確聚類的數(shù)據(jù)數(shù);FC為錯誤聚類的數(shù)據(jù)數(shù)。

        由于AP算法和mAP算法都會出現(xiàn)在估計的最佳聚類數(shù)相同時,具體的聚類結構不同的情況,所以對某個特定的聚類,聚類精度有不同的值。結果分析中,AP算法和mAP算法的精度記錄的都是最小值。當最小值都優(yōu)于KMGap時,說明APGap算法和mAPGap算法聚類的精度優(yōu)于KMGap。

        4.3 結果與分析

        對三個數(shù)據(jù)集分別執(zhí)行KMGap、APGap、mAPGap聚類,聚類結果及性能如圖1、表2所示(由于版面有限,這里只給出Haberman的聚類結果)。

        圖1 Haberman數(shù)據(jù)集中的KMGap、APGap、mAPGap隨類數(shù)k的變化曲線

        數(shù)據(jù)集算法類數(shù)p/%t/saData1KMGap295412.8920.8571APGap2100613.4260.8905mAPGap2100533.1970.9048Haber-manKMGap270430.3720.4902APGap2100771.0510.5261mAPGap2100661.1090.5327SeedsKMGap390225.9750.83APGap3100330.170.8667mAPGap3100303.9430.85

        實驗結果表明,相比于KMGap,APGap、mAPGap

        雖然運行時間增加了一點,但二者具有很好的穩(wěn)定性,同時二者均可以提高分類精度。而且mAPGap與APGap相比,在不影響穩(wěn)定性和精度的情況下,減少了算法運行時間??傮w來說,mAPGap算法優(yōu)勢明顯的原因是:利用數(shù)據(jù)結構設置每個數(shù)據(jù)點的偏向參數(shù),減少了算法運行時間;不需要預先設定初始聚類中心和聚類數(shù),使得聚類結果更穩(wěn)定,精度更高。

        5 結束語

        文中提出根據(jù)數(shù)據(jù)的全局分布特性設置偏向參數(shù)P的AP算法(mAP),在Gap統(tǒng)計中,用mAP算法替換K-means算法,提出基于mAP的Gap統(tǒng)計量(mAPGap)。通過實驗證明了mAPGap在聚類結果的穩(wěn)定性,并且在精度上要優(yōu)于原算法。

        [1]TibshiraniR,WaltherG,HastieT.Estimatigthenumberofclusterinadatasetviathegapstatistic[J].JournaloftheRoyalStatisticalSociety,2001,63(2):411-423.

        [2] 劉 倩.基于GS方法的圖像分割估計數(shù)的多信息動態(tài)研究[D].南京:南京理工大學,2013.

        [3] 陸琴琴.基于矩Gap統(tǒng)計的圖像分割方法[D].南京:南京理工大學,2014.

        [4]FreyBJ,DueckD.Clusteringbypassingmessagesbetweendatapoints[J].Science,2007,315(5814):972-976.

        [5]MezardM.Wherearetheexamplars?[J].Science,2007,315(5814):949-951.

        [6] 馮曉磊,于洪濤.密度不敏感的近鄰傳播聚類算法研究[J].計算機工程,2012,38(2):159-162.

        [7] 邢 艷,周 勇.基于互近鄰一致性的近鄰傳播算法[J].計算機應用研究,2012,29(7):2524-2526.

        [8] 段麗莉.改進的近鄰傳播算法及其在圖像處理中的應用[D].西安:西安電子科技大學,2014.

        [9] 邢長征,劉 劍.基于近鄰傳播與密度相融合的進化數(shù)據(jù)流聚類算法[J].計算機應用,2015,35(7):1927-1932.

        [10] 肖 宇,于 劍.基于近鄰傳播算法的半監(jiān)督聚類[J].軟件學報,2008,19(11):2803-2813.

        [11]WangCD,LaiJH,SuenCY,etal.Multi-exemplaraffinitypropagation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2013,35(9):2223-2237.

        [12] 童 波.基于MFGS方法圖像最佳分隔數(shù)的研究[D].南京:南京理工大學,2011.

        [13] 黃陳蓉,張正軍,吳慧中.圖像邊緣檢測的多尺度灰度Gap統(tǒng)計模型[J].中國圖象圖形學報,2005,10(8):1018-1023.

        [14] 馮 予,陳 萍.概率論與數(shù)理統(tǒng)計[M].第2版.北京:國防工業(yè)出版社,2015:114-117.

        Study on Gap Statistic Based on Modified Affinity Propagation Clustering

        TANG Dan1,ZHANG Zheng-jun1,WANG Li-li2

        (1.Department of Statistic and Financial Mathematics,College of Science,Nanjing University of Science and Technology,Nanjing 210094,China; 2.Scientific Research Department of Naval Command College,Nanjing 210016,China)

        Due to the randomness of choosing the initial clustering ofK-meansmethod,itmaycausetheinstabilityofclusteringresultsandthenleadtothatofclusteringnumberswhichareestimatedbyGapstatistic.Takingconsiderationofthosedisadvantages,anmodifiedAPclustering(mAP)ispresentedwhichutilizestheglobaldistributiontogivedifferentPtodifferentpoints.mAPmethodisputforwardtosubstitutetheK-meansinGapstatisticnamedmAPGap.mAPmethodhasmorestableclusteringcenterbecausetheinitialclusteringcenterandnumbersarenotneededinadvanceanditcangetbetterclusteringinshorttime.TheexperimentalresultsdemonstratemAPGapissuperiortoGapinclusteringstabilityandaccuracy.

        cluster analysis;affinity propagation clustering;preference;K-meansalgorithm;Gapstatistic

        2016-03-15

        2016-06-22

        時間:2017-01-04

        全國統(tǒng)計科學研究計劃重點項目(2013LZ45)

        唐 丹(1990-),女,碩士研究生,研究方向為數(shù)據(jù)分析與數(shù)據(jù)挖掘;張正軍,博士,副教授,研究方向為數(shù)據(jù)分析與數(shù)據(jù)挖掘、馬爾可夫鏈理論與方法等。

        http://www.cnki.net/kcms/detail/61.1450.TP.20170104.1102.086.html

        TP

        A

        1673-629X(2017)01-0182-04

        10.3969/j.issn.1673-629X.2017.01.041

        猜你喜歡
        南京
        南京比鄰
        “南京不會忘記”
        南京大闖關
        江蘇南京卷
        學生天地(2020年31期)2020-06-01 02:32:22
        南京·九間堂
        金色年華(2017年8期)2017-06-21 09:35:27
        南京·鴻信云深處
        金色年華(2017年7期)2017-06-21 09:27:54
        南京院子
        電影(2017年1期)2017-06-15 16:28:04
        又是磷復會 又在大南京
        南京:誠實書店開張
        南京、南京
        白丝美女被狂躁免费视频网站 | 国产亚洲精品久久777777| 精品久久综合亚洲伊人| 国产成人av综合色| 韩国三级黄色一区二区| 免费乱理伦片在线观看| 亚洲精品欧美二区三区中文字幕 | 国产主播一区二区在线观看 | 一区二区三区观看在线视频| 亚洲视频高清一区二区| 99久久国产综合精品女图图等你| 国产剧情国产精品一区| 亚洲色图在线视频免费观看| 蜜桃视频一区二区三区四| 女人脱了内裤趴开腿让男躁| 精品国精品国产自在久国产应用| 日韩极品视频在线观看免费| 国产一区二区黄色网页 | 越南女子杂交内射bbwxz| 91超碰在线观看免费| av国产免费在线播放| 久久婷婷色香五月综合缴缴情| 日韩亚洲av无码一区二区不卡| 亚洲一区二区三区在线观看播放| 久久国产精品免费一区二区三区| 男人添女人囗交做爰视频| 精品久久久久久777米琪桃花| 8090成人午夜精品无码| 亚洲av激情一区二区| 国模雨珍浓密毛大尺度150p| 毛片免费在线播放| 日韩极品免费在线观看| 亚洲精品国产一二三区| 亚洲综合色自拍一区| 爆乳无码AV国内| 亚洲男人免费视频网站| 九色九九九老阿姨| 国产成人综合久久久久久| 亚洲精品女人天堂av麻| 日韩av午夜在线观看| 人妻人人澡人人添人人爽人人玩 |