亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于數(shù)據(jù)密度感知的非平衡數(shù)據(jù)模糊聚類方法

2018-01-05 00:29:22黎忠文

成都大學學報(自然科學版) 2017年4期

關(guān)鍵詞：數(shù)據(jù)分布子類中心點

王進，游磊，黎忠文，苗放

(1.成都大學信息科學與工程學院，四川成都 610106； 2. 成都大學大數(shù)據(jù)研究院，四川成都 610106)

基于數(shù)據(jù)密度感知的非平衡數(shù)據(jù)模糊聚類方法

王進1，游磊1，黎忠文1，苗放2

(1.成都大學信息科學與工程學院，四川成都 610106； 2. 成都大學大數(shù)據(jù)研究院，四川成都 610106)

非平衡數(shù)據(jù)分析是數(shù)據(jù)領(lǐng)域的重要問題之一，其類間分布的巨大差異給聚類方法帶來嚴峻挑戰(zhàn).圍繞非平衡數(shù)據(jù)聚類問題，分析了非平衡數(shù)據(jù)對模糊聚類方法的影響，提出了基于密度感知的模糊聚類方法.方法將數(shù)據(jù)分布密度特征嵌入模糊聚類初始化過程中，用于定位初始聚類中心點，避免了少數(shù)類中心點位置的消失，在此基礎(chǔ)上進一步設(shè)計了基于密度的模糊聚類優(yōu)化更新方法.經(jīng)數(shù)據(jù)集分析驗證，本研究方法能夠有效解決非平衡數(shù)據(jù)分類中少數(shù)類消失問題，并且在聚類算法性能上比傳統(tǒng)方法有明顯提高.

模糊聚類；分布密度；非平衡數(shù)據(jù)

0 引言

模糊聚類方法(fuzzy C-means，F(xiàn)CM)，是一種典型的非監(jiān)督學習方法，其在傳統(tǒng)聚類方法的基礎(chǔ)上，模糊聚類方法引入隸屬度概念，刻畫了每個數(shù)據(jù)個體與不同類的相似性，隸屬度最大的類被視為該數(shù)據(jù)個體的母類.對數(shù)據(jù)隸屬度分布的分析，可以得到數(shù)據(jù)個體的細節(jié)特征.然而，如何處理非平衡數(shù)據(jù)聚類依然是模糊聚類面臨的一個重要問題[1].非平衡數(shù)據(jù)的主要特征在于不同類的數(shù)據(jù)量差異巨大，占多數(shù)數(shù)據(jù)量的主要類往往對聚類結(jié)果起決定性影響，造成占少數(shù)數(shù)據(jù)量的次要類在聚類結(jié)果中逐漸消失.針對該問題，現(xiàn)有研究主要通過聚類權(quán)重進行解決，即按照每類所含數(shù)據(jù)量分配類權(quán)重，確保少數(shù)類不受多數(shù)類影響，例如，csiFCM、ssFCM、FMLE及siibFCM等[2-6].事實上，由于大多數(shù)數(shù)據(jù)是無標記的，聚類初始無法明確得到每類所含數(shù)據(jù)點數(shù)，使得基于權(quán)重的方法應(yīng)用受到一定的限制.數(shù)據(jù)分布密度是數(shù)據(jù)集的重要特征，反映了數(shù)據(jù)的空間幾何結(jié)構(gòu).在低維場景下，可直接通過數(shù)據(jù)分布密度獲取數(shù)據(jù)聚類信息，高密度區(qū)域通常代表潛在的聚類(見圖1).基于該思路，本研究通過數(shù)據(jù)分布的密度特征進行聚類：聚類初始，通過數(shù)據(jù)密度選擇初始中心點；聚類過程中，采用潛在中心點附近數(shù)據(jù)點更新聚類中心位置，由此避免少數(shù)類消失問題.具體實現(xiàn)時，采用分治思路對模糊聚類算法重新設(shè)計，將FCM算法擴展至可并行計算，應(yīng)用數(shù)據(jù)分布密度解決非平衡數(shù)據(jù)聚類問題.

圖1聚類分布示意圖

1 基于密度的模糊聚類算法設(shè)計

基于密度的模糊聚類方法，旨在利用數(shù)據(jù)集的空間幾何結(jié)構(gòu)來優(yōu)化聚類算法.對此，本研究首先利用高斯核密度估計方法獲取數(shù)據(jù)的分布密度，將數(shù)據(jù)集粗分為不同子集，針對不同子集進行局部迭代優(yōu)化，確保少數(shù)類中心點不消失.數(shù)據(jù)集粗分與子集局部優(yōu)化是該方法需要解決的2個重要問題.

1.1 基于密度的數(shù)據(jù)劃分方法設(shè)計

通常，聚類中心點鄰域的數(shù)據(jù)分布密度略高于附近鄰居點的鄰域密度，且距離更高密度點較遠[7].基于該特征，下面給出其具體數(shù)學模型，其中包括局部密度和特征距離2個參數(shù).

(1)

其中，‖xi-xj‖為歐式距離，dc為距離門限值.

特征距離δi定義為數(shù)據(jù)點xi到距離其最近的高密度點的距離，如式(2)所示.

(2)

基于有向無環(huán)圖的數(shù)據(jù)集粗分方法如圖2所示.其中，端點表示數(shù)據(jù)點，端點之間的有向邊表征其有向鄰居關(guān)系，有向邊的長度則為其特征距離.

圖2基于有向無環(huán)圖的數(shù)據(jù)集粗分方法

定義1 數(shù)據(jù)點p的有向鄰居定義為距離該點最近的高密度點，即，

有向鄰居點的若干特性如下：

1)全局密度最高的數(shù)據(jù)點沒有有向鄰居點，從算法設(shè)計角度考慮，將其特征距離設(shè)置為，

2)有向鄰居點之間密度服從，ρpρq；

3)每個數(shù)據(jù)點有且僅有一個有向鄰居點；

4)有向鄰居關(guān)系是不可逆的，即數(shù)據(jù)點p的有向鄰居為q，但數(shù)據(jù)點q的有向鄰居不是p.

由圖2可知，特征距離小的數(shù)據(jù)點通常跟其有向鄰居位于同一個類中，而特征距離較大的點則與其有向鄰居位于不同類.由此，將有向鄰居圖按照有向邊長度進行粗分為不同區(qū)域，即潛在的類.具體分割方法如下：對于任意數(shù)據(jù)點，如果其特征距離小于門限dc,則將其劃分到與其有向鄰居相同的區(qū)域；否則，以該點為中心點構(gòu)建潛在新類.其類歸并偽代碼如下：

InputtCen={tc1,tc2，…，tck，…，tcM};

Input {tClustk}，k=1,2,…，M;

Input the cluster number C;

tCennew=sortWithGama(tCen,′descending′)

FORj=1:(M-C),

waitForMerge=tCennew[M-j+1];

mergeTo=dirNeighborOf(tCennew[M-j+1]);

tClustmergeTo=Append(tClustwaitForMerge);

END;

由此，將數(shù)據(jù)集粗分為若干潛在聚類，其中心點具有局部最大的數(shù)據(jù)密度.本研究將門限dc設(shè)置為所有數(shù)據(jù)距離的2分位點.實際應(yīng)用中，門限還可以通過優(yōu)化得到.

依據(jù)聚類數(shù)量，進一步將上述潛在聚類歸并，并優(yōu)化數(shù)據(jù)集分割.假定潛在聚類為，

其中，k和nk分別為聚類標識和每個子類tClustk中數(shù)據(jù)點數(shù)量,子類中心點為tCen={tc1,tc2,…，tck，…，tcM}?X.

由于潛在聚類中心點通常同時具有較大特征距離和數(shù)據(jù)密度[7].基于此，本研究依據(jù)γi=δi*σi對所有子類中心進行排序，將所有子類歸并到就近的c個子類中，完成子類歸并.

1.2 子集聚類優(yōu)化方法

圍繞上述得到的子類，{tClustk}，k=1,2,…，C，進一步設(shè)計基于密度的聚類優(yōu)化方法，

FN×C=[f1，1，f1，2，…，f1，C；…；fN，1，fN，2，…，fN，C]

來表示初始劃分的聚類關(guān)系，其中，

本研究進一步將聚類中心點計算方法設(shè)計為如式(3)所示，

(3)

每次局部中心點位置更新只取決于局部子類中的數(shù)據(jù)點.模糊聚類的隸屬度和目標函數(shù)分別為，

(4)

(5)

基于密度的模糊聚類算法偽代碼如下：

InputtCen={tc1,tc2,…，tck，…，tcM};

Input {tClustk},k=1,2,…，M;

Input the cluster number C,ε;

[tCennew，tClustnew]=Merger(tCen,tClust);

Computed(xi,vj) with Eq. 4;

Compute membership with Eq. 5.

WHILE|Ji+1-Ji|>ε,

Update centroids with Eq. 3;

Computed(xi,vj) with Eq. 4;

Compute membership with Eq. 5.

END;

2 算法性能評估

本研究采用具有代表性的非平衡數(shù)據(jù)集ecoli-0-1-4-6[9]評估來研究所提算法的性能.數(shù)據(jù)集ecoli-0-1-4-6包括陽性和陰性2類數(shù)據(jù)，其中陽性類數(shù)據(jù)有20例，陰性類數(shù)據(jù)有260例，數(shù)據(jù)維度為8.另一個數(shù)據(jù)集來自文獻[7]，該數(shù)據(jù)集包括2 535數(shù)據(jù)樣本，共5類，每個數(shù)據(jù)樣本維度是2，其每個類所包含的數(shù)據(jù)量分別為，C1n=1 456,C2n=246,C3n=246,C4n=431,C5n=156.該數(shù)據(jù)集是無標記的，并且含有噪聲(見圖3).同時，本研究應(yīng)用文獻[7]方法對數(shù)據(jù)進行標記，去除部分噪聲.表1詳細給出上述2個數(shù)據(jù)集的特征信息.

表1 數(shù)據(jù)集描述

圖3文獻[7]數(shù)據(jù)集分布

算法性能的比較主要通過聚類準確性與迭代次數(shù)來衡量算法在聚類性能和計算性能的差異.

首先，采用文獻[7]數(shù)據(jù)集分析非平衡數(shù)據(jù)對聚類性能的影響.該數(shù)據(jù)集包括2個主要類和3個少數(shù)類(見圖3)，其中3個少數(shù)類分別與2個主要類極為接近，易受到主類影響.圖4與圖5為采用傳統(tǒng)模糊聚類方法得到的聚類結(jié)果.

圖4傳統(tǒng)模糊聚類方法的中心點變化

由圖4、圖5可知，其中1個多數(shù)類被誤分為2個類.究其原因，傳統(tǒng)聚類算法采用隨機選擇初始中心點，且通常距離真實聚類中心點距離較遠(見圖4)，隨著聚類優(yōu)化過程不斷進行，聚類中心點逐漸傾向于附近的主要類區(qū)域，造成最后沒有聚類中心點落在少數(shù)類，尤其初始中心點B，最后漂移到附近的多數(shù)類區(qū)域.可以看出，傳統(tǒng)模糊聚類方法在處理非平衡數(shù)據(jù)問題的誤分類率較高.

圖5傳統(tǒng)模糊聚類方法在文獻[7]數(shù)據(jù)集的聚類結(jié)果

相比之下，本研究設(shè)計的基于密度的聚類方法則始終能保證聚類中心點位于數(shù)據(jù)分布的高密度區(qū)域(見圖6、圖7). 由于本研究采用局部數(shù)據(jù)密度來優(yōu)化模糊聚類，使得聚類中心點能夠以較少的迭代次數(shù)平穩(wěn)地收斂.在聚類迭代次數(shù)上，本方法僅需要13次聚類迭代，而傳統(tǒng)方法則需要30次；在計算時間上，本方法依然比傳統(tǒng)方法有優(yōu)勢，具體如表2～表4所示.同時，本研究進一步采用數(shù)據(jù)集ecoli-0-1-4-6來評估模糊聚類算法和基于密度的模糊聚類算法性能.相比于文獻[7]數(shù)據(jù)集，數(shù)據(jù)集ecoli-0-1-4-6空間分布相對較散(見圖8).數(shù)據(jù)分布密度差異不明顯，可通過此類數(shù)據(jù)來評估本研究方法在數(shù)據(jù)空間分布密度差異較小場景下的可用性.由計算結(jié)果也可以看出，聚類方法在此類數(shù)據(jù)集上分類準確性不高.盡管如此，本研究方法依然能夠達到比傳統(tǒng)方法更優(yōu)的結(jié)果(見表3、表4).

圖6基于密度聚類過程的中心點變化

圖7本研究方法的聚類結(jié)果

表2 聚類計算迭代次數(shù)評估

表3 計算時間評估

表4 聚類準確性比較

圖8數(shù)據(jù)集ecoli-0-1-4-6的低維分布

3 結(jié) 語

針對非平衡數(shù)據(jù)聚類少數(shù)類消失問題，本研究提出并設(shè)計了一種新的模糊聚類算法，該方法采用數(shù)據(jù)分布密度進行聚類初始點選擇，旨在解決非平衡數(shù)據(jù)分布造成聚類準確率低的問題.同時，本研究進一步將密度分布應(yīng)用于模糊聚類優(yōu)化過程，提升了聚類算法計算性能.數(shù)據(jù)集上的測試結(jié)果表明，本方法確實能夠提升非平衡數(shù)據(jù)聚類性能，而且能有效降低聚類迭代次數(shù)，展示出了處理大數(shù)據(jù)的潛力.

[1]Clark M C,Hall L O,Goldgof D B，et al.Mrisegmentationusingfuzzyclusteringtechniques[J].IEEE Eng Med Biol,1994，13(5):730-742.

[2]Beyan C,Fisher R.Classifyingimbalanceddatasetsusingsimilaritybasedhierarchicaldecomposition[J].Pattern Recogn，2015，48(5)：1653-1672.

[3]Noordam J C,Van den Broek W H A M，Buydens L M C,et al.Multivariateimagesegmentationwithclustersizeinsensitivefuzzyc-means[J].Chemometr Intell Lab Syst，2002，64(1)：65-78.

[4]Bensaid A M,Hall L O,Bezdek J,et al.Partiallysupervisedclusteringforimagesegmentation[J].Pattern Recogn，1996，29(5)：859-871.

[5]Gath I,Geva A.Unsupervisedoptimalfuzzyclustering[J].IEEE Trans Pattern Anal Mach Intell，1989，11(7)：773-781.

[6]Lin P L,Huang P W，Kuo C H,et al.Asize-insensitiveintegrity-basedfuzzyc-meansmethodfordataclustering[J].Pattern Recogn，2014，47(5)：2042-2056.

[7]Rodriguez A，Laio A.Clusteringbyfastsearchandfindofdensitypeaks[J].Science,2014，344(6191):1492-1496.

ImbalancedFuzzyClusteringMethodBasedonDataDensityPerception

WANGJin1,YOULei1,LIZhongwen1,MIAOFang2

(1.School of Information Science and Engineering, Chengdu University, Chengdu 610106, China; 2.Institute of Big Data, Chengdu University, Chengdu 610106, China)

Imbalanced data analysis is a key part in biomedical areas but poses a computational challenge for clustering methods due to the huge differences in the distribution between categories.This paper discusses the effects of imbalanced datasets on fuzzy clustering method based on imbalanced data clustering,and proposes a data-density-aware fuzzy clustering method to solve this problem.Specifically,a dataset is segmented into different areas with similar local density,and then a novel fuzzy clustering algorithm is implemented based on the initial partition.As a result,the initial clustering center point can be located and the disappearance of the minority class central point can be avoided.An updated method is further optimized based on data-density-aware fuzzy clustering,which is based on the above mentioned initial density method.The experimental results show that our method can better deal with the disappearance of the minority class in imbalanced datasets classification and compared with the traditional FCM,the clustering algorithm performance of the new FCM is obviously enhanced.

FCM;distribution density;imbalanced dataset

TP301.6

1004-5422(2017)04-0373-04

2017-08-25.

四川省教育廳自然科學基金(17ZA0082)資助項目.

王進(1980 — )，男，博士，講師，從事機器學習相關(guān)技術(shù)研究.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于數(shù)據(jù)密度感知的非平衡數(shù)據(jù)模糊聚類方法

0 引 言

1 基于密度的模糊聚類算法設(shè)計

1.1 基于密度的數(shù)據(jù)劃分方法設(shè)計

1.2 子集聚類優(yōu)化方法

2 算法性能評估

3 結(jié) 語

0 引言