亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于密度峰值的針對模糊混合數(shù)據(jù)的聚類算法*

        2020-03-04 08:33:38陳奕延李存金
        計算機工程與科學 2020年2期

        陳奕延 ,李 曄,李存金

        (1.北京理工大學管理與經(jīng)濟學院,北京 100081;2.中國管理科學研究院學術委員會,北京 100036; 3.中國社會科學院大學(研究生院),北京 102488)

        1 引言

        聚類分析是按照某個特定標準把數(shù)據(jù)對象劃分成子集的過程,每個子集表示一個簇。聚類分析是一種無監(jiān)督學習過程,其目的是使得簇中的對象彼此相似,但與其它簇對象不相似[1,2]。目前,聚類分析廣泛應用于商務智能、生物安全、Web檢索、評價與決策等領域。按照陳彩棠[3]的觀點,聚類分析算法可以分為6類,包括基于劃分[4 - 6]、層次[7 - 9]、密度[10]、網(wǎng)格[11,12]、概率模型[13]以及基于約束[14]的聚類算法。這種劃分方式并不一定涵蓋所有的聚類算法,譬如基于圖論[15]的聚類算法,但不論何種算法皆有其各自的特點。

        2 相關工作

        Rodriguez等[16]于2014年提出了快速搜索和發(fā)現(xiàn)密度峰值的聚類CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法,這是一種基于密度、可自動獲得簇的正確個數(shù),并能夠解決數(shù)據(jù)空間分布呈非球形簇的聚類算法。許多學者在CFSFDP算法的基礎上進行了改進:Wan等[17]對CFSFDP算法中尋找簇中心的決策圖方法提出了質疑,提出了一種Fuzzy CFSFDP算法,并利用基于流形距離和基于標準差的截斷距離對其進行優(yōu)化;Zhang等[18]在無線傳感網(wǎng)絡中將CFSFDP算法與層次協(xié)議相結合,提出了一種考慮剩余能量的改進型CFSFDP-E算法;Qin等[19]把太赫茲時域光譜與CFSFDP算法結合,提出了PCA-CFSFDP算法;李曄等[20]提出了針對混合型數(shù)據(jù)集的MAO-CFSFDP算法,并使用該算法解決了實際問題[21],從而驗證了該算法的可靠性。

        雖然MAO-CFSFDP算法拓展了數(shù)據(jù)類型,但它與CFSFDP算法及其它改進算法都是建立在經(jīng)典集合上的聚類算法,而現(xiàn)實生活中的許多對象是不具備嚴格屬性的,無法用“非此即彼”的二值邏輯解釋,參考Zadeh[22]提出的模糊集理論,這些對象是具有模糊概念的事物。目前常用的PCM[23]、FCM[24]、PFCM[25]等算法依賴統(tǒng)計不確定性理論(概率分布、貝葉斯模型等),將聚類對象與簇之間的隸屬關系不確定化,但仍定義在經(jīng)典集合上,無法解決模糊數(shù)據(jù)的距離問題。

        因此,本文在模糊集理論的基礎上,提出了針對由連續(xù)型模糊集與離散型模糊集組成的模糊混合數(shù)據(jù)的聚類算法FMD-CFSFDP(Fuzzy Mixed Data-Clustering algorithm by Fast Search and Find of Density Peaks)。該算法可滿足含有模糊混合數(shù)據(jù)的樣本的聚類需求,繼承了CFSFDP算法的優(yōu)點,并且具備3項創(chuàng)新:

        (1)從理論上將CFSFDP算法從經(jīng)典集擴展到了模糊集上,提出模糊混合數(shù)據(jù)的概念;

        (2)利用連續(xù)型模糊集和離散型模糊集,構建了模糊集上針對模糊混合數(shù)據(jù)的聚類算法;

        (3)改進了模糊集上的傳統(tǒng)歐氏距離,分別定義了模糊集上針對連續(xù)型模糊集和離散型模糊集的改進型歐氏距離,使之相較前者誤差減少,令聚類的度量更為合理。

        3 模糊混合數(shù)據(jù)的數(shù)學定義

        記連續(xù)型模糊集為連續(xù)型模糊數(shù)據(jù),離散型模糊集為離散型模糊數(shù)據(jù),假設存在數(shù)據(jù)集Θ,若Θ中存在N1個連續(xù)型模糊數(shù)據(jù)組成的數(shù)據(jù)子集Θ1,以及N2個離散型模糊數(shù)據(jù)組成的數(shù)據(jù)子集Θ2,滿足:Θ1∩Θ2=?,Θ1∪Θ2=Θ,則稱數(shù)據(jù)集Θ為模糊混合數(shù)據(jù)集,簡稱模糊混合數(shù)據(jù)。模糊混合數(shù)據(jù)是由數(shù)據(jù)形式為連續(xù)型模糊數(shù)據(jù)(連續(xù)型模糊集)與離散型模糊數(shù)據(jù)(離散型模糊集)混合組成的數(shù)據(jù)集。

        4 FMD-CFSFDP算法步驟

        4.1 計算聚類的度量

        (1)

        (2)

        (3)

        (4)

        (5)

        則式(1)的系統(tǒng)誤差為:

        (6)

        (7)

        (8)

        L(r,t)=LC(r,t)+LD(r,t)

        (9)

        4.2 其余聚類步驟

        Figure 1 Flow chart of FMD-CFSFDP algorithm圖1 FMD-CFSFDP算法流程圖

        FMD-CFSFDP算法是順序結構,所以其最大時間復雜度是O(N·M2),而CFSFDP算法的復雜度是O(M2)[27],顯然,由于數(shù)據(jù)形式和度量都變得復雜,所以FMD-CFSFDP算法的復雜度要高于CFSFDP算法的。

        5 隨機模擬實驗

        (10)

        其中,K表示該樣本集真實的簇的個數(shù),corr_ci表示第i個簇中被正確聚類的模糊樣本個數(shù),|D|為模糊樣本個數(shù)。corr_ci越大,則說明聚類效果越好。計算第1組隨機模擬實驗的聚類正確率和最優(yōu)閾值L*,如表1所示。平均聚類正確率MC=63.38%,聚類正確率的標準差SD=6.3628。

        Table 1 25 results of the 1st random simulation 表1 第1組隨機模擬25次的實驗結果

        Figure 2 Clustering effect diagram of the 17th experiment in the 1st random simulation圖2 第1組第17次實驗的聚類效果圖

        Table 2 25 results of the 2nd random simulation 表2 第2組隨機模擬25次實驗結果

        Figure 3 Clustering effect diagram of the 6th experiment of the 2nd random simulation圖3 第2組第6次實驗的聚類效果圖

        顯然,從彩圖[29]可以看出,代表3個簇的彩色團塊中夾雜著不同的顏色,說明第2組的聚類的效果不如第1組第17次實驗理想。另外,將表1與表2中的聚類正確率與參考文獻[16,20]比較,顯然可以發(fā)現(xiàn)FMD-CFSFDP算法的聚類正確率沒有CFSFDP和MAO-CFSFDP的高。這是因為樣本每一個指標下的模糊集中對應的每種狀態(tài)(元素)都被當成數(shù)值參與運算,對于任意連續(xù)型模糊集而言則均有無數(shù)個元素參與運算,故聚類正確率會較前2者偏低。分別畫出第1組隨機模擬中第17次實驗,以及第2組隨機模擬中第6次實驗下γ值降序排列后的決策圖,如圖4所示,由于非簇中心的γ會比較平滑,故可以利用跳躍點判斷簇中心個數(shù),γ值的計算和含義沿用CFSFDP算法。

        Figure 4 The descending γ decision diagram in two different experiments圖4 2次不同實驗的降序γ值決策圖

        由γ的情況以及聚類結果可知,第1組模擬的第17次實驗中,人工劃分的簇數(shù)是2個,根據(jù)圖4a中所示,其擁有2個跳躍點,故自動識別出的簇數(shù)也是2個;而第2組模擬的第6次實驗中,人工劃分的簇數(shù)是3個,但從圖4b中可以看出,其自動識別出的簇數(shù)為6。顯然,F(xiàn)MD-CFSFDP算法利用γ值的跳躍點來自動識別簇數(shù)是不穩(wěn)定的。因為不論連續(xù)型模糊集還是離散型模糊集,計算其相應的改進型歐氏距離中使用的隸屬度的取值是在[0,1],因此算出的改進型歐氏距離較小,導致整體距離L、最優(yōu)閾值L*、密度ρ、特殊距離δ與綜合考量值γ也較小,反映在圖像中的區(qū)分度較低,因此單純通過視覺識別γ值跳躍點就變得比較困難。

        6 結束語

        FMD-CFSFDP算法可滿足模糊混合數(shù)據(jù)的聚類需求,在模糊集上繼承了CFSFDP算法的大多數(shù)優(yōu)點,本文的主要創(chuàng)新之處在于FMD-CFSFDP算法把CFSFDP算法從經(jīng)典集擴展到了模糊集上,同時也吸收了MAO-CFSFDP算法的優(yōu)勢,賦予“模糊混合數(shù)據(jù)”數(shù)學涵義,改進了作為度量的傳統(tǒng)模糊歐氏距離,使改進后的改進型歐氏距離具有更小的誤差,可以提高聚類精度。

        然而,縱有上述創(chuàng)新,F(xiàn)MD-CFSFDP算法仍存在以下3個缺點:

        (1)FMD-CFSFDP算法中的模糊樣本涵蓋的信息是模糊集,但模糊樣本與簇之間的隸屬關系依然使用了硬劃分而未能考慮模糊的特性,雖然模糊數(shù)學上的許多計算,包括模糊貼近度、模糊度、模糊距離等都是把模糊量轉化為經(jīng)典量,最終計算結果也都是經(jīng)典數(shù)值,這在模糊數(shù)學上是合理的。但是,從模糊集到經(jīng)典集的轉化過程中往往會損失一些信息,特別是對于模糊樣本的劃分,如果采用硬劃分則會造成聚類正確率在一定程度上的下降。

        (2)雖然使用了誤差較傳統(tǒng)歐氏距離更小的改進型歐氏距離,并利用權值對其進行了加權處理,從而得到整體距離,但由于其權值是固定的,無法自適應調整,這無疑會削弱整體距離的區(qū)分度,從而導致聚類正確率相比CFSFDP算法有所下降。

        (3)FMD-CFSFDP算法未能解決CFSFDP算法中利用視覺識別跳躍點尋找簇數(shù)的方法的缺陷,這在一定程度上是由于度量的計算使用了隸屬度,從而導致最后綜合考量值的區(qū)分度過低,無法利用視覺有效地尋找跳躍點。

        針對上述缺點,未來可對FMD-CFSFDP算法做如下拓展改進:

        (1)將模糊樣本與簇之間的隸屬關系也定義在模糊集上,從而使樣本信息和隸屬關系均建立在模糊集上,這或許可以減少聚類劃分造成的信息損失,提高聚類正確率;

        (2)放棄使用隸屬度進行計算的模糊距離及其相關一切改進,尋找新的可以體現(xiàn)模糊數(shù)據(jù)屬性的計算公式作為度量;

        (3)放棄利用視覺識別幾何圖像中γ值的特征尋找簇數(shù)的方式,可以研究一套量化的數(shù)學模型來自動尋找簇的個數(shù),這樣即便發(fā)生前述缺點(2)和(3)中的情況,微小的差異也可以被數(shù)學模型輕易識別出來,從而提高了聚類的區(qū)分度。

        綜上,F(xiàn)MD-CFSFDP算法雖然存在不足之處,但它的提出可為進一步研究模糊集上的聚類算法提供參考。

        亚洲av一区二区三区色多多| 久久婷婷综合色拍亚洲| 国产人成视频免费在线观看| 亚洲国产精品线观看不卡| 成人偷拍自拍在线视频| 色男色女午夜福利影院| 精品国产三级a∨在线欧美| 国产高跟黑色丝袜在线| 激情内射亚洲一区二区三区爱妻 | 在线观看国产三级av| 精品亚洲一区二区视频| 青青草视频视频在线观看| 人人妻人人澡人人爽人人dvd| 窝窝午夜看片| 人与嘼交av免费| 国产成人一区二区三区视频免费蜜 | 欧美在线观看www| 国产精品天堂在线观看| 亚洲国产精品久久久av| 色综合久久精品亚洲国产| 国内少妇人妻丰满av| 男人的天堂av网站一区二区| 少妇人妻精品一区二区三区视 | 日本少妇春药特殊按摩3| 中文字幕一区二区三区乱码| 久久福利青草精品资源| 在线免费观看毛视频亚洲精品| 日本精品久久久久中文字幕| 国产台湾无码av片在线观看| a一区二区三区乱码在线 | 欧洲| 亚洲男人堂色偷偷一区| 国产精品久久av高潮呻吟| 在线亚洲高清揄拍自拍一品区| 亚洲综合av在线在线播放 | 国产伦奸在线播放免费| 女女同恋一区二区在线观看| 免费a级毛片18禁网站app| 老熟女毛茸茸浓毛| 青春草在线观看免费视频| 亚洲av无码专区国产乱码4se| 99国产精品人妻噜啊噜|