亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合蝙蝠算法改進(jìn)的密度峰值聚類算法

        2019-07-22 10:14:54吳辰文劉曉光魏立鑫
        關(guān)鍵詞:集上蝙蝠適應(yīng)度

        吳辰文,劉曉光,魏立鑫

        (蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)

        在科技迅猛發(fā)展的今天,計(jì)算機(jī),信息,互聯(lián)網(wǎng)技術(shù)已經(jīng)不僅僅是某一門(mén)學(xué)科或某一類職業(yè)的專屬,更是廣泛的融入到醫(yī)學(xué)[1],商業(yè)[2],工農(nóng)業(yè)[3-4]等各個(gè)領(lǐng)域之中。這些領(lǐng)域伴隨著計(jì)算機(jī)技術(shù)的應(yīng)用,每天都會(huì)產(chǎn)生海量的數(shù)據(jù)。由于計(jì)算機(jī)硬件技術(shù)的不斷升級(jí),這些數(shù)據(jù)產(chǎn)生的速度也不斷加快,這也就是平時(shí)我們所說(shuō)的大數(shù)據(jù)時(shí)代的數(shù)據(jù)爆炸增長(zhǎng)。

        如何在大規(guī)模的數(shù)據(jù)之中提取到有用的知識(shí)成為了研究的重點(diǎn),數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。數(shù)據(jù)挖掘技術(shù)通過(guò)一系列算法來(lái)搜索那些隱藏于大數(shù)據(jù)之中的信息。而聚類分析作為數(shù)據(jù)挖掘最重要的研究?jī)?nèi)容之一,旨在將數(shù)據(jù)集分為多組組內(nèi)具有相同特性、組間具有不同特性的簇。聚類分析的算法可以分為劃分法[5](partitioning methods)、層次法[6](hierarchical methods)、基于密度的方法[7](density-based methods)、基于網(wǎng)格的方法[8](grid-based methods)、基于模型的方法[9](model-based methods)。

        Alex Rodriguez和Alessandro Laio在2014年提出了一種基于密度的聚類方法[10],該算法相比于其他同類算法的優(yōu)勢(shì)在于對(duì)于任意形狀的數(shù)據(jù)集,其均可以快速、高效地發(fā)現(xiàn)數(shù)據(jù)集的類簇中心,并進(jìn)行非類簇中心樣本點(diǎn)的分配,在大規(guī)模數(shù)據(jù)集上表現(xiàn)良好。該算法的主要思想是尋找被低密度區(qū)域分離的高密度區(qū)域。目前,已有許多專家學(xué)者針對(duì)密度峰值聚類算法進(jìn)行改進(jìn):WANG Shuliang等人將密度峰值聚類算法結(jié)合信息熵理論,使其可以自動(dòng)從數(shù)據(jù)集中提取截?cái)嗑嚯x參數(shù)[11]。薛小娜等人提出了一種基于K近鄰和多類合并的密度峰值聚類算法,以提高算法聚類精度[12]。高詩(shī)瑩等人將DPC算法和密度比的概念相結(jié)合,從而解決了DPC算法在密度分布不均衡的數(shù)據(jù)集上表現(xiàn)不佳的問(wèn)題[13]。董曉君等人利用無(wú)參核密度估計(jì)來(lái)分析數(shù)據(jù)并自適應(yīng)地選取截?cái)嗑嚯x[14]。盡管這些算法在一定程度上解決了DPC算法的部分缺陷,但依舊存在諸如模型復(fù)雜、真實(shí)數(shù)據(jù)集上表現(xiàn)不佳等問(wèn)題。本文要解決的DPC算法的主要問(wèn)題在于:算法的結(jié)果依賴于截?cái)嗑嚯x的選取,但目前選取截?cái)嗑嚯x的方法主要還是人工選取,主觀性太強(qiáng)。而將DPC算法與啟發(fā)式優(yōu)化算法相結(jié)合,配合適應(yīng)度函數(shù),對(duì)截?cái)嗑嚯x參數(shù)進(jìn)行尋優(yōu),可以有效解決此類問(wèn)題。

        蝙蝠算法(bat algorithm,BA)是由YANG Xinshe于2010年提出的一種高效生物啟發(fā)式算法[15],該算法假設(shè)每個(gè)虛擬蝙蝠在位置xi均有隨機(jī)的飛行速度vi,同時(shí)每只蝙蝠具有不同的頻率f或波長(zhǎng)λ、響度Ai和脈沖發(fā)射速率r。蝙蝠發(fā)現(xiàn)自己的獵物時(shí),通過(guò)改變脈沖發(fā)射速率、響度以及頻率來(lái)對(duì)獵物定位,進(jìn)行最優(yōu)解(位置xi)的選擇,直到目標(biāo)停止或條件得到滿足。本質(zhì)上就是使用調(diào)諧技術(shù)來(lái)控制蝙蝠群的動(dòng)態(tài)行為,平衡調(diào)整算法的相關(guān)參數(shù),以取得蝙蝠算法的最優(yōu)解。BA在工程設(shè)計(jì)、分類等方面得到了廣泛的應(yīng)用[16-17]。BA同遺傳算法和粒子群算法等傳統(tǒng)的尋優(yōu)算法進(jìn)行比較,也具有較大的優(yōu)勢(shì),但BA依舊存在缺陷,在收斂的過(guò)程中,算法后期的收斂速度會(huì)逐漸變慢,同時(shí)容易陷入局部最優(yōu)。許多專家學(xué)者對(duì)蝙蝠算法進(jìn)行了改進(jìn)研究:王海軍等人將蝙蝠算法和BP神經(jīng)網(wǎng)絡(luò)相結(jié)合對(duì)圖像進(jìn)行去噪處理[18];劉振等人提出了一種自適應(yīng)進(jìn)化的蝙蝠算法對(duì)原算法的收斂性進(jìn)行改進(jìn)[19];王馨等人基于負(fù)梯度理論,通過(guò)調(diào)整蝙蝠算法的速度更新策略來(lái)改進(jìn)蝙蝠算法的全局尋優(yōu)能力[20]。

        針對(duì)以上兩種算法的優(yōu)點(diǎn)和缺陷,本文提出了結(jié)合蝙蝠算法改進(jìn)的密度峰值聚類算法(weighted bat algorithm denisity peaks clustering,WBADPC)。首先,對(duì)蝙蝠算法的蝙蝠速度和位置公式進(jìn)行改進(jìn);然后,運(yùn)用改進(jìn)后的蝙蝠算法對(duì)密度峰值聚類的截?cái)鄥?shù)進(jìn)行優(yōu)化,使用聚類評(píng)判準(zhǔn)則函數(shù)作為適應(yīng)度函數(shù),利用蝙蝠算法較強(qiáng)的全局尋優(yōu)能力在截?cái)嗑嚯x取值范圍內(nèi)選取使得適應(yīng)度函數(shù)取值盡可能大地截?cái)嗑嚯x參數(shù),再運(yùn)用密度峰值聚類算法進(jìn)行聚類;最后,通過(guò)評(píng)判準(zhǔn)則函數(shù)與傳統(tǒng)的密度峰值聚類算法以及其他傳統(tǒng)的聚類算法進(jìn)行比較,并在多種數(shù)據(jù)集上進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,使用蝙蝠算法優(yōu)化的密度峰值聚類算法與其他聚類算法相比,具有較好的聚類效果。

        1 相關(guān)算法介紹

        1.1 DPC算法

        DPC算法基于如下假設(shè)[21]:①類簇中心點(diǎn)的密度大于周圍鄰居點(diǎn)的密度;②類簇中心點(diǎn)與更高密度點(diǎn)之間的距離相對(duì)較大。為了尋找滿足上述假設(shè)的類簇中心點(diǎn),DPC算法需要引入兩個(gè)參數(shù):數(shù)據(jù)點(diǎn)i的局部密度ρi;局部密度大于數(shù)據(jù)點(diǎn)i的點(diǎn)集之中距離點(diǎn)i最近的點(diǎn)與點(diǎn)i之間的距離δi。數(shù)據(jù)點(diǎn)i的局部密度ρi的計(jì)算有兩種方式,當(dāng)數(shù)據(jù)集規(guī)模較大時(shí):

        ρi=∑χ(dij-dc)。

        (1)

        其中,dij為點(diǎn)i與點(diǎn)j之間的距離,dc為密度峰值聚類算法的截?cái)嗑嚯x參數(shù)。函數(shù)χ為

        (2)

        面對(duì)較小規(guī)模數(shù)據(jù)集時(shí),局部密度ρi可以利用指數(shù)核函數(shù)來(lái)進(jìn)行計(jì)算,

        (3)

        點(diǎn)i與較高密度點(diǎn)的最小距離為

        δi=minj:ρi>ρj(dij),

        (4)

        當(dāng)點(diǎn)i為局部密度最高的點(diǎn)時(shí),

        δi=maxj(dij)。

        (5)

        在選取聚類中心時(shí),由DPC算法的前提假設(shè)可以知道,當(dāng)點(diǎn)i的局部密度ρi以及與較高密度點(diǎn)的最小距離δi均較大時(shí),點(diǎn)i才可能被選為聚類中心點(diǎn)。在文獻(xiàn)[10]中使用決策圖的方法來(lái)選取聚類中心,即將每點(diǎn)的ρ值和δ值于坐標(biāo)平面內(nèi)繪出,然后,將ρ和δ值都較大的點(diǎn)作為聚類中心。但是,當(dāng)數(shù)據(jù)點(diǎn)分布較為稀疏時(shí),就很難只通過(guò)ρ和δ值來(lái)確定聚類中心,此時(shí)需要引入另一個(gè)參數(shù)γ,

        γ=ρ×δ,

        (6)

        將γ值較高的k個(gè)點(diǎn)選為聚類中心。

        DPC算法的具體步驟如下:

        1)計(jì)算數(shù)據(jù)點(diǎn)之間的距離,并求得距離矩陣;

        2)人工選取截?cái)嗑嚯x,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的局部密度ρ,以及與較高數(shù)據(jù)點(diǎn)之間的最小距離δ;

        3)通過(guò)得出的ρ和δ的值來(lái)計(jì)算每個(gè)點(diǎn)的γ值并排序,選取前k個(gè)作為聚類中心點(diǎn);

        4)對(duì)剩余非聚類中心點(diǎn)依照距離最近原則進(jìn)行歸類。

        1.2 蝙蝠算法

        蝙蝠算法是一種模擬蝙蝠在飛行過(guò)程中通過(guò)發(fā)射超聲波以及反射的回聲來(lái)定位搜索獵物的元啟發(fā)式算法。此算法基于如下假設(shè):

        1)蝙蝠以速度vi飛行在位置xi(解)附近,并且可以根據(jù)與目標(biāo)的距離自動(dòng)調(diào)整脈沖頻率;

        2)蝙蝠發(fā)出的超聲波的響度A從大到小變化。

        在該算法的實(shí)際應(yīng)用中,通過(guò)頻率f控制波長(zhǎng)λ的變化來(lái)調(diào)整蝙蝠飛行的距離。當(dāng)蝙蝠越靠近獵物時(shí),波長(zhǎng)取值越小,飛行距離越短。

        在一個(gè)N維的搜索空間中,在第t次迭代時(shí),第i個(gè)蝙蝠的速度和位置公式分別為

        fi=fmin+(fmax-fmin)β,

        (7)

        (8)

        (9)

        其中,β的取值范圍在0到1之間,是一個(gè)隨機(jī)向量,x*是當(dāng)前全局最優(yōu)解。在求解問(wèn)題前,在[fmin,fmax]的范圍內(nèi)為蝙蝠的脈沖發(fā)射頻率初始化賦值。求解問(wèn)題時(shí),在保證波長(zhǎng)不變的同時(shí),在取值范圍內(nèi)改變蝙蝠的脈沖發(fā)射頻率。開(kāi)始搜索之后,每只蝙蝠的位置為

        xnew=xold+εAt。

        (10)

        其中,ε為在-1到1范圍之間的隨機(jī)數(shù),At為在第t次迭代時(shí),所有蝙蝠的平均響度。在迭代過(guò)程中,蝙蝠的脈沖發(fā)射響度A和速率r的更新公式為

        (11)

        (12)

        其中α和γ是響度和速率更新的比率,通常α取值在0到1之間,γ取值不小于0。蝙蝠脈沖發(fā)射響度和速率會(huì)在不斷地趨近于最優(yōu)解的過(guò)程中更新?;谝陨瞎胶头治?蝙蝠算法的步驟描述如下:

        1)對(duì)算法參數(shù)進(jìn)行初始化:蝙蝠初始位置和速度、目標(biāo)函數(shù)、脈沖發(fā)射頻率范圍、蝙蝠種群數(shù)量以及響度和速率;

        2)通過(guò)調(diào)整蝙蝠的脈沖發(fā)射頻率進(jìn)而改變波長(zhǎng),產(chǎn)生新的解,并根據(jù)新解的值改變蝙蝠位置和速度;

        3)產(chǎn)生一個(gè)隨機(jī)數(shù),如果隨機(jī)數(shù)大于速率r,就從最佳解集中選取一個(gè)解在其附近形成局部解;

        4)通過(guò)隨機(jī)飛行產(chǎn)生一個(gè)新解;

        5)產(chǎn)生隨機(jī)數(shù),如果隨機(jī)數(shù)小于此時(shí)的響度,并且新解對(duì)應(yīng)的適應(yīng)度的值要優(yōu)于之前的解對(duì)應(yīng)的適應(yīng)度的值,用新解替換之前的解,并更新響度和速率;

        6)將蝙蝠當(dāng)前的位置進(jìn)行排列并選取當(dāng)前的最優(yōu)解,若滿足結(jié)束條件,跳出并輸出當(dāng)前最優(yōu)解,否則轉(zhuǎn)回步驟2)。

        2 結(jié)合蝙蝠算法改進(jìn)的密度峰值聚類算法

        本文通過(guò)改進(jìn)后的蝙蝠算法對(duì)密度峰值聚類需要人工選取截?cái)嗑嚯x的缺陷進(jìn)行改進(jìn),主要思想是通過(guò)蝙蝠算法較強(qiáng)的全局最優(yōu)解的尋優(yōu)能力,將一個(gè)評(píng)價(jià)聚類指標(biāo)的函數(shù)作為適應(yīng)度函數(shù),在解的空間中進(jìn)行尋優(yōu),從而避免DPC算法中由于需要手動(dòng)給出截?cái)嗑嚯x而產(chǎn)生的不確定性。

        2.1 蝙蝠算法的改進(jìn)

        在基本的蝙蝠算法之中,蝙蝠的速度是根據(jù)前一代的速度和位置進(jìn)行更新的,但隨著迭代次數(shù)的增加,蝙蝠的速度會(huì)逐漸減緩,甚至蝙蝠種群可能會(huì)出現(xiàn)進(jìn)化停滯。受到文獻(xiàn)[16]的啟發(fā),為了解決這一問(wèn)題,本文對(duì)蝙蝠的速度更新公式(8)加入自適應(yīng)慣性權(quán)重,將式(8)修改為

        (13)

        其中,

        (14)

        ωmax和ωmin分別代表最大最小自適應(yīng)慣性權(quán)重,t代表當(dāng)前迭代次數(shù),N代表最大迭代次數(shù)。加入權(quán)重后,在迭代之初,ω較大,算法的全局搜索能力較強(qiáng),有利于跳出局部最優(yōu),在算法迭代的后期,ω會(huì)逐漸減小,有利于在最優(yōu)解的鄰域內(nèi)進(jìn)行局部尋優(yōu),并加速算法的收斂。將蝙蝠種群設(shè)置為10,迭代次數(shù)設(shè)置為1 000,利用兩種算法對(duì)同一適應(yīng)度函數(shù)進(jìn)行迭代實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,雖然改進(jìn)前后的算法都能在一定循環(huán)次數(shù)內(nèi)找到最優(yōu)解,但改進(jìn)后的算法收斂到最優(yōu)解所需要的迭代次數(shù)大大減少,算法的收斂性增強(qiáng),較好地克服了基本蝙蝠算法易過(guò)早陷入局部最優(yōu)的缺陷。

        2.2 結(jié)合加權(quán)蝙蝠算法優(yōu)化截?cái)嗑嚯x參數(shù)

        在傳統(tǒng)的DPC算法中,由式(3)和式(4)可知,密度峰值聚類的兩個(gè)重要參數(shù),局部密度和與高密度點(diǎn)之間的最小距離均與截?cái)嗑嚯x有關(guān)。但截?cái)嗑嚯xdc往往由人工給出,dc取值過(guò)大,會(huì)導(dǎo)致聚類個(gè)數(shù)多于真實(shí)簇類數(shù);相反,dc取值過(guò)小,導(dǎo)致聚類個(gè)數(shù)少于真實(shí)簇類數(shù)。本文提出的WBADPC算法將聚類算法的Silhouette指標(biāo)[22]作為適應(yīng)度函數(shù)。Silhouette指標(biāo)最早由Peter J. Rousseeuw在1986年提出。它結(jié)合內(nèi)聚度和分離度兩種因素,可以用來(lái)在相同原始數(shù)據(jù)的基礎(chǔ)上評(píng)價(jià)不同算法、或者算法不同運(yùn)行方式對(duì)聚類結(jié)果所產(chǎn)生的影響。對(duì)于單個(gè)樣本,設(shè)α是與它同類別中其他樣本的平均距離,b是與它距離最近不同類別中樣本的平均距離,Silhouette指標(biāo)為

        (15)

        Silhouette指標(biāo)的取值范圍在[-1,1]之間,其值越接近1,說(shuō)明聚類的結(jié)果就越合理。Silhouette指標(biāo)結(jié)合了聚類結(jié)果的類間距離和類內(nèi)距離,對(duì)于聚類結(jié)果能產(chǎn)生準(zhǔn)確的評(píng)判,并且不需要先驗(yàn)知識(shí),所以,本文采用Silhouette指標(biāo)作為適應(yīng)度函數(shù)。

        本文所提出算法通過(guò)蝙蝠算法較強(qiáng)的尋優(yōu)能力,通過(guò)多次迭代,找出能使DPC算法的Silhouette指標(biāo)最大的截?cái)嗑嚯x作為對(duì)于當(dāng)前數(shù)據(jù)集最合適的截?cái)嗑嚯xdc,算法的具體步驟如下。

        輸入:數(shù)據(jù)集Data,蝙蝠數(shù)量,最大迭代次數(shù),響度,速率,頻率的變化范圍,自適應(yīng)慣性權(quán)重的最大和最小值。

        輸出:聚類結(jié)果C。

        1)數(shù)據(jù)預(yù)處理;

        2)計(jì)算樣本間的歐氏距離矩陣,根據(jù)距離矩陣確定截?cái)嗑嚯x的搜索空間,并生成初始解;

        3)執(zhí)行DPC算法,根據(jù)聚類結(jié)果生成Silhouette指標(biāo)的值;

        4)調(diào)整改進(jìn)后的蝙蝠算法參數(shù)生成新的解,計(jì)算每個(gè)解所對(duì)應(yīng)的Silhouette指標(biāo);

        5)產(chǎn)生隨機(jī)數(shù),如果新解對(duì)應(yīng)的適應(yīng)度的值要優(yōu)于之前的解對(duì)應(yīng)的適應(yīng)度的值,用新解替換之前的解,并更新響度和速率。否則保持原來(lái)的解不變;

        6)若滿足迭代終止條件,跳出循環(huán)并得到最優(yōu)截?cái)嗑嚯x,否則轉(zhuǎn)回3);

        7)用所得到的最優(yōu)截?cái)嗑嚯x進(jìn)行密度峰值聚類,輸出聚類結(jié)果。

        算法的流程圖如圖1所示。

        圖1 WBADPC算法流程圖Fig.1 A schematic diagram of WBADPC

        3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證算法的有效性,本文采用6個(gè)數(shù)據(jù)集對(duì)WBADPC算法進(jìn)行測(cè)試和評(píng)價(jià)。實(shí)驗(yàn)環(huán)境如表1所示,所采用的數(shù)據(jù)集屬性如表2所示。

        3.1 評(píng)價(jià)指標(biāo)

        由于本文所提算法的評(píng)價(jià)指標(biāo)采用Silhouette指標(biāo),為了避免重復(fù)計(jì)算Silhouette指標(biāo)帶來(lái)的影響,本次實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)主要采用調(diào)整互信息(adjusted mutual information,AMI)指標(biāo)和調(diào)整蘭德指數(shù)(adjusted Rand index,ARI)對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià)。

        3.1.1 AMI指標(biāo) 互信息MI(mutual information based scores)是一個(gè)基于信息論的概念,可以用作聚類結(jié)果的評(píng)價(jià)指標(biāo),主要用來(lái)對(duì)一些有先驗(yàn)知識(shí)的數(shù)據(jù)集的聚類結(jié)果進(jìn)行評(píng)判。互信息可以用來(lái)衡量?jī)蓚€(gè)數(shù)據(jù)分布的吻合情況,如果A和B分別是M個(gè)樣本的同一個(gè)數(shù)據(jù)集用兩種不同聚類方法所得到的類別標(biāo)簽,則這兩個(gè)類別標(biāo)簽的熵分別為

        (16)

        (17)

        (18)

        (19)

        Ai和Bj分別代表,在A和B的標(biāo)簽之中第i類和第j類的標(biāo)簽,A與B之間的互信息可以定義為

        (20)

        而調(diào)整互信息AMI就可以表示為

        (21)

        MI的取值范圍為[0,1],E(MI)是對(duì)MI的數(shù)學(xué)期望。AMI同樣基于信息論,是對(duì)MI的一種改進(jìn),它的取值范圍為[-1,1]。相比于MI來(lái)說(shuō),AMI具有更高的區(qū)分度,它的取值越接近1,說(shuō)明聚類效果越好。

        3.1.2 ARI指標(biāo) 蘭德系數(shù)(Rand index,RI)和調(diào)整蘭德系數(shù)經(jīng)常被用來(lái)做聚類的模型評(píng)估,在RI中,假設(shè)U是樣本真實(shí)標(biāo)簽,而V代表聚類結(jié)果,則a為在U中屬于同一類且在V中也屬于同一類的數(shù)據(jù)點(diǎn)對(duì)數(shù),b代表在U中屬于同一類但在V中不屬于同一類的數(shù)據(jù)點(diǎn)對(duì)數(shù),c表示在U中不為同一類但在V中屬于同一類的數(shù)據(jù)點(diǎn)對(duì)數(shù),d即為在U和V中均不屬于同一類的數(shù)據(jù)點(diǎn)對(duì)數(shù)。蘭德系數(shù)RI可表示為

        (22)

        蘭德系數(shù)的取值范圍在[0,1]之間。為了使RI具有更高的區(qū)分度,引入ARI作為RI的改進(jìn),ARI可表示為

        (23)

        ARI的取值范圍在[-1,1]之間,其結(jié)果越接近1,說(shuō)明聚類結(jié)果越接近數(shù)據(jù)集的原始標(biāo)簽。

        3.2 實(shí)驗(yàn)仿真與結(jié)果分析

        本文選用了D31,R15和Aggregation 3個(gè)人工數(shù)據(jù)集以及Iris和Wine兩個(gè)UCI數(shù)據(jù)集,和文獻(xiàn)[23]所提供的白血病數(shù)據(jù)集Leukemia,數(shù)據(jù)集的屬性如表2所示。R15,Aggregation和D31數(shù)據(jù)集均為2維數(shù)據(jù)集,D31的樣本數(shù)量較多,Iris和Wine數(shù)據(jù)集為多維數(shù)據(jù)集,Leukemia數(shù)據(jù)集為基因表達(dá)數(shù)據(jù)的高維數(shù)據(jù)集,可分為3個(gè)類簇。文獻(xiàn)[24]提出了一種基于 K 近鄰的快速密度峰值搜索并高效分配樣本的聚類算法(KNN-DPC)。該算法利用樣本點(diǎn)的K近鄰信息定義樣本局部密度, 搜索和發(fā)現(xiàn)樣本的密度峰值, 以峰值點(diǎn)樣本作為初始類簇中心。將本文提出的WBADPC算法與KNN-DPC算法、標(biāo)準(zhǔn)DPC算法和DBSCAN算法進(jìn)行比較。WBADPC和DPC算法在聚類中心點(diǎn)選取時(shí),將所有數(shù)據(jù)點(diǎn)的γ值從大到小排列,選取前k個(gè),直到滿足條件

        (24)

        表1 實(shí)驗(yàn)環(huán)境Tab.1 Simulation environment

        表2 所用數(shù)據(jù)集屬性Tab.2 Data set attribute

        表3 4種算法在6個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.3 Simulation results of four algorithms on six data sets

        對(duì)于Aggregation和R15兩個(gè)二維數(shù)據(jù)集來(lái)說(shuō),數(shù)據(jù)集的類簇間隔較大,樣本數(shù)量較少,有利于聚類,從而會(huì)使4種算法在這兩個(gè)數(shù)據(jù)集上的表現(xiàn)相近。而D31數(shù)據(jù)集樣本數(shù)量較多,數(shù)據(jù)集整體分布復(fù)雜。從圖2中可以看出,在D31數(shù)據(jù)集上前3種算法的聚類結(jié)果較好,但DBSCAN算法出現(xiàn)部分?jǐn)?shù)據(jù)點(diǎn)錯(cuò)誤聚類的情況。在Wine和Leukemia數(shù)據(jù)集上,利用主成分分析法提取主成分進(jìn)行可視化,在圖2中可以看出,WBADPC算法的效果略優(yōu)于KNN-DPC,并且明顯好于其余兩種算法。4種算法在全部6個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示。圖3和圖4分別表示了AMI和ARI指標(biāo)的對(duì)比情況,可以看出,在Iris和Wine兩個(gè)多維數(shù)據(jù)集上,本文提出的WBADPC算法表現(xiàn)最優(yōu),KNN-DPC算法略低,DPC算法在Iris數(shù)據(jù)集上性能要差于DBSCAN。綜合來(lái)看,在兩個(gè)UCI的多維數(shù)據(jù)集上,WBADPC算法聚類結(jié)果準(zhǔn)確率最高,其次是KNN-DPC,第3是DPC算法,最后是DBSCAN算法。而在高維數(shù)據(jù)集Leukemia上,WBADPC算法依舊保持良好的聚類性能,而其余3種算法的性能明顯下降。

        本文提出的算法在復(fù)雜度方面不僅和問(wèn)題規(guī)模有關(guān),還與蝙蝠算法的迭代次數(shù)以及適應(yīng)度函數(shù)有關(guān),所以,在提升算法準(zhǔn)確率的基礎(chǔ)上,在時(shí)間復(fù)雜度上略高于其余3種算法,而KNN-DPC算法則略高于DPC算法和DBSCAN算法,DPC算法和DBSCAN算法在時(shí)間復(fù)雜度上最優(yōu)。4種算法空間復(fù)雜度的主要來(lái)源均為存儲(chǔ)距離矩陣,對(duì)于樣本規(guī)模為n的數(shù)據(jù)集,空間復(fù)雜度均為O(n2),量級(jí)相同。所以,本文算法在算法復(fù)雜度方面略高于其他算法,但是在準(zhǔn)確率方面有明顯的提升。

        圖2 4種算法在3個(gè)數(shù)據(jù)集上的聚類結(jié)果Fig.2 The clustering results of the four algorithms on the three data sets

        圖3 4種算法在6個(gè)數(shù)據(jù)集上的AMI對(duì)比圖Fig.3 AMI comparison chart of four algorithms on 6 data sets

        圖4 4種算法在6個(gè)數(shù)據(jù)集上的ARI對(duì)比圖Fig.4 ARI comparison chart of four algorithms on 6 data sets

        4 結(jié) 語(yǔ)

        為了改進(jìn)密度峰值聚類算法無(wú)法自動(dòng)確定截?cái)嗑嚯x的問(wèn)題,本文提出一種結(jié)合蝙蝠算法改進(jìn)的密度峰值聚類算法,該算法利用蝙蝠算法較強(qiáng)的全局尋優(yōu)能力,將Silhouette指標(biāo)作為適應(yīng)度函數(shù),在一定的范圍內(nèi),對(duì)截?cái)嗑嚯x進(jìn)行尋優(yōu)。通過(guò)在人工數(shù)據(jù)集、UCI數(shù)據(jù)集以及基因表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證,可以得出結(jié)論:本文所提出的結(jié)合蝙蝠算法改進(jìn)的密度峰值聚類算法能更準(zhǔn)確地發(fā)現(xiàn)聚類中心點(diǎn),并將非聚類中心點(diǎn)樣本分配到合適的類簇,是一種有效的自適應(yīng)聚類算法,能發(fā)現(xiàn)任意形狀的類簇??捎糜诰垲惾我饩S度、任意規(guī)模的數(shù)據(jù)。下一步研究的目標(biāo)是通過(guò)優(yōu)化算法有效降低算法的時(shí)間復(fù)雜度。

        猜你喜歡
        集上蝙蝠適應(yīng)度
        改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        復(fù)扇形指標(biāo)集上的分布混沌
        蝙蝠
        基于空調(diào)導(dǎo)風(fēng)板成型工藝的Kriging模型適應(yīng)度研究
        蝙蝠女
        蝙蝠在黑暗處如何捕食
        蝙蝠為什么倒掛著睡覺(jué)?
        少數(shù)民族大學(xué)生文化適應(yīng)度調(diào)查
        国产日韩欧美911在线观看| 女人高潮内射99精品| 国产成人无码a区在线观看视频 | 理论片87福利理论电影| 男性一插就想射是因为啥| 日韩人妻大奶子生活片| 欧美巨鞭大战丰满少妇| 亚洲av无码之国产精品网址蜜芽| 欧美成人三级网站在线观看| 蜜臀av人妻一区二区三区 | 高清亚洲成av人片乱码色午夜| 麻豆视频在线播放观看| 欧美牲交a欧美牲交aⅴ免费真| 亚洲中文无码成人影院在线播放 | 亚洲蜜臀av一区二区三区漫画| 欧美性猛交xxxx乱大交极品| 啪啪无码人妻丰满熟妇| 亚洲日韩区在线电影| 日本国产精品高清在线| 亚洲国产精品综合久久网络| 国内老熟妇对白xxxxhd| 精品国产午夜久久久久九九| 手机在线免费观看的av| 伊人精品久久久久中文字幕| 亚洲欧美精品伊人久久| 亚洲免费无毛av一区二区三区| 日韩有码在线观看视频| 久久综合丝袜日本网| 亚洲人成电影在线无码| 国产精品一级黄色大片| 香蕉成人伊视频在线观看| 欧美日韩国产一区二区三区不卡| 在线观看av国产自拍| 国产自拍视频免费在线观看| 男人扒开添女人下部免费视频| 国产精品丝袜黑色高跟鞋| av蜜桃视频在线观看| 国产极品裸体av在线激情网| 中文字幕日韩精品无码内射| 国产av专区一区二区三区| 深夜黄色刺激影片在线免费观看|