亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于局部密度信息熵均值的密度峰值聚類算法

        2022-03-30 07:13:14唐風(fēng)揚(yáng)覃仁超
        計(jì)算機(jī)測量與控制 2022年3期
        關(guān)鍵詞:信息熵聚類閾值

        唐風(fēng)揚(yáng),覃仁超,熊 健

        (西南科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)

        0 引言

        近幾年,隨著全球存儲信息量與數(shù)據(jù)量的爆炸式增長,在給各行業(yè)帶來機(jī)遇的同時(shí)也帶來了巨大的挑戰(zhàn),即如何高效地處理這些信息與數(shù)據(jù)。聚類算法作為數(shù)據(jù)處理的關(guān)鍵技術(shù),本質(zhì)是將一組數(shù)據(jù)劃分為不重疊的子集的過程,每個(gè)子集都是一個(gè)聚類,所以同一聚類中的點(diǎn)彼此相似,而與其他聚類中的點(diǎn)不相似。聚類算法不僅是數(shù)據(jù)挖掘的一種重要手段,還是機(jī)器學(xué)習(xí)理論與技術(shù)中的重要數(shù)據(jù)預(yù)測和分析方法之一,在模式識別[1]、圖像處理[2]、文獻(xiàn)計(jì)量學(xué),生物信息學(xué)等領(lǐng)域得到了廣泛應(yīng)用。

        1 研究現(xiàn)狀

        聚類算法常用在無監(jiān)督學(xué)習(xí)中,算法通過學(xué)習(xí)未作標(biāo)記的樣本以此來揭示數(shù)據(jù)的內(nèi)在規(guī)律,完成數(shù)據(jù)的分類。隨著近年來不斷的深入研究,通常將其分為以下幾類,基于劃分的聚類如K-MEANS[3]算法,然而該算法聚類效果的好壞取決于人工選擇的聚類中心且有著對樣本中的異常點(diǎn)敏感的缺點(diǎn)。為此衍生出了利用聚類中心相互間隔距離較遠(yuǎn)思想的K-MEANS++算法,雖然方法簡單,但非常有效;而改變中心點(diǎn)選取策略的K-MEDOIDS算法在小樣本的數(shù)據(jù)中有著更好的噪聲魯棒性;利用遺傳算法,粒子群等優(yōu)化算法進(jìn)行初始值尋優(yōu)的多種改進(jìn)方法都有著良好效果。其他經(jīng)典算法中有將空間劃分為矩陣,基于網(wǎng)絡(luò)多分辨率聚類技術(shù)的STING[4]算法和利用層次方法進(jìn)行聚類和規(guī)約數(shù)據(jù)的BRICH[5]算法。DBSCAN[6]算法作為具有代表性的密度聚類算法,提出了密度可接近性與密度可連性的概念,將具有足夠密度大小的區(qū)域劃分成簇,在帶噪聲的空間中能識別形狀各異的簇,但參數(shù)的人工選擇限制了算法的效果。而為了解決這個(gè)問題,OPTICS[7]算法應(yīng)運(yùn)而生,算法為聚類的分析生成簇的排序,從這個(gè)排序中可以得到DBSCAN算法的多種聚類結(jié)果。這些算法在性能上有很大差異,如K-MEANS只能識別凸球形簇,STING算法具有很快的速度,但是準(zhǔn)確度不高,而BRICH算法可以簡單對數(shù)據(jù)進(jìn)行預(yù)處理并識別噪聲點(diǎn),但在數(shù)據(jù)是非超球體的分布簇的情況下效果一般。DBSCAN在不規(guī)則簇的識別上效果顯著,也有不錯(cuò)的抗噪聲能力,但在面對數(shù)據(jù)維度升高時(shí)效果明顯下降[8]。

        2014年6月,Rodriguez等人在Science上發(fā)表了DPC[9]算法,這是一種基于距離和密度的算法,能夠找到任意形狀的聚類中心,與傳統(tǒng)算法相比,該算法無需迭代目標(biāo)函數(shù)就能找到高密度點(diǎn),并且實(shí)現(xiàn)簡單。然而該算法需要通過經(jīng)驗(yàn)設(shè)置距離閾值dc完成密度的計(jì)算。目前為止許多學(xué)者對算法進(jìn)行了改進(jìn),其中一部分改進(jìn)算法根據(jù)數(shù)據(jù)集自身數(shù)據(jù)情況自適應(yīng)求得最佳距離閾值dc[10-14],這種做法一定程度上優(yōu)化了距離閾值dc的選擇,但各方法的適用數(shù)據(jù)集不同。文獻(xiàn)[15]通過構(gòu)建Ball-Tree 縮小樣本局部密度和距離的計(jì)算范圍減少了計(jì)算量,文獻(xiàn)[16]基于塊的不相似性度量計(jì)算樣本間的相似度,引入樣本的 K近鄰度量,定義新的局部密度。文獻(xiàn)[17]等通過改變聚類中心的定義,并將鄰域中的密度極值點(diǎn)確定為聚類中心,然后會選擇到超過簇?cái)?shù)目的聚類中心,文獻(xiàn)[18]等引入K近鄰的思想來計(jì)算距離閾值dc和每個(gè)點(diǎn)的局部密度,文獻(xiàn)[19]等定義了從屬的概念來描述相對密度關(guān)系,并使用從屬的數(shù)量作為識別聚類中心的標(biāo)準(zhǔn)。文獻(xiàn)[20]等利用網(wǎng)絡(luò)劃分的方法,解決計(jì)算歐氏距離時(shí)花費(fèi)過多時(shí)間的問題。文獻(xiàn)[21]等不僅引入KNN思想解決局部密度的計(jì)算,并且運(yùn)用PCA對高維數(shù)據(jù)降維。

        本文針對距離閾值dc選擇存在的問題,定義局部密度捕獲范圍并利用局部密度信息熵均值進(jìn)行優(yōu)化,通過設(shè)置距離閾值一定倍數(shù)的參數(shù)確定局部密度捕獲范圍,使得在分類錯(cuò)誤的情況下通過對相對距離進(jìn)行密度的加權(quán)重新獲得正確的分類數(shù)量和分類中心。通過DPC算法與信息熵的結(jié)合使用,即使在不規(guī)則圖形中也能夠排除異常點(diǎn)的干擾,準(zhǔn)確快速地找到正確的分類中心和分類數(shù)量,實(shí)驗(yàn)證明在不同的數(shù)據(jù)集中均取得了良好的效果。

        2 密度峰值聚類算法

        2.1 算法原理

        DPC算法認(rèn)為簇中心擁有如下特征:(1)數(shù)據(jù)點(diǎn)與其他密度大的點(diǎn)有相對遠(yuǎn)的距離[22];(2)數(shù)據(jù)點(diǎn)本身密度大于包圍它周圍的點(diǎn)。通過定義ρi和δi來表示數(shù)據(jù)點(diǎn)的密度與相對距離,然后選取兩者中雙方值都相對較大的點(diǎn)作為簇中心,最后將其他非中心點(diǎn)歸到其最近的更高密度點(diǎn)完成聚類。

        2.2 算法過程

        首先通過計(jì)算得到對于數(shù)據(jù)集S={x1,x2,x3,...,xn}中,數(shù)據(jù)點(diǎn)xi與xj的歐氏距離dij,計(jì)算公式如式(1):

        (1)

        計(jì)算數(shù)據(jù)點(diǎn)xi的局部密度ρi。

        截?cái)嗪擞?jì)算公式如式(2):

        (2)

        dij為數(shù)據(jù)點(diǎn)xi與xj的歐式距離,dc為能囊括總數(shù)據(jù)量1%至2%的距離閾值,其中函數(shù)X如式(3)所示:

        (3)

        高斯核計(jì)算公式如式(4):

        (4)

        截?cái)嗪艘噪x散值估計(jì)出的密度全為整數(shù),有重復(fù)值,而高斯核以連續(xù)值估計(jì)出的密度因此不會產(chǎn)生重復(fù)值,因此當(dāng)不同點(diǎn)擁有相同局部密度的情況下使用高斯核進(jìn)行計(jì)算會取得更好的效果,故本文中采取高斯核密度計(jì)算公式。

        計(jì)算數(shù)據(jù)點(diǎn)xi的相對距離δi,公式如式(5)~(6):

        (5)

        (6)

        公式(5)中δi表示對于數(shù)據(jù)點(diǎn)xi,到有高于它局部密度點(diǎn)的最近距離,(6)中δi是當(dāng)其數(shù)據(jù)點(diǎn)xi在數(shù)據(jù)集S中局部密度最大時(shí)的距離。一般密度大的數(shù)據(jù)點(diǎn)的距離參數(shù)δi要比其它鄰近點(diǎn)大。

        在計(jì)算完每個(gè)點(diǎn)的局部密度ρi和相對距離δi之后,以密度為橫坐標(biāo),相對距離為縱坐標(biāo)畫出相對距離/密度圖在其中選取密度和距離值相對大的點(diǎn)作為聚類中心。不過文獻(xiàn)[4]中提到通過設(shè)置決策函數(shù):

        γi=ρi×δi

        (7)

        來繪制決策圖賦值確定聚類中心。其中具有更大γi的點(diǎn)xi會具有更高成為聚類中心點(diǎn)的可能性。為此,將γi降序排序,在二維平面圖中畫出決策圖,找到γi較大的點(diǎn)xi作為聚類中心,DPC算法將非中心點(diǎn)歸并到密度比當(dāng)前點(diǎn)高且距離最近點(diǎn)以完成聚類。

        2.3 算法的不足

        DPC極其依賴參數(shù)距離閾值dc的選擇,相同的數(shù)據(jù)集在不同的距離閾值dc下有非常大的差別,在Rodriguez等人的文章中指出dc選擇能囊括總數(shù)據(jù)的1%~2%數(shù)量(下文簡稱dc=n%)的數(shù)值,這種局限性突出在一些特殊的數(shù)據(jù)集中,并且對不同的數(shù)據(jù)集難以進(jìn)行距離閾值dc的選擇。

        目前普遍認(rèn)為距離閾值dc選擇過小時(shí),可能會在同一簇內(nèi)找出多個(gè)密度峰值,從而得到過多的聚類中心導(dǎo)致聚類失敗,極端情況下距離閾值dc小于數(shù)據(jù)集中各個(gè)點(diǎn)的最小歐氏距離,這時(shí)每個(gè)數(shù)據(jù)點(diǎn)都將單獨(dú)成為一個(gè)類別;如果距離閾值dc選擇過大,會使得區(qū)分度過低,從而不同的簇往往會被分到同一聚類中心,導(dǎo)致簇中心的少選從而聚類失敗,極端情況是距離閾值dc超過了數(shù)據(jù)點(diǎn)中各個(gè)點(diǎn)的最大歐式距離,這會把所有數(shù)據(jù)歸為一個(gè)類別。

        3 基于局部密度信息熵均值優(yōu)化的聚類算法

        3.1 信息熵

        假設(shè)X為隨機(jī)型離散變量,那么它在有限范圍內(nèi)的取值R={x1,x2,x3,...,xn},而其中xi出現(xiàn)的概率為Pi,同時(shí)設(shè)Pi=P{X=xi},則對于x信息熵的公式定義為式(8)所示:

        (8)

        信息熵作為一種計(jì)算屬性權(quán)重的經(jīng)典算法一般用來計(jì)算數(shù)據(jù)的離散度。熵值一般與離散程度成反比,即數(shù)據(jù)某指標(biāo)越小的熵值說明該指標(biāo)離散程度越大,同時(shí)該指標(biāo)也有更大的信息量。

        3.2 局部密度捕獲范圍

        針對DPC算法在計(jì)算相對距離和密度時(shí)并未考慮數(shù)據(jù)點(diǎn)空間分布特性的影響,而是從全局的角度出發(fā)通過使鄰近樣本數(shù)占比達(dá)到全部樣本的一定數(shù)量,計(jì)算距離閾值來確定密度進(jìn)而算出相對距離的時(shí)候數(shù)據(jù)密度和相對距離分布不均勻,多個(gè)密度峰值被劃分至同一個(gè)聚類中心和一個(gè)簇中心存在多個(gè)密度峰值的問題。

        本文提出一種局部密度捕獲范圍,用來捕獲數(shù)據(jù)點(diǎn)附近一定范圍內(nèi)的點(diǎn)以供后續(xù)計(jì)算使用,通過設(shè)置參數(shù)w來確定某點(diǎn)的局部密度捕獲范圍。

        定義1:局部密度捕獲范圍。局部密度捕獲范圍表示能包含某一區(qū)域內(nèi)全部數(shù)據(jù)點(diǎn)的范圍,記作w如式(9)所示:

        w=c×dc

        (9)

        其中:參數(shù)c在多次實(shí)驗(yàn)中顯示取距離閾值dc的0.5~5倍時(shí)有最佳效果。

        3.3 局部密度信息熵均值的計(jì)算

        本文中將信息熵與局部密度相結(jié)合,通過計(jì)算某點(diǎn)的局部密度信息熵均值,確定該點(diǎn)相對于周圍點(diǎn)的密度分布情況。相對距離相近但局部密度不同的點(diǎn),在決策圖上通常難以區(qū)分,但可以通過以其相對距離乘以局部密度信息熵均值來解決,在相對距離相近的情況下,局部密度相差小的點(diǎn)相對局部密度相差大的點(diǎn)擁有更大的局部密度信息熵均值,從而讓局部密度相差大的點(diǎn)的相對距離變小,進(jìn)而使決策圖中的相應(yīng)的值變小,以此來區(qū)別出數(shù)據(jù)密度點(diǎn)中可能被誤分為聚類中心的點(diǎn)。

        定義2:局部密度信息熵均值。局部密度信息熵均值表示局部范圍內(nèi)數(shù)據(jù)點(diǎn)的分布情況,某一點(diǎn)的局部密度信息熵的值與該點(diǎn)附近密度分布離散程度成反比,記作H(X)。

        局部密度信息熵均值的計(jì)算公式如式 (10)所示:

        (10)

        其中:

        (11)

        N為點(diǎn)xi半徑小于局部密度捕獲范圍w內(nèi)的所有點(diǎn)的數(shù)量。

        在加權(quán)之后由于權(quán)數(shù)值較小,故為使加權(quán)效果更加顯著,在反復(fù)實(shí)驗(yàn)中類比sigmoid,log等函數(shù)之后發(fā)現(xiàn)log一類的對數(shù)函數(shù)由于沒有明確上界會將密度較大的點(diǎn)的相對距離過于放大,從而難以產(chǎn)生效果,而sigmoid函數(shù)無法產(chǎn)生有效的區(qū)分度,但使用反正切函數(shù)acrtan能夠更好地將正確簇中心與錯(cuò)誤簇中心區(qū)別,故選用使用反正切公式來處理H(X)得出全新加權(quán)系數(shù)H′(X)如式(12)所示:

        (12)

        3.4 加權(quán)后相對距離

        使用原相對聚類δ新加權(quán)系數(shù)H′(X)相乘得到加權(quán)后相對距離δe如式(13)所示。

        δe=H′(X)×δ

        (13)

        3.5 新的決策函數(shù)γe

        使用新的加權(quán)相對距離δe與密度ρ相乘得到γe如式(14),從而繪制新的決策圖。

        γe=ρ×δe

        (14)

        3.6 聚類中心的選取

        如圖1所示,點(diǎn)A和點(diǎn)B屬同一簇,但點(diǎn)B具有較高的局部密度和距離δ,在DPC中在距離閾值dc取值較小時(shí)會把A,B點(diǎn)看作兩個(gè)聚類中心點(diǎn),而LDDPC算法通過對相對距離δe進(jìn)行加權(quán),使得B的相對距離δe變小,從而將A,B點(diǎn)歸為同一簇中完成正確的聚類。

        圖1 錯(cuò)誤聚類示例

        經(jīng)過反正切公式(11)和相對距離加權(quán)公式(12)的運(yùn)算之后,在γe上決策圖的聚類中心變得清晰可分。在決策圖中很容易看到非聚類中心點(diǎn)之間排列緊密,且相互之間的差值非常小,這時(shí)只需選取決策函數(shù)γe較大且相互差距大的點(diǎn)作為聚類中心即可。經(jīng)LDDPC算法處理后相比DPC算法能夠更快速更直接地選取正確的聚類中心。

        4 算法流程

        算法處理流程如下。

        步驟1:輸入待檢測的數(shù)據(jù)集S={x1,x2,x3,...,xn}和dc以及參數(shù)w;

        步驟2:將數(shù)據(jù)集按照公式(1)求出歐氏距離;

        步驟3:分別代入公式(4)~(6)求出每個(gè)數(shù)據(jù)點(diǎn)xi的ρi與δi;

        步驟4:按照公式(10)~(12)算出每個(gè)數(shù)據(jù)點(diǎn)的局部密度信息熵均值H(X)和加權(quán)后的系數(shù)H′(X);

        步驟5:根據(jù)公式(13)和公式(14)算出加權(quán)后每個(gè)點(diǎn)xi的相對距離δei以及γei;

        步驟6:根據(jù)γe的決策圖計(jì)算出聚類中心;

        步驟7:將每個(gè)數(shù)據(jù)按照最近距離數(shù)據(jù)點(diǎn)的類別分類;

        步驟8:輸出實(shí)驗(yàn)結(jié)果。

        5 實(shí)驗(yàn)與分析

        5.1 實(shí)驗(yàn)環(huán)境

        LDDPC算法通過python3.7.9實(shí)現(xiàn)與處理。實(shí)驗(yàn)環(huán)境:操作系統(tǒng)為win10 64位,CPU為I5-7300HQ,主頻2.5 GHz,內(nèi)存為16 G。為了驗(yàn)證算法性能,將在下文的實(shí)驗(yàn)中把DPC算法與LDDPC算法效果相比較。

        5.2 實(shí)驗(yàn)說明

        實(shí)驗(yàn)一與實(shí)驗(yàn)二數(shù)據(jù)集詳見表1,為了驗(yàn)證算法的有效性和適應(yīng)性,故實(shí)驗(yàn)中選取的dc值中即有小于1%,大于2%也有1%~2%正常取值區(qū)間內(nèi)DPC算法無法正常發(fā)揮效果的值,通過實(shí)驗(yàn)驗(yàn)證錯(cuò)誤聚類中的聚類過多和過少的情況下LDDPC算法仍能發(fā)揮的效果。

        表1 實(shí)驗(yàn)一與實(shí)驗(yàn)二所用數(shù)據(jù)集

        5.3 實(shí)驗(yàn)一:DPC算法分類錯(cuò)誤時(shí)通過LDDPC算法獲得正確分類

        圖2至圖4為在Aggregation數(shù)據(jù)集中,當(dāng)dc=1.3%時(shí)的效果圖,決策圖和聚類結(jié)果圖,圖2為密度ρ和相對距離δ的原始分布,圖(a)為原始算法得出的分布情況而圖(b)為LDDPC算法處理后(即密度ρ和加權(quán)后相對距離距離δe)的分布,圖3和圖4中可以看到圖(a)DPC算法中簇?cái)?shù)過多而導(dǎo)致分類的失敗,決策圖中能看到超過簇?cái)?shù)7個(gè)的相對大的γ值,而圖(b)LDDPC算法處理后,在決策圖上能夠明顯分辨出7個(gè)相對大的γe值,從而成功分為7個(gè)類。在圖5至圖7為數(shù)據(jù)集Flame中,為dc取值為3.6%時(shí)的對比圖,從圖5(a),圖6(a),圖7(a)中可以明顯看出距離閾值取值的失敗導(dǎo)致出現(xiàn)4個(gè)簇中心的多分類情況,此時(shí)同一個(gè)簇中擁有多個(gè)聚類峰值,而在圖5(b),圖6(b),圖7(b)中在LDDPC算法的處理下決策圖中僅出現(xiàn)2個(gè)相對較大的γe值,說明同一簇中多余的聚類峰值的消失,于是數(shù)據(jù)成功分成2個(gè)類別。

        圖2 在Aggregation數(shù)據(jù)集下的相對距離/密度圖對比圖

        圖3 在Aggregation數(shù)據(jù)集下的決策圖對比圖

        圖4 在Aggregation數(shù)據(jù)集下的聚類結(jié)果對比圖

        圖5 在Flame數(shù)據(jù)集下的相對距離/密度對比圖

        圖6 在Flame數(shù)據(jù)集下的決策圖對比圖

        圖7 在Flame數(shù)據(jù)集下的聚類結(jié)果對比圖

        通過實(shí)驗(yàn)可以看到以上數(shù)據(jù)集均被錯(cuò)誤地分成了多個(gè)類別,并且從決策圖可以看出分布并不明顯,稍有不慎就會誤選,將密度ρ和相對距離δ乘積γ較大的點(diǎn)選為聚類中心,導(dǎo)致同一簇中存在多個(gè)聚類峰值的情況,而在LDDPC算法下通過γe構(gòu)建決策圖從而被正確的分類,并且新決策圖中γe值顯示非中心點(diǎn)與中心點(diǎn)具有更大的差值,相比原決策圖更加清晰可分,不會因不慎而錯(cuò)選多選而導(dǎo)致出現(xiàn)不正確的簇?cái)?shù)的情況出現(xiàn)。

        5.4 實(shí)驗(yàn)二:DPC算法分類正確時(shí)獲得更加清晰的決策圖

        圖8至圖10展示了R15數(shù)據(jù)集在dc=2%時(shí)正確聚類情況,通過圖8和圖9的對比可以看出,在LDDPC算法的處理下,相比DPC算法中原來的相對距離δ,經(jīng)局部密度信息熵加權(quán)后的加權(quán)相對距離δe具有更大的值,聚類中心點(diǎn)和非中心點(diǎn)在新決策圖中的γe值與原決策圖中的γ值相比差值變大,這使在決策圖中尋找聚類中心時(shí)更加容易。同理圖11至圖13是數(shù)據(jù)集D31在dc=2%時(shí),經(jīng)過LDDPC算法處理前后的對比,圖11(a)與圖11(b)相比DPC算法區(qū)分度更明顯,相對距離δ整體上移,在決策圖中同樣體現(xiàn)為γe值的整體上移,與R15中同樣在處理后增加了決策圖的辨識度,能夠更好地把真實(shí)簇中心從其他高密度峰值的虛假簇中心中分離,從而能夠更加精確快速地完成31個(gè)類別的數(shù)據(jù)集的分類。

        圖8 在R15數(shù)據(jù)集下的相對距離/密度對比圖

        圖9 在R15數(shù)據(jù)集下的決策圖對比圖

        圖10 在R15數(shù)據(jù)集下的聚類結(jié)果對比圖

        圖11 在D31數(shù)據(jù)集下的相對距離/密度對比圖

        圖12 在D31數(shù)據(jù)集下的決策圖對比圖

        圖13 在D31數(shù)據(jù)集下的聚類結(jié)果對比圖

        以上實(shí)驗(yàn)說明數(shù)據(jù)集在LDDPC算法處理過相對距離δ之后在不影響DPC算法本身效果的同時(shí)還使得在決策圖上尋找聚類中心時(shí)更加容易。

        5.5 實(shí)驗(yàn)三:高維數(shù)據(jù)集測試

        為了進(jìn)一步驗(yàn)證算法的有效性,實(shí)驗(yàn)三中選取了UCI數(shù)據(jù)集中的3個(gè)高維數(shù)據(jù)集分別為Iris,Wine,Seed進(jìn)行測試,實(shí)驗(yàn)選用的數(shù)據(jù)集詳細(xì)信息如表2,DPC與LDDPC算法實(shí)驗(yàn)結(jié)果的對比如表3。

        表2 實(shí)驗(yàn)三所用數(shù)據(jù)集

        表3 實(shí)驗(yàn)三實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)三在dc值的選擇上仍然選擇了一個(gè)小于1%,一個(gè)大于2%,一個(gè)介于1%~2%之間且分類錯(cuò)誤的3個(gè)具有代表性的dc值。在圖14中可以看到(a)圖被誤分成了2類,而(b)圖中決策圖上出現(xiàn)了3個(gè)γe值相對大的點(diǎn),通過對相對距離進(jìn)行的加權(quán)找到了隱藏的真實(shí)聚類中心,即一共3個(gè)正確的聚類中心;而圖15(a),圖16(a)圖中被多分成了4類的情況下,經(jīng)過LDDPC算法處理之后明顯看到?jīng)Q策圖上γe值相對大的點(diǎn)由4個(gè)變?yōu)?個(gè),即通過對相對距離的加權(quán)使同一簇中原有的兩個(gè)密度峰值減少為一個(gè),排除了錯(cuò)誤的聚類中心,數(shù)據(jù)集成功地被重新分成了正確的3類,測試效果表明算法在DPC分類錯(cuò)誤時(shí)能夠使分類正確,且可以明顯提升算法的準(zhǔn)確率。

        圖14 在Iris數(shù)據(jù)集下的決策圖對比圖

        圖15 在Wine數(shù)據(jù)集下的決策圖對比圖

        圖16 在Seed數(shù)據(jù)集下的決策圖對比圖

        6 結(jié)束語

        針對傳統(tǒng)的DPC算法在距離閾值選取不當(dāng)時(shí)無法正確分類的情況,本文提出了局部密度捕獲范圍和利用局部密度信息熵均值的加權(quán)算法(LDDPC),成功在距離閾值使分類錯(cuò)誤的情況下通過對數(shù)據(jù)點(diǎn)的相對距離進(jìn)行其局部密度信息熵均值的加權(quán)使分類正確。該算法克服了DPC算法對距離閾值取值敏感的缺點(diǎn),在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以證明,通過LDDPC算法在DPC算法的距離閾值取值不當(dāng)導(dǎo)致分類錯(cuò)誤時(shí),得以正確分類,并且提高準(zhǔn)確率。

        猜你喜歡
        信息熵聚類閾值
        基于信息熵可信度的測試點(diǎn)選擇方法研究
        小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
        基于自適應(yīng)閾值和連通域的隧道裂縫提取
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        室內(nèi)表面平均氡析出率閾值探討
        基于信息熵的IITFN多屬性決策方法
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一区二区国产av网站| 狠狠噜天天噜日日噜| 久久久噜噜噜www成人网| 久久久久亚洲精品天堂| 日本少妇被爽到高潮的免费| 国产蜜臀精品一区二区三区| 久久国产精品婷婷激情| 丰满少妇被猛烈进入高清播放| 国产精品av在线| 亚洲乱码日产精品bd| 在线观看亚洲精品国产| 少妇高潮惨叫久久久久电影| av资源吧首页在线观看| 国产精品亚洲在线播放| 国产精品久色婷婷不卡| 国产精品精品自在线拍| 国产真人性做爰久久网站| 国产女女做受ⅹxx高潮| 国产精品麻豆成人AV电影艾秋| 老熟妇高潮av一区二区三区啪啪| 国产av一区二区网站| 日本一卡二卡3卡四卡免费观影2022| 无码少妇一区二区三区| 国产精品乱子伦一区二区三区| 国产精品国产三级在线专区| 日本视频一区二区三区观看| 日韩少妇内射免费播放18禁裸乳 | 亚洲欧洲日产国码av系列天堂| 精品一区二区三区免费播放| 国产高清a| 国产免费网站在线观看不卡| 一本色道久久爱88av| 妺妺窝人体色www在线图片 | 亚洲中文字幕人妻诱惑| 美女在线一区二区三区视频| 少妇无码吹潮| 91久久福利国产成人精品| 亚洲中文字幕高清视频| 虎白女粉嫩粉嫩的18在线观看 | 亚洲一区二区三区最新视频| 国产草逼视频免费观看|