亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)K-medoids的聚類質(zhì)量評價指標(biāo)研究①

        2019-07-23 02:08:54鄒臣嵩段桂芹
        計算機系統(tǒng)應(yīng)用 2019年6期
        關(guān)鍵詞:中心點聚類定義

        鄒臣嵩,段桂芹

        1(廣東松山職業(yè)技術(shù)學(xué)院 電氣工程系,韶關(guān) 512126)

        2(廣東松山職業(yè)技術(shù)學(xué)院 計算機系,韶關(guān) 512126)

        聚類是在沒有任何先驗知識的指導(dǎo)下,從樣本集合中挖掘出潛在的相似模式,并將其劃分成多個組或簇的過程,其目的是使得簇內(nèi)相似度高,而簇間相似度低,數(shù)據(jù)對象的簇可以看做隱含的類,聚類可以自動地發(fā)現(xiàn)這些類.由于在聚類過程中并沒有提供類的標(biāo)號信息,因此,聚類又被稱做無監(jiān)督學(xué)習(xí),對于無先驗知識的樣本來說,如何對其聚類結(jié)果進(jìn)行有效評價是國內(nèi)外的研究熱點,許多經(jīng)典的內(nèi)部聚類評價指標(biāo)先后被提出,如CH,I,DB,SD,BWP 等,然而這些指標(biāo)可能會受噪聲等異常的影響,因此,如何改進(jìn)或設(shè)計出更為科學(xué)合理的評價指標(biāo)是聚類評價領(lǐng)域的一個重要研究方向.此外,聚類結(jié)果評價除了和有效性指標(biāo)本身有關(guān),還與所采用的聚類算法密不可分,研究表明,沒有任何一種聚類算法可以得到所有數(shù)據(jù)集的最優(yōu)劃分[1],而應(yīng)用范圍較廣的K-means、K-medoids 及其衍生算法[2]在實際應(yīng)用中又存在一定的不足.為此,本文對常用聚類評價指標(biāo)進(jìn)行了對比分析,提出了一個新的評價指標(biāo),并對K-medoids 算法進(jìn)行了改進(jìn),在此基礎(chǔ)上,設(shè)計了聚類質(zhì)量評價模型,先后采用UCI 數(shù)據(jù)集和KDD CUP99數(shù)據(jù)集對新模型進(jìn)行了驗證,實驗結(jié)果表明,新評價指標(biāo)的聚類數(shù)正確率明顯高于其他四種常用指標(biāo),聚類質(zhì)量評價模型可以給出精準(zhǔn)的聚類數(shù)范圍.

        1 研究現(xiàn)狀

        1.1 劃分式聚類算法

        劃分式聚類算法[3]在運算前需要人工預(yù)定義聚類數(shù)k,再通過反復(fù)迭代更新各簇中心,不斷優(yōu)化(降低)目標(biāo)函數(shù)值,逐漸逼近最優(yōu)解,完成最終聚類,Kmeans 和K-medoids 是兩種典型的劃分式聚類算法.Kmeans 算法的簇中心是通過計算一個簇中對象的平均值來獲取,它根據(jù)數(shù)據(jù)對象與簇中心的距離完成"粗聚類",再通過反復(fù)迭代,將樣本從當(dāng)前簇劃分至另一個更合適的簇來逐步提高聚類質(zhì)量,其核心思想是找出k個簇中心,使得每個數(shù)據(jù)點到其最近的簇中心的平方距離和被最小化.該方法描述容易、實現(xiàn)簡單快速,是目前研究最多的聚類方法,文獻(xiàn)[4-6]從初始簇中心的選擇、對象的劃分、相似度的計算方法、簇中心的計算方法等方面對該經(jīng)典算法進(jìn)行了改進(jìn),使其適用于不同的聚類任務(wù),但在使用中存在一些不足:簇的個數(shù)難以確定;聚類結(jié)果對初始值的選擇較敏感;算法容易陷入局部最優(yōu)值;對噪音和異常數(shù)據(jù)敏感;不能用于發(fā)現(xiàn)非凸形狀的簇,或具有各種不同規(guī)模的簇.

        當(dāng)樣本中存在一個或多個極值對象時,采用均值算法會顯著地扭曲數(shù)據(jù)的分布,而平方誤差函數(shù)的使用會進(jìn)一步地擴大這一影響,針對這一問題,Kmedoids 通過試圖最小化所有對象與其所屬簇的中心點之間的絕對誤差之和的方式找出簇中心點.典型基于中心的劃分方法有PAM、CLARA 和CLARANS[7],雖然K-medoids[8]算法對噪聲和異常數(shù)據(jù)的敏感程度有所改善,但仍依賴于初始類簇中心的隨機選擇,且更新類簇中心時采用全局最優(yōu)搜索,故耗時較多.文獻(xiàn)[9]提出一種快速K-medoids 算法,從初始聚類中心選擇、類簇中心更新方法兩方面對PAM 算法進(jìn)行改進(jìn),基本思想是:首先計算數(shù)據(jù)集中每個樣本的密度,選擇前k個位于樣本分布密集區(qū)域的樣本為初始聚類中心,再將其余樣本分配到距離最近的類簇中心,產(chǎn)生初始聚類結(jié)果;然后,在每個類簇內(nèi)部找一個新中心,使該簇非中心樣本到中心樣本距離之和最小,進(jìn)而得到k個新中心;最后按距離最近原則,重新分配所有非中心樣本到最近類簇中心,如果本次迭代所得聚類結(jié)果與前一次不同,則轉(zhuǎn)至下一次迭代,否則算法停止.在實際應(yīng)用中,該算法的初始中心在一定程度上存在過于集中的可能,因此,從樣本的空間結(jié)構(gòu)來看,各中心點的分散程度不高,代表性依然不足.

        1.2 內(nèi)部評價指標(biāo)

        聚類有效性評價指標(biāo)是對聚類結(jié)果進(jìn)行優(yōu)劣判斷的依據(jù),通過比較指標(biāo)值可以確定最佳聚類劃分和最優(yōu)聚類數(shù),在對聚類結(jié)果進(jìn)行評估時,內(nèi)部評價指標(biāo)在不涉及任何外部信息的條件下,僅依賴數(shù)據(jù)集自身的特征和度量值,通過計算簇內(nèi)部平均相似度、簇間平均相似度或整體相似度來評價聚類效果的優(yōu)劣和判斷簇的最優(yōu)個數(shù).理想的聚類效果是簇內(nèi)緊密且簇間分離,因此,常用內(nèi)部評價指標(biāo)的主要思想是通過簇內(nèi)距離和簇間距離的某種形式的比值來度量的.

        為便于對各指標(biāo)和本文算法進(jìn)行描述,設(shè)樣本集合X={x1,x2,…,xi,…,xN},|X|=N,各樣本特征數(shù)為p,該樣本集由k個簇構(gòu)成,即X={C1,C2,…,Ck},每簇樣本數(shù)為n,c為樣本集的均值中心,簇中心集合V={v1,v2,…,vk}(k<N),常見的內(nèi)部評價指標(biāo)及其特點如下:

        (1)DB 指標(biāo)(Davies-Bouldin Index)[10]

        DB 指標(biāo)將相鄰兩簇的簇中各樣本與簇中心的平均距離之和作為簇內(nèi)距離,將相鄰兩簇的簇中心間的距離作為簇間距離,取二者比值最大者作為該簇的相似度,再對所有簇的相似度取平均值得到樣本集的DB 指標(biāo).可以看出,該指標(biāo)越小意味著各簇間的相似度越低,從而對應(yīng)更佳的聚類結(jié)果.DB 指標(biāo)適合評價"簇內(nèi)緊湊,簇間遠(yuǎn)離"的數(shù)據(jù)集,但當(dāng)數(shù)據(jù)集的重疊度較大(如:當(dāng)遇到環(huán)狀分布數(shù)據(jù)時),由于各簇的中心點重疊,因此DB 指標(biāo)很難對其形成正確的聚類評價.

        (2)CH 指標(biāo)(Calinski-Harabasz)[11]

        CH 指標(biāo)將各簇中心點與樣本集的均值中心的距離平方和作為數(shù)據(jù)集的分離度,將簇中各點與簇中心的距離平方和作為簇內(nèi)的緊密度,將分離度與緊密度的比值視為CH 的最終指標(biāo).該指標(biāo)越大表示各簇之間分散程度越高,簇內(nèi)越緊密,聚類結(jié)果越優(yōu).Milligan 在文獻(xiàn)[12]中,對CH 等評價指標(biāo)的性能進(jìn)行了深入探討,實驗結(jié)果表明:CH 指標(biāo)在多數(shù)情況下,都要優(yōu)于其它的指標(biāo),但當(dāng)聚類數(shù)趨近于樣本容量N時,各樣本自成一簇,簇中心即為樣本自身,此時簇內(nèi)距離和約等于0,分母為極小值,CH 指標(biāo)將趨于最大,此時的聚類評價結(jié)果無實際意義.

        (3)XB 指標(biāo)(Xie-Beni)[13]

        和CH 指標(biāo)一樣,XB 也是將簇內(nèi)緊密度與簇間分離度的比值作為指標(biāo)的表達(dá)式,期望在簇內(nèi)緊密度與簇間分離度之間尋找一個新的平衡點,使其達(dá)到一個理想化的極值,從而得到最優(yōu)的聚類結(jié)果.與CH 指標(biāo)不同是:XB 指標(biāo)使用最小簇中心距離的平方作為整個樣本集的分離度.

        (4)Sil 指標(biāo)(Silhouette-Coefficient)[14]

        式中,a(x)是樣本x所屬簇的簇內(nèi)凝聚程度,用x與其同一個簇內(nèi)的所有元素距離的平均值來表示,凝聚度a(x)定義為:

        式中,b(x)是樣本x與其他簇的簇間分離程度,用x與其它簇之間平均距離的最小值來表示,分離度b(x)定義為:

        從式(4)可以看出,當(dāng)簇內(nèi)距離減小,簇間距離增大時,Sil 指標(biāo)值增大,聚類結(jié)果趨于理想,因此,要取得最佳聚類,就需要減少簇內(nèi)各點之間的距離,同時增大簇間的距離.然而,與CH 指標(biāo)類似,當(dāng)數(shù)據(jù)接近散點狀分布時,聚類結(jié)果并不理想,此外,當(dāng)數(shù)據(jù)成條狀分布的時,各簇中心非常接近,且聚類結(jié)果非常理想,但Sil 指標(biāo)此時最小,并不能對聚類結(jié)果做出客觀的評價.

        2 聚類質(zhì)量評價模型

        聚類質(zhì)量評價模型由聚類算法和內(nèi)部評價指標(biāo)兩部分構(gòu)成,鑒于K-medoids 算法及其改進(jìn)算法在初始聚類中心選擇階段存在的問題,以及上述常用內(nèi)部評價指標(biāo)存在的缺陷,本文對二者分別進(jìn)行了改進(jìn),具體如下.

        2.1 改進(jìn)K 中心點聚類算法

        本文在文獻(xiàn)[7,8]的基礎(chǔ)上,選取被其他樣本緊密圍繞且相對分散的數(shù)據(jù)對象作為初始聚類中心,使得中心點在確保自身密度較大的同時還具備良好的獨立性.基本思路是:首先通過計算樣本集中各樣本間的距離得到樣本集的距離矩陣;將樣本集與各樣本的平均距離的比值作為樣本的密度,選取密度值最高的α個樣本存入高密度點集合H中,α表示候選代表點在樣本集中所占的比例,該值可由用戶指定,本文實驗環(huán)節(jié)中的α值為30%;從集合H中選取相對分散且具有較高密度的初始中心存入集合V,即V={v1,v2,…,vk}.最后,借鑒文獻(xiàn)[7]的算法,將各樣本按最小距離分配至相應(yīng)簇中,重復(fù)這一過程,直至準(zhǔn)則函數(shù)收斂,本文算法的定義和公式如下.

        定義1.空間任意兩點間的歐氏距離定義為

        其中,i=1,2,…,N;j=1,2,…,N

        定義2.數(shù)據(jù)對象xi的平均距離定義為:xi與全部樣本的距離之和除以樣本集的總個數(shù).

        定義3.樣本集的平均距離定義為:各數(shù)據(jù)對象間的距離總和除以從樣本集中任選兩個對象的所有排列次數(shù).

        定義4.數(shù)據(jù)對象xi的密度定義為:樣本集的平均距離與數(shù)據(jù)對象xi的平均距離的比值.

        定義5.數(shù)據(jù)對象xi與所屬簇的各數(shù)據(jù)對象的距離之和為:

        其中,xi,xj∈Ct,t=1,2,…,k

        定義6.簇Ct的簇內(nèi)距離和矩陣為:

        其中,t=1,2,…,k

        定義7.數(shù)據(jù)對象xi在簇更新過程中被視為簇中心的條件為:

        其中,xi∈Ct,t=1,2,…,k

        定義8.聚類誤差平方和E的定義為

        其中,xtj是第t簇的第j個數(shù)據(jù)對象,vt是第t簇的中心.

        2.2 聚類有效性指標(biāo)Improve-XB

        在對無先驗知識樣本的聚類結(jié)果進(jìn)行評價時,通常將“簇內(nèi)緊密,簇間分離”作為內(nèi)部評價的重要標(biāo)準(zhǔn),文獻(xiàn)[11]和文獻(xiàn)[13]將各簇中心之間的距離作為簇間距離,可能會出現(xiàn)因簇中心重疊而導(dǎo)致聚類評價結(jié)果失效等問題,為此本文提出:使用兩個簇的最近邊界點間的距離取代簇中心之間的距離,為了便于分析,以圖1所示的人工數(shù)據(jù)集進(jìn)行說明,該數(shù)據(jù)集由三個環(huán)形結(jié)構(gòu)的簇構(gòu)成,各簇中心極為接近,從DB、XB 指標(biāo)公式可知,在計算該數(shù)據(jù)集的簇間距離時,由于簇中心點趨于重疊,必然會出現(xiàn)簇間距離近似于0 的情況,當(dāng)以"簇內(nèi)緊密,簇間分離"作為評判依據(jù)時,意味著此時簇間的相似度極高,從聚類劃分的角度來看,應(yīng)將二者合并為一簇以提高聚類質(zhì)量,而事實上,這種錯誤的劃分將導(dǎo)致圖1的最終聚類全部合并為一個簇,這顯然與真實的結(jié)果有著明顯偏差.而本文使用簇間最近邊界點間的距離表示簇間距離,則可以從幾何特征上確保各簇的結(jié)構(gòu)差異性,進(jìn)而避免簇間距離為0 現(xiàn)象的發(fā)生,最大程度地反映出簇間的相似程度,克服了環(huán)狀中心點因重疊而導(dǎo)致的聚類結(jié)果合并等問題,新指標(biāo)IXB 定義及公式如下.

        定義9.簇內(nèi)緊密度(Compactness)定義為:各樣本與所屬簇的中心點的距離平方和.實質(zhì)為:

        定義10.簇間分離度(Separation)定義為:簇間最鄰近邊界點的距離平方和與簇內(nèi)樣本個數(shù)的乘積.

        其中,xi和xj是簇Ci和Cj之間距離最近的邊界點.

        定義11.IXB 指標(biāo)定義為簇內(nèi)緊密度與簇間分離度的比值與其倒數(shù)之和,即實質(zhì)為:

        定義12.最優(yōu)聚類數(shù)k定義為IXB(k)取最大值時的聚類數(shù)目,即:

        其中,kmin=2,kmax采用文獻(xiàn)[15]的AP 算法得到.

        圖1 環(huán)狀分布數(shù)據(jù)集

        IXB 指標(biāo)由兩部分組成:Sep/Comp隨著聚類數(shù)k的增加而遞增,Comp/Sep隨著聚類數(shù)k的增加而遞減,可以看出,IXB 指標(biāo)通過制衡Sep/Comp和Comp/Sep之間的關(guān)系,確保了最優(yōu)聚類劃分,IXB 越大,意味著聚類質(zhì)量越好.

        2.3 聚類質(zhì)量評價模型描述

        將改進(jìn)的K 中心點算法與IXB 指標(biāo)相結(jié)合,構(gòu)建聚類質(zhì)量評價模型如圖2所示,模型描述如下:

        圖2 聚類質(zhì)量評價模型

        (1)根據(jù)式(6)~(8)依次計算整個樣本集的任意兩點間的歐氏距離、各數(shù)據(jù)對象的平均距離和樣本集的平均距離.

        (2)根據(jù)式(10)計算各數(shù)據(jù)對象的密度,選取密度值最高的α個樣本存入候選初始中心集合H中,令k=2.

        (3)根據(jù)式(6)將集合H中相距最遠(yuǎn)的兩個高密度點v1和v2存入初始中心集合V中.

        (4)從H中選擇滿足與v1、v2距離乘積最大的v3,將其存儲至V中.依次類推,得到相對分散且具有較高密度的初始中心集合V,V={v1,v2,…,vk}.

        (5)在更新簇中心階段,根據(jù)式(11)、式(12)得到簇內(nèi)距離和矩陣,根據(jù)式(13)選出新的簇中心,沿用文獻(xiàn)[7]的算法,將各樣本按最小距離分配至相應(yīng)簇中,重復(fù)這一過程,直至準(zhǔn)則函數(shù)式(14)收斂.

        (6)使用式(17)計算IXB 指標(biāo),對當(dāng)前聚類結(jié)果進(jìn)行評價,令k=k+1,重復(fù)步驟(4),直至k=kmax.

        (7)使用式(18),將IXB 取最大值時的k值作為最優(yōu)聚類數(shù).

        2.4 模型的性能分析

        本文算法將樣本集與各樣本的平均距離比值作為樣本的密度,將高密度點視為候選簇中心,確保了聚類中心的代表性,使用最大乘積法對高密度點進(jìn)行二次篩選,增強了候選簇中心在空間上的離散程度,使得聚類中心兼具代表性和分散性,提高了逼近全局最優(yōu)解的概率,這樣選擇的初始聚類中心更符合樣本的分布特征,甚至有可能位于真實的簇中心,因此,所得到的初步聚類劃分與樣本的真實分布更加接近.在聚類結(jié)果評價方面,通過將簇間最鄰近邊界點的距離平方和與簇內(nèi)樣本個數(shù)的乘積作為簇間分離度,在簇內(nèi)緊密度與簇間分離度之間尋找一個新的平衡點,從而得到一個理想化的極值,通過搜索該極值,即可有效地完成最優(yōu)聚類劃分,確定最優(yōu)聚類數(shù)目k,從而得到更好的聚類結(jié)果,從整體上提升無先驗知識樣本的檢測率和分類正確率等評價指標(biāo).

        3 實驗結(jié)果與分析

        實驗分為兩個部分,第一部分對聚類質(zhì)量評價模型的有效性進(jìn)行了驗證:首先選用表1中的UCI 數(shù)據(jù)集對本文算法和其他改進(jìn)算法的準(zhǔn)確率、迭代次數(shù)、總耗時進(jìn)行了對比測試,然后使用本文算法依次結(jié)合IXB 及其它4 個評價指標(biāo)完成了聚類數(shù)對比測試;第二部分將模型應(yīng)用于數(shù)據(jù)集KDD CUP99,從檢測率、分類正確率、漏報率三個方面驗證模型的實用性.本文實驗環(huán)境:Intel(R)Core(TM)i3-3240 CPU @3.40 GHz,8 GB 內(nèi)存,Win10 專業(yè)版,實驗平臺Matlab 2011b.

        表1 實驗數(shù)據(jù)

        3.1 聚類質(zhì)量評價模型的有效性測試

        (1)改進(jìn)聚類算法的對比測試

        從表2~表4的實驗對比結(jié)果可以看出,改進(jìn)聚類算法的聚類準(zhǔn)確率、迭代次數(shù)和總耗時全部優(yōu)于其他四種算法,主要原因在于K 中心點的初始中心隨機分布令迭代次數(shù)與總耗時同時增加,而文獻(xiàn)[7]的初始中心點過于集中,文獻(xiàn)[8]的初始中心雖然具有一定的分散性,但每次迭代都將簇平均值作為簇中心,個別維度存在受異常數(shù)據(jù)影響的隱患,因此,本文算法的整體耗時要低于文獻(xiàn)[7,8]算法.需要特別指出的是,由于本文算法的初始聚類中心同時兼具代表性和分散性,不僅提高了聚類準(zhǔn)確率,同時還降低了算法后期的迭代次數(shù),因此,對算法的運算效率的提升產(chǎn)生了正向的推動作用.

        表2 聚類準(zhǔn)確率比較

        表3 迭代次數(shù)

        表4 聚類總耗時(單位:s)

        (2)IXB 指標(biāo)的有效性對比測試

        觀察表5可知,IXB 在5 個UCI 數(shù)據(jù)集上的聚類數(shù)正確率為80%,而DB、CH、XB 和Sil 指標(biāo)依次為40%,60%,40%,60%,IXB 指標(biāo)的聚類數(shù)正確率明顯高于其他四種指標(biāo).

        3.2 聚類質(zhì)量評價模型在KDD CUP99 中的應(yīng)用

        本實驗環(huán)節(jié)選取KDD CUP99[16]訓(xùn)練集中的17330 條記錄作為訓(xùn)練數(shù)據(jù),從corrected 數(shù)據(jù)集中隨機抽取11420 條數(shù)據(jù)作為測試集用于檢驗?zāi)P偷男阅?為提高整體運行效率,在數(shù)據(jù)預(yù)處理方面,首先使用獨熱編碼完成字符數(shù)據(jù)的格式轉(zhuǎn)換,再通過屬性簡約法將數(shù)據(jù)集的41 個特征約簡為15 個[17],最后將數(shù)據(jù)集歸一化處理,形成新樣本集,KDD CUP99 數(shù)據(jù)描述如表6.

        表5 各內(nèi)部評價指標(biāo)聚類數(shù)對比

        表6 KDD CUP99 數(shù)據(jù)集

        (1)最優(yōu)k值的獲取

        借鑒文獻(xiàn)[15],使用AP 算法對樣本集完成"粗聚類"得到訓(xùn)練集的最大聚類數(shù)kmax=29,如圖3所示,在訓(xùn)練過程中,當(dāng)15≤k≤20 時,K 中心點算法的IXB 增幅較大,當(dāng)k=20 時,IXB 達(dá)到峰值,此后,隨著k值的不斷增大,IXB 總體呈下降趨勢;文獻(xiàn)[8],文獻(xiàn)[9]和本文算法的IXB 隨著k值的不斷增大而緩慢增加,當(dāng)25≤k≤28 時,三種算法的IXB 依次達(dá)到峰值,此后隨著k值的再次增大,IXB 緩慢下降.由定義11 可知,當(dāng)IXB 最大時k值即為最優(yōu),因此,三種算法使用IXB 得到訓(xùn)練集的最優(yōu)k值分別為:k文獻(xiàn)[8]=26,k文獻(xiàn)[9]=28,k本文算法=28.

        (2)IXB 對入侵檢測指標(biāo)的影響

        在驗證IXB 是否有助于提高檢測精度的環(huán)節(jié)中,將圖3中IXB 緩慢上升至峰值,再從峰值緩慢下降的這一階段所對應(yīng)的多個連續(xù)k值定義為最優(yōu)聚類數(shù)范圍,并對該范圍內(nèi)的各入侵檢測指標(biāo)進(jìn)行對比,由于K 中心點算法的隨機性較強,各項指標(biāo)與k值之間無明顯規(guī)律可循,因此,這里僅對其他三種算法的結(jié)果進(jìn)行統(tǒng)計與分析.

        圖3 訓(xùn)練集的IXB-K 的關(guān)系圖

        如圖4所示,當(dāng)聚類數(shù)在[26,28]范圍內(nèi)時,3 種算法的檢測率達(dá)到了最大,分別是:92.68%、91.69%、93.2%.

        圖4 不同k值的檢測率

        從圖5的漏報率對比結(jié)果中可以看出:當(dāng)聚類數(shù)在[26,27]范圍內(nèi)時,文獻(xiàn)[8]和本文算法的漏報率最小,分別是:3.81%、2.86%.

        圖5 不同k值的漏報率

        圖6的正確分類率結(jié)果表明:當(dāng)聚類數(shù)在[27,28]范圍內(nèi)時,3 種算法的正確分類率達(dá)到最大,分別是:94.27%、94.38%、94.78%.從圖4~6 可以看出,IXB 越大,入侵檢測指標(biāo)越優(yōu).綜上所述,本文提出的IXB 能夠合理、客觀地評價聚類結(jié)果,能夠準(zhǔn)確地反映出聚類質(zhì)量,可以為無先驗知識樣本集的有效聚類提供重要參考依據(jù).

        圖6 不同k值的分類正確率

        5 結(jié)語

        針對K 中心點算法的初始聚類中心代表性不足,穩(wěn)定性差等問題,提出了一種改進(jìn)的K 中心點算法,將樣本集與樣本的各自平均距離比值作為樣本的密度參數(shù),采用最大距離乘積法選擇密度較大且距離較遠(yuǎn)的k個樣本作為初始聚類中心,兼顧聚類中心的代表性和分散性.針對常用內(nèi)部評價指標(biāo)在聚類評價中的局限性,提出將簇間邊界最近點的距離平方作為整個樣本集的分離度,定義了以簇內(nèi)緊密度與簇間分離度的比值與其倒數(shù)之和為度量值的內(nèi)部評價指標(biāo)IXB,結(jié)合改進(jìn)的K 中心點算法設(shè)計了聚類質(zhì)量評價模型.在UCI 數(shù)據(jù)集的測試表明,IXB 指標(biāo)的聚類數(shù)正確率明顯高于其他四種常用指標(biāo),在KDD CUP99 數(shù)據(jù)集的實驗結(jié)果表明,本文提出的聚類質(zhì)量評價模型可以給出精準(zhǔn)的聚類數(shù)范圍,能夠在保持較低漏報率的同時,有效提高入侵檢測率和分類正確率.

        猜你喜歡
        中心點聚類定義
        Scratch 3.9更新了什么?
        電腦報(2020年12期)2020-06-30 19:56:42
        如何設(shè)置造型中心點?
        電腦報(2019年4期)2019-09-10 07:22:44
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        漢字藝術(shù)結(jié)構(gòu)解析(二)中心點處筆畫應(yīng)緊奏
        基于改進(jìn)的遺傳算法的模糊聚類算法
        尋找視覺中心點
        大眾攝影(2015年9期)2015-09-06 17:05:41
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        修辭學(xué)的重大定義
        国产无遮挡又黄又爽在线视频| 亚洲伊人久久成人综合网| 国产亚洲日韩一区二区三区| 爱我久久国产精品| 在线视频一区二区亚洲| 粗大挺进孕妇人妻在线| 亚洲av综合av国一区二区三区| 国产高清乱码又大又圆| 女人高潮被爽到呻吟在线观看| 亚洲成色www久久网站夜月| 欧美午夜a级精美理论片| 国产91精品丝袜美腿在线| 久久免费看视频少妇高潮| 午夜国产精品视频在线观看| 亚洲a无码综合a国产av中文| 成人免费一区二区三区| 亚洲人成无码网www| 麻豆国产VA免费精品高清在线| 亚洲不卡高清av在线| 午夜一区二区三区观看| 精品人妻av区乱码| 久久久久久久综合狠狠综合| 国产成人亚洲综合无码DVD| 国产日韩乱码精品一区二区| 国产一区二区三区毛片| 国产成人喷潮在线观看| 亚洲成a∨人片在无码2023| 日韩精品国产自在欧美| 亚洲av色香蕉一区二区三区蜜桃 | 激情免费视频一区二区三区| 久久精品成人一区二区三区| 国产av旡码专区亚洲av苍井空| 2019最新国产不卡a| 国产在线看不卡一区二区| 国产精品国产自产拍高清| 亚洲av永久无码精品一福利| 婷婷五月六月综合缴情| 久久精品无码鲁网中文电影| 国产精品原创永久在线观看| 亚洲av乱码国产精品观看麻豆| 人妻熟妇乱又伦精品视频|