亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非獨(dú)立同分布下的K-Modes算法

        2023-01-31 03:56:22周慧鑫王艷梅
        關(guān)鍵詞:相似性度量聚類

        周慧鑫,姜 合,王艷梅

        (齊魯工業(yè)大學(xué)(山東省科學(xué)院) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 濟(jì)南 250353)

        0 引 言

        許多學(xué)者根據(jù)K-Modes算法[1,2]存在的問題,對(duì)算法進(jìn)行了很多研究和改進(jìn)。針對(duì)初始中心點(diǎn)選擇的問題,Liwen Peng[3]提出了一種基于屬性權(quán)重的選擇聚類中心的方法。賈瑞玉等[4]定義了一種新的計(jì)算對(duì)象密度的方法,通過殘差分析得到初始聚類中心。針對(duì)相異度量的問題,趙亮等[5]提出了一種基于樸素貝葉斯分類器中間運(yùn)算結(jié)果的距離度量。施振佺等[6]提出了一種基于粗糙集和知識(shí)粒度的屬性加權(quán)算法,加權(quán)到相異度的計(jì)算中。袁方等[7]提出了一種針對(duì)有序分類與無序分類兩種屬性的距離度量。針對(duì)其它方面的問題,黃苑華等[8]提出一種基于結(jié)構(gòu)相似性的K-Modes算法。張春英等[9]提出了一種基于集對(duì)信息粒的集對(duì)K-Modes聚類算法。葉霞等[10]提出了一種將蟻群聚類算法與K-Modes算法相結(jié)合的算法。

        到目前為止,相異度量的計(jì)算,大多數(shù)都考慮的是數(shù)據(jù)之間是相互獨(dú)立,沒有關(guān)系的,然而實(shí)際上的數(shù)據(jù)集中屬性之間是存在著一定的耦合關(guān)系,即非獨(dú)立同分布。操龍兵首先提出的非獨(dú)立同分布思想,隨后很多研究學(xué)者運(yùn)用這個(gè)思想,用于許多不同的研究方向。操龍兵提出了基于復(fù)雜相互作用的耦合性學(xué)習(xí)。Jian等為無監(jiān)督學(xué)習(xí)定義了一個(gè)耦合度量相似度(CMS)[11],它提出了數(shù)據(jù)對(duì)象間的異構(gòu)耦合關(guān)系。Wang等提出了在無監(jiān)督學(xué)習(xí)中類別型數(shù)據(jù)的耦合關(guān)系來計(jì)算相似性度量的方法并在K-Modes算法中進(jìn)行了驗(yàn)證。在真實(shí)數(shù)據(jù)中,數(shù)據(jù)對(duì)象的屬性之間存在著一定的聯(lián)系,因此,在非獨(dú)立同分布的思想下改進(jìn)K-Modes算法將更加符合實(shí)際。

        1 K-modes算法

        1.1 算法基本概念

        在日常的數(shù)據(jù)中,數(shù)據(jù)類型主要包括數(shù)值型數(shù)據(jù)和類別型數(shù)據(jù)。它們之間有本質(zhì)性的區(qū)別,數(shù)值型數(shù)據(jù)是按數(shù)字尺度測(cè)量的觀察值,其結(jié)果表現(xiàn)為具體的數(shù)值,是屬性值的一個(gè)數(shù)值,屬性值之間具有一定的幾何特征,可以進(jìn)行數(shù)值運(yùn)算;而類別型數(shù)據(jù)是一種非數(shù)值型數(shù)據(jù),表示的是對(duì)象的特征屬性,特征的數(shù)值既沒有數(shù)量大小的含義,代表的是屬性的各種狀態(tài),不能進(jìn)行數(shù)值運(yùn)算,各種分類內(nèi)容都屬于類別型數(shù)據(jù), 如性別分類(男、女)、地區(qū)(省、市)、農(nóng)藥毒性(劇毒、高毒、中毒、低毒)等[12]。K-Means算法是適用于連續(xù)的數(shù)值型數(shù)據(jù)[13]的聚類算法,以效果更好,思想簡(jiǎn)單的優(yōu)點(diǎn)在聚類算法中得到了廣泛的應(yīng)用[14]。現(xiàn)在常用的距離度量方法有很多像歐氏距離、曼哈頓距離、切比雪夫距離、余弦距離,這些方法都是針對(duì)對(duì)數(shù)值很敏感的數(shù)值型數(shù)據(jù),而類別型數(shù)據(jù)之間的相似性是對(duì)數(shù)據(jù)特征很敏感,所以傳統(tǒng)的K-Means算法中計(jì)算數(shù)據(jù)距離的歐式距離不能計(jì)算離散屬性之間的距離。K-Modes聚類算法通過對(duì)K-Means聚類算法的拓展,使其可應(yīng)用于類別型屬性數(shù)據(jù)聚類[15]。

        K-Modes算法中采用計(jì)算數(shù)據(jù)間相異度量的方法來表示數(shù)據(jù)間的距離。相異度量越小,則表示距離越小。K-Modes的基本思想是隨機(jī)分配K個(gè)對(duì)象作為初始聚類中心,計(jì)算隸屬度矩陣,將剩余的數(shù)據(jù)劃分到離初始類中心最近的子類中,基于頻率更新聚類中心,經(jīng)過多次迭代,聚類函數(shù)收斂,算法劃分結(jié)束。

        1.2 算法描述

        輸入:數(shù)據(jù)集,聚類類簇個(gè)數(shù)K。

        輸出:聚類后劃分好的子類集合。

        步驟1 從數(shù)據(jù)集中隨機(jī)選擇K個(gè)對(duì)象作為初始類中心,其中K表示聚類過程中簇的個(gè)數(shù)。

        步驟2 采用簡(jiǎn)單0-1匹配方法計(jì)算每個(gè)對(duì)象與各聚類中心之間的相異度量作為距離度量。某一個(gè)對(duì)象和另一個(gè)對(duì)象的相異度量就是它們各個(gè)屬性不相同的個(gè)數(shù),相同記為0,不相同則記為1,最后計(jì)算1的總和,這個(gè)和就是兩個(gè)對(duì)象間的相異度量。

        步驟3 將每個(gè)對(duì)象分配到相異度度量最小的子類中。

        步驟4 使用基于頻率的方法更新聚類中心。

        步驟5 重復(fù)上述的步驟2~步驟4,直到目標(biāo)函數(shù)F收斂,即聚類中心不再發(fā)生變化時(shí),算法結(jié)束。目標(biāo)函數(shù)見式(1)

        (1)

        其中,k是聚類類簇的個(gè)數(shù),n是數(shù)據(jù)對(duì)象的個(gè)數(shù),wli∈{0,1} (1≤l≤k,1≤i≤n,)wli=1表示第i個(gè)對(duì)象被劃分到第l類中,ml為第l個(gè)類的聚類中心,xi表示第i個(gè)數(shù)據(jù)對(duì)象。

        2 NonIID-HDK-Modes算法

        2.1 初始聚類中心的選取

        傳統(tǒng)的K-Modes算法中,對(duì)初始聚類中心點(diǎn)是隨機(jī)選取的,這使得聚類算法的結(jié)果會(huì)非常依賴初始聚類中心點(diǎn)的選取。隨機(jī)選取K個(gè)中心點(diǎn),可能會(huì)選取到離群點(diǎn),而且每次中心點(diǎn)選取的不同也會(huì)影響到算法的聚類效果。因此,本文提出一種基于層次聚類對(duì)數(shù)據(jù)集進(jìn)行預(yù)聚類的方法,對(duì)預(yù)聚類劃分好的類簇進(jìn)一步處理后,取得的每個(gè)類簇中的聚類中心作為K-Modes的初始聚類中心,改變傳統(tǒng)算法隨機(jī)選取中心點(diǎn)的缺點(diǎn)。

        層次聚類的相似性指的是任意一個(gè)數(shù)據(jù)對(duì)象ux與所有數(shù)據(jù)對(duì)象之間的距離,它們的距離越小,相似度就越高。層次聚類的思想就是將相似度高的數(shù)據(jù)對(duì)象不斷的進(jìn)行合并,直到合并到設(shè)定的K個(gè)類簇,結(jié)束算法。

        基于層次聚類預(yù)聚類的初始聚類中心選取方法的具體步驟是:

        (1)對(duì)數(shù)據(jù)集的數(shù)據(jù)進(jìn)行歸一化處理

        在數(shù)據(jù)集中,不同屬性指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會(huì)影響到數(shù)據(jù)分析的結(jié)果,為了數(shù)據(jù)處理方便,對(duì)數(shù)據(jù)進(jìn)行基于均值和標(biāo)準(zhǔn)差的歸一化處理

        (2)

        其中,μ為所有樣本數(shù)據(jù)集的均值,σ為所有樣本數(shù)據(jù)集的標(biāo)準(zhǔn)差。

        (2)對(duì)數(shù)據(jù)集進(jìn)行層次聚類預(yù)聚類

        計(jì)算類簇之間的距離,常用的方法有:最小連接距離法、最大連接距離法、平均連接距離法。采用適用于類別型數(shù)據(jù)的平均連接距離法計(jì)算距離公式如式(3)所示,將數(shù)據(jù)集中所有數(shù)據(jù)都當(dāng)作是一個(gè)獨(dú)立的類簇,對(duì)于給定的聚類簇Ci和Cj,找到距離最小的兩個(gè)類簇C1和C2

        dmax(Ci,Cj)=|mi-mj|

        (3)

        其中,mi是簇Ci的均值,mj是簇Cj的均值。

        合并距離最小的C1和C2為一個(gè)類簇,然后不斷合并距離最近的聚類簇,并對(duì)合并得到的聚類簇距離矩陣進(jìn)行更新。不斷重復(fù)上述過程,直至達(dá)到K個(gè)聚類簇。

        (3)分別計(jì)算K個(gè)類簇中每個(gè)對(duì)象的局部密度和高密度點(diǎn)距離。

        把每個(gè)聚類簇中的所有數(shù)據(jù)對(duì)象作為一個(gè)子集,分別計(jì)算每個(gè)子集中每個(gè)數(shù)據(jù)對(duì)象的局部密度,局部密度計(jì)算公式如式(4)所示

        (4)

        其中,dij表示任意的數(shù)據(jù)對(duì)象xi和數(shù)據(jù)對(duì)象xj之間的距離,用歐氏距離進(jìn)行計(jì)算,計(jì)算公式如式(5)所示

        (6)

        dc是一個(gè)截?cái)嗑嚯x參數(shù),設(shè)置dc為數(shù)據(jù)量的1%,把每個(gè)樣本點(diǎn)和所有樣本點(diǎn)的距離與先前設(shè)定好的截?cái)嗑嚯x相比較,所有小于截?cái)嗑嚯x的點(diǎn)的個(gè)數(shù)就是這個(gè)樣本點(diǎn)的局部密度大小。

        接著,計(jì)算高局部密度點(diǎn)距離如式(7)所示

        (7)

        (4)選取聚類中心

        ρi和δi相對(duì)較高的數(shù)據(jù)點(diǎn)標(biāo)記為簇的中心,所以計(jì)算每個(gè)子集中ρi和δi的乘積,即γi,取γi的最大值,將每個(gè)類簇中的最大值的數(shù)據(jù)點(diǎn)作為每個(gè)類簇中的聚類中心

        γi=ρiδi

        (8)

        將選取出來的所有K個(gè)類簇的聚類中心作為K-Modes算法的初始聚類中心。

        2.2 相異度量的計(jì)算

        在傳統(tǒng)的K-modes算法中,相異度量的計(jì)算都是基于距離的度量方法,是以數(shù)據(jù)屬性之間的存在是獨(dú)立同分布為前提的,然而現(xiàn)實(shí)生活中的數(shù)據(jù)的屬性之間都是非獨(dú)立同分布的。在Wang的文章里將非獨(dú)立同分布的思想加入到K-Modes算法的相異度量的計(jì)算中與Ahmad等提出的ADD相異度量的計(jì)算方法進(jìn)行了實(shí)驗(yàn)比較,發(fā)現(xiàn)在數(shù)據(jù)結(jié)構(gòu)分析和聚類質(zhì)量方面,提出的方法優(yōu)于其它類別型數(shù)據(jù)的相異度量的方法。所以將非獨(dú)立同分布的思想加入到K-Modes算法的相異度量的計(jì)算中是可行的。

        在Wang改進(jìn)的K-Modes的算法中屬性之間的耦合相似度的權(quán)重參數(shù)認(rèn)為每個(gè)屬性的重要程度是均等的,不能反映屬性間真實(shí)的權(quán)重參數(shù)?;バ畔⒎从车氖侨我鈨蓚€(gè)對(duì)象的聯(lián)合分布相對(duì)于假定兩個(gè)對(duì)象是獨(dú)立情況下的聯(lián)合分布之間的內(nèi)在依賴性,度量?jī)蓚€(gè)事件集合之間的相關(guān)性,屬性之間的耦合相似性體現(xiàn)的就是某個(gè)屬性值與其它屬性值的共現(xiàn)依賴關(guān)系,所以可以采用計(jì)算互信息的方法來計(jì)算屬性之間的權(quán)重關(guān)系,在本文中計(jì)算屬性之間的互信息后對(duì)互信息進(jìn)行標(biāo)準(zhǔn)化,得到屬性的權(quán)重矩陣,更好反映出每個(gè)屬性的重要程度以及更加合理改進(jìn)了計(jì)算對(duì)象差異度量的方法。

        設(shè)數(shù)據(jù)集集合為U={u1,u2,…,um}, 表示一組非空的m個(gè)數(shù)據(jù)對(duì)象組成。A={a1,a2,…,an}, 表示每個(gè)數(shù)據(jù)對(duì)象包括n個(gè)屬性,是一組有限的屬性。V=∪j=1nvj表示的是屬性值集,Vj是屬性aj的值的集合。

        (9)

        IaASV反映的是屬性的屬性值頻率之間的關(guān)系,頻率近似相等的兩個(gè)屬性值具有較大的相似性。

        (10)

        (11)

        (12)

        2)αk是屬性ak的權(quán)重參數(shù),利用標(biāo)準(zhǔn)化互信息求取權(quán)重矩陣對(duì)αk賦值,計(jì)算公式如式(13)所示

        (13)

        I(ai,aj) 是指屬性ai和aj的互信息。計(jì)算公式為式(14)

        (14)

        其中,p(vi),p(vj) 分別是屬性值vi和vj在數(shù)據(jù)集U中的概率分布函數(shù)。p(vi,vj) 是屬性值vi和vj在數(shù)據(jù)集U中的聯(lián)合概率分布函數(shù),計(jì)算公式如式(15)所示

        p(vi,vj)=p(vi)·p(vj)

        (15)

        H(ai) 表示的是屬性ai的信息熵,計(jì)算公式為

        (16)

        (3)對(duì)象的耦合屬性不相似性(CADO)為

        (17)

        令h1=1/t-1,h2=1-t,h1(t),h2(t), 都是關(guān)于t的遞減函數(shù),滿足相似性和不相似性的互補(bǔ)性。

        計(jì)算相異度量的步驟為:

        步驟3 求取權(quán)重矩陣對(duì)對(duì)αk賦值

        步驟4 計(jì)算任意兩個(gè)對(duì)象ux和uy之間的對(duì)象耦合屬性不相似性CADO,得到數(shù)據(jù)對(duì)象間的距離矩陣作為數(shù)據(jù)對(duì)象之間的相異度量。

        本文選取Breast-cancer數(shù)據(jù)集中的一個(gè)片段為例計(jì)算數(shù)據(jù)片段的相異度量矩陣,6個(gè)對(duì)象具有8個(gè)屬性,分為兩類,具體信息見表1。

        表1 Breast-cancer數(shù)據(jù)片段

        將表1 按照相異度量的計(jì)算方法,計(jì)算出表1的相異度量見表2。

        表2 數(shù)據(jù)片段的相異度量

        2.3 算法描述

        輸入:數(shù)據(jù)集,聚類類簇個(gè)數(shù)K。

        輸出:聚類后劃分好的子類集合。

        步驟1 按照2.1中的思想選取K個(gè)聚類中心。

        步驟2 根據(jù)2.2中方法計(jì)算數(shù)據(jù)集中任一數(shù)據(jù)對(duì)象ux與選取的聚類中心之間的相異度量。

        步驟3 將每個(gè)對(duì)象分配到與聚類中心相異度量最小的子類中。

        步驟4 分配結(jié)束后,通過基于頻率的方法來重新確定聚類中心。

        步驟5 重復(fù)上述的步驟2~步驟4,直到所有數(shù)據(jù)對(duì)象所屬的聚類中心不再變化時(shí),算法結(jié)束。

        以上是對(duì)K-Modes算法初始聚類中心的選擇和相異度量進(jìn)行了改進(jìn),考慮到數(shù)據(jù)之間的屬性相似性,更好地處理了類內(nèi)間相似性的問題,解決了傳統(tǒng)K-Modes算法隨機(jī)選取中心點(diǎn)和計(jì)算相異度量時(shí)忽略了類內(nèi)相似性的問題,更好提高了算法的聚類效果。

        3 實(shí)驗(yàn)結(jié)果及分析

        本文實(shí)驗(yàn)在UCI數(shù)據(jù)集分別是Zoo數(shù)據(jù)集、Breast-cancer數(shù)據(jù)集及Soybean-small數(shù)據(jù)集這3個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。

        實(shí)驗(yàn)環(huán)境:MATLAB R2019b,Intel(R) Core(TM) i7-6700CPU、3.40 GHz、8.0 GB,Microsoft Windows 7。

        3.1 實(shí)驗(yàn)描述

        本文改進(jìn)了傳統(tǒng)隨機(jī)選取中心點(diǎn)的缺點(diǎn),并改進(jìn)非獨(dú)立同分布的公式引入到計(jì)算K-Modes算法的相異度量中,主要目的是提升K-Modes算法的聚類精度,避免選取初始聚類中心的時(shí)候選到離群點(diǎn)或者同一類別的情況,同時(shí)使屬性的權(quán)重參數(shù)更加合理化,更加準(zhǔn)確的將屬性內(nèi)耦合和屬性之間的耦合的相似性加入到計(jì)算數(shù)據(jù)對(duì)象的相異度量中。

        本文分別在Zoo數(shù)據(jù)集、Breast-cancer數(shù)據(jù)集和Soybean-small數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。將數(shù)據(jù)集在相同的環(huán)境中分別在傳統(tǒng)的K-Modes算法、Wang改進(jìn)的K-Modes算法(簡(jiǎn)稱Wang)、文獻(xiàn)[16]和NonIID-HDK-Modes的算法程序中運(yùn)行20次,分別記錄下每個(gè)算法聚類的正確率。

        3.2 實(shí)驗(yàn)結(jié)果

        3.2.1 數(shù)據(jù)集描述

        3個(gè)數(shù)據(jù)集的描述見表3。

        表3 數(shù)據(jù)集信息

        3.2.2 實(shí)驗(yàn)對(duì)比結(jié)果

        下面分別從分類正確率(AC)、類精度(PR)、召回率(RE)這3個(gè)方面來分析算法的聚類質(zhì)量,AC、PR、RE的定義分別如下

        其中,U表示的是數(shù)據(jù)集中的對(duì)象的數(shù)量,K表示的是聚類類簇的個(gè)數(shù),xi表示可以正確分到第i類的對(duì)象數(shù)量,yi表示錯(cuò)誤分到第i類的對(duì)象數(shù)量,zi表示應(yīng)分到卻沒分到第i類的對(duì)象數(shù)量。

        在Zoo數(shù)據(jù)集、Breast-cancer數(shù)據(jù)集和Soybean-small數(shù)據(jù)集3個(gè)數(shù)據(jù)集中,驗(yàn)證傳統(tǒng)的K-Modes算法、Wang、文獻(xiàn)[16]的算法和NonIID-HDK-Modes算法。4個(gè)算法在相同的環(huán)境中運(yùn)行20次取平均值,具體聚類算法性能比較見表4~表6和圖1。

        表4 在Zoo數(shù)據(jù)集下性能比較/%

        表5 在Breast-cancer數(shù)據(jù)集下性能比較/%

        表6 在Soybean-small數(shù)據(jù)集下性能比較/%

        圖1 4種算法的準(zhǔn)確率

        通過分析圖1,可以發(fā)現(xiàn)在非獨(dú)立同分布思想下,NonIID-HDK-Modes算法比Wang算法中改進(jìn)K-Modes算法相異度量的聚類效果更好,準(zhǔn)確率更高。

        通過分析表4~表6,可以看到在數(shù)據(jù)集Zoo、Breast-cancer和Soybean-small上,經(jīng)過修改非獨(dú)立同分布思想下計(jì)算耦合相似性的權(quán)重參數(shù)和初始聚類中心點(diǎn)選取方法的K-Modes算法與獨(dú)立同分布條件下的K-Modes算法的對(duì)比,NonIID-HDK-Modes算法獲取了較好的聚類效果,聚類結(jié)果優(yōu)于文獻(xiàn)[16],驗(yàn)證NonIID-HDK-Modes算法是有效的。

        3.3 實(shí)驗(yàn)分析

        根據(jù)實(shí)驗(yàn)得到的結(jié)果,可以看到Wang的算法在非獨(dú)立同分布的思想下把屬性內(nèi)和屬性之間的相似性一起加入到計(jì)算相異度量時(shí),聚類效果會(huì)相比傳統(tǒng)的K-Modes算法有一定的提高。因此,把非獨(dú)立同分布的思想引入到K-Modes算法中是可以提高算法的聚類效果的,是可行的。

        通過圖1我們可以看到,在非獨(dú)立同分布的條件下,在相同的運(yùn)行環(huán)境下3個(gè)數(shù)據(jù)集中NonIID-HDK-Modes算法與Wang對(duì)K-Modes算法的改進(jìn)相比,可以更好提高聚類算法的準(zhǔn)確率,說明改進(jìn)耦合權(quán)重和初始聚類中心的選取方法是有效的。

        由實(shí)驗(yàn)結(jié)果可以看到,基于非獨(dú)立同分布的思想的NonIID-HDK-Modes算法在Zoo數(shù)據(jù)集中,相比較文獻(xiàn)[16]的方法聚類準(zhǔn)確度提高了8.62%;在Breast-cancer數(shù)據(jù)集中,相比較文獻(xiàn)[16]的方法聚類準(zhǔn)確度提高了4.19%;在Soybean-small數(shù)據(jù)集中,相比較文獻(xiàn)[16]的方法聚類準(zhǔn)確度提高25.85%。在Zoo數(shù)據(jù)集和Soybean-small數(shù)據(jù)集與Breast-cancer數(shù)據(jù)集的準(zhǔn)確率提高的較多,兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)較少,算法準(zhǔn)確率的提高較為明顯,對(duì)于數(shù)據(jù)集中數(shù)據(jù)較多的情況,算法的準(zhǔn)確率效果較為不明顯。因此,NonIID-HDK-Modes算法可以更好提高較小數(shù)據(jù)集的聚類準(zhǔn)確率,對(duì)于提高較大數(shù)據(jù)集的準(zhǔn)確率存在不足。

        通過比較聚類的純度大小,判斷算法聚類效果的好壞,當(dāng)聚類的純度越接近1,說明算法聚類的效果越好。傳統(tǒng)K-Modes算法、文獻(xiàn)[16]和NonIID-HDK-Modes算法在3個(gè)數(shù)據(jù)集上的純度見表7,在Zoo和Soybean-small兩個(gè)數(shù)據(jù)集上,NonIID-HDK-Modes算法表現(xiàn)較好,聚類的效果更好。在Breast-cancer數(shù)據(jù)集上,文獻(xiàn)[16]的聚類效果更好,說明改進(jìn)的算法在整體上還是能夠有效提高算法的聚類純度,提高聚類的效果,這得益于非獨(dú)立同分布的思想。

        表7 3種算法的純度比較

        4 結(jié)束語

        在本文中針對(duì)K-Modes算法隨機(jī)選取初始聚類中心的缺點(diǎn),首先對(duì)數(shù)據(jù)集通過層次聚類預(yù)聚類對(duì)數(shù)據(jù)集進(jìn)行類別劃分,然后再分別計(jì)算每個(gè)類別中所有對(duì)象的局部密度和高密度點(diǎn)距離,選擇兩個(gè)距離乘積的最大值作為每個(gè)類別的一個(gè)聚類中心,逐一選取每個(gè)類別的聚類中心,并將所有類別的聚類中心作為算法的初始聚類中心。同時(shí)傳統(tǒng)的K-Modes算法計(jì)算相異度量時(shí),忽略了數(shù)據(jù)對(duì)象之間的聯(lián)系,在本文中根據(jù)非獨(dú)立同分布的思想計(jì)算相異度量,并且在非獨(dú)立同分布的基礎(chǔ)上繼續(xù)改進(jìn)計(jì)算屬性耦合相似性權(quán)重參數(shù)的方法,計(jì)算兩列間的標(biāo)準(zhǔn)化互信息作為權(quán)重矩陣。實(shí)驗(yàn)結(jié)果表明,本文在非獨(dú)立同分布的思想下提出的NonIID-HDK-Modes算法具有較高的準(zhǔn)確率,可以提高K-Modes算法聚類的效果,更加符合現(xiàn)實(shí)中數(shù)據(jù)的實(shí)際情況。

        猜你喜歡
        相似性度量聚類
        有趣的度量
        一類上三角算子矩陣的相似性與酉相似性
        模糊度量空間的強(qiáng)嵌入
        淺析當(dāng)代中西方繪畫的相似性
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
        基于DBSACN聚類算法的XML文檔聚類
        低滲透黏土中氯離子彌散作用離心模擬相似性
        地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        少妇aaa级久久久无码精品片| 久久综合九色综合97婷婷| 免费看片的网站国产亚洲| av天堂线上| 少妇av免费在线播放| 视频一区中文字幕亚洲| 日本加勒比一区二区在线观看| 男生自撸视频在线观看| 黄片国产一区二区三区| 亚洲最新精品一区二区| 亚洲国产精品美女久久 | 亚洲黄色天堂网站在线观看禁18| 欧美国产激情二区三区| 久久天天躁狠狠躁夜夜avapp| 区二区三区玖玖玖| 一二三四在线视频社区3| 欧美韩国精品另类综合| 中文亚洲成a人片在线观看| 亚洲成人黄色av在线观看| 青青草视频在线播放观看| av在线高清观看亚洲| 亚洲综合av一区二区三区蜜桃 | 免费无码一区二区三区蜜桃大| 国产av在线观看久久| 白白色青青草视频免费观看| 国产精品jizz视频| 亚洲欧美日韩国产综合一区二区| 国内精品人妻无码久久久影院94 | 97色偷偷色噜噜狠狠爱网站| 在熟睡夫面前侵犯我在线播放| 久久精品国产第一区二区三区| 亚洲中文字幕无码爆乳av| 亚洲综合伦理| 久久精品国产亚洲一级二级| 狠狠综合久久av一区二区三区| 国产av久久在线观看| 亚洲av天堂在线视频| 国产精品无码一本二本三本色| 婷婷丁香五月中文字幕| 亚洲另在线日韩综合色| 国产精品亚洲美女av网站|