亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)磷蝦群算法的多目標(biāo)文本聚類方法

        2022-06-23 11:11:42
        關(guān)鍵詞:磷蝦質(zhì)心全局

        菊 花

        (內(nèi)蒙古師范大學(xué) 教育學(xué)院,內(nèi)蒙古 呼和浩特 010020)

        0 引 言

        Web網(wǎng)頁由于移動(dòng)互聯(lián)網(wǎng)的廣泛流行已經(jīng)成為文本信息的主要來源,其出現(xiàn)形式如新聞網(wǎng)站、社交媒體、數(shù)字圖書館等[1]。為了管理巨量文本信息,聚類是有效的非監(jiān)督學(xué)習(xí)方法[2]。由于同聚類文檔具有最大相關(guān)性和內(nèi)在聯(lián)系,這一技術(shù)可以簡化用戶的文本處理過程。文本聚類還可應(yīng)用在圖像識別、文本劃分、信息檢索、搜索引擎等[3]。此時(shí)的文檔可表示為矢量空間模型VSM,用以度量文檔矢量與聚類質(zhì)心間的相似程度[4]。K均值聚類是求解文本聚類的一種快速、健壯的局部搜索算法[5],其結(jié)構(gòu)簡單、收斂速度快,該算法通過初始的聚類質(zhì)心來尋找聚類成員,每個(gè)文檔將根據(jù)自身與質(zhì)心的相似性選擇加入的聚類。但算法過于依賴初始質(zhì)心選擇,容易陷入局部最優(yōu),聚類結(jié)果不穩(wěn)定。磷蝦群算法KH是受磷蝦的捕食行為的啟發(fā)而提出的一種新型的元啟發(fā)式算法[6]。該算法控制參數(shù)少,易于實(shí)現(xiàn),極好的全局尋優(yōu)能力使其常用于數(shù)據(jù)聚類領(lǐng)域。

        相關(guān)研究中,文獻(xiàn)[7]利用公平克隆機(jī)制提升蜂群算法的種群多樣性和全局搜索能力,再結(jié)合K均值法進(jìn)行聚類。文獻(xiàn)[8]將差分進(jìn)化和遺傳算子嵌入K均值聚類,提升了聚類相似性。文獻(xiàn)[9]以梯度搜索和混沌搜索設(shè)計(jì)蜂群算法,并以此選擇聚類中心。文獻(xiàn)[10]融合粒子群和布谷鳥算法的優(yōu)勢進(jìn)行文本聚類。文獻(xiàn)[11]提出混合粒子群算法的文本聚類算法HPSO。文獻(xiàn)[12]和文獻(xiàn)[13]分別提出混合遺傳文本聚類算法HGA和混合和聲搜索聚類算法HHS。

        元啟發(fā)式方法求解聚類時(shí)可能有早熟收斂問題,該問題與初始解有關(guān)。單純依靠元啟發(fā)方法不能保證有限時(shí)間內(nèi)得到全局最優(yōu)。若可以改進(jìn)初始解的隨機(jī)性,并利用優(yōu)化后的全局搜索能力,則可以在聚類準(zhǔn)確性、精確性取得均衡。K均值聚類易受初始質(zhì)心影響,聚類不穩(wěn)定,而傳統(tǒng)磷蝦群算法KH易陷入局部最優(yōu),全局搜索能力弱。為此,提出基于改進(jìn)磷蝦群算法的多目標(biāo)文本聚類算法,通過磷蝦個(gè)體的誘導(dǎo)運(yùn)動(dòng)、覓食運(yùn)動(dòng)和隨機(jī)擴(kuò)散,以及融入遺傳交叉和變異的個(gè)體更新機(jī)制,增加種群多樣性,更快得到文本文檔聚類結(jié)果。

        1 模型描述

        1.1 文本文檔聚類問題

        文本文檔集合D可劃分為K個(gè)聚類,D可表示為如式(1)的文本矢量形式

        D=d1,d2,…,di,…,dn

        (1)

        式中:di為文檔i,n為文檔總數(shù)。文檔可表示為矢量d1=w11,w12,…,w1j,…,w1t, 其中,d1表示長度為t的文檔1,wij表示文檔i中詞條j的權(quán)重,計(jì)算方法如下

        wij=TFIDF(i,j)=tf(i,j)×logn/df(j)

        (2)

        式中:tf(i,j) 為詞條j在文檔i中的出現(xiàn)頻率,df(j) 為含有j的文檔數(shù)。

        聚類即就是將D劃分為K個(gè)聚類,Ck為聚類k的質(zhì)心,可表示為一個(gè)詞條權(quán)重矢量Ck=c1,c2,…,cj,…,ct,Ck表示第k個(gè)聚類質(zhì)心,c1表示聚類質(zhì)心k位置1上的權(quán)重值,t表示聚類質(zhì)心的長度。

        算法利用余弦相似度計(jì)算每個(gè)文檔與聚類質(zhì)心間的相似性分值,計(jì)算公式如下

        (3)

        歐氏距離可用于計(jì)算每個(gè)文檔與聚類質(zhì)心間的距離,該距離則可以度量兩者間的非相似性,計(jì)算方式如下

        (4)

        可以看到,歐氏距離取值在(0,1)之間,這不同于余弦相似度的度量方式。若文檔與質(zhì)心距離接近0,則表明該文檔與該質(zhì)心具有較大相似性;若距離接近于1,則表明該文檔與質(zhì)心具有不相似性。式(4)為文檔d4與C2的歐氏距離。

        1.2 多目標(biāo)文本聚類

        根據(jù)式(3)和式(4)可知,余弦相似度衡量相似性,歐氏距離度量距離。本文算法聯(lián)立兩種度量方式作為目標(biāo)函數(shù)進(jìn)行聚類決策,即盡可能選擇離質(zhì)心近且相似度高的質(zhì)心。因此,聚類目標(biāo)函數(shù)為

        multi-obj=cosine(d1,C2)×[1-dis(d1,C2)]

        (5)

        2 K均值聚類算法

        K均值聚類算法目標(biāo)是通過初選的聚類質(zhì)心,將高維度文本集合D中的文檔劃分為K個(gè)固有聚類子集。算法通過所設(shè)定的目標(biāo)函數(shù)將每個(gè)文檔劃分至相似性最大的質(zhì)心中。該算法通過聚類數(shù)K、初始質(zhì)心及余弦相似度進(jìn)行聚類劃分,并通過質(zhì)心迭代更新,得到最優(yōu)聚類解。算法以矩陣A(n×K)表示可能的聚類解集,n代表所有文檔數(shù)量,K代表聚類數(shù)量,每個(gè)文檔可表示為式(1)所示的詞條矢量權(quán)重,t表示唯一文本特征(詞條)數(shù)量。算法的目標(biāo)就是尋找最優(yōu)的n×K矩陣,具體過程如算法1所示。

        算法1:K均值聚類算法

        (1)input:Dis a set of text documents,Kis the number of clusters

        (2)output: assignDtoK

        (3) termination criteria

        (4) randomly chooseKdocuments as clusters centroids

        (5) initialize matrixA(n*K) as zero

        (6)foralldinDdo

        (7) letj=argmaxk∈(1,2,…,K)based onmulti-obj(di,Ck)

        (8) allocatedito the cluster numberj,A[i][j]=1

        (9)endfor

        (10) update the clusters centroids

        3 融合遺傳算子的改進(jìn)磷蝦群算法

        磷蝦君算法KH是一種新型的元啟發(fā)式算法,模擬了蝦個(gè)體的捕食行為,可用于求解全局優(yōu)化問題。尋優(yōu)過程中,磷蝦的位置更新通過3種運(yùn)動(dòng)構(gòu)成:誘導(dǎo)運(yùn)動(dòng)、覓食運(yùn)動(dòng)和隨機(jī)擴(kuò)散。每個(gè)磷蝦的位置代表目標(biāo)函數(shù)的一個(gè)可行解,每只磷蝦通過覓食過程中位置的不斷更新來尋找最優(yōu)解。

        3.1 位置更新

        磷蝦個(gè)體i從迭代I至迭代I+ΔI發(fā)生的位置更新如下

        xi(I+ΔI)=xi(I)+ΔIdxi/ds

        (6)

        式中:xi(I+ΔI) 表示磷蝦個(gè)體i的下一更新位置,xi(I)表示迭代I時(shí)磷蝦個(gè)體的位置,ΔI表示間隔常量。磷蝦個(gè)體的位置決策利用拉格朗日模型進(jìn)行表示,將其描述為

        dxi/ds=Fi+Ni+Di

        (7)

        式中:Ni代表誘導(dǎo)運(yùn)動(dòng)分量,F(xiàn)i代表覓食運(yùn)動(dòng)分量,Di代表隨機(jī)擴(kuò)散分量。

        (1)誘導(dǎo)運(yùn)動(dòng)

        每個(gè)磷蝦個(gè)體的鄰居誘導(dǎo)運(yùn)動(dòng)可計(jì)算為

        Ni,new=Nmaxai+wnNi,old

        (8)

        式中:Nmax表示最大誘導(dǎo)步長,wn表示慣性權(quán)重,取值(0,1)之間,Ni,old表示磷蝦個(gè)體i的先前誘導(dǎo)運(yùn)動(dòng),ai表示誘導(dǎo)方向,計(jì)算為

        ai=ai,local+ai,target

        (9)

        式中:ai,local表示磷蝦個(gè)體i受鄰居的誘導(dǎo)方向,ai,target表示磷蝦個(gè)體i受當(dāng)前全局最優(yōu)個(gè)體的誘導(dǎo)方向,且

        (10)

        其中

        (11)

        K′i,j=Ki-Kj/Kworst-Kbest

        (12)

        其中,Kworst和Kbest分別表示特定位置上磷蝦個(gè)體的目標(biāo)函數(shù)值最差值和最優(yōu)值,Ki表示個(gè)體i的目標(biāo)函數(shù)值,Kj表示其鄰居j的目標(biāo)函數(shù)值,x表示相關(guān)個(gè)體,ε為極小正值,xi表示當(dāng)前個(gè)體位置,xj表示鄰居j位置,NN表示磷蝦個(gè)體總量,即代表總的文檔數(shù)n

        ai,target=CbestK′i,bestx′i,best

        (13)

        Cbest=2(rand+I/Imax)

        (14)

        其中,Cbest表示磷蝦個(gè)體的相關(guān)系數(shù),ai,target代表的系數(shù)有助于算法達(dá)到全局最優(yōu)解,rand是(0,1)間的隨機(jī)數(shù),I代表KH算法的當(dāng)前迭代,Imax為最大迭代。

        (2)覓食運(yùn)動(dòng)

        覓食運(yùn)動(dòng)分量Fi與當(dāng)前估算的食物源位置和前一次覓食活動(dòng)及位置相關(guān),可表示為

        Fi=Vfβi+wfFi,old

        (15)

        βi=βi,food+βi,best

        (16)

        式中:βi,food表示個(gè)體受食物源誘導(dǎo)的方向,βi,best表示個(gè)體受自身歷史最優(yōu)個(gè)體誘導(dǎo)的方向。

        (3)隨機(jī)擴(kuò)散

        隨機(jī)擴(kuò)散分量表示磷蝦個(gè)體的隨機(jī)搜索行為,可表示為

        Di=Dmax(1-I/Imax)δ

        (17)

        式中:Dmax表示最大的隨機(jī)擴(kuò)散速度,I表示當(dāng)前迭代數(shù),Imax表示最大迭代數(shù),δ表示隨機(jī)擴(kuò)散方向,取值范圍為[-1,1]。

        3.2 融入遺傳算子的位置更新

        由磷蝦個(gè)體的位置更新方式可知,磷蝦個(gè)體運(yùn)動(dòng)由其鄰居、種群最優(yōu)個(gè)體、食物源位置以及自身位置等多個(gè)因素共同決定,因此,傳統(tǒng)KH算法的局部開發(fā)能力較優(yōu),但其全局搜索能力不足,在處理多峰優(yōu)化問題過程中可能陷入局部最優(yōu)解。此外,KH算法在每次迭代中均需要多個(gè)因素共同決策個(gè)體的運(yùn)動(dòng),其搜索全局最優(yōu)解的速度較慢,無法快速收斂。

        為解決該問題,引入遺傳算子增強(qiáng)傳統(tǒng)KH算法的全局搜索能力。首先,通過交叉算子交換所選個(gè)體的相應(yīng)位置信息,交叉算子由交叉概率pc控制,定義pc=0.2×Ki,best。 磷蝦個(gè)體i的位置j發(fā)生交叉的更新方式為

        (18)

        變異算子可以通過所選個(gè)體的位置信息突變方式增加解的多樣性,以便搜索全局最優(yōu)解。變異算子由變異概率pm控制,將其定義為pm=0.05/Ki,best。 磷蝦個(gè)體i的位置j發(fā)生變異的更新方式為

        由此可見,智能加工技術(shù)研究的內(nèi)容極其廣泛,但要真正實(shí)現(xiàn)整體加工過程的優(yōu)化控制,機(jī)床、刀具以及工件的狀態(tài)監(jiān)測是基礎(chǔ)[13-14],需要通過監(jiān)測為過程優(yōu)化提供源信息。其中,機(jī)床的狀態(tài)監(jiān)測通常通過內(nèi)置傳感器來實(shí)現(xiàn),而刀具和工件狀態(tài)的監(jiān)測,機(jī)器視覺技術(shù)可以發(fā)揮重要作用。

        (19)

        4 基于改進(jìn)磷蝦群算法的文本聚類模型

        本節(jié)描述基于改進(jìn)磷蝦群算法的文本文檔聚類模型,目標(biāo)是尋找最優(yōu)文本聚類,提升聚類準(zhǔn)確度,加快算法尋優(yōu)。

        4.1 磷蝦個(gè)體位置表示

        利用一個(gè)代表磷蝦的解集S進(jìn)行文本文檔聚類,每個(gè)解可表示為一個(gè)長度為n的矢量,n代表所有文檔數(shù)量,每個(gè)文檔則代有KH算法中一個(gè)磷蝦的行為。每個(gè)決策變量(即磷蝦個(gè)體)屬于一個(gè)聚類質(zhì)心 [1,2,…,K], 每個(gè)解由K個(gè)質(zhì)心集合構(gòu)成,單個(gè)質(zhì)心Ck=c1,c2,…,cj,…,ct,Ck表示第k個(gè)聚類質(zhì)心。圖1是解的一種表示方式,該解表明8個(gè)文檔被劃分為3個(gè)聚類,文檔d1屬于聚類c3,文檔d5屬于聚類c2,而聚類c3包含文檔d1、d2和d7這3個(gè)文檔。

        圖1 解的表示方法

        4.2 磷蝦群記憶庫KHM

        KHM通過區(qū)間 [1,…,K] 內(nèi)搜索空間的隨機(jī)值進(jìn)行初始化。KHM的每個(gè)矢量代表一個(gè)可行解,對應(yīng)聚類質(zhì)心K中的一個(gè)序號。KHM大小S×n由可行解數(shù)量和文檔數(shù)量決定。將KHM定義為

        (20)

        4.3 聚類質(zhì)心更新

        質(zhì)心更新是文本聚類的主要步驟,決定了文檔所屬聚類。聚類質(zhì)心Ck的計(jì)算方式為

        (21)

        式中:nk為聚類k的文檔量,Ck為聚類k的質(zhì)心。式(21)表明:聚類內(nèi)所有文檔的矢量權(quán)重和與文檔數(shù)量之比為聚類質(zhì)心。

        4.4 適應(yīng)度函數(shù)

        定義平均相似文檔質(zhì)心ASDC為適應(yīng)度函數(shù),該函數(shù)可考慮為一個(gè)外部度量方式,其值則是根據(jù)內(nèi)部度量(余弦相似度和歐氏距離)計(jì)算。結(jié)合式(5)定義的聚類目標(biāo)函數(shù),適應(yīng)度函數(shù)利用目標(biāo)函數(shù)在K個(gè)聚類上的均值結(jié)果進(jìn)行定義

        (22)

        式中:ni表示聚類i中的所有文檔數(shù)量,multi-obj(Ci,dij) 表示文檔j與質(zhì)心i間的相似度,dij表示聚類i中的文檔j。

        4.5 基于改進(jìn)磷蝦群算法的文本聚類算法MHKHA

        圖2是融合K均值的混合多目標(biāo)改進(jìn)磷蝦群算法的文本聚類算法MHKHA的執(zhí)行流程。算法以多目標(biāo)K均值聚類結(jié)果作為改進(jìn)磷蝦群算法的初始種群,即初始聚類解,填充至磷蝦群記憶庫KHM中。同時(shí)多目標(biāo)K均值聚類以式(5)融合余弦相似度和歐氏距離的目標(biāo)進(jìn)行度量。在對磷蝦群相關(guān)參數(shù)配置后,進(jìn)行迭代終止判斷,若未滿足終止條件,則進(jìn)行磷蝦個(gè)體運(yùn)動(dòng)計(jì)算,包括誘導(dǎo)運(yùn)動(dòng)、覓食運(yùn)動(dòng)和隨機(jī)擴(kuò)散,從而進(jìn)行磷蝦群位置更新。再引入遺傳交叉和變異機(jī)制,提升種群多樣性,再以最優(yōu)個(gè)體替換最差個(gè)體,完成一次文本聚類迭代過程。算法2是MHKHA的完整偽代碼。

        圖2 MHKHA算法的執(zhí)行流程

        算法2: MHKHA算法偽代碼

        (1) initialization ofK-mean parametersK,KImax//初始化K均值聚類參數(shù)

        (2) initialization of KH parameters:Imax,S//初始化磷蝦群參數(shù)

        (3)forl=1 toSdo//在KHM上遍歷

        (4) randomly selectKdocuments as the initial cluster centroid//隨機(jī)選擇聚類質(zhì)心

        (5)forKI=1 toKImaxdo//K均值聚類迭代

        (6) initialize matrixAas zero//初始聚類矩陣初始化

        (7)forj=1 tondo//遍歷文檔集合

        (8)j=argmaxk∈(1,2,…,K)on basis ofmulti-obj(dj,Ck)//根據(jù)目標(biāo)函數(shù)尋找聚類質(zhì)心

        (9) assigndito clusterj,i.e.A[i][j]=1//分配文檔至聚類, 更新矩陣元素

        (10) update the clusters centroids//更新聚類質(zhì)心

        (11)endfor

        (12)endfor

        (13) convert matrixAas a matrix of solutions KHM//將K均值聚類解A轉(zhuǎn)換為KHM

        (14)S(l)=A, note that eachK-means generation is one solution for KH memory//K均值每一次迭代的聚類解作為KHM的一種可行解

        (15)endfor

        (16) initialization of KHM usingS,which is theK-means results//初始化KHM

        (17)fori=1 toSdo//遍歷所有可行解

        (18)forj=1 tondo//遍歷所有文檔

        (19) computing the clusters centroids//計(jì)算聚類質(zhì)心

        (20) compute fitness function of each krill by usingASDC//根據(jù)ASDC計(jì)算磷蝦個(gè)體適應(yīng)度

        (21)endfor

        (22)endfor

        (23) sort the krills and findxbest,where best from [1,2,…,S]//對所有可行解進(jìn)行排序, 尋找最優(yōu)解

        (24)whileI=Imaxdo//改進(jìn)磷蝦群算法迭代

        (25)fori=1 toSdo

        (26) perform the three motion calculations//磷蝦3種運(yùn)動(dòng)模式

        (27)xi(I+dI)=xi(I)+ΔI(dxi/ds)//個(gè)體位置更新

        (28) compute the clusters centroids//計(jì)算聚類質(zhì)心

        (29) evaluate each krill usingASDC//根據(jù)ASDC評估磷蝦個(gè)體

        (30)endfor

        (31)fori=1 toSdo

        (32) apply KH operators to KHM//更新KHM

        (33) genetic crossover//遺傳交叉

        (34) genetic mutation//遺傳變異

        (35)endfor

        (36) replace the worst krill with the best krill//個(gè)體替換

        (37) sort the krills and findxbest//重新排序磷蝦群, 尋找最優(yōu)個(gè)體

        (38)I=I+1//迭代更新

        (39)endwhile

        (40)returnxbest//迭代完成后, 返回最優(yōu)解

        5 實(shí)驗(yàn)分析

        5.1 評估指標(biāo)

        本節(jié)對所提出的算法進(jìn)行仿真對比分析,實(shí)驗(yàn)利用Matlab進(jìn)行。文本聚類領(lǐng)域內(nèi)聚類質(zhì)量的評估指標(biāo)主要有準(zhǔn)確率、精確度、召回率和F度量值,以上指標(biāo)可用于評估文檔聚類和度量每個(gè)聚類中實(shí)際分割與文檔分類標(biāo)簽的一致性。

        精確度:精確度表示所有實(shí)際相關(guān)文檔與所有聚類中文檔總量的比值,該比值可以根據(jù)實(shí)際給定的分類標(biāo)簽針對每個(gè)聚類進(jìn)行計(jì)算,計(jì)算方式為

        P(i,j)=nij/nj

        (23)

        式中:P(i,j) 表示聚類j中分類i的精確度,nij表示聚類j中分類i的實(shí)際成員數(shù)量,nj為聚類j中的所有成員數(shù)量。

        召回率:召回率表示實(shí)際相關(guān)文檔與所有聚類文檔的比值,計(jì)算方式為

        R(i,j)=nij/ni

        (24)

        式中:R(i,j) 為聚類j中分類i的召回率,ni為分類i的實(shí)際成員量。

        F度量:F度量根據(jù)聚類精確度和召回率計(jì)算,期望最佳的文本聚類結(jié)果,其F度量值將越接近于1,聚類j中分類i的F度量計(jì)算方式為

        (25)

        所有聚類的F度量計(jì)算方式為

        (26)

        式中:n表示集合D中的文檔總量。

        準(zhǔn)確率:聚類準(zhǔn)確率用于計(jì)算實(shí)際劃分至每個(gè)聚類中的文本文檔的比例,計(jì)算方式為

        (27)

        式中:K表示文本總聚類數(shù)。

        5.2 測試數(shù)據(jù)集

        利用9個(gè)擁有不同特征的文本數(shù)據(jù)集測試聚類算法的可行性,這些文本聚類基準(zhǔn)數(shù)據(jù)集可從網(wǎng)站http://sites.labic.icmc.usp.br/text_collections/下載,并通過詞條提取表征為數(shù)值形式進(jìn)行實(shí)驗(yàn)。表1給出了數(shù)據(jù)集的詳細(xì)屬性。數(shù)據(jù)集DS1來源于CSTR,包括4個(gè)分類的關(guān)于技術(shù)報(bào)告的299個(gè)文檔。數(shù)據(jù)集DS2來源于SyskrillWebert,包括4個(gè)分類的關(guān)于Web網(wǎng)頁的333個(gè)文檔。數(shù)據(jù)集DS3來源于Trace,包括6個(gè)分類的關(guān)于tr32的204個(gè)文檔。數(shù)據(jù)集DS4來源于Trace,包括9個(gè)分類的關(guān)于tr32的313個(gè)文檔。數(shù)據(jù)集DS5 Trace,包括9個(gè)分類的關(guān)于tr11的414個(gè)文檔。數(shù)據(jù)集DS6來源于Trace,包括10個(gè)分類的關(guān)于tr41的878個(gè)文檔。數(shù)據(jù)集DS7來源于OHSUMED,包括10個(gè)分類的關(guān)于MIDLINE的913個(gè)文檔。數(shù)據(jù)集DS8來源于classic4,包括4個(gè)分類的關(guān)于MIDLINE的2000個(gè)文檔,4個(gè)分類分別為CACM、CRAN、CISI、MED,每個(gè)分類500個(gè)文檔。數(shù)據(jù)集DS9來源于20 NEWSGRUP,包括20個(gè)分類的關(guān)于新聞的18 828個(gè)文檔。

        表1 數(shù)據(jù)集

        與本文設(shè)計(jì)的相關(guān)KH算法一共有6種,表2是不同KH算法版本的詳細(xì)說明。KHA1和KHA2是利用基本KH算法進(jìn)行文本聚類,不使用K均值結(jié)果作為初始解,區(qū)別在于是否融入遺傳交叉和變異。HKHA1、HKHA2和HKHA3均是融入K均值的混合KH算法,但僅僅是以余弦相似度單目標(biāo)進(jìn)行聚類衡量,同時(shí)區(qū)別在于是融入遺傳交叉和變異。MHKHA則是融入K均值的混合多目標(biāo)算法,以K均值聚類作為初始解,以余弦相似度和歐氏距離進(jìn)行多目標(biāo)聚類優(yōu)化,再融入遺傳交叉和變異。不同版本的KH算法還將與3種混合文本聚類算法進(jìn)行比較,分別選取混合和聲搜索文本聚類算法HHS[13]、混合遺傳文本聚類算法HGA[12]和混合粒子群優(yōu)化文本聚類算法HPSO[11]進(jìn)行性能對比。實(shí)驗(yàn)結(jié)果均是20次實(shí)驗(yàn)結(jié)果的均值,聚類過程中設(shè)置1000次最大迭代,可以使算法進(jìn)行充分的全局最優(yōu)搜索,K均值聚類過程設(shè)置100次最大迭代,可以使其收斂在局部搜索最優(yōu)解上。

        表2 不同版本的KH算法

        5.3 改進(jìn)磷蝦群算法的參數(shù)確定

        該部分實(shí)驗(yàn)用于確定MHKHA算法中相關(guān)參數(shù)最優(yōu)值。表3是20個(gè)收斂實(shí)驗(yàn)場景的詳細(xì)參數(shù)配置。實(shí)驗(yàn)主要研究4個(gè)參數(shù)的取值問題,包括KHM大小S、最大覓食速度Vf、最大隨機(jī)擴(kuò)散速度Dmax和最大誘導(dǎo)步長Nmax。所有實(shí)驗(yàn)場景最大迭代數(shù)Imax=1000,在所有9個(gè)數(shù)據(jù)集上對每個(gè)收斂實(shí)驗(yàn)場景進(jìn)行實(shí)驗(yàn)分析,以確定4個(gè)參數(shù)最優(yōu)值。表3將收斂場景劃分為4組,每一組確定3個(gè)參數(shù)不同,改變一個(gè)參數(shù)來確定最優(yōu)值。如:對于場景6~場景10,S、Dmax和Nmax是固定相同取值,Vf改變?nèi)≈?。第一組場景以5個(gè)不同取值S=1020304050檢測磷蝦群記憶庫KHM大小(存儲(chǔ)初始解)的最優(yōu)值,第二組場景以5個(gè)不同最大覓食速度Vf=0.005/0.010/0.030/0.040/0.070檢測Vf最優(yōu)值。剩余3組場景依此類推。最后一列數(shù)據(jù)是在相應(yīng)場景下得到的最優(yōu)值組數(shù),最后一行則是相應(yīng)參數(shù)最優(yōu)取值。4個(gè)參數(shù)的組合取值是參考有關(guān)磷蝦群算法研究文獻(xiàn)所作的取值。

        場景1~場景5用于決定KHM大小的最優(yōu)值,第2組場景在所有數(shù)據(jù)集中的36個(gè)評估指標(biāo)中得到了24個(gè)最優(yōu)值,因此,選定S=20,后續(xù)實(shí)驗(yàn)也以該值進(jìn)行實(shí)驗(yàn)分析。場景6~場景10用于決定最大覓食速度Vf的最優(yōu)值,第8組場景在所有數(shù)據(jù)集的36個(gè)評估指標(biāo)中得到了19個(gè)最優(yōu)

        表3 磷蝦群算法的執(zhí)行場景和最佳參數(shù)取值

        值,因此,選定Vf=0.030,后續(xù)實(shí)驗(yàn)也以該值進(jìn)行實(shí)驗(yàn)分析。場景11~場景15用于決定最大隨機(jī)擴(kuò)散速度Dmax的最優(yōu)值,第14組場景在所有數(shù)據(jù)集的36個(gè)評估指標(biāo)中得到了25個(gè)最優(yōu)值,因此,選定Dmax=0.008,后續(xù)實(shí)驗(yàn)也以該值進(jìn)行實(shí)驗(yàn)分析。場景16~場景20用于決定最大誘導(dǎo)步長Nmax的最優(yōu)值,第20組場景在所有數(shù)據(jù)集的36個(gè)評估指標(biāo)中得到了27個(gè)最優(yōu)值,因此,選定Nmax=0.100,后續(xù)實(shí)驗(yàn)也以該值進(jìn)行實(shí)驗(yàn)分析。

        5.4 算法對比結(jié)果分析

        表4給出在9個(gè)基準(zhǔn)數(shù)據(jù)集上測試的4個(gè)評估指標(biāo)結(jié)果,共測試10種算法。最優(yōu)結(jié)果以粗體表示。準(zhǔn)確率方面,MHKHA在9個(gè)數(shù)據(jù)集中的7個(gè)數(shù)據(jù)集得到了最優(yōu)結(jié)果;精確度方面,MHKHA在9個(gè)數(shù)據(jù)集測試中的8個(gè)數(shù)據(jù)集得到了最優(yōu)結(jié)果;在召回率和F度量指標(biāo)上,MHKHA在所有數(shù)據(jù)集上均得到了最優(yōu)結(jié)果。綜合所有指標(biāo)可知,MHKHA獲得了最多的最優(yōu)值,可見,融入遺傳算子的混合多目標(biāo)磷蝦群算法MHKHA可以有效提升文本聚類效果。

        表4 聚類性能對比結(jié)果

        5.5 統(tǒng)計(jì)分析

        本節(jié)根據(jù)F度量值執(zhí)行弗里德曼氏測試評估算法性能,結(jié)果見表5,給出的是算法在不同數(shù)據(jù)集中的測試排序。本文的MHKHA算法在所有數(shù)據(jù)集中改進(jìn)文本文檔聚類的排序最高,緊接著是HKHA1、HKHA3、HKHA2、HPSO、HHS、HGA、KHA2、HKA1和K-mean++算法。MHKHA算法利用多目標(biāo)優(yōu)化的K均值聚類結(jié)果作為算法的初始解,可以有效增強(qiáng)KH算法的局部開發(fā)能力;而融入遺傳算法后的KH算法又可以提升算法的全局搜索能力,最終得到最佳的聚類效果。

        進(jìn)一步對算法進(jìn)行t測試,測試結(jié)果見表6、表7,利用α<0.05的t測試評估性能。表6總結(jié)了KHA1和HKHA1

        表5 基于F度量的弗里德曼氏測試分析

        表6 KHA1和HKHA1在α<0.05時(shí)的t測試結(jié)果

        表7 HKHA1和MHKHA在α<0.05時(shí)的t測試結(jié)果

        的t測試結(jié)果,可以看到,9個(gè)數(shù)據(jù)集中有7個(gè)改進(jìn)較多,結(jié)果很可觀。同時(shí),HKHA1的t測試結(jié)果要優(yōu)于HKA1,可見,改善磷蝦群的初始種群結(jié)構(gòu)是行之有效的。表7總結(jié)了HKHA1和MHKHA的t測試結(jié)果,可以看到,9個(gè)數(shù)據(jù)集中有6個(gè)改進(jìn)較多,同時(shí),MHKHA的t測試結(jié)果要優(yōu)于HKHA1,可見,融入多目標(biāo)和遺傳算子在磷蝦群算法中可以有效增強(qiáng)個(gè)體尋優(yōu)能力,在避免局部最優(yōu)的同時(shí),快速收斂至全局最優(yōu)解處。

        5.6 收斂分析

        本節(jié)觀察幾種文本聚類算法的收斂行為,收斂速度可以反映算法尋找最優(yōu)解(準(zhǔn)確聚類)的速度。圖3是算法的收斂行為表現(xiàn)??梢钥吹剑琈HKHA算法隨著迭代的進(jìn)行,基本上到后期在所有數(shù)據(jù)集測試下均可以得到最大的適應(yīng)度均值,說明算法可以有效避免陷入局部最優(yōu),獲得全局最優(yōu)解,這與其它幾種混合KH算法(HKHA1、HKHA2、HKHA3)不同,說明MHKHA算法所采用的混合多目標(biāo)機(jī)制和遺傳算子對于有效提升聚類效率,以及個(gè)體尋優(yōu)方面是有效可行的。此外,HKHA2和HKHA3的收斂性優(yōu)于HKHA1、HGA、HHS和HPSO,說明在融入K均值作為種群初始結(jié)構(gòu)后,對磷蝦群個(gè)體更新融入遺傳算子的思路是有效可行的,可以有效增加種群多樣性,增加獲得全局最優(yōu)的概率。

        圖3 算法收斂狀況

        6 結(jié)束語

        為了提高文本聚類的準(zhǔn)確率,提升聚類效率,提出一種融合改進(jìn)磷蝦群算法與K均值的文本聚類算法。算法結(jié)合K均值聚類的局部快速尋優(yōu)能力和改進(jìn)磷蝦群算法的全局搜索能力,以K均值聚類解作為磷蝦群算法的初始種群,引入遺傳交叉和變異算子改善磷蝦個(gè)體多樣性,提升全局搜索能力;通過磷蝦種群的誘導(dǎo)運(yùn)動(dòng)、覓食運(yùn)動(dòng)和隨機(jī)擴(kuò)散機(jī)制作個(gè)體位置更新,引入余弦相似度和歐氏距離的多目標(biāo)結(jié)構(gòu)適應(yīng)度函數(shù)評估磷蝦位置優(yōu)劣,搜索全局最優(yōu)解。結(jié)果表明,該算法在聚類指標(biāo)上表現(xiàn)更優(yōu)。

        猜你喜歡
        磷蝦質(zhì)心全局
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        重型半掛汽車質(zhì)量與質(zhì)心位置估計(jì)
        磷蝦真是“蝦無敵”
        量子Navier-Stokes方程弱解的全局存在性
        基于GNSS測量的天宮二號質(zhì)心確定
        南極磷蝦粉在水產(chǎn)飼料中的應(yīng)用
        湖南飼料(2021年4期)2021-10-13 07:32:46
        “美味”的磷蝦
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        “美味”的磷蝦
        新思路:牽一發(fā)動(dòng)全局
        久草国产视频| 中文乱码字幕精品高清国产| 免费人成黄页网站在线观看国内| 日本免费精品一区二区三区视频| 亚洲最大水蜜桃在线观看| 亚洲精品乱码8久久久久久日本 | 久久99国产精品尤物| 日本av在线精品视频| 久草视频这里只有精品| 欧美老妇多毛xxxxx极瑞视频| 亚洲爆乳少妇无码激情| 婷婷五月亚洲综合图区| 亚洲无码中文字幕日韩无码| 亚洲av天堂在线免费观看| 国产av无码专区亚洲精品| 亚洲av第一页国产精品| 久久免费视亚洲无码视频 | 日本真人做爰免费视频120秒 | 777米奇色狠狠俺去啦| 久久免费看少妇高潮v片特黄| 国产亚洲曝欧美不卡精品| 亚洲第一女人的天堂av| 99久久精品费精品国产一区二| 日韩在线无| 免费的黄网站精品久久| 99久久免费看精品国产一| 亚洲avav天堂av在线网爱情| 免费无遮挡无码视频在线观看| 麻豆成人久久精品二区三区91| 午夜天堂av天堂久久久| 伊人久久五月丁香综合中文亚洲 | 无遮挡中文毛片免费观看| 久久精品视频日本免费| 国产亚av手机在线观看| 成年男女免费视频网站| 亚洲免费成年女性毛视频| 亚洲免费一区二区av| 一本丁香综合久久久久不卡网站| 综合三区后入内射国产馆| 国产不卡一区二区av| 视频在线国产一区二区|