董躍華,郭士串
(江西理工大學(xué) 信息工程學(xué)院,江西 贛州341000)
文本聚類屬于聚類分析范疇,是一種挖掘潛在、隱藏信息的方法[1],但因其非結(jié)構(gòu)化的數(shù)據(jù)類型和向量空間模型表示后的高維性,使其自身具有特殊性。
通常文本聚類包括兩個(gè)步驟:第一文本預(yù)處理,使文本數(shù)據(jù)可以通過(guò)計(jì)算機(jī)處理;第二聚類算法選擇,針對(duì)文本數(shù)據(jù)的特點(diǎn)進(jìn)行聚類。長(zhǎng)期以來(lái),人們都很熱衷于對(duì)文本預(yù)處理的研究,如有研究者提出一種特征項(xiàng)自動(dòng)分解的思想[2]提高了文本特征項(xiàng)的選擇精度;還有通過(guò)類間偏斜度、類內(nèi)離散度和權(quán)重調(diào)整因子的配合使用[3]修改了傳統(tǒng)的文本預(yù)處理方法,提高了文本聚類的精度。在文本聚類算法方面,K-均值因其高效和簡(jiǎn)單已被廣泛應(yīng)用,但其具有過(guò)分依賴初始中心點(diǎn)選取和聚類結(jié)果,易陷入局部最優(yōu)等缺點(diǎn)。目前,很多研究者利用遺傳算法的全局優(yōu)化能力結(jié)合K-均值算法對(duì)聚類進(jìn)行優(yōu)化[4-8]。遺傳算法獲得最優(yōu)解的方法就是模擬自然進(jìn)化的過(guò)程,其通過(guò)部分結(jié)構(gòu)可反映應(yīng)用空間較大的區(qū)域,具有一定的健壯性,可避免局部最優(yōu),同時(shí)還便于實(shí)時(shí)處理。所以,兩種算法相結(jié)合能更好改善聚類效果。
本文首先通過(guò)特征詞權(quán)重因子和特征向量改進(jìn)了文本預(yù)處理方法,并根據(jù)新的文本編碼特點(diǎn)結(jié)合遺傳控制因子對(duì)遺傳K-均值聚類算法進(jìn)行算子控制。實(shí)驗(yàn)結(jié)果表明,本文提出的文本聚類方法提高了文本特征詞分類精度并改進(jìn)了文本聚類效果。
在文本聚類之前,必須要對(duì)文本進(jìn)行預(yù)處理,主要包括文本的特征選取和文本編碼,經(jīng)過(guò)預(yù)處理后能提高文本聚類的效率和準(zhǔn)確率。通常文本聚類可描述為:對(duì)文本集合D={d1,d2,…,dn}進(jìn)行聚類,而最終的聚類效果是要得到一個(gè)簇的集合C= {c1,c2,…,ck},∪ki=1Ci=D ,其中對(duì)每一個(gè)di(di∈D),-Cj(Cj∈C),di∈Cj,并且還要使得聚類準(zhǔn)則函數(shù)Q(C)收斂,其中n為文本的總個(gè)數(shù),k是需要的聚類個(gè)數(shù),且Cj∩Cl=φ,j≠l。
在文 本 聚 類 中 文 本 通 過(guò) VSM (vector space model,VSM)表示,每個(gè)文本為一條向量。向量?jī)?nèi)容為通過(guò)TFIDF度量求出的文本中每個(gè)特征詞t的權(quán)重,用來(lái)表示特征詞t在該文本中的重要性。則文本可表示為
其中特征詞tk的權(quán)重為wk,1≤k≤n。
但是傳統(tǒng)的TF-IDF只考慮詞語(yǔ)頻率TF和詞語(yǔ)倒排文檔頻率IDF,在文本集中,通過(guò)該方法計(jì)算的特征詞權(quán)重集合能很好的表示一個(gè)文本,但此權(quán)重在體現(xiàn)文本間的差異性時(shí)有明顯的局限性。為了解決這一缺點(diǎn)本文提出一種改進(jìn)方法,在考慮到TF和IDF的情況下,加入特征詞權(quán)重因子對(duì)特征詞權(quán)重進(jìn)行加權(quán)處理。特征詞權(quán)重因子(WF)的作用是通過(guò)特征詞權(quán)重提高不同類文本間的區(qū)分度,增強(qiáng)同類文本間的相似度,WF的表達(dá)式如下
其中w′it為特征詞t在除i文本外在文本集其它文本中的權(quán)重,w*為此權(quán)重集合中的非零最小值,w*∈w′it。由式(2)可以看出通過(guò)WF的控制更好體現(xiàn)同一特征詞在不同文本中的不同重要性,從而加強(qiáng)文本間的差異性。修改后的度量公式命名WF-TF-IDF,做歸一化處理后為
式中:wit為特征詞t在文本di中的權(quán)重,t=1……n,N為文本集合中的文本總個(gè)數(shù),nt為出現(xiàn)特征詞t的文本個(gè)數(shù)。
預(yù)處理過(guò)程中通過(guò)WF-TF-IDF對(duì)文本特征詞權(quán)重計(jì)算結(jié)束后,文本的編碼方案也是非常重要的環(huán)節(jié)。但是在傳統(tǒng)的VSM編碼方案中,并沒(méi)有考慮特征詞在文本中的位置,而是簡(jiǎn)單的要求特征詞不重復(fù),不考慮在文本中的先后順序。但是一個(gè)特征詞出現(xiàn)在文本中的不同部分在表示文本時(shí)也有不同的貢獻(xiàn)度,比如,同一特征詞出現(xiàn)在文本的標(biāo)題和正文兩個(gè)部分中,在其表示文本時(shí)貢獻(xiàn)度就有所不同,所以在對(duì)文本編碼時(shí)應(yīng)該把特征詞出現(xiàn)在文本中的位置考慮在內(nèi)。
于是本文將傳統(tǒng)通過(guò)VSM中一個(gè)向量表示文本的模式,修改成文本由標(biāo)題向量dv1、第一段向量dv2、最后一段向量dv3、其它段向量dv4這4個(gè)特征向量構(gòu)成,每個(gè)特征向量均包含對(duì)應(yīng)的特征詞和權(quán)重,由于每個(gè)特征向量代表文本的不同位置,因此,對(duì)于不同位置的特征向量通過(guò)位置權(quán)重Lm進(jìn)行加權(quán)處理,修改后的文本表示應(yīng)為
式中:dvm——文本的特征向量,Lm= {0.4,0.3,0.2,0.1}為位置權(quán)重信息,m為特征向量個(gè)數(shù),1≤m≤4。
因VSM是實(shí)數(shù)域的求解問(wèn)題,并且二進(jìn)制編碼計(jì)算量大,所以本文將采用浮點(diǎn)數(shù)編碼,能加快求解速度。通過(guò)以上描述,以chromi= (c1,c2,…,ck)(1≤i≤p,p表示種群的大小,本文設(shè)p為偶數(shù))表示染色體。給定一個(gè)文本集包括N個(gè)文本,對(duì)每個(gè)文本根據(jù)自身的結(jié)構(gòu)生成各自的特征向量。從特征向量中提取的各自特征詞,對(duì)其不同的特征詞構(gòu)造VSM。通過(guò)此過(guò)程,每個(gè)文本d被認(rèn)為由向量空間中的,個(gè)特征向量組成。如果某個(gè)特征詞不存在對(duì)應(yīng)的特征向量中,那么在VSM中其對(duì)應(yīng)元素值設(shè)為0;否則根據(jù)本文提出的基于WF加權(quán)的TF-IDF權(quán)重計(jì)算方法求得該特征詞在文本中的權(quán)重。其染色體中的cj(1≤j≤k)則是由特征向量構(gòu)成并與VSM長(zhǎng)度相同,表示聚類結(jié)果中第j個(gè)中心向量。由于對(duì)特征向量權(quán)值進(jìn)行了歸一化處理,所以進(jìn)行編碼時(shí)向量cj中的元素都是0和1之間的實(shí)數(shù)。
1.3.1 改進(jìn)的余弦?jiàn)A角度量
在整個(gè)聚類過(guò)程中,文本彼此間的相似性計(jì)算尤為重要,其評(píng)價(jià)準(zhǔn)則對(duì)最終聚類效果有直接的影響。目前對(duì)于同一特征空間的兩個(gè)對(duì)象進(jìn)行相似性評(píng)價(jià)有了很多方法。但是對(duì)象的數(shù)據(jù)類型有所不同有的數(shù)據(jù)是連續(xù)型,有的則是分類型,不是所有的評(píng)價(jià)標(biāo)準(zhǔn)都適用。文本聚類屬于對(duì)連續(xù)型數(shù)據(jù)進(jìn)行處理,目前常用的文本間相似性計(jì)算方法有Pearson相關(guān)、Jaccard系數(shù)[9]以及歐幾里德距離等。但在VSM中文本通過(guò)向量表示,故文本間的相似性可以通過(guò)向量之間的距離表示。因?yàn)楸疚脑谖谋绢A(yù)處理中,采用了基于WF的加權(quán)策略和特征向量方法,故在文本相似度計(jì)算時(shí)采余弦相似度度量最優(yōu)。又由于本文對(duì)文本編碼方案做了修改,所以本文結(jié)合式 (4)對(duì)余弦相似度計(jì)算做了修改,其表達(dá)式如下
式中:dI、dJ——文本,m為文本特征向量個(gè)數(shù)。分子和分母分別表示兩個(gè)特征向量的內(nèi)積和模的乘積。由于文本向量在進(jìn)行內(nèi)積運(yùn)算時(shí)對(duì)沒(méi)有此特征詞時(shí)做補(bǔ)零處理,且每個(gè)特征向量還包含位置權(quán)重信息,所以通過(guò)式 (5)能更好體現(xiàn)出文本間的差異度。
1.3.2 遺傳控制因子 (GCF)
通過(guò)研究遺傳算法控制算子的方法和新的文本編碼的特點(diǎn),本文提出一種遺傳控制因子 (GCF)。GCF在遺傳算法中的作用是如何將優(yōu)質(zhì)的個(gè)體引入下一代,還表示該個(gè)體各聚類中心向量間的相似度。如果GCF較小說(shuō)明此個(gè)體聚類中心點(diǎn)彼此間相似度較小,此個(gè)體為優(yōu)質(zhì)個(gè)體;如果GCF較大說(shuō)明此個(gè)體聚類中心點(diǎn)彼此間相似度較大,此個(gè)體為劣質(zhì)個(gè)體。GCF主要的設(shè)計(jì)步驟如下:
(1)計(jì) 算 均 值向量VA = {VA1,……,VAm},其 中VAi表示染色體p第i維的平均向量,m為特征向量的個(gè)數(shù)。
(3)染色體p的GCF計(jì)算公式為
式中:μ∈ (0,1]為隨機(jī)數(shù);CI、CJ 為染色體p 的中心向量。
由于采用Sim度量文本間的相似度,故Sim值的大小和文本間的相似度成正比。首先由1.2節(jié)的編碼方案,對(duì)生成的染色體隨機(jī)的產(chǎn)生k個(gè)中心向量,再根據(jù)Sim求出每個(gè)中心向量和各個(gè)文本間的相似度,并將各文本放入與之相似度最接近的中心點(diǎn)所在的類中。由此可見(jiàn),一個(gè)中心點(diǎn)與離它越近的對(duì)象的相似度越大,否則相似度越小,那么其適應(yīng)度值就應(yīng)該越大。所以本文設(shè)計(jì)的適應(yīng)度函數(shù)f為
根據(jù)本文重構(gòu)的余弦相似度計(jì)算公式,所設(shè)計(jì)的新的遺傳K-均值算法的收斂準(zhǔn)則函數(shù)為
式中:q(cj)——第j類中內(nèi)部文本與聚類中心的相似度
式 (9)的目標(biāo)函數(shù)是基于本文設(shè)計(jì)的Sim相似度的。
為了克服算子操作的低效性,本文將使用GCF對(duì)傳統(tǒng)的遺傳K-均值算法進(jìn)行算子操作控制,使其能更好的和特征向量方法相結(jié)合。本文將此算法稱為GGKM。在GGKM算法遺傳算子交叉和變異時(shí),GCF的作用如下:
在遺傳算子交叉操作時(shí),交叉后新個(gè)體的GCF大于原個(gè)體的GCF,則說(shuō)明交叉失敗保留原來(lái)的個(gè)體,否則保留新個(gè)體。在算子變異操作時(shí),如果進(jìn)行一次變異后得到的新個(gè)體的GCF大于原來(lái)個(gè)體的GCF,則說(shuō)明沒(méi)有得到優(yōu)質(zhì)的新個(gè)體,說(shuō)明變異操作失敗需重新進(jìn)行一次變異,如果進(jìn)行了Gmax(最大變異次數(shù))次變異后還沒(méi)有得到小于原來(lái)個(gè)體的GCF,則說(shuō)明原來(lái)個(gè)體為優(yōu)質(zhì)個(gè)體并保留下來(lái),否則將得到的新個(gè)體引入下一代。
2.1.1 選擇算子
為了保證基因中最優(yōu)個(gè)體一定被選中,并且讓個(gè)體被選中的概率都與其自身的適應(yīng)度值有關(guān)。所以,文本使用最優(yōu)保持策略和輪盤賭注選擇方法對(duì)算子進(jìn)行選擇操作。實(shí)現(xiàn)的步驟如下:
還有,最優(yōu)保持策略的目的是保證當(dāng)前算子操作階段出現(xiàn)的最優(yōu)個(gè)體不會(huì)在下一步的進(jìn)化操作中被直接破壞。設(shè)Iw為當(dāng)前種群中適應(yīng)度最低個(gè)體,Ib為當(dāng)前種群中適應(yīng)度最高個(gè)體,I′b為種群中總的最好個(gè)體,具體偽代碼如下:
2.1.2 交叉算子
本文在進(jìn)行遺傳算子交叉操作時(shí),采用了自適應(yīng)可變概率,并在操作時(shí)采用單點(diǎn)交叉算子。假設(shè)兩個(gè)配對(duì)個(gè)體為c1=g1,g2,…,gk和c1=h1,h2,…h(huán)k。實(shí)現(xiàn)交叉操作的步驟如下:
(1)設(shè)favg為當(dāng)前種群的平均適應(yīng)度,fmax為當(dāng)前種群的最大適應(yīng)度,設(shè)f1為c1和c2兩者中適應(yīng)度較大的個(gè)體,則本文使用的可變交叉概率Pt為[10]
由式 (10)可以看出,當(dāng)平均適應(yīng)度大于個(gè)體適應(yīng)度時(shí),說(shuō)明個(gè)體不是優(yōu)質(zhì)個(gè)體,必須進(jìn)行交叉操作;而當(dāng)交叉?zhèn)€體的適應(yīng)度值比較大時(shí),其交叉概率成反比。
(2)生成一個(gè)隨機(jī)數(shù)R1∈ [0,1)。
(3)if (R1<Pt)
{
(4)產(chǎn)生一個(gè)隨機(jī)整數(shù)r并且小于中心點(diǎn)個(gè)數(shù)k,使其作為交叉操作的交叉點(diǎn),并將r位到k位之間的對(duì)象隨機(jī)互換。即當(dāng)i=r+1,…,k時(shí),每次均生成一個(gè)隨機(jī)數(shù)μ其取值為0或1,則有g(shù)i=μgi+(1-μ)hi和hi= (1-μ)gi+μhi。
(5)用GCF進(jìn)行個(gè)體控制。
}
2.1.3 變異算子
在進(jìn)行變異操作時(shí),其概率類似于交叉操作也采用可變控制。確定變異概率大小的公式[10]如下
式中:λ∈ (0,1],一般為0.1。由式 (11)可以觀察出,種群中個(gè)體適應(yīng)度的值和變異概率成反比。通過(guò)式 (11)求得變異概率后,遺傳算法變異算子操作步驟如下:首先確定一個(gè)范圍 [-R,R],計(jì)算公式為
設(shè)Ni為個(gè)體N在第i位的值,而nimin和nimax為文本集中第i位上的最小值和最大值,設(shè)ni為種群進(jìn)行變異操作后第i位的值,μ為隨機(jī)數(shù)且μ∈ [-R,R],其計(jì)算公式如下
實(shí)現(xiàn)偽代碼為:
用式 (12)、式 (13)進(jìn)行變異運(yùn)算;
在改進(jìn)后的文本聚類算法中,采用的終止條件如下:
(1)固定最大迭代次數(shù)Itemum。當(dāng)算法執(zhí)行了Itemum次遺傳進(jìn)化后停止。
(2)根據(jù)算法自身的收斂程度。比如在文本聚類過(guò)程中準(zhǔn)則函數(shù)值連續(xù)多代無(wú)明顯變化,則說(shuō)明函數(shù)值趨向收斂此時(shí)算法停止。
輸入:文本集D(文本數(shù)為N,維數(shù)為m),遺傳種群大小p,交叉概率pt,變異概率pm,聚類個(gè)數(shù)k,終止條件。
輸出:聚類結(jié)果。
GGKM算法具體步驟如下:
步驟1 進(jìn)行文本預(yù)處理;
步驟2 通過(guò)WF-TF-IDF算法對(duì)特征詞權(quán)重進(jìn)行計(jì)算;
步驟3 對(duì)文本進(jìn)行編碼,通過(guò)文本自身的特征向量結(jié)合VSM表示文本;
步驟4 初始化種群,通過(guò)K-均值和Sim隨機(jī)產(chǎn)生p個(gè)染色體,種群可以表表示為p= (chrom1,chrom2,……,chromp);
步驟5 通過(guò)重構(gòu)的適應(yīng)度函數(shù)f求的每個(gè)個(gè)體的適應(yīng)度函數(shù)值;
步驟6 計(jì)算遺傳控制因子GCF并進(jìn)行選擇、交叉、變異控制。選擇采用最優(yōu)保持策略和輪盤賭注選擇;交叉和變異操作通過(guò)每個(gè)個(gè)體的GCF和自適應(yīng)可變概率控制,確保優(yōu)質(zhì)個(gè)體被引至下一代;
步驟7 產(chǎn)生了新一代的遺傳種群,通過(guò)算法終止條件判斷是否終止,是則進(jìn)入步驟8;否則轉(zhuǎn)步驟5;
步驟8 輸出聚類結(jié)果。
改進(jìn)后的文本聚類流程如圖1所示,首先通過(guò)特征詞權(quán)重因子 (WF)修改了傳統(tǒng)的權(quán)重計(jì)算公式,得出的特征詞權(quán)重值能更好的體現(xiàn)特征詞在文本中的價(jià)值。再利用特征向量的概念和VSM對(duì)文本進(jìn)行編碼,重新編碼后的文本由自身特征向量組成,每個(gè)特征向量表示文本的不同位置。再此基礎(chǔ)上利用式 (5)進(jìn)行相似度計(jì)算,能更好的提高同類文本的相似度,增加不同類文本的差異度。最后,根據(jù)本文的文本編碼方案特點(diǎn)結(jié)合遺傳算法操作算子的思想,提出一種遺傳控制因子 (GCF)。通過(guò)GCF對(duì)遺傳K-均值算法的算子操作進(jìn)行控制,使交叉和變異效率更高,從而得到較理想的聚類效果。
本文實(shí)驗(yàn)采用的原始數(shù)據(jù)來(lái)自于中文自然語(yǔ)言處理開(kāi)放平臺(tái)網(wǎng)站的新聞樣本。其中訓(xùn)練樣本和測(cè)試樣本共有2516個(gè)。樣本有12個(gè)類別,分別為財(cái)經(jīng)、體育、教育等,采用信息增益和基于文檔統(tǒng)計(jì)并取1000個(gè)特征詞,數(shù)據(jù)集稱為Chs2516。實(shí)驗(yàn)的硬件環(huán)境為Intel Core i3 2.4GH,內(nèi)存2G,操作系統(tǒng)是32位 Windows7,仿真軟件為Matlab 2012b。
圖1 改進(jìn)后的文本聚類流程
文本預(yù)處理階段首先在支持向量機(jī)算法下進(jìn)行特征詞分類實(shí)驗(yàn),通過(guò)WF加權(quán)的TF-IDF方法對(duì)特征詞權(quán)重進(jìn)行計(jì)算,每次實(shí)驗(yàn)結(jié)束都會(huì)計(jì)算出此次特征詞分類的查全率(Pe)和查準(zhǔn)率 (Pr),對(duì)每20次結(jié)果求Pe和Pr平均值,而Pe和Pr是F1-measure的重要參數(shù),對(duì)特征詞分類精度的評(píng)估有很重要的影響。評(píng)估指標(biāo)F1-measure在文本聚類有效性評(píng)價(jià)中的使用非常頻繁,在各種文獻(xiàn)檢索系統(tǒng)中都有運(yùn)用[11]。其表達(dá)式如下
在文本聚類效果方面,采用Huang提出的聚類精度度量來(lái)衡量文本聚類結(jié)果的準(zhǔn)確性,其公式為
式中:ai——對(duì)象出現(xiàn)在類Ci和其相應(yīng)標(biāo)記類中的總和。并把終止條件設(shè)為:Gmax為200,Itemum為800,當(dāng)Itemum大于800或函數(shù)Q()收斂時(shí),算法結(jié)束。
在文本特征詞提取階段采用支持向量機(jī)算法,將傳統(tǒng)的 TF-IDF算法、BOR-TFIDF算法[12]、SI-TFIDF算法與WF-TF-IDF改進(jìn)算法進(jìn)行比較。每種算法運(yùn)行100次。表1和圖2分別表示4種算法對(duì)同一類特征詞的測(cè)試結(jié)果和實(shí)驗(yàn)效果圖。通過(guò)表1的數(shù)據(jù)可以看出,通過(guò)WF加權(quán)的WF-TF-IDF算法和其它3種算法相比在特征詞分類效果方面具有較高的準(zhǔn)確率。圖2表現(xiàn)出了4種算法對(duì)不同類特征詞的分類效果,其中TF-IDF和BOR-TFIDF算法的分類精度比較低,SI-TFIDF優(yōu)于前2種算法,而 WF-TF-IDF算法在傳統(tǒng)算法優(yōu)點(diǎn)的基礎(chǔ)上,結(jié)合權(quán)重因子WF對(duì)特征詞權(quán)重進(jìn)行加權(quán)處理使得分類精確度最高。
表1 基于支持向量機(jī)的測(cè)試結(jié)果
在文本聚類階段,將傳統(tǒng)K-均值聚類算法、改進(jìn)的混合聚類算法[13]與改進(jìn)算法GGKM進(jìn)行比較。表2對(duì)應(yīng)3種聚類算法對(duì)數(shù)據(jù)集Chs2516進(jìn)行聚類后的聚類精度 (表中的順序號(hào)為100次實(shí)驗(yàn)中隨機(jī)挑選的8組),從表2中可以看出GGKM算法相比其它兩種算法有更高的聚類精度且聚類精度波動(dòng)幅度相對(duì)較小,這都說(shuō)明GGKM算法的聚類結(jié)果更加的準(zhǔn)確和穩(wěn)定。圖3為3種算法的平均聚類精度對(duì)比,更加直觀的顯示GGKM算法的聚類效果更優(yōu)。
圖2 基于支持向量機(jī)的實(shí)驗(yàn)效果比較
表2 文本聚類精度值
圖3 文本數(shù)據(jù)集聚類精度對(duì)比
綜上所述,本文提出的以WF加權(quán)的WF-TF-IDF特征詞權(quán)重計(jì)算方法,在繼承了傳統(tǒng)算法優(yōu)勢(shì)的同時(shí),并根據(jù)特征詞在表示文本時(shí)對(duì)文本的重要性進(jìn)行權(quán)重的加權(quán)和降權(quán)處理,以體現(xiàn)特征詞對(duì)區(qū)分文本的貢獻(xiàn)度。從而更好的變現(xiàn)了同一特征詞在不同文本中的不同重要性,確保了文本分類效果的穩(wěn)定。而結(jié)合了特征向量思想和遺傳控制因子的遺傳K-均值聚類算法GGKM,相比其它兩種文本聚類算法,能更好的適應(yīng)文本提出的文本編碼方案,從以上實(shí)驗(yàn)數(shù)據(jù)可以看出,本文改進(jìn)的文本聚類算法,不但對(duì)特征詞的權(quán)重計(jì)算和特征詞分類做出了改進(jìn),還使得文本聚類精度得到提高,聚類效果不易受到干擾。
首先通過(guò)研究傳統(tǒng)特征詞權(quán)重計(jì)算的缺陷,從加強(qiáng)一個(gè)特征詞在不用文本中重要性的角度出發(fā),結(jié)合權(quán)重因子WF的方法,提出了改進(jìn)算法 WF-TF-IDF。并對(duì)文本編碼做了修改,使用特征向量的思想修改了相似度計(jì)算公式,使文本之間的差異度更加明顯。還針對(duì)改進(jìn)的文本預(yù)處理方案,提出通過(guò)遺傳控制因子改進(jìn)遺傳K-均值文本聚類算法。實(shí)驗(yàn)結(jié)果表明,本文提出的結(jié)合權(quán)重因子與特征向量改進(jìn)的文本聚類方法較之其它改進(jìn)方法,具有更好的特征提取和文本聚類效果。
[1]LIN Li.Application research of text clustering based on noumenon [D].Tianjin:Tianjin University,2011 (in Chinese).[林利.基于本體的文本聚類的應(yīng)用研究 [D].天津:天津大學(xué),2011.]
[2]YU Yonghong,BAI Wenyang.Text clustering based on automatic partition of feature item weight [J].Computer Engineering,2011,37 (11):25-27 (in Chinese). [余永紅,柏文陽(yáng).基于特征項(xiàng)權(quán)重自動(dòng)分解的文本聚類 [J].計(jì)算機(jī)工程,2011,37 (11):25-27.]
[3]ZHANG Yu,ZHANG Dexian.Improved feature weight algorithm [J].Computer Engineering,2011,37 (5):210-212(in Chinese). [張瑜,張德賢.一種改進(jìn)的特征權(quán)重算法[J].計(jì)算機(jī)工程,2011,37 (5):210-212.]
[4]Roy D K,Sharma L K.Genetic k-Means clustering algorithm for mixed numeric and categorical data sets [J].International Journal of Artificial Intelligence & Applications,2010,1 (2):23-28.
[5]Laszlo M,Mukherjee S.A genetic algorithm that exchanges neighboring centers for k-means clustering [J].Pattern Recognition Letters,2007,28 (16):2359-2366.
[6]Chang D X,Zhang X D,Zheng C W.A genetic algorithm with gene rearrangement for K-means clustering [J].Pattern Recognition,2009,42 (7):1210-1222.
[7]Hwang C,Chang T.Genetic k-means collaborative filtering for multi-criteria recommendation [J].Journal of Computational Information Systems,2012,8 (1):293-303.
[8] Martis R J,Chakraborty C.Arrhythmia disease diagnosis using neural network,SVM,and genetic algorithm-optimized k-means clustering [J].Journal of Mechanics in Medicine and Biology,2011,11 (4):897-915.
[9]Shameem M U S,F(xiàn)erdous R.An efficient k-means algorithm integrated with Jaccard distance measure for document clustering[C]//First Asian Himalayas International Conference on Internet.IEEE,2009:1-6.
[10]Chavent M,Lechevallier Y,Briant O.DIVCLUS-T:A monothetic divisive hierarchical clustering method [J].Computational Statistics &Data Analysis,2007,52 (2):687-701.
[11]Agarwal A,Xie B,Vovsha I,et al.Sentiment analysis of twitter data [C]//Proceedings of the Workshop on Languages in Social Media.Association for Computational Linguis-tics,2011:30-38.
[12]SHEN Zhibin,BAI Qingyuan.Improvement of feature weighting algorithm in text classification [J].Journal of Nanjing Normal University (Engineering and Technology Edition),2009,8 (4):95-98 (in Chinese).[沈志斌,白清源.文本分類中特征權(quán)重算法的改進(jìn) [J].南京師范大學(xué)學(xué)報(bào) (工程技術(shù)版),2009,8 (4):95-98.]
[13]LAI Yuxia,LIU Jianping,YANG Guoxing.K-means clustering analysis based on genetic algorithm [J].Computer Engineering,2008,34 (20):200-202 (in Chinese). [賴玉霞,劉建平,楊國(guó)興.基于遺傳算法的K均值聚類分析 [J].計(jì)算機(jī)工程,2008,34 ( 20):200-202.]