陳 林
(福建中醫(yī)藥大學(xué)人文與管理學(xué)院,福建 福州 350108)
改進(jìn)的GHSOM算法在文本聚類中的應(yīng)用
陳 林
(福建中醫(yī)藥大學(xué)人文與管理學(xué)院,福建 福州 350108)
信息時(shí)代,文本信息極其巨大。本文運(yùn)用一種改進(jìn)GHSOM算法進(jìn)行文本聚類,該算法具有顯著的文本聚類能力,能夠?qū)⑽谋镜南嗨菩杂枚喾N手段表現(xiàn)。實(shí)驗(yàn)結(jié)果表明改進(jìn)GHSOM算法整體上是優(yōu)于SOM算法,它的先進(jìn)性主要體現(xiàn)在更短的計(jì)算時(shí)間,并提供更豐富的有序性表達(dá)能力。
文本聚類;成長型分級自組織映射;SOM
信息時(shí)代信息量極大,可以用“信息爆炸”來形容,對信息的查詢、存取、處理都要前期對信息進(jìn)行分類處理。在浩如煙海的信息中,文本信息占據(jù)的比重較大,同時(shí)很多其他的信息也可以轉(zhuǎn)換成文本或者以文本的某種形式體現(xiàn),而這些信息的處理可以歸結(jié)為文本分類問題。如何從這些繁多的文本信息中找到滿足用戶的文本信息是文本挖掘的重要研究內(nèi)容。利用文本聚類將文本進(jìn)行自動(dòng)分類是解決這類問題的重要手段。眾多學(xué)者對文本聚類算法進(jìn)行了研究,取得了很多成果[1~8]。文本聚類的基本思想就是通過計(jì)算文本間的相似度,將文本劃分成若干個(gè)子類,使得同一子類中文本盡可能相似,而不同子類中的文本盡可能不同。文本聚類已得到廣泛的應(yīng)用,比如數(shù)據(jù)挖掘、信息檢索等方面[4]。
本文針對文本聚類問題,提出一種改進(jìn)的成長型分級自組織映射(Growing Hierarchical Self-organizing Map,GHSOM)算法處理[9~11]。實(shí)驗(yàn)顯示改進(jìn)的GHSOM算法具有明顯的文本聚類能力,能夠?qū)⑽谋镜南嗨菩杂枚喾N手段表現(xiàn)。將最相似的文本映射到同一神經(jīng)元,同一映射相鄰神經(jīng)元、不同映射間由全局導(dǎo)向作用導(dǎo)致的相鄰也都體現(xiàn)著一定程度的相似性。改進(jìn)GHSOM算法整體上是優(yōu)于SOM算法[12~15],它的先進(jìn)性主要體現(xiàn)在更短的計(jì)算時(shí)間,并提供更豐富的有序性表達(dá)能力。
2.1 GHSOM原理
GHSOM是多層分級結(jié)構(gòu),每一層包含數(shù)個(gè)獨(dú)立的成長型SOM,通過增長規(guī)模來在一定詳細(xì)程度上描述數(shù)據(jù)集。表示過分復(fù)雜數(shù)據(jù)的神經(jīng)元被擴(kuò)展,在下層形成一個(gè)小的成長型SOM,而表示一個(gè)相似數(shù)據(jù)集的單元將不需要進(jìn)一步擴(kuò)展。因此,通過它特有的結(jié)構(gòu)與數(shù)據(jù)固有的分級結(jié)構(gòu),GHSOM的結(jié)果更加反映出它的適應(yīng)性。
在圖1中給出了GHSOM的典型結(jié)構(gòu)。第一層映射提供輸入數(shù)據(jù)中主要聚類的粗略組織。在第二層中的六個(gè)單獨(dú)的SOM提供數(shù)據(jù)的更詳細(xì)的表示。值得注意的是,由于數(shù)據(jù)結(jié)構(gòu)的不同,映射的規(guī)模也不同。第0層為虛擬映射,為成長過程提供服務(wù)。
圖1 GHSOM的典型結(jié)構(gòu)
2.2 GHSOM核心算法流程
根據(jù)GHSOM的原理,設(shè)計(jì)了算法的主要步驟如下:
(1)計(jì)算第0層單元的量化誤差qe,計(jì)算式如下:
其中,C0為映射到第0層單元上的輸入向量集,即為全部向量集;m0代表輸入向量的平均值。
(2)構(gòu)建第1層映射為2*2個(gè)單元的SOM,采用K-means方法對向量權(quán)值進(jìn)行初始化,并設(shè)置此網(wǎng)絡(luò)為活動(dòng)網(wǎng)絡(luò),活動(dòng)網(wǎng)絡(luò)層級數(shù)為1,訓(xùn)練數(shù)據(jù)集為全部數(shù)據(jù)集[11]。
(3)使用SOM訓(xùn)練算法訓(xùn)練活動(dòng)網(wǎng)絡(luò)。
(4)計(jì)算活動(dòng)網(wǎng)絡(luò)內(nèi)所有神經(jīng)元的量化誤差qei,并根據(jù)平均量化誤差MQE定義式:
計(jì)算當(dāng)前網(wǎng)絡(luò)的MQEm值。其中,m為活動(dòng)網(wǎng)絡(luò)所在層級數(shù),qei出自數(shù)據(jù)投射到的映射單元的子集μ。
(5)驗(yàn)證級內(nèi)終止條件:MQEm<τ1·qeu,其中,qeu是相應(yīng)的上層單元的量化誤差。條件成立時(shí),轉(zhuǎn)第7步。
(6)選取活動(dòng)網(wǎng)絡(luò)中qe值最大的單元,標(biāo)記為錯(cuò)誤單元e。然后按下式得到最相異的鄰居d:d=argmax(‖ ‖me-mi), mi∈Ne,其中Νe是e的鄰居集。在e和d之間插入一行新的單元,重置SOM參數(shù),轉(zhuǎn)第3步。
(7)對活動(dòng)網(wǎng)絡(luò)單元逐個(gè)驗(yàn)證全局終止條件:qei<τ2·qe0。發(fā)現(xiàn)不滿足條件的單元時(shí),計(jì)算該單元四個(gè)鄰居的模型向量值,然后構(gòu)建以此四個(gè)向量值為初始值的2*2新映射網(wǎng)絡(luò),并設(shè)置新建網(wǎng)絡(luò)為活動(dòng)網(wǎng)絡(luò),層級數(shù)加1。將映射在該單元上的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),轉(zhuǎn)第3步。
(8)完成一個(gè)活動(dòng)網(wǎng)絡(luò)的驗(yàn)證時(shí),將此網(wǎng)絡(luò)父親單元所在網(wǎng)絡(luò)設(shè)置為活動(dòng)網(wǎng)絡(luò),層級數(shù)為1時(shí)結(jié)束。否則,層級數(shù)減1,轉(zhuǎn)第7步。
上述算法步驟僅僅列出了GHSOM網(wǎng)絡(luò)的構(gòu)建和訓(xùn)練過程,不包含對數(shù)據(jù)的預(yù)處理以及輸入輸出操作。
2.3 GHSOM算法實(shí)現(xiàn)的改進(jìn)
為了完善和改進(jìn)GHSOM算法,以得到更好的性能,本文提出了以下改進(jìn)方法:
(1)使用自定義的映射結(jié)構(gòu)和相應(yīng)的訓(xùn)練函數(shù)。本文中算法實(shí)現(xiàn)時(shí)GHSOM結(jié)構(gòu)中每一個(gè)映射都是由一個(gè)SOM網(wǎng)絡(luò)結(jié)構(gòu)和其它相關(guān)信息組成的結(jié)構(gòu)體表示的,這其中SOM網(wǎng)絡(luò)結(jié)構(gòu)包含了在GHSOM算法中并無用處的數(shù)據(jù)項(xiàng)和函數(shù),使用自定義的映射結(jié)構(gòu),可以更貼近GHSOM算法中各個(gè)函數(shù)的需要,這樣不但可以明確映射結(jié)構(gòu)包含的數(shù)據(jù)項(xiàng)內(nèi)容,有效防止計(jì)算中意外情況的發(fā)生(如未使用數(shù)據(jù)默認(rèn)值對計(jì)算的影響),而且可以提供以下所有改進(jìn)意見中對數(shù)據(jù)結(jié)構(gòu)支持的要求。此處訓(xùn)練函數(shù)指的是一層映射的訓(xùn)練函數(shù),即是用自定義的函數(shù)代替原算法實(shí)現(xiàn)中SOM的標(biāo)準(zhǔn)訓(xùn)練函數(shù)。采用自定義的函數(shù)的最大好處就是可以充分利用GHSOM的特點(diǎn),加快訓(xùn)練時(shí)的計(jì)算速度。
(2)從算法流程的角度改進(jìn),可以將本文中采用的深度優(yōu)先的結(jié)構(gòu)構(gòu)建過程改為廣度優(yōu)先的構(gòu)建過程。這樣處理需要對訓(xùn)練過程中的數(shù)據(jù)保存和內(nèi)存使用進(jìn)行合理的安排,否則算法將出現(xiàn)邏輯錯(cuò)誤。改為廣度優(yōu)先的構(gòu)建方法的一個(gè)最大優(yōu)勢在于提供繼續(xù)計(jì)算功能,即首先設(shè)定全局成長參數(shù)為比較大的數(shù)值,使GHSOM成長過程在聚類精度較粗時(shí)暫時(shí)停止計(jì)算,經(jīng)過人工檢驗(yàn)不滿意時(shí),再將全局成長參數(shù)設(shè)置得更小一些,并以先前計(jì)算得到的GHSOM網(wǎng)絡(luò)結(jié)構(gòu)為初始繼續(xù)進(jìn)行計(jì)算。
(3)根據(jù)耗散結(jié)構(gòu)論理論,系統(tǒng)有序結(jié)構(gòu)形成過程中,“負(fù)熵流”起到的作用至關(guān)重要,而信息即可以看作一種典型的“負(fù)熵流”。如在上述GHSOM結(jié)構(gòu)形成過程中,僅僅依靠了程序設(shè)置參數(shù)的信息和映射中每個(gè)神經(jīng)元權(quán)值向量的量化誤差信息。由此可以想到,只要在有序結(jié)構(gòu)的形成過程中提供更多的信息,就可以得到有序程度更高的結(jié)構(gòu)。舉例來說,在上述GHSOM算法中,上層映射向下層映射轉(zhuǎn)移的過程中,數(shù)據(jù)樣本向量要進(jìn)行刪減,在算法中刪減掉的特征值未發(fā)揮作用。仔細(xì)分析發(fā)現(xiàn),這些刪減掉的特征值實(shí)際是對上層映射起到重要作用的特征值,即具有這些特征的數(shù)據(jù)樣本很可能屬于刪減這些特征的上層映射。如果將刪減信息傳遞給上層映射,并利用此信息對以后的聚類提供導(dǎo)向性信息,則可以加快訓(xùn)練的速度。
程序訓(xùn)練使用的數(shù)據(jù)集為NSF(The National Science Foundation國家科學(xué)基金會(huì))在基礎(chǔ)研究領(lǐng)域授獎(jiǎng)情況(1990-2013)的摘要描述文集。每一篇摘要保存為一個(gè)文件,這些文件以NSF標(biāo)準(zhǔn)的摘要格式存儲。這些摘要文件集經(jīng)過名為NSFAbst的文本自動(dòng)分析器處理,輸出四個(gè)文本文件。程序訓(xùn)練所采用的數(shù)據(jù)集為docwords.txt文件,其內(nèi)容與格式如下:
docwords.txt=docid wordid freq (e.g.,1 9792 1)
其中,docid表示摘要文件的被處理時(shí)的編號;wordid表示關(guān)鍵詞編號,編號從文件word.txt中獲得;freq表示關(guān)鍵詞在相應(yīng)摘要中出現(xiàn)的次數(shù)。
算法中,程序用docid代表文本,在聚類效果檢查時(shí),使用idnsfid.txt文件查找得到文本的NSF編號,進(jìn)行人工聚類效果檢查。
GHSOM算法實(shí)現(xiàn)程序要求輸入數(shù)據(jù)為一個(gè)二維數(shù)組,其中列向量表示一個(gè)個(gè)數(shù)據(jù)樣本。原始的輸入數(shù)據(jù)樣本集不是滿足這一要求的,因此要對輸入數(shù)據(jù)進(jìn)行處理以便滿足程序要求,同時(shí),應(yīng)該盡量保證更好的訓(xùn)練效果。
本次實(shí)驗(yàn)所用的數(shù)據(jù)集文件docwords.txt剛好符合稀疏數(shù)組的形式;另外,本數(shù)據(jù)集每一文本中只包含數(shù)百單詞,而作為關(guān)鍵詞出現(xiàn)的單詞數(shù)目高達(dá)數(shù)千并接近一萬,最終以向量表示文本時(shí),存在固有的稀疏特性。因此可以使用標(biāo)準(zhǔn)的稀疏數(shù)組生成函數(shù)來處理輸入數(shù)據(jù)集文件,得到程序輸入要求的fulldata.mat數(shù)據(jù)文件。
此時(shí)輸入數(shù)據(jù)的向量表示包含了大量的特征值,即向量長度都很長。數(shù)據(jù)向量包含的特征值過多時(shí),一方面會(huì)增大計(jì)算量,也就降低了計(jì)算速度;另一方面,由于在算法中每個(gè)特征值的權(quán)重是相同的,大量對聚類效果不大的特征值的存在,可能會(huì)干擾正常的聚類計(jì)算。因此,在輸入數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練之前,應(yīng)該先對輸入數(shù)據(jù)的特征值進(jìn)行選擇。
在特征值的選擇上,我們刪減出現(xiàn)概率過高和過低的特征,因?yàn)檫@些特征對聚類的貢獻(xiàn)相對比較小(從信息量角度)。
4.1 文本聚類結(jié)果
在本文實(shí)驗(yàn)時(shí),訓(xùn)練數(shù)據(jù)樣本數(shù)目采用100個(gè)。由于數(shù)據(jù)樣本中前14個(gè)存在噪音,因此修改程序,取編號101-200的樣本。
刪減樣本向量長度時(shí),采用的特征值概率上下限分別為:0.5和0.03,即僅僅保留在3篇摘要以上、50篇摘要以下出現(xiàn)的特征。經(jīng)過刪減后,輸入數(shù)據(jù)樣本轉(zhuǎn)換為594*100的二維數(shù)組。成長參數(shù)采用默認(rèn)值:層內(nèi)成長參數(shù)τ2=0.15,全局成長參數(shù)τ1=0.03,訓(xùn)練后得到如圖2的分級結(jié)構(gòu)。整個(gè)計(jì)算過程用時(shí)大約為100秒至110秒。
圖2 GHSOM算法得到的文本分級結(jié)構(gòu)
計(jì)算得到的GHSOM結(jié)構(gòu)共有三級,第一級為2*4映射,第二級多數(shù)為2*3映射,只有2個(gè)為2*2映射,第三級只在個(gè)別位置出現(xiàn),絕大多數(shù)為2*2映射。整個(gè)GHSOM結(jié)構(gòu)中共有70個(gè)葉神經(jīng)元節(jié)點(diǎn)(即不再擴(kuò)展子映射的節(jié)點(diǎn)),其中有10個(gè)節(jié)點(diǎn)為沒有文本映射在上面的死節(jié)點(diǎn)。
為了能夠與普通的SOM算法進(jìn)行對比,在本次實(shí)驗(yàn)中,還編寫了使用SOM標(biāo)準(zhǔn)算法解決此文本聚類問題的程序。
在使用SOM算法時(shí),將SOM網(wǎng)絡(luò)規(guī)模定義為7*10(根據(jù)GHSOM結(jié)果),并采用與GHSOM相同的迭代次數(shù)。SOM整個(gè)算法實(shí)現(xiàn)就是一系列的命令調(diào)用,本文將其全部保存于imsom.m文件。利用與GHSOM中函數(shù)visualmap()類似的方法,編寫了SOM聚類結(jié)果的圖表輸出函數(shù)visualsom(),得到如圖3的聚類結(jié)果圖表。
圖3 SOM算法得到的文本聚類
使用SOM算法進(jìn)行訓(xùn)練時(shí),使用與上面GHSOM算法時(shí)相同的訓(xùn)練數(shù)據(jù),最終計(jì)算時(shí)間大約為160秒至170秒。
4.2 聚類效果分析
由于是進(jìn)行的文本聚類計(jì)算,沒有期望的分類對計(jì)算的結(jié)果進(jìn)行定量的檢驗(yàn)。本次實(shí)驗(yàn)在檢驗(yàn)聚類結(jié)果時(shí),將程序運(yùn)行所用數(shù)據(jù)調(diào)出,由人工定性檢查GHSOM網(wǎng)絡(luò)的聚類效果。
在檢驗(yàn)聚類結(jié)果之前,先規(guī)定每一映射中神經(jīng)元的編號。由于分級結(jié)構(gòu)的存在,低層級中神經(jīng)元的編號中包含其父親神經(jīng)元的編號,不同層級間用→隔開。同一映射中,神經(jīng)元的編號自左下向右上依次編號為1、2、……,如圖4。
圖4 神經(jīng)元編號
按此編號方法,GHSOM分級結(jié)構(gòu)中,左下角包含61的神經(jīng)元編號為[1→1],包含52的神經(jīng)元編號為[1→3→4],右上角包含99的神經(jīng)元編號為[8→6→4]。
觀察分級映射的左上角[7→4],有三個(gè)文本(14 15 21)聚類為一類,為2級映射神經(jīng)元,這三篇摘要實(shí)際上是針對同一個(gè)獎(jiǎng)項(xiàng)的摘要。此映射下面有四個(gè)3級映射神經(jīng)元(由神經(jīng)元[7→2]擴(kuò)展得到),代表的四篇摘要均是關(guān)于大學(xué)內(nèi)的計(jì)算機(jī)相關(guān)系統(tǒng),但是具體內(nèi)容有所差別。由此看來,盡管[7→4]、[7→2]兩個(gè)神經(jīng)元相鄰,它們代表的摘要內(nèi)容相似性卻很差,造成這種情況的原因主要是因?yàn)閇7→4]代表的內(nèi)容過于特別,而沒有與之相似的文本。
神經(jīng)元[1→4]內(nèi)容為北太平洋新生代板塊模型和馬爾代夫周圍環(huán)境和沉積物研究,均屬于地殼研究內(nèi)容;它的右邊神經(jīng)元[1→5]內(nèi)容為東太平洋的地震攝影術(shù)研究,也涉及地殼研究內(nèi)容;它的上面神經(jīng)元[3→1]則是關(guān)于大氣層熱量與紫外線研究,與地殼研究相關(guān)性不大。由此可以看出,同一映射下相鄰關(guān)系鄰近度要高于全局導(dǎo)向的鄰近度。神經(jīng)元[1→1]內(nèi)容為海洋生態(tài)系統(tǒng)中捕食者間的相互作用研究,它的右側(cè)[1→2]內(nèi)容為海洋漂流物研究和海洋表面水域的研究,這兩個(gè)神經(jīng)元間內(nèi)容相似性較強(qiáng),但是與神經(jīng)元[1→4]的相似性僅僅體現(xiàn)在研究領(lǐng)域中均出現(xiàn)了太平洋。由此可以看出,GHSOM算法也可能導(dǎo)致專斷的劃分,即將兩個(gè)相似程度不高的兩類強(qiáng)行聚類成相鄰關(guān)系。
神經(jīng)元[4]擴(kuò)展成的映射包含密度最大的文本,神經(jīng)元[4→1]包括的內(nèi)容有DNA變異研究、幾何變形容忍、機(jī)械加工容忍、機(jī)器人動(dòng)作計(jì)劃,這四篇文章雖然研究領(lǐng)域各異,但主要內(nèi)容均是從幾何學(xué)出發(fā),說明聚類算法是一種按內(nèi)容分類的方法。向右方,神經(jīng)元[4→2→1]為機(jī)器人任務(wù)分派算法,神經(jīng)元[4→2→3]為隨機(jī)網(wǎng)絡(luò)產(chǎn)量優(yōu)化算法,這都是數(shù)學(xué)問題。向上方,神經(jīng)元[4→3]是關(guān)于物理學(xué)中表面現(xiàn)象的研究,再向上,神經(jīng)元[4→5]都是幾何學(xué)在特殊領(lǐng)域中的應(yīng)用。而它們的右邊,有的文本聚類的結(jié)果并不理想,文本37、78都涉及了地殼的內(nèi)容,即與主要研究地殼的左下角神經(jīng)元相距較遠(yuǎn)。因此,GHSOM算法依然存在相似聚類間聯(lián)系丟失的問題。
綜上所述,GHSOM算法具有明顯的文本聚類能力,能夠?qū)⑽谋镜南嗨菩杂枚喾N手段表現(xiàn)。將最相似的文本映射到同一神經(jīng)元,同一映射相鄰神經(jīng)元、不同映射間由全局導(dǎo)向作用導(dǎo)致的相鄰也都體現(xiàn)著一定程度的相似性。不同級別的映射也體現(xiàn)了不同程度的相似性,低級別的相鄰神經(jīng)元體現(xiàn)了更高的相似性,如3級神經(jīng)元相鄰的相似性要高于2級相鄰。GHSOM算法也存在問題,首先是對于獨(dú)特的文本,算法會(huì)專斷地將其與某類文本相鄰。這個(gè)問題更可能出現(xiàn)在少量文本聚類問題中,因?yàn)樵诤A课谋局胁粫?huì)出現(xiàn)“獨(dú)特”的文本。其次,GHSOM表現(xiàn)相似性能力只能以樹型方式,比起網(wǎng)絡(luò)狀還有一定差距,因此會(huì)造成部分子聚類間聯(lián)系無法體現(xiàn)。
與SOM算法對比,SOM算法在已經(jīng)知道合適的網(wǎng)絡(luò)(70)的情況下,它的計(jì)算時(shí)間也要長于GHSOM算法,并且產(chǎn)生了更多的死節(jié)點(diǎn)(17),因此在計(jì)算性能上,GHSOM算法要優(yōu)于SOM。
聚類效果方面,SOM表現(xiàn)相似性的手段比GHSOM少,只有一種相鄰性來體現(xiàn)。SOM算法中,文本35、40、41、50的分別比較接近的神經(jīng)元中,并且也與文本23、53、66映射的神經(jīng)元相鄰,體現(xiàn)了GHSOM中神經(jīng)元[7→1]、[7→2]對相似性的體現(xiàn),但是,SOM算法中相似級別只有一種,而GHSOM中在此處的相似級別有兩種。
關(guān)于地殼相關(guān)文本,SOM算法將原來GHSOM算法中[1→4]和[3→1]映射到了右下角,而對于GHSOM中海洋相關(guān)的研究[1→1]和[1→2]的文本也專斷的進(jìn)行了映射。對于GHSOM算法中密度最大的文本映射,SOM算法將這些文本映射在了網(wǎng)絡(luò)的中部偏右的位置,特別注意的是,在GHSOM算法中未能體現(xiàn)出來的文本37、78與地殼研究相關(guān)性,在SOM中得到了一定的體現(xiàn),這兩個(gè)文本映射在了接近右下角(地殼研究內(nèi)容)的位置。出現(xiàn)這種情況,并不能說明SOM有更好的有序性表達(dá)能力,只是算法中隨機(jī)性的一種體現(xiàn)。
因此,GHSOM算法整體上是優(yōu)于SOM算法的,它的先進(jìn)性主要體現(xiàn)在更短的計(jì)算時(shí)間,并提供更豐富的有序性表達(dá)能力。
實(shí)現(xiàn)的改進(jìn)GHSOM算法在文本聚類領(lǐng)域中的應(yīng)用體現(xiàn)了自組織性:在毫無教師信號的前提下,自動(dòng)將文本分成了不同的類別,并用不同映射神經(jīng)元的相鄰關(guān)系顯示了文本的相似性。文本的相似性表現(xiàn)手段也是多樣的:映射到同一神經(jīng)元的文本具有最高的相似性,同一映射神經(jīng)元的相鄰、不同映射間由全局導(dǎo)向作用導(dǎo)致的相鄰也都體現(xiàn)了一定程度的相似性;不同級別映射神經(jīng)元相鄰也體現(xiàn)了不同程度的相似性,低級別的相鄰神經(jīng)元體現(xiàn)了更高的相似性,如3級神經(jīng)元相鄰的相似性要高于2級相鄰。改進(jìn)GHSOM算法整體上是優(yōu)于SOM算法,它的先進(jìn)性主要體現(xiàn)在更短的計(jì)算時(shí)間,并提供更豐富的有序性表達(dá)能力。
[1]MAHDAVI M,ABOLHASSANI H.Harmony K-means algorithm for document clustering[J].Data Mining and Knowledge Discovery,2009,18(3):370-391.
[2]徐森,盧志茂,顧國昌.解決文本聚類集成問題的兩個(gè)譜算法[J].自動(dòng)化學(xué)報(bào),2009,35(7):997-1002.
[3]ZHENG Hai-tao,KANG B Y,KIM H G.Exploiting noun phrases and semantic relationships for text document clustering[J].Information Sciences,2009,179(13):2249-2262.
[4]趙衛(wèi)中,馬慧芳,李志清,等.一種結(jié)合主動(dòng)學(xué)習(xí)的半監(jiān)督文檔聚類算法[J].軟件學(xué)報(bào),2012,23(6):1486-1499.
[5]BASAVARAJU M,PRABHAKAR R.A novel method of spam mail detection using text based clustering approach[J].International Journal of Computer Applications,2010,5(4):15-25.
[6]卜東波,白碩,李國杰.文本聚類中權(quán)重計(jì)算的對偶性策略[J].軟件學(xué)報(bào),2002,13(11):2083-2090.
[7]趙軍,金千里,徐波.面向文本檢索的語義計(jì)算[J].計(jì)算機(jī)學(xué)報(bào),2005,28(12):2068-2078.
[8]管仁初,裴志利,時(shí)小虎,等.權(quán)吸引子傳播算法及其在文本聚類中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2010,47(10):1733-1740.
[9]Rauber A,Merkl D,Dittenbach M.The Growing Hierarchical Self-organizing Map:Exploratory Analysis of High-dimensional Data[J].IEEE Transactions on Neural Networks,2002,13(6):1331-1341.
[10]Yen G G,Wu Zheng.Ranked centroid projection:A data visualization approach with self-organizing maps[J].IEEE Transactions on Neural Networks,2008,19(2):245-259.
[11]Alahakoon D,Halgarmuge S K,Srinivasan B.Dynamic self-organizing maps with controlled growth for knowledge discovery[J].IEEE Transactions on Neural Network,2000,11(3):601-614.
[12]譚長貴,動(dòng)態(tài)平衡態(tài)勢論研究——一種自組織系統(tǒng)有序演化新范式,電子科技大學(xué)出版社,2004.
[13]Kohonen T.Self-organizing Maps[M].Berlin:Springer,2001.
[14]Kohonen T,Ritter H.Self-organizing semantic maps[J].Biological Cybernetics,1989,61(4):241-254.
[15]Yen G G,Wu Zheng.Ranked centroid projection:A data visualization approach with self-organizing maps[J].IEEE Transactions on Neural Networks,2008,19(2):245-259.
An Improved GHSOM Algorithm for Text Clustering
Chen Lin
(Fujian University of Traditional Chinese Medicine,Fuzhou 350108,Fujian)
In the information era,the text information is very great.An improved GHSOM algorithm for text clustering is presented in this paper.This algorithm which has obvious text clustering ability can use a variety of means to show the similarity of text.The experimental results show that the improved GHSOM algorithm is better than SOM algorithm on the whole,and its advanced nature is mainly reflected in the shorter computation time and more expression.
text clustering;growing hierarchical self-organizing map;SOM
TP181
A
1008-6609(2016)05-0057-05
陳林,男,福建福州人,碩士,助教,研究方向:計(jì)算機(jī)應(yīng)用與軟件,信息管理。