熊康平
本文主要從原理上介紹了兩種文本聚類的算法——K-means和LDA。文章第一部分介紹了文本聚類的背景,包括定義、應(yīng)用和意義;文章第二部分介紹了當(dāng)前的研究背景以及研究熱點(diǎn);第三部分介紹了文本聚類的一般步驟,涉及到的技術(shù)有中文分詞和聚類算法;最后一部分為總結(jié)展望。
自人類產(chǎn)生以來,區(qū)分事物就是不可避免的,這就要求我們做到判斷事物的相似性,并將它們分成不同類別。(張夢笑.基于LDA的觀點(diǎn)聚類研究[D].山西:山西大學(xué))遠(yuǎn)古時(shí)期,原始人類會(huì)憑借經(jīng)驗(yàn)將動(dòng)物分為危險(xiǎn)的與不危險(xiǎn)兩類,以便捕獵;宋朝文人,將古詩的風(fēng)格分為婉約和豪放等等。
文本聚類研究工作對(duì)于幫助不同職業(yè)的意義重大,如在產(chǎn)品營銷中可以幫助市場人員清楚了解每個(gè)產(chǎn)品不同的特征、優(yōu)勢,同時(shí)分析市場對(duì)不同產(chǎn)品的需求、客戶對(duì)不同產(chǎn)品的喜好,從而進(jìn)行相關(guān)的市場銷售計(jì)劃;在臺(tái)風(fēng)探測中可以通過檢測風(fēng)向及風(fēng)力大小所具有的特征將其分成不同的組類,從而更合理的進(jìn)行探測、分析。(董婧靈.基于LDA模型的文本聚類研究[J].)文本聚類這項(xiàng)研究工作在信息互聯(lián)網(wǎng)方面也發(fā)揮著其重要的作用,如利用聚類方法,收集分類產(chǎn)品或服務(wù)的信息,以便企業(yè)和消費(fèi)者參考;利用人工智能強(qiáng)大的聚類能力,將網(wǎng)絡(luò)中的不同文檔信息歸納總結(jié)分類,進(jìn)行預(yù)處理,從而十分結(jié)果更完善,互聯(lián)網(wǎng)上的內(nèi)容更加有層次、有結(jié)構(gòu),更清晰。因此,文本聚類作為現(xiàn)在的研究熱點(diǎn)問題,為越來越多的研究人員所關(guān)注。
文本聚類在因?yàn)槠錈o監(jiān)督性,在數(shù)據(jù)量爆炸增長的今天有著廣泛的應(yīng)用。文本聚類主要可以應(yīng)用在如下方面:1)文本聚類是許多自然語言處理任務(wù)基礎(chǔ);2)搜索引擎中使用聚類對(duì)返回結(jié)果聚類3)用戶文檔聚類;4)改善文本分類效果;5)數(shù)字圖書館服務(wù)6)文檔集合的自動(dòng)整理。
在基于主題的文本聚類研究中,王衛(wèi)玲提出了一種多特征聯(lián)合選擇的web文本聚類方法;劉振鹿用LDA對(duì)潛在語義進(jìn)行分析,將得到的語義出現(xiàn)頻率作為特征進(jìn)行分類,對(duì)相對(duì)正確的語義進(jìn)行推測。在基于觀點(diǎn)的聚類研究中,這個(gè)概念首先由Kushal Dave首次用到,并且應(yīng)用于觀點(diǎn)挖掘相關(guān)會(huì)議。
就目前來看,文本聚類最大的困難無非就在于算法上。作為現(xiàn)階段乃至未來時(shí)期的研究熱點(diǎn),這個(gè)困難如果能夠解決,那么無疑可以為人類在研究文本聚類這條道路上鋪下堅(jiān)實(shí)的基礎(chǔ),為文本聚類的發(fā)展提供強(qiáng)力的燃料,助推其前進(jìn)。(王鵬.基于LDA模型的文本聚類研究[J].情報(bào)科學(xué),2015,01,33(1))人類對(duì)于機(jī)器理解自然語言的認(rèn)識(shí)走了一條大大的彎路。早期對(duì)于文本聚類的研究采用了基于規(guī)則的方法,雖然可以解決一些基礎(chǔ)簡單的問題,但是無法從根本上使其可以投入使用。后來,人們經(jīng)過不斷的探索與突破,終于發(fā)現(xiàn)這條路無法走通,便開始嘗試基于統(tǒng)計(jì)的方法,而文本聚類這才開始有了突破性的發(fā)展。
文本聚類算法一般包括如下步驟:1)對(duì)文本進(jìn)行中文分詞,得到一個(gè)個(gè)有意義的詞,因?yàn)樵谧匀徽Z言處理中認(rèn)為詞是表達(dá)語義的最小單位;2)文檔特征表示,通過提取文檔特征將文檔用數(shù)學(xué)形式表達(dá)出來,常用的特征表示方式有詞向量、TFIDF、文本卡方值等;3)模型訓(xùn)練:常用的文本聚類模型有LDA、K-Means等。本文也將從以上四個(gè)方面介紹文本聚類的一般過程。
詞語是理解自然語言的最小單位,因此中文分詞成為很多自然語言處理任務(wù)的基礎(chǔ),中文分詞結(jié)果的好壞直接影響到最終聚類效果。本文介紹了當(dāng)前主流的中文分詞方法——基于統(tǒng)計(jì)信息的中文分詞方式,這種方式相對(duì)傳統(tǒng)基于語義的中文分詞方式準(zhǔn)確率更高,效率更高,需要更少的人工干涉?;诮y(tǒng)計(jì)中文分詞方法的主要思想是越有意義的句子在現(xiàn)實(shí)生活中出現(xiàn)的概率越高,這種思想將一個(gè)語言問題完美轉(zhuǎn)化成為了一個(gè)數(shù)學(xué)問題。(王春龍.文本聚類關(guān)鍵技術(shù)研究[D].北京:華北電力大學(xué))基于上述思想我們需要計(jì)算一個(gè)句子出現(xiàn)的概率,根據(jù)條件概率的鏈?zhǔn)秸归_,句子出現(xiàn)的概率可以表示如下:
根據(jù)大樹定理可知,在統(tǒng)計(jì)量足夠的時(shí)候我們可以用頻率近似的表示概率,因此理論上,給定一個(gè)足夠大的語料庫,通過計(jì)算頻率可以計(jì)算上式中每一項(xiàng)的概率,從而可以計(jì)算得到句子出現(xiàn)的概率,但是上式的計(jì)算難度會(huì)隨著句子長度的增加而不斷增加,變得無法計(jì)算。為了解決這個(gè)問題,俄國科學(xué)家馬爾科夫提出了一種簡單有用的假設(shè):句子中每個(gè)詞的出現(xiàn)只跟前面一個(gè)詞相關(guān),根據(jù)這個(gè)假設(shè),上述計(jì)算句子概率的式子可以重新表述如下:
我們通常稱上述模型為二元語言模型,通過上述能夠計(jì)算得到一個(gè)句子按照不同分詞方式下的概率,在通過一些動(dòng)態(tài)規(guī)劃算法找到對(duì)應(yīng)句子概率最大分詞方式,這種方式即為我們尋找的分詞方式。這樣,通過將語言問題轉(zhuǎn)化成數(shù)學(xué)問題我們完成了中文分詞問題。
特征表示能夠?qū)⑽臋n表示成數(shù)學(xué)形式,主要分為統(tǒng)計(jì)特征和語義特征。常用的統(tǒng)計(jì)特征有tf-idf特征、卡方值特征等;常用的語義特征有獨(dú)熱表示的詞向量和分布式表示的詞向量。本文介紹的k-means算法和LDA算法主要采用的是詞向量的方式作為文本特征表示方式。
這里主要介紹兩種文本聚類的算法。
(1)K-means算法
通過詞向量這種特征表示方法能夠?qū)⑽谋巨D(zhuǎn)換成向量特征。K-means算法首先需要選擇聚類類別個(gè)數(shù)K,確定了K之后隨機(jī)初始化K個(gè)離群中心點(diǎn),計(jì)算每個(gè)文檔到這個(gè)K個(gè)點(diǎn)的距離,文檔距離那個(gè)中心點(diǎn)最近就被劃分到那個(gè)中心點(diǎn)的群組,所有文檔找到歸屬群組后,跟新中心點(diǎn)為當(dāng)前群組所有文檔的平均值,迭代上述過程知道中心點(diǎn)的位置不再移動(dòng)。在K-means算法中,采用的距離通常是歐幾里得距離。
(2)LDA算法
LDA算法主要是通過找到文檔分布這種方式對(duì)文檔進(jìn)行聚類,LDA模型結(jié)構(gòu)如下:
LDA中一篇文檔生成過程可以用簡單的語言表示如下:
(1)從狄利克雷分布中取樣生成文檔i的主題分布;
(2)從主題的多項(xiàng)式分布中取樣生成文檔i第j個(gè)詞的主題;
(3)從狄利克雷分布中取樣生成主題對(duì)應(yīng)的詞語分布;
(4)從詞語的多項(xiàng)式分布中采樣最終生成詞語;
(5)用Gibbs采樣估計(jì)LDA參數(shù)。
本文用或生動(dòng)或?qū)W術(shù)、或通俗或復(fù)雜的語言介紹了文本聚類的定義及其作用,并列舉了幾個(gè)常見的在實(shí)際生活中的應(yīng)用。同時(shí),展示了當(dāng)今世界對(duì)于文本聚類的研究現(xiàn)狀以及熱點(diǎn)難點(diǎn)。最為重要的,無疑是一些對(duì)于文本聚類的研究內(nèi)容的闡釋與說明。我在研究的過程中,付出了時(shí)間與精力,認(rèn)識(shí)到了這個(gè)領(lǐng)域的困難性,但也感受到了其所擁有的無限前景和機(jī)會(huì)。這就好比從種子到長成參天大樹、從小馬到平野一馬奔馳,中間都存在了重重地險(xiǎn)阻。但待到成果既出之時(shí),便又是一番碩果累累的景象了。學(xué)無止境,知識(shí)是沒有邊際的存在。我認(rèn)為,這一階段的學(xué)習(xí)是遠(yuǎn)遠(yuǎn)不夠的,它僅僅代表了我在這個(gè)領(lǐng)域邁出的小小的一步,使我開始對(duì)這個(gè)領(lǐng)域有了最為淺薄的認(rèn)識(shí)。在未來的研究學(xué)習(xí)生活中,我還要在專業(yè)知識(shí)的增強(qiáng)、學(xué)術(shù)見識(shí)的提升和研究熱情的持續(xù)上作出努力,一步步增強(qiáng)自己的職業(yè)素質(zhì)與實(shí)力,讓屬于自己的研究成果一點(diǎn)點(diǎn)茁壯成長,到嫣然開放!