亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

機(jī)器學(xué)習(xí)方法在文本聚類中的應(yīng)用

2018-12-06 06:17:32熊康平

電子世界 2018年22期

熊康平

本文主要從原理上介紹了兩種文本聚類的算法——K-means和LDA。文章第一部分介紹了文本聚類的背景，包括定義、應(yīng)用和意義；文章第二部分介紹了當(dāng)前的研究背景以及研究熱點(diǎn)；第三部分介紹了文本聚類的一般步驟，涉及到的技術(shù)有中文分詞和聚類算法；最后一部分為總結(jié)展望。

1.文本聚類背景

1.1 什么是文本聚類

自人類產(chǎn)生以來，區(qū)分事物就是不可避免的，這就要求我們做到判斷事物的相似性，并將它們分成不同類別。（張夢笑.基于LDA的觀點(diǎn)聚類研究[D].山西:山西大學(xué)）遠(yuǎn)古時(shí)期，原始人類會(huì)憑借經(jīng)驗(yàn)將動(dòng)物分為危險(xiǎn)的與不危險(xiǎn)兩類，以便捕獵；宋朝文人，將古詩的風(fēng)格分為婉約和豪放等等。

1.2 文本聚類的意義

文本聚類研究工作對(duì)于幫助不同職業(yè)的意義重大，如在產(chǎn)品營銷中可以幫助市場人員清楚了解每個(gè)產(chǎn)品不同的特征、優(yōu)勢，同時(shí)分析市場對(duì)不同產(chǎn)品的需求、客戶對(duì)不同產(chǎn)品的喜好，從而進(jìn)行相關(guān)的市場銷售計(jì)劃；在臺(tái)風(fēng)探測中可以通過檢測風(fēng)向及風(fēng)力大小所具有的特征將其分成不同的組類，從而更合理的進(jìn)行探測、分析。（董婧靈.基于LDA模型的文本聚類研究[J].）文本聚類這項(xiàng)研究工作在信息互聯(lián)網(wǎng)方面也發(fā)揮著其重要的作用，如利用聚類方法，收集分類產(chǎn)品或服務(wù)的信息，以便企業(yè)和消費(fèi)者參考；利用人工智能強(qiáng)大的聚類能力，將網(wǎng)絡(luò)中的不同文檔信息歸納總結(jié)分類，進(jìn)行預(yù)處理，從而十分結(jié)果更完善，互聯(lián)網(wǎng)上的內(nèi)容更加有層次、有結(jié)構(gòu)，更清晰。因此，文本聚類作為現(xiàn)在的研究熱點(diǎn)問題，為越來越多的研究人員所關(guān)注。

1.3 文本聚類的應(yīng)用

文本聚類在因?yàn)槠錈o監(jiān)督性，在數(shù)據(jù)量爆炸增長的今天有著廣泛的應(yīng)用。文本聚類主要可以應(yīng)用在如下方面：1）文本聚類是許多自然語言處理任務(wù)基礎(chǔ)；2）搜索引擎中使用聚類對(duì)返回結(jié)果聚類3）用戶文檔聚類；4）改善文本分類效果；5）數(shù)字圖書館服務(wù)6）文檔集合的自動(dòng)整理。

2.研究現(xiàn)狀

2.1 國內(nèi)網(wǎng)研究現(xiàn)狀

在基于主題的文本聚類研究中，王衛(wèi)玲提出了一種多特征聯(lián)合選擇的web文本聚類方法；劉振鹿用LDA對(duì)潛在語義進(jìn)行分析，將得到的語義出現(xiàn)頻率作為特征進(jìn)行分類，對(duì)相對(duì)正確的語義進(jìn)行推測。在基于觀點(diǎn)的聚類研究中，這個(gè)概念首先由Kushal Dave首次用到，并且應(yīng)用于觀點(diǎn)挖掘相關(guān)會(huì)議。

2.2 當(dāng)前研究熱點(diǎn)難點(diǎn)

就目前來看，文本聚類最大的困難無非就在于算法上。作為現(xiàn)階段乃至未來時(shí)期的研究熱點(diǎn)，這個(gè)困難如果能夠解決，那么無疑可以為人類在研究文本聚類這條道路上鋪下堅(jiān)實(shí)的基礎(chǔ)，為文本聚類的發(fā)展提供強(qiáng)力的燃料，助推其前進(jìn)。（王鵬.基于LDA模型的文本聚類研究[J].情報(bào)科學(xué),2015,01,33(1)）人類對(duì)于機(jī)器理解自然語言的認(rèn)識(shí)走了一條大大的彎路。早期對(duì)于文本聚類的研究采用了基于規(guī)則的方法，雖然可以解決一些基礎(chǔ)簡單的問題，但是無法從根本上使其可以投入使用。后來，人們經(jīng)過不斷的探索與突破，終于發(fā)現(xiàn)這條路無法走通，便開始嘗試基于統(tǒng)計(jì)的方法，而文本聚類這才開始有了突破性的發(fā)展。

3.文本聚類的一般過程

文本聚類算法一般包括如下步驟：1）對(duì)文本進(jìn)行中文分詞，得到一個(gè)個(gè)有意義的詞，因?yàn)樵谧匀徽Z言處理中認(rèn)為詞是表達(dá)語義的最小單位；2）文檔特征表示，通過提取文檔特征將文檔用數(shù)學(xué)形式表達(dá)出來，常用的特征表示方式有詞向量、TFIDF、文本卡方值等；3）模型訓(xùn)練：常用的文本聚類模型有LDA、K-Means等。本文也將從以上四個(gè)方面介紹文本聚類的一般過程。

3.1 中文分詞

詞語是理解自然語言的最小單位，因此中文分詞成為很多自然語言處理任務(wù)的基礎(chǔ)，中文分詞結(jié)果的好壞直接影響到最終聚類效果。本文介紹了當(dāng)前主流的中文分詞方法——基于統(tǒng)計(jì)信息的中文分詞方式，這種方式相對(duì)傳統(tǒng)基于語義的中文分詞方式準(zhǔn)確率更高，效率更高，需要更少的人工干涉?；诮y(tǒng)計(jì)中文分詞方法的主要思想是越有意義的句子在現(xiàn)實(shí)生活中出現(xiàn)的概率越高，這種思想將一個(gè)語言問題完美轉(zhuǎn)化成為了一個(gè)數(shù)學(xué)問題。（王春龍.文本聚類關(guān)鍵技術(shù)研究[D].北京:華北電力大學(xué)）基于上述思想我們需要計(jì)算一個(gè)句子出現(xiàn)的概率，根據(jù)條件概率的鏈?zhǔn)秸归_，句子出現(xiàn)的概率可以表示如下：

根據(jù)大樹定理可知，在統(tǒng)計(jì)量足夠的時(shí)候我們可以用頻率近似的表示概率，因此理論上，給定一個(gè)足夠大的語料庫，通過計(jì)算頻率可以計(jì)算上式中每一項(xiàng)的概率，從而可以計(jì)算得到句子出現(xiàn)的概率，但是上式的計(jì)算難度會(huì)隨著句子長度的增加而不斷增加，變得無法計(jì)算。為了解決這個(gè)問題，俄國科學(xué)家馬爾科夫提出了一種簡單有用的假設(shè)：句子中每個(gè)詞的出現(xiàn)只跟前面一個(gè)詞相關(guān)，根據(jù)這個(gè)假設(shè)，上述計(jì)算句子概率的式子可以重新表述如下：

我們通常稱上述模型為二元語言模型，通過上述能夠計(jì)算得到一個(gè)句子按照不同分詞方式下的概率，在通過一些動(dòng)態(tài)規(guī)劃算法找到對(duì)應(yīng)句子概率最大分詞方式，這種方式即為我們尋找的分詞方式。這樣，通過將語言問題轉(zhuǎn)化成數(shù)學(xué)問題我們完成了中文分詞問題。

3.2 文本特征表示

特征表示能夠?qū)⑽臋n表示成數(shù)學(xué)形式，主要分為統(tǒng)計(jì)特征和語義特征。常用的統(tǒng)計(jì)特征有tf-idf特征、卡方值特征等；常用的語義特征有獨(dú)熱表示的詞向量和分布式表示的詞向量。本文介紹的k-means算法和LDA算法主要采用的是詞向量的方式作為文本特征表示方式。

3.3 聚類算法

這里主要介紹兩種文本聚類的算法。

（1）K-means算法

通過詞向量這種特征表示方法能夠?qū)⑽谋巨D(zhuǎn)換成向量特征。K-means算法首先需要選擇聚類類別個(gè)數(shù)K，確定了K之后隨機(jī)初始化K個(gè)離群中心點(diǎn)，計(jì)算每個(gè)文檔到這個(gè)K個(gè)點(diǎn)的距離，文檔距離那個(gè)中心點(diǎn)最近就被劃分到那個(gè)中心點(diǎn)的群組，所有文檔找到歸屬群組后，跟新中心點(diǎn)為當(dāng)前群組所有文檔的平均值，迭代上述過程知道中心點(diǎn)的位置不再移動(dòng)。在K-means算法中，采用的距離通常是歐幾里得距離。

（2）LDA算法

LDA算法主要是通過找到文檔分布這種方式對(duì)文檔進(jìn)行聚類，LDA模型結(jié)構(gòu)如下：

LDA中一篇文檔生成過程可以用簡單的語言表示如下：

（1）從狄利克雷分布中取樣生成文檔i的主題分布；

（2）從主題的多項(xiàng)式分布中取樣生成文檔i第j個(gè)詞的主題；

（3）從狄利克雷分布中取樣生成主題對(duì)應(yīng)的詞語分布；

（4）從詞語的多項(xiàng)式分布中采樣最終生成詞語；

（5）用Gibbs采樣估計(jì)LDA參數(shù)。

4.總結(jié)展望

本文用或生動(dòng)或?qū)W術(shù)、或通俗或復(fù)雜的語言介紹了文本聚類的定義及其作用，并列舉了幾個(gè)常見的在實(shí)際生活中的應(yīng)用。同時(shí)，展示了當(dāng)今世界對(duì)于文本聚類的研究現(xiàn)狀以及熱點(diǎn)難點(diǎn)。最為重要的，無疑是一些對(duì)于文本聚類的研究內(nèi)容的闡釋與說明。我在研究的過程中，付出了時(shí)間與精力，認(rèn)識(shí)到了這個(gè)領(lǐng)域的困難性，但也感受到了其所擁有的無限前景和機(jī)會(huì)。這就好比從種子到長成參天大樹、從小馬到平野一馬奔馳，中間都存在了重重地險(xiǎn)阻。但待到成果既出之時(shí)，便又是一番碩果累累的景象了。學(xué)無止境，知識(shí)是沒有邊際的存在。我認(rèn)為，這一階段的學(xué)習(xí)是遠(yuǎn)遠(yuǎn)不夠的，它僅僅代表了我在這個(gè)領(lǐng)域邁出的小小的一步，使我開始對(duì)這個(gè)領(lǐng)域有了最為淺薄的認(rèn)識(shí)。在未來的研究學(xué)習(xí)生活中，我還要在專業(yè)知識(shí)的增強(qiáng)、學(xué)術(shù)見識(shí)的提升和研究熱情的持續(xù)上作出努力，一步步增強(qiáng)自己的職業(yè)素質(zhì)與實(shí)力，讓屬于自己的研究成果一點(diǎn)點(diǎn)茁壯成長，到嫣然開放！