亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器學(xué)習(xí)方法在文本聚類中的應(yīng)用

        2018-12-06 06:17:32熊康平
        電子世界 2018年22期
        關(guān)鍵詞:分詞文檔語義

        熊康平

        本文主要從原理上介紹了兩種文本聚類的算法——K-means和LDA。文章第一部分介紹了文本聚類的背景,包括定義、應(yīng)用和意義;文章第二部分介紹了當(dāng)前的研究背景以及研究熱點(diǎn);第三部分介紹了文本聚類的一般步驟,涉及到的技術(shù)有中文分詞和聚類算法;最后一部分為總結(jié)展望。

        1.文本聚類背景

        1.1 什么是文本聚類

        自人類產(chǎn)生以來,區(qū)分事物就是不可避免的,這就要求我們做到判斷事物的相似性,并將它們分成不同類別。(張夢笑.基于LDA的觀點(diǎn)聚類研究[D].山西:山西大學(xué))遠(yuǎn)古時(shí)期,原始人類會(huì)憑借經(jīng)驗(yàn)將動(dòng)物分為危險(xiǎn)的與不危險(xiǎn)兩類,以便捕獵;宋朝文人,將古詩的風(fēng)格分為婉約和豪放等等。

        1.2 文本聚類的意義

        文本聚類研究工作對(duì)于幫助不同職業(yè)的意義重大,如在產(chǎn)品營銷中可以幫助市場人員清楚了解每個(gè)產(chǎn)品不同的特征、優(yōu)勢,同時(shí)分析市場對(duì)不同產(chǎn)品的需求、客戶對(duì)不同產(chǎn)品的喜好,從而進(jìn)行相關(guān)的市場銷售計(jì)劃;在臺(tái)風(fēng)探測中可以通過檢測風(fēng)向及風(fēng)力大小所具有的特征將其分成不同的組類,從而更合理的進(jìn)行探測、分析。(董婧靈.基于LDA模型的文本聚類研究[J].)文本聚類這項(xiàng)研究工作在信息互聯(lián)網(wǎng)方面也發(fā)揮著其重要的作用,如利用聚類方法,收集分類產(chǎn)品或服務(wù)的信息,以便企業(yè)和消費(fèi)者參考;利用人工智能強(qiáng)大的聚類能力,將網(wǎng)絡(luò)中的不同文檔信息歸納總結(jié)分類,進(jìn)行預(yù)處理,從而十分結(jié)果更完善,互聯(lián)網(wǎng)上的內(nèi)容更加有層次、有結(jié)構(gòu),更清晰。因此,文本聚類作為現(xiàn)在的研究熱點(diǎn)問題,為越來越多的研究人員所關(guān)注。

        1.3 文本聚類的應(yīng)用

        文本聚類在因?yàn)槠錈o監(jiān)督性,在數(shù)據(jù)量爆炸增長的今天有著廣泛的應(yīng)用。文本聚類主要可以應(yīng)用在如下方面:1)文本聚類是許多自然語言處理任務(wù)基礎(chǔ);2)搜索引擎中使用聚類對(duì)返回結(jié)果聚類3)用戶文檔聚類;4)改善文本分類效果;5)數(shù)字圖書館服務(wù)6)文檔集合的自動(dòng)整理。

        2.研究現(xiàn)狀

        2.1 國內(nèi)網(wǎng)研究現(xiàn)狀

        在基于主題的文本聚類研究中,王衛(wèi)玲提出了一種多特征聯(lián)合選擇的web文本聚類方法;劉振鹿用LDA對(duì)潛在語義進(jìn)行分析,將得到的語義出現(xiàn)頻率作為特征進(jìn)行分類,對(duì)相對(duì)正確的語義進(jìn)行推測。在基于觀點(diǎn)的聚類研究中,這個(gè)概念首先由Kushal Dave首次用到,并且應(yīng)用于觀點(diǎn)挖掘相關(guān)會(huì)議。

        2.2 當(dāng)前研究熱點(diǎn)難點(diǎn)

        就目前來看,文本聚類最大的困難無非就在于算法上。作為現(xiàn)階段乃至未來時(shí)期的研究熱點(diǎn),這個(gè)困難如果能夠解決,那么無疑可以為人類在研究文本聚類這條道路上鋪下堅(jiān)實(shí)的基礎(chǔ),為文本聚類的發(fā)展提供強(qiáng)力的燃料,助推其前進(jìn)。(王鵬.基于LDA模型的文本聚類研究[J].情報(bào)科學(xué),2015,01,33(1))人類對(duì)于機(jī)器理解自然語言的認(rèn)識(shí)走了一條大大的彎路。早期對(duì)于文本聚類的研究采用了基于規(guī)則的方法,雖然可以解決一些基礎(chǔ)簡單的問題,但是無法從根本上使其可以投入使用。后來,人們經(jīng)過不斷的探索與突破,終于發(fā)現(xiàn)這條路無法走通,便開始嘗試基于統(tǒng)計(jì)的方法,而文本聚類這才開始有了突破性的發(fā)展。

        3.文本聚類的一般過程

        文本聚類算法一般包括如下步驟:1)對(duì)文本進(jìn)行中文分詞,得到一個(gè)個(gè)有意義的詞,因?yàn)樵谧匀徽Z言處理中認(rèn)為詞是表達(dá)語義的最小單位;2)文檔特征表示,通過提取文檔特征將文檔用數(shù)學(xué)形式表達(dá)出來,常用的特征表示方式有詞向量、TFIDF、文本卡方值等;3)模型訓(xùn)練:常用的文本聚類模型有LDA、K-Means等。本文也將從以上四個(gè)方面介紹文本聚類的一般過程。

        3.1 中文分詞

        詞語是理解自然語言的最小單位,因此中文分詞成為很多自然語言處理任務(wù)的基礎(chǔ),中文分詞結(jié)果的好壞直接影響到最終聚類效果。本文介紹了當(dāng)前主流的中文分詞方法——基于統(tǒng)計(jì)信息的中文分詞方式,這種方式相對(duì)傳統(tǒng)基于語義的中文分詞方式準(zhǔn)確率更高,效率更高,需要更少的人工干涉?;诮y(tǒng)計(jì)中文分詞方法的主要思想是越有意義的句子在現(xiàn)實(shí)生活中出現(xiàn)的概率越高,這種思想將一個(gè)語言問題完美轉(zhuǎn)化成為了一個(gè)數(shù)學(xué)問題。(王春龍.文本聚類關(guān)鍵技術(shù)研究[D].北京:華北電力大學(xué))基于上述思想我們需要計(jì)算一個(gè)句子出現(xiàn)的概率,根據(jù)條件概率的鏈?zhǔn)秸归_,句子出現(xiàn)的概率可以表示如下:

        根據(jù)大樹定理可知,在統(tǒng)計(jì)量足夠的時(shí)候我們可以用頻率近似的表示概率,因此理論上,給定一個(gè)足夠大的語料庫,通過計(jì)算頻率可以計(jì)算上式中每一項(xiàng)的概率,從而可以計(jì)算得到句子出現(xiàn)的概率,但是上式的計(jì)算難度會(huì)隨著句子長度的增加而不斷增加,變得無法計(jì)算。為了解決這個(gè)問題,俄國科學(xué)家馬爾科夫提出了一種簡單有用的假設(shè):句子中每個(gè)詞的出現(xiàn)只跟前面一個(gè)詞相關(guān),根據(jù)這個(gè)假設(shè),上述計(jì)算句子概率的式子可以重新表述如下:

        我們通常稱上述模型為二元語言模型,通過上述能夠計(jì)算得到一個(gè)句子按照不同分詞方式下的概率,在通過一些動(dòng)態(tài)規(guī)劃算法找到對(duì)應(yīng)句子概率最大分詞方式,這種方式即為我們尋找的分詞方式。這樣,通過將語言問題轉(zhuǎn)化成數(shù)學(xué)問題我們完成了中文分詞問題。

        3.2 文本特征表示

        特征表示能夠?qū)⑽臋n表示成數(shù)學(xué)形式,主要分為統(tǒng)計(jì)特征和語義特征。常用的統(tǒng)計(jì)特征有tf-idf特征、卡方值特征等;常用的語義特征有獨(dú)熱表示的詞向量和分布式表示的詞向量。本文介紹的k-means算法和LDA算法主要采用的是詞向量的方式作為文本特征表示方式。

        3.3 聚類算法

        這里主要介紹兩種文本聚類的算法。

        (1)K-means算法

        通過詞向量這種特征表示方法能夠?qū)⑽谋巨D(zhuǎn)換成向量特征。K-means算法首先需要選擇聚類類別個(gè)數(shù)K,確定了K之后隨機(jī)初始化K個(gè)離群中心點(diǎn),計(jì)算每個(gè)文檔到這個(gè)K個(gè)點(diǎn)的距離,文檔距離那個(gè)中心點(diǎn)最近就被劃分到那個(gè)中心點(diǎn)的群組,所有文檔找到歸屬群組后,跟新中心點(diǎn)為當(dāng)前群組所有文檔的平均值,迭代上述過程知道中心點(diǎn)的位置不再移動(dòng)。在K-means算法中,采用的距離通常是歐幾里得距離。

        (2)LDA算法

        LDA算法主要是通過找到文檔分布這種方式對(duì)文檔進(jìn)行聚類,LDA模型結(jié)構(gòu)如下:

        LDA中一篇文檔生成過程可以用簡單的語言表示如下:

        (1)從狄利克雷分布中取樣生成文檔i的主題分布;

        (2)從主題的多項(xiàng)式分布中取樣生成文檔i第j個(gè)詞的主題;

        (3)從狄利克雷分布中取樣生成主題對(duì)應(yīng)的詞語分布;

        (4)從詞語的多項(xiàng)式分布中采樣最終生成詞語;

        (5)用Gibbs采樣估計(jì)LDA參數(shù)。

        4.總結(jié)展望

        本文用或生動(dòng)或?qū)W術(shù)、或通俗或復(fù)雜的語言介紹了文本聚類的定義及其作用,并列舉了幾個(gè)常見的在實(shí)際生活中的應(yīng)用。同時(shí),展示了當(dāng)今世界對(duì)于文本聚類的研究現(xiàn)狀以及熱點(diǎn)難點(diǎn)。最為重要的,無疑是一些對(duì)于文本聚類的研究內(nèi)容的闡釋與說明。我在研究的過程中,付出了時(shí)間與精力,認(rèn)識(shí)到了這個(gè)領(lǐng)域的困難性,但也感受到了其所擁有的無限前景和機(jī)會(huì)。這就好比從種子到長成參天大樹、從小馬到平野一馬奔馳,中間都存在了重重地險(xiǎn)阻。但待到成果既出之時(shí),便又是一番碩果累累的景象了。學(xué)無止境,知識(shí)是沒有邊際的存在。我認(rèn)為,這一階段的學(xué)習(xí)是遠(yuǎn)遠(yuǎn)不夠的,它僅僅代表了我在這個(gè)領(lǐng)域邁出的小小的一步,使我開始對(duì)這個(gè)領(lǐng)域有了最為淺薄的認(rèn)識(shí)。在未來的研究學(xué)習(xí)生活中,我還要在專業(yè)知識(shí)的增強(qiáng)、學(xué)術(shù)見識(shí)的提升和研究熱情的持續(xù)上作出努力,一步步增強(qiáng)自己的職業(yè)素質(zhì)與實(shí)力,讓屬于自己的研究成果一點(diǎn)點(diǎn)茁壯成長,到嫣然開放!

        猜你喜歡
        分詞文檔語義
        有人一聲不吭向你扔了個(gè)文檔
        語言與語義
        結(jié)巴分詞在詞云中的應(yīng)用
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        值得重視的分詞的特殊用法
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        認(rèn)知范疇模糊與語義模糊
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        免费欧洲毛片a级视频老妇女| 国产一区二区三区亚洲精品| 人人澡人人澡人人看添av| 又黄又硬又湿又刺激视频免费| 天天做天天添av国产亚洲| 亚洲av中文无码字幕色本草| 国产香港明星裸体xxxx视频| av无码国产精品色午夜| 十八禁无遮挡99精品国产| 一本色道无码道在线观看| 国产精品狼人久久久久影院 | 日韩极品视频在线观看| 久久中文字幕av一区二区不卡| 日韩一二三四区免费观看| 日韩精品国产一区二区| 亚洲精品在线观看一区二区| 色婷婷亚洲精品综合影院| 激情亚洲不卡一区二区| 亚洲女同av在线观看| 中国少妇久久一区二区三区| 国产免费二区三区视频| 国产高清一区二区三区四区色| 亚洲人成网站色在线入口口| 日本道免费一区二区三区日韩精品 | 久久综合99re88久久爱| 日韩大片高清播放器大全| 国模丽丽啪啪一区二区| 国产女精品视频网站免费| 国产精品一区二区久久| 国产jizzjizz视频免费看| 国产在线91观看免费观看| 亚洲国产A∨无码影院| 国产一区二区丰满熟女人妻| AV熟妇导航网| 国产一区二区三区特区| 亚洲美女主播内射在线| 91三级在线观看免费| 色五月丁香五月综合五月| 欧美成人在线视频| 国产成人久久777777| 伊人久久网国产伊人|