亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA的主題分類系統(tǒng)研究

        2018-06-19 02:14:18郭英杰千博
        無(wú)線互聯(lián)科技 2018年3期
        關(guān)鍵詞:自然語(yǔ)言處理數(shù)據(jù)可視化

        郭英杰 千博

        摘要:當(dāng)前人類處于信息爆炸的時(shí)代,對(duì)于海量的文本數(shù)據(jù),可以利用人工智能的工具來(lái)提高數(shù)據(jù)分析處理的效率,來(lái)挖掘海量數(shù)據(jù)的寶藏。文章主要對(duì)文本的主題分類算法進(jìn)行研究,通過(guò)改進(jìn)分類方法并提出可視化方案,使主題分類具有更好的應(yīng)用價(jià)值。首先通過(guò)利用LDA主題分類算法進(jìn)行處理,并提出了一些改進(jìn)方法使分類效果更優(yōu),并最終生成可視化的主題分類結(jié)果,進(jìn)而用于推薦系統(tǒng)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等領(lǐng)域。

        關(guān)鍵詞:自然語(yǔ)言處理:主題分類;數(shù)據(jù)可視化

        自然語(yǔ)言處理是機(jī)器學(xué)習(xí)中的熱門領(lǐng)域,隨著Internet上數(shù)據(jù)產(chǎn)出的速度越來(lái)越快,文本挖掘廣泛用于特征抽取、語(yǔ)義關(guān)系挖掘、文本聚類等領(lǐng)域,并且在實(shí)踐的基礎(chǔ)上對(duì)文本挖掘的算法進(jìn)行了豐富的研究和改進(jìn)。本文給出一個(gè)基于文檔主題生成模型(Latent Dirichlet Allocation,LDA)的主題挖掘的完整應(yīng)用,通過(guò)爬蟲(chóng)來(lái)抓取特定網(wǎng)站的數(shù)據(jù),在數(shù)據(jù)預(yù)處理(包括分詞、去停用詞、詞頻計(jì)算、特征向量化)后,利用LDA主題分類算法進(jìn)行處理,并通過(guò)對(duì)分類過(guò)程優(yōu)化和算法改進(jìn),得到良好的主題分類效果,最終利用玫瑰圖等可視化方式推送給用戶,進(jìn)而將結(jié)果利用在知識(shí)存儲(chǔ)、推薦系統(tǒng)、數(shù)據(jù)分析等場(chǎng)景。本文最后以某老人健康網(wǎng)站為例,應(yīng)用該系統(tǒng)展示分類效果。

        1 數(shù)據(jù)采集與預(yù)處理

        1.1獲取數(shù)據(jù)源

        獲取數(shù)據(jù)源的方式多種多樣,為了面向數(shù)據(jù)不斷積累的互聯(lián)網(wǎng),本節(jié)設(shè)計(jì)了爬蟲(chóng)組件來(lái)靈活獲取數(shù)據(jù)源。爬蟲(chóng)[1],是按照一定規(guī)則來(lái)自動(dòng)抓取萬(wàn)維網(wǎng)信息的程序或者腳本,是獲取信息的有效方式之一。本文設(shè)計(jì)了基于雙阻塞隊(duì)列的并行化爬蟲(chóng)策略,對(duì)某老人健康網(wǎng)站持續(xù)爬取,截至當(dāng)前積累了16 430篇有關(guān)老人養(yǎng)老、健康等方面的文章。

        1.2文本預(yù)處理

        對(duì)于文本預(yù)處理來(lái)說(shuō),首先需要對(duì)文本分詞,對(duì)于中文的分詞處理比拉丁系語(yǔ)言難度更大。和大部分西方語(yǔ)言不同,書面漢語(yǔ)的詞語(yǔ)之間沒(méi)有明顯的空格標(biāo)記,句子是以字串的形式出現(xiàn)。把字串變?yōu)樵~串難點(diǎn)在與消除歧義[2],本文使用Jieba分析系統(tǒng),其python版本最高可以完成1.5 MB每秒的分詞速度。

        其次對(duì)于原始文本來(lái)說(shuō),帶有很多噪聲,這時(shí)運(yùn)用停用詞過(guò)濾的技術(shù)進(jìn)行文本預(yù)處理[3]。停用詞除了不會(huì)讓日常用詞等噪聲影響分析結(jié)果外,同時(shí)也極大降低了計(jì)算規(guī)模。預(yù)處理的最后一步,就是建立詞袋模型,這是對(duì)語(yǔ)料集的特征向量化,為隨后的計(jì)算做準(zhǔn)備。

        2 文本主題分類

        2.1 LDA主題模型

        LDA為3層貝葉斯概率模型[4],包含文章、主題、詞語(yǔ)3層結(jié)構(gòu),一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法。在LDA中,主題是指在文本集合內(nèi)具有隱含相關(guān)性的詞語(yǔ)的組合,適用于文字信息的提煉和歸納。LDA建模過(guò)程的概率圖模型如圖l所示,其中,陰影部分里的圓圈表示觀測(cè)變量,陰影外的圓圈表示隱含變量,箭頭表示變量之間的關(guān)聯(lián)。

        LDA主題建模的核心思想認(rèn)為,一篇文檔的生成是一個(gè)“以一定概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語(yǔ)”的過(guò)程。在LDA中參數(shù)αfalse和βfalse由用戶憑經(jīng)驗(yàn)事先給定,LDA的概率圖模型可以得到聯(lián)合分布率公式:

        求解的常用方法包含EM算法、Gibbs抽樣法等。本文采用Gibbs抽樣法[5],其核心思想為每次只排除當(dāng)前維度,然后給定其他維度的變量值采樣,再用這些采樣來(lái)估算出當(dāng)前維度的值。不斷重復(fù)迭代上述過(guò)程直到收斂,得到待估參數(shù)。

        2.2用TF-IDF改進(jìn)系統(tǒng)

        對(duì)于LDA來(lái)說(shuō),可以發(fā)現(xiàn)潛在的主題,但是在分析過(guò)程中會(huì)有很大的噪聲,這些噪聲并不是常見(jiàn)的停用詞,而是一些在文檔中出現(xiàn)的某些干擾詞,所以需要從“大局觀”的角度來(lái)去除燥聲,而TF_IDF[6]在這計(jì)算詞匯重要度方面表現(xiàn)優(yōu)異,可以通過(guò)對(duì)文檔集進(jìn)行非重要詞過(guò)濾,同時(shí)保留重要度最高的那部分即可。

        3 數(shù)據(jù)分析

        3.1主題分類結(jié)果

        本文系統(tǒng)使用python開(kāi)發(fā),其中算法部分利用scikit-learn和numpy等開(kāi)源框架實(shí)現(xiàn),可視化部分利用G2[7]提供的工具。并利用采集的16 430個(gè)相關(guān)文章作為原始語(yǔ)料,進(jìn)行分析處理和結(jié)果展示。對(duì)語(yǔ)料分為10個(gè)主題分析,并展示每類主題前8個(gè)關(guān)鍵詞(見(jiàn)表2)。

        3.2數(shù)據(jù)可視化

        “一圖勝干言”是數(shù)據(jù)可視化[8]在數(shù)據(jù)分析等領(lǐng)域作用的簡(jiǎn)短體現(xiàn),便于我們得知其中隱藏的各種聯(lián)系,進(jìn)而便于展示和做出決策。主題分類輸出的南丁格爾玫瑰圖可視化結(jié)果如圖2所示,可以推斷出在該網(wǎng)站上,老人的飲食結(jié)構(gòu)和心腦疾病是最受關(guān)注的,老人保健和運(yùn)動(dòng)相關(guān)主題其次。

        4 結(jié)語(yǔ)

        本文通過(guò)運(yùn)用分詞、停用詞過(guò)濾、數(shù)據(jù)可視化等手段建立了基于LDA算法對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行主題分類系統(tǒng),通過(guò)對(duì)大量文本數(shù)據(jù)的主題模型建立,可以分析主題趨勢(shì)和用戶關(guān)注點(diǎn)。在大數(shù)據(jù)場(chǎng)景下,分布式處理是提高效率的有效手段,今后可以利用spark等開(kāi)源分布式處理軟件,提高本系統(tǒng)應(yīng)對(duì)互聯(lián)網(wǎng)海量數(shù)據(jù)的能力。

        猜你喜歡
        自然語(yǔ)言處理數(shù)據(jù)可視化
        移動(dòng)可視化架構(gòu)與關(guān)鍵技術(shù)綜述
        大數(shù)據(jù)時(shí)代背景下本科教學(xué)質(zhì)量動(dòng)態(tài)監(jiān)控系統(tǒng)的構(gòu)建
        可視化:新媒體語(yǔ)境下的數(shù)據(jù)、敘事與設(shè)計(jì)研究
        基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
        我國(guó)數(shù)據(jù)新聞的發(fā)展困境與策略研究
        科技傳播(2016年19期)2016-12-27 14:53:29
        基于R語(yǔ)言的大數(shù)據(jù)審計(jì)方法研究
        面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
        詞向量的語(yǔ)義學(xué)規(guī)范化
        漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        數(shù)據(jù)可視化在新聞生產(chǎn)中的應(yīng)用研究
        今傳媒(2016年3期)2016-03-28 00:30:43
        中国凸偷窥xxxx自由视频妇科| 中文字幕综合一区二区| 97成人精品国语自产拍| 亚瑟国产精品久久| 色丁香色婷婷| 亚洲国产精品国自产拍av在线| 国产丝袜长腿美臀在线观看| 欧美变态另类刺激| 亚洲综合无码一区二区三区 | 久久精品国产亚洲AV高清y w| 大尺度极品粉嫩嫩模免费| 一本色道久久88加勒比—综合| 亚洲粉嫩高潮的18p| 精品一区二区三区影片| 国产日产韩国级片网站| 国产欧美一区二区精品久久久| 久久无码高潮喷水| 亚洲av中文无码乱人伦在线咪咕| 亚州av高清不卡一区二区| 少妇伦子伦精品无吗| 国产成人精品三级麻豆| 99久久人人爽亚洲精品美女| 国产人澡人澡澡澡人碰视频| 加勒比一区二区三区av| 国产乱子伦精品无码专区| 天天综合亚洲色在线精品| 国产成年无码AⅤ片日日爱| 国产三区二区一区久久| 蜜桃av抽搐高潮一区二区| 视频一区欧美| 亚洲第一页在线观看视频网站| 国精产品一区一区二区三区mba| 久久综合久久鬼色| 久久午夜无码鲁丝片直播午夜精品| 午夜视频一区二区三区播放| 北条麻妃国产九九九精品视频| 国产欧美精品一区二区三区–老狼 | 无码精品一区二区三区在线| 国内a∨免费播放| 久久AⅤ天堂Av无码AV| 日本高清一区二区三区在线观看 |