亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題模型的網絡微博輿情分析

        2016-05-14 22:04:23徐維林朱宗高麗劉金嶺
        軟件導刊 2016年5期

        徐維林 朱宗 高麗 劉金嶺

        摘要:LDA模型對長文本聚類有優(yōu)勢。將微博文本按一定規(guī)則構建長文本,根據文本中隱含的豐富語義信息,將SVM模型與LDA模型相結合,利用K-Means算法聚類。實驗結果表明,SVM和LDA相結合的模型,明顯提高了聚類質量和穩(wěn)定性。

        關鍵詞:SVM模型;LDA模型;微博輿情;K-Means算法聚類

        DOIDOI:10.11907/rjdk.161005

        中圖分類號:TP319

        文獻標識碼:A 文章編號:1672-7800(2016)005-0153-02

        0 引言

        互聯網對社會的影響力與日俱增,網絡輿情研究越來越受到重視。隨著論壇、社區(qū)、博客、微博、微信等新興互聯網媒體的興起,社會輿情的傳播速度變得越來越快。因此,加強輿情信息的監(jiān)控,及時掌握輿情動態(tài),利用現代信息技術促進網絡輿情信息健康有序發(fā)展,是各級政府部門的重要工作之一。

        主題模型(Latent Dirichlet Allocation,LDA)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構,是目前公認的自然語言處理中較好的模型之一。為了使LDA模型較好地處理微博文本,以獲得較有價值的輿情信息,先將微博集合信息進行粗分類,構成主題較為明確的長文本集合,利用數據預處理、特征詞提取,用TF-IDF策略得到SVM特征詞空間向量,結合LDA進行聚類,得到微博輿情熱點話題。本文先將微博集合按一定的規(guī)則構成長文本集,將LDA主題模型與SVM有機結合,從特征詞和主題兩個方面對文本進行聚類分析,以彌補兩種方式的不足,提高了聚類準確率。

        1 相關研究

        LDA模型是Blei[1]提出的一種基于潛在Dirichlet分布的概率主題生成模型,該模型生成文本過程:一系列主題以服從多項式分布形式生成每個文本,再從這些主題中同樣以服從多項式分布的方式抽樣出每個單詞。劉振鹿等[2]應用LDA模型進行文本的潛在語義分析,將語義分布劃分成低頻、中頻、高頻語義區(qū),以低頻語義區(qū)的語義進行Web游離文本檢測,以中、高頻語義區(qū)的語義作為文本特征進行文本聚類,采用文本類別與語義互作用機制對聚類結果進行修正,獲得了較好的聚類效果。曹娟等[3]研究了LDA模型的最優(yōu)化問題,證明當主題之間的相似度最小時模型最優(yōu)。王少鵬等[4]提出了一種基于LDA的主題模型文本聚類方法,利用TF-IDF算法和LDA主題模型,通過耗費函數確定文本相似度的融合系數,進行線性結合來獲取文本之間的相似度,通過計算得到文本相似度矩陣,使用K-mean進行文本聚類,利用F值對聚類結果評估,取得了良好的聚類效果。但LDA僅對于長文本效果較為突出,對具有短文本特點的微博文本分類往往效果不明顯。

        2 基于LDA與SVM結合的輿情獲取

        2.1 微博數據采集

        微博輿情信息數據采集是進行輿情分析的基礎。一般情況下,微博信息的獲取都是通過專門的獲取工具,比如網上免費提供的新浪微博數據獲取采集器 V1.0綠色版(http://www.cr173.com/soft/141381.html)等。

        2.2 微博長文本集構建

        本文實驗數據是新浪網上采集的9 800條微博信息,采用同一用戶某時間段內(本文選取48個小時)所發(fā)出的微博按時間順序排序構造一個長文本集。具體算法如下:

        算法1:構建微博長文本集

        該算法將每個用戶在時間間隔T0(選取T0=24)內發(fā)出的微博有序地構建了一個長文本向量,這基于兩方面考慮:①假設每條微博知識反映一個主題;②一個用戶連續(xù)發(fā)出微博為一個主題的概率很大,因此某一時間段內連續(xù)發(fā)出的微博只會是有限個主題。

        2.3 基于LDA和VSM的聚類算法設計

        2.3.1 LDA模型

        LDA模型具有清晰的層次結構,依次為文檔集合層、主題層和特征詞層。

        LDA模型是典型的有向概率圖模型[6],由參數(α,β)確定,α反映了文檔集合中隱含主題間的相對強弱,β刻畫所有隱含主題自身的概率分布。其中θk表示文檔主題的概率分布,φk表示特定主題下特征詞的概率分布,-表示文檔集的文本數,K表示文檔集的主題數,N表示每篇文檔包含的特征詞數。

        2.3.2 LDA 和VSM結合的聚類算法

        3 實驗結果與分析

        3.1 線性相關系數λ

        λ分別取值0.1-0.9時,計算其漏判率、錯判率和耗費函數值[4],通過實驗數據可以看出,漏判率、錯判率和耗費函數值先是隨λ的值增大而減小,在0.6處達到最低點,而后隨著λ的值增大而增大,因此λ=0.6時聚類效果最佳,所以本文實驗取λ=0.6。

        3.2 聚類質量檢測

        基于數據集的分布情況常用F值進行評價。F值評價原理是利用查全率和查準率對聚類結果質量進行評價。對于實驗的比較,本文通過計算SVM與LDA結合模型(簡記為SVM+LDA)、LDA模型和SVM模型的F值比較實驗結果得到,SVM與LDA結合模型不僅在質量上有一定提高,而且聚類結果的穩(wěn)定性也較好。這是因為SVM模型中利用TF-IDF進行大樣本集進行特征詞抽取時具有明顯的優(yōu)勢,而LDA模型又強化了文本間語義關系,同時,LDA模型又具有強大的降維能力。綜合以上幾點,使得SVM+LDA在進行微博集中的輿情識別時提高了聚類質量和穩(wěn)定性。

        4 結語

        文本間潛在的語義關系是通過文本相似度來反映和度量的。LDA模型是解決文本潛在主題的概率生成模型,為了發(fā)揮LDA模型對長文本多主題聚類的優(yōu)勢,本文利用微博時序和用戶聚集特點,將某用戶在某時間段內所發(fā)送的微博按時序排序為一個長文本,再利用SVM模型提取特征詞的優(yōu)勢,結合SVM與LDA模型的相似度進行聚類,克服LDA主題向量維數過低和對文本區(qū)分度較弱的不足,以此提高文本聚類的穩(wěn)定性和準確性。

        參考文獻:

        [1]BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Rasearch,2003(3):993-995.

        [2]劉振鹿,王大玲,馮時,等.一種基于LDA的潛在語義區(qū)劃分及Web文檔聚類算法[J].中文信息學報,2011,25(1):60-67.

        [3]曹娟,張勇東.一種基于密度的自適應最優(yōu)LDA模型選擇方法[J].計算機學報,2008,31(10):1780-1788.

        [4]王少鵬,彭巖,王潔.基于LDA 的文本聚類在網絡輿情分析中的應用研究[J].山東大學學報:理學版,2014,49(9):129-134.

        [5]劉金嶺.基于降維的短信文本語義分類及主題提取[J].計算機工程與應用,2010,46(23):159-161,174.

        [6]徐戈,黃厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學報,2011,34(8):1423-1437.

        [7]鄔啟為.基于向量空間的文本聚類方法與實現[D].北京:北京交通大學,2014.

        [8]張永軍,劉金嶺,馬甲林.中文短信文本信息流中多話題的分類抽取[J].現代圖書情報技術,2014,30(7):101-106.

        (責任編輯:杜能鋼)

        国产欧美日韩视频一区二区三区| 国产免费观看久久黄av麻豆| av永远在线免费观看| 成人av一区二区三区四区| 中文字幕免费在线观看动作大片 | 在线观看热码亚洲av每日更新| 正在播放一区| 精品少妇后入一区二区三区| 极品一区二区在线视频| 日韩一区国产二区欧美三区| 久久久久亚洲av无码网站| 亚洲精品白浆高清久久| 国产精品亚洲一区二区麻豆| 妺妺窝人体色www看美女| 国产精品深田咏美一区二区| 日韩有码中文字幕第一页| 性感女教师在线免费观看| 久久国产精品99精品国产| 国产亚洲精品看片在线观看| 一区二区三区在线观看视频免费| 国产亚洲av另类一区二区三区| 国产成人一区二区三区影院动漫| 亚洲精品中国国产嫩草影院美女| 日韩男女av中文字幕| 中文字幕av伊人av无码av | 国产亚洲欧美在线| 青青青草视频手机在线| 亚洲一区二区女搞男| 亚洲国产综合精品 在线 一区| 色婷婷丁香综合激情| av天堂免费在线播放| 天天摸夜夜摸摸到高潮| 欧美成人三级一区二区在线观看 | 老熟妇Av| 一区二区三区中文字幕在线观看| 国产免费无遮挡吸奶头视频| 八区精品色欲人妻综合网| 久久久亚洲女精品aa| 国产成人91久久麻豆视频| 久青草久青草视频在线观看| 青春草在线视频精品|