亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于主題模型的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計(jì)

2015-05-08 16:34:19鐘榮飛

電腦知識(shí)與技術(shù) 2015年7期

鐘榮飛

摘要：網(wǎng)絡(luò)輿情是近年來研究的熱點(diǎn)?，F(xiàn)有的輿情監(jiān)測系統(tǒng)大多采用基于統(tǒng)計(jì)和特征關(guān)鍵詞的方法，這種方法沒有考慮到文字背后的語義關(guān)聯(lián)，可能在兩個(gè)文檔共同出現(xiàn)的單詞很少甚至沒有，但兩個(gè)文檔是相似的。而主題模型正是近年來大量使用的語義挖掘的方法，其中LDA主題模型使用最多。結(jié)合了基于統(tǒng)計(jì)和LDA主題模型兩種方法，應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)控。在基于統(tǒng)計(jì)的基礎(chǔ)上進(jìn)一步進(jìn)行語義的挖掘，能夠?qū)浨樾畔⒏訙?zhǔn)確的分析。

關(guān)鍵詞：網(wǎng)絡(luò)輿情；輿情監(jiān)控；主題模型；LDA；語義挖掘

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2015）07-0090-04

Abstract： Network public opinion is a research hotspot in recent years. Most of the existing public opinion monitoring system used the count of word or key-word， in this way， lost the semantics of the document. Topic model is a good semantics mining model， and is very popular in recent years. LDA is most commonly used. Combining the statistics and LDA topic model， designed a public opinion monitoring system. Based on counting of key-word， mining the semantics of documents， can exactly analyses the public opinion.

Key words： network public opinion； opinion monitor； topic model； LDA； semantics mining

1 引言

互聯(lián)網(wǎng)是一個(gè)開放的信息平臺(tái)，隨著互聯(lián)網(wǎng)的發(fā)展，互聯(lián)網(wǎng)上的信息也是以指數(shù)級(jí)的方式增長，互聯(lián)網(wǎng)上的信息也是魚龍混雜。由于任何人都可以使用互聯(lián)網(wǎng)，除了可以從網(wǎng)絡(luò)上獲取信息，同時(shí)還能夠通過網(wǎng)絡(luò)發(fā)布信息、轉(zhuǎn)載別人的信息、對(duì)別人發(fā)布的信息發(fā)表自己的看法。對(duì)于多數(shù)人們都關(guān)心的話題很容易形成熱點(diǎn)，金字塔式的擴(kuò)散。尤其對(duì)于一些民生事件，很容易形成網(wǎng)絡(luò)輿情。所以以需要能夠?qū)W(wǎng)絡(luò)輿情[1，2]進(jìn)行監(jiān)控。

近年來，對(duì)于網(wǎng)絡(luò)輿情的監(jiān)控已經(jīng)取得了很大的成果，不少網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)也建立了起來。目前對(duì)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)所以使用的方法基本上是基于TF-IDF[3，4]的詞頻統(tǒng)計(jì)的方法，利用向量空間模型（VSM）[3，4]對(duì)文本進(jìn)行表示，通過計(jì)算向量之間的余弦值來計(jì)算文本之間的相似度，采用聚類和分類算法來進(jìn)行輿情熱點(diǎn)挖掘和跟蹤。目前對(duì)于這種方法的研究已經(jīng)趨于成熟。但是這種存在一些缺陷，1）使用TF-IDF詞頻統(tǒng)計(jì)的方式只考慮了詞語的頻率，并沒有能夠真正體現(xiàn)詞語的含義；2）向量空間模型來表示文本時(shí)，其數(shù)據(jù)空間的維度有可能是非常高的，這會(huì)使得計(jì)算非常復(fù)雜。

另一方面，學(xué)者們開始著手于從語義方面對(duì)文本的分析進(jìn)行研究，LDA[5]主題模型就是目前使用最多的語義分析方法。LDA模型對(duì)文檔集進(jìn)行建模，挖掘出其中隱含的主題分布，其主題空間[6]的規(guī)模是K×N，與文本集規(guī)模無關(guān)。雖然LDA主題模型于2003年就已經(jīng)提出，而且已經(jīng)應(yīng)用于很多數(shù)據(jù)挖掘的領(lǐng)域當(dāng)中，但是在輿情監(jiān)控方面的應(yīng)用暫時(shí)還沒有。

因此本文針對(duì)傳統(tǒng)輿情分析基于統(tǒng)計(jì)方法的缺點(diǎn)跟LDA主題模型的優(yōu)點(diǎn)，提出把LDA主題模型應(yīng)用于輿情監(jiān)控當(dāng)中，同時(shí)把基于統(tǒng)計(jì)的方法跟LDA主題模型相結(jié)合，能夠更準(zhǔn)確的分析出網(wǎng)絡(luò)輿情，更好的跟蹤輿情的發(fā)展態(tài)勢。

2 網(wǎng)絡(luò)輿情監(jiān)控

網(wǎng)絡(luò)輿情監(jiān)控與分析的流程大體可以如圖1所示。

2.1 信息采集

通過網(wǎng)絡(luò)爬蟲（又稱網(wǎng)頁蜘蛛[6]，網(wǎng)絡(luò)機(jī)器人）不斷的從互聯(lián)網(wǎng)上，按照一定的規(guī)則，自動(dòng)的抓取互聯(lián)網(wǎng)上頁面，形成一個(gè)巨大的網(wǎng)頁文本集。爬蟲的原理是從一個(gè)或若干個(gè)初始網(wǎng)頁的URL開始，獲取初始網(wǎng)頁上的URL，在抓取的過程中不斷的從當(dāng)前頁面上抽取新的URL放入隊(duì)列，直到滿足系統(tǒng)的一定停止條件。

2.2 信息預(yù)處理

由于爬蟲抓取的網(wǎng)頁是原始網(wǎng)頁，網(wǎng)頁中的數(shù)據(jù)非常復(fù)雜，多以無結(jié)構(gòu)和非半結(jié)構(gòu)化[6]結(jié)合的方式摻雜在一起，其中除了我們需要的主體內(nèi)容外還有很多其他無用的信息，如廣告，版本等。因此需要把沒用的信息過濾掉，只提取出其中的主體文本內(nèi)容。

同時(shí)網(wǎng)絡(luò)中存在很多轉(zhuǎn)載的重復(fù)信息，因此收集到的數(shù)據(jù)中可能存在相當(dāng)多的冗余網(wǎng)頁。這種現(xiàn)象不但浪費(fèi)了大量的存儲(chǔ)空間和資源，而且影響了對(duì)輿情分析的準(zhǔn)確度。因此非常有必要對(duì)網(wǎng)頁進(jìn)行去重，避免這種現(xiàn)象。

2.3 文本表示

文本表示是計(jì)算機(jī)進(jìn)行文本挖掘的基礎(chǔ)，在輿情監(jiān)控系統(tǒng)中，需要把一篇文本表示成以詞為單位的特征集合，因?yàn)槠毡檎J(rèn)為選取詞作為特征項(xiàng)是最優(yōu)的。通常，文本表示的方法有布爾模型和向量空間模型（Vector Space Model，VSM）。向量空間模型是使用最多的文本表示模型。將每個(gè)文本用詞來表示，然后根據(jù)TF-IDF詞頻統(tǒng)計(jì)給每個(gè)詞賦與一個(gè)權(quán)重。這樣就把文本表示成了數(shù)學(xué)上的向量，能夠在計(jì)算機(jī)中進(jìn)行邏輯運(yùn)算。一篇文檔可以表示成一個(gè)向量d={w1，w2，w3，…，wn}，wi為文檔中詞的權(quán)重，n為文檔中詞的數(shù)目。

2.4 聚類分析

聚類[7]是一種把文本集合進(jìn)行全自動(dòng)分類處理的無監(jiān)督的機(jī)器學(xué)習(xí)[7]過程，聚類的目的是從采集到的所有網(wǎng)頁數(shù)據(jù)中找到一些類的集合，這些類的之間的相似度最小，而類內(nèi)部的相似度最大。聚類的本質(zhì)就是分類，把相似度高的文本聚集在一起，而把不相關(guān)的文本區(qū)分開來。這里就涉及到了文本相似度[8]的計(jì)算，向量空間模型的文本相似度的計(jì)算就計(jì)算向量之間的余弦值。這樣把采集到的所有文本經(jīng)過相似度計(jì)算后，相似的文本被歸為同一類中。相似的文本歸為一類，我們認(rèn)為它們討論的是同一個(gè)話題。因此一個(gè)類就是一個(gè)話題，聚類最后的結(jié)果就是從文本集中發(fā)現(xiàn)出這些話題，并計(jì)算他們的熱點(diǎn)，找出熱點(diǎn)話題，因?yàn)橹挥袩狳c(diǎn)話題才有可能發(fā)展為網(wǎng)絡(luò)輿情。

2.5 輿情分析

根據(jù)話題的熱度進(jìn)行趨勢分析，對(duì)其中有可能發(fā)展為輿情的話題進(jìn)行跟蹤，并對(duì)輿情的發(fā)展情況進(jìn)行實(shí)時(shí)的預(yù)警，隨時(shí)掌握網(wǎng)絡(luò)上的輿情發(fā)展趨勢。

因此，從上面的過程中可以發(fā)現(xiàn)，輿情監(jiān)控本質(zhì)的就是要發(fā)現(xiàn)熱點(diǎn)話題。

3 LDA主題模型

3.1 LDA模型基本思想

其中“文檔-詞語”矩陣表示每個(gè)文檔中每個(gè)單詞的詞頻，即出現(xiàn)的概率；“主題-詞語”矩陣表示每個(gè)主題中每個(gè)單詞的出現(xiàn)概率；“文檔-主題”矩陣表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率。

3.2 生成過程

3.3 Gibbs抽樣

由上節(jié)可知，LDA模型有兩個(gè)參數(shù)α和β 在構(gòu)建LDA模型時(shí)需要進(jìn)行估計(jì)，常用的方法有期望傳播算法、變分貝葉斯推理和Collapsed Gibbs抽樣[8]等?；贕ibbs抽樣的參數(shù)推理方法實(shí)現(xiàn)比較簡單，能夠有效的從大規(guī)模語料庫中抽取出主題，因此Gibbs抽樣算法是目前使用最多的LDA模型抽樣算法。

本文的參數(shù)估計(jì)使用Gibbs抽樣算法。估計(jì)出LDA模型中的最重要的兩個(gè) 參數(shù)，各主題下詞語概率分布和各文本中的主題概率分布。主題就是文本的語義概括，而主題中的詞正是主題語義的高度概括。因此可以把文本映射到主題空間，文本向量可表示為d={t1，t2，t3，…，tk}，其中ti是主題中所有詞在文檔的頻率，k為主題空間維度。

4 基于LDA模型的輿情監(jiān)控與分析

4.1 文本相似度計(jì)算

由第2節(jié)可以知道，輿情監(jiān)控與分析中非常重要的過程就是聚類分析，而聚類分析的基礎(chǔ)就是文本相似度的計(jì)算，相似度計(jì)算的好壞直接影響到聚類的結(jié)果。傳統(tǒng)相似度計(jì)算模型向量空間模型（VSM）僅采用詞頻統(tǒng)計(jì)方法TF-IDF來計(jì)算特征詞的權(quán)重，而沒有考慮文本內(nèi)的語義信息，從而影響了相似度計(jì)算的結(jié)果。

LDA主題模型是對(duì)文本語義的挖掘，一定程度上彌補(bǔ)了以上的不足。通過對(duì)LDA模型的訓(xùn)練得到文本的主題分布跟主題中的詞分布。然后把文本映射到主題空間，形成基于主題的文本向量，結(jié)合TF-IDF權(quán)重的詞向量，將兩種文本表示向量有機(jī)的融合，能夠更好的準(zhǔn)確地計(jì)算文本的相似度。

4.2 輿情監(jiān)控與分析步驟

基于LDA主題模型的輿情監(jiān)控與分析步驟如下：

1）通過網(wǎng)頁采集工具采集信息，并進(jìn)行預(yù)處理，提取出主體文本內(nèi)容形成文本集。

2）對(duì)文本集進(jìn)行LDA模型訓(xùn)練，得出LDA模型參數(shù)：文本主題分布與主題詞項(xiàng)分布。

3）把文本分別表示成VSM空間的向量與主題空間的向量，加權(quán)求和后進(jìn)行文本相似度計(jì)算，并用于聚類。

4）對(duì)聚類結(jié)果進(jìn)行輿情分析。

5 總結(jié)

本文通過分析傳統(tǒng)輿情監(jiān)控系統(tǒng)中使用的VSM空間向量模型存在的不足，對(duì)文本語義的表示不夠，只能知道詞在文檔中出現(xiàn)的頻數(shù)，但缺乏對(duì)詞的深層次含義的挖掘，從而導(dǎo)致輿情分析的不準(zhǔn)確。結(jié)合LDA主題模型的在語義挖掘方面的優(yōu)勢，把LDA主題模型與VSM空間模型有機(jī)融合，提高文本相似度計(jì)算的準(zhǔn)確性，從而提高了輿情分析的準(zhǔn)確性。

未來的研究工作包括：可以進(jìn)一步的對(duì)LDA主題模型進(jìn)行研究，如何利用改進(jìn)的LDA主題模型來進(jìn)行輿情監(jiān)控系統(tǒng)的設(shè)計(jì)，更好的挖掘網(wǎng)絡(luò)輿情信息的含義和準(zhǔn)確性。

參考文獻(xiàn)：

[1] 李昌祖，張洪生，等. 網(wǎng)絡(luò)輿情的概念解析[J]. 現(xiàn)代傳播，2010，170（9）：139-140.

[2] 許鑫，章成志，等. 國內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 情報(bào)理論與實(shí)踐，2009，32（3）：115-120.

[3] 秦宏宇.網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D].哈爾濱：哈爾濱工程大學(xué)，2010.

[4] 萬源. 基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].湖北：武漢理工大學(xué)，2012.

[5] David M.Blei，andrew Y.Ng，Michael I.Jordan. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research，2003（3）：993-1022.

[6] 劉杜楊. 網(wǎng)絡(luò)輿情監(jiān)督管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都：電子科技大學(xué)，2013.

[7] 董婧靈，李芳，何婷婷，等. 基于LDA模型的文本聚類研究[J]. 中國計(jì)算語言學(xué)研究前沿進(jìn)展，2011，455-461.

[8] 王振振，何明，杜永萍，等. 基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué)，2013，40（12）：229-232.

[9] huagong_ad. 主題模型-LDA淺析[OL]. http：//blog.csdn.net/huagong_adu/article/details/7937616.

[10] 張偉. 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn)[D].天津：天津大學(xué)，2011.

[11] Edwin Chen. Introduction to Latent Dirichlet Allocation[OL]. http：//blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/.