張玉珠
(貴州大學(xué) 計(jì)算機(jī)科學(xué)與信息學(xué)院,貴州 貴陽 550025)
互聯(lián)網(wǎng)的發(fā)展不僅推動了社會經(jīng)濟(jì)的飛速發(fā)展,改善了人們的生活品質(zhì),還進(jìn)一步改變了人們獲取信息的方式。作為繼報(bào)紙、無線廣播和電視三大傳統(tǒng)的傳播媒體之后出現(xiàn)的新興“第四媒體”,互聯(lián)網(wǎng)已成為龐大的公共信息集散地,成為人們?nèi)粘=涣鞯钠脚_。社會民眾通過網(wǎng)絡(luò)所表達(dá)的群體性的情緒、態(tài)度、意見、要求等形成了網(wǎng)絡(luò)輿情[1]。
由于網(wǎng)絡(luò)本身的虛擬性,隱蔽性,自由性等特點(diǎn),人們更愿意通過網(wǎng)絡(luò)來表達(dá)他們的真實(shí)想法,發(fā)泄負(fù)面情緒。近年來,由突發(fā)事件引起的網(wǎng)絡(luò)輿情更是直接關(guān)系到社會的穩(wěn)定[2]。由于網(wǎng)絡(luò)信息量的巨大,傳統(tǒng)的依靠人工進(jìn)行分析處理,難以滿足人們對網(wǎng)絡(luò)信息的需求。因此迫切需要借助現(xiàn)代信息技術(shù),提高網(wǎng)頁信息的采集效率,制定相應(yīng)的預(yù)警機(jī)制,構(gòu)建網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)主要采用了網(wǎng)絡(luò)爬蟲技術(shù),中文分詞技術(shù),信息分析與處理技術(shù),文本挖掘技術(shù)等多項(xiàng)技術(shù),實(shí)現(xiàn)網(wǎng)頁信息的自動采集,并對海量的動態(tài)信息進(jìn)行分析及實(shí)時(shí)的監(jiān)管,將處于“未然狀態(tài)”下的輿情信息進(jìn)行挖掘分析,把握處理突發(fā)事件的最佳時(shí)機(jī)。網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)主要包括輿情信息采集及預(yù)處理模塊、輿情信息分析模塊以及輿情服務(wù)模塊,系統(tǒng)構(gòu)架如圖1所示。信息采集及預(yù)處理模塊主要用于對網(wǎng)絡(luò)輿情信息的采集,將網(wǎng)頁信息經(jīng)過去噪處理,生成干凈的文本信息,并對文本信息進(jìn)行特征值提取,建立向量空間模型(VSM,Vector Space Model);輿情分析模塊是系統(tǒng)的核心部分,主要通過文本聚類發(fā)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn),并對話題進(jìn)行情感傾向性分析,方便人們掌握輿情的整體趨勢;輿情服務(wù)主要向人們提供輿情報(bào)告,通過對輿情報(bào)告的掌握對網(wǎng)絡(luò)輿情突發(fā)事件進(jìn)行處理,并通過個(gè)性化定制,制定方便,適合需求的輿情信息。
輿情信息采集模塊主要運(yùn)用了網(wǎng)絡(luò)爬蟲技術(shù),獲取網(wǎng)頁信息。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或腳本,是一個(gè)自動提取網(wǎng)頁的過程。網(wǎng)絡(luò)爬蟲通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個(gè)頁面開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止。
輿情信息的預(yù)處理模塊主要包含網(wǎng)頁去噪,網(wǎng)頁排重,中文分詞和特征詞提取等。通過網(wǎng)絡(luò)爬蟲采集到的網(wǎng)頁信息通常含有大量的噪聲,因此首先需要對其進(jìn)行去噪處理,即保留網(wǎng)頁鏈接、正文,時(shí)間及一級標(biāo)題、二級標(biāo)題[3-4]。本文采用文檔對象模型(DOM,Document Object Model)來獲取網(wǎng)頁的正文、一二級標(biāo)題等,構(gòu)建DOM樹,從DOM樹上刪除節(jié)點(diǎn)的過濾器,最終獲得相應(yīng)的文本信息。
網(wǎng)絡(luò)輿情中還存在著眾多重復(fù)和轉(zhuǎn)載信息,為了提高聚類分析的效率,避免網(wǎng)頁冗余,還需要對網(wǎng)頁進(jìn)行網(wǎng)頁的去重。首先進(jìn)行頁面分析,提取網(wǎng)頁的特征碼,區(qū)分網(wǎng)頁是否相同或相似的判定標(biāo)準(zhǔn)主要是特征碼,再用提取到的特征碼進(jìn)行索引網(wǎng)頁,構(gòu)建檢索系統(tǒng),將提取到的網(wǎng)頁特征碼置于構(gòu)建的檢索系統(tǒng)中,聚為以該網(wǎng)頁特征碼標(biāo)注的一類。將句號作為其中一個(gè)特取位置,在句號兩邊提取長度為L/2的詞串,構(gòu)成固定長為L的詞串作為網(wǎng)頁的特征碼,排除了版權(quán)信息和導(dǎo)航的干擾。
經(jīng)上述處理得到的結(jié)構(gòu)化的輿情信息存入數(shù)據(jù)庫,并對其進(jìn)行進(jìn)一步的分詞處理。采用了中科院得漢語詞法分析系統(tǒng)(ICTCLAS,Institute of Computing Technology, Chinese Lexical Analysis System)[5],利用詞類信息對分詞決策提供幫助,并且在標(biāo)注過程中又反過來對分詞結(jié)果進(jìn)行檢驗(yàn)。分詞完畢后,需去除停用詞,如標(biāo)點(diǎn)符號,助詞等,減少提取特征詞和建立VSM時(shí)產(chǎn)生的冗余。
本系統(tǒng)采用VSM向量空間模型表示文本內(nèi)容,在有n個(gè)不同特征項(xiàng)的一組d1,d2,…,dn的文本系統(tǒng)中,給定文本的傳統(tǒng)特征向量表示:di=(ω1(di),ω2(di),…,ωn(di)),由于d1,d2,…,dn互不相同,可以把它們看作是n 維歐氏空間n 個(gè)坐標(biāo),把di看作是n 維歐氏空間的向量。其中ωj(di)表示第j個(gè)特征詞在文檔di中的權(quán)重。用詞頻率指數(shù)-逆文本頻率指數(shù)(TF-IDF,Term Frequency-Inverse Document Frequency)方法給出特征詞一個(gè)權(quán)重[6]。計(jì)算公式如下:
ωj(di)表示第 j 個(gè)特征詞在文本中di的權(quán)重;fj(dj)表示第 j個(gè)特征詞在文本di中出現(xiàn)的頻率,nj( di)表示包含第j個(gè)特征詞的文本個(gè)數(shù),n表示所有文本個(gè)數(shù)。
輿情信息分析模塊包括輿情信息相似度的計(jì)算,聚類分析及情感傾向分析。其流程圖如圖2所示。
本文采用余弦距離度量[7]表示文本之間的相似性,它定義兩篇文檔di,dj的相似度如下:
文檔聚類是一種無監(jiān)督的過程,即不依賴任何關(guān)于集合劃分的先驗(yàn)知識,而僅僅根據(jù)集合內(nèi)部的文檔對象彼此之間的相似度按照某種準(zhǔn)則對文檔集合進(jìn)行劃分。k-means聚類算法具有良好的可伸縮性和很高的效率,適合處理大量文本集,該算法是劃分算法的代表,對文本進(jìn)行分析聚類有較好的結(jié)果。該算法的主要思想有[8]:對于一個(gè)大小為 n的文本集,首先隨機(jī)選擇k個(gè)文本作為初始聚類中心,對于剩下的每一個(gè)文本對象,計(jì)算該文本與各個(gè)初始聚類中心的相似度,然后根據(jù)簇內(nèi)文本之間相似度大而不同簇間文本相似度小的原則,把文檔指派到相應(yīng)的類簇。重新計(jì)算每一個(gè)聚類簇的平均值,得到新的聚類中心,不斷重復(fù)上述過程,直到準(zhǔn)則函數(shù)收斂。利用 k-means聚類算法能夠快速為文本進(jìn)行分類,發(fā)現(xiàn)事件的熱點(diǎn)[9],對網(wǎng)絡(luò)突發(fā)事件進(jìn)行監(jiān)控,及時(shí)有效的實(shí)現(xiàn)輿情監(jiān)控。
在對輿情信息進(jìn)行分析時(shí),還可以通過情感傾向分析判斷輿情信息的正負(fù)面情緒。本系統(tǒng)利用知網(wǎng)(HowNet)的詞匯語義相似度進(jìn)行計(jì)算,識別詞匯的語義傾向性[10-12]。令Pwords表示帶有積極語義傾向的基準(zhǔn)詞集合,Nwords表示帶有消極語義傾向的基準(zhǔn)詞集合。詞匯的語義傾向值表示為:
其中,Sim(word1,word2)表示詞匯 word1和 word2的語義相似度。當(dāng)Orient(word)≥θ時(shí)認(rèn)為詞匯word為積極語義傾向;反之為消極語義傾向。
輿情服務(wù)作為系統(tǒng)的輸出層,主要提供用戶需求層的信息,具體包括輿情報(bào)告,輿情信息的互聯(lián)網(wǎng)發(fā)布及郵件 Email服務(wù)和用戶個(gè)性化定制。為用戶提供清晰、準(zhǔn)確、快捷的輿情信息服務(wù),滿足用戶對信息的各種需求。
網(wǎng)絡(luò)輿情是一個(gè)比較新的研究領(lǐng)域,在信息高速傳播的互聯(lián)網(wǎng)時(shí)代,實(shí)施輿情信息是非常有必要的。但是由于網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜,輿情信息的隱蔽性、爆發(fā)性等特點(diǎn),很難全面有效的掌控輿情信息。本系統(tǒng)主要通過遍歷互聯(lián)網(wǎng)上的信息,通過預(yù)處理得到干凈的文本,再由聚類發(fā)現(xiàn)輿情的熱點(diǎn),并發(fā)布輿情報(bào)告,形成一套相對完整的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。本系統(tǒng)的不足之處在于只是通過文本挖掘追蹤熱點(diǎn)話題,但是沒有建立網(wǎng)絡(luò)輿情的預(yù)警機(jī)制,在這方面還有待研究改進(jìn)。
[1] 曾潤喜.我國網(wǎng)絡(luò)輿情研究與發(fā)展現(xiàn)狀分析[J].圖書館學(xué)研究,2009(08):2-6.
[2] 中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心.第28次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:CNNIC,2011.
[3] 張繼超,和應(yīng)民,周春楠,等.綜合資源管理系統(tǒng)中數(shù)據(jù)采集的實(shí)現(xiàn)[J].通信技術(shù),2011,44(03):116-119.
[4] 王平根.基于 DOM的動態(tài)網(wǎng)頁信息抽取方法[J].科技信息,2010(31):470-470,475.
[5] 中國科學(xué)院計(jì)算技術(shù)研究所.ICTCLAS簡介[EB/OL].[2008-12-01](2012-08-05).http://ictclas .org/sub_1_1.html.
[6] 李文超,周勇,夏士雄,等.一種新的基于層次和 K-means方法的聚類算法[C].中國:中國自動化學(xué)會,2007:605-609.
[7] FAHIM A M,SALEM A M,TORKEY F A,et al.An Efficient Enhanced K-means Clustering Algorithm[J].浙江大學(xué)學(xué)報(bào)A:英文版,2006,7(10):1626-1633.
[8] STEINBACH M, KARYPIS G, KUMAR V. A Comparison of Documentclustering Techniques Proceedingof the 6th ACM-SIGKDDInternational Conference on Text Mining[M].USA:ACM Press, 2000:103-122.
[9] 焦超,劉功申.網(wǎng)絡(luò)突發(fā)熱點(diǎn)事件的熱度分布[J].信息安全與通信保密,2012(04):58-60.
[10] 熊德蘭,程菊明,田勝利,等.基于HowNet的句子褒貶傾向性研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(22):143-145.
[11] 薛麗敏,李殿偉,肖斌,等.中文文本情感傾向性五元模型研究[J].通信技術(shù),2011,44(07):130-132.
[12] 黃萱菁,張奇,吳苑斌,等.文本情感傾向分析[J].中文信息學(xué)報(bào),2011,25(06):118-126.