孫玲芳,周加波,徐 會,許 鋒,候志魯
(江蘇科技大學(xué)經(jīng)濟管理學(xué)院,江蘇 鎮(zhèn)江 212003)
目前互聯(lián)網(wǎng)已經(jīng)成為我國民眾發(fā)表言論和獲取信息的主要渠道,然而網(wǎng)絡(luò)是一把雙刃劍[1],一方面網(wǎng)絡(luò)使得信息的傳播更加自由與便利,能夠及時反映社情民意,對社會的發(fā)展起了積極作用;另一方面由于網(wǎng)絡(luò)具有虛擬性、發(fā)散性、滲透性以及匿名性等特點,再加上我國目前處于社會轉(zhuǎn)型期,社會矛盾多且復(fù)雜,網(wǎng)絡(luò)中充斥著許多淫穢、暴力、反動、迷信等不良信息,對國家安全和社會穩(wěn)定構(gòu)成一定的威脅。有些網(wǎng)民或者團隊為了追求利益,利用互聯(lián)網(wǎng)散布各種虛假或者扭曲事實的言論,引誘公眾產(chǎn)生具有強烈負(fù)面傾向的情緒、態(tài)度和意見,影響人們的正常生活,干擾企業(yè)的運作和政府的決策[2]。因此為了充分利用網(wǎng)絡(luò)輿情對社會發(fā)展的積極作用,盡量降低網(wǎng)絡(luò)輿情的消極影響,有必要對網(wǎng)絡(luò)輿情的產(chǎn)生、傳播、預(yù)警以及應(yīng)對方法進行深人研究。
學(xué)術(shù)界對網(wǎng)絡(luò)輿情的概念還沒有達成一致意見,劉毅認(rèn)為“網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)表達和傳播的各種不同情緒、態(tài)度和意見交錯的總和”[3]。華中科技大學(xué)的曾潤喜博士認(rèn)為“網(wǎng)絡(luò)輿情是由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合”[4]。軍犬輿情創(chuàng)始人彭作文先生認(rèn)為網(wǎng)絡(luò)輿情是以網(wǎng)絡(luò)為載體,以事件為核心,廣大網(wǎng)民情感、態(tài)度、意見、觀點的表達、傳播與互動,以及后續(xù)影響力的集合。浙江工商大學(xué)的柳虹認(rèn)為網(wǎng)絡(luò)輿情熱點指網(wǎng)民思想情緒和群眾利益訴求在網(wǎng)上的集中反映,是網(wǎng)民熱切關(guān)注的聚焦點,是民眾議論的集中點,反映出一個時期網(wǎng)民的所思所想[5]。由此可見,網(wǎng)絡(luò)輿情的主體是廣大網(wǎng)民,客體是社會事件,手段是互聯(lián)網(wǎng),目的是表達網(wǎng)民的認(rèn)知、意見和情感。
國外輿情熱點發(fā)現(xiàn)研究較為有名的如美國的話題發(fā)現(xiàn)與跟蹤(TDT)研究項目,這項技術(shù)旨在幫助人們應(yīng)對日益嚴(yán)重的互聯(lián)網(wǎng)信息爆炸問題,對新聞媒體信息流進行新話題的自動識別和已知話題的持續(xù)跟蹤[6]。目前我國網(wǎng)絡(luò)輿情的主要研究方向之一是網(wǎng)絡(luò)輿情規(guī)律及熱點發(fā)現(xiàn)技術(shù)[7],鄭魁等根據(jù)公共安全網(wǎng)絡(luò)輿情研究的需求,提出基于ICTCLAS分詞技術(shù)網(wǎng)絡(luò)輿情熱點信息的自動發(fā)現(xiàn)方法[8],王偉等根據(jù)對網(wǎng)絡(luò)輿情分析的需求,構(gòu)建了基于聚類的網(wǎng)絡(luò)輿情熱點問題發(fā)現(xiàn)及分析系統(tǒng)[9]。中文信息處理與數(shù)據(jù)挖掘是網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)在實踐上的主要研究領(lǐng)域,因此本文緊扣這2個研究領(lǐng)域設(shè)計一個基于改進的K-means網(wǎng)絡(luò)輿情熱點事件的聚類研究模型,并且將該模型用于實證研究,得到了比較滿意的結(jié)果,證實了改進算法的可行性和優(yōu)越性。
文本聚類方法是網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)關(guān)鍵技術(shù)之一,文本聚類分析指使得同一類文本之間的相似度比其他類文本的相似性更強,按照聚類分析算法的思路不同,可將聚類算法分為劃分法、層次法、基于密度的算法、基于網(wǎng)格的算法和基于模型的算法。K-means也被稱為K-均值,是一種得到最廣泛使用的聚類算法。K-means算法以K為參數(shù),把n個對象分為K個簇,以使簇內(nèi)具有較高的相似度。相似度的計算根據(jù)一個簇中對象的平均值來進行。K-means算法[10]的流程如下:
輸入:包含n個數(shù)據(jù)對象的數(shù)據(jù)集及聚類個數(shù)K;
輸出:滿足目標(biāo)函數(shù)最小值的K個聚類。
(1)從n個數(shù)據(jù)對象中任意選K個對象作為初始聚類中心。
(2)根據(jù)每個聚類對象的均值,計算每個對象與這些中心對象的距離,并根據(jù)最小距離重新對相應(yīng)對象進行劃分。
(3)重新計算每個聚類的均值(中心對象)。
(4)循環(huán)上述流程(2)和(3),直到目標(biāo)函數(shù)的值不再變化。
K-means算法具有應(yīng)用最為廣泛、收斂速度快、能擴展以用于大規(guī)模的數(shù)據(jù)集等優(yōu)點。同時也存在結(jié)果好壞依賴于對初始聚類中心的選擇、容易陷入局部最優(yōu)解、對K值的選擇沒有準(zhǔn)則可依循、對異常數(shù)據(jù)較為敏感、只能處理數(shù)值屬性的數(shù)據(jù)、聚類結(jié)構(gòu)可能不平衡等缺點。
本模型包括輿情信息采集、輿情信息預(yù)處理和輿情熱點發(fā)現(xiàn)3個部分,其基本流程如圖1所示。
圖1 網(wǎng)絡(luò)輿情熱點事件發(fā)現(xiàn)模型結(jié)構(gòu)
網(wǎng)絡(luò)爬蟲技術(shù)是采集網(wǎng)絡(luò)輿情信息的常用手段,網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。本文采用KWebWatcher爬蟲軟件采集輿情信息,具體設(shè)置如下:檢測主題為社會新聞類,指定 http://news.163.com為采集網(wǎng)站,檢測結(jié)果顯示新聞標(biāo)題、新聞作者、新聞來源、發(fā)表時間、采集時間等信息,而爬行策略、線程分配和爬行深度則采用軟件默認(rèn)值,通過軟件的智能過濾模塊將采集到的網(wǎng)頁中的導(dǎo)航信息、版權(quán)信息和廣告信息等無用信息過濾掉,最后將處理過的結(jié)果導(dǎo)入本地數(shù)據(jù)庫。
采集到的輿情信息是非結(jié)構(gòu)化的數(shù)據(jù),計算機很難理解其語意,必須將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)。中文分詞是中文信息處理的最基本的部分,本文采用SCWS中文分詞系統(tǒng),這是一套基于詞頻詞典的機械式中文分詞引擎,它能將一整段的中文文本基本正確地切分成詞,經(jīng)小范圍測試大概準(zhǔn)確率在90% ~95%,已能基本滿足一些小型搜索引擎、關(guān)鍵字提取等場合運用,45kb左右的文本切詞時間是0.026 秒,大概是 1.5MB 文本/秒[11]。
經(jīng)過中文分詞后的文本向量空間的維數(shù)相當(dāng)高,高維文本既影響計算機的運算速度又會引入過多的噪聲,因此有必要降低向量的維數(shù)。本文首先運行SCWS中文分詞系統(tǒng)的自帶停用詞表對文本進行初步處理,去除文本中的停用詞。其次,由于能夠代表某件新聞事件的關(guān)鍵詞主要是名詞和動詞,而副詞、連詞、介詞和嘆詞等的作用不大,所以在選取特征詞時只選擇名詞和動詞,這一步可以通過分詞系統(tǒng)的詞性標(biāo)注來實現(xiàn)。最后,采用具有簡單與高效特性的文檔頻率法來選擇特征詞,去除文檔頻率高于90%和低于20%的特征詞。
布爾模型、概率模型和向量空間模型是目前最常用的文本表示方法,本文選用向量空間模型表示文本。向量空間模型(Vector Space Model,VSM)由Gerard Salton等人在20世紀(jì)60年代提出,并成功應(yīng)用于SMART系統(tǒng)中[12],具體形式如下:
每個文本可以表示成 D={T1,T2,T3,…,Tm},T為特征集,m是特征詞的總個數(shù),根據(jù)各個項Tk在文本中的重要性給其賦予一定的權(quán)重Wk,這時文本D={T1W1,T2W2,T3W3,…,TmWm},文本 D 也可以簡記為 D={W1,W2,W3,…,Wm},如果把 T1,T2,T3,…,Tm看作為一個 m 維的坐標(biāo)系,則{W1,W2,W3,…,Wm}可以被看作是m維空間中的一個向量,即每個文本對應(yīng)一個m維的空間向量。
本文采用詞頻逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)法確定權(quán)重 Wk,計算公式如下:
其中,TFij指特征詞Tj的詞頻,即該特征詞在文本Di中出現(xiàn)的次數(shù),DFj指特征詞Tj的文檔頻率,即文本集中含有該特征詞的文本數(shù)目,N指文本集中文本的數(shù)目。公式(1)表明,文本集中包含某個特征詞的文本越多,則該特征詞區(qū)分文本類別的能力越低,其權(quán)值越小;同時,某個文本中某個特征詞出現(xiàn)得越多,說明該特征詞區(qū)分文本類別的能力越大。文本向量空間模型如圖2所示。
圖2 文本向量空間模型
通過輿情信息采集子系統(tǒng)和輿情信息預(yù)處理子系統(tǒng)的運行,從指定網(wǎng)站抓取的非結(jié)構(gòu)化Web文本轉(zhuǎn)化為計算機能夠處理的結(jié)構(gòu)化向量,下面將對中文文本進行聚類分析。傳統(tǒng)的K-means算法對初值敏感且要求用戶事先確定要生成的簇的數(shù)目K,還對于“噪聲”和孤立點數(shù)據(jù)敏感,少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大影響,每一次迭代都要重新計算簇中對象的均值,這就會增加算法的時間復(fù)雜度和空間復(fù)雜度。本文對傳統(tǒng)的K-means算法進行了改進,目的是減少算法對孤立點的敏感性和降低算法的時間和空間復(fù)雜度。改進的K-means算法流程如下:
輸入:簇的數(shù)目K;包含n個對象的數(shù)據(jù)集;
輸出:K個簇的集合。
(1)計算n個對象的距離矩陣,將其平均距離記為R。
(2)從n個數(shù)據(jù)對象中任意選擇K個對象作為初始簇中心。
(3)將剩余的每個對象根據(jù)其與各個簇中心的距離,將它賦給最近的簇。
(4)計算接受了新對象的簇的中心(均值)Oi(i=1,2,3,…,k)。
(5)分別計算每個對象與其簇中心的距離。
(6)重復(fù)迭代,即將與簇中心的距離小于t×R(t=1,2,3,…,n初始半徑R以t倍的速度擴大)的對象賦給最近的簇。
(7)如果各對象都被最近的簇吸收了,或者2×t×R與OiOj(OiOj表示2個不同中心的距離)相等時算法停止,即可得到最終的K個簇的集合,否則轉(zhuǎn)到第(5)步。
本算法中的距離采用歐氏距離,如式(2)所示:
為了便于理解改進的K-means算法,繪制了該算法的二維示意圖(見圖3)。取 K 等于3,O1、O2、O3為簇中心,所有對象之間的平均距離為初始半徑R,以t×R的速度擴張,直到與另一個圓相切,此時位于同一個圓內(nèi)的對象為一個簇。
圖3 算法二維示意圖
實驗是在 PC機 Windows XP系統(tǒng),2.94 GHz CPU,2 GB內(nèi)存環(huán)境下測試。采用KWebWatcher爬蟲軟件和SCWS中文分詞系統(tǒng),算法采用Matlab語言編寫。中國互聯(lián)網(wǎng)絡(luò)信息中心第30次調(diào)查數(shù)據(jù)顯示,截至2012年6月底,網(wǎng)絡(luò)新聞的用戶規(guī)模達到3.92億,網(wǎng)民對網(wǎng)絡(luò)新聞的使用占 73.0%[13],因此本文采用網(wǎng)絡(luò)新聞作為系統(tǒng)實驗的對象,共采集了網(wǎng)易新聞網(wǎng)站從2013年11月1日到2013年11月30日期間的150篇新聞文本作為實驗語料庫。
聚類系統(tǒng)的準(zhǔn)確性和有效性一般用正確率(Precision,P)與召回率(Recall,R)來測量,正確率是聚類出相關(guān)文檔數(shù)與聚類出的文檔總數(shù)的比率,衡量的是聚類系統(tǒng)的查準(zhǔn)率;召回率是指聚類出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是聚類系統(tǒng)的查全率。正確率和召回率定義如下:
為避免正確率和召回率之間相互沖突,設(shè)定新的測試值F1,F(xiàn)1的值越大則系統(tǒng)的聚類效果越好。
具體實驗步驟如下:
(1)輿情信息采集,下載網(wǎng)易新聞網(wǎng)站150篇新聞文本,提取網(wǎng)頁的文本內(nèi)容,按新聞標(biāo)題、新聞作者、新聞來源、發(fā)表時間、采集時間5個部分的格式存儲文檔,以采集時間作為文檔名。
(2)輿情信息預(yù)處理,將所有采集的文本,運用SCWS中文分詞系統(tǒng)進行分詞,去除停用詞、副詞、連詞、介詞和嘆詞,按照文檔頻率對特征詞進行排序,選擇符合閾值的特征詞,利用TF-IDF公式確定每個特征詞的權(quán)值,最后建立文本的向量空間模型。
(3)將所有已經(jīng)向量空間化的文本,利用改進的K-means算法和傳統(tǒng)的K-means算法進行聚類,以F1值來衡量算法的性能。
將語料庫中的150篇新聞文本,采用人工的方式進行統(tǒng)計和分類,比較改進后的K-means算法和傳統(tǒng)的K-means算法的性能,2種算法的性能比較結(jié)果如表1所示。從表1中可以發(fā)現(xiàn),在正確率、召回率和F1值方面,改進的K-means算法均優(yōu)于傳統(tǒng)的K-means算法,這說明改進的算法在一定程度上提高了熱點話題發(fā)現(xiàn)的準(zhǔn)確性和效率。
表1 兩種算法性能比較結(jié)果
本文開發(fā)了一套由輿情信息采集、中文分詞、特征選擇、向量空間模型及改進的K-means算法等技術(shù)模塊組成的網(wǎng)絡(luò)輿情熱點事件發(fā)現(xiàn)系統(tǒng),并以實際案例證明了系統(tǒng)的實用性。在系統(tǒng)實現(xiàn)的過程中對傳統(tǒng)的K-means算法進行了改進,降低了孤立點對算法性能的不利影響,同時降低了算法的時間和空間復(fù)雜度,為該算法運用于大規(guī)模數(shù)據(jù)聚類提供了基礎(chǔ)。但是本系統(tǒng)也存在需要繼續(xù)完善的地方,例如本系統(tǒng)不能實現(xiàn)網(wǎng)絡(luò)熱點新聞的動態(tài)發(fā)現(xiàn),不能夠?qū)σ呀?jīng)發(fā)現(xiàn)的熱點新聞進行追蹤,沒有找到一種較好的方法確定K-means算法中的K值等,今后需要在現(xiàn)有的研究成果的基礎(chǔ)上對系統(tǒng)的不足之處作深入研究。
:
[1]Zheng Fen,Xu Yabin,Li Yanping.Research on Internet hot topic detection based on MapReduce architecture[C]//2012 4th International Conference on Intelligent Human-Machine Systems and Cybernetics.2013:81-84.
[2]劉勘,朱懷萍,胡航.網(wǎng)絡(luò)偽輿情的特征研究[J].情報雜志,2011,30(11):57-61.
[3]劉毅.網(wǎng)絡(luò)輿情研究概論[M].天津:天津人民出版社,2007:51-53.
[4]曾潤喜.網(wǎng)絡(luò)輿情信息資源共享研究[J].情報雜志,2009,28(8):187-191.
[5]柳虹.網(wǎng)絡(luò)熱點發(fā)現(xiàn)研究[J].科技通報,2011,27(3):421-425.
[6]Allan J.Topic Detection and Tracking:Event-based Information Organization[M].Kluwer Academic Publishers,2002:1-16.
[7]岳香芬.網(wǎng)絡(luò)輿情文獻聚類分析[J].科技創(chuàng)業(yè)月刊,2012(6):149-151.
[8]鄭魁,疏學(xué)明,袁宏永.網(wǎng)絡(luò)輿情熱點信息自動發(fā)現(xiàn)方法[J].計算機工程,2010,36(3):4-6.
[9]王偉,許鑫.基于聚類的網(wǎng)絡(luò)輿情熱點問題發(fā)現(xiàn)及分析[J].情報分析與研究,2009,36(3):74-79.
[10]袁方,周志勇,宋鑫.初始聚類中心優(yōu)化的k-means算法[J].計算機工程,2007,33(3):65-66.
[11]Xunsearch.SCWS中文簡介[EB/OL].http://www.xunsearch.com/scws/,2013-01-15.
[12]Gerald Salton,Wong A,Yang C S.A vector space model for automatic indexing[J].Comn.ACM,1975,18(11):613-620.
[13]中國互聯(lián)網(wǎng)絡(luò)信息中心.第三十次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].http://www.cnnic.net.cn/,2012-06-01.