解仲秋
(西安航空職業(yè)技術學院,陜西西安 710089)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡媒體作為一種新型的信息傳播形式,正成為表達公眾情感、暢通社會交流、凝聚公眾智慧的重要渠道?;ヂ?lián)網(wǎng)作為一種新型的媒體,由于具有自由、開放、互動等特點,比報紙、廣播、電視及其他媒體更容易吸引公眾參與輿論討論。
對于熱門話題與緊急情況,眾多的互聯(lián)網(wǎng)用戶通過網(wǎng)絡渠道表達其觀點。新聞評論、BBS 與博客已成為互聯(lián)網(wǎng)用戶傳播和表達公眾信息的主要方式。當前,中國正處于社會轉型的關鍵時期,網(wǎng)絡輿情的影響力越來越大。若無法正確識別或引導出現(xiàn)偏見或負面輿論,將會構成極大的公共安全威脅。大學生是我國網(wǎng)民的主體,大學生對社會問題的參與度高,極易受到新思想的影響。因此,有效收集、監(jiān)測與分析網(wǎng)絡中大學生輿情成為亟待解決的重要問題[1]。
數(shù)據(jù)挖掘與機器學習作為動態(tài)處理大量數(shù)據(jù)的有效工具[2]。文中借助這兩項工具研究了網(wǎng)絡輿情熱點檢測,對各種民意的相互作用結構進行自然分組,并進行全面、及時的描述,實現(xiàn)了動態(tài)監(jiān)測熱點意見。
在網(wǎng)絡環(huán)境下,輿情信息來源于評論、BBS、博客與各式聊天軟件[3],不同的信息來源具有不同的特征。系統(tǒng)框架如圖1 所示。首先,使用Web 搜尋器獲取有關網(wǎng)絡數(shù)據(jù)的最新信息,在刪除重復的url后,將數(shù)據(jù)以Html 源文件的形式存儲到硬盤中[4]。隨后預處理源文件,將Html 文件轉換為文本,提取信息主體與文件的網(wǎng)頁地址,并發(fā)布時間、作者等信息[5]。在此基礎上通過字典對提取的數(shù)據(jù)進行分析,得到文本信息的特征集合,提取關鍵詞并統(tǒng)計關鍵詞的出現(xiàn)頻率[6]。使用專業(yè)詞典與關鍵詞進行比較,并提取相關事件,形成輿情信息數(shù)據(jù)庫。最終,根據(jù)所需的類型、發(fā)布時間、源出處等實現(xiàn)對網(wǎng)絡輿情的實時監(jiān)控。
圖1 輿情研判系統(tǒng)框架
該系統(tǒng)涉及的關鍵技術包括Web 爬蟲技術[7]、主題詞提取技術[8]、自動文本分類技術[9]。
文中設計的Web 爬蟲策略基于無主題搜索的廣度優(yōu)先[10]與深度優(yōu)先策略[11]。基于深度優(yōu)先策略,Web 爬蟲程序搜索含有起始頁面的所有頁面。然后,選擇一個鏈接頁面,繼續(xù)爬完此頁面上的所有鏈接頁面。基于深度優(yōu)先策略,Web 爬蟲程序從起始頁面開始,遍歷到所有鏈接的子鏈接,一直處理到網(wǎng)頁目錄盡頭。隨后,Web 爬蟲程序繼續(xù)跟隨下一個起始頁面。廣度優(yōu)先策略可以保證網(wǎng)絡爬蟲并行處理,提高數(shù)據(jù)搜尋效率;深度優(yōu)先策略確保數(shù)據(jù)挖掘成本。文中根據(jù)需求混合使用兩種網(wǎng)絡爬蟲的搜索策略,以提高鏈接的準確性,減少計算時空復雜性。
主題詞提取技術的關鍵要點包括通用分詞與POS 標記、識別與多詞短語分組的新字符串、同義詞與近義詞的合并、基于結構和統(tǒng)計信息的關鍵詞提取[12]。
文中使用中國科學院ICTCLIS 系統(tǒng)構建通用分詞與POS 標記技術,并使用統(tǒng)計算法對關鍵詞進行詞頻分析[13]??紤]到互聯(lián)網(wǎng)語言中存在較多新詞與未知詞,文中通過計算相鄰詞組串的互信息,選擇超過某個閾值的單詞作為候選單詞[14]。
在上文建立的識別框架下,系統(tǒng)需提取輿情數(shù)據(jù)的特征。選擇過程基于文檔頻率,通過互信息或信息增益的方法以減少單詞的數(shù)量,從而獲得有用的信息。在網(wǎng)絡文本意見的分類過程中,將區(qū)分某種文本意見的重要單詞提取出來(定義為功能單詞),在檢測網(wǎng)絡意見熱點時使用,這些詞稱為功能單詞[16]。
功能單詞有兩種功能:全字功能與詞干功能,全字功能從文中按原樣提取,詞干功能只提取詞組的詞干。考慮到輿情檢測與分析的完整性和準確性,文中使用全字功能。通過使用常用術語加權TFIDF,結合術語頻率(TF),乘以反向文檔頻率(IDF),用于衡量一個詞組的信息性。文中使用K-means 聚類與SVM 分類器對Web 文本進行分類。
K-means 是解決聚類問題時最樸素的無監(jiān)督學習算法之一。其算法流程如圖2 所示。
圖2 K-means算法流程
算法通過預先設置的一定數(shù)量的聚類(假設k個聚類)對給定數(shù)據(jù)集進行分類。定義k個質心,這些質心隨機存在于多維空間中。為保證聚類的準確性,將k個質心放置在盡可能遠的距離。在一次迭代的基礎上,重新計算k個新質心,將其作為上一步所產(chǎn)生簇的重心,然后依據(jù)相同數(shù)據(jù)集點與最近的新質心之間的距離重新進行運算。經(jīng)過上述迭代,直至k個質心不再移動位置為止。文中使用的目標函數(shù)如式(1)所示。
式中,J是在數(shù)據(jù)點與聚類中心之間的距離度量,表征了n個數(shù)據(jù)點到其各自聚類中心的距離度量。
運算周期內(nèi)獲得的互聯(lián)網(wǎng)輿論,通過特征選擇與降維,如式(2)所示。
其中,Di表示文本輿情,Ti表示特征,wj表示特征權重。式(2)用作K-means 聚類輸入的數(shù)據(jù)集,該數(shù)據(jù)集將被聚集成k組,每個聚類的中心主題是最接近集群理論中心的熱點。
由于網(wǎng)絡輿論熱點的數(shù)量尚不確定,因此是一個多分類問題。文中通過非線性函數(shù)將輸入空間轉化為高維空間。在高維空間中,構造線性判別函數(shù)以實現(xiàn)對原始文本空間的非線性判別,得到分類決策函數(shù)f(x)如式(3)所示。
其中,k(xi,x)為選擇徑向基函數(shù),作為內(nèi)積核函數(shù),其形式如式(4)所示。
該節(jié)還使用SVM 來實現(xiàn)熱點預測,為預測當前時間段的輿情熱點分布,將最近時間段獲得的歷史數(shù)據(jù)輸入到SVM 模型中。在此基礎上,使用K-means 方法與當前時間段的聚類結果監(jiān)督學習工具的SVM 輸出。訓練后的SVM 通過輸入從當前數(shù)據(jù)中獲得的數(shù)據(jù),來對下一個時間段進行預測。假設當前時間段是si,輸入si的表征向量,并將輸出設置為K-means 的聚類結果。在此基礎上訓練SVM,最終得到si時刻的預測值。
硬件體系結構如圖3 所示??傮w上分為服務器端與客戶端,通過TCP/IP 協(xié)議進行通信??蛻舳酥饕钶d遠程控制器應用程序,允許用戶使用自然語言規(guī)范與鼠標等控件調用命令。此外,用戶可以選擇在客戶端使用麥克風與揚聲器,通過語音命令對系統(tǒng)進行調控。服務器端由Mentor 與Mitsubishi 服務器組成,Mentor 服務器使用Pentium III 450/ 128 Mb PC 直接控制,Mitsubishi 服務器使用Pentium II 400/128 Mb Windows NT PC。每個服務器可以共享一些模塊,包含對象的數(shù)據(jù)庫保存在單個計算機中,并由屬于該項目的任何服務器共享。
圖3 硬件系統(tǒng)結構
為了評估該方法對文本數(shù)據(jù)的分類結果,下面分別使用宏平均精度、宏平均召回率與宏平均F1 量度3個參數(shù)進行評價,其形式分別如式(5)~(7)所示。
Macro_P是系統(tǒng)所有預測的正確分類占實際正確數(shù)據(jù)的比例,可由Macro_P=TP/(TP+FP)得出。Macro_R是預測的正確數(shù)據(jù)占所有實際正確數(shù)據(jù)的比例,可由Macro_R=TP/(TP+FN)得出。Macro_F1是精度與召回率的諧波平均值,可由式(7)得出。
為驗證K-means 的聚類效果,文中選取來自互聯(lián)網(wǎng)論壇網(wǎng)站的數(shù)據(jù),內(nèi)容包括財經(jīng)、人文、生活、娛樂等。
K-means 算法的一個不足是需要預設k。因此,文中的K-means 聚類分析針對一組k個值,計算出相同的向量空間模型所需的介于5~10 之間的k值。表1 給出了不同k值下的VSM(向量空間模型)值。分析表1 可知,該方法足以獲得良好的準確性。在輿情監(jiān)控的應用場景下,選取k=9 時以獲得最佳聚類效果。K-means 聚類效果如表2 所示。
表1 不同k值下算法效果實驗
表2 K-means聚類實驗
文中從表3 給出的6 個不同類別Web 文本中選擇1 000 個文檔,通過篩選,使用其中692 個文檔用于訓練神經(jīng)網(wǎng)絡,120 個文檔用于測試。
表3 分類測試的Web文本數(shù)據(jù)庫
由于中文文本中單詞之間未有明顯的空格,因此,首先需要對文檔加注標點符號。在刪去停用詞與輔助詞減少了文本無用特征后,采用TFIDF 構建識別構架輸入功能,得出表4 所示的特征維度。最終的分類實驗結果如表5 所示。對比可知,5 類文本信息下SVM 的Macro_F1 度量優(yōu)于K-means。
表4 文本特征維度
表5 兩種方法的F1量度實驗結果
文中設計了一個互聯(lián)網(wǎng)輿情研判檢測與分析模型。根據(jù)網(wǎng)絡輿情的文本屬性,引入VSM來表達文本輿論。根據(jù)實際應用場景,從一些新網(wǎng)站中選取文本語料庫。對收集的文本文檔進行K-means 聚類與SVM 分類,通過實驗結果證明了該方法的有效性。
此外,未來工作的研究方向如下:深入開展網(wǎng)絡輿情檢測研究,細化文中互聯(lián)網(wǎng)輿情研判方法的每個步驟,以加強對高校輿情的引導,預防輿情危機的出現(xiàn)。建設動態(tài)監(jiān)視技術,既能夠實時監(jiān)視網(wǎng)站,又可以省去時間、經(jīng)濟成本高昂的數(shù)據(jù)清理工作。此外,網(wǎng)絡輿情檢測不能止步于詞頻分析,如何確定聚類算法的最優(yōu)k值、如何提高海量數(shù)據(jù)的處理速度,也是未來工作的主要研究內(nèi)容。