【摘 要】隨著互聯網的發(fā)展,網絡逐漸成為社會輿情表達和傳播的主要載體。由于網絡信息具有傳播速度快、數據量大、隱蔽性強等特點,只有借助計算機技術才能夠實現有效、全面、快速的網絡輿情分析系統(tǒng)。為了更好地了解和實現網絡輿情系統(tǒng)中話題發(fā)現和熱點檢測的功能,本文主要介紹文本聚類的一些算法、技術和研究現狀。
【關鍵詞】網絡輿情 文本聚類
1 引言
網絡輿情分析和預警系統(tǒng)通過對互聯網中的各類信息,包括各大論壇、百度貼吧、微博等進行24小時監(jiān)控,實時采集話題性強、時效性新的各類內容和消息。系統(tǒng)架構主要包括輿情信息采集、信息預處理、信息分析、輿情信息上報四個模塊。輿情分析模塊主要對處理后的網絡文本數據進行分析、挖掘,以實現熱點話題和敏感信息的識別和跟蹤。文本聚類作為一種無監(jiān)督的機器學習方法,由于不需要進行訓練,并且不需要預先對網絡文本手工標注類別,因此具有較高的靈活性和自動化處理能力,成為網絡輿情分析系統(tǒng)中組織文本信息、挖掘熱點話題的主要技術手段。
2 關鍵技術和算法
進行文本聚類之前,首要問題是對文本內容建立文本信息特征,即使用特定形式的特征向量(T1, V1, T2, V2, …, Tm, Vm)來表示文檔,其中Ti表示特征詞,由分詞后獲取,Vi表示第i個詞在文檔中的權重,m表示特征詞的個數。確定信息特征的常用技術是:先對文本信息進行詞性標注、語義標注等預處理,構建統(tǒng)計詞典,然后對文本進行分詞處理和特征詞權重的確定。計算權重的方法包括布爾權重、詞頻權重和TFI-DF權重三種。布爾權重是最簡單的表示方法,若第i個特征詞在本篇文檔中出現,則其權重為1,否則為0;詞頻權重將第i個特征詞在本篇文檔中的出現概率作為對應的權值;TFI-DF權值由兩部分組成,一部分是TF,表示一個詞在本篇文本中出現的次數,即詞頻。另一部分IDF表示所有文本中有多少篇包含了這個詞,即逆向文檔頻率,通常由公式IDFi=log((1+|D|)/|Di|)計算得到,其中|D|表示文本總數,|Di|表示包含第i個關鍵詞的文本數量。TFI-DF的權值就是由TF和IDF相乘得到,被證明是最有效的確定特征詞權重的方法。
由于在建立文本信息特征的過程中,許多關鍵詞構成了海量特征詞集合,因此導致了文檔特征向量維數的增加,在影響計算效率的同時,也為稀疏文本向量的區(qū)分和比較帶來困難。因此,在對文本進行聚類處理之前,應對文本信息特征向量進行縮減。通常的方法是對所有特征詞的權重排序,選取預定數目的最佳特征詞作為結果的特征子集。特征詞的個數以及權值評價標準需要根據具體問題來分析決定。第二種常用方法是由網絡信息的特點決定的,網絡信息一般帶有標題,并且在標題中總結概括了正文的主要內容,因此也可將標題內容表示為文本信息特征。此外,在對正文統(tǒng)計特征詞時,可以只針對具有實際意義的名詞和動詞,這既減少了特征詞數量,也保留了關鍵信息。將標題向量的相似度和正文向量的相似度進行加權求和就得到了兩篇文本的相似度。
完成以上步驟后,就將文檔表示成向量空間中的一個點,然后通過計算點之間的距離來對文本進行聚類。相似度是定義聚類算法的基礎,它主要用來比較衡量兩個對象的相似程度。在網絡輿情分析中,兩個文本特征對象的相似度量標準對大多數聚類算法都是必不可少的。計算相似度的方法有多種,在文本向量計算中一般使用余弦相似度公式,而在幾何中常用歐幾里得距離。余弦相似度不會放大數據對象重要部分的作用,而歐幾里得距離的度量方法則在一定程度上放大了較大元素誤差在距離測度中的作用。目前,文本聚類的方法大致可以分為兩種類型:層次聚類法和平面劃分法。
層次聚類法將所有文本的特征向量組織成一棵聚類的樹,有自底向上的凝聚型和自頂向下的分裂型兩種。凝聚型開始將所有文本向量作為一個單獨的對象,然后不斷相繼合并相似的對象和類簇,直到到達終止條件或者合并為一個類簇。分裂型的聚類方法過程與之相反,開始將所有文本向量置于同一個類簇中,然后通過不斷迭代將類簇分解為更小的類簇,直到到達終止條件或者每個向量在單獨的一個類簇中。常用的層次凝聚法包括Single-link和group-average方法。
平面劃分法中有兩個經典算法:k平均值算法和k中心點算法。K平均值算法首先把所有文本特征隨機地分配到k個非空的類中,然后根據類中所有的文本特征計算每個類的平均值,并用該平均值表示相應的類,根據每個對象到各個類中心的距離,將其重新分配到與它最接近的類中。重復執(zhí)行計算和分配步驟,直到不再有新的分配發(fā)生。K中心點算法隨機選擇k個文本特征對象作為初始的類中心點,然后對每一組非中心對象j和中心對象i,計算i被j替代的總代價,若代價<0,i被替換,然后根據所有非中心點到中心點的距離重新分配非中心點的所屬類。重復執(zhí)行替換和分配的過程直到不再有新的分配發(fā)生。
針對網絡輿情分析中用到的聚類算法,有很多研究者提出了改進和優(yōu)化方案。為了更好地發(fā)現熱點話題,提出了兩層聚類算法,其設計思路是先確定每日熱點簇,然后再利用增量聚類算法發(fā)現熱點事件。也有研究結合K-means聚類算法和基于密度的聚類算法的優(yōu)點,改進了K-means算法中隨機選取初始聚類中心的問題。此外,基于主題的聚類方法是檢測熱點新聞的一個研究思路,有研究提出對新聞主題或新聞事件等具有較強表達能力的文本域進行加權處理以突出該主題或事件,然后再對無序的網絡輿情信息進行聚類處理,達到熱點話題探測的目的。應用LDA、LSI等主題模型進行新聞聚類是當前發(fā)現新聞主題的重要研究方向。
3 總結
在互聯網輿情的監(jiān)控和預警系統(tǒng)中,經常用到文本聚類算法作為話題發(fā)現、熱點檢測、內容導航等應用的關鍵步驟,國內外學者對其開展了大量研究,提出了很多有用的技術和算法。本文簡單介紹了文本聚類中的關鍵技術、算法,和目前的研究現狀。
參考文獻:
[1]劉星星,何婷婷.熱點事件發(fā)現及事件內容特征自動抽取研究. 華中師范大學. 2009.
[2]王偉,徐鑫.基于聚類的網絡輿情熱點發(fā)現及分析.現代圖書情報技術,2009(3).
[3]張云,馮博琴.利用標簽的層次化搜索結果聚類方法.西安交通大學學報,2009,43(4):18-21.
[4]陳榮雷.文本聚類算法綜述, 計算機光盤軟件與應用,2011.
[5]李巖,婁云.文本聚類算法在輿情分析中的應用, 電子設計工程,2013,21(1).
課題:河北省社科聯民生調研課題,課題編號:201401336