□李麗蓉
(山西警察學院,山西 太原 030401)
隨著我國網(wǎng)絡媒體的快速發(fā)展和網(wǎng)民數(shù)量的高速增長,論壇、微博、微信群、QQ群等社交平臺越來越成為輿論傳播的主場,它的全球性、快捷性、開放性和互動性給網(wǎng)絡輿情的傳播帶來了便捷,同時它的隱蔽性和虛擬性又使得輿情傳播走向放大化和無序化。公安機關應強化輿情監(jiān)測、分析和研判能力,準確把握輿情發(fā)展規(guī)律并對其進行有效管控。在大數(shù)據(jù)牽引公安工作跨越發(fā)展的思想指導下,使用網(wǎng)絡輿情分析系統(tǒng),通過自然語言處理、數(shù)據(jù)分析與挖掘、機器學習等技術對海量輿情數(shù)據(jù)進行多種分析,從中發(fā)現(xiàn)重點、熱點和事件的各種特征、知識及發(fā)展趨勢,對互聯(lián)網(wǎng)內容進行治理,有利于維護網(wǎng)絡信息交往秩序,促進互聯(lián)網(wǎng)健康發(fā)展,從而營造風清氣正的網(wǎng)絡空間,保障網(wǎng)絡社會的安全。
網(wǎng)絡輿情是指“個人或某些社會群體以網(wǎng)絡為平臺,通過新聞、評論、發(fā)帖、回復等為載體,對與自身相關或感興趣的事情發(fā)表評論、意愿、意見而表現(xiàn)出來的輿情?!盵1]
1.警情產(chǎn)生輿情類
指線下突發(fā)、重大涉警事件發(fā)生后迅速被曝光于網(wǎng)絡而產(chǎn)生輿情。
2.輿情引發(fā)警情類
指線上網(wǎng)民違法、維權活動,線上內部泄密情況或檢舉、舉報行為引發(fā)涉網(wǎng)絡安全警情。
3.輿情次生輿情類
指已處理的涉警輿情被網(wǎng)民再次借機炒作或輿情已平息,但處置過程中某些不適當行為又被網(wǎng)民惡意攻擊衍生出新一輪輿情。
網(wǎng)絡輿情分析系統(tǒng)實時監(jiān)控網(wǎng)頁、論壇、博客、微博、微信、視頻等互聯(lián)網(wǎng)信息,對采集的信息進行分類整理,利用智能化的輿情分析技術對網(wǎng)絡輿情進行監(jiān)測和預警,并形成簡報、報告、圖表等分析結果。輿情分析系統(tǒng)主要包括輿情信息采集、數(shù)據(jù)預處理、輿情分析研判和輿情報告等四個模塊。
輿情信息采集是輿情分析系統(tǒng)的基礎,通常利用爬蟲技術從互聯(lián)網(wǎng)上采集信息。網(wǎng)絡爬蟲的工作原理是選擇待抓取網(wǎng)頁,以這些網(wǎng)頁的鏈接地址作為種子URL,按順序放入待抓取URL隊列,系統(tǒng)通過DNS解析依次將URL轉換為網(wǎng)站服務器對應的IP地址。然后將網(wǎng)頁下載到本地,按順序進行存儲和標記,避免重復抓取。之后,再繼續(xù)執(zhí)行新一輪的抓取,循環(huán)往復,直到待抓取URL隊列為空。當前主要的爬蟲技術有通用型爬蟲、主題爬蟲和分布式爬蟲。由于互聯(lián)網(wǎng)中的海量信息及數(shù)據(jù)結構復雜多樣,相關部門大多采用分布式、并行計算的爬蟲技術,可以高效分割信息采集任務,實時獲取網(wǎng)絡輿情信息。
數(shù)據(jù)預處理是對爬取的網(wǎng)頁信息進行清洗,抽取有價值的輿情信息文本特征集,如事件的主體、發(fā)生時間、事件地點、事件核心詞等基本信息,并存儲抽取信息。網(wǎng)頁信息包括大量的圖片、音頻、視頻、文檔等非結構化或半結構化數(shù)據(jù),不利于檢索、統(tǒng)計和存儲等操作,因此,需要通過結構化處理,轉換成規(guī)范的數(shù)據(jù)文件存儲,便于后面的輿情分析處理。相關部門主要采用網(wǎng)頁數(shù)據(jù)抽取、網(wǎng)頁相似性識別和非結構化數(shù)據(jù)存儲等技術。
輿情分析研判是網(wǎng)絡輿情分析系統(tǒng)的核心部分,包括熱點和敏感話題識別、主題跟蹤、話題傾向性分析等功能。通過對預處理后的初始輿情文本數(shù)據(jù)進行分析和挖掘后,運用文本聚類技術形成輿情話題中心,運用分類技術完成話題的跟蹤,運用話題檢測與跟蹤技術分析輿情話題的相關評價、時間等,產(chǎn)生出熱點話題,并對話題進行敏感性分析。
輿情報告用可視化的方式呈現(xiàn)輿情信息,是用直觀可見的方式展示原始數(shù)據(jù)間的復雜關系、潛在信息以及發(fā)展趨勢,包括輿情快報、專題瀏覽、熱點推送、信息匯總統(tǒng)計和輿情預警等。
文本聚類是按照某種相近程度的度量對沒有標簽的數(shù)據(jù)集分成不同的簇,將具有高相似度的數(shù)據(jù)聚集到相同的簇中,不同簇中的數(shù)據(jù)差異性盡可能大。它是一種無監(jiān)督的機器學習算法,不需要使用訓練樣本學習,可以將數(shù)據(jù)集進行自動分類,在分類后發(fā)現(xiàn)分類標準,常常作為其它算法的預處理算法。網(wǎng)絡輿情分析的主要任務是發(fā)現(xiàn)輿情話題,通過聚類技術可以將經(jīng)過預處理后的輿情文本聚成多個簇,即話題。聚類算法主要包括劃分聚類算法、層次聚類算法、密度聚類算法、網(wǎng)格聚類算法和模型聚類算法等。
1.劃分聚類算法
它的主要思想是:給定一個有N條記錄的數(shù)據(jù)集,按照一定的規(guī)則劃分成K個簇(K 2.層次聚類算法 它的主要思想是:對給定的數(shù)據(jù)集按照層次逐級分解,設定一定的簇規(guī)模和閾值,當滿足這種閾值和規(guī)模時聚類完成,若不滿足則繼續(xù)按層次形成一種樹結構,最終達到設定的滿足條件。根據(jù)層次分解的方向不同,把自頂而下的算法稱為分裂方法,自底而上的算法稱為凝聚方法。典型的層次聚類算法有BIRCH算法、CURE算法、ARHP算法和PDDP算法等。 3.基于密度的聚類算法 它的主要思想是:將簇看成是有一定數(shù)據(jù)密度的區(qū)域,當相鄰區(qū)域的密度超過某個閾值就繼續(xù)聚類,直到相對高密度區(qū)域被相對低密度區(qū)域分割開形成簇,它可以過濾掉與已形成的簇沒有相似性的噪聲數(shù)據(jù)。典型的密度聚類算法有DBSCAN算法、OPTICS算法等。 4.基于網(wǎng)格的聚類算法 它的主要思想是:首先采用網(wǎng)格結構把數(shù)據(jù)空間劃分成有限數(shù)目的單元集,所有的聚類操作都在單個的單元網(wǎng)格中進行,然后計算該單元的密度,去除掉密度低于閾值的單元,最后將相連的高密度單元生成簇。典型的網(wǎng)格聚類算法有STING算法、OPTIGRID算法等。 5.基于模型的聚類算法 它的主要思想是:假定數(shù)據(jù)集符合一系列的概率分布,用概率分布模型聚類數(shù)據(jù)。首先給每個簇設定一個模型,然后尋找能最好滿足該模型的數(shù)據(jù)。這個模型可能是數(shù)據(jù)點的概率分布模型或是其它,包括統(tǒng)計學方法和神經(jīng)網(wǎng)絡方法。典型的模型聚類算法有COBWEB算法、CLASSIT算法、SOM算法等。 文本分類是一種有監(jiān)督的機器學習算法,通過對帶標簽的訓練樣本進行學習,建立一個最優(yōu)模型(函數(shù)集合),再利用這個模型對未知數(shù)據(jù)集進行分類。在輿情分析中可以根據(jù)已經(jīng)發(fā)現(xiàn)的話題簇對后續(xù)獲得的輿情文本按照相似度匹配和歸類,從而實現(xiàn)跟蹤話題的目標。分類算法主要包括K鄰近算法、決策樹算法、神經(jīng)網(wǎng)絡算法和支持向量機算法等。 1.K鄰近算法 它的主要思想是:如果被分析文本與在特征空間中的K(通常K≤20)個最相似樣本中的多數(shù)屬于同一類別,則被分析文本屬于該類別,其中所選擇的樣本都已經(jīng)正確分類。首先通過計算測試數(shù)據(jù)與各訓練樣本數(shù)據(jù)之間的距離,按照距離遞增排序,然后選取距離最小的K個點,計算K個點所在類別的出現(xiàn)頻率,按照最高出現(xiàn)頻率對測試數(shù)據(jù)分類。 2.決策樹算法 它的主要思想是:通過對樣本數(shù)據(jù)的學習,選定判斷節(jié)點,構造出合適的決策樹模型,每個非葉子節(jié)點是一個判斷條件,每個葉子節(jié)點是結論。利用決策樹模型對測試數(shù)據(jù)進行分析,從根節(jié)點開始依次遍歷各判斷節(jié)點,最后到達葉子節(jié)點,經(jīng)過多次判斷得出分類結果。決策樹的構建算法主要有ID3、C4.5和CART等。 3.貝葉斯算法 它的主要思想是:以貝葉斯定理為基礎,利用概率統(tǒng)計知識進行分類,依據(jù)某些特征條件獨立假設,計算出相似概率,確定被分析文本是否屬于已知的文本類中。首先確定并劃分每個特征屬性,再由人工對一部分待分類數(shù)據(jù)進行分類,形成訓練樣本集。然后進行分類訓練,計算每個類在訓練樣本中出現(xiàn)的頻率以及每個特征屬性對每個類的條件概率估計,得到分類器。最后使用分類器對測試數(shù)據(jù)進行分類。 4.神經(jīng)網(wǎng)絡算法 它的主要思想是:是一種基于數(shù)學統(tǒng)計學類型,模擬生物神經(jīng)網(wǎng)絡,進行分布式并行信息處理的算法,由大量結構和功能簡單的神經(jīng)元按照一定的規(guī)則和模式,相互連接而成的一種復雜而功能強大的網(wǎng)絡系統(tǒng),是一種非線性自適應動態(tài)系統(tǒng)。首先設計神經(jīng)網(wǎng)絡,確定網(wǎng)絡結構、作用函數(shù)和學習算法,對神經(jīng)網(wǎng)絡初始化,然后利用訓練數(shù)據(jù)對網(wǎng)絡進行訓練,最后使用訓練后的網(wǎng)絡處理輸入信息。 5.支持向量機算法 它的主要思想是:是二類分類模型,以統(tǒng)計學習理論的VC理論和結構風險最小原理為基礎,給定訓練樣本,建立一個最優(yōu)超平面,盡可能把兩類數(shù)據(jù)正確分開,并且使兩類數(shù)據(jù)距超平面之間的距離最大。 話題檢測與跟蹤(Topic Detect and Tracking,TDT)是輿情分析的一個重要功能,它可以準確地發(fā)現(xiàn)輿情熱點話題,并跟蹤話題的動態(tài)演化過程,從而分析整個輿情事件的起因、發(fā)展和消亡的全過程。圖1是話題檢測與跟蹤技術研究體系結構。當前TDT研究方法主要采用基于聚類算法的改進算法和挖掘新的話題特征來提高檢測和跟蹤效果。話題檢測與跟蹤技術與聚類算法很相似但不等同,一個熱點話題可以包括多個子話題,屬于多層次聚類。首先對海量網(wǎng)絡數(shù)據(jù)進行聚類分析,發(fā)現(xiàn)熱點話題,然后在后續(xù)新增加的數(shù)據(jù)中采用增量聚類算法,對已有的話題追蹤分析。話題特征包括話題的時間聚集性、特征詞、生命演變特征以及命名實體等,可以利用話題的各種特征來尋找和控制話題閾值,從而改進話題檢測效果。 網(wǎng)絡輿情監(jiān)測指標體系將各種相互關聯(lián)的統(tǒng)計指標組成一個可測的有機整體,是輿情分析和研判的重要依據(jù),“科學地選擇指標維度可以對輿情熱度做出綜合有效的評判,能夠更深刻地認識輿情熱度漲落規(guī)律,明晰深層影響原因,也為輿情發(fā)展階段劃分、控制提供依據(jù)。[2]”根據(jù)網(wǎng)絡輿情發(fā)展規(guī)律,網(wǎng)絡輿情監(jiān)測指標體系分為傳播擴散、發(fā)布主體、內容要素和輿情受眾等四個維度的指標,基本結構如表1所示。體系中的各項指標,按照其對整個輿情事件的影響程度大小分別賦予不同權重,進行加權分析。 表1 網(wǎng)絡輿情監(jiān)測指標體系 持續(xù)時間指對輿情事件關注的時間跨度,即從第一條信息發(fā)出到事件結束整個過程所用時間。地理范圍指輿情傳播影響在現(xiàn)實地理位置的涉及范圍,可以通過IP、ID來獲取地址,對重點區(qū)域進行管控。通過統(tǒng)計微博、論壇、電子郵件、交友網(wǎng)站、即時通訊軟件等傳播方式在輿情信息總量中的百分比來確定重點監(jiān)測的媒介。 發(fā)布主體是發(fā)布輿情和推動輿情發(fā)展的人員,需要分析他們在輿情事件中的身份、在網(wǎng)絡中的影響力、活躍度(一定時間內發(fā)帖量和回復量的總和)和對事件所持有的態(tài)度。 主題內容是指輿情事件屬于哪類主題,分為社會熱點、政治新聞、個人隱私、宗教政治、涉穩(wěn)維權、涉警等類別。通過分析搜索量、瀏覽量、轉發(fā)量和評論量來判斷輿情話題熱度,檢索給定敏感詞來判斷輿情事件的敏感度。視聽化程度指發(fā)布主體在網(wǎng)絡中傳播的圖像、音頻和視頻等聲像資料在其全部信息量中的比例,聲像資料能最真實直觀地反映事件本身,容易傳播,造成更大影響力,可以通過監(jiān)測它的標題關鍵詞和文件格式來加以管控。內容詳略度與事件的真實性密切相關,可以用文本長度、圖片連貫性和聲像時長來衡量。 輿情受眾是輿情事件的接受者,通過分析他們對事件所持的態(tài)度以及訪問輿情話題的人數(shù)與訪問量來判斷輿情的發(fā)展熱度和趨勢。 本系統(tǒng)基于Hadoop開發(fā),包括輿情信息采集、數(shù)據(jù)預處理、輿情分析研判和輿情報告四個模塊。輿情信息采集模塊采用在Hadoop中集成Nutch進行分布式網(wǎng)絡爬蟲,從新聞、微博、論壇、電子郵件、交友網(wǎng)站、即時通訊等輿情載體上爬取輿情信息。數(shù)據(jù)預處理模塊采用正向最大匹配算法進行分詞處理,TFIDF法計算特征詞的權值,獲取文本的特征向量。采用MongoDB存儲Nutch爬取的數(shù)據(jù),其它模塊采用MySQL來存儲和管理數(shù)據(jù)。輿情分析研判模塊采用BIRCH聚類算法對文本信息挖掘,發(fā)現(xiàn)網(wǎng)絡輿情話題,再通過分析話題的搜索量、瀏覽量、轉發(fā)量和評論量等數(shù)據(jù),發(fā)現(xiàn)熱點話題,通過與敏感詞庫匹配,識別敏感話題。采用“基于超球結構的漸進直推式支持向量機”[3]算法對新采集的輿情信息進行文本分類處理,并保存到數(shù)據(jù)庫中,根據(jù)分類結果實現(xiàn)話題跟蹤。輿情報告模塊中對熱點話題及其詳情用圖型和圖表展示,輿情話題跟蹤用發(fā)展趨勢圖展示,敏感話題用可視化的輿情預警展示,并提供其詳細信息。系統(tǒng)完成部署后,經(jīng)測試具有較好的可用性和準確性。(二)輿情文本分類技術
(三)話題檢測與跟蹤技術
四、構建網(wǎng)絡輿情監(jiān)測指標體系
(一)傳播擴散
(二)發(fā)布主體
(三)內容要素
(四)輿情受眾
五、網(wǎng)絡輿情分析系統(tǒng)的設計與實現(xiàn)