摘要:網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)是個(gè)復(fù)雜的技術(shù)和管理過程,必須充分利用Web使用挖掘技術(shù)的優(yōu)勢,提升網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)的信息化、自動(dòng)化和智能化?;赪UM的Web輿情監(jiān)測引導(dǎo)系統(tǒng),具有良好的可擴(kuò)充性,可提高網(wǎng)絡(luò)輿情監(jiān)測與處理的及時(shí)性與準(zhǔn)確性,有效地推動(dòng)我國網(wǎng)絡(luò)輿情預(yù)警與引導(dǎo)工作。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;監(jiān)測引導(dǎo);Web使用挖掘
中圖分類號:G203 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1007—9599 (2012) 14—0000—02
一、時(shí)代背景
近年來,網(wǎng)絡(luò)、通訊等技術(shù)的發(fā)展之迅速,傳播信息速度之快,參與民眾之多,影響范圍之廣,已成為不爭的事實(shí)。網(wǎng)絡(luò)已成為大眾獲取信息、表達(dá)民意的重要渠道。在經(jīng)濟(jì)全球化、政治民主化、價(jià)值多元化特別是世界金融危機(jī)嚴(yán)重影響的大背景下,中國30年經(jīng)濟(jì)增長和社會(huì)轉(zhuǎn)型所積累的各種深層次矛盾日益凸顯,社會(huì)整體上已進(jìn)入高速發(fā)展的黃金期和突發(fā)事件高發(fā)期。我國Web輿情監(jiān)測引導(dǎo)系統(tǒng)的研究起步較晚,目前迫切需要提升與之相應(yīng)的理論和技術(shù)支持。輿情分析與監(jiān)測是信息深加工,以往“剪報(bào)”式低價(jià)值、粗加工的信息服務(wù),雖可按主題范圍搜集,但提供的結(jié)果僅局限于單一的信息內(nèi)容。傳統(tǒng)的人工分類收集方式,已無法應(yīng)對現(xiàn)實(shí)需求。
二、Web輿情監(jiān)測引導(dǎo)的技術(shù)支撐
(一)Web使用挖掘
在浩瀚的網(wǎng)絡(luò)中,政府如果僅依靠人工完成Web上海量信息的收集和處理是不現(xiàn)實(shí)的。普通的數(shù)據(jù)庫管理系統(tǒng)無法發(fā)現(xiàn)隱藏在數(shù)據(jù)中的規(guī)則和關(guān)系,并根據(jù)現(xiàn)有數(shù)據(jù)預(yù)測未來。Web挖掘的出現(xiàn),為自動(dòng)和智能地把互聯(lián)網(wǎng)上的海量數(shù)據(jù),轉(zhuǎn)化為有價(jià)值的知識(shí)提供了保證。Web使用挖掘(Web Usage mining,WUM)可以追蹤Web訪問日志(Web access log)等有關(guān)用戶訪問和交互的信息,通過提取、轉(zhuǎn)換、分析和其它模型化處理,提取用戶的行為特征,發(fā)現(xiàn)信息存在特點(diǎn)和變化規(guī)律,以及信息內(nèi)容的特定模式,利用歷史數(shù)據(jù)預(yù)測未來的趨勢。應(yīng)用于網(wǎng)絡(luò)輿情,可化被動(dòng)防、堵為主動(dòng)梳理、控制、監(jiān)測和引導(dǎo),為網(wǎng)絡(luò)輿情應(yīng)急處理提供極大地幫助。
(二)WUM過程
WUM分為數(shù)據(jù)收集、預(yù)處理、模式發(fā)現(xiàn)和模式分析四個(gè)挖掘階段,如圖1所示。
1.數(shù)據(jù)收集
網(wǎng)絡(luò)信息的收集是網(wǎng)絡(luò)輿情監(jiān)測的源頭,其廣度和深度決定了監(jiān)測效果。對于明確主題的輿情信息采集,可以借助搜索引擎方法。由于各個(gè)現(xiàn)存搜索引擎索引數(shù)據(jù)庫的構(gòu)造方法不同,其索引數(shù)據(jù)不盡完整,所以應(yīng)將多個(gè)單搜索引擎搜索結(jié)果進(jìn)行整合、調(diào)用、控制和優(yōu)化。在Web中往復(fù)搜索可憑借啟發(fā)模式、深度或?qū)挾葍?yōu)先地發(fā)現(xiàn)相關(guān)信息,將Web空間按IP地址或域名劃分為獨(dú)立子空間仔細(xì)搜羅;或按照信息的具體類型來劃分,如XML、HTML、FTP、Newsgroup、Word和各種音、視頻格式文件等。Web輿情信息檢索結(jié)果,可按相關(guān)輿情、人物、地區(qū)、機(jī)構(gòu)、內(nèi)容、正負(fù)面等劃分,以不同維度分類統(tǒng)計(jì)展示,以便短時(shí)間內(nèi)檢索到精確信息。
2.預(yù)處理
預(yù)處理是為了從多個(gè)異構(gòu)性的數(shù)據(jù)庫、文件系統(tǒng)中提取并集成輿情數(shù)據(jù),將形式不同的數(shù)據(jù)統(tǒng)一化,消除重復(fù)與冗余的數(shù)據(jù)。經(jīng)過清洗數(shù)據(jù),提取、分解、合成輿情信息,改進(jìn)輿情數(shù)據(jù)質(zhì)量,為輿情數(shù)據(jù)庫表提供所需的源數(shù)據(jù),提高后續(xù)挖掘精度和性能。例如,對采集到的Web輿情信息進(jìn)行轉(zhuǎn)換格式、清理和統(tǒng)計(jì)數(shù)據(jù)的初加工;對于新聞評議,剔除無關(guān)聯(lián)數(shù)據(jù),保存其發(fā)布的時(shí)間、來源、題目、內(nèi)容、點(diǎn)擊到達(dá)率、評議人、評議內(nèi)容和數(shù)量等;對于BBS論壇,保存帖子題目、作者、發(fā)貼與回應(yīng)的時(shí)間、內(nèi)容、數(shù)量等,最后匯成標(biāo)準(zhǔn)化數(shù)據(jù)。
3.模式發(fā)現(xiàn)
利用Web挖掘算法,可以進(jìn)行Web流量分析、典型的時(shí)間序列和用戶行為模式分析、事務(wù)分析,發(fā)現(xiàn)網(wǎng)絡(luò)信息傳播交流的規(guī)律,創(chuàng)建、更新輿情模式庫。若在模式挖掘中,一旦評估發(fā)現(xiàn)某一步驟與預(yù)期目標(biāo)不符,都需重新調(diào)整,反復(fù)執(zhí)行WUM步驟,各步驟間相互影響、不斷反復(fù),形成螺旋上升過程。
統(tǒng)計(jì)分析:利用統(tǒng)計(jì)、概率的原理對網(wǎng)絡(luò)輿情數(shù)據(jù)各個(gè)關(guān)系中的屬性進(jìn)行統(tǒng)計(jì)分析。對用戶瀏覽路徑的長度和時(shí)間、頁視圖,進(jìn)行訪問量的時(shí)間分布、中間值、均值、頻繁訪問頁和頻率等的描述性統(tǒng)計(jì)分析,提高網(wǎng)絡(luò)輿情挖掘的效率和質(zhì)量。
路徑分析:挖掘網(wǎng)站中最常被瀏覽的路徑信息。對于信息搜集過程中的靜態(tài)數(shù)據(jù)可采用該技術(shù),用圖的方法來分析Web頁面間的路徑關(guān)系。G=(V,E),其中:V是頁的集合,E是頁間的超鏈接集合,頁面定義為圖中的頂點(diǎn),而頁面間的超鏈接定義為圖中的有向邊。頂點(diǎn)v的入邊表示對v的引用,出邊表示v引用了其它頁面,這樣形成網(wǎng)站的結(jié)構(gòu)圖,從中可確定最頻繁訪問路徑,此路徑指向的信息極有可能就是互聯(lián)網(wǎng)上的“熱點(diǎn)”和“焦點(diǎn)”。
關(guān)聯(lián)規(guī)則:發(fā)現(xiàn)Web用戶訪問站點(diǎn)的各種信息之間的聯(lián)系,抽取數(shù)據(jù)項(xiàng)集間可能存在的潛在規(guī)則。利用該算法可從紛雜的輿情數(shù)據(jù)中,找出促使其出現(xiàn)、變化的內(nèi)在因素,將影響因子間的彼此關(guān)聯(lián)挖掘出來。如通過Cookie logs,可發(fā)現(xiàn)用戶在一個(gè)訪問期限中,從服務(wù)器上訪問的頁面間的聯(lián)系,即便不存在直接參引關(guān)系。
序列模式:可把網(wǎng)絡(luò)輿情交易集之間,有著時(shí)間序次關(guān)系的模式挖掘出來,由此明確用戶將來的訪問動(dòng)向。在互聯(lián)網(wǎng)輿情信息進(jìn)行匯集和解析的基點(diǎn)上,可早期預(yù)報(bào)社會(huì)事件發(fā)展中,靠近負(fù)向質(zhì)變的臨界值狀況,提前發(fā)現(xiàn)不良事件的苗頭,盡早梳通,快速應(yīng)對,達(dá)到預(yù)防和控制的作用。
分類分析:給出一個(gè)特殊群體的公共屬性的描述,挖掘某些共同特性。把Web輿情數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中,通過分類函數(shù)或分類器確定模型的相應(yīng)類目,由特征化了的屬性集合標(biāo)記。輿情抽取時(shí),按需求選出已分類的訓(xùn)練集,如設(shè)置“瘦肉精事件”、“北京7.21暴雨”、“校車相撞”、“醉駕”等。建立分類器,有針對性地選擇數(shù)據(jù),避免無目標(biāo)搜索,從而得到更精確、更有價(jià)值的信息。
聚類分析:聚類的目的也是對Web對象歸類,但不事先定義主題類別。將Web對象特征化之后歸類剖析,使同類的對象具較高相像度,而不同的類中對象差別較大[3]。在網(wǎng)絡(luò)輿情研究中,既可以對互聯(lián)網(wǎng)中海量信息聚類,也可以依據(jù)信息內(nèi)容特征與使用情況等對用戶聚類,歸納出各個(gè)聚類的特點(diǎn),以便更深入的研究。
預(yù)測分析:利用歷史數(shù)據(jù),找出變化規(guī)律,建立專用的模型,并對未知數(shù)據(jù)種類及特征等多方面進(jìn)行預(yù)測,預(yù)知未來有可能出現(xiàn)的結(jié)果,提前防范。其中可通過預(yù)測方差,度量精度和不確定性。
偏差分析:檢驗(yàn)的基本方法是尋找參照與觀察結(jié)果間的差異,發(fā)現(xiàn)數(shù)據(jù)庫中的反常數(shù)據(jù)。及時(shí)批駁互聯(lián)網(wǎng)上的虛假、不良信息,使誹謗和造假信息在糾正偏差中不攻自破;可以準(zhǔn)確及時(shí)地提取與熱點(diǎn)事件相關(guān)的真實(shí)信息,形成網(wǎng)上正面輿論導(dǎo)向。
4.模式分析
通過模式發(fā)現(xiàn)算法,分析挖掘得到的網(wǎng)絡(luò)輿情模式集,將有意義的、感興趣的規(guī)則與模式提取出來作為挖掘結(jié)果。模式分析的工具主要是類似SQL的知識(shí)查詢機(jī)制和可視化技術(shù)。分析視圖時(shí)利用可視化技術(shù),可以把多維數(shù)據(jù)變成多種圖形,提供各種各樣的統(tǒng)計(jì)報(bào)告,揭示數(shù)據(jù)的狀況、內(nèi)在本質(zhì)和規(guī)律。此外,可以把Web使用數(shù)據(jù)裝入數(shù)據(jù)倉庫,執(zhí)行聯(lián)機(jī)分析處理。
三、基于WUM的Web輿情監(jiān)測引導(dǎo)系統(tǒng)
為加強(qiáng)對網(wǎng)絡(luò)信息的控制能力,特別是動(dòng)態(tài)信息的監(jiān)測,有必要利用WUM技術(shù)建立一套Web輿情監(jiān)測引導(dǎo)系統(tǒng),實(shí)現(xiàn)對輿情信息采集、監(jiān)測和預(yù)警的需求。網(wǎng)絡(luò)輿情監(jiān)測引導(dǎo)系統(tǒng)以信息資源管理制度和安全保障體系為支撐,基于軟硬件、數(shù)據(jù)管理平臺(tái),依托搜索引擎和Web數(shù)據(jù)挖掘技術(shù)。該系統(tǒng)包含四個(gè)功能模塊:Web輿情采集模塊、Web輿情預(yù)處理模塊、Web輿情挖掘分析模塊、Web輿情輔助決策模塊,如圖2所示。
圖2.Web輿情監(jiān)測引導(dǎo)系統(tǒng)的總體架構(gòu)
(一)Web輿情采集模塊。系統(tǒng)可根據(jù)不同主題,指明不同的關(guān)鍵詞目標(biāo),結(jié)合人工參預(yù)、統(tǒng)一加工過濾、自動(dòng)分類,保存新聞標(biāo)題、出處、發(fā)布時(shí)間、正文、新聞相關(guān)圖片等信息,完成數(shù)據(jù)收集。支持采集多媒體類文件,可以自動(dòng)地解析XML文檔,抽取關(guān)鍵信息,支持搜索引擎爬蟲抓取的網(wǎng)頁緩存等。全方位的采集網(wǎng)絡(luò)輿情,最大限度地保證資源的專、精、深。
(二)Web輿情預(yù)處理模塊。將集中管理、分布存儲(chǔ)、跨平臺(tái)發(fā)布、實(shí)用性,覆蓋輿情監(jiān)測引導(dǎo)系統(tǒng)的整個(gè)生命周期,保證系統(tǒng)的可擴(kuò)展性、靈活性和穩(wěn)定性。
(三)Web輿情挖掘分析模塊。利用預(yù)測、關(guān)聯(lián)規(guī)則、分類、聚類、偏差分析和時(shí)序模式等多種技術(shù),分析和處理收集來的輿情,增強(qiáng)輿情研判的準(zhǔn)確性及內(nèi)容分析的確定性。
其功能包括:
敏感話題、熱點(diǎn)話題甄別,即可根據(jù)信息評論數(shù)量、發(fā)言時(shí)間密集程度、出處權(quán)威度等,鑒別給定時(shí)間段內(nèi)的熱點(diǎn)話題,通過關(guān)鍵字布控和語義分析,識(shí)別敏感話題。
傾向性分析,即對于各個(gè)話題、各個(gè)發(fā)信人所發(fā)文章的論點(diǎn)與傾向性,進(jìn)行統(tǒng)計(jì)與分析,預(yù)測輿情可能的發(fā)展方向。
主題跟蹤,即跟蹤某個(gè)熱門主題回復(fù)、跟帖、修改、閱讀等情況,為管理者及時(shí)了解該動(dòng)向的輿情發(fā)展。
自動(dòng)摘要,即對不同類目的主題、傾向,自動(dòng)提取內(nèi)容提要,供決策參考。
趨勢分析,即分析某主題在相應(yīng)的時(shí)間區(qū)間內(nèi)的被關(guān)注程度,作出未來的科學(xué)預(yù)測。
突發(fā)事件分析,即對突發(fā)性事件進(jìn)行多維分析,追蹤輿情內(nèi)容,發(fā)現(xiàn)傳播源頭,監(jiān)控傳播主體,并進(jìn)行正負(fù)面信息研判,預(yù)測發(fā)展趨勢。
(四)Web輿情輔助決策模塊。及時(shí)發(fā)現(xiàn)可能發(fā)生的突發(fā)事件、敏感話題,并針對內(nèi)容安全級別聯(lián)管聯(lián)動(dòng)。通過輿情雷達(dá)預(yù)警、監(jiān)測和發(fā)布個(gè)性化信息等手段,將處理后、有針對性的結(jié)果報(bào)告提供給管理者和工作人員,并提供指定條件對熱點(diǎn)話題、傾向性進(jìn)行瀏覽、檢索,達(dá)到輔助決策,引導(dǎo)輿情向積極健康的方向發(fā)展的目的。
四、結(jié)論
網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)是個(gè)復(fù)雜的技術(shù)和管理過程,必須充分利用WUM技術(shù)的優(yōu)勢,完善Web輿情監(jiān)測引導(dǎo)系統(tǒng),以進(jìn)一步提升網(wǎng)絡(luò)輿情的信息化、自動(dòng)化和智能化。該系統(tǒng)具有良好的可擴(kuò)充性,可提高Web輿情監(jiān)測與處理的及時(shí)性與準(zhǔn)確性,有效地推動(dòng)我國網(wǎng)絡(luò)輿情預(yù)警與引導(dǎo)工作。
參考文獻(xiàn):
[1]葉皓.突發(fā)事件的輿論引導(dǎo)[M].南京:江蘇人民出版社,2009
[2]W Hseush,C Pu. A Practical Technique for Asynchronous Transaction Processing[C].In Proc. Of the 15th Inter. Conf, on Distributed Computing Systems,1995:110~117
[3]A.K.Jain,M.N.Murty and P.J.Flynn. Data clustering: A Review.ACM Computing Surveys,31(3), March 1999.264~323
基金項(xiàng)目:2012年度河南省社科聯(lián)、河南省經(jīng)團(tuán)聯(lián)調(diào)研課題“突發(fā)公共事件中的立體化網(wǎng)絡(luò)輿情監(jiān)測與引導(dǎo)機(jī)制研究(SKL—2012—623)”。