董堅(jiān)峰
〔摘 要〕當(dāng)前網(wǎng)絡(luò)突發(fā)事件頻發(fā),網(wǎng)絡(luò)輿情與突發(fā)事件的相互作用增加了輿情分析和預(yù)警的難度,現(xiàn)有輿情預(yù)警系統(tǒng)無法滿足需求。將Web挖掘技術(shù)引入到突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警中,構(gòu)建了包括輿情采集層、輿情挖掘?qū)印⑤浨榉治鰧?、預(yù)警研判層的基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)模型,集成和整合了突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警全過程的重要功能,實(shí)現(xiàn)突發(fā)事件網(wǎng)絡(luò)輿情采集、分析處理、危機(jī)預(yù)警的自動(dòng)化、智能化和實(shí)時(shí)化。
〔關(guān)鍵詞〕Web挖掘;突發(fā)事件;網(wǎng)絡(luò)輿情預(yù)警;系統(tǒng)模型
DOI:10.3969/j.issn.1008-0821.2014.02.009
〔中圖分類號〕G250.7 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2014)02-0043-05
近年來,隨著我國改革開放與社會(huì)轉(zhuǎn)型的推進(jìn),互聯(lián)網(wǎng)上突發(fā)事件和公共危機(jī)話題不斷凸現(xiàn),網(wǎng)絡(luò)逐步取代傳統(tǒng)媒體成為新的社會(huì)輿論場,基于互聯(lián)網(wǎng)的社會(huì)輿情生態(tài)環(huán)境逐步形成。據(jù)CNNIC《第32次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì),截至2013年6月,我國網(wǎng)民規(guī)模達(dá)到5.91億,網(wǎng)站和網(wǎng)絡(luò)論壇達(dá)到294萬個(gè),手機(jī)上網(wǎng)用戶4.64億,全民網(wǎng)絡(luò)普及率高達(dá)44.1%,其中博客、論壇、微博使用人數(shù)分別為4.01億、1.41億、3.31億[1]。網(wǎng)絡(luò)在為社會(huì)公眾提供信息獲取、訴求表達(dá)、情緒宣泄、社會(huì)參與平臺的同時(shí),也成為社會(huì)突發(fā)事件和群體性事件策源、醞釀的重要場域。網(wǎng)絡(luò)輿情熱點(diǎn)一方面直接發(fā)展、醞釀成為群體性事件,引發(fā)社會(huì)公共危機(jī);另一方面,網(wǎng)絡(luò)輿情的非理性化、情緒化傾向加速突發(fā)事件的惡性發(fā)展,增加了突發(fā)事件的預(yù)警和處理難度。在這種背景下,如何利用現(xiàn)代技術(shù)手段和管理手段精確研判并有效應(yīng)對突發(fā)事件網(wǎng)絡(luò)輿情,避免突發(fā)事件危機(jī)產(chǎn)生或者提供危機(jī)預(yù)警,是當(dāng)前的一項(xiàng)重要工作。
1 突發(fā)事件網(wǎng)絡(luò)輿情分析和預(yù)警面臨的困難
1.1 網(wǎng)絡(luò)輿情與突發(fā)事件的相互作用增加了預(yù)警分析處理的難度 根據(jù)《中華人民共和國突發(fā)事件應(yīng)對法》的界定,突發(fā)事件是指突然發(fā)生,造成或者可能造成嚴(yán)重社會(huì)危害,需要采取應(yīng)急處置措施予以應(yīng)對的自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會(huì)安全事件[2]。與一般事件不同,突發(fā)事件具有較強(qiáng)的突發(fā)性、破壞性、公共性、復(fù)雜性、持續(xù)性,并可能在一定情勢下轉(zhuǎn)化為公共危機(jī)。在突發(fā)事件的發(fā)生發(fā)展過程中,媒體和網(wǎng)民通過各種渠道發(fā)表各自的意見和看法,匯集而成的網(wǎng)絡(luò)輿情經(jīng)常會(huì)發(fā)展為突發(fā)事件,并左右突發(fā)事件的演變進(jìn)程,同時(shí)對某些事件的演變起到了推波助瀾的作用。一方面,互聯(lián)網(wǎng)擁有自由民主、快速即時(shí)、便捷多向等優(yōu)勢,使其更易聚焦各類社會(huì)熱點(diǎn)問題,尤其是那些涉及群體利益、社會(huì)公平、貧富差距的話題極易激起大規(guī)模討論熱潮,導(dǎo)致網(wǎng)絡(luò)熱點(diǎn)直接發(fā)展、醞釀為突發(fā)事件,且發(fā)展迅速,影響極大;另一方面,由于網(wǎng)絡(luò)的匿名隱身、跨地域、無國界限制等特點(diǎn),網(wǎng)絡(luò)輿情的非理性、情緒化特點(diǎn)明顯,導(dǎo)致一旦某個(gè)突發(fā)事件被網(wǎng)絡(luò)聚焦,一些不適當(dāng)?shù)摹⑼崆?、情緒化的、偏激的言論甚至謠言即迅速傳播,從而加速突發(fā)事件的惡性發(fā)展。在突發(fā)事件爆發(fā)過程中,強(qiáng)大的網(wǎng)絡(luò)輿情與突發(fā)事件即時(shí)互動(dòng)、互相強(qiáng)化、交流融合,使原本為時(shí)較短的突發(fā)事件成為持續(xù)時(shí)間較長的公共危機(jī),從而大大增加了事件處理難度和處理成本。尤其是在網(wǎng)絡(luò)輿情的推動(dòng)下,突發(fā)事件更加動(dòng)態(tài)化、反復(fù)化、持久化,相關(guān)輿情信息無規(guī)律化程度加劇,任何組織和個(gè)人都無法完全決定和控制網(wǎng)絡(luò)輿情信息的內(nèi)容,網(wǎng)絡(luò)輿情監(jiān)控和預(yù)警面臨極大的挑戰(zhàn)[3]。
2 現(xiàn)有輿情系統(tǒng)對突發(fā)事件輿情分析預(yù)警支持不足 網(wǎng)絡(luò)輿情的分析預(yù)警是一個(gè)融匯計(jì)算機(jī)網(wǎng)絡(luò)、人工智能、數(shù)據(jù)挖掘、自然語言處理等多學(xué)科知識的前沿領(lǐng)域,涉及網(wǎng)絡(luò)輿情信息采集、分析、處理、分類、監(jiān)測和預(yù)警的全過程。近年來,國內(nèi)外眾多學(xué)者和研究機(jī)構(gòu)對此從不同領(lǐng)域和多個(gè)角度開展了探討,并研發(fā)了各種軟件產(chǎn)品或系統(tǒng)來自動(dòng)或者輔助政府輿情工作人員進(jìn)行輿情信息的分析和監(jiān)控,如國內(nèi)的谷尼、方正、TRS和國外的Review See、StatPac、Opinion Finder等系統(tǒng)。這些系統(tǒng)功能多樣,圍繞網(wǎng)絡(luò)輿情分析和預(yù)警提供了多種支持(如表1所示)。
表1 國內(nèi)外網(wǎng)絡(luò)輿情預(yù)警分析系統(tǒng)的比較[4-8]
輿情預(yù)警分析系統(tǒng)研發(fā)企業(yè)主 要 功 能方正智思輿情預(yù)警輔助決策支持系統(tǒng)北大方正網(wǎng)絡(luò)輿情的全文檢索、自動(dòng)分類、自動(dòng)聚類、主題監(jiān)測/追蹤、相關(guān)推薦與消重、關(guān)聯(lián)分析與趨勢分析、自動(dòng)摘要與自動(dòng)關(guān)鍵詞提取、突發(fā)事件分析、生成統(tǒng)計(jì)報(bào)表等功能谷尼輿情監(jiān)控分析系統(tǒng)谷尼國際軟件公司輿情信息自動(dòng)獲取、自動(dòng)聚類、敏感話題識別、熱點(diǎn)話題識別、輿情主題監(jiān)測與跟蹤、自動(dòng)摘要、輿情趨勢分析、突發(fā)事件分析、輿情報(bào)警、輿情統(tǒng)計(jì)報(bào)告等功能TRS互聯(lián)網(wǎng)輿情信息監(jiān)控系統(tǒng)北京拓爾思信息技術(shù)股份有限公司網(wǎng)絡(luò)輿情實(shí)時(shí)監(jiān)測、輿情熱點(diǎn)發(fā)現(xiàn)和熱點(diǎn)跟蹤、敏感信息監(jiān)控、輔助決策支持、輿情預(yù)警等多種功能Beehoo3.0互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)中科院計(jì)算所輿情信息的采集、熱點(diǎn)分析、重點(diǎn)話題檢測、輿情熱點(diǎn)的預(yù)警等樂思網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)深圳市樂思軟件技術(shù)有限公司信息采集、信息處理(自動(dòng)分類聚類、主題檢測、專題聚焦等)、信息服務(wù)(如自動(dòng)生成輿情信息簡報(bào)、追蹤輿論焦點(diǎn)、趨勢分析,預(yù)警、決策支持等)Cision美國Cision公司博客、論壇、富媒體等網(wǎng)站的網(wǎng)絡(luò)輿情實(shí)時(shí)監(jiān)測,實(shí)時(shí)輿情報(bào)表生成,行業(yè)動(dòng)態(tài)的趨勢分析和發(fā)展預(yù)測,一站式輿情綜合資訊,企業(yè)公關(guān)和媒體監(jiān)測等功能Review Seer多種評論性網(wǎng)站的輿情信息采集、網(wǎng)絡(luò)評論詞條的語義傾向性判斷、自動(dòng)文摘和輿情報(bào)告生成等功能StatPacStatPac Inc支持互聯(lián)網(wǎng)、電子郵件、平板電腦、智能手機(jī)等多種網(wǎng)絡(luò)信息源的調(diào)查統(tǒng)計(jì)分析;自動(dòng)生成輿情信息報(bào)告Opinion Finder匹茲堡大學(xué)、康奈爾大學(xué)、猶他大學(xué)自動(dòng)分析網(wǎng)絡(luò)語句中那些含主觀性成分的內(nèi)容,并針對這些主觀性的關(guān)鍵字檢測其來源與傳播途徑
從表1可以看出,這些系統(tǒng)基本上都提供了網(wǎng)絡(luò)輿情分析和預(yù)警功能,能幫助政府或企業(yè)把握網(wǎng)絡(luò)輿情信息、預(yù)警可能發(fā)生的輿情危機(jī)。各個(gè)軟件在輿情分析和預(yù)警上各有優(yōu)勢,比如在輿情采集階段使用自動(dòng)搜索技術(shù),在輿情分析階段綜合使用文本挖掘、自動(dòng)摘要、主題聚類等技術(shù),在輿情預(yù)警階段提供了多種預(yù)警途徑等。但總體來看,單個(gè)軟件的功能還遠(yuǎn)未達(dá)到真正的網(wǎng)絡(luò)輿情分析的智能化要求,都存在這樣或那樣的不足,暫時(shí)沒有一個(gè)整體功能完備的系統(tǒng)。具體如下:
1.2.1 輿情信息源整合不夠,信息采集質(zhì)量不高對于輿情預(yù)警系統(tǒng)來說,其信息源來源多樣,尤其是在Web2.0環(huán)境下,以微博、社交網(wǎng)絡(luò)、即時(shí)通訊為載體的“微內(nèi)容”更成為主要信息來源,而現(xiàn)有的輿情預(yù)警系統(tǒng)支持信息源明顯不夠,對各類信息源的整合力度也不大,不能實(shí)現(xiàn)全網(wǎng)采集,從而制約了輿情預(yù)警的效果。另外,目前輿情預(yù)警系統(tǒng)大多數(shù)是借助搜索引擎等爬蟲工具進(jìn)行信息采集,采集算法簡單,信息采集呈重復(fù)性、非相關(guān)性和表層化,導(dǎo)致檢索結(jié)果數(shù)量大且多為重復(fù)的、非相關(guān)的、淺層的,甚至是虛假的信息;采集過程也缺乏跟蹤和監(jiān)測,采集效率不高。
1.2.2 輿情分析過程缺乏智能性,信息分析深度不夠現(xiàn)有輿情預(yù)警系統(tǒng)在信息處理方面,要么是將收集的信息經(jīng)過簡單整理后交給工作人員進(jìn)行人工定性分析和經(jīng)驗(yàn)判斷,要么是借助輿情字典和統(tǒng)計(jì)學(xué)進(jìn)行分析判斷,信息僅僅停留在相關(guān)數(shù)據(jù)的統(tǒng)計(jì)層面,沒有深入挖掘數(shù)據(jù)背后隱含的深層知識,更無法涉及輿情信息的語義層次,系統(tǒng)智能化程度不高。
1.2.3 輿情預(yù)警研判功能偏弱,無法滿足決策支持現(xiàn)有的輿情系統(tǒng)進(jìn)行預(yù)警時(shí)多為自動(dòng)輿情分析報(bào)告和人工經(jīng)驗(yàn)相結(jié)合的方式,鮮有設(shè)置科學(xué)系統(tǒng)的預(yù)警研判指標(biāo)體系,從而導(dǎo)致提供的預(yù)警結(jié)果無法滿足決策支持的需要。有鑒于此,本文結(jié)合突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警的現(xiàn)實(shí)需求和現(xiàn)有的輿情分析預(yù)警系統(tǒng)的不足,將Web挖掘技術(shù)引入到突發(fā)事件網(wǎng)絡(luò)輿情信息分析和預(yù)警中,提出了基于Web挖掘的網(wǎng)絡(luò)輿情預(yù)警的思路和系統(tǒng)模型,以期為政府公共管理部門開展網(wǎng)絡(luò)輿情預(yù)警提供一些借鑒。
2 基于Web挖掘的網(wǎng)絡(luò)輿情預(yù)警
2.1 Web挖掘Web挖掘是數(shù)據(jù)挖掘在Web上的應(yīng)用,它綜合使用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語言處理和人工智能等智能信息處理技術(shù)從WWW的資源(Web文檔)和行為(Web服務(wù))中自動(dòng)發(fā)現(xiàn)并提取人們感興趣的、有用的模式和隱含的信息。根據(jù)挖掘?qū)ο蟮牟煌?,Web挖掘可以分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。與傳統(tǒng)的網(wǎng)絡(luò)輿情分析方法,例如抽象分析、比較分析、相關(guān)分析和內(nèi)容分析法等相比,Web挖掘可以得到指定時(shí)間段內(nèi)網(wǎng)絡(luò)輿情的狀況和走向以及與之關(guān)聯(lián)的熱點(diǎn)問題,為網(wǎng)絡(luò)輿情的深層次分析和智能化預(yù)警提供了技術(shù)支持和解決方案[9]。
2.1.1 Web內(nèi)容挖掘Web內(nèi)容挖掘是從Web文檔本身的內(nèi)容或者Web搜索的結(jié)果中抽取知識的過程,它可以對大量的Web文本集合進(jìn)行分類、聚類、關(guān)聯(lián)分析,以及利用Web內(nèi)容進(jìn)行趨勢預(yù)測。在網(wǎng)絡(luò)輿情分析中,Web內(nèi)容挖掘可以發(fā)現(xiàn)與突發(fā)事件主題相關(guān)的知識內(nèi)容和語義關(guān)聯(lián)模式。
2.1.2 Web使用挖掘Web使用挖掘是通過挖掘Web使用數(shù)據(jù)或者訪問日志來提取瀏覽者的行為模式,獲取有價(jià)值的信息的過程。它通過挖掘用戶上網(wǎng)時(shí)產(chǎn)生的網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶登錄和注冊記錄、用戶對話或交易信息、用戶提問等交互式信息發(fā)現(xiàn)用戶的瀏覽習(xí)慣、相似用戶群體、Web頁面的訪問頻率等知識模式,從而更好地理解用戶行為和提供智能化的服務(wù)。通過Web使用挖掘,可以確定輿情熱點(diǎn)和焦點(diǎn)、預(yù)測網(wǎng)民行為。
2.1.3 Web結(jié)構(gòu)挖掘Web結(jié)構(gòu)挖掘就是對WWW的組織結(jié)構(gòu)、Web頁面的超鏈結(jié)構(gòu)等進(jìn)行挖掘并從中提取出隱藏的有價(jià)值的知識的過程。大量的Web鏈接信息提供了豐富的關(guān)于Web內(nèi)容相關(guān)性、質(zhì)量和結(jié)構(gòu)方面的信息,是進(jìn)行網(wǎng)絡(luò)輿情站點(diǎn)分析的重要資源[10]。通過Web結(jié)構(gòu)挖掘,可以獲得與輿情主題高度相關(guān)的鏈接以及鏈接邏輯結(jié)構(gòu)的語義知識,從而幫助輿情分析人員確定重要輿情源和中心頁面。
2.2 基于Web挖掘的網(wǎng)絡(luò)輿情預(yù)警流程一般來說,采用Web挖掘方法進(jìn)行網(wǎng)絡(luò)輿情預(yù)警的處理流程包括輿情主題規(guī)劃、輿情信息采集、輿情信息預(yù)處理、輿情信息分析、輿情危機(jī)預(yù)警處理5個(gè)步驟(如圖1所示)[11]。(1)輿情主題規(guī)劃。根據(jù)輿情預(yù)警需求,設(shè)定輿情主題目標(biāo),同時(shí)確定輿情分析的對象(來源)、關(guān)鍵詞、主題等,并在實(shí)施過程中根據(jù)實(shí)際需求調(diào)整采集主題。(2)輿情信息采集。根據(jù)輿情主題規(guī)劃任務(wù)從多個(gè)信息源中提取相關(guān)數(shù)據(jù),并對目標(biāo)Web數(shù)據(jù)進(jìn)行網(wǎng)頁的特征提取、基于內(nèi)容的網(wǎng)頁聚類、網(wǎng)頁間內(nèi)容的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等,從中得到和挖掘目的相關(guān)的數(shù)據(jù)。圖1 基于Web挖掘的網(wǎng)絡(luò)輿情危機(jī)預(yù)警流程圖
(3)輿情信息預(yù)處理。將先前獲取的網(wǎng)頁源碼作進(jìn)一步的信息處理,包括網(wǎng)頁凈化、文本分詞、特征向量表示、停用詞及虛詞凈化、詞頻統(tǒng)計(jì)、降維處理等,最終為輿情分析做好充分的數(shù)據(jù)準(zhǔn)備。(4)輿情信息分析。利用Web挖掘算法對輿情信息進(jìn)行分析,挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的信息分析技術(shù)包括:文本挖掘、事件識別、主題發(fā)現(xiàn)、熱點(diǎn)跟蹤、關(guān)聯(lián)分析、趨勢分析、傾向性分析等。(5)危機(jī)預(yù)警處理。對挖掘出來的輿情信息進(jìn)行分析、解釋,生成輿情分析報(bào)告,并根據(jù)分析結(jié)果對網(wǎng)絡(luò)輿情進(jìn)行危機(jī)預(yù)警。
3 基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)模型
3.1 模型概述針對現(xiàn)有網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)普遍存在的突出問題,根據(jù)Web數(shù)據(jù)挖掘在信息分析和知識發(fā)現(xiàn)中的優(yōu)勢,本文綜合應(yīng)用Web挖掘、語義分析、信息集成等技術(shù),構(gòu)建了基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)模型,如圖2所示。本模型包括輿情采集層、輿情挖掘?qū)印⑤浨榉治鰧雍皖A(yù)警應(yīng)用層等4層,集成和整合了突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警全過程的重要功能,實(shí)現(xiàn)突發(fā)事件網(wǎng)絡(luò)輿情采集、分析處理、危機(jī)預(yù)警的自動(dòng)化、智能化和實(shí)時(shí)化。
3.1.1 輿情采集層輿情采集層是本模型的最底層,主要負(fù)責(zé)完成網(wǎng)絡(luò)輿情信息的采集和預(yù)處理,為輿情挖掘和分析提供所需的數(shù)據(jù)。在采集時(shí),一方面可以利用聚集爬蟲對各主要門戶網(wǎng)站、新聞網(wǎng)站、時(shí)事論壇、微博和博客、BBS論壇進(jìn)行信息抓取,獲取最新動(dòng)態(tài);另一方面,可以結(jié)合近年來突發(fā)事件輿情多發(fā)主題,對網(wǎng)絡(luò)曝光率和點(diǎn)擊率較高的微博/QQ
圖2 基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)模型
空間、主流論壇/BBS、知名門戶網(wǎng)站、各大網(wǎng)絡(luò)媒體、知名人士博客/空間、主流搜索工具、國外媒體等網(wǎng)絡(luò)新媒體上的信息進(jìn)行實(shí)時(shí)監(jiān)測,及時(shí)采集敏感信息。采集回來的輿情信息網(wǎng)頁進(jìn)行URL抽取、網(wǎng)頁解析、關(guān)鍵內(nèi)容提取等處理后整理存儲到輿情信息庫中。
3.1.2 輿情挖掘?qū)虞浨橥诰驅(qū)又饕瓿蓪浨樾畔熘袃?nèi)容的多維挖掘和處理,利用Web挖掘技術(shù)對網(wǎng)絡(luò)輿情的內(nèi)容、結(jié)構(gòu)和使用記錄進(jìn)行挖掘。為了更好地實(shí)現(xiàn)對網(wǎng)絡(luò)輿情突發(fā)事件的監(jiān)控和預(yù)警,在本層需要綜合采用多種Web挖掘方法,除前文提到了的Web使用挖掘、Web結(jié)構(gòu)挖掘和Web內(nèi)容挖掘外,還需要采用以下兩類挖掘技術(shù):(1)Web數(shù)據(jù)流挖掘。突發(fā)事件網(wǎng)絡(luò)輿情在網(wǎng)絡(luò)上的發(fā)生和演變具有極強(qiáng)的時(shí)空演化性,可以看成是一種連續(xù)不斷到達(dá)的、時(shí)變的、有序的且快速流動(dòng)的數(shù)據(jù)元素組成的文本數(shù)據(jù)流,利用頻繁項(xiàng)挖掘或突變檢測等數(shù)據(jù)流挖掘方法可以快速獲取敏感網(wǎng)頁和話題。(2)Web語義挖掘。利用XML-Ontology技術(shù)對輿情信息庫中的數(shù)據(jù)進(jìn)行語義抽取、標(biāo)注和描述,在此基礎(chǔ)上建立與突發(fā)事件相關(guān)領(lǐng)域的語義知識庫,并利用工具挖掘輿情規(guī)律。
3.1.3 輿情分析層輿情分析層是本模型的核心層,也是實(shí)現(xiàn)突發(fā)事件輿情預(yù)警的前提。本層主要從輿情信息內(nèi)容和輿情演變態(tài)勢兩個(gè)方面分析突發(fā)事件網(wǎng)絡(luò)輿情的內(nèi)容和發(fā)展趨勢,并生成輿情分析報(bào)告。(1)輿情信息內(nèi)容分析。主要實(shí)現(xiàn)網(wǎng)絡(luò)突發(fā)事件的分類、應(yīng)用語義分析對文本的分類、對論壇及評論中的輿情情感傾向性分析、對構(gòu)成危害的敏感信息的監(jiān)控和不良信息的過濾等功能。(2)輿情趨勢演化分析。主要根據(jù)突發(fā)事件體現(xiàn)出的網(wǎng)頁數(shù)量的變化、詞頻的變化、轉(zhuǎn)載及擴(kuò)散的變化建立合適的統(tǒng)計(jì)模型來分析演變態(tài)勢和波動(dòng)性,實(shí)現(xiàn)輿情演變的趨勢監(jiān)測功能[12]。
3.1.4 預(yù)警研判層本層主要根據(jù)在輿情分析層所得到的輿情分析報(bào)告,從輿情熱度、特性、危險(xiǎn)性等指標(biāo)進(jìn)行輿情信息評測,研判是否發(fā)布輿情預(yù)警信號,并提供輿情信息摘要、輿情簡報(bào)等信息內(nèi)容展示,為相關(guān)職能部門快速了解輿情動(dòng)態(tài)、掌握熱點(diǎn)事件突發(fā)事件的來龍去脈提供決策依據(jù)。(1)熱度研判。主要從報(bào)道量、點(diǎn)擊量、評論量、發(fā)帖/發(fā)文量、轉(zhuǎn)載/轉(zhuǎn)播量和搜索量等多個(gè)數(shù)據(jù)指標(biāo)來判斷當(dāng)前網(wǎng)民和媒體對事件或信息的關(guān)注度,判斷是否可能形成并爆發(fā)網(wǎng)絡(luò)輿情突發(fā)事件。通常,關(guān)注度或熱度越高,越容易形成和爆發(fā)網(wǎng)絡(luò)輿情,朝著存在安全隱患和不安全的路徑演變;反之亦然。(2)特性研判。主要從事件或信息的主題敏感程度、內(nèi)容真?zhèn)涡院蛠碓吹臋?quán)威性3個(gè)角度來判斷其自身特性。其中,涉及公共安全、貧富差距、國計(jì)民生、公平公正等主題為敏感主題,關(guān)注程度較高;內(nèi)容真?zhèn)涡灾饕钦鐒e信息內(nèi)容的虛假和失真性,避免被個(gè)別人或團(tuán)體非法利用和轉(zhuǎn)播,以謠言和訛傳詆毀政府形象;來源的權(quán)威性主要是從信息發(fā)布者的知名度、活躍度、信息質(zhì)量等角度研判,越是權(quán)威的信息越容易成為網(wǎng)絡(luò)熱點(diǎn)。因此,輿情特性越明顯,隱含的不安全因素就越高,越容易向不安全和危險(xiǎn)性路徑發(fā)展演變[13]。(3)危險(xiǎn)性研判。主要從網(wǎng)絡(luò)覆蓋度、地域覆蓋度、網(wǎng)民情緒、網(wǎng)民態(tài)度和行為等5個(gè)角度進(jìn)行網(wǎng)絡(luò)輿情的危險(xiǎn)性研判。一般來說,網(wǎng)絡(luò)和地域覆蓋度越大,網(wǎng)民情緒越激動(dòng)和憤怒,態(tài)度越負(fù)面,網(wǎng)絡(luò)行為越偏激,危險(xiǎn)性則越大,突發(fā)事件越容易產(chǎn)生或者激化。
3.2 突發(fā)事件監(jiān)控與預(yù)警分析上述模型介紹了各功能層能完成的對網(wǎng)絡(luò)輿情突發(fā)事件從資源采集到事件預(yù)警的功能和流程,下面重點(diǎn)對突發(fā)事件監(jiān)控與預(yù)警實(shí)現(xiàn)的一些關(guān)鍵環(huán)節(jié)進(jìn)行分析。(1)突發(fā)事件分類。由突發(fā)事件引發(fā)的網(wǎng)絡(luò)輿情信息,從內(nèi)容形式來看主要為文本,因此,突發(fā)事件分類可以轉(zhuǎn)化為文本分類問題。在具體實(shí)施時(shí),可以通過網(wǎng)頁內(nèi)容的分類分析將相關(guān)主題網(wǎng)頁都劃分到同一個(gè)類別,并通過關(guān)聯(lián)分析和序列分析追蹤輿情源頭,有效地輔助發(fā)現(xiàn)并預(yù)警不良信息,及時(shí)制止輿情的進(jìn)一步突變,起到輔助決策支持的作用。(2)文本數(shù)據(jù)流突發(fā)檢測。文本流突發(fā)檢測主要是借助Kleinberg方法來實(shí)現(xiàn):在文本分類的基礎(chǔ)上,針對某一特定主題的輿情文本,按照其到來的時(shí)間順序定義為文本序列,利用形式化方法的無窮狀態(tài)自動(dòng)機(jī)對文本流進(jìn)行建模。若{t1,t2,…,tn,tn+1,…}為文本序列,兩文本的時(shí)間間隔為xt,xt隨著單位時(shí)間內(nèi)的文本數(shù)量的變化而變化。如果有突發(fā)事件,短時(shí)間內(nèi)與此事件相關(guān)的文本增多,導(dǎo)致xt變短,就將此時(shí)的狀態(tài)定義為突發(fā)狀態(tài)Sb(Burst State),如果沒有突發(fā)即為普通狀態(tài)Sn(Normal State)。從普通狀態(tài)到突發(fā)狀態(tài)的轉(zhuǎn)換則可以通過時(shí)間間隔xt的變化帶來的改變檢測到。(3)趨勢預(yù)測分析。通過對某個(gè)與突發(fā)事件相關(guān)的主題在不同的時(shí)間段內(nèi)被關(guān)注的程度進(jìn)行跟蹤,從而獲取輿情隨時(shí)間的發(fā)展變化趨勢或規(guī)律,實(shí)現(xiàn)對輿情環(huán)境的監(jiān)控和預(yù)警,進(jìn)行適時(shí)控制和疏導(dǎo)。(4)敏感話題監(jiān)控。借助敏感詞典等工具對突發(fā)事件、涉及內(nèi)容安全的話題尤其是敏感話題進(jìn)行有效監(jiān)控和預(yù)警。一方面,根據(jù)輿情分析結(jié)果對用戶關(guān)注的輿情內(nèi)容進(jìn)行有效分類,從中找出與突發(fā)事件主題相關(guān)的敏感話題;另一方面,根據(jù)分類結(jié)果評估分析突發(fā)事件網(wǎng)絡(luò)輿情發(fā)展態(tài)勢并給出預(yù)警信息。(5)情感傾向分析。對網(wǎng)民發(fā)布的與突發(fā)事件主題相關(guān)的話題進(jìn)行情感傾向性分析,了解和歸納網(wǎng)民的主流觀點(diǎn)和情感趨勢——贊同、反對、高興或者悲傷,識別和統(tǒng)計(jì)其情感傾向及隨時(shí)間的演化規(guī)律,從中獲取與突發(fā)事件相關(guān)的各類征兆。
4 結(jié)束語實(shí)踐證明,Web挖掘是一種自動(dòng)化的信息分析與知識發(fā)現(xiàn)的方法和技術(shù)。將Web挖掘融入突發(fā)事件網(wǎng)絡(luò)輿情分析與預(yù)警之中,可以充分發(fā)揮Web挖掘技術(shù)在處理海量網(wǎng)絡(luò)數(shù)據(jù)和發(fā)現(xiàn)隱含知識規(guī)律的優(yōu)勢,實(shí)現(xiàn)網(wǎng)絡(luò)輿情信息的自動(dòng)化、智能化獲取和深層次、多維化分析,達(dá)到突發(fā)事件網(wǎng)絡(luò)輿情動(dòng)態(tài)預(yù)警和輔助決策的目的。在網(wǎng)絡(luò)輿情預(yù)警中應(yīng)用Web挖掘的技術(shù)和方法,將是提高網(wǎng)絡(luò)輿情預(yù)警監(jiān)控系統(tǒng)智能性的有效途徑,也是其未來的發(fā)展方向,相關(guān)研究仍需進(jìn)一步的探索和證明。
參考文獻(xiàn)
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第32次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201307/t2013071740664.htm,2013-07-17.
[2]中華人民共和國突發(fā)事件應(yīng)對法[EB/OL].http:∥www.gov.cn/ziliao/flfg/2007-08/30/content732593.htm,2007-08-30.
[3]曲淑華,劉.群體性事件網(wǎng)絡(luò)輿情應(yīng)對策略研究[J].長春工業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2013,(5):146-148.
[4]丁菊玲,勒中堅(jiān),王根生.我國網(wǎng)絡(luò)輿情危機(jī)預(yù)警研究探討[J].情報(bào)雜志,2010,(10):5-8.
[5]董楊.中美兩國網(wǎng)絡(luò)輿情監(jiān)管體系比較研究[D].長春:吉林大學(xué)碩士學(xué)位論文,2013.
[6]www.founder.com.cn[EB].
[7]http:∥us.cision.com/[EB].
[8]http:∥www.statpac.com/[EB].
[9]張玉峰,何超.基于Web挖掘的網(wǎng)絡(luò)輿情智能分析研究[J].情報(bào)科學(xué),2011,(4):64-68.
[10]周君.Web文本挖掘關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué)碩士學(xué)位論文,2009.
[11]梅中嶺.基于Web信息挖掘的網(wǎng)絡(luò)輿情分析技術(shù)[J].中國人民公安大學(xué)學(xué)報(bào):自然科學(xué)版,2007,(4):85-88.
[12]萬源.基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].武漢:武漢理工大學(xué)博士學(xué)位論文,2012.
[13]劉金榮.基于動(dòng)態(tài)演變路徑的網(wǎng)絡(luò)輿情研判體系構(gòu)建[J].圖書館學(xué)研究,2013,(5):32-35,97.
(本文責(zé)任編輯:馬 卓)