聶琰
摘 要: 針對高校網(wǎng)絡(luò)輿情監(jiān)測工作的不足,結(jié)合高校輿情信息的傳播特點,提出了在校園網(wǎng)范圍內(nèi)基于Nutch搜索引擎技術(shù)進行信息檢索,在互聯(lián)網(wǎng)上采用元搜索引擎技術(shù)獲取相關(guān)信息的輿情監(jiān)測系統(tǒng)構(gòu)建方案。采用關(guān)鍵詞特征庫匹配方式自動進行網(wǎng)絡(luò)輿情監(jiān)測,及時準確地發(fā)現(xiàn)網(wǎng)絡(luò)輿情信息;探討了高校對于網(wǎng)絡(luò)輿情的監(jiān)測、分析、引導(dǎo)和反饋等環(huán)節(jié)的處理方法,從而形成完善的應(yīng)對機制。
關(guān)鍵詞: 網(wǎng)絡(luò)輿情; Lucene; Nutch; 元搜索引擎; 信息檢索
中圖分類號:TP309.2 文獻標志碼:A 文章編號:1006-8228(2014)11-19-03
Research of public opinion monitoring system in campus network based on
Nutch and meta search engine technology
Nie Yan
(College of Science and Technology, Ningbo University, Ningbo, Zhejiang 315202, China)
Abstract: Aiming at the insufficient public opinion monitoring work, combined with transmission characteristics of public opinion information in colleges, the whole scheme of constructing public opinion monitoring system is presented. Information retrieval technology based on Nutch searching engine is applied to campus network. Information collection technology based on Meta search engine is used on the Internet. The keywords feature library matching is used for automatic experiment monitoring and the public opinion information is found timely and accurately. In addition, the dealing methods such as monitoring, analysis, guide and feedback are discussed to form perfect coping mechanisms.
Key words: public opinion; Lucene; Nutch; meta search engine; information retrieval
0 引言
高校師生是網(wǎng)絡(luò)利用率極高的一個群體,也是網(wǎng)絡(luò)輿情的主要生成力量和影響對象。高校網(wǎng)絡(luò)輿情的形成原因主要有三方面:一是由于國內(nèi)外相關(guān)熱點問題的觸發(fā),二是校內(nèi)外突發(fā)事件的網(wǎng)上討論,三是與高校師生利益密切相關(guān)事情的網(wǎng)上訴求。近年來,由于社會上網(wǎng)絡(luò)輿情導(dǎo)致政府信任危機的事件不斷發(fā)生,高校也逐漸重視了網(wǎng)絡(luò)輿情突發(fā)事件的應(yīng)對機制研究。同時,隨著公安部對網(wǎng)絡(luò)信息安全工作的逐步加強,高校利用自身技術(shù)優(yōu)勢,自主構(gòu)建輿情監(jiān)測系統(tǒng)并建立一套完善的應(yīng)對機制正逐漸成為高校網(wǎng)絡(luò)信息安全工作的重點。因此,在新形勢下,遭遇突發(fā)事件,高校如何能以最快的速度收集網(wǎng)絡(luò)上相關(guān)信息,跟蹤事態(tài)發(fā)展, 及時向有關(guān)部門通報,防范網(wǎng)絡(luò)不良輿情的快速擴散和演化,并建立相應(yīng)的響應(yīng)機制,實現(xiàn)對網(wǎng)絡(luò)輿情的有效管理與控制,使健康的網(wǎng)絡(luò)輿情成為維護高校穩(wěn)定,推動社會文明發(fā)展的動力,已經(jīng)成為當前亟需解決的重要課題。
高校的網(wǎng)絡(luò)輿情信息主要來自兩部分,一是內(nèi)部獨立的校園網(wǎng)絡(luò),二是外部開放的互聯(lián)網(wǎng)絡(luò)。隨著高校校園信息化建設(shè)的深入發(fā)展,校園網(wǎng)中網(wǎng)站、論壇、博客等平臺上信息資源數(shù)量呈指數(shù)級增長,僅依靠人工檢索和信息發(fā)布審核的方式無法有效實現(xiàn)對網(wǎng)絡(luò)輿情信息的監(jiān)測,急需利用技術(shù)手段實現(xiàn)對海量網(wǎng)絡(luò)信息的挖掘與分析,快速匯總成輿情信息;互聯(lián)網(wǎng)上信息量十分巨大,通過垂直搜索引擎方式所獲取的與高校相關(guān)的信息往往存在查全率不高的缺陷。高校網(wǎng)絡(luò)輿情的監(jiān)測,既要考慮信息采集的深度和廣度,又要提高系統(tǒng)的精度與準度;同時對于發(fā)現(xiàn)的輿情信息,要能夠做到快速定位,有效控制。本系統(tǒng)針對上述高校網(wǎng)絡(luò)輿情監(jiān)測工作的不足,并結(jié)合網(wǎng)絡(luò)輿情傳播特點,提出了構(gòu)建高校網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的整體方案,并探討高校面對網(wǎng)絡(luò)輿情在監(jiān)測、分析、引導(dǎo)和反饋等環(huán)節(jié)的處理方法,從而形成完善的應(yīng)對機制。
1 系統(tǒng)體系結(jié)構(gòu)
高校網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)主要包括三個功能模塊,分別是:校園網(wǎng)輿情信息采集模塊、互聯(lián)網(wǎng)輿情信息采集模塊、網(wǎng)絡(luò)輿情分析與預(yù)警模塊,體系結(jié)構(gòu)如圖1所示。
圖1 高校網(wǎng)絡(luò)輿情檢測系統(tǒng)體系結(jié)構(gòu)
由于高校對校園網(wǎng)絡(luò)具有較大的控制權(quán)限,一部分信息數(shù)據(jù)可利用各種信息發(fā)布系統(tǒng)的管理平臺與數(shù)據(jù)庫的訪問權(quán)限來獲?。涣硪徊糠挚衫镁W(wǎng)絡(luò)爬蟲從網(wǎng)頁數(shù)據(jù)中獲取,系統(tǒng)基于Nutch搜索引擎技術(shù)對校園網(wǎng)內(nèi)數(shù)據(jù)進行信息采集,采集的深度與廣度都達到了較好的效果。對于互聯(lián)網(wǎng)上的海量網(wǎng)絡(luò)信息,如果采用垂直搜索引擎進行數(shù)據(jù)采集,所獲取的數(shù)據(jù)質(zhì)量不高,為此系統(tǒng)采用元搜索引擎技術(shù)來獲取互聯(lián)網(wǎng)信息,既提高了信息采集的針對性又擴大了采集范圍。此外,對于某些特定的互聯(lián)網(wǎng)網(wǎng)站,可以采取以上兩種方式相結(jié)合的監(jiān)測方式,同時采用網(wǎng)絡(luò)爬蟲與元搜索引擎技術(shù),來提高系統(tǒng)的監(jiān)測精度。
網(wǎng)絡(luò)輿情分析與預(yù)警模塊采用關(guān)鍵詞特征庫匹配方式和機器學(xué)習(xí)算法自動進行網(wǎng)絡(luò)輿情監(jiān)測,實現(xiàn)對輿情信息及時準確的發(fā)現(xiàn),并與短信預(yù)警等系統(tǒng)接口實現(xiàn)對接,實現(xiàn)輿情信息的實時發(fā)送。
2 系統(tǒng)主要功能模塊
2.1 Nutch搜索引擎與校園網(wǎng)信息檢索
Nutch是一個開源的Java實現(xiàn)的Web搜索引擎,其在Lucene基礎(chǔ)上添加了網(wǎng)頁數(shù)據(jù)抓取功能,提供了構(gòu)建搜索引擎所需的基本工具模塊,包括網(wǎng)絡(luò)爬蟲、文本分析、分詞工具、建立索引、搜索功能和結(jié)果過濾等。Lucene是一個高性能、可伸縮的信息搜索庫,可為Nutch提供了文本索引和搜索的API,也可為應(yīng)用程序添加索引和搜索功能,通過Lucene的數(shù)據(jù)庫接口直接從數(shù)據(jù)庫中取出數(shù)據(jù),用API 建立索引并提供搜索接口。利用Nutch搜索引擎作為校園網(wǎng)輿情信息采集工具,不但可以縮短開發(fā)周期,提高開發(fā)效率,而且通過其內(nèi)部的接口和插件機制可以實現(xiàn)對校園網(wǎng)數(shù)據(jù)的高質(zhì)量采集。網(wǎng)絡(luò)爬蟲模塊用來實現(xiàn)對校園網(wǎng)內(nèi)網(wǎng)頁文件的信息采集;Lucene接口實現(xiàn)與各種異構(gòu)數(shù)據(jù)庫的連接;利用Nutch的插件機制,采用POI插件和PDFBox插件來實現(xiàn)對Word、Excel、PDF等文檔的讀取。通過上述三種方式可以實現(xiàn)對校園網(wǎng)內(nèi)多種異構(gòu)數(shù)據(jù)源的信息采集。
2.2 元搜索引擎與互聯(lián)網(wǎng)信息采集
元搜索引擎是建立在獨立搜索引擎之上的搜索引擎。元搜索引擎沒有自己的爬蟲系統(tǒng)和索引系統(tǒng),數(shù)據(jù)全部來自于不同的成員搜索引擎(例如 Baidu, Google, Bing等),元搜索引擎將用戶的搜索請求轉(zhuǎn)發(fā)給多個成員搜索引擎,對成員搜索引擎的查詢結(jié)果進行篩選與去重操作后返回給用戶。將元搜索引擎應(yīng)用于系統(tǒng)可有效提高互聯(lián)網(wǎng)范圍內(nèi)輿情信息采集的廣度、精度和速度。各獨立搜索引擎查詢接口的格式和編碼并不相同,首先要將元搜索引擎中的檢索條件轉(zhuǎn)換為各獨立成員搜索引擎能夠接受的格式,并通過各自的查詢接口提交,然后對獲得的HTML源文件格式的檢索結(jié)果進行分析、處理,如百度搜索引擎返回結(jié)果中所包含的em、href標簽,通過對上述標簽信息的解析與提取,可以獲得與之相對應(yīng)的鏈接地址、網(wǎng)頁標題以及部分說明文字,將上述信息處理為結(jié)構(gòu)化數(shù)據(jù)后存放到相應(yīng)的數(shù)據(jù)庫中。再通過對不同獨立成員搜索引擎所獲取的輿情信息的鏈接地址和網(wǎng)頁標題等信息的對比和有效性檢測來實現(xiàn)結(jié)果的篩選和去重,然后將最終結(jié)果提交給Nutch的文檔分析與分詞模塊,建立索引。
2.3 文檔分析與中文分詞
信息檢索的基礎(chǔ)是文檔分析,而文檔分析在很大程度上依賴于分詞模塊對語言的處理。文檔分析是信息采集完成后的首要任務(wù),Nutch中的文本分析模塊能夠完成對各異構(gòu)文件中結(jié)構(gòu)化標記語言的處理,得到純文本文件。Nutch自帶的CJK分詞模塊在中文分詞的效率和準確度上不能滿足實際需要。為此,在對比了JE分詞、Paoding分詞和ICTCLAS分詞等多款中文分詞模塊后,Paoding分詞由于其開源性和良好的分詞效果被本系統(tǒng)采用,并通過Nutch的插件機制集成到系統(tǒng)當中。其原理是Nutch中的抽象類Analyzer類實現(xiàn)了配置和插入中文分詞模塊的接口,該抽象類中定義了一個公有的抽象方法tokenStream(String fieldname,Reader reader)返回的類型是TokenStream。Paoding分詞的分詞類返回類型也是TokenStream,故只需將參數(shù)fieldName和reader作為Paoding分詞的輸入?yún)?shù)并將其結(jié)果返回給Analyzer類即可。
2.4 信息索引與檢索
系統(tǒng)為校園網(wǎng)和互聯(lián)網(wǎng)內(nèi)的多個異構(gòu)數(shù)據(jù)源分別建立了各自的索引文件,為有效整合索引文件,并將其作為統(tǒng)一的索引庫提供給輿情分析與預(yù)警模塊,需要對索引文件進行優(yōu)化。索引優(yōu)化其實是將多個索引文件合并成單個文件的過程,目的是減少索引文件的數(shù)量,并且能在搜索時減少讀取索引文件的時間。Nutch中的IndexWrite類提供了optimize方法實現(xiàn)該優(yōu)化操作。索引優(yōu)化完成后,利用Nutch中的MultiSearcher類可實現(xiàn)對優(yōu)化后索引的統(tǒng)一檢索功能,檢索結(jié)果會以一種指定的順序合并起來。針對高校網(wǎng)絡(luò)輿情信息的特點,綜合考慮信息相關(guān)度,時效性和訪問量等因素后,系統(tǒng)采用了自定義的排序機制,Lucene的文本相關(guān)度公式作為信息檢索的主要排序依據(jù),輔助以信息發(fā)布時間和訪問次數(shù)作為重要的排序因子,系統(tǒng)通過Lucene的激勵因子boost值來改變文檔得分,從而調(diào)整文檔的出現(xiàn)順序。
2.5 信息預(yù)警
系統(tǒng)采用關(guān)鍵詞特征庫匹配與機器學(xué)習(xí)算法相結(jié)合的方式對輿情信息進行預(yù)警。在對特征庫內(nèi)的關(guān)鍵詞進行組合后,對輿情信息索引庫進行檢索,獲取與之相關(guān)的信息,再通過與數(shù)據(jù)庫中歷史記錄的比對得到最新發(fā)現(xiàn)的輿情信息。對新發(fā)現(xiàn)的輿情信息通過聚類算法對信息進行分類,從而獲得輿情信息的分析結(jié)果;系統(tǒng)提供了良好的人機交互接口與信息展示界面,預(yù)警信息通過短信接口發(fā)送給網(wǎng)絡(luò)輿情監(jiān)測人員,做到輿情信息的及時發(fā)現(xiàn)、快速預(yù)警。
3 應(yīng)對機制研究
高校網(wǎng)絡(luò)輿情除了要依靠技術(shù)手段進行防范與監(jiān)測外,還要構(gòu)建合理的網(wǎng)絡(luò)輿情應(yīng)急響應(yīng)組織的架構(gòu)。網(wǎng)絡(luò)輿情突發(fā)性強、傳播速度快,因此高校必須整合各部門資源,成立專門的網(wǎng)絡(luò)輿情應(yīng)急響應(yīng)小組,其組織結(jié)構(gòu)圖如圖2所示,由校領(lǐng)導(dǎo)直接擔任組長,以黨委宣傳部為核心,校辦、學(xué)工部和網(wǎng)絡(luò)中心為重要組成成員,其他部門密切配合,建立起一支高效的網(wǎng)絡(luò)輿情應(yīng)急響應(yīng)隊伍。網(wǎng)絡(luò)輿情事件一旦發(fā)生,應(yīng)立即啟動應(yīng)急預(yù)案,預(yù)案應(yīng)包括信息收集、分析應(yīng)對、部門聯(lián)動和引導(dǎo)反饋四個環(huán)節(jié)。各部門由網(wǎng)絡(luò)輿情應(yīng)急響應(yīng)小組統(tǒng)一領(lǐng)導(dǎo),預(yù)案中的各環(huán)節(jié)可同時啟動,要實現(xiàn)技術(shù)手段與思想教育工作并重,防止事態(tài)擴大,力爭快速及時的化解輿情危機。
圖2 網(wǎng)絡(luò)輿情應(yīng)急響應(yīng)小組組織結(jié)構(gòu)圖
4 結(jié)束語
通過對高校網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的研究,實現(xiàn)了基于Nutch與元搜索引擎技術(shù)的高校網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),解決了多數(shù)據(jù)源、異構(gòu)信息檢索的難點;引入元搜索引擎技術(shù),完成與源搜索引擎的對接,達到了較高的查全率;采用關(guān)鍵詞、敏感詞特征庫匹配與機器學(xué)習(xí)算法相結(jié)合的方式對采集信息進行分析處理,提高了系統(tǒng)的準確率,最終實現(xiàn)了高校網(wǎng)絡(luò)輿情信息的早發(fā)現(xiàn),早預(yù)警,從而彌補了高校網(wǎng)絡(luò)輿情監(jiān)測技術(shù)手段上的不足;通過對網(wǎng)絡(luò)輿情的自動采集、分析與預(yù)警替代了人工操作,提高了工作效率,并且能夠?qū)浨樾畔⑦M行快速、準確的發(fā)現(xiàn)。目前該系統(tǒng)依靠關(guān)鍵詞匹配的方式進行輿情信息發(fā)現(xiàn),并用聚類算法對發(fā)現(xiàn)的輿情信息進行分類,該方法對已知關(guān)鍵詞的輿情信息能夠取得較好的效果,但對未知關(guān)鍵詞的信息還無法實現(xiàn)有效監(jiān)測,今后將進一步加強對這方面的研究。通過高校網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的部署和應(yīng)對機制的構(gòu)建,高校能夠從整體上實現(xiàn)對網(wǎng)絡(luò)輿情隱患的及早發(fā)現(xiàn)、快速響應(yīng)、應(yīng)急控制、主動疏導(dǎo)和反饋調(diào)整,促進了高校的穩(wěn)定與和諧發(fā)展。
參考文獻:
[1] 羅剛.解密搜索引擎技術(shù)實戰(zhàn)Lucene &Java精華版[M].電子工業(yè)出
版社,2014.
[2] 王雪松.Lucene+Nutch搜索引擎[M].人民郵電出版社,2008.
[3] 邱哲,符滔滔,王雪松.開發(fā)自己的搜索引擎Lucene+Heritrix[M].人民
郵電出版社,2010.
[4] 費洪曉,莫天池,秦啟飛.社交網(wǎng)絡(luò)相關(guān)機制應(yīng)用于搜索引擎的研究
綜述[J].計算技術(shù)與自動化,2014.1:1-9
[5] 董堅峰.基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警研究[J]. 現(xiàn)代情報,
2014.2:43-51
[6] 戴維民,劉軼.我國網(wǎng)絡(luò)輿情信息工作現(xiàn)狀及對策思考[J]. 圖書情報
工作,2014.1:24-29
[7] 樸辰熙.元搜索引擎的原理與革新[J].電子技術(shù)與軟件工程,
2013.23:34-34
[8] 李俊俊.中國高校網(wǎng)絡(luò)輿情探究[J].廣西民族師范學(xué)院學(xué)報,2014.1:
126-129