于 琨,孫新領(lǐng)
(河南機電高等??茖W(xué)校計算機科學(xué)與技術(shù)系,河南新鄉(xiāng)453000)
目前,在我國近3億龐大規(guī)模的網(wǎng)絡(luò)輿情主體[1]中,學(xué)生網(wǎng)民規(guī)模已達到7600萬人,其中高校大學(xué)生網(wǎng)民比例就占據(jù)了21.2%。相對于一般社會群體,高校大學(xué)生是對社會諸多現(xiàn)象、現(xiàn)實和問題等反應(yīng)最為敏感的重要群體,加上高校大學(xué)生自身知識積累不足、社會閱歷不夠豐富、思維不夠嚴(yán)密、情感活躍,易受到錯誤言論的蒙蔽和誤導(dǎo)等特點,以及高校校園網(wǎng)絡(luò)輿情監(jiān)測與預(yù)警手段方面的嚴(yán)重不足,使得高校校園最易成為網(wǎng)絡(luò)輿情的發(fā)源地和擴散地。
所以,能否對校園網(wǎng)絡(luò)輿情進行科學(xué)正確的引導(dǎo)、規(guī)范,進一步發(fā)揮網(wǎng)絡(luò)輿論的積極作用,克服其消極作用,是構(gòu)建社會主義和諧校園面臨的重要課題,是高校思想政治教育工作的內(nèi)在要求,亦是衡量高等院校輿情應(yīng)對能力的一項重要標(biāo)準(zhǔn)。
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)[2]需要通過對互聯(lián)網(wǎng)上各類信息進行采集、分類、整合、篩選等技術(shù)處理,來實現(xiàn)對網(wǎng)絡(luò)熱點、輿情動態(tài)、網(wǎng)民意見等實時統(tǒng)計報表的具體功能。通過對熱點問題和重點領(lǐng)域比較集中的網(wǎng)站信息,如:各大網(wǎng)站、論壇、百度貼吧、校內(nèi)BBS、微博等,進行24小時監(jiān)控,隨時采集最新的消息和意見,然后完成對數(shù)據(jù)格式的轉(zhuǎn)換及元數(shù)據(jù)的標(biāo)引。同時對采集到本地的信息,進行初步的過濾和預(yù)處理。對熱點問題和重要領(lǐng)域?qū)嵤┍O(jiān)控,并在監(jiān)控知識庫的指導(dǎo)下進行基于輿情的語義分析,使管理者看到的民情民意更有效,更符合現(xiàn)實。最后將監(jiān)控的結(jié)果,分別推送到不同的職能部門,供制定對策使用。
本課題的主要思路是針對高校校園網(wǎng)絡(luò)管理及輿情發(fā)生特點開發(fā)一個基于網(wǎng)絡(luò)信息挖掘技術(shù)的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),利用網(wǎng)絡(luò)蜘蛛技術(shù)、中文分詞技術(shù)和文本聚類技術(shù),通過對互聯(lián)網(wǎng)信息采集、處理,輿情識別分析,進行公共危機和熱點事件的輿情監(jiān)測,對高校網(wǎng)絡(luò)輿情進行監(jiān)測和預(yù)警。
該系統(tǒng)的功能模塊設(shè)置如圖1所示:
圖1 系統(tǒng)功能模塊圖
系統(tǒng)采用C#作為編程語言,采用 Microsoft Visual Studio2005作為開發(fā)工具,采用客戶端/服務(wù)器(C/S)與瀏覽器/服務(wù)器(Browser/Server)作為開發(fā)結(jié)構(gòu),數(shù)據(jù)庫采用SQL Server 2005,Web服務(wù)器采用 IIS。
4.2.1 Web 信息挖掘技術(shù)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)挖掘技術(shù)被運用到網(wǎng)絡(luò)上,并根據(jù)網(wǎng)絡(luò)信息的特點發(fā)展出新的理論與方法,演變成Web信息挖掘技術(shù)。Web信息挖掘是指對目標(biāo)樣本進行分析并提取特征,以此為依據(jù)從Web文檔和Web活動中抽取人們感興趣、潛在的有用模式和隱藏的信息。所挖掘出的知識能夠用于信息管理、查詢處理、決策支持、過程控制等方面,信息挖掘流程如圖2所示。
圖2 Web信息挖掘流程圖
4.2.2 網(wǎng)絡(luò)蜘蛛技術(shù)
本文采用網(wǎng)絡(luò)蜘蛛作為獲取輿情語料的輔助工具。
圖3 網(wǎng)絡(luò)蜘蛛工作流程圖
網(wǎng)絡(luò)蜘蛛[3]實質(zhì)上是一個爬行程序,一個抓取網(wǎng)頁的爬行程序,通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止(如圖3所示)。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站的話,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。
4.2.3 中文分詞技術(shù)
中文分詞技術(shù)是中文信息處理領(lǐng)域的一項基礎(chǔ)性課題,也是智能化中文信息處理的關(guān)鍵,中文分詞系統(tǒng)的實現(xiàn)及效果依賴于分詞理論與方法。
現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。由于基于統(tǒng)計的分詞方法對歧義、新詞的識別能力強、分詞的準(zhǔn)確性高以及技術(shù)成熟、便于實施等方面的優(yōu)勢,結(jié)合網(wǎng)絡(luò)輿情的特點,基于統(tǒng)計的分詞更為適合網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的研究。
4.2.4 文本聚類技術(shù)
文本聚類技術(shù)是文本挖掘分析技術(shù)的一個重要研究分支。它是在無類別標(biāo)記信息的情況下,根據(jù)事物的不同特征,將事物劃分為不同的組,使得不同聚類中的數(shù)據(jù)盡可能的不同,而同一聚類中的數(shù)據(jù)盡可能的相似。近年來,文本聚類較多應(yīng)用于自動產(chǎn)生文本的多層次的類或者簇,并利用這些生成的類對新文本進行高效率的歸類。
4.3.1 信息采集模塊
信息采集模塊為整個輿情監(jiān)測系統(tǒng)的基礎(chǔ)模塊,該模塊主要完成了對指定數(shù)據(jù)采集空間內(nèi)的信息資源進行采集與存儲。該模塊所采集的信息資源,將作為輿情分析的有效文本集。
4.3.2 信息處理模塊
信息處理模塊包含兩個工作:分詞與建立索引。該模塊主要對信息采集過程采集到的文本數(shù)據(jù)庫進行讀取,逐條進行數(shù)據(jù)清理,去除文本中的腳本等無用信息,提取出文本的標(biāo)題、內(nèi)容,并利用 Lucene.Net對文本進行分詞索引,為熱點話題發(fā)現(xiàn)模塊創(chuàng)建文本模型提供數(shù)據(jù)資源。
4.3.3 輿情熱點發(fā)現(xiàn)模塊
輿情熱點發(fā)現(xiàn)模塊是整個系統(tǒng)的核心模塊,是輿情監(jiān)控以及輿情熱點的發(fā)現(xiàn)、突發(fā)事件的發(fā)現(xiàn)等功能的實現(xiàn)模塊,該模塊主要利用文本聚類技術(shù),對獲得的文本信息進行聚類分析,獲取聚類中心,即輿情熱點。
4.3.4 輿情分析模塊
輿情分析模塊使用了B/S設(shè)計模式,便于各級管理部門及輿情觀察人員隨時隨地可觀察到當(dāng)前輿情信息。
系統(tǒng)在進行輿情分析后,利用SQL Server2005的ETL功能對輿情信息進行清洗,存儲至數(shù)據(jù)倉庫中,建立維度模型。ETL主要分為四個步驟:分別是抽取、清洗、一致性處理和交付。
4.3.5 輿情預(yù)警模塊
輿情預(yù)警模塊[4]主要是針對輿情分析模塊交付的熱點信息與突發(fā)事件進行監(jiān)聽分析,然后根據(jù)信息的語料庫與報警監(jiān)控信息庫進行分析,將某一具體網(wǎng)絡(luò)輿情信息的安全性劃分為安全、較安全、臨界、較危險、危險五個區(qū)間,從而針對某一網(wǎng)絡(luò)輿情信息的安全指數(shù)通過圖表等形式呈現(xiàn)給高校專業(yè)化網(wǎng)絡(luò)政工的研判人員和監(jiān)管人員的機制,能幫助他們及早發(fā)現(xiàn)輿情信息,從而實現(xiàn)對高校重大輿情事件的及時響應(yīng)。
本課題所開發(fā)的高校網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),著重于實現(xiàn)輿情熱點與話題信息的推送與跟蹤功能,可進一步分析輿情內(nèi)容的觀點與態(tài)度問題,篩選并判定各級別網(wǎng)絡(luò)輿情的發(fā)生,這對于高等院校充分利用網(wǎng)絡(luò)輿情傾聽學(xué)生的呼聲,變網(wǎng)絡(luò)輿情由被動為主動,進一步加強新聞宣傳和信息傳播的安全管理、引導(dǎo)輿情發(fā)展、制定策略方針,并及時采取措施進行有效的干預(yù),緩解輿論壓力,建設(shè)和諧校園具有重要的應(yīng)用價值和意義。
[1] 徐楠,戴媛.面向高校網(wǎng)絡(luò)輿情安全的監(jiān)管與預(yù)警研究[J].信息系統(tǒng)工程,2009,(7):62 -66.
[2] 梅中玲.基于Web信息挖掘的網(wǎng)絡(luò)輿情分析技術(shù)[J].中國人民公安大學(xué)學(xué)報(自然科學(xué)版),2007,(4):85 -88.
[3] 李振.網(wǎng)絡(luò)輿情預(yù)測關(guān)鍵技術(shù)研究[D].鄭州:鄭州大學(xué),2010.
[4] 羅暉霞.網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)研究與開發(fā)[D].太原:中北大學(xué),2010.