張玉芬 馬春光 胡曉旭
摘 要:隨著互聯(lián)網(wǎng)的飛速發(fā)展,多數(shù)人已經(jīng)把它作為獲取信息的首選途徑。與此同時(shí),少數(shù)不法分子開始借助互聯(lián)網(wǎng)與政府為敵,極大地危害了社會(huì)的安定。尤其是校園網(wǎng),網(wǎng)民都是些思想還未完全成熟的學(xué)生,受到蠱惑和慫恿的概率極高,目前部分高校對(duì)此已經(jīng)高度重視?;诖?,給出了校園網(wǎng)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的架構(gòu)設(shè)計(jì)方案,具體描述了網(wǎng)頁信息源設(shè)定、網(wǎng)頁信息采集、輿情分析、輿情處理等組成模塊的功能及關(guān)鍵技術(shù),為理解和構(gòu)建校園網(wǎng)信息輿情監(jiān)控系統(tǒng)提供參考。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;監(jiān)控系統(tǒng);高校校園
引言
我國目前已有5.91億網(wǎng)民,而在這眾多網(wǎng)民中學(xué)生恰恰是數(shù)量最大的一個(gè)群體,占比達(dá)到了26.8%。計(jì)算機(jī)網(wǎng)絡(luò)的進(jìn)一步普及,一方面,雖然給眾多網(wǎng)民的生活和工作帶來非常大的便利;但另一方面,與網(wǎng)絡(luò)相關(guān)的漏洞問題和黑客攻擊問題,也給網(wǎng)民造成了一定的損失。現(xiàn)在流行的網(wǎng)絡(luò)交互平臺(tái),如博客、論壇、微博、即時(shí)通信軟件、QQ群、微信等,其功能主要是為人民大眾提供表達(dá)個(gè)人觀點(diǎn)和抒發(fā)個(gè)人情感的公共虛擬場所。但是,一小撮惡意分子卻利用它們對(duì)民眾進(jìn)行煽風(fēng)點(diǎn)火,刺激負(fù)面情緒的萌生和爆發(fā)。校園網(wǎng)的公共安全就顯得更加重要,因?yàn)樗嫦虻氖歉咝H藬?shù)眾多的學(xué)生網(wǎng)民,而且學(xué)生們正處于思想還未完全成熟,情緒波動(dòng)大,極易受到網(wǎng)絡(luò)負(fù)面新聞的影響。所以,在網(wǎng)絡(luò)盛行的當(dāng)今時(shí)代,為了讓高等教育更好地開花結(jié)果,必須盡可能的監(jiān)控高校學(xué)生上網(wǎng)的渠道,加以網(wǎng)絡(luò)教育,必要時(shí)進(jìn)行網(wǎng)絡(luò)引導(dǎo)?;ヂ?lián)網(wǎng)上的網(wǎng)絡(luò)輿情信息是關(guān)乎社會(huì)與校園安全穩(wěn)定的一個(gè)重要因素,所以網(wǎng)絡(luò)輿論監(jiān)控和分析成為研究的熱點(diǎn)問題。
一、國內(nèi)外網(wǎng)絡(luò)輿情的現(xiàn)狀
網(wǎng)絡(luò)輿情指的是公眾通過有線或者無線這樣的信息網(wǎng)絡(luò),針對(duì)公共事務(wù)和現(xiàn)象發(fā)表的個(gè)人意見和建議,隱藏在海量的網(wǎng)民言論中。由于網(wǎng)絡(luò)輿情具有海量和隱蔽的特征,如果單單依靠人工判讀這種傳統(tǒng)的方式來分析的話,效率勢必極其低下,并且最為重要的目標(biāo)是輿情的統(tǒng)計(jì)特征將很難從中獲知,特別是如果采用傳統(tǒng)的人工方法來跟蹤重點(diǎn)網(wǎng)民的話,更加是不現(xiàn)實(shí)的。但是,緊隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,可以方便地采用計(jì)算機(jī)技術(shù)對(duì)網(wǎng)絡(luò)言論進(jìn)行自動(dòng)地提取、分析和處理,進(jìn)而監(jiān)控和引導(dǎo)網(wǎng)絡(luò)輿情,這已經(jīng)成為當(dāng)前首選的有效且可行的方法[1]。
國外的一些市場機(jī)制已然趨于成熟的發(fā)達(dá)國家,更多倡導(dǎo)通過市場自動(dòng)調(diào)節(jié)機(jī)制和行業(yè)的自律對(duì)網(wǎng)絡(luò)輿情進(jìn)行管理。例如,加拿大政府把網(wǎng)絡(luò)輿情分為攻擊性信息和非法信息兩類,前者需要通過加強(qiáng)行業(yè)和用戶的自律性;與此同時(shí),輔以網(wǎng)絡(luò)知識(shí)教育和自律性道德規(guī)范的制約來解決,并且已經(jīng)取得了良好的管理效果。而后者則是以法律為依據(jù),按法律進(jìn)行制裁,他們實(shí)行的是“自我規(guī)制”制度。目前,IBM公司已經(jīng)推出了采用先進(jìn)的語義和文本分析技術(shù)的網(wǎng)絡(luò)輿論監(jiān)控方面的綜合解決方案。該方案對(duì)如下網(wǎng)絡(luò)應(yīng)用:BLOG、Wiki、BBS論壇、新聞組、讀者評(píng)論、網(wǎng)摘等。該方案從監(jiān)控技術(shù)上說,就屬于比較成熟的。而在我們國家,目前主要是研究對(duì)輿論信息的監(jiān)控和引導(dǎo)、如何進(jìn)行組織管理和法律保護(hù)以及關(guān)鍵技術(shù)的算法實(shí)現(xiàn)等相關(guān)內(nèi)容[2]。
二、校園網(wǎng)信息輿情監(jiān)控系統(tǒng)的組成
1.功能介紹
該系統(tǒng)能夠?qū)Ω咝W(xué)生們常常訪問的校園網(wǎng)網(wǎng)站,如學(xué)校主頁、校內(nèi)各級(jí)下屬學(xué)院和各其他部門的主頁、學(xué)校的BBS等的網(wǎng)頁信息自動(dòng)進(jìn)行抓取、分類和聚類分析、熱點(diǎn)和焦點(diǎn)的統(tǒng)計(jì)、跟蹤等,最終客觀而全面地把輿情結(jié)果以報(bào)告的形式提供出來,從中可以洞悉學(xué)生們的熱點(diǎn)和敏點(diǎn)話題,及時(shí)發(fā)現(xiàn)有害的輿情導(dǎo)向信息,為校方有效疏通學(xué)生不良情緒,作出科學(xué)引導(dǎo)提供有效依據(jù),并且可以通過信息群發(fā)技術(shù)進(jìn)行積極地輿情引導(dǎo)。
2.總體框架
通過對(duì)系統(tǒng)功能和業(yè)務(wù)流程的分析得知,該系統(tǒng)可劃分為網(wǎng)頁信息源設(shè)定、網(wǎng)頁信息采集模塊、輿情分析模塊和輿情處理模塊這四個(gè)核心部分,下圖描述了該系統(tǒng)的組成結(jié)構(gòu)。
圖1 高校校園網(wǎng)信息輿情監(jiān)控系統(tǒng)的組成結(jié)構(gòu)
3.網(wǎng)頁信息源設(shè)定
該部分是整個(gè)校園網(wǎng)信息輿情監(jiān)控系統(tǒng)的數(shù)據(jù)來源。按照功能需求,該系統(tǒng)既可以采集來自論壇、博客、綜合性網(wǎng)站等的網(wǎng)頁信息,又可以采集用戶自定義的關(guān)注網(wǎng)站。所以,設(shè)置的網(wǎng)頁信息來源主要有兩種,一是常見的搜索引擎,二是用戶自己定義的需要注意的網(wǎng)址列表,可以存放在文本文件中?;ヂ?lián)網(wǎng)Web頁面中包含著非常多的數(shù)據(jù)信息,可以把它看做是一個(gè)大的數(shù)據(jù)庫,正是我們所需要的信息來源。
4.網(wǎng)頁信息采集模塊
網(wǎng)頁信息采集模塊可以根據(jù)事先設(shè)置好的關(guān)鍵字,從搜索引擎和自定義網(wǎng)址列表所對(duì)應(yīng)的網(wǎng)站中連續(xù)地采集網(wǎng)頁信息,并對(duì)信息進(jìn)行預(yù)處理操作,處理之后將有效數(shù)據(jù)存放到輿情數(shù)據(jù)庫中。由于網(wǎng)頁的更新較為頻繁,增長速度又特別快,而且頁面中多是些結(jié)構(gòu)不規(guī)整的數(shù)據(jù),所以,對(duì)網(wǎng)頁進(jìn)行信息采集是十分復(fù)雜的,下面將列出該模塊實(shí)現(xiàn)的主要關(guān)鍵技術(shù)。
(1)抓取網(wǎng)頁??梢岳盟阉饕嫠赜械木W(wǎng)絡(luò)爬蟲程序,順著超鏈接進(jìn)行一級(jí)一級(jí)地抓取網(wǎng)頁。經(jīng)常被人們使用的有兩種抓取網(wǎng)頁的思路,分別是深度優(yōu)先和寬度優(yōu)先遍歷策略。
(2)處理網(wǎng)頁。主要包括提取關(guān)鍵內(nèi)容、對(duì)數(shù)據(jù)進(jìn)行清理和對(duì)內(nèi)容進(jìn)行去重。提取內(nèi)容和清理數(shù)據(jù)過程指的是,首先,當(dāng)網(wǎng)頁抓取以后,先要把網(wǎng)頁上與文本沒有任何關(guān)系的內(nèi)容清理掉;然后,提取網(wǎng)頁的內(nèi)容和標(biāo)題;最后,采用人工和機(jī)器學(xué)習(xí)的方式來設(shè)定抽取模板,由于不同類型的網(wǎng)頁,需要抽取的內(nèi)容不同。內(nèi)容去重涉及到自然語言的處理,具體過程是,先過濾掉沒有意義或者內(nèi)容有重復(fù)的網(wǎng)頁,然后再對(duì)文本進(jìn)行分詞處理,可以使用以詞典為基礎(chǔ)、規(guī)則與統(tǒng)計(jì)相結(jié)合的分詞方法進(jìn)行。
5.網(wǎng)頁數(shù)據(jù)庫
采集所得來的網(wǎng)頁數(shù)據(jù)可以利用企業(yè)級(jí)數(shù)據(jù)庫進(jìn)行存儲(chǔ),這樣數(shù)據(jù)庫管理系統(tǒng)自身具備的功能可被充分利用,能夠非常方便地按照用戶的需求對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行操作,同時(shí)成為輿情分析模塊的數(shù)據(jù)來源。
6.輿情分析模塊
輿情分析模塊是整個(gè)輿情系統(tǒng)的重中之重,它建立在網(wǎng)頁信息采集模塊和網(wǎng)頁數(shù)據(jù)庫的基礎(chǔ)之上,主要功能包括以下三方面。一是對(duì)輿情觀點(diǎn)進(jìn)行傾向性分析。主要是運(yùn)用人工智能和模糊匹配的方式,通過對(duì)數(shù)據(jù)信息進(jìn)行概念化,進(jìn)而把用戶的觀點(diǎn)分析出來,包括情感、喜好、態(tài)度等非內(nèi)容的信息,從而明確用戶的意圖。二是對(duì)熱點(diǎn)和焦點(diǎn)事件的識(shí)別功能。焦點(diǎn)事件是指某一輿情信息在某一段時(shí)間內(nèi)被媒體播出或者刊登次數(shù)較多;熱點(diǎn)事件是指某一輿情信息在某一段時(shí)間內(nèi)更多地被關(guān)注或者被集中地關(guān)注,可以采用相關(guān)網(wǎng)頁數(shù)量來測量,也即關(guān)注度。三是對(duì)焦點(diǎn)事件和重點(diǎn)網(wǎng)民的跟蹤,最終形成關(guān)聯(lián)分析和趨勢分析。該模塊主要由文本分類、文本聚類、話題識(shí)別和跟蹤處理等部分組成,關(guān)鍵技術(shù)主要是以上各部分所涉及的算法。
7.輿情處理模塊
輿情處理是在輿情分析之后,需要根據(jù)用戶的需求做出相應(yīng)的處理報(bào)告,為相關(guān)部門提供決策支持。該模塊的主要功能包括:一是統(tǒng)計(jì)和上報(bào)輿情信息的分析結(jié)果;二是對(duì)輿情進(jìn)行引導(dǎo)。
(1)統(tǒng)計(jì)、上報(bào)功能。為了更清晰地給用戶提供輿情分析的統(tǒng)計(jì)結(jié)果,系統(tǒng)提供了多種形式,如分類查看、熱點(diǎn)統(tǒng)計(jì)、焦點(diǎn)跟蹤、重點(diǎn)網(wǎng)民跟蹤等,尤其是系統(tǒng)能夠預(yù)測分析重點(diǎn)事件的未來發(fā)展趨勢,還能夠根據(jù)設(shè)置的特征信息對(duì)焦點(diǎn)事件和重點(diǎn)網(wǎng)民自動(dòng)識(shí)別,這些分析和統(tǒng)計(jì)得出的結(jié)果將會(huì)自動(dòng)形成報(bào)表。其中,分類查看是能夠以分類形式來顯示最新搜索到的網(wǎng)頁信息;熱點(diǎn)統(tǒng)計(jì)指的是能夠把網(wǎng)絡(luò)上用戶關(guān)心最多的網(wǎng)頁一一列舉出來;焦點(diǎn)事件定義為眾多網(wǎng)民較為關(guān)心的事件,并且對(duì)其進(jìn)行跟蹤,系統(tǒng)從而能夠查找出與此事件有關(guān)的全部網(wǎng)頁信息,這便是焦點(diǎn)跟蹤[3]。跟蹤重點(diǎn)網(wǎng)民是對(duì)用戶最為感興趣的重點(diǎn)網(wǎng)民進(jìn)行實(shí)時(shí)跟蹤,并且能夠根據(jù)時(shí)間段設(shè)置來列出該重點(diǎn)網(wǎng)民的所有言論信息。
(2)輿情引導(dǎo)功能。采用基于信息群發(fā)的推送技術(shù)對(duì)輿情進(jìn)行引導(dǎo),該方法指的是利用信息群發(fā)軟件,通過論壇,即時(shí)通訊或電子郵件等方式,大量地向用戶發(fā)送網(wǎng)頁信息或手機(jī)短信,這些用戶包括互聯(lián)網(wǎng)用戶或者移動(dòng)通信網(wǎng)的用戶等[4]。為了達(dá)到引導(dǎo)網(wǎng)絡(luò)輿情的目的,對(duì)于那些焦點(diǎn)事件,需要用戶進(jìn)行正確引導(dǎo),可以將事先設(shè)定的發(fā)言內(nèi)容,使用信息群發(fā)技術(shù),大批量地發(fā)送到聊天群或者主流的論壇等網(wǎng)站,這種引導(dǎo)方法與傳統(tǒng)輿情引導(dǎo)方式(社會(huì)管理者主動(dòng)干預(yù)互聯(lián)網(wǎng))相比,更加隱蔽、更加柔和,成本也更加低廉,最為重要的是此種方法信息宣傳效果更加好一些,并且不容易被網(wǎng)民察覺。
結(jié)語
目前,網(wǎng)絡(luò)輿情監(jiān)控是一個(gè)比較新的研究領(lǐng)域,它不但能夠促進(jìn)互聯(lián)網(wǎng)輿情信息挖掘理論的進(jìn)步,而且能夠解決提取網(wǎng)頁中有用信息的實(shí)現(xiàn)技術(shù)上的難題,進(jìn)而及時(shí)地對(duì)校園以及社會(huì)輿情的變化情況作出快速的響應(yīng)。本文對(duì)校園網(wǎng)信息輿情監(jiān)控系統(tǒng)的功能和規(guī)劃設(shè)計(jì)過程做了初步的研究,主要是利用科學(xué)的手段和先進(jìn)的技術(shù)對(duì)網(wǎng)頁信息進(jìn)行采集、分析和處理,來實(shí)現(xiàn)對(duì)高校校園網(wǎng)絡(luò)信息輿情的動(dòng)態(tài)關(guān)注和積極引導(dǎo),為高校的相關(guān)部門提供良好的決策支持。
參考文獻(xiàn):
[1] ?蔡洪民,等.校園網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)安全,2013,(2):51-54.
[2] ?何佳,等.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2010,(3),42卷第1期:82-85.
[3] ?劉磊.網(wǎng)絡(luò)輿情分析系統(tǒng)研究[J].情報(bào)探索,2010,(10):106-108.
[4] ?虞欣平,等.一種實(shí)用的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)[J].福建電腦,2011,(6).