蔣春華 劉歡 劉憶寧
【摘 要】易班網(wǎng)是一款高校教育教學(xué),生活服務(wù), 文化娛樂的綜合性互動(dòng)社區(qū)網(wǎng),其參與主體是高校老師和學(xué)生。文章提供了一種監(jiān)測校園輿情的方案,該方案將網(wǎng)絡(luò)爬蟲和敏感詞進(jìn)行對(duì)比搜索來監(jiān)控輿情方向。實(shí)驗(yàn)數(shù)據(jù)表明,通過網(wǎng)絡(luò)爬蟲技術(shù)可以很好的用來監(jiān)測校園輿情。
【關(guān)鍵詞】易班網(wǎng);網(wǎng)絡(luò)爬蟲;敏感詞
The Research and Design about Sensitive Words Monitoring System on Easy Class Network
JIANG Chun-hua LIU Huan LIU Yi-ning
(School of Computer and Information Security, Guilin University of Electronic Technology,Guilin Guangxi 541004,China)
【Abstract】Yi Ban network is a comprehensive interactive community network with function of education and teaching in college,life services, culture and entertainment.A program is proposed to monitor the public opinion of the campus.Comparing the web crawlers and the search of sensitive words,it can monitor the direction of the public opinion.The experimental data shows that web crawlers can be used to monitor the public opinion of the campus.
【Key words】Yi Ban network;Web crawlers;Sensitive words
0 引言
隨著科學(xué)技術(shù)的發(fā)展,信息技術(shù)逐漸走進(jìn)千家萬戶。信息技術(shù)的發(fā)展給人們?nèi)粘I顜肀憷耐瑫r(shí),也給人們生活帶來挑戰(zhàn)。人們崇尚自由,在看不見的網(wǎng)絡(luò)中發(fā)表著自己的觀點(diǎn),而不需要承擔(dān)言論帶來的責(zé)任。有些別有用心的人會(huì)引導(dǎo)網(wǎng)絡(luò)言論,從而達(dá)到自己的目的。因此需要對(duì)網(wǎng)絡(luò)言論進(jìn)行監(jiān)控,防止不明真相的參與者被別有用心的人引導(dǎo)。
在校大學(xué)生是網(wǎng)絡(luò)言論的主力軍,然而由于大學(xué)生普遍涉世未深,極易受到不實(shí)信息和敵對(duì)勢力的蠱惑煽動(dòng),在虛擬網(wǎng)絡(luò)世界里發(fā)表一些激進(jìn)的觀點(diǎn)和言論,影響校園和社會(huì)的穩(wěn)定團(tuán)結(jié)。為此,監(jiān)測大學(xué)生的網(wǎng)上言論,通過大學(xué)生網(wǎng)上言論了解其心理思想和訴求是極其重要的。微博、貼吧、人人網(wǎng)等社交平臺(tái),無需實(shí)名注冊,人員混雜,因此對(duì)這些平臺(tái)上在校大學(xué)生進(jìn)行網(wǎng)絡(luò)輿情[1]監(jiān)控十分困難。易班網(wǎng)是一款專門針對(duì)在校大學(xué)生開發(fā)的互動(dòng)社區(qū),需要實(shí)名注冊。因此可以利用易班網(wǎng)對(duì)大學(xué)生進(jìn)行網(wǎng)絡(luò)言論監(jiān)控[2],從而了解大學(xué)生心理思想和訴求。利用易班網(wǎng)可以很好的了解當(dāng)代大學(xué)生對(duì)于各種網(wǎng)絡(luò)事件的觀點(diǎn)[3]、輿論導(dǎo)向以及大學(xué)生的心理狀態(tài),有利于學(xué)校及時(shí)處理相關(guān)輿情事件、引導(dǎo)輿情的發(fā)展[4]。
1 易班網(wǎng)絡(luò)輿情監(jiān)測方案
圖1 系統(tǒng)流程圖
利用敏感詞監(jiān)測系統(tǒng)對(duì)于易班網(wǎng)絡(luò)輿情監(jiān)測進(jìn)行調(diào)研,在系統(tǒng)開發(fā)過程中綜合各方面因素,使用了Python2.7版本作為開發(fā)語言,MySQL5.1版本作為數(shù)據(jù)庫存儲(chǔ)系統(tǒng),界面設(shè)計(jì)使用Django框架進(jìn)行web展示。該系統(tǒng)主要包括了信息獲取、信息處理、輿情分析和輿情預(yù)警等四個(gè)模塊。程序運(yùn)行流程如圖1。
1.1 信息獲取
對(duì)于易班網(wǎng)絡(luò)言論進(jìn)行分析,發(fā)現(xiàn)用戶言論主要集中在對(duì)文章的評(píng)論[5],因此這一部分是信息獲取的主要途徑。由于每個(gè)學(xué)校都是有相對(duì)應(yīng)的ID,因此我們只需要對(duì)本校對(duì)應(yīng)的
ID域進(jìn)行監(jiān)控和爬蟲爬取,從而獲取到學(xué)校在易班網(wǎng)上所有的文章URL。對(duì)這些URL進(jìn)行存儲(chǔ)和網(wǎng)頁爬取,獲取文章信息以及文章下面的用戶評(píng)論信息。易班網(wǎng)絡(luò)的環(huán)境導(dǎo)致團(tuán)隊(duì)成員需要綜合考慮各個(gè)方面,對(duì)爬蟲進(jìn)行了延時(shí)處理,即每隔一定的時(shí)間(該時(shí)間可以由系統(tǒng)后臺(tái)管理員設(shè)定)對(duì)易班網(wǎng)進(jìn)行爬蟲爬取信息。由于爬蟲在輪回爬取過程中,會(huì)遇到很多重復(fù)URL地址,為此,本系統(tǒng)在對(duì)爬蟲爬取過程中做了去重處理,而且在入庫處理時(shí)對(duì)文章和評(píng)論發(fā)表時(shí)間做了判斷,以確保存儲(chǔ)的數(shù)據(jù)是最新的且避免了重復(fù)數(shù)據(jù)入庫。
1.2 信息處理
信息處理模塊主要是對(duì)獲取到的用戶評(píng)論信息進(jìn)行入庫處理。經(jīng)過分析可知:易班網(wǎng)采用JSON格式的方式處理用戶的評(píng)論數(shù)據(jù)。針對(duì)這種處理方式,對(duì)JSON數(shù)據(jù)進(jìn)行了分析,將數(shù)據(jù)進(jìn)行了分隔,對(duì)文章URL、文章下所有的評(píng)論人員的ID,評(píng)論內(nèi)容、評(píng)論時(shí)間等字段內(nèi)容進(jìn)行了入庫處理。
1.3 輿情分析
輿情分析是輿情監(jiān)控系統(tǒng)的關(guān)鍵模塊。為了便于應(yīng)對(duì)各種突發(fā)情況和管理員針對(duì)不同信息進(jìn)行分析檢索,系統(tǒng)管理員可以在后臺(tái)自主設(shè)定輿情敏感詞。系統(tǒng)利用這些敏感詞和數(shù)據(jù)庫中信息進(jìn)行匹配,找出存在敏感詞的評(píng)論,以及發(fā)表該評(píng)論的人員和文章的URL地址。匹配過程如下:建立敏感詞數(shù)據(jù)庫,將敏感詞與獲取的評(píng)論信息進(jìn)行匹配查找,確定是否存在包含敏感詞的言論。將包含敏感詞的評(píng)論文章ID和評(píng)論信息存儲(chǔ)下來,并且通過E-mail實(shí)時(shí)通知負(fù)責(zé)人員進(jìn)行處理。
1.4 輿情預(yù)警
互聯(lián)網(wǎng)信息的傳播速度很快,輿情的爆發(fā)時(shí)間也具有不可預(yù)料性,而管理人員不可能實(shí)時(shí)在線,因此,及時(shí)預(yù)警輿情是網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)不可或缺的功能。該系統(tǒng)的輿情預(yù)警主要通過發(fā)送E-mail到監(jiān)控人員移動(dòng)終端進(jìn)行實(shí)現(xiàn)。當(dāng)匹配到相關(guān)敏感詞在文章評(píng)論中出現(xiàn)時(shí),系統(tǒng)會(huì)自動(dòng)向后臺(tái)設(shè)定的郵箱地址發(fā)送預(yù)警郵件。預(yù)警郵件包含敏感詞所在文章的網(wǎng)頁地址,便于管理人員可以及時(shí)了解到輿情的動(dòng)態(tài),及時(shí)妥當(dāng)處理相關(guān)問題[6]。
2 結(jié)論
本系統(tǒng)利用網(wǎng)絡(luò)信息技術(shù)來實(shí)現(xiàn)對(duì)易班網(wǎng)絡(luò)的實(shí)時(shí)輿情監(jiān)測,以解決傳統(tǒng)人工監(jiān)測時(shí)“人手不足、容易疏忽、效率底下”等問題,可以更加及時(shí)的發(fā)現(xiàn)問題,凈化校園網(wǎng)絡(luò)環(huán)境,引導(dǎo)輿論導(dǎo)向,并且可以及時(shí)定位言論發(fā)布者,以便于做出相應(yīng)處置。
【參考文獻(xiàn)】
[1]王娟.網(wǎng)絡(luò)輿情監(jiān)控分析系統(tǒng)構(gòu)建[J].長春理工大學(xué)學(xué)報(bào)(高教版),2007,4: 201-203.
[2]張玨.網(wǎng)絡(luò)輿情預(yù)測模型與平臺(tái)的研究[D].北京:北京交通大學(xué),2009.
[3]J.Zeng,S.Zhang,C.Wu,et al..Predictive Model for Internet Public Opinion.Fuzzy Systems and Knowledge Discovery,2007.FSKD 2007.Fourth International Conference on.IEEE,2007,3:7-11.
[4]滕云,陳玲.網(wǎng)絡(luò)輿情特點(diǎn)的實(shí)證研究——基于高校BBS論壇的文本分析[J]. 山東社會(huì)科學(xué),2014,3:181-186.
[5]D.Shen,Z.Chen,Q.Yang,et al..Web-page classification through summarization[C]. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2004:242-249.
[6]殷晉,雷航.網(wǎng)絡(luò)輿情發(fā)現(xiàn)與分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué), 2014.
[責(zé)任編輯:田吉捷]