沈旭,王新政,林子晴
(1.嶺南師范學(xué)院信息工程學(xué)院,湛江524048;2.桂林理工大學(xué)信息科學(xué)與工程學(xué)院,桂林541004)
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第43 次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中指出,8.29 億是本人國(guó)截止2018 年12 月的網(wǎng)民規(guī)模,全年新增的網(wǎng)民就達(dá)到5653 萬,同時(shí)報(bào)告指出互聯(lián)網(wǎng)的普及率高達(dá)59.6%,并且,在數(shù)據(jù)中本人們可以發(fā)現(xiàn)本人國(guó)網(wǎng)民中青年群體占整體網(wǎng)民的67.8%,而高校學(xué)生在這當(dāng)中又是一個(gè)特殊的群體,他們正處在青春洋溢、朝氣蓬勃的時(shí)期,對(duì)于社會(huì)上發(fā)生的討論度高的新聞或者熱點(diǎn)事件有著高度的關(guān)注,并且喜歡對(duì)這些事件或者熱點(diǎn)新聞發(fā)表自己的看法與感受,而這不免會(huì)引來激烈又廣泛的討論。但是,在這些言論中,可能會(huì)充斥著缺乏深思熟慮的表達(dá),由于網(wǎng)絡(luò)的快速傳播,最后會(huì)對(duì)整個(gè)社會(huì)的輿情有著負(fù)面的影響。因此,高校就要加強(qiáng)對(duì)網(wǎng)絡(luò)熱點(diǎn)事件的了解,盡早知道當(dāng)天的熱度較高的話題,給學(xué)生正確地網(wǎng)絡(luò)文化指引,營(yíng)造一個(gè)充滿正能量的校園網(wǎng)絡(luò)環(huán)境。
數(shù)據(jù)研究的重點(diǎn)一直都是對(duì)網(wǎng)絡(luò)輿情的分析,目的就是通過獲取海量網(wǎng)絡(luò)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行挖掘,然后分析出隱藏在數(shù)據(jù)背后的有價(jià)值輿情觀點(diǎn)[1]。
在國(guó)內(nèi),從2005 年開始出現(xiàn)網(wǎng)絡(luò)輿情分析的研究文獻(xiàn)[2],相對(duì)國(guó)外來說起步較晚,但近年來對(duì)網(wǎng)絡(luò)輿情感興趣的人越來越多,該主題的文獻(xiàn)也逐漸升溫,相應(yīng)的也出現(xiàn)了很多不同方向的輿情信息系統(tǒng),例如TOOM 輿情監(jiān)測(cè)系統(tǒng)、軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)、谷尼網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),等等。并且可以發(fā)現(xiàn),國(guó)內(nèi)的網(wǎng)絡(luò)輿情分析的重點(diǎn)是服務(wù)于政府或者一些決策管理的機(jī)構(gòu)[3],服務(wù)于校園的還是比較缺少的。
在國(guó)外,從1997 年開始就有相關(guān)的文獻(xiàn)發(fā)表,而在2012 年呈逐年上升的趨勢(shì),其中,大部分的研究?jī)?nèi)容是對(duì)網(wǎng)絡(luò)輿情分析進(jìn)行微觀分析、對(duì)網(wǎng)絡(luò)動(dòng)機(jī)的分析以及對(duì)地區(qū)間差異的分析等[4]。同時(shí)在十九世紀(jì)也初步產(chǎn)生了一些輿情分析技術(shù)。例如,話題檢測(cè)與跟蹤(Topic Detection and Tracking)技術(shù),它不僅可以處理網(wǎng)絡(luò)上日趨嚴(yán)重的信息爆炸問題,也可以對(duì)媒體信息流的已知話題進(jìn)行持續(xù)跟蹤,同時(shí)自動(dòng)識(shí)別新話題[5]。此外,國(guó)外還有許多輿情監(jiān)測(cè)軟件,例如說Buzzlogic、Radian6、Trackur、Sentiment Metrics 等。可見,國(guó)外對(duì)網(wǎng)絡(luò)的監(jiān)測(cè)與管理也是十分重視。
本課題主要研究的內(nèi)容是高校網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警系統(tǒng)的設(shè)計(jì),利用PyCharm 作為開發(fā)平臺(tái),采用Python 語言,從網(wǎng)絡(luò)中爬取需要分析的數(shù)據(jù),然后把熱點(diǎn)話題通過郵箱發(fā)送給輿情監(jiān)控人員,幫助學(xué)校及時(shí)獲取網(wǎng)絡(luò)熱點(diǎn)話題信息,并對(duì)學(xué)生采取積極的引導(dǎo)措施。主要的功能模塊如下:輿情信息采集模塊、輿情分析與展示模塊以及輿情預(yù)警功能模塊。
網(wǎng)絡(luò)爬蟲技術(shù),被稱作網(wǎng)絡(luò)機(jī)器人,也被叫做網(wǎng)頁蜘蛛,是一種可以根據(jù)一定的規(guī)則,自動(dòng)提取網(wǎng)頁數(shù)據(jù)的技術(shù)。爬蟲流程圖如圖1 所示。
圖1 爬蟲流程
在使用的場(chǎng)景不同的情況下,爬蟲可以有不同的分類,一般可分為通用爬蟲和聚焦爬蟲。搜索引擎爬取網(wǎng)絡(luò)信息的重要組成部分就是通用爬蟲,第一步就是要選取初始URL,并且把這些URL 放入等待爬取的URL 隊(duì)列里面,然后從URL 隊(duì)列中拿出等待抓取的地址,下一步就可以解析DNS,獲得主機(jī)的IP,同時(shí)下載URL 對(duì)應(yīng)的網(wǎng)頁,并將其存進(jìn)已經(jīng)下載的網(wǎng)頁庫里,同時(shí)把這些URL 放入已爬取的URL 隊(duì)列里面。下一步就要分析已爬取URL 隊(duì)列里面的URL 和其中的其他一些URL,并且將URL 放進(jìn)等待爬取URL 隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)[6]。通用爬蟲的流程如圖2 所示。
圖2 通用爬蟲的流程圖
聚焦爬蟲通俗講就是可以針對(duì)某種特定的內(nèi)容進(jìn)行數(shù)據(jù)抓取,可見它獲取到的數(shù)據(jù)都是盡可能地和需求相關(guān)的,換句話來說,這是一種“面向特定需求”的爬蟲程序。聚焦爬蟲和通用搜索引擎爬蟲的主要區(qū)別在于:聚焦爬蟲在抓取網(wǎng)頁數(shù)據(jù)的時(shí)候會(huì)對(duì)內(nèi)容進(jìn)行篩選,盡可能地實(shí)現(xiàn)只抓取與主題需求相關(guān)的網(wǎng)頁數(shù)據(jù)信息。聚焦爬蟲流程如圖3 所示。
圖3 聚焦爬蟲流程圖
網(wǎng)頁解析就是對(duì)抓取的網(wǎng)頁進(jìn)行再處理,去掉與主題無關(guān)的信息,例如無用的鏈接、廣告等[7-8]??梢允褂煤芏喾N方法去處理,例如可以通過BeautifulSoup 解析處理,或者是JSON 解析、PyQuery 解析處理又或是XPath 解析處理,也可以使用正則表達(dá)式處理。
數(shù)據(jù)可視化主要是為了讓人們可以更直觀地看出數(shù)據(jù)的各種屬性和變量之間的關(guān)系,通常會(huì)使用圖表的方式呈現(xiàn)出來,例如餅圖、直方圖、散點(diǎn)圖、柱狀圖等。讓人可以更直觀地分析數(shù)據(jù),發(fā)現(xiàn)不同的數(shù)據(jù)信息之間潛在的關(guān)系,最終有利于挖掘到有價(jià)值的信息。
高校網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警系統(tǒng),其目的在于能夠及時(shí)準(zhǔn)確地得到網(wǎng)絡(luò)輿情信息,并把信息的分析結(jié)果反饋給高校管理人員,以便做出相應(yīng)的決策去應(yīng)對(duì)突發(fā)事件,維護(hù)校園的穩(wěn)定。但由于網(wǎng)絡(luò)輿情載體多而雜,本系統(tǒng)不可能涵蓋所有類型的網(wǎng)絡(luò),針對(duì)這一特點(diǎn),本文網(wǎng)絡(luò)輿情信息獲取的來源主要是新浪新聞?wù)军c(diǎn)等,一方面新聞信息比較真實(shí)可靠,另一方面新聞信息涵蓋了各方面的熱點(diǎn)話題,通過新聞點(diǎn)擊量來分析出熱點(diǎn)話題,系統(tǒng)涉及到的內(nèi)容包括前期的采集輿情信息,分析得到的信息,最后通過圖表展示出來,最后核心功能就是輿情預(yù)警,其中輿情預(yù)警主要是把話題熱度前三名通過郵箱的方式發(fā)送給輿情監(jiān)控人員,起到報(bào)警的作用。
為了滿足用戶的功能需求,提高系統(tǒng)的實(shí)用性,本系統(tǒng)需要實(shí)現(xiàn)的功能如下:
(1)輿情采集:實(shí)現(xiàn)互聯(lián)網(wǎng)中信息采集是實(shí)現(xiàn)該系統(tǒng)的基礎(chǔ)工作。在輿情采集工作中涉及到一些新聞門戶網(wǎng)站,采集到的數(shù)據(jù)最終會(huì)保存在MySQL 數(shù)據(jù)庫中。
(2)輿情處理:通過采集的數(shù)據(jù)來分析熱點(diǎn)關(guān)鍵字,提取熱門話題,對(duì)熱門話題進(jìn)行排序。
(3)數(shù)據(jù)分析:通過柱狀圖、餅狀圖等顯示關(guān)鍵詞及熱度的數(shù)據(jù),讓用戶可以更直觀地感受輿情信息的具體內(nèi)容。
(4)輿情預(yù)警:對(duì)信息按熱度(點(diǎn)擊量)進(jìn)行排序,把關(guān)注度前十的話題信息通過郵箱發(fā)送給輿情監(jiān)控人員。
對(duì)系統(tǒng)功能模塊的劃分是以需求分析得到結(jié)果為參考的。大體分為三個(gè)模塊:輿情采集、數(shù)據(jù)分析、輿情預(yù)警。系統(tǒng)模塊圖如圖4 所示。
系統(tǒng)流程圖如圖5 所示。
圖4 系統(tǒng)模塊圖
圖5 系統(tǒng)流程圖
輸入用戶名和密碼,點(diǎn)擊登錄即可,用戶可注冊(cè)成為普通用戶。普通用戶可以查看系統(tǒng)的所有數(shù)據(jù)信息,管理員除此之外還可以發(fā)送預(yù)警信息給特定的聯(lián)系人。登錄頁面如圖6 所示。
圖6 登錄頁面
數(shù)據(jù)采集是該系統(tǒng)最底層也是最核心的模塊,該模塊主要是抓取目標(biāo)HTML 頁面上的數(shù)據(jù),并傳到本地?cái)?shù)據(jù)庫當(dāng)中。爬蟲程序核心代碼如下:
登錄成功后,就會(huì)進(jìn)入系統(tǒng)首頁,該頁面主要是對(duì)獲取到的輿情信息的概覽,可以查看數(shù)據(jù)總條目,以折線圖展示兩周內(nèi)獲取數(shù)據(jù)的變化,通過餅狀圖清晰地看出信息來源的主流媒體有哪些,同時(shí)以詞云圖的形式展示出熱門的話題。系統(tǒng)首頁如圖7 所示。
圖7 系統(tǒng)首頁
(1)熱門信息頁面
該頁面展示了熱門前三十名的信息,主要包括信息標(biāo)題、信息點(diǎn)擊率、信息時(shí)間、信息發(fā)布媒體,點(diǎn)擊標(biāo)題就可以跳轉(zhuǎn)到該信息具體內(nèi)容的鏈接。熱門信息頁面如圖8 所示。
圖8 熱門信息頁面
(2)熱門話題頁面
該頁面展示了話題的熱度排名??梢栽谒阉骺蛩阉飨嚓P(guān)話題的熱度。熱門話題頁面如圖9 所示。
圖9 熱門話題頁面
(1)時(shí)間與熱度分析頁面
此頁面是利用一個(gè)橫坐標(biāo)為時(shí)間,縱坐標(biāo)為點(diǎn)擊量的散點(diǎn)圖進(jìn)行分析,可以直觀觀察到信息的普遍熱度集中在10000 到120000 之間。其中,右下角有一個(gè)熱度篩選,可以通過這個(gè)篩選某個(gè)熱度范圍的新聞,當(dāng)鼠標(biāo)移動(dòng)到某個(gè)點(diǎn)時(shí),就會(huì)顯示相應(yīng)新聞的標(biāo)題信息、點(diǎn)擊量數(shù)目、話題信息,點(diǎn)擊該點(diǎn),就會(huì)跳轉(zhuǎn)到此信息的相應(yīng)鏈接。時(shí)間與熱度分析頁面如圖10 所示。
圖10 時(shí)間與熱度分析頁面
(2)熱度話題分析
話題分析頁面主要是可以從一個(gè)橫坐標(biāo)為話題,縱坐標(biāo)為熱度的柱狀圖中直觀看出熱度前一百的話題的熱度差別。話題分析頁面如圖11 所示。
圖11 熱度話題分析頁面
當(dāng)點(diǎn)擊該柱形時(shí)候,就會(huì)在下方出現(xiàn)一個(gè)“空心”圓餅圖來顯示該話題的具體情況。點(diǎn)擊大學(xué)的柱形就會(huì)出現(xiàn)該話題的具體分析信息,具體話題分析如圖12 所示。
圖12 具體話題分析圖
(3)話題數(shù)據(jù)查詢
該頁面可以查詢感興趣的話題的具體新聞信息。在文本框中輸入話題,點(diǎn)擊查詢,頁面即會(huì)出現(xiàn)話題的具體分析圖。話題查詢頁面如圖13 所示。
圖13 數(shù)據(jù)話題查詢頁面
(1)預(yù)警分級(jí)
在預(yù)警分級(jí)可以看到熱度較高的話題數(shù)據(jù)。把數(shù)據(jù)分為三個(gè)等級(jí):紅色預(yù)警是熱度前十名的話題,黃色預(yù)警是熱度第十到第三十的話題,其余為綠色預(yù)警。
紅色預(yù)警信息如圖14 所示:
圖14 紅色預(yù)警信息
黃色預(yù)警信息如圖15 所示:
圖15 黃色預(yù)警信息
綠色預(yù)警信息如圖16 所示:
圖16 綠色預(yù)警信息
圖17 發(fā)送郵件頁面
圖18 郵件發(fā)送成功提示
(2)發(fā)送郵件
該頁面只有管理員可以進(jìn)入,普通用戶不能發(fā)送信息,因此要先用管理員的身登錄系統(tǒng),然后填寫郵箱地址,點(diǎn)擊發(fā)送信息即可。其中,發(fā)送郵件頁面如圖17所示。
郵件發(fā)送成功提示如圖18 所示。
高校網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警系統(tǒng),其目的在于能夠及時(shí)準(zhǔn)確地得到網(wǎng)絡(luò)輿情信息,并把信息的分析結(jié)果反饋給高校管理人員,以便做出相應(yīng)的決策去應(yīng)對(duì)突發(fā)事件,維護(hù)高校穩(wěn)定。本文網(wǎng)絡(luò)輿情信息獲取的來源主要是新浪新聞等站點(diǎn),通過新聞點(diǎn)擊量來分析出熱點(diǎn)話題,系統(tǒng)涉及到的內(nèi)容包括前期的輿情采集信息,分析得到的信息,最后通過圖表展示出來,最后核心功能就是輿情預(yù)警,其中輿情預(yù)警主要是把話題熱度前三名通過郵件的方式發(fā)送給輿情監(jiān)控人員,實(shí)現(xiàn)及時(shí)預(yù)警功能。但是由于網(wǎng)絡(luò)輿情載體多而雜,本系統(tǒng)網(wǎng)絡(luò)輿情信息獲取的來源覆蓋面廣度仍有欠缺,這是以后需要改進(jìn)的地方。