丁青 蔡文杰 吉翔
摘 要: 以南京農(nóng)業(yè)大學工學院應用為例,利用數(shù)據(jù)挖掘工具實現(xiàn)對計費網(wǎng)關日志數(shù)據(jù)的采集,并對用戶群體行為即不同時間段的在線賬號數(shù)、用戶使用時長與流量、用戶訪問目的地址三個方面進行研究。對如何改進高校網(wǎng)絡輿情監(jiān)控建設,培育健康和諧的網(wǎng)絡輿論生態(tài)給出了若干對策與建議。
關鍵詞: 數(shù)據(jù)挖掘; 計費網(wǎng)關; 輿情監(jiān)控; 行為分析
中圖分類號:G41 文獻標志碼:A 文章編號:1006-8228(2013)08-11-03
0 引言
輿情是“輿論情況”的簡稱,是指在一定的社會空間內(nèi),圍繞中介性社會事件的發(fā)生、發(fā)展和變化,民眾對社會管理者產(chǎn)生和持有的社會政治態(tài)度[1]。網(wǎng)絡輿情是社會輿情的直接反映。高校的網(wǎng)絡輿情更有其特殊性,會在短時間內(nèi)迅速影響到大學生的態(tài)度和觀點,甚至影響到他們在現(xiàn)實中的行為,因此,需要及時采取措施,實施輿情監(jiān)控,以控制和引導事態(tài)發(fā)展。本文從校園網(wǎng)計費網(wǎng)關系統(tǒng)日志分析入手,利用專業(yè)的數(shù)據(jù)挖掘軟件工具對校園網(wǎng)用戶行為日志進行各個角度的詳細分析,再從多個方面對高校網(wǎng)絡輿情監(jiān)控給出對策和建議,以使管理者能夠牢牢把握輿論控制權,引導網(wǎng)絡輿情,維護網(wǎng)絡信息安全。
1 研究背景與目的
網(wǎng)絡輿情研究,需要對高校學生用戶行為進行深入挖掘和分析其行為產(chǎn)生的原因[2], 及時發(fā)現(xiàn)他們對學校和社會的意見、情緒和態(tài)度,進而使管理者及時地改進和創(chuàng)新各類管理辦法,形成網(wǎng)上、網(wǎng)下共同教育的和諧局面。因此,管理者應該通過對大學生網(wǎng)絡輿情及時有效的管理,來控制不良網(wǎng)絡輿情,維護校園穩(wěn)定。本文力圖以最新時間點,選擇相關的日志數(shù)據(jù),對用戶行為的特征項進行總結(jié)分析,以實證研究的方法嘗試網(wǎng)絡輿情監(jiān)控新的探索。
2 研究方法
2.1 研究思路
行為分析研究方法主要有統(tǒng)計、聚類。統(tǒng)計方法多用于在模式己知的情況下快速的得出結(jié)果,而在模式未知的情況下,一般都使用聚類的方法[3]。此次實證研究的數(shù)據(jù)取自校園網(wǎng)計費網(wǎng)關,在真實網(wǎng)絡環(huán)境下,可以獲得的原始數(shù)據(jù)量通常都比較大,數(shù)據(jù)的復雜程度較高,以工學院為例,每天產(chǎn)生的原始記錄高達6GB的數(shù)據(jù)量。如何使用高效工具,做到對大量的數(shù)據(jù)進行提取、過濾、轉(zhuǎn)換、集成,以便從中發(fā)現(xiàn)知識,是對校園網(wǎng)用戶行為分析的關鍵所在。通過對底層數(shù)據(jù)的考察筆者發(fā)現(xiàn),用戶行為的各項參數(shù)之間存在著關聯(lián)性,例如,在線賬號數(shù)、在線時間、使用網(wǎng)絡的時長、網(wǎng)絡流量、目的地址、網(wǎng)絡服務類型等之間都是有聯(lián)系的。在綜合分析結(jié)果的時候,我們把各參數(shù)中用戶模式己知的項進行統(tǒng)計分析。
2.2 分析流程和使用工具
校園網(wǎng)用戶行為分析流程可以分為以下幾個部分。
⑴ 數(shù)據(jù)抽取部分,主要是采集工學院城市熱點計費系統(tǒng)所保留的各項日志數(shù)據(jù),根據(jù)分析的重點對各字段進行抽取,從源數(shù)據(jù)庫讀取所需要的數(shù)據(jù)部分。
⑵ 數(shù)據(jù)轉(zhuǎn)換和加載部分,按照最終形成的數(shù)據(jù)結(jié)構(gòu),對源系統(tǒng)每個記錄進行轉(zhuǎn)換,轉(zhuǎn)換以后就可寫入數(shù)據(jù)倉庫,可采用SQL語句或批量加載,這一部分是為下一步統(tǒng)計準備有用的數(shù)據(jù)。
⑶ 統(tǒng)計分析部分,這是整個行為分析的關鍵部分。通過從不同角度對用戶行為進行統(tǒng)計和分析,幫助管理者及時掌握真實校園網(wǎng)用戶需求的變化,從中發(fā)現(xiàn)一些有趣的特點和規(guī)律,實現(xiàn)對現(xiàn)有校園網(wǎng)用戶輿情全面的把握。
⑷ 工具采用了SQLSever 2008的SSIS工具和EXCEL2010。
3 日志結(jié)果與分析
本文的分析工作主要針對用戶群體行為的三個方面進行研究,即不同時間段的在線賬號數(shù)分析、用戶使用時長和流量的分析、用戶訪問目的地址分析。
3.1 分時間段的在線人數(shù)分析
分析各個時段網(wǎng)絡的用戶在線賬號數(shù),可以從宏觀上了解大學生的網(wǎng)絡使用情況。根據(jù)最新時間點,我們提取了2012年11月11日到11月17日一周的用戶數(shù)據(jù),一共48510條,將一周的分析結(jié)果生成線狀圖,如圖2所示。
圖2從縱向和橫向的角度清晰地反映了校園網(wǎng)用戶在線賬號數(shù)一天中的變化趨勢,以及一周內(nèi)在線賬戶的變化趨勢。
從一天中的變化趨勢來看,第一個高峰在12點到13點中出現(xiàn),這個時間學生教師上課完畢,中午正好是午休期間,用戶上網(wǎng)人數(shù)最多。一天中的第二個高峰在16點到達,因為16點一般是學生下午兩節(jié)課結(jié)束后回到宿舍的時間,此時在線人數(shù)較多。一天中第三個小高峰在21點出現(xiàn),說明學生大多數(shù)下晚自習的時間就在21點左右,回到宿舍他們又開始登錄網(wǎng)絡,從圖上來看,基本上到了23點,由于學生公寓停止供電,在線賬號數(shù)有一個明顯的回落。
同時從一周內(nèi)的變化可看出,周六在線人數(shù)最多,而周日在線人數(shù)最少,其余一周的數(shù)據(jù)則與日劇增,也說明周六學校在線人數(shù)為最高。對在線人數(shù)的分析,主要是根據(jù)各個時間段在線賬號數(shù)的不同,可以對網(wǎng)絡輿情的監(jiān)控,網(wǎng)絡的策略變化給出一個合理的參考時段。
3.2 用戶在線時長以及使用流量的分析
利用對比分析法,我們將校園網(wǎng)用戶分成不同類別的組,分別研究他們的上網(wǎng)行為差異,抽取了一個月的用戶日志數(shù)據(jù)并利用SSIS工具進行聚類,形成下面的用戶行為模式。
⑴ 電子閱覽室用戶代表了機房用戶,基本上是以學生為主,由于開放時間所限,這類用戶使用時長不會超過12個小時,月流量在30G左右。
⑵ 家屬區(qū)用戶使用時長在12個小時以內(nèi)的有132人,占到91.7%;而12個小時以上的有12人,占8.3%。大部分人月流量在100G以內(nèi)。
⑶ 辦公區(qū)用戶使用時長在12小時以內(nèi)的占到了85.9%。但是這類用戶超過12小時的人數(shù)達41人,占14.1%,并且在23-24小時還有一個小的躍增,可以判斷這類用戶有經(jīng)常熬夜或者不關機的習慣,同時月流量也在500G以內(nèi),針對這類用戶管理者應該予以提醒,使其不濫用各項資源,節(jié)約校園網(wǎng)帶寬。
對于用戶在線時長和流量分析,目的是了解用戶占用網(wǎng)絡帶寬的情況,對于在線時間過長,占用帶寬過多的用戶,管理者應該予以重點監(jiān)控,并采取措施進行限制。
3.3 學生用戶訪問目的地址分析
首先提取學生區(qū)訪問的日志文件,對其每一行的訪問目的地址記錄進行統(tǒng)計和分析,使用split函數(shù)以Tab為分隔符將行記錄劃分為各個字段,從而獲得URL字段;然后,使用spilt函數(shù)以反斜杠“\”為分隔符將URL字段進行劃分;最后利用Perl的哈希結(jié)構(gòu)進行分類統(tǒng)計。當日志文件所有的記錄均按照上述過程處理之后,就可以輸出各個網(wǎng)站訪問的統(tǒng)計結(jié)果。通過該算法實現(xiàn)了用戶訪問10000次以上的網(wǎng)站都被記錄下來,統(tǒng)計并生成圖表,如圖3所示。
在輿論監(jiān)督中要特別引起注意是對SNS網(wǎng)站、BBS網(wǎng)站和門戶網(wǎng)站進行監(jiān)控,這幾類網(wǎng)站在工學院中訪問次數(shù)較高的分別是人人網(wǎng),西祠網(wǎng)和新浪網(wǎng),可見隨著高校網(wǎng)絡的普及,尤其是博客,微博,學生個人網(wǎng)站的出現(xiàn),在網(wǎng)絡上表達意見,態(tài)度,情緒和信念等,日益成為大學生活的重要內(nèi)容,對這類網(wǎng)站的監(jiān)控也必須予以加強。
4 網(wǎng)絡輿情建設對策和建議
4.1 出口部署網(wǎng)絡輿情監(jiān)測系統(tǒng)
目前不少高校都在校園網(wǎng)出口處部署了輿情監(jiān)測系統(tǒng),這類系統(tǒng)一般都具有比較強大的過濾功能,比如基于內(nèi)容的過濾手段,包括:過濾用戶通過搜索引擎搜索的指定關鍵字、過濾包含指定關鍵字的網(wǎng)頁、過濾含指定關鍵字的URL地址等,作為管理者應將譬如包含色情、反動、暴力或非法的網(wǎng)站過濾掉,屏蔽不利于大學生成才的信息,提高網(wǎng)絡出口的安全性。
但是,從輿情監(jiān)測軟件的調(diào)研情況看,大部分軟件只有網(wǎng)絡爬蟲模塊起主要作用,雖然在技術上部分實現(xiàn)了基于web頁面異構(gòu)數(shù)據(jù)的信息抽取與集成,然而他們對所采集到的信息的定性定量分析并不到位,還需要對所獲得的日志信息進行科學篩選、智能分析與研判,同時管理人員要在某些敏感時間段密切跟蹤學校某區(qū)域的網(wǎng)上輿情動態(tài),及時搜集具有前瞻性的信息,一旦出現(xiàn)校園網(wǎng)絡輿情危機苗頭,可在第一時間了解網(wǎng)絡輿情內(nèi)容,分析網(wǎng)絡輿情的性質(zhì),判斷網(wǎng)絡輿情的影響,科學應對[4]。
4.2 全面實現(xiàn)實名用戶認證
信息化的普及,使得目前很多高校都提供無線和有線接入方式,而無線接入的方式會導致在問題用戶定位上存在時間和地點的不確定性;同時,高校越來越開放,很多臨時來高校的人員和臨時活動要求連入校園網(wǎng)絡,這就要求監(jiān)管部門制定嚴格的準入機制。目前在高校校園網(wǎng)中全面實現(xiàn)實名用戶認證是必要而緊迫的。以工學院為例,上網(wǎng)的賬號與學生的學號或教工的工號進行捆綁,除教工生活區(qū)、服務器和特殊設備采用多元組綁定技術直連校園網(wǎng)外,其他所有用戶要進入校園網(wǎng)均須進行身份認證,臨時賬號必須由各負責部門提出申請并定位到具體地點,從而切斷非法用戶聯(lián)入校園網(wǎng)。
4.3 形成校園獨有的網(wǎng)絡輿情載體
高校網(wǎng)絡輿情建設要重視對校園門戶網(wǎng)站、校園新聞網(wǎng)和各類網(wǎng)絡文化的網(wǎng)站的投入,特別是對高校網(wǎng)絡輿情的重要載體BBS的建設[5]。通過多種手段凸顯引導信息,把重點新聞和重要觀點設置在論壇顯眼與強勢位置,在處理突發(fā)事件時決不能失聲,要形成高校輿論引導的強大聲勢,搶占網(wǎng)絡輿論話語的主導權。
在構(gòu)建高校BBS論壇上的熱點話題時,高校管理部門要把握高校網(wǎng)絡輿情話語的主動權;強化對突發(fā)事件重要信息的解讀,挖掘新聞深度,使大學生對突發(fā)事件的認知建立在全面理性的基礎上,切忌千篇一律,要認真聽取學校不同輿論的聲音;充分發(fā)揮輿論領袖的引領作用,轉(zhuǎn)移高校網(wǎng)絡輿情的焦點,消除不良輿情信息的誤導,逐步引導大學生朝著預期設定的方向發(fā)展,從而正確引導高校網(wǎng)絡輿論走向。
4.4 加強網(wǎng)絡輿情組織保障
宣傳部或網(wǎng)絡管理部門可設立日常辦公機構(gòu),配備專職人員,開展日常工作,同時加強建立高水平的輔導員隊伍。輿情引導的效果和成敗與引導主體密切相關,輔導員是與大學生聯(lián)系最為緊密的引導主體,其輿情引導的效果決定了高校輿情引導的成敗[6]。同時要加強工作制度建設,建立起新聞發(fā)言人,日常值班,工作研討等制度,建立行之有效的校園突發(fā)事件預防辦法和處置方案,并將網(wǎng)絡輿情作為其中重點內(nèi)容。
5 結(jié)束語
校園網(wǎng)用戶行為分析是改善校園網(wǎng)運行質(zhì)量,提高高校網(wǎng)絡輿情管理效率的一個有效途徑,它能為網(wǎng)絡的管理者提供決策的必要依據(jù)。隨著網(wǎng)絡技術的普遍發(fā)展,高校輿情監(jiān)控工作將大有作為,另外隨著信息化的深入,對無線方式下的高校用戶行為分析以及輿情管理,將是高校網(wǎng)絡輿情監(jiān)控的重要發(fā)展方向。
參考文獻:
[1] 王來華.輿情研究概念:理論方法和現(xiàn)實熱點[M].天津社會科學院出版社,2003.
[2] 丁青,周留根,朱愛兵.基于K-means聚類算法的校園網(wǎng)用戶行為分析研究[J].微計算機應用,2010.31(6):74-80
[3] 梁循.數(shù)據(jù)挖掘算法與應用[M].北京大學出版社,2006.
[4] 陳少平.高校網(wǎng)絡輿情危機的研究及處置對策[J].中國青年研究,2012.3:5-9
[5] 曹銀忠,許方圓.高校網(wǎng)絡輿情引導研究[J].毛澤東思想研究,2012.29(6):146-150
[6] 李宗琦,徐順鋒.高校輔導員輿情引導工作實證研究——以西安市部分高校為例[J].西安電子科技大學學報(社會科學版),2012.22(5):121-124