姜彬峰
摘? ?要:隨著移動互聯(lián)網(wǎng)和高校校園網(wǎng)的日趨完善,大學(xué)生已成為網(wǎng)絡(luò)社會最主要的社會群體之一。網(wǎng)絡(luò)已成為大學(xué)生校園生活和日常生活不可缺少的重要工具之一,對高校學(xué)生網(wǎng)絡(luò)行為進(jìn)行分析、管理和引導(dǎo)具有重要的作用和深遠(yuǎn)的意義。文章重點對網(wǎng)絡(luò)訪問數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)訪問數(shù)據(jù)清洗、網(wǎng)頁分類等核心環(huán)節(jié)進(jìn)行了闡述,并構(gòu)建了網(wǎng)絡(luò)行為分析與管理系統(tǒng),為高校網(wǎng)絡(luò)部門優(yōu)化校園網(wǎng)絡(luò)服務(wù)、保障網(wǎng)絡(luò)安全提供了參考。
關(guān)鍵詞:網(wǎng)絡(luò)行為分析;網(wǎng)絡(luò)行為管理;數(shù)據(jù)挖掘
隨著網(wǎng)絡(luò)的迅速普及,近年來我國網(wǎng)民數(shù)量不斷增長,2019年8月中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布了第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,截至2019年6月,我國網(wǎng)民規(guī)模達(dá)8.54億,互聯(lián)網(wǎng)普及率達(dá)61.2%,手機(jī)網(wǎng)民規(guī)模達(dá)8.47億,網(wǎng)民使用手機(jī)上網(wǎng)的比例達(dá)99.1%,2019年上半年,我國網(wǎng)民的人均每周上網(wǎng)時長為27.9 h[1]。隨著移動互聯(lián)和高校校園網(wǎng)的日趨完善,大學(xué)生已成為網(wǎng)絡(luò)社會最主要的社會群體之一。由于具有較高的文化層次以及較強(qiáng)的新生事物接受能力,大學(xué)生掌握了很高的計算機(jī)和網(wǎng)絡(luò)技術(shù),也因此主導(dǎo)著計算機(jī)網(wǎng)絡(luò)文化的潮流,網(wǎng)絡(luò)使用普及率、上網(wǎng)時間等都明顯高于其他群體。網(wǎng)絡(luò)已成為大學(xué)生校園生活和日常生活不可缺少的環(huán)節(jié)之一,對高校學(xué)生網(wǎng)絡(luò)行為進(jìn)行分析、管理和引導(dǎo)具有重要的作用和深遠(yuǎn)的意義。
1? ? 高校學(xué)生網(wǎng)絡(luò)行為分析與管理現(xiàn)狀
學(xué)生網(wǎng)絡(luò)行為分析與管理是指通過提取和監(jiān)控網(wǎng)絡(luò)流量,采集網(wǎng)絡(luò)用戶信息,包括用戶ID信息、所在區(qū)域、相關(guān)瀏覽數(shù)據(jù)和流量數(shù)據(jù),建立分析數(shù)據(jù)庫,識別學(xué)生訪問網(wǎng)站、網(wǎng)絡(luò)系統(tǒng)、數(shù)據(jù)庫、論壇等訪問行為,及時關(guān)注和掌握學(xué)生網(wǎng)絡(luò)行為狀態(tài),引導(dǎo)學(xué)生行為。同時,通過關(guān)注網(wǎng)上異常行為,提高專有網(wǎng)絡(luò)的安全性。
高校學(xué)生網(wǎng)絡(luò)行為數(shù)據(jù)挖掘主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析等步驟,數(shù)據(jù)采集是從高校各個專門網(wǎng)絡(luò)、APP、教學(xué)管理系統(tǒng)、圖書借閱系統(tǒng)、數(shù)據(jù)庫等教育環(huán)境中獲取學(xué)生訪問和使用數(shù)據(jù),并進(jìn)行存儲;數(shù)據(jù)處理首先采用數(shù)據(jù)清理、數(shù)據(jù)變換等方法將采集的數(shù)據(jù)轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的數(shù)據(jù)格式,然后運用人工智能、統(tǒng)計分析、機(jī)器學(xué)習(xí)等方法,從大量數(shù)據(jù)中挖掘和發(fā)現(xiàn)相關(guān)隱含信息;數(shù)據(jù)分析是指構(gòu)建相應(yīng)的評價指標(biāo)對數(shù)據(jù)挖掘結(jié)果進(jìn)行評價,為相關(guān)行為管理提供依據(jù)。
2008年,美國、荷蘭等國家便先后成立了國際教育數(shù)據(jù)挖掘工作組,并召開了首屆教育數(shù)據(jù)挖掘國際學(xué)術(shù)會議。近年來,關(guān)于教育數(shù)據(jù)挖掘的研究不斷增多。2014年,電子科技大學(xué)成立教育大數(shù)據(jù)研究所;2015年,中國統(tǒng)計信息服務(wù)中心成立中國教育大數(shù)據(jù)研究院。吳青等[2]基于J48決策樹對高校學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為進(jìn)行了研究,構(gòu)建了相關(guān)學(xué)習(xí)模型。為了實現(xiàn)網(wǎng)絡(luò)學(xué)習(xí)的過程監(jiān)管,施佺等[3]使用關(guān)聯(lián)規(guī)則和聚類分析方法對學(xué)生的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行了研究,并構(gòu)建了數(shù)據(jù)挖掘模型。薛黎明等[4]將聚類算法用于用戶行為分析,以上網(wǎng)時長為指標(biāo)值,使用K-均值聚類與Kohonen神經(jīng)網(wǎng)絡(luò)聚類方法對上網(wǎng)記錄進(jìn)行聚類分析,獲得了較好的效果。馬煜[5]利用數(shù)據(jù)挖掘技術(shù)分析了校園網(wǎng)用戶的行為特點,為網(wǎng)絡(luò)部門優(yōu)化校園網(wǎng)絡(luò)服務(wù)、保障網(wǎng)絡(luò)安全提供了參考。周航[6]基于大數(shù)據(jù)通過可視化校園網(wǎng)絡(luò)的用戶行為數(shù)據(jù),了解用戶的網(wǎng)絡(luò)行為,并為相關(guān)管理部門提供優(yōu)化依據(jù)。
2? ? 高校學(xué)生網(wǎng)絡(luò)行為分析與管理技術(shù)
本文借助某高校學(xué)生的網(wǎng)絡(luò)訪問記錄,通過網(wǎng)絡(luò)爬蟲、網(wǎng)頁分類、關(guān)鍵詞聚類、網(wǎng)絡(luò)行為可視化等手段,對采集的數(shù)據(jù)進(jìn)行處理,研究學(xué)生的興趣模型,采用關(guān)聯(lián)規(guī)則對學(xué)生瀏覽的網(wǎng)頁進(jìn)行分析與分類,從而揭示學(xué)生在此過程中所體現(xiàn)的網(wǎng)絡(luò)行為。
2.1? 網(wǎng)絡(luò)訪問數(shù)據(jù)預(yù)處理
學(xué)生網(wǎng)絡(luò)訪問日志主要來源于某高校信息化辦公室數(shù)據(jù)中心的服務(wù)器數(shù)據(jù),包括學(xué)生的基本信息以及訪問數(shù)據(jù),例如網(wǎng)址、下載文件、訪問數(shù)據(jù)庫、端口請求等。據(jù)此構(gòu)建了數(shù)據(jù)基本字段,格式如圖1所示。
其中,NUM表示記錄編號,USER_ID表示訪問學(xué)生的ID號,USER_CRC表示學(xué)生的學(xué)號,TIME1表示訪問開始時間,TIME2表示訪問結(jié)束時間,URL表示訪問鏈接,TYPE表示鏈接分類類別,TER表示訪問設(shè)備類型。
2.2? 網(wǎng)絡(luò)訪問數(shù)據(jù)清洗
為了去除訪問數(shù)據(jù)中的異常數(shù)據(jù)、彈窗、無效鏈接和其他無用數(shù)據(jù),在進(jìn)行數(shù)據(jù)挖掘之前,首先要對采集到的數(shù)據(jù)進(jìn)行清洗,保障數(shù)據(jù)的質(zhì)量和有效性。本文中需要過濾的無效或者無用數(shù)據(jù)包括訪問的圖片、下載的壓縮包、彈出的窗口、廣告等噪聲信息,這些信息會影響后續(xù)的網(wǎng)絡(luò)數(shù)據(jù)建模,因此必須提前進(jìn)行處理,針對常用的數(shù)據(jù)異常類型,處理方式如下:
(1)缺失值類異常數(shù)據(jù),如果缺失率較低,且數(shù)據(jù)重要程度不高,可根據(jù)數(shù)據(jù)分布情況進(jìn)行填充,例如均值、中位數(shù)等;如果缺失率較高,且數(shù)據(jù)重要程度不高,可以直接刪除;如果缺失率較高,且數(shù)據(jù)重要程度較高,本文采用熱平臺插補(bǔ)法進(jìn)行處理,即在非缺失數(shù)據(jù)集中,找到與缺失值類似的匹配數(shù)據(jù),利用非缺失數(shù)據(jù)集中的數(shù)據(jù)對缺失數(shù)據(jù)進(jìn)行填補(bǔ)[7]。
(2)異常值類異常數(shù)據(jù),是指明顯偏離正常范圍的數(shù)值,可通過箱線圖或者統(tǒng)計分析進(jìn)行區(qū)分,通過數(shù)據(jù)的統(tǒng)計特性,去尋找不合理的值。本文采用基于正態(tài)分布的離群點檢測方法進(jìn)行判斷,在準(zhǔn)則下,異常值是測定值中與平均值偏差超過3倍標(biāo)準(zhǔn)差的值,對于正態(tài)分布而言,屬于極小概率事件。對于不服從正態(tài)分布的數(shù)據(jù),本文采用超過原理平均值3倍的方式來判斷。
(3)重復(fù)值類異常數(shù)據(jù),首先將所有數(shù)據(jù)按照一定的規(guī)則進(jìn)行排序,然后通過比較相鄰數(shù)據(jù)集的相關(guān)性來判斷是否屬于異常數(shù)據(jù),可用duplicated函數(shù)實現(xiàn)此過程。
(4)噪音類異常數(shù)據(jù),是檢測數(shù)據(jù)的隨機(jī)誤差或者方差,不同于離群點數(shù)據(jù)。對于噪音,可采用回歸法進(jìn)行處理,即用一個函數(shù)擬合來光滑數(shù)據(jù),只要找到適合數(shù)據(jù)的擬合函數(shù),就能消除噪音對數(shù)據(jù)的影響。
2.3? 網(wǎng)頁分類
根據(jù)學(xué)生訪問習(xí)慣,本文將學(xué)生訪問網(wǎng)頁分為新聞、藝術(shù)、影音、郵箱、游戲、寵物、購物、科技、論壇、美食、汽車、體育、文學(xué)、教育、考試、交通、旅游等,同時用相應(yīng)的訓(xùn)練樣本對其進(jìn)行訓(xùn)練。分類流程如圖2所示。
3? ? 高校學(xué)生網(wǎng)絡(luò)行為分析與管理系統(tǒng)構(gòu)建
從實際需求出發(fā),設(shè)計了高校學(xué)生網(wǎng)絡(luò)行為分析與管理系統(tǒng),系統(tǒng)根據(jù)學(xué)生訪問日志,通過對網(wǎng)頁進(jìn)行分類,借助Echarts對結(jié)果進(jìn)行可視化展示,主要實現(xiàn)了數(shù)據(jù)上傳、數(shù)據(jù)讀取、網(wǎng)頁分類、結(jié)果可視化等功能。其系統(tǒng)功能結(jié)構(gòu)如圖3所示。
4? ? 結(jié)語
本文在深入分析高校學(xué)生網(wǎng)絡(luò)行為分析與管理研究現(xiàn)狀的基礎(chǔ)上,對網(wǎng)絡(luò)行為分析與管理技術(shù)進(jìn)行了闡述,包括網(wǎng)絡(luò)訪問數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)訪問數(shù)據(jù)清洗、網(wǎng)頁分類等核心環(huán)節(jié),并根據(jù)實際需要構(gòu)建了網(wǎng)絡(luò)行為分析與管理系統(tǒng),提出了系列解決方案,為高校網(wǎng)絡(luò)部門優(yōu)化校園網(wǎng)絡(luò)服務(wù)、保障網(wǎng)絡(luò)安全提供了參考。
[參考文獻(xiàn)]
[1]中國互聯(lián)網(wǎng)信息中心.第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[EB/OL].(2019-08-30)[2020-03-10].http://www.cac.gov.cn/2019-08/30/c_1124938750.htm.
[2]吳青,羅儒國.基于網(wǎng)絡(luò)學(xué)習(xí)行為的學(xué)習(xí)風(fēng)格挖掘[J].現(xiàn)代遠(yuǎn)距離教育,2014(1):54-62.
[3]施佺,錢源,孫玲.基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管研究[J].現(xiàn)代教育技術(shù),2016(6):87-93.
[4]薛黎明,欒維新.聚類算法在高校網(wǎng)絡(luò)用戶行為分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016(7):29-32.
[5]馬煜.基于數(shù)據(jù)挖掘?qū)π@網(wǎng)用戶網(wǎng)絡(luò)行為的分析[J].科技創(chuàng)新與應(yīng)用,2016(34):79.
[6]周航.基于大數(shù)據(jù)的高校網(wǎng)絡(luò)用戶行為的數(shù)據(jù)可視化設(shè)計分析[J].中國包裝,2019(7):33-35.
[7]翟學(xué)新.高校學(xué)生網(wǎng)絡(luò)行為與興趣關(guān)聯(lián)分析[D].綿陽:西南科技大學(xué),2018.
Research on network behavior analysis and management in university
campus based on data mining
Jiang Binfeng
(Information Office, Jilin Railway Technology College, Jilin 132200, China)
Abstract:With the development of mobile internet and campus network, the college students have become one of the most important social groups in the network society. Network has become an indispensable part of college students campus life and daily life. It has an important role and profound significance to analyze, manage and guide college students network behavior. This paper focuses on the core links of network access data preprocessing, network access data cleaning, web page classification and so on, and constructs a network behavior analysis and management system, which provides a reference for the network department of colleges and universities to optimize campus network services and ensure network security.
Key words:network behavior analysis; network behavior management; data mining