郭玉彬 吳宇航 薄傲峰 鄭淑敏 張曉鵬
1(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院 廣東 廣州 510642)2(中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院 廣東 廣州 510006)
高校校園網(wǎng)是承載高校學(xué)生學(xué)習(xí)、生活、娛樂等各類活動的基礎(chǔ)性設(shè)施。隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,學(xué)生對網(wǎng)絡(luò)的使用增長迅速,其上網(wǎng)行為也呈現(xiàn)多樣化和復(fù)雜化特征。校園網(wǎng)認(rèn)證數(shù)據(jù)包含了學(xué)生用戶名、上網(wǎng)端口地址、上下線時(shí)間等信息。通過對這些數(shù)據(jù)的分析,可發(fā)現(xiàn)學(xué)生上網(wǎng)時(shí)間、時(shí)長等信息及相關(guān)的特征分類規(guī)律。而這些規(guī)律性信息對學(xué)生管理、專業(yè)課程設(shè)置等工作具有較高的參考價(jià)值。2016年上網(wǎng)認(rèn)證數(shù)據(jù)量約8 000萬條,并以每年約1億條的速度增加。
針對校園網(wǎng)日志數(shù)據(jù)進(jìn)行學(xué)生行為分析的研究有很多,大多數(shù)研究都是采用傳統(tǒng)的K-means算法對在線時(shí)長和校園網(wǎng)使用流量進(jìn)行聚類,利用聚類結(jié)果分析每一類用戶的上網(wǎng)行為和優(yōu)化校園網(wǎng)管理[1-4]。文獻(xiàn)[5]基于一種改進(jìn)的K-means算法,即SimiClustering算法,對校園網(wǎng)用戶在線時(shí)長和流量進(jìn)行聚類,得出3種用戶行為,并利用聚類結(jié)果為校園網(wǎng)用戶個性化需求方面提供理論依據(jù)。文獻(xiàn)[6]利用優(yōu)化層次聚類算法對校園網(wǎng)主干數(shù)據(jù)流的IP地址進(jìn)行聚類,得到網(wǎng)絡(luò)用戶的訪問地址分布情況,從中了解用戶行為特征。文獻(xiàn)[7]提出結(jié)合網(wǎng)絡(luò)用戶數(shù)據(jù)特點(diǎn)的預(yù)處理方式,并引入基于圖論的子空間聚類方法、粒子群聚類算法得到校園網(wǎng)用戶網(wǎng)絡(luò)行為模式。文獻(xiàn)[8]利用K-means算法和統(tǒng)計(jì)技術(shù)對校園網(wǎng)用戶日志數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)大部分學(xué)生每個月上網(wǎng)時(shí)間小于170小時(shí)、學(xué)生上網(wǎng)時(shí)間越長越容易掛科的規(guī)律。文獻(xiàn)[9]對Concordia大學(xué)Wi-Fi日志數(shù)據(jù)利用PCA制導(dǎo)的聚類算法進(jìn)行分析,得到7類行為模式,并給出多天同類型活動的搜索算法。
上述研究中,聚類中采用上網(wǎng)時(shí)間都是用戶一天或者一個月為單位的上網(wǎng)時(shí)間,大多數(shù)研究沒有去除臟數(shù)據(jù)。本文將學(xué)生上網(wǎng)認(rèn)證數(shù)據(jù)轉(zhuǎn)換為24小時(shí)時(shí)長向量,保留較多細(xì)節(jié),更方便分析學(xué)生上網(wǎng)時(shí)刻及更能反映學(xué)生上網(wǎng)時(shí)間分布規(guī)律;采用改進(jìn)Canopy算法,即K-canopy算法,去除離群點(diǎn),提高聚類質(zhì)量,進(jìn)而提高分析結(jié)論的可靠性。本文首先選擇校園網(wǎng)認(rèn)證數(shù)據(jù)并對其進(jìn)行清洗,去除與研究目標(biāo)無關(guān)的數(shù)據(jù);然后進(jìn)行數(shù)據(jù)預(yù)處理,得到學(xué)生上網(wǎng)時(shí)長向量集;再對學(xué)生工作日和周末的上網(wǎng)時(shí)長向量分別進(jìn)行聚類。最后依據(jù)聚類結(jié)果分析了各類學(xué)生上網(wǎng)時(shí)間和時(shí)長分布特征,結(jié)合年級專業(yè)上網(wǎng)規(guī)律進(jìn)行總結(jié),為學(xué)生管理、專業(yè)課程設(shè)置等工作提供參考。
本文選擇校園網(wǎng)2016年11月本科生的認(rèn)證數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析。因?yàn)?1月份是正常學(xué)期時(shí)間,不受開學(xué)、期末考試影響,且11月假期較少,更能全面反映學(xué)生上網(wǎng)行為分布規(guī)律。在數(shù)據(jù)預(yù)處理階段,首先進(jìn)行數(shù)據(jù)清洗,去掉與研究目標(biāo)無關(guān)的數(shù)據(jù),然后計(jì)算每個用戶、每天24小時(shí)內(nèi)每小時(shí)的上網(wǎng)時(shí)長,得到上網(wǎng)時(shí)長向量集合。
本文實(shí)驗(yàn)數(shù)據(jù)來源于SAM網(wǎng)絡(luò)認(rèn)證計(jì)費(fèi)系統(tǒng)和Syslog網(wǎng)絡(luò)設(shè)備日志收集系統(tǒng)。主要提供的信息有:用戶帳號、IP地址信息、上線時(shí)間、下線時(shí)間和離線原因等。表1給出源數(shù)據(jù)表中關(guān)鍵字段說明。
(1) 數(shù)據(jù)選擇:校園網(wǎng)認(rèn)證記錄數(shù)據(jù)量比較大,其中包括本科生、研究生、教職工和住宅區(qū)等多種類型賬號的認(rèn)證數(shù)據(jù),也包括了線路故障反復(fù)登錄、設(shè)備自動登錄等其他與本研究無關(guān)的認(rèn)證數(shù)據(jù)。針對本文研究目標(biāo),下面詳細(xì)列出需要清洗的數(shù)據(jù)及其清洗原因和處理策略。
① 研究生、教職工、辦公區(qū)、來訪人員和住宅區(qū)等非本科生認(rèn)證數(shù)據(jù)。此類數(shù)據(jù)與本研究無關(guān),依據(jù)帳號特征去除該類數(shù)據(jù)。
② 大學(xué)一、五年級學(xué)生認(rèn)證數(shù)據(jù)。學(xué)校規(guī)定僅有少量滿足特殊條件的一年級學(xué)生可開設(shè)校園網(wǎng)帳號,五年級學(xué)生是特殊專業(yè)或者學(xué)籍異動的學(xué)生,此類學(xué)生不具有代表性,依據(jù)帳號特征去除。
③ 去除11日的數(shù)據(jù)。雙11購物節(jié),按學(xué)校規(guī)定10-11日夜間不斷網(wǎng),因此這一天學(xué)生的上網(wǎng)行為不是常規(guī)工作日行為或者周末行為,屬于異常行為,直接刪除該時(shí)間段全部認(rèn)證記錄。
④ 上下線時(shí)間間隔小于或等于60秒的數(shù)據(jù)。機(jī)器故障所產(chǎn)生的,這類數(shù)據(jù)對分析學(xué)生上網(wǎng)行為沒有意義,依據(jù)上下線時(shí)間計(jì)算時(shí)長,然后去除該類數(shù)據(jù)。
⑤ 單次在線時(shí)長超過48個小時(shí)的數(shù)據(jù)??赡苁窃O(shè)備掛機(jī)或者是個人極端行為,這類數(shù)據(jù)不反映學(xué)生上網(wǎng)行為或者不具有代表性。依據(jù)上下線時(shí)間計(jì)算時(shí)長,然后去除該類數(shù)據(jù)。
⑥ 從6點(diǎn)鐘到23點(diǎn)鐘時(shí)間段內(nèi)上網(wǎng)時(shí)長都是3 600秒的數(shù)據(jù)。設(shè)備自動認(rèn)證數(shù)據(jù),不反映學(xué)生上網(wǎng)行為,依據(jù)帳號每小時(shí)上網(wǎng)時(shí)長去除該類數(shù)據(jù)。
綜上所述,本文實(shí)驗(yàn)數(shù)據(jù)范圍:全月原始數(shù)據(jù)有1 990 396條認(rèn)證數(shù)據(jù),其中工作日數(shù)據(jù)1 487 914條,周末502 482條。清洗后總數(shù)據(jù)量201 523條,其中工作日152 007條,周末49 516條。
(2) 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理:本小節(jié)對學(xué)生每天產(chǎn)生的多條上網(wǎng)認(rèn)證數(shù)據(jù)進(jìn)行處理,得到每個學(xué)生每天的上網(wǎng)時(shí)長向量。計(jì)算每個學(xué)生每天24小時(shí)上網(wǎng)時(shí)長向量,從而將學(xué)生一天上網(wǎng)時(shí)長細(xì)化到每天每小時(shí),更能反映學(xué)生上網(wǎng)時(shí)間分布。為保護(hù)學(xué)生隱私,本文對用戶帳號進(jìn)行了脫敏處理,利用無意義的數(shù)字替代敏感信息。
表2給出學(xué)號為2013000XXXX的學(xué)生在2016年11月2日的認(rèn)證數(shù)據(jù)預(yù)處理結(jié)果,假設(shè)其上網(wǎng)時(shí)長向量m,那么m值如下:
m=[2013000XXXX,2016/11/2,0,0,0,0,0,0,0,0,876,2 278,0,0,0,2 626,3 600,3 600,3 018,0,2 400,3 600,3 600,3 530,3 600,1 799]
表2 認(rèn)證數(shù)據(jù)表
本小節(jié)使用K-canopy算法對上網(wǎng)時(shí)長向量集進(jìn)行粗聚類,去除離群點(diǎn)并估計(jì)聚類個數(shù)。
Canopy算法一般稱為粗聚類算法,它不需要指定聚類個數(shù),算法簡單,運(yùn)算速度快[10]。Canopy算法原理和實(shí)現(xiàn)方法見文獻(xiàn)[11]。本文基于Canopy算法基本原理設(shè)計(jì)并實(shí)現(xiàn)K-canopy聚類算法,用于去除離群點(diǎn)。K-canopy聚類算法的基本思想是首先利用Canopy算法對數(shù)據(jù)進(jìn)行一次粗聚類,取數(shù)據(jù)個數(shù)少且聚類中心與其他Canopy中心距離較遠(yuǎn)的Canopy作為離群點(diǎn)去掉。重復(fù)此操作直到去掉總數(shù)據(jù)量的2%~5%的離群數(shù)據(jù)為止。按常規(guī),2%~5%的數(shù)據(jù)為離群點(diǎn)是合理的,具體數(shù)量可依據(jù)數(shù)據(jù)質(zhì)量、學(xué)生實(shí)際上網(wǎng)特征異常的人數(shù)來設(shè)定,以下是K-canopy聚類算法步驟。
(1) 構(gòu)造原始數(shù)據(jù)集合List,計(jì)算全部數(shù)據(jù)兩兩之間的歐式距離的均值T,令T1=0.65×T;
(2) 在List中隨機(jī)選取一個樣本數(shù)據(jù)作為基點(diǎn)P,將其從List刪除,并計(jì)算List中其他樣本點(diǎn)到基點(diǎn)P的距離d1;
(3) 把d1小于T1的樣本劃到一個Canopy中,同時(shí)把這些已劃分好的數(shù)據(jù)從原始數(shù)據(jù)集合List中移除;
(4) 重復(fù)(2)、(3),直到List為空;
(5) 開始發(fā)現(xiàn)異常點(diǎn),構(gòu)造由各個Canopy的中心組成的數(shù)據(jù)集合Center,令T2=0.95×T1;
(6) 從Center中順序選取一個數(shù)據(jù)C,計(jì)算C與Center中其他所有數(shù)據(jù)的距離d2,統(tǒng)計(jì)d2小于T2的次數(shù)n,直到遍歷Center;
(7)n小于或者等于2,則將由樣本C生成的Canopy定義為一個異常類,其他Canopy定義為正常類,該異常類中的樣本全部定義為離群點(diǎn)。
該算法中變量T、T1、T2和n是較重要的參數(shù)。T是兩兩向量之間距離的平均值,用來劃分Canopy的閾值。對每個向量,若其與選定向量的距離小于T1,則被劃分到選定向量所在的Canopy中,此處取T1=0.65×T是針對本實(shí)驗(yàn)數(shù)據(jù)經(jīng)過多次實(shí)驗(yàn)后能有效避免數(shù)據(jù)傾斜現(xiàn)象而選定的。參數(shù)T2和n是劃分離群點(diǎn)所在類的閾值。若一個類與其他類的中心之間的距離小于T2的次數(shù)少于或等于2次,則說明此類的中心與其他類的中心距離較遠(yuǎn)。如果類包含向量個數(shù)少于200,則此類中所有向量為離群點(diǎn)。此處取T2=0.95×T1、n=2、類中向量個數(shù)小于200是針對本實(shí)驗(yàn)上網(wǎng)時(shí)長向量集多次實(shí)驗(yàn)選定的。對其他數(shù)據(jù)集,可選擇不同參數(shù)。本文為達(dá)到更好的粗聚類結(jié)果,對向量集循環(huán)了20次K-canopy聚類算法。
由于學(xué)校工作日和周末的斷網(wǎng)策略不同,本文將工作日和周末分別粗聚類。工作日粗聚類后得到148個Canopy,其中包含6個向量數(shù)量明顯較大的Canopy,去除2 323個離群點(diǎn),占比1.53%;周末粗聚類后得到106個Canopy,其中包含5個向量數(shù)量明顯較大的Canopy,去除3 627個離群點(diǎn),占比7.32%。通過分析發(fā)現(xiàn),去除的向量確實(shí)與其他向量差異較大。
K值,即聚類個數(shù),是K-均值聚類算法(K-means算法)中最重要的參數(shù),會極大地影響聚類結(jié)果。確定K值的思路有很多種[12-14]。本文采用投票機(jī)制,即利用多種指標(biāo)最終確定K值。在對數(shù)據(jù)樣本分布缺乏先驗(yàn)的理解前提下,本文選擇穩(wěn)定性較好的三種指標(biāo),分別是輪廓系數(shù)[15]、戴維森堡丁指數(shù)(DBI)[16]與誤差平方和系數(shù)(SSE)[17]。輪廓系數(shù)、戴維森堡丁指數(shù)側(cè)重于類間間隔性與類內(nèi)緊密性,輪廓系數(shù)越大、戴維森堡丁指數(shù)越小說明聚類效果好。誤差平方和系數(shù)則是常規(guī)K-means算法的損失函數(shù),可以直接表現(xiàn)出聚類效果[18]。
K-means算法是一種簡單、收斂速度快、易實(shí)現(xiàn)的經(jīng)典聚類算法,適用于數(shù)值型數(shù)據(jù)集聚類。該算法的核心思想是找出K個聚類中心,使得每一個樣本點(diǎn)和與其最近的聚類中心的平方距離和被最小化[19]。本文K-means算法流程如下:
(1) 根據(jù)K-canopy聚類得到最優(yōu)K值,并從數(shù)據(jù)集中隨機(jī)選取K個樣本點(diǎn)作為初始中心點(diǎn);
(2) 計(jì)算各個樣本點(diǎn)到各個中心點(diǎn)的距離,并將其歸類到距離最小時(shí)對應(yīng)的類;
(3) 根據(jù)聚類結(jié)果,重新計(jì)算每一個類的中心值;
(4) 重復(fù)(2)、(3),直到每一個類的中心值穩(wěn)定或者迭代次數(shù)超過給定閾值。
本文首先依據(jù)K-canopy算法計(jì)算結(jié)果中向量個數(shù)明顯較大的Canopy個數(shù),粗略得出K值范圍;然后對范圍內(nèi)每個K值的每一個指標(biāo)都進(jìn)行10次K-means聚類再求均值,以降低隨機(jī)性影響;再利用投票原則來選取最優(yōu)K值;最后通過K-means聚類算法對數(shù)據(jù)集進(jìn)行聚類。
綜上,本文最終得到的工作日學(xué)生的上網(wǎng)行為聚類個數(shù)即K值為6,周末聚類個數(shù)即K值為5。通過實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn)本文對工作日和周末數(shù)據(jù)聚類所得到的K值可得到較好的聚類效果。
本文實(shí)驗(yàn)使用Java編程語言實(shí)現(xiàn),主機(jī)的CPU型號為CPUi7-8700K,內(nèi)存為8 GB,操作系統(tǒng)為Microsoft Windows 10。
由于工作日和周末的斷網(wǎng)策略不同,且學(xué)生課程安排也不一樣,學(xué)生的行為也存在較大差異,因此本文將周末和工作日數(shù)據(jù)分開處理。以下是整體的實(shí)驗(yàn)流程:(1) 選擇校園網(wǎng)2016年11月本科生的認(rèn)證數(shù)據(jù),并對其預(yù)處理得到上網(wǎng)時(shí)長向量集合;(2) 利用K-canopy算法對得到上網(wǎng)時(shí)長向量集進(jìn)行粗聚類,去除離群點(diǎn)并估計(jì)聚類個數(shù);(3) 利用K-means算法和估計(jì)聚類個數(shù)對去除離群點(diǎn)后的上網(wǎng)時(shí)長向量集合進(jìn)行進(jìn)一步聚類,并使用三種指標(biāo)對聚類結(jié)果進(jìn)行評價(jià),選擇出最優(yōu)的聚類個數(shù)和聚類結(jié)果。
以下先對工作日12天數(shù)據(jù)進(jìn)行聚類分析。圖1給出工作日聚類結(jié)果,圖的橫坐標(biāo)是時(shí)間,代表24個時(shí)段,縱坐標(biāo)為平均上網(wǎng)時(shí)長。曲線反應(yīng)各類各時(shí)段上網(wǎng)平均時(shí)長。表3給出工作日各類中學(xué)生人數(shù)分布,按學(xué)生學(xué)號統(tǒng)計(jì)每類中學(xué)生人數(shù)。
圖1 工作日聚類結(jié)果
從圖1和表3可總結(jié)工作日校園網(wǎng)用戶的上網(wǎng)時(shí)間分布規(guī)律如下:
(1) a類學(xué)生和b類學(xué)生上網(wǎng)行為相似,都是白天長時(shí)間上網(wǎng)的學(xué)生。其中a類學(xué)生從早晨6點(diǎn)時(shí)段陸續(xù)開始上網(wǎng),8點(diǎn)時(shí)段幾乎全部上線,直到當(dāng)天結(jié)束。b類學(xué)生在8點(diǎn)時(shí)段陸續(xù)開始上線,10點(diǎn)時(shí)段幾乎全部上線,10點(diǎn)到16點(diǎn)時(shí)段有少量下線,16點(diǎn)時(shí)段到23點(diǎn)時(shí)段在線人數(shù)有細(xì)微波動,直到0點(diǎn)斷網(wǎng)時(shí)全部下線。
a類學(xué)生人數(shù)少,占比為7.88%。其中,三個年級學(xué)生人數(shù)差距不大,分別占30.21%、35.84%和33.96%。本類學(xué)生工作日全天上網(wǎng)而且人數(shù)較少,說明上網(wǎng)應(yīng)屬個人行為,學(xué)生個人有網(wǎng)癮的概率較高。b類學(xué)生人數(shù)中等,占比16.48%,明顯大四、大二學(xué)生較多,分別占43.32%、35.66%。分析原因應(yīng)該與學(xué)校各專業(yè)課程設(shè)計(jì)相關(guān),是大二學(xué)生上午有課的較多,而大四學(xué)生上午沒課的比例較大。
(2) c類學(xué)生在12點(diǎn)時(shí)段陸續(xù)開始上網(wǎng),13時(shí)段上線在數(shù)達(dá)到最多,14點(diǎn)時(shí)段到22點(diǎn)時(shí)段有少量學(xué)生下線,22點(diǎn)到23點(diǎn)時(shí)段又有少量上線,直到24點(diǎn)斷網(wǎng)。
此類學(xué)生人數(shù)占比16.54%,同樣大三和大四學(xué)生較多,分別占36.70%和39.93%。分析原因同樣應(yīng)該是大三、大四學(xué)生下午沒課的比例較大。
(3) d類學(xué)生白天上網(wǎng)較少,峰值出現(xiàn)在13點(diǎn)時(shí)段,但此時(shí)段時(shí)長均值僅1 100秒(約合18分鐘)。13點(diǎn)時(shí)段后繼續(xù)下線,至16點(diǎn)時(shí)段到達(dá)最低點(diǎn),平均上網(wǎng)時(shí)間約180秒(約3分鐘)。之后繼續(xù)上線,至晚上22點(diǎn)時(shí)段時(shí)達(dá)到峰值,平均上網(wǎng)時(shí)長3 437秒(約57分鐘)。之后繼續(xù)下線,直到12點(diǎn)斷網(wǎng)。
此類學(xué)生使用網(wǎng)絡(luò)較少,工作時(shí)間基本不使用網(wǎng)絡(luò),上線時(shí)間集中在晚上7點(diǎn)-10點(diǎn)時(shí)段。此類學(xué)生總數(shù)點(diǎn)比較高,點(diǎn)18.30%,有10 398人。三四年級學(xué)生人數(shù)占比稍大,分別占35.85%和38.30%。
(4) e類學(xué)生與d類有些相似,白天上網(wǎng)較少,峰值出現(xiàn)在13點(diǎn)時(shí)段,該時(shí)段平均時(shí)長略高于d類學(xué)生,1 311秒(約22分鐘)。其主要上網(wǎng)時(shí)間從21點(diǎn)時(shí)段開始陸續(xù)上網(wǎng),至22點(diǎn)-23點(diǎn)時(shí)段達(dá)到峰值。其峰值比a-d類學(xué)生平均時(shí)長都少3 066秒,約51分鐘。
此類學(xué)生工作日基本不使用網(wǎng)絡(luò),僅在晚上10點(diǎn)-11點(diǎn)時(shí)段上網(wǎng)。對大二、大三學(xué)生預(yù)計(jì)上課、自習(xí)時(shí)間較長,而對大四學(xué)生,可能因?yàn)閰⒓訉?shí)習(xí)等原因未在宿舍使用網(wǎng)絡(luò)。
(5) f類學(xué)生全天在線時(shí)間最短,峰值出現(xiàn)在中午13點(diǎn)時(shí)段,此時(shí)段平均上網(wǎng)時(shí)長峰值也僅僅551秒,約9分鐘。
此類學(xué)生上網(wǎng)行為與前面5類學(xué)生差異較大。此類學(xué)生總體占比23.95%,人數(shù)最多。在此類學(xué)生中同樣大三、大四學(xué)生較多。
與工作日分析相類似,本文對周末同樣進(jìn)行聚類分析。圖2給出周末聚類結(jié)果,表4給出周末各類學(xué)生人數(shù)分布。
圖2 周末聚類結(jié)果
分類總體大二大三大四人數(shù)百分比/%人數(shù)百分比/%人數(shù)百分比/%人數(shù)百分比/%a9 54834.54241225.26335335.12378339.62b7 08825.641 87126.402 50135.282 71638.32c7 79828.212 26028.982 64533.922 89337.10d1 4995.4245930.6254336.2249733.16e1 7106.1949328.8358734.3363036.84
在周末,學(xué)校24小時(shí)不會斷網(wǎng),根據(jù)圖2和表4總結(jié)出代表周末校園網(wǎng)用戶的上網(wǎng)行為如下:
(1) a類學(xué)生周末會熬夜,在0點(diǎn)時(shí)段在線時(shí)長均值為1 449秒(約24分鐘),說明約一半學(xué)生在線。從0點(diǎn)時(shí)段開始陸續(xù)下線,4點(diǎn)時(shí)段差才全部下線。之后上午8點(diǎn)時(shí)段開始陸續(xù)上線,至14點(diǎn)時(shí)段時(shí)多數(shù)學(xué)生上線,上網(wǎng)時(shí)長均值達(dá)到3 386秒(約56分鐘)。從此時(shí)段直到晚23點(diǎn)時(shí)段此類學(xué)生大部分在線。
此類學(xué)生周末主要是白天長時(shí)間在線、會熬夜??倢W(xué)生人數(shù)占比34.54%,是人數(shù)最多的一類。其中大二、大三、大四學(xué)生各占25.26%、35.12%、39.62%。
(2) b類學(xué)生周末熬夜,白天上網(wǎng)較少。在0點(diǎn)時(shí)段在線時(shí)長均值為963秒(約16分鐘),說明有些學(xué)生熬夜,但人數(shù)比a類少。此類學(xué)生熬夜集中在0點(diǎn)-4點(diǎn)時(shí)段。白天上網(wǎng)時(shí)間不多,峰值出現(xiàn)在中午13點(diǎn)時(shí)段,均值512秒,約9分鐘。下午在線人數(shù)少,晚上在線人數(shù)繼續(xù)增加,23點(diǎn)時(shí)段達(dá)到峰值,平均時(shí)長為3 392秒(約57分鐘)。
此類學(xué)生白天上網(wǎng)少,有少量學(xué)生會熬夜。占總?cè)藬?shù)的25.64%,其中大二、大三和大四年級學(xué)生各占26.40%、35.28%、38.32%。
(3) c類學(xué)生在線峰值出現(xiàn)在凌晨0點(diǎn)、中午13點(diǎn)和晚23點(diǎn)時(shí)段,但時(shí)長均值不大,最高1 587秒(約16分鐘),說明最多約一半學(xué)生23點(diǎn)時(shí)在線。其他時(shí)間在線的學(xué)生不超過一半。
此類學(xué)生使用網(wǎng)絡(luò)時(shí)長較短,少量熬夜,白天較少上網(wǎng),人數(shù)占總?cè)藬?shù)的28.21%,比例較大。各級學(xué)生占比分別是28.98%、33.92%和37.10%。
(4) d類學(xué)生全部通宵,白天很少上網(wǎng)。這類學(xué)生從0點(diǎn)到6點(diǎn)多全部通宵,6點(diǎn)多后陸續(xù)下線,至19點(diǎn)時(shí)段的在線人數(shù)趨近0。22點(diǎn)時(shí)段開始又有少量學(xué)生開始上線,至23點(diǎn)時(shí)段在線時(shí)長均值為239秒(約4分鐘)。
此類學(xué)生在總體中占比最少,為5.42%,人數(shù)1 499人。此類學(xué)生中三年級基本均衡,都占30%以上。
(5) e類0點(diǎn)到18點(diǎn)時(shí)段幾乎在線上,在線時(shí)長均值達(dá)到59分鐘。18點(diǎn)時(shí)段開始至24點(diǎn)有少量下線。此類學(xué)生在總體中占比6.19%,人數(shù)較少,約1 700人。且在此類三個年級人數(shù)相差不多,大四學(xué)生稍多,大二學(xué)生略少。
(1) 個人上網(wǎng)時(shí)間特征:針對每個學(xué)生,依據(jù)帳號可統(tǒng)計(jì)其上網(wǎng)時(shí)間分布所屬的類,從而發(fā)現(xiàn)學(xué)生個人的上網(wǎng)時(shí)間分布。表5給出兩個學(xué)生的上網(wǎng)時(shí)間分布。第一個學(xué)生工作日在線時(shí)間較少,有2天屬b類、1天c類、2天d類、1天e類和5天f類。其工作日大約有2天工作時(shí)間在線、6天時(shí)間晚睡。周末白天上網(wǎng)較多,有2天可能晚睡,但未通宵熬夜??芍?,此學(xué)生是正常上網(wǎng)的學(xué)生。第二個學(xué)生15天中有10個工作日上網(wǎng)行為屬于a類,幾乎工作時(shí)間都在線,周末又有4天屬于a類,即白天幾乎全在線,晚上有晚睡。此學(xué)生使用網(wǎng)絡(luò)時(shí)間超長,有網(wǎng)癮的可能性較大。此類學(xué)生需要統(tǒng)計(jì)后提請學(xué)生管理部門特別注意。通過聚類結(jié)果,可以很容易發(fā)現(xiàn)使用網(wǎng)絡(luò)過多、過少或具有其他特征的學(xué)生,為學(xué)生管理部門提供建議。
表5 某學(xué)生上網(wǎng)時(shí)間特征分布
(2) 各專業(yè)學(xué)生的上網(wǎng)時(shí)間特征:對各專業(yè)可統(tǒng)計(jì)每年級屬于不同類的學(xué)生人數(shù),再對比其他年級專業(yè)可發(fā)現(xiàn)各專業(yè)學(xué)生上網(wǎng)時(shí)間分布特征。作為示例,表6給出計(jì)算機(jī)科學(xué)技術(shù)專業(yè)學(xué)生總?cè)藬?shù)、上網(wǎng)人數(shù)、工作日和周末上網(wǎng)人數(shù)分布。
表6 此校計(jì)算機(jī)科學(xué)技術(shù)專業(yè)學(xué)生上網(wǎng)分布
從表6可知,三個年級總?cè)藬?shù)相似,大四學(xué)生上網(wǎng)人數(shù)較多(149人)。總體來看,工作日大二學(xué)生使用網(wǎng)絡(luò)較少,晚睡、通宵的人數(shù)都比較少。大三使用網(wǎng)絡(luò)人數(shù)有所增加,晚睡、通宵的人數(shù)也都有增加。大四學(xué)生上網(wǎng)人數(shù)增加,在各類中人數(shù)占比大,說明學(xué)生上網(wǎng)時(shí)間差異較大,可能因?yàn)檎n程設(shè)置較少,學(xué)生不受上課時(shí)間約束,自由度高。對于周末人數(shù)分布,大四學(xué)生使用網(wǎng)絡(luò)最多,通宵、熬夜人最多。大二學(xué)生周末使用網(wǎng)絡(luò)比大三學(xué)生多,熬夜通宵人數(shù)少于大三人數(shù)。
對其他專業(yè)可進(jìn)行類似分析。當(dāng)然也可通過數(shù)據(jù)對比獲取各專業(yè)學(xué)生上網(wǎng)時(shí)間分布的差異。限于篇幅,本文未給出各專業(yè)對比情況。通過專業(yè)對比,可為專業(yè)設(shè)置、專業(yè)各年級課程設(shè)置提供參考。
本文選擇2016年11月的校園網(wǎng)上網(wǎng)認(rèn)證數(shù)據(jù),清洗掉與研究目標(biāo)無關(guān)的數(shù)據(jù),然后計(jì)算得到學(xué)生的上網(wǎng)時(shí)長向量集合。對上網(wǎng)時(shí)長向量的聚類分三步進(jìn)行,首先利用K-canopy算法選擇并去除離群點(diǎn)數(shù)據(jù),提高了數(shù)據(jù)質(zhì)量和聚類效率,使聚類結(jié)果更具說服力。再用輪廓系數(shù)、戴維森堡丁指數(shù)與誤差平方和系數(shù)三種參數(shù)投票確定最優(yōu)聚類個數(shù)。最后利用K-means算法對工作日和周末上網(wǎng)時(shí)長向量集分別進(jìn)行聚類,對聚類結(jié)果進(jìn)行分析,得到工作日、周末不同類型學(xué)生上網(wǎng)時(shí)長特征。另外,統(tǒng)計(jì)單個學(xué)生、某專業(yè)各年級學(xué)生的聚類結(jié)果,分別得到對應(yīng)的上網(wǎng)時(shí)長特征。本文分析結(jié)果可為專業(yè)課程安排、學(xué)生管理工作提供參考。
隨著無線網(wǎng)絡(luò)認(rèn)證數(shù)據(jù)的暴增,學(xué)生上網(wǎng)行為信息更為豐富。因此下一步會利用Spark平臺對有線、無線認(rèn)證數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)及學(xué)生成績等數(shù)據(jù)進(jìn)行進(jìn)一步分析,在校園人員流動規(guī)律、學(xué)生成績與上網(wǎng)成績關(guān)聯(lián)性等方面獲取更有價(jià)值的分析結(jié)果。