亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于認(rèn)證數(shù)據(jù)的學(xué)生上網(wǎng)時(shí)間特征分析

2019-11-12 05:12:30郭玉彬吳宇航薄傲峰鄭淑敏張曉鵬

計(jì)算機(jī)應(yīng)用與軟件 2019年11期

關(guān)鍵詞：學(xué)生

郭玉彬吳宇航薄傲峰鄭淑敏張曉鵬

1(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院廣東廣州 510642)2(中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院廣東廣州 510006)

0 引言

高校校園網(wǎng)是承載高校學(xué)生學(xué)習(xí)、生活、娛樂等各類活動的基礎(chǔ)性設(shè)施。隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展，學(xué)生對網(wǎng)絡(luò)的使用增長迅速，其上網(wǎng)行為也呈現(xiàn)多樣化和復(fù)雜化特征。校園網(wǎng)認(rèn)證數(shù)據(jù)包含了學(xué)生用戶名、上網(wǎng)端口地址、上下線時(shí)間等信息。通過對這些數(shù)據(jù)的分析，可發(fā)現(xiàn)學(xué)生上網(wǎng)時(shí)間、時(shí)長等信息及相關(guān)的特征分類規(guī)律。而這些規(guī)律性信息對學(xué)生管理、專業(yè)課程設(shè)置等工作具有較高的參考價(jià)值。2016年上網(wǎng)認(rèn)證數(shù)據(jù)量約8 000萬條，并以每年約1億條的速度增加。

針對校園網(wǎng)日志數(shù)據(jù)進(jìn)行學(xué)生行為分析的研究有很多，大多數(shù)研究都是采用傳統(tǒng)的K-means算法對在線時(shí)長和校園網(wǎng)使用流量進(jìn)行聚類，利用聚類結(jié)果分析每一類用戶的上網(wǎng)行為和優(yōu)化校園網(wǎng)管理[1-4]。文獻(xiàn)[5]基于一種改進(jìn)的K-means算法，即SimiClustering算法，對校園網(wǎng)用戶在線時(shí)長和流量進(jìn)行聚類，得出3種用戶行為，并利用聚類結(jié)果為校園網(wǎng)用戶個性化需求方面提供理論依據(jù)。文獻(xiàn)[6]利用優(yōu)化層次聚類算法對校園網(wǎng)主干數(shù)據(jù)流的IP地址進(jìn)行聚類，得到網(wǎng)絡(luò)用戶的訪問地址分布情況，從中了解用戶行為特征。文獻(xiàn)[7]提出結(jié)合網(wǎng)絡(luò)用戶數(shù)據(jù)特點(diǎn)的預(yù)處理方式，并引入基于圖論的子空間聚類方法、粒子群聚類算法得到校園網(wǎng)用戶網(wǎng)絡(luò)行為模式。文獻(xiàn)[8]利用K-means算法和統(tǒng)計(jì)技術(shù)對校園網(wǎng)用戶日志數(shù)據(jù)進(jìn)行分析，發(fā)現(xiàn)大部分學(xué)生每個月上網(wǎng)時(shí)間小于170小時(shí)、學(xué)生上網(wǎng)時(shí)間越長越容易掛科的規(guī)律。文獻(xiàn)[9]對Concordia大學(xué)Wi-Fi日志數(shù)據(jù)利用PCA制導(dǎo)的聚類算法進(jìn)行分析，得到7類行為模式，并給出多天同類型活動的搜索算法。

上述研究中，聚類中采用上網(wǎng)時(shí)間都是用戶一天或者一個月為單位的上網(wǎng)時(shí)間，大多數(shù)研究沒有去除臟數(shù)據(jù)。本文將學(xué)生上網(wǎng)認(rèn)證數(shù)據(jù)轉(zhuǎn)換為24小時(shí)時(shí)長向量，保留較多細(xì)節(jié)，更方便分析學(xué)生上網(wǎng)時(shí)刻及更能反映學(xué)生上網(wǎng)時(shí)間分布規(guī)律；采用改進(jìn)Canopy算法，即K-canopy算法，去除離群點(diǎn)，提高聚類質(zhì)量，進(jìn)而提高分析結(jié)論的可靠性。本文首先選擇校園網(wǎng)認(rèn)證數(shù)據(jù)并對其進(jìn)行清洗，去除與研究目標(biāo)無關(guān)的數(shù)據(jù)；然后進(jìn)行數(shù)據(jù)預(yù)處理，得到學(xué)生上網(wǎng)時(shí)長向量集；再對學(xué)生工作日和周末的上網(wǎng)時(shí)長向量分別進(jìn)行聚類。最后依據(jù)聚類結(jié)果分析了各類學(xué)生上網(wǎng)時(shí)間和時(shí)長分布特征，結(jié)合年級專業(yè)上網(wǎng)規(guī)律進(jìn)行總結(jié)，為學(xué)生管理、專業(yè)課程設(shè)置等工作提供參考。

1 數(shù)據(jù)預(yù)處理

本文選擇校園網(wǎng)2016年11月本科生的認(rèn)證數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析。因?yàn)?1月份是正常學(xué)期時(shí)間，不受開學(xué)、期末考試影響，且11月假期較少，更能全面反映學(xué)生上網(wǎng)行為分布規(guī)律。在數(shù)據(jù)預(yù)處理階段，首先進(jìn)行數(shù)據(jù)清洗，去掉與研究目標(biāo)無關(guān)的數(shù)據(jù)，然后計(jì)算每個用戶、每天24小時(shí)內(nèi)每小時(shí)的上網(wǎng)時(shí)長，得到上網(wǎng)時(shí)長向量集合。

1.1 數(shù)據(jù)源說明

本文實(shí)驗(yàn)數(shù)據(jù)來源于SAM網(wǎng)絡(luò)認(rèn)證計(jì)費(fèi)系統(tǒng)和Syslog網(wǎng)絡(luò)設(shè)備日志收集系統(tǒng)。主要提供的信息有：用戶帳號、IP地址信息、上線時(shí)間、下線時(shí)間和離線原因等。表1給出源數(shù)據(jù)表中關(guān)鍵字段說明。

1.2 數(shù)據(jù)預(yù)處理

(1) 數(shù)據(jù)選擇:校園網(wǎng)認(rèn)證記錄數(shù)據(jù)量比較大，其中包括本科生、研究生、教職工和住宅區(qū)等多種類型賬號的認(rèn)證數(shù)據(jù)，也包括了線路故障反復(fù)登錄、設(shè)備自動登錄等其他與本研究無關(guān)的認(rèn)證數(shù)據(jù)。針對本文研究目標(biāo)，下面詳細(xì)列出需要清洗的數(shù)據(jù)及其清洗原因和處理策略。

① 研究生、教職工、辦公區(qū)、來訪人員和住宅區(qū)等非本科生認(rèn)證數(shù)據(jù)。此類數(shù)據(jù)與本研究無關(guān)，依據(jù)帳號特征去除該類數(shù)據(jù)。

② 大學(xué)一、五年級學(xué)生認(rèn)證數(shù)據(jù)。學(xué)校規(guī)定僅有少量滿足特殊條件的一年級學(xué)生可開設(shè)校園網(wǎng)帳號，五年級學(xué)生是特殊專業(yè)或者學(xué)籍異動的學(xué)生，此類學(xué)生不具有代表性，依據(jù)帳號特征去除。

③ 去除11日的數(shù)據(jù)。雙11購物節(jié)，按學(xué)校規(guī)定10-11日夜間不斷網(wǎng)，因此這一天學(xué)生的上網(wǎng)行為不是常規(guī)工作日行為或者周末行為，屬于異常行為，直接刪除該時(shí)間段全部認(rèn)證記錄。

④ 上下線時(shí)間間隔小于或等于60秒的數(shù)據(jù)。機(jī)器故障所產(chǎn)生的，這類數(shù)據(jù)對分析學(xué)生上網(wǎng)行為沒有意義，依據(jù)上下線時(shí)間計(jì)算時(shí)長，然后去除該類數(shù)據(jù)。

⑤ 單次在線時(shí)長超過48個小時(shí)的數(shù)據(jù)?？赡苁窃O(shè)備掛機(jī)或者是個人極端行為，這類數(shù)據(jù)不反映學(xué)生上網(wǎng)行為或者不具有代表性。依據(jù)上下線時(shí)間計(jì)算時(shí)長，然后去除該類數(shù)據(jù)。

⑥ 從6點(diǎn)鐘到23點(diǎn)鐘時(shí)間段內(nèi)上網(wǎng)時(shí)長都是3 600秒的數(shù)據(jù)。設(shè)備自動認(rèn)證數(shù)據(jù)，不反映學(xué)生上網(wǎng)行為，依據(jù)帳號每小時(shí)上網(wǎng)時(shí)長去除該類數(shù)據(jù)。

綜上所述，本文實(shí)驗(yàn)數(shù)據(jù)范圍：全月原始數(shù)據(jù)有1 990 396條認(rèn)證數(shù)據(jù)，其中工作日數(shù)據(jù)1 487 914條，周末502 482條。清洗后總數(shù)據(jù)量201 523條，其中工作日152 007條，周末49 516條。

(2) 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理：本小節(jié)對學(xué)生每天產(chǎn)生的多條上網(wǎng)認(rèn)證數(shù)據(jù)進(jìn)行處理，得到每個學(xué)生每天的上網(wǎng)時(shí)長向量。計(jì)算每個學(xué)生每天24小時(shí)上網(wǎng)時(shí)長向量，從而將學(xué)生一天上網(wǎng)時(shí)長細(xì)化到每天每小時(shí)，更能反映學(xué)生上網(wǎng)時(shí)間分布。為保護(hù)學(xué)生隱私，本文對用戶帳號進(jìn)行了脫敏處理,利用無意義的數(shù)字替代敏感信息。

表2給出學(xué)號為2013000XXXX的學(xué)生在2016年11月2日的認(rèn)證數(shù)據(jù)預(yù)處理結(jié)果，假設(shè)其上網(wǎng)時(shí)長向量m，那么m值如下：

m=[2013000XXXX,2016/11/2,0,0,0,0,0,0,0,0,876,2 278,0,0,0,2 626,3 600,3 600,3 018,0,2 400,3 600,3 600,3 530,3 600,1 799]

表2 認(rèn)證數(shù)據(jù)表

2 粗聚類與聚類

2.1 粗聚類

本小節(jié)使用K-canopy算法對上網(wǎng)時(shí)長向量集進(jìn)行粗聚類，去除離群點(diǎn)并估計(jì)聚類個數(shù)。

Canopy算法一般稱為粗聚類算法，它不需要指定聚類個數(shù)，算法簡單，運(yùn)算速度快[10]。Canopy算法原理和實(shí)現(xiàn)方法見文獻(xiàn)[11]。本文基于Canopy算法基本原理設(shè)計(jì)并實(shí)現(xiàn)K-canopy聚類算法，用于去除離群點(diǎn)。K-canopy聚類算法的基本思想是首先利用Canopy算法對數(shù)據(jù)進(jìn)行一次粗聚類，取數(shù)據(jù)個數(shù)少且聚類中心與其他Canopy中心距離較遠(yuǎn)的Canopy作為離群點(diǎn)去掉。重復(fù)此操作直到去掉總數(shù)據(jù)量的2%～5%的離群數(shù)據(jù)為止。按常規(guī)，2%～5%的數(shù)據(jù)為離群點(diǎn)是合理的，具體數(shù)量可依據(jù)數(shù)據(jù)質(zhì)量、學(xué)生實(shí)際上網(wǎng)特征異常的人數(shù)來設(shè)定，以下是K-canopy聚類算法步驟。

(1) 構(gòu)造原始數(shù)據(jù)集合List，計(jì)算全部數(shù)據(jù)兩兩之間的歐式距離的均值T，令T1=0.65×T；

(2) 在List中隨機(jī)選取一個樣本數(shù)據(jù)作為基點(diǎn)P，將其從List刪除，并計(jì)算List中其他樣本點(diǎn)到基點(diǎn)P的距離d1；

(3) 把d1小于T1的樣本劃到一個Canopy中，同時(shí)把這些已劃分好的數(shù)據(jù)從原始數(shù)據(jù)集合List中移除；

(4) 重復(fù)(2)、(3)，直到List為空；

(5) 開始發(fā)現(xiàn)異常點(diǎn)，構(gòu)造由各個Canopy的中心組成的數(shù)據(jù)集合Center，令T2=0.95×T1；

(6) 從Center中順序選取一個數(shù)據(jù)C，計(jì)算C與Center中其他所有數(shù)據(jù)的距離d2，統(tǒng)計(jì)d2小于T2的次數(shù)n，直到遍歷Center；

(7)n小于或者等于2，則將由樣本C生成的Canopy定義為一個異常類，其他Canopy定義為正常類，該異常類中的樣本全部定義為離群點(diǎn)。

該算法中變量T、T1、T2和n是較重要的參數(shù)。T是兩兩向量之間距離的平均值，用來劃分Canopy的閾值。對每個向量，若其與選定向量的距離小于T1，則被劃分到選定向量所在的Canopy中，此處取T1=0.65×T是針對本實(shí)驗(yàn)數(shù)據(jù)經(jīng)過多次實(shí)驗(yàn)后能有效避免數(shù)據(jù)傾斜現(xiàn)象而選定的。參數(shù)T2和n是劃分離群點(diǎn)所在類的閾值。若一個類與其他類的中心之間的距離小于T2的次數(shù)少于或等于2次，則說明此類的中心與其他類的中心距離較遠(yuǎn)。如果類包含向量個數(shù)少于200，則此類中所有向量為離群點(diǎn)。此處取T2=0.95×T1、n=2、類中向量個數(shù)小于200是針對本實(shí)驗(yàn)上網(wǎng)時(shí)長向量集多次實(shí)驗(yàn)選定的。對其他數(shù)據(jù)集，可選擇不同參數(shù)。本文為達(dá)到更好的粗聚類結(jié)果，對向量集循環(huán)了20次K-canopy聚類算法。

由于學(xué)校工作日和周末的斷網(wǎng)策略不同，本文將工作日和周末分別粗聚類。工作日粗聚類后得到148個Canopy，其中包含6個向量數(shù)量明顯較大的Canopy，去除2 323個離群點(diǎn)，占比1.53%；周末粗聚類后得到106個Canopy，其中包含5個向量數(shù)量明顯較大的Canopy，去除3 627個離群點(diǎn)，占比7.32%。通過分析發(fā)現(xiàn)，去除的向量確實(shí)與其他向量差異較大。

2.2 K-均值聚類算法描述

K值，即聚類個數(shù)，是K-均值聚類算法(K-means算法)中最重要的參數(shù)，會極大地影響聚類結(jié)果。確定K值的思路有很多種[12-14]。本文采用投票機(jī)制，即利用多種指標(biāo)最終確定K值。在對數(shù)據(jù)樣本分布缺乏先驗(yàn)的理解前提下，本文選擇穩(wěn)定性較好的三種指標(biāo)，分別是輪廓系數(shù)[15]、戴維森堡丁指數(shù)(DBI)[16]與誤差平方和系數(shù)(SSE)[17]。輪廓系數(shù)、戴維森堡丁指數(shù)側(cè)重于類間間隔性與類內(nèi)緊密性，輪廓系數(shù)越大、戴維森堡丁指數(shù)越小說明聚類效果好。誤差平方和系數(shù)則是常規(guī)K-means算法的損失函數(shù)，可以直接表現(xiàn)出聚類效果[18]。

K-means算法是一種簡單、收斂速度快、易實(shí)現(xiàn)的經(jīng)典聚類算法，適用于數(shù)值型數(shù)據(jù)集聚類。該算法的核心思想是找出K個聚類中心，使得每一個樣本點(diǎn)和與其最近的聚類中心的平方距離和被最小化[19]。本文K-means算法流程如下：

(1) 根據(jù)K-canopy聚類得到最優(yōu)K值，并從數(shù)據(jù)集中隨機(jī)選取K個樣本點(diǎn)作為初始中心點(diǎn)；

(2) 計(jì)算各個樣本點(diǎn)到各個中心點(diǎn)的距離，并將其歸類到距離最小時(shí)對應(yīng)的類；

(3) 根據(jù)聚類結(jié)果，重新計(jì)算每一個類的中心值；

(4) 重復(fù)(2)、(3)，直到每一個類的中心值穩(wěn)定或者迭代次數(shù)超過給定閾值。

本文首先依據(jù)K-canopy算法計(jì)算結(jié)果中向量個數(shù)明顯較大的Canopy個數(shù)，粗略得出K值范圍；然后對范圍內(nèi)每個K值的每一個指標(biāo)都進(jìn)行10次K-means聚類再求均值，以降低隨機(jī)性影響；再利用投票原則來選取最優(yōu)K值；最后通過K-means聚類算法對數(shù)據(jù)集進(jìn)行聚類。

綜上，本文最終得到的工作日學(xué)生的上網(wǎng)行為聚類個數(shù)即K值為6，周末聚類個數(shù)即K值為5。通過實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn)本文對工作日和周末數(shù)據(jù)聚類所得到的K值可得到較好的聚類效果。

3 聚類結(jié)果與分析

本文實(shí)驗(yàn)使用Java編程語言實(shí)現(xiàn)，主機(jī)的CPU型號為CPUi7-8700K，內(nèi)存為8 GB，操作系統(tǒng)為Microsoft Windows 10。

由于工作日和周末的斷網(wǎng)策略不同，且學(xué)生課程安排也不一樣，學(xué)生的行為也存在較大差異，因此本文將周末和工作日數(shù)據(jù)分開處理。以下是整體的實(shí)驗(yàn)流程：(1) 選擇校園網(wǎng)2016年11月本科生的認(rèn)證數(shù)據(jù)，并對其預(yù)處理得到上網(wǎng)時(shí)長向量集合；(2) 利用K-canopy算法對得到上網(wǎng)時(shí)長向量集進(jìn)行粗聚類，去除離群點(diǎn)并估計(jì)聚類個數(shù)；(3) 利用K-means算法和估計(jì)聚類個數(shù)對去除離群點(diǎn)后的上網(wǎng)時(shí)長向量集合進(jìn)行進(jìn)一步聚類，并使用三種指標(biāo)對聚類結(jié)果進(jìn)行評價(jià)，選擇出最優(yōu)的聚類個數(shù)和聚類結(jié)果。

3.1 工作日聚類結(jié)果與分析

以下先對工作日12天數(shù)據(jù)進(jìn)行聚類分析。圖1給出工作日聚類結(jié)果，圖的橫坐標(biāo)是時(shí)間，代表24個時(shí)段，縱坐標(biāo)為平均上網(wǎng)時(shí)長。曲線反應(yīng)各類各時(shí)段上網(wǎng)平均時(shí)長。表3給出工作日各類中學(xué)生人數(shù)分布，按學(xué)生學(xué)號統(tǒng)計(jì)每類中學(xué)生人數(shù)。

圖1 工作日聚類結(jié)果

從圖1和表3可總結(jié)工作日校園網(wǎng)用戶的上網(wǎng)時(shí)間分布規(guī)律如下：

(1) a類學(xué)生和b類學(xué)生上網(wǎng)行為相似，都是白天長時(shí)間上網(wǎng)的學(xué)生。其中a類學(xué)生從早晨6點(diǎn)時(shí)段陸續(xù)開始上網(wǎng)，8點(diǎn)時(shí)段幾乎全部上線，直到當(dāng)天結(jié)束。b類學(xué)生在8點(diǎn)時(shí)段陸續(xù)開始上線，10點(diǎn)時(shí)段幾乎全部上線，10點(diǎn)到16點(diǎn)時(shí)段有少量下線，16點(diǎn)時(shí)段到23點(diǎn)時(shí)段在線人數(shù)有細(xì)微波動，直到0點(diǎn)斷網(wǎng)時(shí)全部下線。

a類學(xué)生人數(shù)少，占比為7.88%。其中，三個年級學(xué)生人數(shù)差距不大，分別占30.21%、35.84%和33.96%。本類學(xué)生工作日全天上網(wǎng)而且人數(shù)較少，說明上網(wǎng)應(yīng)屬個人行為，學(xué)生個人有網(wǎng)癮的概率較高。b類學(xué)生人數(shù)中等，占比16.48%，明顯大四、大二學(xué)生較多，分別占43.32%、35.66%。分析原因應(yīng)該與學(xué)校各專業(yè)課程設(shè)計(jì)相關(guān)，是大二學(xué)生上午有課的較多，而大四學(xué)生上午沒課的比例較大。

(2) c類學(xué)生在12點(diǎn)時(shí)段陸續(xù)開始上網(wǎng)，13時(shí)段上線在數(shù)達(dá)到最多，14點(diǎn)時(shí)段到22點(diǎn)時(shí)段有少量學(xué)生下線，22點(diǎn)到23點(diǎn)時(shí)段又有少量上線，直到24點(diǎn)斷網(wǎng)。

此類學(xué)生人數(shù)占比16.54%，同樣大三和大四學(xué)生較多，分別占36.70%和39.93%。分析原因同樣應(yīng)該是大三、大四學(xué)生下午沒課的比例較大。

(3) d類學(xué)生白天上網(wǎng)較少，峰值出現(xiàn)在13點(diǎn)時(shí)段，但此時(shí)段時(shí)長均值僅1 100秒(約合18分鐘)。13點(diǎn)時(shí)段后繼續(xù)下線，至16點(diǎn)時(shí)段到達(dá)最低點(diǎn)，平均上網(wǎng)時(shí)間約180秒(約3分鐘)。之后繼續(xù)上線，至晚上22點(diǎn)時(shí)段時(shí)達(dá)到峰值，平均上網(wǎng)時(shí)長3 437秒(約57分鐘)。之后繼續(xù)下線，直到12點(diǎn)斷網(wǎng)。

此類學(xué)生使用網(wǎng)絡(luò)較少，工作時(shí)間基本不使用網(wǎng)絡(luò)，上線時(shí)間集中在晚上7點(diǎn)-10點(diǎn)時(shí)段。此類學(xué)生總數(shù)點(diǎn)比較高，點(diǎn)18.30%，有10 398人。三四年級學(xué)生人數(shù)占比稍大，分別占35.85%和38.30%。

(4) e類學(xué)生與d類有些相似，白天上網(wǎng)較少，峰值出現(xiàn)在13點(diǎn)時(shí)段，該時(shí)段平均時(shí)長略高于d類學(xué)生，1 311秒(約22分鐘)。其主要上網(wǎng)時(shí)間從21點(diǎn)時(shí)段開始陸續(xù)上網(wǎng)，至22點(diǎn)-23點(diǎn)時(shí)段達(dá)到峰值。其峰值比a-d類學(xué)生平均時(shí)長都少3 066秒，約51分鐘。

此類學(xué)生工作日基本不使用網(wǎng)絡(luò)，僅在晚上10點(diǎn)-11點(diǎn)時(shí)段上網(wǎng)。對大二、大三學(xué)生預(yù)計(jì)上課、自習(xí)時(shí)間較長，而對大四學(xué)生，可能因?yàn)閰⒓訉?shí)習(xí)等原因未在宿舍使用網(wǎng)絡(luò)。

(5) f類學(xué)生全天在線時(shí)間最短，峰值出現(xiàn)在中午13點(diǎn)時(shí)段，此時(shí)段平均上網(wǎng)時(shí)長峰值也僅僅551秒，約9分鐘。

此類學(xué)生上網(wǎng)行為與前面5類學(xué)生差異較大。此類學(xué)生總體占比23.95%，人數(shù)最多。在此類學(xué)生中同樣大三、大四學(xué)生較多。

3.2 周末聚類結(jié)果與分析

與工作日分析相類似，本文對周末同樣進(jìn)行聚類分析。圖2給出周末聚類結(jié)果，表4給出周末各類學(xué)生人數(shù)分布。

圖2 周末聚類結(jié)果

分類總體大二大三大四人數(shù)百分比/%人數(shù)百分比/%人數(shù)百分比/%人數(shù)百分比/%a9 54834.54241225.26335335.12378339.62b7 08825.641 87126.402 50135.282 71638.32c7 79828.212 26028.982 64533.922 89337.10d1 4995.4245930.6254336.2249733.16e1 7106.1949328.8358734.3363036.84

在周末，學(xué)校24小時(shí)不會斷網(wǎng)，根據(jù)圖2和表4總結(jié)出代表周末校園網(wǎng)用戶的上網(wǎng)行為如下：

(1) a類學(xué)生周末會熬夜，在0點(diǎn)時(shí)段在線時(shí)長均值為1 449秒(約24分鐘)，說明約一半學(xué)生在線。從0點(diǎn)時(shí)段開始陸續(xù)下線，4點(diǎn)時(shí)段差才全部下線。之后上午8點(diǎn)時(shí)段開始陸續(xù)上線，至14點(diǎn)時(shí)段時(shí)多數(shù)學(xué)生上線，上網(wǎng)時(shí)長均值達(dá)到3 386秒(約56分鐘)。從此時(shí)段直到晚23點(diǎn)時(shí)段此類學(xué)生大部分在線。

此類學(xué)生周末主要是白天長時(shí)間在線、會熬夜?？倢W(xué)生人數(shù)占比34.54%，是人數(shù)最多的一類。其中大二、大三、大四學(xué)生各占25.26%、35.12%、39.62%。

(2) b類學(xué)生周末熬夜，白天上網(wǎng)較少。在0點(diǎn)時(shí)段在線時(shí)長均值為963秒(約16分鐘)，說明有些學(xué)生熬夜，但人數(shù)比a類少。此類學(xué)生熬夜集中在0點(diǎn)-4點(diǎn)時(shí)段。白天上網(wǎng)時(shí)間不多，峰值出現(xiàn)在中午13點(diǎn)時(shí)段，均值512秒，約9分鐘。下午在線人數(shù)少，晚上在線人數(shù)繼續(xù)增加，23點(diǎn)時(shí)段達(dá)到峰值，平均時(shí)長為3 392秒(約57分鐘)。

此類學(xué)生白天上網(wǎng)少，有少量學(xué)生會熬夜。占總?cè)藬?shù)的25.64%，其中大二、大三和大四年級學(xué)生各占26.40%、35.28%、38.32%。

(3) c類學(xué)生在線峰值出現(xiàn)在凌晨0點(diǎn)、中午13點(diǎn)和晚23點(diǎn)時(shí)段，但時(shí)長均值不大，最高1 587秒(約16分鐘)，說明最多約一半學(xué)生23點(diǎn)時(shí)在線。其他時(shí)間在線的學(xué)生不超過一半。

此類學(xué)生使用網(wǎng)絡(luò)時(shí)長較短，少量熬夜，白天較少上網(wǎng),人數(shù)占總?cè)藬?shù)的28.21%，比例較大。各級學(xué)生占比分別是28.98%、33.92%和37.10%。

(4) d類學(xué)生全部通宵，白天很少上網(wǎng)。這類學(xué)生從0點(diǎn)到6點(diǎn)多全部通宵，6點(diǎn)多后陸續(xù)下線，至19點(diǎn)時(shí)段的在線人數(shù)趨近0。22點(diǎn)時(shí)段開始又有少量學(xué)生開始上線，至23點(diǎn)時(shí)段在線時(shí)長均值為239秒(約4分鐘)。

此類學(xué)生在總體中占比最少，為5.42%，人數(shù)1 499人。此類學(xué)生中三年級基本均衡，都占30%以上。

(5) e類0點(diǎn)到18點(diǎn)時(shí)段幾乎在線上，在線時(shí)長均值達(dá)到59分鐘。18點(diǎn)時(shí)段開始至24點(diǎn)有少量下線。此類學(xué)生在總體中占比6.19%，人數(shù)較少，約1 700人。且在此類三個年級人數(shù)相差不多，大四學(xué)生稍多，大二學(xué)生略少。

3.3 按個人及專業(yè)的上網(wǎng)時(shí)間特征

(1) 個人上網(wǎng)時(shí)間特征：針對每個學(xué)生，依據(jù)帳號可統(tǒng)計(jì)其上網(wǎng)時(shí)間分布所屬的類，從而發(fā)現(xiàn)學(xué)生個人的上網(wǎng)時(shí)間分布。表5給出兩個學(xué)生的上網(wǎng)時(shí)間分布。第一個學(xué)生工作日在線時(shí)間較少，有2天屬b類、1天c類、2天d類、1天e類和5天f類。其工作日大約有2天工作時(shí)間在線、6天時(shí)間晚睡。周末白天上網(wǎng)較多，有2天可能晚睡，但未通宵熬夜?？芍?，此學(xué)生是正常上網(wǎng)的學(xué)生。第二個學(xué)生15天中有10個工作日上網(wǎng)行為屬于a類，幾乎工作時(shí)間都在線，周末又有4天屬于a類，即白天幾乎全在線，晚上有晚睡。此學(xué)生使用網(wǎng)絡(luò)時(shí)間超長，有網(wǎng)癮的可能性較大。此類學(xué)生需要統(tǒng)計(jì)后提請學(xué)生管理部門特別注意。通過聚類結(jié)果，可以很容易發(fā)現(xiàn)使用網(wǎng)絡(luò)過多、過少或具有其他特征的學(xué)生，為學(xué)生管理部門提供建議。

表5 某學(xué)生上網(wǎng)時(shí)間特征分布

(2) 各專業(yè)學(xué)生的上網(wǎng)時(shí)間特征：對各專業(yè)可統(tǒng)計(jì)每年級屬于不同類的學(xué)生人數(shù)，再對比其他年級專業(yè)可發(fā)現(xiàn)各專業(yè)學(xué)生上網(wǎng)時(shí)間分布特征。作為示例，表6給出計(jì)算機(jī)科學(xué)技術(shù)專業(yè)學(xué)生總?cè)藬?shù)、上網(wǎng)人數(shù)、工作日和周末上網(wǎng)人數(shù)分布。

表6 此校計(jì)算機(jī)科學(xué)技術(shù)專業(yè)學(xué)生上網(wǎng)分布

從表6可知，三個年級總?cè)藬?shù)相似，大四學(xué)生上網(wǎng)人數(shù)較多(149人)。總體來看，工作日大二學(xué)生使用網(wǎng)絡(luò)較少，晚睡、通宵的人數(shù)都比較少。大三使用網(wǎng)絡(luò)人數(shù)有所增加，晚睡、通宵的人數(shù)也都有增加。大四學(xué)生上網(wǎng)人數(shù)增加，在各類中人數(shù)占比大，說明學(xué)生上網(wǎng)時(shí)間差異較大，可能因?yàn)檎n程設(shè)置較少，學(xué)生不受上課時(shí)間約束，自由度高。對于周末人數(shù)分布，大四學(xué)生使用網(wǎng)絡(luò)最多，通宵、熬夜人最多。大二學(xué)生周末使用網(wǎng)絡(luò)比大三學(xué)生多，熬夜通宵人數(shù)少于大三人數(shù)。

對其他專業(yè)可進(jìn)行類似分析。當(dāng)然也可通過數(shù)據(jù)對比獲取各專業(yè)學(xué)生上網(wǎng)時(shí)間分布的差異。限于篇幅，本文未給出各專業(yè)對比情況。通過專業(yè)對比，可為專業(yè)設(shè)置、專業(yè)各年級課程設(shè)置提供參考。

4 結(jié) 語

本文選擇2016年11月的校園網(wǎng)上網(wǎng)認(rèn)證數(shù)據(jù)，清洗掉與研究目標(biāo)無關(guān)的數(shù)據(jù)，然后計(jì)算得到學(xué)生的上網(wǎng)時(shí)長向量集合。對上網(wǎng)時(shí)長向量的聚類分三步進(jìn)行，首先利用K-canopy算法選擇并去除離群點(diǎn)數(shù)據(jù)，提高了數(shù)據(jù)質(zhì)量和聚類效率，使聚類結(jié)果更具說服力。再用輪廓系數(shù)、戴維森堡丁指數(shù)與誤差平方和系數(shù)三種參數(shù)投票確定最優(yōu)聚類個數(shù)。最后利用K-means算法對工作日和周末上網(wǎng)時(shí)長向量集分別進(jìn)行聚類，對聚類結(jié)果進(jìn)行分析，得到工作日、周末不同類型學(xué)生上網(wǎng)時(shí)長特征。另外，統(tǒng)計(jì)單個學(xué)生、某專業(yè)各年級學(xué)生的聚類結(jié)果，分別得到對應(yīng)的上網(wǎng)時(shí)長特征。本文分析結(jié)果可為專業(yè)課程安排、學(xué)生管理工作提供參考。

隨著無線網(wǎng)絡(luò)認(rèn)證數(shù)據(jù)的暴增，學(xué)生上網(wǎng)行為信息更為豐富。因此下一步會利用Spark平臺對有線、無線認(rèn)證數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)及學(xué)生成績等數(shù)據(jù)進(jìn)行進(jìn)一步分析，在校園人員流動規(guī)律、學(xué)生成績與上網(wǎng)成績關(guān)聯(lián)性等方面獲取更有價(jià)值的分析結(jié)果。