亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘在學(xué)生行為管理中的應(yīng)用研究
        ——以沈陽工程學(xué)院為例

        2022-12-02 11:44:28胡俊宇
        關(guān)鍵詞:學(xué)生

        丁 靜,胡俊宇,苗 鶴

        (沈陽工程學(xué)院a.網(wǎng)絡(luò)與計算中心;b.科技處;c.國際教育學(xué)院,遼寧 沈陽 110136)

        隨著數(shù)字校園建設(shè)的迅猛發(fā)展,學(xué)生行為有可能實現(xiàn)量化分析,特別是隨著網(wǎng)絡(luò)管理數(shù)據(jù)的不斷增加,充分利用這些數(shù)據(jù),從這些海量數(shù)據(jù)中利用已有的先進技術(shù)手段發(fā)現(xiàn)重要信息并將其運用到教學(xué)建設(shè)、學(xué)生管理中是非常必要的。如何從海量數(shù)據(jù)中挖掘出對學(xué)生行為及時干預(yù)、精細(xì)管理有用的信息,既是對學(xué)生工作者的挑戰(zhàn),也是利用新理念、新方法開展工作的新機遇。

        一、研究對象與方法

        1.指標(biāo)體系構(gòu)建

        為客觀準(zhǔn)確地描述學(xué)生網(wǎng)絡(luò)行為特征,結(jié)合沈陽工程學(xué)院學(xué)生使用網(wǎng)絡(luò)的周期性,本研究通過數(shù)理統(tǒng)計方法構(gòu)建校園網(wǎng)絡(luò)行為指標(biāo)體系,用于下一步網(wǎng)絡(luò)行為特征的分類分析。

        管理模式維度:上網(wǎng)總流量、總上網(wǎng)時長、上網(wǎng)類型、學(xué)分成績作為行為管理模式的4 個維度。上網(wǎng)總量為一學(xué)期上網(wǎng)總量,由入流量、出流量決定;總上網(wǎng)時長為系統(tǒng)記錄的一學(xué)期上網(wǎng)總時長,由每次上線時間、下線時間決定;上網(wǎng)類型為日志系統(tǒng)采集到的學(xué)生上網(wǎng)時在網(wǎng)絡(luò)上所訪問的類型;學(xué)分成績?yōu)榻虅?wù)數(shù)據(jù)庫可以采集到的學(xué)生成績情況。

        計費周期:沈陽工程學(xué)院網(wǎng)絡(luò)管理系統(tǒng)的計費周期為按月計費,以每個學(xué)期月為統(tǒng)計周期,依據(jù)教學(xué)周期與校歷截取8 月份到12 月份半學(xué)期流量情況。

        2.數(shù)據(jù)清理

        直接采集到的數(shù)據(jù)一般是不完整的、帶有隨機性的,并且伴有一定的噪聲,我們在使用數(shù)據(jù)挖掘方法之前對數(shù)據(jù)進行了數(shù)據(jù)清洗。通過數(shù)據(jù)清洗,剔除部分無效數(shù)據(jù)和空缺數(shù)據(jù),保留研究所需有用信息,進行下一步分析研究。

        3.KNN算法

        K 最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法。它是給定一個未知樣本,k-最鄰近分類法搜索模式空間,找出最接近未知樣本的k個訓(xùn)練樣本,然后使用k個最鄰近者中最公共的類來預(yù)測當(dāng)前樣本的類標(biāo)號。

        KNN 方法的思路是:如果一個樣本在特征空間中的k個最相似的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。KNN 算法中,所選擇的訓(xùn)練樣本都是已經(jīng)正確分類的對象。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。本研究所使用的是KNN算法。

        二、研究結(jié)果

        1.數(shù)據(jù)采集

        本研究所采集的是沈陽工程學(xué)院自動化學(xué)院、經(jīng)濟與管理學(xué)院、能源與動力學(xué)院及電力學(xué)院2020 年級六個班級的180 條學(xué)生數(shù)據(jù)。這180 名同學(xué)學(xué)期內(nèi)沒有校外實習(xí)情況,網(wǎng)絡(luò)使用情況相對穩(wěn)定,代表使用人群比較廣泛,更能反映學(xué)生在校園運用網(wǎng)絡(luò)情況。

        數(shù)據(jù)采集時間為2020年8月份至2020年12月份半學(xué)期。學(xué)生網(wǎng)絡(luò)訪問類型較多,其中校園網(wǎng)訪問類型多為圖書館、網(wǎng)絡(luò)教學(xué)平臺、雨課堂、教務(wù)處選課系統(tǒng)等校內(nèi)資源;外網(wǎng)訪問類型多為QQ、百度、新浪、土豆網(wǎng)、迅雷、抖音、游戲等。通過訪問類型可以了解到,學(xué)生在用校園網(wǎng)期間以使用校園網(wǎng)資源進行選課、查閱資料、下載應(yīng)用軟件和一些學(xué)習(xí)相關(guān)的材料為主,在利用互聯(lián)網(wǎng)期間則以上網(wǎng)聊天、瀏覽微博、看電影、游戲等娛樂為主。

        2.數(shù)據(jù)采集匯總分析

        (1)結(jié)合學(xué)生學(xué)分情況,對180 個抽樣數(shù)據(jù)半學(xué)期流量分析:通過對180 名抽樣學(xué)生半學(xué)期的流量監(jiān)控與統(tǒng)計和五個月上網(wǎng)時長的匯總,統(tǒng)計出每個學(xué)生半學(xué)期使用流量,通過流量趨勢對學(xué)生學(xué)分合格情況進行對比,數(shù)據(jù)中可以觀察到:學(xué)分不合格學(xué)生集中在流量20G 左右區(qū)間和40G 以上區(qū)間,特別是40G 流量以上區(qū)間內(nèi)聚集了多數(shù)的學(xué)分不合格的學(xué)生。此分析說明流量較多的范圍對區(qū)別學(xué)分是否合格能力較強。圖1為180個抽樣學(xué)生半學(xué)期流量與學(xué)分對應(yīng)圖。

        圖1 180個抽樣學(xué)生半學(xué)期流量與學(xué)分對應(yīng)圖

        (2)結(jié)合學(xué)生學(xué)分情況,對180 個抽樣數(shù)據(jù)半學(xué)期時長分析:通過對180 名抽樣學(xué)生半學(xué)期的月份時長數(shù)據(jù)的監(jiān)控與統(tǒng)計,對每個學(xué)生分別產(chǎn)生5個月的時長信息進行匯總,統(tǒng)計出每個學(xué)生半學(xué)期使用時長。通過時長趨勢與學(xué)分合格情況對比可以觀察到:學(xué)分不合格學(xué)生集中在使用時長400 小時左右區(qū)間和600 小時以上區(qū)間,其中不合格的學(xué)生主要集中在600 小時以上時長范圍,說明總上網(wǎng)時長對區(qū)分學(xué)分是否合格能力較強。圖2為180個抽樣學(xué)生半學(xué)期時長與學(xué)分對應(yīng)圖。

        圖2 180個抽樣學(xué)生半學(xué)期時長與學(xué)分對應(yīng)圖

        (3)結(jié)合學(xué)生學(xué)分情況進行分析。在流量與學(xué)分結(jié)合時,我們把學(xué)生分成合格與不合格兩組進行統(tǒng)計,可以觀察到:①不合格的學(xué)生在半學(xué)期流量值普遍高于全體學(xué)生的平均值及合格學(xué)生的半學(xué)期流量,說明異常使用流量可能與學(xué)分有著一定的關(guān)系。②流量趨勢在整個半個學(xué)期呈現(xiàn)為不明顯的“凸”型結(jié)構(gòu),從八月份開始流量逐漸增加,到十月份達到最大值,十一月份保持平穩(wěn),在十二月份降低到最小值。這說明學(xué)生八月開學(xué)到九月使用網(wǎng)絡(luò)流量成逐漸增加狀態(tài),十月、十一月份成為半學(xué)期網(wǎng)絡(luò)集中使用狀態(tài),而到了十二月份,由于臨近期末,面臨考試,進入低使用狀態(tài)。圖3為180個抽樣學(xué)生半學(xué)期流量趨勢圖。

        圖3 180個抽樣學(xué)生半學(xué)期流量趨勢

        (4)在時長與學(xué)分結(jié)合時,我們也把學(xué)生分成合格與不合格兩組進行統(tǒng)計,可以觀察到:①不合格的學(xué)生在半學(xué)期月平均時長高于全體學(xué)生的月平均值,說明時長使用也可能與學(xué)分有著一定的關(guān)系。②時長趨勢在整個半個學(xué)期呈現(xiàn)狀態(tài)為:八月份至十一月份逐漸增加,在十二月份有所回落。圖4為180個抽樣學(xué)生半學(xué)期時長趨勢圖。

        圖4 180個抽樣學(xué)生半學(xué)期時長趨勢

        3.數(shù)據(jù)內(nèi)容

        通過多方面采集,匯總出180 個樣本學(xué)生的總體數(shù)據(jù),其中有:

        (1)學(xué)號。IMC 系統(tǒng)、教務(wù)數(shù)據(jù)庫系統(tǒng)及日志系統(tǒng)中都采用學(xué)生學(xué)號來標(biāo)識學(xué)生。

        (2)班級。采集的六個班級:測控***、保險***、核工本***、建環(huán)***、建環(huán)***、電氣***。

        (3)組名。記錄計算機所在位置,根據(jù)位置的不同組名有:上網(wǎng)組/學(xué)生宿舍網(wǎng)、上網(wǎng)組/教師辦公、上網(wǎng)組/多媒體、上網(wǎng)組/獨身公寓、上網(wǎng)組/其他;分別標(biāo)識應(yīng)用的位置:學(xué)生宿舍、教師辦公室、圖書館多媒體、獨身公寓宿舍、其他位置(科技園區(qū)、大學(xué)城賓館、其他經(jīng)營類位置)等。組名在類型數(shù)據(jù)采集中起到重要作用,監(jiān)控學(xué)生時,通常多數(shù)采集在宿舍應(yīng)用網(wǎng)絡(luò)組里,如顯示該用戶在辦公區(qū)域或其他區(qū)域上網(wǎng)時,有可能說明該學(xué)生正在利用網(wǎng)絡(luò)上課或其他科研活動,將不作為一次應(yīng)用類型記錄。

        (4)應(yīng)用類型。學(xué)生上網(wǎng)經(jīng)常使用類型。訪問類型主要有http 下載、游戲、瀏覽網(wǎng)站、p2p 四個類型。

        (5)最常使用應(yīng)用。通過采集到的最常使用應(yīng)用決定應(yīng)用類型。這里把電影音樂網(wǎng)站、論壇、購物網(wǎng)站歸為瀏覽網(wǎng)站類型,各種應(yīng)用游戲歸為游戲類型,應(yīng)用p2p的產(chǎn)品歸為p2p類型。

        (6)上傳/下載比。上傳下載比例說明該學(xué)生網(wǎng)絡(luò)流量的出入情況,該值比例較小時,說明學(xué)生利用網(wǎng)絡(luò)下載的較多;當(dāng)比例較大時,有可能出現(xiàn)學(xué)生非正常使用網(wǎng)絡(luò)情況,特別是對于P2P 的技術(shù)播放軟件的不正常利用,會導(dǎo)致學(xué)生在某幾個月的網(wǎng)絡(luò)流量很快用盡,這一比值需要與上網(wǎng)時長及總流量進行配合分析。

        (7)時長。半學(xué)期的學(xué)生上網(wǎng)總時長合計,包括五個月的使用時長,以小時為單位記錄。

        (8)流量。半學(xué)期總流量合計,五個月流量總計,以千兆為單位記錄。

        (9)合格標(biāo)志。學(xué)生本學(xué)期學(xué)分情況標(biāo)識,其中0為不合格,1為合格。

        通過上面的字段數(shù)據(jù)采集匯總表,這里對組名進行數(shù)字表示法,將上網(wǎng)組/教師辦公、上網(wǎng)組/學(xué)生宿舍網(wǎng)、上網(wǎng)組/多媒體、上網(wǎng)組/獨身公寓、上網(wǎng)組/其他,這五個位置分別用1|1、1|2、1|3、1|4、1|5 來表示。表1為數(shù)據(jù)采集匯總的部分?jǐn)?shù)據(jù)。

        表1 數(shù)據(jù)采集匯總表(部分?jǐn)?shù)據(jù))

        4.數(shù)據(jù)清理與轉(zhuǎn)換

        針對采集來的180 條數(shù)據(jù),在進行分析之前要進行消除或減少噪聲、填補空取值的數(shù)據(jù)清理工作。

        (1)由于有少部分人沒有接入互聯(lián)網(wǎng),只有成績信息,并沒有網(wǎng)絡(luò)相關(guān)信息,當(dāng)對這部分?jǐn)?shù)據(jù)分析時會干擾產(chǎn)生的模型,這里將其進行刪除,刪除沒有接入網(wǎng)絡(luò)的學(xué)號有:2020***106,2020***112,2020***121,2020***122。

        (2)空缺值的處理將有助于提高數(shù)據(jù)分類和預(yù)測的準(zhǔn)確性,從而減少學(xué)習(xí)時的混亂。本文通過對采集的數(shù)據(jù)信息進行觀察發(fā)現(xiàn),有些學(xué)生由于休假等原因,在某天或某月沒能上網(wǎng),對于數(shù)據(jù)上的這種空缺采取人工填寫的方法進行彌補,由于數(shù)據(jù)需要的連續(xù)性,決定填充的方法采用在該屬性上最經(jīng)常出現(xiàn)的值來填充此空缺的屬性。

        (3)在常用上網(wǎng)應(yīng)用統(tǒng)計中,有些網(wǎng)址是系統(tǒng)無法識別的,做人工填寫,統(tǒng)一填寫成網(wǎng)站類型?;诰嚯x數(shù)據(jù)挖掘中,當(dāng)數(shù)據(jù)為非連續(xù)性屬性時,將不能直接確定對象之間的距離,這時需要對數(shù)據(jù)進行轉(zhuǎn)換,將其他屬性類型轉(zhuǎn)換成數(shù)值類型。為計算方便將流量以字節(jié)為單位轉(zhuǎn)換為千兆為計算單位;上網(wǎng)時長以小時為單位轉(zhuǎn)換成分鐘為單位。

        三、實驗結(jié)果及分析

        研究采用數(shù)據(jù)挖掘中基于距離的分類算法,分類步驟如下:

        (1)將180 個抽樣數(shù)據(jù)集組成訓(xùn)練集,由輔導(dǎo)員評定好、中、差三類標(biāo)號,對數(shù)據(jù)加上類標(biāo)號組成訓(xùn)練集。本文將上網(wǎng)總流量、總上網(wǎng)時長、上網(wǎng)類型、學(xué)分成績作為系統(tǒng)的四個屬性值。訓(xùn)練樣本集為采集的180 個學(xué)生的數(shù)據(jù),對這些數(shù)據(jù)進行整理,首先將數(shù)據(jù)中的非數(shù)值性屬性進行數(shù)據(jù)轉(zhuǎn)換,其中上網(wǎng)流量、上網(wǎng)時長及學(xué)分標(biāo)識為數(shù)值型數(shù)據(jù);其次將上網(wǎng)類型非連續(xù)性值進行轉(zhuǎn)換。

        (2)上網(wǎng)類型分為四類,http 類型賦值為1,網(wǎng)站類型賦值為2,p2p 類型賦值為3,游戲類型賦值為4。最后得出180 個訓(xùn)練集的樣本,表2 為訓(xùn)練樣本集部分?jǐn)?shù)據(jù)。

        表2 訓(xùn)練樣本集(部分?jǐn)?shù)據(jù))

        分類算法過程如下:

        假設(shè)某半學(xué)期內(nèi)一組學(xué)生上網(wǎng)行為個例樣本集合定義為S。其中,S由i個學(xué)生樣本組成,而每個學(xué)生樣本由n個屬性變量及1個標(biāo)志量構(gòu)成。其數(shù)學(xué)表示式為:

        本文的屬性變量xij分別代表上網(wǎng)總流量、總上網(wǎng)時長、上網(wǎng)類型、學(xué)分成績4 個要素,最后一個要素Li稱為標(biāo)志量(Label),文中的標(biāo)志量即為學(xué)生評定級別。利用KNN 算法進行網(wǎng)絡(luò)行為預(yù)測可以描述為如下數(shù)學(xué)模型:假設(shè)上網(wǎng)總流量、總上網(wǎng)時長、上網(wǎng)類型、學(xué)分成績4 個要素的集合為Yi={y1,y2,y3,…,yn},稱為預(yù)測樣本;預(yù)測時,首先在訓(xùn)練樣本集S 集合中找到與預(yù)測樣本Yi最相似的K 個近鄰,然后找出這K 個標(biāo)志量(評定級別)集合Li={L1,L2,L3,…,Ln},最后按照投票多數(shù)原則,選取最多的標(biāo)志量Li作為預(yù)測樣本Yi預(yù)測結(jié)果。

        (3)本文的K 近鄰居選取采用歐氏距離法進行判定,利用歐式距離計算測試集中的600 個測試集數(shù)據(jù)與訓(xùn)練集的距離,選取與每個測試數(shù)據(jù)最近的k個點,統(tǒng)計k個點里面所屬分類比例最大的,確定所有測試集的所屬分類,經(jīng)過反復(fù)試驗,本文選取k值為5。

        (4)用測試集來預(yù)測模型準(zhǔn)確性:180 條抽樣數(shù)據(jù)全部作為訓(xùn)練集樣本數(shù),另選600 條清理后的數(shù)據(jù)作為測試集,采用通過的準(zhǔn)確率和召回率對系統(tǒng)性能進行測試,準(zhǔn)確率和召回率反映了分類質(zhì)量的兩個不同方面,兩者要綜合考慮,不能有所偏失,使用了兩者的綜合指標(biāo)F-Score值,其數(shù)學(xué)公式為:

        將β取值為1時,公式如下:

        p表示精確率,r表示召回率;用上面的方法和數(shù)據(jù)進行訓(xùn)練和測試,表3為分類測試結(jié)果:

        表3 分類測試結(jié)果

        四、結(jié)語

        本文在綜合分析沈陽工程學(xué)院網(wǎng)絡(luò)管理模式基礎(chǔ)上,將基于數(shù)據(jù)挖掘技術(shù)的KNN 算法與學(xué)生上網(wǎng)行為模式相結(jié)合,實現(xiàn)學(xué)生上網(wǎng)異常行為預(yù)測方法,得到以下結(jié)論:①上網(wǎng)行為異常預(yù)測的KNN分類器屬性特征由上網(wǎng)總流量、總上網(wǎng)時長、上網(wǎng)類型、學(xué)分成績等4 個要素構(gòu)成,標(biāo)志量為評定等級;②根據(jù)2020 年下半學(xué)期所獲得的數(shù)據(jù)的預(yù)測結(jié)果表明,異常預(yù)報準(zhǔn)確率與精確率及召回率分別為73.79%,76.55%,80.62%,F(xiàn)-Score 值為78.53%,所獲得結(jié)果均在可接受范圍內(nèi),能夠提供給學(xué)生管理者對異常網(wǎng)絡(luò)行為學(xué)生進行干預(yù)。因此,科學(xué)使用數(shù)據(jù)挖掘的KNN 算法進行挖掘探索,合理挖掘開發(fā),將有效提升學(xué)校的管理水平和科學(xué)決策能力。

        猜你喜歡
        學(xué)生
        快把我哥帶走
        親愛的學(xué)生們,你們并沒有被奪走什么
        英語文摘(2020年9期)2020-11-26 08:10:12
        如何喚醒學(xué)生自信心
        甘肅教育(2020年6期)2020-09-11 07:45:16
        怎樣培養(yǎng)學(xué)生的自信
        甘肅教育(2020年22期)2020-04-13 08:10:54
        如何加強學(xué)生的養(yǎng)成教育
        甘肅教育(2020年20期)2020-04-13 08:04:42
        “學(xué)生提案”
        《李學(xué)生》定檔8月28日
        電影(2018年9期)2018-11-14 06:57:21
        趕不走的學(xué)生
        學(xué)生寫話
        學(xué)生寫的話
        少妇激情av一区二区三区| 久久中文精品无码中文字幕| 毛茸茸的中国女bbw| 亚洲熟妇一区无码| 综合久久青青草免费观看视频 | 亚洲丝袜美腿在线视频| 麻豆国产精品久久人妻| 波多野42部无码喷潮在线| 日韩视频中文字幕精品偷拍| 男女啪啪无遮挡免费网站| 久久精品国产91久久性色tv| 一区二区三区国产亚洲网站| 免费在线观看av不卡网站| 一夲道无码人妻精品一区二区| 欧美性福利| 精品国产乱码一区二区三区| 日本中文字幕有码网站| 中文字幕天天躁日日躁狠狠躁免费| 亚洲日韩图片专区小说专区| 久久最黄性生活又爽又黄特级片| 亚洲av免费手机在线观看| 毛片24种姿势无遮无拦| 免费观看久久精品日本视频| 亚洲肥婆一区二区三区| 欧美黑人又大又粗xxxxx| 欲妇荡岳丰满少妇岳 | 国产免费一区二区三区在线视频| 无码少妇丰满熟妇一区二区 | 99e99精选视频在线观看| 国产sm调教视频在线观看| 国内少妇自拍区免费视频| 日韩熟女一区二区三区| 中文字幕久久精品一区二区| 免费人成视网站在线剧情| 尤物网址在线观看| 亚洲欧洲日产国码久在线观看| 日本久久久精品免费免费理论| 又大又粗欧美黑人aaaaa片 | 欧美操逼视频| 囯产精品无码一区二区三区AV| 青青草中文字幕在线播放|