姜紹萍
(煙臺汽車工程職業(yè)學(xué)院 信息與控制工程系,煙臺 265500)
近年來,我國普通高校數(shù)量和高校在校學(xué)生數(shù)量急劇上升,使得高校教學(xué)質(zhì)量不過關(guān)的情況越來越嚴(yán)重.傳統(tǒng)的學(xué)生管理方法和教學(xué)質(zhì)量評估方法工作量大,評判依據(jù)較為單一,已經(jīng)無法適應(yīng)當(dāng)前的教育體系,大數(shù)據(jù)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展為解決上述問題提供了有力的技術(shù)條件[1–3].目前國內(nèi)高校普遍已經(jīng)建立起自己的校園數(shù)字化管理平臺,校園數(shù)字化管理可以記錄每個學(xué)生的個人行為數(shù)據(jù),包括日常的宿舍門禁、食堂就餐、上網(wǎng)記錄、歷史成績等,這些個人行為數(shù)據(jù)可以作為評估學(xué)生學(xué)業(yè)情況的重要依據(jù)[4–7].
文獻(xiàn)[8]中提出了一種RBF 神經(jīng)網(wǎng)絡(luò)學(xué)業(yè)預(yù)警算法,建立了適用于學(xué)業(yè)預(yù)測的RBF 神經(jīng)網(wǎng)絡(luò)模型,并利用遺傳算法對傳統(tǒng)RBF 網(wǎng)絡(luò)的權(quán)重向量進(jìn)行全局搜索以得到最優(yōu)模型,提升了模型的收斂速度和誤差精度,取得了不錯的效果.但文中采用的影響因素是通過專家和教師按照經(jīng)驗認(rèn)為評定的,評定結(jié)果的可靠性有待商榷[8].文獻(xiàn)[9]利用BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)生成績預(yù)測,通過挖掘?qū)W生各科成績之間的關(guān)系各學(xué)期歷史成績的發(fā)展趨勢預(yù)測學(xué)生最終的結(jié)業(yè)成績[9].國外學(xué)者Hajra 也研究了在虛擬學(xué)習(xí)環(huán)境下,采用深度人工神經(jīng)網(wǎng)絡(luò)挖掘大數(shù)據(jù)信息,并用于學(xué)業(yè)預(yù)警[10].
本文提出了一種基于學(xué)生行為相關(guān)性分析的GABP 學(xué)業(yè)預(yù)警算法,運用Kendall 相關(guān)性分析方法在一卡通數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫和歷史成績數(shù)據(jù)庫中搜尋與學(xué)生學(xué)業(yè)情況相關(guān)性最強(qiáng)的特征數(shù)據(jù),確定預(yù)測網(wǎng)絡(luò)的輸入數(shù)據(jù);再利用相關(guān)性分析結(jié)果改進(jìn)GA-BP 網(wǎng)絡(luò),提升算法收斂速度的同時還能避免陷入局部收斂,建立一個綜合評估學(xué)生學(xué)業(yè)情況的神經(jīng)網(wǎng)絡(luò)模型.該算法可以綜合前3年學(xué)生個人行為數(shù)據(jù)預(yù)測該生未來的學(xué)業(yè)水平,向存在畢業(yè)困難的學(xué)生提前發(fā)出預(yù)警,有利于學(xué)校對這類學(xué)生進(jìn)行有效的監(jiān)督和管理.
學(xué)生個人行為數(shù)據(jù)主要包括一卡通數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫和歷史成績數(shù)據(jù)庫3個數(shù)據(jù)庫中的信息,數(shù)據(jù)庫中的數(shù)據(jù)一般按照時間順序進(jìn)行排列,但其記錄形式十分詳細(xì),包含了大量的冗余信息.例如,在一卡通消費數(shù)據(jù)中存在商鋪窗口、刷卡機(jī)號等信息,在網(wǎng)絡(luò)瀏覽數(shù)據(jù)中存在目標(biāo)IP、目標(biāo)端口等信息,在歷史成績數(shù)據(jù)中存在課程名稱、專業(yè)名稱等信息,因此必須對原始數(shù)據(jù)進(jìn)行預(yù)處理.本文算法的數(shù)據(jù)預(yù)處理過程主要分為去噪、拆分、統(tǒng)計、處理4個部分.首先,去噪過程主要根據(jù)數(shù)據(jù)庫中的標(biāo)簽或標(biāo)志位判斷某一字段對應(yīng)的記錄對象,剔除數(shù)據(jù)集中的冗余字段和無效字段;拆分過程同樣根據(jù)數(shù)據(jù)庫中的標(biāo)簽或標(biāo)志位,將數(shù)據(jù)按照字段描述的行為信息進(jìn)行拆分;再運用統(tǒng)計學(xué)原理進(jìn)行拆分?jǐn)?shù)據(jù)的統(tǒng)計,進(jìn)行累加或平均等操作獲得二次數(shù)據(jù);最后根據(jù)不同字段的數(shù)據(jù)特征按照目標(biāo)要求進(jìn)行二次處理,例如按照網(wǎng)絡(luò)訪問的目標(biāo)域名將學(xué)生的上網(wǎng)用途進(jìn)行拆分,具體流程如圖1所示.
圖1 預(yù)處理流程圖
本文完成一卡通數(shù)據(jù)的去噪和拆分后,按照以往一卡通數(shù)據(jù)的研究經(jīng)驗,經(jīng)過分類數(shù)據(jù)的二次處理得到了6個一卡通數(shù)據(jù)特征字段:平均晨出時間、平均晚歸時間(時間記錄形式以24 時計時法對應(yīng)轉(zhuǎn)換為小數(shù)形式,例如8:30 記為8.30)、早起頻率(每月早8 點前出宿舍的次數(shù))、晚歸頻率(每月晚10 點后回到宿舍的次數(shù))、圖書借閱量(每月在圖書館借閱的書物數(shù)量)、消費總金額(每月一卡通消費的總金額),表1是一卡通數(shù)據(jù)記錄示例表.
表1 學(xué)生一卡通數(shù)據(jù)示例
從學(xué)生上網(wǎng)的網(wǎng)絡(luò)日志中按照網(wǎng)絡(luò)用途分類得到每位學(xué)生的上網(wǎng)記錄,經(jīng)過分類數(shù)據(jù)的二次處理得到了4個網(wǎng)絡(luò)數(shù)據(jù)的特征字段:游戲時長、學(xué)習(xí)時長、娛樂時長(利用網(wǎng)絡(luò)觀看視頻、小說或交友聊天等)、上網(wǎng)總時長,時長統(tǒng)計均按月為單位取平均值,表2展示了網(wǎng)絡(luò)數(shù)據(jù)的記錄形式.
表2 網(wǎng)絡(luò)數(shù)據(jù)示例(單位:小時/月)
學(xué)校管理系統(tǒng)對于學(xué)生成績的管理相對成熟,因此成績數(shù)據(jù)的預(yù)處理多數(shù)是進(jìn)行關(guān)鍵字段的選取即可,采用績點的形式對學(xué)生課程情況進(jìn)行統(tǒng)計,分別計算了每位學(xué)生3年成績的平均績點、已獲學(xué)分、掛科學(xué)分、掛科率,歷史成績數(shù)據(jù)的記錄形式見表3.
表3 歷史成績數(shù)據(jù)示例
最常見的相關(guān)性分析方法有Pearson、Spearman和Kendall.Pearson 相關(guān)性分析更加適用于連續(xù)數(shù)據(jù)之間的相關(guān)性分析,而本文進(jìn)行的相關(guān)性分析均為一組連續(xù)數(shù)據(jù)與一組分類數(shù)據(jù)之間的相關(guān)性分析,例如掛科率與是否順利畢業(yè)之間的相關(guān)性,因此宜采用Spearman和Kendall 相關(guān)性分析[11].Spearman和Kendall 都是等級相關(guān)性分析方法.Kendall 相關(guān)性系數(shù)的計算需要按等級大小對一組數(shù)據(jù)進(jìn)行排序[12,13].本文將正常畢業(yè)記為1,未正常畢業(yè)記為0,該組數(shù)據(jù)僅分為兩個等級,可以節(jié)省大量排序和比較的計算時間,采用Kendall 相關(guān)性分析將比Spearman 相關(guān)性分析具有更快的計算速率.因此,本文采用Kendall 相關(guān)性系數(shù)進(jìn)行相關(guān)性分析.
Kendall 相關(guān)性系數(shù)是用來衡量兩個隨機(jī)變量之間相關(guān)性的參數(shù),取值范圍在?1~1 之間,系數(shù)值越大表明兩個變量正相關(guān)關(guān)系越強(qiáng),系數(shù)值越小表明兩個變量負(fù)相關(guān)關(guān)系越強(qiáng)[14,15].本文目的在于發(fā)掘每一類特征數(shù)據(jù)與學(xué)生是否能夠順利畢業(yè)的關(guān)系,因此不考慮正負(fù)相關(guān)性的影響,直接取Kendall 相關(guān)性系數(shù)的絕對值|K|作為本文的相關(guān)性系數(shù)[16],|K|的計算方法如下:
式中,C為兩組數(shù)據(jù)中具有一致性的數(shù)據(jù)對的對數(shù),D為兩組數(shù)據(jù)中不具有一致性的數(shù)據(jù)對的對數(shù).例如:(Xi,Yi)和(Xj,Yj)為一對數(shù)據(jù)對,若Xi
其中,S為第1 組數(shù)據(jù)中擁有相同元素的小集合的個數(shù),Ui為第一組數(shù)據(jù)中每個小集合中元素的個數(shù),T為第2 組數(shù)據(jù)中擁有相同元素的小集合的個數(shù),Vi為第3 組數(shù)據(jù)中每個小集合中元素的個數(shù),N為樣本的總數(shù).
選取2014 級學(xué)生在校3年的個人行為數(shù)據(jù)結(jié)合Kendall 相關(guān)系數(shù)的計算方法,得到了各項學(xué)生個人行為與未正常畢業(yè)之間的相關(guān)系數(shù),計算結(jié)果如表4所示.
表4中相關(guān)系數(shù)計算結(jié)果表明,掛科率、掛科學(xué)分、網(wǎng)絡(luò)學(xué)習(xí)時長、早起頻率等8 項個人行為與學(xué)生的畢業(yè)情況相關(guān)性很大,相關(guān)性系數(shù)均高于0.5,因此,本文將選取相關(guān)性系數(shù)前8 位的個人行為特征數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測[17].
表4 相關(guān)系數(shù)計算結(jié)果
BP 神經(jīng)網(wǎng)絡(luò)是一種具有很強(qiáng)的非線性映射能力的神經(jīng)網(wǎng)絡(luò),理論上可以以任意精度逼近一個非線性函數(shù)[18,19].GA 算法是模擬自然界遺傳機(jī)制搜索問題最優(yōu)解的算法,其搜索過程較為全面,不易陷入局部最優(yōu)[20].GA 算法和BP 神經(jīng)網(wǎng)絡(luò)的結(jié)合能夠補(bǔ)足兩種算法各自的不足,提升計算速度且避免陷入局部最優(yōu)[21].相關(guān)性分析的結(jié)果明確了對學(xué)業(yè)情況影響最大的八個因素,同時得到了每一個因素的相關(guān)性系數(shù),相關(guān)性系數(shù)與BP 神經(jīng)網(wǎng)絡(luò)輸入層與隱含層的權(quán)值有一定的關(guān)系.因此,在GA-BP 算法初期快速縮小最優(yōu)權(quán)值的范圍可以有效提升算法的計算效率,本文將采用相關(guān)性系數(shù)優(yōu)化GA 算法中種群的初始值來實現(xiàn)這一目的.
選取相關(guān)性系數(shù)較大的8個學(xué)生行為特征數(shù)據(jù)進(jìn)行學(xué)生學(xué)業(yè)情況的預(yù)測,因此神經(jīng)網(wǎng)絡(luò)將輸入8 維數(shù)據(jù),分別為掛科率、掛科學(xué)分、網(wǎng)絡(luò)學(xué)習(xí)時長、早起頻率、游戲時長、平均績點、平均晨出時間、已獲學(xué)分.隱含層采用常用的雙隱含層結(jié)構(gòu),即隱含層數(shù)量為2 層.第1 層隱含層有9個節(jié)點,采用Sigmoid 函數(shù)作為激活函數(shù);第2 層隱含層有1個節(jié)點,采用pureline函數(shù)作為激活函數(shù).輸出層為學(xué)生的正常畢業(yè)情況,BP 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示.
圖2 BP 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖
GA 算法用于為BP 神經(jīng)網(wǎng)絡(luò)確定最優(yōu)權(quán)值和閾值,而相關(guān)性系數(shù)為GA 算法確定種群的初始分布位置.例如:按照相關(guān)性系數(shù)從高到低排列的第一維數(shù)據(jù)為掛科率,掛科率的相關(guān)性系數(shù)為0.732,則在種群的初始分布中將更多的種群分布在0.732 附近.本文采用正態(tài)分布確定種群分布概率P,計算方法如式(3)所示.
其中,x為粒子的初始值,μi第i維數(shù)據(jù)的相關(guān)性系數(shù),按照表4中的計算結(jié)果,μi應(yīng)分別取0.732、0.707、0.685、0.632、0.601、0.589、0.576、0.532.Pi為第i維數(shù)據(jù)種群的初始分布概率.種群數(shù)量取值為100,每個種群粒子之間的步長間隔采用式(4)確定.
其中,Lij為第i維數(shù)據(jù)第j個粒子與其前一個粒子的步長間隔.本文輸入數(shù)據(jù)維度為8,種群數(shù)量為100,因此i取1–8 之間的整數(shù),j取1–100 之間的整數(shù).按照此規(guī)則設(shè)置種群中粒子的初始值能夠保證初始化時種群按照期望為μi的正態(tài)分布進(jìn)行分布,增大相關(guān)性系數(shù)周圍分布的初始粒子數(shù)量,提升算法的尋優(yōu)效率.
改進(jìn)GA-BP 神經(jīng)網(wǎng)絡(luò)的計算誤差即模型的預(yù)測錯誤率,是預(yù)測結(jié)果中錯誤預(yù)測數(shù)據(jù)數(shù)量與訓(xùn)練數(shù)據(jù)總量的比值.本文根據(jù)模型的期望準(zhǔn)確度給定模型的閾值為0.0001,最大訓(xùn)練次數(shù)1000,當(dāng)計算誤差低于閾值時或者訓(xùn)練次數(shù)超過預(yù)設(shè)最大訓(xùn)練次數(shù)時終止訓(xùn)練.改進(jìn)GA-BP 學(xué)業(yè)預(yù)警模型算法流程如圖3所示.
本次測試選取我校2014 級信息與控制工程系342 名學(xué)生在校3年的個人行為數(shù)據(jù)和畢業(yè)情況進(jìn)行模型的訓(xùn)練和測試,其中一卡通數(shù)據(jù)共625 896 124 條,網(wǎng)絡(luò)數(shù)據(jù)共886 034 856 條,歷史成績數(shù)據(jù)共783 648條,經(jīng)過數(shù)據(jù)預(yù)處理后獲得342 名學(xué)生的8 組個人行為特征數(shù)據(jù)和畢業(yè)情況數(shù)據(jù),共同構(gòu)成了學(xué)業(yè)預(yù)測的原始數(shù)據(jù)集.將原始數(shù)據(jù)集(342 名)拆分為訓(xùn)練數(shù)據(jù)集(262 名)和測試數(shù)據(jù)集(80 名),對學(xué)業(yè)預(yù)測模型進(jìn)行訓(xùn)練和測試,測試結(jié)果如圖4所示.
圖3 改進(jìn)GA-BP 學(xué)業(yè)預(yù)警模型算法流程
圖4 測試結(jié)果統(tǒng)計圖
由圖4中的測試結(jié)果可以看出,測試數(shù)據(jù)集中的80 名學(xué)生的學(xué)業(yè)預(yù)測結(jié)果中,有6 名同學(xué)的預(yù)測結(jié)果與實際情況不符,本次測試的預(yù)測準(zhǔn)確率為92.5%.
為了驗證利用Kendall 相關(guān)系數(shù)改進(jìn)GA-BP 神經(jīng)網(wǎng)絡(luò)初始權(quán)重后的效果,本次實驗繼續(xù)從數(shù)據(jù)庫中調(diào)取2014 級信息與控制工程系342 名學(xué)生的歷史數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練.用該組數(shù)據(jù)分別對普通的GA-BP 神經(jīng)網(wǎng)絡(luò)和相關(guān)系數(shù)改進(jìn)GA-BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,分別設(shè)定網(wǎng)絡(luò)的期望誤差為0.1、0.01、0.001,學(xué)習(xí)速率為0.01,網(wǎng)絡(luò)最大迭代次數(shù)為5000.測試結(jié)果如圖5所示.
在圖5的測試結(jié)果中,可以看出在相同的期望誤差下,普通GA-BP 神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)明顯大于相關(guān)系數(shù)改進(jìn)GA-BP 神經(jīng)網(wǎng)絡(luò).因此,在誤差相同的情況下,經(jīng)過Kendall 相關(guān)系數(shù)改進(jìn)初始權(quán)重的GA-BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度更快.
圖5 普通的GA-BP與相關(guān)系數(shù)改進(jìn)GA-BP的訓(xùn)練結(jié)果對比
本文針對目前高校學(xué)生管理困難和教學(xué)評估難度大的問題,提出了一種基于Kendall 相關(guān)性分析改進(jìn)GA-BP 神經(jīng)網(wǎng)絡(luò)的高校學(xué)生學(xué)業(yè)預(yù)警算法.設(shè)計了一套適用于海量教育數(shù)據(jù)分析的數(shù)據(jù)分類和二次處理方法,將Kendall 相關(guān)性分析和GA-BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行學(xué)生學(xué)業(yè)情況的預(yù)測.利用Kendall 相關(guān)性分析確定與學(xué)業(yè)情況相關(guān)性最強(qiáng)的8個學(xué)生行為作為預(yù)測模型的輸入數(shù)據(jù),并采用相關(guān)系數(shù)改進(jìn)GA-BP 算法,加快算法的尋優(yōu)速度,同時能夠避免神經(jīng)網(wǎng)絡(luò)陷入局部收斂,有效提高網(wǎng)絡(luò)訓(xùn)練效率和預(yù)測準(zhǔn)確率.實驗測試結(jié)果表明,本文提出的高校學(xué)生學(xué)業(yè)預(yù)警算法的預(yù)測準(zhǔn)確率可以達(dá)到90%以上,能夠有效對學(xué)生的學(xué)業(yè)情況進(jìn)行預(yù)測和預(yù)警,對高校學(xué)生教育的管理和學(xué)生個人的學(xué)業(yè)把控具有十分重要的意義.