杜興麗 劉 玲 袁 平
(1.西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 四川綿陽(yáng) 621010;2.西南科技大學(xué)教育信息化推進(jìn)辦公室 四川綿陽(yáng) 621010)
大數(shù)據(jù)技術(shù)在高校信息化建設(shè)中的運(yùn)用越來(lái)越受重視,在中共中央、國(guó)務(wù)院印發(fā)的《中國(guó)教育現(xiàn)代化2035》中指出要推進(jìn)智能化校園建設(shè),推進(jìn)管理精準(zhǔn)化和決策科學(xué)化[1]。高校日常運(yùn)行產(chǎn)生的大量數(shù)據(jù)能為學(xué)校管理精準(zhǔn)化提供數(shù)據(jù)支撐,建立有效的教育大數(shù)據(jù)分析模型,能對(duì)學(xué)校招生計(jì)劃、學(xué)生資助、安全防控等決策提供支持。
教育數(shù)據(jù)挖掘囊括了學(xué)生的學(xué)習(xí)表現(xiàn)、職業(yè)選擇預(yù)測(cè)、生活情況等多方面。研究者的關(guān)注點(diǎn)包括學(xué)生輟學(xué)預(yù)測(cè)[2]、學(xué)生成績(jī)預(yù)測(cè)[3-4]以及學(xué)校對(duì)學(xué)生成績(jī)的影響[5]等。文獻(xiàn)[6]使用集成模型選擇方法進(jìn)行教育數(shù)據(jù)挖掘;文獻(xiàn)[7]采用無(wú)監(jiān)督學(xué)習(xí)方法對(duì)MOOC課程進(jìn)行優(yōu)先級(jí)建模分析;文獻(xiàn)[8]提出基于XGBOOST模型的聚類中心模型來(lái)預(yù)測(cè)學(xué)生的職業(yè)選擇。這些研究關(guān)注學(xué)生學(xué)業(yè)生活,對(duì)學(xué)生在校的消費(fèi)數(shù)據(jù)挖掘不夠充分。國(guó)家在教育上投入資金是期望幫助學(xué)生高質(zhì)量完成學(xué)業(yè),現(xiàn)有問(wèn)題是如何讓教育資助發(fā)放到最需要幫助的學(xué)生手中。
傳統(tǒng)高校經(jīng)濟(jì)困難學(xué)生資助評(píng)審依靠學(xué)生的主觀陳述,所述內(nèi)容不能客觀反映學(xué)生階段性的經(jīng)濟(jì)情況。利用學(xué)生在校消費(fèi)數(shù)據(jù)構(gòu)建經(jīng)濟(jì)困難學(xué)生分類模型是解決精準(zhǔn)資助問(wèn)題的辦法之一。文獻(xiàn)[9]利用聚類算法快速判定貧困生類別。文獻(xiàn)[10]利用CHAID算法找出最佳分組變量和分組點(diǎn),設(shè)計(jì)判別貧困生的模型。文獻(xiàn)[11]使用學(xué)生“一卡通”消費(fèi)記錄,構(gòu)建高校貧困生精準(zhǔn)資助的神經(jīng)網(wǎng)絡(luò)模型。文獻(xiàn)[12]采用正負(fù)序列模式挖掘算法對(duì)學(xué)生的消費(fèi)數(shù)據(jù)進(jìn)行分析。文獻(xiàn)[13]提出一種深度學(xué)習(xí)算法來(lái)處理學(xué)生數(shù)據(jù),挖掘高校學(xué)生行為產(chǎn)生的海量數(shù)據(jù)的價(jià)值。文獻(xiàn)[14]研究發(fā)現(xiàn)貧困生與其他學(xué)生的消費(fèi)行為存在明顯差異,貧困生資助對(duì)于學(xué)生的消費(fèi)水平會(huì)產(chǎn)生短期效應(yīng),但無(wú)長(zhǎng)期效應(yīng)。文獻(xiàn)[15]將“一卡通”數(shù)據(jù)和學(xué)生網(wǎng)貸數(shù)據(jù)相結(jié)合,為高校管理者提供幫助經(jīng)濟(jì)困難學(xué)生的新思路。文獻(xiàn)[16]利用校園卡的消費(fèi)數(shù)據(jù)結(jié)合自適應(yīng)優(yōu)化算法和邏輯回歸算法構(gòu)建貧困生識(shí)別模型。文獻(xiàn)[17]通過(guò)學(xué)生的海量校園數(shù)據(jù)構(gòu)建學(xué)生自畫(huà)像,描述學(xué)生特征。文獻(xiàn)[18]基于校園一卡通大數(shù)據(jù)對(duì)學(xué)生消費(fèi)行為進(jìn)行分析,使用聚類算法為高校精準(zhǔn)資助工作提供支持,并構(gòu)建學(xué)生共現(xiàn)網(wǎng)絡(luò),發(fā)現(xiàn)孤獨(dú)者,為心理資助提供參考。
上述研究中,研究者已開(kāi)始探索如何將神經(jīng)網(wǎng)絡(luò)算法應(yīng)用到貧困生的分類中,但是在運(yùn)用神經(jīng)網(wǎng)絡(luò)解決此類問(wèn)題時(shí),對(duì)于神經(jīng)網(wǎng)絡(luò)存在的參數(shù)確定困難問(wèn)題,沒(méi)有給出解決辦法。本文以學(xué)生在校期間的消費(fèi)數(shù)據(jù)、學(xué)生出入校園場(chǎng)所記錄數(shù)據(jù)和學(xué)生基本信息數(shù)據(jù),結(jié)合神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建學(xué)生經(jīng)濟(jì)困難分類模型。結(jié)合學(xué)生消費(fèi)數(shù)據(jù)的時(shí)序特點(diǎn),使用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long short-term memory,LSTM)構(gòu)建分類模型,針對(duì)LSTM參數(shù)手動(dòng)調(diào)整困難的問(wèn)題,使用改進(jìn)的粒子群優(yōu)化算法(Improved particle swarm optimization,IPSO)對(duì)LSTM的學(xué)習(xí)率和隱藏層節(jié)點(diǎn)數(shù)進(jìn)行優(yōu)化,提高模型的分類準(zhǔn)確率[19]。
LSTM能夠很好處理時(shí)序數(shù)據(jù),并在一定程度上解決循環(huán)神經(jīng)網(wǎng)絡(luò)梯度消失或梯度爆炸的問(wèn)題。LSTM引入了輸入門、輸出門和遺忘門[20]來(lái)控制信息的傳遞,該算法核心在于記憶單元的設(shè)計(jì),每個(gè)單元的計(jì)算公式如(1)式至(7)式所示,ft,it和ot分別表示遺忘門、輸入門和輸出門;ht為隱藏狀態(tài);xt為輸入的樣本;bf,bi,bo和bc為參數(shù);Ct和C~t分別表示記憶細(xì)胞和候選記憶細(xì)胞。在LSTM模型中,需要手動(dòng)調(diào)整學(xué)習(xí)率、隱藏層節(jié)點(diǎn)數(shù),直到達(dá)到良好的分類效果。本文針對(duì)這一問(wèn)題,引入粒子群優(yōu)化算法,對(duì)學(xué)習(xí)率和隱藏層節(jié)點(diǎn)數(shù)進(jìn)行參數(shù)尋優(yōu)。
粒子群優(yōu)化算法(Particle swarm optimization,PSO)是群智能優(yōu)化算法的重要組成部分,可用于深度神經(jīng)網(wǎng)絡(luò)中的權(quán)值優(yōu)化[21]。該算法通過(guò)模擬鳥(niǎo)的不斷飛行達(dá)到搜索的效果。算法輸入的每一個(gè)個(gè)體根據(jù)自身的搜尋能力,在n維空間尋找個(gè)體的最優(yōu)解,然后通過(guò)全局跟蹤對(duì)比,尋找整個(gè)群體的全局最優(yōu)解。算法通過(guò)k次迭代,不斷調(diào)整粒子的自身位置和飛行速度,最終收斂到全局最優(yōu)解。n維空間中m個(gè)粒子,粒子的位置可表示為Xi=[Xi1,Xi2,…Xin],i取值為1到m,在整個(gè)尋優(yōu)過(guò)程中,每個(gè)粒子的更新速度可表示為Vi=[Vi1,Vi2,…Vin],每個(gè)粒子搜尋到的最優(yōu)位置可表示為pbesti=[pi1,pi2,…pin],在整個(gè)粒子群中,群體的最優(yōu)位置表示為gbest=[g1,g2,…gn],搜索過(guò)程中,需要限定位置范圍[Xmin,Xmax],限定速度范圍[Vmin,Vmax]。k次搜索迭代過(guò)程中,粒子的更新變化可表示為:
式中:d=1,2,…n;i=1,2,…m;w表示慣性權(quán)重,若沒(méi)有慣性權(quán)重會(huì)因無(wú)法知道初始狀態(tài)而造成尋優(yōu)困難;c1和c2表示學(xué)習(xí)因子,能夠調(diào)節(jié)學(xué)習(xí)的步長(zhǎng),c1為0容易陷入局部最優(yōu)解而無(wú)法跳出,c2為0會(huì)導(dǎo)致收斂緩慢,c1和c2均不為0算法更容易保持收斂速度和搜索效果的均衡性;r1和r2是兩個(gè)隨機(jī)數(shù),取值范圍為[0,1],用于增加搜索的隨機(jī)性。
PSO算法參數(shù)較少且收斂速度較快,標(biāo)準(zhǔn)的粒子群優(yōu)化算法易陷入局部最優(yōu),且需要重視初始粒子位置,w慣性權(quán)重是描述粒子歷史狀態(tài)的參數(shù),會(huì)在每次搜索中影響當(dāng)前的搜索效果,是可優(yōu)化PSO性能的重要參數(shù)[22]。本文通過(guò)改進(jìn)慣性權(quán)重w,解決算法易陷入局部最優(yōu)的問(wèn)題,w能夠較好平衡搜索速度和搜索進(jìn)度,提升算法性能。因?yàn)樗俣冗^(guò)大,粒子容易越過(guò)最優(yōu)解,速度過(guò)小容易陷入局部最優(yōu)解。在實(shí)際搜索過(guò)程中,空間較大時(shí),前期需要較高的全局搜索能力,后期需要較高的局部搜索能力,因此,w可設(shè)置為動(dòng)態(tài)更新的函數(shù),本文將w修改為:
式中:wmax是w的最大值;wmin是w的最小值;Tmax是最大迭代次數(shù);t為當(dāng)前迭代次數(shù)。
為避免粒子搜尋陷入局部最優(yōu)解,加入自適應(yīng)變異操作,計(jì)算公式如式(11)所示。
式中:Tmax是最大迭代次數(shù);t為當(dāng)前迭代次數(shù);pi為自適應(yīng)變異幾率。
本文使用某高校提供的2020年10月至2021年7月一學(xué)年的本??茖W(xué)生校園消費(fèi)數(shù)據(jù),涉及學(xué)生31 645名。高校一卡通數(shù)據(jù)庫(kù)有本??粕?、研究生、教職工、外來(lái)人員和臨時(shí)員工的所有消費(fèi)記錄,但在經(jīng)濟(jì)情況的判斷中,由于研究生、教職工、外來(lái)人員和臨時(shí)員工的消費(fèi)記錄分散,無(wú)法進(jìn)行系統(tǒng)的分析,因此將這一類數(shù)據(jù)剔除。學(xué)生校園一卡通的消費(fèi)數(shù)據(jù)具有時(shí)間限制,所取數(shù)據(jù)的高校位于四川省,根據(jù)學(xué)校提供的供餐時(shí)段以及在校學(xué)生日常作息情況,以上午10:00和下午15:00為界線區(qū)分早餐、午餐和晚餐,抽取學(xué)生消費(fèi)的時(shí)序特點(diǎn)并且計(jì)算在校學(xué)生的消費(fèi)次數(shù)。
數(shù)據(jù)集包括學(xué)生的基本信息和消費(fèi)信息,部分?jǐn)?shù)據(jù)字段如表1和表2所示,本文實(shí)驗(yàn)重點(diǎn)關(guān)注消費(fèi)數(shù)據(jù)。學(xué)生的基本信息包含學(xué)號(hào)(xh)、姓名(xm)、性別(xb)、身份證件號(hào)(sfzjh)、學(xué)院名稱(xymc)、班級(jí)(bj)等,學(xué)生在校內(nèi)的消費(fèi)情況部分重要字段為消費(fèi)金額(jyje)、消費(fèi)時(shí)間(jysj)、消費(fèi)地點(diǎn)(ZHMZ)等,消費(fèi)地點(diǎn)囊括了學(xué)生食堂、超市、水房等場(chǎng)所。
表1 高校學(xué)生部分基本信息Table 1 Some Basic information of college students
表2 消費(fèi)記錄(部分)Table 2 Consumption Record(partial)
本文從學(xué)生的基本信息和消費(fèi)記錄中提取特征,作為IPSO-LSTM模型的輸入。學(xué)生的基本信息主要抽取學(xué)生的性別、年級(jí)、生源地以及專業(yè),重點(diǎn)抽取消費(fèi)記錄中所隱含的特征。學(xué)生在校的消費(fèi)情況能反映出學(xué)生經(jīng)濟(jì)狀況,根據(jù)消費(fèi)記錄,抽取學(xué)生的基本消費(fèi)特征,主要特征有消費(fèi)總次數(shù)、消費(fèi)總金額、每次消費(fèi)平均值、每月消費(fèi)平均值、周消費(fèi)次數(shù)以及月消費(fèi)次數(shù)等,消費(fèi)的時(shí)間段作為數(shù)據(jù)重要的區(qū)分特征。
根據(jù)高校學(xué)生的消費(fèi)規(guī)律,可計(jì)算在一段時(shí)間內(nèi)一所高校學(xué)生的消費(fèi)平均水平,以此可確定該校整體經(jīng)濟(jì)情況,并且能夠確定一段時(shí)間內(nèi)該生經(jīng)濟(jì)情況。為劃分出在校學(xué)生的經(jīng)濟(jì)情況,本文給出了相關(guān)數(shù)據(jù)定義及其計(jì)算方法。
定義1校內(nèi)學(xué)生月消費(fèi)平均水平:學(xué)生群體的整體消費(fèi)情況可用一段時(shí)間內(nèi)該群體的平均消費(fèi)水平展示,記作M_average,計(jì)算公式如式(12)所示:
公式含義為k位學(xué)生i天t月j次在校內(nèi)消費(fèi)的總額與在校消費(fèi)學(xué)生總數(shù)K和該時(shí)段總月數(shù)T的商;mkj表示第k位學(xué)生第j次的消費(fèi)金額;J表示消費(fèi)的總次數(shù);I表示每月消費(fèi)的總天數(shù);K,J,I和T均為正整數(shù)。
定義2經(jīng)濟(jì)困難水平線:處理好異常數(shù)據(jù)后所有能夠參與經(jīng)濟(jì)資助評(píng)定的K位學(xué)生中,若消費(fèi)水平低于經(jīng)濟(jì)困難水平線,則該同學(xué)在該時(shí)段出現(xiàn)經(jīng)濟(jì)困難的概率越大,記作LOPC,計(jì)算公式如式(13)所示:
式中:η為可調(diào)整系數(shù),取值大于0小于1,可根據(jù)高校的資助名額進(jìn)行調(diào)整。
定義3經(jīng)濟(jì)困難判定應(yīng)滿足以下條件:(1)學(xué)生月消費(fèi)總額小于LOPC;(2)學(xué)生月消費(fèi)次數(shù)大于n;(3)學(xué)生連續(xù)m月在校消費(fèi)。n為設(shè)定的每月消費(fèi)次數(shù),m為設(shè)定的在校消費(fèi)月數(shù)。當(dāng)3個(gè)條件均滿足時(shí),認(rèn)為該同學(xué)經(jīng)濟(jì)困難,反之則不困難。
在本文的實(shí)驗(yàn)中,η的系數(shù)取值設(shè)置為0.3;n的取值設(shè)置為30;m的取值設(shè)置為3。
本文使用改進(jìn)后的粒子群優(yōu)化算法(IPSO)對(duì)LSTM的學(xué)習(xí)率和隱藏層節(jié)點(diǎn)數(shù)進(jìn)行尋優(yōu),將參數(shù)尋優(yōu)結(jié)果用于LSTM模型訓(xùn)練,并結(jié)合學(xué)生在校消費(fèi)數(shù)據(jù)構(gòu)建分類模型。
基于IPSO-LSTM的貧困生分類模型如圖1所示,基于IPSO-LSTM的分類模型偽代碼如表3所示。
表3 IPSO-LSTM分類模型偽代碼Table 3 IPSO-LSTM classification model pseudocode
圖1 IPSO-LSTM算法模型Fig.1 IPSO-LSTM algorithm model
本文的研究目的是利用LSTM網(wǎng)絡(luò)構(gòu)建貧困生分類模型,完成貧困生的類別劃分任務(wù),解決傳統(tǒng)貧困生識(shí)別方法受人工經(jīng)驗(yàn)影響較大的問(wèn)題。因此本文選擇常用于分類問(wèn)題的評(píng)價(jià)指標(biāo)來(lái)進(jìn)行模型的性能評(píng)估,實(shí)驗(yàn)評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1-score。各評(píng)價(jià)指標(biāo)的數(shù)學(xué)表達(dá)式如下所示:
式中:TP表示分類正確的正例;FP表示分類錯(cuò)誤的正例;TN表示分類正確的反例;FN表示分類錯(cuò)誤的反例。
4.2.1 基于IPSO的網(wǎng)絡(luò)參數(shù)優(yōu)化
本文模型利用IPSO的自適應(yīng)搜索特點(diǎn)確定LSTM網(wǎng)絡(luò)的相關(guān)結(jié)構(gòu)參數(shù),解決LSTM網(wǎng)絡(luò)參數(shù)確定困難的問(wèn)題。
設(shè)置粒子個(gè)數(shù)為3,迭代次數(shù)為10;wmax為0.8,wmin為0.2。在尋優(yōu)過(guò)程中,通過(guò)式(8)到式(11)更新粒子速度和位置,IPSO-LSTM尋優(yōu)收斂情況如圖2所示。其中:圖2(a)為算法尋優(yōu)適應(yīng)度曲線,以錯(cuò)誤率函數(shù)進(jìn)行評(píng)估,收斂在0.203 57;圖2(b)為L(zhǎng)STM學(xué)習(xí)率尋優(yōu)結(jié)果為0.000 26;圖2(c)為L(zhǎng)STM第一個(gè)隱藏層節(jié)點(diǎn)數(shù),取值結(jié)果為149;圖2(d)為L(zhǎng)STM第二個(gè)隱藏層節(jié)點(diǎn)數(shù),取值為175。
圖2 改進(jìn)粒子群優(yōu)化算法尋優(yōu)結(jié)果Fig.2 Optimization results of improved particle swarm optimization algorithm
4.2.2 基于IPSO-LSTM的貧困生分類
利用IPSO的自適應(yīng)優(yōu)化獲取LSTM的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)后,利用該參數(shù)二次訓(xùn)練模型。
設(shè)置迭代次數(shù)為1 000、移動(dòng)步長(zhǎng)為16,數(shù)據(jù)集總樣本數(shù)為10 008條,采用8∶2隨機(jī)劃分訓(xùn)練集與測(cè)試集。貧困生分類模型訓(xùn)練過(guò)程中整個(gè)模型準(zhǔn)確率和損失率的變化如圖3所示,其中:圖3(a)為IPSOLSTM算法損失曲線;圖3(b)為IPSO-LSTM分類準(zhǔn)確率曲線。在訓(xùn)練至800次左右,算法收斂,最終分類預(yù)測(cè)準(zhǔn)確率收斂在98.3%。
圖3 IPSO-LSTM損失率和準(zhǔn)確率Fig.3 IPSO-LSTM loss and accuracy
同時(shí),為提高本文所提方法的說(shuō)服力,本文將所提方法與LSTM和PSO-LSTM算法進(jìn)行對(duì)比。為防止偶然實(shí)驗(yàn)對(duì)結(jié)果的影響,本文利用十折交叉驗(yàn)證理念設(shè)計(jì)對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)表明本文所提方法表現(xiàn)良好,略優(yōu)于對(duì)照算法。
表4 十折交叉驗(yàn)證數(shù)據(jù)Table 4 Ten fold cross validation data
通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),改進(jìn)后的粒子群優(yōu)化算法進(jìn)行隱藏層節(jié)點(diǎn)數(shù)和學(xué)習(xí)率的參數(shù)尋優(yōu)后,隨著迭代次數(shù)的增加,IPSO-LSTM的分類結(jié)果越準(zhǔn)確。IPSO參數(shù)調(diào)整后,算法的收斂速度和尋優(yōu)精度表現(xiàn)良好,驗(yàn)證實(shí)驗(yàn)表明,IPSO-LSTM的穩(wěn)定性和準(zhǔn)確率較好。
本文抽取學(xué)生的基本信息和消費(fèi)信息,構(gòu)建基于IPSO-LSTM的經(jīng)濟(jì)困難學(xué)生分類模型,用于困難學(xué)生的識(shí)別,對(duì)IPSO-LSTM算法進(jìn)行驗(yàn)證測(cè)試,實(shí)驗(yàn)結(jié)果表明IPSO-LSTM模型在經(jīng)濟(jì)困難學(xué)生識(shí)別問(wèn)題上的整體表現(xiàn)效果較好,收斂速度較優(yōu),準(zhǔn)確率較好。本文的研究工作能夠?yàn)楦咝>珳?zhǔn)幫扶貧困學(xué)生提供理論與實(shí)踐參考,研究方法能為教育數(shù)據(jù)挖掘領(lǐng)域同類型研究提供參考。