田 威
(常德職業(yè)技術(shù)學(xué)院,湖南 常德 415000)
近年來,大量研究資料表明,高?!?0后”中有相當(dāng)一部分人存在心理問題,且數(shù)量逐年上升,關(guān)注、解決高校學(xué)生存在的這種問題刻不容緩。據(jù)統(tǒng)計(jì),獨(dú)生子女、留守兒童經(jīng)歷、家長(zhǎng)對(duì)子女的教育等因素都會(huì)對(duì)學(xué)生的心理健康產(chǎn)生很大的影響。常德職業(yè)技術(shù)學(xué)院對(duì)學(xué)生的心理普查非常重視,對(duì)于有問題的學(xué)生會(huì)積極予以干預(yù)輔導(dǎo)和教育。但是當(dāng)前學(xué)院對(duì)學(xué)生的心理普測(cè)仍然采用傳統(tǒng)的問卷調(diào)查方法,即通過組織全院學(xué)生填寫SCL-90量表,篩查結(jié)果往往不盡人意。原因如下:(1)篩查結(jié)果不準(zhǔn)確,學(xué)生在填寫問卷答題時(shí),刻意隱瞞、隨意亂填或者當(dāng)時(shí)環(huán)境因素不好都會(huì)造成調(diào)查結(jié)果出現(xiàn)較大的偏差,而且問卷答題只能收集某一時(shí)刻學(xué)生的心理狀態(tài),缺乏時(shí)效性。(2)心理問題是一個(gè)相對(duì)動(dòng)態(tài)的過程,對(duì)有潛在心理問題的學(xué)生沒有辦法進(jìn)行及時(shí)輔導(dǎo)。(3)老師需要組織全院學(xué)生,且要保證學(xué)生在一個(gè)相對(duì)比較理想不受外界干擾的環(huán)境中填寫,成本比較大[1]。
為了解決上述問題,本文從大數(shù)據(jù)和數(shù)據(jù)挖掘的角度,使用XGBoost分類算法,設(shè)計(jì)了學(xué)生心理健康問題預(yù)測(cè)應(yīng)用,應(yīng)用對(duì)比調(diào)查問卷具有高準(zhǔn)確率、低成本等優(yōu)點(diǎn),能識(shí)別出有潛在心理問題的學(xué)生,還能夠根據(jù)學(xué)生的特征數(shù)據(jù)變化不斷自適應(yīng)優(yōu)化,保證高準(zhǔn)確率。
XGBoost算法采用了集成思想,將多個(gè)弱分類器逐步迭代,集成組合在一起形成一個(gè)強(qiáng)分類器,是梯度提升決策樹(GBDT)的一種高效實(shí)現(xiàn)。相對(duì)于GBDT,XGBoost具有能并行學(xué)習(xí)的優(yōu)點(diǎn),快速實(shí)現(xiàn)迭代運(yùn)算。同時(shí),算法也設(shè)置了懲罰因子來防止過擬合,具體算法步驟如下。
優(yōu)化目標(biāo)函數(shù):l(yi,yi')=(yi-yi')2
每棵決策樹逐步迭代,形成一個(gè)強(qiáng)分類器。
決策樹如果葉子節(jié)點(diǎn)太多,會(huì)增加過擬合的風(fēng)險(xiǎn),通常目標(biāo)函數(shù)還需加入正則項(xiàng)Ω(ft)來對(duì)決策樹進(jìn)行剪枝。
式中,γ為正則化強(qiáng)度;T為葉子節(jié)點(diǎn)個(gè)數(shù);w為葉子節(jié)點(diǎn)權(quán)重。
加入正則化項(xiàng)后要優(yōu)化的完整目標(biāo)函數(shù)為
分別記gi,hi為l的一階和二階導(dǎo)數(shù)
最終求出目標(biāo)函數(shù)最優(yōu)解為
根據(jù)上式,作為樹分裂結(jié)構(gòu)的分?jǐn)?shù),分?jǐn)?shù)越高,則樹的結(jié)構(gòu)越優(yōu)異,最終獲得最優(yōu)的樹結(jié)構(gòu)。算法的停止取決于預(yù)設(shè)的樹深度或者分裂后的結(jié)果值小于某個(gè)閾值[2]。
高職院校往往由于傳統(tǒng)業(yè)務(wù)系統(tǒng)存在信息孤島問題,管理人員僅僅只能看到學(xué)生的一維數(shù)據(jù),如通過教務(wù)系統(tǒng),管理人員只能查看到學(xué)生的學(xué)籍、學(xué)分、掛科、處分、考生評(píng)價(jià)等信息,無法獲取學(xué)生綜合管理系統(tǒng)、一卡通消費(fèi)、上網(wǎng)行為、社交評(píng)論等信息數(shù)據(jù)。本文基于學(xué)校搭建的數(shù)據(jù)中臺(tái),在數(shù)據(jù)高度共享的前提下構(gòu)造數(shù)據(jù)集,采用XGBoost分類算法實(shí)現(xiàn)對(duì)學(xué)生的自動(dòng)分類。模型訓(xùn)練基本實(shí)現(xiàn)流程如圖1所示。
圖1 模型訓(xùn)練流程
通過數(shù)據(jù)中心,獲取了教務(wù)系統(tǒng)、學(xué)生綜合管理系統(tǒng)、一卡通平臺(tái)、網(wǎng)絡(luò)行為管理日志、微信企業(yè)號(hào)等多個(gè)業(yè)務(wù)系統(tǒng)中學(xué)生的多維度信息數(shù)據(jù),并對(duì)其中某些字段缺失的數(shù)據(jù)、文本類型數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行預(yù)處理,通過特征轉(zhuǎn)換,最終構(gòu)造學(xué)生個(gè)人畫像特征[3]。學(xué)院健康教育中心按照心理問題嚴(yán)重程度,統(tǒng)計(jì)出一級(jí)問題學(xué)生831人、二級(jí)問題1 105人、三級(jí)問題1 487人、心理狀況良好人數(shù)11 056人,將以上數(shù)據(jù)作為模型樣本。
本文基于XGBoost的python實(shí)現(xiàn)。將一級(jí)、二級(jí)、三級(jí)、良好的學(xué)生分別標(biāo)識(shí)為A,B,C,D。通過數(shù)據(jù)中臺(tái)抽取學(xué)生特征并進(jìn)行特征轉(zhuǎn)化。
學(xué)生學(xué)籍特征:性別、專業(yè)、民族、所屬省份、生源地區(qū)、戶籍性質(zhì)、家庭經(jīng)濟(jì)情況等,這些特征均屬于離散類特征,對(duì)這類特征進(jìn)行one-hot編碼,如性別特征轉(zhuǎn)化如表1所示。
表1 性別特征轉(zhuǎn)化
其他特征則類似編碼。
學(xué)生教務(wù)特征:成績(jī)、處分次數(shù)、是否惡意評(píng)價(jià)教學(xué)等。對(duì)于成績(jī)特征,以優(yōu)、良、不及格來取值,然后將各科成績(jī)按照取值次數(shù)進(jìn)行匯聚計(jì)算,學(xué)生教務(wù)特征具體如表2所示。
表2 學(xué)生教務(wù)特征
處分次數(shù)屬于連續(xù)性特征,以正常數(shù)值表示即可,是否惡意評(píng)價(jià)則按照上述離散類特征處理。
學(xué)生事務(wù)特征:學(xué)生請(qǐng)假、學(xué)生個(gè)人操行分、宿舍缺勤、班級(jí)排名等。
學(xué)生一卡通特征:圖書借閱、消費(fèi)情況等。
上網(wǎng)行為特征:學(xué)生上網(wǎng)時(shí)長(zhǎng)、App使用類型等。
最終,特征轉(zhuǎn)換編碼規(guī)則為:對(duì)于無序離散類特征采用one-hot編碼,對(duì)于有序離散類特征通過數(shù)值大小作為標(biāo)識(shí),再進(jìn)行歸一化,對(duì)于連續(xù)性特征,進(jìn)行歸一化。
隨機(jī)將數(shù)據(jù)集按照7∶3分為訓(xùn)練集和測(cè)試集,模型評(píng)價(jià)指標(biāo)采用多分類F1-score,通過交叉驗(yàn)證選取模型參數(shù)如表3所示。
表3 模型超參數(shù)選擇
通過XGBoost算法模型在測(cè)試集進(jìn)行測(cè)試,結(jié)果如表4所示,從表中可以看出模型對(duì)心理健康狀況良好和存在一級(jí)問題的學(xué)生預(yù)測(cè)準(zhǔn)確率分別為98.00%和96.78%,對(duì)二級(jí)問題的學(xué)生預(yù)測(cè)準(zhǔn)確率相對(duì)較低。模型總體識(shí)別的準(zhǔn)確率遠(yuǎn)遠(yuǎn)優(yōu)于SCL-90量表調(diào)查問卷的結(jié)果。通過分析結(jié)果,對(duì)模型識(shí)別的特征重要性進(jìn)行排序,如圖2所示。其中,是否有留守經(jīng)歷、是否單親家庭、成績(jī)的特征重要性所占權(quán)重最大。同時(shí),可以通過模型計(jì)算出學(xué)生屬于各分類的概率,將概率接近分類閾值的學(xué)生劃分為該類下有潛在心理疾病風(fēng)險(xiǎn)的學(xué)生,讓心理輔導(dǎo)老師對(duì)學(xué)生提前進(jìn)行干預(yù)輔導(dǎo)[4-5]。
表4 測(cè)試集識(shí)別準(zhǔn)確率
圖2 特征重要性排序
本文通過運(yùn)用數(shù)據(jù)中心,打通了各業(yè)務(wù)系統(tǒng)信息孤島,獲取了學(xué)生在各個(gè)業(yè)務(wù)系統(tǒng)多維度數(shù)據(jù),采用XGBoost算法從分類的角度,設(shè)計(jì)了預(yù)測(cè)模型,相對(duì)于采用SCL-90量表的測(cè)評(píng),能高效識(shí)別出有心理問題的學(xué)生,極大地降低了學(xué)校管理的成本,并且模型數(shù)據(jù)具有一定的可解釋性,心理老師也可以根據(jù)數(shù)據(jù)為學(xué)生進(jìn)行個(gè)性化干預(yù)輔導(dǎo)。但是模型對(duì)二級(jí)問題的預(yù)測(cè)還存在比較大的誤報(bào)率,后續(xù)還應(yīng)該多分析數(shù)據(jù),挖掘?qū)W生有效特征,提升模型的準(zhǔn)確率。