高雅奇, 穆軍妮, 劉培昌
(北京第二外國語學院,網(wǎng)絡與信息中心(圖書館), 北京 100024)
高等教育大眾化情境下,全面提升教育質(zhì)量,改進本科教育教學成為國際高等教育界的共識,各高校將重視本科教學、提高人才培養(yǎng)質(zhì)量放在高校發(fā)展重中之重的地位[1]。隨著中國高等教育的內(nèi)涵式發(fā)展,學生學習的質(zhì)量成為一流本科教育的關鍵指向[2]?!督逃筷P于全面提高高等教育質(zhì)量的若干意見》《統(tǒng)籌推進世界“雙一流”建設總體方案[2015]64號》《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》等相關政策文件都肯定了“質(zhì)量為重”的中心思想?;诮逃|(zhì)量評價的內(nèi)部增值觀也體現(xiàn)了教育質(zhì)量提升的結果[3]。本科生教育階段是高等教育的主要階段,本科生學習質(zhì)量的高低是考評高校辦學質(zhì)量的核心要素[4]。然而,隨著高等教育的大眾化,學生的學習質(zhì)量因各種因素無法得到保障。因此,如何獲取影響學生學習質(zhì)量的關鍵因素,進而提高學生的學習質(zhì)量是研究的主要目的。
參考國內(nèi)大部分高校通用的績點成績計算方法對本次研究進行設計:某一課程的績點成績=課程分數(shù)/10-5;學分績點成績=學分×績點即學分×(課程分數(shù)/10-5)(90分以上按90分計算);學生在校期間總的績點成績=該生所修全部科目的學分績點成績之和/該生所修全部科目的學分之和。根據(jù)學生績點成績生成該生學習質(zhì)量(以XXZL命名)字段值,名次在同年級同專業(yè)前20%及以內(nèi)的學生學習質(zhì)量設為1等, 名次在20%~40%的學生學習質(zhì)量設為2等,以此類推,名次在后20%的學生學習質(zhì)量為5等,并將最后一等設定為預警等級。
本次研究抽取本科生在校期間與研究主題相關的基礎數(shù)據(jù),構建影響學生學習質(zhì)量分類模型,并對模型加以訓練。以訓練好的模型對本科生的學習質(zhì)量進行預測,實現(xiàn)對預警等級學生的反饋,從而有效促進學生管理工作開展、為學校改進本科教育教學和提高學生質(zhì)量提供可行性的支撐。
與本科生學習相關的數(shù)據(jù)主要涉及學生基本信息、學籍信息、校園行為等數(shù)據(jù)。學生學習質(zhì)量建模時需要從北京某高校的一卡通系統(tǒng)、教務系統(tǒng)、財產(chǎn)系統(tǒng)、圖書館自動化系統(tǒng)、門禁系統(tǒng)、校園網(wǎng)計費系統(tǒng)中抽取如下信息:學號、國籍、地區(qū)、民族、性別、所在年級、所在院系、所在專業(yè)、學科門類、學生類別、培養(yǎng)層次、學制、是否學分制、校園日均消費、年均消費天數(shù)、年上網(wǎng)時長、年圖書外借冊數(shù)、年自習室刷卡次數(shù)。抽取的時間段設定為2013年1月至2019年12月。研究共收集到9 744位本科生在校期間的數(shù)據(jù)。
1)數(shù)據(jù)清洗
數(shù)據(jù)清洗的主要目的是從業(yè)務以及模型的相關需要方面考慮,篩選出需要的數(shù)據(jù)。原始數(shù)據(jù)集中53條數(shù)據(jù)的績點成績?yōu)榭?,為了便于模型分析,對其進行過濾處理。因此,研究的樣本量最終確定為9 691位學生數(shù)據(jù)。
2)缺失值處理
原始數(shù)據(jù)集存在數(shù)據(jù)缺失的情況,若將有缺失值的記錄刪除,會影響樣本的數(shù)據(jù)量。為達到較好的建模效果,采用取代法對缺失值進行插補。對于數(shù)值型的數(shù)據(jù),如日均消費、年均消費天數(shù)等,采用其他記錄的均值插補缺失值;對于字符型的數(shù)據(jù),采用以其他記錄中出現(xiàn)次數(shù)最多的值代替缺失值。
3)數(shù)據(jù)變換
在構建模型前,需要將原始數(shù)據(jù)集中的數(shù)據(jù)轉換成適合挖掘任務及算法需要的格式。采用的數(shù)據(jù)變換方式如下。
(1)數(shù)據(jù)規(guī)約。將分類變量轉換為字符型并定義代碼含義,如性別變量,以“0”代表女性、“1”代表男性。各變量指標及含義見表1。
表1 本科生學習質(zhì)量影響因素及含義
對數(shù)據(jù)樣本采用隨機抽樣的方法抽取80%作為訓練樣本,用于模型訓練;余下的20%作為測試樣本,用于模型結果檢驗。訓練數(shù)據(jù)集包含7 752條數(shù)據(jù),測試數(shù)據(jù)集包含1 939條數(shù)據(jù),可通過對訓練集和測試集數(shù)值型變量的分布情況對比驗證訓練集與測試集的劃分是否合理,具體描述性分析如表2所示。數(shù)值型變量包含上網(wǎng)時長、借書數(shù)量、消費天數(shù)、入館天數(shù)、日均消費。
表2 訓練樣本描述性統(tǒng)計
由上述對比可知,訓練集數(shù)據(jù)與測試集數(shù)據(jù)的數(shù)據(jù)分布較一致,劃分相對合理,根據(jù)訓練集生成的模型可以用測試集數(shù)據(jù)對其進行性能評估。
在研究中選擇3種算法進行比較,即決策樹算法、隨機森林算法和Boosting算法。采用R語言中各算法的默認參數(shù)構建模型,并對三者的擬合結果進行對比,確定研究最終選取的算法。
(1)驗證方法
交叉驗證法是驗證機器學習算法模型效果的常用測試方法。采用最常用的10折交叉驗證法,即將初始采樣分成10個互斥的子樣本,以1個子樣本作為模型的測試數(shù)據(jù),另外9個樣本作為訓練數(shù)據(jù)。共進行10次訓練和測試,以10次結果的均值作為對算法性能的最終估計。
(2)算法性能評估
表3 三種模型10折交叉驗證結果
由表3可知,隨機森林算法的R-squared均值高于決策樹及Boosting算法,其擬合效果最佳。因此,選用隨機森林算法對本科生學習質(zhì)量影響因素進行研究。
在模型訓練過程中,為了構建簡化的、易于理解的模型,需要從全部特征中篩選相關性強的特征子集作為最優(yōu)特征子集。特征篩選不僅可以縮短模型訓練時間,改善模型的通用性,還可以降低模型過擬合的風險[5]。
(1)特征篩選
常用的特征選擇方法包括正向選擇法、后退選擇法和逐步回歸法,研究采用正向選擇法選擇特征變量。得出本科生學習質(zhì)量的隨機森林分類模型包含學科類別代碼、專業(yè)代碼、院系所號、所在年級、上網(wǎng)時長、借書數(shù)量、消費天數(shù)、入館天數(shù)、日均消費、國籍、性別、學制、地區(qū)碼等13個特征指標時擬合程度最好。
(2)特征貢獻度
篩選出特征集后,需要對其各項特征變量在模型中貢獻度機型進行評估,隨機森林模型的feature importance函數(shù)可評估各個特征變量在模型中的重要性,即以完整的模型性能減去某個特征后的模型性能標注特征對模型的貢獻度,計算出的各特征對模型的貢獻度如圖1所示,年借書數(shù)量對模型的貢獻度最高,入館天數(shù)、消費天數(shù)和性別特征對模型分類性能也非常重要。
圖1 隨機森林分類模型特征貢獻度
(3)特征驗證
為了驗證隨機森林分類模型篩選出的特征及排序是否合理,可將其與決策樹和Boosting模型的特征篩選情況進行對比。決策樹算法篩選出的特征包含9個,用feature importance函數(shù)進行排序,前6個特征與隨機森林模型的特征指標及順序相同,之后依次為所在年級、上網(wǎng)時長、院系所號特征。Boosting算法篩選出的分類模型包含11個特征指標,通過計算各特征的F-score值對特征的貢獻度進行排序:前5個與隨機森林模型的特征指標及順序相同,之后依次為上網(wǎng)時長、地區(qū)碼、所在年級、院系所號、學科分類碼、學生分類碼特征??梢娫诓煌P椭械奶卣鬟x取和排序情況比較類似,隨機森林模型的特征篩選和貢獻度是合理的。
模型需要進行參數(shù)調(diào)優(yōu)的主要原因在于訓練出的模型可能存在過擬合和欠擬合問題。過擬合,一般是指模型缺乏泛化能力;欠擬合,一般指訓練出的模型距離擬合曲線較遠,擬合度不高[6]。當模型的復雜度上升會使模型的性能增加,也會增加過擬合的風險;當模型的復雜度減小,又可能出現(xiàn)欠擬合情況。綜合以上情況,需要做好對構建模型的參數(shù)調(diào)優(yōu)工作。隨機森林分類模型如果采用默認值容易發(fā)生過擬合現(xiàn)象,可對以下參數(shù)采取限制措施。
(1)對樹的深度做限制,防止樹的深度太深。樹的深度越小,計算量越小,模型的計算速度越快。為了找到最佳深度,可增加一個集合驗證集,當tree depth=9時,模型準確率趨于穩(wěn)定并不會隨著tree depth的增加明顯提高,故選定tree depth=9。
(2)限制最小樣本數(shù):當節(jié)點包含的節(jié)點過少時就停止分裂節(jié)點。隨機森林模型的默認最小樣本數(shù)為1,經(jīng)實驗當minimun node size增大到2時,模型的指標狀態(tài)最優(yōu)。
(3)森林中決策樹的數(shù)量限制,隨機森林模型的默認決策樹數(shù)量為1 000,實驗證明,當ntree=1 000時模型的錯誤率基本收斂,而再增加ntree的數(shù)量模型效果不會顯著提高,故選定ntree=1 000。
以測試集對構建的森林分類模型進行評估。
表4 隨機森林分類模型混淆矩陣
ROC曲線顯示分類模型在所有分類閾值下的效果。ROC空間將假正例率FPR定義為X軸,真正例率TPR定義為Y軸。橫坐標為用曲線下面積AUC表示ROC曲線下的面積,AUC的值介于0和1之間,AUC值越大代表分類模型的性能越好[18]。為驗證特征篩選是否提高了分類模型的性能,可將經(jīng)特征篩選與未經(jīng)特征篩選的隨機森林分類模型進行對比,其ROC曲線如圖2所示。圖2(a)為未經(jīng)特征篩選的ROC驗證曲線,平均AUC值為86.12%;圖2(b)為經(jīng)特征篩選后的ROC驗證曲線,平均AUC值為89.76%。經(jīng)過特征篩選后,隨機森林模型的驗證性能提升了4.22%。
(a) 未經(jīng)特征篩選
(b) 經(jīng)特征篩選圖2 隨機森林模型驗證ROC曲線
從測試集的1 939條數(shù)據(jù)中隨機抽取100條數(shù)據(jù),展示模型的預測效果。以虛線代表學習質(zhì)量的真實值,實線代表學習質(zhì)量的預測值,結果如圖3所示。
圖3 模型預測對比圖
由圖3可以觀察到模型的預測準確率較高,模型的預測準確率達到79.11%。模型本身具有較好的準確度和穩(wěn)定性,可為改進高校教學管理和提高學生學習質(zhì)量提供參考依據(jù)。
(1)高校應著力于學校學習環(huán)境的改善[7],盡可能地為學生營造良好的學習氛圍,多種途徑多種方式引導和鼓勵學生增加閱讀量和自主學習的時間和能力。
(2)地域因素、家庭因素及語言環(huán)境都是影響學生學習質(zhì)量的重要因素,高校應關注不同學生的需要和個性差異,重點關注新疆、西藏等少數(shù)民族地區(qū)及海外留學生。
(3)性別差異也是影響學生學習質(zhì)量的重要因素。高校應充分重視性別差異造成的成績分化現(xiàn)象,利用各種有效措施來改善這種局面, 提高學生學習成績和實際的運用能力。
(4)高校應建立良好的鼓勵機制,轉變教學方法、增強課堂氛圍,調(diào)動學生的學習熱情與激情。
(5)合理區(qū)間內(nèi),上網(wǎng)時間的增加不會影響學生的學習質(zhì)量反而會促進作用,高校應適當引導學生正確使用網(wǎng)絡,指導學生更好地、更有效地使用各種學習資源。
研究基于機器學習算法,以經(jīng)過預處理的本科生在校期間的相關數(shù)據(jù)為樣本進行模型訓練,建立學習質(zhì)量和影響因素之間的映射關系,并就各影響因素對學生學習質(zhì)量的重要程度進行排序。實驗效果顯示,隨機森林算法的學習質(zhì)量預測模型預測準確率接近80%。但在學習質(zhì)量的影響特征因素選取方面還不全面,未來仍需繼續(xù)改進,進一步提升模型的分類性能。