吳暾華++王萍++劉婷
摘 要:傳統(tǒng)的大學生學業(yè)預警策略依賴大量人力,效率低且成效不足。為此引入數(shù)據(jù)挖掘技術自動預測將來學習成績并及時發(fā)出預警信息。首先從現(xiàn)有業(yè)務級信息系統(tǒng)中抽取并構(gòu)造學業(yè)狀態(tài)特征向量;然后運用支持向量機進行統(tǒng)計學習得到非線性預測模型;最后利用模型自動發(fā)現(xiàn)學習狀態(tài)不佳的學生并發(fā)出預警。經(jīng)測試本方法的準確率達84%,可有效提高學業(yè)監(jiān)督效率,并可推廣應用于學生黨建信息挖掘、學習目標預測等其它個性化管理領域。
關鍵詞:支持向量機;學業(yè)預警;數(shù)據(jù)挖掘;大數(shù)據(jù)
中圖分類號:G642 文獻標志碼:A 文章編號:1673-8454(2017)17-0065-03
一、引言
大學生相比中小學生具有以下特點:①學習生活更加自由,沒有強制晚自習、沒有頻繁的考試測驗、沒有父母的督促,各種欲望更加強烈,精力更易分散;②價值觀易發(fā)生改變,學習主動性、積極性容易動搖,甚至產(chǎn)生“讀書無用”、“混學位”的觀念,極大降低了學習熱情。因此,大學生的學業(yè)狀態(tài)波動較大。有很多高考成績非常優(yōu)秀的學生,因過渡沉溺于游戲、談戀愛、兼職等活動,補考、掛科連連甚至退學??v觀學業(yè)下滑的學生,多數(shù)在早期沒有及時發(fā)現(xiàn)、及時勸導,以致積重難返。顯然,早期及時發(fā)現(xiàn)問題是關鍵,但這需要輔導員、班主任及任課教師付出極大的努力,工作量巨大。因此,借助新的信息技術(如大數(shù)據(jù)、數(shù)據(jù)挖掘技術)成為學業(yè)自動監(jiān)督的關鍵途徑,對于提升學生的學習成績、提高學校的教學和管理水平都具有深遠的意義。[1]
當前,全國高校普遍實施了數(shù)字化校園建設。其中,學生管理系統(tǒng)實現(xiàn)了信息管理、信息發(fā)布、互動交流、網(wǎng)上辦事、在線教學等主要功能。這些功能模塊基本都停留在業(yè)務操作級,不外乎增、刪、改底層數(shù)據(jù),計算機只不過是一個復合的操作工具,替代了落后的紙質(zhì)管理模式,而隱藏在這些底層數(shù)據(jù)中的知識、規(guī)律長期得不到發(fā)掘。例如,學生出入圖書館、借閱書刊需要刷卡,那么通過分析學生在圖書館的刷卡數(shù)據(jù)不難發(fā)現(xiàn)其學習的主動性、學習的興趣點等有用信息,利用這些由底層數(shù)據(jù)挖掘得到的信息可幫助教師、輔導員或其它管理者更有針對性地為學生服務。[2][3]
目前國內(nèi)外已開展了許多學業(yè)狀態(tài)預測研究。主要運用關聯(lián)規(guī)則、聚類、決策樹、統(tǒng)計學習等方法,分析先前課程成績對后續(xù)課程的影響,預測后續(xù)課程的成績。[4-7]也有研究根據(jù)家庭情況、生活習性等外圍因素推斷是否預警。[8-10]但綜合學習和生活特征進行學業(yè)預警的研究,目前未見述及。因此,本研究的特色在于綜合學生當前的學習生活狀態(tài)以及過往的學習成績預測將來一段時間(如期末考試時)的學業(yè)表現(xiàn)。
二、基于支持向量機的學業(yè)預警方法
Vapnik 提出支持向量機[11][12](Support Vector Machine, SVM)是有監(jiān)督的統(tǒng)計學習方法,可構(gòu)建特征組與類別之間的非線性關聯(lián)?;赟VM的學業(yè)預警方法如下:
第一步,構(gòu)造學業(yè)狀態(tài)特征向量,如表1所示,由考勤指數(shù)、“宅”指數(shù)、學習指數(shù)、成績指數(shù)以及家境這五個可能影響學業(yè)的關鍵指標構(gòu)成,并將預測結(jié)果劃分為“好、中、差”三級,如表2所示,進而根據(jù)預測結(jié)果給予相應處理。表1給出了各指標的依據(jù)、量化方法和數(shù)據(jù)來源。注意,任何一個指標都無法完全刻畫學業(yè)狀態(tài),只是可能的影響因素。
第二步,從學校的相關業(yè)務級信息系統(tǒng)(如教務、學生信息管理系統(tǒng))抽取基礎數(shù)據(jù)并按照表1和表2的量化方法構(gòu)造學業(yè)狀態(tài)樣本集(由學業(yè)狀態(tài)特征向量和人工標定的狀態(tài)類別構(gòu)成)。所構(gòu)造的樣本集分為兩組,一組用于訓練SVM分類器,另一組用于測試方法的正確率、驗證方法的有效性。
第三步,選擇RBF型核函數(shù),采用交叉驗證選擇最優(yōu)參數(shù)——懲罰因子C及核函數(shù)參數(shù)γ。(具體詳見實驗部分)然后采用“一對一”方法從訓練集統(tǒng)計學習得到3個SVM分類器。
第四步,運用得到的3個SVM分類器對測試樣本分別進行測試,并累計各類別的得分,選擇得分最高者所對應的類別作為測試樣本的預測結(jié)果。若預測結(jié)果與人工標定的類別一致,表明預測正確,反之錯誤,如此可知分類器測試的總體正確率。當正確率達到閾值,即可對任意學生的學業(yè)狀態(tài)進行預測;反之重新構(gòu)造樣本集,調(diào)整參數(shù)再次學習。
在本研究中,考試成績?yōu)槲寮売浄种疲涸汲煽?5-100分記為5點(優(yōu)秀);75-85(不含)分記為4點(良好);65-75(不含)分記為3點(中等);60-65(不含)分記為2點(及格);不及格記為0點。平均績點可反映學生當前成績狀態(tài)。
三、實驗與分析
1.實驗方法及結(jié)果
在實驗中我們采用的SVM軟件包為LIBSVM。LIBSVM 是臺灣大學林智仁博士等開發(fā)設計的一個操作簡單、易于使用、快速有效的通用SVM 軟件包,也是目前最流行的SVM軟件包之一。[12]
LIBSVM 使用的步驟是:①按照LIBSVM軟件包所要求的格式準備樣本集(本實驗構(gòu)造了1200個樣本,其中200個用于交叉驗證,600個用于訓練分類器,400個用于測試驗證);②對數(shù)據(jù)進行簡單的縮放(Scale)操作;③選用RBF核函數(shù);④采用交叉驗證選擇最佳參數(shù):懲罰因子C及核函數(shù)參數(shù)γ;⑤采用最佳參數(shù)C與γ對整個訓練集進行訓練獲取SVM模型;⑥利用獲取的模型進行測試分類。
本研究采用交叉驗證法來確定懲罰因子C及核函數(shù)參數(shù)γ。從訓練集中劃分出一部分樣本用于v-fold交叉驗證,稱為交叉驗證集。將交叉驗證集平均分成v份,形成v個子集。對于參數(shù)C和γ的不同組合重復如下操作:按順序保留1個子集作為測試集,其他v-1個子集作為訓練集并訓練其得到SVM分類器,利用該分類器對測試集進行測試并記錄準確率,直到所有子集都被測試過,再取這v次測試的平均準確率作為該次交叉驗證的準確率。這個過程相當于對C和γ進行遍歷,最終選擇交叉驗證準確率最高時的C和γ。經(jīng)過交叉驗證得:C=4.0,γ=2,準確率為92%,交叉驗證的份數(shù)v取3,如圖1所示。然后運用SVMTrain.exe結(jié)合最佳參數(shù)對整個訓練集進行訓練即可獲取SVM模型。最后運用SVMPredict.exe和學習得到的SVM模型對測試樣本集進行驗證。實驗結(jié)果表明,在400個測試樣本中,正確預測了335個,準確率近84%。endprint
2.實驗結(jié)果分析
本方法的識別率受以下兩方面因素的共同制約:推斷依據(jù)(特征指標)選取的準確性和完整性、多分類向量機固有的問題(“一對一”多分類向量機存在不可分區(qū)域,即輸入同屬于多個類別導致投票值相同的情況),若要進一步提高識別率必須在這兩方面做更細致而深入的研究。此外,實際的預測準確率與運用交叉驗證得到的平均準確率不同,是因為交叉驗證時實際上按“一對多”的方式訓練二分類并測試準確率,而在實際訓練時我們采用“一對一”方式訓練,相當于拿“一對多”時分類器最優(yōu)的參數(shù)去訓練“一對一”分類器,存在一定的偏差,性能往往有所下降。
四、小結(jié)
針對大學生學業(yè)自動預警問題,構(gòu)建學業(yè)狀態(tài)特征向量并運用支持向量機學習得到學習狀態(tài)的預測模型,可自動發(fā)現(xiàn)學習狀態(tài)不佳的學生并發(fā)出預警。實驗結(jié)果表明本方法可有效提高學業(yè)監(jiān)督效率,對于提高學生的個性化管理水平具有推動作用;同時,還可推廣應用于學生黨建信息挖掘、學習目標預測等其它個性化管理領域。
參考文獻:
[1]萬輝.大數(shù)據(jù)在高校學生管理工作中的應用[J].高校輔導員學刊,2014(4):48-51.
[2]金博聞,吳暾華.大數(shù)據(jù)時代高校學生個性化管理新方法探索[J].當代教育實踐與教學研究, 2017(3):82.
[3]高曉東,周建.高職院校圖書館大數(shù)據(jù)在學業(yè)預警中的應用[J].圖書館學刊, 2015(1):115-117.
[4]Natek S, Zwilling M. Student data mining solution-knowledge management system related to higher education institutions[J].Expert Systems with Applications,2014,41(14):6400-6407.
[5]王凱成.基于數(shù)據(jù)挖掘的大學生學業(yè)預警研究[D].上海師范大學,2012.
[6]薛衛(wèi)京,王海洋,孟建.數(shù)據(jù)挖掘技術在高校學生管理中的應用[J].中國高等醫(yī)學教育, 2008(10):81-82.
[7]馬君亮,陳二靜,曹婷,林春娜,葉宇晗.學習質(zhì)量動態(tài)跟蹤系統(tǒng)的設計與實現(xiàn)[J].現(xiàn)代電子技術,2015(18):30-32.
[8]宮鋒.數(shù)據(jù)挖掘在高校學生學業(yè)預警中的應用[J].電子技術與軟件工程,2017(4):202-203.
[9]金義富,吳濤,張子石,王偉東.大數(shù)據(jù)環(huán)境下學業(yè)預警系統(tǒng)設計與分析[J].中國電化教育, 2016(2):69-73.
[10]Pe?觡a-Ayala A. Educational data mining: A survey and a data mining-based analysis of recent works[J].Expert Systems with Applications,2014,41(4):1432-1462.
[11]Maldonado S, López J. Robust kernel-based multiclass support vector machines via second-order cone programming[J].Applied Intelligence,2017:1-10.
[12]吳暾華.面向中醫(yī)面診診斷信息提取的若干關鍵技術研究[D].廈門大學,2008.
(編輯:王天鵬)endprint