薛夢婷
(廣東外語外貿(mào)大學,廣州510420)
信息化手段在高校管理中發(fā)揮著越來越重要的作用。與初中或高中頻繁的月考、期中考和期末考不同,大學的課程分數(shù)評定大多是依賴于每學期的期末考試成績和平時成績的加權總和。若在唯一的一次期末考試中沒有取得較好的成績,就會在極大程度上影響該生的總評分數(shù)。為了避免由于平時對大學生松散管理而帶來的最終期末成績不理想的情況,本文提出一種提前預測學生課程總分的方法,根據(jù)該學生歷史學習成績,以及多門學科的歷史學生成績,對該學生的課程總分進行預測。若預測出學生可能獲得的分數(shù)較低,可提示輔導員或任課教師提前并重點關注該類學生,做到提前干預和預警。同時,提前關注學生成績動向,也能及時反饋教師的教學方法是否需要做出調(diào)整,為改善教學管理提供有效依據(jù)。
相關文獻在預測學生成績方面已做出了積極的研究和探索。Dorina[1]使用四種數(shù)據(jù)挖掘算法對學生成績進行分類,其中使用神經(jīng)網(wǎng)絡模型得到的預測效果最好;何楚等人[2]提出基于頻繁模式譜聚類的關聯(lián)分類模型,用于預測學生可能不及格的科目,但是該方法還存在漏檢、錯檢的問題;于立紅等人[3]使用關聯(lián)規(guī)則方法,通過分析專業(yè)基礎課和專業(yè)課成績之間的相互關系,從而預測學生成績所屬的分類;武彤等人[4]利用數(shù)據(jù)挖掘中的決策樹算法,結合學生個人學習信息和性別信息,為成績預測分析建模,得到了較好的預測準確率;崔仁桀[5]將C4.5 決策樹算法應用于建立本科生專業(yè)學習表現(xiàn)模型,并對其進行剪枝優(yōu)化,從而預測學生未來成績,但是該研究的數(shù)據(jù)集數(shù)量過小,很難反映出由于出勤率、教師授課質(zhì)量等因素對成績帶來的影響。
本文從一個全新的角度出發(fā),另辟蹊徑,使用基于鄰域的協(xié)同過濾推薦算法的思想,并將其應用在學生成績預測領域,得到了較好的預測效果。
本算法利用已有用戶評分的項目來計算用戶與用戶之間的相似度,找到與目標用戶1 最相似的N 個用戶,然后計算N 個用戶有評分但用戶1 并未接觸過項目的評分,并將得分最高的項目推薦給用戶1。
類似地,我們將這種思想用于預測學生成績。假設要預測學生A 未來在某目標課程中可能獲得的成績,先計算與學生A 歷史得分軌跡最相似的N 個學生,且已有這N 個學生在目標課程中的成績,然后根據(jù)學生A 和他們之間的相似度,以及相似度最高的N 個學生在目標課程中的分數(shù),預測學生A 在目標課程的分數(shù)。
計算任意兩個學生A、B 之間的相似度,可以使用以下3 種方式:
(1)基于用戶的余弦相似度
其中,A→和B→分別表示由學生A 和學生B 的歷史分數(shù)組成的向量。
(2)基于用戶皮爾森相關系數(shù)的相似度
其中,課程I 表示所有課程的集合,i 表示任意一門課程,scoreA,i表示學生A 的課程i 成績,表示學生A 的全部課程平均分。
(3)基于用戶的均方差相似度
其中,IAB表示學生A 和B 共同有成績的課程集合,|IAB|表示學生A 和B 共同有成績的課程總數(shù)量。當公式(3)值越小,表示學生A 和B 的相似度越大。為了表現(xiàn)分數(shù)越相似其相似度值就越大,本文使用公式(4)來做相似度轉(zhuǎn)換。
最后,根據(jù)與學生A 分數(shù)軌跡最相似的N 個學生,計算學生A 在目標課程i 的預測分數(shù):
本算法利用已有用戶評分的項目來計算項目與項目之間的相似度,找到每個項目最相似的N 個項目,然后計算目標用戶并未接觸過項目的評分,并將得分最高的項目推薦給目標用戶。
類似地,我們將這種思想用于預測學生成績。假設我們要預測學生A 未來在某目標課程中可能獲得的成績,對于學生A 有成績的課程,先計算其與某目標課程i 歷史得分軌跡最相似的N 門課程。然后,根據(jù)學生A 在這N 門課程中的分數(shù),和課程i 和N 門課程之間的相似度,來預測學生A 在目標課程i 的成績。
計算任意兩門課程i、j 之間的相似度,可以使用以下3 種方式:
(1)基于項目的余弦相似度
(2)基于項目皮爾森相關系數(shù)的相似度
其中,課程U 表示所有既有課程i 又有課程j 成績的學生集合,u 表示任意一個學生,scoreu,i表示學生u的課程i 成績,- -- -----scorei表示課程i 的平均分。
(3)基于項目的均方差相似度
其中,Uij表示共同有課程i 和j 成績的學生集合,|Uij|表示共有課程i 和j 成績的學生總數(shù)量。
最后,根據(jù)與課程i 分數(shù)軌跡最相似的N 門課程,計算學生A 在目標課程i 的預測分數(shù):
實驗所使用的數(shù)據(jù)集來自廣東某高校2011 年至2018 年期間英語語言文化學院的學生成績數(shù)據(jù)。實驗目標是通過本實驗提出的方法對學生成績進行預測,從而達到學生學業(yè)預警和教學輔助的目的,給高校管理者和教師提供決策支持,并提升教學質(zhì)量。
本文采用的數(shù)據(jù)集是來自4218 名學生在186 門課程的102805 條成績數(shù)據(jù)。由于學生成績數(shù)據(jù)本身存在缺失值、重復值、無效值等問題,因此對成績數(shù)據(jù)進行簡單的預處理:
(1)刪除缺失分數(shù)的無效記錄;
(2)若同一學生在某一相同課程有超過一條數(shù)據(jù)記錄,且分數(shù)相同,則刪除重復記錄,僅保留一條成績記錄;
(3)若同一學生在某一相同課程有超過一條數(shù)據(jù)記錄,但分數(shù)不相同,則刪除該生全部該課程的成績記錄;
(4)刪除全部成績?yōu)? 的數(shù)據(jù)。
本實驗采用五折交叉驗證的方法對實驗結果進行驗證,隨機抽取訓練集和測試集的成績數(shù)據(jù),總數(shù)據(jù)量比例為8:2,最后將五次實驗結果取平均,以保證實驗結果的準確性。
(1)均方根誤差(RMSE)
RMSE 可以衡量真實成績與預測分數(shù)值之間的偏差,具體的計算公式如下:
其中,scorep表示學生在該門課程的預測分數(shù),scorea為學生在該門課程獲得的真實分數(shù)。N 為測試集中全部的學生人數(shù)。RMSE 值越小,表示預測效果越好。
(2)平均絕對誤差(MAE)
MAE 可以更好地衡量預測成績的誤差情況。MAE 值越小,表示預測結果越準確。
(3)準確率(Accuracy)
除了均方根誤差之外,本文還使用準確性指標來度量預測結果的好壞,具體的計算公式如下:
其中,T[-3,+3]表示學生在該門課程的預測分數(shù)和真實成績的差值在該區(qū)間范圍之內(nèi)的次數(shù)。
如圖1、圖2 和圖3 所示,不論是使用準確率,還是均方根誤差和平均絕對誤差作為評價指標,效果最好的都是基于項目均方差相似度的協(xié)同過濾算法。筆者認為,均方差相似度是尋找與目標課程難易程度最相似的N 個課程,即課程平均分數(shù)情況類似的課程。當兩門課程的學生平均分非常接近時,計算出來的均方誤差相似度很大,預測會相對準確;反之,在基于皮爾森相關系數(shù)相似度的計算中,由于(scoreu,i-- -- -----scorei)的值減去了課程的平均分,雖然兩門課程可能平均分差異較大,但若二者分數(shù)跨度分布較為一致,即使課程的難易程度不同,相似度卻也可能很大,而這就給預測分數(shù)造成了一定的干擾,導致最終預測的效果不夠理想。
圖1 基于協(xié)同過濾算法預測分數(shù)的準確率
圖2 基于協(xié)同過濾算法預測分數(shù)的RMSE
圖3 基于協(xié)同過濾算法預測分數(shù)的MAE
另外,基于項目的協(xié)同過濾算法效果要明顯優(yōu)于基于用戶的協(xié)同過濾算法。已知學生數(shù)量多,即課程分數(shù)多,而課程門數(shù)相對較少,也就是說,每年固定開課的課程擁有較多的成績數(shù)據(jù),而每個學生能夠擁有的課程成績數(shù)量遠遠不及課程擁有的分數(shù)數(shù)據(jù)量大,因而在計算相似度時,基于項目的算法可以使用更多的數(shù)據(jù)用于訓練,因而預測效果會更好。
最后,當N 值為8 時,所得出的RMSE 和MAE 值最小,當N 值為10 時,所得出的預測準確率最高。這表明過少的鄰域不能夠完整反映課程的分數(shù)特征,而過多的鄰域又會分散預測結果的可取值范圍,使得預測的難度變大。
本文將傳統(tǒng)的協(xié)同過濾推薦算法應用于學生成績預測領域,對比和分析了多種協(xié)同過濾預測方法,最終發(fā)現(xiàn)基于項目均方誤差相似度的協(xié)同過濾算法效果最好。但本文實驗的結果還不夠理想,下一步筆者將考慮使用更多不同的方式來進行成績預測分析。