亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于線上線下學(xué)習(xí)行為分析的學(xué)生成績預(yù)測研究

2022-11-25 04:38:42郭羿韋文山鄧居昌

現(xiàn)代計算機(jī) 2022年17期

郭羿，韋文山，鄧居昌

（廣西民族大學(xué)電子信息學(xué)院，南寧 530000）

0 引言

近年來，線上教育的不斷普及對常規(guī)教育數(shù)據(jù)的研究方法提出了挑戰(zhàn)。管理者通過學(xué)習(xí)者產(chǎn)生的學(xué)習(xí)行為大數(shù)據(jù)對在線教育大數(shù)據(jù)進(jìn)行研究，并根據(jù)分析結(jié)果進(jìn)行應(yīng)用，這對于指導(dǎo)在線開放課程的設(shè)計、運(yùn)行及評價，進(jìn)而有效組織學(xué)生的教學(xué)活動有幫助作用。如今的高校教學(xué)過程中，線上教學(xué)與線下教學(xué)相結(jié)合已成為主流趨勢。線上教育產(chǎn)生了許多學(xué)生學(xué)習(xí)數(shù)據(jù)，運(yùn)用數(shù)據(jù)挖掘方法對學(xué)生的線上學(xué)習(xí)數(shù)據(jù)與線下學(xué)習(xí)數(shù)據(jù)相結(jié)合，能夠?qū)崿F(xiàn)對學(xué)生的成績預(yù)測，幫助學(xué)生規(guī)避學(xué)業(yè)風(fēng)險［1］。

學(xué)習(xí)行為分析及結(jié)果預(yù)測主要體現(xiàn)在數(shù)據(jù)相關(guān)性分析及成績預(yù)測理論模型的構(gòu)建、成績預(yù)測模型的實(shí)證研究、算法準(zhǔn)確性的對比、算法的開發(fā)、預(yù)警因素研究等方面，已有研究主要采用決策樹、回歸分析、時序分析等算法。此外，基于大學(xué)生網(wǎng)絡(luò)課程學(xué)習(xí)過程、早起行為和圖書借閱行為，將課內(nèi)表現(xiàn)和數(shù)據(jù)聯(lián)系，建立多個學(xué)習(xí)場景的數(shù)據(jù)鏈路，通過對不同機(jī)器學(xué)習(xí)分類模型的預(yù)測分析和性能提升，結(jié)合不同預(yù)測模型的優(yōu)勢，建立用于教學(xué)干預(yù)與學(xué)習(xí)推薦系統(tǒng)的行為診斷模型［2］。隨著深度學(xué)習(xí)技術(shù)越來越廣泛地應(yīng)用到實(shí)際問題中，將深度學(xué)習(xí)技術(shù)應(yīng)用到教育大數(shù)據(jù)挖掘領(lǐng)域，能更好地描述教育數(shù)據(jù)的內(nèi)在信息，幫助教育者發(fā)現(xiàn)教育問題的關(guān)鍵［3］。

本研究采用多元線性回歸（MLR）、隨機(jī)森林（RF）和支持向量機(jī)（SVM）三種傳統(tǒng)機(jī)器學(xué)習(xí)方法和一種人工神經(jīng)網(wǎng)絡(luò)（ANN）方法，通過學(xué)生線上線下兩方面表現(xiàn)和成績來對高校學(xué)生進(jìn)行期末學(xué)業(yè)成績預(yù)測，通過四種不同的算法，提供合適的參考依據(jù)［4］。

1 實(shí)驗數(shù)據(jù)

1.1 數(shù)據(jù)來源

本研究以N市M高校2020級電子信息學(xué)院435名大學(xué)生作為數(shù)據(jù)采集對象，其中兩名同學(xué)的記錄存在信息缺失，剔除含有信息缺失的數(shù)據(jù)，最終保留433條有效數(shù)據(jù)［5-6］。學(xué)習(xí)科目為數(shù)據(jù)結(jié)構(gòu)課程，學(xué)習(xí)場景數(shù)據(jù)來源于藍(lán)墨云班課的在線課程學(xué)習(xí)日志數(shù)據(jù)和線下教學(xué)學(xué)習(xí)數(shù)據(jù)；學(xué)習(xí)績效數(shù)據(jù)來源于藍(lán)墨云班課平臺的簽到次數(shù)、在線測試成績和線下筆試成績等方面。

1.2 成績影響因素的確定

其中，在線學(xué)習(xí)平臺包含10個屬性，如簽到次數(shù)、資源學(xué)習(xí)數(shù)量、在線測試等。本研究擬通過原始數(shù)據(jù)中所有單個數(shù)據(jù)的屬性對最終成績的影響進(jìn)行評估并排序，借助排序結(jié)果來選擇子屬性集［7-8］。方法是計算所有單個屬性和期末成績類別之間的皮爾遜相關(guān)系數(shù)，并依據(jù)其相關(guān)系數(shù)大小進(jìn)行排序，系數(shù)值越大，表明其與最終成績的相關(guān)性越強(qiáng)。評估方法的排序結(jié)果如表1所示。表1中的第一列是屬性的序號，第二列是屬性的類別，第三列為相關(guān)系數(shù)［9］。其中，部分屬性中含有缺失值、無關(guān)數(shù)據(jù)、孤立點(diǎn)等，對這些屬性進(jìn)行數(shù)據(jù)清洗［10］，最終保留下來6項屬性。由于各項屬性的初始指標(biāo)不同，為了方便相關(guān)性分析，將所有屬性數(shù)據(jù)進(jìn)行預(yù)處理，屬性數(shù)據(jù)都轉(zhuǎn)換為百分制分?jǐn)?shù)與期末成績進(jìn)行比對。從表1可以發(fā)現(xiàn)，不同屬性與期末成績的相關(guān)性數(shù)值大小有所差異，從中判斷出系數(shù)較大的3項是影響期末成績的主要因素，因此將其作為在線學(xué)習(xí)平臺預(yù)測建模的部分自變量。

表1 在線學(xué)習(xí)平臺屬性相關(guān)性分析

線下成績主要包含2個方面：平時成績與卷面成績。平時成績由5個屬性構(gòu)成，如測驗、作業(yè)、實(shí)驗等。數(shù)據(jù)來源為學(xué)生的日常測驗考核的真實(shí)成績。平時成績的計算方法如公式（1）所示。其中，y1代表平時成績，α代表段考，β代表實(shí)驗，γ1代表課堂測驗1，γ2代表課堂測驗2，δ代表作業(yè)。

期末成績的計算方式主要由平時成績與卷面成績得出，計算方法如公式（2）所示。此處y2代表期末成績，α代表卷面成績，β代表平時成績。

對線上和線下兩部分成績，共8個屬性，3456條數(shù)據(jù)進(jìn)行分析研究。數(shù)值集中的同時，為避免不同數(shù)據(jù)屬性對回歸預(yù)測的干擾，對所有數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化處理，使所有數(shù)據(jù)范圍處于［0，1］的區(qū)間內(nèi)。

2 實(shí)驗方法

2.1 預(yù)測模型

預(yù)測問題主要分為分類和回歸兩類。預(yù)測離散的值使用分類，預(yù)測連續(xù)的值使用回歸［11］。本研究主要通過學(xué)習(xí)者日常學(xué)習(xí)行為對學(xué)生期末學(xué)業(yè)成績進(jìn)行回歸預(yù)測?；貧w預(yù)測一般根據(jù)預(yù)測目標(biāo)來確定自變量和因變量，進(jìn)而建立回歸模型，再對數(shù)據(jù)進(jìn)行相關(guān)性分析，檢驗回歸預(yù)測變量，計算預(yù)測誤差，并確定預(yù)測值［12］。目前，常用的回歸方法有支持向量機(jī)（SVM）、多元線性回歸（MLR）、人工神經(jīng)網(wǎng)絡(luò)（ANN）等［13］。

傳統(tǒng)回歸建模方法是將原始數(shù)據(jù)集分為訓(xùn)練集、測試集和驗證集三類，其中訓(xùn)練集用于模型的訓(xùn)練，驗證集用于模型的調(diào)參，測試集用來檢驗?zāi)Ｐ托阅艿暮脡?。由于“單一模型的決策可能會低于集體決策”，本研究在模型選擇上采用單一模型和集中學(xué)習(xí)模型相結(jié)合的方式，對學(xué)生期末學(xué)業(yè)成績進(jìn)行預(yù)測分析［14］。預(yù)測模型分為兩部分：第一部分進(jìn)行監(jiān)督學(xué)習(xí)，將已知各項屬性用于模型對預(yù)測變量的訓(xùn)練，建立模型參數(shù)；第二部分對模型進(jìn)行優(yōu)化，將原模型結(jié)果與優(yōu)化結(jié)果進(jìn)行對比，檢驗?zāi)Ｐ偷奶嵘潭?，評估模型的性能。

2.1.1 多元線性回歸（Multiple Linear Regression）

建立多元線性回歸（MLR）模型時，為了保證回歸模型具有良好的解釋能力和預(yù)測效果，應(yīng)注意自變量的選擇：

（1）自變量對因變量要有顯著影響，并呈現(xiàn)出線性相關(guān)性；

（2）自變量與因變量的關(guān)系必須是真實(shí)的，而不是形式上的；

（3）自變量間須有互斥度，自變量之間的相關(guān)性不應(yīng)高于自變量與因變量之間的相關(guān)性［15］。

對于n維特征的樣本數(shù)據(jù)，在使用線性回歸時，對應(yīng)的模型為

為簡化模型，增加一個特征x0=1，使得

得到模型，需要求出損失函數(shù)，一般線性回歸采用均方誤差作為損失函數(shù)。損失函數(shù)的代數(shù)法表示如下：

其中，求損失函數(shù)最小化參數(shù)的方法一種是梯度下降法，一種是最小二乘法。

2.1.2 支持向量機(jī)（Support Vector Machines）

支持向量機(jī)（SVM）在解決高維特征的分類和回歸問題方面很有效，特征維度大于樣本數(shù)時依然有很好的效果。它有大量的核函數(shù)可以使用，從而可以很靈活地解決各種非線性的分類回歸問題。且樣本數(shù)據(jù)不是海量數(shù)據(jù)時，分類的準(zhǔn)確率高，泛化能力強(qiáng)［16］。

在回歸問題中，常用的誤差函數(shù)是最小平方和誤差函數(shù)，其表示如下：

2.1.3 人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks）

人工神經(jīng)網(wǎng)絡(luò)（ANN）是一種通過神經(jīng)元的處理單元相互連接而組成的一套機(jī)器學(xué)習(xí)方法。神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱藏層和輸出層構(gòu)成，同時，神經(jīng)網(wǎng)絡(luò)在輸入層、隱藏層和輸出層上都部署了非線性函數(shù)的組合［17］。神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于社會的各個領(lǐng)域，在教育領(lǐng)域主要通過不同的神經(jīng)網(wǎng)絡(luò)算法組合實(shí)現(xiàn)學(xué)生學(xué)習(xí)效果預(yù)測和學(xué)習(xí)預(yù)警等。與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比，神經(jīng)網(wǎng)絡(luò)在一般情況下預(yù)測準(zhǔn)確率更優(yōu)，因此適用于學(xué)業(yè)成績預(yù)測。

2.1.4 隨機(jī)森林（Random Forest）

隨機(jī)森林（RF）是采用集成學(xué)習(xí)的思想將多棵樹集成的一種算法，它的基本單元是決策樹。它集成多棵決策樹的預(yù)測，其中每棵樹都由基于隨機(jī)向量的一個獨(dú)立集合的值產(chǎn)生［18］。

隨機(jī)森林具有極好的準(zhǔn)確率，能夠有效地運(yùn)行在大數(shù)據(jù)集上，它能夠處理具有高維特征的輸入樣本，并且不需要進(jìn)行降維處理。此外，隨機(jī)森林還能夠評估各個特征在分類問題上的重要性，在生成過程中，它通過獲取內(nèi)部生成誤差的一種無偏估計，對缺省值問題也可以得出很好的結(jié)果［19］。

2.2 研究設(shè)計

本研究采用4∶1的比例將數(shù)據(jù)集分為訓(xùn)練集和測試集，分別使用MLR、SVM、ANN和RF四種算法在訓(xùn)練集上訓(xùn)練，比較這四種回歸算法的性能［20］。之后對MLR、SVM和RF三種算法采用十折交叉驗證方法重新劃分?jǐn)?shù)據(jù)集；同時將所有設(shè)定參數(shù)進(jìn)行排列組合，選取最優(yōu)模型性能；對ANN采用改進(jìn)超參數(shù)的方法優(yōu)化模型參數(shù)，同時比較優(yōu)化后的模型性能。

研究流程圖如圖1所示。

本研究采用MAE（平均絕對誤差）和MSE（均方誤差）兩項回歸評價指標(biāo)來評定模型性能。這兩個指標(biāo)都是用來描述預(yù)測值與真實(shí)值之間的誤差情況，指標(biāo)值越小，說明模型性能越好，預(yù)測值與真實(shí)值之間的誤差越小。二者的計算公式分別如下：

2.3 研究工具

本研究實(shí)驗平臺為PC平臺，處理器Inter Corei7-11800H，Windows版本21H1，基于Python3.8環(huán)境下，運(yùn)用Python自帶工具進(jìn)行數(shù)據(jù)預(yù)處理，安裝tensorflow2.5版本進(jìn)行神經(jīng)網(wǎng)絡(luò)模型構(gòu)建。在其他預(yù)測工具及集成學(xué)習(xí)模型方面，使用Keras進(jìn)行模型的構(gòu)建與改進(jìn)。

3 實(shí)驗結(jié)果與分析

3.1 預(yù)測結(jié)果對比

將四種預(yù)測模型的預(yù)測值與真實(shí)值進(jìn)行對比，實(shí)現(xiàn)同一課程不同模型之間的對比分析，尋找不同預(yù)測模型之間預(yù)測的差異，選擇最優(yōu)模型對學(xué)生期末學(xué)業(yè)成績進(jìn)行預(yù)測及分析［21］。其中，四種初始模型的預(yù)測成績與實(shí)際成績的誤差曲線如圖2—圖5所示。圖中虛線線條為已知的真實(shí)值，其下方的折線為四種模型的預(yù)測成績。數(shù)據(jù)點(diǎn)越接近虛線線條，其對應(yīng)的預(yù)測模型越好。

從圖2—圖5可以看出，四種方法的成績預(yù)測誤差曲線區(qū)別較小，不易看出四個模型中哪個效果更好。表2給出了評估指標(biāo)的具體數(shù)值，展現(xiàn)出了各模型預(yù)測性能的好壞。

表2 四種原始模型的評估指標(biāo)

從表2可以看出，上述實(shí)驗樣本中ANN的MSE和MAE均最小，其次是RF，對比之下，MLR和SVM的效果較差。

3.2 模型優(yōu)化

在上述實(shí)驗?zāi)Ｐ秃蛯?shí)驗樣本中，人工神經(jīng)網(wǎng)絡(luò)的表現(xiàn)最好，兩項指標(biāo)在四個模型中均為最小值。但其MSE和MAE的數(shù)值仍較大，不符合預(yù)期期望。因此，針對同一實(shí)驗樣本和模型，本文對方法進(jìn)行優(yōu)化，從而得出更好的結(jié)果。優(yōu)化后的模型結(jié)構(gòu)流程圖如圖6所示。

由于數(shù)據(jù)集樣本數(shù)量有限，因此采用K折交叉驗證的方法對數(shù)據(jù)集進(jìn)行“擴(kuò)充”，同時，還可以評估模型的泛化能力。K的值取為10，通過測試，10折交叉驗證在偏差和方差之間可以取得最佳的平衡。

對實(shí)驗?zāi)Ｐ偷膬?yōu)化，主要采用改進(jìn)參數(shù)設(shè)置來提升模型性能。原始模型采用默認(rèn)參數(shù)進(jìn)行實(shí)驗，針對本實(shí)驗樣本數(shù)據(jù)，不一定會得到最佳效果。因此，對模型的各項參數(shù)設(shè)定不同的值，通過參數(shù)間的排列組合，來尋找最佳參數(shù)的組合，提升模型性能。

對于隨機(jī)森林（RF），通過設(shè)置其子樹數(shù)量、分支數(shù)量以及葉子結(jié)點(diǎn)數(shù)量進(jìn)行嵌套循環(huán)，尋找最優(yōu)組合對象；支持向量機(jī)（SVM）則通過其核函數(shù)和C值（懲罰系數(shù)）來尋找泛化能力較強(qiáng)的模型；人工神經(jīng)網(wǎng)絡(luò)（ANN）則通過調(diào)整其神經(jīng)元數(shù)量（neurons）、激活函數(shù)（activations）與全連接層數(shù)量（denses）來提升其模型性能。多元線性回歸由于是一條直線，本研究中不需要進(jìn)行優(yōu)化處理。

模型優(yōu)化后的各項指標(biāo)對比見表3。

表3 優(yōu)化后四種模型評估指標(biāo)

從表3可以看出，模型優(yōu)化之后，此數(shù)據(jù)集下人工神經(jīng)網(wǎng)絡(luò)沒有太好的優(yōu)化效果，MAE（平均絕對誤差）只下降了0.19，而MSE（均方誤差）反而上升了5。人工神經(jīng)網(wǎng)絡(luò)在常規(guī)回歸實(shí)驗中的效果比較好，但是在本實(shí)驗數(shù)據(jù)樣本下，卻沒有達(dá)到預(yù)期效果。而隨機(jī)森林和支持向量機(jī)在本實(shí)驗數(shù)據(jù)樣本下取得了極大幅度的提升。經(jīng)多次對比試驗驗證，排除了因為過擬合情況導(dǎo)致的MAE和MSE誤差值過小的問題。故此，在本實(shí)驗中，支持向量機(jī)預(yù)測結(jié)果好于隨機(jī)森林，遠(yuǎn)高于人工神經(jīng)網(wǎng)絡(luò)和多元線性回歸。

4 結(jié)論與展望

本文采用數(shù)據(jù)挖掘方法中常用的回歸預(yù)測手段，對學(xué)生期末學(xué)業(yè)成績進(jìn)行回歸預(yù)測分析。疫情以來，在線教育的快速發(fā)展不僅給學(xué)生帶來新的機(jī)遇，同時也帶來了新的挑戰(zhàn)。隨著學(xué)生網(wǎng)課時間越來越多，如何對線上學(xué)生的期末學(xué)業(yè)成績進(jìn)行預(yù)測，以便為學(xué)生及時提供學(xué)業(yè)預(yù)警及其他干預(yù)措施顯得尤為重要［22］。在大數(shù)據(jù)時代，將學(xué)生在線學(xué)習(xí)所產(chǎn)生的大量非線性數(shù)據(jù)與線下學(xué)習(xí)產(chǎn)生的線性數(shù)據(jù)相結(jié)合，對探尋學(xué)生期末學(xué)業(yè)成績的影響因素至關(guān)重要。

基于本研究采用的數(shù)據(jù)集，學(xué)生在線學(xué)習(xí)情況對期末學(xué)業(yè)成績的影響因素中，測試平均分對學(xué)生學(xué)業(yè)成績的影響最大，其次是上課出勤率和學(xué)習(xí)資源數(shù)，而其他在線學(xué)習(xí)因素對學(xué)生學(xué)業(yè)成績的影響相對較小。學(xué)生的線下成績呈線性分布，每個屬性都有相應(yīng)的比例。因此，通過線上學(xué)習(xí)行為表現(xiàn)與線下成績相結(jié)合對學(xué)業(yè)成績進(jìn)行預(yù)測對當(dāng)今學(xué)生教育具有重要意義。同時，還可以根據(jù)在線教育平臺對學(xué)生學(xué)業(yè)成績的影響屬性的關(guān)系，對在線教育平臺的改進(jìn)以及實(shí)現(xiàn)學(xué)生真正的個性化教育提供良好的幫助。

本研究采用三種機(jī)器學(xué)習(xí)模型和一種神經(jīng)網(wǎng)絡(luò)模型對學(xué)生期末學(xué)業(yè)成績進(jìn)行預(yù)測，分析和比較了預(yù)測的結(jié)果和模型的評估指標(biāo)，提供了本數(shù)據(jù)集中最優(yōu)的實(shí)驗?zāi)Ｐ?。研究還存在一些局限性，由于數(shù)據(jù)的缺失與數(shù)據(jù)的不平衡，教師的主觀評分影響較大，研究場景未能覆蓋大學(xué)學(xué)習(xí)環(huán)境中對學(xué)業(yè)成績產(chǎn)生影響的所有因素。在后期研究中，將在更多的學(xué)習(xí)場景中結(jié)合不同學(xué)生的學(xué)習(xí)類型和學(xué)習(xí)行為數(shù)據(jù)，針對場景特點(diǎn)提供最優(yōu)的預(yù)測模型，以直觀、清晰的方式對高校教師提供技術(shù)支持，以便對學(xué)生學(xué)習(xí)提供專業(yè)指導(dǎo)，對提升高校學(xué)生的個性化教育起到推動作用。