陶利莎 馬燕 爨力源 鄒富源 田媛 黃洪琳
摘要:近年來(lái),線上教育的迅速發(fā)展給教育者提供了數(shù)據(jù)化的學(xué)習(xí)情況反饋,利用這些學(xué)習(xí)情況的反饋對(duì)學(xué)生進(jìn)行成績(jī)預(yù)測(cè)便是一個(gè)新興研究點(diǎn)。該文記錄了研究過(guò)程中對(duì)學(xué)習(xí)者行為數(shù)據(jù)集的分析,對(duì)數(shù)據(jù)進(jìn)行處理,利用Matlab進(jìn)行聚類分析等方法進(jìn)行分析并得出結(jié)論。利用數(shù)據(jù)分析的方法預(yù)測(cè)學(xué)習(xí)者成績(jī)?cè)诮逃叩墓ぷ魃嫌兄艽髱椭?/p>
關(guān)鍵詞:數(shù)據(jù)處理;成績(jī)預(yù)測(cè);聚類分析;學(xué)習(xí)行為
中圖分類號(hào):TP399 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)35-0027-03
Analysis of Learning Behavior and Performance Prediction Based on MOOC Data
TAO Li-sha, MA Yan, CUAN Li-yuan, ZOU Fu-yuan, TIAN Yuan, HUANG Hong-lin
(The College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 200234, China)
Abstract: In recent years, the rapid development of online courses has provided educators with data-based feedback on study situations. An emerging research focus is to use the feedback of these learning situations to predict the performance of the students. This paper records the analysis of the learner's behavior data set during the research process, processes the data, and uses Matlab to perform cluster analysis and other methods to analyze and draw conclusions. Using the method of data analysis to predict learners' performance is of great help to the work of educators.
Key words: data processing; performance prediction; cluster analysis; learning behavior
在全球化的大背景下,在線學(xué)習(xí)領(lǐng)域的全球化趨勢(shì)也越來(lái)越顯著。特別是由于疫情的原因,線上教育越來(lái)越普遍。隨著互聯(lián)網(wǎng) Web2.0和云計(jì)算等技術(shù)越來(lái)越成熟,大型網(wǎng)絡(luò)教育平臺(tái)——慕課 (massive open online course ,MOOC)也正在快速興起,由于互聯(lián)網(wǎng)技術(shù)的記憶功能,學(xué)習(xí)者在慕課平臺(tái)上的所有學(xué)習(xí)活動(dòng)和行為都會(huì)被以多種形式的數(shù)據(jù)形式記錄下來(lái)[1],基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)對(duì)學(xué)習(xí)者行為進(jìn)行建模,分析慕課的發(fā)展趨勢(shì)和優(yōu)化方案,吸引著越來(lái)越多研究人員的參與其中[2]。
由于慕課出現(xiàn)的時(shí)間還很短,目前為數(shù)不多的研究大致包括關(guān)于單維度數(shù)據(jù)的統(tǒng)計(jì)分析、對(duì)不同學(xué)科、不同線上學(xué)習(xí)平臺(tái)數(shù)據(jù)的綜合分析和研究學(xué)習(xí)者的退出率、論壇的活躍程度、課程完成率等模型[3]。本文在借鑒為數(shù)不多的模型,對(duì)學(xué)習(xí)者的學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析。基于不同的分類模型,建立了預(yù)測(cè)學(xué)習(xí)者是否能獲得證書和預(yù)測(cè)學(xué)習(xí)者成績(jī)的模型,可為慕課課程的教學(xué)改進(jìn)提供借鑒。
1開(kāi)發(fā)思路
利用教育數(shù)據(jù)分析和挖掘技術(shù),通過(guò)大量數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績(jī)預(yù)測(cè)模型是目前課題研究的熱點(diǎn)。然而,采用人工神經(jīng)網(wǎng)絡(luò)、決策樹等算法訓(xùn)練的單一預(yù)測(cè)模型的性能不穩(wěn)定,由于數(shù)據(jù)變化導(dǎo)致預(yù)測(cè)結(jié)果誤差較大。
對(duì)MOOC學(xué)習(xí)者行為數(shù)據(jù)分析發(fā)現(xiàn),學(xué)習(xí)者行為數(shù)據(jù)分布較為散亂,且成績(jī)分布在低分段的學(xué)習(xí)者較多。經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),與傳統(tǒng)的教學(xué)模式相比,慕課學(xué)習(xí)者的學(xué)習(xí)目標(biāo)和知識(shí)背景分布多種多樣,學(xué)習(xí)者利用平臺(tái)的方式也各不相同 ,大多數(shù)學(xué)習(xí)者并不是為了獲得證書而去學(xué)習(xí)。僅僅根據(jù)選擇相關(guān)性較強(qiáng)的特征向量對(duì)學(xué)習(xí)者成績(jī)進(jìn)行預(yù)測(cè)無(wú)法得到較好的預(yù)測(cè)效果,因而基于學(xué)習(xí)者的多樣性將學(xué)習(xí)者聚類分析歸為不同的類別[4],再對(duì)每類進(jìn)行線性回歸分析得到線性回歸方程,最后將測(cè)試集代入到預(yù)測(cè)模型中進(jìn)行回歸方程的顯著性檢驗(yàn)、擬合優(yōu)度檢驗(yàn)和回歸系數(shù)的顯著性檢驗(yàn)[5]用于實(shí)際問(wèn)題中。
此外,能否獲得證書也是平臺(tái)效用的一個(gè)重要體現(xiàn),本文篩選重要影響變量,采用3種二元分類模型 :線性判別分析(linear discriminant analysis ,LDA )、邏輯回歸 (logistic regression ,LR)和線性核支持向量機(jī)(linear support vector machine ,l-SVM),進(jìn)行是否能獲得證書的預(yù)測(cè),準(zhǔn)確率均較高。
2預(yù)測(cè)模型的介紹
2.1用于預(yù)測(cè)是否獲得證書的模型
預(yù)測(cè)是否獲得證書屬于典型的二分類問(wèn)題,本文采用三種適用于該問(wèn)題的分類模型。
2.1.1線性判別分析
線性判別分析,也稱作Fisher線性判別,是模式識(shí)別的經(jīng)典算法。LDA的基本思想是想辦法將樣本數(shù)據(jù)投影到一條合適的直線上,使投影到直線上的同類樣本之間差異盡可能的小,使不同類樣本間的差異盡可能的大,這樣就可以直觀且簡(jiǎn)便地判斷某個(gè)樣本數(shù)據(jù)屬于哪一類了。使用該種方法可以使投影后的模式樣本在新的空間中有最小的類內(nèi)距離和最大的類間距離,即模式在空間中擁有最佳的可分離性。因此,它是一種有效的特征提取方法,采用該方法也能將學(xué)習(xí)者進(jìn)行準(zhǔn)確地分類。
2.1.2邏輯回歸
邏輯回歸模型是針對(duì)二分類問(wèn)題的一種易于實(shí)現(xiàn)而且性能優(yōu)異的分類模型。邏輯回歸目的是從特征學(xué)習(xí)出一個(gè)0/1分類模型,其中,用1表示獲得證書,0則反之。這個(gè)模型是將特性的線性組合作為自變量,即選擇學(xué)習(xí)者的特征向量數(shù)據(jù)作為自變量,由于自變量的取值范圍是負(fù)無(wú)窮到正無(wú)窮。因此,使用logistic函數(shù)(或稱作sigmoid函數(shù))將自變量映射到(0,1)上,映射后的值被認(rèn)為是屬于y=1的概率,也就是獲得證書的概率。然后將映射后的值在(0.5,1)的歸為一類,將處于(0,0.5)的歸為另一類,便完成了學(xué)習(xí)者的分類。
2.1.3線性核支持向量機(jī)
支持向量機(jī)(SVM)是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中,同樣也是解決分類問(wèn)題的經(jīng)典模型??紤]到學(xué)習(xí)者的特征向量數(shù)據(jù)是非線性的,本文的處理方法是選擇線性核函數(shù),通過(guò)將數(shù)據(jù)映射到高維空間,來(lái)解決在原始空間中線性不可分的問(wèn)題。在分開(kāi)數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面,分隔超平面使兩個(gè)平行超平面的距離最大化,可以對(duì)數(shù)據(jù)進(jìn)行有效地劃分。
2.2用于預(yù)測(cè)成績(jī)的模型
2.2.1K-means聚類模型
聚類和回歸是兩類主要的預(yù)測(cè)問(wèn)題,聚類是預(yù)測(cè)離散的值,形成的離散的“簇”對(duì)應(yīng)著潛在的離散概念的劃分?;貧w是預(yù)測(cè)連續(xù)的值,將兩者進(jìn)行結(jié)合能得到適應(yīng)性較強(qiáng)的預(yù)測(cè)模型。對(duì)于無(wú)標(biāo)簽的學(xué)習(xí)者樣本,采取無(wú)監(jiān)督的K-means聚類分析對(duì)學(xué)習(xí)者進(jìn)行劃分,這種方法的主要缺點(diǎn)是隨機(jī)選擇初始質(zhì)心,如果數(shù)據(jù)存在離群值,可能會(huì)收斂到一個(gè)不穩(wěn)定的結(jié)果,采用LOF算法剔除離群值可以提高模型的準(zhǔn)確率。
實(shí)現(xiàn)K-means算法主要包括以下四點(diǎn):
(1)簇個(gè)數(shù) k 的選擇;
(2)各個(gè)樣本點(diǎn)到“簇中心”的距離;
(3)根據(jù)新劃分的簇,更新“簇中心”;
(4)重復(fù)上述2、3過(guò)程,直至"簇中心"不再移動(dòng)。
2.2.2線性回歸模型
主要包括以下幾個(gè)步驟:
(1)對(duì)K-means聚類后的各數(shù)據(jù)點(diǎn)求取線性回歸方程;
(2)測(cè)試集檢驗(yàn),將測(cè)試數(shù)據(jù)點(diǎn)歸到距“簇中心”距離最小的一類;
(3)代入該類的線性回歸方程中,得到預(yù)測(cè)值;
(4)方程通過(guò)回歸方程的擬合優(yōu)度檢驗(yàn)[5],評(píng)估預(yù)測(cè)模型確定最優(yōu)回歸模型。
3具體實(shí)現(xiàn)
本文利用matlab及其工具箱進(jìn)行應(yīng)用程序的編寫,建立了一個(gè)分類預(yù)測(cè)模型,對(duì)在線學(xué)習(xí)的學(xué)習(xí)者是否獲得證書和學(xué)習(xí)成績(jī)進(jìn)行預(yù)測(cè)。
3.1學(xué)習(xí)者是否獲得證書的預(yù)測(cè)
首先,導(dǎo)入與獲得證書相關(guān)的兩個(gè)特征向量數(shù)據(jù):頁(yè)面訪問(wèn)量和學(xué)習(xí)章節(jié)數(shù)。對(duì)數(shù)據(jù)進(jìn)行異常值的剔除:
for i = 1:m
for j = 1:m
dist(i,j) = norm(K_train(i,:)-K_train(j,:));
end
end
lof = LOF(dist);
for i=1:m
if lof(i)>1
K_train(i,:)=NaN;
end
end
K_train = K_train(all(~isnan(K_train),2),:);
其次,對(duì)數(shù)據(jù)進(jìn)行歸一化處理,歸一化代碼如下:
[x,y]=size(data);
tackledata=zeros(x,y);
maxd=max(data);
for i=1:y
for j=1:x
tackledata(j,i)=data(j,i)/maxd(i);
end
end
調(diào)用matlab的classification learner工具箱,選擇線性判別、邏輯回歸和線性支持向量機(jī)進(jìn)行訓(xùn)練。
其中,將模型導(dǎo)出后,可以通過(guò)如下語(yǔ)句檢驗(yàn)?zāi)P停?/p>
trainModel.predictFcn(data);
3.2學(xué)習(xí)者成績(jī)的預(yù)測(cè)
首先,導(dǎo)入與學(xué)習(xí)者成績(jī)相關(guān)的三個(gè)特征向量數(shù)據(jù):頁(yè)面訪問(wèn)量、參與課程互動(dòng)的天數(shù)和學(xué)習(xí)章節(jié)數(shù)。對(duì)數(shù)據(jù)進(jìn)行異常值的剔除和歸一化處理。
其次,對(duì)數(shù)據(jù)進(jìn)行K-means聚類分析,得到如表3所示的聚類中心,關(guān)鍵語(yǔ)句如下:
k=3; [cluster2,C,sumD,D]=kmeans(K_train(1:3),k,'Start','uniform','Distance','sqEuclidean','Replicates',5);
再通過(guò)如下代碼:
CoeMatrix=[];
for i=1:k
[m,n]=size(K_train(cluster==i,1:3));
linear = fitlm(K_train(cluster==i,1:3),K_train(cluster==i,4));
CoeMatrix=[CoeMatrix linear.CoefficientCovariance(:,1)];
end
得到各類的線性回歸模型,其中,CoeMatrix為三類學(xué)習(xí)者特征向量的系數(shù)矩陣,如表4所示。
結(jié)果表達(dá)式:
[Y1=120.02-0.53X1-0.79X2-1.01X3]
[Y2=7.02-0.09X1-0.03X2-0.03X3]
[Y3=0.54-0.01X1-0.01X2-0.02X3]
最后,導(dǎo)入測(cè)試數(shù)據(jù)對(duì)模型的預(yù)測(cè)效果進(jìn)行檢驗(yàn),代碼如下:
[Error1,Predition1,clunum]=prediction(CoeMatrix,K_test,C,k);
[allx,ally]=size(K_test);
grade=K_test(:,4);
MSE = sum((Predition1-grade).^2)./allx;
RMSE = sqrt(mean((Predition1-grade).^2));
MAE = mean(abs(Predition1-grade));
R2 = 1 - (sum((Predition1-grade).^2) / sum((grade - mean(grade)).^2));
其中,調(diào)用prediction函數(shù),可以將測(cè)試數(shù)據(jù)劃分到不同的類同時(shí)得到預(yù)測(cè)值和誤差,MSE、RMSE、MAE、R2為線性回歸模型的評(píng)價(jià)指標(biāo)。這是該模型最核心的代碼,其余代碼在此不做過(guò)多贅述。
決定系數(shù)R2越趨近于1表明擬合效果越好[5],實(shí)驗(yàn)所得的R2為0.62,說(shuō)明該模型具有較好的擬合效果。
4 結(jié)束語(yǔ)
在宏觀方面運(yùn)用K-means聚類然后進(jìn)行多元線性回歸分析,構(gòu)建出一種適應(yīng)性更強(qiáng)的成績(jī)預(yù)測(cè)模型,微觀方面依據(jù)判定系數(shù) R2 和估計(jì)標(biāo)準(zhǔn)差來(lái)檢驗(yàn)[5],具有不錯(cuò)的實(shí)際應(yīng)用效果,可以將需要進(jìn)行預(yù)測(cè)的學(xué)習(xí)者學(xué)習(xí)行為數(shù)據(jù)導(dǎo)入,得到相應(yīng)的預(yù)測(cè)值。預(yù)測(cè)結(jié)果為教師和管理者對(duì)教學(xué)計(jì)劃和教學(xué)模式的改進(jìn)提供了可靠的數(shù)據(jù)保障,為后續(xù)學(xué)習(xí)行為分析及成績(jī)預(yù)測(cè)起到借鑒和促進(jìn)作用。
參考文獻(xiàn):
[1] Breslow L,Pritchard D,DeBoer J,et al.Studying learning in the worldwide classroom:Research into edX’s first MOOC[J].Research & Practice in Assessment,2013,8(1):13-25.
[2] Waldrop M M. Online learning:Campus 2.0[J].Nature,2013,495(7440):160-163
[3] 蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測(cè)[J]. 計(jì)算機(jī)研究與發(fā)展,2015,52(3):614-628.
[4] 張強(qiáng). MOOC 學(xué)習(xí)者學(xué)習(xí)行為聚類分析[J].通化師范學(xué)院學(xué)報(bào),2015,36(2):37-39.
[5] 郝巧龍,魏振鋼,林喜軍. MOOC學(xué)習(xí)行為分析及成績(jī)預(yù)測(cè)方法研究[J].電子技術(shù)與軟件工程2016(7):167-168.
【通聯(lián)編輯:王力】