王 亮
(南開(kāi)大學(xué) 現(xiàn)代遠(yuǎn)程教育學(xué)院, 天津 300071)
?
學(xué)習(xí)分析技術(shù) 建立學(xué)習(xí)預(yù)測(cè)模型
王 亮
(南開(kāi)大學(xué) 現(xiàn)代遠(yuǎn)程教育學(xué)院, 天津 300071)
學(xué)習(xí)分析技術(shù)通過(guò)對(duì)各種相關(guān)數(shù)據(jù)信息的收集來(lái)研究學(xué)生在學(xué)習(xí)中的實(shí)際參與、表現(xiàn)和進(jìn)展情況,并結(jié)合學(xué)生的某些傾向性特征對(duì)其最終學(xué)習(xí)結(jié)果進(jìn)行預(yù)測(cè)。通過(guò)預(yù)測(cè)分析可以為大范圍和數(shù)量的學(xué)生提供預(yù)測(cè)結(jié)果,并實(shí)時(shí)向教學(xué)管理者提供相應(yīng)的干預(yù)策略,來(lái)避免學(xué)生最終課程學(xué)習(xí)失敗。研究所討論的內(nèi)容,是如何在大量的因素之中,找到對(duì)學(xué)生學(xué)習(xí)結(jié)果最具影響性的指標(biāo)進(jìn)行分析,從而建立起一個(gè)模型,并通過(guò)模型預(yù)測(cè)評(píng)估學(xué)生是否正在面臨課程無(wú)法通過(guò)的風(fēng)險(xiǎn)。預(yù)測(cè)的結(jié)果將可提供給導(dǎo)學(xué)教師,用以?xún)?yōu)先選擇高風(fēng)險(xiǎn)的學(xué)生進(jìn)行主動(dòng)干預(yù)并提供額外資源,最終確保更多的學(xué)生學(xué)業(yè)能順利完成。論文提供了預(yù)測(cè)模型的設(shè)計(jì)方法、對(duì)模型的統(tǒng)計(jì)學(xué)驗(yàn)證以及技術(shù)應(yīng)用最終的實(shí)施方案。
學(xué)習(xí)分析技術(shù); 預(yù)測(cè)模型; 預(yù)測(cè)分析; Logistic回歸
分析學(xué)是一個(gè)學(xué)科門(mén)類(lèi)的總稱(chēng),是指利用數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,對(duì)分析結(jié)果進(jìn)行解釋并建立預(yù)測(cè)模型,最終獲得對(duì)某些復(fù)雜問(wèn)題的見(jiàn)解及應(yīng)對(duì)方法的一類(lèi)學(xué)科。學(xué)習(xí)分析技術(shù)作為分析學(xué)的分支,旨在充分發(fā)揮數(shù)據(jù)挖掘工具在學(xué)習(xí)服務(wù)中的作用,以更好地理解動(dòng)態(tài)學(xué)習(xí)環(huán)境所帶來(lái)的復(fù)雜性、多元性和信息的豐富性[1]。
這一技術(shù)應(yīng)用的目的是利用對(duì)學(xué)習(xí)數(shù)據(jù)的分析結(jié)論,來(lái)指導(dǎo)包括教師、學(xué)生在內(nèi)的過(guò)程參與者對(duì)學(xué)習(xí)進(jìn)程進(jìn)行必要的干預(yù),同時(shí)為課程設(shè)計(jì)者提供實(shí)時(shí)改進(jìn)課程、教學(xué)以及評(píng)價(jià)的依據(jù),為學(xué)生提供個(gè)性化的學(xué)習(xí)環(huán)境,以提高學(xué)生的學(xué)習(xí)效果。
目前,絕大部分教育機(jī)構(gòu)都已經(jīng)擁有一些相對(duì)靜態(tài)的監(jiān)控手段(如監(jiān)控學(xué)生的上網(wǎng)學(xué)習(xí)時(shí)間等)來(lái)識(shí)別學(xué)生在學(xué)習(xí)中可能遇到的困境,然而,一個(gè)更為完善的,能為導(dǎo)學(xué)人員提供直接干預(yù)提示的預(yù)測(cè)信息系統(tǒng),一直是相關(guān)教育技術(shù)研究的目標(biāo)。本文即是對(duì)這樣一個(gè)模型的建立原理進(jìn)行討論,包括模型建立的方法與對(duì)其驗(yàn)證的手段。對(duì)相關(guān)領(lǐng)域的研究背景進(jìn)行簡(jiǎn)要概述,同時(shí)解釋如何選定包含在模型中的變量。之后將描述建立模型的方法,并對(duì)初期選擇的變量針對(duì)預(yù)測(cè)效果進(jìn)行識(shí)別并討論,繼而驗(yàn)證預(yù)測(cè)模型的有效性和準(zhǔn)確性。最后,會(huì)針對(duì)該技術(shù)項(xiàng)目的下一步發(fā)展前景與拓展應(yīng)用范圍提出討論。
2012年Learning Analytics and Knowledge conference(LAK12)會(huì)議上,與會(huì)研究者為學(xué)習(xí)分析做出了如下定義:學(xué)習(xí)分析技術(shù)是一種對(duì)學(xué)習(xí)者和其所處背景環(huán)境的數(shù)據(jù)進(jìn)行測(cè)量、收集、分析和報(bào)告,以達(dá)成理解和優(yōu)化學(xué)習(xí)過(guò)程本身以及學(xué)習(xí)發(fā)生環(huán)境目的的數(shù)據(jù)挖掘技術(shù)[2]。
學(xué)習(xí)分析應(yīng)用設(shè)計(jì)時(shí)的關(guān)鍵決策之一是選定用哪些數(shù)據(jù)來(lái)作為預(yù)測(cè)學(xué)生學(xué)習(xí)進(jìn)度的指標(biāo)。在任何一個(gè)分析模型中,對(duì)數(shù)據(jù)選取的結(jié)果直接影響著分析預(yù)測(cè)的準(zhǔn)確性和有效性。
在相關(guān)研究背景方面,Garman采用Logistic回歸分析的方法,主要基于學(xué)生在閱讀理解方面的評(píng)估結(jié)果,對(duì)學(xué)生在線數(shù)據(jù)庫(kù)課程進(jìn)行預(yù)測(cè)[3]。根據(jù)對(duì)其方法的研究發(fā)現(xiàn),當(dāng)前學(xué)期課程的變量對(duì)模型的預(yù)測(cè)影響很小,可以忽略不計(jì)。Moore把學(xué)生當(dāng)前課程活動(dòng)的參與程度與之前課程的參與程度都作為關(guān)注分析的對(duì)象[4],研究表明,學(xué)生對(duì)課程的參與程度與其在課程中最終的表現(xiàn)呈現(xiàn)高度相關(guān),而其他一些變量,如學(xué)生的高中排名、而入學(xué)考試成績(jī)等則沒(méi)有在結(jié)果上呈現(xiàn)顯著差異。
本文選擇的研究對(duì)象為筆者所在網(wǎng)絡(luò)教育學(xué)院之學(xué)生,對(duì)于這樣一種學(xué)習(xí)類(lèi)型的課程來(lái)講,考察學(xué)生對(duì)課程的參與程度的有一個(gè)普遍認(rèn)同的測(cè)量方式,即是對(duì)學(xué)生在課程論壇中的發(fā)帖數(shù)量進(jìn)行統(tǒng)計(jì)[5]。有前期的研究工作表明,學(xué)生的最終成績(jī)不僅與學(xué)生在論壇上發(fā)帖或回帖的數(shù)量相關(guān),而且還與其閱讀帖子的數(shù)量相關(guān)[6]。然而,還有一些研究發(fā)現(xiàn)學(xué)生在論壇的發(fā)帖數(shù)量并不能與學(xué)生最終的課程結(jié)果建立起明確的決定關(guān)系[7,8]。此外,Ramos的研究發(fā)現(xiàn),與學(xué)生在論壇的發(fā)帖數(shù)量表現(xiàn)相比,其在學(xué)習(xí)平臺(tái)中的點(diǎn)擊數(shù)更具有預(yù)測(cè)影響力[9]。鑒于各類(lèi)研究中對(duì)學(xué)生在課程論壇中的行為對(duì)最終結(jié)果的影響難以形成一致意見(jiàn),本文采取在模型中引入相關(guān)變量的初始方案,并在回歸分析過(guò)程中驗(yàn)證這一假設(shè)的有效性。
在對(duì)學(xué)生的個(gè)人屬性變量的研究方面,Martinez發(fā)現(xiàn)包括高中平均成績(jī)、年齡、性別、數(shù)學(xué)水平、民族、專(zhuān)業(yè)選擇以及工作時(shí)長(zhǎng)在內(nèi)的諸多變量都對(duì)學(xué)生課程通過(guò)與否有著不同程度的預(yù)測(cè)影響[10]。
2.1 預(yù)測(cè)模型中變量的選擇
對(duì)預(yù)測(cè)模型中有潛在影響的變量進(jìn)行簡(jiǎn)單分類(lèi),并在分類(lèi)基礎(chǔ)上,根據(jù)研究對(duì)象的特點(diǎn),進(jìn)行變量組成選擇??v觀這些指標(biāo)變量,以其性質(zhì)可以劃分為兩大類(lèi):① 帶有學(xué)生個(gè)人屬性特征的“傾向性指標(biāo)變量”;② 學(xué)生在學(xué)習(xí)過(guò)程中體現(xiàn)的“行為表現(xiàn)指標(biāo)變量”。
(1) 傾向性指標(biāo)變量。對(duì)學(xué)生個(gè)人屬性和其所處的學(xué)習(xí)環(huán)境的描述。這些變量可以用來(lái)預(yù)測(cè)這個(gè)學(xué)生能否在未來(lái)積極對(duì)待課程學(xué)習(xí)并做好相應(yīng)準(zhǔn)備。如前文所述,這一類(lèi)變量包括如年齡、性別、民族、此前學(xué)習(xí)經(jīng)歷,個(gè)人財(cái)務(wù)狀況、甚至學(xué)生的心理學(xué)分析[11]等等。很多研究者認(rèn)為,學(xué)生在高中階段的成績(jī)可以作為預(yù)測(cè)其在大學(xué)階段學(xué)習(xí)狀況的準(zhǔn)確預(yù)測(cè)變量[12]。然而,針對(duì)本文的研究對(duì)象——網(wǎng)絡(luò)教育學(xué)生,其年齡、性別等屬性變量,可以較方便的從學(xué)生信息系統(tǒng)中獲取[13],但由于系統(tǒng)設(shè)計(jì)的局限,其高中學(xué)習(xí)成績(jī)等信息很難得到。鑒于此,本文在模型中初步選定的傾向性指標(biāo)變量包括:性別、年齡、婚姻狀況、職業(yè)情況及地區(qū)分布。網(wǎng)絡(luò)教育的特點(diǎn)是地域覆蓋范圍大,這樣一個(gè)大地理跨度下的學(xué)生,必然存在很大地域差異性,因此在本文的模型中選擇將地區(qū)分布參數(shù)作為考察對(duì)象。在對(duì)此變量的處理上,本文采取了將所有地區(qū)劃分為東部、西部?jī)蓚€(gè)集合的方式,屬于西部地區(qū)的學(xué)生此變量賦值為0,東部地區(qū)的賦值為1,將其代入Logistic回歸并觀測(cè)結(jié)果。
(2) 行為表現(xiàn)指標(biāo)變量。學(xué)生在學(xué)習(xí)過(guò)程中所作出的學(xué)習(xí)行為和階段性表現(xiàn)。這類(lèi)變量往往是量化數(shù)據(jù),易于從教學(xué)教務(wù)管理系統(tǒng)中獲得。有一些研究還將這些變量做進(jìn)一步分類(lèi):① 衡量學(xué)生成績(jī)表現(xiàn)的變量,這個(gè)變量分類(lèi)關(guān)注的是學(xué)生實(shí)時(shí)的學(xué)習(xí)成果,例如作業(yè)成績(jī)和隨堂測(cè)驗(yàn)成績(jī)等均屬于這一范疇;② 是比較不同學(xué)生之間主觀努力程度的差異,如學(xué)習(xí)平臺(tái)的登錄次數(shù)和頻率、在課程網(wǎng)站上花費(fèi)的時(shí)間、課程論壇帖子的數(shù)量都屬于這一個(gè)分類(lèi)[14]。本文在對(duì)數(shù)據(jù)集進(jìn)行初步考察后發(fā)現(xiàn),數(shù)據(jù)樣本中學(xué)生在論壇上發(fā)帖數(shù)量的差異并不明顯,因此,將這個(gè)變量替換為學(xué)生在論壇上的在線時(shí)長(zhǎng)。這樣就能對(duì)學(xué)生參與論壇討論的投入程度進(jìn)行全面評(píng)價(jià),此外還可以兼顧變量的差異性。因此,本文選擇的行為表現(xiàn)指標(biāo)變量包括:論壇在線時(shí)間、導(dǎo)學(xué)資料瀏覽時(shí)間以及平時(shí)成績(jī)3個(gè)內(nèi)容。整體模型變量選擇結(jié)果如表1所示:
2.2 預(yù)測(cè)模型的建立
本文以所在遠(yuǎn)程教育學(xué)院的學(xué)生數(shù)據(jù)集的有限子集建立預(yù)測(cè)模型,選擇的研究數(shù)據(jù)子集為選擇某年度同一門(mén)課程的1 019名學(xué)生。數(shù)據(jù)集以學(xué)生學(xué)號(hào)為唯一區(qū)分標(biāo)識(shí),選定的傾向性指標(biāo)變量來(lái)自于學(xué)院學(xué)籍系統(tǒng)的學(xué)生個(gè)人信息,行為結(jié)果指標(biāo)變量取自教學(xué)管理平臺(tái)的學(xué)習(xí)狀態(tài)監(jiān)控?cái)?shù)據(jù)。利用這些數(shù)據(jù)建立一個(gè)Logistic回歸模型來(lái)對(duì)學(xué)生的課程學(xué)習(xí)結(jié)果進(jìn)行預(yù)測(cè)。
表1 模型初始變量
首先使用隨機(jī)算法從1 019個(gè)數(shù)據(jù)中抽取500作為模型的學(xué)習(xí)樣本,余下的519個(gè)作為測(cè)試樣本,并使用Logistic回歸對(duì)學(xué)習(xí)樣本的數(shù)據(jù)進(jìn)行分析,以判斷所選擇的變量是否能成為預(yù)測(cè)學(xué)生課程通過(guò)與否的有效指標(biāo)。在將數(shù)據(jù)帶入回歸計(jì)算并迭代50次后,可以得到一個(gè)穩(wěn)定收斂的回歸系數(shù)結(jié)果。我們選擇使用兩個(gè)驗(yàn)證方法來(lái)確認(rèn)模型系數(shù)是否有效。
Omnibus Tests of Model Coefficients(模型系數(shù)的混合檢驗(yàn),見(jiàn)表2)主要是針對(duì)步驟、模塊和模型開(kāi)展模型系數(shù)的綜合性檢驗(yàn)。表中給出卡方值及其相應(yīng)的自由度、P值即Sig.值。取顯著性水平0.05,考慮到自由度數(shù)目df=8,可以查出卡方臨界值為15.507。計(jì)算的卡方值21.227,大于臨界值,并且相應(yīng)的Sig.值小于0.05,因此在顯著性水平為0.05 的情況下,檢驗(yàn)通過(guò)。
表2 模型系數(shù)的混合檢驗(yàn)
考慮到樣本數(shù)目的敏感性,本文還使用Hosmer-Lemeshow 檢驗(yàn)作為補(bǔ)充和參照,Sig.值大于0.05,據(jù)此也可以判知檢驗(yàn)可以通過(guò)。
最終可以得到收斂后的模型中的變量的回歸系數(shù)和置信度,具體數(shù)據(jù)見(jiàn)表3。
表3 最終回歸方程中的變量
3.1 對(duì)模型變量的結(jié)果分析
從表3的數(shù)據(jù)可以得到,以論壇在線時(shí)間、導(dǎo)學(xué)資料瀏覽時(shí)間以及平時(shí)成績(jī)3個(gè)行為表現(xiàn)指標(biāo)變量的置信度均較高,分別為96%、92%和90%,符合文獻(xiàn)中對(duì)此類(lèi)變量的普遍評(píng)價(jià)。通過(guò)模型分析可以肯定,作為衡量學(xué)生在課程過(guò)程中的主觀努力意愿和成績(jī)表現(xiàn)的標(biāo)識(shí),是預(yù)測(cè)學(xué)生課程成敗與否的重要信號(hào)。其中,平時(shí)成績(jī)變量的置信結(jié)果稍低,推測(cè)這與遠(yuǎn)程網(wǎng)絡(luò)教育的特點(diǎn)有關(guān)?,F(xiàn)代遠(yuǎn)程教育采用的是網(wǎng)上業(yè)余學(xué)習(xí)的形式,面對(duì)的學(xué)生也以在職學(xué)生為主,考慮到在職學(xué)習(xí)的困難和障礙,網(wǎng)絡(luò)教育在對(duì)學(xué)生教學(xué)組織特別是平時(shí)作業(yè)的安排上,并不是過(guò)于強(qiáng)調(diào)難度和成績(jī)的區(qū)分效果。這就導(dǎo)致學(xué)生平時(shí)作業(yè)成績(jī)普遍較好,從而在模型中的差異性體現(xiàn)亦相應(yīng)有所下降。
在傾向性指標(biāo)變量范疇內(nèi),學(xué)生個(gè)人屬性的變量也具有顯著的預(yù)測(cè)影響性。特別是地區(qū)分布變量,其對(duì)模型的影響度是最高的,超過(guò)了國(guó)外文獻(xiàn)中普遍認(rèn)可的行為表現(xiàn)指標(biāo)變量,本文判斷這是由中國(guó)整體發(fā)展地區(qū)不均衡的特點(diǎn)決定的。由于經(jīng)濟(jì)發(fā)展迅速和人口流動(dòng)集中等原因,東部地區(qū)的學(xué)生在課程學(xué)習(xí)的表現(xiàn)上,明顯高于西部地區(qū)學(xué)生。此外,性別對(duì)學(xué)習(xí)的預(yù)測(cè)影響也超過(guò)此前預(yù)期,根據(jù)置信度和回歸系數(shù)結(jié)果判斷,女生的學(xué)習(xí)預(yù)期明顯好于男生。這個(gè)結(jié)果是普遍現(xiàn)象還是與所選擇數(shù)據(jù)集有直接關(guān)系,還需要進(jìn)一步研究驗(yàn)證。
另外值得注意的是,婚姻狀況和職業(yè)狀況的置信度都很低,對(duì)模型的影響很小,因此在下一步對(duì)模型的改進(jìn)中,準(zhǔn)備將這兩個(gè)變量從模型中剔除,再重新計(jì)算回歸系數(shù)。
3.2 對(duì)模型的改進(jìn)
根據(jù)對(duì)前文結(jié)果的分析,本階段將婚姻狀況和職業(yè)狀況兩個(gè)變量從模型中去除,再次進(jìn)行Logistic回歸迭代計(jì)算。檢驗(yàn)方式同上,不再贅述。篩選后的變量系數(shù)與置信度見(jiàn)表4。
表4 改進(jìn)后模型的回歸方程變量
在去除掉重要程度低的變量后,方程中各變量的置信度在穩(wěn)定基礎(chǔ)上又有所集中,這表明改進(jìn)后的模型在穩(wěn)定性和抗干擾性方面都有所提升,性能令人滿(mǎn)意。鑒于各變量的相關(guān)參數(shù)沒(méi)有本質(zhì)性改變,證明前文對(duì)結(jié)果的分析依然有效,此處不再重復(fù)進(jìn)行結(jié)果的說(shuō)明,直接將改進(jìn)后的模型引入下一步的驗(yàn)證運(yùn)算。
3.3 對(duì)模型的驗(yàn)證
根據(jù)收斂系數(shù)的回歸方程,將之前預(yù)留的519個(gè)測(cè)試樣本代入其中,對(duì)模型的預(yù)測(cè)準(zhǔn)確率進(jìn)行評(píng)估。首先建立線性關(guān)系如下:
z=-1.123+性別×(-0.583)+年齡×0.055+地區(qū)×1.096+論壇時(shí)長(zhǎng)×0.221+ 資料時(shí)長(zhǎng)×0.470+平時(shí)成績(jī)×0.008
將上面的關(guān)系式代入,
就可以帶入測(cè)試樣本對(duì)因變量課程通過(guò)的概率進(jìn)行預(yù)測(cè)運(yùn)算并與實(shí)際結(jié)果進(jìn)行驗(yàn)證。運(yùn)算結(jié)果表明,在519個(gè)測(cè)試樣本中,通過(guò)預(yù)測(cè)模型運(yùn)算得到的課程最終通過(guò)結(jié)果,有469個(gè)與實(shí)際結(jié)果相一致,不一致的有50個(gè),預(yù)測(cè)的準(zhǔn)確率為90.4%,模型的準(zhǔn)確性和有效性良好。
3.4 模型的實(shí)際應(yīng)用和意義
應(yīng)該注意到,與驗(yàn)證模型與實(shí)際數(shù)據(jù)的一致性相比,更重要的是驗(yàn)證模型的實(shí)際應(yīng)用性,應(yīng)在提高和完善模型準(zhǔn)確率的基礎(chǔ)上,將其投入到教學(xué)導(dǎo)學(xué)的實(shí)際應(yīng)用中去。
本文提出的基于Logistic回歸分析的學(xué)習(xí)預(yù)測(cè)模型,在學(xué)生教學(xué)管理平臺(tái)中已經(jīng)初步體現(xiàn)出了良好的實(shí)際應(yīng)用價(jià)值。通過(guò)對(duì)教學(xué)平臺(tái)整合這一預(yù)測(cè)模型,可以從學(xué)生各項(xiàng)數(shù)據(jù)中,預(yù)測(cè)出學(xué)生通過(guò)某些課程的概率結(jié)果。并且,隨著學(xué)生學(xué)習(xí)過(guò)程的推進(jìn),包括作業(yè)成績(jī)、論壇討論參與度等主觀性行為數(shù)據(jù)也在不斷更新。因此,模型對(duì)學(xué)生的學(xué)習(xí)預(yù)測(cè)結(jié)果也是相應(yīng)動(dòng)態(tài)改變的。預(yù)測(cè)結(jié)果,會(huì)通過(guò)平臺(tái)中的可視化圖形頁(yè)面,即時(shí)向?qū)W(xué)或督學(xué)教師公布。
本研究在模型的預(yù)測(cè)呈現(xiàn)中選用了最為直觀的三段風(fēng)險(xiǎn)評(píng)估描述,即“無(wú)風(fēng)險(xiǎn)、一般風(fēng)險(xiǎn)和較高風(fēng)險(xiǎn)”,將預(yù)測(cè)課程通過(guò)概率大于70%的學(xué)生定義為“無(wú)風(fēng)險(xiǎn)”,預(yù)測(cè)通過(guò)概率60%~70%定位為“一般風(fēng)險(xiǎn)”,低于60%的定義為“較高風(fēng)險(xiǎn)”。督學(xué)教師可以根據(jù)結(jié)果安排優(yōu)先級(jí)對(duì)學(xué)生的學(xué)習(xí)進(jìn)程進(jìn)行干預(yù),包括與高風(fēng)險(xiǎn)學(xué)生進(jìn)行及時(shí)溝通,為其提供必要的資源引導(dǎo)或者其他的教學(xué)輔助服務(wù)。本研究選擇了選修同一門(mén)課程的學(xué)生作為測(cè)試對(duì)象,隨機(jī)選取一半學(xué)生進(jìn)行預(yù)測(cè)模型的應(yīng)用,對(duì)預(yù)測(cè)考核通過(guò)風(fēng)險(xiǎn)較高的學(xué)生進(jìn)行人工干預(yù),有效地影響了學(xué)生的學(xué)習(xí)狀態(tài)。最終,在課程考核的結(jié)果中,使用預(yù)測(cè)模型進(jìn)行人工干預(yù)的學(xué)生考試通過(guò)率達(dá)到82%,而未使用模型預(yù)測(cè)并人工干預(yù)的學(xué)生通過(guò)率是75%。該預(yù)測(cè)模型的實(shí)際應(yīng)用效果令人滿(mǎn)意。
目前來(lái)看,本文提出的預(yù)測(cè)模型仍舊有需要改進(jìn)的地方。首先,預(yù)測(cè)模型的建立算法仍有改進(jìn)空間,模型的預(yù)測(cè)準(zhǔn)確性可再進(jìn)一步提高;其次,對(duì)于預(yù)測(cè)結(jié)果的呈現(xiàn)仍舊比較單一,不夠具體、細(xì)化。最后,由于教學(xué)管理平臺(tái)上學(xué)生相關(guān)數(shù)據(jù)更新的階段性特點(diǎn),在經(jīng)歷人工干預(yù)后,最終學(xué)生反饋結(jié)果會(huì)存在一定的滯后,為后繼督學(xué)干預(yù)的操作帶來(lái)困難。因此,改進(jìn)模型建立算法,探討如何為督學(xué)教師提供更有效的可視化預(yù)測(cè)結(jié)果,策劃高效合理的干預(yù)手段,將是下一步研究的主要方向。
本文完成了一個(gè)以遠(yuǎn)程教育學(xué)生為研究對(duì)象的學(xué)習(xí)分析預(yù)測(cè)模型的設(shè)計(jì),從眾多的影響因子中篩選出最佳預(yù)測(cè)效果的變量進(jìn)行Logistic回歸分析,并對(duì)模型進(jìn)行改進(jìn)和優(yōu)化,以達(dá)成預(yù)測(cè)準(zhǔn)確率的最大化。根據(jù)對(duì)模型的測(cè)試樣本驗(yàn)證,基本達(dá)到了預(yù)期的預(yù)測(cè)效果。并在教學(xué)管理平臺(tái)中對(duì)該模型進(jìn)行了實(shí)際應(yīng)用,通過(guò)“分析—干預(yù)—反饋”的機(jī)制對(duì)提高學(xué)生考核通過(guò)率起到了較好的促進(jìn)作用。后續(xù)仍可數(shù)據(jù)集的數(shù)據(jù)全面程度和有效性、預(yù)測(cè)模型設(shè)計(jì)算法以及數(shù)據(jù)與預(yù)測(cè)實(shí)時(shí)性方面對(duì)預(yù)測(cè)模型進(jìn)行改進(jìn)。
一些研究證實(shí),在教師與學(xué)生比例為“一對(duì)一”或“一對(duì)二”這類(lèi)個(gè)性化教學(xué)模式下,學(xué)生的表現(xiàn)和成績(jī)明顯比班級(jí)批量教學(xué)水平好的多[15],但實(shí)施這樣的個(gè)性化教學(xué)系統(tǒng)投入的代價(jià)無(wú)疑太高。因此,學(xué)習(xí)分析技術(shù)的最終目標(biāo)就是盡可能的模擬接近這樣的針對(duì)個(gè)體的教學(xué)環(huán)境,使教師和學(xué)校能夠?yàn)椴煌枰?、能力水平的學(xué)生提供最適合的個(gè)性化學(xué)習(xí)環(huán)境和資源配置等教育服務(wù),這將成為此項(xiàng)技術(shù)持續(xù)發(fā)展的潛力和動(dòng)力。
[1] New Media Consortium and the EDUCAUSE Learning Initiative. Horizon Report 2012 Higher Education Edition[M]. Texas, ISBN 978-0-9846601-3-1, 2012.
[2] Society for Learning Analytics Research. Learning analytics’ definition[EB/OL].2012. http://www.solaresearch.org/about/.
[3] Garman G. A Logistic Approach to Predicting Student Success in Online Database Courses[J]. American Journal of Business Education, 2010, 3(12): 1-5.
[4] Moore R. Do Students Performances and Behaviors in Supporting Courses Predict Their Performances and Behaviors in Primary Courses[J]. Research and Teaching in Developmental Education, 2007, 23(2): 38-48.
[5] 張 波, 耿在丹, 杜保強(qiáng). 基于數(shù)據(jù)倉(cāng)庫(kù)的學(xué)生信息管理決策系統(tǒng)[J]. 實(shí)驗(yàn)室研究與探索, 2009(12): 59-62.
[6] Wang A Y, Newlin M H. Characteristics of students who enroll and succeed in Psychology web-based classes[J]. Educational Psychology, 2000, 92(1): 137-143.
[7] Reisetter M, Boris G. What works: student perceptions of effective elements in online learning[J]. Quarterly Review of Distance Education, 2004, 5(4): 277-291.
[8] Sadik A, Reisman S. Design and implementation of a web-based learning environment: lessons learned[J]. Quarterly Review of Distance Education, 2004, 5(3): 157-171.
[9] Ramos C, Yudko E. “Hits” (Not “Discussion Posts”) Predict Student Success in Online Courses: A Double Cross-Validation Study[J]. Computers & Education, 2008, 50(4):1174-1182.
[10] Martinez D. Predicting student outcomes using discriminant function analysis, 2001[C]∥the 39thAnnual Meeting of the Research and Planning Group, Lake Arrowhead CA. 2001.
[11] Simon Buckingham Shum and Ruth Crick. Learning Dispositions and Transferable Competencies: Pedagogy, Modelling and Learning Analytics, 2012[C]∥Learning Analytics and Knowledge Conference, Vancouver, British Columbia, 2012.
[12] Tim McKay, Kate Miller, Jared Tritz. What to Do with Actionable Intelligence: E2Coach as an Intervention Engine, 2012[C]∥Learning Analytics and Knowledge Conference, Vancouver, British Columbia. April 29-May 2, 2012, 2.
[13] 邵蘭潔, 李光忠. Web 使用挖掘的數(shù)據(jù)采集技術(shù)探究[J]. 實(shí)驗(yàn)室研究與探索, 2010(3): 225-229.
[14] Kimberly E. Arnold and Matthew D Pistilli. Course Signals at Purdue: Using Learning Analytics to Increase Student Success, 2012[C]∥Learning Analytics and Knowledge Conference, Vancouver, British Columbia. April 29-May 2, 2012, 1.
[15] Benjamin S Bloom. The 2 Sigma Problem: The Search for Methods of Group Instruction as Effective as One-to-One Tutoring[J]. Educational Researcher, 1984,13(6): 4-16.
Learning Analytics: Preliminary Study of Creating Course Predictive Model
WANGLiang
(Modern Distance Education College, Nankai University, Tianjin 300071, China)
Learning analytics is a combination of kinds of data collection tools and analytics, it studies the participation performance and progress academically of students by collecting relevant data, and predicts the course success through the dispositional indicators of every student. The current study is to create a model based on the analysis of the factors which affect the study results of the students most among a large number of factors, and predict the risk a student failing in a course through the model. The counselor could choose the high risk students to provide voluntary intervention according to the predictive results, and ensure more students complete their studies successfully. The current study demonstrates the design method of the predictive model, the statistical validation of the model and the implementation plans of the technique.
learning analytics; predictive model; predictive analytics; logistic regression
2014-02-18
王 亮(1982-),男,天津人,碩士,實(shí)驗(yàn)師,主要研究方向?yàn)閿?shù)據(jù)庫(kù)技術(shù)應(yīng)用,軟件工程, Elearning技術(shù)研究應(yīng)用。
Tel.:13821111005; E-mail:wanlian@nankai.edu.cn
TP 391
A
1006-7167(2015)01-0215-04