基于教育數(shù)據(jù)挖掘的在線學(xué)習(xí)者學(xué)業(yè)成績預(yù)測(cè)建模研究

2017-05-30 22:56:20陳子健朱曉亮

中國電化教育 2017年6期

關(guān)鍵詞：學(xué)業(yè)成績機(jī)器學(xué)習(xí)

陳子健朱曉亮

摘要：該文采用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法，研究從教育數(shù)據(jù)中挖掘影響在線學(xué)習(xí)者學(xué)業(yè)成績的因素并構(gòu)建分類預(yù)測(cè)模型。首先，通過計(jì)算所有單個(gè)數(shù)據(jù)屬性和學(xué)業(yè)成績類別之間的相關(guān)系數(shù)和計(jì)算所有屬性的信息增益率兩種方法共同確定學(xué)業(yè)成績的影響因素。然后，提出采用集成學(xué)習(xí)的方法構(gòu)建集成式學(xué)業(yè)成績分類預(yù)測(cè)模型，并比較多種算法構(gòu)建的單一分類模型和集成分類模型的性能。最后，進(jìn)一步采用嵌套集成學(xué)習(xí)的方法構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績分類預(yù)測(cè)模型，并對(duì)模型的性能進(jìn)行評(píng)估。研究成果可以為在線學(xué)習(xí)者學(xué)業(yè)成績影響因素研究和預(yù)測(cè)建模研究提供借鑒，也有助于推進(jìn)在線學(xué)習(xí)學(xué)業(yè)預(yù)警、學(xué)業(yè)成績預(yù)測(cè)和評(píng)價(jià)的實(shí)踐。

關(guān)鍵詞：教育數(shù)據(jù)挖掘；機(jī)器學(xué)習(xí)；預(yù)測(cè)建模；學(xué)業(yè)成績；在線學(xué)習(xí)

一、引言

在線教育已經(jīng)逐漸被人們認(rèn)可和接受，特別是在K12教育、語言類教育和職業(yè)技能培訓(xùn)領(lǐng)域發(fā)展迅速。截至2016年12月，中國在線教育用戶規(guī)模達(dá)1.38億，較2015年底增加2750萬人，年增長率為25.0%。不同于面對(duì)面的課堂教學(xué)情境，在線學(xué)習(xí)中師生處于分離狀態(tài)，且學(xué)習(xí)者數(shù)量龐大。如何對(duì)在線學(xué)習(xí)者的學(xué)業(yè)成績進(jìn)行預(yù)測(cè)，依據(jù)預(yù)測(cè)結(jié)果實(shí)施學(xué)業(yè)預(yù)警，并為教學(xué)決策提供依據(jù)，是在線教育需要解決的一個(gè)問題。利用教育數(shù)據(jù)挖掘技術(shù)，通過數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績預(yù)測(cè)模型，即從數(shù)據(jù)中自動(dòng)學(xué)習(xí)預(yù)測(cè)模型是目前研究的熱點(diǎn)。然而，采用決策樹、人工神經(jīng)網(wǎng)絡(luò)等算法訓(xùn)練的單一預(yù)測(cè)模型性能不穩(wěn)定，對(duì)數(shù)據(jù)變化比較敏感。針對(duì)上述問題，本文基于“集體決策優(yōu)于個(gè)體決策”的假設(shè)，嘗試采用集成學(xué)習(xí)（EnsembleLearning）方法構(gòu)建集式模型。在實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)上，進(jìn)一步采用嵌套集成學(xué)習(xí)方法構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績分類預(yù)測(cè)模型，并對(duì)模型的性能進(jìn)行評(píng)估分析。

二、概念界定及相關(guān)研究

（一）概念界定與分析

教育數(shù)據(jù)挖掘（Edueational Data Mining，EDM）是數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用。根據(jù)國際教育數(shù)據(jù)挖掘工作組網(wǎng)站的定義，教育數(shù)據(jù)挖掘是指運(yùn)用不斷發(fā)展的方法和技術(shù)，探索特定教育環(huán)境中的各類數(shù)據(jù)，挖掘出有價(jià)值的信息，以幫助教師更好地理解學(xué)生，并改善他們所學(xué)習(xí)的環(huán)境，為教育者、學(xué)習(xí)者、管理者等教育工作者提供服務(wù)。EDM與學(xué)習(xí)分析（Learning Analytics，LA）交叉，但是兩者又存在差異：（1）EDM強(qiáng)調(diào)自動(dòng)發(fā)現(xiàn)，側(cè)重建立模型和發(fā)現(xiàn)模式，多采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)；LA盡管也強(qiáng)調(diào)自動(dòng)發(fā)現(xiàn)，但同時(shí)還需要人為干預(yù)，多采用統(tǒng)計(jì)分析技術(shù)。（2）EDM起源于智能輔導(dǎo)領(lǐng)域，強(qiáng)調(diào)預(yù)測(cè)學(xué)習(xí)者的學(xué)業(yè)成績和關(guān)注預(yù)測(cè)建模；LA也包括這些要素，但它更強(qiáng)調(diào)系統(tǒng)干預(yù)，注重個(gè)性化和自適應(yīng)。（3）LA側(cè)重于描述已發(fā)生的事件或其結(jié)果，而EDM側(cè)重于發(fā)現(xiàn)新知識(shí)與新模型。

預(yù)測(cè)建模（Predictive Modeling）是指根據(jù)現(xiàn)有數(shù)據(jù)先建立一個(gè)模型，利用模型可以對(duì)未來的數(shù)據(jù)進(jìn)行預(yù)測(cè)。本研究中的學(xué)業(yè)成績預(yù)測(cè)建模主要是利用已知學(xué)生學(xué)業(yè)成績類別的訓(xùn)練數(shù)據(jù)訓(xùn)練得到一個(gè)分類函數(shù)或分類模型（即分類器），并評(píng)估模型的性能。學(xué)業(yè)成績預(yù)測(cè)的目的是將學(xué)習(xí)者在學(xué)習(xí)過程中的相關(guān)數(shù)據(jù)輸入預(yù)測(cè)模型，預(yù)測(cè)學(xué)習(xí)者在學(xué)習(xí)結(jié)束時(shí)可能的成績類別，為是否進(jìn)行學(xué)業(yè)預(yù)警和調(diào)整教學(xué)策略提供依據(jù)。

（二）相關(guān)研究

教育數(shù)據(jù)量的急劇增長、數(shù)據(jù)類型的多樣性、數(shù)據(jù)的可獲取性以及數(shù)據(jù)挖掘技術(shù)的發(fā)展等多種因素共同推動(dòng)了教育數(shù)據(jù)研究的發(fā)展。學(xué)習(xí)者模型、學(xué)業(yè)成績預(yù)測(cè)、行為模式發(fā)現(xiàn)、學(xué)習(xí)反饋與評(píng)價(jià)等是當(dāng)前教育數(shù)據(jù)研究的主要熱點(diǎn)，已有的學(xué)業(yè)成績預(yù)測(cè)相關(guān)研究，根據(jù)其研究的側(cè)重點(diǎn)大致可以分為三類。

1.學(xué)業(yè)成績預(yù)測(cè)與評(píng)價(jià)的理論模型研究

美國佛羅里達(dá)農(nóng)工大學(xué)的Ohia博士在Nichol的五步模型的基礎(chǔ)上，提出了采集學(xué)業(yè)成績相關(guān)數(shù)據(jù)并進(jìn)行評(píng)價(jià)的六步模型一FAMOUS，模型名稱由六個(gè)關(guān)鍵步聚的首字母組成。蔚瑩等對(duì)QFD（質(zhì)量功能展開）模型進(jìn)行適當(dāng)?shù)恼{(diào)整，提出基于QFD的學(xué)生學(xué)習(xí)能力評(píng)估理論模型。張濤等參考Kirkpatrick評(píng)估模型建立了翻轉(zhuǎn)課堂環(huán)境下的學(xué)習(xí)績效評(píng)價(jià)理論模型。武法提等基于學(xué)習(xí)行為分析模型和學(xué)習(xí)結(jié)果分類理論設(shè)計(jì)了學(xué)業(yè)成績預(yù)測(cè)框架，包括學(xué)習(xí)內(nèi)容分析、學(xué)習(xí)行為分析和學(xué)習(xí)預(yù)測(cè)分析三個(gè)模塊。金義富等在討論學(xué)業(yè)預(yù)警系統(tǒng)設(shè)計(jì)框架的基礎(chǔ)上，提出了課程、課堂、課外“三位一體”預(yù)警信息發(fā)現(xiàn)與生成模型LAOMA。

2.學(xué)業(yè)成績影響因素研究

Carmel McNaught等關(guān)注香港高校中e-Learning學(xué)習(xí)過程和學(xué)業(yè)成績預(yù)測(cè)，探索學(xué)習(xí)設(shè)計(jì)，特別是學(xué)習(xí)設(shè)計(jì)中的策略設(shè)計(jì)與學(xué)習(xí)環(huán)境設(shè)計(jì)，與學(xué)業(yè)成績之間的關(guān)系。Galbraith，Craig S調(diào)查116門課程的學(xué)生評(píng)教與學(xué)生學(xué)業(yè)成績的相關(guān)數(shù)據(jù)，研究學(xué)生評(píng)教與學(xué)業(yè)成績和教學(xué)效能之間有無相關(guān)性。Gary Pike等使用美國“全國大學(xué)生學(xué)習(xí)參與度調(diào)查”（NSSE）數(shù)據(jù)，并引入學(xué)生特征和院系特征，調(diào)查教育支出、學(xué)習(xí)參與度和學(xué)生自我報(bào)告學(xué)業(yè)成績之間的聯(lián)系。J.Fredericks Volkwein等通過40個(gè)機(jī)構(gòu)的203個(gè)工程項(xiàng)目的數(shù)據(jù)，研究評(píng)價(jià)標(biāo)準(zhǔn)與學(xué)生經(jīng)歷和學(xué)業(yè)成績的關(guān)系。趙艷等運(yùn)用相關(guān)分析、多元回歸分析方法得出了影響中小學(xué)教師遠(yuǎn)程培訓(xùn)效果的主要因素。趙慧瓊等利用多元回歸分析法分析學(xué)習(xí)者在線學(xué)習(xí)行為數(shù)據(jù)，判定影響學(xué)業(yè)成績的預(yù)警因素。劉銘、馬小強(qiáng)等采用質(zhì)性研究方法，通過訪談、現(xiàn)場觀察和實(shí)物收集等手段，從學(xué)習(xí)者的視角挖掘了學(xué)習(xí)者參與云教室學(xué)習(xí)并取得績效的影響因素。傅鋼善等以陜西師范大學(xué)“現(xiàn)代教育技術(shù)”網(wǎng)絡(luò)課程為例，探討學(xué)習(xí)者的行為特征與學(xué)業(yè)成績的關(guān)系。吳青等選擇遠(yuǎn)程教學(xué)平臺(tái)的學(xué)習(xí)行為數(shù)據(jù)，采用關(guān)聯(lián)規(guī)則算法挖掘?qū)W習(xí)風(fēng)格、學(xué)習(xí)行為和學(xué)習(xí)成就之間的內(nèi)在規(guī)律。

3.學(xué)業(yè)成績預(yù)測(cè)和評(píng)價(jià)的數(shù)學(xué)建模

LC Duque等采用問卷收集數(shù)據(jù)，利用象限分析、ANOVA測(cè)試和結(jié)構(gòu)方程模型組成的多重方法研究學(xué)業(yè)成績和滿意度的建模。Arsad等使用人工神經(jīng)網(wǎng)絡(luò)方法建模，預(yù)測(cè)馬來西亞瑪拉工業(yè)大學(xué)工程學(xué)專業(yè)學(xué)生的學(xué)業(yè)成績。模型以學(xué)習(xí)者的基礎(chǔ)課程的學(xué)分積點(diǎn)作為輸入，以學(xué)分積點(diǎn)的平均值作為輸出。陸柳生等提出基于離群點(diǎn)檢測(cè)的學(xué)生學(xué)習(xí)狀態(tài)分析方法，對(duì)學(xué)生考試成績數(shù)據(jù)進(jìn)行挖掘，判定學(xué)生學(xué)習(xí)狀態(tài)是否異常。施儉等在分析教育數(shù)據(jù)挖掘技術(shù)及應(yīng)用的基礎(chǔ)上，建立以關(guān)聯(lián)規(guī)則挖掘和聚類分析為核心的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的數(shù)據(jù)挖掘模型，可以從學(xué)習(xí)數(shù)據(jù)中判定學(xué)生網(wǎng)絡(luò)學(xué)習(xí)效果。舒忠梅等利用神經(jīng)網(wǎng)絡(luò)算法建立17個(gè)輸入節(jié)點(diǎn)，7個(gè)隱藏節(jié)點(diǎn)，1個(gè)輸出節(jié)點(diǎn)的三層神經(jīng)網(wǎng)絡(luò)模型對(duì)學(xué)生的學(xué)業(yè)成績進(jìn)行預(yù)測(cè)。

通過文獻(xiàn)分析，發(fā)現(xiàn)國內(nèi)外學(xué)術(shù)界在學(xué)業(yè)成績預(yù)測(cè)和評(píng)價(jià)方面已經(jīng)做了不少研究工作。但是現(xiàn)有研究，特別是國內(nèi)研究，主要集中在：（1）從理論視角研究學(xué)業(yè)成績預(yù)測(cè)和評(píng)估的框架模型，實(shí)證研究稍顯不足，缺乏對(duì)理論框架的詳細(xì)驗(yàn)證；（2）基于理論演繹推導(dǎo)和經(jīng)驗(yàn)，建立某些因素與學(xué)業(yè)成績之間存在相關(guān)性的假設(shè)，再采用問卷和訪談等方法收集數(shù)據(jù)，分析驗(yàn)證假設(shè)；這種方式只能證明選定因素與學(xué)業(yè)成績之間存在相關(guān)性，但難以確定選定因素與學(xué)業(yè)成績之間數(shù)量關(guān)系；（3）部分研究者采用決策樹、神經(jīng)網(wǎng)絡(luò)等算法建立學(xué)業(yè)成績預(yù)測(cè)模型，但是建立的模型往往是單一的分類器，由于算法本身特性的原因，單個(gè)分類器的性能容易受數(shù)據(jù)變化的影響。

本研究嘗試使用數(shù)據(jù)驅(qū)動(dòng)的建模方法，從數(shù)據(jù)中挖掘影響在線學(xué)習(xí)者學(xué)業(yè)成績的因素，通過機(jī)器學(xué)習(xí)從數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類預(yù)測(cè)模型。針對(duì)單一分類預(yù)測(cè)模型容易受數(shù)據(jù)變化影響而表現(xiàn)出分類性能不穩(wěn)定的問題，采用集成學(xué)習(xí)的方法構(gòu)建集成式預(yù)測(cè)模型。在比較多種算法構(gòu)建的單一分類器和集成分類器的分類性能的基礎(chǔ)上，進(jìn)一步提出采用嵌套集成學(xué)習(xí)的方法構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績分類預(yù)測(cè)模型，并對(duì)模型的性能進(jìn)行評(píng)估，以期為在線學(xué)習(xí)者的學(xué)業(yè)成績預(yù)測(cè)建模提供借鑒。

三、數(shù)據(jù)來源及學(xué)業(yè)成績影響因素的選擇確定

（一）數(shù)據(jù)來源

本研究使用約旦大學(xué)e-Learning學(xué)業(yè)成績數(shù)據(jù)集（xAPI-Edu-Data）。數(shù)據(jù)來自Kalboard 360學(xué)習(xí)管理系統(tǒng)，并在學(xué)習(xí)管理系統(tǒng)內(nèi)嵌入學(xué)習(xí)者活動(dòng)跟蹤工具ExperienceAPI（xAPI）采集學(xué)習(xí)者行為相關(guān)數(shù)據(jù)。采集到的原始數(shù)據(jù)共500條記錄，其中20條記錄中存在缺失值，剔除含缺失值的數(shù)據(jù)，最后保留480條有效記錄。學(xué)習(xí)者中男生305名，女生175名，主要來自科威特、約旦等中東國家，也有少量來自突尼斯、美國、墨西哥、委內(nèi)瑞拉等歐洲和美洲國家。每條數(shù)據(jù)記錄包括16個(gè)屬性（如表1所示），除了與學(xué)習(xí)者自身相關(guān)的人口統(tǒng)計(jì)學(xué)特征，學(xué)習(xí)背景特征和學(xué)習(xí)行為特征之外，數(shù)據(jù)集中還包括與學(xué)習(xí)者父母相關(guān)的數(shù)據(jù)，如學(xué)習(xí)者的學(xué)習(xí)主要由父親還是母親負(fù)責(zé)，學(xué)習(xí)者父母是否完成問卷調(diào)查以及學(xué)習(xí)者父母對(duì)教學(xué)的滿意度。數(shù)據(jù)采集的時(shí)間跨度為兩個(gè)學(xué)期，其中245名學(xué)習(xí)者的記錄是第一個(gè)學(xué)期采集的，235名學(xué)者的數(shù)據(jù)是第二個(gè)學(xué)期采集的。依據(jù)學(xué)習(xí)者最終的成績將學(xué)習(xí)者的學(xué)業(yè)成績劃分為三個(gè)層次，其中，70分以下為低水平（Low），70～89分為中等水平（Middle），90分以上為高水平（High）。

數(shù)據(jù)集中同時(shí)包含定類屬性和數(shù)值屬性，為避免數(shù)值屬性取值范圍的差異對(duì)分類預(yù)測(cè)的干擾，首先對(duì)數(shù)值屬性進(jìn)行歸一化處理，使所有的數(shù)值屬性的取值范圍處于[0，1]區(qū)間內(nèi)。

（二）學(xué)業(yè)成績影響因素的選擇確定

學(xué)業(yè)成績影響因素的選擇確定在數(shù)據(jù)挖掘中表現(xiàn)為數(shù)據(jù)屬性子集的選擇確定。原始數(shù)據(jù)集中通常包含一些不相關(guān)或冗余的屬性，例如學(xué)生的學(xué)號(hào)與學(xué)生的學(xué)業(yè)成績顯然不存在相關(guān)性。去除冗余和不相關(guān)的特征可以提升分類的準(zhǔn)確率，并且在屬性子集上學(xué)習(xí)到的預(yù)測(cè)模型也更好理解。屬性子集選擇的目標(biāo)是找出最小屬性集，并使得數(shù)據(jù)子集的概率分布盡可能地接近原始數(shù)據(jù)的分布。屬性子集選擇的理想方法是：將所有可能的屬性子集作為數(shù)據(jù)挖掘算法的輸入，然后選取產(chǎn)生最好結(jié)果的子集。然而，由于涉及n個(gè)屬性的子集多達(dá)2n個(gè)，這種方法一般行不通，需要其它策略。

本研究采用對(duì)原始數(shù)據(jù)中所有的單個(gè)屬性進(jìn)行評(píng)估并排序，然后依據(jù)排序結(jié)果來選擇屬性子集的方法。具體實(shí)現(xiàn)是借助Weka，采用兩種方法對(duì)數(shù)據(jù)集的屬性進(jìn)行評(píng)估和排序。第一種方法是計(jì)算所有單個(gè)屬性和學(xué)業(yè)成績類別之間的皮爾森相關(guān)系數(shù)，并依據(jù)皮爾森系數(shù)的大小進(jìn)行排序，系數(shù)值越大表示該屬性與學(xué)業(yè)成績類別之間的相關(guān)性越強(qiáng)。第二種方法是計(jì)算所有屬性的信息增益率，并根據(jù)信息增益率的大小對(duì)屬性進(jìn)行排序，屬性的信息增益率越大表示該屬性對(duì)學(xué)業(yè)成績進(jìn)行分類的能力越強(qiáng)。兩種屬性評(píng)估方法的排序結(jié)果如下頁表2所示。第1列是屬性的相關(guān)系數(shù)或信息增益比率，第2列是屬性的序號(hào)，第3列則是屬性的名稱。從下頁表2可以發(fā)現(xiàn)，雖然兩種屬性評(píng)估方法的排序結(jié)果有差異，但兩種方法的排序結(jié)果的前9項(xiàng)組成的屬性子集具有一致性。從相關(guān)系數(shù)和信息增益率的數(shù)值大小可以判斷這9項(xiàng)也是影響學(xué)業(yè)成績的主要影響因素，因此將其作為預(yù)測(cè)建模的自變量。

四、預(yù)測(cè)算法與實(shí)驗(yàn)設(shè)計(jì)

（一）預(yù)測(cè)算法

分類和回歸是兩類主要的預(yù)測(cè)問題，分類是預(yù)測(cè)離散的值，回歸是預(yù)測(cè)連續(xù)的值。本研究主要是預(yù)測(cè)在線學(xué)習(xí)者在學(xué)習(xí)結(jié)束時(shí)學(xué)業(yè)成績的類別，類別∈{Low，Middle，High}。分類一般分為兩個(gè)步驟，首先利用已知類別標(biāo)簽的數(shù)據(jù)集訓(xùn)練分類模型，并評(píng)估模型，該步聚也稱作有監(jiān)督的學(xué)習(xí)；然后利用模型將未知類別的數(shù)據(jù)對(duì)象映射到某個(gè)給定的類別。目前，常用的分類算法有貝葉斯網(wǎng)絡(luò)（BN）、決策樹（DT）、人工神經(jīng)網(wǎng)絡(luò)（ANN）和支持向量機(jī)（SVM）等。

傳統(tǒng)分類建模方法是將原數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集，其中訓(xùn)練集用于學(xué)習(xí)模型，驗(yàn)證集用于模型調(diào)參，測(cè)試集來檢驗(yàn)?zāi)Ｐ偷男阅?。這樣學(xué)習(xí)到的往往是一個(gè)單一分類器?；凇凹w決策優(yōu)于個(gè)體決策”的假設(shè)，本研究采用集成學(xué)習(xí)方法對(duì)原始數(shù)據(jù)進(jìn)行二次抽樣以得到多個(gè)訓(xùn)練集，使用特定算法在每個(gè)訓(xùn)練集建立一個(gè)分類器（基分類器），每個(gè)基分類器分別預(yù)測(cè)未知樣本的類別，最后對(duì)基分類器的分類結(jié)果進(jìn)行某種組合來決定最終的類別。集成學(xué)習(xí)的邏輯視圖如圖1所示。常見的集成學(xué)習(xí)方法有裝袋（Bagging）和提升（Boosting），另外隨機(jī)森林算法也是一種集成學(xué)習(xí)方法。

1.裝袋（Bagging）

通過對(duì)原數(shù)據(jù)集進(jìn)行有放回的抽樣構(gòu)建出大小和原數(shù)據(jù)集D一樣大小的新數(shù)據(jù)集D1，D2，D3……，然后用這些新的數(shù)據(jù)集訓(xùn)練多個(gè)基分類器C1，C2，C3……。因?yàn)槭怯蟹呕氐某闃樱栽谕粋€(gè)訓(xùn)練集中同一個(gè)樣本可能會(huì)出現(xiàn)多次，也可能有的樣本不會(huì)出現(xiàn)。裝袋算法對(duì)所有基分類器的預(yù)測(cè)值進(jìn)行多數(shù)表決，將得票最高的類別指派給測(cè)試樣本。

2.提升（Boosting）

提升為每一個(gè)訓(xùn)練樣本賦一個(gè)權(quán)重，在每一輪提升過程結(jié)束時(shí)自動(dòng)調(diào)整權(quán)重。開始時(shí)所有樣本的權(quán)重都等于是1/N，抽到的概率都一樣，抽樣得到的訓(xùn)練集經(jīng)過訓(xùn)練得到一個(gè)分類器。利用分類器對(duì)原始數(shù)據(jù)集中所有樣本進(jìn)行分類，然后增加錯(cuò)誤分類樣本的權(quán)重（對(duì)錯(cuò)分?jǐn)?shù)據(jù)進(jìn)行懲罰），減少正確分類樣本的權(quán)重，使分類器在后續(xù)迭代中關(guān)注那些難以分類的樣本。

3.隨機(jī)森林（Random Forest）

隨機(jī)森林是一種專門為決策樹基分類器設(shè)計(jì)的集成學(xué)習(xí)方法。它集成多棵決策樹的預(yù)測(cè)，其中每棵樹都是基于隨機(jī)向量的一個(gè)獨(dú)立集合的值產(chǎn)生。隨機(jī)森林得到基分類器Ci的算法主要分為兩步：（1）對(duì)原始訓(xùn)練集采用有放回的自助抽樣，得到和原始訓(xùn)練集大小一致的訓(xùn)練集，與裝袋方法一致；（2）隨機(jī)選取分裂屬性集。在每個(gè)內(nèi)部節(jié)點(diǎn)，從M個(gè)屬性中隨機(jī)選取F（F（二）實(shí)驗(yàn)設(shè)計(jì)

采用十折交叉驗(yàn)證方法將原始數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集，分別使用BN、DT、ANN和SVM四種算法在訓(xùn)練集上訓(xùn)練單一分類器，然后分別以四種算法訓(xùn)練基分類器，采用三種集成學(xué)習(xí)方法構(gòu)建集成分類器。比對(duì)單一分類器和集成分類器的性能，檢驗(yàn)集成分類器能否提升分類性能，是否對(duì)所有基分類器有效。在上一步實(shí)驗(yàn)的基礎(chǔ)上，嘗試采用嵌套集成學(xué)習(xí)方法構(gòu)建學(xué)業(yè)成績分類預(yù)測(cè)模型，優(yōu)化模型參數(shù)，評(píng)估模型對(duì)學(xué)業(yè)成績分類預(yù)測(cè)的效果。實(shí)驗(yàn)在安裝Weka 3.8的PC（Intel（R）Core（TM）i5-6600cpu@3.30GHz，8G RAM）上完成。完整的實(shí)驗(yàn)流程如下頁圖2所示，其中數(shù)據(jù)預(yù)處理和屬性選擇在“學(xué)業(yè)成績影響因素的選擇確定”階段已經(jīng)完成。

五、實(shí)驗(yàn)結(jié)果與分析

（一）單一分類器與集成分類器性能比較

實(shí)驗(yàn)采用BN、DT、ANN和SVM四種算法訓(xùn)練得到4個(gè)單一分類器；將4個(gè)單一分類器作為基分類器，分別采用裝袋和提升方法訓(xùn)練得到8個(gè)集成分類器；以DT分類器為基分類器，采用隨機(jī)森林算法訓(xùn)練得到1個(gè)集成分類器，共計(jì)13個(gè)分類器。各個(gè)分類器的性能指標(biāo)如表3所示。表中所有指標(biāo)是分類器對(duì)Low、Middle、High三個(gè)學(xué)業(yè)成績類別進(jìn)行預(yù)測(cè)的平均值。

結(jié)果顯示，對(duì)于貝葉斯網(wǎng)絡(luò)（BN）、決策樹（DT）和人工神經(jīng)網(wǎng)絡(luò)（ANN）三種算法，通過構(gòu)建集成分類器都能不同程度地提升分類性能，真正率、精度和召回率都有所提升，假正率都有所降低。以ANN算法為例，單一分類器的精度是0.722，而裝袋方法訓(xùn)練得到的集成分類器的精度是0.769，提升方法訓(xùn)練得到的集成分類器的精度是0.767。雖然精度提升幅度不明顯，但是如果測(cè)試樣本數(shù)量較大，能夠正確分類的實(shí)例數(shù)還是會(huì)有較大差異。相比而言，在幾種不同類型的基分類器中，集成學(xué)習(xí)對(duì)于ANN類型的基分類器性能提升最為顯著（提升6.5%），通過隨機(jī)森林方法得到的DT類型的集成分類器性能最好。實(shí)驗(yàn)結(jié)果同時(shí)顯示，對(duì)于SVM算法，構(gòu)建集成分類器并不能提高分類性能，反而相對(duì)于單一分類器，性能有輕微的降低。

（二）學(xué)業(yè)成績分類預(yù)測(cè)模型構(gòu)建與分析

依據(jù)前面實(shí)驗(yàn)結(jié)果，選擇分類性能最好的隨機(jī)森林集成分類器作為基分類器，采用裝袋方法訓(xùn)練集成分類器，即進(jìn)行集成學(xué)習(xí)的嵌套，并對(duì)訓(xùn)練過程中的參數(shù)進(jìn)行調(diào)整，構(gòu)建學(xué)業(yè)成績分類預(yù)測(cè)模型。

學(xué)業(yè)成績分類預(yù)測(cè)模型（嵌套集成分類器）的性能摘要如表4所示。

分類器能對(duì)480個(gè)實(shí)例中的380個(gè)實(shí)例進(jìn)行正確分類，分類的準(zhǔn)確率為79.1667%，分類的準(zhǔn)確性有了進(jìn)一步提高。kappa系數(shù)為0.6785，一般認(rèn)為kappa系數(shù)處于[0.6，0.8]就可以判定為分類性能較好。分類器的真正率（TP Rate）、召回率（Recall）、精度（Precision）、受試者操作特征曲線面積（ROC Area）等各項(xiàng)指標(biāo)如表5所示。各項(xiàng)指標(biāo)顯示分類器對(duì)學(xué)業(yè)成績類別集合{Low，Middle，High}中的Low預(yù)測(cè)更為準(zhǔn)確，其精度為0.857，表示分類器預(yù)測(cè)為學(xué)業(yè)成績差的學(xué)習(xí)者中有85.7%學(xué)習(xí)者在學(xué)習(xí)結(jié)束時(shí)的學(xué)業(yè)成績是較差的。ROC Area=0.968（如下頁圖3所示），隨機(jī)分類時(shí)ROC Area=0.5，ROC Area值介于0.5和1之間，ROC Area越接近1越好。ROC Area=0.968表示分類器性能很好?？傮w來說，分類器對(duì)Class=Low的分類性能最好，對(duì)Class=High的分類性能次之，對(duì)Class=Middle的分類性能最差。

分類預(yù)測(cè)模型對(duì)學(xué)業(yè)成績類別Class=Low的分類預(yù)測(cè)更為準(zhǔn)確也符合實(shí)際應(yīng)用，因?yàn)榉诸愵A(yù)測(cè)的主要目的之一就是為了及早發(fā)現(xiàn)學(xué)業(yè)成績可能較差的學(xué)習(xí)者，及時(shí)進(jìn)行干預(yù)。如下頁表6所示的分類器混淆矩陣的行代表真實(shí)的類別，列代表分類器的預(yù)測(cè)結(jié)果?；煜仃囷@示，127個(gè)真實(shí)類別為Low的實(shí)例中，108個(gè)預(yù)測(cè)正確，19個(gè)錯(cuò)誤預(yù)測(cè)為Middle，沒有實(shí)例錯(cuò)誤預(yù)測(cè)為High；211個(gè)真實(shí)類別為Middle的實(shí)例中163個(gè)預(yù)測(cè)正確，18個(gè)實(shí)例錯(cuò)誤預(yù)測(cè)為Low，30個(gè)實(shí)例錯(cuò)誤預(yù)測(cè)為High；142個(gè)真實(shí)類別為High的實(shí)例中，109個(gè)預(yù)測(cè)正確，33個(gè)錯(cuò)誤預(yù)測(cè)為Middle，沒有實(shí)例錯(cuò)誤預(yù)測(cè)為Low。

六、結(jié)論與討論

學(xué)習(xí)者學(xué)業(yè)成績的預(yù)測(cè)和評(píng)價(jià)是全世界教育研究者共同關(guān)注的話題，而在線教育的快速發(fā)展又賦予它新的使命，即如何對(duì)在線學(xué)習(xí)者的學(xué)業(yè)成績進(jìn)行預(yù)測(cè)，以便及時(shí)提供預(yù)警和其它干預(yù)措施。在大數(shù)據(jù)時(shí)代，學(xué)習(xí)者在線學(xué)習(xí)過程中會(huì)積累海量結(jié)構(gòu)性和非結(jié)構(gòu)性的數(shù)據(jù)，可以通過數(shù)據(jù)挖掘技術(shù)探尋在線學(xué)習(xí)者學(xué)業(yè)成績的影響因素，也可以通過機(jī)器學(xué)習(xí)的方法從數(shù)據(jù)中自動(dòng)學(xué)習(xí)到學(xué)業(yè)成績預(yù)測(cè)模型。

針對(duì)本研究所使用的數(shù)據(jù)集，在學(xué)業(yè)成績影響因素的挖掘過程中發(fā)現(xiàn)學(xué)習(xí)者行為對(duì)學(xué)業(yè)成績影響最大，父母的參與度與態(tài)度對(duì)學(xué)業(yè)成績的影響次之，學(xué)習(xí)者人口統(tǒng)計(jì)學(xué)方面的特征對(duì)學(xué)業(yè)成績的影響最小。該發(fā)現(xiàn)對(duì)在線教育平臺(tái)的設(shè)計(jì)和在線教育的數(shù)據(jù)采集具有借鑒意義。要實(shí)現(xiàn)真正個(gè)性化在線教育，實(shí)現(xiàn)對(duì)學(xué)業(yè)成績的精準(zhǔn)預(yù)測(cè)和提供及時(shí)干預(yù)，首先需要通過在線教育平臺(tái)的功能設(shè)計(jì)實(shí)現(xiàn)對(duì)學(xué)習(xí)者相關(guān)數(shù)據(jù)的自動(dòng)采集；其次，數(shù)據(jù)的采集類別除了現(xiàn)在普遍關(guān)注的人口統(tǒng)計(jì)學(xué)方面的特征數(shù)據(jù)，還需特別注重對(duì)學(xué)習(xí)者行為特征數(shù)據(jù)的采集。隨著情感計(jì)算技術(shù)在教育中的應(yīng)用，學(xué)習(xí)者情感特征數(shù)據(jù)也需要進(jìn)行采集；另外，對(duì)于不同類型的在線學(xué)習(xí)者，影響其學(xué)業(yè)成績的因素不同，需要采集的數(shù)據(jù)類別也存差異；例如，本研究中的K12階段的中小學(xué)生不同于大學(xué)生等成人學(xué)習(xí)者，中小學(xué)生父母的行為和態(tài)度也是預(yù)測(cè)學(xué)習(xí)者學(xué)業(yè)成績時(shí)需要考慮的一個(gè)重要方面。

對(duì)于通過機(jī)器學(xué)習(xí)從數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類預(yù)測(cè)模型的問題，本研究假設(shè)相比于單一分類模型，學(xué)習(xí)多個(gè)基分類器，然后對(duì)基分類器的結(jié)果進(jìn)行組合的集成學(xué)習(xí)方法可以提升預(yù)測(cè)模型的性能。研究發(fā)現(xiàn)，對(duì)于貝葉斯網(wǎng)絡(luò)（BN）、決策樹（DT）、人工神經(jīng)網(wǎng)絡(luò)（ANN）三種算法，通過集成學(xué)習(xí)構(gòu)建集成分類模型確實(shí)都能不同程度地提升分類預(yù)測(cè)的性能；但是對(duì)于支持向量機(jī)（SVM）算法，學(xué)習(xí)到的集成分類模型并沒有提升分類預(yù)測(cè)的性能，反而相比于單一分類模型，分類性能有所降低。理論上講，集成學(xué)習(xí)可以或多或少地提升分類性能，但提升的幅度與基分類器的穩(wěn)定性有關(guān)，對(duì)于不穩(wěn)定的基分類的性能提升更加明顯。對(duì)于SVM算法，集成學(xué)習(xí)降低模型的分類性能的原因在于：SVM算法得到基分類器本身比較穩(wěn)定，集成學(xué)習(xí)算法對(duì)分類性能的提升并不明顯；同時(shí)，由于集成學(xué)習(xí)算法在訓(xùn)練基分類器時(shí)，因?yàn)樗惴ū旧淼奶匦詴?huì)使得訓(xùn)練子集可能存在重復(fù)樣本，導(dǎo)致基分類器性能降低，從而使得整個(gè)模型的分類性能輕微下降。

在確認(rèn)集成學(xué)習(xí)方法可以提升學(xué)業(yè)成績分類預(yù)測(cè)模型性能的前提下，本研究進(jìn)一步采用嵌套集成學(xué)習(xí)的方法從數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類預(yù)測(cè)模型。用隨機(jī)森林算法訓(xùn)練基分類器，采用裝袋算法對(duì)基分器的預(yù)測(cè)值進(jìn)行多數(shù)表決，并對(duì)模型的性能進(jìn)行分析。研究發(fā)現(xiàn)：通過嵌套集成方法學(xué)習(xí)到的模型的分類精度得到了進(jìn)一步提高。需要說明的是模型分類精度的高低除了受算法本身優(yōu)劣性的影響之外，還受分類的類別數(shù)量的影響。分類的類別越多，準(zhǔn)確分類的難度越大，例如本研究中將學(xué)業(yè)成績的預(yù)測(cè)結(jié)果劃分為三個(gè)類別，平均精度是79.2%；但如果只將預(yù)測(cè)結(jié)果劃分二個(gè)類別，分類的精度將得到較大幅度的提升。假設(shè)是對(duì)學(xué)業(yè)成績預(yù)測(cè)結(jié)果為“差”的學(xué)習(xí)者進(jìn)行預(yù)警，則只需將預(yù)測(cè)結(jié)果劃分為“差”和“不差”兩個(gè)類別，分類的準(zhǔn)確度得到大幅提升，如下頁圖4所示。在下頁圖4的混淆矩陣中，列代表預(yù)測(cè)類別，行代表真實(shí)類別，預(yù)測(cè)類別和真實(shí)類別一致代表預(yù)測(cè)正確。a代表學(xué)業(yè)成績預(yù)測(cè)結(jié)果為差（class=Low），b代表預(yù)測(cè)結(jié)果不為差（Class≠Low，即Class=High或Class=Middle）。預(yù)測(cè)結(jié)果為差的樣本中，109個(gè)樣本預(yù)測(cè)正確，18個(gè)預(yù)測(cè)錯(cuò)誤；預(yù)測(cè)結(jié)果不為差的樣本中，335個(gè)樣本預(yù)測(cè)正確，18個(gè)樣本預(yù)測(cè)錯(cuò)誤；預(yù)測(cè)準(zhǔn)確度為92.5%（（109+335）/（109+18+335+18）=0.925）。

最后，對(duì)于數(shù)據(jù)驅(qū)動(dòng)的在線學(xué)習(xí)者學(xué)業(yè)成績預(yù)測(cè)建模問題，模型分類預(yù)測(cè)的準(zhǔn)確性除了受到上面分析中提到的算法優(yōu)劣性、分類類別數(shù)量的影響之外，還和原始數(shù)據(jù)集有較大關(guān)系。因?yàn)閿?shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)建模首先需要在原始數(shù)據(jù)的屬性集中篩選出影響學(xué)業(yè)成績的主要屬性，然后再以選定的屬性作為自變量，以學(xué)業(yè)成績?yōu)橐蜃兞拷?shù)學(xué)模型。那么原始數(shù)據(jù)的屬性集能否涵蓋影響學(xué)業(yè)成績的全部主要因素，對(duì)構(gòu)建的預(yù)測(cè)模型的精確性有影響。數(shù)據(jù)集中的噪聲也會(huì)影響模型分類準(zhǔn)確度的提升。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于教育數(shù)據(jù)挖掘的在線學(xué)習(xí)者學(xué)業(yè)成績預(yù)測(cè)建模研究