亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于增量學習算法的混合課程學生成績預(yù)測模型研究

        2021-09-27 11:45:43羅楊洋韓錫斌
        電化教育研究 2021年7期
        關(guān)鍵詞:機器學習

        羅楊洋 韓錫斌

        [摘? ?要] 基于在線學習行為預(yù)測學生成績可以輔助教師動態(tài)掌握學情,制定差異化的教學策略,然而在混合課程中僅僅依據(jù)在線數(shù)據(jù)對學生成績進行預(yù)測難度很大,尚處于探索中。文章選取某高校2018秋季學期和2020春季學期的“高活躍型混合課程”學生在線行為數(shù)據(jù),采用增量學習的隨機森林算法構(gòu)建學生成績預(yù)測模型,研究發(fā)現(xiàn):(1)增量學習隨機森林算法在混合課程樣本最多的數(shù)據(jù)集中,獲得預(yù)測結(jié)果準確率最高(75.1%);(2)相較于批量學習隨機森林算法,增量學習算法在數(shù)據(jù)樣本量較多的數(shù)據(jù)集中預(yù)測結(jié)果準確率更高;(3)當樣本數(shù)量達到一定規(guī)模后,預(yù)測結(jié)果準確率波動減小、穩(wěn)定性增強。本研究采用增量學習隨機森林算法預(yù)測混合課程中的學生成績,不僅取得了較好的預(yù)測準確率,而且解決了新增數(shù)據(jù)后模型的穩(wěn)定性問題,將有助于模型的迭代優(yōu)化,提高模型的通用性,以及可持續(xù)追蹤學生在不同學期的學習行為特征。

        [關(guān)鍵詞] 學生成績預(yù)測; 混合課程; 增量學習算法; 隨機森林算法; 機器學習

        [中圖分類號] G434? ? ? ? ? ? [文獻標志碼] A

        [作者簡介] 羅楊洋(1989—),男,四川彭州人。博士研究生,主要從事高等教育和職業(yè)教育學習分析。E-mail:yy-luo17@mails.tsinghua.edu.cn。

        一、引? ?言

        結(jié)合了在線和面授教學優(yōu)勢的混合課程已成為高等教育機構(gòu)中廣為應(yīng)用的教學形式。使用網(wǎng)絡(luò)教學平臺中記錄的學生學習過程數(shù)據(jù),預(yù)測學生學習成績,輔助教師分析學情,制定教學策略,預(yù)警學生學習狀態(tài)是近年來混合課程研究領(lǐng)域的熱點[1]。然而混合課程的交互機制導致對學生成績進行預(yù)測是一項十分具有挑戰(zhàn)性的研究[2]。研究者在混合課程情境下構(gòu)建學生成績預(yù)測模型涉及預(yù)測變量選擇、預(yù)測變量預(yù)處理、機器學習算法選擇、訓練樣本選擇等問題[3-4]。雖然已有研究通過收集一門混合課程中學生的在線學習數(shù)據(jù),使用機器學習算法構(gòu)建學習成績預(yù)測模型,并取得了可接受的預(yù)測結(jié)果準確率[5-7],發(fā)現(xiàn)了對學習成績預(yù)測準確率較高的預(yù)測變量、預(yù)處理方法及機器學習算法。然而這些研究沒有討論訓練樣本的選擇問題。訓練樣本的數(shù)量及特征對機器學習算法,特別是增量學習算法構(gòu)建的預(yù)測模型有顯著影響[8]。

        另一方面,當前學者們提出的混合課程中學習成績預(yù)測模型都基于批量學習方式構(gòu)建,這種方法有利于分析整個樣本中的整體特征,構(gòu)建樣本的特征變量與結(jié)果變量之間的關(guān)系,但是得到的模型無法再接受新數(shù)據(jù),不利于將已構(gòu)建好的預(yù)測模型應(yīng)用到其他課程[9]。相對于批量學習,增量學習方式的機器學習算法有望解決上述問題,且在完全在線課程的學習成績預(yù)測研究中已有應(yīng)用[10]。本文旨在采用增量學習隨機森林算法,構(gòu)建混合課程中的學生成績預(yù)測模型,比較增量學習和批量學習方式分類算法預(yù)測結(jié)果準確率的差異,分析混合課程中基于增量學習構(gòu)建模型預(yù)測結(jié)果的穩(wěn)定性。

        二、文獻綜述

        當前在混合課程情境下對學生成績的預(yù)測研究大多在一門課程中采用批量學習方式的機器學習算法,分析學生學習的整個歷史過程數(shù)據(jù),構(gòu)建學生成績預(yù)測模型[5-7]。在應(yīng)用到實踐教學中時,批量學習算法構(gòu)建的預(yù)測模型會因模型無法接收新數(shù)據(jù)而受到阻礙。雖有少量研究者嘗試使用增量學習方法構(gòu)建學生成績預(yù)測模型,但還局限在完全在線課程中[10-11]。增量學習方法在訓練大量非平衡數(shù)據(jù)時會出現(xiàn)構(gòu)建的預(yù)測模型結(jié)果準確率不穩(wěn)定的問題,雖然已有研究探索了提升增量學習方法訓練非平衡樣本和大規(guī)模樣本(樣本數(shù)量大于1000)所獲預(yù)測模型結(jié)果穩(wěn)定性和準確率的問題[8,12-13],但數(shù)據(jù)樣本的特征及樣本的數(shù)量對增量方法構(gòu)建預(yù)測模型產(chǎn)生的影響仍不清楚。本文研究在使用最新的增量學習方式的機器學習算法基礎(chǔ)上,分析混合課程情境下,利用學生學習過程數(shù)據(jù)構(gòu)建學生成績預(yù)測模型時,學生樣本數(shù)量和樣本特征產(chǎn)生的影響。目前,使用增量學習方式的機器學習算法構(gòu)建混合課程中的學生成績預(yù)測模型主要涉及兩個方面:混合課程學生成績預(yù)測研究和增量學習方式的算法在學生成績預(yù)測研究中的應(yīng)用。

        (一)混合課程學生成績預(yù)測研究進展

        當前混合課程中預(yù)測學生的學習成績方法一般借鑒完全在線課程中的預(yù)測方法,即收集學生的歷史學習過程數(shù)據(jù)作為預(yù)測變量,收集學生的學習成績數(shù)據(jù)作為結(jié)果變量,通過機器學習的分類算法建立學習成績預(yù)測模型,進而采用預(yù)測模型預(yù)測學生未來的學習成績[4]。許多學者在混合課程中大多都基于隨機森林算法,使用一門課程中學生的學習行為數(shù)據(jù)構(gòu)建學生成績預(yù)測模型[5-7]。然而這些研究中使用的機器學習算法以批量學習方式處理數(shù)據(jù),批量學習是指在構(gòu)建模型時將所有樣本一次性全部輸入[14]。這種方法有利于分析整個樣本中的整體特征,預(yù)測結(jié)果準確率較為穩(wěn)定,而且有大量已實現(xiàn)的機器學習算法使用批量學習的數(shù)據(jù)處理方式,便于教育研究者直接應(yīng)用,但是使用批量學習方式得到的預(yù)測模型無法再接收新數(shù)據(jù)[15],從而影響模型的迭代優(yōu)化。另一方面,一次性輸入學生的所有歷史學習過程數(shù)據(jù)構(gòu)建學生成績預(yù)測模型的研究方式,也無法分析新增學生樣本對預(yù)測結(jié)果帶來的影響,不利于將已構(gòu)建好的預(yù)測模型應(yīng)用到其他課程,也不利于持續(xù)追蹤學生在不同學期的學習行為特征[9]。學習者在不同混合課程中并不會保持相同的學習行為特征,在本團隊以往的研究中發(fā)現(xiàn),學生在不同類型的混合課程中,其學習行為數(shù)據(jù)對學習成績的預(yù)測準確率具有較大差異[16]。因此要發(fā)現(xiàn)一門混合課程中學生群體的個性化行為特征與學習成績的預(yù)測關(guān)系,需要使用該混合課程的數(shù)據(jù)不斷訓練學習成績預(yù)測模型。為此,當前亟須研究如何以增量學習數(shù)據(jù)處理方式的機器學習算法,在混合課程情境下構(gòu)建學習成績預(yù)測模型。增量學習是每當有新的訓練數(shù)據(jù)輸入時,機器學習算法便根據(jù)新數(shù)據(jù)調(diào)整已構(gòu)建模型的機器學習方法。與傳統(tǒng)學習方法最大的區(qū)別是增量學習方法不假設(shè)構(gòu)建模型前就具有完備的訓練數(shù)據(jù),訓練數(shù)據(jù)會在算法運行過程中隨時間推移不斷出現(xiàn)[17]。

        批量學習與增量學習數(shù)據(jù)處理方式的機器學習算法構(gòu)建模型過程差異如圖1所示。

        綜上所述,當前在混合課程中基于學生在線行為預(yù)測學習成績的研究都是基于批量學習數(shù)據(jù)處理方式的機器學習算法構(gòu)建預(yù)測模型,這種方法便于實現(xiàn),能獲得所有樣本的整體特征,預(yù)測結(jié)果準確率較為穩(wěn)定。然而這種方法也存在模型無法接收新數(shù)據(jù),不利于模型的迭代優(yōu)化,不利于將已構(gòu)建好的預(yù)測模型應(yīng)用到其他課程,也不利于持續(xù)追蹤學生在不同學期的學習行為特征的問題。相對于批量學習方式處理數(shù)據(jù)的機器學習算法,增量學習的方式有望解決上述問題,構(gòu)建可持續(xù)追蹤學生學習過程的成績預(yù)測模型。

        (二)增量學習方式在學生成績預(yù)測研究中的應(yīng)用

        增量學習方式的機器學習算法主要包含以下四種特征:(1) 可從新數(shù)據(jù)中提取知識;(2) 將數(shù)據(jù)加入到模型中學習時不需構(gòu)建原始模型的原始數(shù)據(jù);(3) 新數(shù)據(jù)中的知識不會覆蓋原始模型的知識;(4) 當新數(shù)據(jù)中包含的知識與原始模型沖突或超出原始模型時仍可被學習到新模型中[18]。通過增量學習方式生成的模型可根據(jù)新加入的訓練數(shù)據(jù)不斷擴展,代表了動態(tài)學習的技術(shù)。有研究者指出,隨著學生在各種網(wǎng)絡(luò)教學平臺中產(chǎn)生的學習過程數(shù)據(jù)不斷增長,學習者的學習過程不會中斷,無法斷言在某一時刻收集的數(shù)據(jù)能覆蓋該學習者的所有特征。批量學習方式的成績預(yù)測模型構(gòu)建的是學習者在一段時間內(nèi),學習過程與學習結(jié)果的預(yù)測關(guān)系。研究者通常難以判斷這種預(yù)測關(guān)系在未來多長時間內(nèi)有效,當前最成熟學習成績預(yù)測模型應(yīng)用仍限于危機學生的分辨方面[19]。要充分發(fā)揮學生成績預(yù)測模型為師生教學決策帶來的輔助作用,構(gòu)建動態(tài)分析學習者學習過程并預(yù)測學習結(jié)果的模型必不可少。研究者應(yīng)用增量學習方式開展學生成績預(yù)測在少量完全在線教學案例中有過實踐,如Kulkarni & Ade的研究中對比了樸素貝葉斯、K星、IBK和K最鄰近算法,發(fā)現(xiàn)K最鄰近算法的預(yù)測結(jié)果準確率最高[11]。然而該研究中只對比了增量學習算法之間的預(yù)測結(jié)果準確率,增量算法與批量算法的預(yù)測結(jié)果準確率差異沒有對比。在Ade & Deshmukh的研究中發(fā)現(xiàn)增量學習算法對學生成績進行預(yù)測時結(jié)果準確率隨樣本增加而波動,且不會收斂到固定值,因此分析學生樣本特征對增量學習算法建模預(yù)測結(jié)果的影響也是需要研究的重要問題[20]。還有Sanchez-Santillan等人分析了使用增量學習算法構(gòu)建了兩學期的學生成績的預(yù)測模型,在分別使用兩學期數(shù)據(jù)及兩學期數(shù)據(jù)合并三種數(shù)據(jù)集訓練的預(yù)測模型后發(fā)現(xiàn),當其中一學期的預(yù)測結(jié)果準確率下降時會導致數(shù)據(jù)合并后的預(yù)測結(jié)果準確率下降[10]。

        然而上述研究均在完全在線課程中開展,當前尚未發(fā)現(xiàn)有使用增量學習方式算法,分析混合課程中學生學習過程數(shù)據(jù),預(yù)測學習成績的研究。增量學習方式能夠滿足教學場景中對學生動態(tài)、持續(xù)建模的需求,但使用增量學習算法預(yù)測混合課程中的學生成績?nèi)悦媾R巨大挑戰(zhàn)。主要表現(xiàn)在兩個方面:(1)增量學習方式的算法面對非平衡數(shù)據(jù)時難以取得較好預(yù)測結(jié)果;(2)增量學習方式的算法存在預(yù)測結(jié)果準確率不穩(wěn)定的問題,主要由新加入的數(shù)據(jù)特征沒有被算法識別引起[18]。該問題在近年來隨機森林算法的增量學習研究中取得了較大改善,為本研究奠定了基礎(chǔ)[8]。在混合課程使用中增量學習方式的算法構(gòu)建學生成績預(yù)測模型還需分析樣本特征對預(yù)測結(jié)果的影響。

        三、研究問題及研究方法

        綜合前述文獻分析結(jié)果,提出以下研究問題:

        研究問題1:使用增量學習與批量學習方式的算法構(gòu)建的成績預(yù)測模型結(jié)果準確率有何差異?

        研究問題2:混合課程中的樣本特征對增量學習構(gòu)建的成績預(yù)測模型結(jié)果準確率有何影響?

        在本團隊以往的研究中,收集了某大學2018年秋季學期的全部混合課程數(shù)據(jù),依據(jù)學生行為聚類特征進行了混合課程分類,發(fā)現(xiàn)只有在“高活躍型混合課程”中使用批量學習方式的算法才可以獲得可接受的預(yù)測結(jié)果準確率[16]。“高活躍型混合課程”的特征是課程有50%以上學生的學習行為數(shù)據(jù)均值較高,標準差較大,線上學習的個性化水平較高,且每門課程所包含的學生數(shù)量大體相似。

        本文在此基礎(chǔ)上進一步收集了同一所大學2020年春季學期的全部混合課程數(shù)據(jù),依照本團隊以往研究的混合課程分類方法進行分類,使用增量學習方式,比較在不同規(guī)模數(shù)據(jù)集時,構(gòu)建學習成績預(yù)測模型的結(jié)果,構(gòu)建過程中同樣只選擇“高活躍型混合課程”中的數(shù)據(jù)進行比較。研究流程如圖2所示。

        本文在構(gòu)建模型時采用具有較高預(yù)測結(jié)果準確率的隨機森林算法,該算法批量學習方式的預(yù)測結(jié)果準確率得到多項研究的驗證[5-6,21-22]。為方便比較,同時采用了隨機森林的增量學習方式。據(jù)Genuer等人的研究,最新的隨機森林的增量學習方式OnRF包含了超參數(shù),對非平衡數(shù)據(jù)可獲得較高的預(yù)測結(jié)果準確率,并且在Python上已被實現(xiàn),可以直接使用[12]。相較于其他算法的增量學習方式,OnRF隨機森林算法近年來經(jīng)過研究者們的不斷優(yōu)化,在算法魯棒性、接收數(shù)據(jù)的非平衡性等方面有了較大提升[23]。

        (一)研究對象和場景

        根據(jù)研究團隊以往的數(shù)據(jù)采集和處理,某高校2018年秋季學期的“高活躍型混合課程中”有22門,包括2348名學生。所有學生采用優(yōu)慕課R“綜合教學平臺V9”網(wǎng)絡(luò)教學平臺開展混合學習的線上部分。學生在選課系統(tǒng)中選擇混合課程后會被告知注意事項,包括學生使用該平臺出現(xiàn)問題,平臺支持的混合學習活動形式,平臺會記錄學生在登錄系統(tǒng)后發(fā)生的所有操作等。學生在每門混合課程結(jié)束后,教師會根據(jù)學生的線上、線下學習參與及課程最終測試結(jié)果為學生評分。本研究將百分制的學生評分轉(zhuǎn)換成了5個等級,轉(zhuǎn)換規(guī)則為學生成績?yōu)?0~100分之間時將其劃分為A,學生成績?yōu)?0~89分之間時將其劃分為B,學生成績?yōu)?0~79分之間時將其劃分為C,學生成績?yōu)?0~69分之間時將其劃分為D,以及最后學生成績在60分以下時將其劃分為F。

        本研究將學生在網(wǎng)絡(luò)教學平臺上的在線學習行為作為學習過程,學生的最終成績作為學習結(jié)果。進而獲得用于構(gòu)建學生成績預(yù)測模型的各變量(見表1)。

        (二)研究方法和步驟

        為對比增量學習方式在不同規(guī)模數(shù)據(jù)中的預(yù)測成效,比較增量學習和批量學習方式的預(yù)測結(jié)果準確率,本研究對收集的某高校2020年春季學期混合課程數(shù)據(jù)進行了分類處理,沿用Luo 等人提出的方法[16],獲得了51門“高活躍型混合課程”,包含4840名學生(分類方法流程圖如圖3所示)。

        在對2020年春季學期混合課程分類后,本研究對2020年春季學期“高活躍型混合課程”中的學生在線行為數(shù)據(jù)和學習成績進行了探索。通過學生在線行為數(shù)據(jù)預(yù)測學習成績的基礎(chǔ)是學生在線行為與學習成績具有相關(guān)關(guān)系。當同一課程中存在不同類型學生,但學生成績沒有顯著差異時,說明該課程中學生在線行為數(shù)據(jù)與學習成績數(shù)據(jù)沒有相關(guān)關(guān)系。在預(yù)處理時刪除所有此類課程。另外,結(jié)果變量中各等級成績的分布也會影響預(yù)測模型的結(jié)果準確率[24]。本文探索了兩學期“高活躍型混合課程”中各成績的學生人數(shù)占比(如圖4所示)。

        從圖4中可知,2020年春季學期與2018年秋季學期相比,成績?yōu)锳和B的學生人數(shù)占比變動較大,其中成績?yōu)锳的學生占比上升了18.18%,成績?yōu)锽的學生占比下降了10.65%。另外成績?yōu)镃的學生占比下降了5.51%,成績?yōu)镈和F的學生占比變動并未超過5%。

        根據(jù)圖2所示的研究步驟,本文分別使用批量學習方式的隨機森林算法和增量學習方式的隨機森林算法對2018年秋季學期、2020年春季學期以及兩學期合并后的“高活躍型混合課程”學生數(shù)據(jù)建立成績預(yù)測模型。在構(gòu)建預(yù)測模型過程中,采用超參數(shù)調(diào)試(Hyper-parameter Tuning)方法為隨機森林的兩種學習方法分別設(shè)定最優(yōu)參數(shù)。使用交叉驗證方法分析隨機森林算法的兩種模型學習方法分別對三類數(shù)據(jù)集構(gòu)建的預(yù)測模型。本文所分析的學生成績是5級定類變量,是一個多分類預(yù)測問題。因此,本文采用了適用于多分類預(yù)測問題的評價指標,采用指標包括平均準確率(Avg. Accuracy)、權(quán)重準確率(Weighted Accuracy)、平均查全率(Avg. Recall)、權(quán)重查全率(Weighted Recall),宏F1值以及權(quán)重F1值為評價指標[25]。另外,增量學習方式算法的預(yù)測準確率隨樣本輸入變化,本文采用平均預(yù)測準確率作為評價增量學習方式算法預(yù)測結(jié)果的指標。預(yù)測結(jié)果評價的計算公式見表2。

        在表2中,i表示學生成績分類,分別是A、B、C、D、F,當i=A時,TPA表示預(yù)測結(jié)果為A,實際成績也為A的學生,TNA表示預(yù)測結(jié)果為非A時與真實結(jié)果也為非A的樣本數(shù),F(xiàn)PA表示預(yù)測結(jié)果為A但真實結(jié)果為非A的樣本數(shù),F(xiàn)NA表示預(yù)測結(jié)果為非A但真實結(jié)果為A的樣本數(shù)。最后使用三類數(shù)據(jù)集的測試集測試預(yù)測模型的預(yù)測結(jié)果準確率。

        四、研究結(jié)果與討論

        (一)隨機森林增量學習與批量學習方式構(gòu)建的模型預(yù)測結(jié)果比較

        為比較隨機森林的批量學習與增量學習方式在不同學期“高活躍型混合課程”中對學生成績的預(yù)測能力,本文記錄了兩種方式構(gòu)建預(yù)測模型的評價指標和對測試集的預(yù)測結(jié)果準確率(見表3)。

        從表3可知,在2018秋季學期的“高活躍型混合課程”中,批量學習方式隨機森林算法構(gòu)建的學生成績預(yù)測模型結(jié)果獲得了較高準確率(72.3%),但是在2020春季學期的“高活躍型混合課程”中,其預(yù)測結(jié)果準確率(68.2%)并不如OnRF得到的預(yù)測結(jié)果的平均準確率(69.1%)。在兩學期數(shù)據(jù)合并后,OnRF表現(xiàn)出更優(yōu)異的預(yù)測結(jié)果平均準確率,達到了75.1%。批量學習方式隨機森林算法的預(yù)測結(jié)果準確率則介于兩學期的預(yù)測結(jié)果準確率之間(70.3%)。可見,OnRF在學生樣本數(shù)量增加后構(gòu)建的學生成績預(yù)測模型結(jié)果更加準確。

        雖然本文中使用的OnRF方法預(yù)測結(jié)果準確率落后于Kulkarni & Ade所用的四種增量方法的準確率,但該研究中所用數(shù)據(jù)是完全在線課程數(shù)據(jù),且其使用的數(shù)據(jù)特征包含學生的期中成績,因此該研究對學生成績的預(yù)測結(jié)果準確率都達到了89%以上[11]。在兩學期數(shù)據(jù)合并后的較多樣本中,本研究的預(yù)測結(jié)果準確率比Sanchez-Santillan等人的結(jié)果平均準確率提高了2.28%[10]。

        相比同樣在混合課程情境下,使用批量學習方式隨機森林算法構(gòu)建模型,預(yù)測學生成績的研究。本文選用的OnRF在使用單一學期的混合課程樣本數(shù)據(jù)構(gòu)建預(yù)測模型時,預(yù)測結(jié)果準確率較低,但在樣本數(shù)據(jù)量增加后,預(yù)測結(jié)果準確率高于武法提等人所得結(jié)果準確率[5]。在模型應(yīng)用和優(yōu)化方面,本文使用的增量學習方式優(yōu)于武法提等、Wu等研究者采用的批量學習方式隨機森林算法[5-6]。當不再有新數(shù)據(jù)出現(xiàn)時,增量學習方式可停止構(gòu)建模型,并使用當前模型進行預(yù)測。因此,相較于批量學習方式的算法,在院校層面,增量學習方式更適用于構(gòu)建過程性的學生學情監(jiān)測系統(tǒng),隨時分析學生學習狀態(tài)。在教師層面,增量學習方式構(gòu)建的模型可幫助教師積累學生學習數(shù)據(jù),為教師持續(xù)優(yōu)化教學設(shè)計、教學方法和教學策略。在學生層面,增量學習方式更適于實現(xiàn)精準的過程性學生評價,分析學生在不同學習階段的特征,為學生變更學習策略、學習路徑持續(xù)提供幫助。

        (二)樣本特征對增量學習方式構(gòu)建的成績預(yù)測模型結(jié)果準確率影響

        為分析在增量學習方式構(gòu)建模型過程中對樣本的預(yù)測準確率變化,研究記錄了增量學習方式模型數(shù)據(jù)輸入后得到的預(yù)測結(jié)果準確率變化(如圖5所示)。增量學習方式算法在使用2018秋季學期的22門課程中學生樣本構(gòu)建的預(yù)測模型得到的平均預(yù)測結(jié)果準確率較低(參考表3和圖4的結(jié)果),且對每門課程的預(yù)測結(jié)果準確率波動較大,直至22門課程的數(shù)據(jù)全部輸入也未能顯示出收斂的趨勢(預(yù)測準確率標準差為0.104)(如圖5所示)。

        增量學習方式對2020年春季學期混合課程構(gòu)建的預(yù)測模型不但平均準確率略高于批量學習方式(參考表3和圖4的結(jié)果),且在第41門課程數(shù)據(jù)輸入后預(yù)測準確率波動下降。經(jīng)統(tǒng)計,前40門課程增量學習方式預(yù)測結(jié)果準確率標準差為0.077,最后11門課程預(yù)測結(jié)果準確率標準差為0.025。

        為進一步分析增量學習方式輸入41門課程數(shù)據(jù)后預(yù)測結(jié)果準確率的變化情況,記錄了兩學期數(shù)據(jù)合并后(73門課程)使用增量學習方式所得預(yù)測結(jié)果準確率的變化(如圖5所示),結(jié)果發(fā)現(xiàn)前40門課程數(shù)據(jù)輸入時預(yù)測結(jié)果準確率標準差為0.087,后33門課程數(shù)據(jù)輸入時預(yù)測結(jié)果準確率標準差為0.018??梢娫诒疚难芯恐校^41門課程數(shù)據(jù)輸入后,可大幅降低增量學習方式的預(yù)測結(jié)果準確率波動。

        Kulkarni & Ade的研究中,雖然獲得了較高的平均預(yù)測結(jié)果準確率,但是所有的增量學習方式的預(yù)測結(jié)果準確率都會隨樣本數(shù)量增加而逐步降低[11]。本文所得結(jié)果發(fā)現(xiàn),當數(shù)據(jù)樣本量達到一定規(guī)模后,預(yù)測結(jié)果準確率逐步上升。Ade & Deshmukh的研究發(fā)現(xiàn)增量學習方式的預(yù)測結(jié)果準確率不會收斂到固定值[20]。本文結(jié)果同樣證實了該發(fā)現(xiàn),且本文結(jié)果還發(fā)現(xiàn)在超過41門混合課程的數(shù)據(jù)后,預(yù)測結(jié)果準確率的波動會大幅度減小。另外相比Sanchez-Santillan 等人的研究[10],在本文分析的三類混合課程數(shù)據(jù)中,樣本數(shù)量最大的預(yù)測模型取得了最好的預(yù)測結(jié)果準確率。

        本文所用增量學習方式改進了采用混合課程學生樣本構(gòu)建預(yù)測模型時,樣本數(shù)量增長引起預(yù)測結(jié)果不穩(wěn)定的問題,與在完全在線課程中的研究結(jié)果類似,即數(shù)據(jù)量越多,預(yù)測結(jié)果準確率越高[8]。另外,本文中使用的三類數(shù)據(jù)集都是“高活躍型混合課程”,這類課程中學生的行為模式較為相似。Yang 等人指出,在增量學習過程中,局部數(shù)據(jù)集與整體數(shù)據(jù)集的相似性有助于增量學習方式的決策樹算法構(gòu)建更準確的預(yù)測模型[26]。因此,可以認為本團隊以往對混合課程的提前分類使每門混合課程的學生行為數(shù)據(jù)特征都較為相似,提升了增量學習方式構(gòu)建預(yù)測模型所得結(jié)果的平均準確率,減小了每次增加數(shù)據(jù)時所得預(yù)測結(jié)果準確率的波動。

        五、研究結(jié)論及局限性

        在混合課程中,持續(xù)分析學生的學習過程,預(yù)測學生學習成績并在不同學習階段為學生提供精準的個性化學習支持是混合教學研究中的重要問題。本文分析了在混合課程情境下,增量學習隨機森林算法與批量學習隨機森林算法在不同數(shù)量混合課程學生樣本中構(gòu)建的預(yù)測結(jié)果準確率及預(yù)測結(jié)果準確率變化。研究發(fā)現(xiàn):(1)增量學習隨機森林算法在混合課程樣本最多的數(shù)據(jù)集中可獲得最高預(yù)測結(jié)果準確率(75.1%)。(2)相較于批量學習隨機森林算法,增量學習隨機森林算法在數(shù)據(jù)樣本量較多的情況下預(yù)測結(jié)果準確率高于批量學習算法。(3)當樣本數(shù)量達到一定規(guī)模后,預(yù)測結(jié)果準確率波動減小,且每門混合課程的學生行為數(shù)據(jù)較為相似,也為提升預(yù)測結(jié)果平均準確率、減小預(yù)測結(jié)果準確率波動提供了幫助。

        本研究中使用增量學習隨機森林算法在不同學生樣本數(shù)量規(guī)模中構(gòu)建了學生成績預(yù)測模型,并且比較了增量學習與批量學習兩種方式構(gòu)建學生成績預(yù)測模型的結(jié)果準確率。結(jié)果發(fā)現(xiàn)增量學習隨機森林算法在樣本數(shù)量較多時,預(yù)測結(jié)果準確率高于批量學習的隨機森林算法,且該方法可隨時接收新數(shù)據(jù),不斷迭代和優(yōu)化預(yù)測模型,相比批量學習方式在預(yù)測模型應(yīng)用和對教學過程的持續(xù)分析有更大優(yōu)勢。但是要使用增量學習方式構(gòu)建預(yù)測結(jié)果準確率較穩(wěn)定的模型需要使用更多的數(shù)據(jù)進行訓練,且數(shù)據(jù)樣本的局部特征需要與整體特征相似。

        本研究結(jié)論從隨機森林算法和一所學校的混合課程中獲得,是否還存在結(jié)果更優(yōu)的增量學習算法,更大數(shù)量規(guī)模的學生樣本中能否獲得收斂的預(yù)測結(jié)果準確率還有待進一步驗證。

        [參考文獻]

        [1] 孫眾,宋潔,駱力明.混合課程動態(tài)設(shè)計研究[J].電化教育研究,2017,38(7):85-90,116.

        [2] 田陽,陳鵬,黃榮懷,曾海軍.面向混合學習的多模態(tài)交互分析機制及優(yōu)化策略[J].電化教育研究,2019,40(9):67-74.

        [3] BAKER R S. Challenges for the future of educational data mining: the baker learning analytics prizes[J]. Journal of educational data mining, 2019, 11(1): 1-17.

        [4] ROMERO C, VENTURA S. Educational data mining and learning analytics: an updated survey[J]. Wiley interdisciplinary reviews: data mining and knowledge discovery, 2020, 10(3): e1355.

        [5] 武法提,田浩.挖掘有意義學習行為特征:學習結(jié)果預(yù)測框架[J].開放教育研究,2019,25(6):75-82.

        [6] WU M, ZHAO H, YAN X, et al. Student achievement analysis and prediction based on the whole learning process[C]// 2020 15th International Conference on Computer Science & Education (ICCSE). Delft: IEEE, 2020: 123-128.

        [7] VAN GOIDSENHOVEN S, BOGDANOVA D, DEEVA G, et al. Predicting student success in a blended learning environment[C]// Proceedings of the Tenth International Conference on Learning Analytics & Knowledge. New York: ACM, 2020: 17-25.

        [8] ZHONG Y, YANG H, ZHANG Y, et al. Online random forests regression with memories[J]. Knowledge-based systems, 2020(201): 106058.

        [9] KOTSIANTIS S, PATRIARCHEAS K, XENOS M. A combinational incremental ensemble of classifiers as a technique for predicting students' performance in distance education[J]. Knowledge-based systems, 2010, 23(6): 529-535.

        [10] SANCHEZ-SANTILLAN M, PAULE-RUIZ M P, CEREZO R, et al. Predicting students' performance: incremental interaction classifiers[C]// Proceedings of the Third (2016) ACM Conference on Learning@ Scale. New York: ACM, 2016: 217-220.

        [11] KULKARNI P, ADE R. Prediction of student's performance based on incremental learning[J]. International journal of computer applications, 2014, 99(14): 10-16.

        [12] GENUER R, POGGI J M, TULEAU-MALOT C, et al. Random forests for big data[J]. Big data research, 2017, 9: 28-46.

        [13] WU Y, CHEN Y, WANG L, et al. Large scale incremental learning[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 374-382.

        [14] ZHENG S, LU J J, GHASEMZADEH N, et al. Effective information extraction framework for heterogeneous clinical reports using online machine learning and controlled vocabularies[J]. JMIR medical informatics, 2017, 5(2): e12.

        [15] BORN A. Predicting students' assignment performance to personalize blended learning[D].? Munich:Ludwig Maximilian University of Munich,2017.

        [16] LUO Y, CHEN N, HAN X. Students' online behavior patterns impact on final grades prediction in blended courses[C]// 2020 Ninth International Conference of Educational Innovation through Technology (EITT). Porto: IEEE, 2020: 154-158.

        [17] GENG X, SMITH-MILES K. Incremental Learning[J]. Encylopedia of biometrics, 2009(1): 730-737

        [18] POLIKAR R, UPDA L, UPDA S S, et al. Learn++: an incremental learning algorithm for supervised neural networks[J]. IEEE transactions on systems, man, and cybernetics, part C (applications and reviews), 2001, 31(4): 497-508.

        [19] ASIAH M, ZULKARNAEN K N, SAFAAI D, et al. A review on predictive modeling technique for student academic performance monitoring[C]// MATEC Web of Conferences. Sibiu: EDP Sciences, 2019, 255: 03004.

        [20] ADE R, DESHMUKH P R. Instance-based vs batch-based incremental learning approach for students classification[J]. International journal of computer applications, 2014, 106(3).

        [21] SHAHIRI A M, HUSAIN W. A review on predicting student's performance using data mining techniques[J]. Procedia computer science, 2015(72): 414-422.

        [22] NESPEREIRA C G, ELHARIRI E, EL-BENDARY N, et al. Machine learning based classification approach for predicting students performance in blended learning[C]// The 1st International Conference on Advanced Intelligent System and Informatics (AISI2015), November 28-30, 2015, Beni Suef: Springer, Cham, 2016: 47-56.

        [23] JIAN Y, YE M, MIN Y, et al. FORF-S: a novel classification technique for class imbalance problem[J]. IEEE access, 2020(8): 218720-218728.

        [24] RASCHKA S. Model evaluation, model selection, and algorithm selection in machine learning[EB/OL].(2018-11-10)[2021-05-20].https://sebastianraschka.com/blog/2018/model-evaluation-selection-part4.html.

        [25] SHMUELI B. Multiclass metrics made simple, part I: precision and recall[EB/OL]. (2019-07-02)[2021-05-20]. https://towardsdatascience.com/multi-class-metrics-made-simple-part-i-precision-and-recall-9250280bddc2.

        [26] YANG Q, GU Y, WU D. Survey of incremental learning[C]// 2019 Chinese Control And Decision Conference (CCDC). Nanchang: IEEE, 2019: 399-404.

        猜你喜歡
        機器學習
        基于詞典與機器學習的中文微博情感分析
        基于機器學習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學習方法綜述
        機器學習理論在高中自主學習中的應(yīng)用
        久久精品av在线观看| 亚洲欧洲日产国产AV无码| 天啦噜国产精品亚洲精品| 中文字幕一区二区三区在线乱码| 男女啪啪动态视频在线观看 | 产美女被爽到高潮免费a| 97精品国产一区二区三区| 邻居人妻的肉欲满足中文字幕| 三个男吃我奶头一边一个视频| 国产高清在线精品一区二区三区 | 蜜桃a人妻精品一区二区三区| 国产精品爽爽ⅴa在线观看 | 波多野结衣免费一区视频| 99精品国产自产在线观看| 日本午夜伦理享色视频| 国产一级一级内射视频| 少妇被粗大的猛烈进出免费视频 | 精品亚洲一区二区在线观看| 国产美女高潮流白浆免费视频| 亚洲欧美日韩国产精品一区二区| 护士奶头又白又大又好摸视频| 熟女系列丰满熟妇av| 国产视频激情视频在线观看| 久久人妻少妇嫩草av| 香蕉视频在线精品视频| 91精品国产免费青青碰在线观看| 精品专区一区二区三区| 亚洲av网站在线观看一页| 人妻夜夜爽天天爽三区| 色妺妺视频网| 综合久久青青草免费观看视频| 一区二区三区国产内射| 人妻体内射精一区二区三四| 少妇激情av一区二区| 国产免费的视频一区二区| 久久一区二区国产精品| 97在线视频免费人妻| 亚洲av无码电影网| 久久久精品亚洲懂色av| 亚洲国产精品婷婷久久| 无人区一码二码三码四码区|