□ 羅楊洋 韓錫斌
近年來,人工智能技術(shù)與教育教學(xué)融合應(yīng)用受到各方關(guān)注。已有許多研究在實(shí)驗(yàn)環(huán)境中提出智能評價方案、智能學(xué)習(xí)模型、智能教學(xué)決策推薦方法,然而真正應(yīng)用到實(shí)踐并為教育教學(xué)帶來變革的智能技術(shù)還很少(韓錫斌,等,2017;趙帥,等,2019)。產(chǎn)生這種現(xiàn)象的原因包括技術(shù)壁壘、開發(fā)成本、模型和結(jié)果的解釋困難等(劉三女牙,等,2019;孟翀,等,2021;肖睿,等,2020)。人工智能為教育提供服務(wù)的核心是機(jī)器學(xué)習(xí)算法構(gòu)建的各種模型(蔣鑫,等,2020)。機(jī)器學(xué)習(xí)構(gòu)建模型的可解釋性是教學(xué)實(shí)踐者信任人工智能服務(wù)的前提(孫眾,等,2021),然而通過機(jī)器學(xué)習(xí)算法構(gòu)建的模型包含著不確定性,構(gòu)建模型的過程不透明,大多數(shù)結(jié)果與教育教學(xué)規(guī)律關(guān)聯(lián)薄弱,導(dǎo)致教學(xué)實(shí)踐者難以信任這些模型(Niels,2020)。在機(jī)器學(xué)習(xí)構(gòu)建的眾多模型之中,學(xué)習(xí)成績預(yù)測模型最受關(guān)注,它可以支持師生動態(tài)調(diào)整教學(xué)策略,提供變更學(xué)習(xí)路徑的有效方法,切實(shí)優(yōu)化教育教學(xué)。探究學(xué)習(xí)成績預(yù)測模型的可解釋性有助于揭示不同場景下的學(xué)習(xí)規(guī)律,幫助教師理解不同學(xué)生的學(xué)習(xí)經(jīng)歷、信任預(yù)測結(jié)果并依此為學(xué)生提供個性化幫助(鄭勤華,等,2019)。本研究旨在分析近年來學(xué)習(xí)分析領(lǐng)域和計(jì)算機(jī)科學(xué)領(lǐng)域?qū)︻A(yù)測模型的可解釋性研究,利用計(jì)算機(jī)科學(xué)領(lǐng)域解釋預(yù)測模型的研究基礎(chǔ),以混合課程場景下基于學(xué)生在線行為的成績預(yù)測模型為例,分析成績預(yù)測模型結(jié)構(gòu)所代表的教育意義,其內(nèi)在推理機(jī)制所揭示的學(xué)習(xí)行為與學(xué)習(xí)成績之間的預(yù)測關(guān)系,以及預(yù)測結(jié)果為教學(xué)實(shí)踐提供的啟示,對教師應(yīng)用成績預(yù)測模型提出建議。希望本研究有助于教學(xué)實(shí)踐者理解、應(yīng)用成績預(yù)測模型,為研究者提供解釋混合課程場景中成績預(yù)測模型的研究思路和分析框架。
當(dāng)前學(xué)界對機(jī)器學(xué)習(xí)的可解釋性還沒有統(tǒng)一的界定。Miller(2017)指出,可解釋性是指人類理解機(jī)器學(xué)習(xí)做出決策原因的程度。Lipton(2018)將可解釋性定義為人類使用機(jī)器學(xué)習(xí)模型從數(shù)據(jù)中揭示出知識時所揭示的知識彼此之間的關(guān)聯(lián)性。陳珂銳等(2020)認(rèn)為機(jī)器學(xué)習(xí)的可解釋性即使用可理解的術(shù)語表達(dá)機(jī)器學(xué)習(xí)過程和結(jié)果中所包含的概念。在教育領(lǐng)域,多個研究將可解釋性概括為參與教學(xué)的人在以下三個方面對預(yù)測模型的理解程度:知曉模型收集數(shù)據(jù)的目標(biāo),理解模型處理數(shù)據(jù)的過程,應(yīng)用模型預(yù)測的結(jié)果(Xing,et al.,2015;Zhang,et al.,2019;Jeon,et al.,2019)。正如Villagrá-Arnedo等人(2017)所指出的,提升預(yù)測模型的可解釋性是一個將“黑箱”透明化的過程,需要在數(shù)據(jù)解釋、過程解釋和預(yù)測結(jié)果解釋等多方面做出努力。探索學(xué)習(xí)成績預(yù)測模型可解釋性的研究主要涉及學(xué)習(xí)分析和計(jì)算機(jī)科學(xué)兩個領(lǐng)域。
學(xué)習(xí)分析領(lǐng)域內(nèi)的學(xué)者嘗試過多種解釋機(jī)器學(xué)習(xí)模型及其結(jié)果的方法。如Xing等(2015)解釋了基于決策樹預(yù)測完全在線學(xué)習(xí)中學(xué)生成績的過程和結(jié)果,該研究將學(xué)生在網(wǎng)絡(luò)教學(xué)平臺中的學(xué)習(xí)過程視為一種活動,依據(jù)活動理論(activity theory)構(gòu)建學(xué)習(xí)過程數(shù)據(jù)與學(xué)習(xí)成績的聯(lián)系,選擇遺傳算法調(diào)參后的各種決策樹算法構(gòu)建學(xué)習(xí)成績預(yù)測模型,根據(jù)遺傳算法確定的參數(shù)和決策樹的結(jié)構(gòu)解釋了學(xué)習(xí)過程數(shù)據(jù)和學(xué)習(xí)成績結(jié)果之間的預(yù)測規(guī)則。Sorour等人(2016)為了構(gòu)建可解釋的學(xué)習(xí)成績預(yù)測模型,同樣使用了樹狀結(jié)構(gòu)的算法。該研究將學(xué)生的行為標(biāo)簽化,使用學(xué)習(xí)行為—標(biāo)簽屬性—情境的規(guī)則,解釋了隨機(jī)森林算法將學(xué)生的學(xué)習(xí)過程數(shù)據(jù)轉(zhuǎn)化為預(yù)測結(jié)果的過程和路徑。Zhang等人(2019)同樣采用了遺傳算法構(gòu)建學(xué)習(xí)成績預(yù)測模型,并使用樹狀結(jié)構(gòu)的預(yù)測變量與結(jié)果變量規(guī)則解釋整個預(yù)測過程,說明了在研究情境下預(yù)測學(xué)習(xí)成績需要的重要變量以及這些變量之間的關(guān)聯(lián)。樹狀結(jié)構(gòu)的預(yù)測模型還可轉(zhuǎn)化為“if……then……”條件判斷語句,該表達(dá)方式也有利于教師將預(yù)測模型中提供的信息轉(zhuǎn)化為教學(xué)策略或教學(xué)干預(yù)。
基于決策樹算法構(gòu)建的預(yù)測模型只是成績預(yù)測模型中的一小部分。隨著學(xué)習(xí)情境的復(fù)雜化,許多研究都使用了多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型以提升預(yù)測結(jié)果精度,但為成績預(yù)測模型的可解釋性帶來了更大挑戰(zhàn) (胡航,等,2019)。Villagrá-Arnedo等人(2017)指出,在解釋“黑箱”算法構(gòu)建的預(yù)測模型時,解構(gòu)模型的結(jié)構(gòu)、描述預(yù)測模型內(nèi)在推理機(jī)制揭示的預(yù)測關(guān)系,以及解釋預(yù)測結(jié)果對教學(xué)實(shí)踐的啟示是有效手段。Donda等人(2020)通過特征工程、算法比較和預(yù)測過程的時序分析,應(yīng)用了Villagrá-Arnedo等人(2017)提出的成績預(yù)測模型的解釋框架。
預(yù)測模型早期的可解釋性主要通過事前的數(shù)據(jù)分布假設(shè)和建模時人工限制模型的復(fù)雜性來保證(Lei,et al.,2018)。然而,隨著機(jī)器學(xué)習(xí)模型逐漸非線性化和非參數(shù)化,模型的可解釋性逐漸降低。有學(xué)者指出,相較于整合樹(tree ensemble)模型或深度神經(jīng)網(wǎng)絡(luò)模型,回歸模型和關(guān)聯(lián)規(guī)則模型的可解釋性更強(qiáng)(王亮,2021;Zeileis,et al.,2008)。隨著應(yīng)用場景的復(fù)雜化,對預(yù)測精確性的要求不斷提高,解釋非參數(shù)、非線性的復(fù)雜機(jī)器學(xué)習(xí)模型成為學(xué)界和社會關(guān)注的焦點(diǎn)。
當(dāng)前計(jì)算機(jī)科學(xué)領(lǐng)域中的模型可解釋性研究大多圍繞解釋框架研究和解釋技術(shù)研究兩個方面展開。
解釋框架是解釋特定模型時必須解釋的內(nèi)容。預(yù)測模型的解釋框架由以下三部分構(gòu)成:預(yù)測模型結(jié)構(gòu)的解釋,預(yù)測模型內(nèi)在推理機(jī)制的解釋,以及預(yù)測結(jié)果的解釋(Murdoch,et al.,2019)。其中,預(yù)測模型結(jié)構(gòu)的解釋是說明預(yù)測模型的構(gòu)成要素及要素之間的關(guān)系;預(yù)測模型內(nèi)在推理機(jī)制的解釋是說明數(shù)據(jù)輸入預(yù)測模型后會經(jīng)由何種處理方法轉(zhuǎn)變?yōu)楹畏N形態(tài),對預(yù)測結(jié)果產(chǎn)生的影響是什么;預(yù)測結(jié)果的解釋包括預(yù)測結(jié)果與預(yù)測變量之間的關(guān)系解釋和預(yù)測結(jié)果在特定場景中表達(dá)的意義等(Molnar,2019)。
解釋技術(shù)是指分析、診斷和可視化機(jī)器學(xué)習(xí)過程的技術(shù)和方法(Vidovic,2017,p.18)。這些技術(shù)和方法對應(yīng)解釋框架的每個方面。如在解釋模型組成方面,有研究采用特征工程(feature engineering)技術(shù)提取輸入變量的意義,結(jié)合模型的數(shù)學(xué)基礎(chǔ)描繪模型可能形成的結(jié)構(gòu)(Montavon,et al.,2018);在解釋預(yù)測模型內(nèi)在推理機(jī)制方面,有學(xué)者(Cherkassky,et al.,2015)建議根據(jù)預(yù)測模型處理數(shù)據(jù)的方法,采用抽象的理論模型替代具體的預(yù)測模型;在預(yù)測結(jié)果的解釋方面,有針對特定場景的結(jié)果可視化技術(shù)將數(shù)字和概率轉(zhuǎn)換為更形象的圖形(Hall,et al.,2018,pp.14-27)。
綜上所述,當(dāng)前學(xué)習(xí)分析領(lǐng)域內(nèi)解釋預(yù)測模型的框架和技術(shù)均借鑒計(jì)算機(jī)科學(xué)領(lǐng)域?qū)︻A(yù)測模型的可解釋性研究。在成績預(yù)測模型的解釋研究中,學(xué)界傾向于回歸教學(xué)場景,以計(jì)算機(jī)科學(xué)領(lǐng)域的方法為基礎(chǔ),結(jié)合學(xué)習(xí)分析領(lǐng)域的實(shí)踐,形成了包含分析預(yù)測模型的結(jié)構(gòu)、解釋內(nèi)在推理機(jī)制和提出預(yù)測結(jié)果的應(yīng)用建議這三部分內(nèi)容的解釋框架,也為本研究解釋預(yù)測模型提供了基礎(chǔ)。然而,這些研究還局限在完全在線課程場景中,大多基于決策樹算法,只解釋了準(zhǔn)確率較高的結(jié)果,忽略了對預(yù)測錯誤產(chǎn)生原因的解釋,也缺乏對學(xué)生整體預(yù)測結(jié)果和個體預(yù)測結(jié)果之間存在差異這一現(xiàn)象的解釋。
混合課程是結(jié)合在線與面授兩種教學(xué)場景授課的課程,且其中有較大比例的教學(xué)是通過在線授課實(shí)現(xiàn)的(韓錫斌,等,2016,pp.320-323)。有關(guān)混合課程中學(xué)生成績預(yù)測的研究大多采用學(xué)生線上學(xué)習(xí)過程數(shù)據(jù)來構(gòu)建預(yù)測模型。在缺失學(xué)生線下學(xué)習(xí)過程數(shù)據(jù)的情況下,依賴不完整的學(xué)習(xí)過程數(shù)據(jù)構(gòu)建的學(xué)生成績預(yù)測模型與完全在線課程中學(xué)生成績預(yù)測模型在解釋性上有較大差異,當(dāng)前尚缺乏解釋此類成績預(yù)測模型的研究。
基于上述文獻(xiàn)分析,本研究提出兩個問題:
問題1:如何解釋混合課程中學(xué)生成績預(yù)測模型?
問題2:在混合課程中構(gòu)建學(xué)生成績預(yù)測模型能為教師提供哪些幫助?
依據(jù)數(shù)據(jù)可獲得性和研究可行性,以往研究均推薦采用學(xué)生在網(wǎng)絡(luò)教學(xué)平臺中的學(xué)習(xí)日志構(gòu)建混合課程中學(xué)生成績預(yù)測模型(Hellas,et al.,2018;Conijn,et al.,2018)。選擇一所學(xué)校一學(xué)期的學(xué)生網(wǎng)絡(luò)教學(xué)平臺學(xué)習(xí)日志,將學(xué)生對網(wǎng)絡(luò)教學(xué)平臺的操作與學(xué)習(xí)活動對應(yīng),依據(jù)Moore(1989)提出的教學(xué)交互對象劃分和陳麗(2004)提出的交互活動類型劃分理論,盡量收集囊括所有交互對象和交互類型的教學(xué)活動,并依據(jù)以往研究中使用過的學(xué)生在線行為指標(biāo),從學(xué)生在線學(xué)習(xí)日志中提取學(xué)生在線學(xué)習(xí)活動指標(biāo)作為預(yù)測變量(predictor variable,PV)。采用最大值—最小值歸一化方法處理混合課程中的學(xué)生在線行為數(shù)據(jù),去除數(shù)據(jù)量綱;從學(xué)校教務(wù)系統(tǒng)中提取每門課程的學(xué)生成績,以學(xué)校的學(xué)分績轉(zhuǎn)換方式將百分制的學(xué)生成績轉(zhuǎn)化為A(100~90)、B(89~80)、C(79~70)、D(69~60)、F(60分以下)五等。去除學(xué)生學(xué)分績完全相同的課程數(shù)據(jù),獲得本研究所需結(jié)果變量(outcome variable,OV)(見表1)。
表1 學(xué)生成績預(yù)測模型輸入變量表
續(xù)表
采用本團(tuán)隊(duì)以往提出的混合課程分類方法(Luo,et al.,2020),選擇學(xué)生在線行為活躍度較高的混合課程(共22門,2,348名學(xué)生),這類課程來自于生命科學(xué)、電氣與電子工程、法學(xué)、計(jì)算機(jī)科學(xué)和外語五個專業(yè),每門課程學(xué)生數(shù)量差異小于20人,均采用線上線下混合教學(xué)。參與該類課程的學(xué)習(xí)者為攻讀本科學(xué)位的學(xué)生,在參與課程方面的典型特征是:整體在線行為活躍度較高,幾乎全面參與各類交互學(xué)習(xí)活動;在各種在線行為指標(biāo)上有較大個性化差異;學(xué)生成績分布與全校學(xué)生成績分布相似。
使用當(dāng)前研究中常見的五種機(jī)器學(xué)習(xí)算法構(gòu)建學(xué)習(xí)成績預(yù)測模型,分別是邏輯回歸、多層感知器、隨機(jī)森林、多核支持向量機(jī)和樸素貝葉斯。在構(gòu)建學(xué)習(xí)成績預(yù)測模型的過程中,記錄算法輸出的中間結(jié)果作為解釋模型的依據(jù)。步驟如下:
首先,將混合課程數(shù)據(jù)分為11份,其中10份作為開發(fā)集,1份作為測試集。
其次,在開發(fā)集中采用上述五種算法分別構(gòu)建預(yù)測模型,在構(gòu)建模型時采用超參數(shù)調(diào)試法優(yōu)化算法參數(shù)。采用10折交叉驗(yàn)證分析預(yù)測模型,在交叉驗(yàn)證中將開發(fā)集劃分為1份驗(yàn)證集和9份訓(xùn)練集,并進(jìn)行迭代驗(yàn)證。輸出構(gòu)建預(yù)測模型的中間結(jié)果。
再次,將測試集輸入預(yù)測模型中,比較預(yù)測結(jié)果的差異。
最后,依據(jù)中間結(jié)果、預(yù)測結(jié)果和混合課程的場景,解釋不同算法所構(gòu)建的預(yù)測模型結(jié)構(gòu)所代表的教育意義,其內(nèi)在推理機(jī)制所解釋的學(xué)習(xí)行為對成績的預(yù)測關(guān)系,以及預(yù)測結(jié)果對實(shí)施混合課程帶來的啟示。
研究流程如圖1所示。
圖1 成績預(yù)測模型可解釋性研究流程圖
在本研究中混合課程學(xué)生成績是一個五級定類變量,且混合課程中的學(xué)生數(shù)量在各成績等級中具有較大差異,屬于非平衡數(shù)據(jù)的多分類問題。通常評價多分類問題的指標(biāo)包括權(quán)重準(zhǔn)確率(weighted accuracy)、權(quán)重查全率(weighted recall)和權(quán)重F1值(weighted F1 measure)評價。這些指標(biāo)從二分類預(yù)測結(jié)果評價公式推理得出,指標(biāo)的值會受到不同分類數(shù)量的影響(Hossin,et al.,2015)。為綜合評價各預(yù)測算法構(gòu)建的模型及其預(yù)測結(jié)果,研究在上述指標(biāo)基礎(chǔ)上加入了平均準(zhǔn)確率(average accuracy)、平均查全率(average recall)和宏F1值(Macro-F1 measure)等適用于非平衡數(shù)據(jù)的多分類問題評價的指標(biāo)(Shmueli,2020),從而更準(zhǔn)確地描述每個等級成績的預(yù)測結(jié)果,為優(yōu)化教學(xué)實(shí)踐提供更有意義的數(shù)據(jù)。根據(jù)各預(yù)測模型的測試數(shù)據(jù)和交叉驗(yàn)證的評價結(jié)果(見表2)可知,以隨機(jī)森林算法構(gòu)建的預(yù)測模型不但具有較高的預(yù)測結(jié)果準(zhǔn)確率,而且在查準(zhǔn)率和查全率等指標(biāo)中都有較好表現(xiàn)。
表2 各模型預(yù)測結(jié)果評價指標(biāo)
機(jī)器學(xué)習(xí)算法在數(shù)學(xué)原理上的差異導(dǎo)致以這些算法構(gòu)建的成績預(yù)測模型在結(jié)構(gòu)上代表了不同的教育含義。
在本研究中,邏輯回歸算法找出在混合課程中預(yù)測學(xué)生學(xué)習(xí)成績最準(zhǔn)確的在線學(xué)習(xí)行為指標(biāo)及其權(quán)重。在該預(yù)測模型中,不同于單門混合課程,在多門混合課程場景下,這種結(jié)構(gòu)表示了每種學(xué)生成績等級下大多數(shù)學(xué)生的學(xué)習(xí)行為模式(Donda,et al.,2020),這些行為模式可能跨課程出現(xiàn)。該預(yù)測模型通過發(fā)現(xiàn)大多數(shù)學(xué)生在線學(xué)習(xí)行為與學(xué)習(xí)成績的關(guān)聯(lián)關(guān)系中最顯著的那對關(guān)聯(lián)關(guān)系,給出對最終成績影響最大的在線學(xué)習(xí)行為指標(biāo)及其權(quán)重。該模型可幫助教師在學(xué)習(xí)結(jié)束時點(diǎn)預(yù)測每位學(xué)生的學(xué)習(xí)成績(Balle,etal.,2018)。
多層感知器算法關(guān)注的是學(xué)生的在線學(xué)習(xí)行為與其成績等級在對應(yīng)上的誤差及修正該誤差的指標(biāo)及其權(quán)重,因此整個預(yù)測模型表示的是學(xué)生的在線學(xué)習(xí)行為指標(biāo)與其成績等級之間的唯一映射關(guān)系。在多門混合課程場景中,學(xué)生在線學(xué)習(xí)行為指標(biāo)中預(yù)測每個成績等級最準(zhǔn)確的指標(biāo)被選出,表示各混合課程中影響學(xué)生獲得每類最終成績的共通性在線學(xué)習(xí)活動。該模型可幫助教師在任意學(xué)習(xí)時點(diǎn)預(yù)測每位學(xué)生的成績。
隨機(jī)森林算法構(gòu)建的是多種學(xué)生在線學(xué)習(xí)行為指標(biāo)模式對學(xué)習(xí)成績的預(yù)測關(guān)系。在該模型中,在線學(xué)習(xí)行為指標(biāo)的值會被劃分為不同的區(qū)間,形成多種在線學(xué)習(xí)行為指標(biāo)序列對應(yīng)的一類學(xué)習(xí)成績(方匡南,等,2011)。這種結(jié)構(gòu)說明,當(dāng)只采用在線學(xué)習(xí)行為預(yù)測學(xué)習(xí)成績時,在不同的混合課程中可用于預(yù)測學(xué)習(xí)成績的最顯著的在線學(xué)習(xí)行為模式有多種。該模型可幫助教師在任意學(xué)習(xí)時點(diǎn)預(yù)測每位學(xué)生在不同課程中的成績。
多核支持向量機(jī)構(gòu)建的是所有學(xué)生在線學(xué)習(xí)行為指標(biāo)對應(yīng)每類學(xué)習(xí)成績的關(guān)系模型,該模型表示的是在不同混合課程中,以學(xué)生在線學(xué)習(xí)行為預(yù)測五類學(xué)習(xí)成績的結(jié)果(劉方園,等,2018)。該模型可幫助教師在任意學(xué)習(xí)時點(diǎn)預(yù)測每位學(xué)生的學(xué)習(xí)成績,但該模型無法區(qū)分不同課程中學(xué)生在線學(xué)習(xí)行為預(yù)測學(xué)習(xí)成績的差異。
樸素貝葉斯算法關(guān)注的是當(dāng)學(xué)生的在線學(xué)習(xí)行為達(dá)到某種條件時所對應(yīng)的學(xué)習(xí)成績,因此該模型表示的是在混合課程學(xué)習(xí)結(jié)束時點(diǎn)達(dá)成某種值的在線學(xué)習(xí)行為所得到的學(xué)習(xí)成績。該模型能幫助教師在學(xué)習(xí)結(jié)束時點(diǎn)只觀察幾項(xiàng)在線學(xué)習(xí)行為就可以預(yù)測學(xué)生的學(xué)習(xí)成績。
從邏輯回歸模型結(jié)構(gòu)代表的教育意義討論可知,邏輯回歸模型預(yù)測的推理機(jī)制是,尋找新學(xué)生與模型最匹配的在線學(xué)習(xí)行為模式所對應(yīng)的學(xué)習(xí)成績。但在本研究的混合課程場景下,學(xué)生的學(xué)習(xí)過程包含線上和線下兩部分,僅使用在線學(xué)習(xí)過程數(shù)據(jù)預(yù)測學(xué)習(xí)成績可能出現(xiàn)兩種邏輯回歸無法區(qū)分的情況:一是學(xué)生的在線學(xué)習(xí)行為數(shù)據(jù)相似而學(xué)習(xí)成績不同;二是學(xué)生的在線學(xué)習(xí)行為數(shù)據(jù)不同而學(xué)習(xí)成績相似。因此,邏輯回歸模型的預(yù)測結(jié)果無法區(qū)分學(xué)生參與不同混合課程時的在線學(xué)習(xí)行為差異,由表2可知該模型預(yù)測效果較差。
多層感知器預(yù)測的推理機(jī)制是通過比較所預(yù)測的學(xué)生成績與學(xué)生實(shí)際成績之間的差異來不斷修正學(xué)生在線學(xué)習(xí)行為指標(biāo)的權(quán)重(Dreyfus,et al.,1990),并計(jì)算新加入學(xué)生的在線學(xué)習(xí)行為所對應(yīng)的學(xué)習(xí)成績。在本研究中,存在相同學(xué)生參與多門混合課程的情況,在不同要求下學(xué)生的在線學(xué)習(xí)行為與學(xué)習(xí)成績之間的關(guān)聯(lián)存在多種對應(yīng)關(guān)系,因此預(yù)測結(jié)果準(zhǔn)確率較差。例如,當(dāng)神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)一門課程中成績?yōu)锳的學(xué)生的在線學(xué)習(xí)行為數(shù)據(jù)時,其他成績等級學(xué)生的在線學(xué)習(xí)行為都會被認(rèn)為是非A的數(shù)據(jù),而當(dāng)該學(xué)生在其他課程中成績?yōu)榉茿,但其在線學(xué)習(xí)行為數(shù)據(jù)與本課程相似時,模型對該學(xué)生在線學(xué)習(xí)行為模式的識別就會出現(xiàn)二義性。在混合課程中,在線學(xué)習(xí)行為只代表學(xué)生的部分學(xué)習(xí)參與,與學(xué)習(xí)成績的關(guān)聯(lián)也存在多重對應(yīng)關(guān)系,因此如表2所示,多層感知器模型會出現(xiàn)較多預(yù)測錯誤。
隨機(jī)森林模型預(yù)測的推理機(jī)制是,依據(jù)混合課程中不同學(xué)生群體的在線學(xué)習(xí)行為與學(xué)習(xí)成績之間的預(yù)測關(guān)系對新加入的學(xué)生進(jìn)行劃分,在此機(jī)制下模型可識別某類成績等級下的多種學(xué)生在線學(xué)習(xí)行為模式,切割由于學(xué)生成績跨等級而在線學(xué)習(xí)行為模式又相似所產(chǎn)生的交互影響。例如,當(dāng)某位成績?yōu)锳的學(xué)生的在線學(xué)習(xí)行為與其他成績分類的學(xué)生相似時,模型會尋找該學(xué)生所屬的群體,并使用投票的方式預(yù)測該學(xué)生的成績。雖然在混合課程中在線學(xué)習(xí)行為只是部分學(xué)習(xí)行為,但每類成績的學(xué)生其行為模式不會過于分散,通過每門課程中大多數(shù)學(xué)生的在線學(xué)習(xí)行為即可分辨新加入學(xué)生的成績。只有某門課程中學(xué)生的學(xué)習(xí)成績與在線學(xué)習(xí)行為都十分相似時,隨機(jī)森林模型的推理才會出現(xiàn)錯誤。例如,成績?yōu)锳的學(xué)生與成績?yōu)镕的學(xué)生其在線學(xué)習(xí)行為數(shù)據(jù)相近,同時該課程中學(xué)習(xí)成績分別為B、C、D的學(xué)生中有相近行為的學(xué)生數(shù)量也較多,但這種情況不符合混合教學(xué)規(guī)律。由表2可以看出,該模型的預(yù)測結(jié)果各項(xiàng)指標(biāo)較高。
多核支持向量機(jī)模型預(yù)測的推理機(jī)制是,判斷新加入學(xué)生的在線學(xué)習(xí)行為數(shù)據(jù)與模型中在線學(xué)習(xí)行為數(shù)據(jù)的一致性,從而獲得對該學(xué)生成績的預(yù)測。在該模型構(gòu)建過程中不同批次輸入的數(shù)據(jù)所產(chǎn)生的錯誤會逐步累積,即當(dāng)某門課程中存在將F成績的學(xué)生識別為A成績的學(xué)生時,其他課程中與錯誤識別學(xué)生相關(guān)的在線學(xué)習(xí)行為都將被識別為A成績。另外,支持向量機(jī)會發(fā)生“拒絕分類”錯誤(Arun,et al.,2011)。在本研究中,每個成績等級下的學(xué)生數(shù)量不同,各混合課程中學(xué)生成績等級對應(yīng)的學(xué)生在線學(xué)習(xí)行為模式也有差異。在某門課程中建立的各成績等級與在線學(xué)習(xí)行為的對應(yīng)關(guān)系錯誤會隨著迭代而累積,導(dǎo)致最后在預(yù)測時出現(xiàn)巨大偏差。同時,各成績等級內(nèi)部在預(yù)測時出現(xiàn)“拒絕分類”后,被拒絕的學(xué)生會被劃分到最接近的成績等級中。這種劃分方法對學(xué)生在線學(xué)習(xí)行為模式接近但成績等級有差異的樣本會產(chǎn)生大量錯誤的分類,因此在表2中該模型預(yù)測結(jié)果的各項(xiàng)指標(biāo)較差。
樸素貝葉斯模型預(yù)測的推理機(jī)制是,根據(jù)模型所得條件概率計(jì)算學(xué)生在線學(xué)習(xí)行為屬于每一等級學(xué)習(xí)成績的概率,并將概率最高的學(xué)習(xí)成績作為預(yù)測結(jié)果。與邏輯回歸相似,這種預(yù)測方法難以識別相同的學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)(相同條件)對應(yīng)不同成績等級(不同結(jié)果)時發(fā)生的錯誤。從表2可知,樸素貝葉斯模型在本研究中也無法獲得較好的預(yù)測結(jié)果。
根據(jù)表2,本研究中預(yù)測準(zhǔn)確率較高的混合課程學(xué)生成績預(yù)測模型是隨機(jī)森林預(yù)測模型。圖2展示了隨機(jī)森林模型預(yù)測某位學(xué)生成績?yōu)锳的流程,其中PVn代表學(xué)生在線學(xué)習(xí)行為各指標(biāo)數(shù)據(jù)(預(yù)測變量),OV(N)代表輸出的學(xué)生成績等級(預(yù)測結(jié)果),xn代表決策樹葉子節(jié)點(diǎn)進(jìn)行下一步判斷的學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)閾值(依據(jù)變量),該變量根據(jù)訓(xùn)練過程中學(xué)生在線學(xué)習(xí)行為對學(xué)習(xí)成績的信息量貢獻(xiàn)不斷優(yōu)化獲得。
圖2 隨機(jī)森林模型預(yù)測流程示意圖
從圖2可知,當(dāng)兩位學(xué)生的在線行為數(shù)據(jù)較為相似而學(xué)習(xí)成績分類不同時,某一數(shù)據(jù)的細(xì)微差距可導(dǎo)致決策樹中對兩位學(xué)生的預(yù)測結(jié)果不同。隨機(jī)森林模型通過劃分學(xué)生和建立多棵決策樹識別這種差異。表2的結(jié)果為教師提供的信息是,教師可使用該預(yù)測模型判斷班級所有學(xué)生在當(dāng)前在線學(xué)習(xí)狀態(tài)下可能取得的最終成績,且預(yù)測正確的學(xué)生數(shù)量為全班學(xué)生總數(shù)的74.7%。
混合課程學(xué)生成績的整體預(yù)測準(zhǔn)確率不能直接引導(dǎo)教師優(yōu)化混合教學(xué),本研究將學(xué)生成績分為五類后進(jìn)一步提升了預(yù)測結(jié)果的可解釋性。如表3所示,在對每個學(xué)生個體成績等級進(jìn)行評價時,評價方法采用二分類評價,即只判斷預(yù)測結(jié)果是否屬于當(dāng)前成績等級,因此表3中各等級成績的預(yù)測查準(zhǔn)率就是模型對當(dāng)前成績等級的預(yù)測結(jié)果。在本研究中,混合課程中成績?yōu)锳和B的學(xué)生被預(yù)測準(zhǔn)確率最高,分別達(dá)到80.6%和85.3%。同時,成績?yōu)锳和B的學(xué)生其預(yù)測查全率也有很高數(shù)值,分別達(dá)到74.8%和85.3%,說明其他成績的學(xué)生被預(yù)測為A或B成績的錯誤率較低。此項(xiàng)結(jié)果表明,當(dāng)教師使用該模型對全班學(xué)生的學(xué)習(xí)成績進(jìn)行預(yù)測時,可識別大多數(shù)成績?yōu)锳和B的學(xué)生,從而將精力更多放在成績較低的學(xué)生中。
表3 混合課程中各成績等級學(xué)生預(yù)測結(jié)果評價
為進(jìn)一步解釋本研究中學(xué)生在線學(xué)習(xí)行為各指標(biāo)對學(xué)習(xí)成績預(yù)測的影響,記錄了學(xué)生在線學(xué)習(xí)行為對學(xué)習(xí)成績預(yù)測的重要性(如圖3所示)。在隨機(jī)森林模型中,預(yù)測變量重要性是指預(yù)測變量對結(jié)果變量預(yù)測準(zhǔn)確率的貢獻(xiàn),而非對結(jié)果變量的解釋(Du,et al.,2021)。通過比對樣本的變量和重要預(yù)測變量可判斷當(dāng)前樣本的預(yù)測結(jié)果是否可信(Ribeiro,et al.,2016)。如圖3所示,學(xué)生在線學(xué)習(xí)行為指標(biāo)作為預(yù)測變量時,各項(xiàng)指標(biāo)之間在重要性上的差異都小于0.2,且沒有任何一項(xiàng)或幾項(xiàng)指標(biāo)對成績預(yù)測結(jié)果產(chǎn)生了顯著影響。此項(xiàng)結(jié)果表明學(xué)生所有在線學(xué)習(xí)行為對學(xué)習(xí)成績預(yù)測的影響較為平均,當(dāng)學(xué)生個體在所有在線學(xué)習(xí)活動中均有較多行為數(shù)據(jù)時,本研究模型所得預(yù)測結(jié)果具有較高可信度;當(dāng)學(xué)生個體在某項(xiàng)或某幾項(xiàng)在線學(xué)習(xí)行為指標(biāo)上沒有數(shù)據(jù)時,模型對其預(yù)測的結(jié)果可信度較低。
圖3 預(yù)測變量重要性折線圖
應(yīng)用人工智能變革教育教學(xué)實(shí)踐的關(guān)鍵問題是人工智能的可解釋性(孫眾,等,2021)。作為人工智能基礎(chǔ)的機(jī)器學(xué)習(xí)是在教育教學(xué)場景中應(yīng)用的主要技術(shù)(蔣鑫,等,2020;鄭勤華,等,2019),探究如何解釋基于機(jī)器學(xué)習(xí)的學(xué)生成績預(yù)測模型可為人工智能教育應(yīng)用的可解釋性研究和實(shí)踐提供參考。
本研究綜合學(xué)習(xí)分析和計(jì)算機(jī)科學(xué)兩個領(lǐng)域?qū)C(jī)器學(xué)習(xí)技術(shù)可解釋性的研究發(fā)現(xiàn),在教學(xué)場景中解釋基于機(jī)器學(xué)習(xí)的學(xué)生成績預(yù)測模型主要關(guān)注三個方面:預(yù)測模型結(jié)構(gòu)所代表的教育意義、預(yù)測模型內(nèi)在推理機(jī)制所揭示的預(yù)測關(guān)系和預(yù)測結(jié)果對教學(xué)實(shí)踐的啟示。基于一所高校一學(xué)期的混合課程數(shù)據(jù),構(gòu)建基于學(xué)生在線學(xué)習(xí)行為的學(xué)習(xí)成績預(yù)測模型,并解釋了五種以機(jī)器學(xué)習(xí)算法構(gòu)建的學(xué)習(xí)成績預(yù)測模型。結(jié)果表明:①只采用學(xué)生的部分學(xué)習(xí)過程數(shù)據(jù)預(yù)測學(xué)習(xí)成績時,學(xué)生的行為模式與學(xué)習(xí)成績的映射關(guān)系存在多種模式,試圖構(gòu)建學(xué)生在線學(xué)習(xí)行為與學(xué)生成績一一對應(yīng)預(yù)測關(guān)系的預(yù)測模型難以獲得較好的預(yù)測結(jié)果。②本研究中的預(yù)測模型最高可預(yù)測正確所有混合課程中74.7%的學(xué)生,不同學(xué)習(xí)成績等級學(xué)生的預(yù)測準(zhǔn)確率差異較大,成績?yōu)锳和B的學(xué)生其被預(yù)測準(zhǔn)確率較高,達(dá)到80.6%和85.3%,成績?yōu)镃及以下的學(xué)生其被預(yù)測準(zhǔn)確率最高只達(dá)到63%。③本研究對學(xué)生個體的預(yù)測結(jié)果只有當(dāng)學(xué)生積極參加所有在線學(xué)習(xí)活動時才具有較高可信度,當(dāng)學(xué)生個體出現(xiàn)在線學(xué)習(xí)活動缺失時預(yù)測結(jié)果可信度較低。
2016年,在混沌計(jì)算機(jī)俱樂部第33屆會議上,有人提出通過將人臉或車牌印刷到衣服上“偽裝”自己從而反制當(dāng)前零售行業(yè)生物數(shù)據(jù)收集以及政府隱私數(shù)據(jù)收集的方法(EDRi,2016)。學(xué)生在混合課程中的學(xué)習(xí)過程包括線上和線下兩方面,從本研究僅基于學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)預(yù)測學(xué)習(xí)成績的結(jié)果可發(fā)現(xiàn),當(dāng)學(xué)生的在線學(xué)習(xí)行為較少,或只做出單一種類的在線學(xué)習(xí)行為時,更容易“偽裝”自己的學(xué)習(xí)成績,無論使用何種機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測模型,預(yù)測結(jié)果都是不可信的。
在當(dāng)前使用機(jī)器學(xué)習(xí)算法預(yù)測學(xué)生成績的研究中,學(xué)者們關(guān)注的重點(diǎn)仍是收集什么數(shù)據(jù),怎樣優(yōu)化算法以獲得更高的預(yù)測結(jié)果準(zhǔn)確率(Baker,2019;吳永和,等,2020)。混合課程場景的多樣性和靈活性不可能被幾種數(shù)據(jù)完全描述(牟智佳,等,2018),解釋當(dāng)前研究中準(zhǔn)確率較高的預(yù)測模型從而促進(jìn)教學(xué)實(shí)踐的關(guān)鍵在于,發(fā)現(xiàn)混合課程中對成績影響最為顯著的學(xué)習(xí)行為,發(fā)現(xiàn)學(xué)習(xí)行為與成績的多重對應(yīng)關(guān)系,從而豐富教師實(shí)施混合教學(xué)時的個性化教學(xué)方案。
本研究通過比較多種以機(jī)器學(xué)習(xí)算法構(gòu)建的基于學(xué)生在線學(xué)習(xí)行為的混合課程學(xué)生成績預(yù)測模型,為教師在混合課程場景下應(yīng)用成績預(yù)測模型提出如下建議:
1.針對混合課程特點(diǎn)應(yīng)用預(yù)測結(jié)果
本研究中的樣本均來源于學(xué)生在線學(xué)習(xí)行為活躍度較高的混合課程,但從不同預(yù)測模型得到的結(jié)果來看只有隨機(jī)森林模型預(yù)測結(jié)果較好。這說明混合教學(xué)中學(xué)生可通過多樣化的在線學(xué)習(xí)獲得較好成績,達(dá)成教學(xué)目標(biāo)的在線學(xué)習(xí)行為模式不止一種。教師應(yīng)建設(shè)多樣化的在線課程活動,給學(xué)生提供更多學(xué)習(xí)機(jī)會,從而滿足不同學(xué)習(xí)偏好學(xué)生的學(xué)習(xí)需求,達(dá)成混合課程目標(biāo)。同時,教師應(yīng)關(guān)注預(yù)測成績較差的學(xué)生,具有較高的在線學(xué)習(xí)活躍度卻被預(yù)測成績較差表明學(xué)生可能在學(xué)習(xí)方法或心理等其他方面出現(xiàn)了問題。
2.理解模型的推理機(jī)制以靈活切換預(yù)測模型
當(dāng)前在完全在線課程和混合課程情境中,多種以機(jī)器學(xué)習(xí)算法構(gòu)建的成績預(yù)測模型都被證明有較高準(zhǔn)確率。然而,本研究的結(jié)果表明相同混合課程中以不同算法構(gòu)建的預(yù)測模型具有不同的預(yù)測結(jié)果準(zhǔn)確率。這說明教師應(yīng)對機(jī)器學(xué)習(xí)算法的預(yù)測推理機(jī)制有基本的了解,從而分辨所使用的成績預(yù)測模型是否可持續(xù)優(yōu)化教學(xué)。在混合課程的教學(xué)設(shè)計(jì)發(fā)生變化時,靈活使用依據(jù)不同預(yù)測推理機(jī)制構(gòu)建的預(yù)測模型有助于獲取更準(zhǔn)確的教學(xué)干預(yù)依據(jù)。
3.依據(jù)學(xué)生在線學(xué)習(xí)行為的完整性判斷預(yù)測結(jié)果是否可信
通過成績預(yù)測模型呈現(xiàn)班級或課程所有學(xué)生的預(yù)測結(jié)果為教師帶來的信息有限,教師更希望了解每個學(xué)生的獨(dú)特學(xué)習(xí)模式以實(shí)現(xiàn)個性化教學(xué)。因此,使用成績將學(xué)生分為多個類別并實(shí)現(xiàn)預(yù)測,相較于將學(xué)生分為合格/不合格更具有教學(xué)意義。另外,在預(yù)測模型中,預(yù)測變量的重要性并非對結(jié)果變量形成的解釋,而是對得到準(zhǔn)確預(yù)測結(jié)果的貢獻(xiàn)(Ribeiro,et al.,2016)。本研究發(fā)現(xiàn),若學(xué)生個體未參與某種或某幾種在線學(xué)習(xí)活動時,對其的預(yù)測結(jié)果可信度較低。教師可依據(jù)學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)是否有缺失來判斷是否依據(jù)學(xué)生個體的預(yù)測結(jié)果為學(xué)生提供個性化的幫助和支持。