楊豐玉,聶偉,鄭巍,喬廣超
(南昌航空大學(xué)軟件學(xué)院,南昌330063)
近年來(lái)隨著大數(shù)據(jù)技術(shù)的興起,大數(shù)據(jù)技術(shù)逐漸在教育領(lǐng)域得到廣泛應(yīng)用,教育信息化技術(shù)得到快速發(fā)展。同時(shí),國(guó)家對(duì)教育信息化的發(fā)展越發(fā)重視。2016 年,國(guó)務(wù)院印發(fā)《國(guó)家教育事業(yè)發(fā)展“十三五”規(guī)劃》鼓勵(lì)高校利用發(fā)展教育信息化技術(shù),對(duì)教育教學(xué)活動(dòng)中的學(xué)生行為數(shù)據(jù)進(jìn)行廣泛收集、分析和研究,探索、發(fā)展學(xué)分制度,實(shí)行學(xué)生自主選課原則,從國(guó)家層面將教育信息化技術(shù)納入發(fā)展規(guī)劃中[1]。此外,《2017新媒體聯(lián)盟中國(guó)高等教育技術(shù)展望:地平線(xiàn)項(xiàng)目區(qū)域報(bào)告》分析了學(xué)習(xí)分析技術(shù)和量化技術(shù)在教育領(lǐng)域的發(fā)展前景,表示在未來(lái)四五年內(nèi),學(xué)習(xí)分析技術(shù)和量化技術(shù)能為教育領(lǐng)域帶來(lái)新的想象空間,為教育教學(xué)活動(dòng)提供科學(xué)指導(dǎo)[2]。因此,如何利用學(xué)習(xí)預(yù)警技術(shù)、學(xué)習(xí)分析技術(shù)提高教學(xué)質(zhì)量,是教育大數(shù)據(jù)發(fā)展過(guò)程中亟待解決的、具有重要意義的問(wèn)題之一。
在線(xiàn)學(xué)習(xí)平臺(tái)出現(xiàn)之后,加速學(xué)生學(xué)習(xí)日志記錄數(shù)據(jù)的積累,海量學(xué)生學(xué)習(xí)日志記錄數(shù)據(jù)成倍增加,為學(xué)習(xí)預(yù)警研究提供了更為廣闊的數(shù)據(jù)支持。學(xué)習(xí)者學(xué)習(xí)行為產(chǎn)生的海量數(shù)據(jù)蘊(yùn)含豐富信息,成為研究學(xué)習(xí)行為與學(xué)習(xí)成績(jī)的相關(guān)關(guān)系的重要基礎(chǔ),為在線(xiàn)學(xué)習(xí)預(yù)警提供了新的思路[3]。大數(shù)據(jù)技術(shù)在教育領(lǐng)域的應(yīng)用主要體現(xiàn)在,一是根據(jù)在線(xiàn)平臺(tái)獲取的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行管理分析,以此構(gòu)建學(xué)習(xí)者學(xué)習(xí)行為模型,對(duì)學(xué)習(xí)者未來(lái)學(xué)習(xí)效果進(jìn)行有效預(yù)測(cè);二是對(duì)學(xué)習(xí)行為進(jìn)行分析,判斷學(xué)習(xí)者當(dāng)前學(xué)習(xí)狀態(tài),生成學(xué)生“體檢”報(bào)告[4]。
目前在在線(xiàn)學(xué)習(xí)平臺(tái)的推動(dòng)下,學(xué)習(xí)預(yù)警技術(shù)的發(fā)展與應(yīng)用達(dá)到教育信息化的新高潮。國(guó)外學(xué)習(xí)預(yù)警主要集中于預(yù)警系統(tǒng)開(kāi)發(fā)與應(yīng)用、分析方法、可視化工具等領(lǐng)域;國(guó)內(nèi)主要集中于學(xué)習(xí)預(yù)警模型設(shè)計(jì)、風(fēng)險(xiǎn)預(yù)測(cè)等領(lǐng)域。本文將著重從大數(shù)據(jù)角度分析學(xué)習(xí)預(yù)警概念、系統(tǒng)構(gòu)建、系統(tǒng)應(yīng)用以及學(xué)習(xí)預(yù)警系統(tǒng)的挑戰(zhàn)與展望。
學(xué)習(xí)預(yù)警(Early-Warning for Learning)指按照一定的標(biāo)準(zhǔn)對(duì)學(xué)生的學(xué)習(xí)背景、學(xué)習(xí)行為以及測(cè)驗(yàn)成績(jī)等相關(guān)數(shù)據(jù)進(jìn)行分析,根據(jù)分析結(jié)果向教學(xué)人員、學(xué)生發(fā)出提示信號(hào),對(duì)有問(wèn)題的學(xué)生提供有針對(duì)性的干預(yù)意見(jiàn)[5]。預(yù)警分析中,研究者力求了解學(xué)習(xí)者的學(xué)習(xí)過(guò)程,提前發(fā)現(xiàn)學(xué)習(xí)風(fēng)險(xiǎn),并為學(xué)習(xí)者提供合理建議;學(xué)習(xí)預(yù)警系統(tǒng)主要是確定具有潛在的風(fēng)險(xiǎn),通過(guò)對(duì)學(xué)生基本數(shù)據(jù)進(jìn)行分析處理,生成學(xué)習(xí)預(yù)警報(bào)告[6]。
在國(guó)外,美國(guó)是學(xué)習(xí)預(yù)警系統(tǒng)研究與開(kāi)發(fā)的領(lǐng)跑者,已經(jīng)有一些學(xué)校和企業(yè)機(jī)構(gòu)根據(jù)教育發(fā)展的需求成功研發(fā)出各具特色的學(xué)習(xí)預(yù)警系統(tǒng),并在實(shí)際教學(xué)應(yīng)用中獲得了較好的反饋,特別是在防止輟學(xué)方面,積累了寶貴的經(jīng)驗(yàn)[7-8]。
Hu Y.H.等人提出的預(yù)警系統(tǒng)可以通過(guò)分析學(xué)習(xí)管理系統(tǒng)(Learning Management System,LMS)中記錄的學(xué)習(xí)日志數(shù)據(jù)來(lái)幫助識(shí)別處于危險(xiǎn)中的學(xué)生或預(yù)測(cè)學(xué)生的學(xué)習(xí)績(jī)效,以往的研究主要集中在課程結(jié)束后學(xué)習(xí)者績(jī)效評(píng)價(jià)指標(biāo)的構(gòu)建上,而忽視了“預(yù)警”系統(tǒng)在課程實(shí)施過(guò)程中對(duì)高危學(xué)生進(jìn)行預(yù)測(cè)的實(shí)用價(jià)值[9]。
可汗學(xué)院(Khan Academy)在2013 年提出學(xué)習(xí)儀表板(Learning Dashboard)概念,并應(yīng)用于數(shù)學(xué)課程。學(xué)習(xí)儀表盤(pán)通過(guò)學(xué)習(xí)行為分析模型分析學(xué)生當(dāng)前學(xué)習(xí)狀態(tài),并將學(xué)習(xí)狀態(tài)進(jìn)行可視化呈現(xiàn)。同時(shí),根據(jù)用戶(hù)的需求對(duì)數(shù)據(jù)進(jìn)行分析。最后,向?qū)W習(xí)者、教師、研究人員和教育管理人員提供電子學(xué)習(xí)中的圖形和圖表等可視化形式[8]。
華金秋對(duì)學(xué)習(xí)預(yù)警制度和學(xué)習(xí)預(yù)警機(jī)制進(jìn)行對(duì)比分析,指出前者是指通過(guò)利用大數(shù)據(jù)技術(shù)手段,構(gòu)建一套學(xué)生學(xué)習(xí)狀態(tài)的預(yù)測(cè)、評(píng)價(jià)和干預(yù)制度,以此確保學(xué)生能夠順利完成學(xué)業(yè);后者主要強(qiáng)調(diào)學(xué)校、學(xué)生、家長(zhǎng)之間的協(xié)作交流,構(gòu)建三位一體的教育教學(xué)模式,并能夠及時(shí)發(fā)現(xiàn)和識(shí)別學(xué)生潛在的問(wèn)題,向?qū)W生、家長(zhǎng)以及教學(xué)人員發(fā)出提示信號(hào),預(yù)測(cè)可能產(chǎn)生的不良后果[10]。
美國(guó)新媒體聯(lián)盟在地平線(xiàn)報(bào)告中指出學(xué)習(xí)分析技術(shù)是利用數(shù)據(jù)收集工具采集學(xué)生學(xué)習(xí)過(guò)程中的行為數(shù)據(jù),分析學(xué)習(xí)過(guò)程中的行為表現(xiàn)、參與狀態(tài)等數(shù)據(jù),對(duì)教學(xué)狀態(tài)和學(xué)生學(xué)習(xí)狀態(tài)進(jìn)行實(shí)時(shí)評(píng)價(jià)[11]。學(xué)習(xí)預(yù)警和學(xué)習(xí)分析是大數(shù)據(jù)技術(shù)在教育領(lǐng)域應(yīng)用的兩種重要方法。學(xué)習(xí)預(yù)警與學(xué)習(xí)分析相互交織,卻又有所區(qū)別。相同點(diǎn)主要在于具有相同的研究對(duì)象和研究方法。主要區(qū)別在于研究目的不同。學(xué)習(xí)預(yù)警基于學(xué)生學(xué)習(xí)過(guò)程對(duì)學(xué)習(xí)結(jié)果進(jìn)行預(yù)測(cè),發(fā)現(xiàn)有問(wèn)題的學(xué)生;學(xué)習(xí)分析側(cè)重于學(xué)習(xí)者學(xué)習(xí)過(guò)程的評(píng)價(jià),對(duì)學(xué)習(xí)者學(xué)習(xí)能力和狀態(tài)進(jìn)行評(píng)估研究,為其提供合適的教育教學(xué)方法。
分析技術(shù)早期主要應(yīng)用于物理、生物等領(lǐng)域,在教育領(lǐng)域的應(yīng)用較晚。隨著大數(shù)據(jù)技術(shù)的發(fā)展,教育信息化研究漸漸引入分析技術(shù),其中學(xué)習(xí)預(yù)警技術(shù)和學(xué)習(xí)分析技術(shù)是分析技術(shù)在教育信息化研究中的具體應(yīng)用[12]。Angela 等人[13]對(duì)學(xué)習(xí)分析在高等教育領(lǐng)域的應(yīng)用中采用的術(shù)語(yǔ)和描述概念進(jìn)行了總結(jié),發(fā)現(xiàn)學(xué)習(xí)分析、學(xué)術(shù)分析和預(yù)測(cè)分析研究方向已經(jīng)概念定義最為接近。徐鵬[4]則指出學(xué)習(xí)預(yù)警技術(shù)和學(xué)習(xí)分析技術(shù)均是分析相同的學(xué)習(xí)行為數(shù)據(jù),但研究目的和對(duì)象不同。Abelardo 等人[14]提出學(xué)習(xí)分析指在提供有意義的教學(xué)指導(dǎo),學(xué)習(xí)預(yù)警旨在分析學(xué)習(xí)行為與學(xué)習(xí)結(jié)果的關(guān)系和分析對(duì)問(wèn)題學(xué)生的干預(yù)策略。肖巍等人[5]分析了數(shù)據(jù)挖掘和學(xué)習(xí)預(yù)警異同,指出數(shù)據(jù)挖掘利用相關(guān)算法從大量冗余數(shù)據(jù)中發(fā)現(xiàn)隱藏的關(guān)系和規(guī)律,數(shù)據(jù)挖掘技術(shù)促進(jìn)學(xué)習(xí)預(yù)警的研究與發(fā)展,為其提供了新的研究方向。學(xué)習(xí)預(yù)警與學(xué)習(xí)分析具體比較情況如表1。
表1 學(xué)習(xí)預(yù)警和學(xué)習(xí)分析比較
學(xué)習(xí)成績(jī)是衡量學(xué)生學(xué)習(xí)效果的重要指標(biāo)之一。根據(jù)相關(guān)文獻(xiàn)以及學(xué)生實(shí)際學(xué)習(xí)表現(xiàn)發(fā)現(xiàn)學(xué)生學(xué)習(xí)行為對(duì)學(xué)習(xí)成績(jī)有重要影響。因此,在學(xué)習(xí)預(yù)警研究過(guò)程中,利用數(shù)據(jù)挖掘技術(shù)分析影響學(xué)習(xí)效果的重要指標(biāo)是學(xué)習(xí)預(yù)警研究的重要方向之一。同時(shí),數(shù)據(jù)挖掘算法分析結(jié)果也受到輸入指標(biāo)數(shù)據(jù)影響,因此如何做好預(yù)警指標(biāo)數(shù)據(jù)處理至關(guān)重要。
陳益均等人[15]采用聚類(lèi)算法和K-means 算法對(duì)學(xué)生數(shù)據(jù)進(jìn)行分析,研究學(xué)生上網(wǎng)行為與英語(yǔ)四級(jí)通過(guò)率的關(guān)系,結(jié)果表明上網(wǎng)行為中的下載流量、在線(xiàn)時(shí)長(zhǎng)、使用費(fèi)用各指標(biāo)對(duì)四級(jí)通過(guò)率影響最大。楊雪等人[16]利用Moodle 平臺(tái)數(shù)據(jù)進(jìn)行處理和分析,發(fā)現(xiàn)完成作業(yè)時(shí)間、完成作業(yè)次數(shù)、互評(píng)時(shí)間、互評(píng)次數(shù)及自評(píng)次數(shù)和自評(píng)時(shí)間等6 個(gè)課程變量與學(xué)習(xí)成績(jī)主要相關(guān)。
李建偉等人[17]運(yùn)用邏輯回歸算法分析入學(xué)成績(jī)、作業(yè)成績(jī)、學(xué)生類(lèi)別等指標(biāo)與已完成課程的平均成績(jī)相關(guān)性,構(gòu)建學(xué)習(xí)風(fēng)險(xiǎn)預(yù)測(cè)模型。研究結(jié)果顯示作業(yè)成績(jī)與“已完成課程的平均成績(jī)”相關(guān)性最高,接下來(lái)依次是“已完成的課程數(shù)”、“生源地”、“學(xué)生類(lèi)別”、“課程學(xué)習(xí)平均時(shí)長(zhǎng)”、“章節(jié)測(cè)試成績(jī)”和“入學(xué)成績(jī)”。
王改花等人[18]總結(jié)數(shù)據(jù)預(yù)處理的具體步驟,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約等,通過(guò)數(shù)據(jù)預(yù)處理提取了不同學(xué)習(xí)背景、不同學(xué)歷、不同性別學(xué)生的9 個(gè)學(xué)習(xí)行為特征指標(biāo),分別為學(xué)習(xí)時(shí)間跨度、平均每次在線(xiàn)學(xué)習(xí)停留時(shí)長(zhǎng)、學(xué)習(xí)總時(shí)長(zhǎng)、重復(fù)學(xué)習(xí)率、討論交流、學(xué)習(xí)次數(shù)、接收反饋數(shù)量、學(xué)習(xí)筆記、總成績(jī)。利用決策樹(shù)方法對(duì)9 個(gè)學(xué)習(xí)行為特征與總成績(jī)進(jìn)行逐個(gè)分析,結(jié)果發(fā)現(xiàn)成績(jī)與學(xué)科背景關(guān)系最密切,其次是性別,學(xué)歷對(duì)總成績(jī)的影響最小。
表2 學(xué)習(xí)預(yù)警指標(biāo)相關(guān)研究情況
吳青等人[19]對(duì)Moodle 平臺(tái)數(shù)據(jù)進(jìn)行提取處理得到各學(xué)員對(duì)各章節(jié)知識(shí)點(diǎn)瀏覽時(shí)間、在線(xiàn)作業(yè)成績(jī)、發(fā)言類(lèi)型、發(fā)言次數(shù)和字?jǐn)?shù)、性別、年齡、婚否與前置學(xué)歷等作為特征變量,將數(shù)據(jù)進(jìn)行離散化處理。其中采用最近鄰算法中的IBk 算法處理異常值數(shù)據(jù),具體方法是計(jì)算學(xué)員向量空間距離,再人工篩選剔除異常值。研究發(fā)現(xiàn)各章節(jié)知識(shí)點(diǎn)瀏覽時(shí)間和在線(xiàn)作業(yè)成績(jī)與學(xué)習(xí)成績(jī)顯著相關(guān),發(fā)言次數(shù)和字?jǐn)?shù)對(duì)學(xué)習(xí)成績(jī)略有影響,其他指標(biāo)影響不顯著。
Wladis 等人[20]收集了來(lái)自美國(guó)東北一所大型城市社區(qū)學(xué)院1001 名在線(xiàn)學(xué)習(xí)學(xué)生和1329 名面對(duì)面學(xué)習(xí)學(xué)生的學(xué)習(xí)記錄。包括入學(xué)前平均學(xué)分績(jī)點(diǎn)、學(xué)生是否申請(qǐng)或接受經(jīng)濟(jì)資助、年齡、性別、種族等特征變量信息。還有很多學(xué)者對(duì)學(xué)習(xí)預(yù)警指標(biāo)選取進(jìn)行了研究,表2 匯總了部分研究的具體情況。
通過(guò)對(duì)文獻(xiàn)進(jìn)行分析,納入學(xué)習(xí)預(yù)警的數(shù)據(jù)指標(biāo)主要分為以下幾類(lèi):
(1)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為:主要包括章節(jié)測(cè)試成績(jī)、課程平均學(xué)習(xí)時(shí)長(zhǎng)、上課時(shí)間、論壇交流互動(dòng)次數(shù)、觀(guān)看視頻次數(shù)等;
(2)學(xué)生屬性:主要包括性別、年齡、入學(xué)成績(jī)、學(xué)生類(lèi)別、國(guó)籍等;
(3)教師屬性:主要包括性別、年齡、好評(píng)度等;
(4)課程屬性:主要包括難易程度、歷史平均得分、分?jǐn)?shù)段人數(shù)等;
(5)學(xué)習(xí)環(huán)境:主要包括學(xué)生資助情況、圖書(shū)館到館情況等。
確定學(xué)習(xí)預(yù)警的數(shù)據(jù)指標(biāo)后,通常還需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。通過(guò)對(duì)國(guó)內(nèi)外文獻(xiàn)進(jìn)行分析,預(yù)警指標(biāo)處理主要分為以下幾個(gè)方面:①缺失值、異常值處理;②數(shù)據(jù)標(biāo)準(zhǔn)化處理;③預(yù)警指標(biāo)量化,如離散化、歸一化。對(duì)于不平衡數(shù)據(jù)常采用重抽樣或欠采用方法。
李建偉等人[17]對(duì)學(xué)習(xí)者數(shù)據(jù)分為行為數(shù)據(jù)和信息數(shù)據(jù),在學(xué)習(xí)者特征屬性值選取中設(shè)置20%為缺失數(shù)據(jù)閾值,丟失數(shù)據(jù)超過(guò)20%的屬性進(jìn)行丟棄,對(duì)于不平衡的數(shù)據(jù)采用SMOTE 采樣方法進(jìn)行重抽樣。尹茂竹等人[25]數(shù)將據(jù)缺失值按照缺失機(jī)制劃分為完全的隨機(jī)缺失、隨機(jī)缺失、非隨機(jī)的缺失三類(lèi),對(duì)缺失值采用刪除存在缺失值的個(gè)案和缺失值插補(bǔ)兩種方法;引入Z分?jǐn)?shù)概念處理成績(jī)不平衡問(wèn)題,并對(duì)變量進(jìn)行歸一化;對(duì)學(xué)生行為構(gòu)建序號(hào)表,名義變量用0、1 表示法等進(jìn)行數(shù)字化處理。陳子健等人[26]采用對(duì)原始數(shù)據(jù)中所有的單個(gè)屬性通過(guò)計(jì)算皮爾森相關(guān)系數(shù)活信息增益率進(jìn)行評(píng)估并排序,然后依據(jù)排序結(jié)果來(lái)選擇屬性子集的方法確定影響學(xué)習(xí)成績(jī)相關(guān)指標(biāo)。
學(xué)習(xí)預(yù)警框架通常定義了學(xué)習(xí)預(yù)警系統(tǒng)的體系結(jié)構(gòu),給出了學(xué)習(xí)預(yù)警數(shù)據(jù)的完整處理過(guò)程,因此學(xué)習(xí)預(yù)警框架設(shè)計(jì)的好壞直接關(guān)系到預(yù)警系統(tǒng)的效率與效果。目前很多學(xué)者從不同角度對(duì)學(xué)習(xí)預(yù)警的框架結(jié)構(gòu)進(jìn)行設(shè)計(jì)。
武法提等人[27]設(shè)計(jì)了學(xué)習(xí)效果預(yù)測(cè)框架。該框架包括學(xué)習(xí)內(nèi)容分析、學(xué)習(xí)行為分析和學(xué)習(xí)預(yù)測(cè)分析三大模塊,如圖1 所示。學(xué)習(xí)內(nèi)容主要從學(xué)習(xí)時(shí)長(zhǎng)、交流活動(dòng)、作業(yè)和考試情況進(jìn)行分析;學(xué)習(xí)行為主要從學(xué)習(xí)活動(dòng)行為和學(xué)習(xí)結(jié)果行為進(jìn)行分析;學(xué)習(xí)預(yù)測(cè)主要采用聚類(lèi)分析、時(shí)間序列分析、決策樹(shù)分析。
圖1 武法提的學(xué)習(xí)結(jié)果預(yù)測(cè)框架
金義富等人[28]采用離群數(shù)據(jù)挖掘與分析技術(shù)構(gòu)建“三位一體”預(yù)警制度,將課程、課堂和課外結(jié)合起來(lái),對(duì)學(xué)生進(jìn)行全方位預(yù)警,并提出了LAOMA(Model of Learning Alert Based on Outlier Mining and Analysis)學(xué)生預(yù)警模型,如圖2 所示。其主要步驟是獲取包括主要知識(shí)點(diǎn)、測(cè)驗(yàn)評(píng)分、作業(yè)情況以及與該課程相互關(guān)聯(lián)的其他課程完成情況和成績(jī)等數(shù)據(jù)、離群挖掘與分析、構(gòu)建LAOMA 模型、兩類(lèi)六級(jí)信號(hào)與影響因素反饋。
圖2 金義富等人的學(xué)習(xí)預(yù)警LAOMA模型框架
LAOMA 模型中還建立了學(xué)習(xí)預(yù)警兩類(lèi)六級(jí)信號(hào)含義及其參考標(biāo)準(zhǔn),用于描述學(xué)習(xí)預(yù)警的結(jié)構(gòu),詳見(jiàn)表3。
表3 金義富等人的兩類(lèi)六級(jí)學(xué)習(xí)預(yù)警信號(hào)含義及判別標(biāo)準(zhǔn)表
Wu R.等人[29]提出了一個(gè)模糊認(rèn)知診斷框架(FuzzyCDF),如圖3 所示,用于考生的客觀(guān)和主觀(guān)問(wèn)題的認(rèn)知建模。診斷框架從考生的潛在特征開(kāi)始,然后確定被測(cè)試技能的熟練程度,計(jì)算考生的問(wèn)題掌握情況,并通過(guò)考慮失誤和猜測(cè)因素生成考生在問(wèn)題上的可觀(guān)察分?jǐn)?shù),提出了一種MCMC 抽樣算法來(lái)推斷FuzzyDF 的不可觀(guān)測(cè)參數(shù)。實(shí)驗(yàn)證明,F(xiàn)uzzyCDF 可以更有效地預(yù)測(cè)考生的表現(xiàn)。
王林麗等人[30]提出了學(xué)習(xí)預(yù)警功能模型,具體分為數(shù)據(jù)收集、數(shù)據(jù)分析、預(yù)警信息呈現(xiàn)和提供干預(yù)四個(gè)階段,從學(xué)習(xí)者知識(shí)掌握程度、學(xué)習(xí)情緒變動(dòng)和行為特征三個(gè)方面出發(fā),構(gòu)建在線(xiàn)學(xué)習(xí)預(yù)警功能模型,如圖4所示。
圖3 Wu R.的4層模糊認(rèn)知診斷框架
圖4 王林麗等人的學(xué)習(xí)預(yù)警功能模型
此外,王林麗等人[30]還提出學(xué)習(xí)預(yù)警的過(guò)程模型,分為七步,明確預(yù)警目的和內(nèi)容、數(shù)據(jù)采集、數(shù)據(jù)分析、預(yù)警信息和學(xué)習(xí)情況呈現(xiàn)、預(yù)警信息推送、個(gè)性化建議提出和資源推薦、個(gè)性化建議和個(gè)性化資源推送給相應(yīng)的學(xué)習(xí)者,如圖5 所示。
圖5 王林麗等人的學(xué)習(xí)預(yù)警過(guò)程模型
李建偉等人[17]設(shè)計(jì)了在線(xiàn)學(xué)習(xí)風(fēng)險(xiǎn)預(yù)測(cè)框架,包括數(shù)據(jù)清洗、訓(xùn)練模型和預(yù)測(cè)應(yīng)用三個(gè)階段:數(shù)據(jù)清洗階段首先需要選取合適的數(shù)據(jù)源,然后處理數(shù)據(jù)異常值和缺失值,最后將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù);訓(xùn)練模型是的使用機(jī)器學(xué)習(xí)算法對(duì)重抽樣數(shù)據(jù)進(jìn)行訓(xùn)練和調(diào)優(yōu)的過(guò)程,最終生成最優(yōu)模型;預(yù)測(cè)運(yùn)用是對(duì)將學(xué)生的學(xué)習(xí)數(shù)據(jù)利用模型進(jìn)行預(yù)測(cè),得出預(yù)測(cè)結(jié)果。如圖6 所示。
圖6 風(fēng)險(xiǎn)預(yù)測(cè)框架
自教育大數(shù)據(jù)概念提出以后,國(guó)內(nèi)外很多學(xué)者致力于學(xué)習(xí)預(yù)警方法的研究。通過(guò)對(duì)國(guó)內(nèi)外文獻(xiàn)研究發(fā)現(xiàn),大多數(shù)學(xué)習(xí)預(yù)警研究方法主要運(yùn)用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)。主要包括決策樹(shù)、隨機(jī)森林、邏輯回歸、反向神經(jīng)網(wǎng)絡(luò)、聚類(lèi)、支持向量機(jī)等。
Gokhan Akcapinar 等人[22]在開(kāi)發(fā)學(xué)習(xí)預(yù)警系統(tǒng)過(guò)程中發(fā)現(xiàn),在算法方面使用原始數(shù)據(jù)時(shí)隨機(jī)森林優(yōu)于其他算法,使用分類(lèi)數(shù)據(jù)時(shí)樸素貝葉斯優(yōu)于其他算法。Pandey 等人[31]學(xué)生成績(jī)預(yù)測(cè)提供一種通用的解決方案,提出了綜合多分類(lèi)器的概念,該分類(lèi)器由決策樹(shù)、K 鄰近和貝葉斯分類(lèi)器三種互補(bǔ)算法組成,利用概率組合規(guī)則的乘積對(duì)多個(gè)分類(lèi)器進(jìn)行集成,對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)。Sansone 等人[32]收集了2009 年美國(guó)940所高中學(xué)校約2.6 萬(wàn)名九年級(jí)學(xué)生學(xué)習(xí)行為數(shù)據(jù),對(duì)高中輟學(xué)率進(jìn)行預(yù)警,利用學(xué)生成績(jī)、平時(shí)表現(xiàn)等組成的高維數(shù)據(jù),結(jié)合支持向量機(jī)、boosted regression、postlasso 等機(jī)器學(xué)習(xí)工具能夠有效增強(qiáng)預(yù)測(cè)效果。
Wladis 等人[20]研究課程水平因素在多大程度上可用于預(yù)測(cè)在線(xiàn)或面對(duì)面的課程的結(jié)果。采用多層次建模方法,控制教師水平和學(xué)生特征的影響,測(cè)量課程水平特征與在線(xiàn)和面對(duì)面課程成功完成的關(guān)系。并利用隨機(jī)截距控制特定課程的隨機(jī)變化,建立多層次邏輯回歸模型,研究課程水平因素對(duì)課程結(jié)果的影響。
Iqbal 等人[33]收集國(guó)際電聯(lián)電器工程系225 名參加電氣工程課程的本科學(xué)生數(shù)據(jù),并分別利用協(xié)同過(guò)濾(CF)、矩陣分解(MF)和受限玻爾茲曼機(jī)(RBM)對(duì)國(guó)際電聯(lián)電氣工程系學(xué)生學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè)。研究發(fā)現(xiàn)CF 依賴(lài)于歷史數(shù)據(jù)或用于預(yù)測(cè)結(jié)果的項(xiàng)目,對(duì)稀疏過(guò)大的數(shù)據(jù)表現(xiàn)差;SVD 與梯度下降算法一起使用能夠增強(qiáng)預(yù)測(cè)學(xué)生成績(jī)的準(zhǔn)確性但可能包含難以解釋的負(fù)值;RBM 適用表格數(shù)據(jù)建模在預(yù)測(cè)學(xué)生特定課程中的表現(xiàn)優(yōu)于其他技術(shù)方法。表4 收集了多名學(xué)者對(duì)學(xué)習(xí)預(yù)警方法研究的具體情況。
通過(guò)對(duì)文獻(xiàn)研究發(fā)現(xiàn),分類(lèi)和聚類(lèi)是學(xué)習(xí)預(yù)警研究中最典型的技術(shù),貝葉斯定理、決策樹(shù)、隱馬爾科夫模型以及Instance-Based Learning 是學(xué)習(xí)預(yù)警研究最常用的方法[40]。對(duì)于機(jī)器學(xué)習(xí)方法評(píng)價(jià),常采用混淆矩陣和曲線(xiàn)下面積(AUC)。如Jae 等人[41]使用機(jī)器學(xué)習(xí)研究高中生輟學(xué)率,預(yù)測(cè)模型績(jī)效評(píng)價(jià)指標(biāo)采用二元分類(lèi)的四個(gè)性能指標(biāo):準(zhǔn)確度、靈敏度、特異性以及曲線(xiàn)下面積。
學(xué)習(xí)預(yù)警系通過(guò)對(duì)學(xué)習(xí)者學(xué)習(xí)行為產(chǎn)生的海量數(shù)據(jù)的獲取與分析,構(gòu)建預(yù)警模型和干預(yù)措施庫(kù),對(duì)學(xué)習(xí)者學(xué)習(xí)危機(jī)進(jìn)行識(shí)別和預(yù)警,并通過(guò)可視化工具向教師、學(xué)習(xí)者展示學(xué)生學(xué)習(xí)狀態(tài),針對(duì)危機(jī)學(xué)生提供相對(duì)應(yīng)的干預(yù)措施。
表4 學(xué)習(xí)預(yù)警方法相關(guān)研究情況
美國(guó)是學(xué)習(xí)預(yù)警系統(tǒng)研究與開(kāi)發(fā)的領(lǐng)跑者,已經(jīng)有一些學(xué)校和企業(yè)機(jī)構(gòu)根據(jù)教育發(fā)展的需求成功研發(fā)出各具特色的學(xué)習(xí)預(yù)警系統(tǒng),并在實(shí)際教學(xué)應(yīng)用中獲得了較好的反饋[42]。美國(guó)可汗學(xué)院將可視化分析工具融入學(xué)習(xí)管理系統(tǒng)中,推出了一款可用于實(shí)現(xiàn)預(yù)警功能的學(xué)習(xí)支持工具——學(xué)習(xí)儀表盤(pán)[43]。此外加拿大學(xué)者Leah P.Macfadyen 等人利用學(xué)生管理系統(tǒng)平臺(tái),采用數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)“學(xué)習(xí)預(yù)警系統(tǒng)”,并在系統(tǒng)中設(shè)計(jì)了可視化儀表盤(pán),能夠快速識(shí)別鎖定處于“危險(xiǎn)狀態(tài)”下的學(xué)習(xí)者,并提供干預(yù)建議[44];加拿大一所大學(xué)對(duì)相當(dāng)數(shù)量的被留校觀(guān)察的學(xué)生進(jìn)行SAT 成績(jī)、幾人電話(huà)聯(lián)系情況、宿舍停留時(shí)間等作為數(shù)據(jù)源進(jìn)行分析,識(shí)別出他們?cè)趯W(xué)習(xí)和生活中出現(xiàn)的問(wèn)題[45]。綜上,通過(guò)對(duì)國(guó)外預(yù)警系統(tǒng)文獻(xiàn)檢索分析發(fā)現(xiàn),國(guó)外在線(xiàn)學(xué)習(xí)預(yù)警系統(tǒng)的理論研究和實(shí)際應(yīng)用能力較成熟[27],目前典型案例有學(xué)生成功系統(tǒng)[46]、電子顧問(wèn)[47]、海星預(yù)警系統(tǒng)[48]、普渡大學(xué)的課程信號(hào)系統(tǒng)[49]以及可汗學(xué)院的儀表盤(pán)應(yīng)用。表5 分別從實(shí)現(xiàn)形式、預(yù)警內(nèi)容、預(yù)警方式、技術(shù)、成效、不足等角度詳細(xì)分析了國(guó)外五大典型學(xué)習(xí)預(yù)警系統(tǒng)。
相對(duì)而言,國(guó)內(nèi)學(xué)習(xí)預(yù)警系統(tǒng)應(yīng)用典型案例較少。Wu C.等人[50]以華僑大學(xué)旅游學(xué)院為試點(diǎn),建立“學(xué)校-學(xué)生-家長(zhǎng)”三位一體的“學(xué)習(xí)預(yù)警與干預(yù)體系”。其將預(yù)警系統(tǒng)分為兩部分:預(yù)警等級(jí)評(píng)估系統(tǒng)和預(yù)警干預(yù)系統(tǒng)。預(yù)警等級(jí)評(píng)估系統(tǒng)由評(píng)價(jià)矩陣對(duì)學(xué)生進(jìn)行分類(lèi)和劃分等級(jí)。評(píng)價(jià)體系由教育學(xué)者設(shè)定。預(yù)警干預(yù)系統(tǒng)則是以評(píng)價(jià)體系為標(biāo)準(zhǔn),及時(shí)對(duì)學(xué)生和教學(xué)人員以及家長(zhǎng)發(fā)布預(yù)警序列,同時(shí)學(xué)院采取動(dòng)態(tài)跟蹤學(xué)生模式。
表5 國(guó)外典型學(xué)習(xí)預(yù)警系統(tǒng)
大數(shù)據(jù)技術(shù)在教育領(lǐng)域的運(yùn)用帶來(lái)了機(jī)遇和挑戰(zhàn)。隨著MOOC 等技術(shù)和平臺(tái)的興起,給學(xué)習(xí)預(yù)警、學(xué)習(xí)行為分析提供了海量數(shù)據(jù)源。基于大數(shù)據(jù)的學(xué)習(xí)預(yù)警技術(shù),在應(yīng)用中面對(duì)著各種挑戰(zhàn)與展望。
(1)道德和隱私的挑戰(zhàn)
隨著網(wǎng)絡(luò)的發(fā)展,人們使用各種終端設(shè)備接入互聯(lián)網(wǎng),產(chǎn)生了海量的行為數(shù)據(jù),這必然涉及到隱私問(wèn)題。學(xué)習(xí)預(yù)警過(guò)程中,需要通過(guò)MOOC 等平臺(tái)收集學(xué)生行為數(shù)據(jù),行為數(shù)據(jù)的采集是否需要征求學(xué)習(xí)者同意?海量的行為數(shù)據(jù)增加了學(xué)習(xí)者的透明性,如何防止數(shù)據(jù)泄露也是一大難題。
趙瓊慧等人[51]認(rèn)為大數(shù)據(jù)學(xué)習(xí)分析中倫理道德挑戰(zhàn)主要集中在個(gè)人隱私泄露、數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限模糊、數(shù)據(jù)可信性受威脅等。針對(duì)這些挑戰(zhàn),趙瓊慧提出三大安全與隱私保護(hù)策略,分別是:遵守透明原則、征得學(xué)習(xí)者的知情同意、提高數(shù)據(jù)質(zhì)量(真實(shí)性和完整性)。同時(shí),相關(guān)的法律制度和道德規(guī)范的指定與實(shí)施需要與安全技術(shù)的使用保持同步,相互補(bǔ)充。
李青等人[52]制定了七大隱私保護(hù)策略,如:通過(guò)立法保護(hù)學(xué)習(xí)者的信息隱私、形成大數(shù)據(jù)時(shí)代的數(shù)據(jù)倫理觀(guān)念、建立學(xué)習(xí)者數(shù)據(jù)的使用規(guī)則、確定參與各方的權(quán)利和義務(wù)以及問(wèn)責(zé)機(jī)制、行政主管部門(mén)應(yīng)形式監(jiān)管職責(zé)、培養(yǎng)學(xué)習(xí)者保護(hù)自己隱私的意識(shí)、推動(dòng)教育信息行業(yè)的行為自律等。
通過(guò)研究先關(guān)文獻(xiàn)發(fā)現(xiàn),目前國(guó)內(nèi)為已有相關(guān)學(xué)者從事倫理道德保護(hù)的相關(guān)研究,國(guó)家機(jī)關(guān)也指定了相管法律文件,但都處于研究的初期階段,尚未形成系統(tǒng)的、全面的隱私保護(hù)機(jī)制。道德和隱私的挑戰(zhàn),需要政府職能部門(mén)和研究機(jī)構(gòu)共同努力,構(gòu)建脈絡(luò)清晰的隱私保護(hù)體系。
(2)目前學(xué)習(xí)預(yù)警研究存在的問(wèn)題
通過(guò)對(duì)學(xué)習(xí)預(yù)警相關(guān)文獻(xiàn)進(jìn)行分析,發(fā)現(xiàn)在現(xiàn)有研究中,尤其是國(guó)內(nèi)研究主要存在的問(wèn)題如下:
①學(xué)習(xí)預(yù)警干預(yù)研究頗多,但主要體現(xiàn)在理論層面的干預(yù),缺乏實(shí)踐驗(yàn)證。目前國(guó)外學(xué)習(xí)預(yù)警系統(tǒng)應(yīng)用較為成熟,如可汗學(xué)院等。國(guó)內(nèi)學(xué)習(xí)預(yù)警系統(tǒng)研究主要集中在理論研究層面,缺乏實(shí)踐應(yīng)用經(jīng)驗(yàn)。
②學(xué)習(xí)效果影響因素研究,主要集中在研究相關(guān)變量與學(xué)習(xí)成績(jī)的相關(guān)性,對(duì)相關(guān)變量與學(xué)習(xí)成績(jī)數(shù)量關(guān)系研究不夠深入。如表2 主要列舉相關(guān)指標(biāo)與學(xué)習(xí)成績(jī)具有強(qiáng)相關(guān)性,但鮮有文章相關(guān)變量與學(xué)習(xí)成績(jī)影響相關(guān)系數(shù)進(jìn)行研究。
③目前研究主要針對(duì)一定時(shí)期內(nèi)學(xué)生行為數(shù)據(jù)對(duì)學(xué)習(xí)成績(jī)的預(yù)測(cè),缺乏動(dòng)態(tài)可視化成績(jī)預(yù)測(cè)研究。通過(guò)對(duì)文獻(xiàn)進(jìn)行分析,目前研究主要集中于針對(duì)一段時(shí)間內(nèi)學(xué)生行為表現(xiàn)對(duì)期末成績(jī)的影響,尚未利用時(shí)間序列分析發(fā)現(xiàn)學(xué)習(xí)者隨時(shí)間變化而變化的規(guī)律等[17]。
針對(duì)目前缺乏動(dòng)態(tài)可視化成績(jī)預(yù)測(cè)研究,研究基于時(shí)間序列的動(dòng)態(tài)可視化學(xué)生畫(huà)像模型是學(xué)習(xí)預(yù)警研究的一大方向。動(dòng)態(tài)可視化學(xué)生畫(huà)像能夠隨時(shí)間的變化展現(xiàn)不同時(shí)間段學(xué)生的學(xué)習(xí)狀態(tài)。有助于學(xué)習(xí)者、教學(xué)人員實(shí)時(shí)掌握學(xué)習(xí)者學(xué)習(xí)狀態(tài),學(xué)習(xí)者能夠根據(jù)畫(huà)像及時(shí)調(diào)整學(xué)習(xí)方法,教學(xué)人員能及時(shí)調(diào)整教學(xué)方案并對(duì)有問(wèn)題學(xué)習(xí)進(jìn)行教學(xué)干預(yù)。
另外開(kāi)發(fā)完善的學(xué)習(xí)預(yù)警系統(tǒng)順應(yīng)高校的需求。學(xué)習(xí)預(yù)警技術(shù)結(jié)合學(xué)習(xí)分析技術(shù)、干預(yù)研究等構(gòu)建完善的學(xué)習(xí)行為研究體系,能夠精確檢測(cè)學(xué)習(xí)者學(xué)習(xí)狀態(tài),提高學(xué)習(xí)者學(xué)習(xí)積極性,極大地推動(dòng)教育信息化的發(fā)展,在教育領(lǐng)域發(fā)揮促進(jìn)作用。