亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于教育數(shù)據(jù)挖掘的在線學(xué)習(xí)者學(xué)業(yè)成績預(yù)測(cè)建模研究

        2017-05-30 22:56:20陳子健朱曉亮
        中國電化教育 2017年6期
        關(guān)鍵詞:學(xué)業(yè)成績機(jī)器學(xué)習(xí)

        陳子健 朱曉亮

        摘要:該文采用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法,研究從教育數(shù)據(jù)中挖掘影響在線學(xué)習(xí)者學(xué)業(yè)成績的因素并構(gòu)建分類預(yù)測(cè)模型。首先,通過計(jì)算所有單個(gè)數(shù)據(jù)屬性和學(xué)業(yè)成績類別之間的相關(guān)系數(shù)和計(jì)算所有屬性的信息增益率兩種方法共同確定學(xué)業(yè)成績的影響因素。然后,提出采用集成學(xué)習(xí)的方法構(gòu)建集成式學(xué)業(yè)成績分類預(yù)測(cè)模型,并比較多種算法構(gòu)建的單一分類模型和集成分類模型的性能。最后,進(jìn)一步采用嵌套集成學(xué)習(xí)的方法構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績分類預(yù)測(cè)模型,并對(duì)模型的性能進(jìn)行評(píng)估。研究成果可以為在線學(xué)習(xí)者學(xué)業(yè)成績影響因素研究和預(yù)測(cè)建模研究提供借鑒,也有助于推進(jìn)在線學(xué)習(xí)學(xué)業(yè)預(yù)警、學(xué)業(yè)成績預(yù)測(cè)和評(píng)價(jià)的實(shí)踐。

        關(guān)鍵詞:教育數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);預(yù)測(cè)建模;學(xué)業(yè)成績;在線學(xué)習(xí)

        一、引言

        在線教育已經(jīng)逐漸被人們認(rèn)可和接受,特別是在K12教育、語言類教育和職業(yè)技能培訓(xùn)領(lǐng)域發(fā)展迅速。截至2016年12月,中國在線教育用戶規(guī)模達(dá)1.38億,較2015年底增加2750萬人,年增長率為25.0%。不同于面對(duì)面的課堂教學(xué)情境,在線學(xué)習(xí)中師生處于分離狀態(tài),且學(xué)習(xí)者數(shù)量龐大。如何對(duì)在線學(xué)習(xí)者的學(xué)業(yè)成績進(jìn)行預(yù)測(cè),依據(jù)預(yù)測(cè)結(jié)果實(shí)施學(xué)業(yè)預(yù)警,并為教學(xué)決策提供依據(jù),是在線教育需要解決的一個(gè)問題。利用教育數(shù)據(jù)挖掘技術(shù),通過數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績預(yù)測(cè)模型,即從數(shù)據(jù)中自動(dòng)學(xué)習(xí)預(yù)測(cè)模型是目前研究的熱點(diǎn)。然而,采用決策樹、人工神經(jīng)網(wǎng)絡(luò)等算法訓(xùn)練的單一預(yù)測(cè)模型性能不穩(wěn)定,對(duì)數(shù)據(jù)變化比較敏感。針對(duì)上述問題,本文基于“集體決策優(yōu)于個(gè)體決策”的假設(shè),嘗試采用集成學(xué)習(xí)(EnsembleLearning)方法構(gòu)建集式模型。在實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)上,進(jìn)一步采用嵌套集成學(xué)習(xí)方法構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績分類預(yù)測(cè)模型,并對(duì)模型的性能進(jìn)行評(píng)估分析。

        二、概念界定及相關(guān)研究

        (一)概念界定與分析

        教育數(shù)據(jù)挖掘(Edueational Data Mining,EDM)是數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用。根據(jù)國際教育數(shù)據(jù)挖掘工作組網(wǎng)站的定義,教育數(shù)據(jù)挖掘是指運(yùn)用不斷發(fā)展的方法和技術(shù),探索特定教育環(huán)境中的各類數(shù)據(jù),挖掘出有價(jià)值的信息,以幫助教師更好地理解學(xué)生,并改善他們所學(xué)習(xí)的環(huán)境,為教育者、學(xué)習(xí)者、管理者等教育工作者提供服務(wù)。EDM與學(xué)習(xí)分析(Learning Analytics,LA)交叉,但是兩者又存在差異:(1)EDM強(qiáng)調(diào)自動(dòng)發(fā)現(xiàn),側(cè)重建立模型和發(fā)現(xiàn)模式,多采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù);LA盡管也強(qiáng)調(diào)自動(dòng)發(fā)現(xiàn),但同時(shí)還需要人為干預(yù),多采用統(tǒng)計(jì)分析技術(shù)。(2)EDM起源于智能輔導(dǎo)領(lǐng)域,強(qiáng)調(diào)預(yù)測(cè)學(xué)習(xí)者的學(xué)業(yè)成績和關(guān)注預(yù)測(cè)建模;LA也包括這些要素,但它更強(qiáng)調(diào)系統(tǒng)干預(yù),注重個(gè)性化和自適應(yīng)。(3)LA側(cè)重于描述已發(fā)生的事件或其結(jié)果,而EDM側(cè)重于發(fā)現(xiàn)新知識(shí)與新模型。

        預(yù)測(cè)建模(Predictive Modeling)是指根據(jù)現(xiàn)有數(shù)據(jù)先建立一個(gè)模型,利用模型可以對(duì)未來的數(shù)據(jù)進(jìn)行預(yù)測(cè)。本研究中的學(xué)業(yè)成績預(yù)測(cè)建模主要是利用已知學(xué)生學(xué)業(yè)成績類別的訓(xùn)練數(shù)據(jù)訓(xùn)練得到一個(gè)分類函數(shù)或分類模型(即分類器),并評(píng)估模型的性能。學(xué)業(yè)成績預(yù)測(cè)的目的是將學(xué)習(xí)者在學(xué)習(xí)過程中的相關(guān)數(shù)據(jù)輸入預(yù)測(cè)模型,預(yù)測(cè)學(xué)習(xí)者在學(xué)習(xí)結(jié)束時(shí)可能的成績類別,為是否進(jìn)行學(xué)業(yè)預(yù)警和調(diào)整教學(xué)策略提供依據(jù)。

        (二)相關(guān)研究

        教育數(shù)據(jù)量的急劇增長、數(shù)據(jù)類型的多樣性、數(shù)據(jù)的可獲取性以及數(shù)據(jù)挖掘技術(shù)的發(fā)展等多種因素共同推動(dòng)了教育數(shù)據(jù)研究的發(fā)展。學(xué)習(xí)者模型、學(xué)業(yè)成績預(yù)測(cè)、行為模式發(fā)現(xiàn)、學(xué)習(xí)反饋與評(píng)價(jià)等是當(dāng)前教育數(shù)據(jù)研究的主要熱點(diǎn),已有的學(xué)業(yè)成績預(yù)測(cè)相關(guān)研究,根據(jù)其研究的側(cè)重點(diǎn)大致可以分為三類。

        1.學(xué)業(yè)成績預(yù)測(cè)與評(píng)價(jià)的理論模型研究

        美國佛羅里達(dá)農(nóng)工大學(xué)的Ohia博士在Nichol的五步模型的基礎(chǔ)上,提出了采集學(xué)業(yè)成績相關(guān)數(shù)據(jù)并進(jìn)行評(píng)價(jià)的六步模型一FAMOUS,模型名稱由六個(gè)關(guān)鍵步聚的首字母組成。蔚瑩等對(duì)QFD(質(zhì)量功能展開)模型進(jìn)行適當(dāng)?shù)恼{(diào)整,提出基于QFD的學(xué)生學(xué)習(xí)能力評(píng)估理論模型。張濤等參考Kirkpatrick評(píng)估模型建立了翻轉(zhuǎn)課堂環(huán)境下的學(xué)習(xí)績效評(píng)價(jià)理論模型。武法提等基于學(xué)習(xí)行為分析模型和學(xué)習(xí)結(jié)果分類理論設(shè)計(jì)了學(xué)業(yè)成績預(yù)測(cè)框架,包括學(xué)習(xí)內(nèi)容分析、學(xué)習(xí)行為分析和學(xué)習(xí)預(yù)測(cè)分析三個(gè)模塊。金義富等在討論學(xué)業(yè)預(yù)警系統(tǒng)設(shè)計(jì)框架的基礎(chǔ)上,提出了課程、課堂、課外“三位一體”預(yù)警信息發(fā)現(xiàn)與生成模型LAOMA。

        2.學(xué)業(yè)成績影響因素研究

        Carmel McNaught等關(guān)注香港高校中e-Learning學(xué)習(xí)過程和學(xué)業(yè)成績預(yù)測(cè),探索學(xué)習(xí)設(shè)計(jì),特別是學(xué)習(xí)設(shè)計(jì)中的策略設(shè)計(jì)與學(xué)習(xí)環(huán)境設(shè)計(jì),與學(xué)業(yè)成績之間的關(guān)系。Galbraith,Craig S調(diào)查116門課程的學(xué)生評(píng)教與學(xué)生學(xué)業(yè)成績的相關(guān)數(shù)據(jù),研究學(xué)生評(píng)教與學(xué)業(yè)成績和教學(xué)效能之間有無相關(guān)性。Gary Pike等使用美國“全國大學(xué)生學(xué)習(xí)參與度調(diào)查”(NSSE)數(shù)據(jù),并引入學(xué)生特征和院系特征,調(diào)查教育支出、學(xué)習(xí)參與度和學(xué)生自我報(bào)告學(xué)業(yè)成績之間的聯(lián)系。J.Fredericks Volkwein等通過40個(gè)機(jī)構(gòu)的203個(gè)工程項(xiàng)目的數(shù)據(jù),研究評(píng)價(jià)標(biāo)準(zhǔn)與學(xué)生經(jīng)歷和學(xué)業(yè)成績的關(guān)系。趙艷等運(yùn)用相關(guān)分析、多元回歸分析方法得出了影響中小學(xué)教師遠(yuǎn)程培訓(xùn)效果的主要因素。趙慧瓊等利用多元回歸分析法分析學(xué)習(xí)者在線學(xué)習(xí)行為數(shù)據(jù),判定影響學(xué)業(yè)成績的預(yù)警因素。劉銘、馬小強(qiáng)等采用質(zhì)性研究方法,通過訪談、現(xiàn)場觀察和實(shí)物收集等手段,從學(xué)習(xí)者的視角挖掘了學(xué)習(xí)者參與云教室學(xué)習(xí)并取得績效的影響因素。傅鋼善等以陜西師范大學(xué)“現(xiàn)代教育技術(shù)”網(wǎng)絡(luò)課程為例,探討學(xué)習(xí)者的行為特征與學(xué)業(yè)成績的關(guān)系。吳青等選擇遠(yuǎn)程教學(xué)平臺(tái)的學(xué)習(xí)行為數(shù)據(jù),采用關(guān)聯(lián)規(guī)則算法挖掘?qū)W習(xí)風(fēng)格、學(xué)習(xí)行為和學(xué)習(xí)成就之間的內(nèi)在規(guī)律。

        3.學(xué)業(yè)成績預(yù)測(cè)和評(píng)價(jià)的數(shù)學(xué)建模

        LC Duque等采用問卷收集數(shù)據(jù),利用象限分析、ANOVA測(cè)試和結(jié)構(gòu)方程模型組成的多重方法研究學(xué)業(yè)成績和滿意度的建模。Arsad等使用人工神經(jīng)網(wǎng)絡(luò)方法建模,預(yù)測(cè)馬來西亞瑪拉工業(yè)大學(xué)工程學(xué)專業(yè)學(xué)生的學(xué)業(yè)成績。模型以學(xué)習(xí)者的基礎(chǔ)課程的學(xué)分積點(diǎn)作為輸入,以學(xué)分積點(diǎn)的平均值作為輸出。陸柳生等提出基于離群點(diǎn)檢測(cè)的學(xué)生學(xué)習(xí)狀態(tài)分析方法,對(duì)學(xué)生考試成績數(shù)據(jù)進(jìn)行挖掘,判定學(xué)生學(xué)習(xí)狀態(tài)是否異常。施儉等在分析教育數(shù)據(jù)挖掘技術(shù)及應(yīng)用的基礎(chǔ)上,建立以關(guān)聯(lián)規(guī)則挖掘和聚類分析為核心的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的數(shù)據(jù)挖掘模型,可以從學(xué)習(xí)數(shù)據(jù)中判定學(xué)生網(wǎng)絡(luò)學(xué)習(xí)效果。舒忠梅等利用神經(jīng)網(wǎng)絡(luò)算法建立17個(gè)輸入節(jié)點(diǎn),7個(gè)隱藏節(jié)點(diǎn),1個(gè)輸出節(jié)點(diǎn)的三層神經(jīng)網(wǎng)絡(luò)模型對(duì)學(xué)生的學(xué)業(yè)成績進(jìn)行預(yù)測(cè)。

        通過文獻(xiàn)分析,發(fā)現(xiàn)國內(nèi)外學(xué)術(shù)界在學(xué)業(yè)成績預(yù)測(cè)和評(píng)價(jià)方面已經(jīng)做了不少研究工作。但是現(xiàn)有研究,特別是國內(nèi)研究,主要集中在:(1)從理論視角研究學(xué)業(yè)成績預(yù)測(cè)和評(píng)估的框架模型,實(shí)證研究稍顯不足,缺乏對(duì)理論框架的詳細(xì)驗(yàn)證;(2)基于理論演繹推導(dǎo)和經(jīng)驗(yàn),建立某些因素與學(xué)業(yè)成績之間存在相關(guān)性的假設(shè),再采用問卷和訪談等方法收集數(shù)據(jù),分析驗(yàn)證假設(shè);這種方式只能證明選定因素與學(xué)業(yè)成績之間存在相關(guān)性,但難以確定選定因素與學(xué)業(yè)成績之間數(shù)量關(guān)系;(3)部分研究者采用決策樹、神經(jīng)網(wǎng)絡(luò)等算法建立學(xué)業(yè)成績預(yù)測(cè)模型,但是建立的模型往往是單一的分類器,由于算法本身特性的原因,單個(gè)分類器的性能容易受數(shù)據(jù)變化的影響。

        本研究嘗試使用數(shù)據(jù)驅(qū)動(dòng)的建模方法,從數(shù)據(jù)中挖掘影響在線學(xué)習(xí)者學(xué)業(yè)成績的因素,通過機(jī)器學(xué)習(xí)從數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類預(yù)測(cè)模型。針對(duì)單一分類預(yù)測(cè)模型容易受數(shù)據(jù)變化影響而表現(xiàn)出分類性能不穩(wěn)定的問題,采用集成學(xué)習(xí)的方法構(gòu)建集成式預(yù)測(cè)模型。在比較多種算法構(gòu)建的單一分類器和集成分類器的分類性能的基礎(chǔ)上,進(jìn)一步提出采用嵌套集成學(xué)習(xí)的方法構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績分類預(yù)測(cè)模型,并對(duì)模型的性能進(jìn)行評(píng)估,以期為在線學(xué)習(xí)者的學(xué)業(yè)成績預(yù)測(cè)建模提供借鑒。

        三、數(shù)據(jù)來源及學(xué)業(yè)成績影響因素的選擇確定

        (一)數(shù)據(jù)來源

        本研究使用約旦大學(xué)e-Learning學(xué)業(yè)成績數(shù)據(jù)集(xAPI-Edu-Data)。數(shù)據(jù)來自Kalboard 360學(xué)習(xí)管理系統(tǒng),并在學(xué)習(xí)管理系統(tǒng)內(nèi)嵌入學(xué)習(xí)者活動(dòng)跟蹤工具ExperienceAPI(xAPI)采集學(xué)習(xí)者行為相關(guān)數(shù)據(jù)。采集到的原始數(shù)據(jù)共500條記錄,其中20條記錄中存在缺失值,剔除含缺失值的數(shù)據(jù),最后保留480條有效記錄。學(xué)習(xí)者中男生305名,女生175名,主要來自科威特、約旦等中東國家,也有少量來自突尼斯、美國、墨西哥、委內(nèi)瑞拉等歐洲和美洲國家。每條數(shù)據(jù)記錄包括16個(gè)屬性(如表1所示),除了與學(xué)習(xí)者自身相關(guān)的人口統(tǒng)計(jì)學(xué)特征,學(xué)習(xí)背景特征和學(xué)習(xí)行為特征之外,數(shù)據(jù)集中還包括與學(xué)習(xí)者父母相關(guān)的數(shù)據(jù),如學(xué)習(xí)者的學(xué)習(xí)主要由父親還是母親負(fù)責(zé),學(xué)習(xí)者父母是否完成問卷調(diào)查以及學(xué)習(xí)者父母對(duì)教學(xué)的滿意度。數(shù)據(jù)采集的時(shí)間跨度為兩個(gè)學(xué)期,其中245名學(xué)習(xí)者的記錄是第一個(gè)學(xué)期采集的,235名學(xué)者的數(shù)據(jù)是第二個(gè)學(xué)期采集的。依據(jù)學(xué)習(xí)者最終的成績將學(xué)習(xí)者的學(xué)業(yè)成績劃分為三個(gè)層次,其中,70分以下為低水平(Low),70~89分為中等水平(Middle),90分以上為高水平(High)。

        數(shù)據(jù)集中同時(shí)包含定類屬性和數(shù)值屬性,為避免數(shù)值屬性取值范圍的差異對(duì)分類預(yù)測(cè)的干擾,首先對(duì)數(shù)值屬性進(jìn)行歸一化處理,使所有的數(shù)值屬性的取值范圍處于[0,1]區(qū)間內(nèi)。

        (二)學(xué)業(yè)成績影響因素的選擇確定

        學(xué)業(yè)成績影響因素的選擇確定在數(shù)據(jù)挖掘中表現(xiàn)為數(shù)據(jù)屬性子集的選擇確定。原始數(shù)據(jù)集中通常包含一些不相關(guān)或冗余的屬性,例如學(xué)生的學(xué)號(hào)與學(xué)生的學(xué)業(yè)成績顯然不存在相關(guān)性。去除冗余和不相關(guān)的特征可以提升分類的準(zhǔn)確率,并且在屬性子集上學(xué)習(xí)到的預(yù)測(cè)模型也更好理解。屬性子集選擇的目標(biāo)是找出最小屬性集,并使得數(shù)據(jù)子集的概率分布盡可能地接近原始數(shù)據(jù)的分布。屬性子集選擇的理想方法是:將所有可能的屬性子集作為數(shù)據(jù)挖掘算法的輸入,然后選取產(chǎn)生最好結(jié)果的子集。然而,由于涉及n個(gè)屬性的子集多達(dá)2n個(gè),這種方法一般行不通,需要其它策略。

        本研究采用對(duì)原始數(shù)據(jù)中所有的單個(gè)屬性進(jìn)行評(píng)估并排序,然后依據(jù)排序結(jié)果來選擇屬性子集的方法。具體實(shí)現(xiàn)是借助Weka,采用兩種方法對(duì)數(shù)據(jù)集的屬性進(jìn)行評(píng)估和排序。第一種方法是計(jì)算所有單個(gè)屬性和學(xué)業(yè)成績類別之間的皮爾森相關(guān)系數(shù),并依據(jù)皮爾森系數(shù)的大小進(jìn)行排序,系數(shù)值越大表示該屬性與學(xué)業(yè)成績類別之間的相關(guān)性越強(qiáng)。第二種方法是計(jì)算所有屬性的信息增益率,并根據(jù)信息增益率的大小對(duì)屬性進(jìn)行排序,屬性的信息增益率越大表示該屬性對(duì)學(xué)業(yè)成績進(jìn)行分類的能力越強(qiáng)。兩種屬性評(píng)估方法的排序結(jié)果如下頁表2所示。第1列是屬性的相關(guān)系數(shù)或信息增益比率,第2列是屬性的序號(hào),第3列則是屬性的名稱。從下頁表2可以發(fā)現(xiàn),雖然兩種屬性評(píng)估方法的排序結(jié)果有差異,但兩種方法的排序結(jié)果的前9項(xiàng)組成的屬性子集具有一致性。從相關(guān)系數(shù)和信息增益率的數(shù)值大小可以判斷這9項(xiàng)也是影響學(xué)業(yè)成績的主要影響因素,因此將其作為預(yù)測(cè)建模的自變量。

        四、預(yù)測(cè)算法與實(shí)驗(yàn)設(shè)計(jì)

        (一)預(yù)測(cè)算法

        分類和回歸是兩類主要的預(yù)測(cè)問題,分類是預(yù)測(cè)離散的值,回歸是預(yù)測(cè)連續(xù)的值。本研究主要是預(yù)測(cè)在線學(xué)習(xí)者在學(xué)習(xí)結(jié)束時(shí)學(xué)業(yè)成績的類別,類別∈{Low,Middle,High}。分類一般分為兩個(gè)步驟,首先利用已知類別標(biāo)簽的數(shù)據(jù)集訓(xùn)練分類模型,并評(píng)估模型,該步聚也稱作有監(jiān)督的學(xué)習(xí);然后利用模型將未知類別的數(shù)據(jù)對(duì)象映射到某個(gè)給定的類別。目前,常用的分類算法有貝葉斯網(wǎng)絡(luò)(BN)、決策樹(DT)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)等。

        傳統(tǒng)分類建模方法是將原數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集用于學(xué)習(xí)模型,驗(yàn)證集用于模型調(diào)參,測(cè)試集來檢驗(yàn)?zāi)P偷男阅?。這樣學(xué)習(xí)到的往往是一個(gè)單一分類器?;凇凹w決策優(yōu)于個(gè)體決策”的假設(shè),本研究采用集成學(xué)習(xí)方法對(duì)原始數(shù)據(jù)進(jìn)行二次抽樣以得到多個(gè)訓(xùn)練集,使用特定算法在每個(gè)訓(xùn)練集建立一個(gè)分類器(基分類器),每個(gè)基分類器分別預(yù)測(cè)未知樣本的類別,最后對(duì)基分類器的分類結(jié)果進(jìn)行某種組合來決定最終的類別。集成學(xué)習(xí)的邏輯視圖如圖1所示。常見的集成學(xué)習(xí)方法有裝袋(Bagging)和提升(Boosting),另外隨機(jī)森林算法也是一種集成學(xué)習(xí)方法。

        1.裝袋(Bagging)

        通過對(duì)原數(shù)據(jù)集進(jìn)行有放回的抽樣構(gòu)建出大小和原數(shù)據(jù)集D一樣大小的新數(shù)據(jù)集D1,D2,D3……,然后用這些新的數(shù)據(jù)集訓(xùn)練多個(gè)基分類器C1,C2,C3……。因?yàn)槭怯蟹呕氐某闃樱栽谕粋€(gè)訓(xùn)練集中同一個(gè)樣本可能會(huì)出現(xiàn)多次,也可能有的樣本不會(huì)出現(xiàn)。裝袋算法對(duì)所有基分類器的預(yù)測(cè)值進(jìn)行多數(shù)表決,將得票最高的類別指派給測(cè)試樣本。

        2.提升(Boosting)

        提升為每一個(gè)訓(xùn)練樣本賦一個(gè)權(quán)重,在每一輪提升過程結(jié)束時(shí)自動(dòng)調(diào)整權(quán)重。開始時(shí)所有樣本的權(quán)重都等于是1/N,抽到的概率都一樣,抽樣得到的訓(xùn)練集經(jīng)過訓(xùn)練得到一個(gè)分類器。利用分類器對(duì)原始數(shù)據(jù)集中所有樣本進(jìn)行分類,然后增加錯(cuò)誤分類樣本的權(quán)重(對(duì)錯(cuò)分?jǐn)?shù)據(jù)進(jìn)行懲罰),減少正確分類樣本的權(quán)重,使分類器在后續(xù)迭代中關(guān)注那些難以分類的樣本。

        3.隨機(jī)森林(Random Forest)

        隨機(jī)森林是一種專門為決策樹基分類器設(shè)計(jì)的集成學(xué)習(xí)方法。它集成多棵決策樹的預(yù)測(cè),其中每棵樹都是基于隨機(jī)向量的一個(gè)獨(dú)立集合的值產(chǎn)生。隨機(jī)森林得到基分類器Ci的算法主要分為兩步:(1)對(duì)原始訓(xùn)練集采用有放回的自助抽樣,得到和原始訓(xùn)練集大小一致的訓(xùn)練集,與裝袋方法一致;(2)隨機(jī)選取分裂屬性集。在每個(gè)內(nèi)部節(jié)點(diǎn),從M個(gè)屬性中隨機(jī)選取F(F( 二)實(shí)驗(yàn)設(shè)計(jì)

        采用十折交叉驗(yàn)證方法將原始數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集,分別使用BN、DT、ANN和SVM四種算法在訓(xùn)練集上訓(xùn)練單一分類器,然后分別以四種算法訓(xùn)練基分類器,采用三種集成學(xué)習(xí)方法構(gòu)建集成分類器。比對(duì)單一分類器和集成分類器的性能,檢驗(yàn)集成分類器能否提升分類性能,是否對(duì)所有基分類器有效。在上一步實(shí)驗(yàn)的基礎(chǔ)上,嘗試采用嵌套集成學(xué)習(xí)方法構(gòu)建學(xué)業(yè)成績分類預(yù)測(cè)模型,優(yōu)化模型參數(shù),評(píng)估模型對(duì)學(xué)業(yè)成績分類預(yù)測(cè)的效果。實(shí)驗(yàn)在安裝Weka 3.8的PC(Intel(R)Core(TM)i5-6600cpu@3.30GHz,8G RAM)上完成。完整的實(shí)驗(yàn)流程如下頁圖2所示,其中數(shù)據(jù)預(yù)處理和屬性選擇在“學(xué)業(yè)成績影響因素的選擇確定”階段已經(jīng)完成。

        五、實(shí)驗(yàn)結(jié)果與分析

        (一)單一分類器與集成分類器性能比較

        實(shí)驗(yàn)采用BN、DT、ANN和SVM四種算法訓(xùn)練得到4個(gè)單一分類器;將4個(gè)單一分類器作為基分類器,分別采用裝袋和提升方法訓(xùn)練得到8個(gè)集成分類器;以DT分類器為基分類器,采用隨機(jī)森林算法訓(xùn)練得到1個(gè)集成分類器,共計(jì)13個(gè)分類器。各個(gè)分類器的性能指標(biāo)如表3所示。表中所有指標(biāo)是分類器對(duì)Low、Middle、High三個(gè)學(xué)業(yè)成績類別進(jìn)行預(yù)測(cè)的平均值。

        結(jié)果顯示,對(duì)于貝葉斯網(wǎng)絡(luò)(BN)、決策樹(DT)和人工神經(jīng)網(wǎng)絡(luò)(ANN)三種算法,通過構(gòu)建集成分類器都能不同程度地提升分類性能,真正率、精度和召回率都有所提升,假正率都有所降低。以ANN算法為例,單一分類器的精度是0.722,而裝袋方法訓(xùn)練得到的集成分類器的精度是0.769,提升方法訓(xùn)練得到的集成分類器的精度是0.767。雖然精度提升幅度不明顯,但是如果測(cè)試樣本數(shù)量較大,能夠正確分類的實(shí)例數(shù)還是會(huì)有較大差異。相比而言,在幾種不同類型的基分類器中,集成學(xué)習(xí)對(duì)于ANN類型的基分類器性能提升最為顯著(提升6.5%),通過隨機(jī)森林方法得到的DT類型的集成分類器性能最好。實(shí)驗(yàn)結(jié)果同時(shí)顯示,對(duì)于SVM算法,構(gòu)建集成分類器并不能提高分類性能,反而相對(duì)于單一分類器,性能有輕微的降低。

        (二)學(xué)業(yè)成績分類預(yù)測(cè)模型構(gòu)建與分析

        依據(jù)前面實(shí)驗(yàn)結(jié)果,選擇分類性能最好的隨機(jī)森林集成分類器作為基分類器,采用裝袋方法訓(xùn)練集成分類器,即進(jìn)行集成學(xué)習(xí)的嵌套,并對(duì)訓(xùn)練過程中的參數(shù)進(jìn)行調(diào)整,構(gòu)建學(xué)業(yè)成績分類預(yù)測(cè)模型。

        學(xué)業(yè)成績分類預(yù)測(cè)模型(嵌套集成分類器)的性能摘要如表4所示。

        分類器能對(duì)480個(gè)實(shí)例中的380個(gè)實(shí)例進(jìn)行正確分類,分類的準(zhǔn)確率為79.1667%,分類的準(zhǔn)確性有了進(jìn)一步提高。kappa系數(shù)為0.6785,一般認(rèn)為kappa系數(shù)處于[0.6,0.8]就可以判定為分類性能較好。分類器的真正率(TP Rate)、召回率(Recall)、精度(Precision)、受試者操作特征曲線面積(ROC Area)等各項(xiàng)指標(biāo)如表5所示。各項(xiàng)指標(biāo)顯示分類器對(duì)學(xué)業(yè)成績類別集合{Low,Middle,High}中的Low預(yù)測(cè)更為準(zhǔn)確,其精度為0.857,表示分類器預(yù)測(cè)為學(xué)業(yè)成績差的學(xué)習(xí)者中有85.7%學(xué)習(xí)者在學(xué)習(xí)結(jié)束時(shí)的學(xué)業(yè)成績是較差的。ROC Area=0.968(如下頁圖3所示),隨機(jī)分類時(shí)ROC Area=0.5,ROC Area值介于0.5和1之間,ROC Area越接近1越好。ROC Area=0.968表示分類器性能很好??傮w來說,分類器對(duì)Class=Low的分類性能最好,對(duì)Class=High的分類性能次之,對(duì)Class=Middle的分類性能最差。

        分類預(yù)測(cè)模型對(duì)學(xué)業(yè)成績類別Class=Low的分類預(yù)測(cè)更為準(zhǔn)確也符合實(shí)際應(yīng)用,因?yàn)榉诸愵A(yù)測(cè)的主要目的之一就是為了及早發(fā)現(xiàn)學(xué)業(yè)成績可能較差的學(xué)習(xí)者,及時(shí)進(jìn)行干預(yù)。如下頁表6所示的分類器混淆矩陣的行代表真實(shí)的類別,列代表分類器的預(yù)測(cè)結(jié)果?;煜仃囷@示,127個(gè)真實(shí)類別為Low的實(shí)例中,108個(gè)預(yù)測(cè)正確,19個(gè)錯(cuò)誤預(yù)測(cè)為Middle,沒有實(shí)例錯(cuò)誤預(yù)測(cè)為High;211個(gè)真實(shí)類別為Middle的實(shí)例中163個(gè)預(yù)測(cè)正確,18個(gè)實(shí)例錯(cuò)誤預(yù)測(cè)為Low,30個(gè)實(shí)例錯(cuò)誤預(yù)測(cè)為High;142個(gè)真實(shí)類別為High的實(shí)例中,109個(gè)預(yù)測(cè)正確,33個(gè)錯(cuò)誤預(yù)測(cè)為Middle,沒有實(shí)例錯(cuò)誤預(yù)測(cè)為Low。

        六、結(jié)論與討論

        學(xué)習(xí)者學(xué)業(yè)成績的預(yù)測(cè)和評(píng)價(jià)是全世界教育研究者共同關(guān)注的話題,而在線教育的快速發(fā)展又賦予它新的使命,即如何對(duì)在線學(xué)習(xí)者的學(xué)業(yè)成績進(jìn)行預(yù)測(cè),以便及時(shí)提供預(yù)警和其它干預(yù)措施。在大數(shù)據(jù)時(shí)代,學(xué)習(xí)者在線學(xué)習(xí)過程中會(huì)積累海量結(jié)構(gòu)性和非結(jié)構(gòu)性的數(shù)據(jù),可以通過數(shù)據(jù)挖掘技術(shù)探尋在線學(xué)習(xí)者學(xué)業(yè)成績的影響因素,也可以通過機(jī)器學(xué)習(xí)的方法從數(shù)據(jù)中自動(dòng)學(xué)習(xí)到學(xué)業(yè)成績預(yù)測(cè)模型。

        針對(duì)本研究所使用的數(shù)據(jù)集,在學(xué)業(yè)成績影響因素的挖掘過程中發(fā)現(xiàn)學(xué)習(xí)者行為對(duì)學(xué)業(yè)成績影響最大,父母的參與度與態(tài)度對(duì)學(xué)業(yè)成績的影響次之,學(xué)習(xí)者人口統(tǒng)計(jì)學(xué)方面的特征對(duì)學(xué)業(yè)成績的影響最小。該發(fā)現(xiàn)對(duì)在線教育平臺(tái)的設(shè)計(jì)和在線教育的數(shù)據(jù)采集具有借鑒意義。要實(shí)現(xiàn)真正個(gè)性化在線教育,實(shí)現(xiàn)對(duì)學(xué)業(yè)成績的精準(zhǔn)預(yù)測(cè)和提供及時(shí)干預(yù),首先需要通過在線教育平臺(tái)的功能設(shè)計(jì)實(shí)現(xiàn)對(duì)學(xué)習(xí)者相關(guān)數(shù)據(jù)的自動(dòng)采集;其次,數(shù)據(jù)的采集類別除了現(xiàn)在普遍關(guān)注的人口統(tǒng)計(jì)學(xué)方面的特征數(shù)據(jù),還需特別注重對(duì)學(xué)習(xí)者行為特征數(shù)據(jù)的采集。隨著情感計(jì)算技術(shù)在教育中的應(yīng)用,學(xué)習(xí)者情感特征數(shù)據(jù)也需要進(jìn)行采集;另外,對(duì)于不同類型的在線學(xué)習(xí)者,影響其學(xué)業(yè)成績的因素不同,需要采集的數(shù)據(jù)類別也存差異;例如,本研究中的K12階段的中小學(xué)生不同于大學(xué)生等成人學(xué)習(xí)者,中小學(xué)生父母的行為和態(tài)度也是預(yù)測(cè)學(xué)習(xí)者學(xué)業(yè)成績時(shí)需要考慮的一個(gè)重要方面。

        對(duì)于通過機(jī)器學(xué)習(xí)從數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類預(yù)測(cè)模型的問題,本研究假設(shè)相比于單一分類模型,學(xué)習(xí)多個(gè)基分類器,然后對(duì)基分類器的結(jié)果進(jìn)行組合的集成學(xué)習(xí)方法可以提升預(yù)測(cè)模型的性能。研究發(fā)現(xiàn),對(duì)于貝葉斯網(wǎng)絡(luò)(BN)、決策樹(DT)、人工神經(jīng)網(wǎng)絡(luò)(ANN)三種算法,通過集成學(xué)習(xí)構(gòu)建集成分類模型確實(shí)都能不同程度地提升分類預(yù)測(cè)的性能;但是對(duì)于支持向量機(jī)(SVM)算法,學(xué)習(xí)到的集成分類模型并沒有提升分類預(yù)測(cè)的性能,反而相比于單一分類模型,分類性能有所降低。理論上講,集成學(xué)習(xí)可以或多或少地提升分類性能,但提升的幅度與基分類器的穩(wěn)定性有關(guān),對(duì)于不穩(wěn)定的基分類的性能提升更加明顯。對(duì)于SVM算法,集成學(xué)習(xí)降低模型的分類性能的原因在于:SVM算法得到基分類器本身比較穩(wěn)定,集成學(xué)習(xí)算法對(duì)分類性能的提升并不明顯;同時(shí),由于集成學(xué)習(xí)算法在訓(xùn)練基分類器時(shí),因?yàn)樗惴ū旧淼奶匦詴?huì)使得訓(xùn)練子集可能存在重復(fù)樣本,導(dǎo)致基分類器性能降低,從而使得整個(gè)模型的分類性能輕微下降。

        在確認(rèn)集成學(xué)習(xí)方法可以提升學(xué)業(yè)成績分類預(yù)測(cè)模型性能的前提下,本研究進(jìn)一步采用嵌套集成學(xué)習(xí)的方法從數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類預(yù)測(cè)模型。用隨機(jī)森林算法訓(xùn)練基分類器,采用裝袋算法對(duì)基分器的預(yù)測(cè)值進(jìn)行多數(shù)表決,并對(duì)模型的性能進(jìn)行分析。研究發(fā)現(xiàn):通過嵌套集成方法學(xué)習(xí)到的模型的分類精度得到了進(jìn)一步提高。需要說明的是模型分類精度的高低除了受算法本身優(yōu)劣性的影響之外,還受分類的類別數(shù)量的影響。分類的類別越多,準(zhǔn)確分類的難度越大,例如本研究中將學(xué)業(yè)成績的預(yù)測(cè)結(jié)果劃分為三個(gè)類別,平均精度是79.2%;但如果只將預(yù)測(cè)結(jié)果劃分二個(gè)類別,分類的精度將得到較大幅度的提升。假設(shè)是對(duì)學(xué)業(yè)成績預(yù)測(cè)結(jié)果為“差”的學(xué)習(xí)者進(jìn)行預(yù)警,則只需將預(yù)測(cè)結(jié)果劃分為“差”和“不差”兩個(gè)類別,分類的準(zhǔn)確度得到大幅提升,如下頁圖4所示。在下頁圖4的混淆矩陣中,列代表預(yù)測(cè)類別,行代表真實(shí)類別,預(yù)測(cè)類別和真實(shí)類別一致代表預(yù)測(cè)正確。a代表學(xué)業(yè)成績預(yù)測(cè)結(jié)果為差(class=Low),b代表預(yù)測(cè)結(jié)果不為差(Class≠Low,即Class=High或Class=Middle)。預(yù)測(cè)結(jié)果為差的樣本中,109個(gè)樣本預(yù)測(cè)正確,18個(gè)預(yù)測(cè)錯(cuò)誤;預(yù)測(cè)結(jié)果不為差的樣本中,335個(gè)樣本預(yù)測(cè)正確,18個(gè)樣本預(yù)測(cè)錯(cuò)誤;預(yù)測(cè)準(zhǔn)確度為92.5%((109+335)/(109+18+335+18)=0.925)。

        最后,對(duì)于數(shù)據(jù)驅(qū)動(dòng)的在線學(xué)習(xí)者學(xué)業(yè)成績預(yù)測(cè)建模問題,模型分類預(yù)測(cè)的準(zhǔn)確性除了受到上面分析中提到的算法優(yōu)劣性、分類類別數(shù)量的影響之外,還和原始數(shù)據(jù)集有較大關(guān)系。因?yàn)閿?shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)建模首先需要在原始數(shù)據(jù)的屬性集中篩選出影響學(xué)業(yè)成績的主要屬性,然后再以選定的屬性作為自變量,以學(xué)業(yè)成績?yōu)橐蜃兞拷?shù)學(xué)模型。那么原始數(shù)據(jù)的屬性集能否涵蓋影響學(xué)業(yè)成績的全部主要因素,對(duì)構(gòu)建的預(yù)測(cè)模型的精確性有影響。數(shù)據(jù)集中的噪聲也會(huì)影響模型分類準(zhǔn)確度的提升。

        猜你喜歡
        學(xué)業(yè)成績機(jī)器學(xué)習(xí)
        基于回歸分析模型的學(xué)生學(xué)業(yè)成績差異研究
        高職生成就目標(biāo)定向、學(xué)習(xí)策略與學(xué)業(yè)成績關(guān)系研究
        活力(2019年21期)2019-04-01 12:18:38
        父母因素對(duì)初中生學(xué)業(yè)成績的影響
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        學(xué)業(yè)成績與習(xí)得性無助:有調(diào)節(jié)的中介效應(yīng)
        天天综合网网欲色| 国产自产21区激情综合一区| 国产毛片精品一区二区色| 加勒比东京热中文字幕| 国产ww久久久久久久久久| 亚洲国产成人久久综合一区77| 福利片免费 亚洲| 日本精品一级二区三级| 欧美牲交videossexeso欧美| 无码国产激情在线观看| 日本老年人精品久久中文字幕| 精品人妻少妇丰满久久久免| 国产精品久久久久精品一区二区| 丰满人妻无奈张开双腿av| 亚洲AV日韩AV高潮喷潮无码| 国产三级精品三级在线专区| 久久精品国产久精国产果冻传媒| 精品久久久久久久久久久aⅴ| 素人系列免费在线观看| 少妇又色又爽又高潮在线看| 国产青榴视频在线观看| 国产成年无码V片在线| 国产日韩乱码精品一区二区| 亚洲成人中文字幕在线视频| 国产97色在线 | 日韩| 亚洲国产成人手机在线电影| 亚洲综合国产精品一区二区| 97久人人做人人妻人人玩精品| 国内精品无码一区二区三区| 亚洲AV无码日韩综合欧亚| 成人一区二区三区国产| 亚洲av无码专区亚洲av伊甸园| 香蕉视频毛片| 精品奇米国产一区二区三区| 久久中文骚妇内射| 久久久久久av无码免费看大片 | 色婷婷狠狠97成为人免费| 全亚洲最大的私人影剧院在线看| 18黑白丝水手服自慰喷水网站| 欧美一区波多野结衣第一页| 亚洲无人区乱码中文字幕|