亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AdaBoost算法的MOOC退課預(yù)測(cè)研究

        2019-09-12 06:20:32楊璐郭文鋒賀強(qiáng)高宇鵬
        計(jì)算機(jī)時(shí)代 2019年8期
        關(guān)鍵詞:主成分分析

        楊璐 郭文鋒 賀強(qiáng) 高宇鵬

        摘? 要: MOOC(Massive Open Online Courses)作為典型的“互聯(lián)網(wǎng)+教育”模式正在影響著教育發(fā)展,但是較高的退課率影響了教學(xué)效果。根據(jù)“學(xué)堂在線”MOOC平臺(tái)收集的數(shù)據(jù),對(duì)學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)不退課學(xué)習(xí)者的平均學(xué)習(xí)次數(shù)明顯多于退課學(xué)習(xí)者的平均學(xué)習(xí)次數(shù)。采用主成分分析法分析七種學(xué)習(xí)行為次數(shù),提取出“完成作業(yè)”(problem)和“觀看視頻”(video)兩種學(xué)習(xí)行為作為影響退課的主要因素。采用機(jī)器學(xué)習(xí)方法AdaBoost算法對(duì)學(xué)習(xí)者是否退課進(jìn)行預(yù)測(cè)。結(jié)果顯示,采用主成分分析法確定的兩種學(xué)習(xí)行為對(duì)退課預(yù)測(cè)具有明顯作用。

        關(guān)鍵詞: MOOC; 主成分分析; AdaBoost; 退課預(yù)測(cè)

        中圖分類號(hào):TP399? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)08-33-04

        Abstract: As a representative model of teaching via the Internet, Massive Open Online Courses (MOOC) has been influencing the development of education, but the high dropout rate bring out bad teaching effects. According to the data collected by MOOC platform xuetangx.com, the statistical analysis of learners' learning behavior shows that the average learning times of non-dropout learners are significantly higher than that of dropout learners. Principal component analysis (PCA) is used to analyze seven kinds of learning behaviors, and two kinds of learning behaviors, "problem" and "video", are extracted as the main factors affecting dropout. AdaBoost algorithm, a machine learning method, is used to predict whether learners will dropout or not. The results show that the two learning behaviors determined by the principal component analysis method have obvious effects on the prediction of dropout.

        Key words: MOOC; principal component analysis; AdaBoost; dropout prediction

        0 引言

        MOOC(Massive Open Online Courses),中文稱為“慕課”,是教學(xué)模式借助互聯(lián)網(wǎng)發(fā)展的一種新型教學(xué)模式,具有課程免費(fèi)、內(nèi)容豐富、學(xué)習(xí)自由等特點(diǎn)。在過(guò)去的六年里,MOOC平臺(tái)不斷涌現(xiàn),國(guó)內(nèi)外著名高校紛紛在MOOC平臺(tái)開(kāi)設(shè)精品課程,越來(lái)越多的學(xué)員通過(guò)MOOC平臺(tái)學(xué)習(xí)。

        對(duì)MOOC的研究工作主要基于學(xué)習(xí)行為的統(tǒng)計(jì)進(jìn)而對(duì)MOOC的教學(xué)設(shè)計(jì)提供建議。樊超[1]等采用人類動(dòng)力學(xué)研究方法對(duì)用戶的學(xué)習(xí)時(shí)間間隔分布和持續(xù)時(shí)間分布、用戶學(xué)習(xí)的活躍性等進(jìn)行了分析并提出了合理化建議。伍杰華[2]等使用統(tǒng)計(jì)方法對(duì)學(xué)習(xí)者的學(xué)習(xí)背景、課程完成情況、學(xué)習(xí)行為特征等進(jìn)行分析。牟智佳[3]等通過(guò)視頻學(xué)習(xí)次數(shù)、評(píng)價(jià)參與次數(shù)、文本學(xué)習(xí)次數(shù)和論壇主題發(fā)起數(shù)分析,將MOOC學(xué)習(xí)群體分成三類。童小素[4]等通過(guò)學(xué)習(xí)行為分析,建立了MOOC質(zhì)量評(píng)價(jià)指標(biāo)體系,利用該體系進(jìn)行評(píng)價(jià)實(shí)踐。安哲鋒[5]等針對(duì)MOOC學(xué)習(xí)質(zhì)量建立模型,對(duì)學(xué)習(xí)內(nèi)容的質(zhì)量、學(xué)習(xí)支持的質(zhì)量、學(xué)習(xí)交互的質(zhì)量、學(xué)習(xí)期望的質(zhì)量以及學(xué)習(xí)感知的質(zhì)量五個(gè)方面進(jìn)行分析,以促進(jìn)MOOC學(xué)習(xí)質(zhì)量的提升。王雪[6]等對(duì)教學(xué)視頻的學(xué)習(xí)評(píng)論進(jìn)行分析,總結(jié)了教學(xué)設(shè)計(jì)、教學(xué)內(nèi)容、教師和技術(shù)規(guī)范等四方面的MOOC教學(xué)視頻設(shè)計(jì)。張璐妮[7]等針對(duì)某MOOC平臺(tái)的外形課程和學(xué)習(xí)者數(shù)據(jù),采用回歸分析方法對(duì)課程參與人數(shù)和討論區(qū)帖子關(guān)注度等因素進(jìn)行分析。張潤(rùn)芝[8]等選取了304門MOOC課程的基本信息和授課教師視頻語(yǔ)言表達(dá)技巧的信息,通過(guò)多元線性回歸分析法等研究了課程的基本信息對(duì)教師視頻語(yǔ)言表達(dá)技巧的影響。曹曉明[9]等通過(guò)MOOC視頻的不同組織方式對(duì)學(xué)習(xí)者的學(xué)習(xí)成績(jī)、認(rèn)知負(fù)荷和專注度的影響進(jìn)行了研究,為視頻制作提供了參考。

        綜上所述,目前關(guān)于MOOC的研究主要集中在對(duì)學(xué)習(xí)行為的分析進(jìn)而幫助改進(jìn)教學(xué)設(shè)計(jì),而對(duì)影響學(xué)習(xí)者學(xué)習(xí)效果因素的探索比較少,大量的學(xué)習(xí)者不能完成MOOC課程的學(xué)習(xí)。因此,本文基于“學(xué)堂在線”MOOC平臺(tái)學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù),對(duì)影響MOOC退課的七種學(xué)習(xí)行為進(jìn)行分析,采用機(jī)器學(xué)習(xí)方法(AdaBoost算法)對(duì)MOOC退課進(jìn)行預(yù)測(cè)。

        1 AdaBoosting算法

        集成學(xué)習(xí)(Ensemble)[10]是在原始數(shù)據(jù)集上構(gòu)建多個(gè)分類器(每個(gè)分類器稱為基分類器),然后采用一定的規(guī)則(如投票法)對(duì)未知樣本的類標(biāo)簽進(jìn)行預(yù)測(cè)。當(dāng)各個(gè)基分類器之間是相互獨(dú)立的,且基分類器分類效果好于隨機(jī)猜測(cè)分類器時(shí),集成分類器的性能優(yōu)于單個(gè)分類器。

        Boosting算法作為集成學(xué)習(xí)的一種,首先使用一種學(xué)習(xí)算法對(duì)訓(xùn)練樣本進(jìn)行分類,如果分類性能不高,則不能對(duì)所有樣本進(jìn)行正確的分類。對(duì)于不能正確分類的樣本,則增大其權(quán)重,反之,對(duì)于正確分類的樣本就減小其權(quán)重,再重新進(jìn)行學(xué)習(xí)。這樣迭代多次后,分類器就可以對(duì)所有樣本進(jìn)行正確分類了。

        AdaBoost算法[11]作為Boosting算法的典型代表,其基本思想是,初始時(shí)每個(gè)訓(xùn)練樣本的權(quán)重相同,然后使用一個(gè)弱分類器對(duì)訓(xùn)練集進(jìn)行多次迭代訓(xùn)練,根據(jù)訓(xùn)練結(jié)果為訓(xùn)練樣本重新賦予權(quán)重,即對(duì)不能正確分類的樣本賦予較大的權(quán)重,這樣在下次迭代訓(xùn)練時(shí)重點(diǎn)學(xué)習(xí)那些不能正確分類的樣本。每次迭代后都會(huì)得到一個(gè)預(yù)測(cè)模型,每個(gè)預(yù)測(cè)模型根據(jù)其預(yù)測(cè)準(zhǔn)確率也賦予一個(gè)權(quán)重。迭代結(jié)束后,產(chǎn)生一個(gè)預(yù)測(cè)模型序列。最后,對(duì)預(yù)測(cè)模型采用加權(quán)平均法得到最終的預(yù)測(cè)模型。詳細(xì)計(jì)算流程見(jiàn)算法1。

        2 數(shù)據(jù)描述

        本文采用的數(shù)據(jù)為“學(xué)堂在線”MOOC平臺(tái)2013年10月27日到2014年8月1日部分學(xué)習(xí)者的選課記錄和行為記錄,每條記錄包括學(xué)習(xí)者的注冊(cè)賬號(hào)、學(xué)習(xí)時(shí)間、學(xué)習(xí)方式、學(xué)習(xí)行為和是否退課。其中學(xué)習(xí)行為包括七種類型:完成作業(yè)(problem)、觀看視頻(video)、訪問(wèn)課程內(nèi)容(access)、訪問(wèn)wiki(wiki)、課程討論(discussion)、瀏覽網(wǎng)頁(yè)(navigate)和關(guān)閉網(wǎng)頁(yè)(page_close)。

        3 數(shù)據(jù)處理

        首先,統(tǒng)計(jì)退課學(xué)習(xí)者和不退課學(xué)習(xí)者在整個(gè)學(xué)習(xí)期間每種學(xué)習(xí)行為的平均次數(shù)(見(jiàn)表1),其次,為了降低算法的計(jì)算復(fù)雜度,在不影響預(yù)測(cè)準(zhǔn)確率的前提下,采用主成分分析法PCA[12](Principal Component Analysis)來(lái)降低數(shù)據(jù)的維度。主成分分析法PCA,是一種被廣泛使用的數(shù)據(jù)壓縮算法,其目的是在盡量減小信息損失的情況下,通過(guò)析取主成分(即方差較大的特征),將高維的數(shù)據(jù)轉(zhuǎn)換為低維的數(shù)據(jù),從而降低算法的復(fù)雜度。本文選取方差占比超過(guò)80%的特征作為主成分。通過(guò)主成分分析法PCA對(duì)數(shù)據(jù)進(jìn)行降維,每種學(xué)習(xí)行為的方差及方差占比計(jì)算結(jié)果見(jiàn)表2。

        4 預(yù)測(cè)結(jié)果

        本文選取的數(shù)據(jù)集為二分類非平衡數(shù)據(jù)集,不退課的學(xué)習(xí)者數(shù)為24961,退課的學(xué)習(xí)者數(shù)為95581,非平衡率為1:3.83。在傳統(tǒng)的分類方法中,常采用預(yù)測(cè)準(zhǔn)確率(precision)作為評(píng)價(jià)指標(biāo)。但對(duì)非平衡數(shù)據(jù)分類,準(zhǔn)確率不能真正評(píng)價(jià)分類性能。在對(duì)非平衡數(shù)據(jù)分類的評(píng)價(jià)指標(biāo)中,ROC(receiver operating characteristic)曲線[13]被認(rèn)為是一種較全面的指標(biāo)。ROC曲線取假正例率TPR=TP/(TP+TN)為橫坐標(biāo),取真正例率TPR=TP/(TP+TN)為縱坐標(biāo)。分類結(jié)果的混淆矩陣見(jiàn)表3。采用ROC曲線下的面積(AUC)作為評(píng)價(jià)指標(biāo),AUC越大說(shuō)明模型的分類性能越好。

        從表4可以看出,采用主成分分析法降維后的數(shù)據(jù)較好地預(yù)測(cè)了退課率,預(yù)測(cè)精度基本未受影響,也反映了采用主成分分析法對(duì)原始數(shù)據(jù)集進(jìn)行降維,選取的特征較好地反映了原始數(shù)據(jù)集的特征,保證了主成分分析方法的有效性。在描述學(xué)習(xí)的七種學(xué)習(xí)行為中,完成作業(yè)(problem)和觀看視頻(video)是影響退課的兩種主要學(xué)習(xí)行為。MOOC平臺(tái)可通過(guò)分析學(xué)習(xí)者的這兩種行為,及時(shí)發(fā)現(xiàn)可能會(huì)退課的學(xué)習(xí)者,盡早采取一定的措施(如向?qū)W習(xí)者推送學(xué)習(xí)提醒信息)以降低退課率。

        5 總結(jié)與展望

        “學(xué)堂在線”作為國(guó)內(nèi)領(lǐng)先的MOOC平臺(tái),于2013年10月10日正式啟動(dòng),經(jīng)過(guò)五年多的發(fā)展,已運(yùn)行了國(guó)內(nèi)外幾十所頂尖高校的優(yōu)質(zhì)課程。與學(xué)習(xí)者選課人數(shù)相比,完成課程的人數(shù)太少。

        本文選取“學(xué)堂在線”2013年10月27日到2014年8月1日近一年學(xué)習(xí)者的選課記錄,通過(guò)分析七種學(xué)習(xí)行為的平均次數(shù),發(fā)現(xiàn)完成課程的學(xué)習(xí)者的平均次數(shù)要明顯多于退課學(xué)習(xí)者的平均次數(shù)。因此,本文首先對(duì)七種學(xué)習(xí)行為的次數(shù)進(jìn)行匯總。然后通過(guò)主成分分析法進(jìn)行特征提取,選取其中兩種學(xué)習(xí)行為(觀看視頻和完成作業(yè)),這兩種學(xué)習(xí)行為對(duì)學(xué)習(xí)者是否退課影響最大。最后采用AdaBoost算法對(duì)學(xué)習(xí)者退課進(jìn)行預(yù)測(cè),結(jié)果顯示其具有較高的準(zhǔn)確率。而且對(duì)特征提取前后進(jìn)行對(duì)比,采用“觀看視頻”和“完成作業(yè)”這兩種學(xué)習(xí)行為對(duì)學(xué)習(xí)者是否退課的預(yù)測(cè),準(zhǔn)確率略有下降,但在時(shí)間復(fù)雜度方面有明顯的改善,這也說(shuō)明了采用主成分分析法對(duì)特征提取的有效性。

        綜合本文分析,當(dāng)教師設(shè)置MOOC課程時(shí),應(yīng)著重考慮視頻的設(shè)置、組織,以及作業(yè)集的設(shè)置、評(píng)分等環(huán)節(jié)。本文不足之處是未研究其余五種學(xué)習(xí)行為對(duì)學(xué)習(xí)者退課的影響,以及未考慮學(xué)習(xí)者的學(xué)習(xí)活躍性等因素對(duì)退課的影響。

        參考文獻(xiàn)(References):

        [1] 樊超,宗利永.MOOC在線學(xué)習(xí)行為的人類動(dòng)力學(xué)分析[J].開(kāi)放教育研究,2016.22(2):53-58

        [2] 伍杰華,付慧平.MOOC學(xué)習(xí)行為的統(tǒng)計(jì)、預(yù)測(cè)與展望[J].工業(yè)和信息化教育,2017.2:81-89

        [3] 牟智佳,武法提.MOOC學(xué)習(xí)結(jié)果預(yù)測(cè)指標(biāo)探索與學(xué)習(xí)群體特征分析[J].現(xiàn)代遠(yuǎn)程教育研究,2017.3:60-68,95

        [4] 童小素,賈小軍.MOOC質(zhì)量評(píng)價(jià)體系的構(gòu)建探究[J].中國(guó)遠(yuǎn)程教育(綜合版),2017.5:63-71

        [5] 安哲鋒,張峰峰.MOOC學(xué)習(xí)質(zhì)量立體模型的構(gòu)建研究——基于學(xué)習(xí)者體驗(yàn)視角的研究[J].成人教育,2018.38(6):21-26

        [6] 王雪,周圍,王志軍等.MOOC教學(xué)視頻的優(yōu)化設(shè)計(jì)研究——以美國(guó)課程中央網(wǎng)站Top20 MOOC為案例[J].中國(guó)遠(yuǎn)程教育,2018.520(5):47-56

        [7] 張璐妮,唐守廉,劉宇泓.MOOC學(xué)習(xí)者參與行為實(shí)證研究——以“中國(guó)大學(xué)MOOC”外語(yǔ)課程為例[J].北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2018.102(3):101-107

        [8] 張潤(rùn)芝.大規(guī)模開(kāi)放在線課程教師視頻語(yǔ)言表達(dá)技巧影響因素研究[J].電化教育研究,2018.5.

        [9] 曹曉明,朱姍,薛錫雅.實(shí)踐型慕課的視頻組織方式對(duì)學(xué)習(xí)效果影響的實(shí)驗(yàn)研究[J].電化教育研究,2018.5.

        [10] Dietterich T G. Ensemble Methods in Machine Learning[J].Proc International Workshgp on Multiple Classifier Systems,2000.1857(1):1-15

        [11] Wu X, Kumar V. The Top Ten Algorithms in Data Mining[M].CRC Press,2009.

        [12] H?skuldsson A. A combined theory for PCA and PLS[J].Journal of Chemometrics,1995.9(2):91-123

        [13] Fawcett T. An introduction to ROC analysis[J].PatternRecognition Letters,2005.27(8):861-874

        猜你喜歡
        主成分分析
        基于NAR模型的上海市房產(chǎn)稅規(guī)模預(yù)測(cè)
        主成分分析法在大學(xué)英語(yǔ)寫作評(píng)價(jià)中的應(yīng)用
        江蘇省客源市場(chǎng)影響因素研究
        SPSS在環(huán)境地球化學(xué)中的應(yīng)用
        考試周刊(2016年84期)2016-11-11 23:57:34
        長(zhǎng)沙建設(shè)國(guó)家中心城市的瓶頸及其解決路徑
        服務(wù)貿(mào)易結(jié)構(gòu)優(yōu)化路徑研究
        97福利视频| 日本孕妇潮喷高潮视频| 久久久噜噜噜久久中文福利| 亚洲精品一区国产欧美| 级毛片内射视频| 日韩精品极品视频在线观看免费| 久久精品国产www456c0m| 国产精品自产拍在线观看免费| 日日噜噜夜夜狠狠久久av| av资源在线播放网站| 日本美女中文字幕第一区| 午夜天堂av天堂久久久| 人妻少妇不满足中文字幕| 十八岁以下禁止观看黄下载链接| 人妻精品丝袜一区二区无码AV| 黄色三级视频中文字幕| 91l视频免费在线观看| 午夜一区二区三区观看| 国产两女互慰高潮视频在线观看 | 国产在线无码不卡影视影院| 精品水蜜桃久久久久久久 | 国产超碰人人爽人人做人人添| 最近免费中文字幕| 国产精品久久1024| 开心五月婷婷综合网站| 三级国产高清在线观看| 国产精品成熟老女人| 无码国产福利av私拍| 荡女精品导航| 国内色精品视频在线网址| 91精品蜜桃熟女一区二区| 国产日韩厂亚洲字幕中文| 中文字幕av伊人av无码av| 婷婷五月六月综合缴情| 日韩国产成人精品视频| 一级黄片草逼免费视频| 日本一级特黄aa大片| 国产精品无码久久久久久| 午夜亚洲AV成人无码国产| 亚洲黑寡妇黄色一级片| 国产日本精品视频一区二区|