亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于變分自編碼器和隨機(jī)森林的混合式學(xué)習(xí)風(fēng)險(xiǎn)預(yù)警框架

        2022-02-03 06:01:06于海霞王家騏
        關(guān)鍵詞:框架樣本預(yù)測(cè)

        于海霞,王家騏

        (1.合肥職業(yè)技術(shù)學(xué)院 信息工程與傳媒學(xué)院,安徽 合肥 230000;2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230000;3.安徽工貿(mào)職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)信息工程系,安徽 淮南 232001)

        0 引 言

        隨著在線教育的普及,學(xué)習(xí)預(yù)警[1]研究受到廣泛關(guān)注。Du等[2]提出潛在變分自編碼器模型預(yù)測(cè)學(xué)習(xí)成績(jī);周劍等[3]基于BP神經(jīng)網(wǎng)絡(luò)根據(jù)學(xué)生提交的作業(yè)情況預(yù)測(cè)成績(jī);趙磊[4]等針對(duì)MOOC平臺(tái)的學(xué)習(xí)數(shù)據(jù),運(yùn)用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)學(xué)生的成績(jī);沈欣憶等[5]通過(guò)對(duì)學(xué)生在線學(xué)習(xí)行為進(jìn)行抽樣逐步回歸,以了解學(xué)生在線學(xué)習(xí)行為對(duì)其學(xué)習(xí)績(jī)效的影響。然而,現(xiàn)有研究普遍存在兩點(diǎn)不足,一是只對(duì)在線學(xué)習(xí)數(shù)據(jù)預(yù)測(cè),而忽略了線下學(xué)習(xí)數(shù)據(jù);二是未考慮不平衡樣本數(shù)據(jù)預(yù)測(cè)誤差問(wèn)題,不平衡樣本數(shù)據(jù)指在數(shù)據(jù)集中一類或多類的樣本數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)其他類的樣本數(shù)量[6]。教育數(shù)據(jù)屬于不平衡樣本數(shù)據(jù),傳統(tǒng)分類算法使用不平衡數(shù)據(jù)時(shí)的分類結(jié)果性能較差。為了提高預(yù)測(cè)效果,需要對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)。變分自動(dòng)編碼器[7](variational autoencoder,VAE)可以用來(lái)生成與原始數(shù)據(jù)集相似的新數(shù)據(jù)。An等[8]、Xu等[9]、Chalapathy等[10]、馬波等[11]、常吉亮等[12]證明了VAE在數(shù)據(jù)增強(qiáng)方面的可行性。

        為了解決上述問(wèn)題,提出基于VAE和隨機(jī)森林的混合式學(xué)習(xí)風(fēng)險(xiǎn)預(yù)測(cè)框架VRFRisk(VAE random forest risk),框架使用VAE模型處理不平衡數(shù)據(jù),利用處理后的數(shù)據(jù)集訓(xùn)練隨機(jī)森林分類器,實(shí)現(xiàn)混合式學(xué)習(xí)風(fēng)險(xiǎn)的預(yù)測(cè),通過(guò)多組對(duì)比實(shí)驗(yàn)驗(yàn)證了所提出的預(yù)測(cè)框架的有效性。

        1 VRFRisk學(xué)習(xí)風(fēng)險(xiǎn)預(yù)警框架構(gòu)建

        預(yù)警模型架構(gòu)如圖1所示,模型由數(shù)據(jù)采集處理、數(shù)據(jù)增強(qiáng)、模型訓(xùn)練3部分模塊組成。

        圖1 混合學(xué)習(xí)風(fēng)險(xiǎn)預(yù)測(cè)框架

        1.1 數(shù)據(jù)處理模塊

        從線上學(xué)習(xí)平臺(tái)和線下輔助教學(xué)平臺(tái)中采集所有學(xué)生的學(xué)習(xí)數(shù)據(jù),得到的數(shù)據(jù)集中包括線上學(xué)習(xí)行為數(shù)據(jù)和線下課堂學(xué)習(xí)數(shù)據(jù),如視頻觀看時(shí)長(zhǎng)、作業(yè)得分、單元測(cè)試成績(jī)、發(fā)貼回貼次數(shù)、課堂參與答題率及得分、課堂投稿數(shù)、小組得分、實(shí)驗(yàn)得分等。為了避免不同班級(jí)之間學(xué)生差異帶來(lái)的影響,需要將數(shù)據(jù)進(jìn)行歸一化處理,使得數(shù)據(jù)具有可比性。

        1.2 數(shù)據(jù)增強(qiáng)模塊

        對(duì)于教育數(shù)據(jù)集,不及格的學(xué)生的人數(shù)相對(duì)于及格的學(xué)生人數(shù)過(guò)少,為了提高模型性能,最大化分類精度,需要對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)處理,增加不及格樣本數(shù)量。利用VAE模型進(jìn)行數(shù)據(jù)平衡運(yùn)算,然后對(duì)平衡后數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。VAE模型的框架圖如圖2所示。

        圖2 VAE模型框架

        (1)

        其中z是遵循標(biāo)準(zhǔn)正態(tài)分布潛在空間采樣的隱向量,條件分布p(x|z)是具有均值μ(z)和方差σ(z)的高斯分布,p(z)是p(x|z)的權(quán)重。若希望生成的樣本與原始樣本具有相同的特征分布,p(x|z)應(yīng)該最大化數(shù)據(jù)集中每個(gè)樣本的概率p(x),這等價(jià)于求解關(guān)于x最大對(duì)數(shù)似然,即公式(2)所示。為了實(shí)現(xiàn)這個(gè)目標(biāo),VAE需要根據(jù)給定的樣本x,通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)潛在高斯分布q(z|x),使得p(x|z)可以代替q(z|x)。

        (2)

        其中公式(2)中的logp(x)根據(jù)全概率定理和貝葉斯定理可以表示為公式(3):

        (3)

        公式(3)中的第二項(xiàng)即為q和p的KL散度,即KL(q(z|x)||p(z|x))。用Lb表示公式(3)中的第一項(xiàng),則公式(3)可以寫為

        logp(x)=Lb+KL(q(z|x)||p(z|x))

        (4)

        因?yàn)镵L散度大于等于0,所以Lb就是logp(x)的下界,即logp(x)≥Lb。為了讓logp(x)越大,只要讓Lb最大化即可。利用貝葉斯定理對(duì)公式(4)進(jìn)一步變換可得公式(5):

        Lb=-KL(q(z|x)||p(z))+Eq(z|x)(logp(x|z))

        (5)

        z=μ+ε×σ

        (6)

        其中,ε從標(biāo)準(zhǔn)正態(tài)分布中采樣。

        1.3 模型訓(xùn)練模塊

        隨機(jī)森林是目前最常用的一種集成學(xué)習(xí)算法,相對(duì)其它分類算法具有很多優(yōu)勢(shì):模型預(yù)測(cè)準(zhǔn)確率高,即使存在部分?jǐn)?shù)據(jù)缺失的情況,隨機(jī)森林也能保持很高的分類精度,而且它能夠評(píng)估各個(gè)特征在分類問(wèn)題上的重要性,對(duì)當(dāng)前研究分析影響學(xué)生成績(jī)的因素有很大的幫助;對(duì)于不平衡的數(shù)據(jù)集來(lái)說(shuō),隨機(jī)森林算法可以平衡誤差;相對(duì)其他算法隨機(jī)森林算法的運(yùn)行效率高。

        VRFRisk框架的學(xué)習(xí)風(fēng)險(xiǎn)預(yù)測(cè)采用隨機(jī)森林算法,將平衡后得到的數(shù)據(jù)集輸入到模型訓(xùn)練模塊進(jìn)行訓(xùn)練,并使用網(wǎng)格搜索進(jìn)行參數(shù)優(yōu)化,最后得到最優(yōu)模型。

        1.4 評(píng)估指標(biāo)

        用于預(yù)警的數(shù)據(jù)集通常是不平衡的,針對(duì)不平衡樣本數(shù)據(jù)的特點(diǎn),僅使用整體查準(zhǔn)率(precision)來(lái)衡量模型的預(yù)測(cè)性能是不合適的,由于原始訓(xùn)練樣本中正類樣本數(shù)量過(guò)少,導(dǎo)致在測(cè)試時(shí)查準(zhǔn)率很高但查全率(recall)很低。F1分?jǐn)?shù)綜合考慮了查準(zhǔn)率和查全率,是2個(gè)衡量指標(biāo)的調(diào)和平均。F1分?jǐn)?shù)和查全率這兩項(xiàng)指標(biāo)往往能更準(zhǔn)確地反映出少量樣本的擴(kuò)充效果。因此本文選擇查全率和F1分?jǐn)?shù)作為評(píng)價(jià)指標(biāo)。利用混淆矩陣表示不平衡數(shù)據(jù)的分類結(jié)果見(jiàn)表1。

        表1 學(xué)習(xí)風(fēng)險(xiǎn)預(yù)測(cè)混淆矩陣

        根據(jù)表1,可以將各衡量指標(biāo)的計(jì)算公式表示為如公式(7)、公式(8)所示:

        (7)

        (8)

        2 實(shí)驗(yàn)和分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        研究以某高職院校C語(yǔ)言程序設(shè)計(jì)課程的學(xué)習(xí)數(shù)據(jù)構(gòu)建數(shù)據(jù)集。數(shù)據(jù)采集于雨課堂和學(xué)習(xí)通平臺(tái),其中線上學(xué)習(xí)數(shù)據(jù)來(lái)源于超星學(xué)習(xí)通平臺(tái),線下學(xué)習(xí)數(shù)據(jù)來(lái)源于雨課堂輔助教學(xué)平臺(tái),共采集3個(gè)學(xué)期每學(xué)期615名學(xué)生的學(xué)習(xí)數(shù)據(jù)。對(duì)采集數(shù)據(jù)進(jìn)行梳理匯總,消除相同的語(yǔ)義數(shù)據(jù)和對(duì)預(yù)測(cè)無(wú)關(guān)的數(shù)據(jù)后,最后確定21個(gè)特征列,各特征內(nèi)容見(jiàn)表2。其中,綜合成績(jī)是根據(jù)學(xué)習(xí)通上的學(xué)習(xí)成績(jī)和雨課堂中的成績(jī)按一定比例計(jì)算得到。根據(jù)綜合成績(jī)的值得到學(xué)習(xí)風(fēng)險(xiǎn)的值,如果綜合成績(jī)大于60,學(xué)習(xí)風(fēng)險(xiǎn)列的值標(biāo)記為0,否則標(biāo)記為1。

        表2 數(shù)據(jù)集特征描述

        將獲取的數(shù)據(jù)進(jìn)行整合得到數(shù)據(jù)集共有1 845條數(shù)據(jù),其中不具有學(xué)習(xí)風(fēng)險(xiǎn)的樣本(負(fù)類)1 640條,具有學(xué)習(xí)風(fēng)險(xiǎn)的樣本(正類)205條。將得到的樣本按7:3的比例劃分為訓(xùn)練集和測(cè)試集,得到訓(xùn)練集共1 291條記錄,包含正樣本134條;測(cè)試集554條,其中正樣本71條,負(fù)樣本483條。在訓(xùn)練集中,負(fù)樣本的數(shù)量是正樣本數(shù)量的9倍之多,根據(jù)不平衡數(shù)據(jù)集的標(biāo)準(zhǔn),當(dāng)前的數(shù)據(jù)集是一個(gè)高度不平衡數(shù)據(jù)集,如果直接在這個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練模型,那么模型識(shí)別出具有學(xué)習(xí)風(fēng)險(xiǎn)的學(xué)生性能會(huì)很低,因此,需要進(jìn)行數(shù)據(jù)增強(qiáng)處理。我們使用VRFRisk框架中的數(shù)據(jù)增強(qiáng)模塊對(duì)訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng)處理,使得正樣本的數(shù)量與負(fù)樣本的數(shù)量相當(dāng)。

        2.2 實(shí)驗(yàn)設(shè)置

        VRFRisk框架使用隨機(jī)森林作為分類器,其中分類器的評(píng)價(jià)標(biāo)準(zhǔn)采用信息增益;評(píng)估器的數(shù)量范圍從50到150,步長(zhǎng)為50;樹(shù)的最大深度范圍是從5到20,步長(zhǎng)為5;使用網(wǎng)格搜索和5折交叉驗(yàn)證確定最優(yōu)模型。

        2.3 實(shí)驗(yàn)結(jié)果與分析

        使用邏輯回歸(logistic regression),支持向量機(jī)(support vector machine)、AdaBoost幾種分類算法作為基線方法,分別使用SMOTE及VAE兩種數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練集進(jìn)行數(shù)據(jù)平衡處理,然后將數(shù)據(jù)輸入VRFRisk框架和基線方法訓(xùn)練預(yù)測(cè)模型,訓(xùn)練完成后使用測(cè)試集進(jìn)行驗(yàn)證,各種分類方法和VRFRisk的驗(yàn)證結(jié)果見(jiàn)表3。

        表3 VRFRisk和各種分類算法的驗(yàn)證結(jié)果對(duì)比

        表3中前4行的結(jié)果是在原始不平衡訓(xùn)練集上訓(xùn)練得到的模型預(yù)測(cè)結(jié)果,4種分類算法的預(yù)測(cè)性能表現(xiàn)都很差。中間4行和最后4行是分別使用SMOTE和VAE技術(shù)對(duì)原始訓(xùn)練集進(jìn)行數(shù)據(jù)平衡處理后訓(xùn)練模型預(yù)測(cè)的結(jié)果,很顯然兩種數(shù)據(jù)平衡方法勻有益于預(yù)測(cè)性能的提升,但相對(duì)SMOTE,VAE的效果更勝一籌,尤其是使用隨機(jī)森林算法的VRFRisk框架在查全率和F1值上,均高于其他方法。這說(shuō)明,VRFRisk框架在混合式學(xué)習(xí)風(fēng)險(xiǎn)預(yù)警方面是有效的。

        框架運(yùn)用隨機(jī)森林算法對(duì)數(shù)據(jù)特征重要性進(jìn)行分析,按照重要程度進(jìn)行排序并可視化,如圖3所示。對(duì)成績(jī)影響最大的前10個(gè)學(xué)習(xí)行為中,包括5個(gè)線上行為、4個(gè)線下行為和1個(gè)階段性考核結(jié)果。與實(shí)際相符,線上學(xué)習(xí)投入時(shí)間長(zhǎng),作業(yè)優(yōu)秀,積極參與線上線下教學(xué)互動(dòng)的學(xué)生,成績(jī)就會(huì)比較優(yōu)秀,反之,就可能會(huì)存在不及格的學(xué)習(xí)風(fēng)險(xiǎn)。

        圖3 各種特征列對(duì)成績(jī)影響的重要性

        3 結(jié) 論

        本研究提出了一種用于混合式學(xué)習(xí)風(fēng)險(xiǎn)預(yù)測(cè)的框架VRFRisk,框架使用VAE模型進(jìn)行數(shù)據(jù)增強(qiáng)處理,以緩解教育數(shù)據(jù)集不平衡情況帶來(lái)的預(yù)測(cè)準(zhǔn)確率低的問(wèn)題;使用隨機(jī)森林分類器為具有學(xué)習(xí)風(fēng)險(xiǎn)的學(xué)生提供早期風(fēng)險(xiǎn)預(yù)警,使得具有風(fēng)險(xiǎn)的學(xué)生能夠及時(shí)調(diào)整學(xué)習(xí)狀態(tài),教師也可以及時(shí)調(diào)整教學(xué)策略,從而最大限度保證學(xué)習(xí)效果。通過(guò)與幾種基線算法的對(duì)比實(shí)驗(yàn),證明了框架的有效性;對(duì)各特征重要性進(jìn)行分析,給出各特征對(duì)成績(jī)影響程度的排序結(jié)果,對(duì)學(xué)生和教師調(diào)整學(xué)習(xí)方法與教學(xué)指導(dǎo)策略具有一定的現(xiàn)實(shí)指導(dǎo)意義。但由于實(shí)驗(yàn)所使用數(shù)據(jù)集數(shù)據(jù)量相對(duì)偏小,對(duì)預(yù)測(cè)性能的提升會(huì)有一定的影響。缺乏可用公共數(shù)據(jù)集,是學(xué)習(xí)預(yù)警研究工作中普遍面臨的一個(gè)難題,因此,整理公共數(shù)據(jù)集,也是未來(lái)工作的方向之一。

        猜你喜歡
        框架樣本預(yù)測(cè)
        無(wú)可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        框架
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        廣義框架的不相交性
        推動(dòng)醫(yī)改的“直銷樣本”
        不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
        WTO框架下
        法大研究生(2017年1期)2017-04-10 08:55:06
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        日韩精品成人无码AV片| av在线不卡免费中文网| 久久精品色福利熟妇丰满人妻91| 亚洲精品久久7777777| 欧美老妇与zozoz0交| 亚洲欧美日韩精品久久亚洲区色播| 国产精品国产三级国产不卡| 91露脸半推半就老熟妇| 国产绳艺sm调教室论坛| 免费av在线国模| 久久久一本精品久久久一本| 99久久国产精品网站| 精品深夜av无码一区二区老年| 日日碰狠狠躁久久躁96avv| 人妻精品久久中文字幕| 网红尤物泛滥白浆正在播放| 亚洲综合天堂av网站在线观看| 品色永久免费| 久草热这里只有精品在线| 亚洲一区中文字幕视频| 亚洲熟女综合色一区二区三区| 久久精品国产久精国产| 欧美成人专区| 91蜜桃精品一区二区三区毛片| 国产一区二区视频在线免费观看| 日本在线看片免费人成视频1000| 欧美一级视频精品观看| 色佬易精品视频免费在线观看| 国产麻花豆剧传媒精品mv在线| 在线亚洲午夜理论av大片| 2021国产最新无码视频| 国产洗浴会所三级av| 97人人模人人爽人人喊网| 最近最新中文字幕| 四虎精品国产一区二区三区| 99热婷婷一区二区三区| 无码a级毛片免费视频内谢| 乱码一二三入区口| 日韩精品视频免费福利在线观看 | 99爱这里只有精品| 色噜噜精品一区二区三区 |