亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        教育大數(shù)據(jù)背景下的學(xué)業(yè)發(fā)展分析模型仿真

        2022-02-09 02:05:02婁增輝王紅林孫彩云
        計(jì)算機(jī)仿真 2022年12期
        關(guān)鍵詞:決策樹準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)

        婁增輝,王紅林,孫彩云

        (南京信息工程大學(xué)人工智能學(xué)院,江蘇 南京 210044)

        1 引言

        隨著計(jì)算機(jī)技術(shù)的發(fā)展,大數(shù)據(jù)和教育的聯(lián)系愈發(fā)緊密,在教育領(lǐng)域的應(yīng)用也愈加廣泛。如何有效地提升學(xué)生成績(jī)是目前高等教育領(lǐng)域亟待解決的主要問題[1]。成績(jī)預(yù)測(cè)是大數(shù)據(jù)技術(shù)在教育領(lǐng)域中的一個(gè)重要應(yīng)用。學(xué)習(xí)成績(jī)預(yù)測(cè)不僅可以幫助老師及時(shí)修正教學(xué)策略,提高學(xué)生最終學(xué)習(xí)成績(jī),降低不及格學(xué)生比例,還能在一定程度上對(duì)學(xué)生起到監(jiān)督和預(yù)警作用,是一種提高學(xué)生成績(jī)的有效方法[2]。

        2 教育大數(shù)據(jù)

        當(dāng)前的社會(huì)有收集物理世界中的大量信息,并使用傳感器等技術(shù)將其傳輸?shù)骄W(wǎng)絡(luò)世界的能力。數(shù)十億人通過移動(dòng)設(shè)備連接互聯(lián)網(wǎng),這帶來前所未有的信息處理能力、存儲(chǔ)容量和獲取知識(shí)的途徑[3]。關(guān)于大數(shù)據(jù)這個(gè)詞的定義,不同的研究者有自己的見解。Yassine等[4]認(rèn)為,大數(shù)據(jù)是大量的數(shù)據(jù)。然而,De Mauro等[5]將其視為一種具有高數(shù)量、速度和多樣性的信息資產(chǎn)。此外,Osman[6]將大數(shù)據(jù)描述為難以用傳統(tǒng)方式處理、控制或檢查的大數(shù)據(jù)集。在2001年,Gartner Group(前身為META Group)的分析員Doug Laney提出大數(shù)據(jù)的3V特性:Volume(數(shù)據(jù)量)、Velocity(高速)與Variety(多樣)[7]。之后IBM增加了Value(價(jià)值)和Veracity(真實(shí))將其擴(kuò)充至5V[8]。

        步入大數(shù)據(jù)時(shí)代,“數(shù)據(jù)驅(qū)動(dòng)發(fā)展,分析變革教育”成為新一代教育創(chuàng)新變革的重要方向。2018年教育部印發(fā)的《教育信息化2.0行動(dòng)計(jì)劃》提出目標(biāo):到2022年基本實(shí)現(xiàn)“三全兩高一大”的發(fā)展目標(biāo),建成“互聯(lián)網(wǎng)+教育”大平臺(tái),努力構(gòu)建“互聯(lián)網(wǎng)+”條件下的人才培養(yǎng)新模式、發(fā)展基于互聯(lián)網(wǎng)的教育服務(wù)新模式、探索信息時(shí)代教育治理新模式[9]。2019年中共中央、國(guó)務(wù)院印發(fā)的《中國(guó)教育現(xiàn)代化2035》提出:加快信息化時(shí)代教育變革。建設(shè)智能化校園,統(tǒng)籌建設(shè)一體化智能化教學(xué)、管理與服務(wù)平臺(tái)。利用現(xiàn)代技術(shù)加快推動(dòng)人才培養(yǎng)模式改革,實(shí)現(xiàn)規(guī)?;逃c個(gè)性化培養(yǎng)的有機(jī)結(jié)合[10]。這一系列的計(jì)劃和政策引導(dǎo)下,許多學(xué)校已經(jīng)展開了大數(shù)據(jù)與教育融合發(fā)展的探索[11]。

        3 研究現(xiàn)狀

        關(guān)于成績(jī)預(yù)測(cè)的研究并不少見。Macfadyen等[12]基于學(xué)習(xí)管理系統(tǒng)開發(fā)“預(yù)警系統(tǒng)”,發(fā)現(xiàn)處于學(xué)業(yè)危機(jī)的學(xué)生,并及時(shí)做出預(yù)警并采取措施改善其學(xué)業(yè)情況。陳勇[13]研究并實(shí)現(xiàn)了基于遺傳神經(jīng)網(wǎng)絡(luò)對(duì)成績(jī)的預(yù)測(cè),發(fā)現(xiàn)該模型具有較高的準(zhǔn)確性。王小麗等[14]構(gòu)建了基于加權(quán)樸素貝葉斯的英語成績(jī)預(yù)測(cè)模型,認(rèn)為該模型可以做為預(yù)測(cè)和分析學(xué)生成績(jī)的一種有效方法。Jayakumari等[15]用數(shù)據(jù)挖掘技術(shù)分析學(xué)生數(shù)學(xué)水平進(jìn)行分析并預(yù)測(cè)選課結(jié)果。黎龍珍[16]基于C4.5算法構(gòu)建成績(jī)預(yù)測(cè)模型,取得不錯(cuò)的準(zhǔn)確率,通過模型分析得出對(duì)學(xué)生成績(jī)影響最大是視頻任務(wù)點(diǎn)完成量。趙慧瓊等[17]對(duì)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行二元Logistic回歸分析并結(jié)合結(jié)果對(duì)學(xué)業(yè)危機(jī)學(xué)生進(jìn)行干預(yù),有利于增強(qiáng)學(xué)習(xí)動(dòng)機(jī),提高學(xué)習(xí)質(zhì)量。這些研究確實(shí)對(duì)成績(jī)進(jìn)行了預(yù)測(cè)并取得了較好的效果,但是其所選數(shù)據(jù)特征較少,并不能全面的反應(yīng)一個(gè)學(xué)生的真實(shí)情況。為此,有必要對(duì)學(xué)生的特征進(jìn)行進(jìn)一步分析,找出更加全面的影響成績(jī)因素對(duì)其成績(jī)進(jìn)行預(yù)測(cè)。

        4 算法模型設(shè)計(jì)

        目前,常用的大數(shù)據(jù)分析算法有:支持向量機(jī)(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、k近鄰算法(k-Nearest Neighbor,kNN)、神經(jīng)網(wǎng)絡(luò)(Neural Networks,NN)等[18]。這些算法在教育中的 應(yīng)用場(chǎng)景比較多,根據(jù)學(xué)生的行為對(duì)學(xué)生分類,可以分析影響學(xué)習(xí)效果的強(qiáng)因素,分析學(xué)習(xí)特征,預(yù)測(cè)學(xué)生的學(xué)習(xí)效果,對(duì)離群點(diǎn)預(yù)警,還可以為學(xué)生提供不同的學(xué)習(xí)資源分析依據(jù)[19]。本研究選取k近鄰學(xué)習(xí)、決策樹、全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected Neural Network,F(xiàn)C)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)這四種算法進(jìn)行成績(jī)預(yù)測(cè)研究。

        4.1 k近鄰算法

        kNN是一種常見的用于分類和回歸的監(jiān)督學(xué)習(xí)方法,在1968年由Cover和Hart提出。算法的基本思想是:對(duì)于給定的數(shù)據(jù)集,尋找并設(shè)置合適的k值。對(duì)于輸入的數(shù)據(jù),基于某種距離度量(如歐式距離)在數(shù)據(jù)集中找出與其距離最近的k個(gè)樣本,根據(jù)分類規(guī)則(如投票法)確定輸入數(shù)據(jù)的類別。如圖1所示。

        圖1 kNN算法演示

        ω1、ω2、ω3是分好的三類,設(shè)置k=5,輸入數(shù)據(jù)Xu距離ω1有四個(gè)最近的點(diǎn),距離ω3有一個(gè)最近的點(diǎn),所以Xu歸為ω1類。

        4.2 決策樹

        決策樹是一種可用于分類和預(yù)測(cè)的樹形結(jié)構(gòu)。決策樹由根結(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)和葉子結(jié)點(diǎn)構(gòu)成。決策樹的生成是一個(gè)自上而下的遞歸過程。基本算法如下:

        根據(jù)選擇特征的策略,決策樹算法分為ID3、C4.5和CART算法等。本研究使用CART算法對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè),用基尼指數(shù)選擇最優(yōu)特征。基尼指數(shù)的定義為:設(shè)有N個(gè)類,第n類的概率為pn,則

        4.3 全連接神經(jīng)網(wǎng)絡(luò)

        神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱藏層和輸出層構(gòu)成(如圖3)。全連接神經(jīng)網(wǎng)絡(luò)是最樸素的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的過程包含訓(xùn)練步驟和測(cè)試步驟兩個(gè)步驟[20]。一個(gè)全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)只有一個(gè)輸入層,一個(gè)輸出層,中間是若干層全連接層。神經(jīng)網(wǎng)絡(luò)的公式表示

        y=Wx+b

        神經(jīng)網(wǎng)絡(luò)的構(gòu)造過程就是一個(gè)不斷計(jì)算優(yōu)化權(quán)重W和偏置項(xiàng)b的過程。

        圖2 神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)

        Adam優(yōu)化器用來更新和計(jì)算影響模型訓(xùn)練和模型輸出的網(wǎng)絡(luò)參數(shù),使其逼近或達(dá)到最優(yōu)值。

        損失函數(shù)(loss)是評(píng)價(jià)模型預(yù)測(cè)值與真實(shí)值差異的函數(shù)。本實(shí)驗(yàn)神經(jīng)網(wǎng)絡(luò)模型均使用交叉熵?fù)p失函數(shù)。其作用是表征兩個(gè)概率分布之間的距離。公式為

        H(y*,y)=-∑y**lny

        為了緩解過擬合,使用L2正則化。正則化在損失函數(shù)中引入模型復(fù)雜度指標(biāo),利用給W加權(quán)值,弱化訓(xùn)練數(shù)據(jù)的噪聲。L2正則化公式

        輸出層前通過Softmax函數(shù),將神經(jīng)元的輸出映射到(0,1)區(qū)間內(nèi)。它的作用是把神經(jīng)元輸出轉(zhuǎn)化為概率,從而進(jìn)行分類。Softmax的公式為

        表示第j個(gè)分類的概率。

        4.4 循環(huán)神經(jīng)網(wǎng)絡(luò)

        RNN是一類具有短期記憶能力的神經(jīng)網(wǎng)絡(luò)。RNN和FC結(jié)構(gòu)類似,不同之處在于RNN引入了循環(huán)核(ht),ht帶有記憶功能,它存儲(chǔ)了之前的信息,如圖3。

        圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)

        5 實(shí)驗(yàn)及仿真

        5.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理

        此次實(shí)驗(yàn)數(shù)據(jù)集來自“Kalboard 360”。該數(shù)據(jù)集具有16個(gè)特征,480條記錄,1個(gè)成績(jī)標(biāo)簽,維度較高。數(shù)據(jù)集的特征有:學(xué)生性別、國(guó)籍、出生地、受教育水平、年級(jí)、教室、課程、學(xué)期、監(jiān)護(hù)者(父親或者母親)、舉手次數(shù)、訪問課程次數(shù)、檢查公告更新次數(shù)、參加討論次數(shù)、家長(zhǎng)是否回答了學(xué)校提供的調(diào)查問卷、家長(zhǎng)對(duì)學(xué)校的滿意度、每個(gè)學(xué)生的缺勤天數(shù)。通過對(duì)比多種數(shù)據(jù)集,此數(shù)據(jù)集的特征最貼近實(shí)際教學(xué)情況,易收集。本實(shí)驗(yàn)的模型均由python3.8語言實(shí)現(xiàn)。

        在預(yù)處理階段,使用python語言讀取數(shù)據(jù),將用字符型表示的信息重新編碼為數(shù)字型,如對(duì)于成績(jī)標(biāo)簽L(低)、M(中)、H(高)分別轉(zhuǎn)化為0、1、2。對(duì)數(shù)據(jù)進(jìn)行隨機(jī)化打亂,設(shè)置固定的random seed(隨機(jī)種子),使得隨機(jī)化后的數(shù)據(jù)固定,按照7:3將數(shù)據(jù)分割為訓(xùn)練集和測(cè)試集。

        1)kNN

        根據(jù)kNN的算法思想寫出程序,對(duì)于最佳k值設(shè)置取值范圍1-336,用for循環(huán)對(duì)每個(gè)k值計(jì)算準(zhǔn)確率,得當(dāng)k=29時(shí)準(zhǔn)確率最高,為68.056%。

        2)DT

        使用CART決策樹預(yù)測(cè)成績(jī)準(zhǔn)確率為69.792%。由于決策樹的性質(zhì)可以使用sklearn機(jī)器學(xué)習(xí)庫的feature_importances_函數(shù)提取前6種重要特征:

        表1 重要特征和重要度

        前5個(gè)特征具有較高的重要度,對(duì)學(xué)生成績(jī)的影響較大,符合客觀規(guī)律。

        3)FC

        表2 模型參數(shù)設(shè)置

        每次送入的樣本個(gè)數(shù)bath_size設(shè)置20,訓(xùn)練次數(shù)800次,損失函數(shù)和準(zhǔn)確率曲線如下圖所示。

        圖4 FC的loss曲線

        圖5 FC的準(zhǔn)確率曲線

        訓(xùn)練集loss收斂于0.54,準(zhǔn)確率收斂于78.5%;測(cè)試集loss收斂于0.56,準(zhǔn)確率收斂于77%。準(zhǔn)確率高,擬合效果好。

        4)RNN

        表3 模型參數(shù)設(shè)置

        為了防止模型過擬合,每層RNN后進(jìn)行一次Dropout,隨機(jī)使11%的神經(jīng)元失活。每次送入的樣本個(gè)數(shù)bath_size設(shè)置20,訓(xùn)練次數(shù)800次,損失函數(shù)和準(zhǔn)確率曲線如下圖所示。

        圖6 RNN的loss曲線

        圖7 RNN的準(zhǔn)確率曲線

        訓(xùn)練集loss收斂于0.57,準(zhǔn)確率收斂于80%;測(cè)試集loss收斂于0.56,準(zhǔn)確率收斂于78.5%。較全連接神經(jīng)網(wǎng)絡(luò)有些許提升。

        5.2 結(jié)果分析

        為了評(píng)估模型,除了上述的準(zhǔn)確率,此次研究還引入其它三種常用的評(píng)價(jià)指標(biāo),結(jié)果如下所示。

        圖8 不同模型的評(píng)價(jià)指數(shù)

        從各指標(biāo)可以看出,兩種神經(jīng)網(wǎng)絡(luò)模型效果明顯要好于kNN和DT,F(xiàn)C在F1值上比RNN要高,但是由于RNN引入了循環(huán)核,所以訓(xùn)練時(shí)間會(huì)長(zhǎng)于FC,且準(zhǔn)確率等值有些許波動(dòng)??偟膩碚f,在如此多特征的數(shù)據(jù)集上,能達(dá)到這樣的準(zhǔn)確率,說明大數(shù)據(jù)分析算法在成績(jī)預(yù)測(cè)這一塊領(lǐng)域具有良好的應(yīng)用前景。

        表4 不同模型的評(píng)價(jià)指數(shù)

        6 總結(jié)

        學(xué)生的學(xué)業(yè)成績(jī)受多種因素影響,本研究選取了合適的數(shù)據(jù)集,并用四種大數(shù)據(jù)分析算法模型對(duì)學(xué)生進(jìn)行成績(jī)預(yù)測(cè),從結(jié)果來看,神經(jīng)網(wǎng)絡(luò)模型要明顯好過kNN和決策樹。這些算法模型應(yīng)用于實(shí)際教學(xué)中,通過決策樹能提取出影響學(xué)生成績(jī)的重要特征,結(jié)合神經(jīng)網(wǎng)絡(luò)得出的成績(jī)預(yù)測(cè)結(jié)果,能使教師對(duì)自己的教學(xué)計(jì)劃做出合適的調(diào)整,具有良好的應(yīng)用前景。但是本研究選取的算法模型都較為簡(jiǎn)單,后續(xù)的研究將采用結(jié)合不同算法的復(fù)合算法模型對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè),希望能達(dá)到更高的準(zhǔn)確率和更好的實(shí)用效果。

        猜你喜歡
        決策樹準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于決策樹的出租車乘客出行目的識(shí)別
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        亚洲av成人无码网站…| 亚洲在线精品一区二区三区| 少妇激情av一区二区三区| a级毛片免费完整视频| 丰满少妇人妻无码专区| 亚洲中文字幕无码专区| 久久精品国产精品亚洲婷婷 | 国产夫妻自偷自拍第一页| 欧美老熟妇乱xxxxx| 高中生粉嫩无套第一次| 欧美v日韩v亚洲综合国产高清| 久久久精品人妻一区二区三区日本| av免费在线国语对白| 夜夜爽妓女8888888视频| 亚洲精品国产v片在线观看| 亚洲a∨好看av高清在线观看| 亚洲伊人久久大香线蕉| 高清偷自拍亚洲精品三区| 国产99r视频精品免费观看| 熟女人妻一区二区在线观看| 国产自拍精品视频免费| 成人免费无码视频在线网站 | 青青草视频在线观看视频免费| 色欲色香天天天综合网www| 久久中文字幕无码专区| 一本大道在线一久道一区二区| 日韩精品一区二区三区影音视频 | 亚洲av乱码国产精品色| 精品在线视频在线视频在线视频| 精品久久久久成人码免费动漫| 澳门毛片精品一区二区三区| 国产熟妇一区二区三区网站| 中文区中文字幕免费看| www射我里面在线观看| 亚洲区在线播放| 亚洲一区二区三区精品久久 | 中文无码熟妇人妻av在线| 亚洲片一区二区三区| 日本午夜伦理享色视频| 国产亚洲美女精品久久久2020| 成人无码午夜在线观看|