亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DNN的大學(xué)生學(xué)業(yè)成績(jī)預(yù)測(cè)方法研究*
        ——以北京市某高校電子信息類專業(yè)為例

        2021-03-16 03:46:40靳現(xiàn)凱
        關(guān)鍵詞:關(guān)聯(lián)規(guī)則模型

        靳現(xiàn)凱 宋 威

        (北方工業(yè)大學(xué)信息學(xué)院,100144,北京)

        近年來,大數(shù)據(jù)引領(lǐng)的風(fēng)潮不斷向各大領(lǐng)域推進(jìn),大量數(shù)據(jù)資源的背后隱藏著各種重要信息。在教育領(lǐng)域中,成績(jī)是教學(xué)改進(jìn)中最為顯著的指標(biāo)之一,如何利用科學(xué)的方法對(duì)這些成績(jī)數(shù)據(jù)進(jìn)行挖掘與分析,從而不斷革新學(xué)生的學(xué)習(xí)模式、教師的教學(xué)模式以及提高學(xué)校教育教學(xué)質(zhì)量,是當(dāng)下廣大教育工作者們重點(diǎn)關(guān)注的問題。

        由于國(guó)家對(duì)教育信息化建設(shè)的大力支持,國(guó)內(nèi)大多數(shù)高校都建立了教務(wù)管理系統(tǒng),其中存儲(chǔ)了大量的數(shù)據(jù),包括學(xué)生個(gè)人信息、在校期間所有課程成績(jī)、英語四六級(jí)成績(jī)等。然而,一方面,目前大部分高校的成績(jī)系統(tǒng)仍停留在查詢成績(jī)、統(tǒng)計(jì)各分?jǐn)?shù)段學(xué)生人數(shù)、統(tǒng)計(jì)成績(jī)均值、方差等,除了這些信息,還有很多不易察覺的信息被湮沒在龐大的數(shù)據(jù)之中。另一方面,由于影響成績(jī)因素眾多,不僅包括課程間的關(guān)聯(lián)性,還包括學(xué)生、教師自身個(gè)性化因素,致使某些高校盡管人為分析預(yù)測(cè)成績(jī),但準(zhǔn)確率也不高。

        1 國(guó)內(nèi)外研究現(xiàn)狀

        國(guó)外對(duì)于數(shù)據(jù)挖掘的研究起步較早,大概在1960年代就開始了相關(guān)研究。本文討論的基于數(shù)據(jù)挖掘算法的學(xué)生成績(jī)管理這一方向也是國(guó)外研究的熱點(diǎn)。數(shù)據(jù)挖掘中很多經(jīng)典算法例如關(guān)聯(lián)規(guī)則、邏輯回歸和決策樹算法等均已應(yīng)用于國(guó)外各大高校的教學(xué)管理研究中,比如預(yù)測(cè)大學(xué)入學(xué)比例、預(yù)測(cè)學(xué)生畢業(yè)狀況、學(xué)生選課推薦等。

        在學(xué)生成績(jī)分析預(yù)測(cè)的研究方向上,美國(guó)哈佛大學(xué)的研究人員Jody Clarke與Chris Daye為了評(píng)估學(xué)生學(xué)習(xí)效果,利用數(shù)據(jù)挖掘技術(shù)分析與研究了學(xué)習(xí)行為相關(guān)的海量數(shù)據(jù)。Alsalman Y S等人利用決策樹和人工神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)學(xué)生的GPA[1],盡管模型表現(xiàn)不錯(cuò),但是該算法利用的數(shù)據(jù)為調(diào)查問卷數(shù)據(jù),具有一定的主觀性。Adekitan等人構(gòu)建了一個(gè)包含六種數(shù)據(jù)挖掘模型的Konstanz信息系統(tǒng),系統(tǒng)使用五年制本科生前三年的課程成績(jī)預(yù)測(cè)后兩年的變化以及順利畢業(yè)的可能性大小。[2]近年來,這些結(jié)合數(shù)據(jù)挖掘方法的教育數(shù)據(jù)研究的影響力在不斷擴(kuò)大,從中得到的結(jié)論也有助于高校完善學(xué)校的課程設(shè)置。[3]

        國(guó)內(nèi)方面,葉俊民等人提出了一種短文本情感增強(qiáng)的成績(jī)預(yù)測(cè)方法,基于學(xué)習(xí)狀態(tài)預(yù)測(cè)學(xué)習(xí)者的成績(jī)。[4]宋丹等人利用教學(xué)過程中產(chǎn)生的多源數(shù)據(jù)進(jìn)行采集與分析,探究學(xué)生的學(xué)習(xí)狀態(tài)與學(xué)習(xí)效果,進(jìn)而預(yù)測(cè)學(xué)生的課程學(xué)習(xí)狀況。[5]李夢(mèng)瑩等人考慮學(xué)生個(gè)體的差異性,如結(jié)合學(xué)生的家庭環(huán)境、學(xué)習(xí)條件以及個(gè)人表現(xiàn)等多種因素,提出一種基于雙路注意力機(jī)制的學(xué)生成績(jī)預(yù)測(cè)模型。[6]陳佳明等人針對(duì)大學(xué)基礎(chǔ)課的特點(diǎn),從主客觀兩方面選擇特征,構(gòu)建加權(quán)投票集成算法對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)。[7]

        國(guó)內(nèi)目前在學(xué)生成績(jī)分析研究方向上的欠缺,主要是由兩方面造成的。一方面,盡管國(guó)內(nèi)的學(xué)生成績(jī)應(yīng)用研究也在逐漸起步,但比起國(guó)外的應(yīng)用研究,國(guó)內(nèi)還是更注重于理論的研究,因而盡管有大量的理論支持,實(shí)現(xiàn)上還是有一定的困難,但這方面的欠缺只能通過不斷發(fā)展應(yīng)用研究來彌補(bǔ),短時(shí)間內(nèi)無法攻克。另一方面,影響學(xué)生成績(jī)的因素眾多,不僅包括課程間的關(guān)聯(lián)性,還包含學(xué)生、教師自身等個(gè)性化因素,因此即便某些高校采用了大數(shù)據(jù)分析方法也無法達(dá)到成績(jī)預(yù)測(cè)應(yīng)有的準(zhǔn)確度,這方面的欠缺則可以通過融合決策樹算法和關(guān)聯(lián)規(guī)則算法,使用深度神經(jīng)網(wǎng)絡(luò)(DNN)構(gòu)建學(xué)生成績(jī)預(yù)測(cè)模型來實(shí)現(xiàn)對(duì)大學(xué)生學(xué)業(yè)指導(dǎo)的科學(xué)性和準(zhǔn)確度。

        2 數(shù)據(jù)集

        2.1 數(shù)據(jù)來源

        本文所使用的數(shù)據(jù)集來源于北京市某高校電子信息類專業(yè)學(xué)生成績(jī),經(jīng)過清洗后,共選取2011—2015級(jí)1 542位同學(xué)的成績(jī)數(shù)據(jù)作為數(shù)據(jù)集。該數(shù)據(jù)集由學(xué)生信息表、成績(jī)表、課程信息表構(gòu)成,其中學(xué)生信息表包含了學(xué)生的基本信息,包括姓名、性別、生源地等;成績(jī)表即為學(xué)生在校學(xué)習(xí)期間所有課程成績(jī),包括課程編碼、平時(shí)成績(jī)、考試成績(jī)和總評(píng)等;課程信息表對(duì)應(yīng)了課程的細(xì)節(jié)信息,包括課程編碼、課程名稱和課程內(nèi)容等。因此,本文所需的數(shù)據(jù)需要按照學(xué)生的學(xué)號(hào)信息從幾個(gè)不同表中進(jìn)行聯(lián)表查詢,從而得到每個(gè)學(xué)生四個(gè)學(xué)年的所有課程成績(jī)記錄。因?yàn)檎n程分為選修課程和必修課程,而每個(gè)學(xué)生的選修課程基本上都不一樣,而該校只使用必修課程作為成績(jī)績(jī)點(diǎn)計(jì)算,所以本文只使用學(xué)生的必修課程數(shù)據(jù)。清洗過后的數(shù)據(jù)集總共包含了1 542位同學(xué)的81 726條成績(jī)記錄,數(shù)據(jù)包含信息有:學(xué)號(hào)、課程名稱、課程成績(jī)、課程學(xué)期。

        2.2 數(shù)據(jù)預(yù)處理

        為了提供適應(yīng)該神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集,需要精準(zhǔn)的數(shù)據(jù)預(yù)處理步驟,本文預(yù)處理的詳細(xì)流程為:

        1)數(shù)據(jù)集成。數(shù)據(jù)集成是指圍繞學(xué)生成績(jī)主題,匯集來自多個(gè)不同數(shù)據(jù)源的數(shù)據(jù)。本文中的學(xué)生成績(jī)數(shù)據(jù)由學(xué)生信息表、成績(jī)表、課程信息表三表聯(lián)合,集成能夠用來進(jìn)行挖掘的數(shù)據(jù)。

        2)數(shù)據(jù)清洗。數(shù)據(jù)清洗是指對(duì)原始數(shù)據(jù)進(jìn)行篩選檢查,包括檢查數(shù)據(jù)一致性,處理殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)。由于本次采集的數(shù)據(jù)來源于本校教務(wù)中心,缺失、錯(cuò)誤和重復(fù)數(shù)據(jù)很少,因而數(shù)據(jù)清洗工作量不大。

        3)數(shù)據(jù)約簡(jiǎn)。數(shù)據(jù)約簡(jiǎn)是指在不影響最終的數(shù)據(jù)挖掘結(jié)果的前提下,縮小所挖掘數(shù)據(jù)的規(guī)模。舉例來說,原始數(shù)據(jù)中包括軍訓(xùn)這一項(xiàng)數(shù)據(jù),但這與學(xué)生學(xué)術(shù)成績(jī)分析沒有關(guān)聯(lián),像這種類型的數(shù)據(jù)就是數(shù)據(jù)約簡(jiǎn)的對(duì)象。

        4)數(shù)據(jù)轉(zhuǎn)換。本文兩個(gè)模型中,第一部分中使用的Apriori算法是bool類型的算法,而學(xué)生成績(jī)卻是連續(xù)型參數(shù),因此本文考慮將課程成績(jī)轉(zhuǎn)換為離散數(shù)據(jù)形式,即bool類型數(shù)據(jù)(0、1形式)。具體方法為,首先求出課程的平均成績(jī),若大于該課程平均成績(jī)則離散化為 1,若小于該課程平均成績(jī)則離散化為0,這種離散化的方式考慮到了各個(gè)課程評(píng)判標(biāo)準(zhǔn)不一致的問題。后面采用的C4.5算法無法處理連續(xù)型數(shù)據(jù),而課程分?jǐn)?shù)卻是連續(xù)型的參數(shù),因此本論文需要對(duì)課程分?jǐn)?shù)進(jìn)行一般的離散化,成績(jī)分組分為A≥90,90>B≥80,80>C≥70,70>D≥60,E<60這五個(gè)檔。在對(duì)所有數(shù)據(jù)進(jìn)行轉(zhuǎn)換后,本文按照績(jī)點(diǎn)計(jì)算方法計(jì)算了每一個(gè)學(xué)生的平均績(jī)點(diǎn)。

        5)訓(xùn)練數(shù)據(jù)劃分與處理。經(jīng)過清洗的數(shù)據(jù)被按照8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集的樣本量為65 380,驗(yàn)證集和測(cè)試集的樣本量均為8 173。訓(xùn)練集用于DNN模型的訓(xùn)練,驗(yàn)證集用于每次迭代后的模型泛化能力檢驗(yàn),起到防止過擬合的作用。構(gòu)建模型前需要對(duì)數(shù)據(jù)做進(jìn)一步的處理,按照上一步中將成績(jī)分成A、B、C、D類別后,還需對(duì)其進(jìn)行one-hot編碼如表1,然后才能輸入給神經(jīng)網(wǎng)絡(luò)。

        表1 課程成績(jī)標(biāo)記分層One-Hot編碼

        3 基于關(guān)聯(lián)規(guī)則和決策樹組合算法的成績(jī)分析模型

        目前,大部分學(xué)生成績(jī)數(shù)據(jù)挖掘的研究是基于關(guān)聯(lián)規(guī)則算法和決策樹算法展開的。盡管關(guān)聯(lián)規(guī)則能夠挖掘出課程之間的關(guān)聯(lián)性,但是卻沒有考慮學(xué)生、教師自身等個(gè)性化因素對(duì)學(xué)生成績(jī)?cè)斐傻挠绊?,因此關(guān)聯(lián)規(guī)則得到的結(jié)果通常在個(gè)體分析時(shí)有失偏頗。而決策樹算法雖然能夠?qū)崿F(xiàn)個(gè)體學(xué)生成績(jī)的預(yù)測(cè),但是由于沒有考慮到個(gè)體學(xué)生的課程間的關(guān)聯(lián)性,所以單獨(dú)用決策樹算法得到的預(yù)測(cè)結(jié)果準(zhǔn)確度也相對(duì)較低。

        綜上,本文提出一種高效的關(guān)聯(lián)規(guī)則和決策樹組合算法,綜合考慮學(xué)生課程間的關(guān)聯(lián)性和學(xué)生、教師自身個(gè)性化因素,提高學(xué)生成績(jī)分析結(jié)果的準(zhǔn)確性。

        3.1 算法思路概述

        該組合算法設(shè)計(jì)思路是利用關(guān)聯(lián)規(guī)則生成高可信度的強(qiáng)關(guān)聯(lián)規(guī)則作為新屬性,然后通過對(duì)新屬性的判別后,最終得到新的屬性與原有屬性合并來構(gòu)造決策樹。其中,數(shù)據(jù)挖掘?qū)嵤┝鞒虨椤皵?shù)據(jù)采集-數(shù)據(jù)預(yù)處理-數(shù)據(jù)挖掘-結(jié)果分析-知識(shí)使用”。本文采用關(guān)聯(lián)規(guī)則的經(jīng)典算法——Apriori算法和決策樹算法的典型算法——C4.5算法,該算法可融合成如圖1所示模型。常見決策樹算法包括了ID3算法、C4.5算法、CHAID算法、CART算法等,其中CHAID算法只能處理類別型的輸入變量,CART算法只能進(jìn)行二部分叉,都不適合本文所需要的數(shù)據(jù)場(chǎng)景。C4.5算法是在ID3算法的基礎(chǔ)上將分類標(biāo)準(zhǔn)改成信息增益率改進(jìn)而成的,可以處理數(shù)據(jù)不完整和連續(xù)型屬性(通過離散化)的數(shù)據(jù)集,而且建???,分類正確率比較高,故本文采用C4.5算法。

        圖1 基于C4.5算法的成績(jī)分析模型

        由圖1可以看出,Apriori算法得出的強(qiáng)關(guān)聯(lián)規(guī)則只要符合規(guī)則前件課程學(xué)期小于規(guī)則后件課程學(xué)期,即可生成新屬性,并與原有屬性合并生成決策樹。該組合算法思想如下:

        1)通過Apriori算法挖掘?qū)W生成績(jī)數(shù)據(jù)內(nèi)隱藏的關(guān)聯(lián)規(guī)則,再選取其中的強(qiáng)關(guān)聯(lián)規(guī)則,即支持度、置信度都大于等于最小支持度、最小置信度的關(guān)聯(lián)規(guī)則。

        2)判別1得到的關(guān)聯(lián)規(guī)則,將其中不合理的關(guān)聯(lián)規(guī)則去除,得到新的關(guān)聯(lián)規(guī)則集合。

        3)將2所得的關(guān)聯(lián)規(guī)則作為新的分類屬性與原有屬性合并,利用C4.5算法構(gòu)造決策樹。

        3.2 Apriori算法挖掘?qū)W生成績(jī)數(shù)據(jù)內(nèi)隱藏的關(guān)聯(lián)規(guī)則

        此處以部分課程與畢業(yè)設(shè)計(jì)、信號(hào)與系統(tǒng)、通信原理等課程的關(guān)聯(lián)性為例做詳細(xì)闡述,在實(shí)驗(yàn)中可以挖掘任意多門課程之間的關(guān)聯(lián)性。

        令L1為課程C語言及其應(yīng)用(簡(jiǎn)稱C語言)中高于平均分的成績(jī)記錄的集合,L2為課程高等數(shù)學(xué)中高于平均分的成績(jī)記錄的集合,L3為課程電路分析中高于平均分的成績(jī)記錄的集合,L4為課程信號(hào)與系統(tǒng)中高于平均分的成績(jī)記錄的集合,L5為課程高等數(shù)學(xué)2中高于平均分的成績(jī)記錄的集合,L6為課程模擬電子技術(shù)中高于平均分的成績(jī)記錄的集合,L7為課程通信原理中高于平均分的成績(jī)記錄的集合,L8為課程線性代數(shù)中高于平均分的成績(jī)記錄的集合,L9為課程數(shù)字電子技術(shù)中高于平均分的成績(jī)記錄的集合,L10為課程復(fù)變函數(shù)與積分變換(簡(jiǎn)稱復(fù)變函數(shù))中高于平均分的成績(jī)記錄的集合,L11為課程概率論與數(shù)理統(tǒng)計(jì)(簡(jiǎn)稱概率論)中高于平均分的成績(jī)記錄的集合,L12為課程畢業(yè)設(shè)計(jì)類中高于平均分的成績(jī)記錄的集合。最小支持度和置信度都是人為設(shè)定的,可以根據(jù)實(shí)驗(yàn)結(jié)果的優(yōu)劣對(duì)這兩個(gè)參數(shù)進(jìn)行調(diào)整。本文中設(shè)置最小支持度閾值為0.1,最小置信度為0.55,這樣是為了篩選出高可信度、強(qiáng)關(guān)聯(lián)規(guī)則的課程間關(guān)系。按照預(yù)設(shè)的最小支持度和最小置信度,可以挖掘任意課程間的關(guān)系,表2列出了課程的高置信度關(guān)聯(lián)規(guī)則計(jì)算結(jié)果。

        表2 課程的高置信度關(guān)聯(lián)規(guī)則計(jì)算結(jié)果

        通過表2可以看出,對(duì)于“畢業(yè)設(shè)計(jì)”這門課而言,專業(yè)性質(zhì)較強(qiáng)的課程與之關(guān)聯(lián)性較大,比如信號(hào)與系統(tǒng)、C語言、通信原理;對(duì)于“信號(hào)與系統(tǒng)”這門課而言,數(shù)學(xué)類課程與之置信度最高,即關(guān)聯(lián)性最強(qiáng);對(duì)于“通信原理”而言,數(shù)學(xué)課程和專業(yè)課程對(duì)其置信度都較高,即該課程對(duì)學(xué)生的專業(yè)先修課和數(shù)學(xué)課程都有較高要求。

        3.3 基于關(guān)聯(lián)規(guī)則與決策樹組合算法的成績(jī)分析

        3.2中Apriori算法得出的強(qiáng)關(guān)聯(lián)規(guī)則只要符合規(guī)則前件課程學(xué)期小于規(guī)則后件課程學(xué)期,即可生成新屬性,并與原有屬性合并生成決策樹。

        在本文中,原有屬性包括性別、平均績(jī)點(diǎn)。關(guān)聯(lián)規(guī)則生成的新屬性包括C語言及其應(yīng)用→畢業(yè)設(shè)計(jì)、信號(hào)與系統(tǒng)→畢業(yè)設(shè)計(jì)、模擬電子技術(shù)→畢業(yè)設(shè)計(jì)、通信原理→畢業(yè)設(shè)計(jì)、線性代數(shù)→畢業(yè)設(shè)計(jì)。為體現(xiàn)課程關(guān)聯(lián)性,生成的新屬性名稱會(huì)變成“xx→畢業(yè)設(shè)計(jì)”,但取值其實(shí)仍是原課程成績(jī)離散值(即A、B、C、D、E),其中為了降低決策樹的復(fù)雜度,本研究將畢業(yè)設(shè)計(jì)劃為優(yōu)秀(總評(píng)大于80)與及格(總評(píng)大于60分)兩部分(所統(tǒng)計(jì)的數(shù)據(jù)均為正常畢業(yè)數(shù)據(jù),成績(jī)均大于60)。

        通過Python編寫C4.5算法對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行處理并將所有路徑合并后還原得到?jīng)Q策樹如圖2所示。

        3.4 結(jié)果分析

        針對(duì)不同的課程,可以得到不同的結(jié)論。在高可信度強(qiáng)關(guān)聯(lián)規(guī)則的實(shí)驗(yàn)中,得出以下結(jié)果:

        1)在所選的11門專業(yè)課程與信號(hào)與系統(tǒng)的關(guān)聯(lián)規(guī)則中,課程復(fù)變函數(shù)與積分變換、概率論與數(shù)理統(tǒng)計(jì)、電路分析、高等數(shù)學(xué)、模擬電子技術(shù)對(duì)課程信號(hào)與系統(tǒng)的學(xué)習(xí)影響較大,同時(shí)這些課程的學(xué)習(xí)在前有利于信號(hào)與系統(tǒng)的學(xué)習(xí)。這說明教學(xué)計(jì)劃中將這些課程安排在課程信號(hào)與系統(tǒng)之前是十分正確的。

        圖2 與畢業(yè)設(shè)計(jì)具有高可信度強(qiáng)關(guān)聯(lián)規(guī)則的課程的決策樹路徑

        2)在課程通信原理的關(guān)聯(lián)結(jié)果中也可以得出信號(hào)與系統(tǒng)與其擁有最高關(guān)聯(lián)度的結(jié)論,也證明該課程對(duì)于通信原理的學(xué)習(xí)至關(guān)重要。

        3)課程概率論與數(shù)理統(tǒng)計(jì)、線性代數(shù)雖然是公共課,但是置信度卻高于一些專業(yè)課程的置信度,因此說明概率論與數(shù)理統(tǒng)計(jì)、線性代數(shù)也是本專業(yè)的基礎(chǔ)知識(shí)儲(chǔ)備課程,不但要早學(xué),還要學(xué)好,為后續(xù)課程的學(xué)習(xí)打下良好的基礎(chǔ)。

        對(duì)于關(guān)聯(lián)規(guī)則與決策樹組合算法的成績(jī)分析實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論:

        1)決策樹的第一個(gè)選擇屬性是平均績(jī)點(diǎn)的分類,說明平均績(jī)點(diǎn)對(duì)于畢業(yè)設(shè)計(jì)是第一個(gè)主要影響因素,這與平常經(jīng)驗(yàn)判斷所得結(jié)果是吻合的。

        2)對(duì)于電子類專業(yè)來說,性別對(duì)專業(yè)課程的影響不大,可以看到無論男生女生,當(dāng)模擬電子技術(shù)這門課程達(dá)到B時(shí),專業(yè)綜合設(shè)計(jì)均是合格的。

        3)對(duì)于電子類專業(yè)來說,數(shù)學(xué)類的課程對(duì)專業(yè)課程影響很大,比如概率論與數(shù)理統(tǒng)計(jì)、線性代數(shù)和復(fù)變函數(shù)與積分變換對(duì)畢業(yè)設(shè)計(jì)的影響。也充分說明在教學(xué)計(jì)劃中,數(shù)學(xué)類課程學(xué)分高是有理論依據(jù)的。

        由于數(shù)據(jù)依然存在一定的噪聲以及組合算法不夠完善,分析結(jié)果可能會(huì)存在一定的誤差,但是相較于僅基于關(guān)聯(lián)規(guī)則或者決策樹算法的學(xué)生成績(jī)分析來說,本文所得出的理論結(jié)果準(zhǔn)確度還是有一定的提高。

        4 基于DNN的成績(jī)預(yù)測(cè)方法

        4.1 基于DNN的成績(jī)預(yù)測(cè)模型

        深度學(xué)習(xí)技術(shù)可以用來挖掘隱含在數(shù)據(jù)中的非線性關(guān)系,即輸入數(shù)據(jù)和預(yù)測(cè)標(biāo)簽的非線性映射。因?yàn)樵趯W(xué)生成績(jī)預(yù)測(cè)任務(wù)中,低年級(jí)課程成績(jī)和高年級(jí)課程成績(jī)存著一定的非線性關(guān)系,不能夠使用簡(jiǎn)單的線性回歸來進(jìn)行擬合,所以深度學(xué)習(xí)技術(shù)適用于學(xué)生成績(jī)預(yù)測(cè)。DNN是深度學(xué)習(xí)的基礎(chǔ),是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展而來,相對(duì)于神經(jīng)網(wǎng)絡(luò)的區(qū)別在于DNN擁有很多隱含層。模型由輸入層、任意數(shù)量的隱藏層和輸出層組成,該算法受到人類大腦神經(jīng)元的啟發(fā),每一層則都是由神經(jīng)元組成。

        本文模型中,學(xué)生各科成績(jī)作為數(shù)據(jù)從輸入層輸入,經(jīng)過3個(gè)隱含層后,輸出層輸出預(yù)測(cè)結(jié)果。定義一個(gè)神經(jīng)元如下:

        y=wix+bi

        其中x表示輸入的成績(jī)向量,y表示輸出的預(yù)測(cè)結(jié)果向量,wi代表神經(jīng)元學(xué)習(xí)到的權(quán)重,bi代表偏置。本模型中3個(gè)隱含層總共包含了300個(gè)神經(jīng)元。為了提高模型的表達(dá)能力,需要增加非線性因素,所以在隱含層中,使用RuLU作為激活函數(shù),如公式1:

        (1)

        為了加快模型的收斂速度,本文使用在輸出層使用Sigmoid作為激活函數(shù),使用交叉熵作為損失函數(shù)。其中Sigmoid如公式2:

        (2)

        交叉熵?fù)p失函數(shù)定義如公式3:

        L=-[ylog+(1-y)log(1-)]

        (3)

        4.2 實(shí)驗(yàn)結(jié)果

        經(jīng)過50個(gè)Epoch的訓(xùn)練后,模型的精確度可以達(dá)到84.3%。模型的初始精度為29.8%。在第一階段,準(zhǔn)確率提高了20%。當(dāng)目標(biāo)輸出與模型輸出不匹配時(shí),用代價(jià)函數(shù)softmax最大交叉熵計(jì)算誤差,然后使用adam優(yōu)化器函數(shù)更新神經(jīng)元的權(quán)重。如圖3所示,盡管本文DNN的數(shù)據(jù)集相對(duì)于其他領(lǐng)域來說非常有限,但其表現(xiàn)仍然優(yōu)于其他機(jī)器學(xué)習(xí)算法。由于數(shù)據(jù)集是有限的,模型應(yīng)該精確地調(diào)整,以提供更好的性能。最初在數(shù)據(jù)流圖中設(shè)置了4個(gè)隱藏層,每個(gè)隱藏層包含300個(gè)神經(jīng)元,但并沒有的到好的效果。因?yàn)槌煽?jī)數(shù)據(jù)沒有太多的特征,所以不需要過多的隱含層和神經(jīng)元,于是進(jìn)一步減少到2個(gè)隱層,每層100個(gè)神經(jīng)元。經(jīng)過50個(gè)Epoch的訓(xùn)練,精度波動(dòng)較小,停止訓(xùn)練。

        圖3 左(a)為訓(xùn)練時(shí)的模型精度-Epoch變化圖;右(b)為訓(xùn)練的損失函數(shù)交叉熵-Epoch變化圖

        與部分學(xué)者論文中提出的三種成績(jī)預(yù)測(cè)模型進(jìn)行了比較,在其論文中,使用了決策樹,樸素貝葉斯和人工神經(jīng)網(wǎng)絡(luò)三種模型,并且按照同樣的編碼方式對(duì)本文中的數(shù)據(jù)集進(jìn)行了訓(xùn)練和測(cè)試[8],結(jié)果分別為:決策樹(J48)的預(yù)測(cè)準(zhǔn)確率為82.2%,人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率和樸素貝葉斯(NB)預(yù)測(cè)準(zhǔn)確率均為80.0%,本文的DNN模型預(yù)測(cè)準(zhǔn)確率為84.3%。由此可見,深度神經(jīng)網(wǎng)絡(luò)可以獲得更高的精度,優(yōu)于其他機(jī)器學(xué)習(xí)分類預(yù)測(cè)方法。為更形象地表示,本文取出某一位學(xué)生成績(jī)用DNN模型進(jìn)行預(yù)測(cè),并和該生真實(shí)成績(jī)進(jìn)行比對(duì),結(jié)果如表3所示。

        表3 基于DNN模型的某學(xué)生課程成績(jī)預(yù)測(cè)結(jié)果

        上述實(shí)驗(yàn)結(jié)果表明,模型的預(yù)測(cè)具有一定的可參考性,其具體實(shí)際應(yīng)用價(jià)值在于:對(duì)于剛大二結(jié)束的同學(xué),可以通過模型預(yù)測(cè)出其未修課程的不及格風(fēng)險(xiǎn),提前發(fā)出學(xué)業(yè)預(yù)警,進(jìn)而有利于學(xué)生大三大四課程的學(xué)習(xí)。

        5 總結(jié)

        本文首先通過對(duì)決策樹算法和關(guān)聯(lián)規(guī)則算法的深入研究,提出一種將兩者結(jié)合的解決方案,然后使用深度神經(jīng)網(wǎng)絡(luò)(DNN)構(gòu)建學(xué)生成績(jī)預(yù)測(cè)模型。基于關(guān)聯(lián)規(guī)則和決策樹組合算法的成績(jī)分析模型,一方面可以獲取學(xué)生各課程間的關(guān)聯(lián)性,擴(kuò)展分析預(yù)測(cè)結(jié)果的覆蓋面;另一方面可以提高成績(jī)預(yù)測(cè)的準(zhǔn)確率,這是因?yàn)楦髡n程間的關(guān)聯(lián)度對(duì)某單科成績(jī)必然存在某些影響?;贒NN的成績(jī)預(yù)測(cè)模型可以用來以學(xué)生低年級(jí)(大一大二)的先修課成績(jī)來對(duì)高年級(jí)(大三大四)的專業(yè)課成績(jī)進(jìn)行預(yù)測(cè),實(shí)現(xiàn)成績(jī)預(yù)警功能。本文的主要工作集中在以下三個(gè)方面:

        1)利用關(guān)聯(lián)規(guī)則算法挖掘分析課程間的關(guān)聯(lián)性,并生成用于構(gòu)造決策樹的新屬性。

        2)通過信息增益率的思想將生成的新屬性和原有屬性構(gòu)造成決策樹,實(shí)現(xiàn)學(xué)生成績(jī)分析預(yù)測(cè)。

        3)構(gòu)建基于DNN算法的成績(jī)預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)學(xué)生高年級(jí)專業(yè)必修課成績(jī)的分析預(yù)測(cè)。

        本文預(yù)期實(shí)現(xiàn)三個(gè)維度的作用:在學(xué)生維度,學(xué)生可根據(jù)自己現(xiàn)有的成績(jī)預(yù)測(cè)后續(xù)課程中有不合格風(fēng)險(xiǎn)的課程,提高后續(xù)學(xué)習(xí)中的針對(duì)性;在教師維度,教師可根據(jù)學(xué)生成績(jī)分析結(jié)果對(duì)不同學(xué)生制定合適的教學(xué)模式與方法,提高教學(xué)質(zhì)量,比如說某學(xué)生的某一學(xué)科出現(xiàn)不合格現(xiàn)象,那么老師可以通過模型得出的結(jié)論,重點(diǎn)關(guān)注學(xué)生后續(xù)課程中與該課程關(guān)聯(lián)的學(xué)科學(xué)習(xí)情況;在教務(wù)管理人員維度,教務(wù)管理人員可根據(jù)學(xué)生成績(jī)分析結(jié)果了解課程之間的關(guān)聯(lián)性,制定更合適的教學(xué)計(jì)劃,從而提高學(xué)生成績(jī)和教學(xué)質(zhì)量。

        猜你喜歡
        關(guān)聯(lián)規(guī)則模型
        一半模型
        撐竿跳規(guī)則的制定
        “苦”的關(guān)聯(lián)
        數(shù)獨(dú)的規(guī)則和演變
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        亚洲国产精品国自产拍av| 亚洲视频综合在线第一页| 强迫人妻hd中文字幕| 优优人体大尺大尺无毒不卡| 国产精品免费看久久久8| 国产成人九九精品二区三区 | 国产欧美VA欧美VA香蕉在| 无码人妻丰满熟妇区免费| 精品亚洲av乱码一区二区三区| 亚洲理论电影在线观看| 无码少妇一区二区三区| 亚洲www视频| 在线观看的a站免费完整版| 亚洲色欲久久久综合网东京热| 亚洲精品无码不卡av| 久久精品美女久久| 国产精品一区二区夜色不卡 | 国产成人久久精品一区二区三区| 在线一区不卡网址观看| 亚洲av成人一区二区三区不卡| 国产一区二区三区激情视频 | 国产乱沈阳女人高潮乱叫老| Jizz国产一区二区| 亚洲成年国产一区二区| 色爱无码av综合区| 欧美一级在线全免费| 国产自产在线视频一区| 四虎影在永久在线观看 | 丰满人妻一区二区三区精品高清| 中文字幕av久久亚洲精品| 人妻少妇精品中文字幕av蜜桃| 狠狠狠狠狠综合视频| 少妇人妻无一区二区三区| 国产日韩av在线播放| 国产精品半夜| 台湾自拍偷区亚洲综合| 草草影院ccyy国产日本欧美| 国产精品麻豆成人av电影艾秋| 久国产精品久久精品国产四虎| 亚洲天堂av一区二区| 日韩欧美人妻一区二区三区|