亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多元線性回歸的學(xué)生成績(jī)分析?

        2020-11-02 09:00:08李曉戈
        關(guān)鍵詞:關(guān)聯(lián)模型課程

        張 曉 李曉戈

        (西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710121)

        1 引言

        在互聯(lián)網(wǎng)+時(shí)代,我國(guó)高校的辦學(xué)規(guī)模不斷擴(kuò)大[1],高校的信息化建設(shè)也在逐步完善。與此同時(shí)隨著數(shù)據(jù)挖掘技術(shù)的深層次應(yīng)用,數(shù)據(jù)挖掘技術(shù)也逐漸應(yīng)用到高校教學(xué)管理中[2]。高校招生規(guī)模日益擴(kuò)大,傳統(tǒng)教學(xué)管理模式面臨巨大的挑戰(zhàn),在轉(zhuǎn)型高校中的體現(xiàn)愈發(fā)明顯。高校的教學(xué)管理系統(tǒng)在高校的教學(xué)管理中發(fā)揮著越來越重要的作用[3]。但是目前的教務(wù)管理系統(tǒng)只是實(shí)現(xiàn)了數(shù)據(jù)的存儲(chǔ)、查詢、統(tǒng)計(jì)等功能[4],沒有進(jìn)一步挖掘數(shù)據(jù)中有價(jià)值的信息。以我校的學(xué)生成績(jī)管理系統(tǒng)為例,該系統(tǒng)只實(shí)現(xiàn)了對(duì)學(xué)生成績(jī)的簡(jiǎn)單查詢和數(shù)理統(tǒng)計(jì),利用這種方法得到的數(shù)據(jù)只是計(jì)算機(jī)技術(shù)的簡(jiǎn)單應(yīng)用,無法發(fā)現(xiàn)影響學(xué)生成績(jī)的具體因素[5],以及各種因素之間的關(guān)系。如何有效地分析以往的學(xué)生成績(jī)數(shù)據(jù),從中挖掘潛在的學(xué)生成績(jī)的影響因素[6],不斷提高高校的教學(xué)質(zhì)量,成為所有高校教學(xué)管理的核心內(nèi)容。

        本文首先利用數(shù)據(jù)挖掘軟件Weka[7]對(duì)榆林學(xué)院信息工程學(xué)院2003~2015 學(xué)年計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的722 名學(xué)生成績(jī)進(jìn)行關(guān)聯(lián)規(guī)則分析,猜想課程之間是否存在關(guān)聯(lián)性,企圖能找出學(xué)生所學(xué)習(xí)的課程之間存在的一些關(guān)聯(lián)規(guī)則;然后利用數(shù)據(jù)挖掘軟件Wake 對(duì)榆林學(xué)院信息工程學(xué)院2003~2015學(xué)年計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的722 名學(xué)生成績(jī)進(jìn)行多元線性回歸分析,猜想基礎(chǔ)課程對(duì)與之相關(guān)的專業(yè)課是否會(huì)產(chǎn)生影響,企圖能找出學(xué)生所學(xué)習(xí)的基礎(chǔ)課程對(duì)與之相關(guān)的專業(yè)課會(huì)產(chǎn)生怎樣的影響。

        2 數(shù)據(jù)與方法

        2.1 數(shù)據(jù)

        本文的研究數(shù)據(jù)來源于榆林學(xué)院教務(wù)管理系統(tǒng),并與學(xué)校管理者簽訂了保密協(xié)議,原始數(shù)據(jù)是榆林學(xué)院信息工程學(xué)院2003~2015 學(xué)年的學(xué)生成績(jī),本次數(shù)據(jù)的預(yù)處理是通過Microsoft Excel2010除去科目中的公共選修課和某些公共必修課,本次數(shù)據(jù)中未發(fā)現(xiàn)空值。

        利用數(shù)據(jù)挖掘軟件Wake對(duì)學(xué)生成績(jī)進(jìn)行關(guān)聯(lián)規(guī)則挖掘和多元線性回歸分析,從原始數(shù)據(jù)中選出計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)2003~2015 學(xué)年所學(xué)習(xí)的五門基礎(chǔ)課和七門專業(yè)課共十二門課程:五門基礎(chǔ)課分別是C 語言程序設(shè)計(jì)、大學(xué)英語、高等數(shù)學(xué)、大學(xué)物理和線性代數(shù),并分別用A、B、C、D 和E 表示;七門專業(yè)課分別是操作系統(tǒng)、匯編語言程序設(shè)計(jì)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫原理,并分別用F、G、H、I、J、K 和L 表示,在表1中列出。

        表1 十二門課程的學(xué)生成績(jī)

        關(guān)聯(lián)規(guī)則挖掘必須要將被研究的數(shù)據(jù)進(jìn)行離散化[8]處理,對(duì)研究數(shù)據(jù)進(jìn)行手動(dòng)離散化和概念分層[9]。首先,將十二門課程的學(xué)生成績(jī)分成三段,分別是0~60 分,60~80 分,80~100 分,并進(jìn)行分段標(biāo)記。以C 語言程序設(shè)計(jì)為例,C 語言程序設(shè)計(jì)0~60 分,60~80 分,80~100 分分別標(biāo)記為A3,A2,A1。在進(jìn)行手動(dòng)離散化和概念分層之后的數(shù)據(jù),在表2中列出。

        表2 對(duì)十二門課程進(jìn)行離散化和概念分層

        利用多元線性回歸分析,挖掘基礎(chǔ)課程對(duì)專業(yè)課程是否會(huì)產(chǎn)生影響。將五門基礎(chǔ)課與其中一門專業(yè)課的數(shù)據(jù)多元線性回歸分析,以匯編語言程序設(shè)計(jì)為例,即篩選出C 語言程序設(shè)計(jì)、大學(xué)英語、高等數(shù)學(xué)、大學(xué)物理、線性代數(shù)和匯編語言程序設(shè)計(jì),在表3中列出。

        表3 基礎(chǔ)課和匯編語言程序的成績(jī)

        2.2 方法

        2.2.1 關(guān)聯(lián)規(guī)則介紹

        關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣關(guān)聯(lián)或相關(guān)聯(lián)系[10]。實(shí)現(xiàn)關(guān)聯(lián)的技術(shù)主要是統(tǒng)計(jì)學(xué)中的支持度和置信度分析[11],支持度主要用于測(cè)量連接分析中的統(tǒng)計(jì)在數(shù)據(jù)集中的重要性,置信度用于測(cè)量連接分析中的可信度[12]。支持度即在事物集U中不僅出現(xiàn)項(xiàng)集A又出現(xiàn)項(xiàng)集B的事務(wù)為a%,則關(guān)聯(lián)規(guī)則A==>B 的支持度為a%,即表示A和B在事務(wù)U中出現(xiàn)的頻率,式(1)列出

        置信度即在事務(wù)U中出現(xiàn)項(xiàng)集A的同時(shí)項(xiàng)集B也出現(xiàn)的概率,表示關(guān)聯(lián)規(guī)則的強(qiáng)度,式(2),式(3)列出

        關(guān)聯(lián)規(guī)則的算法有很多,本文主要采用的是關(guān)聯(lián)規(guī)則的經(jīng)典算法Apriori算法[13],該算法使用一種逐層搜索的迭代方法:N 項(xiàng)集用于搜索(N+1)項(xiàng)集。首先,找到頻繁1 項(xiàng)集的集合,記作M1,M1 用于找到頻繁2 項(xiàng)集的M2,而M2 用于找到M3,如此下去,直到不能找到頻繁N 項(xiàng)集,每一次搜索都需要掃描一次數(shù)據(jù)庫,為提高頻繁項(xiàng)集逐層產(chǎn)生的效率,一般作法是利用Apriori 算法的性質(zhì)壓縮收縮空間[13]。Apriori 算法的性質(zhì)是頻繁項(xiàng)集的所有非空子集必須也是頻繁的。

        2.2.2 多元線性回歸介紹

        回歸分析是從一組數(shù)據(jù)出發(fā)通過一個(gè)或一些變量的變化解釋另一個(gè)變量的變化[14]。首先根據(jù)對(duì)實(shí)際問題的分析判斷,將變量分為解釋變量和非解釋變量;其次,根據(jù)函數(shù)擬合方式,確定合適的數(shù)學(xué)模型來描述變量間的關(guān)系,再在統(tǒng)計(jì)擬合的準(zhǔn)則下確定模型的參數(shù),建立回歸方程。由于涉及到的變量是不確定的,回歸方程是在樣本數(shù)據(jù)的基礎(chǔ)上得出,必須進(jìn)行回歸模型的統(tǒng)計(jì)檢驗(yàn),經(jīng)統(tǒng)計(jì)檢驗(yàn)后,再根據(jù)回歸模型,進(jìn)行因變量的預(yù)測(cè)。

        回歸分析的類型分為一元線性回歸和多元線性回歸,本文主要采用的是多元線性回歸。多元線性回歸的基本模型

        其中x1,x2,…,xp是自變量,β0,β1,…,βp是未知參數(shù),ε是零均值隨機(jī)變量。

        如果對(duì)式(4)兩邊求期望,則有多元線性回歸方程

        估計(jì)未知參數(shù)β0,β1,…,βp是多元線性回歸分析的核心任務(wù)之一。由于參數(shù)估計(jì)的工作是基于樣本數(shù)據(jù)的,由此得到的參數(shù)只是參數(shù)真值的估計(jì)值,記為,,…,。最終解得模型(4)的多元經(jīng)驗(yàn)回歸方程

        多元回歸模型中的檢驗(yàn)有兩種,一種是回歸系數(shù)的顯著性檢驗(yàn),即是檢驗(yàn)?zāi)硞€(gè)變量xi的系數(shù)是否為零;另一種檢驗(yàn)就是回歸方程的顯著性檢驗(yàn)[15],即是檢驗(yàn)改組數(shù)據(jù)是否使用于線性方程做回歸。

        3 基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析

        3.1 利用關(guān)聯(lián)規(guī)則挖掘?qū)W(xué)生成績(jī)的挖掘結(jié)果

        將已經(jīng)過離散化和概念分層的數(shù)據(jù)在挖掘軟件Wake 使用Apriori 算法進(jìn)行訓(xùn)練,在訓(xùn)練中不斷調(diào)整參數(shù)設(shè)置,其中classIndex 是類屬性索引,delta是迭代遞減單位,LowerMinSup 指的是最小支持度下界,MinMetric 指的是度量的最小值,SigLevel 指的是重要程度,進(jìn)行重要性測(cè)試,upperMinSup指的是最小支持度上界,最終參數(shù)修改結(jié)果在表4 中列出。

        表4 關(guān)聯(lián)規(guī)則挖掘參數(shù)設(shè)置

        最終得到榆林學(xué)院信息工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)所學(xué)課程中的十二門課程之間的關(guān)聯(lián)規(guī)則,在表5中列出。

        表5 關(guān)聯(lián)規(guī)則挖掘結(jié)果

        通過對(duì)十二門課程進(jìn)行關(guān)聯(lián)規(guī)則挖掘得到的規(guī)則分析有:1)如果大學(xué)英語、大學(xué)物理、線性代數(shù)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么數(shù)據(jù)庫原理的成績(jī)?cè)?0~80分之間有94%的可能性;2)如果高等數(shù)學(xué)、大學(xué)物理、線性代數(shù)、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60-80 分之間,那么數(shù)據(jù)庫原理的成績(jī)?cè)?0~80 分之間有93%的可能性;3)如果大學(xué)物理、線性代數(shù)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、離散數(shù)學(xué)數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么數(shù)據(jù)庫原理的成績(jī)?cè)?0~80 分之間有93%的可能性;4)如果高等數(shù)學(xué)、線性代數(shù)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么數(shù)據(jù)庫原理的成績(jī)?cè)?0~80 分之間有92%的可能性;5)如果C 語言程序設(shè)計(jì)、高等數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么大學(xué)英語的成績(jī)?cè)?0~80 分之間有91%的可能性。

        綜上所述,數(shù)據(jù)庫原理的成績(jī)與大學(xué)英語、高等數(shù)學(xué)、大學(xué)物理、線性代數(shù)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)和數(shù)據(jù)結(jié)構(gòu)的成績(jī)有關(guān)系;大學(xué)英語的成績(jī)與C 語言程序設(shè)計(jì)、大學(xué)英語、高等數(shù)學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理和數(shù)據(jù)結(jié)構(gòu)的成績(jī)有關(guān)系。

        3.2 利用多元線性回歸分析對(duì)學(xué)生成績(jī)的挖掘結(jié)果

        將研究數(shù)據(jù)在Wake 中選擇Linear Regression算法,使用默認(rèn)參數(shù),選擇Cross-validation,設(shè)置Folds 為20,即使用其中的20 條數(shù)據(jù)進(jìn)行交叉驗(yàn)證。并分別對(duì)F列、G列、H列、I列、J列、K列和L列的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

        根據(jù)上述對(duì)多元線性回歸建立回歸模型的分析,可對(duì)本次研究的數(shù)據(jù)建立模型:

        其中自變量x1、x2、x3、x4和x5分別代表C 語言程序設(shè)計(jì)、大學(xué)英語、高等數(shù)學(xué)、大學(xué)物理和線性代數(shù),因變量y1、y2、y3、y4、y5、y6和y7分別代表操作系統(tǒng)、匯編語言程序設(shè)計(jì)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫原理。預(yù)測(cè)的多元線性回歸模型在表6中列出。

        表6 多元線性回歸模型

        回歸模型的好壞由模型評(píng)價(jià)參數(shù)來說明,R、MAE、RMSE、RAE 和RRSE 分別代表的是相關(guān)系數(shù)、平均絕對(duì)誤差、均方根誤差、相對(duì)誤差絕對(duì)值和根相對(duì)誤差,模型評(píng)價(jià)參數(shù)在表7中列出。

        表7 回歸模型評(píng)價(jià)參數(shù)

        針對(duì)線性回歸模型與回歸模型性能指標(biāo),可得到結(jié)果有:1)匯編語言程序設(shè)計(jì)會(huì)受到基礎(chǔ)課程C語言程序設(shè)計(jì)、線性代數(shù)、大學(xué)英語、大學(xué)物理和高等數(shù)學(xué)的影響,其中對(duì)其影響較大的基礎(chǔ)課程是C語言程序設(shè)計(jì)和線性代數(shù);2)計(jì)算機(jī)網(wǎng)絡(luò)會(huì)受到基礎(chǔ)課程高等數(shù)學(xué)、線性代數(shù)、大學(xué)物理、C 語言程序設(shè)計(jì)、和大學(xué)英語的影響,其中影響較大的基礎(chǔ)課程是高等數(shù)學(xué)和線性代數(shù);3)離散數(shù)學(xué)會(huì)受到基礎(chǔ)高等數(shù)學(xué)、C 語言程序設(shè)計(jì)、線性代數(shù)和大學(xué)英語的影響,其中影響較大的基礎(chǔ)課程是高等數(shù)學(xué)和C語言程序設(shè)計(jì);4)數(shù)據(jù)結(jié)構(gòu)會(huì)受到基礎(chǔ)課程C 語言程序設(shè)計(jì)、大學(xué)物理、大學(xué)英語、線性代數(shù)和高等數(shù)學(xué)的影響,其中影響較大的基礎(chǔ)課程是C 語言程序設(shè)計(jì)和大學(xué)物理;5)數(shù)據(jù)庫原理會(huì)受到基礎(chǔ)課程大學(xué)英語、高等數(shù)學(xué)、線性代數(shù)和大學(xué)物理,其中影響較大的基礎(chǔ)課程是大學(xué)英語和高等數(shù)學(xué)。

        綜上所述,數(shù)學(xué)類專業(yè)課受數(shù)學(xué)類基礎(chǔ)課的影響較大,比如高等數(shù)學(xué)對(duì)離散數(shù)學(xué)的影響就很大;計(jì)算機(jī)類專業(yè)課受計(jì)算機(jī)類基礎(chǔ)課的影響較大,比如C 語言程序設(shè)計(jì)對(duì)匯編語言程序設(shè)計(jì)的影響就很大;計(jì)算機(jī)類和數(shù)學(xué)類相結(jié)合的課程會(huì)同時(shí)受計(jì)算機(jī)類和數(shù)學(xué)類基礎(chǔ)課的影響,比如C 語言程序設(shè)計(jì)和線性代數(shù)對(duì)操作系統(tǒng)的影響就很大。

        4 結(jié)語

        本文主要通過數(shù)據(jù)挖掘軟件Wake對(duì)學(xué)生成績(jī)進(jìn)行了關(guān)聯(lián)規(guī)則挖掘和多元線性回歸建模,并給出了參數(shù)設(shè)置和模型評(píng)價(jià)參數(shù),分別得到了課程與課程之間的關(guān)聯(lián)和基礎(chǔ)課程對(duì)專業(yè)課程的影響?;跀?shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析是一個(gè)比較廣泛的課題,在利用關(guān)聯(lián)規(guī)則挖掘?qū)W生成績(jī)時(shí),只是對(duì)課程之間的相關(guān)性進(jìn)行了分析,沒有加入一些附加因素,比如,學(xué)生的性別、年齡、年級(jí)和英語等級(jí)考試成績(jī)等學(xué)生基本信息。在利用多元線性回歸對(duì)學(xué)生成績(jī)建立回歸模型時(shí),只是分析了基礎(chǔ)課程對(duì)專業(yè)課程的影響,沒有建立學(xué)生平時(shí)成績(jī)對(duì)考研成績(jī)的回歸模型。以上這些不足之處將會(huì)在下一步的研究工作中得到完善與優(yōu)化。

        猜你喜歡
        關(guān)聯(lián)模型課程
        一半模型
        “苦”的關(guān)聯(lián)
        數(shù)字圖像處理課程混合式教學(xué)改革與探索
        重要模型『一線三等角』
        軟件設(shè)計(jì)與開發(fā)實(shí)踐課程探索與實(shí)踐
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        為什么要學(xué)習(xí)HAA課程?
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        3D打印中的模型分割與打包
        中文字幕精品久久久久人妻红杏ⅰ| 久久色悠悠综合网亚洲| 亚洲色图专区在线观看| 欧美成人看片一区二区三区尤物| 欧美老熟妇欲乱高清视频 | 久久久老熟女一区二区三区 | 伊人一道本| 亚洲国产精品二区三区| 国产视频一区二区三区在线免费| 久久99精品国产麻豆不卡| 亚洲一区综合精品狠狠爱| 中文在线最新版天堂av| 精品人妻va一区二区三区| 野狼第一精品社区| 久久综合亚洲色社区| 亚洲天堂av在线免费播放| 神马影院午夜dy888| 亚洲av无码av日韩av网站| 亚洲欧美在线视频| 经典黄色一区二区三区| 久久亚洲色一区二区三区| 久久亚洲精品无码gv| 亚洲一区二区免费日韩| 国产av在线观看一区二区三区| 天天爽天天爽夜夜爽毛片| 日本午夜福利| 日本伦理视频一区二区| 人妻中文字幕在线网站| 日日噜噜夜夜狠狠久久无码区| 久久久久久久久高潮无码 | 亚洲一区二区三区偷拍自拍 | 亚洲国产精品久久性色av| 99精品国产成人一区二区| 97久久超碰国产精品2021| 开心激情站开心激情网六月婷婷| 偷拍色图一区二区三区| www插插插无码视频网站| 青青国产成人久久91| 日本高清一区二区不卡| 极品少妇小泬50pthepon| 国产小毛片|