亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于招生數(shù)據(jù)利用不同的機(jī)器學(xué)習(xí)方法預(yù)測(cè)大一學(xué)生成績(jī)

        2023-09-25 17:13:14
        現(xiàn)代計(jì)算機(jī) 2023年14期
        關(guān)鍵詞:線性準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)

        王 琛

        (溫州肯恩大學(xué)信息技術(shù)中心,溫州 325060)

        0 引言

        隨著高校信息化系統(tǒng)的不斷完善,學(xué)生數(shù)據(jù)的信息量呈現(xiàn)出急劇增長(zhǎng)的趨勢(shì)。通過(guò)對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆治?,可以獲得有效的評(píng)估,從而預(yù)測(cè)學(xué)生的表現(xiàn)。近年來(lái),機(jī)器學(xué)習(xí)技術(shù)在預(yù)測(cè)學(xué)生表現(xiàn)方面取得了顯著進(jìn)展[1-3]。與教育數(shù)據(jù)挖掘不同,機(jī)器學(xué)習(xí)技術(shù)可以結(jié)合任何學(xué)生屬性對(duì)不同的學(xué)生群體進(jìn)行有效的預(yù)測(cè)。本研究旨在借助不同的機(jī)器學(xué)習(xí)技術(shù)發(fā)現(xiàn)招生數(shù)據(jù)中的潛在規(guī)律或模式,繼而為教學(xué)預(yù)警提供服務(wù)制定。通過(guò)招生數(shù)據(jù)進(jìn)行建模,可以預(yù)測(cè)新生大一成績(jī),從而幫助高校教學(xué)管理者制定預(yù)警措施,如對(duì)學(xué)生進(jìn)行預(yù)警警告或者盡早引導(dǎo)他們改進(jìn)學(xué)習(xí),以便學(xué)生在后續(xù)的學(xué)習(xí)中提高成績(jī)和學(xué)術(shù)水平,這將是教學(xué)預(yù)警研究中的一個(gè)新亮點(diǎn)。

        目前,對(duì)于招生數(shù)據(jù)和學(xué)業(yè)預(yù)測(cè)的相關(guān)研究多局限于對(duì)招生數(shù)據(jù)進(jìn)行多維數(shù)據(jù)統(tǒng)計(jì)分析[4-5]。本研究將應(yīng)用不同的機(jī)器學(xué)習(xí)模型對(duì)高校大一學(xué)生的平均學(xué)分績(jī)點(diǎn)(grade point average,GPA)成績(jī)進(jìn)行預(yù)測(cè),通過(guò)采集高校實(shí)際的招生數(shù)據(jù)和學(xué)業(yè)GPA 成績(jī)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和模型預(yù)測(cè),從而研究不同機(jī)器學(xué)習(xí)模型在大一學(xué)生GPA成績(jī)預(yù)測(cè)方面的準(zhǔn)確度。除了基本的招生數(shù)據(jù)處理和權(quán)重分析外,本研究還將添加大一各階段性累計(jì)平均GPA,從而設(shè)計(jì)出一個(gè)具有預(yù)警功能的高校新生學(xué)業(yè)成績(jī)?cè)u(píng)估模型,幫助教師及教學(xué)管理者為剛進(jìn)入校門(mén)的學(xué)生提供初期成績(jī)?cè)u(píng)估的預(yù)警信息和教學(xué)幫助參考,有利于高校對(duì)學(xué)生早期生涯的學(xué)業(yè)預(yù)警進(jìn)行干預(yù)。

        1 研究?jī)?nèi)容與方法

        1.1 研究?jī)?nèi)容

        本研究通過(guò)分析現(xiàn)有的招生基礎(chǔ)數(shù)據(jù)和大一GPA 成績(jī)數(shù)據(jù)之間的關(guān)聯(lián),通過(guò)機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)其中的規(guī)律,為高校學(xué)業(yè)成績(jī)初期預(yù)警提供參考。為了達(dá)成這個(gè)目標(biāo),我們?cè)O(shè)計(jì)和采用了不同的機(jī)器學(xué)習(xí)模型。通過(guò)對(duì)這些模型進(jìn)行訓(xùn)練和對(duì)比其在測(cè)試集(test set)上的預(yù)測(cè)結(jié)果,我們研究和分析了線性回歸模型(linear regression)、多元邏輯回歸模型(logistic regression)和神經(jīng)網(wǎng)絡(luò)(neural network)在大一GPA 成績(jī)預(yù)測(cè)準(zhǔn)確率方面的表現(xiàn)。之后,我們還對(duì)進(jìn)行了主成分分析(PCA),期望能夠從高校招生歷史數(shù)據(jù)中挖掘重要的信息,消除招生新生歷史數(shù)據(jù)之間的重疊數(shù)據(jù)和噪聲數(shù)據(jù)。最后,將PCA 和精度較高的預(yù)測(cè)模型相結(jié)合,首先采用PCA 降低數(shù)據(jù)維度,提取對(duì)預(yù)測(cè)結(jié)果影響較大的主成分因子,然后使用預(yù)測(cè)準(zhǔn)確率較高的模型對(duì)招生基礎(chǔ)數(shù)據(jù)進(jìn)行預(yù)測(cè)。圖1 為預(yù)測(cè)模型的流程。

        圖1 預(yù)測(cè)模型流程

        1.2 研究方法

        本研究采用了模型研究和數(shù)據(jù)分析相結(jié)合的方法。在模型研究方面,使用PyTorch 框架構(gòu)建線性回歸模型、多元邏輯回歸模型和神經(jīng)網(wǎng)絡(luò)模型,并對(duì)它們進(jìn)行訓(xùn)練。PyTorch 是一個(gè)基于Torch 的Python 開(kāi)源機(jī)器學(xué)習(xí)庫(kù),可用于自然語(yǔ)言處理等應(yīng)用程序,支持動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò),具有強(qiáng)大的靈活性和擴(kuò)展性。在數(shù)據(jù)采集和分析方面,我們將收集高校的招生基礎(chǔ)數(shù)據(jù)和學(xué)生大一的GPA 成績(jī)(四分制)數(shù)據(jù),對(duì)其進(jìn)行學(xué)習(xí)和訓(xùn)練。此外,我們還對(duì)數(shù)據(jù)進(jìn)行處理,以便發(fā)現(xiàn)數(shù)據(jù)中的主要特征,消除噪聲和冗余信息。

        在選擇機(jī)器學(xué)習(xí)模型方面,我們考慮了所采用的每個(gè)模型的優(yōu)點(diǎn)和局限性,并根據(jù)實(shí)際情況進(jìn)行了設(shè)計(jì)。在PCA 步驟中,我們選擇了最小化信息損失和最大化方差的方案,以確保提取到的主成分因子盡可能的準(zhǔn)確和重要。在最后的優(yōu)化步驟中,選擇了最適合的模型來(lái)對(duì)GPA成績(jī)數(shù)據(jù)進(jìn)行預(yù)測(cè)。

        1.2.1 數(shù)據(jù)和數(shù)據(jù)預(yù)處理

        本研究采集的數(shù)據(jù)來(lái)自某大學(xué)2016 年至2019 年的招生基礎(chǔ)數(shù)據(jù)和對(duì)應(yīng)學(xué)生的GPA 成績(jī)(四分制)數(shù)據(jù)。使用的模型之一神經(jīng)網(wǎng)絡(luò)模型是一種基于大數(shù)據(jù)分析的人工智能模型,當(dāng)數(shù)據(jù)量較大時(shí),其預(yù)測(cè)精度較高。然而,當(dāng)樣本數(shù)據(jù)量較小時(shí),模型容易陷入局部最優(yōu),出現(xiàn)過(guò)擬合現(xiàn)象,而降低預(yù)測(cè)精度。因此,在數(shù)據(jù)收集階段,本研究將盡可能擴(kuò)大數(shù)據(jù)樣本的維度,收集新生的各種信息屬性,以減少誤差并提高準(zhǔn)確率。

        本研究還將采用數(shù)據(jù)重構(gòu)方法,獲取高校新生多維基礎(chǔ)歷史數(shù)據(jù)和學(xué)生成績(jī)歷史數(shù)據(jù)。采用數(shù)據(jù)重構(gòu)的原因是,高校招生受到當(dāng)年國(guó)家政策、社會(huì)需求、社會(huì)經(jīng)濟(jì)狀態(tài)等因素的影響,導(dǎo)致招生數(shù)據(jù)變化存在非線性和復(fù)雜性。此外,不同省份給出的招生數(shù)據(jù)內(nèi)容、格式和代碼各不相同,成績(jī)構(gòu)成也各不相同,例如浙江省新高考改革后不分文理科。

        表1 展示了某省實(shí)際招生數(shù)據(jù)的變化??梢钥闯?,該數(shù)據(jù)有著該省份特有的解析規(guī)則和信息,并且不同字段樣本間存在數(shù)量級(jí)的差異。

        表1 某省實(shí)際招生數(shù)據(jù)

        在數(shù)據(jù)采集之后,本研究進(jìn)行了數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換等數(shù)據(jù)預(yù)處理步驟。比如,對(duì)于采集到的招生數(shù)據(jù)中的缺失值本研究采用了插值法,通過(guò)計(jì)算平均值將其填充到缺失值的位置上。同時(shí),由于招生數(shù)據(jù)中存在大量的類(lèi)別值或離散值,為了提高模型的準(zhǔn)確性,以及為了讓模型的距離計(jì)算更合理,本研究使用Pandas 中的get_dummies()函數(shù)對(duì)所有離散型特征進(jìn)行了One-Hot編碼。經(jīng)過(guò)處理后,得到的招生數(shù)據(jù)集為一個(gè)5615 行、50 列的矩陣,如表2所示。

        表2 預(yù)處理后的招生數(shù)據(jù)集矩陣

        顯然,上述數(shù)據(jù)具有高維度和高噪聲等特性,并且不同省份或樣本之間存在數(shù)量級(jí)的差異。當(dāng)各招生數(shù)據(jù)指標(biāo)間的水平相差很大時(shí),如果直接用原始指標(biāo)值進(jìn)行分析,就會(huì)突出數(shù)值較高的指標(biāo)在模型分析中的作用,相對(duì)削弱數(shù)值水平低的指標(biāo)的作用。因此,在分析數(shù)據(jù)之前,我們還對(duì)數(shù)據(jù)集進(jìn)行了標(biāo)準(zhǔn)化和歸一化處理。通過(guò)歸一化將招生數(shù)據(jù)按比例縮放至一個(gè)小的特定區(qū)間,能有效降低數(shù)據(jù)集噪音,便于不同單位或數(shù)量級(jí)的指標(biāo)能夠進(jìn)行比較和加權(quán),這樣便于后續(xù)數(shù)據(jù)處理和加快模型收斂[6]。本研究采用了Min-Max Scaling、Z-Score Normalization 和L2 Normalization 三種歸一化算法進(jìn)行嘗試,基于訓(xùn)練樣本上的總損失值比較結(jié)果,最終選擇了Min-Max Scaling 作為歸一化算法。具體算法公式如下:

        最后,將數(shù)據(jù)集劃分為訓(xùn)練集(train_Set)、評(píng)估集(valid_set)和測(cè)試集(test_set),并進(jìn)行了交叉驗(yàn)證(cross validation)。數(shù)據(jù)集的部分參數(shù)值詳見(jiàn)表3。

        表3 歸一化處理之后的訓(xùn)練集片段

        1.2.2 基于數(shù)據(jù)統(tǒng)計(jì)的相關(guān)性分析

        本研究首先對(duì)學(xué)生高考成績(jī)和大一GPA成績(jī)進(jìn)行了皮爾遜相關(guān)系數(shù)的計(jì)算。皮爾遜(pearson)積矩相關(guān)系數(shù)是傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)里常用的一種方法[7],用于度量2個(gè)變量間相關(guān)程度,它是一個(gè)介于1和-1之間的值。其中:1表示變量完全正相關(guān),0 表示無(wú)關(guān),-1 表示完全負(fù)相關(guān),計(jì)算結(jié)果見(jiàn)表4。

        表4 不同特征與大一成績(jī)間的相關(guān)系數(shù)

        從表4 可以看出,高考總成績(jī)和學(xué)生大一GPA 成績(jī)之間的相關(guān)系數(shù)值略高于0.3,表明二者具有一定程度的相關(guān)性,但不顯著。而單門(mén)課程的高考成績(jī)和大一GPA 成績(jī)的相關(guān)系數(shù)值都小于0.3,可以認(rèn)為相關(guān)性不高。此外,從圖2也可以明顯看出高考成績(jī)對(duì)學(xué)生大一GPA 的影響沒(méi)有呈線性遞增。分析原因我們認(rèn)為高校的教育以專(zhuān)業(yè)課程為主,更加細(xì)分化的專(zhuān)業(yè)知識(shí)減少高考成績(jī)對(duì)學(xué)生大學(xué)學(xué)習(xí)的實(shí)際影響程度。因此,可以得出結(jié)論,雖然高考成績(jī)與大一GPA 成績(jī)之間具有一定程度的相關(guān)性,但影響并不明顯。此外,基于傳統(tǒng)統(tǒng)計(jì)的相關(guān)性分析方法對(duì)于沒(méi)有明顯統(tǒng)計(jì)學(xué)規(guī)律的多元復(fù)雜數(shù)據(jù)的效果并不理想。

        圖2 高考成績(jī)和大一GPA關(guān)系分布

        1.2.3 多元線性回歸模型分析

        線性回歸是一種廣泛應(yīng)用的回歸模型,其基于以下假設(shè):自變量X和因變量y之間的關(guān)系是線性的,即y可以表示為X中元素的加權(quán)和[8]。我們假設(shè)招生數(shù)據(jù)和大一GPA 之間存在線性關(guān)系,可以表示為特征(如英語(yǔ)成績(jī)、總成績(jī)、年齡等)的加權(quán)和。當(dāng)使用線性代數(shù)來(lái)建模時(shí),我們輸入包含d個(gè)特征(在本研究中為50個(gè))的高維招生數(shù)據(jù)集,將預(yù)測(cè)結(jié)果y?表示為

        其中:每個(gè)xi代表數(shù)據(jù)集中的一個(gè)特征;wi代表該特征的權(quán)重;b表示偏差項(xiàng)。在給定招生訓(xùn)練數(shù)據(jù)特征X和對(duì)應(yīng)的GPA 成績(jī)y,線性回歸模型的目標(biāo)是找到一組最優(yōu)的權(quán)重向量W和偏差項(xiàng)b,這組權(quán)重向量和偏差能夠使得新樣本預(yù)測(cè)標(biāo)簽的誤差盡可能小。

        為了尋找最好的模型參數(shù)W和b,我們需要定義損失函數(shù)和使用隨機(jī)梯度下降方法來(lái)學(xué)習(xí)和訓(xùn)練模型參數(shù)。損失函數(shù)用來(lái)量化目標(biāo)值和預(yù)測(cè)值之間的差距,在訓(xùn)練模型時(shí)我們的目標(biāo)是找到一組參數(shù)(w*,b*),通過(guò)計(jì)算訓(xùn)練集樣本在損失函數(shù)L(w,b)上的損失均值,最小化在所有訓(xùn)練樣本上的總損失:

        本研究使用PyTorch 的MSELoss 類(lèi)來(lái)計(jì)算均方誤差損失函數(shù),也稱(chēng)為平方L2 范數(shù)。梯度下降方法幾乎可以優(yōu)化所有機(jī)器學(xué)習(xí)模型。它通過(guò)在損失函數(shù)遞減的方向上不斷更新參數(shù)來(lái)降低誤差。我們使用以下公式來(lái)表示這一更新迭代的過(guò)程(其中?表示偏導(dǎo)數(shù)):

        經(jīng)過(guò)多次迭代后,我們就能通過(guò)有限的數(shù)據(jù)來(lái)訓(xùn)練模型參數(shù)(w*,b*)。為了更好地評(píng)估訓(xùn)練效果,本研究會(huì)計(jì)算每次迭代周期后的損失,并使用更新后的參數(shù)計(jì)算評(píng)估集的準(zhǔn)確率,以監(jiān)控訓(xùn)練過(guò)程。記錄的結(jié)果見(jiàn)表5。

        表5 線性回歸模型每個(gè)迭代周期后的損失和評(píng)估集準(zhǔn)確率

        通過(guò)這個(gè)已經(jīng)訓(xùn)練好的線性回歸模型,我們就可以使用招生數(shù)據(jù)測(cè)試集來(lái)預(yù)測(cè)未包含在訓(xùn)練數(shù)據(jù)和評(píng)估集中的學(xué)生大一GPA,并查看模型的準(zhǔn)確度。

        1.2.4 多元邏輯回歸模型分析

        多元邏輯回歸本質(zhì)上是多元線性回歸,只是在特征到結(jié)果的映射中加入了一層函數(shù)映射[9-11]。該映射函數(shù)為L(zhǎng)ogistic 函數(shù)(也稱(chēng)為Sigmoid 函數(shù)),其形式如下:

        首先進(jìn)行特征線性求和:

        然后使用函數(shù)s(z)構(gòu)造預(yù)測(cè)函數(shù)來(lái)進(jìn)行預(yù)測(cè),邏輯回歸的最終表達(dá)式如下:

        雖然邏輯回歸是非常經(jīng)典的分類(lèi)算法模型,但主要用于解決二分類(lèi)問(wèn)題,因此需要對(duì)GPA數(shù)據(jù)進(jìn)行預(yù)處理。在本次研究中,將學(xué)生大一GPA 大于等于3.2 的樣本作為一個(gè)類(lèi)別,小于3.2 的樣本作為另一個(gè)類(lèi)別,通過(guò)訓(xùn)練模型得到屬于每個(gè)類(lèi)別的概率。本研究使用PyTorch 的BCELoss 類(lèi)作為邏輯回歸模型的損失函數(shù)。每次迭代周期后的損失以及使用更新后的參數(shù)計(jì)算的在評(píng)估集的準(zhǔn)確率見(jiàn)表6。

        表6 邏輯回歸模型每個(gè)迭代周期后的損失和評(píng)估集準(zhǔn)確率

        可以發(fā)現(xiàn)該模型在評(píng)估集上準(zhǔn)確率很高,主要原因是該模型只將預(yù)測(cè)結(jié)果分為了兩類(lèi)。然而,這種分類(lèi)方式顆粒度并不夠精細(xì),可能會(huì)導(dǎo)致欠擬合和精度不高的問(wèn)題。

        1.2.5 神經(jīng)網(wǎng)絡(luò)模型分析

        前面兩個(gè)模型都是基于單調(diào)性假設(shè)的線性回歸模型,即任何特征值的增大或減小都會(huì)導(dǎo)致模型預(yù)測(cè)輸出的增大或減?。▽?duì)應(yīng)權(quán)重為正或負(fù))。例如,當(dāng)我們?cè)噲D預(yù)測(cè)學(xué)生大一GPA 時(shí),我們假設(shè)在其他條件不變的情況下,高考成績(jī)高的學(xué)生可能比成績(jī)較低的學(xué)生獲得更高的GPA[12]。然而,即使高考成績(jī)與大一GPA 成績(jī)之間存在單調(diào)性,它們之間的關(guān)系也不一定是線性的。高考成績(jī)值在高分值段多5 分的人可能比在低分值段多25 分的人能獲得更高很多的GPA。為了處理這類(lèi)非線性問(wèn)題,我們采用了神經(jīng)網(wǎng)絡(luò)模型。

        神經(jīng)網(wǎng)絡(luò)模型是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。該模型通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系來(lái)實(shí)現(xiàn)信息處理,是目前應(yīng)用最廣泛的機(jī)器學(xué)習(xí)模型[13-15]。如圖3所示,通過(guò)在網(wǎng)絡(luò)中加入一個(gè)或多個(gè)隱藏層,可以克服線性模型的限制,使其能夠處理更普遍的函數(shù)關(guān)系類(lèi)型。

        圖3 一個(gè)單隱藏層的簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)

        本研究設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型為單隱藏層神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)包含20 個(gè)隱藏單元的單一隱藏層,使用CrossEntropyLoss 交叉熵?fù)p失作為損失函數(shù),并采用ReLU 作為激活函數(shù)。ReLU 提供了一種非常簡(jiǎn)單的非線性變換。對(duì)于給定的元素x,ReLU 函數(shù)被定義為該元素x與0 的最大值:

        在本次研究中,我們采用傳統(tǒng)的分段績(jī)點(diǎn)法,將學(xué)生大一GPA 成績(jī)按照分?jǐn)?shù)區(qū)間劃分為11 個(gè)等級(jí)類(lèi)別,分別為A=4.0、A-=3.7、B+=3.3、B=3.0、B-=2.7、C+=2.3、C=2.0、C-=1.7、D+=1.3、D=1.0和F=0,因此設(shè)計(jì)的輸出層包含11個(gè)輸出單元。通過(guò)訓(xùn)練模型不斷迭代來(lái)優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏差參數(shù),使神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到輸入數(shù)據(jù)和輸出之間的映射關(guān)系,從而能夠準(zhǔn)確地預(yù)測(cè)大一學(xué)生的GPA 等級(jí)是多少。模型每次迭代周期后的損失和評(píng)估集的準(zhǔn)確率如表7 所示。

        表7 神經(jīng)網(wǎng)絡(luò)模型每個(gè)迭代周期后的損失和評(píng)估集準(zhǔn)確率

        2 實(shí)驗(yàn)結(jié)果與優(yōu)化

        2.1 實(shí)驗(yàn)結(jié)果與分析

        我們將訓(xùn)練好的三個(gè)模型在測(cè)試集上運(yùn)行。三個(gè)不同的機(jī)器學(xué)習(xí)模型對(duì)測(cè)試集招生數(shù)據(jù)進(jìn)行預(yù)測(cè),結(jié)果顯示多元線性回歸模型構(gòu)建的預(yù)測(cè)模型的準(zhǔn)確率最低,為0.6019;其次是神經(jīng)網(wǎng)絡(luò)模型,準(zhǔn)確率為0.7227;邏輯回歸的準(zhǔn)確率值最高,為0.8035。表8列出了不同算法的預(yù)測(cè)分類(lèi)結(jié)果。

        表8 不同模型方案在測(cè)試集上的準(zhǔn)確率

        可以看出,其中兩種機(jī)器學(xué)習(xí)算法的準(zhǔn)確率均在70%以上,預(yù)測(cè)效果良好。

        為了獲得更好的分類(lèi)效果和更高的精準(zhǔn)度,本研究嘗試?yán)弥鞒煞址治觯≒CA)對(duì)招生數(shù)據(jù)進(jìn)行預(yù)處理,提取其主成分后,在三個(gè)不同的模型上運(yùn)行。最終測(cè)試集的準(zhǔn)確率見(jiàn)表9。結(jié)果表明,對(duì)招生數(shù)據(jù)進(jìn)行PCA 主成分提取處理,對(duì)模型的精準(zhǔn)率提高并不顯著,而在某些情況下,可能會(huì)導(dǎo)致一定程度的信息丟失。

        表9 PCA主成分提取后模型方案在測(cè)試集的準(zhǔn)確率

        2.2 模型優(yōu)化

        本次優(yōu)化我們?cè)黾恿藢W(xué)生大一不同階段的累計(jì)GPA,包括大一上期中GPA、大一上期末GPA、大一下期中GPA 數(shù)據(jù)。這樣的優(yōu)化考慮到了GPA 的時(shí)序性,更能反映學(xué)生在大一不同時(shí)期的學(xué)習(xí)表現(xiàn)。這一優(yōu)化有助于提高模型的預(yù)測(cè)精度,進(jìn)而更準(zhǔn)確地預(yù)測(cè)學(xué)生的大一期末GPA 成績(jī)。考慮到本研究在采用邏輯回歸模型時(shí)分類(lèi)顆粒度大,雖然準(zhǔn)確度更高但在分類(lèi)效果上存在一定的不足。相比之下,神經(jīng)網(wǎng)絡(luò)模型更適用于該任務(wù)。因此,本研究選擇使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化調(diào)整,以提高預(yù)測(cè)精度。優(yōu)化后的模型如圖4所示。

        圖4 增加了不同階段累計(jì)GPA的模型

        使用訓(xùn)練集反復(fù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)并進(jìn)行權(quán)重和偏置的調(diào)整后,我們得到了一組優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型。在測(cè)試集上的測(cè)試結(jié)果表明,這組優(yōu)化后的模型預(yù)測(cè)準(zhǔn)確率顯著提高,其表現(xiàn)見(jiàn)表10。

        表10 優(yōu)化后模型方案在測(cè)試集的準(zhǔn)確率

        3 結(jié)語(yǔ)

        本研究的主要目的是通過(guò)分析招生數(shù)據(jù)的影響特征來(lái)預(yù)測(cè)學(xué)生的大一GPA,研究結(jié)果表明傳統(tǒng)的統(tǒng)計(jì)模型在滿足預(yù)測(cè)需求方面存在不足,因此本研究使用了多元線性回歸模型、多元邏輯回歸模型和神經(jīng)網(wǎng)絡(luò)模型構(gòu)建預(yù)測(cè)模型,并通過(guò)比較它們的準(zhǔn)確率來(lái)評(píng)估它們的性能。結(jié)果顯示,邏輯回歸模型表現(xiàn)最佳,神經(jīng)網(wǎng)絡(luò)模型也比傳統(tǒng)多元線性回歸方法具有更好的預(yù)測(cè)性能,尤其適用于分類(lèi)預(yù)測(cè)??紤]到本研究在采用邏輯回歸模型時(shí)分類(lèi)顆粒度大,因此優(yōu)化神經(jīng)網(wǎng)絡(luò)模型對(duì)大一GPA 進(jìn)行預(yù)測(cè)更具有應(yīng)用前景和參考價(jià)值。

        然而,本研究存在一些局限性。首先,所使用的數(shù)據(jù)量相對(duì)較少,因此在今后的研究中將進(jìn)一步增加招生數(shù)據(jù)的訓(xùn)練集數(shù)據(jù)量以提高模型的擬合能力,使實(shí)驗(yàn)結(jié)果更具有普適性。其次,在選取的輸出結(jié)果變量中,大一成績(jī)分類(lèi)顆粒度不夠細(xì)。并且,神經(jīng)網(wǎng)絡(luò)模型也只使用了單層模型。雖然單隱層網(wǎng)絡(luò)能夠?qū)W習(xí)任何函數(shù),但如果使用更深的網(wǎng)絡(luò)可以更容易地逼近預(yù)測(cè)結(jié)果并獲得更高的精準(zhǔn)度。最后,本研究使用的招生數(shù)據(jù)集存在一定程度的樣本缺失,雖使用了均值填補(bǔ)法對(duì)缺失值進(jìn)行了填補(bǔ),但仍可能對(duì)模型的準(zhǔn)確性產(chǎn)生一定程度的影響。未來(lái)的研究可以進(jìn)一步擴(kuò)大訓(xùn)練集數(shù)據(jù)量、增加招生數(shù)據(jù)變量并構(gòu)建更細(xì)粒度的模型、采用更深層的神經(jīng)網(wǎng)絡(luò)模型等來(lái)改善模型性能。

        本研究有助于高校在入學(xué)階段就預(yù)測(cè)學(xué)生未來(lái)的學(xué)業(yè)成績(jī),并提早規(guī)劃出有針對(duì)性的學(xué)業(yè)輔助,從而提高學(xué)生整體成績(jī)。本研究初步證明了機(jī)器學(xué)習(xí)模型通過(guò)招生數(shù)據(jù)對(duì)大一成績(jī)的預(yù)測(cè)具有較好的準(zhǔn)確性。未來(lái)可在此基礎(chǔ)上進(jìn)一步改良和優(yōu)化機(jī)器學(xué)習(xí)模型,同時(shí)發(fā)掘更多與成績(jī)有相關(guān)性的學(xué)生信息,隨著學(xué)生信息大數(shù)據(jù)規(guī)模的不斷擴(kuò)展和增長(zhǎng),這項(xiàng)研究的應(yīng)用潛力將得到進(jìn)一步評(píng)估和優(yōu)化。

        猜你喜歡
        線性準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)
        漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        線性回歸方程的求解與應(yīng)用
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        二階線性微分方程的解法
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        久久中文字幕无码一区二区| 亚洲夜夜性无码| 国产又色又爽又黄刺激在线视频| 成人做爰69片免费看网站| 国产一起色一起爱| 乳乱中文字幕熟女熟妇| 欧洲熟妇色xxxx欧美老妇性| 少妇脱了内裤让我添| 精品少妇人妻成人一区二区| 午夜视频在线观看日本| 亚洲日韩精品a∨片无码加勒比| 国产精品久久久久久52avav | 一道久在线无码加勒比| 国产精品不卡无码AV在线播放| 成人免费播放视频影院| 亚洲一区av在线观看| 国产免费一区二区三区在线观看| 亚洲色无码中文字幕| 亚洲精品久久蜜桃av| 国产综合在线观看| 欧美国产亚洲日韩在线二区| 成av人片一区二区三区久久| 一区二区三区最新中文字幕| 免费人成再在线观看视频| 亚洲AV永久天堂在线观看| 亚洲一区亚洲二区中文字幕| 亚洲国产av无码精品| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 日本久久伊人特级黄色| 亚洲国产精品日韩av专区| 国产午夜激情视频自拍| 自拍视频在线观看国产| 人妻少妇精品视频专区| 欧美日韩综合网在线观看| 色青青女同性恋视频日本熟女| 91丝袜美腿亚洲一区二区| 少妇人妻偷人精品免费视频| 国产自在自线午夜精品视频在| 亚洲国产国语对白在线观看| 日本午夜精品一区二区三区电影| 乱码一二区在线亚洲|