亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于招生數(shù)據(jù)利用不同的機(jī)器學(xué)習(xí)方法預(yù)測大一學(xué)生成績

2023-09-25 17:13:14王琛

現(xiàn)代計(jì)算機(jī) 2023年14期

王琛

（溫州肯恩大學(xué)信息技術(shù)中心，溫州 325060）

0 引言

隨著高校信息化系統(tǒng)的不斷完善，學(xué)生數(shù)據(jù)的信息量呈現(xiàn)出急劇增長的趨勢。通過對數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆治?，可以獲得有效的評估，從而預(yù)測學(xué)生的表現(xiàn)。近年來，機(jī)器學(xué)習(xí)技術(shù)在預(yù)測學(xué)生表現(xiàn)方面取得了顯著進(jìn)展［1-3］。與教育數(shù)據(jù)挖掘不同，機(jī)器學(xué)習(xí)技術(shù)可以結(jié)合任何學(xué)生屬性對不同的學(xué)生群體進(jìn)行有效的預(yù)測。本研究旨在借助不同的機(jī)器學(xué)習(xí)技術(shù)發(fā)現(xiàn)招生數(shù)據(jù)中的潛在規(guī)律或模式，繼而為教學(xué)預(yù)警提供服務(wù)制定。通過招生數(shù)據(jù)進(jìn)行建模，可以預(yù)測新生大一成績，從而幫助高校教學(xué)管理者制定預(yù)警措施，如對學(xué)生進(jìn)行預(yù)警警告或者盡早引導(dǎo)他們改進(jìn)學(xué)習(xí)，以便學(xué)生在后續(xù)的學(xué)習(xí)中提高成績和學(xué)術(shù)水平，這將是教學(xué)預(yù)警研究中的一個(gè)新亮點(diǎn)。

目前，對于招生數(shù)據(jù)和學(xué)業(yè)預(yù)測的相關(guān)研究多局限于對招生數(shù)據(jù)進(jìn)行多維數(shù)據(jù)統(tǒng)計(jì)分析［4-5］。本研究將應(yīng)用不同的機(jī)器學(xué)習(xí)模型對高校大一學(xué)生的平均學(xué)分績點(diǎn)（grade point average,GPA）成績進(jìn)行預(yù)測，通過采集高校實(shí)際的招生數(shù)據(jù)和學(xué)業(yè)GPA 成績數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和模型預(yù)測，從而研究不同機(jī)器學(xué)習(xí)模型在大一學(xué)生GPA成績預(yù)測方面的準(zhǔn)確度。除了基本的招生數(shù)據(jù)處理和權(quán)重分析外，本研究還將添加大一各階段性累計(jì)平均GPA，從而設(shè)計(jì)出一個(gè)具有預(yù)警功能的高校新生學(xué)業(yè)成績評估模型，幫助教師及教學(xué)管理者為剛進(jìn)入校門的學(xué)生提供初期成績評估的預(yù)警信息和教學(xué)幫助參考，有利于高校對學(xué)生早期生涯的學(xué)業(yè)預(yù)警進(jìn)行干預(yù)。

1 研究內(nèi)容與方法

1.1 研究內(nèi)容

本研究通過分析現(xiàn)有的招生基礎(chǔ)數(shù)據(jù)和大一GPA 成績數(shù)據(jù)之間的關(guān)聯(lián)，通過機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)其中的規(guī)律，為高校學(xué)業(yè)成績初期預(yù)警提供參考。為了達(dá)成這個(gè)目標(biāo)，我們設(shè)計(jì)和采用了不同的機(jī)器學(xué)習(xí)模型。通過對這些模型進(jìn)行訓(xùn)練和對比其在測試集（test set）上的預(yù)測結(jié)果，我們研究和分析了線性回歸模型（linear regression）、多元邏輯回歸模型（logistic regression）和神經(jīng)網(wǎng)絡(luò)（neural network）在大一GPA 成績預(yù)測準(zhǔn)確率方面的表現(xiàn)。之后，我們還對進(jìn)行了主成分分析（PCA），期望能夠從高校招生歷史數(shù)據(jù)中挖掘重要的信息，消除招生新生歷史數(shù)據(jù)之間的重疊數(shù)據(jù)和噪聲數(shù)據(jù)。最后，將PCA 和精度較高的預(yù)測模型相結(jié)合，首先采用PCA 降低數(shù)據(jù)維度，提取對預(yù)測結(jié)果影響較大的主成分因子，然后使用預(yù)測準(zhǔn)確率較高的模型對招生基礎(chǔ)數(shù)據(jù)進(jìn)行預(yù)測。圖1 為預(yù)測模型的流程。

圖1 預(yù)測模型流程

1.2 研究方法

本研究采用了模型研究和數(shù)據(jù)分析相結(jié)合的方法。在模型研究方面，使用PyTorch 框架構(gòu)建線性回歸模型、多元邏輯回歸模型和神經(jīng)網(wǎng)絡(luò)模型，并對它們進(jìn)行訓(xùn)練。PyTorch 是一個(gè)基于Torch 的Python 開源機(jī)器學(xué)習(xí)庫，可用于自然語言處理等應(yīng)用程序，支持動態(tài)神經(jīng)網(wǎng)絡(luò)，具有強(qiáng)大的靈活性和擴(kuò)展性。在數(shù)據(jù)采集和分析方面，我們將收集高校的招生基礎(chǔ)數(shù)據(jù)和學(xué)生大一的GPA 成績（四分制）數(shù)據(jù)，對其進(jìn)行學(xué)習(xí)和訓(xùn)練。此外，我們還對數(shù)據(jù)進(jìn)行處理，以便發(fā)現(xiàn)數(shù)據(jù)中的主要特征，消除噪聲和冗余信息。

在選擇機(jī)器學(xué)習(xí)模型方面，我們考慮了所采用的每個(gè)模型的優(yōu)點(diǎn)和局限性，并根據(jù)實(shí)際情況進(jìn)行了設(shè)計(jì)。在PCA 步驟中，我們選擇了最小化信息損失和最大化方差的方案，以確保提取到的主成分因子盡可能的準(zhǔn)確和重要。在最后的優(yōu)化步驟中，選擇了最適合的模型來對GPA成績數(shù)據(jù)進(jìn)行預(yù)測。

1.2.1 數(shù)據(jù)和數(shù)據(jù)預(yù)處理

本研究采集的數(shù)據(jù)來自某大學(xué)2016 年至2019 年的招生基礎(chǔ)數(shù)據(jù)和對應(yīng)學(xué)生的GPA 成績（四分制）數(shù)據(jù)。使用的模型之一神經(jīng)網(wǎng)絡(luò)模型是一種基于大數(shù)據(jù)分析的人工智能模型，當(dāng)數(shù)據(jù)量較大時(shí)，其預(yù)測精度較高。然而，當(dāng)樣本數(shù)據(jù)量較小時(shí)，模型容易陷入局部最優(yōu)，出現(xiàn)過擬合現(xiàn)象，而降低預(yù)測精度。因此，在數(shù)據(jù)收集階段，本研究將盡可能擴(kuò)大數(shù)據(jù)樣本的維度，收集新生的各種信息屬性，以減少誤差并提高準(zhǔn)確率。

本研究還將采用數(shù)據(jù)重構(gòu)方法，獲取高校新生多維基礎(chǔ)歷史數(shù)據(jù)和學(xué)生成績歷史數(shù)據(jù)。采用數(shù)據(jù)重構(gòu)的原因是，高校招生受到當(dāng)年國家政策、社會需求、社會經(jīng)濟(jì)狀態(tài)等因素的影響，導(dǎo)致招生數(shù)據(jù)變化存在非線性和復(fù)雜性。此外，不同省份給出的招生數(shù)據(jù)內(nèi)容、格式和代碼各不相同，成績構(gòu)成也各不相同，例如浙江省新高考改革后不分文理科。

表1 展示了某省實(shí)際招生數(shù)據(jù)的變化?？梢钥闯觯摂?shù)據(jù)有著該省份特有的解析規(guī)則和信息，并且不同字段樣本間存在數(shù)量級的差異。

表1 某省實(shí)際招生數(shù)據(jù)

在數(shù)據(jù)采集之后，本研究進(jìn)行了數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換等數(shù)據(jù)預(yù)處理步驟。比如，對于采集到的招生數(shù)據(jù)中的缺失值本研究采用了插值法，通過計(jì)算平均值將其填充到缺失值的位置上。同時(shí)，由于招生數(shù)據(jù)中存在大量的類別值或離散值，為了提高模型的準(zhǔn)確性，以及為了讓模型的距離計(jì)算更合理，本研究使用Pandas 中的get_dummies（）函數(shù)對所有離散型特征進(jìn)行了One-Hot編碼。經(jīng)過處理后，得到的招生數(shù)據(jù)集為一個(gè)5615 行、50 列的矩陣，如表2所示。

表2 預(yù)處理后的招生數(shù)據(jù)集矩陣

顯然，上述數(shù)據(jù)具有高維度和高噪聲等特性，并且不同省份或樣本之間存在數(shù)量級的差異。當(dāng)各招生數(shù)據(jù)指標(biāo)間的水平相差很大時(shí)，如果直接用原始指標(biāo)值進(jìn)行分析，就會突出數(shù)值較高的指標(biāo)在模型分析中的作用，相對削弱數(shù)值水平低的指標(biāo)的作用。因此，在分析數(shù)據(jù)之前，我們還對數(shù)據(jù)集進(jìn)行了標(biāo)準(zhǔn)化和歸一化處理。通過歸一化將招生數(shù)據(jù)按比例縮放至一個(gè)小的特定區(qū)間，能有效降低數(shù)據(jù)集噪音，便于不同單位或數(shù)量級的指標(biāo)能夠進(jìn)行比較和加權(quán)，這樣便于后續(xù)數(shù)據(jù)處理和加快模型收斂［6］。本研究采用了Min-Max Scaling、Z-Score Normalization 和L2 Normalization 三種歸一化算法進(jìn)行嘗試，基于訓(xùn)練樣本上的總損失值比較結(jié)果，最終選擇了Min-Max Scaling 作為歸一化算法。具體算法公式如下：

最后，將數(shù)據(jù)集劃分為訓(xùn)練集（train_Set）、評估集（valid_set）和測試集（test_set），并進(jìn)行了交叉驗(yàn)證（cross validation）。數(shù)據(jù)集的部分參數(shù)值詳見表3。

表3 歸一化處理之后的訓(xùn)練集片段

1.2.2 基于數(shù)據(jù)統(tǒng)計(jì)的相關(guān)性分析

本研究首先對學(xué)生高考成績和大一GPA成績進(jìn)行了皮爾遜相關(guān)系數(shù)的計(jì)算。皮爾遜（pearson）積矩相關(guān)系數(shù)是傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)里常用的一種方法［7］，用于度量2個(gè)變量間相關(guān)程度，它是一個(gè)介于1和-1之間的值。其中：1表示變量完全正相關(guān)，0 表示無關(guān)，-1 表示完全負(fù)相關(guān)，計(jì)算結(jié)果見表4。

表4 不同特征與大一成績間的相關(guān)系數(shù)

從表4 可以看出，高考總成績和學(xué)生大一GPA 成績之間的相關(guān)系數(shù)值略高于0.3，表明二者具有一定程度的相關(guān)性，但不顯著。而單門課程的高考成績和大一GPA 成績的相關(guān)系數(shù)值都小于0.3，可以認(rèn)為相關(guān)性不高。此外，從圖2也可以明顯看出高考成績對學(xué)生大一GPA 的影響沒有呈線性遞增。分析原因我們認(rèn)為高校的教育以專業(yè)課程為主，更加細(xì)分化的專業(yè)知識減少高考成績對學(xué)生大學(xué)學(xué)習(xí)的實(shí)際影響程度。因此，可以得出結(jié)論，雖然高考成績與大一GPA 成績之間具有一定程度的相關(guān)性，但影響并不明顯。此外，基于傳統(tǒng)統(tǒng)計(jì)的相關(guān)性分析方法對于沒有明顯統(tǒng)計(jì)學(xué)規(guī)律的多元復(fù)雜數(shù)據(jù)的效果并不理想。

圖2 高考成績和大一GPA關(guān)系分布

1.2.3 多元線性回歸模型分析

線性回歸是一種廣泛應(yīng)用的回歸模型，其基于以下假設(shè)：自變量X和因變量y之間的關(guān)系是線性的，即y可以表示為X中元素的加權(quán)和［8］。我們假設(shè)招生數(shù)據(jù)和大一GPA 之間存在線性關(guān)系，可以表示為特征（如英語成績、總成績、年齡等）的加權(quán)和。當(dāng)使用線性代數(shù)來建模時(shí)，我們輸入包含d個(gè)特征（在本研究中為50個(gè)）的高維招生數(shù)據(jù)集，將預(yù)測結(jié)果y?表示為

其中：每個(gè)xi代表數(shù)據(jù)集中的一個(gè)特征；wi代表該特征的權(quán)重；b表示偏差項(xiàng)。在給定招生訓(xùn)練數(shù)據(jù)特征X和對應(yīng)的GPA 成績y，線性回歸模型的目標(biāo)是找到一組最優(yōu)的權(quán)重向量W和偏差項(xiàng)b，這組權(quán)重向量和偏差能夠使得新樣本預(yù)測標(biāo)簽的誤差盡可能小。

為了尋找最好的模型參數(shù)W和b，我們需要定義損失函數(shù)和使用隨機(jī)梯度下降方法來學(xué)習(xí)和訓(xùn)練模型參數(shù)。損失函數(shù)用來量化目標(biāo)值和預(yù)測值之間的差距，在訓(xùn)練模型時(shí)我們的目標(biāo)是找到一組參數(shù)（w*,b*），通過計(jì)算訓(xùn)練集樣本在損失函數(shù)L(w,b)上的損失均值，最小化在所有訓(xùn)練樣本上的總損失：

本研究使用PyTorch 的MSELoss 類來計(jì)算均方誤差損失函數(shù)，也稱為平方L2 范數(shù)。梯度下降方法幾乎可以優(yōu)化所有機(jī)器學(xué)習(xí)模型。它通過在損失函數(shù)遞減的方向上不斷更新參數(shù)來降低誤差。我們使用以下公式來表示這一更新迭代的過程（其中?表示偏導(dǎo)數(shù)）：

經(jīng)過多次迭代后，我們就能通過有限的數(shù)據(jù)來訓(xùn)練模型參數(shù)（w*,b*）。為了更好地評估訓(xùn)練效果，本研究會計(jì)算每次迭代周期后的損失，并使用更新后的參數(shù)計(jì)算評估集的準(zhǔn)確率，以監(jiān)控訓(xùn)練過程。記錄的結(jié)果見表5。

表5 線性回歸模型每個(gè)迭代周期后的損失和評估集準(zhǔn)確率

通過這個(gè)已經(jīng)訓(xùn)練好的線性回歸模型，我們就可以使用招生數(shù)據(jù)測試集來預(yù)測未包含在訓(xùn)練數(shù)據(jù)和評估集中的學(xué)生大一GPA，并查看模型的準(zhǔn)確度。

1.2.4 多元邏輯回歸模型分析

多元邏輯回歸本質(zhì)上是多元線性回歸，只是在特征到結(jié)果的映射中加入了一層函數(shù)映射［9-11］。該映射函數(shù)為Logistic 函數(shù)（也稱為Sigmoid 函數(shù)），其形式如下：

首先進(jìn)行特征線性求和：

然后使用函數(shù)s(z)構(gòu)造預(yù)測函數(shù)來進(jìn)行預(yù)測，邏輯回歸的最終表達(dá)式如下：

雖然邏輯回歸是非常經(jīng)典的分類算法模型，但主要用于解決二分類問題，因此需要對GPA數(shù)據(jù)進(jìn)行預(yù)處理。在本次研究中，將學(xué)生大一GPA 大于等于3.2 的樣本作為一個(gè)類別，小于3.2 的樣本作為另一個(gè)類別，通過訓(xùn)練模型得到屬于每個(gè)類別的概率。本研究使用PyTorch 的BCELoss 類作為邏輯回歸模型的損失函數(shù)。每次迭代周期后的損失以及使用更新后的參數(shù)計(jì)算的在評估集的準(zhǔn)確率見表6。

表6 邏輯回歸模型每個(gè)迭代周期后的損失和評估集準(zhǔn)確率

可以發(fā)現(xiàn)該模型在評估集上準(zhǔn)確率很高，主要原因是該模型只將預(yù)測結(jié)果分為了兩類。然而，這種分類方式顆粒度并不夠精細(xì)，可能會導(dǎo)致欠擬合和精度不高的問題。

1.2.5 神經(jīng)網(wǎng)絡(luò)模型分析

前面兩個(gè)模型都是基于單調(diào)性假設(shè)的線性回歸模型，即任何特征值的增大或減小都會導(dǎo)致模型預(yù)測輸出的增大或減?。▽?yīng)權(quán)重為正或負(fù)）。例如，當(dāng)我們試圖預(yù)測學(xué)生大一GPA 時(shí)，我們假設(shè)在其他條件不變的情況下，高考成績高的學(xué)生可能比成績較低的學(xué)生獲得更高的GPA［12］。然而，即使高考成績與大一GPA 成績之間存在單調(diào)性，它們之間的關(guān)系也不一定是線性的。高考成績值在高分值段多5 分的人可能比在低分值段多25 分的人能獲得更高很多的GPA。為了處理這類非線性問題，我們采用了神經(jīng)網(wǎng)絡(luò)模型。

神經(jīng)網(wǎng)絡(luò)模型是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征，進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。該模型通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系來實(shí)現(xiàn)信息處理，是目前應(yīng)用最廣泛的機(jī)器學(xué)習(xí)模型［13-15］。如圖3所示，通過在網(wǎng)絡(luò)中加入一個(gè)或多個(gè)隱藏層，可以克服線性模型的限制，使其能夠處理更普遍的函數(shù)關(guān)系類型。

圖3 一個(gè)單隱藏層的簡單神經(jīng)網(wǎng)絡(luò)

本研究設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型為單隱藏層神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)包含20 個(gè)隱藏單元的單一隱藏層，使用CrossEntropyLoss 交叉熵?fù)p失作為損失函數(shù)，并采用ReLU 作為激活函數(shù)。ReLU 提供了一種非常簡單的非線性變換。對于給定的元素x，ReLU 函數(shù)被定義為該元素x與0 的最大值：

在本次研究中，我們采用傳統(tǒng)的分段績點(diǎn)法，將學(xué)生大一GPA 成績按照分?jǐn)?shù)區(qū)間劃分為11 個(gè)等級類別，分別為A=4.0、A-=3.7、B+=3.3、B=3.0、B-=2.7、C+=2.3、C=2.0、C-=1.7、D+=1.3、D=1.0和F=0，因此設(shè)計(jì)的輸出層包含11個(gè)輸出單元。通過訓(xùn)練模型不斷迭代來優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏差參數(shù)，使神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到輸入數(shù)據(jù)和輸出之間的映射關(guān)系，從而能夠準(zhǔn)確地預(yù)測大一學(xué)生的GPA 等級是多少。模型每次迭代周期后的損失和評估集的準(zhǔn)確率如表7 所示。

表7 神經(jīng)網(wǎng)絡(luò)模型每個(gè)迭代周期后的損失和評估集準(zhǔn)確率

2 實(shí)驗(yàn)結(jié)果與優(yōu)化

2.1 實(shí)驗(yàn)結(jié)果與分析

我們將訓(xùn)練好的三個(gè)模型在測試集上運(yùn)行。三個(gè)不同的機(jī)器學(xué)習(xí)模型對測試集招生數(shù)據(jù)進(jìn)行預(yù)測，結(jié)果顯示多元線性回歸模型構(gòu)建的預(yù)測模型的準(zhǔn)確率最低，為0.6019；其次是神經(jīng)網(wǎng)絡(luò)模型，準(zhǔn)確率為0.7227；邏輯回歸的準(zhǔn)確率值最高，為0.8035。表8列出了不同算法的預(yù)測分類結(jié)果。

表8 不同模型方案在測試集上的準(zhǔn)確率

可以看出，其中兩種機(jī)器學(xué)習(xí)算法的準(zhǔn)確率均在70%以上，預(yù)測效果良好。

為了獲得更好的分類效果和更高的精準(zhǔn)度，本研究嘗試?yán)弥鞒煞址治觯≒CA）對招生數(shù)據(jù)進(jìn)行預(yù)處理，提取其主成分后，在三個(gè)不同的模型上運(yùn)行。最終測試集的準(zhǔn)確率見表9。結(jié)果表明，對招生數(shù)據(jù)進(jìn)行PCA 主成分提取處理，對模型的精準(zhǔn)率提高并不顯著，而在某些情況下，可能會導(dǎo)致一定程度的信息丟失。

表9 PCA主成分提取后模型方案在測試集的準(zhǔn)確率

2.2 模型優(yōu)化

本次優(yōu)化我們增加了學(xué)生大一不同階段的累計(jì)GPA，包括大一上期中GPA、大一上期末GPA、大一下期中GPA 數(shù)據(jù)。這樣的優(yōu)化考慮到了GPA 的時(shí)序性，更能反映學(xué)生在大一不同時(shí)期的學(xué)習(xí)表現(xiàn)。這一優(yōu)化有助于提高模型的預(yù)測精度，進(jìn)而更準(zhǔn)確地預(yù)測學(xué)生的大一期末GPA 成績?？紤]到本研究在采用邏輯回歸模型時(shí)分類顆粒度大，雖然準(zhǔn)確度更高但在分類效果上存在一定的不足。相比之下，神經(jīng)網(wǎng)絡(luò)模型更適用于該任務(wù)。因此，本研究選擇使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化調(diào)整，以提高預(yù)測精度。優(yōu)化后的模型如圖4所示。

圖4 增加了不同階段累計(jì)GPA的模型

使用訓(xùn)練集反復(fù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)并進(jìn)行權(quán)重和偏置的調(diào)整后，我們得到了一組優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型。在測試集上的測試結(jié)果表明，這組優(yōu)化后的模型預(yù)測準(zhǔn)確率顯著提高，其表現(xiàn)見表10。

表10 優(yōu)化后模型方案在測試集的準(zhǔn)確率

3 結(jié)語

本研究的主要目的是通過分析招生數(shù)據(jù)的影響特征來預(yù)測學(xué)生的大一GPA，研究結(jié)果表明傳統(tǒng)的統(tǒng)計(jì)模型在滿足預(yù)測需求方面存在不足，因此本研究使用了多元線性回歸模型、多元邏輯回歸模型和神經(jīng)網(wǎng)絡(luò)模型構(gòu)建預(yù)測模型，并通過比較它們的準(zhǔn)確率來評估它們的性能。結(jié)果顯示，邏輯回歸模型表現(xiàn)最佳，神經(jīng)網(wǎng)絡(luò)模型也比傳統(tǒng)多元線性回歸方法具有更好的預(yù)測性能，尤其適用于分類預(yù)測?？紤]到本研究在采用邏輯回歸模型時(shí)分類顆粒度大，因此優(yōu)化神經(jīng)網(wǎng)絡(luò)模型對大一GPA 進(jìn)行預(yù)測更具有應(yīng)用前景和參考價(jià)值。

然而，本研究存在一些局限性。首先，所使用的數(shù)據(jù)量相對較少，因此在今后的研究中將進(jìn)一步增加招生數(shù)據(jù)的訓(xùn)練集數(shù)據(jù)量以提高模型的擬合能力，使實(shí)驗(yàn)結(jié)果更具有普適性。其次，在選取的輸出結(jié)果變量中,大一成績分類顆粒度不夠細(xì)。并且，神經(jīng)網(wǎng)絡(luò)模型也只使用了單層模型。雖然單隱層網(wǎng)絡(luò)能夠?qū)W習(xí)任何函數(shù)，但如果使用更深的網(wǎng)絡(luò)可以更容易地逼近預(yù)測結(jié)果并獲得更高的精準(zhǔn)度。最后,本研究使用的招生數(shù)據(jù)集存在一定程度的樣本缺失，雖使用了均值填補(bǔ)法對缺失值進(jìn)行了填補(bǔ)，但仍可能對模型的準(zhǔn)確性產(chǎn)生一定程度的影響。未來的研究可以進(jìn)一步擴(kuò)大訓(xùn)練集數(shù)據(jù)量、增加招生數(shù)據(jù)變量并構(gòu)建更細(xì)粒度的模型、采用更深層的神經(jīng)網(wǎng)絡(luò)模型等來改善模型性能。

本研究有助于高校在入學(xué)階段就預(yù)測學(xué)生未來的學(xué)業(yè)成績，并提早規(guī)劃出有針對性的學(xué)業(yè)輔助，從而提高學(xué)生整體成績。本研究初步證明了機(jī)器學(xué)習(xí)模型通過招生數(shù)據(jù)對大一成績的預(yù)測具有較好的準(zhǔn)確性。未來可在此基礎(chǔ)上進(jìn)一步改良和優(yōu)化機(jī)器學(xué)習(xí)模型，同時(shí)發(fā)掘更多與成績有相關(guān)性的學(xué)生信息，隨著學(xué)生信息大數(shù)據(jù)規(guī)模的不斷擴(kuò)展和增長，這項(xiàng)研究的應(yīng)用潛力將得到進(jìn)一步評估和優(yōu)化。