王 琛
(溫州肯恩大學(xué)信息技術(shù)中心,溫州 325060)
隨著高校信息化系統(tǒng)的不斷完善,學(xué)生數(shù)據(jù)的信息量呈現(xiàn)出急劇增長的趨勢。通過對數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆治?,可以獲得有效的評估,從而預(yù)測學(xué)生的表現(xiàn)。近年來,機(jī)器學(xué)習(xí)技術(shù)在預(yù)測學(xué)生表現(xiàn)方面取得了顯著進(jìn)展[1-3]。與教育數(shù)據(jù)挖掘不同,機(jī)器學(xué)習(xí)技術(shù)可以結(jié)合任何學(xué)生屬性對不同的學(xué)生群體進(jìn)行有效的預(yù)測。本研究旨在借助不同的機(jī)器學(xué)習(xí)技術(shù)發(fā)現(xiàn)招生數(shù)據(jù)中的潛在規(guī)律或模式,繼而為教學(xué)預(yù)警提供服務(wù)制定。通過招生數(shù)據(jù)進(jìn)行建模,可以預(yù)測新生大一成績,從而幫助高校教學(xué)管理者制定預(yù)警措施,如對學(xué)生進(jìn)行預(yù)警警告或者盡早引導(dǎo)他們改進(jìn)學(xué)習(xí),以便學(xué)生在后續(xù)的學(xué)習(xí)中提高成績和學(xué)術(shù)水平,這將是教學(xué)預(yù)警研究中的一個(gè)新亮點(diǎn)。
目前,對于招生數(shù)據(jù)和學(xué)業(yè)預(yù)測的相關(guān)研究多局限于對招生數(shù)據(jù)進(jìn)行多維數(shù)據(jù)統(tǒng)計(jì)分析[4-5]。本研究將應(yīng)用不同的機(jī)器學(xué)習(xí)模型對高校大一學(xué)生的平均學(xué)分績點(diǎn)(grade point average,GPA)成績進(jìn)行預(yù)測,通過采集高校實(shí)際的招生數(shù)據(jù)和學(xué)業(yè)GPA 成績數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和模型預(yù)測,從而研究不同機(jī)器學(xué)習(xí)模型在大一學(xué)生GPA成績預(yù)測方面的準(zhǔn)確度。除了基本的招生數(shù)據(jù)處理和權(quán)重分析外,本研究還將添加大一各階段性累計(jì)平均GPA,從而設(shè)計(jì)出一個(gè)具有預(yù)警功能的高校新生學(xué)業(yè)成績評估模型,幫助教師及教學(xué)管理者為剛進(jìn)入校門的學(xué)生提供初期成績評估的預(yù)警信息和教學(xué)幫助參考,有利于高校對學(xué)生早期生涯的學(xué)業(yè)預(yù)警進(jìn)行干預(yù)。
本研究通過分析現(xiàn)有的招生基礎(chǔ)數(shù)據(jù)和大一GPA 成績數(shù)據(jù)之間的關(guān)聯(lián),通過機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)其中的規(guī)律,為高校學(xué)業(yè)成績初期預(yù)警提供參考。為了達(dá)成這個(gè)目標(biāo),我們設(shè)計(jì)和采用了不同的機(jī)器學(xué)習(xí)模型。通過對這些模型進(jìn)行訓(xùn)練和對比其在測試集(test set)上的預(yù)測結(jié)果,我們研究和分析了線性回歸模型(linear regression)、多元邏輯回歸模型(logistic regression)和神經(jīng)網(wǎng)絡(luò)(neural network)在大一GPA 成績預(yù)測準(zhǔn)確率方面的表現(xiàn)。之后,我們還對進(jìn)行了主成分分析(PCA),期望能夠從高校招生歷史數(shù)據(jù)中挖掘重要的信息,消除招生新生歷史數(shù)據(jù)之間的重疊數(shù)據(jù)和噪聲數(shù)據(jù)。最后,將PCA 和精度較高的預(yù)測模型相結(jié)合,首先采用PCA 降低數(shù)據(jù)維度,提取對預(yù)測結(jié)果影響較大的主成分因子,然后使用預(yù)測準(zhǔn)確率較高的模型對招生基礎(chǔ)數(shù)據(jù)進(jìn)行預(yù)測。圖1 為預(yù)測模型的流程。
圖1 預(yù)測模型流程
本研究采用了模型研究和數(shù)據(jù)分析相結(jié)合的方法。在模型研究方面,使用PyTorch 框架構(gòu)建線性回歸模型、多元邏輯回歸模型和神經(jīng)網(wǎng)絡(luò)模型,并對它們進(jìn)行訓(xùn)練。PyTorch 是一個(gè)基于Torch 的Python 開源機(jī)器學(xué)習(xí)庫,可用于自然語言處理等應(yīng)用程序,支持動態(tài)神經(jīng)網(wǎng)絡(luò),具有強(qiáng)大的靈活性和擴(kuò)展性。在數(shù)據(jù)采集和分析方面,我們將收集高校的招生基礎(chǔ)數(shù)據(jù)和學(xué)生大一的GPA 成績(四分制)數(shù)據(jù),對其進(jìn)行學(xué)習(xí)和訓(xùn)練。此外,我們還對數(shù)據(jù)進(jìn)行處理,以便發(fā)現(xiàn)數(shù)據(jù)中的主要特征,消除噪聲和冗余信息。
在選擇機(jī)器學(xué)習(xí)模型方面,我們考慮了所采用的每個(gè)模型的優(yōu)點(diǎn)和局限性,并根據(jù)實(shí)際情況進(jìn)行了設(shè)計(jì)。在PCA 步驟中,我們選擇了最小化信息損失和最大化方差的方案,以確保提取到的主成分因子盡可能的準(zhǔn)確和重要。在最后的優(yōu)化步驟中,選擇了最適合的模型來對GPA成績數(shù)據(jù)進(jìn)行預(yù)測。
1.2.1 數(shù)據(jù)和數(shù)據(jù)預(yù)處理
本研究采集的數(shù)據(jù)來自某大學(xué)2016 年至2019 年的招生基礎(chǔ)數(shù)據(jù)和對應(yīng)學(xué)生的GPA 成績(四分制)數(shù)據(jù)。使用的模型之一神經(jīng)網(wǎng)絡(luò)模型是一種基于大數(shù)據(jù)分析的人工智能模型,當(dāng)數(shù)據(jù)量較大時(shí),其預(yù)測精度較高。然而,當(dāng)樣本數(shù)據(jù)量較小時(shí),模型容易陷入局部最優(yōu),出現(xiàn)過擬合現(xiàn)象,而降低預(yù)測精度。因此,在數(shù)據(jù)收集階段,本研究將盡可能擴(kuò)大數(shù)據(jù)樣本的維度,收集新生的各種信息屬性,以減少誤差并提高準(zhǔn)確率。
本研究還將采用數(shù)據(jù)重構(gòu)方法,獲取高校新生多維基礎(chǔ)歷史數(shù)據(jù)和學(xué)生成績歷史數(shù)據(jù)。采用數(shù)據(jù)重構(gòu)的原因是,高校招生受到當(dāng)年國家政策、社會需求、社會經(jīng)濟(jì)狀態(tài)等因素的影響,導(dǎo)致招生數(shù)據(jù)變化存在非線性和復(fù)雜性。此外,不同省份給出的招生數(shù)據(jù)內(nèi)容、格式和代碼各不相同,成績構(gòu)成也各不相同,例如浙江省新高考改革后不分文理科。
表1 展示了某省實(shí)際招生數(shù)據(jù)的變化??梢钥闯觯摂?shù)據(jù)有著該省份特有的解析規(guī)則和信息,并且不同字段樣本間存在數(shù)量級的差異。
表1 某省實(shí)際招生數(shù)據(jù)
在數(shù)據(jù)采集之后,本研究進(jìn)行了數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換等數(shù)據(jù)預(yù)處理步驟。比如,對于采集到的招生數(shù)據(jù)中的缺失值本研究采用了插值法,通過計(jì)算平均值將其填充到缺失值的位置上。同時(shí),由于招生數(shù)據(jù)中存在大量的類別值或離散值,為了提高模型的準(zhǔn)確性,以及為了讓模型的距離計(jì)算更合理,本研究使用Pandas 中的get_dummies()函數(shù)對所有離散型特征進(jìn)行了One-Hot編碼。經(jīng)過處理后,得到的招生數(shù)據(jù)集為一個(gè)5615 行、50 列的矩陣,如表2所示。
表2 預(yù)處理后的招生數(shù)據(jù)集矩陣
顯然,上述數(shù)據(jù)具有高維度和高噪聲等特性,并且不同省份或樣本之間存在數(shù)量級的差異。當(dāng)各招生數(shù)據(jù)指標(biāo)間的水平相差很大時(shí),如果直接用原始指標(biāo)值進(jìn)行分析,就會突出數(shù)值較高的指標(biāo)在模型分析中的作用,相對削弱數(shù)值水平低的指標(biāo)的作用。因此,在分析數(shù)據(jù)之前,我們還對數(shù)據(jù)集進(jìn)行了標(biāo)準(zhǔn)化和歸一化處理。通過歸一化將招生數(shù)據(jù)按比例縮放至一個(gè)小的特定區(qū)間,能有效降低數(shù)據(jù)集噪音,便于不同單位或數(shù)量級的指標(biāo)能夠進(jìn)行比較和加權(quán),這樣便于后續(xù)數(shù)據(jù)處理和加快模型收斂[6]。本研究采用了Min-Max Scaling、Z-Score Normalization 和L2 Normalization 三種歸一化算法進(jìn)行嘗試,基于訓(xùn)練樣本上的總損失值比較結(jié)果,最終選擇了Min-Max Scaling 作為歸一化算法。具體算法公式如下:
最后,將數(shù)據(jù)集劃分為訓(xùn)練集(train_Set)、評估集(valid_set)和測試集(test_set),并進(jìn)行了交叉驗(yàn)證(cross validation)。數(shù)據(jù)集的部分參數(shù)值詳見表3。
表3 歸一化處理之后的訓(xùn)練集片段
1.2.2 基于數(shù)據(jù)統(tǒng)計(jì)的相關(guān)性分析
本研究首先對學(xué)生高考成績和大一GPA成績進(jìn)行了皮爾遜相關(guān)系數(shù)的計(jì)算。皮爾遜(pearson)積矩相關(guān)系數(shù)是傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)里常用的一種方法[7],用于度量2個(gè)變量間相關(guān)程度,它是一個(gè)介于1和-1之間的值。其中:1表示變量完全正相關(guān),0 表示無關(guān),-1 表示完全負(fù)相關(guān),計(jì)算結(jié)果見表4。
表4 不同特征與大一成績間的相關(guān)系數(shù)
從表4 可以看出,高考總成績和學(xué)生大一GPA 成績之間的相關(guān)系數(shù)值略高于0.3,表明二者具有一定程度的相關(guān)性,但不顯著。而單門課程的高考成績和大一GPA 成績的相關(guān)系數(shù)值都小于0.3,可以認(rèn)為相關(guān)性不高。此外,從圖2也可以明顯看出高考成績對學(xué)生大一GPA 的影響沒有呈線性遞增。分析原因我們認(rèn)為高校的教育以專業(yè)課程為主,更加細(xì)分化的專業(yè)知識減少高考成績對學(xué)生大學(xué)學(xué)習(xí)的實(shí)際影響程度。因此,可以得出結(jié)論,雖然高考成績與大一GPA 成績之間具有一定程度的相關(guān)性,但影響并不明顯。此外,基于傳統(tǒng)統(tǒng)計(jì)的相關(guān)性分析方法對于沒有明顯統(tǒng)計(jì)學(xué)規(guī)律的多元復(fù)雜數(shù)據(jù)的效果并不理想。
圖2 高考成績和大一GPA關(guān)系分布
1.2.3 多元線性回歸模型分析
線性回歸是一種廣泛應(yīng)用的回歸模型,其基于以下假設(shè):自變量X和因變量y之間的關(guān)系是線性的,即y可以表示為X中元素的加權(quán)和[8]。我們假設(shè)招生數(shù)據(jù)和大一GPA 之間存在線性關(guān)系,可以表示為特征(如英語成績、總成績、年齡等)的加權(quán)和。當(dāng)使用線性代數(shù)來建模時(shí),我們輸入包含d個(gè)特征(在本研究中為50個(gè))的高維招生數(shù)據(jù)集,將預(yù)測結(jié)果y?表示為
其中:每個(gè)xi代表數(shù)據(jù)集中的一個(gè)特征;wi代表該特征的權(quán)重;b表示偏差項(xiàng)。在給定招生訓(xùn)練數(shù)據(jù)特征X和對應(yīng)的GPA 成績y,線性回歸模型的目標(biāo)是找到一組最優(yōu)的權(quán)重向量W和偏差項(xiàng)b,這組權(quán)重向量和偏差能夠使得新樣本預(yù)測標(biāo)簽的誤差盡可能小。
為了尋找最好的模型參數(shù)W和b,我們需要定義損失函數(shù)和使用隨機(jī)梯度下降方法來學(xué)習(xí)和訓(xùn)練模型參數(shù)。損失函數(shù)用來量化目標(biāo)值和預(yù)測值之間的差距,在訓(xùn)練模型時(shí)我們的目標(biāo)是找到一組參數(shù)(w*,b*),通過計(jì)算訓(xùn)練集樣本在損失函數(shù)L(w,b)上的損失均值,最小化在所有訓(xùn)練樣本上的總損失:
本研究使用PyTorch 的MSELoss 類來計(jì)算均方誤差損失函數(shù),也稱為平方L2 范數(shù)。梯度下降方法幾乎可以優(yōu)化所有機(jī)器學(xué)習(xí)模型。它通過在損失函數(shù)遞減的方向上不斷更新參數(shù)來降低誤差。我們使用以下公式來表示這一更新迭代的過程(其中?表示偏導(dǎo)數(shù)):
經(jīng)過多次迭代后,我們就能通過有限的數(shù)據(jù)來訓(xùn)練模型參數(shù)(w*,b*)。為了更好地評估訓(xùn)練效果,本研究會計(jì)算每次迭代周期后的損失,并使用更新后的參數(shù)計(jì)算評估集的準(zhǔn)確率,以監(jiān)控訓(xùn)練過程。記錄的結(jié)果見表5。
表5 線性回歸模型每個(gè)迭代周期后的損失和評估集準(zhǔn)確率
通過這個(gè)已經(jīng)訓(xùn)練好的線性回歸模型,我們就可以使用招生數(shù)據(jù)測試集來預(yù)測未包含在訓(xùn)練數(shù)據(jù)和評估集中的學(xué)生大一GPA,并查看模型的準(zhǔn)確度。
1.2.4 多元邏輯回歸模型分析
多元邏輯回歸本質(zhì)上是多元線性回歸,只是在特征到結(jié)果的映射中加入了一層函數(shù)映射[9-11]。該映射函數(shù)為Logistic 函數(shù)(也稱為Sigmoid 函數(shù)),其形式如下:
首先進(jìn)行特征線性求和:
然后使用函數(shù)s(z)構(gòu)造預(yù)測函數(shù)來進(jìn)行預(yù)測,邏輯回歸的最終表達(dá)式如下:
雖然邏輯回歸是非常經(jīng)典的分類算法模型,但主要用于解決二分類問題,因此需要對GPA數(shù)據(jù)進(jìn)行預(yù)處理。在本次研究中,將學(xué)生大一GPA 大于等于3.2 的樣本作為一個(gè)類別,小于3.2 的樣本作為另一個(gè)類別,通過訓(xùn)練模型得到屬于每個(gè)類別的概率。本研究使用PyTorch 的BCELoss 類作為邏輯回歸模型的損失函數(shù)。每次迭代周期后的損失以及使用更新后的參數(shù)計(jì)算的在評估集的準(zhǔn)確率見表6。
表6 邏輯回歸模型每個(gè)迭代周期后的損失和評估集準(zhǔn)確率
可以發(fā)現(xiàn)該模型在評估集上準(zhǔn)確率很高,主要原因是該模型只將預(yù)測結(jié)果分為了兩類。然而,這種分類方式顆粒度并不夠精細(xì),可能會導(dǎo)致欠擬合和精度不高的問題。
1.2.5 神經(jīng)網(wǎng)絡(luò)模型分析
前面兩個(gè)模型都是基于單調(diào)性假設(shè)的線性回歸模型,即任何特征值的增大或減小都會導(dǎo)致模型預(yù)測輸出的增大或減?。▽?yīng)權(quán)重為正或負(fù))。例如,當(dāng)我們試圖預(yù)測學(xué)生大一GPA 時(shí),我們假設(shè)在其他條件不變的情況下,高考成績高的學(xué)生可能比成績較低的學(xué)生獲得更高的GPA[12]。然而,即使高考成績與大一GPA 成績之間存在單調(diào)性,它們之間的關(guān)系也不一定是線性的。高考成績值在高分值段多5 分的人可能比在低分值段多25 分的人能獲得更高很多的GPA。為了處理這類非線性問題,我們采用了神經(jīng)網(wǎng)絡(luò)模型。
神經(jīng)網(wǎng)絡(luò)模型是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。該模型通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系來實(shí)現(xiàn)信息處理,是目前應(yīng)用最廣泛的機(jī)器學(xué)習(xí)模型[13-15]。如圖3所示,通過在網(wǎng)絡(luò)中加入一個(gè)或多個(gè)隱藏層,可以克服線性模型的限制,使其能夠處理更普遍的函數(shù)關(guān)系類型。
圖3 一個(gè)單隱藏層的簡單神經(jīng)網(wǎng)絡(luò)
本研究設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型為單隱藏層神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)包含20 個(gè)隱藏單元的單一隱藏層,使用CrossEntropyLoss 交叉熵?fù)p失作為損失函數(shù),并采用ReLU 作為激活函數(shù)。ReLU 提供了一種非常簡單的非線性變換。對于給定的元素x,ReLU 函數(shù)被定義為該元素x與0 的最大值:
在本次研究中,我們采用傳統(tǒng)的分段績點(diǎn)法,將學(xué)生大一GPA 成績按照分?jǐn)?shù)區(qū)間劃分為11 個(gè)等級類別,分別為A=4.0、A-=3.7、B+=3.3、B=3.0、B-=2.7、C+=2.3、C=2.0、C-=1.7、D+=1.3、D=1.0和F=0,因此設(shè)計(jì)的輸出層包含11個(gè)輸出單元。通過訓(xùn)練模型不斷迭代來優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏差參數(shù),使神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到輸入數(shù)據(jù)和輸出之間的映射關(guān)系,從而能夠準(zhǔn)確地預(yù)測大一學(xué)生的GPA 等級是多少。模型每次迭代周期后的損失和評估集的準(zhǔn)確率如表7 所示。
表7 神經(jīng)網(wǎng)絡(luò)模型每個(gè)迭代周期后的損失和評估集準(zhǔn)確率
我們將訓(xùn)練好的三個(gè)模型在測試集上運(yùn)行。三個(gè)不同的機(jī)器學(xué)習(xí)模型對測試集招生數(shù)據(jù)進(jìn)行預(yù)測,結(jié)果顯示多元線性回歸模型構(gòu)建的預(yù)測模型的準(zhǔn)確率最低,為0.6019;其次是神經(jīng)網(wǎng)絡(luò)模型,準(zhǔn)確率為0.7227;邏輯回歸的準(zhǔn)確率值最高,為0.8035。表8列出了不同算法的預(yù)測分類結(jié)果。
表8 不同模型方案在測試集上的準(zhǔn)確率
可以看出,其中兩種機(jī)器學(xué)習(xí)算法的準(zhǔn)確率均在70%以上,預(yù)測效果良好。
為了獲得更好的分類效果和更高的精準(zhǔn)度,本研究嘗試?yán)弥鞒煞址治觯≒CA)對招生數(shù)據(jù)進(jìn)行預(yù)處理,提取其主成分后,在三個(gè)不同的模型上運(yùn)行。最終測試集的準(zhǔn)確率見表9。結(jié)果表明,對招生數(shù)據(jù)進(jìn)行PCA 主成分提取處理,對模型的精準(zhǔn)率提高并不顯著,而在某些情況下,可能會導(dǎo)致一定程度的信息丟失。
表9 PCA主成分提取后模型方案在測試集的準(zhǔn)確率
本次優(yōu)化我們增加了學(xué)生大一不同階段的累計(jì)GPA,包括大一上期中GPA、大一上期末GPA、大一下期中GPA 數(shù)據(jù)。這樣的優(yōu)化考慮到了GPA 的時(shí)序性,更能反映學(xué)生在大一不同時(shí)期的學(xué)習(xí)表現(xiàn)。這一優(yōu)化有助于提高模型的預(yù)測精度,進(jìn)而更準(zhǔn)確地預(yù)測學(xué)生的大一期末GPA 成績??紤]到本研究在采用邏輯回歸模型時(shí)分類顆粒度大,雖然準(zhǔn)確度更高但在分類效果上存在一定的不足。相比之下,神經(jīng)網(wǎng)絡(luò)模型更適用于該任務(wù)。因此,本研究選擇使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化調(diào)整,以提高預(yù)測精度。優(yōu)化后的模型如圖4所示。
圖4 增加了不同階段累計(jì)GPA的模型
使用訓(xùn)練集反復(fù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)并進(jìn)行權(quán)重和偏置的調(diào)整后,我們得到了一組優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型。在測試集上的測試結(jié)果表明,這組優(yōu)化后的模型預(yù)測準(zhǔn)確率顯著提高,其表現(xiàn)見表10。
表10 優(yōu)化后模型方案在測試集的準(zhǔn)確率
本研究的主要目的是通過分析招生數(shù)據(jù)的影響特征來預(yù)測學(xué)生的大一GPA,研究結(jié)果表明傳統(tǒng)的統(tǒng)計(jì)模型在滿足預(yù)測需求方面存在不足,因此本研究使用了多元線性回歸模型、多元邏輯回歸模型和神經(jīng)網(wǎng)絡(luò)模型構(gòu)建預(yù)測模型,并通過比較它們的準(zhǔn)確率來評估它們的性能。結(jié)果顯示,邏輯回歸模型表現(xiàn)最佳,神經(jīng)網(wǎng)絡(luò)模型也比傳統(tǒng)多元線性回歸方法具有更好的預(yù)測性能,尤其適用于分類預(yù)測??紤]到本研究在采用邏輯回歸模型時(shí)分類顆粒度大,因此優(yōu)化神經(jīng)網(wǎng)絡(luò)模型對大一GPA 進(jìn)行預(yù)測更具有應(yīng)用前景和參考價(jià)值。
然而,本研究存在一些局限性。首先,所使用的數(shù)據(jù)量相對較少,因此在今后的研究中將進(jìn)一步增加招生數(shù)據(jù)的訓(xùn)練集數(shù)據(jù)量以提高模型的擬合能力,使實(shí)驗(yàn)結(jié)果更具有普適性。其次,在選取的輸出結(jié)果變量中,大一成績分類顆粒度不夠細(xì)。并且,神經(jīng)網(wǎng)絡(luò)模型也只使用了單層模型。雖然單隱層網(wǎng)絡(luò)能夠?qū)W習(xí)任何函數(shù),但如果使用更深的網(wǎng)絡(luò)可以更容易地逼近預(yù)測結(jié)果并獲得更高的精準(zhǔn)度。最后,本研究使用的招生數(shù)據(jù)集存在一定程度的樣本缺失,雖使用了均值填補(bǔ)法對缺失值進(jìn)行了填補(bǔ),但仍可能對模型的準(zhǔn)確性產(chǎn)生一定程度的影響。未來的研究可以進(jìn)一步擴(kuò)大訓(xùn)練集數(shù)據(jù)量、增加招生數(shù)據(jù)變量并構(gòu)建更細(xì)粒度的模型、采用更深層的神經(jīng)網(wǎng)絡(luò)模型等來改善模型性能。
本研究有助于高校在入學(xué)階段就預(yù)測學(xué)生未來的學(xué)業(yè)成績,并提早規(guī)劃出有針對性的學(xué)業(yè)輔助,從而提高學(xué)生整體成績。本研究初步證明了機(jī)器學(xué)習(xí)模型通過招生數(shù)據(jù)對大一成績的預(yù)測具有較好的準(zhǔn)確性。未來可在此基礎(chǔ)上進(jìn)一步改良和優(yōu)化機(jī)器學(xué)習(xí)模型,同時(shí)發(fā)掘更多與成績有相關(guān)性的學(xué)生信息,隨著學(xué)生信息大數(shù)據(jù)規(guī)模的不斷擴(kuò)展和增長,這項(xiàng)研究的應(yīng)用潛力將得到進(jìn)一步評估和優(yōu)化。