摘要:教育數(shù)據(jù)挖掘廣泛應(yīng)用于學(xué)習(xí)行為分析、學(xué)生成績(jī)預(yù)測(cè)、個(gè)性化教育推薦、教學(xué)改進(jìn)及評(píng)估等多個(gè)方面。該研究重點(diǎn)關(guān)注學(xué)生成績(jī)?nèi)笔?shù)據(jù)補(bǔ)充的方法改進(jìn),提出了一種基于改進(jìn)KNN算法的數(shù)值插補(bǔ)方法,通過(guò)計(jì)算與缺失樣本距離最近的K個(gè)樣本,采用它們的值來(lái)估計(jì)缺失數(shù)據(jù),通過(guò)對(duì)學(xué)生缺失成績(jī)數(shù)據(jù)的分析和插補(bǔ)能夠提高預(yù)測(cè)的準(zhǔn)確性,從而為教育工作者提供更加科學(xué)的管理決策依據(jù),為教學(xué)改革和學(xué)業(yè)管理提供數(shù)據(jù)支持。
關(guān)鍵詞:數(shù)據(jù)分析;成績(jī)預(yù)測(cè);數(shù)據(jù)插補(bǔ);KNN
中圖分類號(hào):TP311" " " " 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)16-0057-03
開(kāi)放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
1 研究背景與研究意義
1.1 研究背景
每年,許多高校學(xué)生面臨不及格、留級(jí)或勸退,嚴(yán)重影響未來(lái)發(fā)展[1]。為此,許多學(xué)校出臺(tái)每學(xué)年或每學(xué)期的學(xué)籍預(yù)警工作,旨在幫助學(xué)業(yè)困難的學(xué)生及時(shí)發(fā)現(xiàn)問(wèn)題,糾正學(xué)習(xí)態(tài)度。但是現(xiàn)階段學(xué)籍預(yù)警工作的結(jié)果存在滯后的問(wèn)題,一些學(xué)習(xí)困難的學(xué)生在預(yù)警后已經(jīng)來(lái)不及糾正,存在留級(jí)或無(wú)法取得畢業(yè)證的風(fēng)險(xiǎn),達(dá)不到幫助學(xué)生更好地完成學(xué)業(yè)的目的。所以若能在學(xué)籍預(yù)警工作開(kāi)展前或每一門科目結(jié)束前就預(yù)測(cè)出學(xué)生的學(xué)習(xí)動(dòng)態(tài),就能夠更加有效地幫助學(xué)生分析學(xué)習(xí)狀況,幫助教師理清教學(xué)思路。學(xué)生的學(xué)習(xí)成績(jī)是長(zhǎng)期動(dòng)態(tài)變化的數(shù)據(jù),若能及時(shí)通過(guò)過(guò)去表現(xiàn)情況預(yù)測(cè)未來(lái)成績(jī),就能夠?yàn)榻處熃虒W(xué)提供合理的參考意見(jiàn),幫助教師及時(shí)調(diào)整教學(xué)策略,并提醒學(xué)業(yè)困難的學(xué)生更加關(guān)注學(xué)習(xí),從而達(dá)到提高成績(jī)的效果。
1.2 研究意義
教育數(shù)據(jù)挖掘是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于教育領(lǐng)域的過(guò)程,旨在分析教育環(huán)境生成的數(shù)據(jù),以發(fā)現(xiàn)有助于改善教育效果的信息和知識(shí)。當(dāng)前學(xué)術(shù)界針對(duì)教學(xué)行為的數(shù)據(jù)挖掘分析主要聚焦于三大方向:其一,圍繞數(shù)據(jù)挖掘算法本身的優(yōu)化與創(chuàng)新;其二,探索教學(xué)行為分析模型的構(gòu)建方法;其三,著重研究教學(xué)場(chǎng)景中的師生行為特征識(shí)別及干預(yù)策略[2]。本文主要研究的是一種缺失數(shù)據(jù)的插補(bǔ)方法的改進(jìn),通過(guò)這種插補(bǔ)方法可以更好地識(shí)別學(xué)生行為特征以便于提高預(yù)測(cè)的效果與干預(yù)。具體來(lái)看,通過(guò)現(xiàn)階段許多在線學(xué)習(xí)平臺(tái)的學(xué)生學(xué)習(xí)數(shù)據(jù)分析可以分析不同學(xué)生的學(xué)習(xí)時(shí)長(zhǎng)、答題速度及正確率,避免“一刀切”的教育模式,提升學(xué)生的學(xué)習(xí)效率;教師通過(guò)學(xué)生課堂表現(xiàn)、課后作業(yè)的分析可以實(shí)時(shí)收集學(xué)生的錯(cuò)誤回答,及時(shí)調(diào)節(jié)講解的重難點(diǎn),提升教學(xué)質(zhì)量。
教育數(shù)據(jù)挖掘可以應(yīng)用于多個(gè)方面,如學(xué)生學(xué)習(xí)行為分析、學(xué)生成績(jī)預(yù)測(cè)、個(gè)性化教育推薦系統(tǒng)、教學(xué)改進(jìn)和評(píng)估等[3]。學(xué)生成績(jī)預(yù)測(cè)作為教育評(píng)估領(lǐng)域的核心話題,一直面臨著傳統(tǒng)人工評(píng)估機(jī)制的內(nèi)在局限性,如人工預(yù)測(cè)的效率瓶頸,不僅流程較為煩瑣,工作量大,而且成績(jī)預(yù)測(cè)只能局限于有教師的課程或考試培訓(xùn)班,并且教師主觀性較大,可能評(píng)估的成績(jī)與正式考試的成績(jī)存在較大的出入[4]。本文聚焦于學(xué)生成績(jī)的數(shù)據(jù)分析,通過(guò)現(xiàn)階段高校教務(wù)管理系統(tǒng)中存儲(chǔ)的大量成績(jī)數(shù)據(jù)或教師教學(xué)過(guò)程中的學(xué)業(yè)情況數(shù)據(jù)進(jìn)行整理與分析,將可能有缺失的學(xué)生成績(jī)或?qū)W業(yè)數(shù)據(jù)進(jìn)行缺失處理與預(yù)測(cè),期望通過(guò)預(yù)測(cè)出各科目考試可能不合格的學(xué)生來(lái)為教師進(jìn)行教學(xué)管理、教學(xué)方法的針對(duì)性改善提供數(shù)據(jù)支持。
2 問(wèn)題提出
在現(xiàn)代信息技術(shù)的發(fā)展下,越來(lái)越多的高校開(kāi)始使用數(shù)據(jù)分析。然而,傳統(tǒng)教學(xué)方法存在局限,數(shù)據(jù)分析和數(shù)據(jù)可視化等技術(shù)可以幫助高校教師更有效地提高教學(xué)質(zhì)量,但是在實(shí)際操作過(guò)程中往往面臨數(shù)據(jù)缺失的問(wèn)題,數(shù)據(jù)缺失對(duì)于學(xué)生學(xué)業(yè)的影響是較大的。具體來(lái)看如果某地區(qū)未建立跨校數(shù)據(jù)共享平臺(tái),導(dǎo)致轉(zhuǎn)學(xué)生歷史成績(jī)和選修課程記錄丟失,學(xué)生成績(jī)掌握不清,被錯(cuò)誤分班,重復(fù)學(xué)習(xí)已掌握內(nèi)容或無(wú)法跟上班級(jí)學(xué)習(xí)進(jìn)度。因此,如何在包含缺失數(shù)據(jù)的數(shù)據(jù)集中進(jìn)行學(xué)生期末成績(jī)的精準(zhǔn)預(yù)測(cè)成為關(guān)鍵問(wèn)題。
3 數(shù)據(jù)預(yù)處理與缺失處理
3.1 均值插補(bǔ)法
插補(bǔ)法在模型訓(xùn)練中常用,通常通過(guò)屬性的平均值、中位數(shù)或眾數(shù)對(duì)缺失數(shù)據(jù)進(jìn)行簡(jiǎn)單插補(bǔ)。對(duì)于連續(xù)型數(shù)據(jù),常使用的方法是平均數(shù)或眾數(shù)進(jìn)行插補(bǔ),而對(duì)于離散型數(shù)據(jù)則通常使用眾數(shù)進(jìn)行插補(bǔ)。另一方面,當(dāng)使用插補(bǔ)法時(shí),考慮到同一種屬性的樣本可能會(huì)表現(xiàn)出相似的特征,如果使用所有樣本的平均值或眾數(shù)進(jìn)行插補(bǔ)是不適用的,所以通常的做法是對(duì)于某一種屬性的缺失值,使用這個(gè)屬性的平均值或眾數(shù)來(lái)進(jìn)行插補(bǔ)。比如,統(tǒng)計(jì)某次考試高中全部年級(jí)物理成績(jī)中,若某一名高二學(xué)生的數(shù)據(jù)丟失,考慮到不同年級(jí)物理題難度的區(qū)別以及學(xué)生的學(xué)習(xí)情況不同,更應(yīng)該使用高二年級(jí)全體學(xué)生的物理平均成績(jī)來(lái)代替其成績(jī),而不是高中全部年級(jí)物理成績(jī)的平均成績(jī)來(lái)代替。盡管無(wú)法得知學(xué)生的具體成績(jī),但這對(duì)進(jìn)一步分析和預(yù)測(cè)的影響有限。
3.2" 基于KNN算法的數(shù)值插補(bǔ)
缺失數(shù)據(jù)是指由于自然或人為原因,某些統(tǒng)計(jì)數(shù)據(jù)的單個(gè)或多個(gè)屬性值未被記錄[5]。缺失值大致可分為兩類:一類是實(shí)際存在而沒(méi)有被觀測(cè)記錄到的值;另一類是實(shí)際就不存在的值[6]。在本文中學(xué)生成績(jī)數(shù)據(jù)的缺失值應(yīng)屬于實(shí)際存在而沒(méi)有被觀測(cè)記錄到的值。例如:系統(tǒng)方面,在學(xué)校教務(wù)管理系統(tǒng)數(shù)據(jù)遷移的時(shí)候造成的數(shù)據(jù)丟失或數(shù)據(jù)受損等情況;人為方面,教師點(diǎn)名時(shí)遺漏某學(xué)生數(shù)據(jù),某學(xué)生課堂作業(yè)未提交等情況。
KNN(K-Nearest Neighbors) 缺失值插補(bǔ)是一種基于樣本相似性填充方法,通過(guò)計(jì)算缺失數(shù)據(jù)與完好樣本的相似性,選擇最近的K個(gè)樣本以預(yù)測(cè)缺失值。當(dāng)K等于1時(shí),最近鄰插補(bǔ)法又稱為熱卡插補(bǔ)法,比如,高三模擬考試某個(gè)學(xué)生某一次物理成績(jī)丟失,可以用前后共K次成績(jī)的平均值為其賦值,如果數(shù)據(jù)是二維或二維以上的,則需要先計(jì)算出所有樣本兩兩之間的相似度距離,找到與其相似距離最低的K個(gè)樣本,再計(jì)算它們的加權(quán)平均值。常用的計(jì)算距離的公式有兩種:1) 歐氏距離:[i=1n(xi-yi)2];2) 曼哈頓距離: [i=1n|xi-yi|]。
對(duì)于連續(xù)型缺失值,通常取K個(gè)鄰居對(duì)應(yīng)特征的?均值?或?加權(quán)均值;對(duì)于分類型缺失值,可采用K個(gè)鄰居的?眾數(shù)?填充。若K值過(guò)小,模型可能過(guò)擬合;若K值過(guò)大,則可能引入無(wú)關(guān)樣本噪聲。因此,可以使用交叉驗(yàn)證選擇使預(yù)測(cè)誤差最小的值,初始值可以使用3或者5來(lái)進(jìn)行嘗試。算法描述如下。
基于KNN算法數(shù)值插補(bǔ)和其他插補(bǔ)方法相比,有以下優(yōu)勢(shì):首先,KNN通過(guò)尋找最鄰近的樣本進(jìn)行插補(bǔ),能夠更好地捕捉數(shù)據(jù)的局部結(jié)構(gòu)和模式,適用于數(shù)據(jù)分布復(fù)雜的情況;其次,KNN可以處理連續(xù)變量和分類變量的插補(bǔ),只須選擇適當(dāng)?shù)木嚯x度量方法(如歐氏距離、曼哈頓距離等) ;最后,該方法不需要對(duì)數(shù)據(jù)的分布做任何假設(shè),因此在數(shù)據(jù)不滿足某些分布假設(shè)時(shí)(如正態(tài)分布) ,KNN仍能有效工作。而傳統(tǒng)的插值方法,如使用平均值、中位數(shù)或眾數(shù)對(duì)缺失數(shù)據(jù)進(jìn)行簡(jiǎn)單插補(bǔ),雖然快速但是忽略了數(shù)據(jù)的局部結(jié)構(gòu)和特征之間的關(guān)系,而KNN插補(bǔ)可以通過(guò)鄰居保持?jǐn)?shù)據(jù)的局部信息。
3.3 一種基于KNN算法改進(jìn)的數(shù)值插補(bǔ)方法
上文已經(jīng)提到,KNN缺失值插補(bǔ)是一種通過(guò)測(cè)量樣本間相似性進(jìn)行填充的方法,能夠有效處理缺失數(shù)據(jù)。但是KNN也有其局限性,在高緯度數(shù)據(jù)中,無(wú)論是歐氏距離還是曼哈頓距離的計(jì)算,都會(huì)受到噪聲和冗余信息的影響,導(dǎo)致選擇鄰居的不準(zhǔn)確性大幅提高,導(dǎo)致插補(bǔ)效果下降。而使用PCA算法,可以通過(guò)主成分分析降低數(shù)據(jù)的緯度,消除無(wú)關(guān)噪聲,去除冗余信息,最后達(dá)到提升距離測(cè)量有效性的效果。
主成分分析法主要目的是降維,通過(guò)一個(gè)新的坐標(biāo)系來(lái)重新表示數(shù)據(jù),要求這個(gè)新坐標(biāo)系能最大限度表示每個(gè)軸上的數(shù)據(jù)變化大小,取前K個(gè)變化最大的軸上的數(shù)據(jù),從而實(shí)現(xiàn)降維,將PCA應(yīng)用于KNN的插值可以找到每個(gè)缺失值更加有效的鄰居。
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集
UCL機(jī)器學(xué)習(xí)數(shù)據(jù)集倉(cāng)庫(kù),是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)領(lǐng)域中常用的數(shù)據(jù)集資源之一,該網(wǎng)站提供了大量機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的數(shù)據(jù)集,涵蓋了從生物、地理、信息和市場(chǎng)經(jīng)濟(jì)等各個(gè)領(lǐng)域的數(shù)據(jù)。UCL數(shù)據(jù)集,是一個(gè)經(jīng)典且被廣泛使用的數(shù)據(jù)集,該網(wǎng)站的數(shù)據(jù)集適用于進(jìn)行機(jī)器學(xué)習(xí)方面的研究,并且提供了詳細(xì)的數(shù)據(jù)集描述信息,可以使研究者更好的使用這些數(shù)據(jù)集。本文使用的Student Performance數(shù)據(jù)集,該數(shù)據(jù)主要是為了評(píng)估了兩所葡萄牙學(xué)校的中等教育成績(jī)。數(shù)據(jù)屬性包括學(xué)生成績(jī)、人口統(tǒng)計(jì)學(xué)特征、社會(huì)和學(xué)校相關(guān)特征,通過(guò)使用學(xué)校報(bào)告和問(wèn)卷收集。通過(guò)這些數(shù)據(jù)特征和前兩次的學(xué)生成績(jī)來(lái)預(yù)測(cè)第三次學(xué)生成績(jī)。由于研究的是缺失數(shù)據(jù)的預(yù)測(cè),所以首先需要制造缺失數(shù)據(jù),本文采用的是完全隨機(jī)缺失(MCAR) 構(gòu)建方法,對(duì)完整數(shù)據(jù)集中的任意變量按固定比例隨機(jī)選取位置為缺失值,缺失概率與任何變量無(wú)關(guān)。可以使用Python的numpy.random.choice生成隨機(jī)索引,在選定位置插入NaN值。
4.2 實(shí)驗(yàn)過(guò)程?
4.2.1 實(shí)驗(yàn)環(huán)境
本文使用的模型是在Python環(huán)境下完成的,使用的工具是Anaconda,python版本為3.11。計(jì)算機(jī)系統(tǒng)是Windows 10企業(yè)版,硬件配置為Intel(R) Core(TM) i5-10400F CPU、32 GRAM、nVIDIA GeForce GTX 1080 8 GB GPU。
4.2.2 模型評(píng)估標(biāo)準(zhǔn)
模型的評(píng)價(jià)指標(biāo)有很多,使用誤差評(píng)估可以更加直觀有效的衡量模型的預(yù)測(cè)水平,所以在模型訓(xùn)練中大多采用誤差評(píng)估的方法來(lái)衡量模型的預(yù)測(cè)水平,本文使用均方誤差(MAE) ,均方根誤差(RMSE) 兩種常用的誤差評(píng)價(jià)指標(biāo)。
這兩種統(tǒng)計(jì)方法的定義如下:
1) MAE。[Y'i]表示預(yù)測(cè)值,[Yi]表示實(shí)際值,n表示樣本數(shù)。則[MAE = 1ni-1n|Y'i-Yi|]。
模型的預(yù)測(cè)精度與MAE的值成反比,即計(jì)算出來(lái)的MAE值越小,模型性能越好。
2) RMSE。[Y'i]表示預(yù)測(cè)值,[Yi]表示實(shí)際值,n表示樣本數(shù)。則[RMSE = (i=1n(Y'i-Yi)2n]。
模型的預(yù)測(cè)精度與RMSE結(jié)果成反比,即計(jì)算出來(lái)的MAE值越小模型性能越好。
4.2.3 實(shí)驗(yàn)數(shù)據(jù)
數(shù)據(jù)的準(zhǔn)備由數(shù)據(jù)的集成、選擇、清洗和轉(zhuǎn)換4個(gè)步驟完成[7]。
數(shù)據(jù)集成,即數(shù)據(jù)來(lái)自不用的地方,是由專門的人員以發(fā)傳單的方式搜集而來(lái)。
數(shù)據(jù)清洗,初步的整理數(shù)據(jù),過(guò)濾掉不完整的數(shù)據(jù),在搜集數(shù)據(jù)的過(guò)程中,存在部分?jǐn)?shù)據(jù)丟失的過(guò)程或者是被調(diào)查者填寫(xiě)數(shù)據(jù)的不規(guī)范性,造成部分?jǐn)?shù)據(jù)不可用。
數(shù)據(jù)轉(zhuǎn)換,將數(shù)據(jù)轉(zhuǎn)化為模型可以直接運(yùn)行的數(shù)據(jù)類型,包括數(shù)據(jù)的標(biāo)準(zhǔn)化、歸一化、編碼等操作,目的是讓數(shù)據(jù)滿足模型的需求并提高數(shù)據(jù)的建模效果。
使用留一法進(jìn)行交叉驗(yàn)證,因?yàn)閷?shí)驗(yàn)數(shù)據(jù)集小于1 000,屬于小樣本數(shù)據(jù),使用留一法,可以最大化利用有限數(shù)據(jù),訓(xùn)練出性能更好的模型。
4.2.4 模型與訓(xùn)練
經(jīng)過(guò)特征選擇與處理之后,使用決策樹(shù)算法建立學(xué)生期末成績(jī)表現(xiàn)的預(yù)測(cè)模型,最終輸入模型的數(shù)據(jù)一共有33個(gè),其中,G3(final grade) 為預(yù)測(cè)目標(biāo)變量,其他32個(gè)變量為特征變量。
本文中使用的模型為決策樹(shù)模型,首先,決策樹(shù)模型的可解釋性強(qiáng),通過(guò)樹(shù)狀結(jié)構(gòu)可以直觀地顯示分類規(guī)則,便于教育工作者理解影響成績(jī)的關(guān)鍵因素(如出勤率、作業(yè)完成度、課堂互動(dòng)等) ;其次,數(shù)據(jù)兼容度高,支持混合數(shù)據(jù)模型以及非線性關(guān)系建模,對(duì)缺失值和異常值具有比較好的包容性,且分類效果顯著。本實(shí)驗(yàn)是一個(gè)二分類問(wèn)題,主要是根據(jù)學(xué)生的一些家庭信息與平時(shí)表現(xiàn)來(lái)預(yù)測(cè)學(xué)生是否可以通過(guò)本學(xué)期的期末考試,對(duì)于預(yù)測(cè)為不通過(guò)的學(xué)生加以干預(yù),從而提高教學(xué)質(zhì)量。?
4.2.5 實(shí)驗(yàn)結(jié)果
本次研究一共做了以下8組實(shí)驗(yàn),分別使用中位數(shù)插補(bǔ)法、平均值插補(bǔ)法、眾數(shù)插補(bǔ)法、基于KNN算法改進(jìn)的數(shù)值插補(bǔ)方法和改良的基于KNN算法的插補(bǔ)法,結(jié)果如表1所示。
為了保證實(shí)驗(yàn)結(jié)果的可靠性,選取建模中未用到的數(shù)據(jù)進(jìn)行預(yù)測(cè)。本次實(shí)驗(yàn)主要是從兩個(gè)指標(biāo)來(lái)衡量使用了各種插補(bǔ)法的數(shù)據(jù)在決策樹(shù)模型下的表現(xiàn)情況。第一種插補(bǔ)法是中位數(shù)插補(bǔ)法,其原理是用特征列的中位數(shù)(50%分位數(shù)) 來(lái)填補(bǔ)數(shù)據(jù)中的缺失值,此方法的優(yōu)點(diǎn)是對(duì)異常值和偏態(tài)分布魯棒性強(qiáng),插補(bǔ)值穩(wěn)定性高?,缺點(diǎn)是忽略特征間相關(guān)性,可能丟失數(shù)據(jù)內(nèi)在模式?,所以適合房?jī)r(jià)、收入之類的連續(xù)性數(shù)據(jù)。第二種插補(bǔ)法是平均值插補(bǔ)法,用特征列的算術(shù)均值填補(bǔ)缺失值,缺點(diǎn)是對(duì)異常值比較敏感,受極端值影響較大,使得預(yù)測(cè)的值并不準(zhǔn)確,而且在缺失率較高數(shù)據(jù)的預(yù)測(cè)中效果并不是很好,一般來(lái)說(shuō)效果不如中位數(shù)插補(bǔ)法。第三種插補(bǔ)法是眾數(shù)插補(bǔ)法,是用特征列中出現(xiàn)頻率最高的值填補(bǔ)缺失值,缺點(diǎn)是對(duì)連續(xù)型數(shù)據(jù)效果差,若類別分布不均可能引入偏差?,所以本實(shí)驗(yàn)中的效果,不如其他方法。最后是本文提出的基于KNN算法改進(jìn)的數(shù)值插補(bǔ)方法,通過(guò)計(jì)算樣本間距離,選擇最近的K個(gè)近鄰,用其均值或加權(quán)值填補(bǔ)缺失值,可以利用數(shù)據(jù)局部的相似性來(lái)填補(bǔ)數(shù)據(jù),還可以通過(guò)調(diào)整K值平衡噪聲抑制和局部細(xì)節(jié)保留,所以效果優(yōu)于中位數(shù)插補(bǔ)法,平均值插補(bǔ)法和眾數(shù)插補(bǔ)法。?
可以很清楚地看到,不論是MAE的計(jì)算還是RMSE的計(jì)算,使用基于KNN算法改進(jìn)的數(shù)值插補(bǔ)方法得到的數(shù)據(jù)在決策樹(shù)模型下的表現(xiàn)都是最佳的。
5 結(jié)束語(yǔ)
本文的主要目的是處理數(shù)據(jù)中的缺失值,針對(duì)缺失值的插補(bǔ),提出了一種基于KNN算法改進(jìn)的數(shù)值插補(bǔ)算法,該算法有別于傳統(tǒng)的缺失值的插補(bǔ)算法,傳統(tǒng)的缺失值插補(bǔ)算法,如平均值、中位數(shù)和眾數(shù)插補(bǔ)方法,雖然在一定程度上使數(shù)據(jù)更完整,但可能導(dǎo)致某些數(shù)據(jù)特征丟失,本文提出的基于KNN算法改進(jìn)的數(shù)值插補(bǔ)算法,可以根據(jù)距離公式算法計(jì)算出與該樣本距離最小的K個(gè)樣本,然后再取這K個(gè)樣本的值去估計(jì)當(dāng)前數(shù)據(jù)的缺失值,可以使得對(duì)缺失值的預(yù)測(cè)更加接近丟失的真實(shí)值,從而提高模型預(yù)測(cè)的準(zhǔn)確性。通過(guò)數(shù)值插補(bǔ)算法可以使教師根據(jù)學(xué)生的平時(shí)表現(xiàn)、作業(yè)完成情況等對(duì)學(xué)生的期末表現(xiàn)進(jìn)行預(yù)測(cè),如果發(fā)現(xiàn)某學(xué)生的預(yù)測(cè)結(jié)果不好,教師也可以提前采取一些措施來(lái)應(yīng)對(duì),提高該門課的教學(xué)質(zhì)量。在今后的研究中可以進(jìn)一步探索數(shù)據(jù)的多元整合,比如通過(guò)融合學(xué)習(xí)行為視頻、文本等數(shù)據(jù),提升插補(bǔ)與預(yù)測(cè)精度。
參考文獻(xiàn):
[1] 姚河花,張彤,張順,等.基于課程學(xué)習(xí)過(guò)程性數(shù)據(jù)的成績(jī)預(yù)測(cè)研究[J].軟件導(dǎo)刊,2024,23(8):287-293.
[2] 張澤,褚哲.基于XGBoost的學(xué)生成績(jī)預(yù)測(cè)及SHAP特征分析研究[J].信息化研究,2024,50(3):34-40.
[3] 王昕琰,張秀梅,陳翠屏.基于教育數(shù)據(jù)挖掘技術(shù)的智慧課堂學(xué)習(xí)行為特征分析[J].教育測(cè)量與評(píng)價(jià),2024(6):31-46.
[4] 李英.英語(yǔ)訓(xùn)練學(xué)生成績(jī)預(yù)測(cè)模型的設(shè)計(jì)及實(shí)現(xiàn)[D].桂林:桂林電子科技大學(xué),2024.
[5] 吳俊杰.基于對(duì)抗生成網(wǎng)絡(luò)的隨機(jī)缺失數(shù)據(jù)填補(bǔ)及其效果研究[D].上海:上海師范大學(xué),2020.
[6] 廖祥超.九種常用缺失值插補(bǔ)方法的比較[D].昆明:云南師范大學(xué),2017.
[7] 崔鴻剛,張萍,曾學(xué),等.基于LightGBM的航班落地時(shí)間預(yù)測(cè)研究[J].自動(dòng)化與儀器儀表,2025(2):33-36.
【通聯(lián)編輯:聞翔軍】