亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)與數(shù)據(jù)挖掘的在線學(xué)習(xí)預(yù)測(cè)評(píng)估模型設(shè)計(jì)

2023-07-25 09:55:32由志勛

電子設(shè)計(jì)工程 2023年15期

關(guān)鍵詞：模型

劉靜，由志勛

（1.西安工程大學(xué)，陜西西安 710048；2.西安熱工研究院有限公司，陜西西安 710000）

近年來(lái)，隨著“互聯(lián)網(wǎng)+”概念的不斷發(fā)展，數(shù)字化教學(xué)對(duì)教育，尤其是高等教育產(chǎn)生了重要影響。而各領(lǐng)域的網(wǎng)課層出不窮，為人們的學(xué)習(xí)提供了新方式[1-4]。自新冠肺炎疫情爆發(fā)以來(lái)，全國(guó)各大高校相繼調(diào)整了返校時(shí)間。而為保證大學(xué)生們的學(xué)習(xí)進(jìn)度，教育部提出了“停課不停學(xué)”的行動(dòng)計(jì)劃，這一計(jì)劃也引發(fā)了社會(huì)各界對(duì)互聯(lián)網(wǎng)在線課程資源的關(guān)注[5-7]。

互聯(lián)網(wǎng)在線課程在我國(guó)已有十余年的發(fā)展歷史，在這期間輟學(xué)率和流失率是該課程所面臨的主要問題[8]。使用網(wǎng)絡(luò)教學(xué)中的學(xué)生行為數(shù)據(jù)，來(lái)預(yù)測(cè)學(xué)生的學(xué)習(xí)效果并進(jìn)行精準(zhǔn)教學(xué)干預(yù)，已成為當(dāng)前相關(guān)學(xué)者研究的熱門課題之一[9-10]。上述相關(guān)文獻(xiàn)均已實(shí)現(xiàn)并取得了一定的效果。但在影響因素方面，仍未能給出影響學(xué)習(xí)效果的關(guān)鍵指標(biāo)，且在評(píng)估各個(gè)指標(biāo)的影響時(shí)，定性與定量的評(píng)估相交雜，故主觀因素影響較大。

文中采用智能化的深度學(xué)習(xí)技術(shù)，對(duì)學(xué)習(xí)成績(jī)實(shí)現(xiàn)預(yù)測(cè)，且構(gòu)建了學(xué)習(xí)效果評(píng)估模型。利用數(shù)據(jù)挖掘技術(shù)對(duì)可能影響成績(jī)的各種因素進(jìn)行聚類分析，并總結(jié)出了關(guān)鍵指標(biāo)。在分析各個(gè)關(guān)鍵指標(biāo)的影響權(quán)重與成績(jī)預(yù)測(cè)時(shí)，采用梯度漸進(jìn)回歸樹構(gòu)建預(yù)測(cè)模型，從而實(shí)現(xiàn)成績(jī)預(yù)測(cè)。

1 成績(jī)預(yù)測(cè)評(píng)估模型框架

網(wǎng)絡(luò)課程這種全新的教學(xué)方法與學(xué)習(xí)體驗(yàn)，對(duì)教師和學(xué)生而言均是一種挑戰(zhàn)。如何根據(jù)學(xué)生在網(wǎng)課上的交互行為及相關(guān)數(shù)據(jù)來(lái)預(yù)測(cè)學(xué)習(xí)效果，并對(duì)學(xué)生的學(xué)習(xí)狀態(tài)進(jìn)行評(píng)估與干預(yù)，成為該文研究的重點(diǎn)[11-12]。

文中所提出的高校學(xué)生成績(jī)預(yù)測(cè)評(píng)估模型可分為兩個(gè)部分：一是總結(jié)出影響學(xué)生成績(jī)的關(guān)鍵因素、指標(biāo)；二是對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)和評(píng)估，具體如圖1所示[13-14]。根據(jù)預(yù)設(shè)的變量，利用聚類分析法，從學(xué)生網(wǎng)課的平時(shí)考核成績(jī)、學(xué)習(xí)行為歸類出影響學(xué)生成績(jī)的關(guān)鍵因素以及各個(gè)因素的影響權(quán)重，進(jìn)而構(gòu)建成績(jī)影響因素體系，將其作為成績(jī)預(yù)測(cè)模型的輸入信息與初始參數(shù)；再使用深度學(xué)習(xí)中的梯度漸進(jìn)回歸樹算法深度挖掘數(shù)據(jù)背后的邏輯，并對(duì)初始參數(shù)進(jìn)行修正。當(dāng)預(yù)測(cè)結(jié)果與實(shí)際成績(jī)的差異低于閾值時(shí)，制定提高學(xué)習(xí)成績(jī)的干預(yù)措施；而當(dāng)預(yù)測(cè)結(jié)果與實(shí)際成績(jī)的差異大于閾值時(shí)，則篩選變量，且重新構(gòu)建成績(jī)影響因素體系。

圖1 成績(jī)預(yù)測(cè)評(píng)估模型框架示意圖

2 成績(jī)預(yù)測(cè)評(píng)估模型

2.1 成績(jī)影響因子體系構(gòu)建

學(xué)習(xí)成績(jī)預(yù)測(cè)與評(píng)估模型的構(gòu)建需要明確關(guān)鍵影響因素的個(gè)數(shù)和權(quán)重，在此過(guò)程中使用的數(shù)據(jù)主要分為學(xué)生的平時(shí)考核成績(jī)與在線學(xué)習(xí)行為。平時(shí)考核成績(jī)?yōu)槎繑?shù)據(jù)，僅需對(duì)數(shù)據(jù)是否重復(fù)、缺失進(jìn)行檢查后，便可進(jìn)行聚類分析；而學(xué)習(xí)行為則是定性數(shù)據(jù)，需要將其通過(guò)編碼轉(zhuǎn)換為定量數(shù)據(jù)。文中所研究的學(xué)習(xí)行為數(shù)據(jù)分為以下幾類，如表1 所示。

表1 學(xué)習(xí)行為數(shù)據(jù)

通過(guò)平時(shí)考核成績(jī)能夠直觀地了解學(xué)生的學(xué)習(xí)效果，而學(xué)習(xí)行為則比較抽象，故文中使用數(shù)據(jù)挖掘中的K-means 算法來(lái)挖掘各類學(xué)習(xí)行為與學(xué)習(xí)成績(jī)之間的關(guān)系[15]，以明確關(guān)鍵影響因素，并提高學(xué)習(xí)成績(jī)預(yù)測(cè)的準(zhǔn)確率。

該文所采用的K-means 算法，又被稱為K-均值算法[16]，其設(shè)計(jì)的核心思想：預(yù)設(shè)聚類的個(gè)數(shù)，依據(jù)事先設(shè)定的規(guī)則，持續(xù)將在距離種子點(diǎn)一定范圍內(nèi)的個(gè)體劃分成指定簇；再通過(guò)迭代更新的方式，事先指定簇的劃分個(gè)數(shù)。在每次迭代過(guò)程中，選用的參考點(diǎn)為上一次迭代簇的質(zhì)心。具體的算法流程如圖2所示。

圖2 K-means算法流程圖

從圖2 可以看出，K-means 算法的終止條件是算法收斂。因此文中采用畸變函數(shù)來(lái)判斷算法是否收斂，具體表達(dá)式如下：

式中，J函數(shù)表示各個(gè)個(gè)體到達(dá)質(zhì)心的距離平方和。當(dāng)J函數(shù)為最小值時(shí)，代表K-means 算法收斂，即質(zhì)心μi和類別ci分別收斂。當(dāng)J函數(shù)不是最小值時(shí)，通過(guò)固定每個(gè)簇質(zhì)心μi或類別ci，調(diào)整另一個(gè)變量，直至J函數(shù)為最小值。

2.2 基于梯度漸進(jìn)回歸樹的預(yù)測(cè)模型

在篩選出關(guān)鍵影響因素后，再使用深度學(xué)習(xí)中的梯度漸進(jìn)回歸樹來(lái)分析關(guān)鍵影響因素與成績(jī)之間的聯(lián)系。梯度漸進(jìn)回歸樹是一種以決策樹為基礎(chǔ)的Boosting 算法，其本質(zhì)為新生成的樹均通過(guò)父代樹的殘差來(lái)進(jìn)行學(xué)習(xí)，且利用損失函數(shù)的負(fù)梯度作為整個(gè)算法殘差的近似值，并擬合成一棵回歸樹。故最終的預(yù)測(cè)結(jié)果為所有回歸樹預(yù)測(cè)結(jié)果的疊加。具體過(guò)程如下所示：

設(shè)定成績(jī)預(yù)測(cè)的數(shù)據(jù)集為D={(x1,y1),(x2,y2),…,(xn,yn)}，損失函數(shù)被定義為L(zhǎng)(y,f(x))，回歸樹的最大深度數(shù)值為S。

1）依據(jù)式（2）預(yù)設(shè)常數(shù)因子c，使得損失函數(shù)最小。

2）以迭代的方式建立M棵回歸樹，對(duì)于每一個(gè)樣本數(shù)據(jù)，均利用式（3）計(jì)算損失函數(shù)的負(fù)梯度在回歸樹的數(shù)值，作為殘差的初始估計(jì)值。

同時(shí)將{xi,rmi}用回歸樹擬合，以得到第m棵回歸樹h(xi,λm)，回歸樹中λm為模型參數(shù)。

3）損失函數(shù)的最小化由模型參數(shù)權(quán)重得到βm，并使用線性搜索來(lái)計(jì)算權(quán)重βm：

4）在得到βm之后，利用更新步長(zhǎng)α將模型更新如下：

5）完成所有迭代次數(shù)后，即可輸出最終模型：

在內(nèi)容交互行為中，在線時(shí)長(zhǎng)t是以分鐘為單位進(jìn)行統(tǒng)計(jì)的。為避免因數(shù)據(jù)單位不一致而導(dǎo)致預(yù)測(cè)結(jié)果的差異性，需要將在線時(shí)長(zhǎng)數(shù)據(jù)進(jìn)行歸一化處理，得到分布在[-1,1]之間的數(shù)據(jù)：

由上述分析可知，梯度漸進(jìn)回歸樹模型的建立需要3 個(gè)參數(shù)：回歸樹數(shù)量M、每棵回歸樹的最大深度S和更新步長(zhǎng)α，且回歸樹的數(shù)量決定了迭代次數(shù)。為防止模型訓(xùn)練時(shí)出現(xiàn)過(guò)擬合現(xiàn)象，每棵回歸樹的最大深度初始值為一個(gè)較小的數(shù)值。更新步長(zhǎng)的大小決定著模型收斂速度的快慢。文中采用參數(shù)枚舉的方式來(lái)選定M、S、α這3 個(gè)參數(shù)，并以交叉驗(yàn)證的方式對(duì)其進(jìn)行考核，考核評(píng)分高的組合作為最終模型參數(shù)的數(shù)值?？己藰?biāo)準(zhǔn)為擬合優(yōu)度，如式（8）：

式中，R2代表擬合優(yōu)度，m為樣本個(gè)數(shù)，Yi為樣本實(shí)際數(shù)值，yi為樣本預(yù)測(cè)值。而y′為預(yù)測(cè)平均值，該值越趨近于1，則表示擬合效果越好。

參數(shù)枚舉優(yōu)化過(guò)程如下：

1）初始化參數(shù)M、S、α，M=[M1,M2,…,MK1]，S=[S1,S2,…,SK2]，α=[α1,α2,…,αK3]，參數(shù)枚舉數(shù)量分別為K1、K2、K3。

2）將樣本數(shù)據(jù)分為n份進(jìn)行交叉驗(yàn)證。選擇任意一組樣本數(shù)據(jù)作為目標(biāo)集合，利用其余的樣本數(shù)據(jù)對(duì)步驟1）中的某一組參數(shù)進(jìn)行優(yōu)化訓(xùn)練與計(jì)算擬合優(yōu)度，并將平均擬合優(yōu)度作為該組參數(shù)的最終評(píng)估結(jié)果。重復(fù)此操作，直至每一組樣本數(shù)據(jù)均可作為目標(biāo)集。

3）選擇步驟1）中的另一組參數(shù)組合，進(jìn)行步驟2）的操作，直至所有的參數(shù)組合均得到平均擬合優(yōu)度。

4）比較各個(gè)參數(shù)組合的平均擬合優(yōu)度數(shù)值大小，且將最高數(shù)值對(duì)應(yīng)的參數(shù)組合定為模型的最終參數(shù)。

3 測(cè)試與驗(yàn)證

為了測(cè)試文中所提成績(jī)預(yù)測(cè)評(píng)估模型的性能，選取了某所高校共計(jì)2 358 名大學(xué)生的網(wǎng)絡(luò)課程學(xué)習(xí)數(shù)據(jù)，且該數(shù)據(jù)分為70%的畢業(yè)生數(shù)據(jù)與30%的在校生數(shù)據(jù)。畢業(yè)生數(shù)據(jù)被用來(lái)訓(xùn)練成績(jī)預(yù)測(cè)評(píng)估模型的參數(shù)；而在校生的學(xué)習(xí)數(shù)據(jù)則用來(lái)驗(yàn)證模型的有效性。在進(jìn)行模型訓(xùn)練前，使用Notepad++工具及R 語(yǔ)言對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理：清除重復(fù)、無(wú)效的數(shù)據(jù)并對(duì)各類數(shù)據(jù)進(jìn)行歸一化處理。通過(guò)K-means聚類算法得到關(guān)鍵影響因素后，再將這些因素作為梯度漸進(jìn)回歸樹模型的輸入。文中采用枚舉的形式，對(duì)訓(xùn)練樣本進(jìn)行交叉驗(yàn)證。

文中使用Matlab2016仿真軟件平臺(tái)作為模型訓(xùn)練的軟件環(huán)境，硬件環(huán)境配置了64 bit、32 GB內(nèi)存與1 TB機(jī)械硬盤以滿足高速、海量的模型訓(xùn)練計(jì)算資源需求。

在模型訓(xùn)練前，依據(jù)經(jīng)驗(yàn)設(shè)定K-means 算法的聚類個(gè)數(shù)及梯度漸進(jìn)回歸樹模型各個(gè)參數(shù)的范圍。為了篩選出影響成績(jī)的關(guān)鍵因素，各簇之間的相似程度應(yīng)較低，而簇內(nèi)的個(gè)體相似程度則較高。將K值的初始范圍設(shè)定為[3,6]，并根據(jù)不同的K值，計(jì)算各個(gè)個(gè)體到相應(yīng)質(zhì)心的均值距離，結(jié)果如表2 所示。

表2 不同K值下個(gè)體到質(zhì)心的均值距離

從表2 可以看出，當(dāng)K值為5 時(shí)，各個(gè)體到質(zhì)心的均值距離最小。這表明將學(xué)生的學(xué)習(xí)行為特征劃分為5 個(gè)類別，對(duì)成績(jī)的預(yù)測(cè)效果最佳。

梯度漸進(jìn)回歸樹的參數(shù)初始范圍設(shè)定為M={10,30,70,100}，S={2,3,5}，α={0.05,1,2,4}。在梯度漸進(jìn)回歸樹模型訓(xùn)練過(guò)程中，使用均方根誤差來(lái)描述迭代精度，計(jì)算方式如下：

式中，m表示的是樣本數(shù)量，為樣本實(shí)際數(shù)值，yi為預(yù)測(cè)數(shù)值。RMSE 的數(shù)值越小，則表明預(yù)測(cè)值越接近實(shí)際數(shù)值。訓(xùn)練及預(yù)測(cè)樣本在模型迭代過(guò)程中的誤差變化曲線如圖3 所示。

圖3 梯度漸進(jìn)回歸樹均方根誤差

從圖中可以看出，訓(xùn)練和測(cè)試樣本在迭代45 次后仍有下降的趨勢(shì)，但變化較為緩慢。這表明模型已經(jīng)趨于收斂，且此時(shí)的均方根誤差約為0.004 5。值得注意的是，測(cè)試樣本曲線與訓(xùn)練樣本曲線走向一致，且測(cè)試樣本曲線低于訓(xùn)練樣本。這是因?yàn)闇y(cè)試樣本的數(shù)量顯著低于訓(xùn)練樣本，所以在訓(xùn)練過(guò)程中訓(xùn)練樣本RMSE 誤差的降低未引發(fā)過(guò)擬合，因此也沒有導(dǎo)致預(yù)測(cè)結(jié)果出現(xiàn)較大的偏差。

4 結(jié)束語(yǔ)

針對(duì)在線網(wǎng)絡(luò)課程僅使用在線數(shù)據(jù)，難以預(yù)測(cè)學(xué)生成績(jī)的問題，文中利用K-means 算法和梯度漸進(jìn)回歸樹，構(gòu)建出了一套成績(jī)?cè)u(píng)估預(yù)測(cè)模型，并利用該模型對(duì)進(jìn)行在線學(xué)習(xí)用戶的成績(jī)進(jìn)行了預(yù)測(cè)。測(cè)試結(jié)果表明，所設(shè)計(jì)的模型能夠?qū)崿F(xiàn)較為精準(zhǔn)的預(yù)測(cè)。但是需要注意的是，該研究結(jié)果僅適用于對(duì)一門課程的數(shù)據(jù)進(jìn)行分析，因此該模型仍存在一定的局限性，有待于進(jìn)一步研究實(shí)現(xiàn)多學(xué)科的綜合評(píng)估。