亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于線上線下學(xué)習(xí)行為分析的學(xué)生成績預(yù)測研究

        2022-11-25 04:38:42郭羿韋文山鄧居昌
        現(xiàn)代計算機(jī) 2022年17期
        關(guān)鍵詞:實(shí)驗模型研究

        郭羿,韋文山,鄧居昌

        (廣西民族大學(xué)電子信息學(xué)院,南寧 530000)

        0 引言

        近年來,線上教育的不斷普及對常規(guī)教育數(shù)據(jù)的研究方法提出了挑戰(zhàn)。管理者通過學(xué)習(xí)者產(chǎn)生的學(xué)習(xí)行為大數(shù)據(jù)對在線教育大數(shù)據(jù)進(jìn)行研究,并根據(jù)分析結(jié)果進(jìn)行應(yīng)用,這對于指導(dǎo)在線開放課程的設(shè)計、運(yùn)行及評價,進(jìn)而有效組織學(xué)生的教學(xué)活動有幫助作用。如今的高校教學(xué)過程中,線上教學(xué)與線下教學(xué)相結(jié)合已成為主流趨勢。線上教育產(chǎn)生了許多學(xué)生學(xué)習(xí)數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘方法對學(xué)生的線上學(xué)習(xí)數(shù)據(jù)與線下學(xué)習(xí)數(shù)據(jù)相結(jié)合,能夠?qū)崿F(xiàn)對學(xué)生的成績預(yù)測,幫助學(xué)生規(guī)避學(xué)業(yè)風(fēng)險[1]。

        學(xué)習(xí)行為分析及結(jié)果預(yù)測主要體現(xiàn)在數(shù)據(jù)相關(guān)性分析及成績預(yù)測理論模型的構(gòu)建、成績預(yù)測模型的實(shí)證研究、算法準(zhǔn)確性的對比、算法的開發(fā)、預(yù)警因素研究等方面,已有研究主要采用決策樹、回歸分析、時序分析等算法。此外,基于大學(xué)生網(wǎng)絡(luò)課程學(xué)習(xí)過程、早起行為和圖書借閱行為,將課內(nèi)表現(xiàn)和數(shù)據(jù)聯(lián)系,建立多個學(xué)習(xí)場景的數(shù)據(jù)鏈路,通過對不同機(jī)器學(xué)習(xí)分類模型的預(yù)測分析和性能提升,結(jié)合不同預(yù)測模型的優(yōu)勢,建立用于教學(xué)干預(yù)與學(xué)習(xí)推薦系統(tǒng)的行為診斷模型[2]。隨著深度學(xué)習(xí)技術(shù)越來越廣泛地應(yīng)用到實(shí)際問題中,將深度學(xué)習(xí)技術(shù)應(yīng)用到教育大數(shù)據(jù)挖掘領(lǐng)域,能更好地描述教育數(shù)據(jù)的內(nèi)在信息,幫助教育者發(fā)現(xiàn)教育問題的關(guān)鍵[3]。

        本研究采用多元線性回歸(MLR)、隨機(jī)森林(RF)和支持向量機(jī)(SVM)三種傳統(tǒng)機(jī)器學(xué)習(xí)方法和一種人工神經(jīng)網(wǎng)絡(luò)(ANN)方法,通過學(xué)生線上線下兩方面表現(xiàn)和成績來對高校學(xué)生進(jìn)行期末學(xué)業(yè)成績預(yù)測,通過四種不同的算法,提供合適的參考依據(jù)[4]。

        1 實(shí)驗數(shù)據(jù)

        1.1 數(shù)據(jù)來源

        本研究以N市M高校2020級電子信息學(xué)院435名大學(xué)生作為數(shù)據(jù)采集對象,其中兩名同學(xué)的記錄存在信息缺失,剔除含有信息缺失的數(shù)據(jù),最終保留433條有效數(shù)據(jù)[5-6]。學(xué)習(xí)科目為數(shù)據(jù)結(jié)構(gòu)課程,學(xué)習(xí)場景數(shù)據(jù)來源于藍(lán)墨云班課的在線課程學(xué)習(xí)日志數(shù)據(jù)和線下教學(xué)學(xué)習(xí)數(shù)據(jù);學(xué)習(xí)績效數(shù)據(jù)來源于藍(lán)墨云班課平臺的簽到次數(shù)、在線測試成績和線下筆試成績等方面。

        1.2 成績影響因素的確定

        其中,在線學(xué)習(xí)平臺包含10個屬性,如簽到次數(shù)、資源學(xué)習(xí)數(shù)量、在線測試等。本研究擬通過原始數(shù)據(jù)中所有單個數(shù)據(jù)的屬性對最終成績的影響進(jìn)行評估并排序,借助排序結(jié)果來選擇子屬性集[7-8]。方法是計算所有單個屬性和期末成績類別之間的皮爾遜相關(guān)系數(shù),并依據(jù)其相關(guān)系數(shù)大小進(jìn)行排序,系數(shù)值越大,表明其與最終成績的相關(guān)性越強(qiáng)。評估方法的排序結(jié)果如表1所示。表1中的第一列是屬性的序號,第二列是屬性的類別,第三列為相關(guān)系數(shù)[9]。其中,部分屬性中含有缺失值、無關(guān)數(shù)據(jù)、孤立點(diǎn)等,對這些屬性進(jìn)行數(shù)據(jù)清洗[10],最終保留下來6項屬性。由于各項屬性的初始指標(biāo)不同,為了方便相關(guān)性分析,將所有屬性數(shù)據(jù)進(jìn)行預(yù)處理,屬性數(shù)據(jù)都轉(zhuǎn)換為百分制分?jǐn)?shù)與期末成績進(jìn)行比對。從表1可以發(fā)現(xiàn),不同屬性與期末成績的相關(guān)性數(shù)值大小有所差異,從中判斷出系數(shù)較大的3項是影響期末成績的主要因素,因此將其作為在線學(xué)習(xí)平臺預(yù)測建模的部分自變量。

        表1 在線學(xué)習(xí)平臺屬性相關(guān)性分析

        線下成績主要包含2個方面:平時成績與卷面成績。平時成績由5個屬性構(gòu)成,如測驗、作業(yè)、實(shí)驗等。數(shù)據(jù)來源為學(xué)生的日常測驗考核的真實(shí)成績。平時成績的計算方法如公式(1)所示。其中,y1代表平時成績,α代表段考,β代表實(shí)驗,γ1代表課堂測驗1,γ2代表課堂測驗2,δ代表作業(yè)。

        期末成績的計算方式主要由平時成績與卷面成績得出,計算方法如公式(2)所示。此處y2代表期末成績,α代表卷面成績,β代表平時成績。

        對線上和線下兩部分成績,共8個屬性,3456條數(shù)據(jù)進(jìn)行分析研究。數(shù)值集中的同時,為避免不同數(shù)據(jù)屬性對回歸預(yù)測的干擾,對所有數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化處理,使所有數(shù)據(jù)范圍處于[0,1]的區(qū)間內(nèi)。

        2 實(shí)驗方法

        2.1 預(yù)測模型

        預(yù)測問題主要分為分類和回歸兩類。預(yù)測離散的值使用分類,預(yù)測連續(xù)的值使用回歸[11]。本研究主要通過學(xué)習(xí)者日常學(xué)習(xí)行為對學(xué)生期末學(xué)業(yè)成績進(jìn)行回歸預(yù)測?;貧w預(yù)測一般根據(jù)預(yù)測目標(biāo)來確定自變量和因變量,進(jìn)而建立回歸模型,再對數(shù)據(jù)進(jìn)行相關(guān)性分析,檢驗回歸預(yù)測變量,計算預(yù)測誤差,并確定預(yù)測值[12]。目前,常用的回歸方法有支持向量機(jī)(SVM)、多元線性回歸(MLR)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等[13]。

        傳統(tǒng)回歸建模方法是將原始數(shù)據(jù)集分為訓(xùn)練集、測試集和驗證集三類,其中訓(xùn)練集用于模型的訓(xùn)練,驗證集用于模型的調(diào)參,測試集用來檢驗?zāi)P托阅艿暮脡?。由于“單一模型的決策可能會低于集體決策”,本研究在模型選擇上采用單一模型和集中學(xué)習(xí)模型相結(jié)合的方式,對學(xué)生期末學(xué)業(yè)成績進(jìn)行預(yù)測分析[14]。預(yù)測模型分為兩部分:第一部分進(jìn)行監(jiān)督學(xué)習(xí),將已知各項屬性用于模型對預(yù)測變量的訓(xùn)練,建立模型參數(shù);第二部分對模型進(jìn)行優(yōu)化,將原模型結(jié)果與優(yōu)化結(jié)果進(jìn)行對比,檢驗?zāi)P偷奶嵘潭?,評估模型的性能。

        2.1.1 多元線性回歸(Multiple Linear Regression)

        建立多元線性回歸(MLR)模型時,為了保證回歸模型具有良好的解釋能力和預(yù)測效果,應(yīng)注意自變量的選擇:

        (1)自變量對因變量要有顯著影響,并呈現(xiàn)出線性相關(guān)性;

        (2)自變量與因變量的關(guān)系必須是真實(shí)的,而不是形式上的;

        (3)自變量間須有互斥度,自變量之間的相關(guān)性不應(yīng)高于自變量與因變量之間的相關(guān)性[15]。

        對于n維特征的樣本數(shù)據(jù),在使用線性回歸時,對應(yīng)的模型為

        為簡化模型,增加一個特征x0=1,使得

        得到模型,需要求出損失函數(shù),一般線性回歸采用均方誤差作為損失函數(shù)。損失函數(shù)的代數(shù)法表示如下:

        其中,求損失函數(shù)最小化參數(shù)的方法一種是梯度下降法,一種是最小二乘法。

        2.1.2 支持向量機(jī)(Support Vector Machines)

        支持向量機(jī)(SVM)在解決高維特征的分類和回歸問題方面很有效,特征維度大于樣本數(shù)時依然有很好的效果。它有大量的核函數(shù)可以使用,從而可以很靈活地解決各種非線性的分類回歸問題。且樣本數(shù)據(jù)不是海量數(shù)據(jù)時,分類的準(zhǔn)確率高,泛化能力強(qiáng)[16]。

        在回歸問題中,常用的誤差函數(shù)是最小平方和誤差函數(shù),其表示如下:

        2.1.3 人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)

        人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種通過神經(jīng)元的處理單元相互連接而組成的一套機(jī)器學(xué)習(xí)方法。神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱藏層和輸出層構(gòu)成,同時,神經(jīng)網(wǎng)絡(luò)在輸入層、隱藏層和輸出層上都部署了非線性函數(shù)的組合[17]。神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于社會的各個領(lǐng)域,在教育領(lǐng)域主要通過不同的神經(jīng)網(wǎng)絡(luò)算法組合實(shí)現(xiàn)學(xué)生學(xué)習(xí)效果預(yù)測和學(xué)習(xí)預(yù)警等。與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,神經(jīng)網(wǎng)絡(luò)在一般情況下預(yù)測準(zhǔn)確率更優(yōu),因此適用于學(xué)業(yè)成績預(yù)測。

        2.1.4 隨機(jī)森林(Random Forest)

        隨機(jī)森林(RF)是采用集成學(xué)習(xí)的思想將多棵樹集成的一種算法,它的基本單元是決策樹。它集成多棵決策樹的預(yù)測,其中每棵樹都由基于隨機(jī)向量的一個獨(dú)立集合的值產(chǎn)生[18]。

        隨機(jī)森林具有極好的準(zhǔn)確率,能夠有效地運(yùn)行在大數(shù)據(jù)集上,它能夠處理具有高維特征的輸入樣本,并且不需要進(jìn)行降維處理。此外,隨機(jī)森林還能夠評估各個特征在分類問題上的重要性,在生成過程中,它通過獲取內(nèi)部生成誤差的一種無偏估計,對缺省值問題也可以得出很好的結(jié)果[19]。

        2.2 研究設(shè)計

        本研究采用4∶1的比例將數(shù)據(jù)集分為訓(xùn)練集和測試集,分別使用MLR、SVM、ANN和RF四種算法在訓(xùn)練集上訓(xùn)練,比較這四種回歸算法的性能[20]。之后對MLR、SVM和RF三種算法采用十折交叉驗證方法重新劃分?jǐn)?shù)據(jù)集;同時將所有設(shè)定參數(shù)進(jìn)行排列組合,選取最優(yōu)模型性能;對ANN采用改進(jìn)超參數(shù)的方法優(yōu)化模型參數(shù),同時比較優(yōu)化后的模型性能。

        研究流程圖如圖1所示。

        本研究采用MAE(平均絕對誤差)和MSE(均方誤差)兩項回歸評價指標(biāo)來評定模型性能。這兩個指標(biāo)都是用來描述預(yù)測值與真實(shí)值之間的誤差情況,指標(biāo)值越小,說明模型性能越好,預(yù)測值與真實(shí)值之間的誤差越小。二者的計算公式分別如下:

        2.3 研究工具

        本研究實(shí)驗平臺為PC平臺,處理器Inter Corei7-11800H,Windows版本21H1,基于Python3.8環(huán)境下,運(yùn)用Python自帶工具進(jìn)行數(shù)據(jù)預(yù)處理,安裝tensorflow2.5版本進(jìn)行神經(jīng)網(wǎng)絡(luò)模型構(gòu)建。在其他預(yù)測工具及集成學(xué)習(xí)模型方面,使用Keras進(jìn)行模型的構(gòu)建與改進(jìn)。

        3 實(shí)驗結(jié)果與分析

        3.1 預(yù)測結(jié)果對比

        將四種預(yù)測模型的預(yù)測值與真實(shí)值進(jìn)行對比,實(shí)現(xiàn)同一課程不同模型之間的對比分析,尋找不同預(yù)測模型之間預(yù)測的差異,選擇最優(yōu)模型對學(xué)生期末學(xué)業(yè)成績進(jìn)行預(yù)測及分析[21]。其中,四種初始模型的預(yù)測成績與實(shí)際成績的誤差曲線如圖2—圖5所示。圖中虛線線條為已知的真實(shí)值,其下方的折線為四種模型的預(yù)測成績。數(shù)據(jù)點(diǎn)越接近虛線線條,其對應(yīng)的預(yù)測模型越好。

        從圖2—圖5可以看出,四種方法的成績預(yù)測誤差曲線區(qū)別較小,不易看出四個模型中哪個效果更好。表2給出了評估指標(biāo)的具體數(shù)值,展現(xiàn)出了各模型預(yù)測性能的好壞。

        表2 四種原始模型的評估指標(biāo)

        從表2可以看出,上述實(shí)驗樣本中ANN的MSE和MAE均最小,其次是RF,對比之下,MLR和SVM的效果較差。

        3.2 模型優(yōu)化

        在上述實(shí)驗?zāi)P秃蛯?shí)驗樣本中,人工神經(jīng)網(wǎng)絡(luò)的表現(xiàn)最好,兩項指標(biāo)在四個模型中均為最小值。但其MSE和MAE的數(shù)值仍較大,不符合預(yù)期期望。因此,針對同一實(shí)驗樣本和模型,本文對方法進(jìn)行優(yōu)化,從而得出更好的結(jié)果。優(yōu)化后的模型結(jié)構(gòu)流程圖如圖6所示。

        由于數(shù)據(jù)集樣本數(shù)量有限,因此采用K折交叉驗證的方法對數(shù)據(jù)集進(jìn)行“擴(kuò)充”,同時,還可以評估模型的泛化能力。K的值取為10,通過測試,10折交叉驗證在偏差和方差之間可以取得最佳的平衡。

        對實(shí)驗?zāi)P偷膬?yōu)化,主要采用改進(jìn)參數(shù)設(shè)置來提升模型性能。原始模型采用默認(rèn)參數(shù)進(jìn)行實(shí)驗,針對本實(shí)驗樣本數(shù)據(jù),不一定會得到最佳效果。因此,對模型的各項參數(shù)設(shè)定不同的值,通過參數(shù)間的排列組合,來尋找最佳參數(shù)的組合,提升模型性能。

        對于隨機(jī)森林(RF),通過設(shè)置其子樹數(shù)量、分支數(shù)量以及葉子結(jié)點(diǎn)數(shù)量進(jìn)行嵌套循環(huán),尋找最優(yōu)組合對象;支持向量機(jī)(SVM)則通過其核函數(shù)和C值(懲罰系數(shù))來尋找泛化能力較強(qiáng)的模型;人工神經(jīng)網(wǎng)絡(luò)(ANN)則通過調(diào)整其神經(jīng)元數(shù)量(neurons)、激活函數(shù)(activations)與全連接層數(shù)量(denses)來提升其模型性能。多元線性回歸由于是一條直線,本研究中不需要進(jìn)行優(yōu)化處理。

        模型優(yōu)化后的各項指標(biāo)對比見表3。

        表3 優(yōu)化后四種模型評估指標(biāo)

        從表3可以看出,模型優(yōu)化之后,此數(shù)據(jù)集下人工神經(jīng)網(wǎng)絡(luò)沒有太好的優(yōu)化效果,MAE(平均絕對誤差)只下降了0.19,而MSE(均方誤差)反而上升了5。人工神經(jīng)網(wǎng)絡(luò)在常規(guī)回歸實(shí)驗中的效果比較好,但是在本實(shí)驗數(shù)據(jù)樣本下,卻沒有達(dá)到預(yù)期效果。而隨機(jī)森林和支持向量機(jī)在本實(shí)驗數(shù)據(jù)樣本下取得了極大幅度的提升。經(jīng)多次對比試驗驗證,排除了因為過擬合情況導(dǎo)致的MAE和MSE誤差值過小的問題。故此,在本實(shí)驗中,支持向量機(jī)預(yù)測結(jié)果好于隨機(jī)森林,遠(yuǎn)高于人工神經(jīng)網(wǎng)絡(luò)和多元線性回歸。

        4 結(jié)論與展望

        本文采用數(shù)據(jù)挖掘方法中常用的回歸預(yù)測手段,對學(xué)生期末學(xué)業(yè)成績進(jìn)行回歸預(yù)測分析。疫情以來,在線教育的快速發(fā)展不僅給學(xué)生帶來新的機(jī)遇,同時也帶來了新的挑戰(zhàn)。隨著學(xué)生網(wǎng)課時間越來越多,如何對線上學(xué)生的期末學(xué)業(yè)成績進(jìn)行預(yù)測,以便為學(xué)生及時提供學(xué)業(yè)預(yù)警及其他干預(yù)措施顯得尤為重要[22]。在大數(shù)據(jù)時代,將學(xué)生在線學(xué)習(xí)所產(chǎn)生的大量非線性數(shù)據(jù)與線下學(xué)習(xí)產(chǎn)生的線性數(shù)據(jù)相結(jié)合,對探尋學(xué)生期末學(xué)業(yè)成績的影響因素至關(guān)重要。

        基于本研究采用的數(shù)據(jù)集,學(xué)生在線學(xué)習(xí)情況對期末學(xué)業(yè)成績的影響因素中,測試平均分對學(xué)生學(xué)業(yè)成績的影響最大,其次是上課出勤率和學(xué)習(xí)資源數(shù),而其他在線學(xué)習(xí)因素對學(xué)生學(xué)業(yè)成績的影響相對較小。學(xué)生的線下成績呈線性分布,每個屬性都有相應(yīng)的比例。因此,通過線上學(xué)習(xí)行為表現(xiàn)與線下成績相結(jié)合對學(xué)業(yè)成績進(jìn)行預(yù)測對當(dāng)今學(xué)生教育具有重要意義。同時,還可以根據(jù)在線教育平臺對學(xué)生學(xué)業(yè)成績的影響屬性的關(guān)系,對在線教育平臺的改進(jìn)以及實(shí)現(xiàn)學(xué)生真正的個性化教育提供良好的幫助。

        本研究采用三種機(jī)器學(xué)習(xí)模型和一種神經(jīng)網(wǎng)絡(luò)模型對學(xué)生期末學(xué)業(yè)成績進(jìn)行預(yù)測,分析和比較了預(yù)測的結(jié)果和模型的評估指標(biāo),提供了本數(shù)據(jù)集中最優(yōu)的實(shí)驗?zāi)P?。研究還存在一些局限性,由于數(shù)據(jù)的缺失與數(shù)據(jù)的不平衡,教師的主觀評分影響較大,研究場景未能覆蓋大學(xué)學(xué)習(xí)環(huán)境中對學(xué)業(yè)成績產(chǎn)生影響的所有因素。在后期研究中,將在更多的學(xué)習(xí)場景中結(jié)合不同學(xué)生的學(xué)習(xí)類型和學(xué)習(xí)行為數(shù)據(jù),針對場景特點(diǎn)提供最優(yōu)的預(yù)測模型,以直觀、清晰的方式對高校教師提供技術(shù)支持,以便對學(xué)生學(xué)習(xí)提供專業(yè)指導(dǎo),對提升高校學(xué)生的個性化教育起到推動作用。

        猜你喜歡
        實(shí)驗模型研究
        一半模型
        記一次有趣的實(shí)驗
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        做個怪怪長實(shí)驗
        EMA伺服控制系統(tǒng)研究
        3D打印中的模型分割與打包
        亚洲欧美日韩精品高清| 久久精品—区二区三区无码伊人色| 亚洲av色香蕉一区二区三区 | 国产免费一区二区av| 97久久精品人人做人人爽| 亚洲啪啪视频一区二区| 丝袜美腿亚洲综合久久| 成人片99久久精品国产桃花岛| 国产精品成人国产乱| 美女网站免费观看视频 | 国产最新网站| 成年免费视频黄网站zxgk| 国产精品国产三级国产密月| 亚洲伊人免费综合网站| 日韩欧美亚洲综合久久影院d3| 久久无码专区国产精品| 日本最新一区二区三区在线视频| 女同av免费在线播放| 欧美极品第一页| 东北寡妇特级毛片免费| 天天做天天摸天天爽天天爱| 一区二区三区在线观看人妖| 国产极品喷水视频| 99久久久久国产| 国产成人午夜精华液| 综合色就爱涩涩涩综合婷婷| 综合激情五月三开心五月| 午夜视频免费观看一区二区| 欧美aa大片免费观看视频| 亚洲成a人片在线观看无码3d| 中国人在线观看免费的视频播放| 国产精品又黄又爽又色| 亚洲欧美在线视频| 中文幕无线码中文字蜜桃| 欧美性巨大╳╳╳╳╳高跟鞋| 好吊妞视频这里有精品| 青青草免费手机直播视频| 中文字幕一区二区人妻在线不卡| 91福利国产在线观一区二区| 区二区欧美性插b在线视频网站| 2019日韩中文字幕mv|