摘要:本文基于線上教育平臺用戶的學習行為信息和班級信息,以用戶學習質(zhì)量為目標變量,進行了特征工程和屬性構建,基于已有數(shù)據(jù)集生成了用戶學習過程信息,然后基于隨機森林模型計算各種信息對用戶學習質(zhì)量的影響,以發(fā)現(xiàn)線上用戶學習質(zhì)量的影響因素,為線上用戶學習和線上教育平臺開發(fā)課程提供支持。
關鍵詞:在線學習質(zhì)量;數(shù)據(jù)挖掘;影響因素分析
doi:10.3969/J.ISSN.1672-7274.2025.02.023
中圖分類號:G 434;TP 3" " " " " 文獻標志碼:A" " " " " " 文章編碼:1672-7274(2025)02-00-03
Prediction of Learning Quality and Analysis of Influencing Factors on Online Education Platforms
SONG Shuai
(Jinzhong Information College, Jinzhong 030600, China)
Abstract: Based on the learning behavior information and class information of online education platform users, this article conducts feature engineering and attribute construction with user learning quality as the target variable. User learning process information is generated based on existing datasets, and then the impact of each information on user learning quality is calculated using a random forest model to discover the influencing factors of online user learning quality and provide support for online user learning and online education platform course development.
Keywords: online learning quality; data mining; analysis of influencing factors
1" "研究背景
當前,隨著互聯(lián)網(wǎng)和移動技術迅速發(fā)展,數(shù)字化教育正成為全球教育發(fā)展的重要趨勢。隨著用戶逐漸增多,在線教育平臺對學習對象、學習內(nèi)容和學習質(zhì)量等要素的關注程度日益提高,對使用大數(shù)據(jù)手段分析用戶學習質(zhì)量、幫助用戶提升學習效果的意愿愈加強烈。而對于用戶來說,線上學習與線下課堂學習完全不同,如何保證學習效果和學習質(zhì)量成了線上學習的頭等大事。因此開展線上教育學習效果和學習質(zhì)量分析,了解影響線上學習效果的因素并進行有針對性完善是十分必要的[1]。
2" "數(shù)據(jù)說明和問題定義
2.1 數(shù)據(jù)說明
數(shù)據(jù)來自某線上教學平臺運行數(shù)據(jù),記錄了超過14萬名用戶的超過1 200萬條數(shù)據(jù)。基于原始記錄數(shù)據(jù)表的基本信息和用戶缺失率,本文通過對原始記錄數(shù)據(jù)表進行集成、聚合,以其中的學習行為和試卷結果表為主要數(shù)據(jù)來源進行透視和統(tǒng)計處理,得到包括用戶信息表、課程信息表、教師信息表和班級信息表在內(nèi)共4個數(shù)據(jù)集,經(jīng)過數(shù)據(jù)集成和聚合分析,共得到51 408個用戶的包括用戶基本信息、用戶學習行為信息和用戶參與的課程和班級信息等記錄。
2.2 問題定義
本文以線上教育平臺用戶的學習質(zhì)量為對象進行建模研究,分析影響線上教育平臺用戶學習質(zhì)量的因素,以期實現(xiàn)對線上教育平臺用戶學習質(zhì)量的預測,并對影響用戶學習質(zhì)量的因素進行分析探索,以提升線上教育平臺教學質(zhì)量和用戶學習質(zhì)量,為線上教育平臺課程安排和用戶管理提供決策支持[2]。
3" "數(shù)據(jù)處理
3.1 數(shù)據(jù)清洗
本文以用戶信息表中平均試卷總得分為目標屬性,在進行數(shù)據(jù)清洗時首先將平均試卷總得分為空的記錄做刪除處理。對于其他屬性,根據(jù)統(tǒng)計結果,直接刪除空值較多的屬性(空值占比超過30%)。此外,由于剩余屬性中只存在極個別記錄有空值出現(xiàn),此處將剩余記錄中存在空值的記錄刪除。
接著將屬性分為類別屬性和數(shù)值屬性進行進一步分析。對于類別屬性,分析各屬性的屬性值分布,將屬性值分布不平衡或只有一個屬性值的屬性刪除。對于數(shù)值屬性,計算各數(shù)值屬性的描述統(tǒng)計指標,基于描述統(tǒng)計量進行分析。將數(shù)值屬性中存在的數(shù)值分布單一(如絕大部分值為0或-1)的屬性刪除。同時考慮屬性和屬性值的實際意義,將個別屬性中的0值、-1值(如平均測試時長為0)記錄刪除,將屬性中本身無意義的屬性(如none數(shù)量)刪除??紤]統(tǒng)計量取值、箱線圖中異常值數(shù)量和屬性實際意義,使用3-σ原則識別部分數(shù)值屬性中的離群點和異常值記錄,將識別到的異常值或離群點直接刪除。
至此完成數(shù)據(jù)異常值和異常分布屬性的處理,得到27 572條數(shù)據(jù)和包括用戶ID在內(nèi)的19個屬性。
3.2 數(shù)據(jù)轉(zhuǎn)換
進行了新屬性的計算和部分屬性的離散化處理,考慮到數(shù)值和量綱,最后進行數(shù)據(jù)歸一化處理。
基于數(shù)據(jù)可視化結果,此處計算客觀分數(shù)占比指標,過程為用戶平均試卷客觀題總得分/用戶平均試卷總得分,得到新屬性“客觀分數(shù)占比”,并刪除客觀分數(shù)占比大于等于1的數(shù)據(jù)。
完成數(shù)據(jù)清洗和數(shù)據(jù)探索后,基于數(shù)據(jù)探索結果,進行新屬性的計算和部分屬性的離散化處理??紤]到數(shù)值和量綱,最后進行數(shù)據(jù)歸一化處理[3]。
4" "模型構建和優(yōu)化
4.1 模型簡介
本文問題定義為對用戶學習質(zhì)量預測,數(shù)據(jù)預處理過程將用戶學習質(zhì)量設置為“不及格”“及格”和“優(yōu)秀”三種,選擇分類模型進行數(shù)據(jù)挖掘。經(jīng)大量實驗對比,本文中選擇隨機森林模型進行預測。
4.2 模型搭建
首先以所有屬性(除userId、所屬班級和成績)為模型輸入,以“成績”為模型輸出,所有參數(shù)均為默認值,進行模型訓練并完成0折交叉驗證,得到模型baseline。模型評分為0.80,可見模型分類效果較好,但在優(yōu)秀用戶的預測中準確率較低,需調(diào)整優(yōu)化。
4.3 模型優(yōu)化
為方便調(diào)參和模型解釋,先進行特征篩選,輸出各變量重要性和貢獻值,基于此取累計貢獻值達到90%的特征,作為后續(xù)模型調(diào)參的輸入。如圖1所示。
因此,后續(xù)模型均使用篩選完的特征集合{“客觀分數(shù)占比”“試題testpaper數(shù)量”“good數(shù)量”“測試數(shù)量”“passed數(shù)量”“學習總時長”“已學完的課時數(shù)”“學完的任務數(shù)”“平均拖延時間”“所屬班級”“班級人數(shù)”“考試次數(shù)占比”}進行模型訓練和預測,進行10折交叉驗證后模型評分為0.79,模型準確率變化不大。
模型參數(shù)對模型預測結果影響較大,對于隨機森林算法,除了和決策樹有關的參數(shù),還需要了解算法新增的參數(shù)。本文首先進行實驗,確定最優(yōu)參數(shù)取值范圍,縮小范圍后進行網(wǎng)格搜索,確定最終的最優(yōu)參數(shù)值。
以最優(yōu)參數(shù)值設置模型參數(shù),模型評分為0.82,模型效果較好,且對優(yōu)秀用戶預測效果有所提升[4]。
5" "結果分析
使用調(diào)整后的參數(shù),模型在數(shù)據(jù)集上交叉驗證的平均得分為0.73,表現(xiàn)基本平穩(wěn),效果較好,具備應用條件。
根據(jù)特征重要性排序,對線上教育學習質(zhì)量影響較為重要的因素包括客觀分數(shù)占比、試題testpaper數(shù)量、good數(shù)量、測試數(shù)量、passed數(shù)量、學習總時長、已學完的課時數(shù)、學完的任務數(shù)、平均拖延時間、所屬班級、班級人數(shù)和考試次數(shù)占比。本文將其分為個人因素、班級因素和平臺因素三部分。模型輸出的特征重要性排序和因素分類如表1所示。
三類影響因素中對學習質(zhì)量影響最大的為個人因素,可見在線上教育場景中,自律的重要影響。事實上,所有學習場景中自律都是較為重要的品質(zhì),這也給學習者和平臺指明了方向。學習者應該做好學習準備,平臺更應該為學習者提供各種手段促進學習者保持學習狀態(tài),盡快完成作業(yè),多做練習,保證學習質(zhì)量。
班級因素對用戶學習質(zhì)量的影響也較大?;诰€下經(jīng)驗,班級管理中班級人數(shù)設置、班級信息傳遞渠道、班干部班主任負責程度等對班級學風影響較大。從分析結果看,這一規(guī)律在線上教育中亦依然有用。這也給平臺提供了依據(jù),教育平臺需要做好班級信息共享、學習互助和班主任管理,以提升班級學習效果,進而促進用戶學習質(zhì)量。作為用戶,也可以主動選擇較好的班級,為提高自己的學習效果創(chuàng)造良好條件。
平臺因素多為試題設置和結果評價方面的指標,可見線上教育平臺應在學習結果評價上支持用戶,通過設置多種評價測試環(huán)節(jié),設置合理的題目和評價標準,使用戶準確了解自身學習情況,以獲得較好的學習質(zhì)量[5]。
6" "結束語
“問渠哪得清如許,為有源頭活水來”,線上學習效果和質(zhì)量取決于學習者本身的勤奮程度,在此過程中科學的練習和正確的引導也必不可少。此外,線上學習更加考驗學習者本身的自律程度和學習效率,花時間學完大部分內(nèi)容是必要的,但在數(shù)據(jù)預處理的過程中,我們認為“電腦登錄比例”“平均拖延時間”等特征在模型中的重要程度較低。這也更加反映了線上學習的靈活性,表明線上學習質(zhì)量更受學習效率和學習方法的影響。學完,以科學的方式進行測試,是線上學習取得較好質(zhì)量的重要途徑。在線教育平臺應該注重這一點,為用戶提供更加便捷、科學的課程考核方式和內(nèi)容,設置各種督促用戶學完知識的環(huán)節(jié),注重發(fā)揮班級的督促作用,以幫助用戶更好地完成學習任務[6]。
參考文獻
[1] 鄒亞新.中國高校在線教育高質(zhì)量發(fā)展模式研究[J].黑河學院學報,2024,15(5):88-90,157.
[2] 梁瀟.在線教育在高等教育中的應用及挑戰(zhàn)應對[J].現(xiàn)代職業(yè)教育,2024(21):141-144.
[3] 劉娜娜.數(shù)據(jù)支持下在線教育平臺學習支持服務策略研究[J].電腦知識與技術,2024,20(11):101-103.
[4] 桑彬彬.利用在線平臺增強計算機導論課程的互動性和學生參與度的研究[J].中國新通信,2024,26(6):93-95.
[5] 胡娟.基于學習效果的在線教學平臺設計與優(yōu)化[C]//中國智慧工程研究會.2024教育教學創(chuàng)新發(fā)展交流會論文集.武漢工商學院電子商務學院,2024.
[6] 張雅君,王娟.2012—2022年國內(nèi)數(shù)字教育平臺研究熱點與趨勢——基于CiteSpace可視化分析[J].中小學電教,2024(Z1):32-36.
項目基金:2024年山西省高等學??萍紕?chuàng)新項目(編號2024L522);山西省教育科學“十四五”規(guī)劃2024年度規(guī)劃課題(編號GH-240518)。
作者簡介:宋" 帥(1991-),男,漢族,山西運城人,講師,碩士,研究方向為數(shù)據(jù)挖掘、文本分析。