王小越 吳筱萌
摘 要:傳統(tǒng)教學中教師無法及時關注每個學生的知識掌握情況,對學生學習狀況有更深入的了解,學生也無法準確對自己學習過程中出現(xiàn)的癥狀進行及時診斷。本研究以七年級數(shù)學為例,嘗試進行學生數(shù)學知識點掌握程度的分析,并基于數(shù)學知識點掌握程度和成績等級數(shù)據,采用決策樹C5.0算法構建學習成績預測模型并驗證了模型的有效性。這對教師的教和學生的學,以及后續(xù)開展關于知識點和學習成績的研究都有一定參考意義。
關鍵詞:決策樹;數(shù)學知識點;預測模型
中圖分類號:G434文獻標志碼:A文章編號:2096-0069(2020)05-0070-05
收稿日期:2020-03-27
作者簡介:王小越(1992— ),女,河北唐山人,助教,碩士,研究方向為學習科學與技術、學習分析、信息技術教育等;吳筱萌(1966— ),女,北京人,副教授,博士生導師,研究方向為網絡遠程教育、信息技術的教學應用、課程教學與教師發(fā)展、信息技術教育研究等。
引言
《中國教育現(xiàn)代化2035》明確提出要“利用現(xiàn)代技術加快推動培養(yǎng)模式改革,實現(xiàn)規(guī)?;逃c個性化培養(yǎng)的有機結合”[1]。其有機結合的基礎在于,計算機能夠掌握不同學習者的不同特征,并進行分析、預測,給出適當建議。
傳統(tǒng)教學中,教師對學生學習情況的掌握仍然只能憑借書面測驗和印象進行大概評估,缺乏精準性和科學性,無法深入地了解每個學生的學習狀況以及對特定知識的掌握情況,為學生提供個性化指導和教學。學生無法通過作業(yè)、考試成績等準確地判斷自己是否真正學會并運用特定知識或概念解決實際問題,不能全面了解自己學科知識的掌握情況。在這樣的背景下,本文以七年級數(shù)學為例,以為學生提供個性化學習分析和預測學習狀態(tài)為目標,嘗試依據學生平時作業(yè)和測試成績相關數(shù)據進行學生數(shù)學知識點掌握程度的分析,并基于七年級數(shù)學知識點掌握程度數(shù)據,采用決策樹C5.0算法構建了數(shù)學學習成績預測模型,并檢驗模型的有效性。
一、研究基礎概述
(一)知識點及掌握程度相關研究
周越、徐繼紅在結合了學習研究的主要經典理論、現(xiàn)代心理學的知識觀以及其他學者的觀點后,認為在課程內容體系中,能夠與教學目標進行直接對應的單一命題就是知識點[2]。關于知識點掌握程度的分析,已有研究主要采用以下方法:
(1)知識點正確率[3];
(2)習題得分率[4];
(3)相似性度量[5];
(4)認知診斷模型中的DINA模型的EM算法[6];
(5)利用“試題-知識點-應答情況”表對學生數(shù)學知識點狀態(tài)進行表征,來確定掌握和未掌握的知識點[7]。
(二)決策樹算法
決策樹算法C5.0是學習分析領域使用最廣、最流行的分類預測技術之一。相較于其他學習分析算法,決策樹算法C5.0的優(yōu)點如下:(1)可以處理連續(xù)型的高維數(shù)據,可按照目標類別進行數(shù)據分類。(2)能夠產生易于理解的知識,形成的預測模型可解釋性強。(3)工作效率較高,且通常情況下會具有較高的正確率,為用戶提供可信度較高的信息。決策樹算法C5.0的主要內容如下:
設S是訓練樣本集,s為樣本個數(shù)。假定樣本集S中目標變量可取m個不同值,則樣本集S中具有m個不同的樣本子集Ci(i=1,2,…,m),si為樣本子集Ci在S中的個數(shù),樣本集S所期望的信息熵為:
若某個屬性A有v個不同值,則屬性A可將樣本集S劃分為v個樣本子集(S1,S2,…,Sv),|Sj|為樣本子集Sj的個數(shù),則屬性A 實際所需的信息熵為:
屬性A的信息熵越小,表明該屬性對樣本集S劃分的純度越高。則屬性A的信息增益(樣本集S原來所需的信息熵與利用屬性A進行劃分后所需的信息熵之差)為:
如果以屬性A具有的值作為基準對樣本集S 進行劃分,其初始的信息量為:
那么屬性A 的信息增益率(信息增益與初始信息量之比)為:
C5.0算法就是通過不斷選擇信息增益率最大的屬性來作為決策節(jié)點,進行決策樹的構造。
本研究中七年級數(shù)學知識點較多,要處理這種知識點過多的高維度屬性特征的數(shù)據集,并按照特定的目標成績類別進行數(shù)據分類、構建可解釋的學習成績預測模型,需要采用決策樹算法C5.0進行實現(xiàn)。
二、樣本選擇及數(shù)據預處理
本研究采用了2017年常州市某中學七年級的6套在線暑假數(shù)學作業(yè)作為數(shù)據來源。6套暑假數(shù)學作業(yè)由該校老師編制。每套作業(yè)共30題。每套作業(yè)完成人數(shù)分別為1142人、979人、926人、858人、829人、814人。通過數(shù)據核查處理后,最終篩選出752人的做答數(shù)據。
假期作業(yè)一般是一個學期知識學習的總結與復習,本研究假設此6套數(shù)學作業(yè)中的知識點匯總基本代表了七年級數(shù)學下學期知識點的總體。本研究邀請到常州市某數(shù)學教研員,對試卷的知識點進行了標注,共65個知識點。
三、知識點掌握程度計算及學習成績預測模型構建分析
(一)知識點掌握程度計算
數(shù)學知識點掌握程度的計算是學習成績預測模型構建的基礎。數(shù)學知識點掌握程度的計算主要存在兩個難點:一是知識點對錯如何確定,二是針對知識點應該采取怎樣的計算方式來分析掌握程度。
本研究中常州市某中學七年級6套暑假數(shù)學作業(yè)中的試題均為單選題,考查的知識點可能包含一個或多個,大體可分為四類,試題類型及相關說明如表1所示。
考慮到考查多個知識點試題類型的多樣性,并且無法直接判斷學生到底掌握哪個知識點,未掌握哪個知識點,本研究將知識點掌握對錯評定的標準定為:題目答對則該題目對應的一個或多個知識點掌握,題目答錯則該題目對應的一個或多個知識點未掌握。
如前所述,已有研究中關于數(shù)學知識點掌握程度的分析中多采用計算知識點正確率的方法、計算得分率的算法或相似性度量方法。針對本數(shù)據樣本,這些計算方法存在一定的問題。例如,計算得分率算法將題目分值作為一個重要變量,分值的高低往往代表了試題的難度或不同的考查能力,比如分值越高表明題目本身越難或考查了知識點綜合運用能力。但本研究中的作業(yè)試題分值一樣,無法體現(xiàn)題目分值的意義,喪失了分值在知識點掌握程度分析時的重要作用。相似性度量方法主要是在學生沒有學習某些知識點時,根據該學生已學習的知識點情況,在其他將所有知識點都學完的學生中找出與該學生已學習知識點情況最相似的一個人,然后通過計算來估算出該學生對未學習知識點的掌握程度,本研究數(shù)據中的知識點都是學生學完的,所以此方法對本研究知識點掌握程度的計算也不太適用。
為此,本研究對知識點掌握程度的計算方法是統(tǒng)計知識點的正確率,即每個知識點的掌握程度等于該知識點被正確答對的個數(shù)除以該知識點出現(xiàn)的總個數(shù),每個學生的每個知識點的掌握程度的值介于0~1之間,數(shù)值越接近于1表明學生對該知識點掌握得越好,反之,越差。
決策樹的目標屬性為分類類型,需要對學生成績進行離散化處理。每套作業(yè)滿分為100分,設90~100分為A、80~89分為B、70~79分為C、60~69分為D、59分及以下為E。將學生6套作業(yè)的得分累計求和,并對成績按百分制的固定區(qū)間法的六倍進行成績等級離散處理,即540~600分為A、480~539分為B、420~479分為C、360~419分為D、359分及以下為E。
通過在Visual Studio 2010中編寫公式算法程序,計算出每個學生對知識點的掌握程度,以及對學生的成績等級屬性構造后,生成了學生的“知識點-成績”等級表,其數(shù)據格式舉例如表2所示。
(二)學習成績預測模型構建分析
本研究采用IBM SPSS Modeler 18.0軟件C5.0技術進行成績預測模型的適應性參數(shù)的決策樹擬合。根據表2數(shù)據,以65個知識點掌握程度的0~1之間的連續(xù)值作為輸入變量X,成績等級作為輸出變量Y,基于Pearson分布,找出非重要的預測屬性2個,最后進入模型構建的知識點共有63個。
經過預測屬性篩選后,采用交叉驗證方法,折疊10次。該方法常被用于評估模型預測的效果,以80%的知識點掌握程度數(shù)據作為訓練集,以20%的知識點掌握程度數(shù)據作為測試集。運行后,構建了具有35條規(guī)則的決策樹模型,其中對應成績等級A的規(guī)則有2條,對應成績等級B的規(guī)則有13條,對應成績等級C的規(guī)則有10條,對應成績等級D的規(guī)則有6條,對應成績等級E的規(guī)則有4條??紤]到規(guī)則較多,本文以對應成績等級A的規(guī)則集為例進行呈現(xiàn),如圖1。
決策樹規(guī)則集結果顯示,成績等級A對應的規(guī)則1中有11個樣本數(shù)據符合規(guī)則,其中81.8%被正確預測;成績等級A對應的規(guī)則2中有74個樣本數(shù)據符合規(guī)則,其中87.8%被正確預測。35條決策樹規(guī)則集顯示,規(guī)則集中共包括610個樣本數(shù)據(占總樣本的81.8%),預測成績等級A、B、C、D、E的人數(shù)分別為85、218、97、63和147人。在63個知識點中,只有“代入消元法解二元一次方程組”“三角形的內角和”“不等式的基本性質”等19個知識點掌握程度進入模型,說明在這63個知識點中此19個知識點對學生的學習成績有較大影響。在19個知識點中,“代入消元法解二元一次方程組”在35條規(guī)則集中均有出現(xiàn),是決策樹第一個最佳決策節(jié)點,表明該知識點的掌握程度對學生的學習成績具有更大的影響。以該知識點掌握程度值0.62為臨界值,知識點掌握程度大于0.62的學生成績等級為A、B、C、D、E的人數(shù)分別為85、211、80、16和5人,說明學生對該知識點掌握程度超過0.62時成績等級最大可能為B,其次是A。所以,學生需在教師進一步講解以及自己深入理解該知識點解題方法的同時,不斷練習該知識點的相關題目以掌握解題方法,將該知識點的掌握程度提升到0.62以上才有可能提升學習成績。除“代入消元法解二元一次方程組”外,其他18個知識點及其重要性排序依次為不等式(組)的解集、三角形的內角和、不等式的基本性質、真命題與假命題、三角形的外角、平行線的性質、整式的加減、冪的乘方與積的乘方、多項式乘多項式、有理數(shù)比較大小、二元一次方程組的應用、同位角內錯角同旁內角的識別、多邊形的內角和、單項式乘多項式、二元一次方程(組)的基本概念、科學記數(shù)法、中線高線角平分線、因式分解的概念。IBM SPSS Modeler 18.0軟件C5.0技術中的變量重要性排序表明了知識點掌握程度對學生學習成績的影響,重要性越高,該知識點對學生的學習成績影響越大。
模型的有效性是檢驗模型是否可用的主要方法,本研究利用SPSS Modeler中的分析功能進行評估,結果顯示訓練集正確率為81.26%,測試集正確率為80.61%。可以看出,無論是訓練集還是測試集的模型評估正確率均在80%以上,表明此模型具有較好的可行性、有效性。
四、討論與展望
本研究以某校七年級學生暑假數(shù)學作業(yè)為數(shù)據集,對七年級下學期數(shù)學知識點掌握程度進行了計算,在此基礎上,采用決策樹C5.0算法構建了學習成績預測模型——規(guī)則集。模型中訓練集和測試集正確率均在80%以上,效果良好,說明該模型在實際應用中能夠給出較佳的預測,這也表明可以利用決策樹算法對知識點和學習成績之間的關系進行深入挖掘。
通過該方法構建的規(guī)則集模型直觀、易于理解,可以發(fā)現(xiàn)哪些知識點對于學生學習成績的影響比較重要,對教師的教學有指導意義。針對學生平時的學習成績,如果能夠通過這種方法去分析知識點掌握情況并構建學習成績預測模型,每個學生都可以準確找到自己的薄弱知識點,從而有針對性地加強薄弱知識點的學習以提高自己的學習成績。對于中考、高考的試卷分析采用這種方法,可以幫助找到更重要的知識點,供教師和學生參考。
由于本研究所獲得的學生作業(yè)數(shù)據有限,以此構建的知識點掌握情況預測學生成績模型的適用性有待進一步提升。未來可選擇一個學區(qū)的階段性考試數(shù)據以增加數(shù)據量,通過引入知識點相關的描述性因素和多種試題類型以更精確地計算學生知識點掌握程度,提高學習成績預測模型的可行性和拓展性。
Abstract: In traditional teaching,teachers can not pay attention to each students knowledge mastery timely and provide personalized guidance and teaching,and students also cannot diagnose their symptoms appeared in their own learning process timely and precisely.This research,taking mathematics of grade seven as an example,tries to analyze the mastery degree of math knowledge point,and,based on the mastery degree of math knowledge point and grading data of academic record,adopts decision tree C5.0 algorithm to construct prediction model of academic record,and validates the effectiveness of this model,which is of certain significance of reference to teachersteaching and studentsstudy,and also the research related to the knowledge point and academic record carried out later.
Key words: decision tree;math knowledge point;prediction model