郭海兵 劉亞帥
摘要:在“互聯(lián)網(wǎng)+”的教育背景下,由于線上學(xué)習(xí)的方式難以隨時觀察學(xué)生學(xué)習(xí)狀況,因此如何有效地觀測學(xué)生的網(wǎng)課學(xué)習(xí)效果是當(dāng)前必須要研究的一個話題。本次研究以江西財經(jīng)大學(xué)“計量經(jīng)濟學(xué)”課程為研究對象,主要通過Mooc學(xué)習(xí)平臺后臺和人為爬取兩種方式來獲取數(shù)據(jù),運用ID3算法,以學(xué)習(xí)效率為因變量,計算各個屬性的信息熵和信息增益,進(jìn)行遞歸,進(jìn)而出建立決策樹模型,對學(xué)生的網(wǎng)課學(xué)習(xí)效果進(jìn)行一個大致評價。
關(guān)鍵詞:“互聯(lián)網(wǎng)+”;MOOC在線學(xué)習(xí)平臺;ID3算法;決策樹
一、引言
在面臨著疫情的突發(fā)情況,我國大多數(shù)大學(xué)生在家通過網(wǎng)絡(luò)平臺進(jìn)行學(xué)習(xí)交流,近年來,在線教育平臺得到了快速的發(fā)展,但如何評價學(xué)生在線學(xué)習(xí)效果的問題一直沒有得到有效的解決。針對這個問題,本次研究學(xué)生利用網(wǎng)絡(luò)平臺進(jìn)行學(xué)習(xí)時效果欠佳是由于觀看視頻過程中哪一個或者幾個行為共同影響導(dǎo)致。
本次研究以江西財經(jīng)大學(xué)計量經(jīng)濟學(xué)課程為研究對象,運用ID3算法,計算各屬性的信息熵和信息增益,不斷遞歸,尋找最優(yōu)分割點,建立決策樹模型,對學(xué)生的網(wǎng)課學(xué)習(xí)效果進(jìn)行一個大致評價。
二、算法概述
決策樹是一種常用的數(shù)據(jù)挖掘分類模型,呈樹型結(jié)構(gòu),這是一種從機器學(xué)習(xí)領(lǐng)域中不斷發(fā)展的用于分類的函數(shù)逼近方法,決策樹模型具有計算速度快,結(jié)果容易解釋,穩(wěn)健性強的優(yōu)點。ID3算法是決策樹模型的基礎(chǔ)算法之一,其基本思想是:通過分析屬性的信息增益,找到最具有判別能力的劃分屬性,將樣本劃分為多個子集,每個子集按照類似的方法繼續(xù)遞歸劃分,最終得到?jīng)Q策樹。ID3算法的核心問題就是如何判斷出最優(yōu)的劃分屬性,該算法運用屬性分割前后的熵進(jìn)行比較,計算信息增益,以此來度量屬性的判別能力。相關(guān)計算公式如下:
(一)樣本分類所需信息量
假設(shè)S是一個集合,包含有s個樣本,有m個不同的類別屬性值Ci,其中i=1,2,...,m。
給定了概率p1,p2,...,pm,其中,則對樣本分類所需信息量為:
(1)
(二)樣本分類所需期望信息
假設(shè)屬性A中有n個不同的取值,即a1,a2,...,an,根據(jù)屬性A劃分樣本集S,分為n個不同的集合,即S1,S2,...,Sn,用sij代表樣本集中屬于sj的類別Ci的樣本數(shù),此時,樣本量的計算公式為:
(2)
其中,表示第j個子集的權(quán)重。E(A)值越小,表示集合被劃分得越徹底。
(三)信息增益
信息增益是指兩個信息量之間的差距,計算公式如下:
(3)
計算每個屬性的信息增益,然后進(jìn)行比較,得到信息增益最大的屬性,即具有最優(yōu)判斷能力的屬性,選擇該屬性作為根節(jié)點,遞歸建立決策樹,直至全部數(shù)據(jù)都屬于同一類為止。
三、數(shù)據(jù)預(yù)處理
本次研究以江西財經(jīng)大學(xué)的“計量經(jīng)濟學(xué)”課程為研究對象,課程共有13個章節(jié),數(shù)據(jù)的獲得途徑主要是通過MOOC學(xué)習(xí)平臺后臺,也包括老師結(jié)課后對于學(xué)生的評價和數(shù)據(jù)爬取等途徑。首先對數(shù)據(jù)進(jìn)行了預(yù)處理,剔除掉了異常值,即課程只學(xué)習(xí)一半等異常情況,只統(tǒng)計完整學(xué)習(xí)并進(jìn)行了課程測試的數(shù)據(jù),收集到共100條數(shù)據(jù),數(shù)據(jù)屬性信息表如表1所示。
“學(xué)習(xí)效率”指標(biāo),此數(shù)據(jù)由結(jié)課后老師對于學(xué)生的評價所得,取值為高、中、低,分別用1、2、3表示,據(jù)表2顯示,期望為2.04,說明每位學(xué)生的學(xué)習(xí)效率并不存在較大的差別。
“觀看時長”指標(biāo),單位為小時(h),指的是整個課程的觀看總時間,最能反映出學(xué)生的學(xué)習(xí)態(tài)度,期望為39.63小時,最大值為54.54,最小值28.35,標(biāo)準(zhǔn)差5.03,說明此樣本的觀看時長離散程度較大。
“測試成績”指標(biāo),最能反映學(xué)生學(xué)習(xí)情況的指標(biāo),最大值91.1,最小值51.6,說明學(xué)生之間的學(xué)習(xí)情況具有較大的差距。
“測試耗費時間”指標(biāo),單位為分鐘(min),期望36.54,最長耗費時間50.4,最短耗費時間22.1,側(cè)面反映出學(xué)生對于知識的掌握程度具有較大的差距。
“平均暫停次數(shù)”指標(biāo),即總暫停次數(shù)與章節(jié)總數(shù)的比值,期望21.76,最大值42,最小值8,說明學(xué)生們觀看視頻時的專心程度有很大不同。
“平均回復(fù)次數(shù)”指標(biāo),總回復(fù)次數(shù)與章節(jié)總數(shù)的比值,均值2.95,最小值1,最大值5,說明學(xué)生們在與老師互動的頻繁程度上沒有較大差別。
最后,本文根據(jù)數(shù)據(jù)的分布情況,將連續(xù)數(shù)據(jù)離散化,詳情如表3所示。
四、模型的建立與求解
本文通過運用ID3算法,以學(xué)習(xí)效率為因變量,其余為自變量,建立決策樹模型,以此來判斷學(xué)生的網(wǎng)課學(xué)習(xí)效果。
(一)計算分類屬性的信息量
令自變量屬性集合A={觀看時長,測試成績,測試耗費時間,平均暫停次數(shù),平均回復(fù)次數(shù)},因變量屬性由三個取值,C={高,中,低},說明這是一個多分類問題。數(shù)據(jù)集D中取值為“高”有13個,取值為“中”有70個,取值為“低”有17個 ,根據(jù)公式可計算出分類屬性信息量:
(4)
(二)計算屬性的信息增益
對于觀看時長屬性,取值共有“長”和“短”兩種,對應(yīng)個數(shù)分別為45、55。取值為“長”所對應(yīng)的學(xué)習(xí)效率屬性{高、中等、低}個數(shù)分別為{7、28、10},取值為“短”所對應(yīng)的學(xué)習(xí)效率屬性{高、中等、低}個數(shù)分別為{6、42、7},觀看時長屬性的信息熵,信息增益分別為:
同理可以計算出其他屬性的信息熵和信息增益分別為:
比較所有屬性的信息增益,可以發(fā)現(xiàn),屬性測試成績的信息增益值最大,即測試成績屬性包含的信息對于分類效益最大,應(yīng)該選擇測試成績屬性作為分裂屬性,由此便可得出根節(jié)點,如圖1所示。
(三)遞歸建立決策樹模型
以測試成績作為根節(jié)點,可以將數(shù)據(jù)分為{高,中,低}三個子集,然后繼續(xù)遞歸計算每個屬性的信息熵和信息增益。
對于測試成績?yōu)楦叩淖蛹礈y試成績>90的子集,對于學(xué)習(xí)效率屬性{高、中、低}個數(shù)分別為{8,2,0},按照遞歸的方式計算信息Info(測試成績高)=0.42。
以此計算其他屬性的信息熵和信息增益,即:
比較所有屬性的信息增益,可以發(fā)現(xiàn),屬性觀看時長的信息增益值最大,即觀看時長屬性包含的信息對于分類效益最大,應(yīng)該選擇觀看時長屬性作為分裂屬性,由此便可得出根節(jié)點,如圖2所示。
同理可得,對于測試成績?yōu)橹械淖蛹?,屬性平均回?fù)次數(shù)信息增益值最大,選其為根節(jié)點;對于測試成績?yōu)榈偷淖蛹?,全部歸為一類,直接得到葉子節(jié)點。
繼續(xù)遞歸下去,直至數(shù)據(jù)都?xì)w為一類,便得到了決策樹,如圖3所示。
通過上面建立的決策樹模型可以得出以下結(jié)論:1.測試成績低于60分的學(xué)生視為在線學(xué)習(xí)效率低;2.測試成績在60到90分且平均回復(fù)次數(shù)超過兩次的同學(xué)學(xué)習(xí)效率視為中等;3.測試成績在60到90分,平均回復(fù)次數(shù)小于2次且測試耗費時間大于30分鐘視為學(xué)習(xí)效率低下;4.測試成績在60到90分,平均回復(fù)次數(shù)小于2次且測試耗費時間小于30分鐘視為學(xué)習(xí)效率中等;5.測試成績大于90分且觀看時長小于40小時的同學(xué)視為學(xué)習(xí)效率高;6.測試時間大于90分,觀看時長大于40小時且測試耗費時間小于30分鐘視為學(xué)習(xí)效率高;7.測試時間大于90分,觀看時長大于40小時且測試耗費時間大于30分鐘視為學(xué)習(xí)效率中等。
五、模型的評價
根據(jù)往常研究者對于學(xué)生學(xué)習(xí)效果的研究更注重于最后的成績,然而卻忽視了學(xué)生過程性的學(xué)習(xí)行為,一名學(xué)生的學(xué)習(xí)效果不佳是否和他上課期間的各種行為密切相關(guān),這就是本次研究主要需要討論的話題。本次研究運用ID3算法,計算各屬性的信息熵和信息增益,不斷遞歸,尋找最優(yōu)分割點,建立決策樹模型。
決策樹模型生成的規(guī)則易于理解,計算量相對于其他模型不大,且能夠處理連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù);但模型考慮因素不夠全面,學(xué)生的學(xué)習(xí)效果會受到多個因素的影響,本次研究也僅僅考慮了觀看時長、測試成績、測試耗費時間、平均暫停次數(shù)和平均回復(fù)次數(shù)五個自變量,來探討學(xué)生的網(wǎng)課學(xué)習(xí)效果。綜上所述,本次研究已經(jīng)達(dá)到預(yù)期效果。在此模型的基礎(chǔ)上,可以從屬性的選取、算法的改進(jìn)等方面對模型進(jìn)一步的優(yōu)化。
作者單位:郭海兵? ? 劉亞帥? ? 江蘇海洋大學(xué)理學(xué)院
參? 考? 文? 獻(xiàn)
[1] 劉國鈞,陳紹業(yè),王鳳翥.圖書館目錄[M].北京:高等教育出版社,1957.
[2] 傅承義,陳運泰,祁貴中.地球物理學(xué)基礎(chǔ)[M].北京:科學(xué)出版社,1985.447.
[3] 華羅庚,王元.論一致分布與近似分析[J].中國科學(xué),1973⑷:339-357.
[4] CORDER S P.The significance of learners error[J]. International Review of Applied Linguistic,1967,5(4):161-170.
[5] 李迎春.數(shù)據(jù)挖掘中決策樹分類算法的研究[D].湖南師范大學(xué),2015.05.
[6] 孫靜雯,王紅旗,張欣,等.基于決策樹分類的根河市土地利用變化及驅(qū)動力分析[J].中國人口·資源與環(huán)境,2014,24(03):449-452.
[7] 楊洋,決策樹ID3算法及其改進(jìn)[J].軟件導(dǎo)刊,2016,15(08):46-48.
[8] 楊霖,周軍,梅紅巖,等.ID3改進(jìn)算法研究[J].軟件導(dǎo)刊, 2017,16(08):21- 24.
[9] 鐘敏.決策樹算法在高校教學(xué)信息系統(tǒng)應(yīng)用初探[J].武漢工程職業(yè)技術(shù)學(xué)院學(xué)報,2021,33(2):31-33.
[10] 張軍,王芬芬.決策樹在高校學(xué)生學(xué)業(yè)預(yù)警中的應(yīng)用研究談[J].無線互聯(lián)技術(shù),2020,(20):171-172.