亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

“互聯(lián)網(wǎng)+”教育背景下網(wǎng)課學(xué)習(xí)效果評價的決策樹建模

2022-11-22 22:50:43郭海兵劉亞帥

中國新通信 2022年16期

郭海兵劉亞帥

摘要：在“互聯(lián)網(wǎng)+”的教育背景下，由于線上學(xué)習(xí)的方式難以隨時觀察學(xué)生學(xué)習(xí)狀況，因此如何有效地觀測學(xué)生的網(wǎng)課學(xué)習(xí)效果是當(dāng)前必須要研究的一個話題。本次研究以江西財經(jīng)大學(xué)“計量經(jīng)濟學(xué)”課程為研究對象，主要通過Mooc學(xué)習(xí)平臺后臺和人為爬取兩種方式來獲取數(shù)據(jù)，運用ID3算法，以學(xué)習(xí)效率為因變量，計算各個屬性的信息熵和信息增益，進(jìn)行遞歸，進(jìn)而出建立決策樹模型，對學(xué)生的網(wǎng)課學(xué)習(xí)效果進(jìn)行一個大致評價。

關(guān)鍵詞：“互聯(lián)網(wǎng)+”；MOOC在線學(xué)習(xí)平臺；ID3算法；決策樹

一、引言

在面臨著疫情的突發(fā)情況，我國大多數(shù)大學(xué)生在家通過網(wǎng)絡(luò)平臺進(jìn)行學(xué)習(xí)交流，近年來，在線教育平臺得到了快速的發(fā)展，但如何評價學(xué)生在線學(xué)習(xí)效果的問題一直沒有得到有效的解決。針對這個問題，本次研究學(xué)生利用網(wǎng)絡(luò)平臺進(jìn)行學(xué)習(xí)時效果欠佳是由于觀看視頻過程中哪一個或者幾個行為共同影響導(dǎo)致。

本次研究以江西財經(jīng)大學(xué)計量經(jīng)濟學(xué)課程為研究對象，運用ID3算法，計算各屬性的信息熵和信息增益，不斷遞歸，尋找最優(yōu)分割點，建立決策樹模型，對學(xué)生的網(wǎng)課學(xué)習(xí)效果進(jìn)行一個大致評價。

二、算法概述

決策樹是一種常用的數(shù)據(jù)挖掘分類模型，呈樹型結(jié)構(gòu)，這是一種從機器學(xué)習(xí)領(lǐng)域中不斷發(fā)展的用于分類的函數(shù)逼近方法，決策樹模型具有計算速度快，結(jié)果容易解釋，穩(wěn)健性強的優(yōu)點。ID3算法是決策樹模型的基礎(chǔ)算法之一，其基本思想是：通過分析屬性的信息增益，找到最具有判別能力的劃分屬性，將樣本劃分為多個子集，每個子集按照類似的方法繼續(xù)遞歸劃分，最終得到?jīng)Q策樹。ID3算法的核心問題就是如何判斷出最優(yōu)的劃分屬性，該算法運用屬性分割前后的熵進(jìn)行比較，計算信息增益，以此來度量屬性的判別能力。相關(guān)計算公式如下：

（一）樣本分類所需信息量

假設(shè)S是一個集合，包含有s個樣本，有m個不同的類別屬性值Ci，其中i=1，2，...，m。

給定了概率p1，p2，...，pm，其中，則對樣本分類所需信息量為：

（1）

（二）樣本分類所需期望信息

假設(shè)屬性A中有n個不同的取值，即a1，a2，...，an，根據(jù)屬性A劃分樣本集S，分為n個不同的集合，即S1，S2，...，Sn，用sij代表樣本集中屬于sj的類別Ci的樣本數(shù)，此時，樣本量的計算公式為：

（2）

其中，表示第j個子集的權(quán)重。E（A）值越小，表示集合被劃分得越徹底。

（三）信息增益

信息增益是指兩個信息量之間的差距，計算公式如下：

（3）

計算每個屬性的信息增益，然后進(jìn)行比較，得到信息增益最大的屬性，即具有最優(yōu)判斷能力的屬性，選擇該屬性作為根節(jié)點，遞歸建立決策樹，直至全部數(shù)據(jù)都屬于同一類為止。

三、數(shù)據(jù)預(yù)處理

本次研究以江西財經(jīng)大學(xué)的“計量經(jīng)濟學(xué)”課程為研究對象，課程共有13個章節(jié)，數(shù)據(jù)的獲得途徑主要是通過MOOC學(xué)習(xí)平臺后臺，也包括老師結(jié)課后對于學(xué)生的評價和數(shù)據(jù)爬取等途徑。首先對數(shù)據(jù)進(jìn)行了預(yù)處理，剔除掉了異常值，即課程只學(xué)習(xí)一半等異常情況，只統(tǒng)計完整學(xué)習(xí)并進(jìn)行了課程測試的數(shù)據(jù)，收集到共100條數(shù)據(jù)，數(shù)據(jù)屬性信息表如表1所示。

“學(xué)習(xí)效率”指標(biāo)，此數(shù)據(jù)由結(jié)課后老師對于學(xué)生的評價所得，取值為高、中、低，分別用1、2、3表示，據(jù)表2顯示，期望為2.04，說明每位學(xué)生的學(xué)習(xí)效率并不存在較大的差別。

“觀看時長”指標(biāo)，單位為小時（h），指的是整個課程的觀看總時間，最能反映出學(xué)生的學(xué)習(xí)態(tài)度，期望為39.63小時，最大值為54.54，最小值28.35，標(biāo)準(zhǔn)差5.03，說明此樣本的觀看時長離散程度較大。

“測試成績”指標(biāo)，最能反映學(xué)生學(xué)習(xí)情況的指標(biāo)，最大值91.1，最小值51.6，說明學(xué)生之間的學(xué)習(xí)情況具有較大的差距。

“測試耗費時間”指標(biāo)，單位為分鐘（min），期望36.54，最長耗費時間50.4，最短耗費時間22.1，側(cè)面反映出學(xué)生對于知識的掌握程度具有較大的差距。

“平均暫停次數(shù)”指標(biāo)，即總暫停次數(shù)與章節(jié)總數(shù)的比值，期望21.76，最大值42，最小值8，說明學(xué)生們觀看視頻時的專心程度有很大不同。

“平均回復(fù)次數(shù)”指標(biāo)，總回復(fù)次數(shù)與章節(jié)總數(shù)的比值，均值2.95，最小值1，最大值5，說明學(xué)生們在與老師互動的頻繁程度上沒有較大差別。

最后，本文根據(jù)數(shù)據(jù)的分布情況，將連續(xù)數(shù)據(jù)離散化，詳情如表3所示。

四、模型的建立與求解

本文通過運用ID3算法，以學(xué)習(xí)效率為因變量，其余為自變量，建立決策樹模型，以此來判斷學(xué)生的網(wǎng)課學(xué)習(xí)效果。

（一）計算分類屬性的信息量

令自變量屬性集合A={觀看時長，測試成績，測試耗費時間，平均暫停次數(shù)，平均回復(fù)次數(shù)}，因變量屬性由三個取值，C={高，中，低}，說明這是一個多分類問題。數(shù)據(jù)集D中取值為“高”有13個，取值為“中”有70個，取值為“低”有17個，根據(jù)公式可計算出分類屬性信息量：

（4）

（二）計算屬性的信息增益

對于觀看時長屬性，取值共有“長”和“短”兩種，對應(yīng)個數(shù)分別為45、55。取值為“長”所對應(yīng)的學(xué)習(xí)效率屬性{高、中等、低}個數(shù)分別為{7、28、10}，取值為“短”所對應(yīng)的學(xué)習(xí)效率屬性{高、中等、低}個數(shù)分別為{6、42、7}，觀看時長屬性的信息熵，信息增益分別為：

同理可以計算出其他屬性的信息熵和信息增益分別為：

比較所有屬性的信息增益，可以發(fā)現(xiàn)，屬性測試成績的信息增益值最大，即測試成績屬性包含的信息對于分類效益最大，應(yīng)該選擇測試成績屬性作為分裂屬性，由此便可得出根節(jié)點，如圖1所示。

（三）遞歸建立決策樹模型

以測試成績作為根節(jié)點，可以將數(shù)據(jù)分為{高，中，低}三個子集，然后繼續(xù)遞歸計算每個屬性的信息熵和信息增益。

對于測試成績?yōu)楦叩淖蛹礈y試成績>90的子集，對于學(xué)習(xí)效率屬性{高、中、低}個數(shù)分別為{8，2，0}，按照遞歸的方式計算信息Info（測試成績高）=0.42。

以此計算其他屬性的信息熵和信息增益，即：

比較所有屬性的信息增益，可以發(fā)現(xiàn)，屬性觀看時長的信息增益值最大，即觀看時長屬性包含的信息對于分類效益最大，應(yīng)該選擇觀看時長屬性作為分裂屬性，由此便可得出根節(jié)點，如圖2所示。

同理可得，對于測試成績?yōu)橹械淖蛹?，屬性平均回?fù)次數(shù)信息增益值最大，選其為根節(jié)點；對于測試成績?yōu)榈偷淖蛹?，全部歸為一類，直接得到葉子節(jié)點。

繼續(xù)遞歸下去，直至數(shù)據(jù)都?xì)w為一類，便得到了決策樹，如圖3所示。

通過上面建立的決策樹模型可以得出以下結(jié)論：1.測試成績低于60分的學(xué)生視為在線學(xué)習(xí)效率低；2.測試成績在60到90分且平均回復(fù)次數(shù)超過兩次的同學(xué)學(xué)習(xí)效率視為中等；3.測試成績在60到90分，平均回復(fù)次數(shù)小于2次且測試耗費時間大于30分鐘視為學(xué)習(xí)效率低下；4.測試成績在60到90分，平均回復(fù)次數(shù)小于2次且測試耗費時間小于30分鐘視為學(xué)習(xí)效率中等；5.測試成績大于90分且觀看時長小于40小時的同學(xué)視為學(xué)習(xí)效率高；6.測試時間大于90分，觀看時長大于40小時且測試耗費時間小于30分鐘視為學(xué)習(xí)效率高；7.測試時間大于90分，觀看時長大于40小時且測試耗費時間大于30分鐘視為學(xué)習(xí)效率中等。

五、模型的評價

根據(jù)往常研究者對于學(xué)生學(xué)習(xí)效果的研究更注重于最后的成績，然而卻忽視了學(xué)生過程性的學(xué)習(xí)行為，一名學(xué)生的學(xué)習(xí)效果不佳是否和他上課期間的各種行為密切相關(guān)，這就是本次研究主要需要討論的話題。本次研究運用ID3算法，計算各屬性的信息熵和信息增益，不斷遞歸，尋找最優(yōu)分割點，建立決策樹模型。

決策樹模型生成的規(guī)則易于理解，計算量相對于其他模型不大，且能夠處理連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)；但模型考慮因素不夠全面，學(xué)生的學(xué)習(xí)效果會受到多個因素的影響，本次研究也僅僅考慮了觀看時長、測試成績、測試耗費時間、平均暫停次數(shù)和平均回復(fù)次數(shù)五個自變量，來探討學(xué)生的網(wǎng)課學(xué)習(xí)效果。綜上所述，本次研究已經(jīng)達(dá)到預(yù)期效果。在此模型的基礎(chǔ)上，可以從屬性的選取、算法的改進(jìn)等方面對模型進(jìn)一步的優(yōu)化。

作者單位：郭海兵? ? 劉亞帥? ? 江蘇海洋大學(xué)理學(xué)院

參? 考? 文? 獻(xiàn)

[1] 劉國鈞，陳紹業(yè)，王鳳翥.圖書館目錄[M].北京：高等教育出版社，1957.

[2] 傅承義，陳運泰，祁貴中.地球物理學(xué)基礎(chǔ)[M].北京：科學(xué)出版社，1985.447.

[3] 華羅庚，王元.論一致分布與近似分析[J].中國科學(xué)，1973⑷：339-357.

[4] CORDER S P.The significance of learners error[J]. International Review of Applied Linguistic，1967，5（4）：161-170.

[5] 李迎春.數(shù)據(jù)挖掘中決策樹分類算法的研究[D].湖南師范大學(xué)，2015.05.

[6] 孫靜雯，王紅旗，張欣，等.基于決策樹分類的根河市土地利用變化及驅(qū)動力分析[J].中國人口·資源與環(huán)境，2014，24（03）：449-452.

[7] 楊洋，決策樹ID3算法及其改進(jìn)[J].軟件導(dǎo)刊，2016，15（08）：46-48.

[8] 楊霖，周軍，梅紅巖，等.ID3改進(jìn)算法研究[J].軟件導(dǎo)刊， 2017，16（08）：21- 24.

[9] 鐘敏.決策樹算法在高校教學(xué)信息系統(tǒng)應(yīng)用初探[J].武漢工程職業(yè)技術(shù)學(xué)院學(xué)報，2021，33（2）：31-33.

[10] 張軍，王芬芬.決策樹在高校學(xué)生學(xué)業(yè)預(yù)警中的應(yīng)用研究談[J].無線互聯(lián)技術(shù)，2020，（20）：171-172.