李 培
(1.西安郵電大學(xué) 計算機學(xué)院, 陜西 西安 710121;2.西安郵電大學(xué) 陜西省網(wǎng)絡(luò)數(shù)據(jù)智能處理重點實驗室,陜西 西安710121)
隨著互聯(lián)網(wǎng)的發(fā)展,借助網(wǎng)絡(luò)來進行教學(xué)的方式已經(jīng)被廣泛地應(yīng)用于各大高校。最具代表性的就是網(wǎng)絡(luò)視頻授課,更多的學(xué)生可以隨時隨地學(xué)習各大高校的課程,從而促進教育水平,提升學(xué)生的能力。雖然網(wǎng)絡(luò)視頻教學(xué)的興起讓老師的教學(xué)方式和學(xué)生的學(xué)習態(tài)度有了極大的改變,但是缺點也同樣存在,例如,學(xué)生所謂的“刷課”凸顯的最主要的問題就是,老師不能確保學(xué)生是否在學(xué)習前觀看視頻,觀看的視頻是否認真等。因此,關(guān)于網(wǎng)絡(luò)視頻教學(xué)的改革和完善是一個值得關(guān)注的問題,而借助實際的網(wǎng)絡(luò)教學(xué)平臺用戶數(shù)據(jù)進行的研究,將是解決這個問題最有利的工具。
目前使用最多的網(wǎng)絡(luò)教學(xué)平臺為慕課平臺,很多高校為本校的學(xué)生安排了基于慕課平臺的線上學(xué)習課程,并且還將自己學(xué)校的特色專業(yè)課程制成視頻,放到慕課平臺上供其他人學(xué)習。在校學(xué)生比例占了慕課平臺觀看者相當大的比重,學(xué)生用戶的后臺學(xué)習數(shù)據(jù)很大程度上代表了網(wǎng)絡(luò)學(xué)習者的情況。
之前對慕課平臺上學(xué)習數(shù)據(jù)的分析僅限于一些客觀因素的簡單統(tǒng)計分析,或依靠分析者的主觀判斷,而本文的研究是以學(xué)生用戶在慕課平臺全程的學(xué)習數(shù)據(jù)作為研究對象,借助數(shù)據(jù)挖掘算法,發(fā)現(xiàn)相關(guān)因素之間的聯(lián)系,特別是分析不同因素對最終學(xué)習效果的影響,通過直觀的圖表和專業(yè)的分析,對慕課平臺的課程建設(shè)者和任課教師使用慕課平臺評估設(shè)置規(guī)則提供客觀準確的參考意見[1-3]。
決策樹是通過對數(shù)據(jù)進行處理,找出最優(yōu)分裂點,形成可以供新數(shù)據(jù)集分類預(yù)測的二叉樹,樹中的每一個節(jié)點代表的就是選取研究數(shù)據(jù)集的屬性,分支代表的是符合節(jié)點的數(shù)據(jù)集,所有的葉子節(jié)點都是一類數(shù)據(jù)集合。
對一個數(shù)據(jù)集進行決策樹的建立,根節(jié)點是整個數(shù)據(jù)集中最具有代表性的屬性,通常依據(jù)根節(jié)點就可以得出非常大的信息量。當決策樹建立成功之后,就可以用類似于樹的遍歷,從根節(jié)點開始,根據(jù)條件進行遍歷,直到葉子節(jié)點,而葉子節(jié)點正是我們所判定的分類結(jié)果。
決策樹是數(shù)據(jù)挖掘應(yīng)用中容易實現(xiàn),并且可讀性較高的分類工具。在處理數(shù)據(jù)時速度快,這里也包括前期對數(shù)據(jù)的處理,只需要提供可靠的屬性數(shù)據(jù)集即可,免去了去掉空白的或者多余的屬性。并且它的準確率高,在決策樹完成后對數(shù)據(jù)的分類效果明顯,不需要重復(fù)構(gòu)建二叉樹。
決策樹建立的基本過程如下[4]:①遍歷所有的數(shù)據(jù)集合,將其看作節(jié)點;②對所有的節(jié)點所屬的屬性進行分裂,找出最優(yōu)分裂點;③依據(jù)所選最優(yōu)屬性的條件,繼續(xù)分裂成兩個或者多個節(jié)點;④重復(fù)上述②—③步,直到每個葉子節(jié)點是純集合為止。
在這個過程中,關(guān)鍵就是最優(yōu)分裂點的選擇問題,在各種屬性里面找出最適合分裂的點,讓分裂后的分支數(shù)據(jù)集合盡可能單一,這個過程中會遇到3種情況:①離散分布,最終生成的是二叉決策樹,使用劃分的子集X來測試;②離散分布,最終生成的是非二叉決策樹,使用分支Y來測試;③屬性的分布是連續(xù)的,則需要確定一個標準Flag進行劃分。
在最優(yōu)分裂點的選擇中,決策樹是通過對數(shù)據(jù)集的信息量計算,確定信息熵的大小,進一步求得分裂前后的信息增益,從而找出最適合分裂的那一個屬性,此屬性代表了最高的不確定值。只有數(shù)據(jù)純度較高的時候,不均值才會高,此時信息熵最大。在進行過一次分裂后,如果信息熵的差值大,那么說明分裂后的數(shù)據(jù)集的信息量比分裂前的更均勻。
通過ID3算法對此次實驗數(shù)據(jù)進行處理,可以確定最優(yōu)分裂點的選擇。
ID3算法是實現(xiàn)構(gòu)造決策樹的算法之一,具有速度快、數(shù)學(xué)性強的特點,核心思想是概率。通過對不同分類的數(shù)據(jù)在此集合中出現(xiàn)的概率與分裂后在子集合中出現(xiàn)的概率進行計算,得出信息增益,從而確定最優(yōu)分裂點。
學(xué)生在觀看完成所有視頻課程之后進行考試的最終學(xué)習效果,除了根據(jù)考試成績衡量之外,其他的屬性也應(yīng)該起到作用。例如,兩個成績相仿的學(xué)生,一個觀看視頻時間長,另一個少,那么客觀地說,觀看視頻時間長的學(xué)生應(yīng)該得到更優(yōu)異的成績。因此,采用決策樹分類的方法對一個學(xué)生觀看視頻學(xué)習的結(jié)果進行分類評價。
表1是分類標準。
表1 成績判定
在學(xué)生看完慕課平臺的課程,完成相應(yīng)的作業(yè)、測驗以及考試之后,學(xué)生的成績都可以在慕課平臺的后臺查詢并且下載。除了用已有的Excel進行數(shù)據(jù)查看外,并沒有其他方法可以對數(shù)據(jù)進行整理分析。此外,因為學(xué)生都是利用業(yè)余的時間觀看視頻,這種學(xué)習方式對于老師評判平時分是十分不利的。
因此,此次系統(tǒng)為了方便老師的工作,讓老師對學(xué)生觀看視頻后取得的成績有更清晰的認識和了解,提供圖表方式以查看學(xué)生的成績分布、成績趨勢以及學(xué)生之間的成績對比,在對成績進行決策樹分類后,確定平時分的評分標準[5]。
這次主要采用Python機器學(xué)習庫中的Sklearn中的一個功能來進行數(shù)據(jù)挖掘,從而實現(xiàn)決策樹分類。Sklearn是數(shù)據(jù)挖掘中十分有效且方便的工具[6],它封裝了大部分的機器學(xué)習算法,如分類、回歸、聚合,還包括了監(jiān)督學(xué)習、非監(jiān)督學(xué)習、數(shù)據(jù)交換。它的官方API十分周全,上手容易,內(nèi)置大量數(shù)據(jù)集,處理數(shù)據(jù)的效率極高,是在進行數(shù)據(jù)挖掘時首先考慮的工具之一[7]。本次采用了Classi fication的Sklearn.tree決策樹方法,完成對Spoc的分類,對學(xué)生的成績做進一步的評定,系統(tǒng)運行的后臺框架采用的是Python手下的Flask框架[8]。
考慮到數(shù)據(jù)的拓展性和半結(jié)構(gòu)化特性,采用的數(shù)據(jù)庫是Mongodb為主[9]。Mongodb是將數(shù)據(jù)存儲成文檔的樣子,類似于字典,一個屬性對應(yīng)一條數(shù)據(jù),方便操作。
(1)成績統(tǒng)計與分析。對課程的每一次作業(yè)、測驗以及Spoc成績都進行了數(shù)據(jù)統(tǒng)計,計算其平均分和及格率。
使用柱狀圖查看分數(shù)的分布情況,點擊某一區(qū)間,即可顯示具體的成績和人數(shù),如圖1;在各區(qū)間的具體成績下,點擊左下角導(dǎo)出成績并下載,可以查看此區(qū)間的學(xué)生成績信息。
圖1 成績分布
(2)成績權(quán)重。統(tǒng)計一個學(xué)生某課程的所有情況之后,需要對其成績進行權(quán)重的計算。在下拉框可以選擇作業(yè)與測驗各占的比例,進行計算顯示結(jié)果,并可導(dǎo)出。
(3)數(shù)據(jù)對比。在作業(yè)、測驗和Spoc成績屬性較多的情況下進行數(shù)據(jù)對比,可以清晰地評價學(xué)生觀看視頻的效果,選擇兩位學(xué)生的成績,點擊對比,作業(yè)測驗和Spoc信息的對比情況如圖2所示,可以看到3個類型的顯示結(jié)果。
(4)學(xué)生信息管理。學(xué)生信息是在導(dǎo)入成績的時候自動添加的,主要顯示的是學(xué)校、姓名和學(xué)號三大信息。也可以進行查詢。
圖2 信息對比
點擊操作中的詳情按鈕,顯示的是這個學(xué)生作業(yè)和測驗的折線圖,得分情況和狀態(tài)起伏一目了然。如圖3所示。
圖3 學(xué)生詳情
(5)作業(yè)、測驗和Spoc成績管理。作業(yè)、測驗和Spoc成績數(shù)據(jù)都在系統(tǒng)中存在,在搜索框輸入學(xué)號或者姓名,可查看個人成績。
系統(tǒng)可對各項數(shù)據(jù)進行導(dǎo)入。在錄入的時候,如果時間和課程名與已有信息完全相同,則不予錄入。
借助系統(tǒng)中整合的數(shù)據(jù),采用數(shù)據(jù)挖掘算法完成了數(shù)據(jù)的分析。
1)成績與視頻觀看時長。
由圖4可知,從視頻觀看學(xué)習的數(shù)據(jù)分析看,并不是觀看視頻時間越長,成績就越高,二者非線性相關(guān)。
圖4 成績與時長
2)視頻觀看個數(shù)與次數(shù)。
從圖5中可以看到,在進行視頻學(xué)習的過程中,沒有一個學(xué)生會進行視頻的重復(fù)觀看,都是一個視頻只看一遍,完全沒有回顧的現(xiàn)象??赡苓@個學(xué)生會在某一段時間頻繁觀看。但是,知識需要不斷地回顧復(fù)習,在這里視頻學(xué)習并不具備有用性。
圖5 視頻個數(shù)與觀看次數(shù)
3)視頻觀看個數(shù)與總時長。
由圖6可知,并非一個學(xué)生看視頻的個數(shù)越多,總時長就越長。有些雖然看的多,但是總時長卻短。說明這些學(xué)生并沒有認真去觀看,有可能他們只找時間短的視頻,盡量完成視頻學(xué)習的任務(wù)而已。
圖6 視頻個數(shù)與總時長
4)平均分標準分類。
圖7是根據(jù)平均分的分類,可以看到,視頻觀看時長是次于成績的關(guān)鍵影響因素。
圖7 平均分下的決策樹
5)中位數(shù)標準分類。
從圖8中可以看到,中位數(shù)是除了是視頻觀看個數(shù)的第二關(guān)鍵影響因素,可以看到,關(guān)于A標準的數(shù)量要少于平均數(shù)。因此,在更嚴格的給分情況下,可以根據(jù)中位數(shù)來評判。
本文從研究學(xué)生觀看慕課平臺視頻的學(xué)習數(shù)據(jù)出發(fā),選取了學(xué)生的課程觀看時長,學(xué)習期間完成的作業(yè)、測驗以及考試等因素進行研究分析。這些數(shù)據(jù)不僅有成績屬性,還有其他如視頻觀看時長等屬性,因此在分析成績之外,還可以對其他屬性進行研究。
圖8 中位數(shù)下的決策樹
實驗數(shù)據(jù)來源真實可靠,選取整班學(xué)生全程學(xué)習數(shù)據(jù),對需要研究分析的數(shù)據(jù)點進行列舉,在Spoc數(shù)據(jù)中,完成了視頻觀看時長與Spoc成績的分析、視頻觀看個數(shù)與次數(shù)的分析,最關(guān)鍵的是,進行決策樹分類之后對Spoc學(xué)習的最終成績判定做了研究;在作業(yè)、測驗數(shù)據(jù)中,完成了查看成績分布、導(dǎo)出對應(yīng)數(shù)據(jù)以及成績權(quán)值的計算。此外,還完成了學(xué)生數(shù)據(jù)對比的研究,可以借助對比結(jié)果進行打分。
研究對象具有針對性,研究方法多樣,可視化效果好,同時用明確的數(shù)據(jù)說明和解決問題。
從研究分析的結(jié)果來看,最終學(xué)習的效果評判并不能僅看考試成績,而是需要統(tǒng)一參考視頻觀看以及個數(shù)時長。有的學(xué)生雖然看的視頻多,但是并沒有認真學(xué)習內(nèi)容,那么成績肯定不理想。在決策樹分類的結(jié)果中,有中位數(shù)和平均數(shù)的選取差別。新的學(xué)習方式固然有其優(yōu)勢,但是改進仍然是必不可少的。總的來看,要想真正提高成績,還需要提高視頻質(zhì)量,改進視頻觀看體驗,以避免學(xué)生的視頻學(xué)習流于表面形式。
本論文的研究意在說明如何提高慕課平臺視頻的質(zhì)量,特別是吸引力,同時采用一些技術(shù)手段,保證對視頻觀看的全程監(jiān)控。保證觀看的實際質(zhì)量是提高慕課平臺學(xué)習效果的重要研究要素,當然,對于選取慕課平臺進行教學(xué)改革的任課教師來說,也明確了對線上視頻學(xué)習所應(yīng)做出的必要要求,建議從考核手段等多方面著手,促進視頻觀看效果的提高。