崔新偉+李家森+沙嘉祥
摘要:本文利用R語言對(duì)Moodle平臺(tái)的數(shù)據(jù)進(jìn)行分析研究。對(duì)平臺(tái)模塊訪問總體情況、學(xué)生學(xué)習(xí)時(shí)間分布統(tǒng)計(jì)、師生交互網(wǎng)絡(luò)等進(jìn)行圖形化的直觀展示。該研究有利于教師掌握學(xué)生學(xué)習(xí)的總體情況,有針對(duì)性的指導(dǎo)和督促學(xué)生。
關(guān)鍵詞:R語言;Moodle;數(shù)據(jù)挖掘
一、引言
隨著近年來網(wǎng)絡(luò)課程、在線學(xué)習(xí)等應(yīng)用的興起,學(xué)習(xí)平臺(tái)逐漸積累了大量的用戶基本數(shù)據(jù)、行為數(shù)據(jù)、網(wǎng)絡(luò)痕跡數(shù)據(jù)等信息。而"用數(shù)據(jù)說話"、"用數(shù)據(jù)決策"等已經(jīng)成為信息時(shí)代倡導(dǎo)的未來發(fā)展基石。因此,如何利用大量的數(shù)據(jù)挖掘出有價(jià)值的信息,成為研究者重點(diǎn)要解決的問題。
二、R語言簡介
R語言是一種為統(tǒng)計(jì)計(jì)算和圖形顯示而設(shè)計(jì)的語言環(huán)境,是貝爾實(shí)驗(yàn)室(Bell Labortory)的Rick Becker、John Chambers和Allan Wilks開發(fā)的S語言的一種實(shí)現(xiàn),提供了一系列統(tǒng)計(jì)和圖形顯示工具。它是一套開源的數(shù)據(jù)分析解決方案,由一個(gè)龐大且活躍的全球性研究型社區(qū)維護(hù)。本文主要應(yīng)用R語言的如下優(yōu)勢:
(1)R可以輕松地從各類型的數(shù)據(jù)源導(dǎo)入數(shù)據(jù),包括文本文件、數(shù)據(jù)庫管理系統(tǒng)、統(tǒng)計(jì)軟件,乃至專門的數(shù)據(jù)倉庫。它同樣可以將專門的數(shù)據(jù)輸出并寫到這些系統(tǒng)中。
(2)具有高效的開放性,R不僅提供功能豐富的內(nèi)置函數(shù)供用戶調(diào)用,也允許用戶編寫自己定義的函數(shù)來擴(kuò)充功能。
(3)R擁有頂尖水準(zhǔn)的制圖功能。如果希望復(fù)雜數(shù)據(jù)可視化,那么R擁有最全面且最強(qiáng)大的一系列可用功能。
R是一個(gè)體系龐大的應(yīng)用軟件,主要包括核心的R標(biāo)準(zhǔn)包和各專業(yè)領(lǐng)域的其他包。R在數(shù)據(jù)分析、數(shù)據(jù)挖掘領(lǐng)域具有特別優(yōu)勢。
三、R語言數(shù)據(jù)分析
1.moodle平臺(tái)模塊總體訪問情況研究
首先利用爬蟲爬取到Moodle平臺(tái)用戶訪問數(shù)據(jù)兩萬余條,部分?jǐn)?shù)據(jù)展示如表1所示:
利用R語言提取moudle列數(shù)據(jù),即平臺(tái)模塊列,并對(duì)提取數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì),得出各模塊的詞頻數(shù)如表2所示:
利用R語言強(qiáng)大的繪圖功能,使用ggplot()函數(shù)對(duì)各模塊訪問詞頻數(shù)繪制圓形餅狀圖,這樣可以直觀地展現(xiàn)用戶對(duì)各模塊訪問情況,繪制出Moodle平臺(tái)模塊訪問總體情況餅狀圖如圖1所示:
在該課程學(xué)習(xí)的過程中,師生訪問平臺(tái)模塊的頻次統(tǒng)計(jì)餅狀圖,用以找出學(xué)生更熱衷于哪一版塊的學(xué)習(xí)內(nèi)容。從圖1可更加直觀的看出,師生最常訪問的模塊是forum(26.3%)論壇區(qū),課堂的討論參與的人次數(shù)較多。其次是course(24.5%)課程模塊,再次是assignment(22.6%)作業(yè)模塊,然后是resource(16.1%)資源模塊??梢姡瑢W(xué)生在該平臺(tái)的訪問行為,都是比較集中地圍繞學(xué)習(xí)活動(dòng)進(jìn)行的。
2.學(xué)生學(xué)習(xí)時(shí)間分布統(tǒng)計(jì)
熱力圖是一種非常常用的統(tǒng)計(jì)圖形,該圖將兩個(gè)變量(一般是離散變量)的交叉匯總信息以顏色的形式展現(xiàn)出來,而映射給顏色變量的是連續(xù)型數(shù)值變量,下面就以例子說明熱力圖的優(yōu)勢:
熱力圖可以通過stats包的heatmap()函數(shù)繪制,也可以通過ggplot2包中的geom_tile()函數(shù)或geom_raster()函數(shù)繪制,本文使用ggplot2包中的函數(shù)實(shí)現(xiàn)。
首先將所需數(shù)據(jù)進(jìn)行提取,分別提取出月份、小時(shí)、分鐘信息,部分?jǐn)?shù)據(jù)展示如表3所示:
通過對(duì)ggplot2包的調(diào)用,調(diào)用geom_tile()函數(shù),繪制學(xué)習(xí)時(shí)間分布熱力圖,如圖2所示:
進(jìn)一步按照月份進(jìn)行分類,分析學(xué)生學(xué)習(xí)訪問時(shí)間是否與月份有關(guān)。在按照月份進(jìn)行分類的同時(shí),按上、下午進(jìn)行分類,分析學(xué)生學(xué)習(xí)訪問時(shí)間是否與上、下午有關(guān)。進(jìn)而細(xì)化到時(shí)間點(diǎn),分析學(xué)生學(xué)習(xí)訪問時(shí)間黃金時(shí)段。利用R語言繪制學(xué)習(xí)時(shí)間分布圓餅圖如圖3所示:
由圖3可看出學(xué)生學(xué)習(xí)時(shí)間安排與月份無關(guān),多數(shù)學(xué)生更偏向于下午學(xué)習(xí),而每日學(xué)生學(xué)習(xí)的黃金時(shí)段為上午八點(diǎn)到十點(diǎn),下午兩點(diǎn)到四點(diǎn)。進(jìn)而通過此信息,可在此時(shí)段保證各科均有老師在線答疑,而其他時(shí)段,可輪流值班的安排方案,最大限度的提高教師指導(dǎo)學(xué)生的效率。
3.師生交互網(wǎng)絡(luò)分析
從Moodle平臺(tái)獲取的師生交互數(shù)據(jù)如圖4所示:
例如id=2的用戶,他發(fā)了id=5的留言。在圖4中有8個(gè)回復(fù),分別是用戶id=2、30、92、66、89、49、69、2這幾個(gè)用戶。說明id=2的用戶,跟id=2、30、92、66、89、49、69、2的這幾個(gè)用戶有交互。去掉其中自己跟自己的交互,可將用戶的交互用圖5表示:
首先做數(shù)據(jù)篩選,整理出交互數(shù)據(jù)部分如表4所示:
利用R語言做交互分析,繪制師生交互網(wǎng)絡(luò)圖,如圖6所示:
圖6中線的透明度代表交互的強(qiáng)度,具體來說就是回帖的數(shù)量越多,線的顏色就越深。其中2號(hào)代表老師,用紅色表示。其他代號(hào)為學(xué)生,用藍(lán)色表示。從圖中可直觀看出學(xué)生與學(xué)生,老師與學(xué)生之間的交互情況,進(jìn)發(fā)現(xiàn)哪些學(xué)生平時(shí)思考較多,哪些學(xué)生平時(shí)思考較少,從而使教師更加有針對(duì)性的教學(xué)。例如128、158號(hào)學(xué)生與大家交互較多,積極交流課程學(xué)習(xí)內(nèi)容,而在圖中沒有出現(xiàn)的學(xué)生與大家交互很少,基本沒有交流課程內(nèi)容。
四、結(jié)論
通過對(duì)研究樣本的詳細(xì)分析,實(shí)現(xiàn)Moodle平臺(tái)數(shù)據(jù)挖掘的研究。利用R語言,對(duì)平臺(tái)模塊訪問總體情況、學(xué)生學(xué)習(xí)時(shí)間分布統(tǒng)計(jì)、師生交互網(wǎng)絡(luò)等進(jìn)行直觀展示。從而,發(fā)現(xiàn)哪些模塊學(xué)生關(guān)注度較高、哪些時(shí)間段是學(xué)生學(xué)習(xí)的黃金時(shí)段、哪些學(xué)生在平臺(tái)上的交互頻繁等情況,幫助教師更加有效的進(jìn)行教學(xué)與輔導(dǎo)。本文的研究成果,也為類似網(wǎng)絡(luò)課程的學(xué)習(xí)與效果評(píng)價(jià)等提供參考。
參考文獻(xiàn)
[1]侯亞軍.R語言在數(shù)據(jù)挖掘中的運(yùn)用[J].應(yīng)用技術(shù)研究,2013
[2]李明.R語言與網(wǎng)站分析[M].北京:機(jī)械工業(yè)出版社,2014
[3]Matthew A.Russell.社交網(wǎng)站的數(shù)據(jù)挖掘與分析[M].北京:機(jī)械工業(yè)出版社,2015
作者簡介:
崔新偉,女(1980.9-),漢族,河北唐山人,碩士,講師,研究方向:數(shù)據(jù)挖掘
項(xiàng)目資助:中央基本科研業(yè)務(wù)費(fèi)資助項(xiàng)目(JSJ1201,3142012053);2014年華北科技學(xué)院教研基金資助(計(jì)算機(jī)相關(guān)專業(yè)網(wǎng)絡(luò)編程課教學(xué)研究);河北省物聯(lián)網(wǎng)數(shù)據(jù)采集與分析工程技術(shù)中心建設(shè)項(xiàng)目