余小高
摘要:為了解決個性化學(xué)習(xí)問題,提高學(xué)習(xí)的興趣,筆者給出了大數(shù)據(jù)環(huán)境中微課程個性化學(xué)習(xí)機(jī)制。通過對學(xué)習(xí)用戶行為數(shù)據(jù)的獲取、存儲、清洗、挖掘,由改進(jìn)的余弦相似度算法計算出微課程的相似度,向用戶推薦其喜歡的微課程。實驗證明,該機(jī)制可以有效提升微課程推薦的準(zhǔn)確性,增強(qiáng)用戶黏性,達(dá)到微課程精細(xì)化的目的。
關(guān)鍵詞:大數(shù)據(jù);微課程;個性化學(xué)習(xí);相似度矩陣
中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A 論文編號:1674-2117(2015)07-0126-03
● 引言
教學(xué)變革的關(guān)鍵是讓每位學(xué)生都能以適合自己的方式與節(jié)奏進(jìn)行學(xué)習(xí),讓每位學(xué)生都能夠在自己原有的基礎(chǔ)上發(fā)展前進(jìn)。然而班級授課制的存在使得每位教師不得不同時面對幾十位學(xué)生。同樣的教學(xué)內(nèi)容,不同學(xué)習(xí)起點(diǎn)與學(xué)習(xí)風(fēng)格的學(xué)生,或許只有教師掌握了某種神奇的魔法才能幫助班上的每位學(xué)生都能在短短的40幾分鐘內(nèi)以適合自己的速度與方法進(jìn)行學(xué)習(xí)。然而在大數(shù)據(jù)時代,這一美好的愿望將迎來走向現(xiàn)實的那一刻。[1]
微課程是指在信息化環(huán)境中,為滿足人們個性化學(xué)習(xí)的需要,針對某個知識點(diǎn)或教學(xué)主題,由教育工作者精心設(shè)計并開發(fā)的、以視頻為主要載體,包含輔助資源和學(xué)習(xí)支持服務(wù)的網(wǎng)絡(luò)教學(xué)資源集合,具有短小精悍的特點(diǎn)。[2]
大數(shù)據(jù)創(chuàng)新發(fā)展帶動了微課程迅速發(fā)展,目前,微課程已開始影響我國信息化教學(xué)實踐。湖北、廣東、上海等十多個省、市、自治區(qū)紛紛開展微課程實踐。微課程實踐的積累,將促進(jìn)微課程群的形成,微課程群的應(yīng)用又會形成新的應(yīng)用數(shù)據(jù),將有利于大數(shù)據(jù)分析與挖掘、發(fā)現(xiàn)與預(yù)測的創(chuàng)新應(yīng)用。[3]
在國內(nèi),高校學(xué)者、區(qū)域教育研究者、一線教師等對微課程進(jìn)行了相關(guān)的研究或?qū)嵤⒄n程的研究是近三年以來才在中國開始萌芽,主要關(guān)注于概念、資源設(shè)計和教學(xué)模式的研究。[4]
近年來,國外越來越重視“微課程”、“微視頻”的研究,但其核心組成資源不統(tǒng)一,呈現(xiàn)方式是教案式或視頻式;課程結(jié)構(gòu)較為松散,主要用于學(xué)習(xí)及培訓(xùn)等方面,應(yīng)用領(lǐng)域有待擴(kuò)充;在課程資源的自我生長、擴(kuò)充性還不是很成熟。[5]
微課程個性化學(xué)習(xí)是利用個性化推薦技術(shù),是根據(jù)用戶的興趣特點(diǎn)及行為向用戶推薦其感興趣的學(xué)習(xí)內(nèi)容。主要解決如何在海量的微課程資源中發(fā)現(xiàn)用戶感興趣的內(nèi)容。對于微課程平臺來說,通過基于大數(shù)據(jù)挖掘技術(shù)構(gòu)建個性化學(xué)習(xí)系統(tǒng),能有效幫助用戶發(fā)現(xiàn)喜歡的微課程,同時也體現(xiàn)了微課程提供者的貢獻(xiàn)。
結(jié)合筆者在微課程平臺研發(fā)和數(shù)據(jù)分析的相關(guān)工作經(jīng)驗,本文提出了大數(shù)據(jù)環(huán)境中微課程個性化學(xué)習(xí)架構(gòu)。首先將學(xué)生海量學(xué)習(xí)行為數(shù)據(jù)存儲,然后利用Hadoop框架對存儲的數(shù)據(jù)進(jìn)行處理,計算微課程之間的相似度矩陣,運(yùn)用Redis存儲中間結(jié)果和最終推薦結(jié)果,最后向用戶提供微課程學(xué)習(xí)列表。
● 體系架構(gòu)
1.數(shù)據(jù)獲取與存儲
筆者利用湖北經(jīng)濟(jì)學(xué)院教研項目(2014015)“大數(shù)據(jù)背景下管理信息系統(tǒng)課程教學(xué)改革研究”的成果,建成了管理信息系統(tǒng)微課程資源庫。目前校內(nèi)外用戶數(shù)超過20000戶,日均數(shù)據(jù)增量1000 MB左右,數(shù)據(jù)分析需要獲取數(shù)據(jù)并存儲數(shù)據(jù)。微課程平臺的個性化學(xué)習(xí)系統(tǒng)一般采用用戶的下載行為作為用戶的行為數(shù)據(jù),一旦用戶下載了一個微課程,則視該用戶對微課程產(chǎn)生了一個正向喜歡。數(shù)據(jù)獲取與存儲的架構(gòu)如圖1所示。
微課程下載功能由微課程下載服務(wù)器提供,當(dāng)用戶發(fā)出微課程下載請求,下載服務(wù)器在本地日志上記錄一條用戶下載記錄。日志采集系統(tǒng)RLog對日志數(shù)據(jù)進(jìn)行實時、高效的采集,然后傳遞給實時計算系統(tǒng)RFilt,RFilt按照設(shè)定的規(guī)則進(jìn)行數(shù)據(jù)過濾,最后將有效數(shù)據(jù)存入Hadoop分布式文件系統(tǒng)(HDFS)[5]進(jìn)行固化。
HDFS對硬件要求比較低,能夠在一般服務(wù)器集群上運(yùn)行,充分利用計算機(jī)的存儲能力。通過HDFS的“一次寫入、多次讀取”機(jī)制[6],用戶海量訪問的數(shù)據(jù)能夠快速處理;通過分布式文件存儲機(jī)制,能夠長久地存儲用戶的歷史訪問記錄,為用戶行為分析提供堅實的數(shù)據(jù)支撐。
2.數(shù)據(jù)清洗與挖掘
微課程數(shù)據(jù)清洗與挖掘如圖2所示。
數(shù)據(jù)存儲好之后,采用MapReduce計算框架[7],可以快捷地對大型數(shù)據(jù)矩陣進(jìn)行計算,從而為個性化學(xué)習(xí)系統(tǒng)提供計算支持。首先,進(jìn)行數(shù)據(jù)清洗,過濾掉非法的用戶和微課程;然后,進(jìn)行數(shù)據(jù)重構(gòu),把用戶和微課程的標(biāo)識唯一化,同時生成用戶的下載數(shù)表和微課程被下載次數(shù)表;最后,進(jìn)行相似度矩陣計算,計算結(jié)果以兩份的方式存儲,一份存儲在Oracle數(shù)據(jù)庫中,供系統(tǒng)評測和統(tǒng)計使用,另一份存儲在Redis高速緩存服務(wù)器中,為各類應(yīng)用提供查詢。
3.微課程個性化學(xué)習(xí)流程
面向用戶的微課程個性化學(xué)習(xí)流程如圖3所示。
(1)用戶通過客戶端訪問微課程平臺,點(diǎn)擊進(jìn)入任意微課程詳情頁面。
(2)客戶端發(fā)送用戶的訪問請求給后臺程序。
(3)后臺程序獲取用戶當(dāng)前訪問的微課程ID,并根據(jù)用戶ID來獲取用戶的歷史記錄。
(4)通過Redis獲取該微課程的相似度矩陣。
(5)使用個性化學(xué)習(xí)算法根據(jù)用戶的相似度矩陣、當(dāng)前訪問微課程ID、用戶歷史訪問微課程ID,計算用戶可能喜歡的微課程列表。
(6)對用戶可能喜歡的微課程列表按照相似度排列。
(7)取前TopN個微課程,并返回結(jié)果給客戶端,客戶端將相應(yīng)的微課程顯示在學(xué)習(xí)欄目中。
● 算法驗證
“微課程”平臺目前每天的下載用戶數(shù)為10000戶左右,人均下載3~5個微課程,累計3個月的用戶下載數(shù)據(jù)為370萬條左右,微課程相似度矩陣規(guī)模為5000×5000。應(yīng)用余弦相似度推薦算法,對數(shù)據(jù)進(jìn)行了計算,結(jié)果如表1所示。
從表1中的結(jié)果可以看出,改進(jìn)的余弦相似度的歸一化推薦算法相對基本算法在準(zhǔn)確率、召回率等各個指標(biāo)上均有所提升。通過降低熱門微課程的權(quán)重,能有效提升準(zhǔn)確率和召回率。通過降低活躍用戶的權(quán)重,能有效提升微課程覆蓋度和多樣性,從而強(qiáng)化個性化學(xué)習(xí)系統(tǒng)發(fā)掘長尾的能力。
推薦算法還有一個重要的影響因素,即向用戶推薦的微課程個數(shù),針對該因素影響情況進(jìn)行針對性的效果分析,分析結(jié)果如表2所示。
由圖4可知,隨著微課程推薦數(shù)的增大,微課程的準(zhǔn)確率、覆蓋率明顯上升,召回率則逐步下降,與實踐情況相符,從而說明了算法的正確性和實用性。
● 結(jié)束語
本文介紹了在大數(shù)據(jù)環(huán)境中,利用數(shù)據(jù)挖掘技術(shù),構(gòu)建微課程平臺,進(jìn)行個性化學(xué)習(xí)。采用Hadoop框架處理數(shù)據(jù),計算微課程之間的相似度矩陣;中間結(jié)果和最終推送結(jié)果存儲在Redis中。結(jié)合微課程平臺實際情況研究了余弦相似度算法,利用降低活躍用戶權(quán)重和降低熱門微課程權(quán)重等幾種方法,改進(jìn)算法。根據(jù)計算結(jié)果,對比和分析了相應(yīng)算法,構(gòu)建了一種適用于微課程平臺的個性化學(xué)習(xí)機(jī)制和方法,為其他平臺大數(shù)據(jù)分析提供了良好的參考和借鑒。隨著用戶行為和微課程數(shù)據(jù)趨于多樣化和復(fù)雜化,我們下一步研究的方向和目標(biāo)是進(jìn)一步拓展數(shù)據(jù)源,包括用戶訪問、用戶已安裝的應(yīng)用軟件、微課程的描述信息等,將采用復(fù)合權(quán)重相加的方式擬合微課程相似度矩陣,并考慮不同數(shù)據(jù)源的權(quán)重,提升個性化學(xué)習(xí)效果。
參考文獻(xiàn):
[1]梁文鑫.大數(shù)據(jù)時代——課堂教學(xué)將迎來真正的變革[J].北京教育學(xué)院學(xué)報(自然科學(xué)版),2013,3(1):14-16.
[2]陳川.基于微課程的自主學(xué)習(xí)支持系統(tǒng)設(shè)計與開發(fā)[D].武漢:華中師范大學(xué),2014.
[3]金陵.大數(shù)據(jù)與信息化教學(xué)變革[J].中國電化教育,2013,10(321):8-13.
[4]姜玉蓮.微課程研究與發(fā)展趨勢系統(tǒng)化分析[J].中國遠(yuǎn)程教育,2013(12):64-73.
[5]海浪,錢鋒,黃祥為.基于大數(shù)據(jù)挖掘構(gòu)建游戲平臺個性化推薦系統(tǒng)的研究與實踐[J].電信科學(xué),2014(10):27-32.
[6]Shin-gyu Kim, Junghee Won, Hyuck Han, et aL. Improving Hadoop performance in intercloud environments[J]. Performance Evaluation Review,2011,39(3):107-109.
[7]FangW,Pan W B, Cui Z M. View of MapReduce: programming model, methods, and its applications[J]. IETE Technical Review,2012,29(5).
基金項目:湖北省教育科學(xué)“十二五”規(guī)劃課題:大數(shù)據(jù)環(huán)境中微課程教學(xué)研究(No.2014B135)。