王宏
[摘要]開放教育選課過程是人才培養(yǎng)方案的重要組成部分,本文提出一種基于大數(shù)據(jù)分析的學(xué)習(xí)者選課推薦模型,是以協(xié)同過濾推薦算法作為基礎(chǔ)算法。算法通過對學(xué)習(xí)者群課程偏好行為數(shù)據(jù)的挖掘,發(fā)現(xiàn)學(xué)習(xí)者的課程偏好,以不同偏好對學(xué)習(xí)者進行群組劃分并推薦品味相似的課程。
[關(guān)鍵詞]大數(shù)據(jù);選課;推薦;模型
[中圖分類號] G728 [文獻標識碼]A[文章編號]1008-4649(2019)02-0018-05
Abstract:The course of open education selection is an important part of the talent training program. This paper proposes a learner selection recommendation model based on big data analysis. It is a collaborative filtering recommendation algorithm as the basic algorithm. The algorithm discovers the learner's curriculum preferences by mining the learner group's curriculum preference behavior data, and classifies the learners by different preferences and recommends similar courses.
Key word:Big data; Course selection;Recommendation; Model
開放教育選課是其人才培養(yǎng)模式的重要內(nèi)容,是依據(jù)專業(yè)特點和培養(yǎng)目標,結(jié)合學(xué)習(xí)者的時間、空間、興趣和知識面開展的,用以保證學(xué)習(xí)者自主學(xué)習(xí)和個性化發(fā)展,而實施的內(nèi)容。這一實施過程,在激發(fā)學(xué)習(xí)者學(xué)習(xí)興趣、開闊專業(yè)視野、提高文化素質(zhì)、培養(yǎng)創(chuàng)新能力等方面具有不可替代的作用, 是實現(xiàn)“寬口徑、重能力、強素質(zhì)” 人才培養(yǎng)模式的有效途徑。
一、選課推薦
1.大數(shù)據(jù)的概念
大數(shù)據(jù)是近年來在信息化應(yīng)用中的核心焦點,由于其發(fā)展迅速,在定義、特征等方面尚未形成公認的、統(tǒng)一的標準。大數(shù)據(jù)一般是指數(shù)據(jù)量巨大,不易用常規(guī)方法和傳統(tǒng)軟件處理分析的數(shù)據(jù)。 對于其特征的認識從最初的“3 V”發(fā)展到“4 V”,再到最新的“5 V”, 即數(shù)據(jù)量( volume)巨大、數(shù)據(jù)類型( variety)眾多、處理速度( velocity)快、價值( value)密度低、真實性( veracity)強。教育領(lǐng)域的大數(shù)據(jù)廣義上指的是在教育教學(xué)活動中所有參與者的行為數(shù)據(jù),最主要是學(xué)習(xí)者。為了保證采樣數(shù)據(jù)對母體的完備性,一般要求學(xué)習(xí)者的采樣數(shù)量大于2000人,這些數(shù)據(jù)除了具有大數(shù)據(jù)的共性以外,還具有情境性、層次性和時效性,數(shù)據(jù)采樣主要來源于各類遠程學(xué)習(xí)平臺、考試平臺、教學(xué)管理系統(tǒng)、圖書館管理系統(tǒng)、一卡通平臺、財務(wù)管理系統(tǒng)。
大數(shù)據(jù)不僅意味著數(shù)據(jù)量的巨大,同時更主要的是其利用數(shù)據(jù)的視角發(fā)生變化,其數(shù)據(jù)分析對象,趨向于數(shù)據(jù)母體而非抽樣數(shù)據(jù),重視個體數(shù)據(jù)間的相關(guān)性而非因果性,特別是當效率與精確性產(chǎn)生沖突時,可以犧牲一定的精確性,強調(diào)以數(shù)據(jù)分析為本,以數(shù)據(jù)分析結(jié)果驅(qū)動決策。
2.選課推薦
大數(shù)據(jù)的應(yīng)用使推薦過程更加科學(xué),其核心在于各要素相關(guān)性數(shù)據(jù)挖掘模型的建立。數(shù)據(jù)挖掘建模過程是著眼于解決推薦應(yīng)用的過程,源于應(yīng)用需求,終于應(yīng)用實踐。盡管用數(shù)據(jù)挖掘技術(shù)建立仿真模解決的問題各有不同,但從整個的應(yīng)用流程上來看,其操作內(nèi)容具有計劃性、規(guī)范性、可用性。 其中,CRISPDM方法是目前世界上公認的數(shù)據(jù)挖掘建模的核心方法。
(1)教學(xué)理解階段。在這一階段通常從學(xué)習(xí)者的視角設(shè)計建模的要求和目標,并將這些目標與大數(shù)據(jù)挖掘建模的定義相結(jié)合。
(2)數(shù)據(jù)解讀階段。數(shù)據(jù)解讀階段的主要內(nèi)容有:數(shù)據(jù)的樣本采集;數(shù)據(jù)的初始化;研判數(shù)據(jù)屬性;分析數(shù)據(jù)特征;數(shù)據(jù)特征統(tǒng)計;數(shù)據(jù)質(zhì)量審核;數(shù)據(jù)補遺。
(3)數(shù)據(jù)準備階段。數(shù)據(jù)準備階段涵蓋了從原始數(shù)據(jù)集構(gòu)建最終數(shù)據(jù)集(將作為建模工具的分析對象)的全部工作。數(shù)據(jù)準備工作將被重復(fù)多次,而且其實施順序是無序的。
(4)數(shù)據(jù)整理。以挖掘目標為基準初步分析數(shù)據(jù)樣本與其的相關(guān)性和可用性,遴選作為模型輸入數(shù)據(jù)的數(shù)據(jù)子集,并進一步對這些數(shù)據(jù)樣本進行清理轉(zhuǎn)換,構(gòu)造衍生變量,并根據(jù)模型的需求,格式化數(shù)據(jù)。
(5)建模。在這一階段,研判相關(guān)的建模方法,通過構(gòu)建、評估模型,對模型參數(shù)進行校準。
(6)評估。以數(shù)據(jù)分析的視角對數(shù)據(jù)進行審讀,在這一階段中,我們已經(jīng)構(gòu)建了一個或多個高質(zhì)量的應(yīng)用仿真模型。
(7)部署。即將模型輸出的結(jié)果轉(zhuǎn)換為可閱讀的文本形式。
二、基于學(xué)習(xí)者的協(xié)同過濾推薦
基于學(xué)習(xí)者的協(xié)同過濾推薦模型的原理為,以所有學(xué)習(xí)者對課程興趣的偏好為基礎(chǔ),挖掘與服務(wù)對象偏好相似的“鄰居”學(xué)習(xí)者群,一般使用計算“ K-鄰居”的算法完成;然后,基于這個“鄰居”學(xué)習(xí)者群的歷史偏好數(shù)據(jù),為服務(wù)對象進行推薦。下圖給出了原理圖。
設(shè)學(xué)習(xí)者 A喜歡 A課程, C課程,學(xué)習(xí)者 B喜歡 B課程,學(xué)習(xí)者 C喜歡 A課程, C課程和 D課程;從這些學(xué)習(xí)者的喜好信息中,我們發(fā)現(xiàn)學(xué)習(xí)者 A和學(xué)習(xí)者 C的喜好是比較類似的,同時學(xué)習(xí)者 C還喜歡 D課程,那么我們可以推斷學(xué)習(xí)者 A可能也喜歡 D課程,因此可以將 D課程推薦給學(xué)習(xí)者 A。
基于學(xué)習(xí)者的協(xié)同過濾推薦機制和基于人口統(tǒng)計學(xué)的推薦機制都是計算學(xué)習(xí)者的相似度,都是以學(xué)習(xí)者的“鄰近”群體樣本計算推薦的,但它們的核心區(qū)別是如何計算學(xué)習(xí)者的相似度,基于人口統(tǒng)計學(xué)處理機制只注重學(xué)習(xí)者本身的特征,而基于學(xué)習(xí)者的協(xié)同過濾處理機制是在學(xué)習(xí)者歷史偏好數(shù)據(jù)的基礎(chǔ)上進行學(xué)習(xí)者相似度計算的,它的關(guān)鍵假設(shè)是,喜歡類似課程的學(xué)習(xí)者可能有相同或者相似的喜好。
(一) 基于學(xué)習(xí)者(Learner-based)的協(xié)同過濾推薦算法
基于學(xué)習(xí)者的協(xié)同過濾推薦算法在同類算法中出現(xiàn)的最早,其原理較為簡單。這一算法于1992年首次提出并用于電子郵件過濾系統(tǒng),在1994年被GroupLens引入到新聞過濾中。一直到近年,這一算法還是推薦系統(tǒng)領(lǐng)域中的核心的算法。
三、小結(jié)
基于協(xié)同過濾模型的算法根據(jù)學(xué)習(xí)者不同的屬性特征,按其性別、專業(yè)、興趣愛好歸類分群。推薦應(yīng)用模型可以更加科學(xué)與精確的對這些屬性信息建立我們關(guān)心的關(guān)聯(lián)并計算它們的相似度,從而完成推薦。 大數(shù)據(jù)下的選課模型,為完全學(xué)分制下的學(xué)習(xí)者選課提供了智能化的支持服務(wù),構(gòu)建了獨立、自主、公平,自由的選課操作,滿足了學(xué)習(xí)者對課程的特性化需求,激發(fā)了學(xué)習(xí)者的學(xué)習(xí)主動性。
[參考文獻]
[1]郭清菊,等.基于學(xué)習(xí)興趣的個性化推薦算法研究[J].軟件,2013,34(9):51-53.
[2]胡健,等.數(shù)據(jù)挖掘在選課推薦中的研究[J].軟件,2016,37(4):119-121.
[3]王超,等.適合專業(yè)選修課的現(xiàn)代教學(xué)理論和方法探究[J].學(xué)理論,2015(11):202 - 204.
[4]程學(xué)旗,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,25 (9) :1889 - 1908.
[責(zé)任編輯張宇龍]