(陜西廣播電視大學 計劃財務處,陜西 西安 710119)
開放教育選課是其人才培養(yǎng)模式的重要內(nèi)容,是依據(jù)專業(yè)特點和培養(yǎng)目標,結(jié)合學習者的時間、空間、興趣和知識面開展的,用以保證學習者自主學習和個性化發(fā)展,而實施的內(nèi)容。這一實施過程,在激發(fā)學習者學習興趣、開闊專業(yè)視野、提高文化素質(zhì)、培養(yǎng)創(chuàng)新能力等方面具有不可替代的作用, 是實現(xiàn)“寬口徑、重能力、強素質(zhì)” 人才培養(yǎng)模式的有效途徑。
大數(shù)據(jù)是近年來在信息化應用中的核心焦點,由于其發(fā)展迅速,在定義、特征等方面尚未形成公認的、統(tǒng)一的標準。大數(shù)據(jù)一般是指數(shù)據(jù)量巨大,不易用常規(guī)方法和傳統(tǒng)軟件處理分析的數(shù)據(jù)。 對于其特征的認識從最初的“3 V”發(fā)展到“4 V”,再到最新的“5 V”, 即數(shù)據(jù)量( volume)巨大、數(shù)據(jù)類型( variety)眾多、處理速度( velocity)快、價值( value)密度低、真實性( veracity)強。教育領域的大數(shù)據(jù)廣義上指的是在教育教學活動中所有參與者的行為數(shù)據(jù),最主要是學習者。為了保證采樣數(shù)據(jù)對母體的完備性,一般要求學習者的采樣數(shù)量大于2000人,這些數(shù)據(jù)除了具有大數(shù)據(jù)的共性以外,還具有情境性、層次性和時效性,數(shù)據(jù)采樣主要來源于各類遠程學習平臺、考試平臺、教學管理系統(tǒng)、圖書館管理系統(tǒng)、一卡通平臺、財務管理系統(tǒng)。
大數(shù)據(jù)不僅意味著數(shù)據(jù)量的巨大,同時更主要的是其利用數(shù)據(jù)的視角發(fā)生變化,其數(shù)據(jù)分析對象,趨向于數(shù)據(jù)母體而非抽樣數(shù)據(jù),重視個體數(shù)據(jù)間的相關(guān)性而非因果性,特別是當效率與精確性產(chǎn)生沖突時,可以犧牲一定的精確性,強調(diào)以數(shù)據(jù)分析為本,以數(shù)據(jù)分析結(jié)果驅(qū)動決策。
大數(shù)據(jù)的應用使推薦過程更加科學,其核心在于各要素相關(guān)性數(shù)據(jù)挖掘模型的建立。數(shù)據(jù)挖掘建模過程是著眼于解決推薦應用的過程,源于應用需求,終于應用實踐。盡管用數(shù)據(jù)挖掘技術(shù)建立仿真模解決的問題各有不同,但從整個的應用流程上來看,其操作內(nèi)容具有計劃性、規(guī)范性、可用性。 其中,CRISPDM方法是目前世界上公認的數(shù)據(jù)挖掘建模的核心方法。
(1)教學理解階段。在這一階段通常從學習者的視角設計建模的要求和目標,并將這些目標與大數(shù)據(jù)挖掘建模的定義相結(jié)合。
(2)數(shù)據(jù)解讀階段。數(shù)據(jù)解讀階段的主要內(nèi)容有:數(shù)據(jù)的樣本采集;數(shù)據(jù)的初始化;研判數(shù)據(jù)屬性;分析數(shù)據(jù)特征;數(shù)據(jù)特征統(tǒng)計;數(shù)據(jù)質(zhì)量審核;數(shù)據(jù)補遺。
(3)數(shù)據(jù)準備階段。數(shù)據(jù)準備階段涵蓋了從原始數(shù)據(jù)集構(gòu)建最終數(shù)據(jù)集(將作為建模工具的分析對象)的全部工作。數(shù)據(jù)準備工作將被重復多次,而且其實施順序是無序的。
(4)數(shù)據(jù)整理。以挖掘目標為基準初步分析數(shù)據(jù)樣本與其的相關(guān)性和可用性,遴選作為模型輸入數(shù)據(jù)的數(shù)據(jù)子集,并進一步對這些數(shù)據(jù)樣本進行清理轉(zhuǎn)換,構(gòu)造衍生變量,并根據(jù)模型的需求,格式化數(shù)據(jù)。
(5)建模。在這一階段,研判相關(guān)的建模方法,通過構(gòu)建、評估模型,對模型參數(shù)進行校準。
(6)評估。以數(shù)據(jù)分析的視角對數(shù)據(jù)進行審讀,在這一階段中,我們已經(jīng)構(gòu)建了一個或多個高質(zhì)量的應用仿真模型。
(7)部署。即將模型輸出的結(jié)果轉(zhuǎn)換為可閱讀的文本形式。
基于學習者的協(xié)同過濾推薦模型的原理為,以所有學習者對課程興趣的偏好為基礎,挖掘與服務對象偏好相似的“鄰居”學習者群,一般使用計算“ K-鄰居”的算法完成;然后,基于這個“鄰居”學習者群的歷史偏好數(shù)據(jù),為服務對象進行推薦。下圖給出了原理圖。
設學習者 A喜歡 A課程, C課程,學習者 B喜歡 B課程,學習者 C喜歡 A課程, C課程和 D課程;從這些學習者的喜好信息中,我們發(fā)現(xiàn)學習者 A和學習者 C的喜好是比較類似的,同時學習者 C還喜歡 D課程,那么我們可以推斷學習者 A可能也喜歡 D課程,因此可以將 D課程推薦給學習者 A。
基于學習者的協(xié)同過濾推薦機制和基于人口統(tǒng)計學的推薦機制都是計算學習者的相似度,都是以學習者的“鄰近”群體樣本計算推薦的,但它們的核心區(qū)別是如何計算學習者的相似度,基于人口統(tǒng)計學處理機制只注重學習者本身的特征,而基于學習者的協(xié)同過濾處理機制是在學習者歷史偏好數(shù)據(jù)的基礎上進行學習者相似度計算的,它的關(guān)鍵假設是,喜歡類似課程的學習者可能有相同或者相似的喜好。
基于學習者的協(xié)同過濾推薦算法在同類算法中出現(xiàn)的最早,其原理較為簡單。這一算法于1992年首次提出并用于電子郵件過濾系統(tǒng),在1994年被GroupLens引入到新聞過濾中。一直到近年,這一算法還是推薦系統(tǒng)領域中的核心的算法。
當學習者 A需要一個關(guān)于他的推薦時,可以在他的朋友中找到和他興趣相似的學習者集合G,然后將集合G中元素課程屬性 A沒有的課程推薦給 A, 這就是基于學習者的系統(tǒng)過濾算法。
算法基于兩點構(gòu)成:其一,過濾出與目標學習者興趣相似的學習者集合;其二,找到這個集合中學習者喜歡的、而目標學習者沒接觸過的課程推薦給目標學習者。
1. 發(fā)現(xiàn)興趣相似的學習者
一般我們用Jaccard公式或者余弦相似度計算兩個學習者之間的相似程度度。設 N(u) 為學習者 u 喜歡的課程集合,N(v) 為學習者 v 喜歡的課程集合,則 u 和 v 的相似度為:
Jaccard公式:
wuv表示學習者 u 與 v 之間的興趣相似度,N(u)為學習者 u 曾經(jīng)喜歡過的課程集合, N(v) 為學習者v 曾經(jīng)喜歡過的課程集合。
余弦相似度:
兩個向量間的余弦值可以可以通過下式得到:
a·b=‖a‖ ‖b‖cosθ
A 和B的余弦相似性θ用向量內(nèi)積形式來表示其大小:
cos(θ)的值域為[-1,1];cos(θ)取值為 -1表示兩個向量互為反方向,cos(θ)取值為1表示它們是同向的,cos(θ)取值為0表明它們之間是獨立的,而值域中的其他值,則表示相似性的強弱或相異性的強弱。 對于文本匹配而言,文本屬性向量A 和B 一般是指文本中的詞匯出現(xiàn)頻率。余弦相似性,可以被看成是一個比較文件長度的范式。 顯然在數(shù)據(jù)檢索時,一個詞的頻率不能為負數(shù),所以文本的余弦相似性取值區(qū)間應該為[0,1]。且詞頻向量間夾角不能大于90°。
設有4名學習者,分別為: A、B、C、D;他們感興趣的課程,有5門課程:K1、K2、K3、K4、K5。
根據(jù)以上所設,建立興趣相關(guān)矩陣:
這里
得
注意,該矩陣僅代表的是similarity的分子部分。下面我們進一步求出該問題的余弦相似度:
至此,計算學習者相似度就大功告成,可以很直觀的找到與目標學習者興趣較相似的學習者。
2. 推薦課程
我們從矩陣中選出與目標學習者 u興趣最相似的 K個學習者,用集合 S{ u,K}表示,然后,將 S中學習者喜歡的課程全部提取出來,并且除去 u已經(jīng)喜歡的課程。對于每個候選課程i,學習者 u 對它感興趣的程度可用下式計算:
其中rvi表示學習者 v 對i的喜歡程度,在本例中全部設為 1,在一些需要學習者進行評分的推薦系統(tǒng)中,則要用學習者評分進行替換。
例如,我們要給學習者 A 推薦課程,設 K = 3 表示3個相似學習者,則這些學習者為:B、C、D,那么他們喜歡過并且 A 沒有喜歡過的課程有:c、e,那么分別計算 p(A, c) 和 p(A, e):
根據(jù)上述計算結(jié)果學習者 A 對 c 和 e 的喜歡程度可能相同,在現(xiàn)實的推薦系統(tǒng)中,我們按得分進行排序,由前向后取前若干個課程即可。
基于項目的協(xié)同過濾算法,簡稱Item CF,是目前在數(shù)據(jù)挖掘應用中使用最廣泛的算法之一。這一算法現(xiàn)在也用于為學習者推薦那些和他們歷史上喜歡過的課程相似的課程。如,該算法會因為你學習過《西方經(jīng)濟學》而給你推薦《國際經(jīng)濟學》課程。
ItemCF主要分為兩步:第一步,計算課程之間的相似度;第二步,根據(jù)課程的相似度和學習者的歷史行為,生成學習者課程需求推薦表。
下圖給出一個item CF的例子。學習者user喜歡《C++程序設計》和《算法分析導論》兩門課程。然后item CF會為這兩門課程分別找到和它們最相似的3門課程,然后根據(jù)公式的定義計算學習者對每門課程的感興趣程度。
Item CF算法,適用于沒有頻繁更新的課程,數(shù)量相對穩(wěn)定且課程數(shù)明顯小于學習者數(shù)的情況。
基于協(xié)同過濾模型的算法根據(jù)學習者不同的屬性特征,按其性別、專業(yè)、興趣愛好歸類分群。推薦應用模型可以更加科學與精確的對這些屬性信息建立我們關(guān)心的關(guān)聯(lián)并計算它們的相似度,從而完成推薦。 大數(shù)據(jù)下的選課模型,為完全學分制下的學習者選課提供了智能化的支持服務,構(gòu)建了獨立、自主、公平,自由的選課操作,滿足了學習者對課程的特性化需求,激發(fā)了學習者的學習主動性。