徐亞軍,郭 儉
(蘇州百智通信息技術(shù)有限公司,蘇州 215000)
近年來,隨著在線教育和在線學(xué)習平臺的不斷發(fā)展,積累了海量的學(xué)習資源.這些學(xué)習資源極大地豐富了學(xué)生的選擇,學(xué)生在平臺中查閱的資源數(shù)量也越來越多,范圍越來越廣泛.然而在為學(xué)生帶來便利的同時,也使學(xué)生需要花費更多的時間和精力去篩選符合自己學(xué)習需求的資源,因此“資源過載”和“學(xué)習迷航”現(xiàn)象越來越嚴重[1],而且平臺資源數(shù)量眾多,學(xué)生無法辨別資源的優(yōu)劣,另外,由于學(xué)生的認知能力存在差異,導(dǎo)致不同學(xué)生的學(xué)習需求也是不同的.因此,如何能夠為學(xué)生提供個性化的學(xué)習資源,提高在線課程的學(xué)習效率是在線教育面臨的一大挑戰(zhàn)[2].
在線學(xué)習系統(tǒng)積累了海量的與用戶行為相關(guān)的數(shù)據(jù),例如資源學(xué)習、資源收藏、交流討論、資源分享等,隱含了大量有價值的信息.許多在線學(xué)習平臺利用數(shù)據(jù)挖掘和人工智能技術(shù),從這些用戶數(shù)據(jù)中提取有價值的信息,從而為用戶推薦可能感興趣的學(xué)習資源[3].
蘇州線上教育中心是2018年1月蘇州市教育局面向K12教育領(lǐng)域推出的線上學(xué)習平臺.平臺以“全名師、全過程、全免費”為核心理念,統(tǒng)籌全市名優(yōu)教師資源,通過個人電腦、手機、平板和電視等終端向全市師生提供“名師優(yōu)質(zhì)資源”、“名師在線直播”、“名師在線答疑”、“在線學(xué)習行為數(shù)據(jù)分析與智能引導(dǎo)”等教育服務(wù)[4],平臺上線至今用戶使用活躍,總登錄人次已達到880.1萬,日均登錄2.1萬人次;微課觀看總數(shù)529萬余人次,人均觀看29.3次;初步形成了常態(tài)化的應(yīng)用局面.然而,目前平臺學(xué)習資源的推薦僅僅是按照瀏覽量推薦,推薦的準確性太低.
因此,本文通過對現(xiàn)有學(xué)習推薦系統(tǒng)進行梳理,針對K12在線學(xué)習平臺的特點,提出了基于知識圖譜的協(xié)同過濾推薦方法.本文基于學(xué)生學(xué)習資源的數(shù)據(jù),充分利用數(shù)據(jù)間的關(guān)系,構(gòu)建知識圖譜,并在其基礎(chǔ)上進行協(xié)同過濾推薦.
近年來,學(xué)習資源的推薦逐漸成為在線教育領(lǐng)域的研究熱點之一.陳池等對主流在線教育領(lǐng)域的大數(shù)據(jù)應(yīng)用進行了研究總結(jié)和歸納[5],介紹了數(shù)據(jù)挖掘、學(xué)習分析和知識圖譜等相關(guān)技術(shù),并且描述了大數(shù)據(jù)應(yīng)用的基本輪廓,為在線教育領(lǐng)域大數(shù)據(jù)的研發(fā)起到了指導(dǎo)性的作用,目前推薦系統(tǒng)的推薦方法一般分為三類:基于內(nèi)容的推薦方法[6]、基于協(xié)同過濾的推薦方法[7-9]和混合推薦方法[10].其中基于協(xié)同過濾的推薦算法是應(yīng)用最廣泛的,并且引入了數(shù)據(jù)挖掘、機器學(xué)習、本體等概念或技術(shù)[11-14].目前針對基礎(chǔ)教育的推薦系統(tǒng)較少,而基礎(chǔ)教育的用戶及數(shù)據(jù)有鮮明的特點,采用常用的推薦方法效果不好,張海東等[15]使用TFIDF算法提取課程和資源的內(nèi)容特征,構(gòu)建模型并計算資源之間的關(guān)系從而達到推薦的目的,但是太依賴于資源的標簽.
本文針對K12在線教育平臺的數(shù)據(jù)特點,采用基于知識圖譜的協(xié)同過濾推薦方法.
K12平臺的主要用戶-學(xué)生的學(xué)習具有周期性特點,基礎(chǔ)教育學(xué)習平臺都同步了學(xué)習場景,隨著學(xué)習進度的推進,對某個知識點資源的需求會在幾天之內(nèi)迅速從零到達高峰,并且又在幾天之內(nèi)迅速恢復(fù)到零,所以知識點對推薦的準確率起到關(guān)鍵作用,而知識圖譜具有緊密的知識相關(guān)性的特點,因此,知識圖譜在擴展實體信息、強化實體之間的聯(lián)系上具有天然的優(yōu)勢,可以為推薦系統(tǒng)提供準確而豐富的參考作用.在知識圖譜中,實體中包含著豐富的屬性信息,單個實體具有多個父實體,不是所有的父實體都適合被往下遍歷.而知識圖譜的屬性信息恰好可以為推薦結(jié)果提供精確性、多樣性與可解釋性.
另外一個學(xué)?;蛘咭粋€班級的教學(xué)進度是基本統(tǒng)一的,所以對于資源的推薦需要針對不同的學(xué)生有不同的權(quán)重,這樣推薦會更加準確,協(xié)同過濾推薦有按照群體的喜好推薦的特點,所以本文采用協(xié)同過濾的推薦方法.
學(xué)習平臺資源眾多,單純的推薦算法篩選計算的資源太多,嚴重影響推薦的效率和效果.基于特征的知識圖譜的協(xié)同推薦,通過知識圖譜篩選出最近學(xué)習的知識點的資源、最近同學(xué)學(xué)習的資源,從而大大減少推薦的資源數(shù)量,而且推薦的準確度也會更高.先知識圖譜再協(xié)同過濾推薦,通過知識圖譜,進行數(shù)據(jù)過濾,再采用協(xié)同過濾推薦方法,兩者相結(jié)合,兩者的可用信息可以互補,知識圖譜可以幫助協(xié)同過濾推薦擺脫局部極小值;可以防止協(xié)同過濾推薦過擬合;可以提高協(xié)同過濾推薦的泛化能力.
在蘇州線上教育中心平臺,老師通過平臺上傳及共享資源,學(xué)生通過平臺學(xué)習資源,平臺與教育基礎(chǔ)庫對接,采集了老師和學(xué)生的基礎(chǔ)信息,本文根據(jù)老師和學(xué)生的基礎(chǔ)信息及學(xué)生學(xué)習的行為數(shù)據(jù)構(gòu)建知識圖譜,結(jié)合協(xié)同過濾推薦向?qū)W生推薦個性化的學(xué)習資源.首先利用知識圖譜進行資源篩選,利用協(xié)同過濾推薦算法對篩選的資源進行排序推薦,給學(xué)生推薦個性化高質(zhì)量的資源.
在學(xué)習平臺中,學(xué)生學(xué)習資源的需求會隨著教學(xué)進度周期性的變化,而老師在這個過程中起著主導(dǎo)作用,并且對于學(xué)生的情況,老師也是最清楚的,所以本文根據(jù)老師提供的相關(guān)經(jīng)驗,整理出知識圖譜的節(jié)點及屬性,下文將對節(jié)點及屬性進行詳細說明.
基礎(chǔ)教育的知識點間具有較強的邏輯關(guān)系,我們稱為“前置后導(dǎo)”關(guān)系,從圖1中可以看出,學(xué)生學(xué)習了“10以內(nèi)的數(shù)”,才會學(xué)習“10以內(nèi)的加減法”或者“20以內(nèi)的數(shù)”.所以知識點在資源推薦中很重要.因此本文將知識點作為知識圖譜的實體,并且將知識點作為固定不變的實體.
圖1 知識點知識圖譜
如圖1所示,純知識點構(gòu)成的知識圖譜;另外,資源是推薦的對象,所以將資源作為另一個實體,而知識點作為資源的屬性;另外本文也將學(xué)生、班級、老師、學(xué)校作為知識圖譜的實體,這些都是老師總結(jié)出的重要屬性.
實體及三元組的結(jié)構(gòu)如下:
1)資源:推薦實體;
2)知識點:資源的屬性,與教學(xué)時間相關(guān);
3)學(xué)生:推薦主體,協(xié)同過濾推薦用戶;
4)班級:學(xué)生屬性,協(xié)同過濾推薦參數(shù);
5)老師:班級屬性,協(xié)同過濾推薦參數(shù);
6)學(xué)校:班級屬性,協(xié)同過濾推薦參數(shù).
綜上所述,構(gòu)建的知識圖譜例子如圖2所示.
由于K12教育具有周期性教學(xué)的特點,學(xué)生在某個日期進入平臺,平臺會根據(jù)日期計算出當前學(xué)習知識點,本文采用以下算法,將一學(xué)年的時間進行分割,按照表1計算一年時間里每天的半徑值.
為方便計算,本文將一學(xué)年的知識點取值為0-1.0,每個知識點就得到相應(yīng)的半徑值,通過每天的半徑值與知識點的半徑值就可以計算出每天對應(yīng)學(xué)習的知識點.本文取日期半徑值對應(yīng)的最近的3個知識點.通過知識點及用戶從知識圖譜中取相應(yīng)的實體資源,包括最近知識點的資源,用戶觀看的資源,同班同學(xué)學(xué)習的資源,同校同學(xué)學(xué)習的資源,所屬班級老師上傳的資源.將這些資源作為協(xié)同過濾的輸入.
圖2 知識圖譜
表1 時間取值對照表
經(jīng)過知識圖譜過濾的資源作為協(xié)同過濾的樣本,推薦的實體是資源,而資源的觀看,點贊,收藏作為用戶對資源的評分,綜合資源的知識點屬性,同班同學(xué),同校同學(xué)作為不同的權(quán)重綜合計算出分數(shù)作為用戶對資源的評價.
協(xié)同過濾推薦需要將學(xué)生對資源的打分作為推薦依據(jù),而基礎(chǔ)教育平臺沒有學(xué)生對資源的打分系統(tǒng),而且平臺的主要用戶是中小學(xué)生,他們對資源的打分不完全客觀.本文根據(jù)用戶的行為記錄,學(xué)生屬性等數(shù)據(jù)計算出評價分數(shù),本文將評價指數(shù),知識點指數(shù),協(xié)同指數(shù)3個指數(shù)作為學(xué)生對資源的評價分數(shù).
5.1.1 評價指數(shù)
學(xué)生在觀看資源后沒有對資源的直接打分評價,所以本文綜合學(xué)生對資源的觀看,點贊,收藏等行為作為學(xué)生對資源的評分,例如如果學(xué)生觀看視頻在很短的時間內(nèi)就關(guān)掉了視頻,很大可能就是這個視頻對學(xué)生用途不大,本文將這個行為作為負向評分,如果是負向評分本文就取值為0,另外學(xué)生在選擇資源的時候帶有傾向性,對于自己薄弱的知識點會更多的關(guān)注,并且會選擇難度較低的資源,對于自己已經(jīng)掌握的知識點會選擇難度較高的資源.另外學(xué)生可以對選擇的資源進行點贊或者收藏,所以點贊和收藏指標可以很好地表明學(xué)生對于資源的喜好,公式如下:
其中,w表示各個行為權(quán)重,fcollect、fgood表示是否收藏,點贊,值分別為1或者0.fview表示有效觀看,如果觀看時長超過了30%,fview=1,否則fview=0.
5.1.2 知識點指數(shù)
基礎(chǔ)教育平臺觀看資源的熱度與學(xué)習進度密切相關(guān),本文取日期半徑值臨近的3個知識點的資源,并計算知識點指數(shù),公式如下:
其中,rdate表示日期半徑,rkp表示知識點半徑.
5.1.3 協(xié)同指數(shù)
基礎(chǔ)教育中,一個校的教學(xué)進度基本相似,而一個班就是一個教學(xué)進度,所以同班同學(xué)或者同校同學(xué)的觀看資源作為協(xié)同指數(shù),公式如下:
其中,w表示班級或者學(xué)校權(quán)重,f表示是否是同班同學(xué)或者同校同學(xué),其值是1或者0.
綜合上面3個指數(shù),學(xué)生對資源的評分公式如下:
其中,score為各個指數(shù)的數(shù)值,w為各個指數(shù)的權(quán)重.
本文利用用戶的協(xié)同過濾推薦資源,所以需要計算用戶的相似度,本文對比常見的幾種相似度算法,選擇了斯皮爾曼等級相關(guān)系數(shù)計算方法.
歐幾里德距離是計算空間中兩個點的距離,利用歐式距離定義相似度,相似度沒有考慮重疊數(shù)對結(jié)果的影響.
皮爾遜相關(guān)系數(shù)是反映兩個變量線性相關(guān)程度的統(tǒng)計量,該方法也沒考慮重疊數(shù)對結(jié)果的影響.
Cosine 相似度通過多維空間兩點與所設(shè)定的點形成夾角的余弦值計算相似度,該算法對用戶的絕對的數(shù)值不敏感.而本文中,用戶對資源的喜好程度對推薦的準確性很關(guān)鍵,不同類型的學(xué)生對不同類型的資源需求不同,比如,對某個知識點掌握較好的學(xué)生會對難度較低的資源評價較低而掌握較差的學(xué)生對難度低的資源評價較高,所有Cosine 相似度不適合.
Tanimoto系數(shù)是Cosine 相似度的擴展,它不關(guān)心學(xué)生對資源的具體評分值是多少,它關(guān)心學(xué)生與資源之間是否存在關(guān)聯(lián)關(guān)系.
綜合本文對比,本文采用斯皮爾曼等級相關(guān)系數(shù).假設(shè)兩個隨機變量分別為X、Y,它們的元素個數(shù)均為N,兩個隨即變量取的第i(1 ≤i≤N)個值分別用Xi、Yi表示.對X、Y進行排序(同時為升序或降序),得到兩個元素排行集合x、y,其中元素xi、yi分別為Xi在X中的排行以及Yi在Y中的排行.將集合x、y中的元素對應(yīng)相減得到一個排行差分集合d,其中di=xi?yi,1 ≤i≤N.隨機變量X、Y之間的斯皮爾曼等級相關(guān)系數(shù)可以由x、y或者d計算得到,其計算方式如下所示:
通過實驗證明斯皮爾曼等級相關(guān)系數(shù)推薦準確率是最高的.
基于用戶的協(xié)同過濾推薦主要分為3個步驟:
(1)從用戶列表中獲取當前學(xué)生Ui最相似的K個用戶合集{U1,U2,···,Uk};
(2)從這K個學(xué)生集合排除Ui的偏好的資源,剩下的Item集合為{Item0,Item1,···,Itemn};
(3)對Item集合里每個Itemj計算Ui可能偏好的程度值pref(Ui,Itemj),并把Item按此數(shù)值從高到低排序,前N個Item推薦給用戶Ui.
偏好程度值pref計算公式:
本文采用采用離線測評的方法,將蘇州線上教育中心運營數(shù)據(jù)分成訓(xùn)練集合和測試集,將2018年1月到2018年12月的數(shù)據(jù)構(gòu)建基于知識點的知識圖譜,然后對學(xué)生進行協(xié)同過濾推薦,將推薦結(jié)果與2019年1月到2019年6月的數(shù)據(jù)進行對比,計算出推薦的準確率和召回率.本文隨機選取了使用量較多(觀看記錄超過1000條)的100位學(xué)生對其每周觀看的資源進行預(yù)測.
實驗主要測試協(xié)同過濾算法3個指數(shù)的權(quán)重及其指數(shù)下面分別的參數(shù)的權(quán)重.
綜合調(diào)整,協(xié)同指數(shù)的各個參數(shù)權(quán)重取值如下:
而不同相似度算法的準確率如表2所示,根據(jù)對不同相似度算法的計算對比,斯皮爾曼等級相關(guān)系數(shù)的綜合準確率最高.
表2 相似度準確率對照表(單位:%)
本文在蘇州線上教育中心學(xué)生學(xué)習視頻的數(shù)據(jù)基礎(chǔ)上,結(jié)合數(shù)據(jù)特點,提出了基于知識圖譜的協(xié)同過濾推薦方法,實驗證明該方法相對于按照熱度的推薦方法準確率大幅度提高.
本文提出的方法雖然提高了資源推薦的準確率,但召回率有待提高,本文沒有考慮學(xué)生的用戶畫像,對于學(xué)生個性化的需求沒有考慮全面,需要日后對平臺更多的數(shù)據(jù)進行分析,從而完善算法,提高推薦算法的召回率.