燕彩蓉 徐光偉 潘喬 黃永鋒
摘要:針對(duì)傳統(tǒng)推薦方法中普遍存在的冷啟動(dòng)問題和推薦結(jié)果忽視了項(xiàng)目間的邏輯約束關(guān)系問題,分析用戶社會(huì)屬性和社交關(guān)系對(duì)用戶學(xué)習(xí)行為的影響,以及學(xué)習(xí)資源之間的約束邏輯,提出面向在線學(xué)習(xí)的社會(huì)化推薦方法,為精準(zhǔn)的學(xué)習(xí)資源推薦提供指導(dǎo)。
關(guān)鍵詞:在線學(xué)習(xí);推薦系統(tǒng);社會(huì)網(wǎng)絡(luò);約束邏輯
中圖分類號(hào):G642.4;G250.73 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2018)09-0246-03
移動(dòng)互聯(lián)網(wǎng)、智能終端設(shè)備和社會(huì)網(wǎng)絡(luò)平臺(tái)為全方位海量信息的產(chǎn)生與收集提供了保障,促進(jìn)了個(gè)性化在線教育的發(fā)展與普及[1]。個(gè)性化在線教育是一種基于互聯(lián)網(wǎng)數(shù)據(jù)來分析用戶學(xué)習(xí)狀況,并滿足其學(xué)習(xí)需求的平臺(tái),系統(tǒng)會(huì)根據(jù)用戶的年齡和知識(shí)積累,甚至心理活動(dòng),判斷該用戶的教育水平,并在此基礎(chǔ)上提供相應(yīng)難度的課程、資料和題庫等。這從根本上改變了傳統(tǒng)教育中機(jī)械的教學(xué)體系,讓教育量身定制成為可能。學(xué)習(xí)資源推薦服務(wù)是個(gè)性化在線教育平臺(tái)的關(guān)鍵[2]。傳統(tǒng)意義的推薦系統(tǒng)主要是利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展和大規(guī)模數(shù)據(jù)的產(chǎn)生,推薦系統(tǒng)也被輻射到在線教育領(lǐng)域,通過幫助制定個(gè)性化學(xué)習(xí)方案以及提供更多的參考資料,使得用戶可以便捷地獲取學(xué)習(xí)資源,打破時(shí)間和空間的限制來學(xué)習(xí)。目前在線學(xué)習(xí)推薦研究聚焦于基于用戶產(chǎn)生的海量學(xué)習(xí)活動(dòng)數(shù)據(jù)以及社會(huì)網(wǎng)絡(luò)群,利用深度機(jī)器學(xué)習(xí)等技術(shù)手段不斷優(yōu)化學(xué)習(xí)模型,并依此構(gòu)建自適應(yīng)學(xué)習(xí)系統(tǒng)[3]。社會(huì)化推薦是在一般推薦方法的基礎(chǔ)上,把用戶社會(huì)關(guān)系信息作為重要影響因子引入推薦生成過程,以此提高推薦系統(tǒng)的性能。其優(yōu)勢(shì)在于能夠解決用戶冷啟動(dòng)問題。根據(jù)社會(huì)網(wǎng)絡(luò)分析的重要研究成果[4],網(wǎng)絡(luò)社區(qū)中相互聯(lián)系的群體受社會(huì)因素的相互影響,會(huì)表現(xiàn)出相似的興趣愛好及行為規(guī)范;在線社會(huì)網(wǎng)絡(luò)的盛行,使得用戶之間的活動(dòng)行為表現(xiàn)得越來越社區(qū)化。因此,合理利用用戶的社會(huì)屬性信息和關(guān)系將能提高推薦系統(tǒng)的性能。在線教育領(lǐng)域與電子商務(wù)領(lǐng)域相比具有一定的特殊性,應(yīng)用社會(huì)化推薦方法進(jìn)行學(xué)習(xí)資源推薦能夠解決用戶冷啟動(dòng)的瓶頸,但是也存在一些問題需要研究。本文將面向在線學(xué)習(xí)提出相應(yīng)的推薦框架并闡述其中的關(guān)鍵問題。
一、相關(guān)定義
社會(huì)化推薦滿足了互聯(lián)網(wǎng)中新問題和新技術(shù)發(fā)展要求,具有較高的研究價(jià)值和應(yīng)用前景。在線教育領(lǐng)域中,研究人員利用知識(shí)建模、數(shù)據(jù)挖掘等方法,對(duì)學(xué)習(xí)資源、學(xué)習(xí)路徑等方面的推薦問題進(jìn)行了探索,這些研究表明了學(xué)習(xí)推薦系統(tǒng)能夠?qū)W(xué)習(xí)者的學(xué)習(xí)興趣和學(xué)習(xí)效率產(chǎn)生積極的影響,有助于在線學(xué)習(xí)的深入推進(jìn)[5]。
定義1.評(píng)分矩陣:設(shè)U為所有用戶的集合,I為可以推薦給用戶的所有項(xiàng)目的集合;m=|U|,n=|I|;每個(gè)用戶對(duì)每個(gè)項(xiàng)目都可能產(chǎn)生一個(gè)評(píng)分,其值構(gòu)成了用戶-項(xiàng)目評(píng)分矩陣R。很多傳統(tǒng)推薦方法都是根據(jù)評(píng)分矩陣提供推薦項(xiàng)目列表。在線教育領(lǐng)域,用戶即參與學(xué)習(xí)的人,項(xiàng)目即學(xué)習(xí)資源,如書籍、課件、博文等。
定義2.稀疏矩陣:指矩陣中非零元素占全部元素的百分比很小的矩陣(通常為5%以下)。實(shí)際應(yīng)用中,由于多數(shù)用戶不會(huì)對(duì)其所瀏覽的所有項(xiàng)目做出顯式反饋,因此評(píng)分矩陣通常是稀疏的,這將影響推薦模型的效果。對(duì)于一個(gè)新用戶,與之對(duì)應(yīng)的評(píng)分向量為空,所以模型很難為新用戶提供服務(wù)。
定義3.社會(huì)化推薦:設(shè)G=(g)為所有用戶社會(huì)關(guān)系矩陣,映射μ:U×I→R′是對(duì)推薦結(jié)果的評(píng)價(jià)效用函數(shù),R′是一定范圍內(nèi)的全序非負(fù)實(shí)數(shù)集,稱為推薦的效用值,U′={u|u∈U,x≠y,g≠0,g∈G}表示與用戶u存在社會(huì)關(guān)系的用戶集合。社會(huì)化推薦要研究的問題是:對(duì)于用戶u,根據(jù)所有項(xiàng)目在用戶群體U′中的評(píng)價(jià)情況,主動(dòng)地為其推薦滿足其偏好需求的、效用最大的項(xiàng)目集。這樣既能解決新用戶的冷啟動(dòng)問題,而且也能緩解評(píng)分矩陣的稀疏性。
社會(huì)化推薦方法具有很多優(yōu)勢(shì)而且被廣泛應(yīng)用,但是因?yàn)樵诰€教育領(lǐng)域的特殊性,在使用此方法時(shí)存在以下的挑戰(zhàn):其一,面向?qū)W習(xí)的用戶來源于一般群體,但又具有特殊性,社會(huì)網(wǎng)絡(luò)中數(shù)據(jù)量非常大、結(jié)構(gòu)復(fù)雜、數(shù)據(jù)來源多,如何在這些海量的數(shù)據(jù)中篩選面向?qū)W習(xí)的社會(huì)屬性以及社會(huì)關(guān)系信息,并對(duì)它們進(jìn)行量化,是首要解決的問題;其二,學(xué)習(xí)資源不同于電子商務(wù)中的商品,它們不是獨(dú)立的,通常具有先后順序性,如計(jì)算機(jī)學(xué)科中用戶在沒有學(xué)習(xí)C或Java語言課程的情況下對(duì)其直接推薦數(shù)據(jù)結(jié)構(gòu)課程,不符合知識(shí)學(xué)習(xí)的正常途徑,因此在推薦時(shí)需要考慮項(xiàng)目之間的依賴關(guān)系。
定義4.約束邏輯:項(xiàng)目i和i之間的邏輯關(guān)系體現(xiàn)為如下幾種:
1.相似關(guān)系,表示為Sim(i,i),當(dāng)項(xiàng)目i和i之間的相似度大于某閾值時(shí),認(rèn)為二者相似。如時(shí)尚領(lǐng)域中的項(xiàng)目相似性可能體現(xiàn)為兩件款式顏色相近的衣服,學(xué)習(xí)領(lǐng)域中項(xiàng)目的相似性可體現(xiàn)為兩本風(fēng)格相似的圖書。
2.相關(guān)關(guān)系,表示為Rel(i,i),通過分析用戶日志,當(dāng)選擇項(xiàng)目i時(shí)也選擇項(xiàng)目i的概率大于某閾值時(shí),認(rèn)為二者相關(guān)。如時(shí)尚領(lǐng)域中的項(xiàng)目相關(guān)性可能體現(xiàn)為款式搭配的運(yùn)動(dòng)褲和運(yùn)動(dòng)鞋,學(xué)習(xí)領(lǐng)域中項(xiàng)目的相關(guān)性可體現(xiàn)為GRE詞匯書和GRE閱讀書。
3.依賴關(guān)系,表示為Dep(i,i),在學(xué)習(xí)項(xiàng)目i之前必須先學(xué)習(xí)i。時(shí)尚領(lǐng)域中的項(xiàng)目沒有依賴關(guān)系,只是存在季節(jié)或時(shí)尚趨勢(shì)的變化,學(xué)習(xí)領(lǐng)域中的項(xiàng)目依賴性體現(xiàn)為知識(shí)之間的先后順序性,如數(shù)據(jù)結(jié)構(gòu)的先導(dǎo)課程是C語言或Java語言。
4.包含關(guān)系,表示為Inc(i,i),其含義是項(xiàng)目i包含i,即選擇了i后沒有必要再選擇i。時(shí)尚領(lǐng)域中的項(xiàng)目是獨(dú)立的,不存在這層關(guān)系,學(xué)習(xí)領(lǐng)域中的項(xiàng)目包含關(guān)系體現(xiàn)為課程或資料的包含關(guān)系,此關(guān)系通常由人工設(shè)定。
確定項(xiàng)目之間的約束邏輯關(guān)系是構(gòu)建學(xué)習(xí)資源推薦模型的一個(gè)難點(diǎn),可通過兩種方式產(chǎn)生:一是事先定義,即在建立項(xiàng)目庫的時(shí)候由人工指定,這種方式比較準(zhǔn)確但是效率低下,可擴(kuò)展性差;二是通過數(shù)據(jù)挖掘方法獲得項(xiàng)目間的關(guān)聯(lián)關(guān)系,即通過分析用戶訪問日志軌跡來發(fā)現(xiàn)項(xiàng)目之間的關(guān)系,這種方法可能會(huì)存在誤差,但可擴(kuò)展性好。
二、面向在線學(xué)習(xí)的社會(huì)化推薦框架
結(jié)合用戶的社會(huì)網(wǎng)絡(luò)信息以及項(xiàng)目的約束邏輯關(guān)系,提出面向在線學(xué)習(xí)的社會(huì)化推薦框架,框架主要由三部分組成:
1.數(shù)據(jù)收集與準(zhǔn)備:通過數(shù)據(jù)采集模塊,收集用戶和項(xiàng)目的基本屬性數(shù)據(jù)、反映用戶關(guān)系的社會(huì)網(wǎng)絡(luò)數(shù)據(jù)、反映項(xiàng)目關(guān)系的約束邏輯數(shù)據(jù),以及用戶-項(xiàng)目評(píng)分?jǐn)?shù)據(jù),并把這些數(shù)據(jù)按照設(shè)定的格式存儲(chǔ)到系統(tǒng)中,便于后續(xù)的處理。
2.數(shù)據(jù)預(yù)處理及模型建立:確立用戶之間的社會(huì)關(guān)系,建立社會(huì)網(wǎng)絡(luò),并融入到推薦模型,是社會(huì)化推薦系統(tǒng)有別于一般推薦系統(tǒng)的主要特征。在線學(xué)習(xí)領(lǐng)域,需要從用戶的社會(huì)網(wǎng)絡(luò)中篩選對(duì)用戶學(xué)習(xí)行為和興趣偏好有重要影響的數(shù)據(jù),量化這些數(shù)據(jù),建立面向?qū)W習(xí)的社會(huì)網(wǎng)絡(luò)圖。數(shù)據(jù)預(yù)處理時(shí)還需要分析項(xiàng)目之間的相似、相關(guān)、依賴以及包含關(guān)系,構(gòu)建資源關(guān)聯(lián)圖,通過在推薦算法中融合資源之間的約束邏輯來提高推薦的質(zhì)量。用戶-項(xiàng)目評(píng)分矩陣是根據(jù)用戶的顯式反饋獲得的,通常維度非常高,而且是稀疏矩陣,可以采用矩陣分解技術(shù)對(duì)高維數(shù)據(jù)進(jìn)行降維,把用戶的社會(huì)關(guān)系信息加權(quán)應(yīng)用到矩陣優(yōu)化分解過程中。用戶的社會(huì)關(guān)系對(duì)推薦具有積極影響,可在一定程度上緩解新用戶的冷啟動(dòng)問題。
3.推薦系統(tǒng)構(gòu)建:根據(jù)推薦模型,對(duì)推薦結(jié)果進(jìn)行展現(xiàn)和評(píng)價(jià)。目前已有的研究成果中涉及的數(shù)據(jù)集大多是小規(guī)模或模擬的數(shù)據(jù)集,當(dāng)面對(duì)實(shí)際應(yīng)用時(shí),需要方法和框架能夠滿足大規(guī)模在線應(yīng)用的并發(fā)性和實(shí)時(shí)性要求,這將成為社會(huì)化推薦系統(tǒng)領(lǐng)域新的挑戰(zhàn)。
三、關(guān)鍵問題
社會(huì)化學(xué)習(xí)資源推薦框架中,其關(guān)鍵問題可以歸結(jié)為以下幾點(diǎn):
1.社會(huì)屬性和關(guān)系的確定和量化。社會(huì)網(wǎng)絡(luò)中的數(shù)據(jù)包括個(gè)體的社會(huì)屬性信息和社會(huì)關(guān)系信息,前者的表示比較明確,通過用戶注冊(cè)程序即可獲得,后者的表示相對(duì)模糊,通過好友、同學(xué)、師生關(guān)系可獲得部分信息。社會(huì)關(guān)系屬性會(huì)影響用戶個(gè)體的學(xué)習(xí)行為,用戶個(gè)體的屬性會(huì)體現(xiàn)在社會(huì)網(wǎng)絡(luò)中,如何量化這些屬性沒有統(tǒng)一的標(biāo)準(zhǔn)。在貝葉斯概率矩陣分解模型中,這些屬性因子通常體現(xiàn)在全局參數(shù)的設(shè)定或者模型的優(yōu)化學(xué)習(xí)過程中,需要在理論推導(dǎo)和實(shí)驗(yàn)中進(jìn)行調(diào)整和優(yōu)化。
2.資源約束邏輯的確定和量化。資源的約束邏輯可由人工確定或者通過數(shù)據(jù)挖掘方法獲得。這種約束關(guān)系存在不確定性,而且每個(gè)人的學(xué)習(xí)基礎(chǔ)不同,其學(xué)習(xí)路徑會(huì)存在差異性。人工設(shè)置效率低,如何通過數(shù)據(jù)挖掘方法來準(zhǔn)確量化資源之間的關(guān)系,并把這些量化后的約束邏輯融合到推薦模型的評(píng)分矩陣中,對(duì)于提高推薦質(zhì)量非常重要。
3.用戶社會(huì)關(guān)系與項(xiàng)目邏輯關(guān)系的動(dòng)態(tài)更新。已有的研究中,社會(huì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)基本都是靜態(tài)的,且來源單一化。隨著用戶興趣的轉(zhuǎn)移以及知識(shí)的積累,其社會(huì)關(guān)系網(wǎng)也在發(fā)生變化,相對(duì)而言,資源的約束邏輯比較穩(wěn)定,不過新的資源會(huì)不斷加入資源庫中。針對(duì)用戶社會(huì)關(guān)系的動(dòng)態(tài)性以及資源的新增與淘汰,都將影響推薦模型中參數(shù)的學(xué)習(xí)與調(diào)整。
4.方法評(píng)價(jià)。推薦系統(tǒng)中常用的評(píng)價(jià)方式包括:均方根誤差(root mean square error,RMSE)和平均絕對(duì)誤差(mean absolute error,MAE)。兩者值越小,表示算法性能越好,其定義如下:
RMSE=,MAE=
其中,T是測(cè)試集,|T|是測(cè)試集的記錄數(shù),i、j表示測(cè)試集的第i和第j條記錄,r是真實(shí)值,是預(yù)測(cè)值。
RMSE和MAE主要用于評(píng)價(jià)推薦算法的精度。當(dāng)數(shù)據(jù)量非常大時(shí),還需要評(píng)價(jià)算法的可擴(kuò)展性和效率。當(dāng)系統(tǒng)并發(fā)性要求高時(shí),推薦算法的實(shí)時(shí)性也是評(píng)價(jià)指標(biāo)之一。而且,在線系統(tǒng)中,用戶的實(shí)際體驗(yàn)也非常重要,通常采用用戶的體驗(yàn)反饋來進(jìn)行評(píng)價(jià)。
五、結(jié)語
通過研究在線學(xué)習(xí)中用戶和學(xué)習(xí)資源的基本屬性、用戶之間的社會(huì)關(guān)系,以及資源之間的依賴等關(guān)系,把社會(huì)網(wǎng)絡(luò)、知識(shí)圖譜和推薦系統(tǒng)相結(jié)合,探索社會(huì)化的學(xué)習(xí)資源推薦方法,為個(gè)性化在線學(xué)習(xí)提供理論和實(shí)踐上的指導(dǎo)。
參考文獻(xiàn):
[1]Anshari M,Alas Y,Guan L S.Developing online learning resources:Big data,social networks,and cloud computing to support pervasive knowledge[J].Education and Information Technologies,2015,(5):1-15.
[2]Dwivedi P,Bharadwaj K K.E-Learning recommender system for a group of learners based on the unified learner profile approach[J].Expert Systems,2015,32(2):264-276.
[3]Dascalu M I,Bodea C N,Moldoveanu A,et al.A recommender agent based on learning styles for better virtual collaborative learning experiences[J].Computers in Human Behavior,2015,45(4):243-253.
[4]Song K.Students as pinners:A multimodal analysis of a course activity involving curation on a social networking site[J].Internet and Higher Education,2017,33(4):33-40.
[5]吳正洋,湯庸,黃昌勤,等.社交網(wǎng)絡(luò)下學(xué)習(xí)推薦研究與實(shí)踐[J].中國電化教育,2016,(3):75-80.