姚 帆 李銀勝
(復旦大學軟件學院 上海 201203)
基于多維用戶模型的數(shù)字教育服務推薦技術研究
姚 帆 李銀勝
(復旦大學軟件學院 上海 201203)
目前的數(shù)字教育推薦系統(tǒng)中用戶建模數(shù)據(jù)來源單一,用戶意圖分析不深入,缺乏數(shù)字教育的針對性考慮,準確度和滿意度均有所局限。提出一種基于多維用戶模型的數(shù)字教育服務推薦方法,充分考慮學生知識掌握水平、學習目標、學生所在群體等因素,從客觀意圖、主觀意圖和群體性意圖三個方向進行分析推理。結合項目需求,開發(fā)基于上述推薦方法的數(shù)字教育應用原型系統(tǒng)。實驗結果表明,該方法相對于僅考慮單一用戶因素的系統(tǒng)在準確率、召回率及排序優(yōu)先度等指標上均有明顯提升。
推薦系統(tǒng) 用戶建模 數(shù)字教育
隨著數(shù)字教育技術的發(fā)展和互聯(lián)網(wǎng)的流行,數(shù)字教育因為其海量信息、強交互性、覆蓋面廣和無時空限制等特點[1],受到越來越多學生的歡迎。前瞻產(chǎn)業(yè)研究院提供的《2016-2021年中國在線教育行業(yè)市場前瞻與投資戰(zhàn)略規(guī)劃分析報告》指出[2],從2010年開始,我國數(shù)字教育市場規(guī)模和用戶人數(shù)都以10%以上的速度增長。2010年數(shù)字教育市場規(guī)模為491.1億元,2015年突破千億大關,達1 171億元,預計2016年可以達到1 375億元。
面對海量的數(shù)字教育服務,學生個性化教育的需求也日益凸顯,推薦技術在數(shù)字教育系統(tǒng)中發(fā)揮著越來越重要的作用。傳統(tǒng)的推薦技術包括基于內(nèi)容的推薦、基于協(xié)同過濾的推薦和混合推薦。理想情況下,針對數(shù)字教育領域的推薦技術應該在合適的時間、合適的上下文,以一種合適的方式幫助學生找到可以與自身完美匹配的數(shù)字教育服務,確保學生保持學習的動力并且高效地完成學習活動[3]。
本文依托電子商務交易技術國家工程實驗室合作共建研究平臺“云私塾”進行研究?!霸扑桔印笔敲嫦驍?shù)字教育領域的下一代電子商務應用,以移動端為載體,與用戶進行交互。該應用包含三種用戶角色:學生、教師和數(shù)字教育服務市場,其中教師可以發(fā)布數(shù)字教育服務,數(shù)字教育服務市場以合理高效的方式將教師發(fā)布的數(shù)字教育服務整合,學生可以選擇教師和數(shù)字教育服務市場提供的服務。為了應對互聯(lián)網(wǎng)上信息可靠性難以保障的問題,使用第三方信用保障平臺在線教育可信云作為數(shù)據(jù)服務提供方,該平臺對數(shù)字教育服務設置相關指標并進行信譽評價。
本文課題組提出一種多維用戶模型[4],從生理、性格、觀念、知識、經(jīng)歷和環(huán)境六個維度對用戶進行建模。與傳統(tǒng)的用戶模型相比,多維用戶模型從更深層次刻畫用戶,有助于挖掘用戶的真實需求。基于多維用戶模型在教育領域的映射,本文逐一按照客觀意圖分析、主觀意圖分析和群體性意圖分析三個不同方向分析推斷,最終整合為用戶推薦與個體匹配度較高的數(shù)字教育服務列表。本文實現(xiàn)了針對數(shù)字教育的人性化推薦系統(tǒng)原型,實驗表明通過本文的方法可以提高數(shù)字教育領域的推薦效果。
用戶模型是推薦系統(tǒng)的基礎,它包含和用戶自適應系統(tǒng)應用相關的信息,比如偏好、興趣、行為、知識、目標等[5]。合理的用戶模型對于推薦系統(tǒng)效果有重要的影響。用戶模型是推薦系統(tǒng)的重要組成部分,提供給用戶的個性化服務在很大程度上依賴于用戶模型,比如用戶模型數(shù)據(jù)是否完整、數(shù)據(jù)是否過時、數(shù)據(jù)真實性等。
針對數(shù)字教育服務推薦進行調(diào)研,文獻[6-7]基于學生的偏好、知識和瀏覽歷史記錄推薦合適的教學活動和學習路徑。Verbert等人討論了上下文信息在推薦過程中的重要性[8]。文獻[9]指出在數(shù)字教育推薦系統(tǒng)中的上下文是指學習環(huán)境、位置、時間、身體狀況、活動、資源和社會關系。文獻[10]指出應該根據(jù)學習者的學習風格提供合適的學習材料。文獻[11]認為一個好的推薦系統(tǒng)需要考慮學習者的以下因素:學習目標、前置知識、學習者性格、學習者分組、對之前學習活動的評價、學習路徑、學習策略等。
調(diào)研結果表明,目前的數(shù)字教育領域的推薦系統(tǒng)主要存在以下不足:1) 用戶建模數(shù)據(jù)來源單一。大量的數(shù)字教育系統(tǒng)利用用戶的歷史數(shù)據(jù)和注冊信息提供推薦服務,然而大部分學生在背景、目標、能力和性格方面都有很大不同[11],單純利用上述信息難以反映學生的真實需求。2) 面向推薦的用戶分析不深入,缺乏用戶本質(zhì)需求的挖掘。3) 數(shù)字教育領域針對性不足,與書籍電影推薦相比,數(shù)字教育推薦中更應該考慮學生知識掌握水平并且其是隨著時間而變化的[12]。
針對上述問題,本文從生理、性格、觀念、知識、經(jīng)歷和環(huán)境六個維度建立針對人性化數(shù)字教育的多維語義模型。借鑒文獻[11]中數(shù)字教育服務推薦中需要考慮的因素,基于多維用戶模型從客觀意圖、主觀意圖和群體性意圖三個方向分析用戶本質(zhì)需求,充分利用六個維度的用戶信息進行推理,提高推薦系統(tǒng)的準確性和用戶滿意度。
從人性化用戶建模的角度出發(fā),將用戶的多維用戶模型投影在數(shù)字教育領域中,包括生理、性格、觀念、知識和經(jīng)歷五個內(nèi)生維度和環(huán)境這一外生維度。公式化表示為A::=
2.1.1 生理維度
數(shù)字教育用戶模型的生理維度是與學習過程相關并能影響學習效果的生理屬性集合,生理維度定義見表1。很多生理因素都對學生的學習過程有著重要的影響,比如視力、聽力、營養(yǎng)水平、疲勞程度等[13]。更為重要的是,在學習活動中,學生的智力水平對學習內(nèi)容的選擇及學習策略的制定都有著重大的影響。
表1 生理維度定義
2.1.2 性格維度
目前接受度比較高的三種人格特質(zhì)集合是16項人格因素[14]、大五人格理論[15]和心因性需要[16]。本文使用大五人格理論來描述用戶的性格維度,分別為開放性、盡責性、外向性、親和性和情緒穩(wěn)定性,見表2。
表2 性格維度定義
2.1.3 觀念維度
在教育領域,觀念維度指個人教育觀念和教育服務消費觀,見表3。文獻[17]指出個人教育觀念包括什么是真正的教育,教育的作用,如何接受教育以及針對不同的學習風格哪種類型的教育是合適的。教育消費觀包括對于教育服務的評價標準以及不同類型教育服務的重要性排序。
表3 觀念維度定義
2.1.4 知識維度
學習的過程是知識傳授過程,因此知識維度在人性化教育服務推薦過程中起著重要的參考作用,本文也著重從用戶的知識掌握水平方面去考慮推薦問題。知識維度包括用戶對某一類知識的掌握程度,獲得時間,以及該知識與其他知識的關系等。
2.1.5 經(jīng)歷維度
經(jīng)歷維度主要抓取和教育活動相關的信息,這些信息可以幫助更好地理解學生的真實需求。教育活動的基本信息主要包含教育活動涉及的學科或知識,活動的持續(xù)時間,活動的開始時間等。其中預期的教育活動是本文考慮的另一個重要因素,包括預期教育活動的時間、涉及知識以及重要性。比如學生在一個月后有大學生英語六級考試,并且該學生認為這個考試很重要,具體記錄見表4。
表4 經(jīng)歷維度舉例
2.1.6 環(huán)境維度
環(huán)境維度是用戶模型中的外生維度,內(nèi)生維度與外生維度關系密切,相互影響。數(shù)字教育用戶模型中環(huán)境維度主要包括家庭成員和同學朋友的受教育程度、教育觀念、教育服務消費觀,以及社會學習熱點及學習風氣等。
本文課題組曾經(jīng)提出過基于人性化建模的用戶模型具體構建方法,本文沿用其方法,用戶模型構建方法如表5所示。
表5 各維度數(shù)據(jù)構建方法
基于上一節(jié)介紹數(shù)字教育用戶模型,本節(jié)將從用戶的客觀意圖、主觀意圖和群體性意圖三個方面逐一分析,并整合為最后的Top-K推薦列表。推薦方法的總體流程如圖1所示。
圖1 推薦方法總體流程
3.1.1 數(shù)字教育服務語義模型構建
對數(shù)字教育服務構建語義模型是為了薄弱知識點與候選服務及預期教育活動的語義相似度計算。語義詞典作為語義技術的基礎,定義了計算過程中概念以及概念之間關系的知識庫。本文課題組前輩對服務類產(chǎn)品語義建模有深入的研究,并且取得了較好的效果[17],本文借用其提出的語義建模方法。
數(shù)字教育產(chǎn)品語義特征數(shù)據(jù)源來自:
1) 數(shù)字教育服務通用屬性,如服務名稱、涉及知識、服務類別等;
2) 將所有數(shù)字教育服務作為語料庫,提取其特征。
使用中文詞法分析器IK Analyzer對服務描述信息進行分詞,利用TF-IDF對服務中的特征詞進行提取。通過選取銷量較高的作為語料庫,用于IDF值計算,將特征詞前K個TF-IDF值最顯著的作為語義特征。主要流程如圖2所示。
圖2 數(shù)字教育服務語義特征提取過程
提取出概念之后需要為概念之間添加關系,考慮到數(shù)字教育領域的特殊性,部分、相關等關系可以減少計算相似度時的誤差,達到更好的推薦效果。概念關系見表6。
表6 概念關系
3.1.2 基于矩陣和張量分解的知識水平預測
學生知識水平預測問題是一個典型的評分預測問題,基于學生過去對知識點的掌握情況,預測學生未來對該知識的掌握情況。矩陣分解技術是解決評分預測問題最成功的技術之一。對于學生知識水平預測問題,將其映射到矩陣分解,其中學生映射到用戶(user),第一次正確嘗試映射到評分(rate),知識映射到(item)。
矩陣分解的任務是近似的將一個矩陣表示成兩個矩陣相乘的形式[19],如X≈WHT。X是用戶矩陣,W∈U×K矩陣中每一行u是表示一個包含K個用來描述學生的潛在因子的向量,H∈I×K矩陣中每一行i表示一個包含K個用來描述知識的潛在因子的向量。令wuk和hik分別代表矩陣W和H的元素,那么指定學生u對于知識i的掌握水平為:
(1)
本文使用隨機梯度下降的方法進行矩陣分解,損失函數(shù)定義為:
(2)
其中λ是為了防止過擬合而引入的范數(shù)。
學生測試過程中存在“Guess”和“Slip”的情況[20],即學生不具備問題涉及的知識或技能但是猜對了答案,和學生知道問題涉及的知識但是求解過程中犯錯這兩種特殊情況。帶偏置的矩陣分解可以將這兩種情況隱式的考慮進來,因此將式(1)調(diào)整為:
(3)
其中μ是數(shù)據(jù)集中學生表現(xiàn)平均數(shù),bu和bi分別代表用戶偏置和物品偏置。
時間因素是學習活動中的重要的上下文,一般來講學習的次數(shù)越多,學生對于一個知識的掌握程度就越好。為了解決時間效應,借鑒文獻[21]對于時間效應問題的研究,在用戶和物品的二維矩陣中引入第三個維度時間構成張量,則指定學生u對知識i在時間t時的預測掌握水平定義如下:
(4)
(5)
其中qtk表示引入的時間維度,式(5)利用過去的次表現(xiàn)的Tmax均值來預測當前的學生表現(xiàn)。
3.1.3 客觀意圖推理
在數(shù)字教育服務語義模型和學生知識水平預測的基礎上,結合預期教育活動推理用戶的客觀意圖?;跀?shù)字教育語義模型,利用特征相似度算法計算知識與數(shù)字教育服務和預期教育活動的匹配度,選擇前K項作為匹配項。一個知識可以對應多個預期教育活動和數(shù)字教育服務。
對于用戶與單項數(shù)字教育服務匹配項,其客觀意圖傾向為:
(6)
式中,Wi和Ti分別表示經(jīng)歷維度中的預期教育活動的重要性和時間權重,P表示上一步計算出的學生預期表現(xiàn),學生預期表現(xiàn)與學生需求成反比。
在數(shù)字教育服務推薦場景中,將用戶對數(shù)字教育服務的喜好轉(zhuǎn)化為對數(shù)字教育服務的主觀意圖,即用戶對滿足自身需求的數(shù)字教育服務的主觀標準。比如,某些用戶對數(shù)字教育服務信息完善度的達標標準是信息完善度達80%以上,對信息及時性的標準是信息定期更新。在用戶的觀念維度中,保存了用戶對不同要素重要性排序。
在上一節(jié)數(shù)字教育語義詞典的基礎上,結合課題組的在線教育可信云項目確定數(shù)字教育服務指標,使用AHP或其他手段對指標權重進行量化。最后通過IF-THEN語句建立面向用戶喜好需求的服務達標條件計算[22]。
在進行主觀意圖傾向計算時,遍歷需求指標下的達標條件,若滿足一條達標條件,則該需求指標得分加1。最終根據(jù)不同指標的權重加權求和。對于用戶與單項數(shù)字教育服務,其主觀意圖傾向為:
(7)
其中Ci為數(shù)字教育服務指標得分,wi為該指標的權重。
為了提高推薦結果的準確性,同時避免數(shù)據(jù)稀疏性帶來的問題,將用戶所在群體的意圖作為考慮因素。不同用戶群體對于數(shù)字教育服務評價指標有不同的偏好,即對于各指標的權重是不同的。在數(shù)字教育服務推薦場景中,群體可以按照年齡、學歷、職業(yè)、所在地區(qū)等因素劃分,如表7所示。
表7 用戶群體劃分
將用戶所在群體廣泛認可的服務推薦給用戶,不同群體對數(shù)字教育服務指標的認可程度不同。本文課題組對于數(shù)字教育服務評價模型有過深入的研究[23],將數(shù)字教育評價指標劃分為四大類,本文根據(jù)不同群體設置不同的權重,見表8。
表8 數(shù)字教育服務評價指標
對于用戶與單項數(shù)字教育服務,其群體性意圖傾向為:
(8)
結合前三節(jié)的內(nèi)容,用戶與單項數(shù)字教育服務的意圖傾向為:
Intentiontotal=α1×Intentionsubjective+α2×
Intentionobjective+α3×
Intentiongroup
(9)
其中Intetionsubjective、Intentionobjective和Intentiongroup分別為用戶約單項數(shù)字教育服務的主觀意圖傾向、客觀意圖傾向和群體性意圖傾向,α1、α2和α3為權重值。
相關文獻指出[24],對于不同類型的數(shù)字教育服務,用戶會有不同的考慮方式。對于正式學習,學生更加注重功利性和目的性,是在外因驅(qū)動的,而對于非正式學習,則是學生內(nèi)因驅(qū)動的。比如對于提升學生學習就業(yè)能力相關的數(shù)字教育服務,學生會主要考慮客觀因素,即考慮自身知識掌握情況以及長遠期目標;而對于一些興趣愛好類的數(shù)字教育服務,學生更加傾向于客觀因素,即數(shù)字教育服務滿足自身的需求。在本文中,僅考慮正式學習,從觀念維度獲取三種意圖的重要性排序,使用AHP層次分析法對三種意圖的權重進行量化,最終獲得推薦列表。
“云私塾”考慮到移動平臺的計算和存儲能力限制,將數(shù)據(jù)和計算均放在服務端進行,客戶端與服務端通過SOAP協(xié)議,以Web Service的方式進行數(shù)據(jù)交互。軟件架構上使用了成熟的開發(fā)框架,包括展示層的Ionic框架,數(shù)據(jù)層的Jena OWL框架等,如圖3所示。
圖3 總體架構圖
4.2.1 實驗指標
本文使用準確率、召回率和排序優(yōu)先度作為測試指標來分析。準確率即為推薦服務列表中用戶感興趣的比例,召回率表示用戶感興趣的服務被推薦的概率,排序優(yōu)先度表示用戶感興趣的服務在推薦列表的中的排序,排序優(yōu)先度越小越好。
針對用戶u,候選數(shù)字教育服務集合S={S1,S2,S3,…},推薦系統(tǒng)向u推薦的數(shù)字教育服務集合為RS={RS1,RS2,RS3,…},在RS中用戶感興趣的數(shù)字教育服務集合為RSI={RSI1,RSI2,RSI3,…},在集合S中用戶感興趣的數(shù)字教育服務集合為SI={SI1,SI2,SI3,…},則對用戶u,其準確率、召回率、排序優(yōu)先度的計算公式如下:
1) 準確率:
2)召回率:
3) 排序優(yōu)先度:
4.2.2 實驗結果與分析
“云私塾”基于實驗室研究平臺過往實驗中完善了的用戶數(shù)據(jù),選取用戶模型完成度50%以上的用戶,通過獎勵機制邀請該部分用戶參與到實驗中,邀請受試者完善個人信息,并按照自己數(shù)字教育服務各項指標進行排序。最終得到的用戶模型構建完成度如表9所示。
表9 多維用戶模型完整度
針對張量分解,測試迭代次數(shù)與算法執(zhí)行結果的關系,其余因素不變,當?shù)螖?shù)分別取值20、50、100、150時的算法執(zhí)行結果如表10所示。
表10 迭代次數(shù)對算法執(zhí)行結果的影響
實驗結果表明,在張量分解過程中,隨著迭代次數(shù)的增加,算法對于學生表現(xiàn)張量的擬合越來越好。推薦算法準確率和召回率均有所提高,排序優(yōu)先度有所下降。
同時比較了本文提出的算法與FISM[25]和基于條目的推薦方法IBR[26]之間的結果。實驗結果表明,本文提出的基于多維用戶模型的推薦方法確實可以提高推薦效果,提升用戶的滿意度實驗結果比較見表11。
表11 不同算法實驗結果比較
傳統(tǒng)的針對數(shù)字教育的推薦技術學生數(shù)據(jù)來源單一,難以反映學生的本質(zhì)需求,數(shù)字教育領域的針對性不足。
本文結合“云私塾”項目,提出了基于多維用戶模型的數(shù)字教育服務推薦方法。人性化數(shù)字教育的多維用戶模型是該方法的基礎,從生理、性格、觀念、知識、經(jīng)歷和環(huán)境六個維度出發(fā),使用可穿戴設備、問卷調(diào)查、Web數(shù)據(jù)抓取等方式進行用戶建模?;跀?shù)字教育多維用戶模型,從客觀意圖、主觀意圖以及群體性意圖依次分析推理,最終整合為推薦結果列表??紤]了數(shù)字教育領域的特殊性,利用張量分解技術推理學生知識掌握水平,并結合學習目標、主觀偏好、學生所在群體等因素,實驗結果表明準確率及滿意度均有提升,具有應用意義。
后續(xù)工作中,我們將針對數(shù)字教育的特殊性,針對其他影響學習活動的因素進行擴展,比如學習風格、學習路徑等,使該方法能更有效地應用在數(shù)字教育推薦中。
[1] Mallinson B,Sewry D.eLearning at Rhodes University—A Case Study[C]//Advanced Learning Technologies,2004.Proceedings.IEEE International Conference on,2004:708-710.
[2] 鄭嘉寶.2016年中國在線教育行業(yè)市場現(xiàn)狀及發(fā)展趨勢分析[EB/OL]. [2016-05-25].http://www.qianzhan.com/analyst/detail/220/160524-6481830d.html.
[3] Tang T,Mccalla G.Smart Recommendation for an Evolving E-Learning System:Architecture and Experiment[J].International Journal on E-Learning,2005,4(1):105-129.
[4] 沈劍平.數(shù)字靈魂模型及其在智能推薦中的應用研究[D].上海:復旦大學,2015.
[5] Kobsa A.Generic User Modeling Systems[J].User Modeling and User-Adapted Interaction,2001,11(1-2):49-63.
[6] Lytras M,Pablos P O D.Software Technologies in Knowledge Society J.UCS Special Issue[J].Journal of Universal Computerence,2011,17(9):1219-1221.
[7] Drá?dilová P,Obadi G,Slaninová K,et al.Computational Intelligence Methods for Data Analysis and Mining of eLearning Activities[M]//Computational Intelligence for Technology Enhanced Learning,2010:195-224.
[8] Verbert K,Manouselis N,Ochoa X,et al.Context-Aware Recommender Systems for Learning: A Survey and Future Challenges[J].IEEE Transactions on Learning Technologies,2012,5(4):318-335.
[9] Staikopoulos A,O’Keeffe I,Rafter R,et al.AMASE:A framework for supporting personalised activity-based learning on the web[J].Computer Science & Information Systems,2014,11(1):343-367.
[10] Cox S M,Chen K.Exploratory Examination of Relationships between Learning Styles and Learner Satisfaction in Different Course Delivery Types[J].International Journal of Social Science Research,2013,1(1):64-76.
[13] Michael Brent.Physical factors that affect learning[EB/OL].[2008-01-01].http://www.ehow.co.uk/info_8210852_physical-factors-affect-learning.html.
[14] Cattell H E P.The Sixteen Personality Factor (16PF) Questionnaire[M]//Understanding Psychological Assessment.Springer US,2001:187-215.
[15] Wikipedia.Big Five personality traits[EB/OL].[2016-03-29].https://en.wikipedia.org/wiki/Big_Five_personality_traits.
[16] Xu X,Mellor D,Xu Y,et al.An Update of Murrayan Needs[J].Journal of Humanistic Psychology,2014,54(1):45-65.
[17] Li J.Mind or Virtue Western and Chinese Beliefs About Learning[J].Current Directions in Psychological Science,2005,14(4):190-194.
[18] 陳昊.服務類產(chǎn)品語義組合和推薦技術研究[D].上海:復旦大學,2015.
[19] Koren Y,Bell R,Volinsky C.Matrix Factorization Techniques for Recommender Systems[J].Computer,2009,42(8):30-37.
[20] Pardos Z A,Heffernan N T.Using HMMs and bagged decision trees to leverage rich features of user and skill from an intelligent tutoring system dataset[C]//Proc.Knowledge Discovery and Data Mining Cup 2010:Educational Data Mining Challenge (2011).
[21] Control A.Temporal Link Prediction Using Matrix and Tensor Factorizations[J].Acm Transactions on Knowledge Discovery from Data,2010,5(2):190-205.
[22] 周豐.面向需求的用戶建模及服務推薦研究[D].上海:復旦大學,2014.
[23] 周為偉.在線教育可信云的研究與實現(xiàn)[D].上海:復旦大學,2016.
[24] 楊曉平.正式學習與非正式學習之概念辨析[J].貴州師范學院學報,2015,31(5):80-83.
[25] Kabbur S,Ning X,Karypis G.FISM:factored item similarity models for top-N recommender systems[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2013:659-667.
[26] Deshpande M,Karypis G.Item-based top-N recommendation algorithms[J].Acm Transactions on Information Systems,2004,22(1):143-177.
RECOMMENDATIONSYSTEMSFORE-LEARNINGSERVICESBASEDONMULTI-DIMENSIONALUSERMODEL
Yao Fan Li Yinsheng
(SchoolofSoftware,FudanUniversity,Shanghai201203,China)
Currently for e-learning recommendation systems, the user modelling data source is single, the user intention analysis is not deep, the lack of digital education's pertinence consideration, the accuracy and the satisfaction degree are limited. This paper proposes a recommendation method of e-learning services based on multi-dimensional user model, taking into account the factors such as students’ mastery level of knowledge, learning goals and students’ groups, and reasoning from objective intention, subjective intention and group intention. Based on the requirement of the project, a prototype system of e-learning application based on the recommendation method is developed. The experimental results show that the proposed method can improve the accuracy, recall rate and sort priority of the system with only a single user factor.
Recommendation system User modelling E-Learning
TP3
A
10.3969/j.issn.1000-386x.2017.10.023
2016-12-01。姚帆,碩士,主研領域:推薦系統(tǒng)。李銀勝,副教授。