阮懷偉吳曉璇 陳艷平
隨著互聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)資源迅猛增長,人類社會已進(jìn)入一個信息爆炸的時代。同時,用戶的社會化標(biāo)注行為進(jìn)一步推動著信息的增長。然而,由于用戶興趣、表達(dá)方式等方面的差異,促使社會化標(biāo)簽質(zhì)量參差不齊,信息超載和信息迷航儼然成為學(xué)術(shù)界和產(chǎn)業(yè)界亟待解決的問題[1]。推薦算法通過對用戶的行為屬性進(jìn)行分析,挖掘用戶的興趣,從而為用戶精確推薦物品或信息[2]。個性化推薦方法是利用用戶預(yù)先提供的數(shù)據(jù)[3]或利用數(shù)據(jù)挖掘[4]等技術(shù)挖掘用戶潛在的興趣資源進(jìn)行推薦。
隨著Internet的迅速發(fā)展和全球?qū)K身教育的需求,以異步教育方式為主要特征的基于Web的在線學(xué)習(xí)已成為Internet上的一種重要應(yīng)用[5-7]?;谠诰€學(xué)習(xí)的個性化學(xué)習(xí)受到越來越多研究者的關(guān)注。目前在線學(xué)習(xí)的應(yīng)用還存在一些缺點(diǎn),其中利用動態(tài)、異構(gòu)環(huán)境下的分布學(xué)習(xí)資源進(jìn)行個性化學(xué)習(xí)是困擾已久的關(guān)鍵問題,表現(xiàn)在學(xué)習(xí)過程中缺乏指導(dǎo),學(xué)習(xí)資源重用率低,不能以學(xué)習(xí)者為中心來推送符合學(xué)習(xí)規(guī)律的學(xué)習(xí)資源。
本文以在線學(xué)習(xí)為應(yīng)用背景,基于用戶的基本信息和興趣偏好構(gòu)建用戶興趣模型,通過用戶對知識的掌握程度構(gòu)建學(xué)習(xí)能力評估模型,再基于用戶興趣模型和學(xué)習(xí)能力評估模型進(jìn)行個性化推薦,通過個性化學(xué)習(xí)系統(tǒng)推送包括文本、圖片、視頻、試題等經(jīng)過語義標(biāo)引過的學(xué)習(xí)資源。其中,試題資源還可用于在線測試,以便檢驗(yàn)用戶的學(xué)習(xí)效果,同時將測試結(jié)果反饋給學(xué)習(xí)系統(tǒng),用以不斷修訂用戶興趣模型及學(xué)習(xí)能力評估模型,不斷優(yōu)化個性化學(xué)習(xí)系統(tǒng)的精確性,使得用戶通過在線學(xué)習(xí)獲得更好的學(xué)習(xí)體驗(yàn)和知識積累。
在線學(xué)習(xí)背景下,用戶興趣主要由隱性信息和顯性信息組成。顯性信息包括用戶注冊時獲取的基本信息,如用戶的年級、性別、偏好等;隱形信息由用戶在學(xué)習(xí)過程中的系統(tǒng)記錄抽取而來,能夠反映用戶的當(dāng)前狀態(tài),在實(shí)際應(yīng)用中更為有效。單一的信息都不足以體現(xiàn)用戶的真實(shí)興趣,無用的信息也會大大增加建模的復(fù)雜度和計(jì)算成本,因此如何將兩者結(jié)合,提取出用戶真正的興趣點(diǎn)是用戶興趣信息提取的一個關(guān)鍵問題[8]。本文建立的用戶興趣模型主要從兩個方面構(gòu)建:子知識點(diǎn)及學(xué)科。
在學(xué)習(xí)資源推薦中,認(rèn)為用戶興趣與用戶對知識點(diǎn)的掌握程度密切相關(guān),也就是說掌握越好的知識點(diǎn)對應(yīng)的興趣度就低,而掌握差的知識點(diǎn),興趣度就高。知識點(diǎn)興趣度用知識點(diǎn)的權(quán)值來描述。在初始階段,知識點(diǎn)的權(quán)值均設(shè)為1,隨著用戶學(xué)習(xí)行為的推進(jìn),采用隱式計(jì)算方法獲取并動態(tài)修改知識點(diǎn)的權(quán)值。
每個知識點(diǎn)的權(quán)值wj可以由三個部分:①知識點(diǎn)掌握程度;②用戶學(xué)習(xí)行為;③知識點(diǎn)頻率;計(jì)算獲得,如公式(1):
(1)wknowledgej的數(shù)學(xué)計(jì)算如公式(2):
其中,totalscorej表示所有包含該知識點(diǎn)的題目數(shù)量;currentscorej表示答對的題目數(shù)量。
(2)wlearningj的數(shù)學(xué)計(jì)算如公式(3):
其中,learnj表示用戶學(xué)習(xí)的該知識點(diǎn)的資料數(shù)量,total_learn表示已學(xué)資料的總數(shù),比重越大,則說明用戶對該知識點(diǎn)越感興趣。
(3)wfrequencyj的數(shù)學(xué)計(jì)算如公式(4):
其中,accessj表示資源庫中用戶閱覽的包含該知識點(diǎn)的資料數(shù)量,databasej表示數(shù)據(jù)庫中包含該知識點(diǎn)的資料數(shù)量。
在上述計(jì)算知識點(diǎn)的權(quán)值過程中,不排除下述極端情況:
(1)興趣度最低
興趣度最低表示學(xué)生沒有學(xué)習(xí)任何教學(xué)資源就可以測試通過,表示學(xué)生已經(jīng)掌握了該知識點(diǎn)。
(2)興趣度最高
興趣度最高表示學(xué)生已經(jīng)學(xué)完了所有該知識點(diǎn)的教學(xué)資源,但還是未能通過測試,表示學(xué)生還得接著學(xué)習(xí)該知識點(diǎn)。
(3)興趣度變化
隨著學(xué)生學(xué)習(xí)資源數(shù)的增加,興趣點(diǎn)會逐步分散,之前學(xué)過的知識點(diǎn)興趣度會逐漸減少,后學(xué)的知識點(diǎn)興趣度會逐漸增加。
上述用戶興趣模型是通過計(jì)算知識點(diǎn)的權(quán)值確定用戶的興趣度,此模型符合用戶的學(xué)習(xí)行為和學(xué)習(xí)習(xí)慣,具有一定的理論和現(xiàn)實(shí)依據(jù),可以作為個性化推薦的重要依據(jù)。
在定義知識點(diǎn)興趣模型的基礎(chǔ)上,學(xué)科i的興趣度Wi用學(xué)科下所有一級知識點(diǎn)的權(quán)值的加權(quán)和來計(jì)算。其中,知識點(diǎn)的權(quán)重由領(lǐng)域?qū)<覙?biāo)注,重點(diǎn)知識點(diǎn)權(quán)重大,非重點(diǎn)權(quán)重小。
其中,αj為歸一化后的權(quán)重;wj表示第j個一級知識點(diǎn)的興趣度權(quán)值。一級知識點(diǎn)的興趣度權(quán)值wj由一級知識點(diǎn)本身和它所包含的子知識點(diǎn)的興趣度來確定,其計(jì)算如公式(6):
其中,βk為歸一化后的權(quán)重;wjk表示第j個一級知識點(diǎn)包含的所有子知識點(diǎn)的興趣度權(quán)值。wj0β0為第j個一級知識點(diǎn)本身的興趣度。將(5)式、(6)式合并可以獲得公式(7):
用戶的學(xué)習(xí)能力評估由用戶在使用系統(tǒng)的過程記錄抽取分析而得,能夠反映用戶對各知識點(diǎn)的掌握程度。在學(xué)習(xí)能力評估模型中,設(shè)定用戶能力等同于用戶對知識點(diǎn)的掌握程度。掌握程度與用戶學(xué)習(xí)資源數(shù)、測試分值呈正比。因此每個知識點(diǎn)的掌握程度pj可通過兩部分:①測試結(jié)果;②用戶學(xué)習(xí)行為計(jì)算獲得。其計(jì)算公式如下式(8):
其中,totalscorej表示所有包含該知識點(diǎn)的題目數(shù)量,currentscorej表示答對的題目數(shù)量。
其中,accessj表示資源庫中用戶閱覽的包含該知識點(diǎn)的資料數(shù)量,databasej表示數(shù)據(jù)庫中包含該知識點(diǎn)的資料數(shù)量。
(3)θ的數(shù)學(xué)計(jì)算如公式(11):
其中,k表示總資料數(shù)量閾值,總資源數(shù)越多,則學(xué)習(xí)行為對能力的影響越大,當(dāng)達(dá)到閾值時影響最大,θ=1。
構(gòu)建了基于用戶興趣模型及學(xué)習(xí)能力評估模型后,需要運(yùn)用模型為用戶提供個性化信息服務(wù),即將用戶與資源進(jìn)行匹配。針對特定的用戶,首先根據(jù)本體推理獲得相關(guān)知識點(diǎn),計(jì)算該用戶對相應(yīng)知識點(diǎn)的興趣程度,按照從大到小的排序順序?qū)⒅R點(diǎn)所屬資源推薦給用戶,實(shí)現(xiàn)個性化推薦的目的。在獲得學(xué)習(xí)的基礎(chǔ)上,通過用戶的使用記錄,計(jì)算用戶對各知識點(diǎn)的掌握程度,在個性化推薦中起到輔助作用。
實(shí)現(xiàn)個性化推薦服務(wù),大體流程分為四個階段:相似用戶發(fā)現(xiàn)、資源集的確定、資源特征表示和模型匹配運(yùn)算。該流程的總體框架如圖1所示。
在在線學(xué)習(xí)應(yīng)用背景下,結(jié)合學(xué)習(xí)能力評估模型,以協(xié)同過濾算法為根據(jù),構(gòu)建個性化學(xué)習(xí)系統(tǒng)總體框架如圖2所示。
本文以在線學(xué)習(xí)為應(yīng)用背景,通過上述研究,解決了個性化推薦方法中存在的部分問題,如在線學(xué)習(xí)過程中,如何刻畫用戶的興趣;如何量化用戶的學(xué)習(xí)能力;用標(biāo)簽來描述用戶興趣,不受內(nèi)容提取技術(shù)的限制等問題。雖然對個性化推薦方法中存在問題進(jìn)行了深入研究,然而由于個性化信息服務(wù)系統(tǒng)的復(fù)雜性及研究時間、研究條件的限制等原因,還存在以下問題,值得今后繼續(xù)深入研究:多用戶興趣模型的構(gòu)建、半結(jié)構(gòu)化數(shù)據(jù)的稀疏性問題、推薦算法的可擴(kuò)展性問題、推薦算法的精度等問題。
圖1 基于用戶興趣模型的個性化信息服務(wù)流程
圖2 基于用戶興趣模型及學(xué)習(xí)能力評估模型的個性化學(xué)習(xí)系統(tǒng)