劉旭暉
摘要:互聯(lián)網(wǎng)的發(fā)展帶動(dòng)教育逐步走向信息化,如何將信息化高效融入教育是現(xiàn)代教育一項(xiàng)重要的研究?jī)?nèi)容。信息時(shí)代背景下,學(xué)習(xí)者在使用網(wǎng)絡(luò)資源時(shí),容易產(chǎn)生信息過(guò)載的問(wèn)題,使學(xué)習(xí)者無(wú)法準(zhǔn)確地獲取想要的內(nèi)容。文章提出了基于知識(shí)圖譜的學(xué)習(xí)資源推薦算法,該算法利用信息技術(shù)對(duì)學(xué)習(xí)資源進(jìn)行精準(zhǔn)定位,找到學(xué)習(xí)者和資源之間的匹配關(guān)系,快速地篩選出最有價(jià)值的學(xué)習(xí)資源,避免學(xué)習(xí)者產(chǎn)生信息認(rèn)知迷航。
關(guān)鍵詞:知識(shí)圖譜;學(xué)習(xí)資源;算法
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
0 引言
隨著互聯(lián)網(wǎng)技術(shù)及信息技術(shù)的發(fā)展,大數(shù)據(jù)時(shí)代來(lái)臨,社會(huì)中的信息量呈爆發(fā)式增長(zhǎng)。信息時(shí)代下,學(xué)習(xí)者在使用網(wǎng)絡(luò)資源的過(guò)程中,面對(duì)大量的數(shù)據(jù)信息,易產(chǎn)生信息過(guò)載、認(rèn)知迷航等問(wèn)題,使學(xué)習(xí)者無(wú)法準(zhǔn)確地獲取想要的知識(shí)內(nèi)容。針對(duì)這個(gè)問(wèn)題,研究者們提出了個(gè)性化推薦系統(tǒng),該系統(tǒng)通常是根據(jù)用戶(hù)的歷史交互信息等,獲取潛在的興趣偏好來(lái)推送相關(guān)內(nèi)容。然而,基于協(xié)同過(guò)濾的推薦算法僅根據(jù)對(duì)用戶(hù)項(xiàng)目交互信息的分析構(gòu)建用戶(hù)-項(xiàng)目評(píng)分矩陣,來(lái)完成后續(xù)算法進(jìn)行興趣推薦,這往往存在數(shù)據(jù)的稀疏性問(wèn)題和冷啟動(dòng)問(wèn)題[1]。面對(duì)海量的知識(shí)信息,學(xué)習(xí)者如何利用信息技術(shù)對(duì)學(xué)習(xí)資源進(jìn)行精準(zhǔn)定位,找到學(xué)習(xí)者和資源之間的匹配關(guān)系,快速地篩選出最有價(jià)值的學(xué)習(xí)資源,避免學(xué)習(xí)者產(chǎn)生信息認(rèn)知迷航、冷啟動(dòng)等亟待解決的問(wèn)題。
1 相關(guān)理論及技術(shù)
1.1 學(xué)習(xí)資源推薦
學(xué)習(xí)資源推薦主要分兩個(gè)步驟完成:先是建立學(xué)習(xí)者模型和資源推薦模型,然后通過(guò)合適的推薦算法對(duì)兩個(gè)模型進(jìn)行匹配,以完成學(xué)習(xí)者獲取學(xué)習(xí)資源[2]。目前的學(xué)習(xí)資源推薦策略主要包括基于內(nèi)容的推薦、基于深度學(xué)習(xí)的推薦、協(xié)同過(guò)濾推薦、基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦和基于關(guān)聯(lián)規(guī)則的推薦等。這些推薦算法均存在數(shù)據(jù)的稀疏性問(wèn)題或冷啟動(dòng)問(wèn)題,造成問(wèn)題的原因是算法忽視了知識(shí)的邏輯性。
1.2 知識(shí)圖譜
近年來(lái),越來(lái)越多的應(yīng)用程序把數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)為知識(shí)圖譜(Knowledge Graph, KG)的形式,這種形式包含實(shí)體與實(shí)體之間的鏈接,建立項(xiàng)目與屬性之間的聯(lián)系,其目的是提高推薦系統(tǒng)傳遞給用戶(hù)信息的準(zhǔn)確率,縮小用戶(hù)的選擇范圍,以便用戶(hù)做出更快、更優(yōu)的選擇,從而提高用戶(hù)的信任度[2]。在結(jié)構(gòu)方面,知識(shí)圖譜是由節(jié)點(diǎn)、邊兩大要素構(gòu)成,每條知識(shí)有兩種表示方式,可以表示成<實(shí)體, 實(shí)體關(guān)系, 實(shí)體>,也可以表示為<實(shí)體, 屬性, 屬性值>的三元組, 然后將所有數(shù)據(jù)組織成一張有向圖的學(xué)習(xí)資源。推薦方法基本上分為兩大類(lèi):基于本體的推薦生成和基于開(kāi)放鏈接數(shù)據(jù)的推薦生成。知識(shí)圖譜的技術(shù)研究主要分為知識(shí)抽取、知識(shí)融合、知識(shí)推理、知識(shí)圖譜應(yīng)用4個(gè)階段[3]?,F(xiàn)階段,在基于知識(shí)圖譜的學(xué)習(xí)資源推薦算法中,擁有比較豐富的知識(shí)關(guān)系和語(yǔ)義信息的圖譜容易受到研究者的青睞[4]。
2 基于知識(shí)圖譜的學(xué)習(xí)資源推薦算法分析
傳統(tǒng)的學(xué)習(xí)資源推薦算法,對(duì)于知識(shí)邏輯的認(rèn)知存在一定欠缺,也忽視了邏輯的重要性,而本文提出的推薦算法將知識(shí)圖譜的相關(guān)信息融入算法,不僅能夠?qū)崿F(xiàn)對(duì)學(xué)習(xí)者所需學(xué)習(xí)資源進(jìn)行關(guān)注,還能充分考慮到學(xué)習(xí)者所需的其他相關(guān)知識(shí)內(nèi)容,使推薦算法具有更強(qiáng)的邏輯性。這種算法對(duì)推薦系統(tǒng)中的“冷啟動(dòng)”問(wèn)題也做出了相應(yīng)的改進(jìn)。
2.1 用戶(hù)興趣和資源相似度的計(jì)算方式
用戶(hù)興趣和資源相似度包含的范圍比較廣泛,同時(shí)也涉及許多具體的算法。本文將不同用戶(hù)的興趣特點(diǎn)作為關(guān)鍵詞,能夠使各項(xiàng)數(shù)據(jù)更加集中,將用戶(hù)特征更為明顯地體現(xiàn)出來(lái)。
由于數(shù)據(jù)集的限制,因此使用詞向量計(jì)算文本的相似度,即用戶(hù)興趣與資源的相似度。相似度定義如下:
U,u,N(u),|N(u)|分別表示用戶(hù)集合、目標(biāo)用戶(hù)、當(dāng)前用戶(hù)使用過(guò)的歷史資源集合用戶(hù)歷史學(xué)習(xí)資源集合的數(shù)。通過(guò)上述公式可以計(jì)算用戶(hù)興趣與資源的相似度,可以看出,當(dāng)相似度的值越高,學(xué)習(xí)資源與用戶(hù)的學(xué)習(xí)需求、學(xué)習(xí)興趣等的匹配度越高,該資源就越值得向用戶(hù)推薦。
2.2 知識(shí)連接度
在對(duì)用戶(hù)進(jìn)行學(xué)習(xí)資源推薦的過(guò)程中,應(yīng)當(dāng)盡量選擇符合用戶(hù)特點(diǎn)和用戶(hù)需求的資源,這類(lèi)學(xué)習(xí)資源既包括具體的知識(shí)點(diǎn),又包括用戶(hù)自身對(duì)知識(shí)點(diǎn)的認(rèn)知情況,這些知識(shí)點(diǎn)之間的連接越緊密就越值得被推薦。
在知識(shí)圖譜中,通常用k1和k2對(duì)任意知識(shí)點(diǎn)進(jìn)行表示,k1和k2之間的最短距離則為ShortestPath(k2,k1),公式定義為:
知識(shí)點(diǎn)k2到k1的知識(shí)連接度的公式定義為:
從上述公式可以看出,當(dāng)路徑越小時(shí),知識(shí)連接越緊密,同時(shí)知識(shí)點(diǎn)的連接度就比較大。
2.3 需求分析
(1)數(shù)據(jù)采集、處理與存儲(chǔ)。想要為用戶(hù)提供更加精確的學(xué)習(xí)資源推薦就應(yīng)當(dāng)提高數(shù)據(jù)采集、處理和儲(chǔ)存的能力。系統(tǒng)需要對(duì)用戶(hù)進(jìn)行采集的信息有課程知識(shí)圖譜、課程資源數(shù)據(jù)、交互數(shù)據(jù)等;通過(guò)系統(tǒng)對(duì)數(shù)據(jù)的處理分析可以使學(xué)習(xí)資源的推薦變得更加精確化。
(2)用戶(hù)管理功能。用戶(hù)管理主要針對(duì)的是用戶(hù)個(gè)人信息部分的管理,因此系統(tǒng)需要為用戶(hù)提供注冊(cè)、登錄、注銷(xiāo)等功能,從而形成用戶(hù)單獨(dú)的學(xué)習(xí)資源庫(kù),并保障用戶(hù)信息安全。
(3)資源展示功能。用戶(hù)在學(xué)習(xí)的過(guò)程中,除了對(duì)當(dāng)前所學(xué)知識(shí)進(jìn)行關(guān)注外,還存在對(duì)其他相關(guān)學(xué)習(xí)資源與信息進(jìn)行獲取的需求,因此系統(tǒng)應(yīng)當(dāng)實(shí)現(xiàn)對(duì)學(xué)習(xí)資源的展示,為用戶(hù)提供更多的選擇,例如通過(guò)主頁(yè)展示熱門(mén)資源、通過(guò)推薦頁(yè)展示個(gè)性化資源等。
2.4 初學(xué)者推薦算法的策略
上述算法主要針對(duì)系統(tǒng)的老用戶(hù),這類(lèi)用戶(hù)在系統(tǒng)內(nèi)已經(jīng)存在相關(guān)的歷史數(shù)據(jù)信息,因此可以直接應(yīng)用用戶(hù)數(shù)據(jù)來(lái)完成學(xué)習(xí)資源的推薦。然而還有許多第一次使用系統(tǒng)的新用戶(hù),系統(tǒng)無(wú)法提供任何有效數(shù)據(jù),這就涉及“冷啟動(dòng)”的問(wèn)題。在“冷啟動(dòng)”的情況下,系統(tǒng)沒(méi)有辦法直接對(duì)用戶(hù)的知識(shí)水平、知識(shí)需求、興趣愛(ài)好等做出有效的分析與判斷,因此需要進(jìn)一步提出新用戶(hù)的推薦策略[5]。
本研究對(duì)于“冷啟動(dòng)”問(wèn)題的處理是通過(guò)用戶(hù)自主提供和選擇的信息來(lái)完成學(xué)習(xí)資源的合理推薦。當(dāng)初學(xué)者輸入關(guān)鍵詞后,知識(shí)圖譜就能夠完成匹配度的計(jì)算,以關(guān)鍵詞為中心向其他知識(shí)內(nèi)容進(jìn)行擴(kuò)散。由于從關(guān)鍵詞擴(kuò)散的知識(shí)點(diǎn)內(nèi)容比較廣泛、資源比較繁多,系統(tǒng)可以從擴(kuò)散的知識(shí)點(diǎn)中選擇重點(diǎn)知識(shí),建立該用戶(hù)的知識(shí)庫(kù),再將與知識(shí)庫(kù)資源相似度較高的知識(shí)點(diǎn)進(jìn)行針對(duì)性推薦。初學(xué)者推薦模型流程如圖1所示。
3 試驗(yàn)與分析
本研究的推薦算法選取機(jī)器學(xué)習(xí)方面的資源-用戶(hù)數(shù)據(jù),這是由于開(kāi)始建立的算法基礎(chǔ)是創(chuàng)建在機(jī)器學(xué)習(xí)知識(shí)的圖譜上。在實(shí)施過(guò)程中會(huì)產(chǎn)生實(shí)體識(shí)別誤差和實(shí)體誤差,這對(duì)于推薦的準(zhǔn)確度會(huì)產(chǎn)生一定的影響。因此,選取的數(shù)據(jù)應(yīng)該是在構(gòu)建知識(shí)圖譜數(shù)據(jù)庫(kù)集過(guò)程中就已構(gòu)建好的資源知識(shí)庫(kù)。
3.1 數(shù)據(jù)預(yù)處理
本實(shí)驗(yàn)的數(shù)據(jù)來(lái)源于某圖書(shū)城,數(shù)據(jù)集包含標(biāo)簽為“建筑電氣”的全部圖書(shū)信息的用戶(hù)數(shù)據(jù),選取的有效數(shù)據(jù)集包含:198本圖書(shū),8 569個(gè)學(xué)習(xí)者,12 851條學(xué)習(xí)者-圖書(shū)的行為數(shù)據(jù)。數(shù)據(jù)的稀疏度可以計(jì)算為:
1-1251/(8 569×198)=0.992 4
從上式計(jì)算結(jié)果來(lái)看,所產(chǎn)生的數(shù)據(jù)非常的稀疏。
3.2 試驗(yàn)過(guò)程
(1)在知識(shí)圖譜的構(gòu)建過(guò)程中,要建立資源知識(shí)庫(kù),每一個(gè)資源都維系著一個(gè)知識(shí)點(diǎn)的列表。
(2)形成學(xué)習(xí)者認(rèn)知知識(shí)庫(kù),該庫(kù)實(shí)際上是根據(jù)學(xué)習(xí)者的歷史行為,由歷史資源列表中每一個(gè)資源所包含的知識(shí)面實(shí)體和知識(shí)點(diǎn)實(shí)體形成的集合。
(3)采用合適的知識(shí)圖譜推薦算法計(jì)算各種資源和學(xué)習(xí)者之間的連接度,選取連接度最高的多個(gè)資源,將其組成推薦列表推薦給學(xué)習(xí)者。
3.3 試驗(yàn)結(jié)果與分析
在推薦算法模型的建立過(guò)程中,使用參數(shù)s進(jìn)行加權(quán)融合,1>s>0,參數(shù)s也表示了學(xué)習(xí)者興趣相似度和知識(shí)連接度的重要程度。本研究通過(guò)多次試驗(yàn)確定了s的取值,如圖2所示為推薦系統(tǒng)在不同的s值下的表現(xiàn)情況。
試驗(yàn)數(shù)據(jù)表明當(dāng)K=5時(shí),效果最好。當(dāng)K=10,K=20,K=50時(shí),推薦系統(tǒng)的性能會(huì)隨著不同的s值先增加后下降,當(dāng)s值在0.6~0.8時(shí)值最高。當(dāng)0.2>s>0.1以及0.8>s>0.6,推薦系統(tǒng)性能都達(dá)到了最優(yōu)。在數(shù)據(jù)集中包含所有標(biāo)簽為“建筑電氣”的數(shù)據(jù)集,當(dāng)下較為受歡迎的書(shū)籍有相關(guān)設(shè)計(jì)及電氣工程施工類(lèi)的,這類(lèi)書(shū)籍的知識(shí)內(nèi)容較多、知識(shí)面廣,但是不是特別深入。高職學(xué)生在學(xué)習(xí)該領(lǐng)域的知識(shí)時(shí)會(huì)選擇這類(lèi)圖書(shū)作為啟蒙學(xué)習(xí)資源,因此這類(lèi)資源推薦文本的相似度比重就非常高。這也正好驗(yàn)證了,當(dāng)0.2>s>0.1時(shí),推薦系統(tǒng)的推薦效果較好的原因。通過(guò)綜合對(duì)比,最終確定了s值為0.7時(shí)達(dá)到最優(yōu),推薦的準(zhǔn)確率最高。
當(dāng)s值為0.7時(shí),通過(guò)對(duì)推薦準(zhǔn)確率、召回率和覆蓋率試驗(yàn)數(shù)據(jù)結(jié)果進(jìn)行分析,采用傳統(tǒng)的基于用戶(hù)的協(xié)同過(guò)濾和基于物品的協(xié)同過(guò)濾與本文提出的推薦算法的協(xié)同過(guò)濾結(jié)果進(jìn)行對(duì)比,本文提出的基于知識(shí)圖譜的協(xié)同過(guò)濾推薦算法在推薦效果上比另外兩種推薦算法要好。而且相對(duì)于學(xué)習(xí)資源和學(xué)習(xí)者興趣的相似度,各個(gè)知識(shí)之間的連接度對(duì)推薦學(xué)習(xí)資源都具有更好的效果,這也充分說(shuō)明了學(xué)習(xí)資源的推薦中一項(xiàng)重要的內(nèi)容是根據(jù)知識(shí)之間的關(guān)系,這也是研究者關(guān)注的重點(diǎn)內(nèi)容。
4 結(jié)語(yǔ)
互聯(lián)網(wǎng)的快速發(fā)展推動(dòng)了教育逐步走向信息化,學(xué)習(xí)者在使用學(xué)習(xí)資源的過(guò)程中,容易產(chǎn)生信息過(guò)載的現(xiàn)象,學(xué)習(xí)資源推薦技術(shù)是解決這一問(wèn)題的有效途徑。基于知識(shí)圖譜的學(xué)習(xí)資源推薦算法,本研究?jī)A向于考慮知識(shí)點(diǎn)之間的關(guān)系,不但考慮學(xué)習(xí)者愛(ài)好學(xué)習(xí)什么,而且充分考慮學(xué)習(xí)者可能接觸到什么知識(shí),該算法不依賴(lài)學(xué)習(xí)資源的交互。隨著推薦技術(shù)研究的不斷深入,各類(lèi)推薦算法爭(zhēng)奇斗艷,推薦算法將更加優(yōu)化,以提高推薦的精準(zhǔn)性。
參考文獻(xiàn)
[1]譚樂(lè)平,楊夏.基于知識(shí)圖譜下的艦船電子信息協(xié)同推薦算法[J].艦船科學(xué)技術(shù),2020(14):166-168.
[2]李其娜.基于知識(shí)圖譜的《數(shù)據(jù)結(jié)構(gòu)》個(gè)性化習(xí)題推薦系統(tǒng)研究與實(shí)現(xiàn)[D].桂林:廣西師范大學(xué),2020.
[3]張迪.基于知識(shí)圖譜的教學(xué)資源推薦方法研究[D].武漢:華中師范大學(xué),2019.
[4]王冬青,殷紅巖.基于知識(shí)圖譜的個(gè)性化習(xí)題推薦系統(tǒng)設(shè)計(jì)研究[J].中國(guó)教育信息化,2019(17):81-86.
[5]常亮,張偉濤,古天龍,等.知識(shí)圖譜的推薦系統(tǒng)綜述[J].智能系統(tǒng)學(xué)報(bào),2019(2):207-216.
(編輯 沈 強(qiáng))
Research on learning resource recommendation algorithm based on knowledge graph
Liu Xuhui
(Hunan Urban Construction College, Xiangtan 411101,China)
Abstract: With the development of the internet, education is gradually moving towards informationization. How to integrate informationization into education efficiently is an important research content of modern education. Under the background of the network era, learners are prone to problems such as information overload and massive content in the process of using network resources, which makes learners unable to accurately obtain the knowledge content they want. This paper proposes a learning resource recommendation algorithm based on knowledge graph, which uses information technology to accurately locate learning resources, find the matching relationship between learners and resources, and quickly screen out the most valuable learning resources to avoid the learners information cognitive trek.
Key words: knowledge map; learning resources; algorithm