劉海池,王 挺,唐晉韜,寧 洪,魏登萍,劉培磊
(國防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙 410073)
Linked Data數(shù)據(jù)集的主題模型建立方法
劉海池,王 挺,唐晉韜,寧 洪,魏登萍,劉培磊
(國防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙 410073)
提出了建立Linked Data數(shù)據(jù)集主題模型的方法.首先,將數(shù)據(jù)集中的RDF陳述三元組轉(zhuǎn)換成主謂賓結(jié)構(gòu)的語句,從而將Linked Data數(shù)據(jù)集轉(zhuǎn)化為文本文檔;然后,使用LDA算法對(duì)所有數(shù)據(jù)集的文本文檔進(jìn)行主題建模,即可得到每個(gè)數(shù)據(jù)集的主題向量,該向量就是描述數(shù)據(jù)集內(nèi)容主題的特征.在Linked Data數(shù)據(jù)集鏈接目標(biāo)推薦問題上,引入數(shù)據(jù)集的主題特征進(jìn)行實(shí)驗(yàn).使用數(shù)據(jù)集主題向量的余弦相似度替換基于記憶的協(xié)同過濾推薦算法中的相似度計(jì)算模塊.結(jié)果表明,推薦效果比原始的協(xié)同過濾算法有很大提升.
Linked Data;數(shù)據(jù)集;主題模型;LDA;推薦系統(tǒng);協(xié)同過濾
經(jīng)過10多年的努力,語義網(wǎng)的理論基礎(chǔ)已經(jīng)奠定,W3C有關(guān)語義網(wǎng)的技術(shù)規(guī)范也逐步得到了完善.[1]同時(shí),鏈接數(shù)據(jù)(Linked Data)指導(dǎo)原則[2]已經(jīng)成為在萬維網(wǎng)上發(fā)布RDF數(shù)據(jù)的基本準(zhǔn)則,一個(gè)基于RDF數(shù)據(jù)模型的數(shù)據(jù)之網(wǎng)(Web of Data)正在快速增長.鏈接開放數(shù)據(jù)(Linking Open Data)項(xiàng)目的成立,極大地促進(jìn)了鏈接數(shù)據(jù)的發(fā)展.截至2014年4月,已經(jīng)發(fā)布1 014個(gè)數(shù)據(jù)集,包含8 038 396個(gè)資源.[3]然而數(shù)據(jù)之網(wǎng)上的數(shù)據(jù)集缺乏關(guān)于其內(nèi)容的描述信息,例如Linked Data數(shù)據(jù)集注冊(cè)中心Datahub上,僅有一些簡單的標(biāo)簽和關(guān)于數(shù)據(jù)集大小、發(fā)布者、發(fā)布時(shí)間等結(jié)構(gòu)化元數(shù)據(jù)可用,關(guān)于數(shù)據(jù)集內(nèi)容或主題的描述通常是缺失的,這給使用者選擇數(shù)據(jù)集帶來了困難.主題模型作為一種統(tǒng)計(jì)方法,它通過分析非結(jié)構(gòu)化文本中的詞語以發(fā)現(xiàn)蘊(yùn)藏于其中的主題.[4]如果能夠有一種方法對(duì)Linked Data數(shù)據(jù)集建立主題模型,然后利用獲得的主題向量,就可以更好地支持?jǐn)?shù)據(jù)集的檢索、分類、聚類、摘要提取以及數(shù)據(jù)集間相似性、相關(guān)性判斷等一系列應(yīng)用.
主題模型起源是隱性語義索引(Latent Semantic Indexing,LSI)[5].LSI 并不是概率模型,因此也算不上一個(gè)主題模型,但是其基本思想為主題模型的發(fā)展奠定了基礎(chǔ).T.Hofmann[6]提出了概率隱性語義索引(Probabilistic Latent Semantic Indexing,pLSI),pLSI模型被看成是第一個(gè)真正意義上的主題模型.而此后D.M.Blei等人[7]提出的隱性狄里克雷分配(Latent Dirichlet Allocation,LDA)又在pLSI的基礎(chǔ)上進(jìn)行擴(kuò)展,得到了一個(gè)更為完全的概率生成模型.LDA是一種生成式貝葉斯概率模型,將文檔集中的文檔建模為“詞項(xiàng)-主題-文檔”3層結(jié)構(gòu).LDA 基于“詞袋”假設(shè),不考慮詞項(xiàng)之間的相互關(guān)系,將文檔看做詞項(xiàng)的獨(dú)立出現(xiàn)的集合.在此基礎(chǔ)上,LDA認(rèn)為在文檔的背后隱藏著由詞項(xiàng)分布表示的話題,因此每篇文檔可以看做是若干話題的分布.LDA假設(shè)文檔中話題的分布服從Dirichlet分布,而話題中詞項(xiàng)的分布服從多項(xiàng)式分布,從而簡化了模型參數(shù)的推導(dǎo)過程.
但Linked Data數(shù)據(jù)集由RDF三元組的結(jié)構(gòu)化數(shù)據(jù)組成,不能夠直接應(yīng)用主題模型算法.為此,本文提出了Linked Data數(shù)據(jù)集的主題模型建立方法.首先,按照實(shí)體的類型,對(duì)數(shù)據(jù)集進(jìn)行分割,將描述同一類型實(shí)體的三元組聚集在一起形成子數(shù)據(jù)集.然后,對(duì)子數(shù)據(jù)集中的RDF陳述三元組,去除URI中的命名空間信息,從而將RDF陳述轉(zhuǎn)換為句子.這樣,就可以將數(shù)據(jù)集轉(zhuǎn)換成本文文檔.在文本文檔集合上,應(yīng)用各種主題模型算法計(jì)算主題向量.最后,以分割后數(shù)據(jù)集的三元組數(shù)量為權(quán)重,綜合得到原始數(shù)據(jù)集的主題向量.在Linked Data數(shù)據(jù)集鏈接目標(biāo)推薦問題上應(yīng)用學(xué)習(xí)到的數(shù)據(jù)集主題模型進(jìn)行實(shí)驗(yàn).協(xié)同過濾是經(jīng)典的推薦系統(tǒng)算法,在基于記憶的協(xié)同過濾算法中,通常使用評(píng)分歷史記錄計(jì)算用戶或者物品的相似度[8].使用數(shù)據(jù)集的主題向量的余弦值來計(jì)算相似度,從而形成新的推薦算法.在LOD Cloud 2014[3]上,利用數(shù)據(jù)集間的鏈接關(guān)系構(gòu)造 “用戶-物品”評(píng)分矩陣,并在該實(shí)驗(yàn)數(shù)據(jù)上評(píng)價(jià)了多個(gè)協(xié)同過濾推薦算法的性能.實(shí)驗(yàn)表明,利用數(shù)據(jù)集的主題向量計(jì)算相似度的推薦算法,無論在評(píng)分的準(zhǔn)確性還是推薦列表的準(zhǔn)確性上都表現(xiàn)更好.
Linked Data數(shù)據(jù)集的主題模型建立過程可以形式化描述:給定Linked Data數(shù)據(jù)集的集合{d1,d2,…,dn},并指定主題的數(shù)量m,使用特定算法進(jìn)行訓(xùn)練學(xué)習(xí),得到每個(gè)數(shù)據(jù)集的內(nèi)容在m個(gè)主題上的概率分布,并用向量(t1,t2,…,tm)表示.由于Linked Data數(shù)據(jù)集定義為RDF三元組的集合[1],并不是文本文檔,不能夠直接應(yīng)用主題模型算法進(jìn)行計(jì)算,因此需要經(jīng)過一定的處理,如圖1所示.
圖1 Linked Data數(shù)據(jù)集主題模型建模方法流程
1.1 按照實(shí)體類型分割數(shù)據(jù)集
Linked Data數(shù)據(jù)集通常會(huì)包含多種類型的實(shí)體,每種類型的實(shí)體都由一系列三元組描述.根據(jù)類型的不同,這些三元組通常會(huì)描述實(shí)體的名稱以及其他不同屬性的取值.同一類型實(shí)體的三元組描述內(nèi)容,主題上應(yīng)該相對(duì)集中,因此,可以對(duì)數(shù)據(jù)集內(nèi)的三元組按照類型分割,把描述某種類型的實(shí)體的三元組看做一個(gè)整體.rdf:type屬性表示實(shí)體的類型信息,(subject rdf:type class_uri)三元組模式指明了實(shí)體所屬的類型.對(duì)數(shù)據(jù)集按照類型分割時(shí)可以采用如下方法:首先找到數(shù)據(jù)集內(nèi)所有的類型,使用SPARQL語句select distinct ?class_uri where {?s a ?class_uri.}.然后用查詢到的所有類型URI,構(gòu)造SPARQL語句select ?s ?p ?o where {?s a <" + class_uri + ">.?s ?p ?o.},該語句的查詢結(jié)果就是描述某種類型實(shí)體的所有三元組集合.數(shù)據(jù)集內(nèi)也可能存在不包含顯式的類型信息的實(shí)體,這些實(shí)體類型為owl:Thing.使用語句select ?s ?p ?o where {?s ?p ?o.FILTER NOT EXISTS {?s a ?class.}}查詢,可以得到這些實(shí)體的三元組.
1.2 對(duì)按類型分割的數(shù)據(jù)集進(jìn)行轉(zhuǎn)換
這一步主要是把數(shù)據(jù)集內(nèi)的三元組轉(zhuǎn)換為句子.數(shù)據(jù)集所包含的RDF陳述用于描述資源所具有的屬性.一個(gè)陳述是一個(gè)“對(duì)象-屬性-值”三元組,由一個(gè)資源、一個(gè)屬性和一個(gè)值組成,值可以是資源,也可以是字面量(literal),字面量是原子值(字符串).一個(gè)陳述是一個(gè)“主語-謂語-賓語”結(jié)構(gòu)的三元組,除字面量外,由一個(gè)統(tǒng)一資源標(biāo)志符(Uniform Resource Identifier,或URI)表示.字面量本身是文本,不需要處理,而URI是一個(gè)用于標(biāo)志某一互聯(lián)網(wǎng)資源名稱的字符串,包含命名空間(namespace)和本地名稱(localname)2個(gè)部分,其中命名空間部分屬于模式信息.把URI的命名空間部分去掉,只留下本體名稱部分,就可以把RDF陳述三元組變成句子.例如,3個(gè)陳述三元組:
經(jīng)過處理,就變成3個(gè)句子:
處理之后,按類型分割的數(shù)據(jù)集,都變成了包含該類型實(shí)體陳述句子的文本文檔了,所有分割后的數(shù)據(jù)集經(jīng)轉(zhuǎn)換得到的文本文檔作為文檔集合.
1.3 在文檔集合上訓(xùn)練主體模型
利用上節(jié)的方法,把數(shù)據(jù)集分割、轉(zhuǎn)換成本文文檔后,能夠應(yīng)用主題模型算法,計(jì)算文檔的主題向量.本文中的文檔集合是LOD Cloud 2014[3]的所有數(shù)據(jù)集經(jīng)處理所形成的文檔集合.使用Mallet工具包[9]中的LDA算法,訓(xùn)練主題模型.在訓(xùn)練之前,首先對(duì)轉(zhuǎn)換得到的文本文檔進(jìn)行一系列預(yù)處理,主要包括特殊符號(hào)、分詞、停用詞的除卻及大寫變小寫等.實(shí)驗(yàn)中,主題數(shù)設(shè)定為150,訓(xùn)練周期數(shù)設(shè)定為2 000.最終每個(gè)按類型分割的數(shù)據(jù)集得到一個(gè)表示其內(nèi)容的150維的主題向量.
1.4 形成原始數(shù)據(jù)集主題向量
經(jīng)過上述步驟,得到了按類型分割的數(shù)據(jù)集內(nèi)容的主題向量.為了得到分割前數(shù)據(jù)集的主題向量,我們需要進(jìn)行綜合.可以根據(jù)分割后數(shù)據(jù)集三元組的數(shù)量,按照權(quán)重求和方法,得到分割前數(shù)據(jù)集的主題向量.計(jì)算公式為
其中:count(x)為數(shù)據(jù)集x包含的三元組數(shù)量,di為按類型分割后的數(shù)據(jù)集中第i個(gè)類的子數(shù)據(jù)集,d為分割之前的原始數(shù)據(jù)集,(ti1,ti2,…,tin)為數(shù)據(jù)集di的主題向量,(t1,t2,…,tn)為綜合后數(shù)據(jù)集d的主題向量.
使用上述方法,可以得到數(shù)據(jù)集表示數(shù)據(jù)集內(nèi)容的主題向量.為了驗(yàn)證主題向量的建模效果,我們?cè)跀?shù)據(jù)集鏈接關(guān)系推薦[10]問題上進(jìn)行了實(shí)驗(yàn).根據(jù)Linked Data的基本原則,數(shù)據(jù)集之間要建立盡可能多的鏈接.但隨著Web of Data上發(fā)布的數(shù)據(jù)集越來越多,對(duì)于數(shù)據(jù)集發(fā)布者來說,尋找可以建立鏈接關(guān)系的目標(biāo)數(shù)據(jù)集是一個(gè)具有挑戰(zhàn)性的問題.之前的工作[10]把這一問題轉(zhuǎn)換為推薦系統(tǒng)問題,取得了較好的效果.在推薦過程中,發(fā)現(xiàn)數(shù)據(jù)集內(nèi)容特征的描述對(duì)發(fā)現(xiàn)目標(biāo)數(shù)據(jù)集是至關(guān)重要的.因此,本文探索了使用LDA算法對(duì)Linked Data數(shù)據(jù)集進(jìn)行主題建模的方法.利用主題建模得到的主題向量計(jì)算數(shù)據(jù)集間的相似度,并取代傳統(tǒng)推薦算法的相似度計(jì)算模塊,通過實(shí)驗(yàn)來說明本文提出的主題建模方法的有效性.實(shí)驗(yàn)中,原始算法和評(píng)價(jià)指標(biāo)的計(jì)算都是利用Mahout[11]實(shí)現(xiàn)的.
2.1 推薦系統(tǒng)實(shí)驗(yàn)框架
在推薦系統(tǒng)實(shí)驗(yàn)中,數(shù)據(jù)集同時(shí)類比表示為用戶和物品,數(shù)據(jù)集間的鏈接關(guān)系類比為用戶對(duì)物品的購買或評(píng)分,建立相互鏈接關(guān)系的“用戶-物品”矩陣,然后用推薦算法作為數(shù)據(jù)集推薦可鏈接的目標(biāo)數(shù)據(jù)集.協(xié)同過濾是推薦系統(tǒng)領(lǐng)域的經(jīng)典算法,可以分為基于記憶的算法和基于模型的算法.基于記憶的算法又可以分為基于用戶的和基于物品的算法,[8]在基于記憶的推薦算法中,一個(gè)重要步驟是通過評(píng)分歷史計(jì)算用戶或者物品的相似度.例如,2個(gè)用戶相似度就是他們?cè)u(píng)過分的物品列表的相似度,而2個(gè)物品相似度就是對(duì)它們?cè)u(píng)過分的用戶列表的相似度,列表相似度使用向量夾角的余弦值計(jì)算.
可以利用數(shù)據(jù)集的主題向量的余弦值,來計(jì)算數(shù)據(jù)集的相似度,并作為基于記憶的推薦算法中的相似度計(jì)算模塊,并把得到的推薦算法分別記為Item-Topic和User-Topic.為了對(duì)比推薦實(shí)驗(yàn)的效果,選擇了一些基礎(chǔ)算法和原始協(xié)同過濾算法作為baseline.Random推薦算法產(chǎn)生隨機(jī)的評(píng)分和推薦列表,ItemAverage推薦算法總是把所有評(píng)分的平均值作為對(duì)物品的評(píng)分預(yù)測.ItemUserAverage算法跟ItemAverage類似,但是把待推薦用戶的所有評(píng)分的平均值作為該用戶對(duì)未知物品的評(píng)分.Item-based是原始的基于物品的協(xié)同過濾算法.對(duì)于基于用戶的算法User-based有2種選擇鄰居的方法,分別是基于固定的鄰居數(shù)和基于相似度閾值.實(shí)驗(yàn)中嘗試了一系列可能的參數(shù)取值,對(duì)于固定的鄰居數(shù)n,取值1~10,對(duì)于相似度閾值t,以0.1為步長,取值0.1~0.9.選擇取得最佳的結(jié)果作為實(shí)驗(yàn)結(jié)果,參數(shù)設(shè)置標(biāo)記在算法名稱后面.RatingSGD是基于模型的推薦算法,它有3個(gè)參數(shù)可設(shè)置,分別是因子數(shù)f、學(xué)習(xí)率γ和周期數(shù)i,同樣,本文給出了最優(yōu)參數(shù)取得的結(jié)果.
2.2 實(shí)驗(yàn)數(shù)據(jù)構(gòu)造
為了進(jìn)行數(shù)據(jù)集推薦實(shí)驗(yàn),首先需要構(gòu)造“用戶-評(píng)分”矩陣.我們把數(shù)據(jù)集之間的鏈接關(guān)系看做是數(shù)據(jù)集之間的評(píng)分,也就是說,如果2個(gè)數(shù)據(jù)集d1到d2之間有RDF鏈接,那么就認(rèn)為數(shù)據(jù)集d1對(duì)d2有評(píng)分關(guān)系.評(píng)分值的定義方法是數(shù)據(jù)集之間的RDF鏈接三元組數(shù)量的數(shù)字位數(shù),這一過程見圖2.圖2(a)表示的是5個(gè)數(shù)據(jù)集間的鏈接關(guān)系,圓圈中的數(shù)字表示數(shù)據(jù)集所包含的實(shí)體的個(gè)數(shù),箭頭表示2個(gè)數(shù)據(jù)集之間的RDF鏈接,箭頭的方向由RDF鏈接三元組主語所在的數(shù)據(jù)集指向賓語所在的數(shù)據(jù)集,箭頭上的數(shù)字表示RDF鏈接三元組的數(shù)量.圖2(b)表示從圖2(a)中構(gòu)造的“用戶-物品”的二部圖.圖2(c)是最終所生成的5行5列“用戶-物品”矩陣.數(shù)據(jù)集d1到d2有243個(gè)RDF鏈接,那么對(duì)應(yīng)的用戶評(píng)分矩陣中r1,2值為3.
使用文獻(xiàn)[3]中提供的LOD Cloud 2014數(shù)據(jù)集構(gòu)造推薦系統(tǒng)的實(shí)驗(yàn)數(shù)據(jù),這些數(shù)據(jù)是我們?cè)?014年4月從900 129個(gè)文檔中爬取的.爬取到的數(shù)據(jù)提供N-Quad格式的文件下載,文件大小約為50 GB,共包含來自1 014個(gè)數(shù)據(jù)集的1.88×108個(gè)三元組.根據(jù)圖2 的方法,最終得到的推薦系統(tǒng)數(shù)據(jù)集有1 014 個(gè)“用戶”、1 014個(gè)“物品”、4 993個(gè)評(píng)分值.
(a)數(shù)據(jù)集間的鏈接關(guān)系
2.3 實(shí)驗(yàn)結(jié)果
在評(píng)價(jià)推薦結(jié)果的評(píng)分準(zhǔn)確度時(shí),選擇了平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)2個(gè)評(píng)價(jià)指標(biāo),它們用于評(píng)價(jià)推薦算法給出的打分同真實(shí)打分之間的差別大小,取值越小說明預(yù)測評(píng)分越準(zhǔn)確.對(duì)于每個(gè)用戶,取出一部分打分作為訓(xùn)練數(shù)據(jù)來計(jì)算推薦結(jié)果,剩余的評(píng)分作為標(biāo)準(zhǔn)答案.因?yàn)閿?shù)據(jù)是隨機(jī)分割的,因此對(duì)于每個(gè)推薦算法,進(jìn)行10次測試然后取平均值.不同推薦算法的MAE和RMSE值對(duì)比見表1和2.由表1和2可以看到用主題向量計(jì)算數(shù)據(jù)集相似度,無論MAE還是RMSE都比原來的算法效果要好,MAE值降低了12%到46%,RMSE值降低了3%到39%.所有算法中,效果最好的是基于主題向量相似度的帶閾值的基于用戶的推薦算法(見表1和2黑體字).
表1 不同推薦算法的MAE值對(duì)比
表2 不同推薦算法的RMSE值對(duì)比
有時(shí),比起評(píng)分值,用戶更關(guān)心推薦系統(tǒng)給出的推薦列表是否準(zhǔn)確,因此我們還對(duì)TopN推薦進(jìn)行了評(píng)價(jià).使用了F1值和NDCG(Normalized Discounted Cumulative Gain)這2個(gè)指標(biāo).用于評(píng)價(jià)推薦列表的排序質(zhì)量,取值越大越好.我們采用“留一法”進(jìn)行實(shí)驗(yàn),對(duì)于每個(gè)用戶,去掉TopN個(gè)評(píng)分,然后用該用戶剩下的評(píng)分和其他所有用戶的所有評(píng)分作為訓(xùn)練數(shù)據(jù),所有用戶的平均結(jié)果作為最終結(jié)果.因?yàn)橛?xùn)練數(shù)據(jù)是按照評(píng)分降序選擇的,因此對(duì)于基于記憶的推薦算法不需要多次重復(fù)實(shí)驗(yàn).對(duì)于矩陣因子分解算法,由于最初的向量是隨機(jī)初始化的,因此我們進(jìn)行了10次測試后,取平均值.不同推薦算法的F1值和NDCG對(duì)比見表3和4.從表3和4可以看出,在基于物品的推薦算法中,使用主題向量計(jì)算數(shù)據(jù)集相似度較原始算法效果差.但在基于用戶的推薦算法中,使用主題向量計(jì)算相似度,效果較好,F(xiàn)1值提升了13%到177%,NDCG值提升了19%到246%.
表3 不同推薦算法Top N推薦的F1值對(duì)比
表4 不同推薦算法Top N推薦的NDCG值對(duì)比
通過2個(gè)實(shí)驗(yàn)對(duì)比表明,使用數(shù)據(jù)集的主題向量計(jì)算數(shù)據(jù)集相似度是可行的,而且得到的相似度較準(zhǔn)確.在絕大多數(shù)情況下,比基于記憶的協(xié)同過濾推薦算法中使用評(píng)分歷史計(jì)算相似度效果好(見表3和4黑體字).
本文提出了Linked Data數(shù)據(jù)集主題模型的建立方法.該方法把RDF陳述轉(zhuǎn)換為本文句子,從而把數(shù)據(jù)集轉(zhuǎn)換為文本文檔.在文本文檔上使用任意主題模型算法進(jìn)行建模,能夠表示數(shù)據(jù)集內(nèi)容的主題向量.本文在Linked Data數(shù)據(jù)集鏈接目標(biāo)推薦問題上使用數(shù)據(jù)集的主題模型進(jìn)行了實(shí)驗(yàn).利用數(shù)據(jù)集的主題向量計(jì)算余弦相似度,并將該相似度作為基于記憶的協(xié)同過濾算法中的相似度模塊.在2014年LOD Cloud數(shù)據(jù)集上的實(shí)驗(yàn)表明,在絕大多數(shù)情況下,利用數(shù)據(jù)集的主題向量計(jì)算相似度比使用評(píng)分歷史計(jì)算相似度效果好,得到的推薦算法性能好于原始的協(xié)同過濾算法.
[1] HEATH T,BIZER C.Linked data:evolving the web into a global data space[J].Synthesis Lectures on the Semantic Web Theory and Technology,2011,1(1):1-136.
[2] TIM BERNERS-LEE.Linked data[EB/OL].[2016-04-03].http://www.w3.org/DesignIssues/LinkedData.html.
[3] SCHMACHTENBERG M,BIZER C,PAULHEIM H.Adoption of the linked data best practices in different topical domains[M]//The Semantic Web-ISWC 2014,Berlin:Springer International Publishing,2014:245-260.
[4] 徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.
[5] DEERWESTER S,DUMAIS S T,F(xiàn)URNAS G W,et al.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990,41(6):391.
[6] HOFMANN T.Probabilistic latent semantic indexing[C]//Proceedings of The 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Newyork:ACM,1999:50-57.
[7] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.
[8] 冷亞軍,陸青,梁昌勇.協(xié)同過濾推薦技術(shù)綜述[J].模式識(shí)別與人工智能,2014,27(8):720-734.
[9] MCCALLUM,ANDREW KACHITES.Mallet:a machine learning for language toolkit[DB].[2016-12-05].http://mallet.cs.umass.edu.2002.
[10] LIU H,WANG T,TANG J,et al.Identifying linked data datasets for sameas interlinking using recommendation techniques[C]//Proceedings of The 17th International Conference on Web-Age Information Management,Belin:Springer,2016:298-309.
[11] ANIL R,DUNNING T,F(xiàn)RIEDMAN E.Mahout in action[M].Shelter Island:Manning,2011:29-51.
Topic modeling for Linked Data datasets
LIU Hai-chi,WANG Ting,TANG Jin-tao,NING Hong,WEI Deng-ping,LIU Pei-lei
(School of Computer Science,National University of Defense Technology,Changsha 410073,China)
The increasing adoption of Linked Data principles has led to an abundance of datasets on the Web.However,take-up and reuse is hindered by the lack of descriptive information about the content of the datasets,such as their topic coverage.To address this issue,an approach for creating Linked Data dataset topic profiles was proposed.Topic modeling has quickly become a popular method for modeling large document collections for a variety of natural language processing tasks.While their use for semi-structured graph data,such as Linked Data datasets,has been less explored.A framework for applying topic modeling to Linked Data datasets was presented.The RDF statement triples were transformed to natural language sentences.In this way the datasets which contains RDF structured data is transformed into text documents,this paper can apply topic modeling algorithms to get topic vector for each dataset.This paper describes how this topic profile of datasets can be used in a recommendation task of target Linked Data datasets for interlinking.The cosine similarity of topic vector of datasets generated by LDA topic modeling algorithm was calculated and the cosine similarity was made as the similarity component of memory-based collaborative filtering recommendation algorithms.Experiments to evaluate the accuracy of both the predicted ratings and recommended datasets lists of the resulting recommenders were conducted.The experiments demonstrated that our customized recommenders out-performed the original ones with a great deal,and achieved much better metrics in both evaluations.
Linked Data;dataset;topic model;LDA;recommender systems;collaborative filtering
1000-1832(2017)02-0077-07
10.16163/j.cnki.22-1123/n.2017.02.015
2016-10-20
國家自然科學(xué)基金資助項(xiàng)目(61472436).
劉海池(1985—),男,博士研究生,主要從事語義網(wǎng)Semantic Web、關(guān)聯(lián)數(shù)據(jù)Linked Data研究;王挺(1970—),男,博士,教授,主要從事自然語言處理研究;寧洪(1963—),女,教授,主要從事數(shù)據(jù)庫技術(shù)Database Technology研究.
TP 391 [學(xué)科代碼] 520·2070
A