梁少星
(武漢大學(xué)信息管理學(xué)院,湖北武漢430072)
基于語(yǔ)義關(guān)聯(lián)的實(shí)例相似度計(jì)算方法及應(yīng)用研究
梁少星
(武漢大學(xué)信息管理學(xué)院,湖北武漢430072)
〔摘 要〕相似度計(jì)算方法的優(yōu)劣直接影響到信息檢索與推薦的效果。本文根據(jù)本體圖模型中屬性序列的特點(diǎn),綜合考慮層次關(guān)系和屬性關(guān)系,在分析路徑關(guān)聯(lián)相似度、層次相交關(guān)聯(lián)相似度及屬性相交關(guān)聯(lián)相似度的影響因素的基礎(chǔ)上給出了實(shí)例之間綜合語(yǔ)義相似度的計(jì)算方法。文章最后討論了該相似度計(jì)算方法在解決基于內(nèi)容的推薦中的過(guò)于專門化問(wèn)題、協(xié)同過(guò)濾推薦中的稀疏性問(wèn)題以及檢索中查全率和查準(zhǔn)率問(wèn)題中的應(yīng)用。
〔關(guān)鍵詞〕語(yǔ)義關(guān)聯(lián);相似度計(jì)算;本體;屬性序列
相似度計(jì)算是知識(shí)檢索和知識(shí)推薦的基礎(chǔ)及關(guān)鍵技術(shù),其計(jì)算方法與資源和用戶的建模及表示方式有關(guān)。本體建模由于其良好的概念層次結(jié)構(gòu)、對(duì)邏輯推理的支持以及對(duì)知識(shí)的共享和復(fù)用,已成為主流的方法。
當(dāng)前基于本體的相似度計(jì)算存在兩大問(wèn)題:
(1)為簡(jiǎn)化本體構(gòu)建和相似度計(jì)算,較多考慮本體中的層次關(guān)系,忽略屬性關(guān)系,影響了相似度計(jì)算的準(zhǔn)確性。文獻(xiàn)[1]計(jì)算相似度只考慮層次關(guān)系,忽略了屬性關(guān)系,丟失了很多語(yǔ)義描述。文獻(xiàn)[2-4]引入屬性關(guān)系計(jì)算綜合語(yǔ)義相似度,但考慮的屬性關(guān)系過(guò)于簡(jiǎn)單,不具有普適性。
(2)側(cè)重概念相似度計(jì)算的研究,較少有實(shí)例相似度計(jì)算的研究。計(jì)算概念相似度的目的在于可以將信息資源(如文本、網(wǎng)頁(yè)等)特征表示為概念的集合,然后借助概念相似度計(jì)算信息資源的相似度。但在實(shí)例作為信息資源特征表示對(duì)象的應(yīng)用中,需要計(jì)算實(shí)例相似度。文獻(xiàn)[5]分析了實(shí)例相似度的影響因素,但受應(yīng)用的限制,對(duì)實(shí)例相似度影響因素的分析不夠全面。
本文分析了實(shí)例之間的層次關(guān)系和屬性關(guān)系對(duì)相似度計(jì)算的影響,討論了實(shí)例之間基于語(yǔ)義關(guān)聯(lián)的相似度計(jì)算方法,并介紹了該計(jì)算方法在信息推薦和信息檢索中的應(yīng)用,期望改善內(nèi)容推薦中的專門化問(wèn)題、協(xié)同過(guò)濾推薦中的稀疏性問(wèn)題以及檢索中查全率和查準(zhǔn)率不高的問(wèn)題。
1.1本體模型的構(gòu)建
本體是共享概念模型的明確的形式化規(guī)范說(shuō)明[6],可以理解和表達(dá)為一組概念的定義及其相互關(guān)系。可以將本體形式化表示為:O={C,I,RH,RP,A},其中C指概念,也稱為類;I指實(shí)例,即類的具體實(shí)體;RH指概念或?qū)嵗g的層次關(guān)系(Hierarchy Relationship),包括概念之間的SubclassOf關(guān)系和概念與實(shí)例之間的InstanceOf關(guān)系;RP指概念之間或?qū)嵗g的屬性關(guān)系(Property Relationship),是由用戶自定義的對(duì)象屬性,加強(qiáng)了人類的認(rèn)知;A指公理。
本體模型構(gòu)建一般考慮的是層次關(guān)系,表現(xiàn)為本體的樹(shù)形結(jié)構(gòu)。如若同時(shí)考慮層次關(guān)系和屬性關(guān)系,則表現(xiàn)為更為復(fù)雜的圖形結(jié)構(gòu)。為簡(jiǎn)單說(shuō)明,使用斯坦福大學(xué)開(kāi)發(fā)的protégé4.3構(gòu)建Movie本體。protégé4.3中的OntoGraf插件可以將Movie本體中的類、實(shí)例及關(guān)系以圖形的形式更清楚地呈現(xiàn)出來(lái)。在OntoGraf中,本體表示為由節(jié)點(diǎn)和邊組成的有向圖,節(jié)點(diǎn)表示概念或?qū)嵗?,邊表示屬性。僅考慮層次屬性RH時(shí),本體表現(xiàn)為樹(shù)形結(jié)構(gòu)(圖1),綜合考慮層次屬性RH和對(duì)象屬性RP時(shí),本體表現(xiàn)為圖形結(jié)構(gòu)(圖2)。
圖1 僅考慮層次屬性的Movie本體
圖2 綜合考慮層次屬性和對(duì)象屬性的Movie本體
1.2屬性序列
文獻(xiàn)[7]首次提出屬性序列的概念,但在屬性序列的定義中僅考慮屬性關(guān)系RP。本文根據(jù)實(shí)例相似度計(jì)算的需要,綜合考慮層次屬性RH和對(duì)象屬性RP,重新對(duì)屬性序列進(jìn)行定義。
定義1在有向本體圖模型中,如果存在n個(gè)屬性p1,p2,……,pn將n+1個(gè)節(jié)點(diǎn)a1,a2,……,an+1連接起來(lái)(如圖3所示),其中pi(1≤i≤n)∈RH∪RP,ai(1≤i≤n+1)∈C∪I,則稱該有限屬性集合為屬性序列(Property Sequences,PS),形式化表示為:ps={p1,p2,……,pn}。屬性序列的長(zhǎng)度(length)即ps中屬性的個(gè)數(shù)。
圖3 屬性序列示例圖
定義2函數(shù)NodesOfPS()返回屬性序列中屬性所連接的所有節(jié)點(diǎn),即NodesOfPS(ps)={a1,a2,……,an+1}。節(jié)點(diǎn)a1稱為屬性序列的起點(diǎn)(origin),節(jié)點(diǎn)an+1稱為屬性序列的終點(diǎn)(terminus)。
定義3如果屬性序列ps1和ps2滿足NodesOfPS(ps1)∩NodesOfPS(ps2)≠?,則稱兩個(gè)屬性序列相交(Joined Property Sequence),ai∈(NodesOfPS(ps1)∩NodesOfPS(ps2))稱為相交節(jié)點(diǎn)(join node)。
1.3語(yǔ)義關(guān)聯(lián)
本體圖模型中,如果兩個(gè)實(shí)例間存在連通路徑,則稱兩個(gè)實(shí)例存在語(yǔ)義關(guān)聯(lián)(Semantic Association,記為SA)。文獻(xiàn)[7-9]將節(jié)點(diǎn)之間的語(yǔ)義關(guān)聯(lián)分為路徑關(guān)聯(lián)和相交關(guān)聯(lián),但因其對(duì)屬性序列定義的局限性,沒(méi)有考慮層次屬性RH對(duì)語(yǔ)義關(guān)聯(lián)的影響,在應(yīng)用上有局限性。
本文在定義1基礎(chǔ)上,分析了實(shí)例間連通路徑所包含的屬性序列的特點(diǎn),將實(shí)例之間的語(yǔ)義關(guān)聯(lián)分為路徑關(guān)聯(lián)、層次相交關(guān)聯(lián)、屬性相交關(guān)聯(lián)3類,其定義分別如下:
定義4存在一條屬性序列ps,如果實(shí)例x和y分別是ps的起點(diǎn)和終點(diǎn),且該屬性序列中所有屬性pi∈Rp,則稱x、y之間存在路徑關(guān)聯(lián)(Path Association,記為PA)。
圖4 路徑關(guān)聯(lián)
如果x和y之間存在路徑關(guān)聯(lián),則x和y之間路徑關(guān)聯(lián)的長(zhǎng)度等于屬性序列的長(zhǎng)度,即length(PA(x,y))=length(ps)。
定義5存在兩條屬性序列ps1和ps2相交,如果實(shí)例x和y同為ps1和ps2的起點(diǎn)或同為終點(diǎn),且ps1和ps2中的所有屬性pi∈RH,即實(shí)例x和y屬于同一個(gè)類或相似類,則稱x、y之間存在層次相交關(guān)聯(lián)(Hierarchy Join Association,記為HJA)。
根據(jù)層次相交關(guān)聯(lián)中實(shí)例x和y所屬的類Cx和Cy是否相同,將層次相交關(guān)聯(lián)分為兩種情況:
(1)若Cx和Cy相同,即實(shí)例x和y為同一個(gè)類的實(shí)例,則ps1和ps2的相交節(jié)點(diǎn)為C(C=Cx=Cy),如圖5(a)所示;
(2)若Cx和Cy不同,即實(shí)例x和y為相似類的實(shí)例,則ps1和ps2的相交節(jié)點(diǎn)為C(C≠Cx≠Cy),如圖5(b)所示。
圖5 層次相交關(guān)聯(lián)
如果x和y之間存在層次相交關(guān)聯(lián),則層次相交關(guān)聯(lián)的長(zhǎng)度等于它所包含的2個(gè)屬性序列的長(zhǎng)度之和,即length(HJA(x,y))=length(ps1)+length(ps2)。
定義6存在兩條屬性序列ps1和ps2相交,如果x和y同為ps1和ps2的起點(diǎn)或同為終點(diǎn),且ps1和ps2中屬性p1∈RP,pi∈RH∪RP(2≤i≤n),即實(shí)例x和y具有共同或相似的屬性,則稱x、y之間存在屬性相交關(guān)聯(lián)(Property Join Association,記為PJA)。
根據(jù)屬性相交關(guān)聯(lián)中屬性序列特點(diǎn)及相交節(jié)點(diǎn)的類型,將屬性相交關(guān)聯(lián)分為3種情況:
(1)實(shí)例x和y通過(guò)一個(gè)屬性相交于實(shí)例I(Join Instance),此時(shí)實(shí)例x和y有共同屬性,如圖6(a)所示;
(2)實(shí)例x和y通過(guò)多個(gè)屬性相交于實(shí)例I(Join Instance),此時(shí)實(shí)例x和y有相似屬性a1和a2,如圖6(b)所示;
(3)實(shí)例x和y通過(guò)多個(gè)屬性相交于類C(Join Class),與第二種情況類似,此時(shí)實(shí)例x和y的屬性實(shí)例a1和a2仍為相似屬性,如圖6(c)所示。
圖6 屬性相交關(guān)聯(lián)
如果x和y之間存在屬性相交關(guān)聯(lián),則屬性相交關(guān)聯(lián)的長(zhǎng)度等于所包含的2個(gè)屬性序列的長(zhǎng)度之和,即length
(PJA(x,y))=length(ps1)+length(ps2)。
本體優(yōu)勢(shì)在于其圖形結(jié)構(gòu),圖模型中節(jié)點(diǎn)之間的連通路徑體現(xiàn)了節(jié)點(diǎn)之間的相似性。文獻(xiàn)[10-11]將基于本體的語(yǔ)義相似度計(jì)算方法分為4類:基于距離的方法、基于內(nèi)容的方法、基于屬性的方法以及混合式方法,其中混合式語(yǔ)義相似度計(jì)算方法是對(duì)前面3種方法的綜合考慮。本文采用混合式計(jì)算方法,綜合考慮本體中的層次關(guān)系和屬性關(guān)系,從語(yǔ)義關(guān)聯(lián)的角度,分析實(shí)例之間的路徑關(guān)聯(lián)相似度、層次相交關(guān)聯(lián)相似度和屬性相交關(guān)聯(lián)相似度的影響因素及算法,并對(duì)其進(jìn)行綜合。
2.1路徑關(guān)聯(lián)相似度的影響因素及算法
實(shí)例x和y之間可能存在多條路徑關(guān)聯(lián),假設(shè)存在n條路徑關(guān)聯(lián)(如圖7所示),第i條(1≤i≤n)路徑關(guān)聯(lián)的長(zhǎng)度為length(PAi(x,y))。通過(guò)對(duì)圖7進(jìn)行分析,可知x和y之間路徑關(guān)聯(lián)相似度與以下因素有關(guān):
圖7 實(shí)例x和y之間的路徑關(guān)聯(lián)
(1)最短路徑關(guān)聯(lián)的長(zhǎng)度min(length(PAi(x,y)))。實(shí)例x和y之間的最短路徑關(guān)聯(lián)越短,它們之間的中間結(jié)點(diǎn)越少,相似度也越大。
因此,實(shí)例x和y之間的路徑關(guān)聯(lián)相似度可以表示為:
公式(1)中a為可調(diào)節(jié)參數(shù)。
2.2層次相交關(guān)聯(lián)相似度的影響因素及算法
層次相交關(guān)聯(lián)是兩個(gè)實(shí)例因存在共同祖先而產(chǎn)生的關(guān)聯(lián),層次相交關(guān)聯(lián)側(cè)重層次關(guān)系,體現(xiàn)實(shí)例之間的層次相似性。
一個(gè)實(shí)例可能屬于多個(gè)類,即實(shí)例存在多重繼承關(guān)系,實(shí)例多重繼承導(dǎo)致實(shí)例x和y之間可能存在多條層次相交關(guān)聯(lián)。假設(shè)存在n條層次相交關(guān)聯(lián)且相交類為實(shí)例x和y的最近共同祖先(Lowest Common Ancestor,LCA)(如圖8所示),depth(x)和depth(y)分別表示實(shí)例x和y的深度,實(shí)例深度等于實(shí)例所屬類在本體樹(shù)中的深度,depth(LCAi)為第i條層次相交關(guān)聯(lián)中相交節(jié)點(diǎn)的深度,其中depth(LCA)=depth(LCA1)=depth(LCA2)=……=depth(LCAn)。通過(guò)對(duì)圖8進(jìn)行分析,可知x和y之間的層次相交關(guān)聯(lián)相似度與以下因素有關(guān):
(1)相交節(jié)點(diǎn)即最近共同祖先的深度depth(LCA)。最近共同祖先越深,實(shí)例x和y越具體,層次相交關(guān)聯(lián)相似度越大。
(2)層次相交關(guān)聯(lián)所在分支的最大深度max(depth(x),depth(y))。分支的最大深度越深,節(jié)點(diǎn)離共同祖先距離越遠(yuǎn),節(jié)點(diǎn)之間的層次相交關(guān)聯(lián)相似度越小。
因此,實(shí)例x和y之間的層次相交關(guān)聯(lián)相似度可以表示為:
如果LCA為根節(jié)點(diǎn),則層次相交關(guān)聯(lián)相似度為0。
如果實(shí)例x和y屬于同一個(gè)類(如圖5(a)所示),則層次相交關(guān)聯(lián)相似度為1,因?yàn)閐epth(LCAi)=depth(x)=depth(y)。
圖8 實(shí)例x和y之間的層次相交關(guān)聯(lián)
2.3屬性相交關(guān)聯(lián)相似度的影響因素及算法
屬性相交關(guān)聯(lián)是兩個(gè)實(shí)例因存在共同屬性或相似屬性而產(chǎn)生的關(guān)聯(lián),屬性關(guān)聯(lián)側(cè)重用戶自定義對(duì)象屬性關(guān)系,體現(xiàn)實(shí)例之間的屬性相似性,如兩部電影有同樣的演員或相似的主題。
假設(shè)實(shí)例x和y之間存在n條屬性相交關(guān)聯(lián)(如圖9所示),第i條路徑相交關(guān)聯(lián)的長(zhǎng)度為length(PJAi),實(shí)例x和y的屬性個(gè)數(shù)為m。通過(guò)對(duì)圖9進(jìn)行分析,可知x和y之間屬性相交關(guān)聯(lián)相似度與以下因素有關(guān):
圖9 實(shí)例x和y之間的屬性相交關(guān)聯(lián)
(1)屬性相交關(guān)聯(lián)條數(shù)n。屬性相交關(guān)聯(lián)越多,說(shuō)明兩個(gè)實(shí)例相同或相似的屬性值越多,兩個(gè)實(shí)例越相似。
(2)語(yǔ)義關(guān)聯(lián)長(zhǎng)度length(PJAi)。語(yǔ)義關(guān)聯(lián)長(zhǎng)度越長(zhǎng),說(shuō)明兩個(gè)實(shí)例相隔的路徑越長(zhǎng),相似度越小。
因此,實(shí)例x和y之間的屬性相交關(guān)聯(lián)相似度可以表示為:
公式(3)中b為可調(diào)節(jié)參數(shù)。
2.4基于語(yǔ)義關(guān)聯(lián)的綜合語(yǔ)義相似度算法
兩個(gè)實(shí)例之間可能存在多種語(yǔ)義關(guān)聯(lián),設(shè)路徑關(guān)聯(lián)相似度的權(quán)重為α(0≤α≤1),層次相交關(guān)聯(lián)相似度的權(quán)重為β(0≤β≤1),屬性相交關(guān)聯(lián)相似度的權(quán)重為γ(0≤γ≤1),且α+β+γ=1,則本體中任意兩個(gè)實(shí)例x和y的綜合語(yǔ)義相似度為:
3.1在推薦領(lǐng)域的應(yīng)用
常用的推薦方法有兩種,分別是基于內(nèi)容的推薦和協(xié)同過(guò)濾推薦。下面介紹語(yǔ)義關(guān)聯(lián)在內(nèi)容推薦和協(xié)同過(guò)濾推薦中的應(yīng)用,并分析基于語(yǔ)義關(guān)聯(lián)的實(shí)例相似度算法如何改善內(nèi)容推薦的過(guò)于專門化問(wèn)題和協(xié)同過(guò)濾推薦的稀疏性問(wèn)題。
3.1.1在基于內(nèi)容的推薦中的應(yīng)用
基于內(nèi)容的推薦策略的本質(zhì)是計(jì)算項(xiàng)目與用戶模型的相似度,向用戶推薦與用戶歷史偏好語(yǔ)義相似度大的項(xiàng)目。
傳統(tǒng)基于內(nèi)容的推薦方法最大缺點(diǎn)在于過(guò)于專門化(Overspecialization)。受余弦相似度算法的限制,只有與用戶偏好有相同屬性的內(nèi)容才會(huì)被加入最終推薦集呈現(xiàn)給用戶,導(dǎo)致推薦結(jié)果過(guò)于專門化。
基于語(yǔ)義關(guān)聯(lián)的方法可以提高推薦結(jié)果的多樣性,改善過(guò)于專門化問(wèn)題。基于語(yǔ)義關(guān)聯(lián)的方法對(duì)過(guò)于專門化的改善體現(xiàn)在兩個(gè)層面:
(1)用戶偏好擴(kuò)散。根據(jù)本體圖模型中的連通路徑,可以找到與用戶模型中偏好實(shí)例存在語(yǔ)義關(guān)聯(lián)的實(shí)例,這些實(shí)例組成一張網(wǎng)狀圖,從而實(shí)現(xiàn)了用戶偏好的擴(kuò)散。文獻(xiàn)[5]利用擴(kuò)散算法實(shí)現(xiàn)初始節(jié)點(diǎn)的繼承關(guān)聯(lián)擴(kuò)散和路徑關(guān)聯(lián)擴(kuò)散,發(fā)現(xiàn)存在內(nèi)在聯(lián)系的結(jié)點(diǎn),但沒(méi)有考慮實(shí)例之間的屬性相交關(guān)聯(lián)。文獻(xiàn)[12-13]使用擴(kuò)散激活技術(shù)(Spreading Activation Technique)根據(jù)路徑關(guān)聯(lián)和相交關(guān)聯(lián)來(lái)發(fā)現(xiàn)與用戶偏好有隱藏聯(lián)系的結(jié)點(diǎn),從而豐富最終的推薦結(jié)果集,但沒(méi)有考慮實(shí)例之間的層次相交關(guān)聯(lián)。在推薦應(yīng)用中,可以根據(jù)定義4、定義5和定義6對(duì)初始節(jié)點(diǎn)進(jìn)行全面的擴(kuò)散,以發(fā)現(xiàn)更多與用戶偏好存在語(yǔ)義關(guān)聯(lián)的節(jié)點(diǎn)。
(2)相似度計(jì)算。根據(jù)偏好擴(kuò)散后網(wǎng)狀圖中實(shí)例與用戶模型的語(yǔ)義相似度來(lái)預(yù)測(cè)用戶對(duì)該實(shí)例的興趣度,并將相似度大于閾值的實(shí)例推薦給用戶。
需要注意的是,用戶對(duì)網(wǎng)狀圖中某實(shí)例的興趣度不僅與該實(shí)例與用戶模型的相似度有關(guān),而且與用戶模型中實(shí)例的興趣度有關(guān)。用戶模型中實(shí)例的興趣度越大,與該實(shí)例語(yǔ)義相似度大的實(shí)例的興趣度也越大。
設(shè)用戶偏好擴(kuò)散后的網(wǎng)狀圖中某實(shí)例為x,目標(biāo)用戶的用戶模型Pu={(I1,D1),(I2,D2),…,(In,Dn)},其中Di為用戶對(duì)第i個(gè)實(shí)例(1≤i≤n)Ii的興趣度,則用戶對(duì)實(shí)例x的預(yù)測(cè)興趣度為:
通過(guò)公式(5)可知,在興趣度預(yù)測(cè)時(shí)可以綜合考慮實(shí)例之間的路徑關(guān)聯(lián)相似度、層次相交關(guān)聯(lián)相似度和屬性相交關(guān)聯(lián)相似度,不僅向用戶推薦與用戶偏好有相同屬性的項(xiàng)目,而且推薦與用戶偏好語(yǔ)義關(guān)聯(lián)的項(xiàng)目,最終提高推薦結(jié)果的多樣性,改善過(guò)于專門化問(wèn)題。
3.1.2在協(xié)同過(guò)濾推薦中的應(yīng)用
協(xié)同推薦的本質(zhì)是發(fā)現(xiàn)與目標(biāo)用戶偏好相同的鄰居用戶,將鄰居用戶喜歡的節(jié)目推薦給目標(biāo)用戶,因此鄰居用戶的發(fā)現(xiàn)是核心。鄰居用戶的發(fā)現(xiàn)需要借助用戶偏好之間的相似性來(lái)計(jì)算。
傳統(tǒng)協(xié)同過(guò)濾方法的最大缺點(diǎn)是稀疏性問(wèn)題。受到用戶相似度算法的限制,只有當(dāng)用戶喜歡更多相同的項(xiàng)目時(shí)才表明用戶相似大,因此導(dǎo)致發(fā)現(xiàn)的鄰居用戶較少,產(chǎn)生了稀疏性問(wèn)題,影響了推薦的質(zhì)量和效率。
基于語(yǔ)義關(guān)聯(lián)的方法可以將項(xiàng)目語(yǔ)義相似度加入用戶相似度算法中,通過(guò)對(duì)用戶相似度算法加以修正來(lái)優(yōu)化最近鄰的形成,最終改善稀疏性問(wèn)題[3]。
假設(shè)目標(biāo)用戶(Target User)的用戶模型Pu={(I1,DTU1),(I2,DTU2),…,(In,DTUn)},其中Di為用戶對(duì)實(shí)例Ii(1≤i≤n)的興趣度。目標(biāo)用戶TU的用戶偏好向量可以表示為→VTU=(DTU1,DTU2,…,DTUn),候選鄰居CN(Candidate Neighborhood)的用戶偏好向量可以表示為→VCN=(DCN1,DCN2,…,DCNn)。
傳統(tǒng)方法通過(guò)計(jì)算目標(biāo)用戶TU和候選鄰居CN之間的余弦相似性選擇最近鄰,然后將最近鄰喜歡的項(xiàng)目推薦給目標(biāo)用戶,余弦相似度算法可以表示為:SimCos(TU,CN)
基于語(yǔ)義關(guān)聯(lián)的方法通過(guò)加入項(xiàng)目的語(yǔ)義相似度對(duì)用戶向量的點(diǎn)積加以修正,優(yōu)化最近鄰的形成,修正后的公
通過(guò)對(duì)比分析得出,基于語(yǔ)義關(guān)聯(lián)的相似度可以通過(guò)項(xiàng)目的語(yǔ)義相似度改善用戶相似度度量,找出更多的最近鄰,改善稀疏性問(wèn)題。
3.2在檢索領(lǐng)域的應(yīng)用
傳統(tǒng)的搜索引擎存在兩大問(wèn)題:一是大都采用基于關(guān)鍵字的相似度匹配方法,由于系統(tǒng)不能理解用戶輸入的查詢信息,導(dǎo)致查全率和查準(zhǔn)率不高;二是沒(méi)有對(duì)個(gè)性化的查詢需求給予重視,不同興趣的用戶使用相同的關(guān)鍵字,查詢結(jié)果完全相同。
針對(duì)問(wèn)題一,基于本體的方法可以將用戶輸入關(guān)鍵詞映射為本體概念或?qū)嵗?,進(jìn)行基于概念或?qū)嵗恼Z(yǔ)義檢索,從而幫助系統(tǒng)理解用戶意圖,提高檢索質(zhì)量。針對(duì)問(wèn)題二,可以借助語(yǔ)義關(guān)聯(lián)對(duì)用戶本體模型進(jìn)行語(yǔ)義擴(kuò)展,滿足用戶的個(gè)性化需求,提高查準(zhǔn)率。
下面從查詢?cè)~的映射和用戶模型的語(yǔ)義關(guān)聯(lián)擴(kuò)展兩個(gè)方面,分析語(yǔ)義關(guān)聯(lián)相似度如何通過(guò)提高查詢?cè)~映射的準(zhǔn)確率及對(duì)用戶模型進(jìn)行語(yǔ)義擴(kuò)展來(lái)提高查詢的查準(zhǔn)率和查全率。
3.2.1在查詢?cè)~映射中的應(yīng)用
基于本體的檢索需要將用戶輸入的關(guān)鍵詞映射為本體概念或?qū)嵗M(jìn)行基于概念或?qū)嵗恼Z(yǔ)義檢索,但在映射過(guò)程中,由于不能確定用戶意圖,可能產(chǎn)生錯(cuò)誤的映射。
一般來(lái)說(shuō),用戶在一次查詢中輸入多個(gè)關(guān)鍵詞代表用戶查詢意圖,因此這些關(guān)鍵詞之間存在較強(qiáng)的關(guān)聯(lián)。將n個(gè)查詢關(guān)鍵詞映射為本體庫(kù)中的n個(gè)實(shí)例集后,選擇語(yǔ)義相關(guān)度高的實(shí)例進(jìn)行組合,該組合代表用戶正確查詢意圖的可能性也較大[14]。文獻(xiàn)[5]在選擇映射實(shí)例時(shí),僅考慮了路徑相似度,用實(shí)例之間的最短屬性序列長(zhǎng)度代表語(yǔ)義相似度,忽略了層次相交相似度和屬性相交相似度(即在公式(4)中只取α=1,而β=0,γ=0),影響了查全率和查準(zhǔn)率。在具體應(yīng)用中,可以根據(jù)應(yīng)用的需要,對(duì)公式4中的各個(gè)權(quán)重參數(shù)加以調(diào)整,利用語(yǔ)義關(guān)聯(lián)相似度提高實(shí)例映射的準(zhǔn)確率,優(yōu)化用戶輸入,幫助搜索引擎有效推測(cè)用戶意圖,最終提高檢索的查準(zhǔn)率。
3.2.2在用戶模型語(yǔ)義擴(kuò)展中的應(yīng)用
語(yǔ)義關(guān)聯(lián)可以對(duì)用戶模型進(jìn)行語(yǔ)義擴(kuò)展,從而為不同興趣的用戶提供滿足其個(gè)性化需求的搜索服務(wù)。對(duì)于用戶模型的表示,可以使用瀏覽歷史中包含的實(shí)例來(lái)表示用戶模型,如文獻(xiàn)[5]將用戶對(duì)網(wǎng)頁(yè)的偏好轉(zhuǎn)化為對(duì)本體實(shí)例的偏好,形成用戶偏好模型。
根據(jù)實(shí)例之間的語(yǔ)義關(guān)聯(lián)實(shí)現(xiàn)用戶偏好擴(kuò)散,可以發(fā)現(xiàn)隱含的用戶偏好,并利用實(shí)例之間的語(yǔ)義相似度更新實(shí)例的興趣度。與基于語(yǔ)義關(guān)聯(lián)的內(nèi)容推薦相似,假設(shè)用戶偏好擴(kuò)散后的網(wǎng)狀圖中某實(shí)例為x,可以根據(jù)公式(5)更新實(shí)例x的興趣度,最后對(duì)檢索結(jié)果重新排序。因此,與用戶模型相結(jié)合,可以滿足用戶的個(gè)性化需求并提高查準(zhǔn)率,利用公式(4)的語(yǔ)義關(guān)聯(lián)相似度對(duì)用戶模型進(jìn)行語(yǔ)義擴(kuò)展,可以提高查全率。
本文從屬性序列的角度分析了實(shí)例之間的路徑關(guān)聯(lián)、層次相交關(guān)聯(lián)、屬性相交關(guān)聯(lián)對(duì)語(yǔ)義相似度的影響,并得出了綜合語(yǔ)義相似度的算法。將該相似度算法應(yīng)用于推薦和檢索中,可以對(duì)基于內(nèi)容的推薦中的過(guò)于專門化問(wèn)題、協(xié)同過(guò)濾推薦中的稀疏性問(wèn)題以及檢索中查全率和查準(zhǔn)率不高的問(wèn)題加以改善。
后續(xù)工作將建立領(lǐng)域本體并設(shè)計(jì)對(duì)比實(shí)驗(yàn)驗(yàn)證所提出相似度算法的有效性,并使用定量分析驗(yàn)證該算法在推薦和檢索質(zhì)量改善方面的效果。
參考文獻(xiàn)
[1]陳沈焰,吳軍華.基于本體的概念語(yǔ)義相似度計(jì)算及其應(yīng)用[J].微電子學(xué)與計(jì)算機(jī),2009,25(12):96-99.
[2]Fernández Y B,Pazos Arias J J,Nores M L,et al.AVATAR:an improved solution for personalized TV based on semantic inference[J]. Consumer Electronics,IEEE Transactions on,2006,52(1):223-231.
[3]Martín-Vicente M I,Gil-Solla A,ramos-Cabrer M,et al.A semantic approach to improve neighborhood formation in collaborative recommender systems[J].Expert Systems with Applications,2014,41(17):7776-7788.
[4]楊美榮,邵洪雨,史建鋒,等.改進(jìn)的領(lǐng)域本體概念相似度計(jì)算模型研究[J].情報(bào)科學(xué),2014,32(5):72-77.
[5]梅翔,孟祥武,陳俊亮,等.一種基于用戶偏好分析的查詢優(yōu)化方法[J].電子與信息學(xué)報(bào),2008,30(1):33-37.
[6]Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge Engineering,Principles and Methods[J].Data and Knowledge Engineering,1998,25(1):161-197.
[7]Anyanwu K,Sheth A.Theρoperator:discovering and ranking associations on the semantic web[J].ACM SIGMOD Record,2002,31(4):42-47.
[8]Anyanwu K,Sheth A.ρ-Queries:enabling querying for semantic associations on the semantic web[C]∥Proceedings of the 12th international conference on World Wide Web.ACM,2003:690-699.
[9]Blanco-Fernández Y,Pazos-Arias J J,Gil-Solla A,et al.A flexible semantic inference methodology to reason about user preferences in knowledge-based recommender systems[J].Knowledge-Based Systems,2008,21(4):305-320.
[10]劉宏哲,須德.基于本體的語(yǔ)義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012,39(2):8-13.
[11]孫海霞,錢慶,成穎.基于本體的語(yǔ)義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,26(1):51-56.
[12]Blanco-Fernández Y,López-Nores M,Gil-Solla A,et al.Exploring synergies between content-based filtering and Spreading Activation techniques in knowledge-based recommender systems[J].Information Sciences,2011,181(21):4823-4846.
[13]徐守坤,孫德超,石林,等.基于語(yǔ)義推理的學(xué)習(xí)資源推薦[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(4):1496-1501.
[14]張克狀,劉友華,黃芳,等.一種面向用戶興趣的個(gè)性化語(yǔ)義查詢擴(kuò)展方法[J].現(xiàn)代圖書情報(bào)技術(shù),2008,24(8):48 -52.
(本文責(zé)任編輯:郭沫含)
·研究生園地·
Research on Computation Method of Instance Similarity based on Semantic Association and its Application
Liang Shaoxing
(School of Information Management,Wuhan University,Wuhan 430072,China)
〔Abstract〕The effect of information retrieval and recommendation is relative to the similarity computation method.Taking hierarchy relationships and property relationships into account,this paper analyzed the influencing factors of path association similarity,hierarchy join association similarity and property join association similarity according to the characteristics of property sequence in ontology diagram model,and then proposed a similarity computation method between instances.Finally,this paper discussed the applications of this similarity computation method in solving overspecialization problem of content-based recommendation,sparsity problem of collaborative filtering recommendation and recall ratio and precision ratio problems of information retrieval.
〔Key words〕semantic association;similarity computation;ontology;property sequence
作者簡(jiǎn)介:梁少星(1990-),女,碩士研究生,研究方向;個(gè)性化推薦。
收稿日期:2015-05-14
〔中圖分類號(hào)〕G252.2
〔文獻(xiàn)標(biāo)識(shí)碼〕A
〔文章編號(hào)〕1008-0821(2015)08-0151-06
DOI:10.3969/j.issn.1008-0821.2015.08.030