錢涵笑,韓 斌
(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院,江蘇 鎮(zhèn)江 212000)
智能化應(yīng)用的深入研究令包含海量知識(shí)內(nèi)容的知識(shí)圖譜成為滿足用戶實(shí)際信息應(yīng)用需求的主要工具[1],被普遍應(yīng)用于各個(gè)領(lǐng)域中。知識(shí)圖譜利用資源表達(dá)框架數(shù)據(jù)模型,以圖結(jié)構(gòu)形式展示知識(shí)[2],圖內(nèi)節(jié)點(diǎn)與有向邊可分別代表不同類別的實(shí)體和實(shí)體間的關(guān)系。用戶在利用知識(shí)圖譜獲取所需信息的過(guò)程中,通過(guò)在知識(shí)庫(kù)內(nèi)檢索實(shí)體關(guān)系獲取相關(guān)信息的實(shí)際答案[3]。但實(shí)體關(guān)系檢索過(guò)程中由于知識(shí)庫(kù)內(nèi)文檔包含大量碎片化信息,導(dǎo)致當(dāng)前普遍使用的基于圖數(shù)據(jù)庫(kù)的實(shí)體關(guān)系檢索方法和結(jié)合實(shí)體詞與句子語(yǔ)義的實(shí)體關(guān)系檢索方法等[4,5]均存在效率差以及檢索效果不佳等問(wèn)題。針對(duì)此類問(wèn)題,研究一種基于本體的低冗余知識(shí)圖譜實(shí)體關(guān)系檢索方法,期望通過(guò)所研究方法為知識(shí)圖譜應(yīng)用的拓展提供新的研究方向。
基于本體的低冗余知識(shí)圖譜實(shí)體關(guān)系檢索方法體系架構(gòu)如圖1所示,由左向右可劃分為三個(gè)主要部分,分別是:數(shù)據(jù)源、圖譜及索引構(gòu)建與檢索應(yīng)用。
圖1 實(shí)體關(guān)系檢索方法體系架構(gòu)
2.2.1 本體模型關(guān)系構(gòu)建
1)本體模型構(gòu)建
數(shù)據(jù)源內(nèi)包含的各類基礎(chǔ)數(shù)據(jù)大多存在不同種類的本體模型,這些本體存儲(chǔ)過(guò)程中的單位一般為表,不同本體間的相關(guān)性構(gòu)建以主外鍵為工具[6,7]。在獲取數(shù)據(jù)表內(nèi)全部表結(jié)構(gòu)的基礎(chǔ)上,依照表的存儲(chǔ)信息構(gòu)建本體模型,利用字段間的相關(guān)性在本體模型內(nèi)引入關(guān)聯(lián)信息,構(gòu)建若干個(gè)具有對(duì)象對(duì)立特征的本體模型[8],以此提升數(shù)據(jù)源內(nèi)數(shù)據(jù)結(jié)構(gòu)信息獲取的速度,并依照需求訪問(wèn)數(shù)據(jù)。
2)本體模型關(guān)系構(gòu)建
圖2所示為個(gè)體本體與組織本體間的相關(guān)性。
圖2 個(gè)體與組織本體模型關(guān)系
成功構(gòu)建本體模型后將產(chǎn)生若干個(gè)具有獨(dú)立特征的本體,這些本體間具有較大相關(guān)性,這些相關(guān)性在數(shù)據(jù)源內(nèi)通常以關(guān)聯(lián)表形式展示[9]。在構(gòu)建個(gè)體與組織本體模型關(guān)系時(shí)采用基于知識(shí)圖譜的本體模型關(guān)系構(gòu)建方法,詳細(xì)過(guò)程如下:
1)選取需構(gòu)建相關(guān)性的若干個(gè)數(shù)據(jù)模型,模型數(shù)量可表示為M1,M2,M3,…,MN。
2)確定不同模型的相關(guān)性字段,構(gòu)建字段間的相關(guān)性。
3)在圖數(shù)據(jù)庫(kù)內(nèi)存儲(chǔ)本體模型關(guān)系,其中包含本體模型的字段信息、具有相關(guān)性的模型名稱與參數(shù)等。
2.2.2 實(shí)體關(guān)系構(gòu)建
完成本體模型關(guān)系構(gòu)建后,即可依照關(guān)系參數(shù)構(gòu)建實(shí)體關(guān)系,詳細(xì)構(gòu)建過(guò)程如下:
1)利用統(tǒng)一的數(shù)據(jù)訪問(wèn)接口獲取全部參與實(shí)體關(guān)系構(gòu)建中各本體模型的全部數(shù)據(jù);
2)為提升全部數(shù)據(jù)表現(xiàn)的直觀性,依照數(shù)據(jù)庫(kù)內(nèi)表與表內(nèi)字段的描述轉(zhuǎn)換實(shí)體數(shù)據(jù)屬性名(由英文轉(zhuǎn)換為中文);
3)在圖數(shù)據(jù)庫(kù)內(nèi)存儲(chǔ)全部本體模型的實(shí)體數(shù)據(jù);
4)構(gòu)建實(shí)體關(guān)系,具體構(gòu)建過(guò)程中以本體模型的相關(guān)參數(shù)為依據(jù)[10];
5)循環(huán)1)—4)過(guò)程,至全部本體模型關(guān)系均完成對(duì)應(yīng)實(shí)體關(guān)系構(gòu)建為止。
知識(shí)圖譜數(shù)據(jù)量的顯著提升,令其中包含的實(shí)體數(shù)量顯著提升,在部分需直觀展示實(shí)體信息的應(yīng)用中,以防止產(chǎn)生用戶信息過(guò)載及滿足展示空間約束為目的[11,12],需采用ESSTER法生成具有高可讀性和低冗余性的實(shí)體摘要。
2.3.1 結(jié)構(gòu)重要性
知識(shí)圖譜內(nèi)屬性的流行度可描述其通用性,能夠表現(xiàn)此知識(shí)圖譜內(nèi)著重關(guān)注的關(guān)鍵含義。針對(duì)存在高流行度屬性的三元組,區(qū)分當(dāng)前實(shí)體和知識(shí)圖譜內(nèi)其他實(shí)體較為困難,用y表示三元組,ppopg(y)∈[0,1]和vpop(y)∈[0,1]分別表示知識(shí)圖譜內(nèi)y屬性的整體流行度和取值的流行度,則可利用式(1)描述此類度量
ch(y)=ppopg(y)·(1-vpop(y))
(1)
為提升實(shí)體摘要內(nèi)容的多樣性,可依照局部結(jié)構(gòu)內(nèi)屬性的流行度劃分多值屬性,設(shè)置相應(yīng)懲罰。同時(shí)針對(duì)高流行度的取值可設(shè)置相應(yīng)獎(jiǎng)勵(lì),以防止所選y存在過(guò)度偏重技術(shù)應(yīng)用的問(wèn)題。利用ppopl(y)∈[0,1]表示y的屬性在實(shí)體描述所對(duì)應(yīng)局部結(jié)構(gòu)內(nèi)的流行度,其計(jì)算過(guò)程如下
div(y)=(1-ppopl(y))·vpop(y)
(2)
為優(yōu)化知識(shí)圖譜內(nèi)不同數(shù)據(jù)集對(duì)整體流行度與局部流行度偏好的差異性,引入?yún)?shù)φ∈[0,1],由此可利用式(3)確定y的重要性
Ws(y)=φ·ch(y)+(1-φ)·div(y)
(3)
2.3.2 文本可讀性
量化知識(shí)圖譜內(nèi)文本可讀性,可確定不同y在用戶閱讀感受上的差異性。以G(y)表示y的可讀性,其計(jì)算過(guò)程需以屬性prop(y)的文本為基礎(chǔ),不同屬性的理解對(duì)知識(shí)儲(chǔ)備的需求也有所差異。在仿真用戶日常閱讀環(huán)境時(shí)需參考開放域文本語(yǔ)料,若語(yǔ)料內(nèi)文檔數(shù)量為B,則b(y)和n(y)分別能夠分別表示語(yǔ)料庫(kù)內(nèi)文檔屬性為prop(y)的文本的數(shù)量和b(y)個(gè)文檔內(nèi)用戶可獲取的文檔數(shù)量。由此可將G(y)理解為n(y)的函數(shù),公式描述如下
G(y)=familiarity(n(y))
(4)
式(4)內(nèi),familiarity表示與n(y)相關(guān)的非遞減函數(shù),其取值范圍為[0,1],其計(jì)算過(guò)程如下
(5)
實(shí)際應(yīng)用過(guò)程中,可將G(y)作為y分值確定的輔助權(quán)重。通過(guò)對(duì)數(shù)函數(shù)優(yōu)化G(y)的取值,可防止其取值分布傾斜過(guò)量導(dǎo)致的懲罰過(guò)度問(wèn)題,優(yōu)化后知識(shí)圖譜內(nèi)文本可讀性權(quán)重計(jì)算公式如下
Wt=log(G(y)+1)
(6)
2.3.3 低冗余度
1)由于本體知識(shí)存在屬性與類別間的相關(guān)性,因此,可基于本體知識(shí)確定邏輯冗余。實(shí)體關(guān)系表示過(guò)程中,屬性為rdf:type的y可表示實(shí)體關(guān)系所屬類別,假設(shè)兩個(gè)y表示的實(shí)體關(guān)系類別具有相關(guān)性,那么以其中一個(gè)y為基礎(chǔ)可推導(dǎo)獲取另一個(gè)y,由此確定這兩個(gè)y間具有邏輯冗余。
2)針對(duì)其他冗余關(guān)系,分別確定y屬性間或取值間的一致度確定其冗余程度。以simp(yi,yj)∈[-1,1]和simv(yi,yj)∈[-1,1]分別表示兩個(gè)y屬性間的一致度和取值間的一致度,可分別通過(guò)字符串一致度指標(biāo)和數(shù)值大小獲取。
3)以ovlp(yi,yj)∈[0,1]表示基于以上過(guò)程獲取的兩個(gè)y間的冗余度,其值與兩個(gè)y間冗余度呈正比例相關(guān)。通過(guò)實(shí)體關(guān)系內(nèi)y間成對(duì)冗余度確定實(shí)體摘要冗余度。
2.3.4 實(shí)體關(guān)系檢索實(shí)現(xiàn)
以S表示實(shí)體摘要,基于上述各指標(biāo)的量化方式,可利用式(7)表示S的質(zhì)量分值,將其作為生成高重要性、高可讀性與低冗余性實(shí)體摘要的依據(jù)。
(7)
式(8)內(nèi),λ表示待調(diào)參數(shù),其取值范圍為[0,1],主要功能是優(yōu)化實(shí)體摘要對(duì)冗余的認(rèn)可度。設(shè)定score(S)閾值,當(dāng)計(jì)算score(S)值高于閾值時(shí)即可確定所生成的實(shí)體摘要滿足低冗余要求。
針對(duì)所生成的低冗余實(shí)體關(guān)系摘要構(gòu)建索引,依照低冗余摘要索引類別快速檢索知識(shí)圖譜內(nèi)的數(shù)據(jù)與文檔數(shù)據(jù)中的實(shí)體關(guān)系。
實(shí)驗(yàn)為驗(yàn)證本文所提出的基于本體的低冗余知識(shí)圖譜實(shí)體關(guān)系檢索方法在實(shí)際知識(shí)圖譜實(shí)體關(guān)系檢索中的應(yīng)用效果,利用Java語(yǔ)言在Elasticsearch系統(tǒng)之上對(duì)本文方法進(jìn)行仿真實(shí)驗(yàn)。選取油茶樹為仿真對(duì)象,采用本文方法構(gòu)建油茶知識(shí)圖譜,采用本文方法檢索油茶樹知識(shí)圖譜內(nèi)的實(shí)體關(guān)系,實(shí)驗(yàn)結(jié)果如下。
針對(duì)仿真對(duì)象油茶樹,采用本文方法構(gòu)建其知識(shí)圖譜,圖3所示為仿真對(duì)象知識(shí)本體模型。
圖3 實(shí)驗(yàn)對(duì)象知識(shí)本體模型
圖3所示的仿真對(duì)象知識(shí)本體模型內(nèi)包含實(shí)驗(yàn)對(duì)象培育、加工與應(yīng)用全產(chǎn)業(yè)鏈的知識(shí),其中“工作單位”“研究成果”“培育人”“發(fā)明人”“作者”與“來(lái)源”均為本文方法所生成的低冗余實(shí)體摘要。知識(shí)本體內(nèi)包含的不同類別數(shù)據(jù)均來(lái)自于國(guó)家相關(guān)部門或平臺(tái)文件數(shù)據(jù)。
基于圖3所示的知識(shí)本體模型,依照關(guān)系參數(shù)構(gòu)建實(shí)驗(yàn)對(duì)象實(shí)體關(guān)系。針對(duì)知識(shí)本體模型內(nèi)包含的工作單位與研究成果數(shù)據(jù)集,以二值相關(guān)度、召回率以及平均準(zhǔn)確率均值為判斷指標(biāo)判斷本文方法檢索結(jié)果,各指標(biāo)值與實(shí)體關(guān)系檢索結(jié)果之間呈正比例相關(guān),也就是判斷指標(biāo)值越高,本文方法實(shí)體關(guān)系檢索性能越好。表1所示為本文方法實(shí)體關(guān)系檢索結(jié)果。
表1 本文方法實(shí)體關(guān)系檢索結(jié)果
分析表1得到,采用本文方法對(duì)本體模型中包含的兩個(gè)主要數(shù)據(jù)集進(jìn)行實(shí)體關(guān)系索引,本文方法下實(shí)體關(guān)系檢索的二值相關(guān)度等各指標(biāo)值均在0.8以上,滿足實(shí)際應(yīng)用需求,說(shuō)明本文方法具有較好的實(shí)體關(guān)系檢索效果。
為進(jìn)一步驗(yàn)證本文方法知識(shí)圖譜實(shí)體關(guān)系檢索的性能,選取文獻(xiàn)[4]中基于圖數(shù)據(jù)庫(kù)的實(shí)體關(guān)系檢索方法和文獻(xiàn)[5]中結(jié)合實(shí)體詞與句子語(yǔ)義的實(shí)體關(guān)系檢索方法為對(duì)比方法,采用對(duì)比方法檢索兩個(gè)主要數(shù)據(jù)集內(nèi)的實(shí)體關(guān)系,兩種對(duì)比方法實(shí)體關(guān)系檢索結(jié)果的各判斷指標(biāo)如表2所示。
表2 兩種對(duì)比方法實(shí)體關(guān)系檢索結(jié)果
結(jié)合表1與表2內(nèi)數(shù)據(jù)可知,采用結(jié)合實(shí)體詞與句子語(yǔ)義的實(shí)體關(guān)系檢索方法檢索數(shù)據(jù)集內(nèi)實(shí)體關(guān)系時(shí),二值相關(guān)度指標(biāo)結(jié)果稍高于本文方法,但召回率與平均準(zhǔn)確率均值均低于本文方法與基于圖數(shù)據(jù)庫(kù)的實(shí)體關(guān)系檢索方法;而基于圖數(shù)據(jù)庫(kù)的實(shí)體關(guān)系檢索方法與本文方法相比各判斷指標(biāo)值均有一定差距。上述實(shí)驗(yàn)結(jié)果可充分說(shuō)明本文方法具有較好的實(shí)體關(guān)系檢索性能。
本文方法中采用低冗余實(shí)體摘要生成方法生成知識(shí)圖譜內(nèi)實(shí)體關(guān)系摘要。以F-measure為衡量實(shí)體關(guān)系摘要質(zhì)量的指標(biāo),以S′和S*分別為生成時(shí)實(shí)體關(guān)系摘要與理想實(shí)體關(guān)系摘要,對(duì)比本文方法與兩種對(duì)比方法針對(duì)工作單位與研究成果數(shù)據(jù)集所生成的實(shí)體關(guān)系摘要質(zhì)量,結(jié)果如表3所示。
衡量指標(biāo)計(jì)算過(guò)程如下:
(8)
(9)
(10)
表3為不同方法下實(shí)體關(guān)系摘要質(zhì)量對(duì)比結(jié)果。
表3 實(shí)體關(guān)系摘要質(zhì)量對(duì)比結(jié)果
分析表3得到,三種不同方法所生成的實(shí)體關(guān)系摘要質(zhì)量排序?yàn)椋罕疚姆椒?結(jié)合實(shí)體詞與句子語(yǔ)義的實(shí)體關(guān)系檢索方法>基于圖數(shù)據(jù)庫(kù)的實(shí)體關(guān)系檢索方法;三種不同方法檢索實(shí)體關(guān)系摘要所花費(fèi)的時(shí)間排序?yàn)椋航Y(jié)合實(shí)體詞與句子語(yǔ)義的實(shí)體關(guān)系檢索方法>基于圖數(shù)據(jù)庫(kù)的實(shí)體關(guān)系檢索方法>本文方法。由此可知本文方法所生成的實(shí)體關(guān)系摘要質(zhì)量高于對(duì)比方法,并且可以顯著提升實(shí)體關(guān)系摘要檢索的效率。
本文研究基于本體的低冗余知識(shí)圖譜實(shí)體關(guān)系檢索方法,基于本體與實(shí)體關(guān)系構(gòu)建知識(shí)圖譜,采用低冗余摘要生成方法生成實(shí)體關(guān)系摘要。仿真結(jié)果顯示本文方法具有較好的檢索性能,說(shuō)明該方法具有較高的應(yīng)用價(jià)值。