趙彥鋒 周曉紅
摘 要:為了彌補(bǔ)傳統(tǒng)檢索模型基于關(guān)鍵詞匹配的缺陷,探討領(lǐng)域本體的語(yǔ)義信息檢索模型。闡述了四元組本體內(nèi)涵,給出了資源映射方案,制定了本體概念擴(kuò)展策略,描述了本體概念相似度計(jì)算算法,并進(jìn)行了實(shí)驗(yàn)對(duì)比分析。結(jié)果表明:本體語(yǔ)義檢索模型查準(zhǔn)率及查全率均高于傳統(tǒng)檢索模型,具有一定的理論及實(shí)用價(jià)值。
關(guān)鍵詞:本體;語(yǔ)義;相似度;信息檢索
中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:Aimed at the defects of the traditional keyword-based retrieval model,an ontology-based semantic query-oriented information retrieval model was built.Concept of four tuple ontology was defined,the resource mapping scheme was given,ontology concept expansion strategy was formulated, the concept similarity computing algorithm of ontology was described,and the experimental comparison was carried out.The results show that precision and recall rate of ontology semantic retrieval model are higher than the traditional retrieval model,this study has some theoretical and practical value.
Keywords:ontology;semantic;similarity;information retrieval
1 引言(Introduction)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人類已進(jìn)入信息時(shí)代,尤其是當(dāng)前大數(shù)據(jù)背景下網(wǎng)絡(luò)信息資源的數(shù)量越來越龐大,其已成為全球最大的信息庫(kù),且網(wǎng)絡(luò)信息資源隨之呈現(xiàn)出更加復(fù)雜的特性,暴露出一些亟待解決的問題[1-3]。然而,傳統(tǒng)信息檢索模式面對(duì)文本字符串匹配的語(yǔ)法層面,缺乏針對(duì)信息表示及處理和理解的語(yǔ)義層面分析,即信息是豐富的,而知識(shí)卻是貧乏的,所以依賴傳統(tǒng)的信息檢索方式已很難滿足用戶需求,而本體及其相關(guān)理論技術(shù)的出現(xiàn)為解決這一問題提供了可能。
本文將利用本體建立標(biāo)簽之間的語(yǔ)義關(guān)系,并引入語(yǔ)義與Agent技術(shù),實(shí)現(xiàn)標(biāo)注系統(tǒng)的語(yǔ)義檢索,通過語(yǔ)義模型豐富的描述能力和強(qiáng)大的邏輯推理能力準(zhǔn)確描述信息資源,以Agent組織完成用戶交互、信息檢索、信息過濾、結(jié)果返回,構(gòu)建一種基于本體學(xué)習(xí)的能夠?qū)崿F(xiàn)語(yǔ)義層面分析的檢索模型,以彌補(bǔ)傳統(tǒng)信息檢索的不足,進(jìn)而從信息查全率和查準(zhǔn)率方面改善信息檢索的效率。
2 基于本體的語(yǔ)義檢索模型構(gòu)建(Construction of semantic retrieval model based on ontology)
基于領(lǐng)域本體的語(yǔ)義檢索,可依據(jù)領(lǐng)域本體知識(shí)庫(kù)對(duì)信息資源或文檔進(jìn)行語(yǔ)義標(biāo)注,本體概念的語(yǔ)義信息可借助本體概念定義及本體概念之間的關(guān)系進(jìn)行描述,因?yàn)樘囟▽I(yè)領(lǐng)域的概念可通過領(lǐng)域本體進(jìn)行描述,這樣可使文檔或信息資源更具有語(yǔ)義,且可揭示出用戶檢索詞的語(yǔ)義,把從文檔和用戶查詢抽取的關(guān)鍵詞轉(zhuǎn)換為具有語(yǔ)義的本體概念,實(shí)現(xiàn)基于關(guān)鍵詞的語(yǔ)法檢索到基于本體概念的語(yǔ)義檢索的提升,其中,語(yǔ)義檢索與傳統(tǒng)基于關(guān)鍵詞匹配的檢索方式不同,因?yàn)檎Z(yǔ)義檢索基于信息理解的語(yǔ)義層面對(duì)信息資源及用戶提交的檢索請(qǐng)求進(jìn)行分析,語(yǔ)義檢索方式對(duì)檢索條件、信息組織以及檢索結(jié)果均賦予了語(yǔ)義成分,可從語(yǔ)義層面提高檢索精度[4-7]。
2.1 領(lǐng)域本體的語(yǔ)義檢索理念
基于領(lǐng)域本體的語(yǔ)義信息檢索,其理念在于使信息資源或文檔進(jìn)行語(yǔ)義描述,借助領(lǐng)域本體知識(shí)庫(kù)完成對(duì)文檔和信息資源對(duì)象的語(yǔ)義標(biāo)注,進(jìn)而揭示出文檔和信息資源對(duì)象的語(yǔ)義理解,及其用戶檢索詞的語(yǔ)義信息,同時(shí)可實(shí)現(xiàn)領(lǐng)域本體檢索詞的語(yǔ)義擴(kuò)展,最終完成理想檢索結(jié)果的獲取,具體檢索過程為:
step1:構(gòu)建并描述領(lǐng)域本體概念。描述領(lǐng)域本體概念,構(gòu)建領(lǐng)域本體知識(shí)庫(kù)。
step2:提取文檔或信息資源對(duì)象特征并進(jìn)行資源映射。借助領(lǐng)域本體概念描述及知識(shí)庫(kù)構(gòu)建和管理,對(duì)獲取的信息資源或文檔進(jìn)行語(yǔ)義標(biāo)注及資源映射,對(duì)信息資源或文檔語(yǔ)義內(nèi)涵進(jìn)行揭示。
step3:制定本體概念擴(kuò)展及查詢語(yǔ)義擴(kuò)展策略。在領(lǐng)域本體概念描述的基礎(chǔ)上,對(duì)用戶查詢請(qǐng)求的語(yǔ)義信息進(jìn)行揭示,并對(duì)用戶檢索詞進(jìn)行語(yǔ)義擴(kuò)展,檢索系統(tǒng)完成對(duì)生成的備選檢索詞集的檢索工作。
step4:實(shí)現(xiàn)領(lǐng)域本體概念相似度算法。依賴本體概念結(jié)構(gòu)圖,實(shí)現(xiàn)本體概念語(yǔ)義距離計(jì)算算法、本體概念節(jié)點(diǎn)深度計(jì)算算法及語(yǔ)義綜合相似度計(jì)算算法,以此服務(wù)于查詢結(jié)果排序環(huán)節(jié)。
step5:對(duì)檢索系統(tǒng)的檢索結(jié)果進(jìn)行排序。基于相關(guān)相似度計(jì)算算法及規(guī)則,完成用戶原始檢索詞及檢索系統(tǒng)返回檢索結(jié)果的相似度比較,基于相似度對(duì)檢索系統(tǒng)的檢索結(jié)果進(jìn)行排序并反饋給用戶。
2.2 領(lǐng)域本體語(yǔ)義檢索模型
領(lǐng)域本體語(yǔ)義檢索模型,如圖1所示。
(1)領(lǐng)域本體及其分類體系作為數(shù)據(jù)資源語(yǔ)義表征的核心,可對(duì)文檔或數(shù)據(jù)資源描述給予指導(dǎo)。領(lǐng)域知識(shí)也作為查詢擴(kuò)展和查詢結(jié)果排序的基本依據(jù)。因此,領(lǐng)域知識(shí)的構(gòu)建和維護(hù),如領(lǐng)域本體、推理規(guī)則的構(gòu)建和維護(hù),離不開領(lǐng)域知識(shí)管理。
(2)數(shù)據(jù)資源或文檔的語(yǔ)義可通過標(biāo)注進(jìn)行語(yǔ)義揭示,再借助文檔特征提取技術(shù),從領(lǐng)域本體詞匯中獲取本體概念,建立數(shù)據(jù)資源或文檔的語(yǔ)義特征域,完成數(shù)據(jù)資源庫(kù)文檔的自動(dòng)標(biāo)注,并完成標(biāo)注和索引信息資源或文檔的非語(yǔ)義特征,由此生成文檔索引庫(kù)和元數(shù)據(jù)庫(kù)。
(3)基于文檔或數(shù)據(jù)資源標(biāo)注信息構(gòu)建索引庫(kù),以此為依據(jù),檢索出能滿足用戶需求的文檔或數(shù)據(jù)資源信息。
(4)實(shí)現(xiàn)查詢擴(kuò)展及結(jié)果排序,就是以領(lǐng)域本體生成的本體詞匯庫(kù)為依據(jù),完成用戶查詢輸入文字的分詞工作,將用戶查詢分成本體概念集合和非本體概念集合。然后,分別對(duì)這兩個(gè)集合按相似度擴(kuò)展,得到兩個(gè)查詢候選集合,以此為依據(jù),借助相關(guān)相似度排序算法獲得排序后的查詢集,最后,完成查詢請(qǐng)求到索引庫(kù)及檢索庫(kù)的提交環(huán)節(jié),將查詢結(jié)果按查詢請(qǐng)求的相似度排序后,將結(jié)果推送給用戶。
3 關(guān)鍵算法實(shí)現(xiàn)(Key algorithm implementation)
3.1 四元組本體內(nèi)涵及其數(shù)學(xué)描述
基于四元組的本體概念描述為:,其中,表示用戶,描述使用標(biāo)簽管理資源的用戶,并且每個(gè)用戶有唯一的ID號(hào)標(biāo)識(shí)。表示標(biāo)簽,描述集合中用戶使用過的標(biāo)簽,標(biāo)簽可以是任意的字符串(單詞或短語(yǔ)),現(xiàn)定義標(biāo)簽為一組詞語(yǔ)序列,,
,公式描述標(biāo)
簽映射成一組術(shù)語(yǔ),術(shù)語(yǔ)可以是任意單詞。表示資源,描述所有領(lǐng)域相關(guān)資源,其內(nèi)容取決于用戶標(biāo)注集的類型,用戶標(biāo)注集主要由用戶、標(biāo)簽、資源三個(gè)要素組成,即用進(jìn)行描述。表示三元關(guān)系,其中元素描述用戶使用標(biāo)簽標(biāo)注收藏的資源。函數(shù)式描述用戶使用一組標(biāo)簽定義一個(gè)資源,其中 。
為了理解用戶標(biāo)簽含義及標(biāo)簽之間的關(guān)系,構(gòu)建主干本體,用二元組進(jìn)行描述:,
其中表示概念集,概念,是概念的唯一標(biāo)識(shí),是同義詞集合,包含了概念的同義術(shù)語(yǔ)集合,是描述概念的短語(yǔ),是將概念分類到泛化類中的詞類,也可將四個(gè)元素分別記為:,,,;
表示概念集之間的關(guān)系?,F(xiàn)定義為一組同義詞集合,資源,定義一組同義詞集合及里資源,,每個(gè)資源用二元組表示為:,
其中,為資源的頻率分配。三元組表示關(guān)系集合中的關(guān)系,其中,,,是關(guān)系的兩個(gè)關(guān)系項(xiàng)。
3.2 資源映射方案設(shè)計(jì)
一個(gè)標(biāo)簽可以映射成一個(gè)或多個(gè)概念,也有可能只有部分標(biāo)簽可以映射成一個(gè)或多個(gè)概念,現(xiàn)提供幾種資源映射方法。
(1)直接映射
直接映射描述標(biāo)簽到概念的映射,即將每個(gè)標(biāo)簽映射到本體中的概念,可表示為:
3.3 本體概念擴(kuò)展策略制定
(1)本體概念擴(kuò)展
本體概念擴(kuò)展步驟如下。
step1:對(duì)每個(gè)本體概念進(jìn)行擴(kuò)展。
為領(lǐng)域本體概念集,為兩個(gè)本體概念的相似度。如果對(duì)本體概念進(jìn)行語(yǔ)義擴(kuò)展可形成,
其中集合中每個(gè)元素要么為空,要么,且,。
也就是說,可基于相關(guān)相似度計(jì)算算法擴(kuò)展單個(gè)本體概念,選擇相似度大于給定閾值的本體概念,并且被選取的本體概念同其他用戶本體概念之間的相似度,比該被選取本體概念同當(dāng)前單個(gè)本體概念之間的相似度小。
step2:構(gòu)建本體概念查詢集。對(duì)用戶本體概念集的元素進(jìn)行擴(kuò)展,其中的每個(gè)概念元素都可擴(kuò)展為一個(gè)擴(kuò)展集,可分別從每個(gè)中進(jìn)行本體概念的選取,構(gòu)建本體概念查詢集,查詢本體概念集的組員就是從每個(gè)本體概念擴(kuò)展集中選取的概念,查詢本體概念集描述為:
(2)擴(kuò)展關(guān)鍵詞集合
關(guān)鍵詞的擴(kuò)展相對(duì)簡(jiǎn)單,因?yàn)殛P(guān)鍵詞不是本體概念,所有擴(kuò)展的集合所組成的集合為原關(guān)鍵詞集的冪集,記為,其中的元素本身也是集合,且與用戶輸入的原關(guān)鍵詞集之間的相似度計(jì)算也并不復(fù)雜,現(xiàn)令為冪集中的元素,則與之間的相似度計(jì)算模型為:
3.4 本體概念相似度算法
領(lǐng)域本體可描述特定領(lǐng)域中的概念及其關(guān)系,并可形成本體概念結(jié)構(gòu)圖,該本體圖可計(jì)算本體概念相似度,其實(shí)本體概念結(jié)構(gòu)圖可看作為帶有根節(jié)點(diǎn)的有向無環(huán)圖,本體概念用圖中的節(jié)點(diǎn)進(jìn)行表示,概念之間的關(guān)系通過有向邊進(jìn)行表示,且該本體概念結(jié)構(gòu)圖具有樹型結(jié)構(gòu)的層次結(jié)構(gòu)特性,及有向邊和多重繼承的特性。具體算法步驟如下:
step1:本體概念語(yǔ)義距離的計(jì)算。
基于本體概念圖,本體概念的語(yǔ)義距離表現(xiàn)為連接兩個(gè)概念節(jié)點(diǎn)的有向邊的數(shù)量,記為。本體概念語(yǔ)義距離與本體概念語(yǔ)義相似度之間的關(guān)系為:兩本體概念語(yǔ)義之間的距離越大,則這兩個(gè)本體概念之間的相似度越?。环粗?,兩本體概念語(yǔ)義之間的距離越小,則其之間的相似度就越大,即兩者成反比關(guān)系。
step2:本體概念父節(jié)點(diǎn)深度的計(jì)算。
基于本體概念所體現(xiàn)的層次結(jié)構(gòu)特點(diǎn),對(duì)本體概念節(jié)點(diǎn)進(jìn)行自頂向下的組織,及由大到小的分類,依據(jù)本體概念最近共同父節(jié)點(diǎn)所在層次,可知其層次越深,本體概念分類越細(xì),從其父節(jié)點(diǎn)繼承的語(yǔ)義信息就越多,其共同語(yǔ)義信息就越多,即這兩個(gè)本體概念間的相似度就越大?,F(xiàn)用描述兩概念的最近共同父節(jié)點(diǎn)深度,表示兩概念最近共同父節(jié)點(diǎn)。
step3:計(jì)算語(yǔ)義重合度。
本體概念之間的語(yǔ)義重合度計(jì)算可依據(jù)兩本體概念間所包含的相同父節(jié)點(diǎn)個(gè)數(shù)來完成,但如果同時(shí)對(duì)本體概念語(yǔ)義距離和本體概念語(yǔ)義重合度加以考慮,則存在重復(fù)計(jì)算的可能性,因?yàn)楸倔w概念語(yǔ)義距離中隱含著本體概念語(yǔ)義重合度信息,所以可基于本體概念語(yǔ)義距離和共同父節(jié)點(diǎn)在本體概念結(jié)構(gòu)圖中的深度,計(jì)算出本體概念相似度,令兩本體概念 、,則、的語(yǔ)義相似度可通過、的語(yǔ)義綜合距離和、共同父節(jié)點(diǎn)的綜合深度對(duì)相似度影響的加權(quán)歸一化進(jìn)行表示,計(jì)算如下:
其中,為語(yǔ)義距離加權(quán)值,表示共同父節(jié)點(diǎn)的加權(quán)值,且滿足,語(yǔ)義距離決定的相似度可通過調(diào)節(jié)參數(shù)進(jìn)行調(diào)節(jié),表示本體概念樹的最大深度。
step4:本體概念綜合相似度計(jì)算。
如果對(duì)用戶檢索詞集中的本體概念進(jìn)行語(yǔ)義擴(kuò)展,可生成查詢語(yǔ)義擴(kuò)展集,記為,如果對(duì)用戶檢索詞集中的非本體概念的關(guān)鍵詞集進(jìn)行擴(kuò)展,可生成關(guān)鍵詞集的冪集,記為,現(xiàn)從中取一元素,記為,該元素是一個(gè)擴(kuò)展概念集,再?gòu)闹腥∫辉兀洖?,該元素為一個(gè)擴(kuò)展關(guān)鍵詞集,便可形成一個(gè)提交給檢索系統(tǒng)的檢索請(qǐng)求,表示為(,),令用戶檢索詞集為(,),每一個(gè)擴(kuò)展的檢索請(qǐng)求記為(,),則通過(,)和(,)相似度的計(jì)算,可得到用戶檢索詞集和檢索結(jié)果的相似度?,F(xiàn)基于擴(kuò)展關(guān)鍵詞集相似度、擴(kuò)展本體概念集相似度、分類概念集相似度,可計(jì)算出綜合相似度,數(shù)學(xué)描述如下:
其中,、為調(diào)節(jié)參數(shù),代表本體概念集相似度與綜合相似度的比值,代表關(guān)鍵詞集相似度與綜合相似度的比值,且。
4 實(shí)驗(yàn)與結(jié)果分析(Experiment and result analysis)
本實(shí)驗(yàn)環(huán)境為:Windows 7操作系統(tǒng),SQL SERVER 2008數(shù)據(jù)庫(kù)平臺(tái),模型數(shù)據(jù)庫(kù)動(dòng)態(tài)鏈接查詢實(shí)現(xiàn)工具為某專業(yè)數(shù)據(jù)庫(kù)數(shù)據(jù)及WEB技術(shù)。建立領(lǐng)域本體的開發(fā)工具為:5.0的PROPERTY BROWSER環(huán)境,每個(gè)詞條類的構(gòu)建借助Object Property屬性實(shí)現(xiàn),因?yàn)镺bject屬性可在類與類之間建立不同層次的關(guān)系描述,而且兩個(gè)Object屬性之間存在多種關(guān)系。如果基本父類建立完成后,還可為每個(gè)父類添加不同的子類和屬性,同時(shí)還具有繼承特性,即所有子類都可繼承其父類的基本屬性。
實(shí)驗(yàn)步驟為:
step1:對(duì)選取知識(shí)本體的專業(yè)領(lǐng)域及范圍進(jìn)行確定,基于自頂向下的順序,構(gòu)建本體概念和術(shù)語(yǔ)清單。
step2:對(duì)基礎(chǔ)詞庫(kù)進(jìn)行完善。
step3:依據(jù)分類體系層次,對(duì)本體實(shí)例進(jìn)行添加,構(gòu)建整個(gè)領(lǐng)域本體。
本體概念語(yǔ)義信息檢索模型測(cè)試指標(biāo)通過查準(zhǔn)率和查全率進(jìn)行衡量,分別描述為:
查全率:
查準(zhǔn)率:
同時(shí),借助對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià)及對(duì)比分析,以便于全面衡量其檢索效果,的計(jì)算公式描述為:
它為檢驗(yàn)本體概念語(yǔ)義信息檢索模型,將其與傳統(tǒng)關(guān)鍵詞檢索模型進(jìn)行實(shí)驗(yàn)對(duì)比分析,對(duì)抽取的某領(lǐng)域的標(biāo)準(zhǔn)詞條進(jìn)行測(cè)試,從中隨機(jī)選擇四個(gè)詞條實(shí)驗(yàn)樣本,分別以相同詞條在本文模型和基于關(guān)鍵詞模型中檢索,實(shí)驗(yàn)結(jié)果詳見表1、表2和圖2所示。
由以上實(shí)驗(yàn)結(jié)果可知,領(lǐng)域本體概念的語(yǔ)義信息檢索模型效率高于傳統(tǒng)關(guān)鍵詞信息檢索模型,且語(yǔ)義檢索的 也高于傳統(tǒng)關(guān)鍵詞檢索,表明本體概念語(yǔ)義檢索模型具有一定的理論及實(shí)用價(jià)值。
5 結(jié)論(Conclusion)
論文構(gòu)建了面向語(yǔ)義查詢的信息檢索模型,對(duì)資源映射方案、信息概念擴(kuò)展、相似度計(jì)算等進(jìn)行了改進(jìn),實(shí)驗(yàn)結(jié)果證明該模型具有較高的查全率和查準(zhǔn)率。今后的工作中,將繼續(xù)研究本體結(jié)構(gòu)中,如何查找到更多概念鄰居,以減少數(shù)據(jù)稀少的影響,進(jìn)而提高檢索效率。
參考文獻(xiàn)(References)
[1] Zhang Bin,et al.Combining relation and content analysis for social tagging recommendation[J].Journal of Software,2012,23(3):476-488.
[2] 呂剛,王曉峰,胡春玲.基于本體學(xué)習(xí)的標(biāo)簽推薦方法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2015,3(3):424-426.
[3] 何繼媛,竇永香,劉東蘇.大眾標(biāo)注系統(tǒng)中基于本體的語(yǔ)義檢索研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2011,203(3):51-56.
[4] 魏桂英,高學(xué)東,武森.基于領(lǐng)域本體的個(gè)性化文本信息檢索[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào),2011(4):316-320.
[5] 張宗仁,楊天奇.基于自然語(yǔ)言理解的SPARQL本體查詢[J].計(jì)算機(jī)應(yīng)用,2010,30(12):3397-3400.
[6] 何偉,楊小平.基于詞間語(yǔ)義關(guān)聯(lián)性的本體擴(kuò)展[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(11):73-76.
[7] 張勝.一種基于領(lǐng)域本體的語(yǔ)義檢索模型[J].軟件導(dǎo)刊,2014,13(3):18-21.
作者簡(jiǎn)介:
趙彥鋒(1976-),男,碩士,高級(jí)工程師.研究領(lǐng)域:軟件工程,網(wǎng)絡(luò)安全.
周曉紅(1968-),女,碩士,實(shí)習(xí)師.研究領(lǐng)域:軟件工程,人事管理.