摘 要:不同本體之間的異構(gòu)問題成為各種應(yīng)用之間實現(xiàn)更智能化、高效的知識共享和通信的障礙。本體匹配是解決上述問題的有效方法。為了獲取高質(zhì)量匹配結(jié)果,提出了基于部分參考匹配結(jié)果(partial reference alignment,PRA)的混合遺傳算法,該方法采用分層選擇方法解決傳統(tǒng)PRA構(gòu)建過程中的語義丟失問題,并提出了一種新的適應(yīng)度函數(shù)進一步充分利用PRA中的潛在信息,從另一個角度解決語義丟失問題。此外,該算法結(jié)合了遺傳算法(GA)和隨機爬山算法兩種方法,以在全局和局部范圍內(nèi)尋找最優(yōu)的本體匹配方案。實驗結(jié)果表明,該算法在不同的本體匹配任務(wù)中均能有效地獲得高質(zhì)量的匹配結(jié)果,并且和其他前沿的方法比較也有出色的表現(xiàn)。
關(guān)鍵詞:本體匹配;部分參考匹配集合;異質(zhì)性;混合遺傳算法
中圖分類號:TP301.6 文獻標(biāo)志碼:A 文章編號:1001-3695(2024)11-017-3323-06
doi:10.19734/j.issn.1001-3695.2024.03.0089
Optimizing ontology matching through hybrid genetic algorithm based on partial reference alignment
Qiao Yubo, Lyu Qing?, Xu Zhaoyun
(College of Electrical amp; Power Engineering, Taiyuan University of Technology, Taiyuan 030024, China)
Abstract:The problem of heterogeneity between different ontologies becomes an obstacle to more intelligent and efficient knowledge sharing and communication between various applications. Ontology matching is an effective way to solve the above problems. In order to obtain high quality matching results, this paper proposed a hybrid genetic algorithm (HGA) based on PRA. The method adopted a stratified selection approach to utilize the heterogeneity feature among ontologies to solve the issue of semantic loss in the traditional PRA construction process, and proposed a new fitness function to further fully utilize the potential information in the PRA to solve the semantic loss problem from another perspective. In addition, the algorithm combined both genetic algorithm and stochastic hill climbing algorithm in order to find the optimal ontology matching solution in both global and local scales. Experimental results show that the algorithm is effective in obtaining high-quality matching results in different ontology matching tasks, and it also performs well in comparison with other cutting-edge methods.
Key words:ontology matching; partial reference alignment; heterogeneity; hybrid genetic algorithm
0 引言
本體作為人工智能領(lǐng)域中的一種最新知識建模工具,定義了一系列領(lǐng)域概念及其相互關(guān)系[1],以形式化的、機器可理解的方式描述領(lǐng)域知識。隨著人工智能的飛速進步,促進了不同領(lǐng)域間的互動與合作,各種本體被開發(fā)出來,為智能家居[2]、智能醫(yī)療[3]和智慧交通[4]等應(yīng)用提供領(lǐng)域知識支持。然而,由于信息的分散性和人類的主觀性,數(shù)據(jù)實體的描述可能會在不同的本體中有所差異,這導(dǎo)致了本體異構(gòu)問題[5]。為了克服這一挑戰(zhàn),需要利用本體匹配技術(shù)[6]確定兩個不同本體之間語義相關(guān)的實體。
在本體匹配過程中,通常利用相似度量技術(shù)計算實體的語義相似度。由于實體之間異構(gòu)特征的多樣性,單一的相似度量方法很難確保在復(fù)雜匹配場景中的通用有效性。因此,需要通過聚合多個相似度量方法來提高匹配結(jié)果的質(zhì)量[7]。本體匹配是一種非常具有挑戰(zhàn)性的優(yōu)化問題:首先,集成參數(shù)在[0,1]之間是連續(xù)變化的,故其搜索空間是巨大的;其次,聚合各類相似度矩陣參數(shù)的組合有無窮多種,故其是一個多峰尋優(yōu)問題[7];最后,本體匹配的目標(biāo)函數(shù)沒有梯度信息,使用傳統(tǒng)數(shù)學(xué)方法更容易受到局部最優(yōu)解的影響。一個強大的搜索算法是解決本體匹配中上述三個難點的關(guān)鍵。遺傳算法(GA)由于具有處理復(fù)雜搜索空間問題的能力以及全局搜索能力[8],被廣泛用于解決本體匹配問題。GA還可以通過遺傳算子逐步改進解的質(zhì)量,這些操作不需要梯度信息,這也是其與傳統(tǒng)數(shù)學(xué)規(guī)劃方法相區(qū)別的顯著優(yōu)勢[9]之一。
目前基于遺傳算法的本體匹配技術(shù)取得了一定成功,但仍存在以下缺陷。首先,在實際情況中,自動匹配工具無法避免出現(xiàn)錯誤的匹配結(jié)果[10]。理想情況下,為了保證對齊質(zhì)量,需要專家提供參考對齊(reference alignment,RA)來引導(dǎo)匹配方向。然而,可能實體對數(shù)量與本體內(nèi)部的實體數(shù)量是二次方關(guān)系,獲取全部的RA是昂貴的。因此,Ritze等人[11]選取一個與RA“相似”的子集PRA來調(diào)整系統(tǒng)參數(shù)。文獻[11]隨機從本體中選擇部分實體,確認其匹配關(guān)系后加入PRA。Xue等人[12]使用聚類算法將本體中的實體劃分為語義相對獨立的小集群,然后從中隨機選擇實體,在專家確定其匹配關(guān)系后構(gòu)建出PRA。這兩種方法都存在一個共同的問題,即它們都是從源本體出發(fā)來構(gòu)建PRA,忽略了源本體和目標(biāo)本體之間的語義關(guān)系,弱化了本體匹配知識共享的能力。其次,現(xiàn)有的利用PRA引導(dǎo)算法進化的技術(shù)只關(guān)注PRA中的正確信息,而忽略了其中隱含的錯誤信息。錯誤的信息同樣蘊涵有價值的信息,它們能夠提供額外的線索和背景知識。因此,導(dǎo)致適應(yīng)度函數(shù)難以準(zhǔn)確地反映真實的數(shù)據(jù)分布,無法有效地區(qū)分異構(gòu)實體。最后,傳統(tǒng)的遺傳算法在解決這種復(fù)雜的連續(xù)優(yōu)化問題時,往往會遇到早熟收斂的問題[13],從而降低了匹配結(jié)果的準(zhǔn)確性。
針對上述問題,提出一種基于部分參考匹配集合的混合遺傳算法(HGA-PRA)。首先,為了構(gòu)建出一個更具代表性的PRA,采用一種分層選擇的方法將整體上異質(zhì)的信息劃分為語義同質(zhì)的子組,更好地展現(xiàn)本體之間的聯(lián)系。然后,提出一個新的適應(yīng)度函數(shù),綜合考慮了PRA中專家已驗證的匹配對,以及可能對這些匹配對產(chǎn)生干擾的候選匹配對。兩者共同引導(dǎo)算法的進化,以最大化糾正和優(yōu)化匹配過程。最后,為了降低陷入局部最優(yōu)的可能性,提出一種混合遺傳算法,將隨機爬山算法[14]引入遺傳算法中進行局部優(yōu)化。
1 匹配框架
為了高質(zhì)量完成本體匹配任務(wù),提出HGA-PRA算法,其框架如圖1所示。
整個匹配過程分為初始化、PRA構(gòu)建和優(yōu)化三個階段。在初始化階段,將源本體和目標(biāo)本體.rdf文件轉(zhuǎn)換為有向圖形式,圖中的節(jié)點代表各個本體包含的實體。然后,使用基于術(shù)語(syntax-based)、語義(linguistic-based)和結(jié)構(gòu)相似度度量方法(structure-based)[15]計算源本體和目標(biāo)本體之間的相似度矩陣。第二階段構(gòu)建PRA來評估個體質(zhì)量。首先,通過可行性過濾策略定義樣本的總體;然后,針對本體不同特征,采用多樣性分層策略進行分層;最后,通過收斂性選擇策略有目的地從各分組中提取樣本,并在專家確認后將其加入PRA集合中(具體見第2章)。
第三階段使用HGA確定集成參數(shù)來生成最優(yōu)的匹配結(jié)果。首先,隨機初始化群體,并評估每個初始個體。在整個進化過程中會保留一個精英個體,并在每一代之后對其進行更新。然后,在每一代中,新的后代從當(dāng)前種群中產(chǎn)生。具體地,首先通過錦標(biāo)賽選擇從種群中選擇親代。然后,對選定的親代個體使用交叉和變異算子生成子代。之后,評估生成的后代,并更新精英個體。最后,在精英個體附近執(zhí)行局部搜索以找到更優(yōu)的新個體并更新種群。當(dāng)精英個體的最優(yōu)適應(yīng)度為1.0或達到最大迭代次數(shù)時,算法停止(具體見第3章)。
2 分層選擇方法構(gòu)建PRA
所提出的分層選擇方法構(gòu)建PRA主要是為了解決優(yōu)化過程中的兩個難題:a)如何構(gòu)建更具代表性的PRA;b)為了減輕專家工作負擔(dān),盡量減少其介入次數(shù),即PRA中已驗證匹配對數(shù)量越少越好。如何使數(shù)量有限的PRA在優(yōu)化中發(fā)揮更大的作用。在問題a)中,如果構(gòu)建的PRA不具有代表性,算法可能會無法找到最優(yōu)解;而在問題b)中,如果PRA中已驗證的匹配對數(shù)量一定,但包含的有用信息量相對較少,算法將難以跳出局部最優(yōu)解,從而浪費計算資源在無效的解決方案上。這個方法主要由三部分組成,細節(jié)描述如下。
2.1 基于可行性過濾策略確定總體
在本體匹配領(lǐng)域中,隨著實體數(shù)量的增加,可能的映射數(shù)量會以指數(shù)形式增長,列出所有可能的映射成為一項不可行的任務(wù)。因此,提出了一種基于可行性的過濾策略來構(gòu)造原始樣本集(Ω),以便專注于那些最有可能是正確匹配的候選對,減少低質(zhì)量或不相關(guān)匹配對的干擾。
如圖2所示,給出了基于可行性的過濾策略構(gòu)造原始樣本集示例。矩陣中展示了三種不同的相似度度量方法的結(jié)果。矩陣中深灰色部分表示的是相似度排名位居前兩位的候選匹配對,三個虛線框各自代表三種不同的相似度計算方法。矩陣中行代表源本體的概念,記作OS={OS1,OS2,…,OSm},列代表目標(biāo)本體的概念,記作OT={ OT1,OT2,…,OTn}。這些矩陣的特點是非零元素很少而大部分元素為零?;谙嗨贫染仃嚨倪@一特點,將與源本體的概念最相似的目標(biāo)本體概念(sim-Best)和次相似的目標(biāo)概念(simSubOptimal)放入Ω。在構(gòu)建過程中,任何重復(fù)出現(xiàn)的候選匹配對將不會被納入考慮。高相似度值是實際對齊的良好指示器,通過選擇重要的候選匹配對,可以最大程度地保留數(shù)據(jù)的原始語義。
2.2 基于多樣性分層策略劃分子組
每個本體匹配任務(wù)都有其特殊性,為了使PRA最大程度地保留原始語義,提出了基于多樣性分層策略。根據(jù)以下兩個特征進行分層:
a)異質(zhì)性,分為三個階層(syntax-based、linguistic-based、structure-based)。綜合考慮多個異質(zhì)性特征,可以從不同的角度揭示實體之間的差異性,進而提供更綜合、準(zhǔn)確的分層依據(jù)。
b)相似度值,分為兩個階層(simBest和simSubOptimal)。在本體匹配過程中,相似度矩陣融合是不同相似度方法的加權(quán)和,這會使得聚合結(jié)果的大小總是介于已有的適應(yīng)度值中間,對算法的尋優(yōu)造成阻礙。通過比較這兩個值,可以更直觀地捕捉整個數(shù)據(jù)的分布特性,從而抵抗測試集的變化。假設(shè)e1和e2的相似度值為{0.54,0.33,0.88},而e1和e2′的相似度值為{0.46,0.25,1.00};當(dāng)權(quán)重分配為x=0.5,y=0.3,z=0.2時,第二組加權(quán)求和結(jié)果0.505大于第一組0.545;當(dāng)權(quán)重分配為x=0.3,y=0.5,z=0.2時,第二組加權(quán)求和0.463結(jié)果小于第一組0.503。如果正確的匹配對e1和e2′的加權(quán)和值較低,算法可能會傾向于選擇錯誤的匹配對,從而影響最終的匹配結(jié)果。因此,這兩個值在引導(dǎo)算法進化過程中有著重要作用。
通過上述特征將總體分為23=8個類別,目的是讓同一組內(nèi)的實體或概念在語義上是相似的。如果一個候選匹配對在三種相似度方法中都得到最高相似度得分,加權(quán)求和后它仍將是最高的;反之亦然。因此,最終的分類數(shù)量少于預(yù)期,只分成了如圖3所示的6個不同類別??偟膩碚f,分層劃類增大了同一類別內(nèi)各單位之間的共同性,有助于選擇具有代表性的樣本。
2.3 基于收斂性選擇策略提取樣本
基于收斂性選擇的核心思想旨在將難以聚合的匹配對轉(zhuǎn)換為可操作的爭議性大小的比較。爭議性越大,對種群的收斂過程貢獻越顯著。爭議性大小計算方式如式(1)所示。在計算完爭議性大小后,采用輪盤賭的方法在每個子組中選擇了15%源本體概念,這樣具有較大爭議性的映射更有可能被選中。最后,經(jīng)專家確認后,放入PRA中。
Contention(eS,eT)=NM(1)
其中:eS、eT分別為源本體和目標(biāo)本體的概念;M為分層策略得到的子組數(shù)量;N為源實體在這些子組中重復(fù)出現(xiàn)的次數(shù)。
3 HGA-PRA算法
本體元匹配是一個多峰優(yōu)化問題。傳統(tǒng)的GA在解決這種復(fù)雜的優(yōu)化問題時,往往容易陷入局部最優(yōu)。針對這一問題,提出一種混合遺傳算法,該算法將GA與隨機爬山算法結(jié)合。遺傳算法具有穩(wěn)健性和高效性,在全局搜索方面表現(xiàn)出色;而隨機爬山算法是一種貪心算法,能夠快速收斂到局部最優(yōu)解,具有較強的局部搜索能力。兩者優(yōu)勢互補,從而提高優(yōu)化能力。
3.1 優(yōu)化模型
給定兩個本體OS和OT,基于部分參考匹配結(jié)果的本體匹配問題的優(yōu)化模型定義如下:
max f-measureP(X)s.t. X=(x1,x2,…,xn-1,xn)T
∑ni=1xi=1, xi∈[0,1]xn+1∈[0,1](2)
其中:n表示使用相似度度量方法的數(shù)量;X為優(yōu)化模型的參數(shù)集合,xi (i=1,…,n) 表示第i個相似度方法的權(quán)重,將用于執(zhí)行相似性聚合任務(wù),且權(quán)重之和為1;xn+1表示閾值,用來過濾掉不正確的實體對應(yīng)關(guān)系,目標(biāo)函數(shù)f-measurep(X)綜合考慮了PRA匹配結(jié)果的recallP(查全率)和precisionP(查準(zhǔn)率)。用于計算由參數(shù)集合X聚合產(chǎn)生的匹配結(jié)果與PRA的符合程度,公式為
f-measureP=2×precisionP×recallPprecisionP+recallP(3)
recallP=|R′∩A′||R′|(4)
precisionP=|R′∩A′||A′|(5)
其中:A′代表最終找到的對齊集;R′代表部分參考對齊集。
f-measureP對搜索過程起著關(guān)鍵的引導(dǎo)作用。傳統(tǒng)方法利用PRA確定源本體子集OPS和目標(biāo)本體子集OPT,以構(gòu)建相似度矩陣,得到匹配結(jié)果,并計算f-measureP。在這個過程中,沒有充分利用與PRA不一致的候選匹配對,導(dǎo)致信息不完整。這種不周全考慮導(dǎo)致無法得到準(zhǔn)確的決策邊界。因此,本文在這方面作出了改進,如圖4所示,在已經(jīng)確定的OPT中補充了容易混淆的目標(biāo)實體以提高辨別力,逐漸優(yōu)化自身。
3.2 編碼方案
在這項工作中,編碼信息包括了用于集成相似度度量結(jié)果的權(quán)重集合和用于過濾匹配結(jié)果的閾值。對于權(quán)重部分,在 [0,1] 中定義分割點表示權(quán)重。假設(shè)p是所需的權(quán)重數(shù)量,即相似度度量方法的個數(shù),則分割點的集合可以被表示為c′={c1′,c2′,…,cp-1′}。個體的解碼過程是先將c′中的元素以升序得到c={ c1,c2,…,cp-1},然后通過式(6)計算相應(yīng)的權(quán)重:
wk=c1
k=1ck-ck-1 1lt;klt;p1-ck-1 k=p (6)
由于需要p-1位表示分割點和1位表示閾值,所以個體編碼長度為p。圖5給出了一個示例來說明這項工作的編碼機制。假設(shè)p=5,生成的五個隨機數(shù)分別為0.33、0.71、0.59、0.15和0.88,其中0.88作為閾值,其余四個數(shù)字(分割點)按升序排列,對應(yīng)的五個權(quán)重分別為0.15、0.18、0.26、0.29和0.12。
3.3 遺傳算子
遺傳算子用于模擬自然進化過程中的遺傳機制,幫助算法搜索問題的解空間。通過不斷地進行交叉和變異操作,引導(dǎo)種群向著更優(yōu)解的方向演化[16]。如圖6所示,該算法使用兩點交叉算子[17]和位變異算子[18]來生成子代。兩點交叉算子在兩個親代個體parent 1和parent 2上隨機設(shè)置了兩個切割點(交叉點),然后進行基因片段的交換,生成新的個體child 1和child 2。位變異算子則是對個體進行微調(diào),根據(jù)變異率對待變異基因進行數(shù)值反轉(zhuǎn),例如待變異基因的值為1,則將該基因值變?yōu)?。
3.4 基于隨機爬山算法的局部搜索過程
爬山算法是一種迭代的局部搜索算法,它主要針對當(dāng)前種群中的精英個體進行操作。在迭代過程中,該算法通過隨機地變異當(dāng)前個體以試圖在當(dāng)前解鄰域內(nèi)找到更好的個體。如果變異操作產(chǎn)生的新個體優(yōu)于當(dāng)前精英個體,則將新個體取代當(dāng)前精英個體;反之,返回當(dāng)前精英個體。該算法一直重復(fù)執(zhí)行,直到無法再進一步改進當(dāng)前個體,或是達到最大迭代次數(shù)。
4 實驗結(jié)果及分析
在實驗中,在OAEI的Benchmark數(shù)據(jù)集上驗證了HGA-PRA算法的有效性。Benchmark是一個通用測試數(shù)據(jù)集,其中包含多種異構(gòu)匹配任務(wù)。每個Benchmark案例由兩個本體和一個參考配準(zhǔn)組成,用于評估匹配技術(shù)確定的配準(zhǔn)質(zhì)量。表1詳細概述了Benchmark數(shù)據(jù)集的相關(guān)信息。
4.1 實驗配置
根據(jù)以往相關(guān)本體匹配研究[19],HGA-PRA的參數(shù)設(shè)置如表2所示。將種群大小設(shè)定為30,交叉率和突變率設(shè)定為0.8和0.02,最大迭代次數(shù)被設(shè)置為250。局部搜索過程的種群規(guī)模設(shè)定為50,即局部搜索算法會執(zhí)行50次,以產(chǎn)生50個新個體。為了保證產(chǎn)生多樣性高的局部搜索群體,局部搜索過程所需的變異概率要高于GA的變異概率。通過實驗發(fā)現(xiàn),變異率的取值為0.5時結(jié)果較好。
4.2 分層選擇方法構(gòu)建PRA的有效性驗證
在表3中,展示了使用不同方法構(gòu)建的PRA在Benchmark數(shù)據(jù)集上引導(dǎo)算法進化所獲得的f-measure結(jié)果。每個方法結(jié)果旁邊的“(+) / (-) / (=)”符號表示方法在統(tǒng)計學(xué)上相對于比較方法表現(xiàn)更好、更差或相當(dāng)。最后一行顯示了方法在多少個測試集中展現(xiàn)出更好、相當(dāng)或更差的性能。
根據(jù)表3的結(jié)果,分層選擇方法在引導(dǎo)算法進化方面明顯優(yōu)于隨機選擇和聚類選擇方法。具體而言,在25個測試用例中,分層選擇方法表現(xiàn)出比隨機選擇方法更有優(yōu)勢,并且在其余11個用例上沒有顯著差異。與聚類選擇方法相比,在19個測試用例中,分層選擇方法表現(xiàn)出比聚類選擇方法有更好的性能,并且在其余17個用例上沒有顯著差異。從表3也可以看出,分層選擇方法對應(yīng)的方差最小,而隨機選擇方法則表現(xiàn)出最大的方差。這種差異主要源于隨機選擇方法忽視了本體的語義信息,導(dǎo)致生成的PRA可能無法準(zhǔn)確地代表完整的RA,使數(shù)據(jù)結(jié)果呈現(xiàn)出明顯的不穩(wěn)定性。因此,通過f-measure和方差的分析結(jié)果,驗證了采用分層選擇方法構(gòu)建的PRA更具代表性。
4.3 適應(yīng)度函數(shù)和局部搜索的有效性驗證
HGA-PRA中一個重要的新組件是適應(yīng)度函數(shù)。本文提出了一個具有決策邊界的適應(yīng)度函數(shù)解決權(quán)重集合難以量化的問題。HGA-PRA另一個重要部分是局部搜索策略,將GA和SHC結(jié)合,降低了陷入局部最優(yōu)的可能性,提高了匹配質(zhì)量。為了驗證這兩部分的有效性,將HGA-PRA與對照組a)b)和c)進行比較。
a)HGA-PRA1:只利用PRA中正確的信息,以此來驗證適應(yīng)度函數(shù)糾錯的有效性。
b)HGA-PRA2:用全部的參考匹配集合引導(dǎo)算法進化,驗證了PRA的有效性。由于參考匹配對獲取昂貴,這使得HGA-PRA2在實際中不適用。
c)GA-PRA:通過傳統(tǒng)的GA解決本體匹配問題,以此來驗證局部搜索的有效性。
表4顯示了HGA-PRA1、HGA-PRA2和HGA-PRA在測試集上的比較結(jié)果。從表中可以清楚地看到,HGA-PRA在31個測試集上的性能都明顯優(yōu)于HGA-PRA1。HGA-PRA優(yōu)于HGA-PRA1,證明了在適應(yīng)度函數(shù)中使用與現(xiàn)有PRA不一致的信息是有效的。另一方面可以看到,HGA-PRA在36個測試集中的12個上顯示出統(tǒng)計學(xué)上差于HGA-PRA2的性能,而在其余24個測試用例上與HGA-PRA2沒有顯著差異。HGA-PRA在所有測試用例上獲得的平均f-measure為0.81,僅略低于HGA-PRA2(0.82)。同時,再一次證明分層選擇方法構(gòu)建的PRA可以在很大程度上代表RA。此外,通過GA-PRA和HGA-PRA的比較,在25個測試用例中,HGA-PRA明顯優(yōu)于GA-PRA,并且在其余11個用例上沒有顯著差異,驗證了局部搜索的有效性。
4.4 OAEI參與者比較
表5顯示了HGA-PRA和最先進的5種本體匹配方法在OAEI的Benchmark數(shù)據(jù)集上的結(jié)果比較。選擇這些比較方法不僅是因為它們是OAEI基準(zhǔn)測試中表現(xiàn)最好的方法,而且它們涵蓋了廣泛的本體匹配技術(shù)。OAEI參與者描述如下:
AML[20]利用外部資源進行對齊,采用貪婪選擇算法進行映射選擇。匹配完成后,專家介入進行對齊修復(fù),以確保對齊的一致性。LogMap[21]利用每個實體的詞匯信息初始化一個可控制大小的候選映射集。在專家的參與下,通過復(fù)雜的推理技術(shù),最大限度地保證本體對齊的邏輯一致性。XMap[22]利用多種相似性度量生成候選映射,并設(shè)定兩個閾值:一個用于直接添加到最終匹配映射,另一個供專家驗證。ICHEA[10]在匹配過程中自動選擇最需要用戶介入的時間點,并呈現(xiàn)最具有問題的映射供專家判斷,以引導(dǎo)算法的進化方向。Lily[23]是一種基于機器學(xué)習(xí)的本體匹配技術(shù),從預(yù)先給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)聚合權(quán)重。
從表5中可以看出,HGA-PRA的f-measure平均值約為0.79,排名第二,僅次于排名第一的Lily。進一步分析,Lily 組合了大量的匹配策略,并且考慮了幾乎全部的本體信息,如領(lǐng)域、范圍、相關(guān)實例等,而且采取了本體映射調(diào)試技術(shù)對映射進一步檢測、診斷和改進。相比之下,HGA-PRA使用的實體信息較少,工作量遠小于Lily系統(tǒng)。盡管HGA-PRA在整體匹配質(zhì)量上低于Lily系統(tǒng),但相對于其他方法來說具有一定的優(yōu)越性。相較于LogMap,HGA-PRA有著顯著的優(yōu)勢,是因為前者在專家匹配結(jié)束后介入,沒有影響匹配過程,導(dǎo)致錯誤在匹配過程中持續(xù)存在,影響對齊質(zhì)量。HGA-PRA也顯著優(yōu)于XMap,其原因是本體的語義復(fù)雜,通過閾值篩選實體對供專家驗證,這個過程可能導(dǎo)致一些有價值的信息被遺漏,從而使專家發(fā)揮的作用受到限制,對匹配結(jié)果的提升效果有限。此外,HGA-PRA優(yōu)于ICHEA,原因在于ICHEA在進化的過程中隨著迭代的進行增加PRA的數(shù)量,這樣會有一個缺點,即進化初期PRA信息量太少,而導(dǎo)致尋優(yōu)方向錯誤。
4.5 HGA-PRA在傳感器本體的應(yīng)用
為了驗證HGA-PRA算法在實際場景中的效果,在傳感器本體上進行了測試。表6為傳感器本體的簡要描述,這些本體對傳感器設(shè)備、系統(tǒng)、過程、觀測以及環(huán)境知識進行建模,已經(jīng)在傳感器社區(qū)中獲得廣泛的應(yīng)用[24,25]。
圖7為本文方法與其他匹配系統(tǒng)在傳感器本體測試集中的比較。從表中可以看出,HGA-PRA的結(jié)果優(yōu)于其他方法,證明了該方法在匹配傳感器本體時的有效性。此外,由于匹配過程使用的一些外部資源沒有涵蓋傳感器領(lǐng)域的一些專業(yè)術(shù)語,如濕度計和濕度調(diào)節(jié)器等,導(dǎo)致了部分映射未被檢測到,所以匹配結(jié)果無法達到理想狀態(tài)。
5 結(jié)束語
為了實現(xiàn)高質(zhì)量的本體對齊,提出了一種 HGA-PRA方法。首先,提出了分層選擇方法,利用兩個本體之間的聯(lián)系來構(gòu)建更具代表性的PRA,以解決語義丟失現(xiàn)象。其次,設(shè)計了新的適應(yīng)度函數(shù),充分利用PRA中潛在的不一致信息,進一步提高了語義信息的利用率,并引入局部搜索策略進一步優(yōu)化解決方案。大量的實證研究表明,HGA-PRA可以在各種異構(gòu)場景中有效地找到高質(zhì)量的對齊。此外,進一步分析驗證了HGA-PRA中分層選擇方法、新的適應(yīng)度函數(shù)和局部搜索的有效性。未來工作將繼續(xù)探索如何構(gòu)建一個很好地描述本體數(shù)據(jù)庫的代表性小集合,同時繼續(xù)對優(yōu)化算法的性能進行改進和提升。
參考文獻:
[1]Ibrahim S, Fathalla S, Lehmann J, et al. Toward the multilingual semantic Web: multilingual ontology matching and assessment [J]. IEEE Access, 2023, 11: 8581-8599.
[2]Huang Bing, Dong Hai, Bouguettaya A. Conflict detection in IoT-based smart homes [C]// Proc of IEEE International Conference on Web Services. Piscataway, NJ: IEEE Press, 2021: 303-313.
[3]Wu Xuehong, Duan Junwen, Pan Yi, et al. Medical knowledge graph: data sources, construction, reasoning, and applications [J]. Big Data Mining and Analytics, 2023, 6(2): 201-217.
[4]Qiu Guoying, Tang Guoming, Li Chuandong, et al. A complete and comprehensive semantic perception of mobile travelling for mobile communication services [J]. IEEE Internet of Things Journal, 2024,11(3): 5467-5490.
[5]Mohamad U H, Ahmad M N, Zakaria A M U. Ontologies application in the sharing economy domain: a systematic review [J]. Online Information Review, 2022, 46(4): 807-825.
[6]呂青, 周欣, 李鳳蓮. 動態(tài)分塊調(diào)節(jié)機制下的大規(guī)模解剖學(xué)本體匹配 [J]. 計算機應(yīng)用研究, 2023, 40(1): 136-140,146. (Lyu Qing, Zhou Xin, Li Fenglian. Large scale anatomical ontology matching under dynamic partition adjustment [J]. Application Research of Computers, 2023, 40(1): 136-140,146.)
[7]Zhou Xin, Lyu Qing, Geng Aifeng. Matching heterogeneous ontologies based on multi-strategy adaptive co-firefly algorithm [J]. Know-ledge and Information Systems, 2023, 65(6): 2619-2644.
[8]王永, 呂致為. 基于基因庫求解旅行商問題的遺傳算法 [J]. 計算機應(yīng)用研究, 2023, 40(11): 3262-3268. (Wang Yong, Lyu Zhiwei. Novel genetic algorithm based on genes pool for traveling salesman problem [J]. Application Research of Computers, 2023, 40(11): 3262-3268.)
[9]Jiao Ruwang, Nguyen B H, Xue Bing, et al. A survey on evolutionary multiobjective feature selection in classification: approaches, applications, and challenges [J]. IEEE Trans on Evolutionary Computation, 2024, 28(4): 1156-1176.
[10]Xue Xingsi, Yao Xin. Interactive ontology matching based on partial reference alignment [J]. Applied Soft Computing, 2018, 72: 355-370.
[11]Ritze D, Paulheim H. Towards an automatic parameterization of ontology matching tools based on example mappings [C]// Proc of the 6th ISWC Ontology Matching Workshop. Washington DC: IEEE Computer Science, 2011: 37-48.
[12]Xue Xingsi, Wang Yuping, Ren Aihong. Optimizing ontology alignment through memetic algorithm based on partial reference alignment [J]. Expert Systems with Applications, 2014, 41(7): 3213-3222.
[13]Xue Xingsi, Liu Jianhua. Collaborative ontology matching based on compact interactive evolutionary algorithm [J]. Knowledge-Based Systems, 2017, 137: 94-103.
[14]Ryma G, Mohamed-Khireddine K. Genetic algorithm with hill clim-bing for correspondences discovery in ontology mapping [J]. Journal of Information Technology Research, 2019, 12(4): 153-170.
[15]Geng Aifeng, Lyu Qing. A multi-objective particle swarm optimization with density and distribution-based competitive mechanism for sensor ontology meta-matching [J]. Complex amp; Intelligent Systems, 2023, 9(1): 435-462.
[16]Xue Xingsi, Tan Wenbin, Lyu Jianhui. Integrating large-scale ontologies for economic and financial systems via adaptive co-evolutionary NSGA-Ⅱ [J]. Fractals, 2023, 31(6): 2340105.
[17]Wang Jiquan, Cheng Zhiwen, Ersoy O K, et al. Multi-offspring genetic algorithm with two-point crossover and the relationship between number of offsprings and computational speed [J]. Journal of Computers, 2019, 30(5): 111-127.
[18]Tanabe R, Ishibuchi H. Review and analysis of three components of the differential evolution mutation operator in MOEA/D-DE [J]. Soft Computing, 2019, 23: 12843-12857.
[19]Acampora G, Loia V, Salerno S, et al. A hybrid evolutionary approach for solving the ontology alignment problem [J]. International Journal of Intelligent Systems, 2012, 27(3): 189-216.
[20]Lima B, Faria D, Couto F M, et al. OAEI 2020 results for AML and AMLC [C]// Proc of the 19th International Semantic Web Confe-rence. Washington DC: IEEE Computer Science, 2020: 154-160.
[21]Amrouch S, Mostefai S. Ascendant hierarchical clustering for instance matching [C]// Proc of the 22nd International Arab Conference on Information Technology. Piscataway, NJ: IEEE Press, 2021: 1-6.
[22]Lyu Qing, Shi Jinyuan, Shi Huanting, et al. A novel compact fireworks algorithm for solving ontology meta-matching [J]. Applied Intelligence, 2023, 53(5): 5784-5807.
[23]Zou Shiyi, Liu Jiajun, Yang Zherui, et al. Lily results for OAEI 2021 [EB/OL].(2021). https://api.semanticscholar.org/CorpusID:231636485.
[24]Xue Xingsi, Pan J S. A compact co-evolutionary algorithm for sensor ontology meta-matching [J]. Knowledge and Information Systems, 2018, 56(2): 335-353.
[25]Lian Wenwu, Fu Lingling, Niu Xishuan, et al. Solving sensor ontology metamatching problem with compact flower pollination algorithm [J]. Wireless Communications and Mobile Computing, 2022, 2022(1): 9662517.