孫留倩,魏玉良,王佰玲
基于圖卷積網(wǎng)絡(luò)的多源本體相似度計(jì)算方法
孫留倩,魏玉良,王佰玲
(哈爾濱工業(yè)大學(xué)(威海)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 威海 264209)
在信息時(shí)代,數(shù)據(jù)量呈指數(shù)式增長(zhǎng),而不同數(shù)據(jù)源存在難以統(tǒng)一表示的異構(gòu)問題,給數(shù)據(jù)共享、重用造成不便。語義網(wǎng)絡(luò)的迅速發(fā)展,使本體映射成為解決該問題的有效手段,其核心是本體相似度計(jì)算,提出了一種基于圖卷積網(wǎng)絡(luò)的計(jì)算方法。將本體建模為異構(gòu)圖網(wǎng)絡(luò),再使用圖卷積網(wǎng)絡(luò)學(xué)習(xí)文本嵌入規(guī)則,得到全局統(tǒng)一表示,完成多源數(shù)據(jù)的融合。實(shí)驗(yàn)結(jié)果表明,所提方法計(jì)算準(zhǔn)確性高于其他傳統(tǒng)方法,有效地提高了多源數(shù)據(jù)融合的準(zhǔn)確度。
多源數(shù)據(jù)融合;圖卷積網(wǎng)絡(luò);本體映射;相似度計(jì)算
隨著信息技術(shù)的發(fā)展和數(shù)據(jù)庫技術(shù)的普及,越來越多的領(lǐng)域開始使用信息技術(shù)來管理數(shù)據(jù)信息,這在一定程度上提高了工作效率,但不同領(lǐng)域獨(dú)立管理數(shù)據(jù)源,不同管理者對(duì)數(shù)據(jù)的描述存在差別,導(dǎo)致信息只能在內(nèi)部交換,給數(shù)據(jù)共享和信息交流方面帶來極大不便[1]。由于數(shù)據(jù)量巨大且分散,為了建立多源數(shù)據(jù)的全局統(tǒng)一表示,提高數(shù)據(jù)利用率和集成度,數(shù)據(jù)融合工作成為亟待解決的問題[2]。
語義網(wǎng)絡(luò)和集成技術(shù)的不斷發(fā)展,使本體映射成為多源數(shù)據(jù)融合的有效手段。本體映射的過程如圖1所示,通過相似度計(jì)算方法得到與目標(biāo)本體相似的源本體,形成映射關(guān)系,進(jìn)而得到統(tǒng)一的全局表示,從而實(shí)現(xiàn)多源數(shù)據(jù)的有效融合。本體映射的核心是本體語義相似度計(jì)算,相似度結(jié)果的準(zhǔn)確性決定著本體映射工作的科學(xué)性,因此,如何提高其準(zhǔn)確性逐漸成為本體映射、數(shù)據(jù)融合等領(lǐng)域的研究熱點(diǎn),具有重要的研究意義和價(jià)值。
圖1 本體映射的過程
Figure 1 The flow chart of ontology mapping
本文在對(duì)傳統(tǒng)本體語義相似度計(jì)算方法進(jìn)行分析研究的基礎(chǔ)上,提出一種基于圖卷積網(wǎng)絡(luò)(GCN,graph convolution network)進(jìn)行實(shí)體相似度計(jì)算方法。該方法將要處理的本體建模為異構(gòu)圖網(wǎng)絡(luò),并使用GCN學(xué)習(xí)文本及文檔的嵌入規(guī)則。該方法在不使用預(yù)先訓(xùn)練的文本和外部知識(shí)的情況下,相似度準(zhǔn)確性優(yōu)于目前的語義相似度計(jì)算方法。
基于本體的相似度計(jì)算方法的研究,大體上可以分為5類:基于語義距離的相似度計(jì)算方法;基于信息內(nèi)容的相似度計(jì)算方法;基于概念屬性的相似度計(jì)算方法;混合式語義相似度計(jì)算方法[3];基于深度學(xué)習(xí)的相似度計(jì)算方法[4]。
2.1.1 基于語義距離的相似度計(jì)算方法
Rada[5]提出一種基于語義距離的相似度計(jì)算方法,它的基本思想是預(yù)設(shè)本體結(jié)構(gòu)樹中的權(quán)重大小相等,根據(jù)概念節(jié)點(diǎn)詞在本體結(jié)構(gòu)樹中的位置語義距離來衡量相似度,語義距離越大說明相似度越低,語義距離越小說明相似度越大,該方法計(jì)算公式如下:
其中,sim()表示概念節(jié)點(diǎn)和之間的相似度,dis(,)表示概念節(jié)點(diǎn)和之間的語義距離。該方法的優(yōu)點(diǎn)是計(jì)算復(fù)雜度不高,計(jì)算速度快,不足之處在于該方法有個(gè)前提是本體結(jié)構(gòu)樹中的每條邊的權(quán)重大小是相等的,沒有考慮到邊的類型、位置信息等因素的影響。
2.1.2 基于信息內(nèi)容的相似度計(jì)算方法
基于信息內(nèi)容的相似度計(jì)算方法的主要思想是求概念節(jié)點(diǎn)之間的熵,熵值越大,代表節(jié)點(diǎn)之間共享信息越多,相似度也就越大。在一棵本體結(jié)構(gòu)樹中,任意一個(gè)子概念節(jié)點(diǎn)都可以包含其祖父節(jié)點(diǎn)的全部信息內(nèi)容。故Sun[6]提出任意兩個(gè)概念節(jié)點(diǎn)的相似度可以通過計(jì)算最鄰近祖父概念節(jié)點(diǎn)的信息量和出現(xiàn)頻率來求得,本體中任意兩個(gè)概念節(jié)點(diǎn)之間的語義相似度計(jì)算公式如下:
其中,Lcan (c, c)表示本體結(jié)構(gòu)樹中概念節(jié)點(diǎn)c,c的最近鄰公共祖先節(jié)點(diǎn),IC(c)IC(c)分別表示概念節(jié)點(diǎn)c,c的信息量。
算法的不足之處在于當(dāng)兩個(gè)概念次節(jié)點(diǎn)屬于同一個(gè)本體結(jié)構(gòu)時(shí),不僅需要計(jì)算被比較概念次節(jié)點(diǎn)的共享信息,還要計(jì)算兩個(gè)概念本身的信息熵之和。
2.1.3 基于概念屬性的相似度計(jì)算方法
基于概念屬性的相似度計(jì)算方法的主要思想是根據(jù)概念節(jié)點(diǎn)的屬性來說明概念節(jié)點(diǎn)的特征,Tversky[7]提出可以通過計(jì)算兩個(gè)概念節(jié)點(diǎn)公共屬性對(duì)的數(shù)量來計(jì)算相似度,具體公式如下。
2.1.4 混合式語義相似度計(jì)算方法
單一的相似度計(jì)算方法導(dǎo)致相似度計(jì)算結(jié)果線性程度低,故混合式語義相似度計(jì)算方法成為了研究的一個(gè)方向。Zheng[8]針對(duì)相似度進(jìn)行人工加權(quán)計(jì)算時(shí)效率低的問題,設(shè)計(jì)了一種自適應(yīng)的主動(dòng)加權(quán)相似度計(jì)算方案。Lu[9]提出一種綜合相似度計(jì)算模型,構(gòu)建了一種新的語義相似度度量方法的組合框架和參數(shù)調(diào)整方案,有效組合了3種相似度度量方法來確定高質(zhì)量的本體匹配結(jié)果。該方法考慮因素比較全面,計(jì)算結(jié)果比較準(zhǔn)確且穩(wěn)定,不足之處在于考慮的因素過多,導(dǎo)致計(jì)算復(fù)雜度大大增加,降低了計(jì)算效率。
隨著語義網(wǎng)絡(luò)、知識(shí)圖譜等新興技術(shù)的發(fā)展,基于語義網(wǎng)的詞語相似度計(jì)算方法開始廣泛應(yīng)用。傳統(tǒng)的語義相似度計(jì)算方法并沒有考慮語義和詞語進(jìn)行有效組合,后來WordNet計(jì)算方法被提出,該方法主要通過WordNet義原進(jìn)行分類,利用義原計(jì)算概念之間的相似度。Guo[10]對(duì)其進(jìn)行了一定的優(yōu)化。Li[11]等運(yùn)用相似實(shí)體推薦及知識(shí)推理來計(jì)算實(shí)體間的相似度,實(shí)驗(yàn)效果較好。Xu[12]針對(duì)現(xiàn)有本體概念相似度計(jì)算模型中存在的精度不高問題,提出了基于模擬退火改進(jìn)BP(SA-BP,simulated annealing back propagation)神經(jīng)網(wǎng)絡(luò)算法的相似度綜合計(jì)算模型,利用BP網(wǎng)絡(luò)可以對(duì)復(fù)雜相似度計(jì)算模型的算術(shù)因子進(jìn)行模擬,但一般的神經(jīng)網(wǎng)絡(luò)模型存在收斂速度過慢的問題,導(dǎo)致最后計(jì)算結(jié)果會(huì)陷入局部最優(yōu)解。另外,大多數(shù)相似度計(jì)算模型的權(quán)重對(duì)領(lǐng)域?qū)<液蜌v史數(shù)據(jù)依賴性較大,存在主觀性、滯后性,且對(duì)不同本體適用性較差,不適合拓展。以上所提及不得相似度求解方法的優(yōu)缺點(diǎn)如表1所示。
也有些研究嘗試用GCN進(jìn)行文本分類、異常檢測(cè)[13]相關(guān)方面的工作,它們將一份文檔或者一句話視為圖的一個(gè)節(jié)點(diǎn)[14],或用不常用的引用關(guān)系構(gòu)建圖網(wǎng)絡(luò)[15],而檢索未發(fā)現(xiàn)將GCN應(yīng)用到本體相似度計(jì)算方面的研究。本文將單詞和文檔都視為節(jié)點(diǎn),構(gòu)建出大型的異質(zhì)圖網(wǎng)絡(luò),不需要利用文檔間的關(guān)系,有效地提高了相似度計(jì)算的準(zhǔn)確性。因此,本文提出一種基于GCN的計(jì)算模型來計(jì)算本體之間的語義相似度。
GCN模型是通過對(duì)相鄰節(jié)點(diǎn)的特征進(jìn)行卷積來對(duì)圖進(jìn)行操作的,最早是由Kipf[16]提出來的,相較于卷積神經(jīng)網(wǎng)絡(luò),GCN模型計(jì)算效率更高,在GCN模型中,輸出的特征與節(jié)點(diǎn)本身及鄰近節(jié)點(diǎn)有密切關(guān)系,這體現(xiàn)了GCN模型是在圖的基礎(chǔ)上進(jìn)行特征的學(xué)習(xí)并輸出的。
GCN模型的結(jié)構(gòu)包含三層,分別是輸入層、隱藏層、輸出層。輸入層的輸入主要有網(wǎng)絡(luò)節(jié)點(diǎn)的特征矩陣和鄰接矩陣,特征矩陣描述了網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的特征之間的區(qū)別;鄰接矩陣是為了方便網(wǎng)絡(luò)節(jié)點(diǎn)之間的信息傳播。隱藏層的作用是線性劃分不同類型的數(shù)據(jù),其中,經(jīng)常使用ReLu作為激活函數(shù),引入dropout是為了防止過擬合。輸出層的作用是將隱藏層學(xué)習(xí)的抽象特征轉(zhuǎn)化為預(yù)測(cè)值輸出[17]。
表1 不同相似度求解方法的優(yōu)缺點(diǎn)對(duì)比
GCN模型可以通過層之間的相互疊加來實(shí)現(xiàn)不同空間的信息傳播及特征提取[18],提取的特征表示為
基于GCN的本體相似度計(jì)算過程如圖2所示,算法具體步驟如下。
圖2 基于GCN的本體相似度計(jì)算過程
Figure 2 The process diagram of similarity calculation method multisource ontology based on graph convolution network
輸入 來源于數(shù)據(jù)庫1的數(shù)據(jù)集,字段為{1,2,3,…,A};來源于數(shù)據(jù)庫2的數(shù)據(jù)集,字段為{1,2,3,…,B}。
輸出 來源于數(shù)據(jù)庫1的本體與來源于數(shù)據(jù)庫2的本體的相似度。
步驟1 數(shù)據(jù)預(yù)處理
獲取數(shù)據(jù)集和數(shù)據(jù)集之后,將獲取的數(shù)據(jù)保存在mysql中。為了提高計(jì)算的精確度,在計(jì)算前對(duì)數(shù)據(jù)進(jìn)行分詞、停用詞過濾、詞干提取、保留相似屬性字段、刪除不同屬性字段等預(yù)處理操作。得到數(shù)據(jù)集'{1,2,3…},數(shù)據(jù)集{1,2,3…}。兩個(gè)數(shù)據(jù)集再經(jīng)protégé處理后分別轉(zhuǎn)化為本體集{1,2,3,…,x}{1,2,3,…,y},以RDF格式存儲(chǔ)。
步驟2 構(gòu)建拓?fù)鋱D
利用步驟2得到的本體集構(gòu)建拓?fù)鋱D,拓?fù)鋱D的節(jié)點(diǎn)數(shù)就是本體的數(shù)量,用單位矩陣來表示特征矩陣,向量形式采用one-hot稀疏矩陣,這樣的形式擴(kuò)充了本體的特征,使特征的距離計(jì)算更加合理;鄰接矩陣使用點(diǎn)互信息PMI表示,具體公式如下。
點(diǎn)互信息的計(jì)算公式如下。
#(,)表示節(jié)點(diǎn)和節(jié)點(diǎn)特征向量相同的個(gè)數(shù),#()表示節(jié)點(diǎn)的特征向量在所有本體中出現(xiàn)的個(gè)數(shù)。
由以上步驟所得的每個(gè)節(jié)點(diǎn)的特征矩陣及鄰接矩陣可以構(gòu)建出兩個(gè)無向網(wǎng)絡(luò)拓?fù)鋱D1=(1,1)、2=(2,2)。
步驟3 實(shí)例化張量
對(duì)構(gòu)建好的拓?fù)鋱D節(jié)點(diǎn)進(jìn)行實(shí)例化張量,需要實(shí)例化的張量包括特征矩陣、鄰接矩陣、節(jié)點(diǎn)的度degree、節(jié)點(diǎn)的標(biāo)簽label,無向圖1實(shí)例化后的張量可以表示為[1,1, degree1, label1],無向圖2實(shí)例化后的張量可以表示為[2,2, degree2, label2]。
步驟4 構(gòu)建GCN
為了防止構(gòu)建的GCN模型過擬合,特引入dropout層,構(gòu)建兩層GCN模型,非線性激活函數(shù)使用LeakyReLu, 損失函數(shù)采用SoftMax函數(shù),優(yōu)化器采用ADAM,如式(9)、式(10)所示,GCN模型如圖3所示。
步驟5 訓(xùn)練數(shù)據(jù)集
將無向圖1中的一部分本體概念節(jié)點(diǎn)1和無向圖2中的一部分本體概念節(jié)點(diǎn)2作為訓(xùn)練數(shù)據(jù),將概念節(jié)點(diǎn)通過人工評(píng)價(jià)得到的相似度以及分別基于語義距離、信息內(nèi)容、概念屬性、混合式語義、SA-BP算法得到的相似度作為模型的輸入,通過GCN模型的學(xué)習(xí)計(jì)算出針對(duì)本訓(xùn)練集最合適的特征矩陣best和鄰接矩陣best,以此得到最穩(wěn)定的計(jì)算模型。
圖3 GCN模型
Figure 3 GCN model
步驟6 測(cè)試數(shù)據(jù)集
得到穩(wěn)定的計(jì)算模型后,將之應(yīng)用于測(cè)試數(shù)據(jù)集中,在本體集中選取需要融合的本體概念節(jié)點(diǎn)作為測(cè)試集,分別計(jì)算測(cè)試數(shù)據(jù)集基于語義距離、信息內(nèi)容、概念屬性、混合式語義、SA-BP算法的相似度,將計(jì)算結(jié)果代入穩(wěn)定的GCN模型,進(jìn)行正向計(jì)算,輸出的結(jié)果即本體概念節(jié)點(diǎn)的相似度計(jì)算結(jié)果。
集成開發(fā)環(huán)境為PyCharm 2020.3,編碼語言為Python 3.0,使用的框架為TensorFlow。
本文的數(shù)據(jù)獲取分別來自“The Movie Database (TMDb)”和“豆瓣網(wǎng)電影排行榜”經(jīng)過對(duì)數(shù)據(jù)的去重、去噪、刪除不同屬性、保留相同屬性的處理,共計(jì)獲得演員數(shù)量1 982位;電影數(shù)量91 369部;20類電影類型;人物與電影的關(guān)系7 119 287對(duì);電影與類型的關(guān)系196 354對(duì)。
對(duì)以上數(shù)據(jù)進(jìn)行概念節(jié)點(diǎn)的構(gòu)建,構(gòu)建出的電影本體概念節(jié)點(diǎn)的屬性結(jié)構(gòu)為{電影名稱,參演演員,電影評(píng)分,電影發(fā)行日期,電影類型}。根據(jù)概念節(jié)點(diǎn)的屬性構(gòu)建出網(wǎng)絡(luò)拓?fù)淙鐖D4所示。
圖4 網(wǎng)絡(luò)拓?fù)?/p>
Figure 4 Network topology
從TMDb數(shù)據(jù)庫和豆瓣數(shù)據(jù)庫構(gòu)建的概念節(jié)點(diǎn)中,如圖4 所示。隨機(jī)選取1000個(gè)本體概念節(jié)點(diǎn),組成1 000組概念節(jié)點(diǎn)對(duì),其中700組用作于訓(xùn)練數(shù)據(jù)集,剩下的300組作為測(cè)試數(shù)據(jù)集。
實(shí)驗(yàn)共采用了6種算法對(duì)300組測(cè)試樣本均分為6組進(jìn)行相應(yīng)的相似度計(jì)算,最后將所得結(jié)果進(jìn)行分析對(duì)比,6種算法分別為基于語義距離的相似度計(jì)算方法、基于信息內(nèi)容的相似度計(jì)算方法、基于概念屬性的相似度計(jì)算方法、基于混合語義式的相似度計(jì)算方法、基于SA-BP算法的相似度計(jì)算方法和基于GCN的相似度計(jì)算方法。實(shí)驗(yàn)結(jié)果如表2所示。
以人工評(píng)價(jià)作為參考標(biāo)準(zhǔn),分別計(jì)算以上幾種算法得出的相似度與人工評(píng)價(jià)相似度的差值的最大值、最小值、標(biāo)準(zhǔn)差并計(jì)算其準(zhǔn)確度,得到的結(jié)果如表3所示。為了更直觀進(jìn)行數(shù)據(jù)展示,將實(shí)驗(yàn)數(shù)據(jù)繪制成柱狀圖,如圖5所示。
為了評(píng)估各種算法得出的相似度與人工評(píng)價(jià)得出的結(jié)果的相關(guān)性,本文采用皮爾遜相關(guān)系數(shù)作為參考指標(biāo),它在統(tǒng)計(jì)學(xué)中用于表征兩個(gè)變量之間的相關(guān)性,其值介于0~1。值越大代表兩者相關(guān)性越大,定義如下。
其中,E( )表示某變量的期望。當(dāng)皮爾遜的值介于0~0.4,表示兩者極弱相關(guān)或者不相關(guān);當(dāng)皮爾遜的值介于0.4~0.6,表示兩者弱相關(guān);當(dāng)皮爾遜的值介于0.6~0.8,表示中等程度相關(guān);當(dāng)皮爾遜的值介于0.8~0.9,表示兩者強(qiáng)相關(guān);當(dāng)皮爾遜的值介于0.9~1.0,表示兩者極強(qiáng)相關(guān)。
表2 不同計(jì)算方法求測(cè)試樣本的相似度結(jié)果對(duì)比
表3 不同方法相似度計(jì)算結(jié)果誤差及皮爾遜相關(guān)系數(shù)
圖5 6種算法結(jié)果對(duì)比
Figure 5 Comparison of six algorithms
從以上結(jié)果可以看出,本文提出的基于GCN的本體相似度計(jì)算方法得出的結(jié)果在皮爾遜系數(shù)上是最大的,達(dá)到了0.960 2,并且誤差最大值、誤差平均值、誤差標(biāo)準(zhǔn)差是最小的。這表明利用本文提出的相似度計(jì)算方法的結(jié)果收斂性好,穩(wěn)定性強(qiáng),準(zhǔn)確率高。
為了驗(yàn)證不同體量的多源數(shù)據(jù)集對(duì)算法準(zhǔn)確率的影響,將數(shù)據(jù)大小分別為1 000條、10 000條、100 000條的3組多源數(shù)據(jù)集作為單獨(dú)任務(wù)應(yīng)用進(jìn)行計(jì)算,計(jì)算得出的皮爾遜相關(guān)系數(shù)均在0.94以上,說明面對(duì)不同體量的數(shù)據(jù),本文方法依然具有很高的準(zhǔn)確率,性能良好。
本文分析了幾種計(jì)算本體相似度方法存在的缺陷,并針對(duì)相應(yīng)的問題,結(jié)合GCN,提出一種基于GCN的本體相似度計(jì)算方法,實(shí)驗(yàn)結(jié)果表明,本文提出的方法較傳統(tǒng)的計(jì)算本體相似度的方法準(zhǔn)確率更高。下一步工作是對(duì)GCN模型的參數(shù)進(jìn)行優(yōu)化以提高模型的準(zhǔn)確性及穩(wěn)定性。
[1] 楊泉. 基于遺傳算法的詞語語義相似度計(jì)算研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2021, 31(2): 8-13.
YANG Q. Research on word semantic similarity calculation based on genetic algorithm[J]. Computer Technology and Development, 2021, 31(2): 8-13.
[2] 丁悅航, 于洪濤, 黃瑞陽, 李英樂. 本體摘要技術(shù)綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2018, 4(10): 12-21.
DING Y H. , YU H T, HUANG R Y. Ontology summarization technology survey[J]. Chinese Journal of Network and Information Security, 2018, 4(10): 12-21.
[3] DAO W. Distance learning techniques for ontology similarity measuring and ontology mapping[J]. Cluster Computing, 2017, 20(2) : 959-968.
[4] 周愛武, 翟增輝, 劉慧婷. 基于模擬退火算法改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法[J]. 微電子學(xué)與計(jì)算機(jī), 2016, 33(4): 144-147.
ZHOU A W, ZHAI Z H, LIU H T. et al. Improved BP neural network based on simulated annealing[J]. Mi-croelectronics and Computer, 2016, 33(4): 144-147.
[5] RADA R, MILI H, BICKNELL E. Development and application of a metric on semantic nets[J]. IEEE, Transactions on Systems, Man and Cybernetics, 1989, 19( 1): 17-30.
[6] 孫麗莉, 張小剛. 基于WordNet的概念語義相似度的計(jì)算方法[J]. 統(tǒng)計(jì)與決策, 2017(23): 79-82.
SUN L L, ZHANG X G. A novel concept semantic similarity calculation method based on WordNet[J]. Statistics & Decision, 2017(23): 79-82.
[7] TVERSKY A. Feature of similarity[J]. Psychological Review, 1997, 84(4): 222-226.
[8] 鄭志蘊(yùn), 阮春陽, 李倫, 等. 本體語義相似度自適應(yīng)綜合加權(quán)算法研究[J]. 計(jì)算機(jī)科學(xué), 2016, 43(10): 242-247.
ZHENG Z Y, RUAN C Y, LI L, et al. Adaptive ontology semantic similarity comprehensive weighted algorithm[J]. Computer Science, 2016, 43(10): 242-247.
[9] 盧家偉, 薛醒思, 肖祖宇, 等. 一種基于混合語義相似度度量方法的本體元匹配技術(shù)[J]. 寶雞文理學(xué)院學(xué)報(bào)(自然科學(xué)版), 2020, 40(2): 59-63.
LU J W, XUE X S, XIAO Z G, et al. An ontology meta-matching technique based on the hybrid semantic similarity measure[J]. Journal of Baoji University of Arts and Sciences(Natural Science Edition), 2020, 40(2): 242-247.
[10] 郭小華, 彭琦, 鄧涵, 等. 基于邊權(quán)重的WordNet詞語相似度計(jì)算[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018, 54(1): 172-178.
GUO X H, PENG Q, DENG H, et al. Edge weight-based word similarity computation in WordNet[J]. Computer Engineering and Applications, 2018, 54(1): 172-178.
[11] LI Y, GAO D Q. Research on entity similarity computationin knowledge map[J]. Chinese Journal of Information Science, 2017, 31(1): 145-151.
[12] 許飛翔, 葉霞, 李琳琳, 等. 基于SA-BP算法的本體概念語義相似度綜合計(jì)算[J]. 計(jì)算機(jī)科學(xué), 2020, 47(1): 199-204.
XU F X, YE X, LI L L, et al. Comprehensive calculation of semantic similarity of ontology concept based on SA-BP[J]. Computer Science, 2020, 47(1): 199-204.
[13] 曲強(qiáng), 于洪濤, 黃瑞陽. 基于圖卷積網(wǎng)絡(luò)的社交網(wǎng)絡(luò)Spammer檢測(cè)技術(shù)[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2018, 4(5): 39-46
QU Q YU H T, HUANG R Y. Spammer detection technology of social network based on graph convolution network[J]. Chinese Journal of Network and Information Security[J]. 2018, 4(5): 39-46 .
[14] PENG H, LI J. Large-scale hierarchical text classification with recursively regularized deep graph[J]. International World Wide Web Conference, 2018: 1063-1072.
[15] ROUSSEAU F, KIAGIAS E. Text categorization as a graph classification problem[J]. ACL, 2015, 1: 1702-1712.
[16] KIPF T N. Semi-supervised classification with graph convolutional networks[J]. ICLR, 2017.
[17] 姚佳奇, 徐正國(guó), 燕繼坤, 等. GCN-PU:基于圖卷積網(wǎng)絡(luò)的PU文本分類算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020: 1-8
YAO J Q. XU Z G, YE J K, et al. GCN-PU text classification algorithm based on graph convolutional network[J]. Computer Engineering and Applications. 2020: 1-8.
[18] 李慧, 胡吉霞. 一種基于圖卷積自編碼模型的多維度學(xué)科知識(shí)網(wǎng)絡(luò)融合方法[J]. 圖書情報(bào)工作, 2020, 64(18): 114-125.
LI H, HU J X. Multi-dimensional subject knowledge network fusion method based on graph convolution self-encoding model[J]. Library and Information Service, 2020, 64(18): 114-125.
Novel similarity calculation method of multisource ontology based on graph convolution network
SUN Liuqian, WEI Yuliang, WANG Bailing
School of Computer Science and Technology, Harbin Institute of Technology, Weihai 264209, China
In the information age, the amount of data is growing exponentially. However, different data sources are heterogeneous, which makes it inconvenient to share and multiplex data. With the rapid development of semantic network, ontology mapping is an effective method to solve this problem. The core of ontology mapping is ontology similarity calculation. Therefore, a calculation method based on graph convolution network was proposed. Firstly, ontologiesare modeled as a heterogeneous graph network, then the graph convolution network was used to learn the text embedding rules, which made ontologies were definedin global unified representation. Lastly, multisource data fusion was completed. The experimental results show that the accuracy of the proposed method is higher than other methods, and the accuracy of multi-source data fusion was effectively improved.
heterogeneous data fusion, graph convolution network, ontology mapping, similarity calculation
TP393
A
10.11959/j.issn.2096?109x.2021071
2021?03?11;
2021?05?13
王佰玲,wbl@hit.edu.cn
國(guó)家重點(diǎn)研發(fā)計(jì)劃(2018YFB2004200)
The National Key R&D Program of China (2018YFB2004200)
孫留倩, 魏玉良, 王佰玲. 基于圖卷積網(wǎng)絡(luò)的多源本體相似度計(jì)算方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(5): 149-155.
SUN L Q, WEI Y L, WANG B L. Novel similarity calculation method of multisource ontology based on graph convolution network[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 149-155.
孫留倩(1997?),女,山東菏澤人,哈爾濱工業(yè)大學(xué)(威海)碩士生,主要研究方向?yàn)槎嘣磾?shù)據(jù)融合、網(wǎng)絡(luò)大數(shù)據(jù)安全。
魏玉良(1989?),男,山東壽光人,博士,哈爾濱工業(yè)大學(xué)(威海)助理研究員,主要研究方向?yàn)樽匀徽Z言處理、知識(shí)圖譜、工業(yè)互聯(lián)網(wǎng)安全。
王佰玲(1978?),男,黑龍江哈爾濱人,哈爾濱工業(yè)大學(xué)(威海)教授、博士生導(dǎo)師,主要研究方向?yàn)楣I(yè)互聯(lián)網(wǎng)安全、信息對(duì)抗、信息安全、信息搜索、金融安全。