廖開(kāi)際, 王 瑩
(華南理工大學(xué)工商管理學(xué)院,廣州 510641)
隨著人們健康意識(shí)的不斷提高,現(xiàn)有醫(yī)療服務(wù)水平已不能滿(mǎn)足人們的需求,醫(yī)療系統(tǒng)智能化刻不容緩.智能醫(yī)療的建立需要科學(xué)強(qiáng)大的知識(shí)體系來(lái)支撐,于是醫(yī)療知識(shí)庫(kù)應(yīng)運(yùn)而生. 醫(yī)療知識(shí)庫(kù)的應(yīng)用使得非結(jié)構(gòu)化的知識(shí)被有效地管理和利用,簡(jiǎn)化了患者看病的流程,減輕了醫(yī)生的工作量,提高了醫(yī)生的工作效率.醫(yī)療知識(shí)庫(kù)常用于疾病診斷決策、醫(yī)療知識(shí)檢索等. 由于醫(yī)療知識(shí)分布廣泛,且不同數(shù)據(jù)源所獲取的知識(shí)也是有差異的,因此多來(lái)源醫(yī)療知識(shí)庫(kù)中的知識(shí)冗余問(wèn)題比較嚴(yán)重. 為了減少醫(yī)療知識(shí)庫(kù)中的知識(shí)冗余,知識(shí)融合工作不可或缺.
知識(shí)融合是將來(lái)自多個(gè)數(shù)據(jù)源的屬于同一實(shí)體或者概念的描述信息融合起來(lái),以獲得較單一數(shù)據(jù)源更加完全、準(zhǔn)確、可靠的知識(shí)庫(kù). 知識(shí)融合目前已在各個(gè)領(lǐng)域得到應(yīng)用,如Freebase[1]、Google知識(shí)圖譜[2]等,它們通過(guò)知識(shí)的鏈接和融合來(lái)實(shí)現(xiàn)知識(shí)庫(kù)的大規(guī)?;?,從而使知識(shí)發(fā)揮最大的價(jià)值.
知識(shí)圖譜是一個(gè)結(jié)構(gòu)化存儲(chǔ)知識(shí)的知識(shí)庫(kù),其保存的知識(shí)是以三元組的形式存在的. 知識(shí)圖譜KG由實(shí)體E、關(guān)系R、關(guān)系三元組Tr構(gòu)成,即KG=(E,R,Tr),其中Tr=(h,r,t),h和t代表實(shí)體,r代表實(shí)體間的關(guān)系. 對(duì)來(lái)自多個(gè)數(shù)據(jù)源的知識(shí)圖譜進(jìn)行實(shí)體對(duì)齊的目的是找出多個(gè)知識(shí)圖譜中所有語(yǔ)義相同的實(shí)體,即為KG生成實(shí)體修剪后的鄰接矩陣A,其中A=(ei,ej),ei∈KG1,ej∈KG2,ei=ej,ei和ej分別代表KG1和KG2中的實(shí)體.
實(shí)體對(duì)齊是指從異構(gòu)數(shù)據(jù)源的知識(shí)圖譜中,找出表述不同但對(duì)應(yīng)現(xiàn)實(shí)世界同一指代的實(shí)體,是知識(shí)融合最主要的工作. 現(xiàn)有的實(shí)體對(duì)齊方法分為以下三種:一是基于概率模糊匹配的方法,如支持向量機(jī)SVM[3];二是基于距離度量的方法,如計(jì)算字符串余弦相似度[4];三是基于嵌入式的方法,如2013年Bordes等[5]提出的將實(shí)體關(guān)系看作頭實(shí)體到尾實(shí)體間翻譯的TransE模型.
早期實(shí)體對(duì)齊方法主要是以概率匹配和字符串相似度作為對(duì)齊依據(jù). Monge 和Elkan[6]在2014年提出了通過(guò)計(jì)算實(shí)體對(duì)字符的編輯距離來(lái)判斷兩者是否為同一實(shí)體的方法. Volz等[4]在2009年制定了一套計(jì)算相似度的度量標(biāo)準(zhǔn),包括數(shù)字相似度、字符串相似度、URL相似度等. 但是這類(lèi)方法都需要依賴(lài)人工定義的標(biāo)簽,應(yīng)用場(chǎng)景范圍狹窄,無(wú)法遷移至其他場(chǎng)景,而隨著數(shù)據(jù)的大規(guī)模化,其準(zhǔn)確率及效率都逐漸下降.
目前,基于嵌入式的實(shí)體對(duì)齊方法已成為研究主流,其主要思想是將不同的知識(shí)圖譜的實(shí)體和關(guān)系均映射到同一向量空間后計(jì)算實(shí)體間的距離. 除了基礎(chǔ)的翻譯模型TransE外,IPTransE模型[7]和BootEA模型[8]都是采用迭代的方式來(lái)提高對(duì)齊效果,前者是對(duì)置信度較低的對(duì)齊實(shí)體賦予低權(quán)重,后者是對(duì)可能錯(cuò)誤的對(duì)齊實(shí)體標(biāo)簽進(jìn)行重新編輯標(biāo)記. JAPE 模型[9]則是通過(guò)引入屬性三元組填補(bǔ)信息來(lái)增強(qiáng)實(shí)體表示的. 雖然以上這些翻譯模型的性能都不錯(cuò),但是超參數(shù)過(guò)多,訓(xùn)練過(guò)程較繁瑣.
隨著圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)的興起,許多學(xué)者開(kāi)始根據(jù)GNN模型進(jìn)行實(shí)體結(jié)構(gòu)建模.圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)模型是由Scarselli等[10]提出的一種作用于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),該模型通過(guò)迭代更新節(jié)點(diǎn)的隱藏狀態(tài)來(lái)捕捉圖中每個(gè)鄰居節(jié)點(diǎn)的狀態(tài). 為了增強(qiáng)GNN模型對(duì)結(jié)構(gòu)特征提取的能力,Thomas和Kipf[11]提出了利用卷積核抽取特征的圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)模型,該模型將卷積操作定義在節(jié)點(diǎn)的連接關(guān)系上. 為了放大圖結(jié)構(gòu)中最重要部分的作用,Veliokovie等[12]在2018年首次提出圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAN)模型,現(xiàn)已被廣泛應(yīng)用在眾多領(lǐng)域. 基于圖神經(jīng)網(wǎng)絡(luò)的方法在利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)體表示的同時(shí)可直接進(jìn)行實(shí)體對(duì)齊. Wang等[13]提出的GCN-Align模型是應(yīng)用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)體之間的等價(jià)關(guān)系進(jìn)行建模,在利用關(guān)系三元組的基礎(chǔ)上加入實(shí)體屬性特征信息生成實(shí)體嵌入. GMNN模型[14]是將初始化矩陣定義為實(shí)體名稱(chēng)的詞向量矩陣,而不是隨機(jī)進(jìn)行初始化,因此該模型的性能大大提升. HMAN模型[15]則是將實(shí)體的多個(gè)視圖進(jìn)行統(tǒng)一并提出新的框架來(lái)進(jìn)行實(shí)體表示.
嵌入式的實(shí)體對(duì)齊方法通常是假設(shè)兩個(gè)知識(shí)圖譜的同種實(shí)體具有相同或相似的鄰居結(jié)構(gòu),然而現(xiàn)實(shí)生活中它們是存在結(jié)構(gòu)異質(zhì)性的,這就給實(shí)體對(duì)齊帶來(lái)了一定的難度. 另外,嵌入式的實(shí)體對(duì)齊方法認(rèn)為實(shí)體的所有關(guān)系鄰居在對(duì)齊過(guò)程中都發(fā)揮著同樣的作用,但是在知識(shí)圖譜中某些實(shí)體的共有鄰居的區(qū)別并不夠大,因此這些方法可能會(huì)忽略對(duì)對(duì)齊真正有影響的實(shí)體.
有部分學(xué)者對(duì)圖結(jié)構(gòu)的異質(zhì)性問(wèn)題進(jìn)行了深入研究并提出了一些新的模型,如MuGNN模型、AliNet模型、NMN模型. MuGNN模型[16]利用AMIE+誘導(dǎo)出規(guī)則增加關(guān)系三元組以補(bǔ)全圖結(jié)構(gòu),同時(shí)還引入了跨圖注意力機(jī)制以修剪圖結(jié)構(gòu). AliNet 模型[17]通過(guò)引入遠(yuǎn)距離鄰居對(duì)實(shí)體鄰居結(jié)構(gòu)的重疊部分進(jìn)行擴(kuò)展,并使用門(mén)機(jī)制對(duì)直接鄰居和遠(yuǎn)距離鄰居信息進(jìn)行聚合. NMN 模型[18]先采用圖采樣方法為實(shí)體提取有判別力的鄰居,然后采用基于注意力的交叉圖鄰居匹配模塊對(duì)實(shí)體子圖進(jìn)行魯棒對(duì)齊,最終取得了較好的實(shí)體對(duì)齊效果.
本研究首先構(gòu)建了基于不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫(kù),然后采用MuGNN模型進(jìn)行實(shí)體對(duì)齊,并與JAPE模型、GCN-Align模型的實(shí)體對(duì)齊效果進(jìn)行了對(duì)比,之后完成了互聯(lián)網(wǎng)醫(yī)療實(shí)體關(guān)系庫(kù)的知識(shí)融合,最后通過(guò)Neo4j圖數(shù)據(jù)庫(kù)對(duì)融合后的互聯(lián)網(wǎng)醫(yī)療知識(shí)圖譜進(jìn)行可視化處理. 本研究可為多源知識(shí)圖譜的構(gòu)建與補(bǔ)全提供一定的參考.
互聯(lián)網(wǎng)醫(yī)療知識(shí)融合的流程如圖1所示,具體分為以下兩個(gè)階段:
圖1 互聯(lián)網(wǎng)醫(yī)療知識(shí)融合的流程Fig.1 Process of internet medical knowledge fusion
1)實(shí)體對(duì)齊階段. 首先從不同醫(yī)療網(wǎng)站中爬取并抽取得到實(shí)體,然后構(gòu)建基于不同醫(yī)療網(wǎng)站的實(shí)體關(guān)系庫(kù),最后采用實(shí)體對(duì)齊模型進(jìn)行實(shí)體對(duì)齊.
2)知識(shí)融合階段. 首先將基于不同醫(yī)療網(wǎng)站構(gòu)建的實(shí)體關(guān)系庫(kù)進(jìn)行知識(shí)融合,然后通過(guò)Neo4j圖數(shù)據(jù)庫(kù)對(duì)融合后的互聯(lián)網(wǎng)醫(yī)療知識(shí)圖譜進(jìn)行可視化處理,以知識(shí)圖譜的形式將疾病、癥狀、藥物等實(shí)體類(lèi)別及其關(guān)系進(jìn)行關(guān)聯(lián).
本研究采用的實(shí)體對(duì)齊模型為MuGNN 模型,實(shí)體對(duì)齊步驟如下:首先,將跨圖注意力引入到圖卷積神經(jīng)網(wǎng)絡(luò)中以修剪多余的實(shí)體;然后,為區(qū)分鄰居實(shí)體的重要性,采用圖注意力網(wǎng)絡(luò)對(duì)實(shí)體關(guān)系進(jìn)行賦權(quán);最后,將進(jìn)行上述處理后的兩種實(shí)體進(jìn)行嵌入聚合,并基于對(duì)齊種子訓(xùn)練對(duì)齊. MuGNN模型由輸入層、跨圖注意力GCN層、圖注意力網(wǎng)絡(luò)GAT層、池化層和對(duì)齊層五個(gè)部分組成,該模型的整體結(jié)構(gòu)如圖2所示.
圖2 MuGNN模型的結(jié)構(gòu)示意圖Fig.2 Structure diagram of MuGNN model
2.1.1 輸入層 輸入層主要負(fù)責(zé)將多個(gè)不同數(shù)據(jù)來(lái)源的知識(shí)圖譜輸入到模型中.
2.1.2 跨圖注意力GCN層 跨圖注意力GCN層主要負(fù)責(zé)將使用跨圖注意力機(jī)制進(jìn)行實(shí)體修剪后的圖譜輸入到圖卷積神經(jīng)網(wǎng)絡(luò)中以得到增強(qiáng)的實(shí)體嵌入. 受人類(lèi)視覺(jué)注意力機(jī)制(即當(dāng)人類(lèi)觀察某事物時(shí),通常不會(huì)觀察該事物的整體而是把目光聚焦在其重要的部分)的啟發(fā),許多學(xué)者開(kāi)始對(duì)注意力機(jī)制進(jìn)行研究. 注意力機(jī)制允許模型動(dòng)態(tài)地去關(guān)注對(duì)決策更有幫助的信息,可降低模型對(duì)其余信息的關(guān)注、忽略噪聲信息,從而使模型更為高效地完成任務(wù). 注意力機(jī)制最早被應(yīng)用于圖像識(shí)別領(lǐng)域[19],隨著自然語(yǔ)言處理的興起,其相關(guān)模型被大量應(yīng)用于機(jī)器翻譯、情感分析問(wèn)題當(dāng)中[20].
由于結(jié)構(gòu)異質(zhì)性的存在,兩個(gè)不同數(shù)據(jù)來(lái)源的知識(shí)圖譜的對(duì)齊實(shí)體不一定具有相似的鄰居結(jié)構(gòu). 以實(shí)體“乳腺癌”為例,圖3分別給出了來(lái)自醫(yī)療網(wǎng)站“39健康網(wǎng)”(http://www.39.net/)和“尋醫(yī)問(wèn)藥網(wǎng)”(https://www.xywy.com/)的部分關(guān)系子圖,可以看到KG1和KG2擁有不同的鄰居實(shí)體以及關(guān)系結(jié)構(gòu). 結(jié)構(gòu)異質(zhì)性的存在會(huì)給實(shí)體對(duì)齊過(guò)程引入大量噪聲實(shí)體,降低對(duì)齊效果. 但是通過(guò)使用跨圖注意力機(jī)制[16],選取兩個(gè)圖譜中具有公共部分的關(guān)系子圖就可以忽略對(duì)對(duì)齊任務(wù)有負(fù)面影響的噪聲鄰居,最終可為KG生成實(shí)體修剪后的鄰接矩陣A1,實(shí)現(xiàn)結(jié)構(gòu)調(diào)節(jié). 鄰接矩陣A1的計(jì)算公式如式(1)所示.
圖3 從兩個(gè)不同醫(yī)療網(wǎng)站獲得的部分關(guān)系子圖的結(jié)構(gòu)差異Fig.3 Structural differences of partial relationship subgraphs obtained from two different medical websites
圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)由多層圖卷積層堆積而成(圖4),其作用是從圖中提取特征后得到圖嵌入表示.GCN模型通過(guò)級(jí)聯(lián)的層來(lái)感知鄰居的特征,層與層之間的參數(shù)共享. GCN 模型以圖的節(jié)點(diǎn)特征矩陣XN×D和圖的結(jié)構(gòu)特征鄰接矩陣A1作為輸入,N代表圖中的節(jié)點(diǎn)數(shù)量,D代表特征維度. 與GNN 模型相比,GCN 模型通過(guò)增加單位矩陣來(lái)將節(jié)點(diǎn)對(duì)自己的作用考慮進(jìn)去,并通過(guò)引入拉普拉斯矩陣對(duì)鄰接矩陣A1進(jìn)行歸一化. GCN模型中l(wèi)+1層的輸出公式如下:
圖4 圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖Fig.4 Structure diagram of graph convolutional neural network
2.1.3 圖注意力網(wǎng)絡(luò)GAT層 圖注意力網(wǎng)絡(luò)GAT層主要負(fù)責(zé)使用GAT模型進(jìn)行圖譜結(jié)構(gòu)的構(gòu)建,并為每個(gè)實(shí)體關(guān)系賦予權(quán)重. 實(shí)體對(duì)齊中每個(gè)鄰居節(jié)點(diǎn)的重要性不同,比如治療“乳腺癌”的藥物“枸櫞酸他莫昔芬”同樣對(duì)疾病“乳腺增生”起作用,但與專(zhuān)門(mén)治療“乳腺癌”的藥物在實(shí)體對(duì)齊中的作用是不一樣的. 為了更好地區(qū)別各個(gè)實(shí)體在實(shí)體對(duì)齊中的作用,MuGNN模型采用圖注意力網(wǎng)絡(luò)賦予每個(gè)實(shí)體關(guān)系不同的權(quán)重值,并為每個(gè)實(shí)體捕獲到信息最豐富、最有判別力的鄰居.
GAT模型是在GCN模型的基礎(chǔ)上引入帶有掩碼的隱藏自注意力層對(duì)圖結(jié)構(gòu)進(jìn)行處理,它由多層圖注意力層堆積而成,通過(guò)計(jì)算鄰居節(jié)點(diǎn)的特征對(duì)當(dāng)前節(jié)點(diǎn)的影響來(lái)為每個(gè)實(shí)體關(guān)系分配權(quán)重. 與GCN 模型相比,GAT模型對(duì)不同的鄰居節(jié)點(diǎn)的重要性進(jìn)行預(yù)測(cè),它不依賴(lài)對(duì)全局圖結(jié)構(gòu)的預(yù)先訪問(wèn),不需要對(duì)其進(jìn)行人工先驗(yàn),也無(wú)需繁瑣的矩陣計(jì)算,降低了算法的復(fù)雜度,因此它可使MuGNN模型具有更好的性能.
GAT 模型中鄰接矩陣A2的計(jì)算方式如式(4)所示. 為了使注意力互相關(guān)系數(shù)易于計(jì)算和比較,引入softmax函數(shù)對(duì)所有節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)j進(jìn)行正則化.
為了防止過(guò)擬合現(xiàn)象的產(chǎn)生,利用GAT模型計(jì)算多個(gè)相互獨(dú)立的注意力后進(jìn)行集成. GAT模型中l(wèi)+1層的輸出計(jì)算公式如下:
2.1.4 池化層 池化層主要負(fù)責(zé)將通過(guò)跨圖注意力GCN層和圖注意力網(wǎng)絡(luò)GAT層建模得到的增強(qiáng)實(shí)體嵌入分別進(jìn)行平均池化聚合. MuGNN 模型通過(guò)跨圖注意力GCN 層和圖注意力網(wǎng)絡(luò)GAT 層進(jìn)行圖結(jié)構(gòu)的構(gòu)建,為了降低卷積層(跨圖注意力GCN層、圖注意力網(wǎng)絡(luò)GAT層)輸出的特征向量維度,防止過(guò)擬合現(xiàn)象的發(fā)生,采用平均池化將跨圖注意力GCN 層和圖注意力網(wǎng)絡(luò)GAT 層建模得到的增強(qiáng)實(shí)體嵌入進(jìn)行聚合.MuGNN模型中l(wèi)+1層的聚合實(shí)體嵌入的計(jì)算公式如下:
2.1.5 實(shí)體對(duì)齊層 實(shí)體對(duì)齊層負(fù)責(zé)通過(guò)對(duì)齊種子和最小化代價(jià)函數(shù)將兩個(gè)知識(shí)圖譜嵌入同一空間進(jìn)行訓(xùn)練. 首先利用對(duì)齊種子將兩個(gè)知識(shí)圖譜(KG1和KG2)的實(shí)體和關(guān)系嵌入到同一個(gè)低維度的向量空間中并計(jì)算實(shí)體之間的距離,然后利用最小化等價(jià)實(shí)體距離、最大化非等價(jià)實(shí)體距離的思想來(lái)訓(xùn)練模型.采用L2范數(shù)計(jì)算實(shí)體之間的距離,計(jì)算公式如下:
式中:ei和ej分別代表兩個(gè)圖譜(KG1和KG2)中的實(shí)體;h(ei)和h(ej)分別代表實(shí)體ei和ej的特征向量,D(ei,ej)代表實(shí)體ei和ej之間的距離.
采用最小化實(shí)體對(duì)齊損失函數(shù)來(lái)訓(xùn)練模型,最小化實(shí)體對(duì)齊損失函數(shù)計(jì)算公式如下:
式中:L代表?yè)p失函數(shù),當(dāng)損失函數(shù)趨近于0時(shí),模型性能最優(yōu);e′i和e′j是隨機(jī)替換ei和ej得到的負(fù)樣例;ε代表正樣例與負(fù)樣例間的最小間隔.
2.2.1 互聯(lián)網(wǎng)醫(yī)療知識(shí)實(shí)體關(guān)系庫(kù)的構(gòu)建 首先對(duì)互聯(lián)網(wǎng)醫(yī)療知識(shí)的文本特點(diǎn)進(jìn)行分析,然后根據(jù)文獻(xiàn)[21]中的分類(lèi)規(guī)則,將互聯(lián)網(wǎng)醫(yī)療知識(shí)的實(shí)體類(lèi)別分為7 大類(lèi)(表1),實(shí)體關(guān)系類(lèi)別分為14 大類(lèi)(表2). 由于互聯(lián)網(wǎng)醫(yī)療知識(shí)包含的疾病種類(lèi)很多,為了能簡(jiǎn)單地說(shuō)明問(wèn)題,本研究?jī)H選取與乳腺疾病相關(guān)的互聯(lián)網(wǎng)醫(yī)療知識(shí)進(jìn)行研究. 首先從醫(yī)療網(wǎng)站“39 健康網(wǎng)(http://www.39.net/)”和“尋醫(yī)問(wèn)藥網(wǎng)(https://www.xywy.com/)”的乳腺疾病板塊中對(duì)文本進(jìn)行爬取清洗,然后依次進(jìn)行實(shí)體識(shí)別和關(guān)系抽取操作,最后得到兩個(gè)網(wǎng)站中與乳腺疾病相關(guān)的實(shí)體集和實(shí)體關(guān)系集,并構(gòu)建來(lái)源于兩個(gè)不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫(kù).
表1 互聯(lián)網(wǎng)醫(yī)療知識(shí)的實(shí)體類(lèi)別Tab.1 Entity categories of internet medical knowledge
表2 互聯(lián)網(wǎng)醫(yī)療知識(shí)的實(shí)體關(guān)系類(lèi)別Tab.2 Entity relationship categories of internet medical knowledge
2.2.2 互聯(lián)網(wǎng)醫(yī)療知識(shí)實(shí)體關(guān)系庫(kù)的實(shí)體對(duì)齊 對(duì)本文2.2.1 小節(jié)構(gòu)建的乳腺疾病實(shí)體關(guān)系庫(kù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì),如表3 所示. 分別采用MuGNN 模型、JAPE 模型和GCN-Align 模型對(duì)構(gòu)建的兩個(gè)乳腺疾病實(shí)體關(guān)系庫(kù)進(jìn)行實(shí)體對(duì)齊. 首先以比例seeds_ratio 抽取部分已對(duì)齊實(shí)體作為對(duì)齊種子,然后隨機(jī)生成錯(cuò)誤的對(duì)齊實(shí)體和關(guān)系三元組以更好地訓(xùn)練模型,最后隨機(jī)選取70%的對(duì)齊實(shí)體作為訓(xùn)練集,其余30%的對(duì)齊實(shí)體作為測(cè)試集.
表3 乳腺疾病實(shí)體關(guān)系庫(kù)的數(shù)據(jù)統(tǒng)計(jì)Tab.3 Data statistics of entity relationship databases of breast diseases
在Windows10平臺(tái)下使用Python3.7.9語(yǔ)言在pytorch1.6.0深度學(xué)習(xí)框架下進(jìn)行實(shí)體對(duì)齊. 三種實(shí)體對(duì)齊模型均采用相同的參數(shù),模型的主要參數(shù)設(shè)置如表4所示.
表4 實(shí)體對(duì)齊模型的參數(shù)設(shè)置Tab.4 Parameter setting of entity alignment model
采用前n項(xiàng)命中率Hits@n和平均倒數(shù)排名MRR 作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:
式中:Hits@n表示目標(biāo)實(shí)體排在前n位的比例,Hits@n的值越大表示命中率越高;MRR 表示目標(biāo)實(shí)體排名倒數(shù)和的平均值,MRR 的值越大表示實(shí)體對(duì)齊效果越好;Ranki表示第i個(gè)目標(biāo)實(shí)體在結(jié)果列表中的排位;I(?)代表指示函數(shù),當(dāng)輸入為T(mén)rue時(shí),I(?)=1,當(dāng)輸入為False時(shí),I(?)=0;N表示目標(biāo)實(shí)體數(shù)量.
根據(jù)式(9)和式(10)求得測(cè)試集在各模型上的Hits@1、Hits@10、Hits@50、MRR,結(jié)果如表5所示.
表5 測(cè)試集在各模型上的Hits@1、Hits@10、Hits@50和MRRTab.5 Hits@1,Hits@10,Hits@50 and MRR of the test set on each model
由表5 可知,測(cè)試集在MuGNN 模型上的Hits@n和MRR 的值均比在JAPE 模型和GCN-Align 模型上的大,其中測(cè)試集在MuGNN 模型上的Hits@1 的值分別比在JAPE 模型和在GCN-Align 模型上的高16.43%和8.51%. 以上結(jié)果表明,無(wú)論是以前n項(xiàng)命中率Hits@n作為評(píng)價(jià)指標(biāo),還是以平均倒數(shù)排名MRR作為評(píng)價(jià)指標(biāo),綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN模型的實(shí)體對(duì)齊效果均優(yōu)于JAPE模型和GCN-Align模型的實(shí)體對(duì)齊效果.
圖5為通過(guò)MuGNN 模型得到的乳腺疾病各實(shí)體類(lèi)別的Hits@n和MRR. 由圖5可知,疾病Disease 和藥物Medicine這兩個(gè)實(shí)體類(lèi)別的Hits@n和MRR均相對(duì)較低,分析原因可能是實(shí)驗(yàn)數(shù)據(jù)中這兩個(gè)實(shí)體類(lèi)別的數(shù)量相對(duì)較少,關(guān)系矩陣較為稀疏,給實(shí)體對(duì)齊效果帶來(lái)了一定的負(fù)面影響.
圖5 通過(guò)MuGNN模型得到的乳腺疾病各實(shí)體類(lèi)別的Hits@n和MRRFig.5 Hits@n and MRR of entity categories of breast diseases obtained by MuGNN model
知識(shí)融合是將多數(shù)據(jù)源中指向同一實(shí)體或者概念的描述融合起來(lái)的過(guò)程,是在實(shí)體對(duì)齊的基礎(chǔ)上,通過(guò)沖突檢測(cè)以及沖突消解對(duì)知識(shí)進(jìn)行關(guān)聯(lián)和合并,最終形成一個(gè)完整一致的知識(shí)庫(kù). 知識(shí)融合過(guò)程具體分為數(shù)據(jù)層融合和數(shù)據(jù)模式層融合兩部分. 數(shù)據(jù)層融合多指實(shí)體間的知識(shí)融合;數(shù)據(jù)模式層融合則包括概念和屬性的融合. 知識(shí)融合可豐富完善已有的語(yǔ)義信息、挖掘更多圖譜知識(shí)、提高知識(shí)表示的性能,進(jìn)而可以提供更優(yōu)質(zhì)的知識(shí)服務(wù). 通過(guò)Neo4j圖數(shù)據(jù)庫(kù)對(duì)知識(shí)圖譜進(jìn)行可視化處理后,可將知識(shí)庫(kù)中的實(shí)體和關(guān)系以圖形化的方式展示出來(lái),用戶(hù)則可通過(guò)簡(jiǎn)單的查詢(xún)語(yǔ)句來(lái)獲得具體實(shí)體之間的關(guān)系,可增強(qiáng)知識(shí)庫(kù)的可理解性.
為了研究MuGNN 模型對(duì)互聯(lián)網(wǎng)醫(yī)療知識(shí)融合的效果,對(duì)本文2.2 小節(jié)中構(gòu)建的乳腺疾病實(shí)體關(guān)系庫(kù)(已完成實(shí)體對(duì)齊)進(jìn)行知識(shí)融合. 為了提升融合的準(zhǔn)確率,在實(shí)體對(duì)齊的基礎(chǔ)上加以人工校正,消除語(yǔ)義重復(fù)的實(shí)體及對(duì)應(yīng)的關(guān)系三元組,實(shí)現(xiàn)多源知識(shí)的融合. 同時(shí),使用Java語(yǔ)言將融合后得到的實(shí)體集和關(guān)系三元組集輸入到Neo4j圖數(shù)據(jù)庫(kù)中,以實(shí)現(xiàn)乳腺疾病知識(shí)圖譜的可視化.
圖6a 是在Neo4j 圖數(shù)據(jù)庫(kù)中通過(guò)match 語(yǔ)句查詢(xún)疾病“乳腺癌”所得到的癥狀,圖6b是在Neo4j 圖數(shù)據(jù)庫(kù)中通過(guò)match語(yǔ)句查詢(xún)檢查項(xiàng)目“乳腺B超”所得到的疾病. 其中,不同顏色代表不同類(lèi)別的實(shí)體,如紅色代表“疾病Disease”,黃色代表“癥狀Symptom”,藍(lán)色代表“檢查項(xiàng)目Check”. 通過(guò)知識(shí)圖譜的可視化,我們可以清晰簡(jiǎn)明地看到實(shí)體之間一對(duì)一以及一對(duì)多的聯(lián)系.
圖6 乳腺疾病知識(shí)圖譜可視化結(jié)果的示例Fig.6 Example of visualization results of breast disease knowledge map
通過(guò)Neo4j圖數(shù)據(jù)庫(kù)結(jié)構(gòu)化存儲(chǔ)乳腺疾病的實(shí)體及關(guān)系,不僅可以使用戶(hù)高效快速地了解與乳腺疾病預(yù)防和飲食習(xí)慣等相關(guān)的知識(shí),也可以使用戶(hù)根據(jù)癥狀查詢(xún)自己可能患有的疾病以及對(duì)應(yīng)的檢查方式,同時(shí)還可以為用戶(hù)的初步自我診斷提供輔助手段.
以乳腺疾病為例,首先構(gòu)建了基于不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫(kù),然后利用MuGNN模型完成了實(shí)體對(duì)齊,同時(shí)與JAPE模型和GCN-Align模型的實(shí)體對(duì)齊效果進(jìn)行了對(duì)比,最后通過(guò)Neo4j圖數(shù)據(jù)庫(kù)對(duì)融合后的互聯(lián)網(wǎng)醫(yī)療知識(shí)圖譜進(jìn)行可視化處理,得出結(jié)論如下:
1)綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN模型首先利用跨圖注意力機(jī)制和GCN模型對(duì)圖結(jié)構(gòu)進(jìn)行表示學(xué)習(xí),然后利用GAT模型對(duì)實(shí)體關(guān)系進(jìn)行賦權(quán),最后將實(shí)體嵌入進(jìn)行聚合后對(duì)齊. MuGNN模型不僅可以有效解決圖結(jié)構(gòu)的異質(zhì)性問(wèn)題,還可以為每個(gè)實(shí)體捕獲到信息最豐富、最有判別力的鄰居.2)無(wú)論是以前n項(xiàng)命中率Hits@n作為評(píng)價(jià)指標(biāo),還是以平均倒數(shù)排名MRR作為評(píng)價(jià)指標(biāo),綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN 模型的實(shí)體對(duì)齊效果均優(yōu)于JAPE 模型和GCN-Align 模型的實(shí)體對(duì)齊效果.3)通過(guò)MuGNN模型成功實(shí)現(xiàn)了基于不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫(kù)的知識(shí)融合,并利用Neo4j圖數(shù)據(jù)庫(kù)對(duì)融合后的知識(shí)圖譜進(jìn)行了可視化處理. 知識(shí)圖譜的可視化可將實(shí)體類(lèi)別和實(shí)體關(guān)系以圖形化的方式展示出來(lái),通過(guò)簡(jiǎn)單的查詢(xún)語(yǔ)句即可獲得具體實(shí)體之間的關(guān)系,可增強(qiáng)知識(shí)庫(kù)的可理解性,有助于提供更優(yōu)質(zhì)的知識(shí)服務(wù).本研究雖然取得了一定的成果,但是也存在一些不足之處,如僅選取了與乳腺疾病有關(guān)的互聯(lián)網(wǎng)醫(yī)療知識(shí)作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行研究,其關(guān)系三元組不夠多,存在一定的數(shù)據(jù)稀疏問(wèn)題. 下一步研究可以考慮擴(kuò)大疾病的選取范圍,同時(shí)可以嘗試?yán)迷~向量作為神經(jīng)網(wǎng)絡(luò)的初始矩陣,以進(jìn)一步提高M(jìn)uGNN模型的性能.