余曉鵬,何儒漢,黃 晉,張俊杰,胡新榮
(1.紡織服裝智能化湖北省工程研究中心(武漢紡織大學(xué)),武漢 430200;2.武漢紡織大學(xué)計(jì)算機(jī)與人工智能學(xué)院,武漢 430200;3.湖北省服裝信息化工程技術(shù)研究中心(武漢紡織大學(xué)),武漢 430200)
h
,r
,t
),h
代表頭實(shí)體,t
代表尾實(shí)體,r
代表頭實(shí)體和尾實(shí)體之間的關(guān)系?,F(xiàn)存的大規(guī)模KG 包括Freebase、WordNet和YAGO等,并已被應(yīng)用在不同的領(lǐng)域,如推薦系統(tǒng)、智能問(wèn)答等。由于知識(shí)源的各種缺陷,現(xiàn)存的KG 多數(shù)并不完整。針對(duì)這個(gè)問(wèn)題,基于知識(shí)圖譜嵌入(Knowledge Graph Embedding,KGE)的知識(shí)圖譜補(bǔ)全應(yīng)運(yùn)而生。KGE 是將KG的實(shí)體和關(guān)系映射到低維連續(xù)的向量空間中,使得可以在低維向量空間中高效計(jì)算實(shí)體和關(guān)系之間的語(yǔ)義聯(lián)系。目前,以TransE(Translating Embedding)為代表的基于翻譯的KGE 模型,采用簡(jiǎn)單的淺層結(jié)構(gòu),計(jì)算效率較高,能有效學(xué)習(xí)KG 的直接關(guān)系;但是,該模型僅對(duì)簡(jiǎn)單關(guān)系數(shù)據(jù)效果較好,難以處理復(fù)雜的關(guān)系數(shù)據(jù)。而以雙線型模型Rescal為代表的基于語(yǔ)義匹配的KGE 模型,能有效捕獲豐富的特征交互信息,但參數(shù)量大,計(jì)算效率低。
目前,基于神經(jīng)網(wǎng)絡(luò)的模型逐漸應(yīng)用到了KGE。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)具有多層網(wǎng)絡(luò)結(jié)構(gòu),能有效提高模型的表達(dá)能力,能捕獲豐富的特征交互信息并限制參數(shù)數(shù)量以提高計(jì)算效率。以ConvE(Convolution Embedding)模型為代表的基于神經(jīng)網(wǎng)絡(luò)的嵌入模型,能夠有效地捕捉三元組特征且泛化能力強(qiáng),但捕捉實(shí)體和關(guān)系的特征交互信息能力有限,特征表達(dá)能力較弱。
受Inception結(jié)構(gòu)在圖像處理算法的啟發(fā),將實(shí)體和關(guān)系輸入重塑為二維特征向量后輸入到Inception 結(jié)構(gòu)中,通過(guò)多種不同的操作方式,可提高捕捉特征交互信息的能力。Inception 結(jié)構(gòu)主要是加深傳統(tǒng)的高尺寸卷積層,通過(guò)增加網(wǎng)絡(luò)深度來(lái)提高捕捉特征交互信息的能力。在Inception 結(jié)構(gòu)中采用高尺寸混合空洞卷積(Hybrid Dilated Convolution,HDC)來(lái)代替原來(lái)高尺寸普通卷積,混合空洞卷積無(wú)池化損失信息,感受野更大。此外,為了解決深度神經(jīng)網(wǎng)絡(luò)固有的信息丟失的缺點(diǎn),使用了殘差網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化。
本文針對(duì)特征交互能力受限的問(wèn)題,提出一種KGE 模型——InceE(Inception Embedding)模型,該模型基于一種改進(jìn)的Inception 結(jié)構(gòu),通過(guò)進(jìn)一步增強(qiáng)關(guān)系和實(shí)體嵌入之間的交互能力,以提高特征表達(dá)能力;并使用了殘差網(wǎng)絡(luò)的模型結(jié)構(gòu),以改善深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)易丟失特征信息的問(wèn)題;此外,在Inception 中,將原來(lái)的高尺寸普通卷積改為混合空洞的卷積方式,以更好地獲取特征信息。
本文主要工作如下:
1)提出了一種基于改進(jìn)Inception 結(jié)構(gòu)的KGE 模型,將Inception 結(jié)構(gòu)引入到KGE 中,通過(guò)使用Inception 結(jié)構(gòu)的不同卷積核和池化層的感受野不同的特性,來(lái)獲取多種表示特征,以提高特征表示能力。
2)提出使用混合空洞卷積來(lái)代替Inception 結(jié)構(gòu)中的標(biāo)準(zhǔn)卷積。混合空洞卷積無(wú)池化損失信息,并加大感受野,使得每個(gè)卷積輸出都包含較大范圍信息。在兩種不同尺寸的標(biāo)準(zhǔn)卷積操作中,都替換為混合空洞卷積,以提高特征交互能力。
3)使用了殘差學(xué)習(xí)的方式,以防止深度神經(jīng)網(wǎng)絡(luò)造成的信息丟失。
本章主要介紹了目前主流的三類KGE 模型。
語(yǔ)義匹配模型是利用基于相似性的得分函數(shù)。它們主要是通過(guò)匹配實(shí)體的語(yǔ)義和向量空間表示中包含的關(guān)系來(lái)度量事實(shí)的可行度。語(yǔ)義匹配模型最具代表性的模型是Rescal 模型,將KG 編碼為一個(gè)張量,三元組存在于KG 中,則對(duì)應(yīng)量的值設(shè)置為1,否則為0。Rescal 模型的缺點(diǎn)就是需要大量的參數(shù),計(jì)算率較低。為解決以上問(wèn)題,SimplE(Simple Embedding)模型獨(dú)立學(xué)習(xí)每個(gè)實(shí)體的兩個(gè)嵌入,并且復(fù)雜度隨著嵌入維度線性增加。DISTMULT模型將關(guān)系矩陣簡(jiǎn)化為對(duì)角矩陣,通過(guò)雙線性對(duì)角模型學(xué)習(xí)實(shí)體和關(guān)系的向量表示。ComplEx(ComplEx embeddings)模型,使用元素之間的點(diǎn)積使DISTMULT 模型通用化。Analogy模型擴(kuò)展了Rescal,進(jìn)一步對(duì)實(shí)體和關(guān)系屬性進(jìn)行類比建模。
d
維的向量,然后通過(guò)點(diǎn)積計(jì)算得分合理性。InteractE(Interactions Embedding)模型證明了通過(guò)提高特征交互數(shù)量來(lái)提高模型效果的有效性。因?yàn)镵G 也是一種特殊的圖結(jié)構(gòu),圖卷積神經(jīng)網(wǎng)絡(luò)也被用到KGE 中,如R-GCN(Relational data with Graph Convolutional Network)等。表1列出了幾種主流模型。表1 知識(shí)圖譜嵌入模型及評(píng)分函數(shù)Tab 1 Knowledge graph embedding model and scoring function
本文所提出的基于改進(jìn)Inception 結(jié)構(gòu)的KGE 模型的流程如圖1 所示,將實(shí)體和關(guān)系的一維特征向量聯(lián)合重塑為二維特征向量輸入到Inception 結(jié)構(gòu)中,其中在高尺寸的混合空洞卷積部輸出與初始的二維特征拼接,最終將Inception 結(jié)構(gòu)的四個(gè)輸出特征向量與初始二維特征向量拼接后的特征向量重塑為最終預(yù)測(cè)的一維特征向量。
圖1 InceE模型流程Fig.1 InceE model flow
Ω
=(E
,R
)表示,E
代表KG 中的所有實(shí)體向量集合,R
代表所有關(guān)系向量集合。三元組定義為(e
,r
,e
),其中頭實(shí)體和尾實(shí)體向量e
,e
∈E
,關(guān)系向量r
∈R
。KGE 目的是學(xué)習(xí)給定的實(shí)體e
和關(guān)系r
的低維向量表示e
,r
∈R,其中d
表示嵌入的維度。d
維的向量空間中的具體的向量,每個(gè)KG 三元組可以表示為(e
,r
,e
)。圖2 InceE網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Structure of InceE network model
在該模型中,首先將實(shí)體e
和關(guān)系r
重塑為a
×b
的二維特征表示,這里重塑后的二維特征維度a
×b
=2 ×d
。然后并行地分別執(zhí)行卷積核kernel_size
=1、3、5 的卷積操作和kernel_size
=3 的最大池化操作。在kernel_size
=3、5 的卷積操作中,采用了混合空洞卷積的方式來(lái)提高捕捉特征交互信息的能力,然后為防止深度神經(jīng)網(wǎng)絡(luò)造成的特征丟失嚴(yán)重,采用基于殘差學(xué)習(xí)的方法將以上兩種卷積輸出向量和初始二維特征向量進(jìn)行拼接。e
;r
]來(lái)表示重塑后的初始二維特征向量,其中:e
表示實(shí)體向量,r
表示實(shí)體之間的關(guān)系向量,e
,r
∈R,[e
;r
]∈R。基于1×1 卷積核卷積學(xué)習(xí)。在基于二維重塑后的特征向量上的1×1 的卷積計(jì)算公式為:
W
∈R是kernel_size
=1 的卷積核;b
是偏置量?;?p>kernel_size=3,5 的混合空洞卷積學(xué)習(xí)。混合空洞卷積是以上一次卷積的輸出作為下一次卷積的輸入,卷積的計(jì)算公式為:l
代表空洞卷積采用的步幅。完整的混合空洞卷積計(jì)算公式為:P
表示上一次卷積操作的輸出;W
是卷積核;b
是偏置量。基于初始二維特征向量的最大池化操作計(jì)算公式為:
b
是偏置量。不同的卷積操作獲得多個(gè)不同的特征向量,將獲得的特征向量與初始二維特征向量進(jìn)行整合,表示為:
P
、P
、P
表示不同卷積核大小的輸出特征向量;M
代表最大池化所得特征向量;Res
代表初始二維特征向量。最后,整個(gè)模型的最終輸出是將以上所得特征向量P
展平重塑為一維特征向量。最終的特征計(jì)算公式為:e
,定義的得分函數(shù)為:f
代表Sigmoid 函數(shù);W
是變換舉證;b
是偏置量。在InceE 模型中,使用與ConvE 模型相同的損失函數(shù)來(lái)訓(xùn)練本文所提的模型參數(shù),具體定義如式(8)所示:
N
是KG 的實(shí)體數(shù)量,t
是存在關(guān)系的實(shí)體的標(biāo)簽向量,否則為0。本文的評(píng)估模型使用了3 個(gè)數(shù)據(jù)集,分別是FB15k、WN18和Kinship。FB15k 是Freebase 的子集,主要 包含的三元組以電影和體育相關(guān)的主題為主。WN18 是WordNet的子集,包含18 種關(guān)系和49 000 種實(shí)體。Kinship 數(shù)據(jù)集是一個(gè)新提出的數(shù)據(jù)集,主要是包括親屬關(guān)系的數(shù)據(jù)集。具體的三個(gè)數(shù)據(jù)集包含的數(shù)據(jù)如表2 所示。
表2 數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)Tab 2 Dataset statistics
3.2.1 實(shí)驗(yàn)環(huán)境
本模型的實(shí)驗(yàn)環(huán)境是:操作系統(tǒng)Linux 32 位,獨(dú)立顯卡型號(hào)NVIDIA GeForceGTX1080ti,顯存11 GB。實(shí)驗(yàn)工具是PyCharm,Python3.6 版本,深度學(xué)習(xí)框架Pytorch1.0。
在FB15k、WN18、Kinship 上實(shí)驗(yàn)超參數(shù)設(shè)置分別為學(xué)習(xí)率lr
={0.001 25,0.000 65,0.000 75},epoch
=500,batch
_size
={128,256,256}。3.2.2 實(shí)驗(yàn)指標(biāo)
本實(shí)驗(yàn)使用鏈接預(yù)測(cè)任務(wù)來(lái)驗(yàn)證模型的有效性,即三元組缺失實(shí)體或者關(guān)系。在鏈接預(yù)測(cè)任務(wù)中,采用以下四個(gè)指標(biāo)作為模型的最終評(píng)估指標(biāo):
MRR(Mean Reciprocal Rank):正確實(shí)體的平均倒數(shù)排名,越大越好。
Hit@10:正確實(shí)體進(jìn)入前十的百分比,越大越好。
Hit@3:正確實(shí)體進(jìn)入前三的百分比,越大越好。
Hit@1:正確實(shí)體是第一的百分比,越大越好。
InceE 與 HAKE(Hierarchy-Aware Knowledge graph Embeddings)、CompGCN、CoKE(Contextualized Knowledge graph Embedding)、ArcE(Atrous convolution and residual learning Embedding)等模型在數(shù)據(jù)集Kinship 上的實(shí)驗(yàn)結(jié)果如表3 所示。InceE 模型在MRR 指標(biāo)和Hit@1 指標(biāo)上都取得了最優(yōu)的結(jié)果分別為0.873 和80.1,較次優(yōu)的模型分別提高幅度為0.009 和1.6,取得了較大幅度的提升;在Hit@3 和Hit@10 上也僅比最好的模型低0.2 和0.4。
表3 不同模型在Kinship數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Tab 3 Experimental results of different models on Kinship dataset
表4 列出了InceE 和HOIE(Holographic Embeddings)、RSNs、QuatRE(Relation-Aware Quaternions Embedding)等模型在數(shù)據(jù)集FB15k 上的實(shí)驗(yàn)結(jié)果。如表4 所示,InceE模型的MRR 比QuatRE提升了0.007,Hit@1提升了1.5,Hit@10 的效果和最好的模型效果相同,Hit@3 也僅比最好的模型小0.1。
表4 不同模型在FB15k數(shù)據(jù)集的實(shí)驗(yàn)比較結(jié)果Tab 4 Experimental comparison results of different models on FB15k dataset
表5 列出了InceE 模型和其他模型在數(shù)據(jù)集WN18 上的實(shí)驗(yàn)結(jié)果。由表5 可知,InceE 模型在數(shù)據(jù)集WN18 上的實(shí)驗(yàn)效果提升相對(duì)有限,在MRR 上達(dá)到了和最好模型同樣的效果為0.949;在Hit@1 上的實(shí)驗(yàn)效果為94.5,比最好的模型效果提升0.01;在Hit@3 和Hit@10 的效果分別為95.1 和95.5,比最好的模型僅差0.2 和0.8。
表5 不同模型在WN18數(shù)據(jù)集的實(shí)驗(yàn)比較結(jié)果Tab 5 Experimental comparison results of different models on WN18 dataset
由表3~5 可知,本文模型在WN18 數(shù)據(jù)集上的表現(xiàn),多數(shù)情況下是高于在其他兩個(gè)數(shù)據(jù)集上的結(jié)果;在Kinship 數(shù)據(jù)集上的結(jié)果要高于FB15k 數(shù)據(jù)集的結(jié)果。在三個(gè)不同數(shù)據(jù)集上的實(shí)驗(yàn),本文模型在多數(shù)指標(biāo)上都取得了最好的結(jié)果,或者和最好結(jié)果相差不多的效果。
由表5 的實(shí)驗(yàn)結(jié)果可知,本文模型在WN18 數(shù)據(jù)集上的結(jié)果與其他模型相比,提升效果相對(duì)較低。由表2 可知,WN18 數(shù)據(jù)集關(guān)系更少,實(shí)體數(shù)量較多,且平均每個(gè)實(shí)體節(jié)點(diǎn)的相互連接比較稀疏,存在很多可逆的關(guān)系,多數(shù)模型都取得了很好的效果,與其他模型在WN18 數(shù)據(jù)集上的結(jié)果相比,本文模型每個(gè)指標(biāo)所獲得的結(jié)果也提升較低或者相近。
在FB15k 數(shù)據(jù)集上,InceE 模型的實(shí)驗(yàn)結(jié)果比其他模型更好,達(dá)到了現(xiàn)有模型的最好效果或者更高,本文模型在關(guān)系復(fù)雜的數(shù)據(jù)集上相較于對(duì)比模型結(jié)果也取得了一個(gè)不錯(cuò)的提升,尤其與同類的ConvE 模型相比,MRR、Hit@1、Hit@3和Hit@10 分別提升了0.158、20.8、12.7 和6.5,說(shuō)明本文模型通過(guò)提高捕捉特征交互信息的能力來(lái)提高特征表達(dá)能力的有效性。
基于CNN 的四個(gè)不同模型在Kinship 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表6 所示。在MRR 和Hit@1 指標(biāo)上,InceE 模型都相較于其他三個(gè)模型取得了最好的結(jié)果,并且在Hit@3 和Hit@10指標(biāo)上也和ArcE 模型相差不多,從而證明了本模型是有效的。
表6 基于CNN的不同模型在Kinship數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab 6 Experimental results of different models based on CNN on Kinship dataset
本文還在Kinship 數(shù)據(jù)集上進(jìn)行了多組消融實(shí)驗(yàn)。通過(guò)表7 可以看到,是否添加殘差學(xué)習(xí)模塊,對(duì)實(shí)驗(yàn)?zāi)P偷膶?shí)驗(yàn)結(jié)果存在較大的影響,通過(guò)添加殘差學(xué)習(xí)防止深度神經(jīng)網(wǎng)絡(luò)造成的信息的效果是有效的,取得最好的結(jié)果。
表7 InceE模型是否添加殘差學(xué)習(xí)在Kinship數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab 7 Experimental results of InceE model whether to add residual learning on Kinship dataset
此外,為了驗(yàn)證不同的卷積方式對(duì)模型性能的影響,在Kinship 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3 所示,分別使用了標(biāo)準(zhǔn)卷積和混合空洞卷積的方式。由圖3 可知,在使用標(biāo)準(zhǔn)卷積時(shí),四個(gè)指標(biāo)都會(huì)有不同程度的下降。而采用混合空洞卷積四個(gè)指標(biāo)中的MRR、Hit@和Hit@3 都取得了提升,在Hit@10 指標(biāo)上和標(biāo)準(zhǔn)卷積的結(jié)果取得了相同的結(jié)果,由此證明了通過(guò)使用混合空洞卷積的方式來(lái)提高特征的表達(dá)能力是有效的,且效果提升明顯。
圖3 標(biāo)準(zhǔn)卷積和混合空洞卷積對(duì)比結(jié)果Fig.3 Comparison results of standard convolution and hybrid dilated convolution
本文針對(duì)知識(shí)圖譜嵌入(KGE)提出了一種基于改進(jìn)Inception 結(jié)構(gòu)的KGE 模型——InceE。實(shí)驗(yàn)采用鏈接預(yù)測(cè)任務(wù)實(shí)驗(yàn)來(lái)評(píng)估InceE 模型,證實(shí)本文模型在三個(gè)基準(zhǔn)數(shù)據(jù)集WN18、FB15k、Kinship 上的MRR、Hit@10、Hit@3、Hit@1 上大部分指標(biāo)上有明顯的提升。實(shí)驗(yàn)結(jié)果表明,InceE 模型借助Inception 結(jié)構(gòu)通過(guò)不同尺寸的卷積核的不同感受野的優(yōu)勢(shì),能有效增加特征的交互數(shù)量。為了進(jìn)一步提高模型的準(zhǔn)確率,在今后的工作中會(huì)考慮特定三元組與附近三元組的路徑信息,以及實(shí)體本身的描述文本信息。