亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        運(yùn)用多模態(tài)學(xué)習(xí)改進(jìn)張量分解的知識(shí)補(bǔ)全方法

        2023-11-03 11:33:10蒙祖強(qiáng)
        關(guān)鍵詞:語(yǔ)義模態(tài)文本

        陳 沖,蒙祖強(qiáng)

        (廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,廣西 南寧 530004)

        0 引 言

        知識(shí)圖譜是由包含頭尾實(shí)體以及關(guān)系的三元組構(gòu)成的。隨著大數(shù)據(jù)技術(shù)和多媒體的發(fā)展,知識(shí)三元組的表示方法也越來(lái)越多樣化。由于三元組實(shí)體的異構(gòu)性和多語(yǔ)義性,實(shí)體語(yǔ)義經(jīng)常會(huì)發(fā)生改變,直接導(dǎo)致知識(shí)圖譜出現(xiàn)不同模態(tài)的語(yǔ)義缺失。知識(shí)補(bǔ)全方法的提出很好解決了這一問(wèn)題。傳統(tǒng)的知識(shí)補(bǔ)全方法主要包括Trans系列方法[1]、基于知識(shí)表示的方法[2]、路徑表示法[3]以及基于強(qiáng)化學(xué)習(xí)的方法[4]。而傳統(tǒng)方法在知識(shí)補(bǔ)全中僅考慮了結(jié)構(gòu)上的實(shí)體與關(guān)系表示,因此不能解決跨模態(tài)問(wèn)題。

        張量分解方法[5]的提出為解決跨模態(tài)知識(shí)圖譜的知識(shí)表示提供了新的方向。張量分解模型將多源知識(shí)圖譜的實(shí)體和關(guān)系作為嵌入層的輸入并形成一個(gè)高階張量,然后將其分解產(chǎn)生一個(gè)核心張量和多個(gè)低維張量的運(yùn)算形式,在知識(shí)補(bǔ)全中由其它模式張量對(duì)特定張量進(jìn)行鏈接預(yù)測(cè)。張量分解通常應(yīng)用于二元事件、多邊關(guān)系推理與知識(shí)問(wèn)答等。

        為了增強(qiáng)多模態(tài)知識(shí)圖譜的補(bǔ)全能力,本文提出了一種運(yùn)用多模態(tài)嵌入進(jìn)行張量分解的方法ME-TD來(lái)解決多種模態(tài)的知識(shí)補(bǔ)全問(wèn)題。我們同時(shí)考慮兩種模態(tài)的信息:實(shí)體描述信息和視覺(jué)信息,并通過(guò)實(shí)驗(yàn)對(duì)比多種知識(shí)補(bǔ)全模型驗(yàn)證了基于多種模態(tài)實(shí)體的嵌入的張量分解方法比單一模態(tài)嵌入的TuckER張量分解、傳統(tǒng)TuckER張量分解以及TranE等方法的健壯性要好,并在知識(shí)圖譜連接預(yù)測(cè)的評(píng)測(cè)任務(wù)中取得了較好的效果。主要體現(xiàn)在:①通過(guò)描述性文本嵌入的實(shí)體和通過(guò)視覺(jué)嵌入的實(shí)體在低維空間中具有共同的語(yǔ)義表征;②文字描述和視覺(jué)嵌入在知識(shí)圖譜補(bǔ)全中可以相互補(bǔ)充。

        1 相關(guān)工作

        1.1 基于TransE知識(shí)圖譜補(bǔ)全

        TransE方法最早是由Borders等學(xué)者首先提出的,在知識(shí)圖譜表示學(xué)習(xí)中,TransE將嵌入向量表示為3個(gè)不同的分量,并映射到相同的平面空間,該向量空間被認(rèn)為是從頭向量向尾向量水平移動(dòng)的特殊平面。TransE方法假設(shè)h+r≈t,其中h,r,t分別表示頭部、關(guān)系和尾部的向量,定義三重能量函數(shù)為d(h+r,t), 并根據(jù)最小化邊緣的排序目標(biāo)對(duì)實(shí)體和關(guān)系的表示進(jìn)行學(xué)習(xí)。雖然該方法能夠根據(jù)能量和預(yù)定義的邊緣計(jì)算出評(píng)分更高的三元組,但存在一些缺點(diǎn):首先是不能很好處理嵌入層多個(gè)實(shí)體對(duì)同一點(diǎn)的競(jìng)爭(zhēng),其次是在知識(shí)補(bǔ)全中僅能處理一對(duì)一的關(guān)系,容易造成語(yǔ)義缺失。

        1.2 多模態(tài)知識(shí)表示

        由于單一模態(tài)的實(shí)體之間建立語(yǔ)義關(guān)系網(wǎng)已經(jīng)無(wú)法準(zhǔn)確表示具有多源類(lèi)型數(shù)據(jù)的事件,隨著知識(shí)的進(jìn)一步延伸,我們不可忽略地將文本、圖像、音頻、視頻等文件內(nèi)容與該知識(shí)關(guān)系網(wǎng)進(jìn)行非靜態(tài)的語(yǔ)義關(guān)聯(lián),并形成功能更為強(qiáng)大的多模態(tài)知識(shí)庫(kù)。基于圖像嵌入的多模態(tài)表示學(xué)習(xí)模型IKRL[6]和基于實(shí)體描述的多模態(tài)知識(shí)表示模型DKRL[7]在同等條件下實(shí)現(xiàn)了基于三元組的實(shí)體補(bǔ)充,假設(shè)E代表模型的能量函數(shù),EM代表多模態(tài)實(shí)體補(bǔ)充的能量表示,為了使模態(tài)實(shí)體補(bǔ)充ES和EM的學(xué)習(xí)過(guò)程達(dá)成一致,EM被重新定義為:EM=EMM+EMS+ESM。 多模態(tài)知識(shí)表示學(xué)習(xí)旨在縮小不同模態(tài)之間的異質(zhì)性差距,在知識(shí)補(bǔ)全中發(fā)揮著不可或缺的作用。然而,這種方法僅僅是針對(duì)其中一種模態(tài)來(lái)實(shí)現(xiàn)定向的多模態(tài)表示,無(wú)法在模態(tài)交互中進(jìn)行知識(shí)補(bǔ)全。

        1.3 張量分解法

        基于張量分解的方法將多模態(tài)知識(shí)圖譜中的實(shí)體與關(guān)系之間的語(yǔ)義表示為不同的張量,將得到的高階張量分解為多個(gè)低階張量并進(jìn)行多關(guān)系連接預(yù)測(cè),以達(dá)到知識(shí)圖譜補(bǔ)全的目的。以下兩種算法是關(guān)于矩陣奇異值張量分解的高階擴(kuò)展[8,9]。由于張量分解在知識(shí)庫(kù)鏈接預(yù)測(cè)中表現(xiàn)較好,許多學(xué)者將其與多邊關(guān)系推理、計(jì)算機(jī)視覺(jué)、智能推薦系統(tǒng)進(jìn)行結(jié)合。Aaron Schein通過(guò)設(shè)計(jì)不同類(lèi)型二元事件正態(tài)分布的實(shí)驗(yàn)很好驗(yàn)證了貝葉斯泊松張量分解[10]的有效性。由于單一模態(tài)的張量分解無(wú)法有效處理深度學(xué)習(xí)中的多模態(tài)問(wèn)題,Hedi Ben-younes等針對(duì)VQA任務(wù)提出了一種多模態(tài)塔克分解模型MUTAN[11],假設(shè)qs表示問(wèn)題特征的向量集合,vs表示圖片特征向量的集合,三重向量的塔克分解可以表示為T(mén)=((Gc×1Wq′)×2Wv′)×3Wo, 其中T∈Rdq×dv×|A|,Gc表示核心向量,Wq,Wv,Wo代表分解后的三重向量。通過(guò)這種模型有效地參數(shù)化視覺(jué)和文本表示之間的雙線性交互,同時(shí)保持著友好的融合關(guān)系。

        2 多模態(tài)學(xué)習(xí)改進(jìn)的張量分解模型

        為了更有效地將圖像實(shí)體、描述文本和知識(shí)三元組3種不同模態(tài)的信息聯(lián)合嵌入到TuckER模型中進(jìn)行聯(lián)合表征,本文提出了一種知識(shí)圖譜補(bǔ)全模型——多模態(tài)學(xué)習(xí)改進(jìn)的張量分解模型ME-TD。與基礎(chǔ)張量分解模型不同,本文方法可以運(yùn)用于同時(shí)包含描述文本、視覺(jué)元素的多模態(tài)知識(shí)圖譜中,采用知識(shí)三元組與非結(jié)構(gòu)化數(shù)據(jù)相分離的特征提取與分析方法[12],并經(jīng)過(guò)多模態(tài)聯(lián)合表征形成一個(gè)三階核心張量,經(jīng)過(guò)三模式的張量分解得到3個(gè)不同語(yǔ)義空間的特征矩陣[7,9],通過(guò)矩陣的鏈接預(yù)測(cè)實(shí)驗(yàn),獲得知識(shí)三元組與多模態(tài)數(shù)據(jù)的聯(lián)合評(píng)分,從而進(jìn)行知識(shí)圖譜的有效補(bǔ)全。

        2.1 基礎(chǔ)張量分解

        cp張量分解[13]作為最常見(jiàn)的一種張量分解算法,其將一個(gè)高維的核心張量表示為n次不同張量的和。假設(shè)張量X是在特定位置索引上對(duì)應(yīng)的一個(gè)元素,A,B,C分別代表張量X分解后的3個(gè)特定因子矩陣,設(shè)R為張量分解的次數(shù),r代表張量的秩,λ為權(quán)重向量,r秩展開(kāi)的張量分解表示為

        (1)

        與cp張量分解不同,TuckER張量分解[5,11]作為高階形式的主成分分析,將輸入維度為 (I,J,K) 的三階張量X∈RI×J×K表示為(P,Q,R)維度的核心張量G∈RP×Q×R和一組矩陣A,B,C共同的乘積,即X≈G×1A×2B×3C, 其中A∈RI×P,B∈RJ×Q,C∈RK×R。 圖1靜態(tài)展示了三階張量TuckER原理圖。

        圖1 三模式下TuckER分解原理

        2.2 多模態(tài)嵌入的張量分解模型

        2.2.1 模型定義

        本文將多模態(tài)形式的知識(shí)圖譜定義為集合K={Em,Rs,T}, 其中Em表示多模態(tài)實(shí)體的集合,Rs表示[1…s]種不同關(guān)系的集合,T表示全部的知識(shí)三元組集合。其中Em={e1,e2,…,en},Rs={r1,r2,…,rs}, 三元組T={(h0,r0,t0)},h0表示頭實(shí)體,t0表示尾實(shí)體,r0表示實(shí)體之間的關(guān)系。其中ke表示實(shí)體的嵌入維度,kr表示關(guān)系的嵌入維度。

        本文定義了3種模塊化特征表示:描述文本特征表示、視覺(jué)模塊表示和知識(shí)三元組嵌入的表示。實(shí)體描述表示為Ed∈Em, 經(jīng)過(guò)詞嵌入網(wǎng)絡(luò)輸出為描述實(shí)體特征向量d,視覺(jué)的輸入表示為Ev∈Em, 輸出為視覺(jué)特征向量v,知識(shí)三元組的輸入為Et,經(jīng)過(guò)E-R自編碼器輸出為知識(shí)表示向量t,假設(shè)ε為激活函數(shù)的因子系數(shù)。本文多模態(tài)融合的目標(biāo)是利用TuckER學(xué)習(xí)一個(gè)多模態(tài)表示評(píng)分函數(shù)

        fm=εf[(d?v)⊕t]

        (2)

        并通過(guò)改進(jìn)的張量分解模型來(lái)判斷每一個(gè)多模態(tài)表示的三元組是否為正確有效的三元組。

        2.2.2 模型組成

        本文提出的多模態(tài)學(xué)習(xí)改進(jìn)的張量分解模型ME-TD原理如圖2所示。文中方法主要包含以下4個(gè)部分:描述文本特征提取模型、視覺(jué)特征提取模型、多模態(tài)融合表示模塊和改進(jìn)的張量分解模型。

        圖2 ME-TD模型原理

        2.2.3 描述實(shí)體特征提取網(wǎng)絡(luò)

        在知識(shí)圖譜領(lǐng)域中,同一種類(lèi)別的實(shí)體所產(chǎn)生的描述具有相似的性質(zhì),而一種文本描述也可以同時(shí)關(guān)聯(lián)多種不同模態(tài)的實(shí)體[14]。若Description={D1,D2,D3,…,Dn} 表示實(shí)體指向的描述文本,調(diào)用jieba庫(kù)對(duì)描述文本進(jìn)行分詞后得到文本Di的知識(shí)元組集,每一個(gè)知識(shí)元組包含知識(shí)圖譜中頭實(shí)體、謂語(yǔ)、介詞和賓語(yǔ)代表的尾實(shí)體。令Set=[T1,T2,T3,…,Tn] 表示由n行知識(shí)文本詞構(gòu)成的數(shù)據(jù)集,本章使用了Google于近年來(lái)推出的Word2Vec系列的CBOW模型[15-17],通過(guò)上下文預(yù)測(cè)中間詞來(lái)對(duì)描述文本進(jìn)行詞嵌入。

        為了進(jìn)一步學(xué)習(xí)描述文本實(shí)體特征,假定存在Ti=[di1,di2…dis,hi,ti1,ti2…tis],Tj=[dj1,dj2…djt,hj,tj1,tj2…tjt], 其中Ti,Tj∈Set, 將Ti作為CBOW網(wǎng)絡(luò)的輸入,并表示成一個(gè)one-hot獨(dú)熱向量,hi可以表示為:x5=[0,0,0…0,1,0,0,0…0], 我們選取語(yǔ)義連貫的三元組表示:(hi,di1,ti1), 并對(duì)三元組向量進(jìn)行求和作為神經(jīng)網(wǎng)絡(luò)模型的輸入,即:X=x1+x5+x6=[1,0,0…0,1,1,0,0…0]。

        接下來(lái)我們?cè)O(shè)定輸入層維度為(2S+1),過(guò)渡到連接層的參數(shù)矩陣為W,連接層的維度為m,參數(shù)矩陣為b,過(guò)渡到輸出層的維度為m×(2S+1), 最終計(jì)算輸出層的維度表示為:do=(1×(2S+1))×((2S+1)×m)×(m×(2S+1))=2S+1, 其中,W、b為待訓(xùn)練的參數(shù),設(shè)J(θ)為損失函數(shù),為了極小化損失函數(shù),本文采用梯度下降法來(lái)不斷提供一個(gè)極小增量,經(jīng)過(guò)α次訓(xùn)練最終得到最優(yōu)參數(shù)W′和b′,對(duì)應(yīng)的向量為:W′=W+αΔW,b′=b+αΔb, 假設(shè)期望輸出的hi對(duì)為:Y_=[0,0,0…0,1,0,0,0…0]。

        設(shè)σ為激活函數(shù)因子,經(jīng)過(guò)連接層得到

        D′=(X×W′)×b′

        (3)

        設(shè)y=σ*D′, 即Y=[y1,y2,y3…y2s+1], 總損失函數(shù)為

        (4)

        圖3 i時(shí)刻下描述文本預(yù)訓(xùn)練過(guò)程

        2.2.4 視覺(jué)特征提取網(wǎng)絡(luò)

        與實(shí)體文本描述不同,視覺(jué)元素在多模態(tài)知識(shí)圖譜中主要有3種特點(diǎn):多語(yǔ)義性、多關(guān)系性和離散性。在傳統(tǒng)圖像識(shí)別與圖像分類(lèi)中,圖像提取特征的方法包括:SIFT方法[18]、HOG方法[19]以及SURF[20,21]等。近些年隨著企業(yè)級(jí)知識(shí)圖譜中圖形數(shù)據(jù)的海量擴(kuò)展以及圖形語(yǔ)義性的增強(qiáng),圖像實(shí)體的形狀、紋理、色彩等不同的特征子空間中皆可存在一定的局部特征[22]。本文使用了來(lái)自O(shè)xford大學(xué)的VGG團(tuán)隊(duì)提出的通過(guò)增加網(wǎng)絡(luò)的深度來(lái)進(jìn)行學(xué)習(xí)的VGG模型[23],相比較AlexNet[24]來(lái)說(shuō),在卷積核上有了一定的技術(shù)改進(jìn),通過(guò)多次堆疊3×3卷積核來(lái)替代原來(lái)的大尺度卷積核,在神經(jīng)網(wǎng)絡(luò)的運(yùn)算過(guò)程中不僅能更好區(qū)分決策函數(shù),還極大減少了參數(shù)的數(shù)量。VGG模型的變種VGG19在基于VGG16的基礎(chǔ)上增加了三層3×3卷積核,包括16個(gè)卷積層和3個(gè)全連接層[25]。

        圖4 VGG19模型原理

        由圖4可知,在VGG19中,我們使用了3個(gè)3×3卷積核代替一個(gè)7×7卷積核,即3個(gè)步長(zhǎng)為1的3×3卷積核組合為一個(gè)大小為7的感受野,參數(shù)數(shù)量達(dá)到3×(9×C×C), 相比較7×7卷積核參數(shù)量7×(7×C×C) 直接減少了22×C2的參數(shù)量,C指神經(jīng)網(wǎng)絡(luò)輸入和輸出的通道數(shù)[26]。以上改進(jìn)不僅能夠在一定程度上控制模型擬合程度,還能有效提升圖像的訓(xùn)練效果[11,26]。

        2.2.5 多模態(tài)表示模塊

        我們假設(shè)T為三模式張量分解的原始張量,分別將圖像的特征表示向量v和描述文本的特征表示d作為模型的一維和二維輸入,再將文本知識(shí)三元組的嵌入特征t作為模型的第三維輸入。我們用Wi∈Rke,kr表示圖像、描述文本特征向量以及知識(shí)三元組嵌入的映射矩陣,bi為偏置參數(shù)。圖像的特征向量v和文本屬性特征向量d分別通過(guò)一個(gè)完整的全連接層進(jìn)行維度變換,得到了圖像特征向量v′和文本屬性特征向量d′

        v′=v×W1+b1,d′=d×W2+b2

        (5)

        為了統(tǒng)一表示多模態(tài)融合特征,本文提出了3種融合方法:

        (1)首先是兩種或3種模態(tài)相加融合操作(add-fusion),本文將描述文本特征向量d′和視覺(jué)特征向量v′在同一平面上進(jìn)行相加后得到融合特征向量Mul(v,d), 然后再將Mul(v,d)輸入到第二個(gè)全連接層,映射到與文本知識(shí)三元組相同維度的語(yǔ)義空間中,得到Mul′(v,d), 將其與嵌入向量t進(jìn)行相加后得到最終的多模態(tài)融合向量Mul(v,d,t)。 多模態(tài)融合的定義為

        Mul(v,d)=v′+d′=W3(v+d)+b3
        Mul′(v,d)=Mul(v,d)×W4+b4
        Mul(v,d,t)=Mul′(v,d)+t

        (6)

        (2)其次是兩種或3種模態(tài)的相乘操作(mul-fusion),直接相加的模態(tài)融合會(huì)帶來(lái)一定的噪聲,會(huì)失去一部分重要的特征信息[27]。為了在知識(shí)圖譜描述中充分體現(xiàn)視覺(jué)元素的特征表示,本文將圖像特征表示向量v經(jīng)過(guò)全連接層映射到與描述文本特征向量d相互垂直的超平面中得到特征向量v″,然后與向量d進(jìn)行相乘操作后得到Mul(v″,d)。 以下為多模態(tài)融合運(yùn)算過(guò)程

        v″=v×W5+b5
        Mul′(v,d)=v″?d

        (7)

        (3)最后一種是對(duì)文本知識(shí)三元組特征向量進(jìn)行連接映射(ConMap-fusion)。將多模態(tài)表示特征向量Mul(v″,d)經(jīng)過(guò)全連接層,與知識(shí)三元組實(shí)體對(duì)特征t進(jìn)行相同維度語(yǔ)義空間的映射,得到C′Mul;t, 然后與特征t進(jìn)行拼接,得到最終的多模態(tài)實(shí)體特征表示Mul(v,d,t), 此時(shí)多模態(tài)融合計(jì)算過(guò)程為

        C′Mul;t=Mul(v″,d)×W6+b6
        Mul(v,d,t)=[C′Mul;t;t]×W7+b7
        Mul′(v,d,t)=Mul(v,d,t)×W0+b0

        (8)

        其中,[;] 代表拼接操作,b0表示全連接映射偏參。

        2.2.6 改進(jìn)的張量分解模型

        文獻(xiàn)[8]從語(yǔ)義和結(jié)構(gòu)的角度對(duì)張量分解方法進(jìn)行了明確的分析和討論。假設(shè)?i∈[1,Dd],j∈[1,Dv],k∈[1,Dt] 為多模態(tài)張量函數(shù)Ф的3個(gè)有限數(shù)量的參數(shù),經(jīng)過(guò)張量分解產(chǎn)生 (l,m,n) 維度的三階核心張量Zc以及3個(gè)多模態(tài)因子矩陣Wd、Wv和Wt,矩陣的秩分別為T(mén)d、Tv和T0,則

        Wv[j,m]×Wt[k,n]

        其中?l∈[1,Td],m∈[1,Tv],n∈[1,T0]

        (9)

        我們重新定義知識(shí)庫(kù)MG=(D(d,v),Dt,Rm),D(d,v)可以表示為除了知識(shí)三元組外所有類(lèi)型實(shí)體的全部集合,Dt為文本知識(shí)構(gòu)成的節(jié)點(diǎn)集合,Rm為所有節(jié)點(diǎn)間對(duì)應(yīng)的邏輯關(guān)系集合。描述文本嵌入維度為Dd,視覺(jué)元素嵌入維度為Dv,知識(shí)嵌入維度為A。將Ф(x)表示為改進(jìn)的塔克分解的評(píng)分函數(shù),x代表不同mode的模態(tài)。將以上各項(xiàng)應(yīng)用到塔克分解模型[6,8]中,得到改進(jìn)后的多模態(tài)塔克分解模型。

        本文的核心是將改進(jìn)的三模式TuckER模型的多模態(tài)的輸入表示為Ф∈RDd×Dv×|A|, 輸入到模型之后輸出表示為一個(gè)核心張量Tc以及3個(gè)因子矩陣Wd,Wv,Wt共同的乘積。由主定理可以推導(dǎo)出

        Φ(d,v,t)=Tc×1dTWd×2vTWv×3Wt

        (10)

        其中,Wd∈RDd×Td,Wv∈RDv×Tv,Wt∈R|A|×To,dT和vT分別表示描述實(shí)體矩陣和圖像矩陣的轉(zhuǎn)置運(yùn)算。其中核心張量Tc∈RTd×Tv×To。模型原理如圖5所示。

        圖5 ME-TD分解模型一

        參照模型一是將改進(jìn)的三模式的TuckER模型的多模態(tài)的輸入表示為Ф∈RDd×|A|, 輸入到模型之后輸出表示為一個(gè)核心張量Tc與兩個(gè)因子矩陣Wd,Wt和參照矩陣Wo共同的乘積。由主定理可以推導(dǎo)出

        Φ(d,t,o)=Φc×1dTWd×2Wt×3Wo

        (11)

        其中,Wd∈RDd×Td,Wt∈R|A|×To,dT是d的轉(zhuǎn)置,代表描述實(shí)體的轉(zhuǎn)置運(yùn)算。其中Tc∈RTd×To。 模型原理如圖6所示。

        圖6 ME-TD分解模型二

        參照模型二是將改進(jìn)的三模式的TuckER模型的多模態(tài)的輸入表示為Ф∈RDv×|A|, 輸入到模型之后輸出表示為一個(gè)核心張量Tc與兩個(gè)因子矩陣Wv,Wt和參照矩陣Wo共同的乘積。由主定理可以推導(dǎo)出

        Φ(v,t,o)=Φc×1vTWv×2Wt×3Wo

        (12)

        其中,Wv∈RDv×Tv,Wt∈R|A|×To,vT是v的轉(zhuǎn)置,代表圖像矩陣的轉(zhuǎn)置運(yùn)算。其中Tc∈RTv×To。 模型原理如圖7所示。

        圖7 ME-TD分解模型三

        3 實(shí)驗(yàn)分析

        3.1 數(shù)據(jù)集

        參照文獻(xiàn)[4]、文獻(xiàn)[28]和文獻(xiàn)[31],本文使用了兩個(gè)公開(kāi)數(shù)據(jù)集FB15K和icews14,經(jīng)過(guò)多模態(tài)實(shí)體鏈接建立了兩個(gè)基于多模態(tài)知識(shí)庫(kù)表示的數(shù)據(jù)集:FB15K-IMG-DES、icews14-IMG-DES。我們保留描述文本實(shí)體與圖像實(shí)體所對(duì)應(yīng)的一對(duì)一的三元組連接,將一對(duì)多、多對(duì)一和多對(duì)多復(fù)雜的關(guān)系進(jìn)行刪除,并剔除沒(méi)有關(guān)聯(lián)關(guān)系的多模態(tài)實(shí)體,得到新的多模態(tài)三元組數(shù)據(jù)集FB15K-IMG-DES與icews14-IMG-DES。實(shí)驗(yàn)數(shù)據(jù)集信息見(jiàn)表1。

        表1 實(shí)驗(yàn)知識(shí)圖譜數(shù)據(jù)集

        3.2 參數(shù)設(shè)置

        為了降低過(guò)擬合對(duì)本次實(shí)驗(yàn)的影響,我們根據(jù)驗(yàn)證集性能并通過(guò)隨機(jī)搜素算法[32]進(jìn)行超參數(shù)的訓(xùn)練。為了尋找訓(xùn)練最優(yōu)參數(shù),設(shè)置實(shí)體和關(guān)系嵌入維度區(qū)間de∈{30,50,100,150,200},dr∈{30,50,100,150,200}, 學(xué)習(xí)率區(qū)間lr∈{0.0005,0.001,0.005,0.01}, 學(xué)習(xí)衰減率區(qū)間lr′∈{1,0.995,0.99,0.95},批量標(biāo)準(zhǔn)化步長(zhǎng)區(qū)間num_iteration∈{50,100,500}, dropout區(qū)間可以設(shè)置為(0.3,0.4,0.5)。最后采用批處理化原則[3]來(lái)提高訓(xùn)練的速度。

        3.3 鏈接預(yù)測(cè)

        3.3.1 實(shí)驗(yàn)設(shè)計(jì)

        本次實(shí)驗(yàn)?zāi)康氖球?yàn)證模型ME-TD在知識(shí)補(bǔ)全鏈接預(yù)測(cè)上有更好的效果。鏈接預(yù)測(cè)指根據(jù)負(fù)例三元組預(yù)測(cè)缺失的頭、邏輯關(guān)系或尾[6,8,30]。對(duì)于給定的多模態(tài)知識(shí)三元組 (hm,r,tm), 可以根據(jù)實(shí)體Em和關(guān)系r來(lái)推測(cè)第三個(gè)實(shí)體,如 (hm,r,?) 和 (?,r,tm), 或根據(jù)頭尾實(shí)體來(lái)間接地推測(cè)缺失的關(guān)系,如 (hm,?,tm)。 例如:對(duì)于兩個(gè)知識(shí)圖譜三元組(Tokyo,is captial of,Japan)和(櫻花的圖片,is planted on,富士山的圖片),并將第一個(gè)三元組的頭實(shí)體和尾實(shí)體分別與第二個(gè)三元組的尾實(shí)體和頭實(shí)體進(jìn)行關(guān)聯(lián),產(chǎn)生了兩個(gè)新的三元組:(pic1,is located in,Tokyo),(pic2,derived from,Japan)。參照文獻(xiàn)[31]和文獻(xiàn)[32],對(duì)于測(cè)試集中包含的三元組,我們使用正例三元組來(lái)替換訓(xùn)練集中的三元組并創(chuàng)建一組負(fù)例三元組,對(duì)于每個(gè)測(cè)試三元組,將測(cè)試集實(shí)體關(guān)系對(duì)與所有尾實(shí)體tm相結(jié)合,生成n個(gè)候選三元組,使用鏈接預(yù)測(cè)函數(shù)對(duì)每個(gè)新三元組進(jìn)行相似性評(píng)分,并對(duì)按照分?jǐn)?shù)由高到低進(jìn)行排序[31,32]。

        3.3.2 評(píng)估指標(biāo)

        參考文獻(xiàn)[5]、文獻(xiàn)[7],本文選取常規(guī)平均排名(MR)、平均倒序排名(MRR)、Hits@10、Hits@3作為知識(shí)圖譜鏈路預(yù)測(cè)的重要指標(biāo)。計(jì)算公式如下

        (13)

        (14)

        (15)

        (16)

        3.3.3 實(shí)驗(yàn)結(jié)果分析

        本次實(shí)驗(yàn)環(huán)境為:Win10 32位操作系統(tǒng),物理內(nèi)存4 G。本文選取TransE和TuckER模型進(jìn)行對(duì)比,采用矩陣預(yù)測(cè)任務(wù)來(lái)評(píng)價(jià)模型的知識(shí)補(bǔ)全能力。圖8展現(xiàn)了ME-TD在icews14-IMG-DES數(shù)據(jù)集上不同的學(xué)習(xí)率下模型訓(xùn)練損失值變化曲線,通過(guò)預(yù)訓(xùn)練發(fā)現(xiàn)ME-TD在lr=0.01時(shí)取得最好的損失收斂效果。實(shí)驗(yàn)結(jié)果見(jiàn)表2、表3。

        表2 FB15K-IMG-DES上各模型鏈接預(yù)測(cè)比較

        表3 icews14-IMG-DES上各模型鏈接預(yù)測(cè)比較

        圖8 ME-TD不同學(xué)習(xí)率訓(xùn)練效果變化曲線

        實(shí)驗(yàn)結(jié)果表明,ME-TD在FB15K-IMG-DES數(shù)據(jù)集上取得了最低的MR和最高的Hits@3,具體表現(xiàn)如下。

        本文方法與傳統(tǒng)的TuckER模型比較,數(shù)據(jù)集FB15K-IMG-DES在MRR上提高了2.71,在Hits@3上提高了0.14。而TransE則在預(yù)測(cè)中表現(xiàn)較差,主要原因在于FB15K-IMG-DES數(shù)據(jù)集實(shí)體與實(shí)體之間具有更復(fù)雜的多模態(tài)語(yǔ)義關(guān)系。ME-TD不僅能夠在多模態(tài)嵌入形成核心張量過(guò)程中實(shí)現(xiàn)高層的語(yǔ)義互補(bǔ),而且在三模式張量分解中保持各個(gè)模態(tài)的相對(duì)獨(dú)立性,可以預(yù)測(cè)出更加精準(zhǔn)的多模態(tài)實(shí)體。本文模型相比于IKRL,在Hits@10上提高了0.15,說(shuō)明基于特定模態(tài)的定向知識(shí)表示僅僅考慮了定向的圖像語(yǔ)義補(bǔ)充,而忽略了對(duì)嵌入在文本描述中的信息進(jìn)行編碼。相比于TuckER,ME-TD在Hits@10和Hits@3上分別提高了0.18和0.14,說(shuō)明TuckER僅僅對(duì)知識(shí)三元組進(jìn)行嵌入,在張量分解中降低了知識(shí)的語(yǔ)義獨(dú)立性,因此在預(yù)測(cè)效果不如ME-TD。

        在icews14-IMG-DES上,由于實(shí)體之間的語(yǔ)義關(guān)系相對(duì)簡(jiǎn)單,本文ME-TD模型在MRR、MR、Hits@3和Hits@10指標(biāo)均明顯優(yōu)于TransE、TuckER模型,較優(yōu)于IKRL模型,特別是Hits@3達(dá)到了0.75,進(jìn)一步說(shuō)明了對(duì)于不同復(fù)雜程度的多模態(tài)知識(shí)圖譜,ME-TD均能夠?qū)W習(xí)到更顯著、更全面的多模態(tài)知識(shí)表征,在鏈接預(yù)測(cè)中減小正例三元組預(yù)測(cè)出現(xiàn)錯(cuò)誤的概率,在知識(shí)補(bǔ)全中具有較強(qiáng)的穩(wěn)定性。

        可見(jiàn)ME-TD模型具有較好的基于多模態(tài)知識(shí)圖譜鏈接預(yù)測(cè)效果。與此同時(shí),本文模型相較于其它模型能夠有效補(bǔ)充描述文本與視覺(jué)元素中的信息,成功將多源知識(shí)補(bǔ)充到三元組本身,減小張量分解在三元組預(yù)測(cè)出現(xiàn)錯(cuò)誤的幾率。

        3.4 消融實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證多模態(tài)嵌入知識(shí)表示方法對(duì)張量分解補(bǔ)全模型的積極影響,在FB15K-IMG-DES和icews14-IMG-DES數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),具體設(shè)計(jì)方法如下:①本次實(shí)驗(yàn)忽略描述文本模態(tài)對(duì)知識(shí)補(bǔ)全的影響,將三元組結(jié)構(gòu)與圖像模態(tài)進(jìn)行融合,并將這種方法記為ME-TD(Vision)。②在數(shù)據(jù)集上忽略圖像模態(tài)對(duì)知識(shí)補(bǔ)全的影響,將三元組與描述實(shí)體進(jìn)行融合,記為ME-TD(Description)。③同時(shí)剔除描述文本和圖像的影響的塔克分解方法,記為ME-TD(TuckER)。在訓(xùn)練集中設(shè)定實(shí)體維度de=200,關(guān)系維度dr=30,學(xué)習(xí)率lr=0.01,半衰減率lr’=0.95,訓(xùn)練步長(zhǎng)設(shè)定為num_iteration=100,采取和以上實(shí)驗(yàn)相同的評(píng)估方法,各個(gè)模型仿真結(jié)果如表4、圖9和圖10所示。由表4可知,ME-TD在各項(xiàng)指標(biāo)均優(yōu)于其它模型,由于文本描述和圖像在高層空間的增強(qiáng)表示,ME-TD(Describtion)和ME-TD(Vision)在各項(xiàng)指標(biāo)上優(yōu)于ME-TD(TuckER)方法,實(shí)驗(yàn)驗(yàn)證了本文提出的模型為多模態(tài)知識(shí)庫(kù)實(shí)體鏈接預(yù)測(cè)提供了很好的幫助,進(jìn)一步提升了知識(shí)圖譜的補(bǔ)全能力。

        表4 ME-TD模型在不同知識(shí)圖譜上的消融實(shí)驗(yàn)結(jié)果

        圖9 各模型在FB15K-IMG-DES上鏈接預(yù)測(cè)結(jié)果比較

        圖10 各模型在icews14-IMG-DES上鏈接預(yù)測(cè)結(jié)果比較

        由圖9和圖10,對(duì)于icews14-IMG-DES和FB15K-IMG-DES數(shù)據(jù)集,MRR和MR表現(xiàn)最優(yōu)的均是本文模型(ME-TD)。實(shí)驗(yàn)發(fā)現(xiàn),在同時(shí)忽略描述實(shí)體特征或者圖像特征的情況下,本文模型在各個(gè)指標(biāo)上均受到一定的影響。對(duì)于icews14-IMG-DES,在忽略描述文本的條件下,由于圖像信息可以幫助文中模型ME-TD獲取更加顯著的知識(shí)圖譜實(shí)體特征,所以Hits@10表現(xiàn)最佳,知識(shí)補(bǔ)全效果較好。如果忽略圖像實(shí)體對(duì)知識(shí)圖譜的影響,由于自有描述文本實(shí)體特征向量失去作用,使得Hits@3和Hits@10相對(duì)于傳統(tǒng)模型下降,導(dǎo)致知識(shí)補(bǔ)全效果較差。對(duì)于FB15K-IMG-DES,由于知識(shí)圖譜的具有較為復(fù)雜的描述關(guān)系,在忽略圖像實(shí)體的影響時(shí),描述文本特征能夠代替圖像實(shí)體加強(qiáng)知識(shí)三元組的語(yǔ)義特征,而描述文本特征失去作用時(shí),圖像實(shí)體也可以代替描述文本實(shí)體完善知識(shí)三元組語(yǔ)義特征。由此驗(yàn)證描述文本、圖像、知識(shí)三元組嵌入的三模式張量分解能夠獲取最佳的知識(shí)補(bǔ)全效果。

        4 結(jié)束語(yǔ)

        本文面向知識(shí)圖譜補(bǔ)全提出了一種利用多模態(tài)嵌入改進(jìn)的張量分解的模型ME-TD,該方法結(jié)合了圖像、描述文本和知識(shí)三元組3種模態(tài),經(jīng)過(guò)三模式張量分解完成了兩種模態(tài)特征矩陣預(yù)測(cè)第三種模態(tài)矩陣的工作。本文列舉不同的知識(shí)圖譜補(bǔ)全模型進(jìn)行實(shí)驗(yàn)對(duì)比,并設(shè)計(jì)了兩組分別剔除單一模態(tài)的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了ME-TD具有最穩(wěn)定、效率最好、結(jié)果最佳的知識(shí)補(bǔ)全效果。在今后的研究中,我們還將從以下方面進(jìn)一步探索:

        (1)本文僅僅考慮了一對(duì)一關(guān)系的多模態(tài)輔助元素的知識(shí)補(bǔ)全,接下來(lái)將拓展到一對(duì)多和多對(duì)多復(fù)雜關(guān)系的知識(shí)圖譜補(bǔ)全的探索與研究。

        (2)本文在進(jìn)行多模態(tài)嵌入的過(guò)程中,僅僅考慮了多模態(tài)實(shí)體的嵌入,而忽略了關(guān)系的類(lèi)別,因此,下一步工作中將重新設(shè)計(jì)算法,把關(guān)系模式考慮進(jìn)去,以便獲取更加精確的知識(shí)補(bǔ)全結(jié)果。

        猜你喜歡
        語(yǔ)義模態(tài)文本
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        認(rèn)知范疇模糊與語(yǔ)義模糊
        由單個(gè)模態(tài)構(gòu)造對(duì)稱(chēng)簡(jiǎn)支梁的抗彎剛度
        如何快速走進(jìn)文本
        疯狂撞击丝袜人妻| 伊人久久大香线蕉av不变影院| 日本在线精品一区二区三区| 亚洲国产av精品一区二区蜜芽 | 亚洲成人免费网址| 亚洲最新中文字幕一区| 狂插美女流出白浆视频在线观看| 在线播放免费人成毛片乱码| 中文无码制服丝袜人妻av| 在线亚洲AV不卡一区二区| 国产av一啪一区二区| 国产私人尤物无码不卡| 亚洲国产精品特色大片观看完整版| 久久中文字幕亚洲精品最新 | 国产在线一区二区三区四区不卡| 国产av麻豆mag剧集| 国产91精选在线观看麻豆| 中文字幕一区二区va| 懂色av一区二区三区尤物| 欧美黑吊大战白妞| 久久精品免视看国产明星 | 日本护士口爆吞精视频| 99热这里有精品| 亚洲AV无码资源在线观看| 色老板在线免费观看视频日麻批| 成人自慰女黄网站免费大全| 亚洲av永久无码精品国产精品| 欧美综合区| 亚洲美女一区二区三区三州| 成人试看120秒体验区| 少妇极品熟妇人妻无码| 国产男女猛烈无遮挡免费视频网址| 国产日产一区二区三区四区五区| 人妻有码中文字幕| a级福利毛片| 亚洲一区在线二区三区| 777精品出轨人妻国产| 亚洲 都市 校园 激情 另类| 大香蕉久久精品一区二区字幕| 中文乱码字幕精品高清国产 | 亚洲av午夜成人片精品电影|