亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合注意力機制的IETM細(xì)粒度跨模態(tài)檢索算法

2023-12-04 05:08:02翟一琛顧佼佼宗富強姜文志

系統(tǒng)工程與電子技術(shù) 2023年12期

翟一琛, 顧佼佼, 宗富強, 姜文志

(海軍航空大學(xué)岸防兵學(xué)院, 山東煙臺 264001)

0 引言

交互式電子手冊(interactive electronic technical manual,IETM)是一種實現(xiàn)裝備技術(shù)資料信息化的技術(shù)手段,是裝備信息保障領(lǐng)域的關(guān)鍵技術(shù)之一,其克服了傳統(tǒng)紙質(zhì)技術(shù)手冊不便攜帶、查詢困難等弊端,在艦船、航空等領(lǐng)域均應(yīng)用廣泛,提升了裝備保障的工作效率[1]。

目前,隨著裝備信息化、智能化的發(fā)展,裝備維修保障信息日益龐雜、數(shù)據(jù)逐漸呈現(xiàn)出多模態(tài)的特點。現(xiàn)有IETM的檢索功能多采用傳統(tǒng)的關(guān)鍵字索引等方式,無法高效地檢索龐大的圖像、文本等多模態(tài)數(shù)據(jù),且數(shù)據(jù)錄入過程需要遵循嚴(yán)格的規(guī)范與步驟,使用存在一定的局限性?？缒B(tài)檢索是實現(xiàn)不同模態(tài)數(shù)據(jù)間相互檢索的技術(shù)。圖像和文本兩種模態(tài)的數(shù)據(jù)經(jīng)常同時出現(xiàn),其本身蘊含的信息又能夠相互補充。通過在維修保障領(lǐng)域應(yīng)用跨模態(tài)檢索技術(shù),實現(xiàn)圖像、文本之間的相互檢索,可以提高檢索數(shù)據(jù)的效率,進而提升IETM系統(tǒng)智能化水平。

跨模態(tài)檢索研究的目的在于挖掘不同模態(tài)樣本之間的關(guān)系,通過一種模態(tài)樣本來檢索具有相似語義的另一種模態(tài)樣本[2]。與傳統(tǒng)的單一模態(tài)檢索相比,其難點主要在于圖像與文本的表示形式不同,兩者分布在不同的語義空間,無法直接通過傳統(tǒng)的余弦距離等方式直接度量二者的相似度[3-4]。目前基于深度學(xué)習(xí)的跨模態(tài)檢索主要有跨模態(tài)相似性度量、公共特征空間學(xué)習(xí)等方法。基于公共特征空間學(xué)習(xí)的方法可以離線獲得文本和圖像表示,是目前跨模態(tài)檢索的主流研究和應(yīng)用方向,其主要思想是通過可解釋的距離函數(shù)約束圖文關(guān)系,優(yōu)化不同模態(tài)數(shù)據(jù)之間的分布關(guān)系,將不同模態(tài)數(shù)據(jù)映射到同一公共空間內(nèi),再進行相似性度量,這類方法的缺點是特征融合不夠充分[5-7]。

Bahdanau等[8]在2015年首次提出注意力機制,并將其應(yīng)用于機器翻譯領(lǐng)域,注意力機制可以聚焦重要信息,并同時具備不同特征空間以及全局范圍內(nèi)的特征聚合能力,將其應(yīng)用于跨模態(tài)檢索領(lǐng)域,可以有效緩解模態(tài)間交互不充分的問題。文獻[9]中使用的草圖數(shù)據(jù)集與本文自建數(shù)據(jù)集圖像相似,圖像內(nèi)容均以大量線條為主,通過加入通道注意力機制[10]關(guān)注圖像的關(guān)鍵信息,實現(xiàn)了對模型效果的大幅提升。文獻[11]使用目標(biāo)檢測模型快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region convolutional neural network, Faster-RCNN)[12]先對圖像進行目標(biāo)檢測,再對檢測到的目標(biāo)分別進行特征提取而得到細(xì)粒度特征,之后通過堆疊交叉注意力實現(xiàn)了良好的檢索性能。文獻[13]證明了同時使用注意力機制進行模態(tài)間語義對齊和模態(tài)內(nèi)語義關(guān)聯(lián)的有效性。文獻[14]提出在跨模態(tài)檢索中單獨的目標(biāo)檢測模型可能不是必要的,使用ViT (vision transformer)[15]模型進行圖像特征抽取后直接構(gòu)造邊界框損失的方法可以達到最先進的跨模態(tài)檢索性能。

本文自建數(shù)據(jù)集來自于航空行業(yè)IETM相關(guān)技術(shù)手冊,圖像數(shù)據(jù)多為飛機及相關(guān)維修設(shè)備原理圖、曲線圖等黑白圖像。這些圖像通過大量線條組合而成,與通用數(shù)據(jù)相比,具有較強的抽象性,部分實例之間十分相似,僅抽取粗粒度信息往往難以對其進行區(qū)分。針對此問題,本文改進提出一種融合注意力機制的細(xì)粒度跨模態(tài)檢索算法,通過在特征提取與模態(tài)交互階段引入注意力機制,實現(xiàn)對圖文細(xì)粒度特征的提取和特征間的細(xì)粒度對齊。在Pascal Sentence數(shù)據(jù)集[16]及自建航空行業(yè)IETM相關(guān)技術(shù)手冊數(shù)據(jù)集上進行跨模態(tài)檢索實驗,并對結(jié)果進行可視化展示,驗證所提算法的有效性。

1 跨模態(tài)檢索模型

本文采用深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval, DSCMR)[17]為基礎(chǔ)模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,圖像和文本分別通過Image卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和Text CNN得到圖文特征表示;然后,經(jīng)過全連接層進行特征抽象,并在最后一層共享權(quán)值將圖文特征映射到同一公共表示空間;最后,再連接一個線性分類器,預(yù)測每個樣本的類別并構(gòu)造標(biāo)簽損失。此外,模型使用了公共空間的辨別損失,分別約束圖像和文本、圖像和圖像、文本和文本之間的相似性。

圖1 DSCMR網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 DSCMR network’s structure

本文在直接使用DSCMR模型用于自建數(shù)據(jù)集圖文跨模態(tài)檢索時,平均精度均值(mean average precision, mAP)達到了0.745。針對數(shù)據(jù)集特點,可以進行改進的方向主要有兩點:① 改進特征提取模塊以提取圖文細(xì)粒度特征;② 在特征交互階段融合注意力機制進行圖文間的細(xì)粒度對齊。

2 融合注意力機制

本文自建數(shù)據(jù)集內(nèi)的圖像數(shù)據(jù)樣式較多,包含大量的曲線圖、零件原理圖,難以合適地標(biāo)注有意義的目標(biāo),無法使用Faster-RCNN目標(biāo)檢測的方案進行局部特征的提取。因此,本文使用基于注意力機制的圖像編碼器ViT進行特征提取。首先將圖像進行分塊,通過圖像編碼器輸出每個圖像塊的特征表示作為圖像的局部特征;文本編碼模塊使用基于注意力機制的Transformer編碼器[18],得到文本的局部特征表示。在特征交互模塊,提出模態(tài)內(nèi)注意力機制和整體-局部模態(tài)間注意力機制融合圖像特征和文本特征。模型整體結(jié)構(gòu)如圖2所示。

圖2 模型結(jié)構(gòu)Fig.2 Model’s structure

2.1 圖像特征提取模塊

本文采用ViT模型提取圖像特征。首先將輸入圖像I的尺寸調(diào)整為224×224像素大小,并將其分割為圖像塊{p1,p2,…,pN},N為切分圖像塊個數(shù),然后按順序展平轉(zhuǎn)化為特征向量輸入到預(yù)訓(xùn)練的ViT模型中,最終得到圖像的特征表示V=[vcls,v1,…,vi,vN]。其中,vcls表示圖像的整體信息,vi表示第i塊圖像塊pi的信息。本文選取圖像塊大小為16×16像素,得到的圖像塊特征向量數(shù)N為196。

2.2 文本特征提取模塊

2.3 圖文交互模塊

在圖文跨模態(tài)檢索模型中,注意力機制用于關(guān)注并聚合圖像或文本中的關(guān)鍵信息。本文分別設(shè)計了模態(tài)間全局-局部注意力機制模塊和模態(tài)內(nèi)注意力機制模塊進行圖文特征對齊。

2.3.1 模態(tài)間全局-局部注意力機制模塊

模態(tài)間注意力機制的目的是生成一個融合另一模態(tài)局部特征的全局特征表示,對于圖像特征V=[vcls,v1,…,vN]和文本特征U=[up,u1,…,uT],其全局特征表示的計算過程如下:

(1)

(2)

(3)

s(ui,vcls)=tanh(Wvvcls)⊙tanh(Wv,uui)

(4)

(5)

式中:Wv,Wv,u均為前饋神經(jīng)網(wǎng)絡(luò)參數(shù);⊙表示元素對應(yīng)位置相乘;P矩陣的作用在于將文本特征的加權(quán)向量映射到圖像特征向量維度。

(6)

(7)

式中:⊕表示向量拼接操作。

2.3.2 模態(tài)內(nèi)注意力機制模塊

在特征提取模塊,本文使用了基于注意力機制的ViT模型和Transformer編碼器提取圖文的全局特征和局部特征,在編碼器內(nèi)部進行了大量的對圖像塊之間與單詞之間的注意力計算。此時,模態(tài)內(nèi)區(qū)域到區(qū)域和單詞到單詞注意力的計算并未考慮另一模態(tài)的影響。但在不同的情景下,即使同一模態(tài)內(nèi)關(guān)注的內(nèi)容也應(yīng)當(dāng)不同,所以模態(tài)內(nèi)注意力的計算也應(yīng)該考慮到另一模態(tài)的內(nèi)容。故在特征交互階段,本文考慮另一模態(tài)信息的影響,再次對模態(tài)內(nèi)注意力進行計算。具體做法為:取出當(dāng)前模態(tài)內(nèi)對另一模態(tài)影響力最大的局部特征,將該局部特征與當(dāng)前模態(tài)剩余的所有局部特征進行注意力計算,得到基于影響力最大特征的模態(tài)內(nèi)局部特征加權(quán)向量。

由模態(tài)間注意力權(quán)重αcls,αp可得最大影響力局部特征Vi,Uj,其中i=argmaxαcls,j=argmaxαp。

(8)

(9)

s(·)的計算過程同公式(4),再將輸出向量與原向量進行拼接,得到圖像和文本的局部特征向量輸出:

(10)

(11)

(12)

(13)

本文采用了文獻[16]的損失函數(shù),共分為3部分。首先,為了保持樣本對于不同類別的辨別力,將輸出向量進行線性層映射到類別空間,并與類別向量Y進行F范數(shù)度量,類別分辨損失定義如下:

(14)

接著,對于同屬于一個類別的圖像,文本構(gòu)造似然函數(shù)。

(15)

(16)

最后,為了緩解模態(tài)間差異,使用F范數(shù)約束圖文表示間的距離:

(17)

組合公式,得到最終的聯(lián)合損失函數(shù)表示:

J=J1+λJ2+ηJ3

(18)

式中:λ、η為超參數(shù)。

3 實驗驗證

3.1 數(shù)據(jù)集構(gòu)建

自建數(shù)據(jù)集源自航空行業(yè)IETM相關(guān)技術(shù)手冊PDF文檔,由于部分圖冊不包含具體的圖像描述且各文檔格式不統(tǒng)一,對于無描述文本的圖像采用其所在手冊名、標(biāo)題名和圖像自身的圖名進行拼接并作為圖像描述。通過使用PDF文檔自動化抽取技術(shù)以及正則匹配、人工補全和修正等方式,共獲取3 112幅相關(guān)數(shù)據(jù)的圖像樣本和相關(guān)描述,并根據(jù)所在手冊不同將其分為維修、檢測、零件、飛行等10類。圖3所示為數(shù)據(jù)集樣例,從左到右依次為類別標(biāo)簽、圖像和文本描述。近似按照6∶2∶2的比例劃分?jǐn)?shù)據(jù)集,得到1 912對樣本作為訓(xùn)練集,600對樣本作為驗證集、600對樣本作為測試集。

圖3 自建數(shù)據(jù)集部分類別圖像及對應(yīng)文本示例Fig.3 Some category images and corresponding text examples of the self-built dataset

Pascal Sentence數(shù)據(jù)集源自Pascal VOC[20]數(shù)據(jù)集,包含1 000對圖文數(shù)據(jù),每張圖片對應(yīng)人工標(biāo)注的5段文本描述,數(shù)據(jù)集共分為20個類別,800對樣本作為訓(xùn)練集,100對樣本作為驗證集,100對樣本作為測試集。

3.2 數(shù)據(jù)增強

針對自建數(shù)據(jù)集學(xué)習(xí)樣本少的問題,對文本樣本進行數(shù)據(jù)增強處理,以減少過擬合現(xiàn)象的發(fā)生。

通過在文本嵌入層添加擾動構(gòu)造對抗樣本,提高模型的泛化能力。使用Goodfellow提出的快速梯度算法[21],其公式為

(19)

式中:y為標(biāo)簽;θ為模型參數(shù);radv為對輸入x的線性擾動。

3.3 實驗配置

模型使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為1e-4,輸入圖像大小統(tǒng)一縮放為256×256分辨率。采取余弦相似度并使用mAP和查準(zhǔn)率-查全率(precision-recall, PR)曲線作為特征表示評價指標(biāo)。

mAP指標(biāo)綜合考慮了排名信息和精度,被廣泛應(yīng)用在跨模態(tài)檢索研究中[22]。PR曲線以召回率(Recall)和精確率(Precision)為橫縱坐標(biāo)繪制,反映了不同召回率下精確率的變化。

3.4 模型對比分析

為驗證本文方法的有效性,本文選取了DCCA[23]、ACMR[24]、MAN[25]、SDML[26]等跨模態(tài)檢索模型作為基準(zhǔn)模型進行對比,所選對比方法均使用ResNet50[27]提取的4 096維圖像特征和訓(xùn)練文本CNN分類模型得到的256維文本特征,部分方法額外采取了與本文特征提取網(wǎng)絡(luò)相同的預(yù)訓(xùn)練ViT模型和Transformer編碼器,作為特征提取器進行對比。由表1實驗數(shù)據(jù)可知,本文提出的方法在Pascal Sentence數(shù)據(jù)集中相較于最好的基準(zhǔn)方法DSCMR,以圖檢文的mAP從0.936提升到了0.963,以文檢圖的mAP從0.928提升到了0.964,mAP的平均值從0.932提升到了0.964。由表2實驗數(shù)據(jù)可知,在自建數(shù)據(jù)集中相較最好的基準(zhǔn)方法SDML,以圖檢文的mAP從0.848提高到了0.961,以文檢圖的mAP從0.871提升到了0.958,mAP的平均值從0.860提升到了0.959。在這兩個數(shù)據(jù)集上,本文方法的mAP均最高,證明了所提方法的有效性。表1和表2中,*表示使用ViT、Transformer編碼器作為特征編碼模塊。

表1 跨模態(tài)檢索方法mAP(Pascal Sentence數(shù)據(jù)集)

表2 跨模態(tài)檢索方法mAP(自建數(shù)據(jù)集)

兩個數(shù)據(jù)集指標(biāo)提升的差異性主要體現(xiàn)在圖像內(nèi)容的不同以及文本長度上的差異。Pascal Sentence數(shù)據(jù)集中多為日常生活背景下的彩色圖像,將5條文本描述進行拼接后,文本長度相較本文自建數(shù)據(jù)集文本也更長,所以直接采用在通用數(shù)據(jù)集上預(yù)訓(xùn)練的ViT模型及適合較長文本序列建模的Transformer編碼器就會獲得較大提升。

為進一步驗證本文方法的有效性,在自建數(shù)據(jù)集上繪制精準(zhǔn)率召回率(precision recall, PR)曲線如圖4和圖5所示,特征提取器分別為ViT和Transformer。由圖4、圖5可以直觀看出,在圖檢文和文檢圖任務(wù)中,本文方法都優(yōu)于文中選取的所有基準(zhǔn)方法。

圖4 圖檢文PR曲線Fig.4 PR curve of image retrieval text

圖5 文檢圖PR曲線Fig.5 PR curve of text retrieval image

3.5 消融實驗

設(shè)計消融實驗,在自建數(shù)據(jù)集上驗證各模塊對模型性能的影響,實驗結(jié)果如表3所示,mAP指標(biāo)及損失變化如圖6和圖7所示。方法1為基準(zhǔn)模型DSCMR,均采用CNN模型對圖文進行特征提取。之后分別增加文本對抗增強、改變特征提取模型,增加模態(tài)間注意力及模態(tài)內(nèi)注意力,驗證所提方法對檢索性能的影響。可以看出,方法2在增加文本對抗增強后,有助于模型性能的提升。方法3和方法4顯示,由于自建數(shù)據(jù)集的大部分文本屬于短文本,在不進行后續(xù)特征交互的情況下,使用基于注意力機制的Transformer編碼器比使用文本CNN模型的效果要差。將方法4與方法2、方法5與方法3作對比可以看出,圖像特征抽取模塊使用預(yù)訓(xùn)練的ViT模型較預(yù)訓(xùn)練的CNN模型ResNet50大幅提升了模型檢索準(zhǔn)確率。方法6和方法7顯示,抽取細(xì)粒度特征及在之后的圖文交互階段引入模態(tài)間注意力和模態(tài)內(nèi)注意力,模型檢索準(zhǔn)確率都會取得顯著提升。

表3 消融實驗mAP結(jié)果對比(自建數(shù)據(jù)集)

圖6 不同方法的mAP曲線Fig.6 mAP curve of different methods

圖7 驗證數(shù)據(jù)集損失變化Fig.7 Loss change of verification data set

3.6 參數(shù)分析

式(18)中包含λ、η兩個超參數(shù),本文在自建數(shù)據(jù)集上進行實驗,采取固定一個參數(shù)、調(diào)節(jié)另一個參數(shù)的方法選擇合適的超參數(shù)。實驗結(jié)果如圖8所示。由圖8可以看出,當(dāng)λ=1e-3,η=1e-1時,mAP達到了最大值。

圖8 不同參數(shù)值對mAP的影響Fig.8 Influence of different parameter values on mAP

另外,本文對特征提取模塊中隱空間圖文特征的映射維度進行實驗,分別設(shè)置維度為128維、256維和512維進行實驗,實驗結(jié)果如表4所示?？梢钥闯?當(dāng)映射特征維度取256維時,模型性能最佳。

表4 不同映射特征維度的mAP結(jié)果

3.7 注意力可視化分析

對模型交互階段的圖文注意力權(quán)重進行可視化分析。圖9展示了自建數(shù)據(jù)集圖解零件類手冊中兩例圖文對的注意力可視化結(jié)果。從圖9(a)可以看出,文本對圖像注意力分別在圖像的兩個主體(即飛機發(fā)動機細(xì)節(jié)和發(fā)動機整體)剖視面圖上,圖像對文本的注意力權(quán)重主要分布在“發(fā)動機”“剖視面”詞語上,二者與圖中注意力關(guān)注的區(qū)域都有很強的相關(guān)性。同時,由于文本數(shù)據(jù)在處理過程中可能會出現(xiàn)一定的傾向性,對于出現(xiàn)次數(shù)較少的詞語或未登錄詞語,使用字符代號“UNK”替代。這類結(jié)果的可視化分析如圖9(b)所示,文本對圖像注意力多關(guān)注在圖像空白區(qū)域,而圖像對文本的注意力權(quán)重則主要分布在“UNK”上。這表明模型注意力并不一定關(guān)注在人們通常認(rèn)為的圖像或文本的關(guān)鍵信息部分。對于有大范圍空白的圖像,其注意力可能會關(guān)注在模型認(rèn)為區(qū)分度較強的空白區(qū)域和文本中的“UNK”符號上。以上兩種情況均表明圖文之間建立了一定的聯(lián)系。

圖9 注意力可視化分析Fig.9 Visual analysis of attention

4 結(jié) 論

針對現(xiàn)有IETM檢索功能模態(tài)單一的問題,本文以航空行業(yè)IETM中的10類圖文數(shù)據(jù)為研究對象,改進提出一種融合注意力機制的細(xì)粒度跨模態(tài)檢索算法。構(gòu)建飛機技術(shù)手冊跨模態(tài)檢索數(shù)據(jù)集,并根據(jù)數(shù)據(jù)集特點,對DSCMR跨模態(tài)檢索模型進行改進,使用基于注意力機制的特征提取模塊抽取圖文細(xì)粒度特征,在圖文交互模塊引入模態(tài)間整體-局部注意力機制和模態(tài)內(nèi)注意力機制進行圖文細(xì)粒度對齊。同時,針對數(shù)據(jù)量少的情況,使用文本對抗訓(xùn)練,提升模型泛化能力。所提算法在一個公開數(shù)據(jù)集和自建數(shù)據(jù)集上進行了驗證,mAP值較所選的最好基準(zhǔn)算法分別提升了0.032和0.099。最后,在自建數(shù)據(jù)集上進行消融實驗和參數(shù)實驗,并進行注意力可視化分析,進一步驗證了所提算法的有效性。