亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合注意力機制的IETM細(xì)粒度跨模態(tài)檢索算法

        2023-12-04 05:08:02翟一琛顧佼佼宗富強姜文志
        關(guān)鍵詞:圖文特征提取注意力

        翟一琛, 顧佼佼, 宗富強, 姜文志

        (海軍航空大學(xué)岸防兵學(xué)院, 山東 煙臺 264001)

        0 引 言

        交互式電子手冊(interactive electronic technical manual,IETM)是一種實現(xiàn)裝備技術(shù)資料信息化的技術(shù)手段,是裝備信息保障領(lǐng)域的關(guān)鍵技術(shù)之一,其克服了傳統(tǒng)紙質(zhì)技術(shù)手冊不便攜帶、查詢困難等弊端,在艦船、航空等領(lǐng)域均應(yīng)用廣泛,提升了裝備保障的工作效率[1]。

        目前,隨著裝備信息化、智能化的發(fā)展,裝備維修保障信息日益龐雜、數(shù)據(jù)逐漸呈現(xiàn)出多模態(tài)的特點。現(xiàn)有IETM的檢索功能多采用傳統(tǒng)的關(guān)鍵字索引等方式,無法高效地檢索龐大的圖像、文本等多模態(tài)數(shù)據(jù),且數(shù)據(jù)錄入過程需要遵循嚴(yán)格的規(guī)范與步驟,使用存在一定的局限性??缒B(tài)檢索是實現(xiàn)不同模態(tài)數(shù)據(jù)間相互檢索的技術(shù)。圖像和文本兩種模態(tài)的數(shù)據(jù)經(jīng)常同時出現(xiàn),其本身蘊含的信息又能夠相互補充。通過在維修保障領(lǐng)域應(yīng)用跨模態(tài)檢索技術(shù),實現(xiàn)圖像、文本之間的相互檢索,可以提高檢索數(shù)據(jù)的效率,進而提升IETM系統(tǒng)智能化水平。

        跨模態(tài)檢索研究的目的在于挖掘不同模態(tài)樣本之間的關(guān)系,通過一種模態(tài)樣本來檢索具有相似語義的另一種模態(tài)樣本[2]。與傳統(tǒng)的單一模態(tài)檢索相比,其難點主要在于圖像與文本的表示形式不同,兩者分布在不同的語義空間,無法直接通過傳統(tǒng)的余弦距離等方式直接度量二者的相似度[3-4]。目前基于深度學(xué)習(xí)的跨模態(tài)檢索主要有跨模態(tài)相似性度量、公共特征空間學(xué)習(xí)等方法。基于公共特征空間學(xué)習(xí)的方法可以離線獲得文本和圖像表示,是目前跨模態(tài)檢索的主流研究和應(yīng)用方向,其主要思想是通過可解釋的距離函數(shù)約束圖文關(guān)系,優(yōu)化不同模態(tài)數(shù)據(jù)之間的分布關(guān)系,將不同模態(tài)數(shù)據(jù)映射到同一公共空間內(nèi),再進行相似性度量,這類方法的缺點是特征融合不夠充分[5-7]。

        Bahdanau等[8]在2015年首次提出注意力機制,并將其應(yīng)用于機器翻譯領(lǐng)域,注意力機制可以聚焦重要信息,并同時具備不同特征空間以及全局范圍內(nèi)的特征聚合能力,將其應(yīng)用于跨模態(tài)檢索領(lǐng)域,可以有效緩解模態(tài)間交互不充分的問題。文獻[9]中使用的草圖數(shù)據(jù)集與本文自建數(shù)據(jù)集圖像相似,圖像內(nèi)容均以大量線條為主,通過加入通道注意力機制[10]關(guān)注圖像的關(guān)鍵信息,實現(xiàn)了對模型效果的大幅提升。文獻[11]使用目標(biāo)檢測模型快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region convolutional neural network, Faster-RCNN)[12]先對圖像進行目標(biāo)檢測,再對檢測到的目標(biāo)分別進行特征提取而得到細(xì)粒度特征,之后通過堆疊交叉注意力實現(xiàn)了良好的檢索性能。文獻[13]證明了同時使用注意力機制進行模態(tài)間語義對齊和模態(tài)內(nèi)語義關(guān)聯(lián)的有效性。文獻[14]提出在跨模態(tài)檢索中單獨的目標(biāo)檢測模型可能不是必要的,使用ViT (vision transformer)[15]模型進行圖像特征抽取后直接構(gòu)造邊界框損失的方法可以達到最先進的跨模態(tài)檢索性能。

        本文自建數(shù)據(jù)集來自于航空行業(yè)IETM相關(guān)技術(shù)手冊,圖像數(shù)據(jù)多為飛機及相關(guān)維修設(shè)備原理圖、曲線圖等黑白圖像。這些圖像通過大量線條組合而成,與通用數(shù)據(jù)相比,具有較強的抽象性,部分實例之間十分相似,僅抽取粗粒度信息往往難以對其進行區(qū)分。針對此問題,本文改進提出一種融合注意力機制的細(xì)粒度跨模態(tài)檢索算法,通過在特征提取與模態(tài)交互階段引入注意力機制,實現(xiàn)對圖文細(xì)粒度特征的提取和特征間的細(xì)粒度對齊。在Pascal Sentence數(shù)據(jù)集[16]及自建航空行業(yè)IETM相關(guān)技術(shù)手冊數(shù)據(jù)集上進行跨模態(tài)檢索實驗,并對結(jié)果進行可視化展示,驗證所提算法的有效性。

        1 跨模態(tài)檢索模型

        本文采用深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval, DSCMR)[17]為基礎(chǔ)模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,圖像和文本分別通過Image卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和Text CNN得到圖文特征表示;然后,經(jīng)過全連接層進行特征抽象,并在最后一層共享權(quán)值將圖文特征映射到同一公共表示空間;最后,再連接一個線性分類器,預(yù)測每個樣本的類別并構(gòu)造標(biāo)簽損失。此外,模型使用了公共空間的辨別損失,分別約束圖像和文本、圖像和圖像、文本和文本之間的相似性。

        圖1 DSCMR網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 DSCMR network’s structure

        本文在直接使用DSCMR模型用于自建數(shù)據(jù)集圖文跨模態(tài)檢索時,平均精度均值(mean average precision, mAP)達到了0.745。針對數(shù)據(jù)集特點,可以進行改進的方向主要有兩點:① 改進特征提取模塊以提取圖文細(xì)粒度特征;② 在特征交互階段融合注意力機制進行圖文間的細(xì)粒度對齊。

        2 融合注意力機制

        本文自建數(shù)據(jù)集內(nèi)的圖像數(shù)據(jù)樣式較多,包含大量的曲線圖、零件原理圖,難以合適地標(biāo)注有意義的目標(biāo),無法使用Faster-RCNN目標(biāo)檢測的方案進行局部特征的提取。因此,本文使用基于注意力機制的圖像編碼器ViT進行特征提取。首先將圖像進行分塊,通過圖像編碼器輸出每個圖像塊的特征表示作為圖像的局部特征;文本編碼模塊使用基于注意力機制的Transformer編碼器[18],得到文本的局部特征表示。在特征交互模塊,提出模態(tài)內(nèi)注意力機制和整體-局部模態(tài)間注意力機制融合圖像特征和文本特征。模型整體結(jié)構(gòu)如圖2所示。

        圖2 模型結(jié)構(gòu)Fig.2 Model’s structure

        2.1 圖像特征提取模塊

        本文采用ViT模型提取圖像特征。首先將輸入圖像I的尺寸調(diào)整為224×224像素大小,并將其分割為圖像塊{p1,p2,…,pN},N為切分圖像塊個數(shù),然后按順序展平轉(zhuǎn)化為特征向量輸入到預(yù)訓(xùn)練的ViT模型中,最終得到圖像的特征表示V=[vcls,v1,…,vi,vN]。其中,vcls表示圖像的整體信息,vi表示第i塊圖像塊pi的信息。本文選取圖像塊大小為16×16像素,得到的圖像塊特征向量數(shù)N為196。

        2.2 文本特征提取模塊

        2.3 圖文交互模塊

        在圖文跨模態(tài)檢索模型中,注意力機制用于關(guān)注并聚合圖像或文本中的關(guān)鍵信息。本文分別設(shè)計了模態(tài)間全局-局部注意力機制模塊和模態(tài)內(nèi)注意力機制模塊進行圖文特征對齊。

        2.3.1 模態(tài)間全局-局部注意力機制模塊

        模態(tài)間注意力機制的目的是生成一個融合另一模態(tài)局部特征的全局特征表示,對于圖像特征V=[vcls,v1,…,vN]和文本特征U=[up,u1,…,uT],其全局特征表示的計算過程如下:

        (1)

        (2)

        (3)

        s(ui,vcls)=tanh(Wvvcls)⊙tanh(Wv,uui)

        (4)

        (5)

        式中:Wv,Wv,u均為前饋神經(jīng)網(wǎng)絡(luò)參數(shù);⊙表示元素對應(yīng)位置相乘;P矩陣的作用在于將文本特征的加權(quán)向量映射到圖像特征向量維度。

        (6)

        (7)

        式中:⊕表示向量拼接操作。

        2.3.2 模態(tài)內(nèi)注意力機制模塊

        在特征提取模塊,本文使用了基于注意力機制的ViT模型和Transformer編碼器提取圖文的全局特征和局部特征,在編碼器內(nèi)部進行了大量的對圖像塊之間與單詞之間的注意力計算。此時,模態(tài)內(nèi)區(qū)域到區(qū)域和單詞到單詞注意力的計算并未考慮另一模態(tài)的影響。但在不同的情景下,即使同一模態(tài)內(nèi)關(guān)注的內(nèi)容也應(yīng)當(dāng)不同,所以模態(tài)內(nèi)注意力的計算也應(yīng)該考慮到另一模態(tài)的內(nèi)容。故在特征交互階段,本文考慮另一模態(tài)信息的影響,再次對模態(tài)內(nèi)注意力進行計算。具體做法為:取出當(dāng)前模態(tài)內(nèi)對另一模態(tài)影響力最大的局部特征,將該局部特征與當(dāng)前模態(tài)剩余的所有局部特征進行注意力計算,得到基于影響力最大特征的模態(tài)內(nèi)局部特征加權(quán)向量。

        由模態(tài)間注意力權(quán)重αcls,αp可得最大影響力局部特征Vi,Uj,其中i=argmaxαcls,j=argmaxαp。

        (8)

        (9)

        s(·)的計算過程同公式(4),再將輸出向量與原向量進行拼接,得到圖像和文本的局部特征向量輸出:

        (10)

        (11)

        (12)

        (13)

        本文采用了文獻[16]的損失函數(shù),共分為3部分。首先,為了保持樣本對于不同類別的辨別力,將輸出向量進行線性層映射到類別空間,并與類別向量Y進行F范數(shù)度量,類別分辨損失定義如下:

        (14)

        接著,對于同屬于一個類別的圖像,文本構(gòu)造似然函數(shù)。

        (15)

        (16)

        最后,為了緩解模態(tài)間差異,使用F范數(shù)約束圖文表示間的距離:

        (17)

        組合公式,得到最終的聯(lián)合損失函數(shù)表示:

        J=J1+λJ2+ηJ3

        (18)

        式中:λ、η為超參數(shù)。

        3 實驗驗證

        3.1 數(shù)據(jù)集構(gòu)建

        自建數(shù)據(jù)集源自航空行業(yè)IETM相關(guān)技術(shù)手冊PDF文檔,由于部分圖冊不包含具體的圖像描述且各文檔格式不統(tǒng)一,對于無描述文本的圖像采用其所在手冊名、標(biāo)題名和圖像自身的圖名進行拼接并作為圖像描述。通過使用PDF文檔自動化抽取技術(shù)以及正則匹配、人工補全和修正等方式,共獲取3 112幅相關(guān)數(shù)據(jù)的圖像樣本和相關(guān)描述,并根據(jù)所在手冊不同將其分為維修、檢測、零件、飛行等10類。圖3所示為數(shù)據(jù)集樣例,從左到右依次為類別標(biāo)簽、圖像和文本描述。近似按照6∶2∶2的比例劃分?jǐn)?shù)據(jù)集,得到1 912對樣本作為訓(xùn)練集,600對樣本作為驗證集、600對樣本作為測試集。

        圖3 自建數(shù)據(jù)集部分類別圖像及對應(yīng)文本示例Fig.3 Some category images and corresponding text examples of the self-built dataset

        Pascal Sentence數(shù)據(jù)集源自Pascal VOC[20]數(shù)據(jù)集,包含1 000對圖文數(shù)據(jù),每張圖片對應(yīng)人工標(biāo)注的5段文本描述,數(shù)據(jù)集共分為20個類別,800對樣本作為訓(xùn)練集,100對樣本作為驗證集,100對樣本作為測試集。

        3.2 數(shù)據(jù)增強

        針對自建數(shù)據(jù)集學(xué)習(xí)樣本少的問題,對文本樣本進行數(shù)據(jù)增強處理,以減少過擬合現(xiàn)象的發(fā)生。

        通過在文本嵌入層添加擾動構(gòu)造對抗樣本,提高模型的泛化能力。使用Goodfellow提出的快速梯度算法[21],其公式為

        (19)

        式中:y為標(biāo)簽;θ為模型參數(shù);radv為對輸入x的線性擾動。

        3.3 實驗配置

        模型使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為1e-4,輸入圖像大小統(tǒng)一縮放為256×256分辨率。采取余弦相似度并使用mAP和查準(zhǔn)率-查全率(precision-recall, PR)曲線作為特征表示評價指標(biāo)。

        mAP指標(biāo)綜合考慮了排名信息和精度,被廣泛應(yīng)用在跨模態(tài)檢索研究中[22]。PR曲線以召回率(Recall)和精確率(Precision)為橫縱坐標(biāo)繪制,反映了不同召回率下精確率的變化。

        3.4 模型對比分析

        為驗證本文方法的有效性,本文選取了DCCA[23]、ACMR[24]、MAN[25]、SDML[26]等跨模態(tài)檢索模型作為基準(zhǔn)模型進行對比,所選對比方法均使用ResNet50[27]提取的4 096維圖像特征和訓(xùn)練文本CNN分類模型得到的256維文本特征,部分方法額外采取了與本文特征提取網(wǎng)絡(luò)相同的預(yù)訓(xùn)練ViT模型和Transformer編碼器,作為特征提取器進行對比。由表1實驗數(shù)據(jù)可知,本文提出的方法在Pascal Sentence數(shù)據(jù)集中相較于最好的基準(zhǔn)方法DSCMR,以圖檢文的mAP從0.936提升到了0.963,以文檢圖的mAP從0.928提升到了0.964,mAP的平均值從0.932提升到了0.964。由表2實驗數(shù)據(jù)可知,在自建數(shù)據(jù)集中相較最好的基準(zhǔn)方法SDML,以圖檢文的mAP從0.848提高到了0.961,以文檢圖的mAP從0.871提升到了0.958,mAP的平均值從0.860提升到了0.959。在這兩個數(shù)據(jù)集上,本文方法的mAP均最高,證明了所提方法的有效性。表1和表2中,*表示使用ViT、Transformer編碼器作為特征編碼模塊。

        表1 跨模態(tài)檢索方法mAP(Pascal Sentence數(shù)據(jù)集)

        表2 跨模態(tài)檢索方法mAP(自建數(shù)據(jù)集)

        兩個數(shù)據(jù)集指標(biāo)提升的差異性主要體現(xiàn)在圖像內(nèi)容的不同以及文本長度上的差異。Pascal Sentence數(shù)據(jù)集中多為日常生活背景下的彩色圖像,將5條文本描述進行拼接后,文本長度相較本文自建數(shù)據(jù)集文本也更長,所以直接采用在通用數(shù)據(jù)集上預(yù)訓(xùn)練的ViT模型及適合較長文本序列建模的Transformer編碼器就會獲得較大提升。

        為進一步驗證本文方法的有效性,在自建數(shù)據(jù)集上繪制精準(zhǔn)率召回率(precision recall, PR)曲線如圖4和圖5所示,特征提取器分別為ViT和Transformer。由圖4、圖5可以直觀看出,在圖檢文和文檢圖任務(wù)中,本文方法都優(yōu)于文中選取的所有基準(zhǔn)方法。

        圖4 圖檢文PR曲線Fig.4 PR curve of image retrieval text

        圖5 文檢圖PR曲線Fig.5 PR curve of text retrieval image

        3.5 消融實驗

        設(shè)計消融實驗,在自建數(shù)據(jù)集上驗證各模塊對模型性能的影響,實驗結(jié)果如表3所示,mAP指標(biāo)及損失變化如圖6和圖7所示。方法1為基準(zhǔn)模型DSCMR,均采用CNN模型對圖文進行特征提取。之后分別增加文本對抗增強、改變特征提取模型,增加模態(tài)間注意力及模態(tài)內(nèi)注意力,驗證所提方法對檢索性能的影響。可以看出,方法2在增加文本對抗增強后,有助于模型性能的提升。方法3和方法4顯示,由于自建數(shù)據(jù)集的大部分文本屬于短文本,在不進行后續(xù)特征交互的情況下,使用基于注意力機制的Transformer編碼器比使用文本CNN模型的效果要差。將方法4與方法2、方法5與方法3作對比可以看出,圖像特征抽取模塊使用預(yù)訓(xùn)練的ViT模型較預(yù)訓(xùn)練的CNN模型ResNet50大幅提升了模型檢索準(zhǔn)確率。方法6和方法7顯示,抽取細(xì)粒度特征及在之后的圖文交互階段引入模態(tài)間注意力和模態(tài)內(nèi)注意力,模型檢索準(zhǔn)確率都會取得顯著提升。

        表3 消融實驗mAP結(jié)果對比(自建數(shù)據(jù)集)

        圖6 不同方法的mAP曲線Fig.6 mAP curve of different methods

        圖7 驗證數(shù)據(jù)集損失變化Fig.7 Loss change of verification data set

        3.6 參數(shù)分析

        式(18)中包含λ、η兩個超參數(shù),本文在自建數(shù)據(jù)集上進行實驗,采取固定一個參數(shù)、調(diào)節(jié)另一個參數(shù)的方法選擇合適的超參數(shù)。實驗結(jié)果如圖8所示。由圖8可以看出,當(dāng)λ=1e-3,η=1e-1時,mAP達到了最大值。

        圖8 不同參數(shù)值對mAP的影響Fig.8 Influence of different parameter values on mAP

        另外,本文對特征提取模塊中隱空間圖文特征的映射維度進行實驗,分別設(shè)置維度為128維、256維和512維進行實驗,實驗結(jié)果如表4所示??梢钥闯?當(dāng)映射特征維度取256維時,模型性能最佳。

        表4 不同映射特征維度的mAP結(jié)果

        3.7 注意力可視化分析

        對模型交互階段的圖文注意力權(quán)重進行可視化分析。圖9展示了自建數(shù)據(jù)集圖解零件類手冊中兩例圖文對的注意力可視化結(jié)果。從圖9(a)可以看出,文本對圖像注意力分別在圖像的兩個主體(即飛機發(fā)動機細(xì)節(jié)和發(fā)動機整體)剖視面圖上,圖像對文本的注意力權(quán)重主要分布在“發(fā)動機”“剖視面”詞語上,二者與圖中注意力關(guān)注的區(qū)域都有很強的相關(guān)性。同時,由于文本數(shù)據(jù)在處理過程中可能會出現(xiàn)一定的傾向性,對于出現(xiàn)次數(shù)較少的詞語或未登錄詞語,使用字符代號“UNK”替代。這類結(jié)果的可視化分析如圖9(b)所示,文本對圖像注意力多關(guān)注在圖像空白區(qū)域,而圖像對文本的注意力權(quán)重則主要分布在“UNK”上。這表明模型注意力并不一定關(guān)注在人們通常認(rèn)為的圖像或文本的關(guān)鍵信息部分。對于有大范圍空白的圖像,其注意力可能會關(guān)注在模型認(rèn)為區(qū)分度較強的空白區(qū)域和文本中的“UNK”符號上。以上兩種情況均表明圖文之間建立了一定的聯(lián)系。

        圖9 注意力可視化分析Fig.9 Visual analysis of attention

        4 結(jié) 論

        針對現(xiàn)有IETM檢索功能模態(tài)單一的問題,本文以航空行業(yè)IETM中的10類圖文數(shù)據(jù)為研究對象,改進提出一種融合注意力機制的細(xì)粒度跨模態(tài)檢索算法。構(gòu)建飛機技術(shù)手冊跨模態(tài)檢索數(shù)據(jù)集,并根據(jù)數(shù)據(jù)集特點,對DSCMR跨模態(tài)檢索模型進行改進,使用基于注意力機制的特征提取模塊抽取圖文細(xì)粒度特征,在圖文交互模塊引入模態(tài)間整體-局部注意力機制和模態(tài)內(nèi)注意力機制進行圖文細(xì)粒度對齊。同時,針對數(shù)據(jù)量少的情況,使用文本對抗訓(xùn)練,提升模型泛化能力。所提算法在一個公開數(shù)據(jù)集和自建數(shù)據(jù)集上進行了驗證,mAP值較所選的最好基準(zhǔn)算法分別提升了0.032和0.099。最后,在自建數(shù)據(jù)集上進行消融實驗和參數(shù)實驗,并進行注意力可視化分析,進一步驗證了所提算法的有效性。

        猜你喜歡
        圖文特征提取注意力
        讓注意力“飛”回來
        畫與理
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        Bagging RCSP腦電特征提取算法
        A Beautiful Way Of Looking At Things
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        圖文配
        海外英語(2013年9期)2013-12-11 09:03:36
        圖文配
        海外英語(2013年10期)2013-12-10 03:46:22
        Walsh變換在滾動軸承早期故障特征提取中的應(yīng)用
        軸承(2010年2期)2010-07-28 02:26:12
        亚洲免费观看| 国产精品午夜福利视频234区| 国产一区二区三区乱码| 国产精品天天狠天天看| 亚洲中文无码精品久久不卡| 国产激情小视频在线观看 | 国产成人精品三上悠亚久久| 日韩va高清免费视频| 综合偷自拍亚洲乱中文字幕| 一本加勒比hezyo无码人妻| 国产艳妇av在线出轨| 中文字幕亚洲精品综合| 十八禁视频在线观看免费无码无遮挡骂过 | 国产成人精品无码免费看| 真人作爱免费视频| 亚洲日韩欧美一区二区三区| 后入少妇免费在线观看| 一本色道久久hezyo无码| 波多野结衣乳巨码无在线| 亚洲精品成人av一区二区| 视频一区精品中文字幕| 加勒比hezyo黑人专区| 色猫咪免费人成网站在线观看| 日本国产一区二区三区在线观看| 不卡免费在线亚洲av| 日韩精品久久久久久免费| 九九精品视频在线观看| 日本最新一区二区三区视频| 中文字幕亚洲熟女av| 国产亚洲午夜高清国产拍精品 | 亚洲女同恋av中文一区二区| 免费无遮挡禁18污污网站| 无码不卡免费一级毛片视频| 国产亚洲一区二区毛片| 特级做a爰片毛片免费看| 亚洲欧洲日产国码高潮αv| 厕所极品偷拍一区二区三区视频 | 亚洲精品无码不卡| 大地资源在线播放观看mv| 丰满人妻一区二区乱码中文电影网 | 精品人妻一区二区蜜臀av|