亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征對(duì)齊融合的雙波段圖像描述生成方法

        2025-04-05 00:00:00顧夢(mèng)瑤藺素珍晉贊霞李烽源
        現(xiàn)代電子技術(shù) 2025年7期
        關(guān)鍵詞:編碼器紅外編碼

        摘" 要: 為了獲得更準(zhǔn)確、全面的現(xiàn)場信息,采用紅外和可見光同步成像探測復(fù)雜場景已成為常態(tài),但現(xiàn)有圖像描述研究仍集中于可見光圖像,無法全面而準(zhǔn)確地描述已探測到的場景信息。為此,文中提出一種基于特征對(duì)齊融合的可見光?紅外雙波段圖像描述生成方法。首先,利用Faster?RCNN分別提取可見光圖像的區(qū)域特征和紅外圖像的網(wǎng)格特征;其次,以Transformer為基本架構(gòu),在可見光?紅外圖像對(duì)齊融合(VIIAF)編碼器中引入位置信息做橋接,進(jìn)行可見光?紅外圖像特征的對(duì)齊與融合;接著,將融合得到的視覺信息輸入Transformer解碼器中得到粗粒度文本的隱藏狀態(tài);最后將編碼器輸出的視覺信息、解碼器得到的隱藏狀態(tài)與經(jīng)訓(xùn)練的Bert輸出的語言信息輸入所設(shè)計(jì)的自適應(yīng)模塊,使視覺信息和語言信息參與文本預(yù)測,實(shí)現(xiàn)文本由粗到細(xì)的圖像描述。在可見光圖像?紅外圖像描述數(shù)據(jù)集上進(jìn)行的多組實(shí)驗(yàn)表明:所提方法不僅能夠精確捕捉到可見光和紅外圖像間的互補(bǔ)信息,而且與使用Transformer的最優(yōu)模型相比,其性能在BLEU?1、BLEU?2、BLEU?3、BLEU?4、METROR、ROUGE以及CIDEr指標(biāo)上分別提高1.9%、2.1%、2.0%、1.8%、1.3%、1.4%、4.4%。

        關(guān)鍵詞: 圖像描述; 雙波段; 特征對(duì)齊融合; 注意力機(jī)制; Transformer; 語言模型; Bert; 自適應(yīng)

        中圖分類號(hào): TN911.73?34; TP391" " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " "文章編號(hào): 1004?373X(2025)07?0065?07

        Dual?band image captioning generation method based on feature alignment fusion

        GU Mengyao, LIN Suzhen, JIN Zanxia, LI Fengyuan

        (College of Computer Science and Technology, North University of China, Taiyuan 030051, China)

        Abstract: It has become a constant matter to detect complex scenes by infrared and visible light synchronous imaging and obtain more accurate and comprehensive on?site information. However, the existing research on image captioning still focuses on visible light images, and fails to describe the detected on?site information comprehensively and accurately. To this end, a visible?infrared dual?band image captioning generation method based on feature alignment fusion is proposed. Firstly, Faster?RCNN is used to extract the regional features of the visible image and the grid features of the infrared image, respectively. Secondly, on the basis of the Transformer, the position information is introduced into the visible?infrared image alignment fusion (VIIAF) encoder as a bridging to align and fuse the features of visible?infrared images. Then, the visual information obtained from fusion is input into the traditional Transformer decoder to get the hidden state of the coarse?grained text. Finally, the visual information output from the encoder, the hidden state obtained from the decoder, and the linguistic information output from the trained Bert are inputted into the designed adaptive module, so that the visual and linguistic information can be involved in the text prediction and achieve the change from the coarse?grained text image captioning to the fine?grained text image captioning. Multiple sets of experiments on the visible?infrared image captioning dataset show that the proposed method can accurately capture the complementary information between visible light images and infrared images. In addition, its performance is improved by 1.9%, 2.1%, 2.0%, 1.8%, 1.3%, 1.4% and 4.4% on BLEU?1, BLEU?2, BLEU?3, BLEU?4, METROR, ROUGE and CIDEr, respectively, in comparison with the optimal model using Transformer. To sum up, the proposed method is of effectiveness.

        Keywords: image captioning; dual?band; feature alignment fusion; attention mechanism; Transformer; language model; Bert; adaption

        0" 引" 言

        圖像描述(Image Captioning, IC)現(xiàn)已廣泛應(yīng)用于人機(jī)交互、盲人輔助、自動(dòng)駕駛等人工智能相關(guān)領(lǐng)域,其任務(wù)是對(duì)一幅給定的圖像使計(jì)算機(jī)能自動(dòng)生成一句體現(xiàn)場景主要內(nèi)容的語言描述。

        作為一個(gè)新興的、計(jì)算機(jī)視覺與自然語言處理交叉的領(lǐng)域,以單幅可見光圖像為對(duì)象、以深度神經(jīng)網(wǎng)絡(luò)為主要技術(shù)特質(zhì)的圖像描述研究雖已取得豐碩成果[1?3],但這些成果并不能滿足當(dāng)前普遍采用多波段同步成像技術(shù)進(jìn)行復(fù)雜場景探測的實(shí)際需要,除課題組初步探索[4]外,尚未檢索到相關(guān)研究,嚴(yán)重影響了高精度探測系統(tǒng)的智能化進(jìn)程。因此,開展多波段圖像描述迫在眉睫。

        現(xiàn)有圖像描述研究主要采用編碼器?解碼器(Encoder?Decoder)結(jié)構(gòu),其中,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)作為編?解碼器[5?6]是早期圖像描述中應(yīng)用最廣的結(jié)構(gòu),但該類方法無法捕獲長距離的上下文信息,導(dǎo)致該類研究停滯不前。得益于自注意力機(jī)制強(qiáng)大的長距離依賴關(guān)系建模能力,Transformer框架被引入圖像描述領(lǐng)域,并逐漸成為圖像描述領(lǐng)域的主流方法。

        基于Transformer架構(gòu)的研究基礎(chǔ)是提取區(qū)域級(jí)特征,其中,區(qū)域級(jí)特征包括圖像顯著區(qū)域特征(簡述為區(qū)域特征)和圖像網(wǎng)格區(qū)域特征(簡述為網(wǎng)格特征)。如用共享多層Transformer進(jìn)行編?解碼[7],用深度融合Transformer模型提升特征提取效果[8]等,都可以稱之為使用區(qū)域特征取得不錯(cuò)效果的范例;而利用網(wǎng)格增強(qiáng)模塊和自適應(yīng)注意模塊提高相對(duì)位置信息的視覺表示[9],以及基于局部敏感注意增強(qiáng)網(wǎng)格特征之間的交互提升層間語義理解[10]等則證明了網(wǎng)格特征提取的有效性。由于區(qū)域特征與網(wǎng)格特征各有其針對(duì)性,Wu等人證實(shí)了兩種特征優(yōu)勢(shì)互補(bǔ),可以顯著改善描述效果[11],給后續(xù)研究奠定了基礎(chǔ)。

        鑒于可見光?紅外雙波段同步探測成像是高精度探測系統(tǒng)的核心需求,本文提出一種結(jié)合可見光與紅外圖像信息的方法,將區(qū)域特征和網(wǎng)格特征相互融合。雖然這兩種圖像均描繪同一場景,但因其成像原理迥異,所提取的特征既具獨(dú)特性又含共性,直接融合存在挑戰(zhàn)。本文借鑒目標(biāo)檢測中的邊界框信息,引入位置信息來確立不同特征間的對(duì)應(yīng)關(guān)系,構(gòu)建VIIAF(Visible?infrared Image Alignment Fusion)編碼器,以實(shí)現(xiàn)精確的特征對(duì)齊與融合。

        此外,在圖像描述任務(wù)中,本文認(rèn)為非視覺詞匯特別是連詞如“of”和“with”,對(duì)描述完整性和準(zhǔn)確性具有重要作用。借助自然語言處理領(lǐng)域預(yù)訓(xùn)練語言模型的豐富信息,本文設(shè)計(jì)了自適應(yīng)模塊,將視覺信息與Bert語言模型[12]的語言信息相結(jié)合,以提升文本描述的內(nèi)容、邏輯和流暢性。

        1" 算法設(shè)計(jì)

        本文提出一種新的基于Transformer的圖像描述方法,該方法整體結(jié)構(gòu)如圖1所示。

        首先,輸入的可見光圖像[Iv]經(jīng)過Faster?RCNN提取圖像的區(qū)域特征,得[RV={ri}M],紅外圖像[Ir]提取網(wǎng)格特征[GI=gjN],所提特征均包含外觀特征與位置信息,其中[M]、[N]分別表示每幅圖像提取的區(qū)域特征和網(wǎng)格特征總數(shù);其次,將得到的可見區(qū)域特征與紅外網(wǎng)格特征輸入VIIAF編碼器中進(jìn)行編碼,編碼后的視覺信息[U]融合增強(qiáng)了可見光圖像與紅外圖像的信息;最后,將[U]分別輸入到Transformer解碼器的每一層中,將解碼得到的隱藏狀態(tài)[ht]、編碼器編碼后的視覺信息[U]、語言模型生成的語言信息[st]共同輸入自適應(yīng)模塊,以建立圖像和文本之間的深度關(guān)系,實(shí)現(xiàn)可見光?紅外雙波段圖像描述。

        1.1" VIIAF編碼器

        VIIAF編碼器由多個(gè)編碼層構(gòu)成,每個(gè)編碼層的核心是多頭融合位置注意(Multi?head Fusion Positional Attention, MHFPA)和多頭混合交叉注意(Multi?head Mixed Cross Attention, MHMCA)。首先,可見區(qū)域特征與紅外網(wǎng)格特征分別進(jìn)行融合位置注意,經(jīng)過前饋神經(jīng)網(wǎng)絡(luò)(FNN),實(shí)現(xiàn)外觀特征與位置信息相結(jié)合;然后,通過混合交叉注意與前饋神經(jīng)網(wǎng)絡(luò)(FNN)將可見區(qū)域特征與紅外網(wǎng)格特征融合增強(qiáng),最后將融合增強(qiáng)后的結(jié)果進(jìn)行Concat操作實(shí)現(xiàn)拼接得到視覺信息,具體結(jié)構(gòu)如圖2a)所示。

        1.1.1" 融合位置注意

        融合位置注意(Fusion Positional Attention, FPA)結(jié)構(gòu)如圖2b)所示。將外觀特征與位置信息輸入融合位置注意中,外觀特征經(jīng)不同的線性投影為向量[Q]、[K]、[V],位置信息經(jīng)絕對(duì)位置編碼為pos,經(jīng)相對(duì)位置編碼為矩陣[Ω],將pos整合到[Q]和[K]中,再將整合后的向量[Q+pos]與[K+pos]作為FPA中的查詢向量與鍵向量,采用縮放點(diǎn)積計(jì)算查詢向量與鍵向量的相似度分?jǐn)?shù);然后利用相對(duì)位置信息[Ω]調(diào)整注意權(quán)重;最后經(jīng)softmax進(jìn)行歸一化,將其映射為一個(gè)概率分布與值向量[V]進(jìn)行加權(quán)得到其中一個(gè)頭的特征表示。

        [FPA(Q,K,V,pos,Ω) =softmax(Q+pos)(K+pos)Tdk+ log ΩV] (1)

        式中[dk]為縮放因子。對(duì)相對(duì)位置編碼矩陣[Ω]取對(duì)數(shù)是為了數(shù)值穩(wěn)定性。

        對(duì)式(1)重復(fù)計(jì)算[i]次,得到[i]個(gè)頭的特征表示,每個(gè)特征表示記為[headi],然后將[i]個(gè)頭的特征表示進(jìn)行拼接,如式(2)所示:

        [MHFPA(q,k,v)=Concat(head1,head2,…,headi)WO] (2)

        式中:MHFPA表示融合注意位置后的結(jié)果;[q]、[k]和[v]表示[Q]、[K]、[V]線性投影前的向量;[Concat(?)]為拼接算子;[WO]為可學(xué)習(xí)的參數(shù)矩陣。

        對(duì)可見區(qū)域特征和紅外網(wǎng)格特征分別進(jìn)行融合位置注意,如式(3)、式(4)所示:

        [Cr=MHFPA(Qr,Kr,Vr,posV,Ω)] (3)

        [Cg=MHFPA(Qg,Kg,Vg,posI,Ω)] (4)

        式中:[Cr]表示可見區(qū)域特征進(jìn)行融合位置注意后的結(jié)果;[Qr]、[Kr]和[Vr]分別為可見區(qū)域特征的外觀特征經(jīng)不同的線性投影所得;[Cg]表示紅外網(wǎng)格特征進(jìn)行融合位置注意后的結(jié)果;[Qg]、[Kg]和[Vg]分別為紅外網(wǎng)格特征的外觀特征經(jīng)不同的線性投影所得;[posV]和[posI]分別為可見區(qū)域絕對(duì)位置編碼和紅外網(wǎng)格絕對(duì)位置編碼;[Ω]為所有特征的相對(duì)位置矩陣。

        然后對(duì)兩種不同的視覺信息采用不同的前饋神經(jīng)網(wǎng)絡(luò),如式(5)、式(6)所示:

        [C'r=FNNr(Cr)] (5)

        [C'g=FNNg(Cg)] (6)

        式中:[C'r]表示[Cr]經(jīng)前饋神經(jīng)網(wǎng)絡(luò)([FFNr])后的輸出結(jié)果;[C'g]表示[Cg]經(jīng)前饋神經(jīng)網(wǎng)絡(luò)([FNNg])后的輸出結(jié)果。

        1.1.2" 混合交叉注意

        在成功實(shí)現(xiàn)位置信息的融合后,即可利用位置信息來融合增強(qiáng)可見區(qū)域特征與紅外網(wǎng)格特征。首先建立可見區(qū)域?紅外網(wǎng)格對(duì)齊圖[G=(n,e)],可見區(qū)域特征與紅外網(wǎng)格特征用獨(dú)立節(jié)點(diǎn)表示,構(gòu)造節(jié)點(diǎn)集[n]。[n]中包含兩類節(jié)點(diǎn):一類為[ri],[i]的取值為[1~M],代表可見光區(qū)域特征中的各個(gè)區(qū)域;另一類為[gj],[j]的取值為[1~N],代表紅外網(wǎng)格特征中的各個(gè)網(wǎng)格。根據(jù)位置信息確定哪些節(jié)點(diǎn)之間相互連接,具體來說,當(dāng)且僅當(dāng)它們的邊界框有相交時(shí),兩個(gè)節(jié)點(diǎn)之間才會(huì)建立連接,能夠減少大量無關(guān)特征的計(jì)算。

        接下來構(gòu)建混合交叉注意(Mixed Cross Attention, MCA),如圖2c)所示。以可見區(qū)域特征作為查詢,紅外網(wǎng)格特征作為鍵和值為例,實(shí)現(xiàn)將可見區(qū)域特征與紅外網(wǎng)格特征信息分別嵌入紅外網(wǎng)格特征與可見區(qū)域特征中,并加強(qiáng)原來的特征表示。具體公式如下:

        [MCA(QV, KI, VI, posV, posI,Ω, G)=softmax(QV+posV)(KI+posI)Tdk+log ΩVI] (7)

        式中:[QV]表示[C'r]經(jīng)過線性投影的輸出;[KI]和[VI]表示[C'g]經(jīng)過線性投影的輸出;[posV]和[posI]分別表示當(dāng)前紅外可見區(qū)域特征的絕對(duì)位置編碼和當(dāng)前紅外網(wǎng)格特征的絕對(duì)位置編碼,將各自的絕對(duì)位置編碼信息整合后的向量[QV+posV]與[KI+posI]作為MCA中的查詢向量與鍵向量,采用縮放點(diǎn)積計(jì)算兩者的相似度分?jǐn)?shù),利用相對(duì)位置信息矩陣[Ω]來調(diào)整注意權(quán)重,最后經(jīng)softmax進(jìn)行歸一化,將其映射為一個(gè)概率分布與值向量[VI]進(jìn)行加權(quán)得到其中一個(gè)頭的特征表示;[dk]為縮放因子,對(duì)相對(duì)位置編碼矩陣[Ω]取對(duì)數(shù)是為了數(shù)值穩(wěn)定性;[G]為構(gòu)建可見區(qū)域?紅外網(wǎng)格對(duì)齊圖。

        式(7)重復(fù)計(jì)算[i]次,得到[i]個(gè)頭的特征表示,每個(gè)特征表示記為[headi],然后將[i]個(gè)頭的特征表示進(jìn)行拼接,如式(8)所示:

        [MHMCA(QV,KI,VI)=Concat(head1,head2,…,headi)WT] (8)

        式中:[Concat(?)]為拼接算子;[WT]為可學(xué)習(xí)的參數(shù)矩陣。

        反之亦然,將紅外網(wǎng)格特征作為查詢,可見區(qū)域特征作為鍵和值計(jì)算混合交叉注意,如式(9)~式(11)所示:

        [MCA(QI,KV,VV,posI,posV,Ω,G)=softmax(QI+posI)(KV+posV)Tdk+log ΩVV] (9)

        [headh=MCA(QI,h,KV,h,VV,h,posI,posV,Ω,G)] (10)

        [MHMCA(QI,KV,VV)=Concat(head1,head2,…,headh)WT'] (11)

        式中:[headh]表示第[h]個(gè)頭的特征表示;[QI]表示[C'r]經(jīng)過線性投影的輸出;[KV]和[VV]表示[C'r]經(jīng)過線性投影的輸出;[WT']為可學(xué)習(xí)的參數(shù)矩陣。

        計(jì)算兩個(gè)多頭混合交叉注意,公式如下所示:

        [Mr=MHMCA(QV,KI,VI,posV,posI,Ω,G)] (12)

        [Mg=MHMCA(QI,KV,VV,posI,posV,Ω,G)] (13)

        式中:[Mr]表示可見區(qū)域特征作為查詢,紅外網(wǎng)格特征作為鍵和值的混合交叉注意力結(jié)果;[Mg]表示紅外網(wǎng)格特征作為查詢,可見區(qū)域特征作為鍵和值的混合交叉注意力結(jié)果。

        與多頭融合位置注意力類似,在多頭混合交叉注意力后是兩個(gè)獨(dú)立的FNN。經(jīng)過多層編碼后,將兩個(gè)多頭融合位置注意力輸出拼接作為視覺信息[U],將視覺信息[U]輸入Transformer解碼器與自適應(yīng)模塊中。

        1.2" 自適應(yīng)模塊

        1.2.1" 語言模型

        由于Transformer解碼器中的記憶信息與隱藏信息高度耦合,導(dǎo)致嚴(yán)重的語言偏差問題,本文采用基于Bert的語言模型來提取語言信息。

        與Transformer解碼器類似,該語言模型在測試階段僅能訪問部分已生成的句子信息,因此構(gòu)建與Transformer解碼器的掩碼注意力模塊的相似模塊,實(shí)現(xiàn)給定一個(gè)單詞序列[W=(lt;bosgt;,w1,w2,…,wn)],預(yù)測[W'=(w1,w2,…,wn,lt;eosgt;)],根據(jù)時(shí)間步逐項(xiàng)偏移最終預(yù)測到[lt;eosgt;]句子結(jié)束,公式如下所示:

        [lf=Bert(W)] (14)

        [s=MaskedAttention(FNN1(lf)+pos)] (15)

        [W'=log_softmax(FNN2(s))] (16)

        式中:[lf]是Bert模型的輸出;pos是文本序列的位置編碼;[FNN1]和[FNN2]是兩個(gè)不同的前饋神經(jīng)網(wǎng)絡(luò);[s]是lf經(jīng)過掩碼注意(Masked Attention)模塊后的輸出,[t]時(shí)刻的輸出記為[st]。

        該語言模型只使用交叉熵?fù)p失進(jìn)行訓(xùn)練,訓(xùn)練完成后將所有參數(shù)凍結(jié),同時(shí)將經(jīng)過掩碼注意的輸出[st]作為當(dāng)前時(shí)刻的語言信息表示。

        1.2.2" 自適應(yīng)模塊

        經(jīng)Transformer解碼器后得到隱藏狀態(tài)[ht],自適應(yīng)模塊與Transformer解碼器層類似,[ht]經(jīng)過一個(gè)掩碼多頭注意,然后與處理后的視覺信息[U]與語言信息[st]經(jīng)過多頭注意,將多頭注意的各個(gè)結(jié)果進(jìn)行拼接,最后得到文本輸出,如圖3所示。

        將編碼器輸出的視覺信息[U]與語言模型輸出的語言信息[st]拼接,經(jīng)過不同的線性變換為[K]、[V],隱藏狀態(tài)[ht]經(jīng)過掩碼多頭注意后的向量經(jīng)過線性變換為[Q],對(duì)[Q]、[K]、[V]進(jìn)行多頭注意,公式如下所示:

        [headi,t=softmax(QKT)V] (17)

        式中[headi,t]表示第[i]個(gè)頭第[t]時(shí)刻的注意結(jié)果。

        [MHA=Concat(head1,head2,…,headi)W] (18)

        式中:[MHA]為多頭注意;[Concat(?)]為拼接算子;[W]為可學(xué)習(xí)的參數(shù)矩陣。

        2" 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        2.1" 數(shù)據(jù)集

        由于當(dāng)前沒有開源的可見光圖像?紅外圖像描述數(shù)據(jù)集,本文采用課題組自制數(shù)據(jù)集,數(shù)據(jù)集圖像來自開源數(shù)據(jù)集CAMEL Dataset、CSR_GTOT和RGB?T234數(shù)據(jù)集,共4 000對(duì)圖像,每對(duì)圖像人工配置5條描述句子,其中部分?jǐn)?shù)據(jù)由數(shù)據(jù)增強(qiáng)得到。

        2.2" 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)按照6∶2∶2隨機(jī)劃分訓(xùn)練、驗(yàn)證、測試數(shù)據(jù)集。本文使用Faster?RCNN提取可見光圖像區(qū)域特征及紅外圖像網(wǎng)格特征,紅外網(wǎng)格特征大小為7×7。實(shí)驗(yàn)使用dropout防止模型過擬合,參數(shù)設(shè)置為0.1,使用Adam算法更新參數(shù),頭數(shù)均設(shè)置為8。

        訓(xùn)練分兩個(gè)階段:第一階段為交叉熵訓(xùn)練階段,batch_size設(shè)置為50,學(xué)習(xí)率初始值為1×10-4,訓(xùn)練20個(gè)epoch;第二階段為強(qiáng)化學(xué)習(xí)階段,batch_size設(shè)置為100,學(xué)習(xí)率初始值為5×10-6,beam_size為5,訓(xùn)練15個(gè)epoch。

        2.3" 實(shí)驗(yàn)結(jié)果與分析

        2.3.1" 客觀評(píng)價(jià)

        由于當(dāng)前圖像描述代表方法(文獻(xiàn)[4]除外)的研究對(duì)象均為可見光圖像,而本文研究對(duì)象為可見光?紅外雙波段圖像,無法直接對(duì)比本文所提方法的有效性,其余對(duì)比實(shí)驗(yàn)采取兩波段圖像像素級(jí)相加再取均值作為輸入,對(duì)比的方法有AOA(Attention on Attention)[13]、M2(Meshed?memory Transformer)[14]、RSTNet(Relationship?sensitive Transformer Network)[9]、LSTNet(Locality?sensitive Transformer Network)[10]和DLCT(Dual?level Collaborative Transformer)[11]。

        實(shí)驗(yàn)結(jié)果如表1所示,最優(yōu)指標(biāo)用加粗表示,次優(yōu)用下劃線表示。

        由表1可知,AOA為傳統(tǒng)的CNN+RNN方法,性能相對(duì)較低;本文較基于Transformer的方法(ORT、M2、RSTNet、LSTNet、DLCT)中的最優(yōu)結(jié)果DLCT在指標(biāo)上分別提高1.9%、2.1%、2.0%、1.8%、1.3%、1.4%和4.4%。其中,BLEU?4和CIDEr為圖像描述的關(guān)鍵性指標(biāo),BLEU的[n]值越大,對(duì)語言流暢性和上下文連貫性的要求越高,本文方法雖然在BLEU?1、BLEU?2、BLEU?3指標(biāo)上表現(xiàn)為次優(yōu),但在BLEU?4指標(biāo)上與文獻(xiàn)[4]相持平,表明本文方法生成語言流暢性和上下文連貫性高;CIDEr對(duì)同義詞和近義詞具有更好的識(shí)別能力,能夠更準(zhǔn)確地評(píng)估語義相似度,而BLEU只計(jì)算真實(shí)語句和生成語句的相似度,本文在CIDEr指標(biāo)上較文獻(xiàn)[4]提高3.8%,說明本文方法生成的描述在語義豐富性和多樣性方面更具優(yōu)勢(shì)。這也解釋了為何本文方法在BLEU?1、BLEU?2、BLEU?3指標(biāo)上表現(xiàn)為次優(yōu),但在CIDEr指標(biāo)上達(dá)到最優(yōu),因?yàn)樯烧Z句中使用了更豐富的同義詞和近義詞,從而在語義相似度上表現(xiàn)更佳。

        2.3.2" 主觀評(píng)價(jià)

        為進(jìn)一步評(píng)估本文方法的有效性,圖4給出了本文所提方法生成描述的對(duì)比。其中:GT為真實(shí)人工標(biāo)注句子;SOTA為當(dāng)前Transformer最優(yōu)方法DLCT生成的句子;Ours為本文方法生成的句子。

        圖4展示了4個(gè)樣例,本文模型能更好地結(jié)合兩幅圖像的綜合信息,且能生成更多樣的描述。圖4a)中,本文方法不僅將可見光圖像中建筑前不明顯的2個(gè)人描述出來,而且還將GT、SOTA中未提到的部分被樹木遮擋的自行車進(jìn)行了描述,且本文方法很好地描述了人與建筑的空間位置關(guān)系“on the platform in front of the house”,SOTA方法僅描述“in the doorway of the glass curtain wall building”,并未體現(xiàn)人處于較高平臺(tái)這一信息。圖4b)同樣較SOTA有更豐富的位置信息。圖4c)中,本文方法中對(duì)象有了具體的動(dòng)作屬性“standing”。圖4d)中,SOTA方法生成的“Two people”從紅外圖像上可以明顯看出是錯(cuò)誤的,而本文生成的“many people”更準(zhǔn)確,且SOTA方法并未提到天氣情況,本文方法生成了“rainy”有關(guān)天氣的形容。

        以上樣例說明:本文方法能很好地將可見光圖像與紅外圖像信息相結(jié)合,生成有關(guān)人、車等熱目標(biāo)信息時(shí)描述信息更準(zhǔn)確完整,說明本文設(shè)計(jì)的VIIAF編碼器很好地融合了可見光圖像和紅外圖像的不同信息;與SOTA方法相比,本文方法更能生成完整的細(xì)節(jié)信息,如對(duì)象的動(dòng)作信息和環(huán)境信息等,便于更好地進(jìn)行場景理解,這得益于本文模型中的自適應(yīng)模塊。

        3" 結(jié)" 語

        本文提出了一種基于特征對(duì)齊融合的可見光?紅外雙波段圖像描述生成方法。首先,構(gòu)造了VIIAF編碼器,該編碼器中的融合位置注意和混合交叉注意兩個(gè)關(guān)鍵模塊將來自可見光圖像與紅外圖像這些不同源的特征進(jìn)行了精確的對(duì)應(yīng)融合;然后,利用自適應(yīng)模塊進(jìn)一步提升了圖像描述的生成效果。未來的工作將探索更優(yōu)的特征融合方式與更多的應(yīng)用場景,以及進(jìn)一步優(yōu)化模型結(jié)構(gòu)和參數(shù),以期達(dá)到更高的準(zhǔn)確率和更好的泛化能力。

        注:本文通訊作者為藺素珍。

        參考文獻(xiàn)

        [1] MING Y, HU N N, FAN C X, et al. Visuals to text: A comprehensive review on automatic image captioning [J]. IEEE/CAA journal of automatica sinica, 2022, 9(8): 1339?1365.

        [2] STEFANINI M, CORNIA M, BARALDI L, et al. From show to tell: A survey on deep learning?based image captioning [J]. IEEE transactions on pattern analysis and machine intelligence, 2023, 45(1): 539?559.

        [3] 趙永強(qiáng),金芝,張峰,等.深度學(xué)習(xí)圖像描述方法分析與展望[J].中國圖象圖形學(xué)報(bào),2023,28(9):2788?2816.

        [4] 賀姍,藺素珍,王彥博,等.基于特征融合的多波段圖像描述生成方法[J].計(jì)算機(jī)工程,2024,50(6):236?244.

        [5] ANDERSON P, HE X D, BUEHLER C, et al. Bottom?up and top?down attention for image captioning and visual question answering [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6077?6086.

        [6] WANG C Z, GU X D. Dynamic?balanced double?attention fusion for image captioning [J]. Engineering applications of artificial intelligence, 2022, 114: 105194.

        [7] ZHOU L W, PALANGI H, ZHANG L, et al. Unified vision?language pre?training for image captioning and VQA [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2020: 13041?13049.

        [8] ZHANG J, XIE Y S, DING W C, et al. Cross on cross attention: Deep fusion transformer for image captioning [J]. IEEE transactions on circuits and systems for video technology, 2023, 33(8): 4257?4268.

        [9] ZHANG X Y, SUN X S, LUO Y P, et al. RSTNet: Captioning with adaptive attention on visual and non?visual words [C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2021: 15465?15474.

        [10] MA Y W, JI J Y, SUN X S, et al. Towards local visual modeling for image captioning [J]. Pattern recognition, 2023, 138: 109420.

        [11] LUO Y, JI J, SUN X, et al. Dual?level collaborative transformer for image captioning [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2021: 2286?2293.

        [12] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre?training of deep bidirectional transformers for language understanding [C]// North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 4171?4186.

        [13] HUANG L, WANG W M, CHEN J, et al. Attention on attention for image captioning [C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2019: 4633?4642.

        [14] CORNIA M, STEFANINI M, BARALDI L, et al. Meshed?memory transformer for image captioning [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 10575?10584.

        作者簡介:顧夢(mèng)瑤(2000—),女,山西長治人,碩士研究生,研究方向?yàn)閳D像描述與信息融合。

        藺素珍(1966—),女,山西太原人,博士研究生,教授,研究方向?yàn)閿?shù)字圖像處理與信息融合。

        晉贊霞(1991—),女,山西運(yùn)城人,博士研究生,講師,研究方向?yàn)槎嗄B(tài)機(jī)器學(xué)習(xí)與智能問答系統(tǒng)。

        李烽源(1999—),男,山西呂梁人,碩士研究生,研究方向?yàn)槎嗄B(tài)情感分析。

        收稿日期:2024?07?10" " " " " "修回日期:2024?07?31

        基金項(xiàng)目:山西省自然科學(xué)基金項(xiàng)目(202303021211147);山西省知識(shí)產(chǎn)權(quán)局專利轉(zhuǎn)化專項(xiàng)計(jì)劃(202302001);國家自然科學(xué)基金項(xiàng)目(62406296);山西省留學(xué)回國人員科技活動(dòng)擇優(yōu)資助項(xiàng)目(20230017)

        猜你喜歡
        編碼器紅外編碼
        網(wǎng)紅外賣
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        閃亮的中國紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
        電子制作(2019年7期)2019-04-25 13:17:14
        Genome and healthcare
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
        久久狼精品一区二区三区 | 免费成人福利视频| 色琪琪一区二区三区亚洲区| 国产精品久久婷婷免费观看| 欧美老肥妇做爰bbww| 依依成人精品视频在线观看 | 午夜视频一区二区在线观看 | 久久免费精品日本久久中文字幕 | 国产日韩欧美网站| 中文字幕二区三区在线| 就爱射视频在线视频在线| 天天综合网在线观看视频| 在线免费观看国产精品| 国内色精品视频在线网址| 精品人妻一区二区三区在线观看| 成年女人色毛片| 色丁香在线观看| 国产少妇一区二区三区| 精品国产午夜肉伦伦影院| 日本亚洲色大成网站www久久| 国产精品国产三级在线高清观看| 男女动态视频99精品| 国产av熟女一区二区三区 | 成熟丰满熟妇av无码区| 少妇高潮惨叫久久久久久| 亚洲啪啪AⅤ一区二区三区| 亚洲免费女女在线视频网站| yw尤物av无码国产在线观看| 亚洲视频天堂| 国产无套粉嫩白浆内精| 免费无码专区毛片高潮喷水| 欧美孕妇xxxx做受欧美88| 国产极品视觉盛宴在线观看| 夜夜高潮夜夜爽免费观看| 亚洲精品无码久久久久av老牛| 午夜高清福利| 92自拍视频爽啪在线观看| 色哟哟最新在线观看入口| 丰满五十六十老熟女hd| 麻豆av一区二区天堂| 男女边摸边吃奶边做视频韩国|