亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN-Transformer 雙模態(tài)特征融合的目標(biāo)檢測算法

        2024-04-15 03:17:12楊晨侯志強(qiáng)李新月馬素剛楊小寶
        光子學(xué)報 2024年3期
        關(guān)鍵詞:特征提取紅外模態(tài)

        楊晨,侯志強(qiáng),李新月,馬素剛,楊小寶

        (1 西安郵電大學(xué) 計(jì)算機(jī)學(xué)院, 西安 710121) (2 陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點(diǎn)實(shí)驗(yàn)室, 西安 710121)

        0 引言

        目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域的重要分支,已廣泛應(yīng)用于自動駕駛[1]、視頻監(jiān)控[2]、智能交通[3]等場景中。近年來,基于深度學(xué)習(xí)的目標(biāo)檢測算法以其出色的檢測性能得到大力發(fā)展。在深度學(xué)習(xí)框架下,目標(biāo)檢測方法通常分為兩大類:基于錨框的方法和無錨框的方法。基于錨框的方法為每一個位置設(shè)定多個矩形框,通過微調(diào)這些矩形框?qū)崿F(xiàn)目標(biāo)檢測,根據(jù)檢測流程的差異,可分為兩階段目標(biāo)檢測和單階段目標(biāo)檢測兩類。兩階段目標(biāo)檢測首先提取候選框,再分類和回歸這些候選框以生成檢測結(jié)果,其中典型方法包括RCNN[4]、Fast R-CNN[5]和Faster R-CNN[6]等;而單階段目標(biāo)檢測算法直接對預(yù)定義錨點(diǎn)框進(jìn)行分類和回歸,如SSD[7]和YOLO[8-14]等系列算法。無錨框的目標(biāo)檢測算法去除了錨框的使用,通過關(guān)鍵點(diǎn)的組合和定位來實(shí)現(xiàn)目標(biāo)檢測,代表算法如CornerNet[15]、FCOS[16]和CenterNet[17]等。隨著Transformer 在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,基于Transformer 的目標(biāo)檢測算法也得到了顯著進(jìn)展,如DETR[18]、VIT-FRCNN[19]、Deformable DETR[20]等。然而,基于Transformer 的方法因其高計(jì)算成本,在實(shí)際任務(wù)中面臨部署難題。因此,許多研究者提出將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與Transformer 結(jié)合的目標(biāo)檢測方法,典型如BotNet[21]和CMT[22]等。這些方法巧妙地結(jié)合了CNN 和Transformer 的優(yōu)勢,融合了局部特征與全局特征,增強(qiáng)了特征表達(dá)能力,有效提升了目標(biāo)檢測性能,實(shí)現(xiàn)速度和精度的平衡。

        目前,大多數(shù)目標(biāo)檢測算法主要基于可見光圖像。在光照充足的情況下,可見光傳感器能夠有效地捕捉目標(biāo)的顏色和紋理等信息。然而,實(shí)際應(yīng)用中,由于各種環(huán)境因素的干擾,如遮擋、惡劣天氣(如雨霧)、光照不均等情況[23],可見光傳感器往往難以獲取完整的目標(biāo)信息,從而無法滿足精確的檢測需求[24]。相反,紅外圖像主要基于熱輻射能量成像,受光照影響較少,在光線不足的條件下可以提供清晰的輪廓信息,但其也存在圖像對比度低、紋理信息匱乏等問題。針對上述問題,紅外與可見光圖像融合技術(shù)被提出,通過有效整合兩種模態(tài)的互補(bǔ)信息,不僅可以提升目標(biāo)檢測性能,還能擴(kuò)展其在真實(shí)場景中的應(yīng)用。因此,構(gòu)建基于雙模態(tài)特征融合的目標(biāo)檢測技術(shù)逐漸成為當(dāng)前的研究熱點(diǎn)。例如,ZHU Yaohui 等[25]在已有目標(biāo)檢測特征金字塔結(jié)構(gòu)的基礎(chǔ)上,引入基于Transformer 的多模態(tài)融合特征金字塔結(jié)構(gòu),從而提升了目標(biāo)檢測性能;ZHANG Heng 等[26]在YOLO 架構(gòu)中引入循環(huán)細(xì)化模塊,有效地實(shí)現(xiàn)了雙模態(tài)特征融合與目標(biāo)檢測;ZHOU Kailai 等[27]提出模態(tài)平衡網(wǎng)絡(luò)并結(jié)合差分模態(tài)感知融合模塊,實(shí)現(xiàn)了模態(tài)間的互補(bǔ),從而增強(qiáng)了行人檢測性能;趙明等[28]通過跨域融合網(wǎng)絡(luò)結(jié)構(gòu),將紅外域與偽可見光域的雙模態(tài)特征進(jìn)行融合,提升了目標(biāo)檢測的準(zhǔn)確性;YANG Xiaoxiao 等[29]通過雙向自適應(yīng)門控機(jī)制,高效地實(shí)現(xiàn)了跨模態(tài)特征融合;JIANG Qunyan 等[30]提出了一種適用于多光譜行人檢測的單機(jī)檢測器,利用跨模態(tài)互補(bǔ)模塊和基于注意力的特征增強(qiáng)模塊,實(shí)現(xiàn)了行人檢測;FANG Qingyun 等[31]運(yùn)用Transformer 中的自注意力機(jī)制,實(shí)現(xiàn)了多光譜目標(biāo)檢測中不同模態(tài)信息的高效融合,從而顯著提升了檢測性能;CHEN Yiting 等[32]采用了概率集成技術(shù),將多模態(tài)檢測結(jié)果有機(jī)地融合在一起,為多光譜目標(biāo)檢測領(lǐng)域帶來了創(chuàng)新;WANG Qingwang 等[33]提出了一種冗余信息抑制網(wǎng)絡(luò),抑制了跨模態(tài)冗余信息,促進(jìn)了紅外-可見光互補(bǔ)信息的融合;CAO Yue 等[34]采用了通道切換和空間注意力的有效融合策略,成功地整合了來自不同模態(tài)的輸入信息,顯著提升了多模態(tài)目標(biāo)檢測的準(zhǔn)確性。

        雙模態(tài)目標(biāo)檢測算法所采用的雙模態(tài)融合策略主要可分為早期融合、中期融合和后期融合三大類。早期融合一般是指像素級融合,通過逐像素地整合來自不同模態(tài)的圖像,生成融合圖像后輸入檢測網(wǎng)絡(luò)。例如,WANG Wensheng 等[35]通過提取與集成不同模態(tài)的高頻信息來實(shí)現(xiàn)顯著性目標(biāo)檢測;ZHANG Xiaoye等[36]提出了一種基于局部邊緣保留濾波器的圖像分解和融合策略,獲得融合圖像來進(jìn)行顯著性目標(biāo)檢測。中期融合通常是指特征級融合,即在特征提取過程中將不同模態(tài)特征進(jìn)行融合,從而獲得融合后的特征圖用于目標(biāo)檢測。例如,ZHANG Heng 等[37]引入了一種新的多光譜特征融合方法,通過動態(tài)融合多光譜特征來提高檢測性能;AN Zijia 等[38]提出了跨模態(tài)信息共享網(wǎng)絡(luò),通過共享不同模態(tài)的目標(biāo)信息來增強(qiáng)特征提取能力。后期融合是指決策級融合,側(cè)重于將不同模態(tài)的檢測結(jié)果進(jìn)行組合,以優(yōu)化最終決策方案。例如,LI Chengyang 等[39]利用光照信息對可見光和紅外預(yù)測結(jié)果進(jìn)行加權(quán)融合;BAI Yu 等[40]通過對兩種模態(tài)檢測結(jié)果的決策來進(jìn)行融合檢測。中期融合能夠有效利用兩種模態(tài)的不同特征,實(shí)現(xiàn)特征層次的信息交互。

        本文提出了一種基于CNN-Transformer 雙模態(tài)特征融合的目標(biāo)檢測算法CTDMDet(CNNTransformer Dual Modal feature fusion Object Detection)。搭建了一個雙分支網(wǎng)絡(luò),使其能夠同時處理紅外和可見光圖像。采用基于CNN 的紅外特征提取模塊(CNN-based Feature Extraction,CFE)來獲取紅外圖像局部特征。選用基于Transformer 的可見光特征提取模塊(Transformer-based Feature Extraction,TFE),以更好地獲取可見光圖像全局上下文信息和細(xì)節(jié)特征。最后,設(shè)計(jì)了雙模態(tài)特征融合模塊(IR-RGB Fusion Module, IRF),通過模態(tài)間信息的交互,獲取跨模態(tài)互補(bǔ)信息。

        1 本文算法

        在YOLOv5-s 的基礎(chǔ)上進(jìn)行擴(kuò)展,構(gòu)建了一個能夠同時輸入紅外和可見光圖像的雙模態(tài)融合目標(biāo)檢測網(wǎng)絡(luò)。如圖1 所示,所提算法整體網(wǎng)絡(luò)結(jié)構(gòu)由三個主要部分組成:雙模態(tài)特征提取主干網(wǎng)絡(luò)、特征融合頸部網(wǎng)絡(luò)和檢測頭。

        圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Overall network architecture

        針對紅外和可見光圖像各自的特點(diǎn),雙模態(tài)特征提取主干網(wǎng)絡(luò)包含兩個并行的網(wǎng)絡(luò)分支。紅外分支由基于CNN 的特征提取模塊CFE 及卷積層CBS(Conv-BN-SiLU)組合而成,可見光分支則由基于Transformer 的特征提取模塊TFE 和卷積層CBS 組合而成。首先,紅外圖像MIR和可見光圖像MRGB分別輸入到對應(yīng)的分支中,經(jīng)過卷積CBS 操作后獲得特征信息FIR和FRGB。隨后,F(xiàn)IR和FRGB分別經(jīng)過四個連續(xù)的特征提取模塊CFE 和TFE,獲得不同尺度的紅外特征FiIR和可見光特征FiRGB(i∈1,2,3,4)。其次,采用中期融合方式,在網(wǎng)絡(luò)的后三層,將并行獲取的兩種模態(tài)特征輸入到紅外-可見光融合模塊IRF 中,以獲得融合特征信息FjIRF(j∈1,2,3)。融合后的特征與對應(yīng)尺度的兩種模態(tài)特征相加后分兩路進(jìn)行處理。一路送回原始紅外和可見光分支,繼續(xù)后續(xù)的特征提取和融合。另一路與另一種模態(tài)的特征相加,得到融合特征(j∈1,2,3),然后送入特征融合頸部網(wǎng)絡(luò)。特征融合頸部網(wǎng)絡(luò)是由包含卷積和殘差結(jié)構(gòu)的C3 模塊以及上采樣操作構(gòu)成,利用特征金字塔結(jié)構(gòu)實(shí)現(xiàn)不同尺度的特征融合。最后,融合特征根據(jù)不同的尺度送入對應(yīng)大小的檢測頭中進(jìn)行目標(biāo)檢測。

        1.1 紅外特征提取網(wǎng)絡(luò)

        紅外特征提取網(wǎng)絡(luò)主要由基于CNN 的紅外特征提取模塊CFE 構(gòu)成,CFE 模塊具體結(jié)構(gòu)如圖2 所示。

        圖2 紅外特征提取模塊Fig.2 Infrared feature extraction module

        由于紅外圖像中目標(biāo)細(xì)節(jié)缺失,基準(zhǔn)算法的特征提取模塊在特征提取時容易出現(xiàn)信息丟失的問題。然而,紅外圖像中具有清晰的輪廓信息,對目標(biāo)的定位有指導(dǎo)作用,因此,設(shè)計(jì)了新的特征提取模塊CFE,使模型更加聚焦于關(guān)鍵特征,提升特征信息的表達(dá)能力。

        以圖1 中的第一個CFE 模塊為例,對于輸入的紅外特征FIR,操作流程為:首先,經(jīng)過三次連續(xù)的標(biāo)準(zhǔn)卷積、歸一化和激活函數(shù)操作,捕獲圖像中不同層次的特征,得到經(jīng)過初步處理的特征FIRC。接著,通過全局平均池化操作獲取特征的全局信息,得到特征FIRG。此后,將特征FIRG分兩個分支進(jìn)行處理。第一個分支經(jīng)過連續(xù)兩個1×1 卷積層和ReLU 激活函數(shù),以提取各通道上的關(guān)鍵信息,從而建立通道間的依賴關(guān)系。第二個分支采用3×3 深度可分離卷積層和1×1 逐點(diǎn)卷積層,獲取特征的空間信息。深度可分離卷積層能夠在確保所獲取特征的有效性的同時降低計(jì)算負(fù)擔(dān)。之后,兩個分支的特征信息融合,融合后的特征通過Sigmoid 函數(shù)進(jìn)行權(quán)重映射,并與FIRG相乘。這樣操作后,特征信息在通道和空間維度上都得以強(qiáng)化,獲得增強(qiáng)后的特征信息FIRE,即

        式中,δ表示Sigmoid激活函數(shù),Conv1×1表示1×1 卷積,?表示ReLU 激活函數(shù),PWConv1×1表示1×1 的逐點(diǎn)卷積,DWConv3×3表示3×3 的深度可分離卷積。

        為了減少特征在提取過程中信息的丟失,實(shí)現(xiàn)特征復(fù)用,同時避免反向傳播過程中出現(xiàn)梯度消失、梯度爆炸等情況,引入殘差結(jié)構(gòu)。將輸入的紅外特征FIR經(jīng)過連續(xù)兩個CBS 結(jié)構(gòu)提取關(guān)鍵信息后,與增強(qiáng)后的特征信息FIRE沿著通道維度進(jìn)行拼接,隨后再次經(jīng)過CBS 結(jié)構(gòu)整理通道數(shù)并進(jìn)行下采樣,最終得到輸出的紅外特征具體操作為

        式中,Down 表示Downsample 下采樣操作,CBS 表示Conv-BatchNorm-SiLU 操作,Concat 表示逐通道拼接操作。

        1.2 可見光特征提取網(wǎng)絡(luò)

        可見光特征提取網(wǎng)絡(luò)主要基于Transformer 的可見光特征提取模塊TFE 構(gòu)成,其中TFE 模塊具體結(jié)構(gòu)如圖3 所示。

        圖3 可見光特征提取模塊Fig.3 Visible feature extraction module

        可見光圖像包含豐富的顏色、紋理等細(xì)節(jié),因此充分利用這些信息對于實(shí)現(xiàn)有效的可見光特征提取至關(guān)重要。然而,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的卷積層感受野通常較為有限,從而造成全局上下文信息捕獲不足。Transformer 作為一種具備全局建模能力的方法,在自然語言處理領(lǐng)域得到了廣泛應(yīng)用,同時在計(jì)算機(jī)視覺任務(wù)中,如目標(biāo)跟蹤和目標(biāo)檢測中也展現(xiàn)出了優(yōu)越的性能。因此,本文提出了一種基于Transformer 的可見光特征提取模塊(TFE),將Transformer 的強(qiáng)大全局建模能力與卷積的局部建模能力相結(jié)合,既能夠捕獲長距離依賴關(guān)系,又能夠有效地利用局部特征信息,從而充分地提取可見光圖像中的關(guān)鍵特征。此外,由于Transformer 的核心機(jī)制是自注意力機(jī)制,傳統(tǒng)自注意力在處理高分辨率圖像時往往伴隨著計(jì)算開銷過大的問題。為了解決這一問題,采用卷積投影的方法,取代傳統(tǒng)自注意力機(jī)制中的線性映射,從而在保持訓(xùn)練和推理效果的同時,降低計(jì)算成本。

        以圖1 中第一個TFE 模塊為例,輸入的可見光特征FRGB首先經(jīng)過CBS 卷積操作,對特征進(jìn)行重組,強(qiáng)化了特征的表達(dá),獲得特征FRGBC。接著,將提取到的特征FRGBC通過卷積映射為查詢(Q)、鍵(K)和值(V)三個向量,以便在后續(xù)的注意力計(jì)算中針對不同方面的信息進(jìn)行交互。其中,F(xiàn)RGBC經(jīng)過1×1 卷積得到的特征映射與FRGBC相乘所得的值,被用作值(V)的計(jì)算。對于鍵(K),利用3×3 的分組卷積來提取其上下文信息,以增強(qiáng)鍵(K)向量的表示能力,使其能夠更好地匹配查詢(Q)向量。隨后,將提取到的信息與查詢(Q)按通道維度拼接,并經(jīng)過兩個連續(xù)的1×1 卷積,生成注意力矩陣。此外,在注意力矩陣生成的過程中,引入了Softmax 函數(shù)進(jìn)行加權(quán),獲取加權(quán)后的信息,并與值(V)向量相乘,從而捕獲不同位置的關(guān)聯(lián)度,提升自注意力機(jī)制的學(xué)習(xí)能力,實(shí)現(xiàn)全局上下文的有效捕獲。之后,通過加法操作將全局上下文信息與原始鍵(K)相加,實(shí)現(xiàn)特征的復(fù)用,并通過reshape 函數(shù)將其重組為原始尺寸的特征,以確保特征的完整性和連貫性。具體操作為

        式中,reshape表示重組函數(shù),σ表示Softmax 激活函數(shù),GConv3×3表示3×3 的分組卷積。

        同時,為了避免信息丟失,引入殘差結(jié)構(gòu)。將融合了局部信息和全局信息的FRGBT與原始特征經(jīng)過CBS卷積層后的結(jié)果按通道維度進(jìn)行拼接,再次經(jīng)過CBS 卷積層,實(shí)現(xiàn)信息的跨層傳遞和特征的有效融合。最后,通過下采樣操作對特征進(jìn)行處理,得到輸出的可見光特征具體操作為

        1.3 紅外-可見光雙模態(tài)融合模塊

        紅外圖像中包含著豐富的位置信息,可見光圖像中包含著豐富的紋理信息,兩種模態(tài)的融合能夠?qū)崿F(xiàn)跨模態(tài)信息互補(bǔ),豐富特征信息,提高檢測性能,因此設(shè)計(jì)了圖4 所示的紅外-可見光雙模態(tài)融合模塊IRF 來實(shí)現(xiàn)兩種模態(tài)的特征融合。

        圖4 紅外-可見光雙模態(tài)融合模塊Fig.4 Infrared-visible dual modal fusion module

        以圖1 中第一個IRF 融合模塊為例,首先將紅外和可見光兩種模態(tài)的特征和沿通道維度進(jìn)行拼接,然后通過1×1 卷積實(shí)現(xiàn)跨通道特征組合,從而獲取初步的融合特征FRI。之后設(shè)計(jì)了對稱路徑,將FRI分別與和經(jīng)過交叉注意力Cross-Attention 模塊進(jìn)一步融合,得到特征FIF和FRF,由此實(shí)現(xiàn)單模態(tài)信息的增強(qiáng)和模態(tài)間信息交互。獲得的融合特征FIF和FRF再與和按通道維度進(jìn)行拼接,捕獲目標(biāo)特征在每個通道間的關(guān)系,得到增強(qiáng)特征FIIF和FRRF,在豐富融合特征的同時實(shí)現(xiàn)特征復(fù)用。最后通過逐元素相加的方式,將兩種模態(tài)的融合信息相加,得到融合特征融合特征既保留了原始兩種模態(tài)的特征,又實(shí)現(xiàn)了模態(tài)間特征互補(bǔ),提升了目標(biāo)特征的表達(dá)能力。具體操作為

        針對模態(tài)間特征融合和信息交互,提出了交叉注意力Cross-Attention 模塊來捕獲兩種模態(tài)間的信息相關(guān)性。以可見光模態(tài)為例進(jìn)行說明,紅外模態(tài)同理。首先,對初步融合后的特征FRI經(jīng)過1×1 線性投影和全局平均池化編碼,分別獲得了查詢(QRI)、鍵(KRI)和值(VRI)三個向量。同樣地,可見光特征經(jīng)過上述相同操作,得到相應(yīng)的查詢向量(QRGB)、鍵向量(KRGB)和值向量(VRGB)。這些向量在不同的模態(tài)中編碼了特征映射中的關(guān)系信息,以便后續(xù)的信息交互。之后,在特征融合過程中,保留了單一模態(tài)中的鍵(K)和值(V)信息,同時利用元素乘法,將一個模態(tài)的鍵(K)值與另一個模態(tài)的查詢(Q)值相乘。這一操作的意圖在于計(jì)算兩種模態(tài)間的匹配度,獲取兩種模態(tài)間的相似性。通過這種操作,引入了模態(tài)間的相互關(guān)聯(lián)信息,從而在特征融合過程中實(shí)現(xiàn)模態(tài)之間的有效交互。隨后,使用Softmax 函數(shù)進(jìn)行權(quán)重加權(quán),將融合后的關(guān)聯(lián)性信息與原始模態(tài)的值(V)相乘,在特征表示中引入模態(tài)間的全局關(guān)聯(lián)性,進(jìn)一步提升交叉注意力模塊的信息傳遞和融合效果,并通過reshape 函數(shù),得到ZRI和ZRGB。具體操作為

        為了充分利用多模態(tài)數(shù)據(jù)的互補(bǔ)性,將獲得的跨模態(tài)信息ZRGB和ZRI按照通道維度拼接,從而實(shí)現(xiàn)不同通道間的有效交互,得到融合特征。融合特征通過1×1 卷積整理通道數(shù)后,利用Sigmoid 函數(shù)獲取權(quán)重,并與兩種模態(tài)的特征分別經(jīng)過3×3 卷積后獲取的信息相乘,輸出具有全局信息的跨模態(tài)融合特征FRF,具體操作為

        式中,Conv3×3表示3×3 卷積。

        2 實(shí)驗(yàn)結(jié)果及分析

        2.1 實(shí)驗(yàn)細(xì)節(jié)

        實(shí)驗(yàn)的操作系統(tǒng)為Ubuntu 16.04,CPU 為i5-8400,GPU 為TITAN Xp(顯存11GB),CUDA 以及CUDNN 的版本為11.1 和CUDNN8.0.5。提出的網(wǎng)絡(luò)基于PyTorch 實(shí)現(xiàn),訓(xùn)練過程中使用隨機(jī)梯度下降(SGD)對網(wǎng)絡(luò)參數(shù)進(jìn)行迭代更新,動量參數(shù)設(shè)為0.937,起始學(xué)習(xí)率設(shè)為0.01,BatchSize 設(shè)為8,共訓(xùn)練150 個Epoch。在加載數(shù)據(jù)時將所有圖像的分辨率統(tǒng)一調(diào)整到640×640,再對整體網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練。

        實(shí)驗(yàn)的損失函數(shù)由三個主要組成部分構(gòu)成,包括目標(biāo)檢測損失(Objectness loss)、定位損失(Localization loss)以及分類損失(Classification loss)。目標(biāo)檢測損失函數(shù)用于度量網(wǎng)絡(luò)在目標(biāo)和背景之間的區(qū)分能力,實(shí)驗(yàn)中采用了二進(jìn)制交叉熵(Binary cross-entropy)損失函數(shù)來評估網(wǎng)絡(luò)是否能準(zhǔn)確地預(yù)測目標(biāo)的存在與否。定位損失函數(shù)用于評估網(wǎng)絡(luò)對目標(biāo)位置的定位精度,實(shí)驗(yàn)采用平滑的L1 損失(Smooth L1 loss)來計(jì)算,以衡量網(wǎng)絡(luò)對目標(biāo)邊界框坐標(biāo)的預(yù)測與實(shí)際目標(biāo)位置之間的誤差。分類損失函數(shù)則關(guān)注網(wǎng)絡(luò)對目標(biāo)類別的分類準(zhǔn)確性,實(shí)驗(yàn)使用交叉熵?fù)p失(Cross-entropy loss)來度量網(wǎng)絡(luò)對目標(biāo)類別的預(yù)測與實(shí)際目標(biāo)類別之間的一致性。這三個損失函數(shù)的綜合應(yīng)用使得網(wǎng)絡(luò)能夠在檢測過程中有效地識別和定位物體。總的損失函數(shù)是這三個部分的線性組合,通過調(diào)整權(quán)重參數(shù)來平衡它們的相對重要性,以更好地指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練和性能提升。

        實(shí)驗(yàn)使用類別精度(Average Precision, AP)并選取了AP0.5、AP0.5:0.95兩個指標(biāo)和每秒幀數(shù)(Frames Per Second, FPS)作為算法評價指標(biāo)。其中AP0.5表示平均檢測精度,AP0.5:0.95指IoU(Intersection over Union)從0.5 到0.95 每隔0.05 計(jì)算的所有類別的AP 平均值。FPS 代表每秒檢測圖片的數(shù)量,能夠有效反映出算法的檢測速度。

        2.2 數(shù)據(jù)集

        實(shí)驗(yàn)所用的三個數(shù)據(jù)集分別為KAIST 數(shù)據(jù)集[41]、FLIR ADAS 數(shù)據(jù)集[42]和GIR 數(shù)據(jù)集[43]。

        KAIST 數(shù)據(jù)集是使用最廣泛的大規(guī)模多光譜行人檢測數(shù)據(jù)集之一。原始數(shù)據(jù)集共有95 328 對紅外可見光圖像對(640×512 分辨率),包括在白天和夜晚不同場景下拍攝的校園、街道和鄉(xiāng)村的各種常規(guī)交通場景。但由于原始數(shù)據(jù)集是取自視頻連續(xù)幀圖片,存在相鄰圖片相似度高的問題,故實(shí)驗(yàn)選擇了Hou 等[44]清洗后的數(shù)據(jù)集,其中包括7 601 對用于訓(xùn)練的紅外可見光圖像對和2 252 對用于測試的紅外可見光圖像對,并將標(biāo)簽類別僅標(biāo)注為“person”一類。

        FILR ADAS 數(shù)據(jù)集是一個具有挑戰(zhàn)性多光譜目標(biāo)檢測數(shù)據(jù)集。數(shù)據(jù)集包括的圖像有四個對象類別:“person”、“car”、“bicycle”和“dog”。實(shí)驗(yàn)選擇最新對齊版本的FLIR ADAS 數(shù)據(jù)集,清洗后的數(shù)據(jù)集包含5 142 個對齊的可見光紅外圖像對(640×512 分辨率),其中4 129 對用于訓(xùn)練,1 013 對用于測試。

        GIR 數(shù)據(jù)集是本實(shí)驗(yàn)自行創(chuàng)建的數(shù)據(jù)集,圖像來源于李成龍團(tuán)隊(duì)[40]建立的RGBT210 數(shù)據(jù)集,每張圖片包含可見光彩色圖像和紅外圖像兩個版本,圖像尺寸為630×460。從該數(shù)據(jù)集中選取5 105 張圖片,劃分為訓(xùn)練圖像4 084 張,測試圖像1 021 張。對圖片進(jìn)行標(biāo)注,確定5 類目標(biāo)為“person”、“dog”、“car”、“bicycle”和“motorcycle”。

        在三個數(shù)據(jù)集中,每張圖像均包含了紅外和可見光兩個光譜版本,從而形成了一個多模態(tài)圖像對。這些圖像對經(jīng)過了高度對齊的裁剪,這是通過對成像硬件設(shè)備所捕捉的圖像進(jìn)行準(zhǔn)確的空間位置匹配所實(shí)現(xiàn)的。每個圖像對都代表了已經(jīng)在幾何和空間上配準(zhǔn)好的兩張圖像,確保了它們在視覺上相互對應(yīng)。實(shí)驗(yàn)中,針對這些多模態(tài)圖像,即紅外圖像、可見光圖像以及紅外-可見光圖像對,分別進(jìn)行了訓(xùn)練和測試。這樣的實(shí)驗(yàn)設(shè)置保證了所有類型的圖像都共享同一套標(biāo)簽,即所含目標(biāo)的類別信息。通過這種設(shè)計(jì),能夠在不同光譜模態(tài)下,針對單獨(dú)的紅外圖像、可見光圖像以及紅外-可見光圖像對,進(jìn)行有針對性的訓(xùn)練和測試,以探究算法在各種情況下的適用性和性能,確保了實(shí)驗(yàn)的嚴(yán)謹(jǐn)性和可信度。

        2.3 消融實(shí)驗(yàn)

        為了驗(yàn)證雙模態(tài)特征提取網(wǎng)絡(luò)和雙模態(tài)特征融合模塊的有效性,在KAIST、FLIR 和GIR 三個數(shù)據(jù)集上進(jìn)行了一系列消融實(shí)驗(yàn),以評估不同模態(tài)特征提取和融合策略的效果。

        消融實(shí)驗(yàn)的詳細(xì)設(shè)置為:

        1) 將可見光和紅外圖像分別輸入YOLOv5-s 網(wǎng)絡(luò),進(jìn)行特征提取和目標(biāo)檢測。

        2) 分別用本文所提出的紅外特征提取網(wǎng)絡(luò)和可見光特征提取網(wǎng)絡(luò),替代YOLOv5-s 的原始特征提取網(wǎng)絡(luò),從而進(jìn)行單模態(tài)目標(biāo)檢測。

        3) 將YOLOv5-s 改造為雙分支網(wǎng)絡(luò),其中可見光分支仍使用YOLOv5-s 的特征提取網(wǎng)絡(luò),而紅外分支則被本文所提出的紅外特征提取網(wǎng)絡(luò)所代替。同時,引入雙模態(tài)融合模塊IRF,以輸入可見光和紅外圖像進(jìn)行雙模態(tài)目標(biāo)檢測。

        4) 在雙分支融合網(wǎng)絡(luò)基礎(chǔ)上,紅外分支保留YOLOv5-s 原始特征提取網(wǎng)絡(luò),將可見光分支替換為本文提出的可見光特征提取網(wǎng)絡(luò)。

        5) 在雙分支融合網(wǎng)絡(luò)基礎(chǔ)上,紅外分支設(shè)置為本文所提紅外特征提取網(wǎng)絡(luò),可見光分支設(shè)置為本文所提可見光特征提取網(wǎng)絡(luò)。

        表1 為在KAIST 數(shù)據(jù)集上得到的消融實(shí)驗(yàn)結(jié)果,基準(zhǔn)模型單獨(dú)檢測紅外和可見光圖像時,分別達(dá)到了71.5%和59.8%的檢測精度;通過單模態(tài)特征提取網(wǎng)絡(luò)的替換,分別獲得了72.2%和60.4%的檢測精度;在引入雙分支結(jié)構(gòu)的基礎(chǔ)上,將紅外分支替換為由CFE 模塊組合成的主干網(wǎng)絡(luò),并加入雙模態(tài)融合模塊IRF后,雙模態(tài)檢測精度達(dá)到了76.3%;此外,將可見光特征提取網(wǎng)絡(luò)更換為由TFE 模塊組合成的主干網(wǎng)絡(luò),檢測精度提升至76.5%;當(dāng)將紅外和可見光特征提取模塊同時替換為CFE 和TFE,并加入雙模態(tài)融合模塊IRF 后,檢測精度達(dá)到77.2%,較基準(zhǔn)模型單獨(dú)檢測可見光和紅外圖像分別提升了17.4%和5.7%。

        表1 在KAIST 數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 1 Ablation experiment on the KAIST dataset

        在FLIR 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果如表2 所示。在YOLOv5 模型上僅輸入紅外圖像時,檢測精度為73.9%;使用CFE 特征提取模塊替換原始特征提取模塊后,檢測精度提升為82.4%;同樣地,單獨(dú)輸入可見光圖像時,檢測精度為67.8%;通過使用TFE 替換原始特征提取模塊,檢測精度達(dá)到80%;在引入雙分支結(jié)構(gòu)的基礎(chǔ)上,將紅外分支替換為CFE 組合成的主干網(wǎng)絡(luò),并引入雙模態(tài)融合模塊IRF,檢測精度顯著提升至85.3%;通過添加雙模態(tài)融合模塊IRF,并將可見光特征提取模塊替換為TFE 模塊,檢測精度提升至84.9%;同時將紅外和可見光特征提取模塊替換為CFE 和TFE,并引入雙模態(tài)融合模塊IRF 后,檢測精度達(dá)到85.5%,較基準(zhǔn)模型單獨(dú)檢測可見光和紅外圖像分別提升了17.7%和11.6%。

        表2 在FLIR 數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 2 Ablation experiment on the FLIR dataset

        在GIR 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果如表3 所示。僅輸入紅外圖像時,基于YOLOv5 模型的檢測精度為76.8%;使用CFE 組成的特征提取網(wǎng)絡(luò)替換原始特征提取網(wǎng)絡(luò)后,檢測精度為84.4%;當(dāng)在YOLOv5 模型僅輸入可見光圖像時,檢測精度為89.9%;將特征提取網(wǎng)絡(luò)替換為由TFE 組成的特征提取網(wǎng)絡(luò)后,檢測精度提升為91.1%;在同時輸入紅外和可見光圖像的情況下,將紅外分支替換為由CFE 組合成的特征提取網(wǎng)絡(luò),并引入雙模態(tài)融合模塊IRF,檢測精度達(dá)到91.6%;添加雙模態(tài)融合模塊IRF 并將可見光特征提取網(wǎng)絡(luò)替換為TFE 組合成的特征提取網(wǎng)絡(luò),檢測精度保持在91.3%;而將紅外特征提取模塊替換為CFE,可見光特征提取模塊替換為TFE,并添加雙模態(tài)融合模塊IRF 后,檢測精度達(dá)到91.7%。較基準(zhǔn)模型單獨(dú)檢測可見光和紅外圖像分別提升了1.8%和14.9%。

        表3 在GIR 數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 3 Ablation experiment on the GIR dataset

        在三個數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果證明了提出的雙模態(tài)特征提取網(wǎng)絡(luò)和融合模塊在雙模態(tài)目標(biāo)檢測任務(wù)中具備顯著的性能優(yōu)勢,有效地提升了檢測精度,豐富了特征信息。

        2.4 定性分析

        為了更加直觀地對比基準(zhǔn)算法與本文所提出方法在檢測任務(wù)中的表現(xiàn),在三個數(shù)據(jù)集上進(jìn)行了定性分析,結(jié)果分別如圖5~7 所示。其中,圖(a)、(b)呈現(xiàn)了真實(shí)目標(biāo)框(Ground Truth, GT)在兩種模態(tài)圖像上的位置信息,圖(c)、(d)分別展示了基準(zhǔn)算法在可見光圖像和紅外圖像上的檢測結(jié)果,圖(e)、(f)分別展示了本文所提算法在可見光圖像和紅外圖像上的檢測結(jié)果。

        圖5 在KAIST 數(shù)據(jù)集上的定性分析結(jié)果Fig. 5 Qualitative analysis results on the KAIST dataset

        圖6 在FLIR 數(shù)據(jù)集上的定性分析結(jié)果Fig. 6 Qualitative analysis results on the FLIR dataset

        圖7 在GIR 數(shù)據(jù)集上的定性分析結(jié)果Fig. 7 Qualitative analysis results on the GIR dataset

        由定性分析結(jié)果可以看到,本文提出的算法在各種場景下均展現(xiàn)出優(yōu)越的檢測性能,涵蓋了強(qiáng)光、夜晚、遮擋等復(fù)雜環(huán)境,還成功地解決了基準(zhǔn)算法中出現(xiàn)的漏檢和誤檢問題。例如,在圖5 中的第三行,夜間場景下基準(zhǔn)算法在可見光圖像上漏檢了三個目標(biāo),在紅外圖像上漏檢了兩個目標(biāo),而本文算法能準(zhǔn)確地檢測到所有目標(biāo);在圖6 中的第一行,白天光照強(qiáng)烈時,基準(zhǔn)算法在兩種圖像上均未能檢測到小目標(biāo),而本文算法在可見光和紅外圖像上均實(shí)現(xiàn)了準(zhǔn)確的檢測;在圖7 中的第三行,當(dāng)目標(biāo)被遮擋時,基準(zhǔn)算法在紅外和可見光圖像上均未檢測到目標(biāo),而本文算法通過融合兩種模態(tài)的信息成功地檢測到所有目標(biāo)。這些定性分析結(jié)果進(jìn)一步驗(yàn)證了所提算法在多種復(fù)雜場景下的優(yōu)越性能。

        2.5 定量分析

        為了全面評估所提算法的有效性,在KAIST、FLIR 和GIR 數(shù)據(jù)集上同當(dāng)前主流的雙模態(tài)融合目標(biāo)檢測算法進(jìn)行了比較。同時,為了驗(yàn)證所提出的單模態(tài)特征提取網(wǎng)絡(luò)的性能,分別在紅外和可見光單模態(tài)圖像上同部分主流單模態(tài)目標(biāo)檢測算法也進(jìn)行了比較。為確保實(shí)驗(yàn)的公平公正,在相同的硬件和軟件環(huán)境下分別部署了本文所提算法和對比算法。對于對比算法,嚴(yán)格遵循了原始論文中的實(shí)驗(yàn)設(shè)置和參數(shù)設(shè)定,以保持一致性。評估過程中統(tǒng)一采用目標(biāo)檢測常用指標(biāo),如AP0.5、AP0.5:0.95等,確保實(shí)驗(yàn)結(jié)果的可比性和科學(xué)性。比較結(jié)果如表4 所示。

        表4 KAIST、FLIR、GIR 數(shù)據(jù)集上的定量分析結(jié)果Table 4 Quantitative analysis results on the KAIST, FLIR, and GIR datasets

        從表4 的數(shù)據(jù)可以觀察到,在KAIST 數(shù)據(jù)集上,本文所提出的紅外、可見光特征提取網(wǎng)絡(luò)在單模態(tài)檢測中分別獲得了72.2%、60.4%的檢測精度。在FLIR 數(shù)據(jù)集上,其紅外、可見光單模態(tài)檢測精度分別達(dá)到了82.4%、80%。在GIR 數(shù)據(jù)集上,紅外、可見光單模態(tài)檢測精度分別達(dá)到了84.4%、91.1%。結(jié)果表明,提出的單模態(tài)特征提取網(wǎng)絡(luò)雖然在速度方面略有下降,但在檢測性能上均得到了顯著提升,超越了經(jīng)典的單模態(tài)檢測算法。此外,在雙模態(tài)融合方面,該算法在KAIST 數(shù)據(jù)集上實(shí)現(xiàn)了77.2%的檢測精度,在FLIR 數(shù)據(jù)集上達(dá)到了85.5%,在GIR 數(shù)據(jù)集上達(dá)到了91.7%。相比經(jīng)典的雙模態(tài)融合算法,如CFT、RISNet、CSAA等,該算法在檢測精度和速度上都展現(xiàn)出了明顯的提升。這些結(jié)果進(jìn)一步突顯了本文算法在多種數(shù)據(jù)集和場景下的優(yōu)越性能,以及其在雙模態(tài)目標(biāo)檢測領(lǐng)域的優(yōu)勢。

        3 結(jié)論

        本文提出了一種基于CNN-Transformer 雙模態(tài)特征融合的目標(biāo)檢測算法(CTDMDet),通過構(gòu)建雙流特征提取網(wǎng)絡(luò),采用CNN 和Transformer 結(jié)構(gòu)分別對紅外與可見光圖像進(jìn)行特征提取,有效地提升了對不同模態(tài)圖像的信息獲取能力。并且,通過雙模態(tài)特征融合模塊,成功實(shí)現(xiàn)了不同尺度、不同模態(tài)的特征信息的有效融合,從而實(shí)現(xiàn)了跨模態(tài)信息的互補(bǔ)和目標(biāo)檢測性能的顯著提升。

        在KAIST、FLIR 數(shù)據(jù)集上,本算法在紅外和可見光圖像的檢測精度分別獲得了顯著的提升,為目標(biāo)檢測的不同環(huán)境提供了更為準(zhǔn)確的解決方案。同時,在自建的GIR 數(shù)據(jù)集上,本文算法也實(shí)現(xiàn)了明顯的檢測精度提升,從而進(jìn)一步證明了其適用性和魯棒性。

        未來的工作將集中在進(jìn)一步優(yōu)化算法的運(yùn)行速度,以滿足實(shí)際應(yīng)用中的實(shí)時性要求。此外,計(jì)劃在更復(fù)雜和多樣化的場景中測試算法的魯棒性,進(jìn)一步驗(yàn)證其在不同應(yīng)用領(lǐng)域的可靠性和穩(wěn)定性。隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域的不斷發(fā)展,還將會繼續(xù)探索更先進(jìn)的模型架構(gòu)和融合策略,以進(jìn)一步提升雙模態(tài)目標(biāo)檢測的性能,并將其應(yīng)用于更廣泛的實(shí)際場景中。

        猜你喜歡
        特征提取紅外模態(tài)
        網(wǎng)紅外賣
        閃亮的中國紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
        電子制作(2019年7期)2019-04-25 13:17:14
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        邻居少妇张开腿让我爽视频| 国产白丝无码视频在线观看| 色综合久久久久久久久五月| 亚洲香蕉毛片久久网站老妇人| 亚洲一区二区三区精品久久av| 国产精品视频永久免费播放| 国产熟人av一二三区| 国产精品毛片久久久久久l| 好看的国内自拍三级网站| 天堂视频在线观看一二区| 亚洲av无码xxx麻豆艾秋| 欧美一级人与嘼视频免费播放| 日本大胆人体亚裔一区二区| 国产乱理伦在线观看美腿丝袜| 熟妇激情内射com| 亚洲a∨天堂男人无码| 国产精品亚洲精品日韩动图| 日本一区二区三区视频网站 | 日韩成人无码v清免费| 精品国产亚洲av久一区二区三区 | 久久久久久国产精品免费免费 | 中文字幕日本av网站| 亚洲精品美女久久777777| 亚洲中文字幕无码永久在线| 精品国产日韩无 影视| 国产亚洲成人精品久久久| 啦啦啦www在线观看免费视频| 亚洲产国偷v产偷v自拍色戒| 国内自拍视频在线观看| 国产精品久久免费中文字幕| a级毛片成人网站免费看| 婷婷激情六月| 爱爱免费视频一区二区三区| 精品久久久bbbb人妻| 亚洲另类激情综合偷自拍图| 水蜜桃视频在线观看免费18| 日本免费大片一区二区| 男人扒开女人下面狂躁小视频 | 国产午夜视频一区二区三区| 97久久精品亚洲中文字幕无码| 国产一区二区精品久久凹凸|