亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙模態(tài)特征增強的目標檢測算法研究與應用

        2023-10-24 01:37:48王文霞
        激光與紅外 2023年9期
        關鍵詞:模態(tài)特征融合

        王文霞,張 文,何 凱

        (1.太原師范學院網絡信息中心,山西 太原 030619;2.北京郵電大學信息與通信工程學院,北京 100080;3.中國空間技術研究院西安分院,陜西 西安 710100)

        1 引 言

        目標檢測作為計算機視覺領域的三大任務之一,被廣泛應用于自動駕駛、視頻監(jiān)控、電力巡檢等場景中[1]。所謂目標檢測主要根據(jù)目標特征對圖像或視頻中的目標進行分類并定位[2],前期的目標檢測思路主要利用人工設計特征(HOG、Haar、DPM、LBP等)結合淺層分類器(SVM、Adaboost等)方式實現(xiàn)檢測[3],雖然有較高的計算效率,但特征設計過程復雜,且檢測效果較差,應用場景有限。而隨著人工智能和計算機技術的發(fā)展,基于深度神經網絡的目標檢測以自主學習的方式提取特征,有效避免了人工設計特征的局限,并逐漸成為了目標檢測主流方向[4]。雖然深度學習技術有效提升了目標檢測效果,但現(xiàn)有大多數(shù)方法主要利用單一紅外或可見光圖像進行目標檢測,對于日益復雜的檢測場景仍存在諸多困難[5]。因此,設計一種融合目標多模態(tài)特征的檢測方法不僅能推動深度學習技術的發(fā)展,也能加速目標檢測方法落地實際應用。

        對于深度學習多模態(tài)目標檢測算法的研究,目前,已有部分學者進行了相應的探索。顧晶晶等人[6]針對遙感圖像中的小目標檢測,設計了一種基于紅外和可見光平衡多模態(tài)深度模型,通過融目標淺層特征后再利用YOLOv4深層網絡實現(xiàn)小目標檢測,但僅融合淺層特征的方式無法充分利用目標雙模態(tài)信息,且淺層特征融合也會引入較多噪聲。鄺楚文等人[7]提出了一種自適應的特征融合方法,將紅外圖像多維度特征以自主加權的方式融入可見光網絡中,彌補可見光信息的局限,提升檢測效果。該方式雖豐富了特征信息但缺乏對特征有效性的關注,容易導致融入較多無效特征。Banuls等人[8]利用深層神經網絡分別對紅外和可見光圖像進行目標檢測后將檢測結果融合,再利用非極大值抑制算法篩選出最優(yōu)目標框,但網絡僅從決策層進行融合,并考慮特征層面融合,故檢測精度的提升有限。Ma等人[9]提出了一種基于顯著目標檢測的紅外可見光融合網絡,利用目標掩碼來突出紅外和可見光圖像中的關鍵信息,以隱式的方式來融合增強目標特征,提升網絡對顯著目標的檢測,但該方式對于特征信息較少的小目標檢測效果較差??梢?現(xiàn)階段的紅外及可見光融合檢測方法都相對存在一定局限,目標檢測性能仍有較大提升空間。

        針對上述目標檢測方法存在的不足,本文從特征多樣性、注意力以及多尺度等角度,提出了一種基于雙模態(tài)特征增強的目標檢測方法。該方法首先通過多種傳統(tǒng)圖像處理技術分別處理紅外和可見光圖像,豐富輸入圖像信息;其次,利用雙支路深層卷積神經網絡提取目標雙模態(tài)特征,并設計混合注意力機制提升可見光目標類別信息以及紅外目標空間位置信息;然后,以自適應交叉融合的方式使紅外和可見光目標信息相互補充,增加特征多樣性。最后,針對不同維度的目標特征,設計了特征交替采樣以及自主選擇結構,充分融合目標深層和淺層特征同時降低了不同維度特征之間相互干擾,保障網絡準確高效地實現(xiàn)目標檢測。

        2 目標檢測結構設計

        2.1 整體結構

        所提雙模態(tài)目標檢測網絡整體結構如圖1所示,主要分為圖像增強、特征提取、混合注意力、自適應交叉融合、多尺度檢測結構幾個模塊。圖像增強采用顏色空間轉化、邊緣檢測、濾波等方法對紅外和可見光原圖進行處理,以豐富輸入圖像的信息;特征提取利用卷積、激活、池化等操作構建雙支路的深層神經網絡,分別提取紅外和可見光目標特征;混合注意力結構主要從特征顯著性角度,以多種方式獲取全局上下文信息,增強目標空間位置信息以及所屬類別信息;自適應交叉融合則通過自適應加權方式將對應維度的紅外特征和可見光特征交叉融合,使目標雙模態(tài)信息相互補充;而多尺度檢測則針對不同維度目標,通過深度到淺層再淺層到深層的交替采樣融合方式充分捕獲目標全局及局部特征,并綜合各維度特征,以自主選擇方法提取目標相關特征,提升網絡尺度不變性;最后,利用單步檢測器結合非極大值抑制算法實現(xiàn)目標的識別定位。

        圖1 雙模態(tài)目標檢測網絡框架

        2.2 特征提取

        特征提取是計算機視覺任務的關鍵步驟之一,將輸入數(shù)據(jù)通過降維、卷積等方式挖掘出與目標相關的有效信息,供后續(xù)任務模塊使用[10-11]。現(xiàn)階段大多數(shù)基于深度學習的目標檢測網絡[12-15]主要針對單一輸入源,通常只需要一條骨干網絡進行特征提取,而所提方法針對目標雙模態(tài)特征,故采用了對稱雙支路網絡結構提取特征。而支路基本結構主要在綜合現(xiàn)有網絡基礎上,通過豐富輸入信息并引入高效率特征提取單元完成構建,支路基礎結構如表1所示。

        表1 特征提取支路基礎結構

        所提特征提取支路結構主要由圖像增強部分、降維采樣操作以及一系列卷積模塊組成。圖像增強(Processing)主要利用傳統(tǒng)圖像預處理方式分別對紅外和可見光原圖進行處理,如圖2(a)所示。由于紅外圖像包含較多的目標位置信息,故采用直方圖均衡化(Histogram Equalization,HE)、均值濾波(Mean Filter,MF)等方法增強;而可見光圖像包含較多細節(jié)信息,故采用了顏色空間轉化(HSV)、邊緣提取(Canny)、灰度轉化(Gray)等方式增強。降維采樣操作(Down sampling)如圖2(b)所示,主要對增強后的輸入圖像進行降維,減少后續(xù)模塊計算量。為避免降維過程造成信息丟失,分別采用了步長為2的標準卷積、深度可分離卷積、平均池化以及最大池化操作進行降維。而卷積模塊(Block)則

        圖2 特征提取子模塊

        是特征提取的基本單元,采用深度可分離卷積結合H-Swish激活函數(shù)的方式來使所構建的特征提取網絡保持輕量化,并利用1×1的卷積核實現(xiàn)跨通道的信息交互,再通過殘差連接操作來緩解深層網絡訓練時梯度消失等問題,基本結構如圖2(c)所示。為避免雙支路網絡引入過多參數(shù),網絡特征通道數(shù)相對較少,雖可能造成部分信息丟失,但也減少了冗余特征,且缺失的特征也可通過雙模態(tài)特征融合得到補充。

        2.3 特征增強與融合

        通過特征提取可以分別獲取紅外和可見光圖像特征,但所提特征對目標關注度較低,且未充分利用目標多模態(tài)信息。因此,本文設計了混合注意力機制和自適應交叉融合結構來進一步增強目標特征信息。

        混合注意力機制主要從目標類別和目標所在圖像空間位置角度提升有效特征的權重,考慮到可見光圖像中包含豐富的細節(jié)和紋理信息,可以較好地區(qū)分不同類別目標;而紅外圖像根據(jù)目標發(fā)射的熱輻射成像,有效屏蔽了背景信息并突出了目標空間位置。因此,所提混合注意力機制以每個Block輸出特征作為輸入,對于可見光支路,注意力結構從特征通道入手,通過最大值、均值以及標準差三個維度充分獲取每個通道目標類別的全局信息,并通過1×1的點卷積融合特全局征后利用K×1的一維卷積提升通道間的信息交互。最后經Sigmoid函數(shù)歸一化后與對應通道相乘,提升目標類別通道信息權重,并降低背景通道干擾。注意力結構如圖3(a)所示。而對于紅外支路,混合注意力機制則聚焦空間位置特征,將所有通道在同一位置的特征作為輸入,利用與通道類似的操作計算出每個位置的權重進行加權,增強目標所在位置的特征信息,如圖3(b)結構所示?;旌献⒁饬C制權重計算方式如式(1)~(4)所示。

        圖3 混合注意力機制

        X=[Max(x),Avg(x),Std(x)]

        (1)

        Wvisible=σ(ConvK×1(Conv3×1(X)))

        (2)

        Winfrared=σ(ConvK×K(Conv1×1(X)))

        (3)

        (4)

        其中,x表示輸入的通道/空間位置信息;X表示分別計算最大值、均值和標準差;Conv3×1表示核為3×1的卷積操作;同理,ConvK×1表示K×1的卷積操作;σ表示利用sigmoid函數(shù)進行歸一化;Wvisible表示可見光特征權重;Winfrared表示紅外特征權重;d表示輸入特征信息維度;odd表示計算值取奇數(shù)。

        自適應交叉融合主要是將紅外和可見光支路所提的各維度特征信息進行融合互補,進一步豐富目標特征。由于現(xiàn)有的多模態(tài)特征融合大都采用直接相加或拼接的方式,盡管也能提升特征多樣性,但引入了較多噪聲信息。因此,所提特征融合結構引入了可訓練的自適應參數(shù),通過自主加權的方式將紅外和可見光對應特征信息進行融合,計算方式如(5)(6)所示,訓練時參數(shù)調整過程如式(7)所示:

        (5)

        (6)

        (7)

        2.4 多尺度檢測

        通過特征提取、注意力增強、多模態(tài)融合模塊可以由淺到深逐步獲取紅外和可見光圖像局部以及全局特征。而在實際檢測任務中,目標的形狀和尺寸通常大小不一,若僅用特征提取結構最后一層的輸出進行預測,容易導致目標漏檢情況。因此,為提升不同大小目標檢測的準確性,設計了多尺度特征檢測結構,利用多個維度的紅外和可見光融合特征,以交替上采樣和下采樣的方式將深層抽象類別信息與淺層邊緣細節(jié)信息充分融合,并通過自主選擇的方式提取目標關聯(lián)維度特征進行預測,如圖4所示。

        圖4 多尺度檢測結構

        多尺度檢測結構主要分為交替采樣和自主選擇兩部分,交替采樣部分將紅外和可見光交叉融合后的特征作為輸入,通過上采樣操作將深層特征升維至相鄰特征維度后進行Eltwise融合,依次升維融合至最淺層,使淺層特征中包含深層信息;同理,為使深層特征中融入淺層信息,將淺層特征再依次進行下采樣降維并融合,如圖4(a)所示。特征自主選擇主要考慮到不同大小目標通常集中在部分特征層,因此,為充分利用目標所關聯(lián)特征層信息,同時避免其他層的影響,自主選擇結構將不同維度的特征統(tǒng)一采樣至相應維度,再通過加權融合的方式提取出目標關聯(lián)的特征進行預測,如圖4(b)所示。加權計算方式如式(8)、(9)所示。

        (8)

        (9)

        3 實驗與結果分析

        為驗證所提目標檢測網絡的有效性和實用性,實驗利用標準數(shù)據(jù)集以及實際電網設備數(shù)據(jù)集進行訓練測試。所提網絡基于PyTorch深度學習框架進行搭建,實驗平臺采用NVIDIA Jetson Xavier NX AI邊緣計算設備,網絡訓練過程中超參數(shù)配置如表2所示。

        表2 實驗環(huán)境及超參數(shù)設置

        對于所提目標檢測網絡的性能評估采用均值平均精度(mAP)和每秒處理圖像幀數(shù)(FPS)來衡量,計算公式如式(10)~(11)所示。同時,為評估不同尺度目標的識別效果,分別以mAPl、mAPm、mAPs來表示大中小目標的檢測精度。其中,大中小目標劃分借鑒文獻[16]設置,以目標標注框中像素數(shù)量322和962為邊界劃分目標。

        mAP=∑APc/NClass

        =(∑Pc/Nimage_c)/NClass

        (10)

        (11)

        式中,Nclass表示目標類別總數(shù);Nimage_c表示包含C類別的圖像數(shù);Pc表示一張圖像中C類別的識別精度;APc表示所有圖像中C類目標的平均精度;Ti表示網絡處理第i張圖像消耗的時間,Nimage表示目標檢測的總圖像。

        3.1 標準數(shù)據(jù)集實驗

        為驗證所提雙模態(tài)目標檢測方法的有效性,實驗首先利用了李成龍教授團隊公開的標準數(shù)據(jù)集RGBT[17]進行訓練測試。該數(shù)據(jù)集主要由標定好的紅外和可見光相機對上百個場景下的目標采集構成,包含不同時間段、不同天氣、不同光照強度下的紅外和可見光圖像對約210000張,目標種類約20多種。由于數(shù)據(jù)集中的圖像多從連續(xù)的視頻幀中提取出來,重復度較高,且部分目標數(shù)量較少。因此,為更好的驗證所提方法,本文只從中篩選出約10000張重復率較低的圖像對,并確定了8類目標,各目標占比如表3所示。將圖像尺寸調整為512×512大小后以7∶1∶2的比例隨機劃分訓練、驗證、測試集進行實驗。

        表3 數(shù)據(jù)集各目標占比

        實驗首先針對支路的基礎網絡進行訓練測試,基礎網絡即輸入為原圖、特征提取結構無注意力模塊、檢測部分為FPN網絡檢測結構。由于紅外支路和可見光支路基本對稱,故只對可見光支路進行了測試,并將測試結果與目前主流的輕量級目標檢測網絡進行了對比,對比結果如表4所示。

        表4 可見光支路基礎網絡測試對比

        由表4可以看出,由于所提網絡針對目標雙模態(tài)信息,為保證雙支路結構的高效性,支路構建采用了較少的特征通道來保障檢測效率,但也損失了部分特征信息,使檢測效果較差。而主流的輕量級主要針對單源輸入,網絡結構相對雙源網絡的支路更為復雜,提取信息更多,故精度相對較高,但效率較低。為豐富支路特征信息,引入了圖像增強模塊,針對該模塊的有效性驗證,實驗通過依次引入不同圖像處理方法來對比檢測精度變化,結果如表5所示。

        表5 圖像增強模塊測試對比

        根據(jù)表5可以看出,不同的預處理方法對紅外和可見光支路檢測精度的影響也各不相同(紅外圖像為灰度圖,無法進行HSV和Gray處理)。其中,對于可見光圖像,HSV顏色空間轉換、Canny邊緣提取以及Gray灰度轉化方法提升較大;而對于紅外圖像,直方圖均衡化、均值濾波等方法的提升效果更佳。為進一步提升特征提取過程中關鍵特征貢獻,設計了混合注意力模塊,針對該模塊的有效性驗證,實驗基于可見光支路網絡,分別對比了不同注意力機制對檢測性能的影響,結果如表6所示。其中,混合注意力在特征通道和特征空間位置上同時使用。

        由上表可見,SE注意力機制僅針對通道特征,故在效率上相對較高,但精度提升相對較少;CBAM注意力機制雖同時考慮通道和空間位置特征,但僅通過特征最大值來表示全局信息過于局限,且全連接方式也引入了較多計算量;而所提混合注意力機制以多種方式對全局信息建模,并利用一維卷積替代全連接,提升精度的同時也保障了計算效率。為進一步驗證通道和空間混合注意力對紅外和可見光特征的影響,實驗對比了不同模態(tài)特征在不同注意力下網絡性能變化,結果如表7所示。

        表7 通道和空間注意力對比

        可見,通道混合注意力可以較好的聚焦可見光特征,空間位置混合注意力則更適用于增強紅外特征信息。因此,為保證網絡整體效率,在紅外支路中僅適用了空間位置注意力機制,而可見光支路中也只使用了通道注意力機制。由于圖像增強和注意力機制都是針對單支路特征,而多模態(tài)特征有效融合才能體現(xiàn)出雙支路網絡的優(yōu)越性。對于所提自適應融合模塊的可行性驗證,實驗分別測試對比了不同融合方式下目標檢測精度的變化,并通過特征可視化進一步體現(xiàn)所提融合模塊的有效性,實驗結果如表8和圖5所示。

        表8 雙模態(tài)特征融合對比

        圖5 Block3層特征融合可視化對比

        根據(jù)表8結果可以看出,相較于直接相加和拼接的融合方式,自適應融合對目標檢測精度提升最大。同時,從特征可視化效果中也可看出,所提方法在豐富目標信息的同時有效避免了無效特征的干擾,而相加和拼接方式雖然也增強了目標信息,但也引入了較多的噪聲。對于多尺度檢測結構的驗證,實驗分別與當前主流的多尺度方法FPN、ASFF以及PANet進行了對比,實驗結果如表9所示。同時,為進一步體現(xiàn)所提多尺度結構的有效性,將fuse3層對應維度的多尺度特征圖進行可視化展示,如圖6所示。

        表9 多尺度結構對比

        圖6 多尺度特征融合可視化對比

        根據(jù)上述實驗結果可以看出,傳統(tǒng)的FPN結構在不同維度特征融合時引入了較多無效信息,且不同維度目標特征容易相互干擾;ASFF和PANet結構雖然在一定程度上緩解了不同維度特征間的信息干擾,但仍存在一定局限;而所提方法在盡可能保證網絡效率的同時充分吸取了現(xiàn)有多尺度結構優(yōu)勢,使網絡對不同大小目標的檢測效果都有較大改善,檢測效果也達到了最優(yōu)。綜上實驗結果有效驗證了所提各個模塊的可行性,而對于整個網絡的有效性驗證,實驗與同類型紅外和可見光目標檢測方法進行了對比,實驗結果如表10所示,檢測效果如圖7所示。

        表10 同類型網絡測試對比

        圖7 同類型網絡檢測效果對比

        根據(jù)上述對比結果可見,文獻[6]方法通過融合淺層特征的方式雖然效率較高,但紅外和可見光信息融合有限,目標檢測效果相對較差;文獻[7]雖采用了將紅外特征融入可見光網絡中來豐富目標網絡特征信息,但融合過程相對簡單,對目標多模態(tài)以及多尺度信息提取不夠充分,檢測精度提升相對有限;文獻[8]通過分別檢測再融合檢測結果的方式過于冗余,且僅是對檢測結果的融合,忽略了特性互補性,故在檢測精度及效率上都表現(xiàn)一般;而所提網絡從多個角度來增強目標特征,并利用自適應的融合方式來實現(xiàn)目標不同模態(tài)、不同維度特征的互補,進而使網絡整體檢測效果達到最優(yōu)。

        3.2 實際場景實驗

        為進一步驗證所提網絡在實際場景中的檢測效果,實驗利用真實電網環(huán)境下的設備來測試目標檢測網絡的實用性。對于實驗數(shù)據(jù)集的構建,主要通過巡檢機器人搭載的紅外和可見光相機進行采集(紅外和可見光相機通過水平標定后再利用裁剪使圖像對達到像素級對齊)。為更好的驗證所提網絡,所采集的設備圖像涵蓋了不同光照、不同天氣等情況,并且設備間存在尺寸差距較大的目標。實驗共篩選了約4000組大小為512×512的圖像對,包含變壓器、冷控箱、斷路器、絕緣子等6類目標,通過Labelimg工具對圖像中各目標進行人工標注后以7∶1∶2的比例隨機劃分訓練驗證和測試集后進行訓練測試,實驗結果如表11和圖8所示。

        表11 實際電網設備測試對比

        圖8 電網設備目標檢測效果

        根據(jù)實際場景中的檢測結果可以看出,由于數(shù)據(jù)集中目標的復雜程度相對較低,各目標檢測精度都有一定提升,而與同類型方法相比,所提雙模態(tài)目標檢測方法在較大和較小目標的檢測中表現(xiàn)更佳,且網絡整體檢測精度仍保持最優(yōu),有效驗證了該方法泛化性以及落地實際應用的可行性。盡管檢測效率未達到最高,但在實際電網設備目標檢測過程中,巡檢機器人行駛速度相對較慢,所提方法基本可以滿足其實時檢測的需求。

        4 結 語

        針對目前紅外和可見光雙模態(tài)目標檢測方法存在的不足,本文從圖像輸入、特征提取、特征融合、多尺度特征角度進行了深入分析,提出了一種基于特征增強的目標檢測網絡。該網絡針對紅外和可見光圖像,利用顏色空間轉換、邊緣提取、均值濾波等方法分別對原始圖像進行預處理操作,豐富網絡輸入信息。在特征提取階段,采用了相對較少的特征通道來降低冗余信息提取,保障整體網絡效率,并設計了混合注意力機制,從可見光通道特征和紅外空間位置特征角度提升目標相關特征貢獻。同時,為充分互補目標雙模態(tài)信息,引入了自適應交叉融合結構,通過訓練的方式自適應加權紅外和可見光特征,降低了背景信息的干擾。目標檢測階段,對于不同尺度目標,采用了兩次采樣充分融合目標深層和淺層信息,并以自主選擇的方式提取目標相關維度特征進行預測,避免了各目標特征間相互干擾。通過實驗表明,所提方法有效增強了輸入圖像信息、特征多樣性信息以及多尺度特征信息,并且與同類型方法相比,該方法也體現(xiàn)出較高的魯棒性和實用性,可以準確高效完成目標檢測。雖然所提方法檢測效果較優(yōu),但效率上仍有較大的提升空間,在后續(xù)工作中將探索模型剪枝和知識蒸餾方法進一步優(yōu)化網絡。

        猜你喜歡
        模態(tài)特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        國內多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        免费人成在线观看视频播放| 亚洲黄色精品在线播放| 亚洲视频一区二区三区视频| 欧美丰满熟妇xxxx性| 人妻丰满熟妇AV无码区HD| 尤物AV无码色AV无码麻豆| 午夜视频在线观看国产| 日本少妇高潮喷水视频| 亚洲av永久无码国产精品久久| 亚洲色大成网站www在线观看 | 麻豆精品导航| 99香蕉国产精品偷在线观看 | 国产揄拍国产精品| 国产啪精品视频网给免丝袜| 伊人亚洲综合影院首页| 亚洲色图在线免费视频| 午夜福利av无码一区二区| 国产人成午夜免电影观看| 麻美由真中文字幕人妻| 美女视频在线观看亚洲色图| 欧美裸体xxxx极品少妇| 无码人妻系列不卡免费视频| 天堂av一区二区麻豆| 完整版免费av片| 日韩插啊免费视频在线观看| 亚洲天天综合色制服丝袜在线| 亚洲性av少妇中文字幕| a级国产乱理伦片| 亚洲的天堂av无码| 亚洲av永久无码精品成人| 高清在线有码日韩中文字幕 | 国产精品狼人久久影院软件介绍| 性无码免费一区二区三区在线| 专区国产精品第一页| 尤物成av人片在线观看 | 中文字幕乱码一区在线观看| 国产欧美成人一区二区a片| 乌克兰少妇xxxx做受6| 亚洲国产精品夜男人天堂| 在线视频国产91自拍| 亚洲av无码不卡久久|