亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模態(tài)數(shù)據(jù)融合學習網(wǎng)絡的微弱目標群檢測方法

        2021-09-16 01:30:12趙會盼劉環(huán)宇
        空天防御 2021年3期
        關(guān)鍵詞:模態(tài)特征融合

        趙會盼,劉環(huán)宇

        (1.中國電科網(wǎng)絡通信研究院,河北石家莊 050081;2.哈爾濱工業(yè)大學電子與信息工程學院,黑龍江哈爾濱 150001)

        0 引言

        目標檢測任務是計算機視覺中的基礎(chǔ)任務之一,也是實例分割和目標跟蹤等任務的基礎(chǔ)。一般的目標檢測任務是針對RGB彩色可見光圖像的,其目的是在圖像上使用邊界框來定位物體并給出物體類別屬性的概率。常見的目標檢測方法可分為一階段目標檢測和兩階段目標檢測兩種。兩者的區(qū)別在于兩階段目標檢測方法需要先提出區(qū)域提議,然后在此基礎(chǔ)上對目標類別進行分類并對目標位置進行回歸。近年來,由于無人駕駛等領(lǐng)域的廣泛發(fā)展,出現(xiàn)了越來越多的多模態(tài)數(shù)據(jù)以及相應的目標檢測任務需求。多模態(tài)數(shù)據(jù)是同一場景下通過不同手段獲取到的成像圖像的組合。常見的成像手段有:可見光、紅外、多普勒脈沖雷達、核磁共振等。由于不同成像方式之間的多模態(tài)數(shù)據(jù)存在互補性,因此可以互相彌補以提升目標檢測的性能,許多研究者考慮利用多模態(tài)數(shù)據(jù)的互補性來提升算法的性能。另一方面,微弱目標檢測常常由于目標尺度小、特征不明顯,很容易與背景中的噪聲混淆,因此一直是目標檢測任務中的難點。然而多模態(tài)數(shù)據(jù)通過不同成像方式之間的互補性很好地彌補了這個問題。因此,如何理解與利用多種模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)與互補之處,成了多模態(tài)數(shù)據(jù)融合在應用中的重要問題。

        在目標檢測領(lǐng)域,越來越多的研究者嘗試使用多模態(tài)數(shù)據(jù)融合方法提升檢測效果。姚琳[1]基于多級深度特征融合的RGB-T 圖像,利用顯著性特征進行目標檢測,利用RGB和紅外圖像對卷積神經(jīng)網(wǎng)絡的多級特征進行融合,取得了不錯的效果。張新鈺[2]等人利用無人駕駛汽車獲取的RGB 圖像、紅外圖像、雷達圖像等,嘗試在數(shù)據(jù)融合、特征融合和結(jié)果融合3個層次上進行多模態(tài)數(shù)據(jù)融合。朱莉[3]提出了一種針對紅外熱成像的圖像融合方法,將圖像的特征分為對比度特征、熵特征以及梯度特征,然后對3 種特征進行融合,在故障檢測任務中取得了不錯的效果。王寧[4]針對紅外可見光圖像,提出了一種根據(jù)多模態(tài)圖像尺度與部分灰度不變圖像特征的數(shù)據(jù)融合方法,并在此基礎(chǔ)上開展了目標檢測任務。賈晨[5]則是利用寬度學習方法對RGB-D數(shù)據(jù)進行特征融合,取得了比傳統(tǒng)方法更穩(wěn)定的融合結(jié)果。李文平[6]提出基于改進型RetinaNet的三維人體目標檢測方法,對雷達點云和圖像特征進行提取,并將二者進行融合,實驗結(jié)果表明,融合后的目標檢測準確率比單獨以圖像作為數(shù)據(jù)來源的準確率提高了8%,相比于單獨以雷達點云作為數(shù)據(jù)來源的準確率提高了5%左右。胡志遠[7]提出的基于激光雷達點云與圖像融合的車輛檢測方法相比單數(shù)據(jù)源方法的目標漏檢率降低了6.83%。

        居民趙某散步時,被一只從后面跑來的流浪狗咬了一口,遂到醫(yī)院處理傷口,并注射狂犬疫苗。趙某經(jīng)打聽得知,咬自己的那條狗似乎是附近居民馬某家的。面對找上門要求賠償?shù)内w某,馬某承認那條狗曾經(jīng)是自己家養(yǎng)的,但卻以自己在一個月前送給了別人為由拒絕予以賠償。趙某遂將馬某告上法庭。

        對此,傳統(tǒng)市政機關(guān)與金融機構(gòu)也已行動起來,攜手各大電商同時也是金融科技、數(shù)字經(jīng)濟巨頭,研究智慧城市、大數(shù)據(jù)服務、金融云等創(chuàng)新領(lǐng)域業(yè)務的落地。

        以上研究大多基于人工的融合算法設(shè)計或者對圖像數(shù)據(jù)的融合,不能結(jié)合現(xiàn)代深度卷積網(wǎng)絡特征學習的特點。本文提出一種簡單的端到端的多模態(tài)數(shù)據(jù)學習融合網(wǎng)絡,能夠融合學習可見光、紅外和多普勒脈沖雷達數(shù)據(jù),并應用在微弱目標群檢測任務上。實驗結(jié)果表明,本文提出的多模態(tài)數(shù)據(jù)學習融合網(wǎng)絡能夠顯著提升目標檢測算法的性能。

        1 網(wǎng)絡設(shè)計

        1.1 網(wǎng)絡框架設(shè)計

        為了能夠融合可見光圖像、紅外圖像和多普勒脈沖雷達圖像,參考YOLOv4[8]的目標檢測網(wǎng)絡的結(jié)構(gòu),設(shè)計了支持多模態(tài)數(shù)據(jù)融合目標檢測網(wǎng)絡架構(gòu)。改進的目標檢測網(wǎng)絡整體結(jié)構(gòu)如圖1所示。圖中:ReLU為線性整流函數(shù);s表示步長;N表示數(shù)量;k表示核大小。

        圖1 目標檢測網(wǎng)絡整體結(jié)構(gòu)Fig.1 The overall structure of the target detection network

        當輸入一張圖片的時候,利用不同大小的刻度對其進行了劃分。圖3 中,利用3 種不同大小的刻度(4×4,2×2,1×1)對輸入的圖片進行劃分,最后共得到21 個塊,從每個塊中各提取出一個特征,就得到了要提取的21 維特征向量??臻g金字塔最大池化的過程,其實就是分別計算這21 個圖片塊的最大值,從而得到一個輸出神經(jīng)元,最后把一張任意大小的圖片轉(zhuǎn)換成一個固定大小的21維特征向量。

        在數(shù)據(jù)增強方面,引入了Mosaic 數(shù)據(jù)增強方式。數(shù)據(jù)增強方法必須考慮到數(shù)據(jù)集特點和任務的特點,使得增強后的圖像與原圖像不同但并不損害樣本所包含的信息。Mosaic 數(shù)據(jù)增強方法的示意圖如圖4所示。

        CSPNet 首先將特征圖按通道分為兩個部分,只對其中一個部分做原本的卷積網(wǎng)絡運算,之后將部分特征經(jīng)過卷積網(wǎng)絡的結(jié)果和之前的特征圖相連,再通過卷積融合得到最終結(jié)果。這種跨階段局部網(wǎng)絡能夠進一步提升骨干網(wǎng)絡的性能。

        在骨干網(wǎng)絡部分,引入了最新提出的CSPNet[12]。CSPNet 是一種新的網(wǎng)絡設(shè)計理念,其原理如圖5所示,其中,n表示殘差塊的個數(shù)。

        圖2 殘差結(jié)構(gòu)Fig.2 Residual structure

        式中:F(x)表示求和前網(wǎng)絡映射,即殘差;H(x)表示從輸入到求和后的網(wǎng)絡映射。

        1991年2月18日,大年初四,朱 基同志向鄧小平同志匯報浦東新區(qū)發(fā)展規(guī)劃的宗旨是:金融先行、貿(mào)易興市、基礎(chǔ)鋪路、東西聯(lián)動,得到了小平同志的充分肯定。

        CSP 金字塔空間池化模塊則是將跨階段局部網(wǎng)絡(cross stage partial network,CSPNet)結(jié)構(gòu)[11]與空間金字塔池化(spatial pyramid pooling,SPP)[12]進行了結(jié)合,實現(xiàn)特征的多尺度融合。SPP 能夠?qū)⑷我獯笮〉奶卣鲌D轉(zhuǎn)換成固定大小的特征向量,其原理如圖3所示,其中,d表示維度。

        在損失函數(shù)的選擇上,使用了GIoU[9]回歸檢測框位置,分類損失使用交叉熵損失函數(shù)。GIoU(generalized intersection over union)損失對尺度不敏感,能夠基于IoU指標回歸坐標點。在優(yōu)化器方面,使用了指數(shù)移動平均(exponential moving average,EMA)模型。由于在訓練過程中,模型參數(shù)會在實際的最優(yōu)值附近波動,因此使用指數(shù)移動平均來平滑這個波動,能使得模型具有更好的魯棒性。在學習率策略上,采用了帶有熱身(warm up)的余弦退火策略。熱身階段,將學習率從很小慢慢增大到初始值,以避免初始參數(shù)出現(xiàn)不穩(wěn)定的情況,之后通過余弦退火策略不斷地減小學習率。余弦退火策略能夠更快更好地優(yōu)化網(wǎng)絡參數(shù)。為了更好地適應多源融合信號的目標檢測任務,設(shè)計了支持多信號輸入的目標檢測網(wǎng)絡結(jié)構(gòu)。該網(wǎng)絡結(jié)構(gòu)能夠支持可見光、紅外與雷達信號3 種不同信號同時輸入,在網(wǎng)絡結(jié)構(gòu)內(nèi)部對輸入信號進行融合,最終輸出目標位置。

        圖3 空間金字塔池化原理示意圖Fig.3 Schematic diagram of spatial pyramid pooling

        1.新民主主義革命時期與黨的群眾史觀。以毛澤東為核心的中共第一代中央領(lǐng)導集體在領(lǐng)導中國人民進行新民主主義革命的偉大實踐中,把馬克思主義群眾史觀同中國革命的具體實踐相結(jié)合,提出了“全心全意為人民服務”“一切從人民的利益出發(fā)”“向人民負責”等一系列群眾思想,并在實踐中通過對中國道路的有益探索,最終創(chuàng)立了符合中國實際的群眾觀點和以此為基礎(chǔ)的群眾路線。毛澤東則成為中國共產(chǎn)黨群眾史觀的首創(chuàng)人和踐行者。

        1.1.1 模塊組成

        Mosaic數(shù)據(jù)增強方法一次從數(shù)據(jù)集中采樣4張圖像,將4 張圖像分別置于新圖像的左上、右上、左下和右下角,從而生成一張面積是原圖4倍的新圖像;之后對合成的圖像進行透視變換、翻轉(zhuǎn)、色域變化等常規(guī)的數(shù)據(jù)增強處理;最后對合成的圖像進行中心裁剪,恢復單張圖片的尺寸。對于4張圖片中出現(xiàn)的所有檢測框,根據(jù)其剪裁后剩余部分的多少、長寬比和面積等指標,剔除無用的檢測框,再將剩余的檢測框平移到正確的位置,就完成了數(shù)據(jù)增強過程。

        學生繼續(xù)閱讀和思考,就可以理解這種“狗對人”和“人對狗”的對比,更體現(xiàn)了作者自我懺悔、自我解剖的主題。這個藝術(shù)家的故事放在這里,既是一個引子,又起到了深化主題的作用,還為我們提供了寫作背景。柏拉圖說過一句話:“人如果沒有了人性之后,那么人在所有動物之中就是最殘忍的一種?!卑徒饘戇@篇文章正是對人性的反思。

        圖4 Mosaic數(shù)據(jù)增強方法示意圖Fig.4 Schematic diagram of Mosaic data enhancement method

        Mosaic 數(shù)據(jù)增強方法利用了目標檢測任務中對目標平移的靈活性,將4 張圖像合為1 張。該方法可以在有限的數(shù)據(jù)集中產(chǎn)生大量新的樣本,同時保持了原樣本的分布規(guī)律,在保持保真度的同時提升了樣本的豐富度。

        一些高職院校受傳統(tǒng)教育模式影響較深,不能正確定位旅游專業(yè)人才的培養(yǎng)目標,在對旅游專業(yè)學生進行教育教學過程中,仍然過于重視理論教學,而相對忽視實踐教學?,F(xiàn)階段,很多高職院校旅游專業(yè)大都將目標定位于管理類人才的培養(yǎng),導致學生對就業(yè)有過高期望,而不愿從基層崗位做起。但大部分旅游相關(guān)企業(yè)急需大量一線員工。這種培養(yǎng)目標定位不符合旅游業(yè)的實際需要,在很大程度上影響到旅游專業(yè)畢業(yè)生的就業(yè)。

        1.2 網(wǎng)絡分解

        目標檢測網(wǎng)絡可分為骨干網(wǎng)絡部分、特征融合部分以及預測部分。

        殘差模塊的使用可以更好地提取目標特征,同時解決網(wǎng)絡在層數(shù)加深時優(yōu)化訓練上的難題,如圖2所示。殘差模塊[10]主要由快捷連接和恒等映射組成,快捷連接使得殘差變得可能,而恒等映射使得網(wǎng)絡變深。殘差模塊可表示為

        圖5 CSPNet原理圖Fig.5 CSPNet schematic

        網(wǎng)絡整體結(jié)構(gòu)主要由 CBL(convolution batchnorm rectified linear)模塊、殘差模塊以及CSP 金字塔空間池化模塊等構(gòu)成,而CBL 模塊由卷積、規(guī)范化以及激活函數(shù)組成。

        1.1.2 數(shù)據(jù)增強

        在特征融合部分,選擇了能夠很好地平衡精度和速度的PANet(path aggregation network)結(jié)構(gòu)。目標檢測網(wǎng)絡通常需要在同一檢測場景中同時檢測不同空間尺度的目標,所以需要設(shè)計一種能夠同時處理多種尺度的網(wǎng)絡結(jié)構(gòu)。一般來說,CNN模型中越淺層的特征圖尺度越大,能夠捕獲更多的局部特征;而深層的特征圖尺度較小,能夠捕獲更多的語義特征。由于深層特征圖缺乏針對局部的特征信息,因此不利于對小目標的檢測,使用特征融合可以一定程度上解決這個問題。

        最后,在預測部分,使用sigmoid 函數(shù)將網(wǎng)絡輸出的位置信息映射到0~1 之間,而不使用傳統(tǒng)的指數(shù)函數(shù)。這是因為指數(shù)函數(shù)在正半軸發(fā)散,容易造成預測的不穩(wěn)定,同時增加了訓練時的難度。而sigmoid函數(shù)有飽和特性,在正半軸收斂到1,這使得網(wǎng)絡訓練和預測都更加穩(wěn)定。然而,sigmoid函數(shù)的飽和特性會給回歸接近于格點的位置造成困難。因此,使用了縮放系數(shù)解決該問題,將縮放系數(shù)設(shè)置為2,即

        式中:bx和by表示目標中心的預測結(jié)果;tx和ty是卷積網(wǎng)絡的輸出值;cx和cy是格點中心坐標。由于sigmoid函數(shù)在1 處飽和,當網(wǎng)絡要回歸一個接近于格點的位置時,需要tx和ty是一個極大的值。通過添加縮放系數(shù)來降低對tx和ty的要求,降低了回歸難度。

        2 實驗與結(jié)果分析

        本文采用FLIR_ADAS 數(shù)據(jù)集進行仿真驗證。該數(shù)據(jù)集在ADAS 環(huán)境中感知熱紅外輻射或熱的能力,為現(xiàn)有的傳感器技術(shù)(如可視攝像機、激光雷達和雷達系統(tǒng))提供了互補和獨特的優(yōu)勢。本項目旨在研究不同來源(如可見光、紅外和雷達)數(shù)據(jù)融合識別目標的算法。由于數(shù)據(jù)獲取難度大,本文根據(jù)紅外數(shù)據(jù)仿真生成對應的雷達數(shù)據(jù),具體的紅外、可見光及雷達數(shù)據(jù)如圖4所示。用于模型訓練的數(shù)據(jù)包括標注紅外圖像和未標注RGB 圖像及對應的雷達數(shù)據(jù)。本文采用的數(shù)據(jù)集共包含3個類別,分別為行人、自行車和汽車,其中已標注的行人目標共有28 151 個、自行車目標有4 457 個、汽車目標有46 692 個。部分數(shù)據(jù)如圖4所示。

        此外,還有許多物品本身不僅是一種懷舊的符號,也在營造這個空間的懷舊氛圍。田子坊弄口墻上有幅大型風俗畫,畫上的“煙紙店”“公用電話”“修鞋攤”“修車匠”還原了上海老弄堂的各種風情;而另一條弄堂口放滿了連環(huán)畫、舊小人書。弄內(nèi)16號氣味圖書館旁裝飾著各種彩色信箱,方的、圓的、尖的,裝點了滿滿一面紅磚墻,特別是1980年代的綠色信箱,一下子喚起人們對過往歲月的懷念。田子坊里有的店本身就是以上海記憶為賣點,如弄堂里有家“摩登紅人”售賣上海特色的化妝品,店里商品的包裝設(shè)計全部是上世紀二三十年代上海月份牌女郎頭像。在那里,許多的咖啡館和餐廳里也有這樣的頭像,人們看似在消費現(xiàn)代的餐飲,其實也在消費傳統(tǒng)。

        圖6 原始可見光、紅外及仿真雷達信號數(shù)據(jù)Fig.6 Raw visible light,infrared and simulated radar signal data

        使用本文設(shè)計的可見光、紅外與雷達信號融合的目標檢測網(wǎng)絡對行人、自行車及汽車3 類目標進行識別。算法的輸入為紅外、可見光和雷達信號數(shù)據(jù),其中,標注以紅外數(shù)據(jù)為基準。訓練過程共進行了200輪,將學習率設(shè)置為0.001 并使用余弦退火策略將學習率按輪衰減,權(quán)重衰減系數(shù)0.000 04;訓練批次設(shè)置為16,動量為0.937;移動指數(shù)平均值設(shè)置為0.999 9,訓練的前3 輪為熱身,輸入圖像尺寸為512×512。算法使用了一系列數(shù)據(jù)增強策略,包括Mosaic、水平翻轉(zhuǎn)和仿射變換。在測試過程中,我們使用均值平均精度(mean average precision,mAP)作為算法性能的評估指標,并驗證了算法在不同IoU 下識別的準確率。測試中,非極大值抑制(non-maximum suppression,NMS)設(shè)置為0.6,置信度閾值為0.1,圖像輸入大小同樣為512×512。具體的識別結(jié)果如表1所示。

        表1 紅外、可見光及雷達數(shù)據(jù)融合識別結(jié)果Tab.1 Infrared,visible light and radar data fusion recognition result

        從表1 中算法的識別結(jié)果來看,當IoU 設(shè)置為0.50時,算法的識別性能最好。其中,針對行人目標的識別準確率為75.99%,對自行車的識別準確率為45.29%,汽車的識別準確率為85.14%。對自行車目標的識別準確率比較差,主要是由于數(shù)據(jù)集中的自行車目標數(shù)量較少,僅有4 457 個,樣本不充分,造成算法對此類目標的識別性能不足。為了更直觀地顯示本項目算法的有效性,現(xiàn)將部分圖像目標的識別結(jié)果繪制在紅外數(shù)據(jù)上,如圖7所示。

        圖7 目標檢測算法結(jié)果圖Fig.7 Target detection algorithm result graph

        3 結(jié)束語

        多模態(tài)數(shù)據(jù)融合有廣泛的應用場景,為此本文探索設(shè)計了一種能夠?qū)崿F(xiàn)端到端訓練的多模態(tài)數(shù)據(jù)學習融合網(wǎng)絡,以實現(xiàn)微弱目標群的檢測。通過結(jié)合深度卷積網(wǎng)絡的學習能力,解決了人工設(shè)計的多模態(tài)數(shù)據(jù)融合的不足。通過在FLIR_ADAS 數(shù)據(jù)集上的實驗也表明,多模態(tài)數(shù)據(jù)融合學習方法對提升微弱目標檢測效果顯著。多模塊數(shù)據(jù)融合相比于單模態(tài)提供了更加豐富的目標信息,但是也帶來計算量增加的問題,導致在計算資源受限的應用場景下難以達到實時的目標檢測效果。未來將著手于3 個方面的研究:一是多模態(tài)數(shù)據(jù)的獲取和收集,形成標準的行業(yè)數(shù)據(jù);二是多模態(tài)融合網(wǎng)絡的架構(gòu)設(shè)計,能更加充分地利用多模態(tài)信息,提升目標檢測識別準確率;三是在保證目標檢測準確率的情況下,提升目標檢測速度,滿足實際應用需求。

        猜你喜歡
        模態(tài)特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        國內(nèi)多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        中文字幕有码人妻在线| 99热这里只有精品国产99热门精品| 亚洲中文字幕无码二区在线| 91国产超碰在线观看| 日本一区二区三区四区啪啪啪| 国产精品乱码人妻一区二区三区| 摸进她的内裤里疯狂揉她动视频 | 91精品啪在线看国产网站| 久久av少妇亚洲精品| 日本亲近相奷中文字幕| 人妻av无码系列一区二区三区| 国产精品九九热| 国产免费一区二区三区在线观看 | 久久久精品国产性黑人| 丰满人妻熟妇乱又伦精品软件 | 国产亚洲精品成人aa片新蒲金| 亚洲最大在线视频一区二区| 亚洲精品久久久久成人2007| 欧美日本日韩aⅴ在线视频| 日本一区二区三本视频在线观看| 成人国产精品三上悠亚久久| 国产又色又爽又黄的| 日韩另类在线| 一本色道久久综合亚州精品| 日本久久伊人特级黄色| 女人被爽到呻吟gif动态图视看| 国产精品美女黄色av| 人妻少妇偷人精品一区二区三区| 亚洲av成人无遮挡网站在线观看| 两个人看的www中文在线观看| 久久久国产精品粉嫩av| 一区二区亚洲精品在线| 东京热人妻一区二区三区| 99在线视频精品费观看视| 久久精品蜜桃美女av| 国产尤物精品视频| 51久久国产露脸精品国产| 福利在线国产| 午夜在线观看一区二区三区四区| 丰满少妇人妻无码| 精品香蕉久久久午夜福利|