亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于R-VGG和多分支注意力的無人機圖像配準模型

        2021-11-15 08:25:28趙亞麗藺素珍張海松李大威雷海衛(wèi)
        中北大學學報(自然科學版) 2021年5期
        關鍵詞:分支特征提取損失

        趙亞麗,藺素珍,張海松,李大威,雷海衛(wèi)

        (中北大學 大數(shù)據(jù)學院,山西 太原 030051)

        0 引 言

        目前,利用多臺無人機協(xié)作或單臺無人機多次拍攝已經(jīng)成為地質勘測[1]和安全巡檢等大視場成像的新興手段,其中圖像配準是必不可少的關鍵技術之一.圖像配準方法包括基于灰度的配準方法和基于特征的配準方法兩大類[2].其中,基于灰度的方法通過灰度值計算完成圖像配準,該方法簡單直觀,但計算量較大且對圖像灰度值敏感,圖像的光照變化、尺度變化和旋轉變化等都會造成較大的匹配誤差;基于特征的配準方法通過提取并匹配圖像間共有的特征來解算變換參數(shù)得到配準結果,該類方法魯棒性好且效率較高.不同無人機圖像間的光照、傾角等往往大相徑庭,因而使用基于特征的配準方法更合適.

        基于特征的圖像配準方法可細分為傳統(tǒng)方法和基于學習的方法.典型的傳統(tǒng)方法是D.G.Lower等[3]提出的SIFT(Scale Invariant Feature Transform)算法.該算法通過提取尺度、縮放和旋轉不變性特征進行配準,性能穩(wěn)定但算法復雜度高,對錯誤匹配數(shù)據(jù)較敏感.雖然之后產(chǎn)生了一系列針對該算法的優(yōu)化算法[4-5],但總體都有一定的場景約束且計算效率不高.

        近年來,深度學習方法在圖像領域顯示出卓越的性能[6-8],許多研究人員使用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)等深度學習方法來解決圖像配準問題[9-11].為解決深度學習中的標簽圖像缺乏問題,有學者探索了無監(jiān)督學習配準方法.VoxelMorph[12]方法在腦部數(shù)據(jù)集上取得了不錯的效果;VTN(Volume Tweening Network)[13]采用了集成仿射變換模塊和網(wǎng)絡塊級聯(lián)方式,在存在較大變形的醫(yī)學圖像配準方面取得了成功;文獻[14]利用光度損失的無監(jiān)督學習來進行單應性估計;文獻[15]在特征提取之后增加掩膜結構來學習圖像的深度信息,從而進行更精確的單應性估計,等等.綜合看來,基于深度學習方法配準圖像漸成主流.不過,由于無人機航拍的圖像通常分辨率較大且存在大面積的弱紋理區(qū)域,容易導致特征誤匹配,從而使配準精度下降,因此,目前將深度學習模型用于無人機圖像配準的研究還較少.

        本文提出一種基于無監(jiān)督學習的無人機圖像配準方法,該方法在訓練過程中僅需要待配準的圖像對,不需要任何的真實變換參數(shù).與其他方法研究相比,本文的主要工作有三點:1)提出一種R-VGG的特征提取網(wǎng)絡結構,在VGG結構中加入Resnet的思想,充分利用深度學習的高性能有效地把圖像的低層輪廓特征和高級語義特征結合起來,提取到更加魯棒的特征.2)提出在初步特征匹配之后加入以殘差單元為單位的多分支注意力模塊,濾除誤匹配,增加匹配的精確度.3)復合使用均方誤差損失和感知損失,確保配準的精度和配準結果圖像的質量.

        1 無監(jiān)督配準網(wǎng)絡模型

        1.1 框架綜述

        本文提出的完全無監(jiān)督無人機圖像配準方法流程如圖1 所示.首先,將經(jīng)過預處理的參考圖像和運動圖像分別輸入到兩個網(wǎng)絡結構相同且共享參數(shù)的特征提取模塊(R-VGG)中進行深度特征提取;其次,將提取到的特征完成初步匹配,再采用具有兩個平行分支的注意力模塊(MBA)濾除特征誤匹配;然后將經(jīng)過加權約束的匹配相關圖傳輸?shù)絾螒跃仃嚬烙嬆K中,進行神經(jīng)網(wǎng)絡回歸運算得到空間變換參數(shù);最后,通過空間轉換網(wǎng)絡(Spatial Transform Network,STN)[16]得到配準結果圖像.網(wǎng)絡模型的損失函數(shù)使用配準結果圖像和參考圖像的相似性來構建.

        圖1 本文方法的整體框架圖Fig.1 The overall framework of the proposed method

        1.2 網(wǎng)絡設計

        1.2.1 特征提取模塊設計

        特征提取模塊設計作為本文配準模型設計的第一步,主要是利用深度學習的高性能來提取待配準圖像對的高級特征信息,從而進行穩(wěn)健高效的特征對齊.鑒于VGG-16網(wǎng)絡在ImageNet上表現(xiàn)出的卓越性能,這里使用VGG-16網(wǎng)絡結構的前面部分來提取特征.但VGG結構沒有分支結構,在淺層網(wǎng)絡部分提取的是圖像的低層輪廓特征,而在深層網(wǎng)絡部分篩選出高級的細節(jié)信息,只是簡單地堆疊網(wǎng)絡不能把低、高層特征結合起來,因此,使用簡單的VGG網(wǎng)絡結構不能有效地提取到利于圖像配準的特征.而ResNet結構能把上一層的輸出作用于下一層,可以將低層的輪廓特征和高層的語義特征融合,但ResNet系列的網(wǎng)絡深度較深,結構復雜,而無人機圖像的配準任務需要較為簡單的模型來保證運算效率.因此,本文把ResNet思想和VGG網(wǎng)絡結構結合起來,既能篩選出配準需要的低、高級融合特征,又能保證網(wǎng)絡結構相對簡單,具體網(wǎng)絡結構如圖2 所示.

        圖2 特征提取網(wǎng)絡結構圖Fig.2 Feature extraction network structure diagram

        輸入分辨率為H×W的圖像,首先經(jīng)過兩次卷積核大小為3,通道數(shù)為64的卷積得到conv1;對conv1進行池化操作使圖像分辨率成為原圖像的1/2,以降低維度;對池化結果pool1使用1×1卷積增加通道數(shù)到128得到r1;對r1進行兩次卷積核大小為3,步長為1,通道數(shù)為128的卷積得到conv2;將r1與conv2在通道維度上相加,這樣便將上一層的輸出作用到下一層,達到特征融合的效果.之后的網(wǎng)絡結構依此類推,卷積的通道數(shù)分別為256,512,分辨率分別為原圖像的1/4,1/8,每個卷積層之后跟隨修正線性單元(Relu),在每一次池化后都進行1×1卷積,將結果作用于下一層,網(wǎng)絡截止至pool4,最后對特征圖進行L2標準化.

        1.2.2 基于多分支注意力的特征匹配模塊設計

        特征匹配層用來計算運動圖像特征圖fM和參考圖像特征圖fF的局部描述符之間的所有相似性對.利用相關層可以實現(xiàn)初步的特征匹配[7],但由于無人機圖像中存在大面積的弱紋理區(qū)域(如水域,天空等),在特征匹配階段容易造成錯誤的特征匹配,因此,本文加入多分支注意力模塊來過濾錯誤的特征匹配,以增強對模型異常值的魯棒性.

        初始匹配部分相關層以兩張?zhí)卣鲌DfM和fF為輸入,并輸出三維的相關圖CFM∈RH×W×(H×W),將位置(i,j,k)上的每個元素定義為對應位置一對描述符的標量積,其數(shù)學描述為

        CFM(i,j,k)=fM(i,j)TfF(ik,jk),

        (1)

        式中:i∈{1,…,W},j∈{1,…,H},k∈{1,…,W×H};(i,j)和(ik,jk)指在H×W的密集特征圖中的單個特征位置;k=H(jk-1)+ik是(ik,jk)的輔助索引變量,即每個長度為W×H的相關向量;CFM(i,j,k)表示fM中坐標為(i,j)的局部描述符與fF中各局部描述符之間的相似度.

        多分支注意力模塊濾除誤匹配的設計思路為:以相關圖CFM為輸入,并輸出與CFM相同分辨率的權重矩陣W,其中正確匹配的對應位置權重值較大,錯誤匹配的對應位置權重較小.經(jīng)此,原相關圖CFM通過權重矩陣W加權,正確匹配處的值則被增大,而錯誤匹配處的值將減小.在此基礎上,本文設計了一種由兩個平行分支組成的注意力網(wǎng)絡,分別生成兩個權重圖W1和W2,如圖3 所示.圖3 中,每個分支都由編碼和解碼兩部分組成,使用殘差單元作為基本單位,殘差單元的基本結構如圖4 所示.

        圖3 多分支注意力模塊結構圖Fig.3 Multi-branch attention module structure diagram

        圖4 殘差單元結構信息圖Fig.4 Residual unit structure information graph

        編碼部分通過卷積提取高級語義對相關圖進行編碼,解碼部分則通過卷積和上采樣恢復像素.兩個分支的主要區(qū)別在解碼部分.分支①簡單地使用上采樣操作來生成權重圖W1;更精細的分支②在編碼和解碼部分之間加入了跳連接,將低級信息與高級語義信息結合,生成精確的注意力權重圖W2;將W1和W2元素相加起來,生成更精確的權重圖W;使用雙曲正切函數(shù)(tanh)激活W使權重值在[-1,1]區(qū)間,其中(-1,0)和(0,1)分別表示相關圖的抑制和增強;最后,使用權重圖W對輸入的相關圖CFM進行加權,生成改進的相關圖Catt.

        1.2.3 單應性矩陣估計模塊設計

        單應性矩陣估計模塊利用相關圖中的信息來估計兩幅圖像之間的轉換參數(shù).本模塊網(wǎng)絡由兩個卷積層構成,在每個卷積層后進行批量標準化(Batch Normalization,BN)和修正線性單元(Relu),然后使用一個全連接層(Fully Connected Layer)得到維度為8的特征向量,即自由度為8的單應性矩陣,最后采用空間變換網(wǎng)絡(STN)完成對運動圖像的Warp操作.此模塊的詳細參數(shù)信息如表1 所示.

        表1 單應性矩陣估計模塊網(wǎng)絡結構Tab.1 Network structure of homography matrix estimation module

        1.3 損失函數(shù)構建

        (2)

        式中:N為圖像的總像素數(shù).

        (3)

        綜上,訓練模型的損失函數(shù)定義為

        (4)

        式中:λ為感知損失的權重.

        2 實驗結果與分析

        2.1 實驗參數(shù)設置

        使用TensorFlow框架設計整體網(wǎng)絡,采用無人機圖像公開數(shù)據(jù)集UAV-123[17]組成2k對待配準圖像對,包含建筑物、道路、汽車、帆船等不同類別.將所有待配準圖像對分成三部分,即訓練集、驗證集和測試集,劃分比例為0.75∶0.05∶0.2.借助NVIDIA TITAN X GPU服務器訓練網(wǎng)絡,訓練中選擇的初始學習率為0.000 1,每10輪衰減10%,批處理量大小設置為4,一共訓練50輪.經(jīng)過幾次實驗,最終把損失函數(shù)中感知損失的權重λ置為10,使用Adam優(yōu)化器進行神經(jīng)網(wǎng)絡訓練直至收斂.

        2.2 評價指標

        在圖像配準領域中,因配準算法使用場景不同,其對應的質量評價指標也未統(tǒng)一.本文選用目前最常見且具有評價參考意義的評價指標來客觀評估本文方法和對比方法的性能[2].

        2.2.1 結構相似性SSIM

        結構相似性SSIM(Structural Similarity)基于圖像亮度、對比度和結構三個指標衡量圖像的相似性.SSIM值在0到1之間,越接近于1,代表配準效果越好.其對應的計算公式為

        (5)

        式中:μx,μy分別為配準結果圖像和參考圖像中所有像素灰度的均值;σx,σy表示灰度值的標準差;σxy表示圖像協(xié)方差;c1,c2為常量,避免分母為0所帶來的公式錯誤.

        2.2.2 互信息量MI

        兩幅圖像的互信息量MI(Mutual Information)可以通過二者各自的熵和其聯(lián)合熵來反映他們之間的相互關聯(lián)程度.兩幅圖像的互信息越大,相似度越高,配準效果越好.其計算公式定義為

        MI(x,y)=H(x)+H(y)-H(x,y),

        (6)

        式中:x,y分別表示配準結果圖像和參考圖像;H(·)表示熵的計算函數(shù);H(x,y)為圖像對x,y的聯(lián)合熵計算函數(shù).

        2.2.3 平均絕對誤差MAE

        平均絕對誤差MAE(Mean Absolute Error)表示像素位置的絕對誤差平均值,是一種一般形式的誤差平均值.其在做模型評估時,對離群點有較好的魯棒性.MAE的值越小,說明兩幅圖像越相似,即配準效果越好.其計算公式為

        (7)

        式中:xi,yi分別表示配準結果圖像和參考圖像在i位置上的像素值;N代表總像素數(shù).

        2.3 對比實驗

        2.3.1 主觀視覺評價分析

        以待配準圖像對為輸入,以參考圖像作為基準,通過優(yōu)化運動圖像與參考圖像之間的相似性來訓練網(wǎng)絡.訓練完成后,在整個測試集(包括400對待配準無人機圖像)測試該模型,并與經(jīng)典的傳統(tǒng)算法SIFT[3]、ORB[18]和基于深度學習的算法UDHE[14]和CAU-DHE[15]方法的配準結果進行比較.從測試圖像中選擇不同類別的3組待配準圖像對進行比較,并通過圖像拼接來展示配準效果,如圖5 所示.

        圖5 測試集上各方法的配準拼接結果Fig.5 The registration and stitching results of each method on the test set

        在圖5 中,第1行和第2行分別為運動圖像和參考基準圖像,剩下的5行從上到下分別展示了SIFT,ORB,UHDE,CAU-DHE和本文方法的配準結果圖像和參考圖像的拼接結果.從圖中可以看出,傳統(tǒng)的SIFT算法在UAV數(shù)據(jù)集上達到了較好的配準效果,但計算量大,耗時長;ORB算法是在FAST關鍵點檢測和BRIEF特征上進行的,雖然比SIFT算法具有更快的匹配速度,但在圖像配準中對于大的單應性變換性能較差,無法滿足本文無人機圖像的配準拼接要求;UHDE算法是一種基于無監(jiān)督的深度單應性估計模型,其在第3組待配準圖像對上性能較差,魯棒性不強,而且經(jīng)過大的扭曲之后圖像變得模糊,出現(xiàn)了一定的失真現(xiàn)象;CAU-DHE也是一種無監(jiān)督的深度單應性估計算法,在特征提取之后添加了掩膜結構來濾除離群值,從結果圖來看,變換后的圖像仍然存在重影;明顯可以看出,本文方法具有最好的配準拼接效果,變換后的圖像和參考圖像邊緣連接較好,圖像清晰沒有重影.

        2.3.2 客觀指標評價分析

        通過主觀視覺感知分析得出,本文所提方法具有較高的配準性能,但仍然需要詳細的指標數(shù)據(jù)對配準結果進行客觀評價.本文在測試集上計算配準結果圖像和參考圖像的結構相似性(SSIM)、互信息量(MI)、平均絕對誤差(MAE)并進行記錄,將對應的指標數(shù)據(jù)對測試集圖像進行平均,得到最終的評價指標均值,結果如表2 所示.為了測試各算法的實時性,表中還給出了在測試集上各算法的平均配準速度.

        表2 測試集上不同方法評價指標統(tǒng)計表Tab.2 Statistics of evaluation indicators of different methods on the test set

        從表2 可以看出,本文方法在SSIM,MI和MAE指標中均取得最佳效果,SIFT算法次之,而ORB算法的指標最低,與主觀觀察的結果一致.另外,表中所有方法的各項指標均處于較低數(shù)值,主要是由于待配準圖像對之間的差異較大,參考圖像和運動圖像的可重疊范圍較小,配準結果圖像存在大面積黑邊.本文方法的整體評價指標偏高,且計算時間較短,證明了本文方法在無人機圖像配準任務上的有效性.

        2.4 消融實驗

        為了驗證本文無監(jiān)督配準模型的合理性和有效性,進行了消融對比實驗,所有實驗訓練設置均相同.針對本文設計的深度特征提取模塊(R-VGG)、多分支注意力模塊(MBA)和復合損失數(shù)進行消融對比實驗,結果如表3 所示,實驗設計了5種不同的模型:①在初步特征匹配后直接進行單應性估計,沒有添加多分支注意力(MBA);②僅使用感知損失作為網(wǎng)絡訓練的損失函數(shù);③損失函數(shù)只使用均方誤差損失;④采用預訓練的VGG16替代本文設計的R-VGG模塊來提取深度特征;⑤本文方法的完全體.表中三個客觀指標分別為測試集上配準結果圖像和參考圖像的結構相似性(SSIM)、互信息量(MI)和平均絕對誤差(MAE)的平均值.

        表3 消融實驗結果Tab.3 The results of ablation experiments

        對表3 所示結果進行分析:方法④與方法⑤的對比證明了本文所提的R-VGG特征提取網(wǎng)絡的有效性,在特征提取階段采用本文提出的R-VGG網(wǎng)絡結構能夠融合圖像的低、高層特征信息,提取到更有利于后續(xù)特征匹配及空間變換參數(shù)回歸的特征.方法②,方法③與方法⑤的對比表明,使用均方誤差損失和感知損失加權的復合損失函數(shù)來訓練模型,性能會更好,這是由于缺少感知損失的約束時,無法考慮到圖像深層的相似性,當進行大的單應性變換后,圖像容易變得模糊;在只使用感知損失時,忽略了圖像本身的相似性,圖像不能精確對齊.方法①和方法⑤的差異在于方法⑤加入了多分支注意力模塊來濾除誤匹配,在無人機圖像配準過程中,由于弱紋理帶來的特征誤匹配不可避免,直接進行單應性估計會受到錯誤匹配的影響,從而使配準精度下降.在單應性估計之前加入多分支的注意力模塊來濾除錯誤的特征匹配,則配準精度得到顯著提升.

        對比表3 中各項指標也驗證了設置多分支注意力模塊的必要性和有效性.總的來說,本文所設計的各模塊能有效提高無人機圖像的配準精度和配準結果圖像的質量.

        3 結 論

        本文提出了一種基于無監(jiān)督學習的無人機圖像配準模型.首先,充分利用深度學習的高性能,設計了R-VGG特征提取模塊,篩選出具有魯棒特性的低、高層融合特征;其次,在特征匹配模塊加入了多分支注意力(MBA)約束,濾除錯誤匹配,從而提高了配準精度;此外,使用內(nèi)容損失和感知損失加權的復合損失函數(shù),提高了網(wǎng)絡性能.通過視覺感知分析和客觀指標分析,驗證了本文方法在無人機航拍圖像配準領域的有效性和穩(wěn)定性.在今后的工作中,將研究分析無人機圖像的深度信息并對本文方法進行改進以充分利用圖像信息來提高配準精度.

        猜你喜歡
        分支特征提取損失
        少問一句,損失千金
        胖胖損失了多少元
        巧分支與枝
        學生天地(2019年28期)2019-08-25 08:50:54
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        一類擬齊次多項式中心的極限環(huán)分支
        Bagging RCSP腦電特征提取算法
        一般自由碰撞的最大動能損失
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        生成分支q-矩陣的零流出性
        久久aⅴ人妻少妇嫩草影院| 成人国产高清av一区二区三区| 日本人妖熟女另类二区| 人妻 日韩 欧美 综合 制服| 国产精品乱码在线观看| 中文字幕乱码人妻无码久久久1| 精品国产av一区二区三区| 邻居少妇张开腿让我爽了一夜| 无码中文字幕日韩专区视频| 亚洲欧美日韩国产一区二区精品| 色哟哟精品中文字幕乱码| 国产极品裸体av在线激情网| 人妻激情另类乱人伦人妻| 免费jjzz在线播放国产| 在线一区二区三区免费视频观看 | 曰韩精品无码一区二区三区 | 久久这里都是精品99| 国产亚洲精品美女久久久| 欧美va亚洲va在线观看| 亚洲一区二区三在线播放| 很黄很色的女同视频一区二区 | 亚洲av无码久久精品色欲| 国内精品一区二区三区| 中文字幕精品一区二区日本| 久久精品av在线观看| 国产在线精品一区二区在线看 | 国产精品麻豆成人av| 精品人妻中文av一区二区三区| 久久国内精品自在自线图片| 免费无码中文字幕A级毛片| 亚洲精品熟女av影院| 亚洲国产日韩综一区二区在性色 | 中国丰满大乳乳液| 久久亚洲精彩无码天堂| 久久蜜桃资源一区二区| 看黄a大片日本真人视频直播| 亚洲欧洲国产日产国码无码 | 久久国产精品久久久久久 | 久久亚洲道色宗和久久| 在线视频免费自拍亚洲| 国产三级在线观看完整版|