羅銀輝,王星怡,吳岳洲
(中國(guó)民用航空飛行學(xué)院計(jì)算機(jī)學(xué)院,四川 廣漢 618307)
圖像配準(zhǔn)是一項(xiàng)將不同的圖像變換到同一坐標(biāo)系下并產(chǎn)生相應(yīng)變換矩陣的技術(shù),也是實(shí)現(xiàn)圖像融合、圖像拼接以及目標(biāo)檢測(cè)的基礎(chǔ)[1]。隨著配準(zhǔn)技術(shù)的快速發(fā)展,以及紅外圖像和可見(jiàn)光圖像能提供互補(bǔ)信息的特性,紅外與可見(jiàn)光圖像的配準(zhǔn)技術(shù)越來(lái)越引起研究人員的關(guān)注,但它們的配準(zhǔn)難度較大。
現(xiàn)有的紅外與可見(jiàn)光圖像配準(zhǔn)方法主要是基于區(qū)域、基于特征和基于神經(jīng)網(wǎng)絡(luò)的方法?;趨^(qū)域的方法通過(guò)尋找兩個(gè)圖像對(duì)間的最小距離來(lái)達(dá)到配準(zhǔn)的效果,但這類算法普遍對(duì)灰度敏感[2]。文獻(xiàn)[3]利用帶窗口灰度權(quán)重算法(GWW)實(shí)現(xiàn)了更高的匹配精度和匹配效率。文獻(xiàn)[4]提出了一種基于顯著性梯度的歸一化互信息算法,并擁有更高的收斂性和配準(zhǔn)率?;谔卣鞯姆椒ㄍㄟ^(guò)建立可靠的特征匹配來(lái)解決圖像對(duì)間的尺度差異,但這類算法對(duì)圖像質(zhì)量要求較高且難以提取共有特征點(diǎn)[5]。文獻(xiàn)[6]在輪廓圖像中檢測(cè)圖像角點(diǎn),將其作為特征點(diǎn),實(shí)現(xiàn)了高精度的圖像配準(zhǔn)。文獻(xiàn)[7]通過(guò)改進(jìn)SIFT 梯度定義,來(lái)克服圖像灰度,提高了配準(zhǔn)精度?;谏窠?jīng)網(wǎng)絡(luò)的方法通常采用端到端的網(wǎng)絡(luò)實(shí)現(xiàn)圖像配準(zhǔn),這是最近較為新穎的方向。文獻(xiàn)[8]通過(guò)學(xué)習(xí)模態(tài)不變特征來(lái)實(shí)現(xiàn)圖像配準(zhǔn),提升了配準(zhǔn)精度。
本文針對(duì)難以提取紅外與可見(jiàn)光圖像相似特征的問(wèn)題,以及受文獻(xiàn)[9]提出的無(wú)監(jiān)督深度單應(yīng)性方法的啟發(fā),提出了一種基于殘差密集網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像配準(zhǔn)方法。本文通過(guò)引入殘差密集網(wǎng)絡(luò)(residual densenetwork,RDN)[10]來(lái)自適應(yīng)提取深層特征和淺層特征,從而獲得足夠多的有效特征并實(shí)現(xiàn)較高精度的圖像配準(zhǔn)。
基于殘差密集網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像配準(zhǔn)方法的網(wǎng)絡(luò)框架如圖1 所示。首先,灰度圖像對(duì)Ia和Ib分別通過(guò)特征提取網(wǎng)絡(luò)(FEN)和掩碼預(yù)測(cè)網(wǎng)絡(luò)(MPN)來(lái)產(chǎn)生對(duì)應(yīng)的特征映射和掩碼。然后,分別將對(duì)應(yīng)的特征映射和掩碼相乘,得到加權(quán)特征映射Ga和Gb,并將其通道級(jí)聯(lián)產(chǎn)生Ga,b。最后將Ga,b送入到由ResNet-34 組成的單應(yīng)性網(wǎng)絡(luò)中,得到兩個(gè)灰度圖像對(duì)的偏移矩陣H,進(jìn)而產(chǎn)生變換矩陣來(lái)實(shí)現(xiàn)配準(zhǔn)。
圖1 網(wǎng)絡(luò)框架
1.1.1 特征提取網(wǎng)絡(luò)FEN
由于特征提取的好壞嚴(yán)重影響預(yù)測(cè)圖像的質(zhì)量,而紅外圖像和可見(jiàn)光圖像的巨大成像差異也為配準(zhǔn)工作帶來(lái)了巨大挑戰(zhàn),因此本文構(gòu)建了特征提取網(wǎng)絡(luò)(feature extraction network,F(xiàn)EN)來(lái)提取圖像對(duì)的多層次特征。FEN 是基于殘差密集網(wǎng)絡(luò)來(lái)進(jìn)行構(gòu)建的,分別從局部和全局兩個(gè)角度來(lái)提取特征,并通過(guò)融合將淺層特征和深層特征結(jié)合到一起,從而,自適應(yīng)地學(xué)習(xí)更有效的特征,其網(wǎng)絡(luò)框架如圖2所示。
圖2 特征提取網(wǎng)絡(luò)框架
首先,源圖像Ik(k=a,b)經(jīng)過(guò)兩個(gè)卷積層,分別得到淺層特征F-1和F0,然后通過(guò)三個(gè)殘差密集塊(residual dense block,RDB)提取密集特征,其計(jì)算公式如下:
其中,HRDB,d(·)表示第d 個(gè)RDB 的運(yùn)算;Fd表示第d 個(gè)RDB提取的密集特征。
其次,對(duì)三個(gè)RDB 的局部密集特征進(jìn)行融合,得到多層次局部密集特征FGF,其計(jì)算公式如下:
其中,HGFF()· 表示對(duì)三個(gè)RDB 的融合運(yùn)算,其中它由1×1和3×3卷積塊組成。
最后,利用全局殘差學(xué)習(xí)來(lái)提取特征,從而得到稠密的特征映射,并通過(guò)一個(gè)卷積層來(lái)得到單通道特征映射Fk,其計(jì)算公式如下:
其中,ω表示卷積層的權(quán)值;σ表示ReLU 激活函數(shù)。為了簡(jiǎn)單起見(jiàn),這里省略了偏置項(xiàng)。
1.1.2 掩碼預(yù)測(cè)網(wǎng)絡(luò)MPN
為了突出顯示特征映射中的重要特征,構(gòu)建了掩碼預(yù)測(cè)網(wǎng)絡(luò)(mask prediction network,MPN)來(lái)細(xì)化特征。MPN是基于全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[11]來(lái)進(jìn)行構(gòu)建的,它所產(chǎn)生的掩碼對(duì)特征映射進(jìn)一步加權(quán),從而產(chǎn)生加權(quán)特征映射,其計(jì)算公式如下:
其中,Mk表示MPN所產(chǎn)生的掩碼。
1.1.3 單應(yīng)性網(wǎng)絡(luò)
單應(yīng)性網(wǎng)絡(luò)是使用ResNet-34 網(wǎng)絡(luò)架構(gòu)來(lái)進(jìn)行構(gòu)建的,它將通道級(jí)聯(lián)后的特征映射Ga,b作為整個(gè)網(wǎng)絡(luò)的輸入,從而得到紅外圖像與可見(jiàn)光圖像之間的偏移矩陣H,該矩陣是由八個(gè)值所組成的。然后通過(guò)直接線性變換(direct linear transformation,DLT)[12]將偏移矩陣H變換為變換矩陣Hab,用于源圖像的變換,從而達(dá)到圖像配準(zhǔn)的效果。
本文選取Triplet Loss[9]作為網(wǎng)絡(luò)的損失函數(shù),它根據(jù)學(xué)習(xí)到的深度特征來(lái)計(jì)算損失,而不像傳統(tǒng)損失函數(shù)那樣直接比較圖像內(nèi)容,這樣將有助于網(wǎng)絡(luò)進(jìn)行更好的優(yōu)化,其計(jì)算公式如下:
其中,Ia和Ib分別表示紅外與可見(jiàn)光圖像的灰度圖;Hab表示將Ia變換到Ib的同一視角下的變換矩陣,Hba亦同理;和分別表示使用對(duì)應(yīng)灰度圖與變換矩陣相乘后得到的扭曲圖像;I表示三階單位矩陣;λ和μ表示超參數(shù),且λ=2.0,μ=0.01。
2.1.1 訓(xùn)練集與測(cè)試集
為了驗(yàn)證本文方法的有效性,從OTCVBS、INO和TNO 等公開(kāi)數(shù)據(jù)集中分別選取115 張和42 張圖像對(duì)用作訓(xùn)練集和測(cè)試集。
2.1.2 數(shù)據(jù)集預(yù)處理
首先,訓(xùn)練集的數(shù)據(jù)量較少,因此采用數(shù)據(jù)增廣的方法來(lái)增加數(shù)據(jù)量。其次,使用文獻(xiàn)[13]中的數(shù)據(jù)集制作方法來(lái)生成未配準(zhǔn)的紅外和可見(jiàn)光圖像對(duì)。同時(shí),在原紅外圖像中選取與未配準(zhǔn)圖像塊具有相同角點(diǎn)位置的圖像塊,以生成已配準(zhǔn)的紅外圖像IGT,并用于評(píng)價(jià)指標(biāo)計(jì)算,從而減少紅外圖像和可見(jiàn)光圖像本身差異所帶來(lái)的誤差,每幅圖像的像素為128×128。最后,對(duì)未配準(zhǔn)的紅外和可見(jiàn)光圖像對(duì)進(jìn)行標(biāo)準(zhǔn)化和灰度化,以獲得整個(gè)網(wǎng)絡(luò)的輸入圖像對(duì)Ia和Ib。
為了評(píng)估所提方法的配準(zhǔn)效果,本文選取結(jié)構(gòu)相似性(structural similarity,SSIM)[14]、平均角點(diǎn)誤差(average corner error,ACE)[15]和互信息量(mutual information,MI)[16]作為本文的評(píng)價(jià)指標(biāo)。取x和y分別為預(yù)測(cè)紅外圖像和已配準(zhǔn)紅外圖像,并以此來(lái)計(jì)算評(píng)價(jià)指標(biāo)。
SSIM 值越大,表示圖像配準(zhǔn)效果越好,計(jì)算公式如下:
其中,μx和μy分別表示圖像x和y中所有像素的均值;σx和σy分別表示圖像x和y的標(biāo)準(zhǔn)差;σxy表示兩個(gè)圖像的協(xié)方差;c1和c2表示維持穩(wěn)定的常數(shù)。
ACE 是指預(yù)測(cè)紅外圖像與已配準(zhǔn)紅外圖像的四對(duì)頂點(diǎn)坐標(biāo)的均方誤差,值越小表示配準(zhǔn)精度越高,其計(jì)算公式如下:
其中,xij和yij分別表示預(yù)測(cè)紅外圖像和已配準(zhǔn)紅外圖像四對(duì)頂點(diǎn)的某一坐標(biāo);n表示測(cè)試集中共有的圖像對(duì)總數(shù)。
MI 值越大,表示圖像配準(zhǔn)效果越好,其計(jì)算公式如下:
其中,H(·)和H(x,y)分別表示熵和聯(lián)合熵的計(jì)算函數(shù)。
本文實(shí)驗(yàn)在Windows10 操作系統(tǒng)上進(jìn)行的,CPU 為Intel i9-10980XE,GPU為NVIDIA GeForce RTX 3090,采用的深度學(xué)習(xí)框架是Pytorch。在訓(xùn)練過(guò)程中,本文使用Adam 作為網(wǎng)絡(luò)優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.00001,batch_size 設(shè)置為24,epoch 設(shè)置為50,其中每迭代一個(gè)epoch,學(xué)習(xí)率下降0.8。
本文在三組場(chǎng)景上對(duì)CAU-DHE[9]和本文方法進(jìn)行了對(duì)比測(cè)試,其配準(zhǔn)結(jié)果如圖3所示,其中配準(zhǔn)結(jié)果是由預(yù)測(cè)紅外圖像的藍(lán)色通道和綠色通道與已配準(zhǔn)紅外圖像的紅色通道進(jìn)行融合所得的,同時(shí)對(duì)局部區(qū)域進(jìn)行放大以便觀察配準(zhǔn)細(xì)節(jié),若出現(xiàn)重影則表示此處未配準(zhǔn)。由圖3 可知,本文方法的配準(zhǔn)效果略好于CAU-DHE。首先CAU-DHE 的第一組配準(zhǔn)圖像邊緣出現(xiàn)了黑邊,而本文方法卻可以實(shí)現(xiàn)全景對(duì)準(zhǔn)。其次本文方法的細(xì)節(jié)處對(duì)準(zhǔn)效果也略優(yōu)于CAU-DHE。
圖3 圖像配準(zhǔn)結(jié)果
為了定量驗(yàn)證本文方法的優(yōu)勢(shì),與CAU-DHE 在42 組測(cè)試圖像對(duì)上進(jìn)行了對(duì)比測(cè)試,評(píng)估結(jié)果如表1所示。由表1可知,本文方法在SSIM、ACE 和MI等評(píng)價(jià)指標(biāo)上比CAU-DHE 分別提升了0.4%、21.5%和1.4%。提升的主要原因是使用了更為優(yōu)異的特征提取網(wǎng)絡(luò)來(lái)提取紅外圖像與可見(jiàn)光圖像的多層次特征,并得到更優(yōu)異的配準(zhǔn)圖像,但也是由于這一原因,耗時(shí)也多花了0.143s。
表1 配準(zhǔn)算法評(píng)估結(jié)果
針對(duì)現(xiàn)有圖像配準(zhǔn)方法難以提取紅外與可見(jiàn)光圖像有效特征的問(wèn)題,本文提出了一種基于殘差密集網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像配準(zhǔn)方法。該方法通過(guò)引入殘差密集網(wǎng)絡(luò)來(lái)提取圖像對(duì)的深層次特征,然后再通過(guò)掩碼對(duì)特征進(jìn)行加權(quán),從而產(chǎn)生更精細(xì)的特征,最終實(shí)現(xiàn)了較高精度的配準(zhǔn)。