周美琪,高陳強(qiáng),木 松,劉芳岑
(重慶郵電大學(xué) 通信與信息工程學(xué)院, 重慶 400065)
紅外圖像和可見(jiàn)光圖像包含的信息具有很強(qiáng)的互補(bǔ)性。紅外圖像根據(jù)物體的熱輻射成像,有不受光線、背景雜波、成像距離的影響的優(yōu)勢(shì),但紅外圖像會(huì)丟失紋理、結(jié)構(gòu)等細(xì)節(jié)信息[1];可見(jiàn)光圖像通過(guò)物體的反射成像,有豐富的顏色和紋理信息,但容易受到照明,遮擋等因素的影響。同時(shí)利用紅外與可見(jiàn)光兩種圖像對(duì)在計(jì)算機(jī)視覺(jué)的各項(xiàng)任務(wù)中存在較大的優(yōu)勢(shì),而準(zhǔn)確、高效的圖像配準(zhǔn)是重要前提。紅外與可見(jiàn)光圖像配準(zhǔn)的定義請(qǐng)參見(jiàn)文獻(xiàn)[2]。紅外與可見(jiàn)光圖像配準(zhǔn)技術(shù)已在遙感圖像、現(xiàn)代軍隊(duì)、夜間監(jiān)視等領(lǐng)域有廣泛的應(yīng)用。
現(xiàn)有的圖像配準(zhǔn)方法主要分為基于區(qū)域的方法和基于特征的方法。基于區(qū)域的方法使用圖像相同部分中原始的像素,通過(guò)尋找參考圖像和待配準(zhǔn)圖像之間的最小距離,達(dá)到配準(zhǔn)的效果。如相關(guān)運(yùn)算的方法和互信息方法[3-6]。基于特征的方法首先提取圖像中穩(wěn)定的特征,再通過(guò)相關(guān)矩陣實(shí)現(xiàn)特征點(diǎn)匹配。如常見(jiàn)的基于尺度不變特征變換(scale-invariant feature transform,SIFT)算法,以及加速的尺度不變特征變換(speeded up robust features,SURF)算法、彩色尺度不變特征變換(colored scale-invariant feature transform,CSIFT)算法。
在本文中可見(jiàn)光圖像模態(tài)轉(zhuǎn)換后得到的紅外光譜信息對(duì)提取模態(tài)獨(dú)立鄰域特征[7]至關(guān)重要,首先將可見(jiàn)光圖像轉(zhuǎn)換生成類(lèi)似于紅外光譜圖像,然后提取生成的紅外圖像和原紅外圖像的模態(tài)獨(dú)立鄰域特征,實(shí)現(xiàn)圖像配準(zhǔn)。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的方法相比,本文的方法具有較好的配準(zhǔn)效果。
圖1展示了本文的算法框架,首先使用紅外與可見(jiàn)光圖像對(duì)訓(xùn)練生成網(wǎng)絡(luò),得到生成圖像,然后對(duì)生成圖像與紅外圖像提取模態(tài)獨(dú)立鄰域特征,再計(jì)算兩者變形域,得到配準(zhǔn)圖像。
圖1 本文算法框架
在本文中使用圖像生成來(lái)實(shí)現(xiàn)模態(tài)轉(zhuǎn)換,以減少可見(jiàn)光與紅外圖像的光譜的差異性,進(jìn)而在近似模態(tài)進(jìn)行圖像配準(zhǔn)。圖像生成的方法采用生成式對(duì)抗網(wǎng)絡(luò)模型(generative adversarial network,GAN)。生成式對(duì)抗網(wǎng)絡(luò)最早是由Ian Goodfellow等提出,其基本思想是學(xué)習(xí)訓(xùn)練樣本的概率分布。其實(shí)現(xiàn)的方法是讓生成網(wǎng)絡(luò)與對(duì)抗網(wǎng)絡(luò)互相競(jìng)爭(zhēng),其中生成網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練集中圖片的概率分布,用習(xí)得的概率分布將隨機(jī)噪聲轉(zhuǎn)變生成新的樣本。判別網(wǎng)絡(luò)同時(shí)觀察真實(shí)和生成的樣本,并判斷這個(gè)樣本真?zhèn)巍T诖嘶A(chǔ)上Isola, Phillip等提出條件生成式對(duì)抗網(wǎng)絡(luò)(conditional GAN,CGAN)[8],將待轉(zhuǎn)換的圖像作為條件,高斯噪聲作為生成器的輸入,轉(zhuǎn)換為需要的目標(biāo)圖像。為了讓生成器產(chǎn)生的圖像逼近真實(shí)的目標(biāo)圖像,生成器的損失函數(shù)添加目標(biāo)圖像匹配度的懲罰項(xiàng)。該網(wǎng)絡(luò)在訓(xùn)練時(shí)不需要對(duì)隱變量做推斷,生成器的參數(shù)更新不是直接來(lái)自于數(shù)據(jù)樣本而是使用來(lái)自判別器的反傳梯度,在不同的圖像生成任務(wù)中都取得了較好的效果。本文采用該網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行模態(tài)轉(zhuǎn)換,原理如圖2所示。
圖2 GAN工作原理示例
在圖像配準(zhǔn)任務(wù)中,有許多特征可以用來(lái)計(jì)算圖像的相似性,例如角點(diǎn)、邊緣、漸變、紋理或強(qiáng)度值。大多數(shù)基于像素強(qiáng)度的相似性度量?jī)H使用這些特征中的一個(gè),或者定義不同特征的組合以及它們之間的權(quán)重。此外,由于圖像塊能夠較好表示不同類(lèi)型的圖像特征(包括邊緣、點(diǎn)和紋理),因此配準(zhǔn)算法常采用圖像塊進(jìn)行相似度計(jì)算。本文采用多種特征融合的方式,并通過(guò)圖像塊計(jì)算圖像的局部獨(dú)立特征。
模態(tài)獨(dú)立鄰域算子是圖像特征的局部表示,是一個(gè)獨(dú)立于不同圖像模態(tài)、對(duì)比度和噪聲水平的圖像描述算子。在經(jīng)過(guò)模態(tài)轉(zhuǎn)換后,紅外與可見(jiàn)光圖像仍然存在細(xì)節(jié)上的差別。而模態(tài)獨(dú)立鄰域算子能表示不同類(lèi)型的圖像特征,可以通過(guò)一種模態(tài)中的圖像塊的相似性估計(jì)圖像特征,實(shí)現(xiàn)跨模態(tài)共享。在本文方法中,對(duì)生成圖像與紅外圖像兩個(gè)模態(tài)的圖像塊分別提取模態(tài)獨(dú)立鄰域算子,表示局部鄰域中的獨(dú)特圖像結(jié)構(gòu),然后計(jì)算兩者變形域,得到配準(zhǔn)圖像。模態(tài)獨(dú)立鄰域算子通常可以由距離Dp、方差估計(jì)V和空間搜索區(qū)域R來(lái)定義
(1)
其中,n是歸一化常數(shù)(最大值為1),r∈R是搜索區(qū)域。使用模態(tài)獨(dú)立鄰域算子,可以通過(guò)位置x處的大小為|R|的向量表示圖像。式(1)中同一圖像的兩個(gè)像素x1和x2之間的距離測(cè)量表示:分別以x1和x2為中心,大小為(2p+1)d(d為圖像維度)的兩個(gè)圖像塊P之間的所有像素的平方差(sum of squared differences,SSD)的總和
(2)
Dp(I,x,x+r)=C?(I-I′(r))2
(3)
(4)
(5)
噪聲ε在整個(gè)圖像域Ω上取平均值,以獲得恒定的方差量度V(I,x),這增加了模態(tài)獨(dú)立鄰域算子對(duì)空間變化噪聲的靈敏度,有利于提取模態(tài)獨(dú)立鄰域特征。確定V(I,x)的方法是在四鄰域n∈N內(nèi)使用圖像塊距離本身的平均值
(6)
通過(guò)式(6),可以自動(dòng)計(jì)算模態(tài)獨(dú)立鄰域特征,無(wú)需其它參數(shù)。圖3中示出了模態(tài)獨(dú)立鄰域算子對(duì)于生成紅外圖像和紅外圖像的兩個(gè)不同圖像特征。
圖3 模態(tài)獨(dú)立鄰域算子在不同模態(tài)的特征
在圖像配準(zhǔn)中,本文的目標(biāo)是最小化變形場(chǎng)u的成本函數(shù),該目標(biāo)函數(shù)由非線性相似項(xiàng)φ和擴(kuò)散正則化項(xiàng)組成
(7)
(8)
使用連續(xù)的迭代求解器求解等式(8),通過(guò)添加更新步驟ugn來(lái)計(jì)算最終變形字段。參數(shù)α平衡相似性項(xiàng)與歸一化項(xiàng),α的值通過(guò)實(shí)驗(yàn)確定。
評(píng)估數(shù)據(jù)集包含1000張圖像,12個(gè)不同的場(chǎng)景,包括學(xué)校、街道、游樂(lè)場(chǎng)、公園等。場(chǎng)景中的主要對(duì)象是行人、植物、建筑物和車(chē)輛。紅外圖像的分辨率為293×256,可見(jiàn)光圖像的分辨率為720×480。待配準(zhǔn)的圖像對(duì)來(lái)自同一時(shí)間同一場(chǎng)景的紅外和可見(jiàn)光視頻,圖4展示了待配準(zhǔn)的紅外圖片與對(duì)應(yīng)的可見(jiàn)光圖片實(shí)例。為了驗(yàn)證本文算法的效果,分別與兩種經(jīng)典配準(zhǔn)方法進(jìn)行比較:①基于SURF特征的引導(dǎo)匹配圖像配準(zhǔn)方法;②基于相位特征變換的圖像配準(zhǔn)方法。
圖4 紅外圖片與對(duì)應(yīng)的可見(jiàn)光圖片示例
為了定量評(píng)估本文算法,文中使用學(xué)術(shù)界通用的平均絕對(duì)誤差(mean absolute error,MAE)、峰值信噪比(peak signal to noise ratio,PSNR)和圖片間的歸一化互信息NMI(normalized mutual information,NMI)作為評(píng)價(jià)算法的指標(biāo)。MAE的定義如下
(9)
其中,fi表示預(yù)測(cè)值,yi表示真實(shí)值,平均絕對(duì)誤差能反映預(yù)測(cè)值誤差的實(shí)際情況。PSNR的定義如下
(10)
(11)
MSE表示均方差,式(10)中MAXI表示圖像點(diǎn)顏色的最大數(shù)值。NMI的定義如下
(12)
其中,H(A)和H(B)代表圖像A和圖像B的邊緣熵,H(A,B)表示兩幅圖像的聯(lián)合熵。歸一化互信息將重疊區(qū)域的變化考慮在內(nèi),能較好反映圖像間相似程度。
圖5第一行展示了兩組待配準(zhǔn)的紅外與可見(jiàn)光圖像對(duì),余下3行依次為3種不同方法實(shí)現(xiàn)紅外與可見(jiàn)光圖像配準(zhǔn)效果圖和融合圖:第二行為根據(jù)模態(tài)獨(dú)立鄰域特征實(shí)現(xiàn)紅外與可見(jiàn)光圖像對(duì)配準(zhǔn)示例;第三行為根據(jù)SURF特征實(shí)現(xiàn)配準(zhǔn)示例;第四行為根據(jù)相位相關(guān)特征實(shí)現(xiàn)配準(zhǔn)示例。從圖中可以看出:本文所用的基于模態(tài)獨(dú)立鄰域特征的圖像變形配準(zhǔn)方法綜合效果最佳;基于相位特征的方法有較好效果;SURF特征方法在部分圖片上沒(méi)有效果,由融合圖片可看出圖中人物頭部輪廓形狀未完全重合。
圖5 紅外與可見(jiàn)光圖片配準(zhǔn)結(jié)果示例
為了定量分析基于模態(tài)轉(zhuǎn)換和模態(tài)獨(dú)立鄰域特征的紅外與可見(jiàn)光圖像配準(zhǔn)方法的效果,我們?cè)诒?中展示了3種方法配準(zhǔn)后的圖像與原圖像的結(jié)果,表2展示了3種方法的融合圖片與原圖比較結(jié)果。其中MAE越低說(shuō)明配準(zhǔn)效果越好;PSNR與NMI越高,配準(zhǔn)效果越好。由表1中數(shù)據(jù)可以看出基于模態(tài)獨(dú)立鄰域特征的紅外與可見(jiàn)光圖像配準(zhǔn)方法在MAE和PSNR兩項(xiàng)指標(biāo)上均有最佳表現(xiàn),在NMI上與其它方法相當(dāng)。
表1 3種方法的配準(zhǔn)圖片與原圖比較結(jié)果
表2 3種方法的融合圖片與原圖比較結(jié)果
本文提出基于模態(tài)轉(zhuǎn)換的紅外與可見(jiàn)光圖像配準(zhǔn)方法,針對(duì)紅外與可見(jiàn)光圖像灰度差異大的問(wèn)題,基于圖像塊的相似性,提取局部鄰域中的獨(dú)特結(jié)構(gòu)并保存特征,圖像轉(zhuǎn)換過(guò)程中實(shí)現(xiàn)跨模態(tài)特征共享。同時(shí)針對(duì)相似灰度較多的情況下景物間可能存在誤配準(zhǔn)的情況,采用歸一化互信息作為配準(zhǔn)度量。實(shí)驗(yàn)結(jié)果表明,模態(tài)轉(zhuǎn)換后的紅外光譜信息對(duì)提取模態(tài)獨(dú)立鄰域特征具有效性,在同類(lèi)算法中有較好的配準(zhǔn)效果,為進(jìn)一步的圖片分析提供了基礎(chǔ)。