鄭艷飛,李業(yè)偉
(1.日照廣播電視大學(xué),山東 日照 276826;2.山東師范大學(xué),山東 濟(jì)南 250358)
基于改進(jìn)的視覺關(guān)注模型和MVSC的圖像拼接算法
鄭艷飛1,李業(yè)偉2
(1.日照廣播電視大學(xué),山東 日照 276826;2.山東師范大學(xué),山東 濟(jì)南 250358)
圖像拼接的實(shí)質(zhì)是將針對同一場景的相互有部分重疊的一系列圖片拼結(jié)成大幅的、寬視角的、與原始圖像接近且失真小、沒有明顯的縫合線的高分辨率圖像。本文首先概述了圖像拼接方法中四類典型的方法,并分析各自的特性;介紹了傳統(tǒng)視覺關(guān)注模型,并進(jìn)行了改進(jìn),利用改進(jìn)的視覺關(guān)注模型算法獲取圖像的具有重復(fù)的顯著區(qū)域;利用圖像配準(zhǔn)算法對重復(fù)的顯著區(qū)域進(jìn)行匹配,并確定源克隆域和目標(biāo)克隆域;利用均值無縫克?。∕VSC)算法對源克隆域和目標(biāo)克隆域進(jìn)行融合;最后,利用基于改進(jìn)的視覺關(guān)注模型和MVSC的圖像拼接算法完成圖像拼接。實(shí)驗(yàn)結(jié)果表明:該算法不僅自動準(zhǔn)確地獲取顯著區(qū)域,而且降低了圖像配準(zhǔn)的復(fù)雜性,提高了圖像拼接的質(zhì)量。
視覺關(guān)注模型;顯著區(qū)域;圖像配準(zhǔn);MVSC;全景圖像
目前在許多全景圖拍攝過程中,普通相機(jī)無法獲取超寬視角甚至360°的全景圖,即使能夠拍攝,但因?yàn)橄鄼C(jī)的分辨率一定,拍攝的場景越大,得到的圖像分辨率就越低。因此,為了解決這一難題,圖像拼接技術(shù)就起了關(guān)鍵的作用。圖像拼接是將一組重疊圖像的集合拼接成一幅較寬視角的無縫高分辨率圖像或全景圖像的技術(shù),其本質(zhì)是對待拼接圖像重疊部分進(jìn)行圖像配準(zhǔn)和圖像融合的過程。圖像配準(zhǔn)是圖像融合的基礎(chǔ),而且圖像配準(zhǔn)算法的計(jì)算量一般非常大,因此圖像拼接技術(shù)的發(fā)展很大程度上取決于圖像配準(zhǔn)技術(shù)的創(chuàng)新。按照圖像配準(zhǔn)方法對圖像拼接技術(shù)進(jìn)行分類可分為兩大類:一類是基于特征的圖像拼接,它是利用圖像的明顯特征來估計(jì)圖像之間的變換,而不是利用圖像全部的信息,其中圖像明顯的特征主要有角點(diǎn)、輪廓和尺度不變特征變換(SIFT)三種。第一種是基于角點(diǎn)檢測的圖像拼接,其中Harris角點(diǎn)檢測算法[1]和SUSAN角點(diǎn)檢測算法[2]是角點(diǎn)檢測中的經(jīng)典算法。這些算法應(yīng)用于圖像拼接的優(yōu)點(diǎn)是計(jì)算量小,配準(zhǔn)精度高;缺點(diǎn)是邊緣信息少的圖像、大旋轉(zhuǎn)和大尺度縮放的圖像和多光譜圖像不能很好地進(jìn)行拼接。第二種是基于輪廓特征的圖像拼接,其中LI Hui等人[3]在1995年提出了基于輪廓特征的圖像配準(zhǔn)算法,它為圖像拼接提供了新的思路和方法。基于輪廓特征的拼接算法優(yōu)點(diǎn)是適用于光照不一致、存在尺度關(guān)系及旋轉(zhuǎn)的圖像;缺點(diǎn)是對于輪廓特征不明顯或噪聲干擾較大的圖像不適用。第三種是基于SIFT的圖像拼接,SIFT算法由 Lowe于1999年提出,2004年完善總結(jié)[4]。SIFT算法被應(yīng)用于圖像拼接的優(yōu)點(diǎn)是對旋轉(zhuǎn)、尺度縮放、亮度變化的圖像具有一定的魯棒性,但是算法復(fù)雜度較高。第二類是基于區(qū)域的圖像拼接,其代表是基于對數(shù)極坐標(biāo)變換的圖像拼接。最早由Reddy等人利用對數(shù)極坐標(biāo)變換提出了一種頻域相位相關(guān)算法[5],其優(yōu)點(diǎn)是對數(shù)極坐標(biāo)變換和相位相關(guān)法能有效解決平移、旋轉(zhuǎn)和尺度縮放問題;缺點(diǎn)是要求待配準(zhǔn)的圖像間有較高的重合度。近年來,有關(guān)視覺關(guān)注模型[6]理論和均值無縫克隆算法[7]的提出,分別在顯著區(qū)域提取和圖像融合領(lǐng)域中初顯身手,尤其改進(jìn)的視覺關(guān)注模型算法在獲取顯著區(qū)域的同時獲得其區(qū)域的輪廓、灰度級等信息,在圖像配準(zhǔn)時,只需圖像配準(zhǔn)算法對其判斷,降低了圖像配準(zhǔn)的復(fù)雜度,減少了圖像配準(zhǔn)的計(jì)算量。均值無縫克隆算法雖處在發(fā)展當(dāng)中,但其對圖像融合的性能有效地克服了小波分析的缺陷,為圖像修復(fù)提供了新的思路和解決方案。本文也正是基于上述理論提出了一種基于改進(jìn)的視覺關(guān)注模型和MVSC的圖像拼接算法。其算法的基本步驟可歸納用圖1的流程圖所表示。
圖1 本文圖像拼接算法流程圖
圖像預(yù)處理,就是對輸入圖像進(jìn)行去噪以及對圖像進(jìn)行某種幾何變換(如傅里葉變換、小波變換等)等一系列的操作過程。在全景圖拼接中,由于圖像配準(zhǔn)的初始配準(zhǔn)范圍廣,數(shù)值計(jì)算量大,造成配準(zhǔn)的效率和精度都很低。利用圖像預(yù)處理可以有效地實(shí)現(xiàn)圖像預(yù)定位,以便粗略確定配準(zhǔn)位置,縮小圖像拼接時的搜索范圍,提高拼接速度。
圖像配準(zhǔn),就是采用一定的匹配策略,找出待拼接圖像中的顯著區(qū)域在參考圖像中對應(yīng)的位置,進(jìn)而確定兩幅圖像之間的變換關(guān)系。圖像配準(zhǔn)是圖像融合的基礎(chǔ),也是圖像拼接的關(guān)鍵。圖像配準(zhǔn)的精確程度直接關(guān)系到圖像拼接的質(zhì)量。
MVSC是由區(qū)域匹配算法提供的源克隆域和目標(biāo)克隆域進(jìn)行復(fù)制融合,融合之后的圖像能夠得到一幅完整、新的全圖像,并且在視覺上被認(rèn)為是合理的。
近年來,顯著區(qū)域的提取已經(jīng)成為計(jì)算機(jī)視覺研究的一個熱點(diǎn)。最早由Itti等人提出了視覺關(guān)注模型[8],該模型利用圖像顏色、亮度和位置三個視覺特征突出圖像的顯著區(qū)域。其原理是對輸入圖像先過濾,再進(jìn)行視覺特征提取得到視覺特征圖像[9],并將視覺特征圖像進(jìn)行線性組合,得到顯著區(qū)域。視覺關(guān)注模型如圖2所示。
視覺關(guān)注模型模擬了人類視覺注意的轉(zhuǎn)換過程,視覺關(guān)注的區(qū)域往往是視覺顯著的區(qū)域。Itti的視覺關(guān)注模型算法是一種受環(huán)境影響的從下而上的視覺顯著性區(qū)域算法[10],也是當(dāng)前計(jì)算機(jī)視覺中的一個主要研究方向,其最具有代表性。該算法在多種類型、多種尺度的視覺空間中將圖像通過“中心-周邊”算子得到的特征圖線性組合成為一幅顯著區(qū)域圖像,利用人工智能中的動態(tài)神經(jīng)網(wǎng)絡(luò)方法從顯著區(qū)域圖像中選擇顯著區(qū)域[11]。
圖2 視覺關(guān)注模型
視覺關(guān)注模型中的輸入圖像必須是彩色圖像,并且將輸入圖像分別通過高斯金字塔[12,13]和Gabor濾波器[14]獲得顏色、亮度和位置[15]三種視覺特征。設(shè)r,g和b分別為顏色空間的值,且(r,g,b)∈[0,1,…,255],則亮度I=(r+g+b)/3,紅色R=r-(g+b)/2,綠色G=g-(r+b)/2,藍(lán)色B=b-(r+g)/2,黃色Y=(r+g)/2-|r-g|/2-b,位置O。輸入圖像中c的像素點(diǎn)與其s的像素點(diǎn)在視覺特征上的差值I(c,s),RG(c,s),BY(c,s)和O(c,s,θ)分別由公式(1)、(2)、(3)和(4)得到。
其中:角度θ∈{0°,45°,90°,135°},c是中心-周邊模型中顯著區(qū)域的中心,s是其它區(qū)域的周邊。
視覺特征通過高斯金字塔和Gabor濾波器提取后,其亮度特征圖I,顏色特征圖C和位置特征圖O由公式(5)、(6)、(7)得到。
其中:N為標(biāo)準(zhǔn)化操作。
設(shè)顯著區(qū)域?yàn)镾,其由公式(5)、(6)、(7)分別得到的亮度特征圖、顏色特征圖和位置特征圖經(jīng)過線性組合成一幅顯著區(qū)域圖像。S可通過公式(8)得到。
視覺關(guān)注模型是在原有Itti的視覺關(guān)注模型基礎(chǔ)上進(jìn)行改進(jìn),改進(jìn)之處是將視覺特征顏色、亮度和位置改為圖像灰度級和圖像邊緣進(jìn)行提取。本文提取圖像灰度級和邊緣特征的優(yōu)點(diǎn)是既能改進(jìn)原有的視覺關(guān)注模型,又利于圖像拼接,尤其為本文中的圖像重復(fù)顯著區(qū)域配準(zhǔn)提供依據(jù)。改進(jìn)的視覺關(guān)注模型如圖3所示。
圖3 改進(jìn)的視覺關(guān)注模型圖
首先對輸入圖像進(jìn)行灰度變化得到灰度圖像[16],再通過高斯-拉普拉斯算子[17]和Gabor濾波器[18]分別提取圖像灰度級和圖像邊緣特征,并得到灰度特征圖和邊緣特征圖,最后,將灰度特征圖和邊緣特征圖進(jìn)行線性組合,得到顯著區(qū)域圖像,并利用人工智能中的動態(tài)神經(jīng)網(wǎng)絡(luò)方法從顯著區(qū)域圖中選擇顯著區(qū)域。
改進(jìn)的視覺關(guān)注模型首先需要將輸入圖像轉(zhuǎn)換為灰度圖像,再分別通過Gabor濾波器和高斯-拉普拉斯算子獲得灰度級和邊緣兩種視覺特征。輸入圖像中c的像素點(diǎn)與其s的像素點(diǎn)在視覺特征上的差值G(c,s)和E(c,s)分別由公式(9)和(10)得到。
視覺特征通過Gabor濾波器和高斯-拉普拉斯算子提取后,其灰度特征圖Gc和邊緣特征圖Ec由公式(11)、(12)得到。
其中:G(c,s)和E(c,s)分別由公式(9)和(10)得到。
設(shè)顯著區(qū)域?yàn)镾,其由公式(11)、(12)分別得到的灰度特征圖和邊緣特征圖經(jīng)過線性組合成一幅顯著區(qū)域圖像。S可通過公式(13)得到。
其中:N為歸一化操作。
顯著區(qū)域的確定為下一步圖像配準(zhǔn)奠定基礎(chǔ),是圖像拼接的前提。
圖像拼接的質(zhì)量主要依賴于圖像的配準(zhǔn)精度。圖像配準(zhǔn)是指依據(jù)一些相似性度量來決定圖像間的變換參數(shù),使從不同傳感器、不同視角、不同時間獲取的同一場景的兩幅或多幅圖像,變換到同一坐標(biāo)系下,在像素層上得到最佳匹配的過程。在圖像匹配過程中,本文方法通過迭代過程實(shí)現(xiàn)圖像顯著區(qū)域的尋優(yōu)過程。首先,由改進(jìn)的視覺關(guān)注模型算法得到輸入圖像的像素灰度值和確定顯著區(qū)域S,并通過建立均值坐標(biāo)確定顯著區(qū)域內(nèi)各像素的坐標(biāo),再將所有輸入圖像的顯著區(qū)域進(jìn)行圖像配準(zhǔn),從備選拼接圖像中挑選出與待拼接圖像配準(zhǔn)最佳的一幅。設(shè)圖像A的顯著區(qū)域?yàn)镾A,圖像B中的顯著區(qū)域?yàn)镾B,則兩幅圖像的顯著區(qū)域匹配相關(guān)度由公式(14)判斷。
如果ρ越大,說明SB和SA的重疊概率越大,配準(zhǔn)精確度越高。SB則被認(rèn)為是待拼接圖像的最佳匹配對象,從而實(shí)現(xiàn)興趣區(qū)域的配準(zhǔn)。
傳統(tǒng)的圖像融合方法主要在時間域通過算術(shù)運(yùn)算實(shí)現(xiàn)融合,而MVSC算法是直接利用一幅圖像A的顯著區(qū)域SA設(shè)為源克隆域和另外一幅圖像B的待配準(zhǔn)的顯著區(qū)域SB設(shè)為目標(biāo)克隆域進(jìn)行融合,完成光滑無縫、渾然一體的圖像拼接,這個過程加快了圖像拼接速度和提高了圖像拼接質(zhì)量。
利于改進(jìn)的視覺關(guān)注模型算法分別確定圖像A和圖像B的顯著區(qū)域SA和待配準(zhǔn)的顯著區(qū)域SB,對圖像A中的顯著區(qū)域SA設(shè)為源克隆域,圖像B中的待配準(zhǔn)的顯著區(qū)域SB設(shè)為目標(biāo)克隆域,確定源克隆域和目標(biāo)克隆域之后,利用均值無縫克隆算法執(zhí)行融合,使SA=SB,最后,完成兩幅圖像的無縫拼接。
設(shè)SA?R2是圖像 的源克隆域,SB?R2是圖像B的目標(biāo)克隆域。我們可以記為:
g:SA→R,f*:SB→R。
無縫克隆目的是將源克隆域SA與目標(biāo)克隆域SB融合,使SA=SB。
無縫克隆實(shí)質(zhì)是計(jì)算一個函數(shù)f:SB→R,并求解泊松方程:
換句話說,無縫克隆是尋求函數(shù)f與目標(biāo)克隆域的?SB一致,其梯度場邊界是盡可能接近源克隆域g。
解決上述泊松方程等價于求解拉普拉斯方程,即:
△f′=0 狄利克雷邊界條件:f′|?SB=f*-g
假設(shè)目標(biāo)克隆域內(nèi)一點(diǎn)x?SB與邊界?SB=(s0s1,…,sm= s0)。均值插值獲得的值 是在邊界?SB在點(diǎn)x給出:
其中,
克隆的最終結(jié)果,用公式表示為:
無縫克隆算法
1:{預(yù)處理階段 }
2:for每個像素x?SAdo
3:{計(jì)算均值坐標(biāo)λi(x)和?SA}
4:λ0(x),…,λm-1(x)=MVSC(x,y,?SA)//計(jì)算和存貯均值坐標(biāo)
5:end for
6:for每一個新的SBdo
7: {計(jì)算差異邊界}
8: for?si的每個頂點(diǎn)si do
9: h=f*(si)-g(si)
10: end for
11: for每個像素x?SBdo
12: {均值插值x}
14: f(x)=g(x)+r(x)
15: end for
16:end for
最后利用無縫克隆算法完成兩幅圖像的拼接。
利用改進(jìn)的視覺關(guān)注模型算法確定拼接圖像的顯著區(qū)域,該方法能有效地從圖像中提取視覺特征,并得到圖像的像素灰度級和顯著區(qū)域的輪廓。利用圖像配準(zhǔn)算法從備選拼接圖像中檢測出最為相似,最佳重疊的顯著區(qū)域。最后,利用均值無縫克隆算法使其兩幅圖像的顯著區(qū)域融合,完成兩幅圖像的拼接?;诟倪M(jìn)的視覺關(guān)注模型和MVSC的圖像拼接算法步驟如下。
1.輸入圖像并進(jìn)行預(yù)處理。
2.利用改進(jìn)的視覺關(guān)注模型算法分別對待拼接圖像和備選圖像提取視覺特征,得到顯著區(qū)域和像素灰度值。
3.建立坐標(biāo)分別確立待拼接圖像和備選圖像的顯著區(qū)域坐標(biāo)。
4.利用圖像配準(zhǔn)算法對待拼接圖像和備選圖像的顯著區(qū)域進(jìn)行配準(zhǔn),選出最佳配準(zhǔn)圖像。
5.根據(jù)得到的配準(zhǔn)信息對計(jì)算出圖像的變換參數(shù),為下一步的均值無縫克隆提供依據(jù)。
6.根據(jù)配準(zhǔn)算法提供的顯著區(qū)域信息和最佳配準(zhǔn)區(qū)域信息分別確立MVSC的源克隆域和目標(biāo)克隆域。
7.利用本文中MVSC算法對源克隆域和目標(biāo)克隆域進(jìn)行融合,完成兩幅圖像的拼接,最后,得到全景圖像。
為了驗(yàn)證本文提出的基于改進(jìn)的視覺關(guān)注模型和MVSC的圖像拼接算法的有效性,分別進(jìn)行三組實(shí)驗(yàn),并采用三幅不同程度拍攝的自然景物圖像。如圖4所示,選擇在室外拍攝的三幅圖像(a)、(b)和(c),且它們分別兩幅具有重疊區(qū)域的圖像。圖5中三幅圖像(a)、(b)和(c)是利用傳統(tǒng)方法基于模板匹配的圖像拼接,雖然圖像拼接效果很好,但與原始圖像對照之后,會發(fā)現(xiàn)拼接后的圖像存在信息重復(fù),不能完整的反映原始圖像。圖5三幅圖像(d)、(e)和(f)是利用本文中的算法實(shí)現(xiàn)的拼接結(jié)果圖,與原始圖像對照之后,拼接后的圖像不存在信息重復(fù)??梢?,本文算法與傳統(tǒng)方法對比之后,本文算法拼接后的全景圖能夠完整的、平滑無縫和自然的反映原始場景,并成功做到了將配準(zhǔn)后的圖像合二為一,構(gòu)成一幅整體的全景圖像。
圖4 待拼接圖像
圖5 (a)-(c)基于模板匹配的圖像拼接(d)-(f)本文方法
實(shí)驗(yàn)結(jié)果表明本算法不僅能夠?qū)崿F(xiàn)圖像拼接,還能準(zhǔn)確實(shí)現(xiàn)圖像中顯著區(qū)域的融合,并很好的解決了傳統(tǒng)方法遺留下的問題,實(shí)現(xiàn)了自動完整平滑的圖像拼接,提高了圖像拼接的質(zhì)量。
本文提出了一種基于改進(jìn)的視覺關(guān)注模型和MVSC的圖像拼接算法,既能得到顯著區(qū)域的精確配準(zhǔn),又能實(shí)現(xiàn)圖像的完美融合。本文算法中改進(jìn)的視覺關(guān)注模型有利于圖像中顯著區(qū)域的自動識別和提取?;贛VSC的圖像克隆融合方法是目前一種新的、快速的融合方法,利用顯著區(qū)域配準(zhǔn)后的結(jié)果圖像能快速完美的實(shí)現(xiàn)圖像拼接。展望未來,圖像拼接技術(shù)應(yīng)該在提高算法的運(yùn)算速度、拼接精度、自動化程度和魯棒性等方面進(jìn)行深入研究。
[1]Harris Chris,Stephens Mike.A combined corner and edge detector[C]//Proceedings of the Alvey Vision Conference, University of Manchester,Manchester,August 31-September 2,1988.Sheffield:University of Sheffield Printing Unit,1988:147-152.
[2]Smith S M,Brady J M.SUSAN:A new approach to low level image processing [J].International Journal of Computer Vision (S0920-5691),1997,23(1):45-78.
[3]L I Hui,Manjunath B S,Mitra S K.A contourbased approach to multisensor image registration[J].IEEE Trans on Image Proces-sing,1995,4(3):320-334.
[4]Lowe D G.Distinctive image features from scaleinvariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[5]Reddy S,Chatterj B N.An FFT-based technique for translation,rotation,and scale-invariant image registration [J].IEEE Trans on Image Process,1996,3(8):1266-1270.
[6]Itti L,Koch C and Niebur E 1998.A model of saliency-based visual attention for rapid scene analysis IEEE Trans.Patt.Anal.Mach.Intell.20 6.
[7]1:45pm-3:30pm-Visual,Cut,Paste,and Search - CoordinatesforInstantImage Cloning ; Farbman,Zeev;Hoffer,Gil;Lipman,Yaron;Cohen-Or,Daniel;Lischinski,Dani ACM Transactions on Graphics-TOG;07300301;2009;28(3):67-67.
[8]Itti L and Koch C 2001.Feature combination strategies for saliency-based visual attention systems J. Electron.Imaging 10 161-9.
[9]A.M.Treisman and G.Gelade, “A Feature-Integration Theory of Attention,”Cognitive Psychology,vol.12,no.1,pp.97-136,Jan.1980.
[10]Itti L 2000 Models of bottom-up and topdown visual attention PhD Thesis California Institute of Technology,Pasadena p 216.
[11]J.K.Tsotsos,S.M.Culhane,W.Y.K.Wai,Y. H.Lai,N.Davis,and F.Nuflo, “Modelling Visual Attention via Selective Tuning,”Artificial Intelligence,vol.78,no.1-2,pp.507-545,Oct.1995.
[12]Greenspan H,Belongie S,Goodman R,Perona P, RakshitS and Anderson C H 1994. Overcomplete steerable pyramid ?lters and rotation invariance IEEE Computer Vision and Pattern Recognition(Seattle,Washington).
[13]Adelson E H,Anderson C H,Bergen J R,Burt P J and Ogden J M 1984.Pyramid methods in image processing RCA Engineer 29 pp 33-41.
[14]Weber,D.M,Casasent,D.P.Quadratic Gabor filters for object detection [J].Image Processing,IEEE Transactions on,Volume:10,Issue:2,F(xiàn)eb.2001:218-230.
[15]M.I.Posner and Y.Cohen, “Components of Visual Orienting,”H.Bouma and D.G.Bouwhuis,eds. Attention and Performance,vol.10,pp.531-556. Hilldale,N.J:Erlbaum,1984.
[16]Itti L and Koch C 2000.A saliency-based search mechanism for overt and covert shifts of visual attention Vis.Res.40 1489-506.
[17]Burt P J and Adelson E H 1983.The Laplacian pyramid as a compact image code IEEE Trans.Commun. 31:532-40.
[18]Peifeng Hu,Yannan Zhao,Zehong Yang,Jiaqin Wang.Recognition of gray character using gabor filters [J].Information Fusion,2002.Proceedings of the Fifth International Conference on,Volume:1,8-11 July 2002 Pages:419-424 vol.1.
TP312
A
1008—3340(2011)01—0056—06
2010-05-26
鄭艷飛,女,日照廣播電視大學(xué)教學(xué)處助教。
李業(yè)偉,男,山東師范大學(xué)計(jì)算機(jī)學(xué)院。