吳遠昌,孫季豐,李萬益
(華南理工大學電子與信息學院,廣東 廣州510641)
分塊GPCA和多視點圖像融合
吳遠昌,孫季豐,李萬益
(華南理工大學電子與信息學院,廣東 廣州510641)
為了實現(xiàn)對多視點圖像的融合,提出了一種使用分塊廣義PCA(GPCA)的方法。分塊可以將圖像處理的過程細化,簡化計算GPCA則考慮了二維數(shù)據(jù)的空間關(guān)聯(lián)性,用于灰度圖像降維時有較好的效果,兩者的結(jié)合是文章的一個創(chuàng)新。由于需要考慮常規(guī)多視點圖像的不同視點間存在位移差的事實,圖像的預(yù)處理環(huán)節(jié)加入了必要的配準和投影變換操作。因此,整個方法主要包括圖像匹配、投影變換、分塊GPCA計算和融合等環(huán)節(jié)。為驗證方法的可行性和準確性,文章引入了二維經(jīng)驗?zāi)B(tài)分解BEMD。結(jié)果表明,和BEMD相比,所提方法在圖像融合的性能和計算復雜度上都表現(xiàn)出了優(yōu)勢,有一定的實用價值。
多視點圖像融合;廣義PCA;分塊;圖像配準;二維經(jīng)驗?zāi)B(tài)分解
傳統(tǒng)的圖像融合分為像素級融合、特征級融合和決策級融合,它們過于注重圖像被處理的層次,但忽略了方法本身所具有的特點。實際應(yīng)用中,為了描述和研究方便,人們更傾向于從對圖像融合處理的手段上來命名各種方法。因此,研究者們分別提出了基于小波變換,金字塔分解,HIS空間,形態(tài)學,統(tǒng)計學,神經(jīng)網(wǎng)絡(luò),PCA等的圖像融合[1]。此外,也有人提出了一些被應(yīng)用得相對較少,但效果比較理想的方法,如混合像元分解法[2]、多波長的數(shù)字全息技術(shù)法[3]、梯度法[4]以及模糊技術(shù)法[5]等。另外,多視點圖像以其獨特的優(yōu)勢,在實際應(yīng)用中發(fā)揮著不可替代的優(yōu)勢。多視點圖像的存儲,運輸是困擾人們的一個難題。因此,實現(xiàn)對多視點圖像的融合壓縮具有十分重要的實際意義。由于多視點圖像所具有的高分辨率、高信息量特點,為了后續(xù)計算處理的方便,預(yù)先對圖像進行降維也是研究的重點。同時,在融合壓縮的時候,由于不同圖像間存在位移和角度的變換,所以需要對圖像進行配準之后再根據(jù)具體情況進行處理。文章嘗試以GPCA為基礎(chǔ),結(jié)合圖像的變換配準技術(shù),對多視點圖像進行融合處理。
{1,2,...,r},j∈{1,2,...,c} 的像素值I( i,j)都是屬于該集合的一個元素,即I={I( i,j)|1≤i≤r,1≤j≤c} 。當圖像非常大
現(xiàn)實生活中,對于某一場景,可以從不同的時刻或角度得到關(guān)于它的一組觀測圖像,這些圖像的整體就叫做多視點圖像。人們借助多視點圖像技術(shù)來實現(xiàn)對目標的跟蹤,人臉的識別,手勢的估計,以及多用戶的交流。
在多視點圖像的基礎(chǔ)上發(fā)展起來的多視點視頻能夠更好地將實際的場景呈現(xiàn)在觀察者面前,更具有真實感。但是,隨著相機數(shù)目的增加,多視點視頻的數(shù)據(jù)量也成倍地增加,這給視頻數(shù)據(jù)的存儲和傳輸帶來了極大的困難。因此,實現(xiàn)對多視點視頻的高效壓縮成為了人們必須要解決的難題。
目前,對多視點視頻的壓縮主要以去冗余為中心,但從人眼的觀察方式來說,以融合為中心的壓縮更接近人的視覺特性。由于多視點視頻和多視點圖像之間的派生關(guān)系,對多視點視頻的融合歸根到底還是對多視點圖像的融合。進行多視點圖像融合,需要將原始各視點圖像中所包含的信息盡量完整地整合到一幅新的圖像中去。這樣,人們才能借助新生成的圖像,對原場景有更形象、直觀地了解。
從集合的角度來看,如果把大小為rc的圖像I看作一個有限數(shù)據(jù)集,那么每個像素點 i,j( ),i∈時,集合I所包含的數(shù)據(jù)點也就比較多。當將I的每一個元素都看作屬于它的一個一維統(tǒng)計特征時,I的維數(shù)必然會很高。
實踐表明,對特征維數(shù)很大的圖像集I直接用傳統(tǒng)的方法進行融合,雖然可能得到比較好的效果,但計算復雜度一般都比較高,這對于一些追求高效率的應(yīng)用程序來說是不可取的。所以,在進行融合處理之前,最好在保證原有大尺寸、高分辨率圖像的主要信息不丟失的前提下,對圖像進行降維。被處理的圖像,由于數(shù)據(jù)點減少會給后續(xù)的運算處理帶來極大的方便。
PCA是一種傳統(tǒng)的流形學習方法,它通過從樣本數(shù)據(jù)中提取主要特征來達到減少計算量的目的。假設(shè)存在K幅圖像的樣本集,每幅圖像Ik(k=1,2,...,K)大小都為r×c。首先,把Ik的所有像素點按行重新排列成一個行向量sk,sk的大小為1×N,其中N=r×c;然后,所有的sk組成一個新的矩陣A= [s1s2...sK]T;再對A進行奇異值分解,求取A最大的d個特征值所對應(yīng)的特征向量α;最后,用向量的投影變換將每一個sk進行投影,便得到了原圖像的d維表述。這就是灰度圖像的PCA方法。
GPCA是PCA的改進,相比于PCA以一維列向量為出發(fā)點,GPCA對數(shù)據(jù)的處理是基于二維矩陣的。由于這種不同,GPCA在很大程度上能保留數(shù)據(jù)間的空間關(guān)聯(lián)性。圖1描述了在對灰度圖像進行處理時,GPCA和PCA原理上的區(qū)別[6]。
圖1 PCA和GPCA的區(qū)別Fig.1 Difference of PCA and GPCA
理論上,可以用GPCA代替PCA對所有的灰度圖像進行處理。但是,由于一般的圖像尺寸都比較大,直接進行矩陣運算,計算量比較大。實踐證明,將大尺寸的圖像分割成獨立的小塊后再運用GPCA,雖然表面上計算的次數(shù)增加了,但總的計算復雜度是下降的。這樣,既保留了原始方法的精確度,又在很大程度上降低計算的復雜度。因此,本文在文獻[6]的基礎(chǔ)上,提出了基于分塊的GPCA方法。
對于原始的圖像A,先將它分成n個大小相同的子塊,并用Ai,i∈(1,2,...,n )來表示第i個子塊,則基于分塊GPCA方法的步驟如下:
1)計算圖像樣本集合A1,A2,...,An的均值
3)令LO← Ed,O( )T,其中Ed是d×d的單位矩陣,d是圖像期望降到的維數(shù),O是零矩陣;
4)令k=0,初始化圖像經(jīng)過GPCA反變換回去時的均方根誤差REMS k()←∞;
6)令 k = k + 1,同時進行賦值 Rk←
9)計算REMS k()=
10)如果REMS k-1( )-REMS k()≤η,那么轉(zhuǎn)11),否則,跳轉(zhuǎn)到5)繼續(xù)執(zhí)行,其中η是預(yù)先設(shè)定的一個閾值;
11)對變換矩陣Lr×d和Rc×d分別賦值,即L←Lk,R←Rk;
12)對于每一個i∈ { 1,2,...,n},由公式Di=計算原始灰度圖像經(jīng)過變換后的灰度投影并返回。
一般的多視點圖像在像素點上存在各種各樣的變換關(guān)系,有平移、縮放和角度變換等,圖像的配準就是求取這些不確定變換關(guān)系的過程。假設(shè)有兩幅相鄰的視點圖像Image 1和Image 2,那么Image1中任意一點(x1,y1)到Image2中對應(yīng)點(x2,y2)的變換關(guān)系可用下面的變換公式來描述[7]:
式中:λ是變換尺度,a~h是相關(guān)的變換系數(shù)。單應(yīng)矩陣H定義為
由式(2)可知:
為處理方便,在尺度變換不變的情況下,只考慮像素點間的水平和垂直移位。則可以得到a=e=1,λ =1,b=d=g=h=0,同時有
式中:c和f分別代表像素點的水平和垂直移位。
在圖像配準中,上述過程稱為圖像的粗配準。粗配準只考慮了像素點間的平移問題,這樣一方面可以簡化計算的復雜度,另一方面也使得圖像的邊信息(對于大小為m×n的圖像Image 1和Image 2,邊信息就是Image 2相對于Image 1的水平和垂直位移)比較容易描述。當用I1來代表Image 1,I2代表Image 2時,可以計算出它們大 致 的 重 疊 區(qū) 域 為 I1(1∶(m-f),1∶(n-c))和I2((1+f)∶m,(1+c)∶n)。在文中,將參照 Rilling[8]等人所提出的方法對分塊降維后的圖像進行配準。
完成圖像降維和配準之后,還需要對來自不同視點的圖像進行融合。由于在圖像融合的3個層次中,基于像素點的融合最普通,應(yīng)用也最廣泛,所以常規(guī)研究中多利用像素點的基本特性進行融合。文章在對配準后的圖像進行融合時,對于不同的區(qū)域,采用了不同的處理方法,如圖2所示。
圖2 圖像融合示意圖Fig.2 Schematic of image fusion
圖2 中,I1表示視點1的圖像,I2表示視點2的圖像。其中I1和I2大小相等,均為m ×n,I1、I2中的灰色部分表示兩幅圖像的重疊區(qū)。在前面的配準中,由于I1水平和垂直方向上分別平移c和f才得到I2,所以重疊區(qū)的大小為 m -f( )× n-c( )。進一步地,由I1、I2的對應(yīng)關(guān)系,可以計算融合后的新圖像If。其中If的大小為 m +f( )× n+c( ),它幾乎完全保留了I1、I2的信息。
為了描述方便,將If分成5個區(qū)域,它們分別是中間的灰色區(qū)域和邊上的1、2、3、4這4個區(qū)域。由前后變換的關(guān)系可知,1屬于I1中除去重疊區(qū)后剩下的部分,2屬于I2中除去重疊區(qū)后剩下的部分,3和4是新生成的部分,而灰色部分是I1、I2的重疊區(qū)。由于1和2分別是I1和I2所特有的部分,在新的圖像中,直接保留。對于3、4兩個部分,因為它們在外圍的兩個邊界上和1、2相鄰,為了使融合圖像的像素點在邊界處過渡平穩(wěn),用一個3×3的算子S從它們的交界處開始進行加權(quán)插值,其中
需要注意的是,在對區(qū)域3、4進行插值時,像素點的索引方向是不同的。對于3,規(guī)定索引的正方向為從右到左,從上到下;而對于4,索引的正方向為從左到右,從下到上。對于灰度重疊區(qū)的處理,則顯得比較麻煩些。另外,雖然I1和I2中的灰色區(qū)域表現(xiàn)的場景是相同的,但由于拍攝視點的不同,它們表現(xiàn)出來的明亮程度和顏色信息還是有些不同。所以,不能將兩部分的像素值進行簡單加和之后再平均。為了提高融合質(zhì)量,可以采用小波融合的思想[9-10]。
用小波變換的思想對重疊區(qū)進行融合時,首先要對圖像進行N層小波分解,得到 3N+1( )個不同頻帶,這些頻帶包括3N個高頻子圖像和1個低頻子圖像。在融合的時候,對于高頻部分,直接取兩幅源圖像中相應(yīng)的小波分解系數(shù)絕對值最大者的值作為融合圖像的分解系數(shù),對于低頻部分,處理的規(guī)則相對復雜一些,具體步驟如下:
1)假設(shè)C I()表示圖像I的小波低頻成分的系數(shù)矩陣,p= m,n( )表示小波系數(shù)的空間位置,那么C I,p( )就表示小波低頻成分系數(shù)矩陣下標為m,n( )的元素的值;
2)以p為中心選定一個小區(qū)域Q,u I,p( )表示C I()以 p為中心,在 Q內(nèi)的均值,G I,p( )為C I()在Q內(nèi)的區(qū)域方差顯著性,滿足
式中:w q()為權(quán)值,離p越遠,值越小;
3)按照式(6)分別計算I1、I2的區(qū)域方差顯著性G I1,p( )、G I2,p( ),然后計算它們在p點的區(qū)域方差匹配度:
4)設(shè)定一個匹配度閾值T,當M2p()<T時,融合策略為
當M2p()≥T時,融合策略為平均策略
其中,
上述處理完成后,再進行小波重構(gòu),便可以得到理想的基于小波變換的融合圖像。
文章采用2組大小為480×640的灰度圖像flamenco 1和flamenco 2作為實驗圖像,下面是對整個融合過程中各個環(huán)節(jié)的實驗結(jié)果進行的簡要分析。
5.1 分塊GPCA法
正如前面所說,如果將單幅圖像直接進行運用GPCA方法,由于圖像包含的總像素數(shù)為307 200個,如此龐大的數(shù)據(jù)會耗費大量的時間。因此,需要將原始圖像I1、I2平均分塊后再降維。文中I1、I2均被分為9塊,每一塊的大小為240×320。以I1為例,設(shè)9塊的編號分別為1~9,首先選取1的區(qū)域為I1(1∶240,1∶320),接著將2所屬區(qū)域設(shè)定為I1(1∶240,161∶480),3設(shè)為I1(1∶240,321∶480),從這里可以看出,2和1、3是存在重疊區(qū)域的。接下來用同樣的方法設(shè)定4~6的區(qū)域,不過要注意4和1、7有重疊,5和2、4、6、8有重疊,8和5、7、9有重疊。這樣設(shè)定之后,每一塊的大小都為原始圖像的1/4。
分析發(fā)現(xiàn),在不進行分塊的條件下,GPCA的復雜度在最優(yōu)的情況下為
O knd r+c( )2+r3+c3+ncd r+d( )
( )(11)式中:k是迭代計算次數(shù),n是樣本數(shù),d是所得低維空間維數(shù),r、c分別是圖像的長和寬。相應(yīng)地,如果把每個樣本分成N×N塊,那么計算的復雜度為
表1 分塊和未分塊所花時間Table 1 Time with blocking and non-blocking s
由上可知,分塊后,GPCA的計算復雜度明顯降低。表1是每一次實驗中對圖像分塊和不分塊時所需要的具體時間。
由表1可知,將圖像先分塊、再降維所需的時間比不分塊直接進行處理少得多。因此,在實驗中采用的是將圖像分塊處理的方法。
5.2 融合結(jié)果分析
圖3中(a)和(b)是原始的兩幅灰度圖像 I1、I2;(c)、(d)中從左到右、從上到下依次排列的9幅圖像是I1、I2的9個分塊子圖像維度降至20的情景;圖3(e)中左邊和中間的圖像分別由(c)、(d)中的子塊融合的得到,右邊的圖像則是前兩部分由本文所述方法進行融合所得的結(jié)果;(f)是由(e)中第3部分的結(jié)果經(jīng)GPCA重構(gòu)后得到的最終圖形。
圖3 圖像的降維及重構(gòu)Fig.3 Dimension reduction and reconstruction of image
由上面(c)、(d)可知,兩幅圖像經(jīng)降維處理后,依然存在一定的關(guān)聯(lián)性,這可由它們像素點矩陣所表現(xiàn)出的相似性看出來。但由于降維后,原始圖像的信息丟失了一部分,這種關(guān)聯(lián)性表現(xiàn)得并不是特別明顯。另外,因為降維后的圖像塊重組采用的是簡單的加和,因此(e)中的左邊和中間圖像可以看到在鄰接處存在相對明顯的過渡帶,這是后續(xù)工作需要解決的問題之一。
圖像融合中,對最終結(jié)果進行質(zhì)量評價也是一個必不可少的環(huán)節(jié)?,F(xiàn)階段,已知的質(zhì)量評價方法有2種:基于參照圖像和不采用參照圖像。其中,基于參照圖像的方法,主要考慮的是融合輸出圖像F和參照圖像R之間的參數(shù)相似性,它包括均方誤差、平均絕對誤差、互信息、相關(guān)系數(shù)等[11]。不用參照圖像的評價方法選擇的參數(shù)更具多樣性,Xydeas的邊信息之和,Qu.G的平均互信息,Wang的結(jié)構(gòu)相似性和Hossny所提出的方案都是其中之一[12]。為了計算方便,文章選擇了標準差和信息熵這2個參數(shù)。為了說明文中所述方法的可行性,將實驗結(jié)果和文獻[7]中基于BEMD的結(jié)果進行了對比。表2是5次實驗中,用GPCA和BEMD對flamenco圖像進行融合計算時得到的標準差和信息熵。
從表2可以看出,同BEMD法相比,用分塊GPCA融合得到的圖像雖然信息熵比較小,但是像素灰度級相對較大。在實驗條件下,兩者的融合效果基本接近,都滿足了一般圖像融合的要求。
另外,由圖3中(f)和(a)、(b)的對比可以看到,用分塊GPCA融合生成的圖像和原始圖像相比,圖像的清晰度相對較低,在一些細節(jié)上(如最右邊舞者的面部)也存在信息量的丟失,這是文中實驗結(jié)果存在的一個不足。
表2 flamenco圖像融合結(jié)果Table 2 Fusion result of flamenco images
多視點圖像比常規(guī)圖像具有更多的信息,實現(xiàn)對多視點圖像的有效處理是未來游戲和監(jiān)控領(lǐng)域?qū)崿F(xiàn)跨越式發(fā)展的要求。文中提出了一種基于分塊GPCA降維和像素點配準的多視點圖像融合方法,總體說來,它具有以下幾個特點:
1)由于引入了分塊和數(shù)據(jù)降維,同BEMD和單純的小波變換等傳統(tǒng)方法相比,方法在計算的復雜度和運行效率上有較大的優(yōu)勢。
2)目前,方法只局限于對灰度圖像的處理。如果輸入RGB彩色圖,則需要預(yù)先進行轉(zhuǎn)換。
3)由方法得到的融合圖像性能并不特別高。
因此,在后續(xù)的工作中,提高圖像的融合質(zhì)量,擴大可處理圖像的范圍,是在使用分塊GPCA時需要重點解決的兩個問題。此外,將文中所述方法應(yīng)用于多視點視頻編碼的前處理,提高編碼效率,也是一個很有實踐意義的課題。
[1]殷兵云.多傳感器圖像融合方法研究[D].西安:西安電子科技大學,2009:7-9.
YIN Bingyun.Research of multi-sensor image fusion methods[D].Xi'an:Xidian University,2009:7-9.
[2]ZHUKOV B,OERTEL D,LANZL F,et al.Unmixingbased multi-sensor multi-resolution image fusion[J].IEEE Transactions on Geoscience and Remote Sensing,1999,37(3):1212-1226.
[3]JAVIDI B,F(xiàn)ERRARO P,HONG S,et al.Three dimensional image fusion by use of multi-wavelength digital holography[J].Optics Letters,2005,30(2):144-146.
[4]PETROVIC V,XYDEAS C.Gradient-based multi-resolution image fusion[J].IEEE Transactions on Image Processing,2004,13(2):228-237.
[5]RANJAN R,SINGH H,MEITZLER T,et al.Video image fusion process using fuzzy technique[C]//Defense and Security Symposium.International Society for Optics and Photonics.Kissimmee,USA,2006:1-6.
[6]VIDAL R,MA Y,SASTRY S.Generalized principal component analysis(GPCA)[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(12):1945-1959.
[7]孫季豐,何沛思.一種基于CEMD和融合的多視點圖像編碼方法[J].電子與信息學報,2011,33(4):1007-1011.
SUN Jifeng,HE Peisi.A multi-view image coding scheme based on fusion and CEMD[J].Journal of Electronics and Information Technology,2011,33(4):1007-1011.
[8]RILLING G,F(xiàn)LANDRIN P,GONALVES P,et al.Bivariate empirical mode decomposition[J].Signal Processing Letters,2007,14(12):936-939.
[9]TIAN J,CHEN L.Adaptive multi-focus image fusion using a wavelet-based statistical sharpness measure[J].Signal Processing,2012,92(9):2137-2146.
[10]ROY S,HOWLADER T,RAHMAN S.Image fusion technique using multivariate statistical model for wavelet coefficients[J].Signal,Image and Video Processing,2013,7(2):355-365.
[11]ABI-J N,KRUECKER J,KADOURY S,et al.Multimodality image fusion-guided procedures:technique,accuracy,and applications[J].Cardiovascular and Interventional Radiology,2012,35(5):986-998.
[12]MITCHELL H.Image fusion theories,techniques and applications[M].Springer,2010:18-86.
(責任編輯:陳峰)
Block-based GPCA and multiview image fusion
WU Yuanchang,SUN Jifeng,LI Wanyi
(School of Electronic and Information Engineering,South China University of Technology,Guangzhou 510641,China)
In order to complete the fusion of multiview images,this paper presents a generalized block-based PCA(GPCA)method.Blocking can refine the progress of image processing and simplify the calculation.GPCA considers the spatial correlation between two-dimensional data and has better results in dimensinality reduction of gray images,so it is an innovation by combining these two methods in this article.Because there has to be recognition of the fact that there exists differential displacement between the different viewpoints of the conventional multi-view image,some necessary registration and projection transformation operations are added to the pre-processing of the images.Thus,the entire method includes image matching,projection transformation,computing of GPCA,image fusion and so on.In order to verify this method's feasibility,this article has introduced bi-dimensional empirical mode decomposition(BEMD).The results show that compared with BEMD,GPCA demonstrates certain advantages in performance and computational complexity regarding image fusion,and has some practical value.
multiview image fusion;GPCA;blocking;image registration;BEMD
10.3969/j.issn.1006-7043.201306046
TP391
A
1006-7043(2014)08-1022-06
http://www.cnki.net/kcms/detail/23.1390.U.20140701.1534.003.html
2013-07-30. 網(wǎng)絡(luò)出版時間:2014-07-01 15:34:48.
國家自然科學基金資助項目(61202292).
吳遠昌(1988-),男,碩士研究生;孫季豐(1962-),男,教授,博士生導師.
孫季豐,E-mail:ecjfsun@scut.edu.cn.