任 云,程福林,黎洪松
(桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
傳統(tǒng)視差估計(jì)算法有2種思路[1-2],一種是基于區(qū)域,另一種是基于特征。前者的基本思想是以圖像中的某點(diǎn)或某塊作為一個(gè)單位,在參考圖像中搜索與其相對(duì)應(yīng)的點(diǎn)或塊,從而得到各個(gè)點(diǎn)或各個(gè)塊的視差,利用這種算法計(jì)算得到的視差估計(jì)都非常集中、稠密。根據(jù)選取的不同的匹配策略,基于區(qū)域的視差估計(jì)還可以分為[3]局部法[4-6]及全局法[7-8]。代表性的局部法是基于塊[9-10]的算法,實(shí)現(xiàn)復(fù)雜度低,有廣泛的應(yīng)用。典型的全局算法有動(dòng)態(tài)規(guī)劃法、圖割法[11]和置信度傳播法等[12-13],均可得到較好的估計(jì)效果,但由于其計(jì)算復(fù)雜,因此硬件難以實(shí)現(xiàn)?;谔卣鞯囊暡罟烙?jì)[14-16]的基本原理是匹配圖像自身的特征,一般其特征提取過程都比較復(fù)雜,且只能得到稀疏的視差估計(jì)。
三維自組織映射算法[17]模擬人腦對(duì)特定現(xiàn)象興奮的特征,在許多方面得到了應(yīng)用,特別在模式識(shí)別[18]、數(shù)據(jù)挖掘等領(lǐng)域更是發(fā)揮了不容忽視的作用[19-21],是一種高效的數(shù)據(jù)聚類算法。
本文提出一種基于頻率敏感三維自組織映射的視差估計(jì)算法(Frequency Sensitive-3DSOM-DPR,FS-3DSOM-DPR)。將輸入視差圖像進(jìn)行分類,即低亮度區(qū)域、高亮度區(qū)域,分別對(duì)這2個(gè)區(qū)域進(jìn)行訓(xùn)練,得到高低亮度2個(gè)模式庫,最后在編碼時(shí)將訓(xùn)練圖像區(qū)域根據(jù)一定的閾值決定用哪個(gè)模式庫進(jìn)行預(yù)測(cè)。在訓(xùn)練模式庫的過程中引入頻率敏感算法,從而減少模式庫中的無效模式。
圖1給出了FS-3DSOM-DPR視差編碼方案的框圖。
圖1 FS-3DSOM-DPR視差編碼方案
其編碼步驟如下:
步驟1對(duì)立體視頻視差序列每幀分塊(一般取8×8或16×16),并對(duì)每幀取亮度均值,將均值中間值看作是分類閾值,將均值大的塊歸類于高亮度塊,將均值小的塊歸類于低亮度塊,最后形成高低亮度兩個(gè)集合。
步驟2采用FS-3DSOM算法對(duì)步驟1所得到的高低亮度2個(gè)集合進(jìn)行學(xué)習(xí)訓(xùn)練若干次,最后形成最優(yōu)的高亮度模式庫,以及低亮度模式庫。
步驟3輸入訓(xùn)練序列,并將每幀按照8×8或16×16的模板劃分為塊,計(jì)算得到每塊所對(duì)應(yīng)的方差值。用以上步驟得到的閾值與之相較,給每塊劃類,并選擇相應(yīng)的模式庫,運(yùn)用FS-3DSOM算法對(duì)輸入模式矢量進(jìn)行視差模式識(shí)別,最終獲得其所對(duì)應(yīng)的預(yù)測(cè)模式矢量。
步驟4將預(yù)測(cè)模式矢量與原模式矢量作差,得到視差估計(jì)殘差。
步驟5最后對(duì)視差估計(jì)殘差進(jìn)行DCT變換,將主要圖像信息集中于幾個(gè)參數(shù)上。對(duì)變換參數(shù)再進(jìn)行量化,將其進(jìn)一步進(jìn)行壓縮,最后進(jìn)行編碼形成碼流。
步驟6轉(zhuǎn)到步驟3,直至對(duì)所有的視差塊進(jìn)行預(yù)測(cè)編碼。
傳統(tǒng)SOM算法具有一個(gè)很大的問題,即在模式庫訓(xùn)練過程中每個(gè)模式都有可能被調(diào)整,但其概率確實(shí)不一樣的。而最佳模式庫要求初始模式庫中的每個(gè)模式都能得到充分利用,都能以更為合理的概率進(jìn)行調(diào)整,也就是要求每個(gè)模式都能自適應(yīng)信源的輸入模式矢量。綜上所述,有必要在訓(xùn)練過程中進(jìn)行人為調(diào)節(jié)。
針對(duì)傳統(tǒng)SOM算法存在的不足,本文采用了頻率敏感三維自組織映射(FS-3DSOM)算法。記錄模式響應(yīng)次數(shù),引入?yún)?shù),人為降低響應(yīng)次數(shù)多的模式下一次響應(yīng)的概率。
基于FS-3DSOM算法的模式庫訓(xùn)練步驟如下:
對(duì)比兩組患者在經(jīng)過治療后的臨床效果并計(jì)算有效率,有效率等于顯效人數(shù)與有效人數(shù)之和與總?cè)藬?shù)的百分比(評(píng)判標(biāo)準(zhǔn):顯效:患者的臨床癥狀明顯減輕,病情保持穩(wěn)定;有效:臨床癥狀有所減輕;無效:臨床癥狀無明顯變化甚至癥狀加重,病情反復(fù)不定)。
1)設(shè)置自組織特征映射網(wǎng)絡(luò)的規(guī)格為向量(N,M),其中前者為模式庫的大小,后者為組成模式庫的模式矢量的大小。
2)將視差圖劃分為矩陣M=8×8大小的圖像塊,一個(gè)圖像塊稱為一個(gè)訓(xùn)練矢量,劃分后可得到矢量L個(gè)訓(xùn)練矢量{X(t),t=0,1,…,L-1}。設(shè)置初始化模式庫為向量{Wj(0),j=0,1,…,N-1},并將模式矢量排列成的三維立體結(jié)構(gòu)。
3)初始化鄰域函數(shù)為矢量Nj(0),j=0,1,…,N-1,初始化響應(yīng)計(jì)數(shù)器為矢量cj=1,其中,j=0,1,…,N-1。
4)輸入訓(xùn)練矢量集{X(t),t=0,1,…,L-1}。
6)以下式為調(diào)整公式,調(diào)整獲勝矢量及其周圍鄰域的權(quán)值:
(1)
其中,矢量Nj*(t)一般取Nj*(t)=A0+A1e-t/T1。A0為初始鄰域值,一般取0,A1是鄰域所能取的最大值。T1是鄰域衰減常數(shù)。在訓(xùn)練初期,矢量Nj*(t)取的是A1,但隨著訓(xùn)練的推進(jìn),鄰域慢慢變小。矢量α(cj)=A2e-cj/T2代表的是學(xué)習(xí)速度函數(shù),A2為初始學(xué)習(xí)速度,也就是學(xué)習(xí)速度的最大值,T2代表的是學(xué)習(xí)衰減函數(shù)。
在訓(xùn)練模式庫時(shí),之所以會(huì)產(chǎn)生無效模式,是因?yàn)椴顒e大的訓(xùn)練模式會(huì)給予對(duì)方負(fù)面影響。比如說高亮度區(qū)域的模式與低亮度區(qū)域的模式就會(huì)相互影響。針對(duì)該問題,在模式庫訓(xùn)練時(shí),首先利用均值將訓(xùn)練矢量集分為高亮度區(qū)域和低亮度區(qū)域,分別訓(xùn)練模式庫,以保證SOM算法在2個(gè)區(qū)域上的聚類性能。模式庫分類步驟如下:
步驟1將輸入的視差圖分割為8×8大小的子塊,則可分成L塊,構(gòu)成訓(xùn)練矢量集{X(t),t=0,1,…,L-1}。
(2)
進(jìn)行分類。Th為選定的閾值,它取自所有模式塊均方差的中間值,X1代表的是高亮度訓(xùn)練矢量集,X2代表的是低亮度訓(xùn)練矢量集。
步驟3利用FS-3DSOM算法分別對(duì)上述2個(gè)矢量集進(jìn)行訓(xùn)練,最后得到所需的高亮度模式庫,以及低亮度模式庫。
實(shí)驗(yàn)采用標(biāo)準(zhǔn)立體視頻測(cè)試序列Exit、Vassar的第1、2視點(diǎn),每個(gè)視點(diǎn)再各分解為8幀,共16幀,圖像分辨率480像素×640像素。本文實(shí)驗(yàn)中對(duì)重建圖像質(zhì)量的評(píng)價(jià)采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR):
其中,EMSE為原圖像與重建圖像的均方誤差。3DSOM-DPR算法中,圖像壓縮比為:
其中,矩陣M代表的是模式矢量的維數(shù)大小,B0是編碼每個(gè)像素所需要的比特?cái)?shù),M×B0是編碼整幅原圖像所需要的比特?cái)?shù),BC代表的是輸出的模式矢量地址比特?cái)?shù)。實(shí)驗(yàn)中矩陣M取8×8,模式庫大小為2 048,CR為46.5。在基于塊的視差估計(jì)算法中,模式矢量維數(shù)大小,即塊的大小M設(shè)置為8×8,另外橫向搜索范圍設(shè)置為[-31,32],縱向搜索范圍設(shè)置為[-15,16],可實(shí)現(xiàn)的壓縮率為46.5。
圖2給出了FS-3DSOM-DPR算法與基于塊的算法的視差預(yù)測(cè)圖像的峰值信噪比分布情況,且采用FS-3DSOM-DPR算法得出的視差預(yù)測(cè)圖像的平均峰值信噪比為34.612 2 dB,采用基于塊的算法得出的視差預(yù)測(cè)圖像的平均峰值信噪比為32.824 4 dB,即采用本文算法比原始算法得出的預(yù)測(cè)圖像峰值信噪比提高了1.78 dB。
圖2 視差預(yù)測(cè)圖像的峰值信噪比分布情況
本文提出一種基于頻率敏感三維自組織映射的視差估計(jì)算法。視差編碼采用基于分類頻率敏感三維自組織映射的視差模式識(shí)別(FS-3DSOM-DPR)算法,以取代傳統(tǒng)基于塊的視差估計(jì)算法。實(shí)驗(yàn)結(jié)果表明,該算法視差預(yù)測(cè)圖像的平均峰值信噪比比基于塊的算法提高了1.78 dB。下一步的工作是將該算法應(yīng)用于立體視頻編碼中,結(jié)合實(shí)例進(jìn)行更加深入的研究。
[1] POLLEFEYS M,VAN G L,VERGAUWEN M,et al.Visual modeling with a hand-held camera[J].International Journal of Computer Vision,2004,59(3):207-232.
[2] BROWN M Z,BURSCHKA D,HAGER G D.Advances in computational stereo[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2003,25(8):993-1008.
[3] SCHARSTEIN D,SZELISKI R.A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[J].International Journal of Computer Vision,2002,47(1):7-42.
[4] YOON K J,KWEON I S.Adaptive support-weight approach for correspondence search[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2006,28(4):650-656.
[5] HOSNI A,BLEYER M,GELAUTZ M,et al.Local stereo matching using geodesic support weights[C]//Proceedings of IEEE International Conference on Image Processing.Washington D.C.,USA:IEEE Press,2010:2093-2096.
[6] WEI Y,QUAN L.Region-based progressive stereo matching[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2004:106-113.
[7] HONG L,CHEN G.Segment-based stereo matching using graph cuts[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2004:74-81.
[8] SUN J,SHUM H Y,ZHENG N N.Stereo matching using belief propagation[C]//Proceedings of European Conference on Computer Vision.Berlin,Germany:Springer-Verlag,2002:510-524.
[9] HAUBLEIN K,REICHENBACH M,FEY D.Fast and generic hardware architecture for stereo block matching applications on embedded systems[C]//Proceedings of International Conference on Reconfigurable Computing and FPGAs.Washington D.C.,USA:IEEE Press,2014:1-6.
[10] SAHLBACH H,ERNST R,WONNEBERGER S,et al.Exploration of FPGA-based dense block matching for motion estimation and stereo vision on a single chip[C]//Proceedings of IEEE Intelligent Vehicles Symposium.Washington D.C.,USA:IEEE Press,2013:823-828.
[11] WANG Y C,TUNG C P,CHUNG P C.Efficient disparity estimation using hierarchical bilateral disparity structure based graph cut algorithm with a foreground boundary refinement mechanism[J].IEEE Transactions on Circuits & Systems for Video Technology,2013,23(5):784-801.
[12] 趙 戈,藺 蘭,唐延?xùn)|,等.一種基于曲率與置信度傳播的視差估計(jì)方法[J].模式識(shí)別與人工智能,2013(12):1154-1160.
[13] 劉 欣.基于立體視覺的公交客流統(tǒng)計(jì)方法與實(shí)現(xiàn)[D].秦皇島:燕山大學(xué),2013.
[14] PODDAR S,SAHU H,BANGALE M R,et al.Feature based dense disparity estimation[C]//Proceedings of IEEE International Conference on Industrial Instrumentation and Control.Washington D.C.,USA:IEEE Press,2015:950-955.
[15] KAMENCAY P,BREZNAN M,JELSOVKA D,et al.Sparse disparity map computation from stereo-view images using segment based algorithm[C]//Proceedings of the 22nd International Conference Radioelektronika.Washington D.C.,USA:IEEE Press,2012:1-4.
[16] RAMAN S,KANOJIA G,KANOJIA G,et al.Facial stereo:facial depth estimation from a stereo pair[C]//Proceedings of International Conference on Computer Vision Theory and Applications.Washington D.C.,USA:IEEE Press,2014:686-691.
[17] KOHONEN T.Essentials of the self-organizing map[J].Neural Networks,2013,37:52-65.
[18] LI N,CHENG X,ZHANG S,et al.Realistic human-action recognition by fast HOG3D and self-organization feature map[J].Machine Vision and Applications,2014,25(7):1793-1812.
[19] KAMAL S,MUJEEB A,SUPRIYA M H.Novel class detection of underwater targets using self-organizing neural networks[C]//Proceedings of Underwater Technology (UT),2015 IEEE.Washington D.C.,USA:IEEE Press,2015:1-5.
[20] PARK S,RYU S,CHOI Y,et al.A framework for baseline load estimation in demand response:data mining approach[C]//Proceedings of IEEE International Conference on Smart Grid Communications.Washington D.C.,USA:IEEE Press,2014:638-643.
[21] MCLOUGHLIN F,DUFFY A,CONLON M.A clustering approach to domestic electricity load profile characterisation using smart metering data[J].Applied Energy,2015,141:190-199.