余應(yīng)淮 謝仕義 梅其祥
摘要:針對亞像素運動矢量的精確估計問題,提出一種基于核回歸修正的上采樣相位相關(guān)精確運動估計算法。首先,使用矩陣相乘離散傅里葉變換方法快速計算上采樣相位相關(guān)曲面,并通過檢測其峰值坐標(biāo)實現(xiàn)運動矢量的亞像素級初始估計;其次,在上采樣相位相關(guān)曲面上,采用核回歸方法對以初始估計值為中心的鄰域進行擬合;最后,檢測核回歸擬合函數(shù)的峰值坐標(biāo),并以此坐標(biāo)對初始估計值進行修正,從而實現(xiàn)任意精度級別的精確運動估計。與二次函數(shù)擬合(QuadFit)、線性擬合(LinFit)、Sinc擬合(SincFit)、局部質(zhì)心(LCM)、頻域上采樣(Upsamp)等算法進行仿真對比,在無噪聲污染的情況下,所提算法的平均估計誤差為0.0070,運動估計的準(zhǔn)確度提高了64%以上;而在有噪聲污染的情況下,所提出的算法的平均估計誤差為0.0204,運動估計的準(zhǔn)確度提高了47%以上。實驗結(jié)果表明,所提算法不僅能夠有效地提高運動估計的精確性,而且具有良好的抗噪性。
關(guān)鍵詞:運動估計;相位相關(guān);上采樣;矩陣相乘;核回歸
中圖分類號:TP391.41
文獻標(biāo)志碼:A
0引言
相位相關(guān)法作為一種傳統(tǒng)的頻域運動估計技術(shù),最早由Kuglin[1]在1975年提出。該方法通過在頻域空間計算相位相關(guān)曲面的單一脈沖的位置直接得到圖像之間的運動矢量,具有較低的時空復(fù)雜度;同時,該方法只利用了運動圖像之間互功率譜的相位信息,降低了對圖像內(nèi)容的依賴性,且對光照變化相對不敏感,具有較高魯棒性和抗噪性,因此被廣泛應(yīng)用于圖像配準(zhǔn)與超分辨率重建[2-4]、圖像拼接[5-6]、指紋與虹膜識別[7-8]、目標(biāo)檢測[9-10]、立體視覺與視頻編碼[11-15]等。另一方面,基本的相位相關(guān)算法僅能實現(xiàn)整像素級別的運動估計,其估計結(jié)果的精度直接影響著運動補償誤差,是上述應(yīng)用需要解決的關(guān)鍵問題。為了實現(xiàn)亞像素級別的精確運動估計,眾多研究人員對上述的基本相位相關(guān)算法進行了擴展,其具有代表性的改進方法主要有以下幾類:二次函數(shù)擬合(Quadratic function Fitting,QuadFit)、線性擬合(Linear Fitting,LinFit)、Sinc擬合(Sinc Fitting,SincFit)、局部質(zhì)心(Local Center of Mass,LCM)、頻域上采樣(Upsampling in the frequency domain,Upsamp)。
其中,QuadFit方法[16-18]作為一種常規(guī)的改進方法,其核心思想是應(yīng)用基本的相位相關(guān)算法獲得運動矢量的整像素級初始估計,并采用二次多項式對以初始估計值為中心的鄰域進行擬合,最后通過檢測擬合函數(shù)的峰值坐標(biāo)得到初始估計的亞像素級修正值;盡管該方法實現(xiàn)了亞像素級的運動估計,且具備良好的抗噪性,但估計結(jié)果對于鄰域點的選擇較為敏感。LinFit方法[19-20]則通過對運動圖像間的歸一化互功率譜的相位進行解纏,并采用一個線性函數(shù)對解纏結(jié)果進行擬合,從而實現(xiàn)亞像素級的運動估計;在理想的情況下,該方法能夠得到較好的估計結(jié)果,但對噪聲影響的魯棒性較低,且解纏過程中所引入的誤差容易對估計結(jié)果的準(zhǔn)確性造成影響。而SincFit方法[21]采用基于泰勒級數(shù)展開式的sinc函數(shù)近似地表示運動圖像間的相位相關(guān)函數(shù),在一定程度上提高了運動估計結(jié)果的精確度,但仍然受限于sinc函數(shù)與相位相關(guān)函數(shù)之間的殘差。LCM方法[22-23]應(yīng)用了亞像素級的運動將導(dǎo)致相位相關(guān)函數(shù)的主峰能量在一定程度上分散于鄰近點的思想,在相位相關(guān)曲面上計算以主峰值為中心的鄰域的質(zhì)心值,并以此值對主峰值坐標(biāo)進行修正,最終得到亞像素級的運動矢量估計值;和上述其他方法一樣,由于其主峰值坐標(biāo)為整像素級,容易導(dǎo)致后續(xù)的亞像素級修正值的計算發(fā)生較大偏差,即估計結(jié)果可能存在整像素級誤差。Upsamp方法[24]盡管可以避免整像素級初始估計所產(chǎn)生的誤差影響,但該方法僅能實現(xiàn)上采樣因子所限定的估計精度,即運動矢量估計值的精度為1/n像素,仍然無法解決任意精度級別的亞像素運動估計問題,且算法的時空復(fù)雜度與估計精度成正比。
為實現(xiàn)任意精度亞像素運動矢量的估計,本文探討一種基于核回歸修正的相位相關(guān)精確運動估計算法。首先,引入矩陣相乘離散傅里葉變換快速計算運動圖像間的上采樣相位相關(guān)函數(shù),通過檢測其峰值坐標(biāo)獲得運動矢量的亞像素級初始估計,以此將估計誤差縮小在1/n像素級的范圍內(nèi),同時降低算法的時空復(fù)雜度;其次,在上采樣相位相關(guān)曲面上,采用核回歸方法對以初始估計值為中心的3×3鄰域進行擬合;最后,以核回歸擬合函數(shù)的峰值坐標(biāo)對亞像素級的初始估計值進行修正,從而實現(xiàn)任意精度級別的精確運動估計。實驗結(jié)果表明,所提出的算法不僅具有良好的抗噪性,而且能夠有效地提高運動估計的精確性。
1整像素級運動估計的基本相位相關(guān)法
運用基本的相位相關(guān)法進行運動估計,其核心思想是傅里葉變換的平移性質(zhì),即圖像在空域中的相對運動只引起頻域中相位的線性變化,且頻譜的幅值不發(fā)生變化。算法的基本步驟是在頻域中計算發(fā)生相對運動的兩幅圖像之間的歸一化互功率譜,并對其執(zhí)行傅里葉逆變換得到相位相關(guān)函數(shù),最后通過檢測相位相關(guān)函數(shù)的峰值坐標(biāo)得到整像素級的運動矢量估計值,具體如下:
由式(5)可見,運動圖像間的相位相關(guān)函數(shù)由一個脈沖函數(shù)構(gòu)成,通過檢測其峰值坐標(biāo)即可得到運動矢量的整像素級估計值。
2基于核回歸修正的上采樣相位相關(guān)法
在實際的應(yīng)用場景中,由于圖像之間的相對運動是連續(xù)的,而采用第1章介紹的基本相位相關(guān)法進行運動估計,僅能得到運動矢量的整像素級估計值,這并不符合真實的運動情況。為了實現(xiàn)任意精度的亞像素運動精確估計,本章首先采用矩陣相乘離散傅里葉變換方法快速計算運動圖像間的n倍上采樣相位相關(guān)函數(shù),以此實現(xiàn)亞像素級的初始運動估計;然后應(yīng)用核回歸方法對初始估計進行精確修正,從而得到任意精度的運動矢量精確估計值。
2.1運動矢量的亞像素初始估計值的快速計算
為了得到運動圖像間的n倍上采樣相位相關(guān)函數(shù)cn(x,y),常規(guī)的實現(xiàn)方法是在頻域中采用n倍零填充對式(1)所示的歸一化互功率譜進行2維對稱擴展,得到n倍上采樣的歸一化互功率譜Cn(u,v),然后對其執(zhí)行傅里葉逆變換。其中,上采樣因子n的取值不僅決定了運動估計的精確度,同時也直接影響著算法的時空復(fù)雜度。例如,對于大小為1024×1024的運動圖像序列,若要實現(xiàn)精度為1/10像素的亞像素運動估計,則采用零填充方法計算10倍上采樣的相位相關(guān)函數(shù),需要執(zhí)行10240×10240次逆傅里葉變換的計算量以及相應(yīng)的存儲空間。因此,為了提高算法的執(zhí)行效率,本文應(yīng)用矩陣相乘離散傅里葉變換方法[24-26]快速計算上述精度為1/n像素的亞像素初始估計值。
由式(2)可得到運動圖像f(x,y)與參考圖像g(x,y)之間的相位相關(guān)函數(shù)的共軛形式c*(x,y),如式(6)所示:
2.2初始估計值的核回歸精確修正
由于上采樣方法僅能獲得上采樣因子所限定的1/n像素級的估計結(jié)果,且上采樣因子選取也可能使相位相關(guān)函數(shù)的峰值坐標(biāo)產(chǎn)生偏移,會直接影響著運動估計的精確性。核回歸作為一種非線性方法,已經(jīng)在圖像處理的多個領(lǐng)域得到了應(yīng)用[27-29]。為實現(xiàn)任意精度的運動矢量精確估計,本節(jié)引入核回歸擬合方法對2.1節(jié)所得到的初始估計值(dxn,dyn)進行精確修正。其基本思想是:在n倍上采樣相位相關(guān)曲面上,采用核回歸函數(shù)擬合以初始估計值為中心的3×3鄰域,然后以擬合曲面的峰值坐標(biāo)對初始估計值進行精確修正。
假設(shè)由上述3×3鄰域內(nèi)的相關(guān)值擬合的函數(shù)r(x)所屬空間為再生核Hilbert空間。定義rm為該鄰域內(nèi)各相關(guān)值所構(gòu)成的列向量,m為相關(guān)值的個數(shù),且第i個相關(guān)值對應(yīng)的核函數(shù)如下:
3實驗與結(jié)果分析
通過三組實驗將本文算法與新近相關(guān)文獻的代表性算法進行比較分析,包括文獻[18]的QuadFit算法、文獻[20]的LinFit算法、文獻[21]的SincFit算法、文獻[23]的LCM算法和文獻[24]的Upsamp算法,以此檢驗本文算法的精確性、抗噪性以及有效性。其中,實驗圖像包括人工生成相對運動的無噪圖像序列和相應(yīng)的加噪圖像序列,以及實際拍攝的視頻分區(qū)
圖像序列。實驗環(huán)境配置如下:Intel CPU(i5-2430M,2.40GHz)、8.0GB內(nèi)存、64位的Windows7操作系統(tǒng)。
在實驗中,為獲得高精度的運動估計結(jié)果,將Upsamp算法的上采樣因子n取值為10000,而本文算法的上采樣因子則取值為10;同時,為便于估計結(jié)果的比較,將本文算法以及QuadFit、LinFit、SincFit、LCM等算法的估計結(jié)果經(jīng)四舍五入僅保留4位小數(shù)。對于估計結(jié)果的準(zhǔn)確性,本文采用估計結(jié)果(dx,dy)與實際運動矢量(Dx,Dy)之間的均方根誤差(Root Mean Square Error,RMSE)作為衡量指標(biāo),其計算方法如式(21)所示:
3.1無噪聲影響的運動估計性能比較
本節(jié)實驗采用1組人工生成亞像素級相對運動的無噪圖像序列Einstein作為實驗圖像,如圖1所示。其中包含1幀參考圖像和7幀運動圖像,圖像大小為40×40;各幀運動圖像的運動方向隨機生成,相應(yīng)的運動矢量為正負(fù)10之間的任意隨機數(shù),如表1所示。
各對比算法的運動估計結(jié)果如表2、圖2所示。通過對比可知,表2所示的各種算法的運動矢量估計值均比較接近表1的各項實際運動矢量,但各種算法的估計結(jié)果的精確性有所不同;其中,本文算法的估計結(jié)果的平均RMSE為0.0070,而QuadFit、LinFit、SincFit、LCM、Upsamp等算法的平均RMSE則分別為0.0333、0.0195、0.0279、0.0616、0.0399,本文算法的運動估計精確性明顯高于上述所比較算法,其估計結(jié)果更加接近實際的運動矢量。在算法的執(zhí)行效率方面,Upsamp算法由于本身固有的缺陷,其運行時間最長,是其他
算法的100倍左右;而本文算法由于采用低倍數(shù)上采樣因子,同時引入矩陣相乘離散傅里葉變換方法快速計算上采樣相位相關(guān)函數(shù),有效地減少了算法的執(zhí)行時間,盡管稍高于QuadFit、LinFit、SincFit、LCM等算法,但仍然與后者保持相同的數(shù)量級,具有較高的執(zhí)行效率。
3.2噪聲影響下的運動估計性能比較
本節(jié)對3.1節(jié)實驗所用的實驗圖像分別疊加信噪比為10dB的隨機噪聲,并進行實驗對比,以此檢驗本文算法在噪聲影響下的運動估計性能,實驗結(jié)果如表3、圖3所示。
分析表3所示的運動矢量估計結(jié)果可知,在噪聲污染的影響下,本文算法以及QuadFit、SincFit、LCM、Upsamp等算法的估計結(jié)果的準(zhǔn)確性雖有一定程度的降低,但都表現(xiàn)出良好的抗噪性能,其運動矢量的估計值仍然接近表1所示的實際運動矢量;而LinFit算法對噪聲影響則較為敏感,其估計結(jié)果較明顯地偏離實際的運動矢量。
同時,由圖3所示的運動估計誤差比較可知,相對于無噪聲污染的圖像序列而言,本文算法以及上述所比較算法的估計誤差RMSE都有一定程度的提高。其中,本文算法對第4幀運動圖像的估計誤差RMSE為0.0289,稍高于Upsamp算法的0.0244;除此之外,本文算法對其余各幀運動圖像的估計誤差RMSE均明顯低于QuadFit、LinFit、SincFit、LCM、Upsamp等算法。本文算法及上述所比較算法的估計結(jié)果的平均RMSE分別為0.0204、0.0579、0.0943、0.0461、0.0775、0.0388,由此可知在噪聲影響下,本文算法對運動矢量的估計精確度仍然高于上述所比較算法。
3.3真實應(yīng)用場景下的運動估計性能比較
圖像超分辨率重建技術(shù)利用圖像序列中幀與幀之間的微小差異,利用一系列質(zhì)量較差、分辨率較低的圖像重建質(zhì)量更好、空間分辨率更高的圖像,而精確的運動估計則是成功實現(xiàn)超分辨率重建的關(guān)鍵步驟。本節(jié)實驗采用一段真實的低分辨率視頻的車牌區(qū)域截圖作為實驗圖像序列,包含1幀參考圖像和9幀運動圖像,圖像大小為29×27,如圖4所示。通過本文所提出的算法對其進行運動估計,并使用估計結(jié)果進行圖像配準(zhǔn),最后采用雙三次插值方法實現(xiàn)圖像的超分辨率重建,以此進一步檢驗本文算法的有效性。其中,各種算法的運動估計結(jié)果如表4所示,相應(yīng)的3倍超分辨率重建結(jié)果則如圖5所示。
分析表4所示的運動矢量估計結(jié)果可知,盡管無法比較估計結(jié)果與真實運動矢量的接近程度,但本文算法及所比較算法的估計結(jié)果的方向與實驗圖像序列中各幀運動圖像的實際運動方向相符合。同時,通過對比圖5所示的超分辨率重建結(jié)果可知,采用表4所示的運動矢量估計結(jié)果對低分辨率實驗圖像序列進行配準(zhǔn),并在此基礎(chǔ)上采用雙三次插值進行超分辨率重建均能夠有效地改善原圖像的質(zhì)量,從視覺上較好地識別出圖中的車牌號碼。其中,采用本文算法進行運動估計的超分辨率重建結(jié)果圖像的質(zhì)量與SincFit算法相當(dāng),且明顯優(yōu)于其他算法;QuadFit、LCM、Upsamp等算法相應(yīng)的超分辨率重建結(jié)果圖像均存在輕微的鋸齒效應(yīng)和模糊,而LinFit算法相應(yīng)的超分辨率重建結(jié)果圖像的鋸齒效應(yīng)則較為明顯。可見,本文算法能夠有效地應(yīng)用于亞像素級的精確運動估計。
4結(jié)語
針對亞像素級的精確運動估計問題,本文提出了一種基于核回歸修正的上采樣相位相關(guān)算法。首先,采用了矩陣相乘離散傅里葉變換快速計算上采樣相位相關(guān)函數(shù),通過檢測該上采樣函數(shù)的峰值坐標(biāo)獲得運動矢量的亞像素級初始估計值,有效地降低了整像素級初始估計所產(chǎn)生的誤差影響,同時避免了傳統(tǒng)上采樣算法的高時空復(fù)雜度問題,提高了算法的執(zhí)行效率。其次,引入了核回歸擬合方法計算亞像素級初始估計的精確修正值,實現(xiàn)了任意精度級別的精確運動估計。實驗結(jié)果表明,所提算法不僅能夠有效地提高運動估計的精確性,而且對噪聲影響具有良好的魯棒性;但本文算法仍未解決縮放尺度、旋轉(zhuǎn)角度等運動參數(shù)的估計問題,如何將仿射變換模型與本文算法相結(jié)合,進一步提高算法適用性是后續(xù)研究的重點。
參考文獻:
[1]KUGLIN C D. The phase correlation image alignment method [C]// Proceedings of the 1975 IEEE International Conference on Cybernetics and Society. Piscataway, NJ: IEEE, 1975: 163-165.
[2]ITO K, NIKAIDO A, AOKI T, et al. A dental radiograph recognition system using phase-only correlation for human identification [J]. IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2008, E91-A(1): 298-305.
[3]LEPRINCE S, BARBOT S, AYOUB F, et al. Automatic and precise orthorectification, coregistration, and subpixel correlation of satellite images, application to ground deformation measurements [J]. IEEE Transactions on Geoscience and Remote Sensing, 2007, 45(6): 1529-1558.
[4]LI X. An improved two-stage image registration algorithm for super-resolution [J]. IEEJ Transactions on Electrical and Electronic Engineering, 2014, 9(4): 415-420.
[5]KIM D-H, YOON Y-I, CHOI J-S. An efficient method to build panoramic image mosaics [J]. Pattern Recognition Letters, 2003, 24(14): 2421-2429.
[6]ZHANG J, WANG C-S, LIAO W-L. An image mosaics algorithm based on improved phase correlation [C]// ESIAT 09: Proceedings of the 2009 International Conference on Environmental Science and Information Application Technology. Washington, DC: IEEE Computer Society, 2009: 383-386.
[7]ITO K, NAKAJIMA H, KOBAYASHI K, et al. A fingerprint matching algorithm using phase-only correlation [J]. IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2004, E87-A(3): 682-691.
[8]MIYAZAWA K, ITO K, AOKI T, et al. An effective approach for iris recognition using phase-based image matching [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(10): 1741-1756.
[9]YOKOYA N, MIYAMURA N, IWASAKI A. Detection and correction of spectral and spatial misregistrations for hyperspectral data using phase correlation method [J]. Applied Optics, 2010, 49(24): 4568-4575.
[10]MAY K, KROUGLICOF N. Moving target detection for sense and avoid using regional phase correlation [C]// ICRA 2013: Proceedings of the 2013 IEEE International Conference on Robotics and Automation. Piscataway, NJ: IEEE, 2013: 4767-4772.
[11]TAKITA K, MUQUIT M, AOKI T, et al. A sub-pixel correspondence search technique for computer vision applications [J]. IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2004, E87-A (8): 1913-1923.
[12]OGURI T, IKEHARA M, NGUYEN T. 3D cube video coding using phase correlation motion estimation [J]. Electronics and Communications in Japan (Part Ⅲ: Fundamental Electronic Science), 2006, 89(5): 32-38.
[13]PAUL M, LIN W, LAU C T, et al. Direct intermode selection for H.264 video coding using phase correlation [J]. IEEE Transactions on Image Processing, 2011, 20(2): 461-473.
[14]ALBA A, ARCE-SANTANA E, AGUILAR-PONCE R M, et al. Phase-correlation guided area matching for realtime vision and video encoding [J]. Journal of Real-Time Image Processing, 2012, 9(4): 621-633.
[15]PODDER P K, PAUL M, MURSHED M, et al. Fast intermode selection for HEVC video coding using phase correlation [C]// DICTA 2014: Proceedings of the 2014 International Conference on Digital Image Computing: Techniques and Applications. Piscataway, NJ: IEEE, 2015: 1-8.
[16]ABDOU I E. Practical approach to the registration of multiple frames of video images [C]// Proceedings of the Visual Communications and Image Processing 99, SPIE 3563. Bellingham, WA: SPIE, 1999: 371-382.
[17]SHIMIZU M, OKUTOMI M. Sub-pixel estimation error cancellation on area-based matching [J]. International Journal of Computer Vision, 2005, 63(3): 207-224.
[18]ARGYRIOU V, VLACHOS T. A study of sub-pixel motion estimation using phase correlation [C]// BMVC 2006: Proceedings of the 2006 17th British Machine Vision Conference. Edinburgh: British Machine Vision Association, 2006: 387-396.
[19]HOGE W S. A subspace identification extension to the phase correlation method [J]. IEEE Transactions on Medical Imaging, 2003, 22(2): 277-280.
[20]TONG X, YE Z, XU Y, et al. A novel subpixel phase correlation method using singular value decomposition and unified random sample consensus [J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(8): 4143-4156.
[21]YU H, CHEN F-S, ZHANG Z-J, et al. A subpixel motion estimation approach based on the phase correlation [C]// OIMT II: Proceedings of the 2012 Optoelectronic Imaging and Multimedia Technology Ⅱ, SPIE 8558. Bellingham, WA: SPIE, 2012: 85580Y.
[22]FOROOSH H, ZERUBIA J B, BERTHOD M. Extension of phase correlation to subpixel registration [J]. IEEE Transactions on Image Processing, 2002, 11(3): 188-200.
[23]OUSGUINE S, ESSANOUNI F, ESSANOUNI L, et al. Motion estimation of aliased images using the phase correlation [C]// INTECH 2012: Proceedings of the 2nd International Conference on Innovative Computing Technology. Washington, DC: IEEE Computer Society, 2012: 170-173.
[24]GUIZAR-SICAIROS M, THURMAN S T, FIENUP J R. Efficient subpixel image registration algorithms [J]. Optics Letters, 2008, 33(2): 156-158.
[25]SOUMMER R, PUEYO L, SIVARAMAKRISHNAN A, et al. Fast computation of Lyot-style coronagraph propagation [J]. Optics Express, 2007, 15(24): 15935-15951.
[26]余應(yīng)淮,王錦榮.高精度亞像素全局運動估計的上采樣梯度互相關(guān)算法[J].中國圖象圖形學(xué)報,2012,17(12):1492-1499.(YU Y H, WANG J R. High accuracy sub-pixel global motion estimation based on upsampled gradient cross-correlation algorithm[J]. Journal of Image and Graphics, 2012, 17(12): 1492-1499.)
[27]TAKEDA H, FARSIU S, MILANFAR P. Kernel regression for image processing and reconstruction [J]. IEEE Transactions on Image Processing, 2007, 16(2): 349-366.
[28]LIU B, LIAO X. Image denoising and magnification via kernel fitting and modified SVD [C]// IAS 2009: Proceedings of the 5th International Conference on Information Assurance and Security. Washington, DC: IEEE Computer Society, 2009: 521-524.
[29]LIU B-Y, WU W-Y, CHEN X-W. Kernel fitting for image segmentation [C]// ICMLC 2008: Proceedings of the 7th International Conference on Machine Learning and Cybernetics. Washington, DC: IEEE Computer Society, 2008, 5: 2914-2917.
[30]LIU B, ZHANG J. An adaptively trained kernel-based nonlinear representor for handwritten digit classification [J]. Journal of Electronics (China), 2006, 23(3): 379-383.