楊家俊, 丁祝順, 陳 昕
(1.超精密航天控制儀器技術(shù)實(shí)驗(yàn)室,北京100039;2.北京航天控制儀器研究所,北京100039)
圖像配準(zhǔn)技術(shù)作為多種圖像處理與分析系統(tǒng)非常重要的基礎(chǔ)模塊,一直以來都是圖像處理與機(jī)器視覺領(lǐng)域極為重要的研究方向。圖像配準(zhǔn)技術(shù)被廣泛接受的定義如下:圖像配準(zhǔn)技術(shù)指將由不同視角、不同時(shí)間或不同傳感器捕獲的同一場(chǎng)景包含重疊區(qū)域的圖像進(jìn)行幾何對(duì)齊[1]。
圖像拼接及圖像融合是圖像配準(zhǔn)技術(shù)的兩大重要應(yīng)用領(lǐng)域,是相關(guān)功能系統(tǒng)不可或缺并直接影響系統(tǒng)性能的核心模塊,具備非常重要的技術(shù)價(jià)值。以圖像配準(zhǔn)算法為基礎(chǔ)的圖像融合技術(shù)已經(jīng)被廣泛應(yīng)用于機(jī)器視覺、安防監(jiān)控、醫(yī)學(xué)圖像分析、遙感圖像解譯、軍事目標(biāo)識(shí)別與跟蹤等多種實(shí)際場(chǎng)景,通過輸出全面綜合了各個(gè)輸入圖像信息的高質(zhì)量單一圖像,以便于人的感知或機(jī)器分析、理解以及決策。圖像配準(zhǔn)算法的另一大應(yīng)用領(lǐng)域是圖像拼接技術(shù),通過將具有重疊區(qū)域的輸入圖像進(jìn)行準(zhǔn)確拼接,可以合成具有大視角、超高分辨率的高質(zhì)量圖像。近年來,增強(qiáng)現(xiàn)實(shí)(Augmented Reality, AR )、 混 合 現(xiàn) 實(shí) (Mixed Reality,MR)等技術(shù)的快速發(fā)展及廣泛應(yīng)用促進(jìn)了對(duì)大視角、高分辨率全景圖像的迫切需求[2]。圖像配準(zhǔn)技術(shù)亦廣泛應(yīng)用于圖像降噪、視場(chǎng)擴(kuò)展、運(yùn)動(dòng)物體去除、模糊消除、空間解析度提高、動(dòng)態(tài)范圍增強(qiáng)、計(jì)算機(jī)特效、遙感及醫(yī)學(xué)成像等技術(shù)領(lǐng)域。
廣闊的應(yīng)用場(chǎng)景對(duì)圖像配準(zhǔn)算法提出了更高的性能指標(biāo)及技術(shù)要求,也促進(jìn)了圖像配準(zhǔn)技術(shù)的快速發(fā)展和廣泛應(yīng)用。目前,被廣泛研究以及應(yīng)用的圖像配準(zhǔn)算法通常分為基于區(qū)域的圖像配準(zhǔn)算法以及基于特征的圖像配準(zhǔn)算法兩大類[1]。傳統(tǒng)的圖像配準(zhǔn)算法[3]通常估計(jì)一個(gè)全局的單應(yīng)性變換進(jìn)行圖像對(duì)齊,并配合光束法平差尋找最優(yōu)解。2011年,Gao等[4]提出的算法將場(chǎng)景劃分到背景和前景兩個(gè)平面,分別使用單應(yīng)性矩陣進(jìn)行對(duì)齊,有效提升了融合圖像質(zhì)量。Lin等[5]使用多個(gè)仿射變換對(duì)齊圖像,能更好地處理圖像局部形變。2013年,Zaragoza等[6]將圖像劃分為密集的網(wǎng)格,然后在每個(gè)網(wǎng)格中高效地估計(jì)局部單應(yīng)性矩陣。2014年,Zhang等[7]提出的算法通過網(wǎng)格優(yōu)化實(shí)現(xiàn)了高質(zhì)量的大視差場(chǎng)景圖像拼接。2015年,Lin等[8]提出的算法通過自適應(yīng)計(jì)算確定全局相似變換進(jìn)行形狀矯正。2016年,Chen等[9]提出的算法同時(shí)使用局部和全局相似性約束確定相似矩陣,提升了圖像配準(zhǔn)質(zhì)量。2017年,Nie等[10]提出的算法同時(shí)計(jì)算拼接和穩(wěn)定的優(yōu)化,實(shí)現(xiàn)了對(duì)視頻圖像的高質(zhì)量配準(zhǔn)。
本文首先介紹了圖像配準(zhǔn)技術(shù)的基本流程,并討論了圖像配準(zhǔn)算法面臨的技術(shù)難點(diǎn)。然后,對(duì)基于區(qū)域和基于特征的圖像配準(zhǔn)算法分別進(jìn)行了詳細(xì)論述。最后,對(duì)全文進(jìn)行了總結(jié)并展望了圖像配準(zhǔn)技術(shù)的發(fā)展方向。
首先,圖像配準(zhǔn)算法需要選擇合適的變換模型及圖像特征。然后,針對(duì)圖像特征制定優(yōu)化準(zhǔn)則,并依據(jù)優(yōu)化準(zhǔn)則在變換模型的參數(shù)空間中進(jìn)行最優(yōu)搜索。最后,將搜索到的變換模型應(yīng)用至輸入圖像,完成圖像的配準(zhǔn)。圖像特征包括灰度特征以及各種人工設(shè)計(jì)的特征,人工特征相比灰度特征更穩(wěn)定、魯棒性更強(qiáng),因此獲得了更廣泛的應(yīng)用。以下為基于特征的圖像配準(zhǔn)技術(shù)標(biāo)準(zhǔn)流程,如圖1所示。
圖1 基于特征的圖像配準(zhǔn)流程圖Fig.1 Flowchart of feature-based image registration
(1)圖像預(yù)處理
圖像預(yù)處理屬于數(shù)據(jù)準(zhǔn)備階段,主要用于抑制噪聲、增強(qiáng)圖像配準(zhǔn)所需要的特征信息、提高輸入圖像的質(zhì)量。
(2)特征提取
特征提取是圖像配準(zhǔn)的關(guān)鍵步驟,包括手動(dòng)提取和自動(dòng)提取兩種,通常使用自動(dòng)提取的特征。人工設(shè)計(jì)的特征通常以像素亮度變化劇烈的邊緣、封閉輪廓、角點(diǎn)、線交點(diǎn)及端點(diǎn)等作為興趣點(diǎn)。圖像配準(zhǔn)通常提取角點(diǎn)特征,因?yàn)槠渚邆淞己玫目啥ㄎ患翱勺R(shí)別性。最經(jīng)典的特征描述符包括SIFT及其變體HOG,其具備平移、旋轉(zhuǎn)、縮放的幾何不變性及光照不變性。此外,被廣泛使用的人工特征還包括SURF、FAST、ORB等。
(3)特征匹配
特征匹配為待配準(zhǔn)圖像和參考圖像中提取的特征集合建立匹配關(guān)系,需要兩幅圖像之間具有足夠面積的重疊區(qū)域,通常利用特征描述符配合相應(yīng)的相似性度量實(shí)現(xiàn)特征的最近鄰匹配。同時(shí),采用隨機(jī)采樣一致性(Random Sample Concensus,RANSAC)算法利用特征的空間位置關(guān)系剔除誤匹配,建立全局一致的特征匹配關(guān)系。
(4)變換模型估計(jì)
圖像的變換模型包括剛體變換和非剛體變換:剛體變換對(duì)圖像建立全局的變換模型,無法建模圖像間的局部差異;非剛體變換允許通過局部的圖像扭曲配準(zhǔn)參考圖像與待配準(zhǔn)圖像。利用選定的變換模型對(duì)特征集進(jìn)行變換,并選擇合適的優(yōu)化搜索算法最小化匹配誤差,獲取變換模型參數(shù)的最優(yōu)估計(jì)。
(5)圖像重采樣
對(duì)待配準(zhǔn)圖像使用已估計(jì)參數(shù)的變換模型進(jìn)行重采樣,并對(duì)部分像素位置進(jìn)行插值,將待配準(zhǔn)圖像對(duì)齊至參考圖像,完成圖像配準(zhǔn)過程。最常用的插值方法包括最近鄰函數(shù)、雙線性和雙三次函數(shù)、二次樣條函數(shù)、三次B樣條函數(shù)、高階B樣條函數(shù)、Gauss函數(shù)和截?cái)嗟腟inc函數(shù)等。
圖像配準(zhǔn)是圖像處理與分析領(lǐng)域的關(guān)鍵技術(shù),當(dāng)前面臨的技術(shù)難點(diǎn)及挑戰(zhàn)主要包括:
1)典型的大視角鏡頭采集的圖像常常帶有不同程度的畸變失真,而廣角鏡頭、魚眼鏡頭的畸變則更為嚴(yán)重。這會(huì)嚴(yán)重影響使用針孔攝像機(jī)模型的圖像配準(zhǔn)系統(tǒng),需要事先對(duì)圖像采集設(shè)備進(jìn)行精確標(biāo)定[11]。
2)常用的異源圖像融合系統(tǒng)如可見光-紅外圖像、多模醫(yī)學(xué)圖像融合,其待配準(zhǔn)圖像來自不同類型的傳感器,由于其成像原理、所捕獲的目標(biāo)信息存在差異,給圖像配準(zhǔn)系統(tǒng)帶來了挑戰(zhàn)。
3)當(dāng)待拼接圖像較多或者輸入視頻流的時(shí)候,可能需要降低圖像配準(zhǔn)算法的復(fù)雜度,或者引入圖像選擇機(jī)制,從而在有限的計(jì)算資源下獲得滿足需求的處理速度。
4)實(shí)際圖像配準(zhǔn)系統(tǒng)的輸入圖像可能來自非受限的自然環(huán)境,運(yùn)動(dòng)物體干擾、光照等環(huán)境條件的變化難以避免,需要設(shè)計(jì)魯棒性更強(qiáng)的圖像配準(zhǔn)系統(tǒng)。
基于特征的圖像配準(zhǔn)算法由源圖像中提取更高層次的特征信息用于圖像配準(zhǔn),提高了算法對(duì)亮度變化和噪聲的魯棒性。并且相比基于區(qū)域的圖像配準(zhǔn)算法,基于特征的圖像配準(zhǔn)算法可以處理圖像差異較大的情況,是當(dāng)前被普遍采用的圖像配準(zhǔn)算法。
圖像特征包括區(qū)域特征、線特征和點(diǎn)特征。區(qū)域特征通常選擇高對(duì)比度的封閉區(qū)域,通過圖像分割方法檢測(cè)區(qū)域特征[12]。區(qū)域通常以重心來表達(dá),具備旋轉(zhuǎn)、尺度不變性,且對(duì)隨機(jī)噪聲和光照變化不敏感。線特征通常選擇線段或特定的物體輪廓[13],使用標(biāo)準(zhǔn)的邊緣檢測(cè)方法如Canny檢測(cè)器[14]檢測(cè)線特征,線特征通常以線的端點(diǎn)或中點(diǎn)表達(dá)。點(diǎn)特征在場(chǎng)景適應(yīng)性、檢測(cè)難度、匹配精度等方面優(yōu)于區(qū)域特征和線特征,在圖像配準(zhǔn)算法中得到了更廣泛的應(yīng)用。圖像特征的提取示意圖如圖 2 所示[15-16]。
圖2 圖像特征提取示意圖Fig.2 Schematic diagram of image feature extraction
常規(guī)的點(diǎn)特征定義包括線交叉點(diǎn)、局部曲率不連續(xù)點(diǎn)、曲線拐點(diǎn)、角點(diǎn)等,大量的研究文獻(xiàn)專注于點(diǎn)特征的精確、魯棒及快速檢測(cè)。最早的角點(diǎn)檢測(cè)器由 Moravec[17]在 1980年提出, Moravec檢測(cè)器將自相似度較低的點(diǎn)定義為角點(diǎn)。Kitchen等[18]使用了圖像的二階偏導(dǎo)數(shù),選擇曲率和梯度均較高的點(diǎn)。為了解決圖像二階導(dǎo)數(shù)對(duì)噪聲敏感的問題, F?rstner等[19]提出了只使用圖像一階導(dǎo)數(shù)、魯棒性更強(qiáng)的檢測(cè)器。Harris檢測(cè)器[20]由Harris和Stephens提出,它對(duì)旋轉(zhuǎn)和平移、少量光照及視角變化不敏感,計(jì)算量很小,應(yīng)用非常廣泛。1994年提出的Shi-Tomasi角點(diǎn)[21]改進(jìn)了Harris檢測(cè)器,通??梢垣@得更好的結(jié)果。Smith等[22]提出的SUSAN檢測(cè)器在適當(dāng)?shù)膱A形掩模內(nèi)檢測(cè)角點(diǎn),具備優(yōu)異的檢測(cè)速度、準(zhǔn)確性和抗噪性。Lowe[23]于2004年提出了尺度不變特征變換(Scale Invariant Feature Transform,SIFT)特征點(diǎn),SIFT特征具備優(yōu)異的魯棒性,獲得了非常廣泛的應(yīng)用。Bay等[24]提出的SURF特征是SIFT的改進(jìn)版本,引入了積分圖像,性能更強(qiáng)。2006年,由Rosten等[25]提出的FAST角點(diǎn)檢測(cè)器改進(jìn)了SUSAN特征,通過灰度值比較將圖像局部像素變化明顯的位置作為特征,其優(yōu)勢(shì)是速度極快。2011年,由Rublee等[26]提出的ORB特征為FAST特征引入了旋轉(zhuǎn)及尺度不變性,并使用速度極快的二進(jìn)制BRIEF描述子,實(shí)現(xiàn)了檢測(cè)質(zhì)量和性能的良好平衡,獲得了廣泛的應(yīng)用。
當(dāng)圖像缺少局部紋理、形狀和結(jié)構(gòu)等顯著的細(xì)節(jié)信息時(shí),通常使用基于特征之間空間分布關(guān)系的方法進(jìn)行匹配。Goshtasby等[27]提出的配準(zhǔn)算法基于圖匹配算法,統(tǒng)計(jì)待配準(zhǔn)圖像特征經(jīng)特定轉(zhuǎn)換后落在參考圖像特征給定范圍內(nèi)的數(shù)量,以得分最高的轉(zhuǎn)換參數(shù)作為估計(jì)結(jié)果。Stockman等[28]提出的算法假設(shè)變換模型為相似變換,首先使用所有點(diǎn)對(duì)計(jì)算參數(shù)空間點(diǎn),然后定位參數(shù)空間中的聚類簇,并取其質(zhì)心作為變換參數(shù)。
使用更為廣泛的方法基于特征的不變描述子,將待配準(zhǔn)圖像間描述子最相似的特征進(jìn)行配對(duì)。暴力匹配計(jì)算每一個(gè)待匹配特征與參考特征集的相似度,并返回相似度最高的項(xiàng)。暴力匹配可以獲得最優(yōu)匹配結(jié)果,但是效率太低,通常使用近似最近鄰快速 搜 索[29](Fast Library for Approximate Nearest Neighbors,F(xiàn)LANN)進(jìn)行快速匹配。特征的相似度度量通常使用特征向量間的Euclidean距離或余弦相似度,二進(jìn)制特征通常使用Hamming距離。文獻(xiàn)[30]使用相關(guān)系數(shù)作為相似性度量,文獻(xiàn)[31]利用互信息提升特征匹配的準(zhǔn)確度。此外,文獻(xiàn)[32]中提出的迭代最近點(diǎn)(ICP)算法在三維匹配中應(yīng)用非常廣泛。
為了剔除誤匹配點(diǎn)對(duì),通常使用由Fischler等[33]提出的隨機(jī)采樣一致(RANSAC)隨機(jī)優(yōu)化算法。RANSAC算法隨機(jī)選擇樣本點(diǎn)計(jì)算變換矩陣,通過不斷迭代執(zhí)行并保留內(nèi)點(diǎn)數(shù)量最多的變換矩陣作為輸出,其容錯(cuò)能力很強(qiáng),缺點(diǎn)是結(jié)果具有隨機(jī)性,且受迭代次數(shù)影響。此外,文獻(xiàn)[34]根據(jù)特征匹配的可靠性選擇特征,文獻(xiàn)[35]引入匹配似然系數(shù)用于匹配可靠性的度量。部分特征匹配方法不進(jìn)行區(qū)域相關(guān)或者特征匹配,如文獻(xiàn)[36]基于特征一致機(jī)制分階段進(jìn)行參數(shù)投票,逐個(gè)估計(jì)變換模型參數(shù)。點(diǎn)特征的匹配及誤匹配剔除示意圖如圖 3 所示[15]。
圖像配準(zhǔn)算法普遍使用透視變換模型和鏡頭畸變模型作為成像模型,配準(zhǔn)變換模型主要包括全局模型和局部模型。全局變換模型使用所有匹配點(diǎn)對(duì)估計(jì)待配準(zhǔn)圖像的映射函數(shù),通常使用線性的仿射變換模型
圖3 特征匹配及誤匹配剔除示意圖Fig.3 Schematic diagram of feature matching and mismatch eliminatio
若相機(jī)和成像場(chǎng)景距離較近,通常使用以下透視變換模型
由于匹配點(diǎn)數(shù)量遠(yuǎn)多于變換模型的自由度,通常對(duì)匹配點(diǎn)對(duì)的均方差損失函數(shù)使用最小二乘法求解模型的最優(yōu)參數(shù)。
全局變換模型平等地對(duì)待整幅圖像的變形,無法建模圖像的局部形變差異。因此,局部敏感的配準(zhǔn)模型在處理存在局部變形的圖像配準(zhǔn)時(shí)通常優(yōu)于全局方法。文獻(xiàn)[37]使用加權(quán)最小二乘法和加權(quán)平均法處理圖像的局部變形。文獻(xiàn)[38]利用匹配點(diǎn)對(duì)進(jìn)行三角化,并在三角內(nèi)部使用局部映射函數(shù)。其他應(yīng)對(duì)圖像局部變形的方法還包括使用徑向基函數(shù)以及彈性配準(zhǔn)方法。
使用暴力搜索求解模型參數(shù)的計(jì)算復(fù)雜度太高,通常使用數(shù)值優(yōu)化算法優(yōu)化由特定相似度度量構(gòu)造的配準(zhǔn)模型損失函數(shù),以獲得模型的自由參數(shù)。如文獻(xiàn)[39]使用了Gauss-Newton數(shù)值優(yōu)化算法,文獻(xiàn)[40]使用了梯度下降優(yōu)化算法,文獻(xiàn)[41]使用了Levenberg-Marquardt優(yōu)化算法,文獻(xiàn)[42]使用了模擬退火隨機(jī)優(yōu)化算法。此外,為了提高搜索速度,通常利用圖像金字塔分解或者小波分解進(jìn)行逐層細(xì)化搜索。
基于區(qū)域的圖像配準(zhǔn)算法定義了不同的區(qū)域相關(guān)性指標(biāo)。通常以參考圖像為基準(zhǔn),通過極大化相關(guān)性指標(biāo)搜索待配準(zhǔn)圖像的最佳位置,以實(shí)現(xiàn)圖像對(duì)齊,其示意圖如圖4所示[15]?;趨^(qū)域的圖像配準(zhǔn)算法通常不需要復(fù)雜的圖像預(yù)處理,算法實(shí)現(xiàn)簡(jiǎn)單,缺點(diǎn)是一般只適用于平移、旋轉(zhuǎn)較小且待配準(zhǔn)圖像之間亮度統(tǒng)計(jì)相關(guān)的情況,應(yīng)用范圍較小,魯棒性較低,運(yùn)算量較大。
圖4 基于區(qū)域的圖像配準(zhǔn)示意圖Fig.4 Schematic diagram of area-based image registration
最經(jīng)典的區(qū)域配準(zhǔn)準(zhǔn)算是歸一化互相關(guān)法[43],其對(duì)參考圖像和待配準(zhǔn)圖像的滑動(dòng)計(jì)算相似度,搜索最大值位置作為配準(zhǔn)結(jié)果。如圖4(c)所示,圖中顯著的響應(yīng)尖峰即最優(yōu)的匹配位置。相關(guān)法易于硬件實(shí)現(xiàn),但缺點(diǎn)是計(jì)算量較大、相似度極大值的顯著性較低。相位相關(guān)法由Kuglin[44]提出,該算法通過Fourier變換將圖像轉(zhuǎn)換到頻域,使用互功率譜中的相位信息進(jìn)行配準(zhǔn)。該算法具備光照魯棒性,并且適用于異源圖像,缺點(diǎn)是對(duì)噪聲比較敏感。擴(kuò)展相位相關(guān)法由De Castro等[45]提出,該算法依次對(duì)待配準(zhǔn)圖像的旋轉(zhuǎn)和平移量進(jìn)行估計(jì),可以在同時(shí)包含旋轉(zhuǎn)和平移的圖像上獲得良好的配準(zhǔn)效果。來自信息論的互信息(Mutual Information,MI)度量?jī)山M數(shù)據(jù)間的統(tǒng)計(jì)相關(guān)性,被廣泛用于異源圖像的配準(zhǔn),典型如醫(yī)學(xué)圖像和多光譜圖像。互信息最初由Viola等[40]引入到圖像配準(zhǔn)領(lǐng)域,他們通過梯度下降法最大化互信息進(jìn)行圖像配準(zhǔn)。Zhu[46]將交叉熵引入了圖像配準(zhǔn)領(lǐng)域,使用交叉熵度量圖像相似性。
本文介紹了圖像配準(zhǔn)技術(shù)的基本流程及技術(shù)難點(diǎn),分階段總結(jié)了圖像配準(zhǔn)算法的關(guān)鍵技術(shù)及研究進(jìn)展,同時(shí)分析了不同算法的適用性。基于區(qū)域的圖像配準(zhǔn)算法實(shí)現(xiàn)簡(jiǎn)單,但計(jì)算復(fù)雜度較高,適用范圍較小?;谔卣鞯膱D像配準(zhǔn)算法在特征匹配之前引入了更高層特征的提取過程,有效提升了算法的環(huán)境適應(yīng)性及配準(zhǔn)質(zhì)量,應(yīng)用非常廣泛,具有非常大的發(fā)展?jié)摿Α?/p>
傳統(tǒng)的圖像配準(zhǔn)算法主要使用點(diǎn)特征,對(duì)特征點(diǎn)的數(shù)量、質(zhì)量及分布情況要求較高。近年來,部分研究嘗試使用線特征輔助點(diǎn)特征以提高圖像配準(zhǔn)質(zhì)量,這有待進(jìn)一步的發(fā)展研究。隨著深度學(xué)習(xí)技術(shù)特別是卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展及其在計(jì)算機(jī)視覺領(lǐng)域展現(xiàn)出的優(yōu)異的實(shí)用性能,神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)開始被引入到圖像配準(zhǔn)領(lǐng)域。利用深度神經(jīng)網(wǎng)絡(luò)輔助提升基于多視幾何學(xué)傳統(tǒng)算法的圖像配準(zhǔn)質(zhì)量,甚至是訓(xùn)練端到端的圖像配準(zhǔn)網(wǎng)絡(luò)有著巨大的發(fā)展前景。
作為眾多計(jì)算機(jī)視覺系統(tǒng)的基礎(chǔ)模塊,圖像配準(zhǔn)技術(shù)得到了廣泛的研究及發(fā)展。隨著計(jì)算硬件性能的不斷提升,高計(jì)算復(fù)雜度的算法可以實(shí)時(shí)運(yùn)行,圖像配準(zhǔn)技術(shù)的精度及效率不斷提升。同時(shí),存在嚴(yán)重局部或非線性形變的圖像以及多模態(tài)圖像等圖像配準(zhǔn)任務(wù)仍然具有挑戰(zhàn)性,并且需要在提升算法魯棒性及場(chǎng)景自適應(yīng)性等方面繼續(xù)開展深入研究。