何志超,范余華,秦 川,沈斌濤
(1. 中國(guó)鐵路上海局集團(tuán)有限公司 南京鐵路樞紐工程建設(shè)指揮部,南京 210000;2. 上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200020)
隨著鐵路改革的不斷推進(jìn),通過(guò)物聯(lián)網(wǎng)、云計(jì)算、全景視頻融合等技術(shù)提高鐵路系統(tǒng)智慧程度和動(dòng)態(tài)感知能力,對(duì)鐵路客站的信息化發(fā)展具有重要意義。2021年,南京鐵路樞紐工程建設(shè)指揮部在連云港—鎮(zhèn)江高速鐵路(簡(jiǎn)稱:連鎮(zhèn)高鐵)揚(yáng)州東站對(duì)建設(shè)鐵路客站視頻融合智能監(jiān)控系統(tǒng)展開(kāi)研究,實(shí)現(xiàn)將建筑物“掀頂式”透明顯示,以便車站監(jiān)管人員進(jìn)行全局指揮及對(duì)突發(fā)事件快速處置。但在系統(tǒng)實(shí)際使用過(guò)程中,由于影像的獲取條件、拍攝條件及拍攝角度等存在很大的差異性[1],給影像拼接工作帶來(lái)很大困難。
深度學(xué)習(xí)算法尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)已在圖像處理、目標(biāo)檢測(cè)等方向取得了較大成果。研究表明,利用CNN深度學(xué)習(xí)能夠得到更好的特征描述能力[2],這給圖像匹配算法的優(yōu)化帶來(lái)了新的思路。目前,圖像匹配的主流方法是設(shè)計(jì)特征確定算法來(lái)提取特定的局部特征[3],通過(guò)比較從2幅圖像提取的局部特征得到匹配結(jié)果。但這一方案選取的特征受算法參數(shù)影響大、抗干擾能力小,從而可能導(dǎo)致局部特征表述能力有限[4];另外,特征點(diǎn)的匹配通常采用線性距離作為相似性度量,難以適應(yīng)匹配圖像間可能存在的復(fù)雜變換關(guān)系[5]。對(duì)此,王紅堯等人[6]提出改進(jìn)特征描述子后進(jìn)行圖像拼接的方法,獲得了較好的效果,但仍難以充分構(gòu)建和利用特征與度量之間的關(guān)系。為解決以上問(wèn)題,Zagoruyko等人[7]提出深度匹配方法,采用中心環(huán)繞雙流網(wǎng)絡(luò)和空間金字塔池化提升性能;Han等人[8]提出的匹配神經(jīng)網(wǎng)絡(luò),采用3個(gè)全連接層組成的度量網(wǎng)絡(luò)計(jì)算特征對(duì)的匹配分?jǐn)?shù),進(jìn)一步提升了配對(duì)成功率;Balntas等人[9]提出PN-Net引入正負(fù)樣本對(duì),具有更高效的描述子提取及匹配性能,能顯著減少訓(xùn)練和執(zhí)行時(shí)間。
在鐵路系統(tǒng)中,不同站點(diǎn)的攝像頭布置各不相同,且具有環(huán)境復(fù)雜、樣本量大等特點(diǎn),本文深入研究了神經(jīng)網(wǎng)絡(luò)的圖像呈現(xiàn)和比較方法,通過(guò)接收多臺(tái)攝像機(jī)實(shí)時(shí)反饋的視頻,對(duì)視頻拼接參數(shù)進(jìn)行檢測(cè),根據(jù)參數(shù)對(duì)多個(gè)視頻的每一幀圖像進(jìn)行特征提取、特征匹配、投影變換、圖像融合等處理,形成全景式優(yōu)質(zhì)圖像,改進(jìn)了基于神經(jīng)網(wǎng)絡(luò)特征表述的圖像拼接技術(shù),并將該技術(shù)應(yīng)用于鐵路客站視頻融合智能監(jiān)控系統(tǒng),獲得了更好的拼接效果。
模型結(jié)構(gòu)包括切片層、CNN特征提取層、連接層、相似性度量層和Softmax層,如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
1.1.1 切片層
將神經(jīng)網(wǎng)絡(luò)的輸入端設(shè)計(jì)為雙通道,每個(gè)通道輸入一張圖像。在該層將訓(xùn)練樣本中的2個(gè)圖像塊作為一對(duì)樣本輸入,而數(shù)據(jù)庫(kù)中的樣本經(jīng)過(guò)不同的仿射變換,自身帶有相似度標(biāo)簽,便于后續(xù)進(jìn)行分類。切片層圖片的格式為c·h·w,其中,c是圖像數(shù)據(jù)的通道數(shù),h是圖像塊的高度,w是圖像塊的寬度。輸出特征圖的格式為n·h·w,其中,n是卷積層中濾波器的數(shù)量。
1.1.2 CNN特征提取層
該層由2個(gè)并行的CNN特征提取網(wǎng)絡(luò)組成,包括卷積層,池化層和非線性激勵(lì)層,用于分別提取由切片層輸出的不同圖像塊的特征。
(1)卷積層:對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,通過(guò)卷積核遍歷圖片上的每一個(gè)像素點(diǎn),乘以對(duì)應(yīng)點(diǎn)的權(quán)重后求和,加上偏置后得到輸出特征值。
例1 (2018年武漢中考第16題)如圖1,在△ABC中,∠ACB=60°,AC=1,D是邊AB的中點(diǎn),E是邊BC上一點(diǎn).若DE平分△ABC的周長(zhǎng),則DE的長(zhǎng)是________.
(2)池化層:去除雜余信息,簡(jiǎn)化計(jì)算復(fù)雜度,同時(shí)保證平移、旋轉(zhuǎn)、伸縮等特征不變。本文選用最大值池化操作,隨著濾波器滑動(dòng),窗口內(nèi)的特征點(diǎn)只保留一個(gè)最大值。
(3)非線性激勵(lì)層:選用線性整流函數(shù)(ReLU,Rectified Linear Unit),該函數(shù)使得輸出為負(fù)數(shù)的神經(jīng)元值轉(zhuǎn)換為0,增加了神經(jīng)網(wǎng)絡(luò)各層之間的非線性關(guān)系,可緩解過(guò)擬合問(wèn)題的產(chǎn)生。
1.1.3 連接層
用于連接2個(gè)CNN輸出的特征向量,將不同特征提取模塊輸出的特征向量連接為一個(gè)特征向量輸出,便于后續(xù)輸入全連接層進(jìn)行相似度分析。
1.1.4 相似性度量層
該層接收上層傳來(lái)的特征向量,并投射為一個(gè)相似性度量值,由全連接層和非線性激勵(lì)層組成。
1.1.5 Softmax層
可得出訓(xùn)練過(guò)程中使用的代價(jià)函數(shù)為
其中,N是所有輸入樣本的數(shù)量;ln是輸入樣本xn所屬類的標(biāo)簽;K是類的數(shù)目,即ln=1,2,···,K。
本文選用 Brown數(shù)據(jù)庫(kù)[10],隨機(jī)選取30 000對(duì)圖像塊用于模型訓(xùn)練,10 000對(duì)用于模型測(cè)試。其中,訓(xùn)練集和測(cè)試集中均有60 %的相似對(duì)以及40 %的非相似對(duì)。同時(shí),選用BP算法結(jié)合隨機(jī)梯度下降法進(jìn)行模型的迭代更新[11],在隨機(jī)梯度下降過(guò)程中,學(xué)習(xí)率設(shè)置為0.01,動(dòng)量設(shè)置為0.9,權(quán)重衰減指數(shù)為0.005。每次訓(xùn)練進(jìn)行30 000次循環(huán)迭代。
目前,圖像配準(zhǔn)法中廣泛應(yīng)用的是基于尺度不變特征變換(SIFT,Scale-Invariant Feature Transform)的傳統(tǒng)方法,即通過(guò)構(gòu)建高斯金字塔查找特征點(diǎn),直接匹配關(guān)鍵點(diǎn)進(jìn)行拉伸、旋轉(zhuǎn)等操作完成配準(zhǔn)。但SIFT算法無(wú)法很好地表示圖像的高維語(yǔ)義,易造成顏色信息缺乏等問(wèn)題[12]。
本文在使用SIFT確定初步特征點(diǎn)的基礎(chǔ)上,對(duì)這些特征點(diǎn)周邊的圖像塊進(jìn)行提取并輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行分析。通過(guò)CNN神經(jīng)元局部連接的結(jié)構(gòu)實(shí)現(xiàn)了深層次堆疊,可用于描述SIFT算法無(wú)法得到的高維特征,從而改進(jìn)特征點(diǎn)的描述子,有效減少匹配畸形等問(wèn)題[13]。
用SIFT算法提取特征點(diǎn)的流程如圖2所示。將數(shù)據(jù)轉(zhuǎn)換為灰度圖像,通過(guò)高斯濾波平滑處理后降采樣,得到高斯金字塔;推導(dǎo)出高斯差分金字塔,在高斯差分金字塔上對(duì)每個(gè)點(diǎn)周圍的信息檢測(cè)出極值點(diǎn);篩選剔除不符合條件的極值點(diǎn)[14]。利用 SIFT確定特征點(diǎn)后,通過(guò)CNN提取以特征點(diǎn)為中心的圖像塊的深度特征,以此作為特征向量。
圖2 SIFT特征點(diǎn)確定過(guò)程
對(duì)上文基于 CNN 表述的特征向量進(jìn)行匹配,以獲得匹配點(diǎn)對(duì),其流程如圖3所示。
圖3 整體匹配算法流程
(1) 提取待匹配圖像和參考圖像中的特征點(diǎn),以特征點(diǎn)為中心裁剪 64×64 的圖像塊,輸入預(yù)訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)模型,經(jīng)過(guò)多個(gè)交替的卷積層與池化層后,在高層全連接層得到可表示該圖像特征的特征向量,作為CNN下該特征點(diǎn)得到的特征描述子[15];
(2) 根據(jù)得到的特征描述子對(duì)比待匹配圖像與參考圖像的特征點(diǎn);
(3) 根據(jù)特征點(diǎn)匹配的結(jié)果完成變換模型和參數(shù)估計(jì);
(4) 根據(jù)所得到的變換模型完成圖像的坐標(biāo)變換和插值, 得到匹配結(jié)果。
本文使用隨機(jī)抽樣一致性算法(RANSAC,Random Sample Consensus)剔除錯(cuò)配點(diǎn)[16],算法流程如圖4所示。
圖4 RANSAC算法流程
(1)將整體匹配算法中獲得的坐標(biāo)點(diǎn)匹配點(diǎn)對(duì)記為matches;
(2)選取最小數(shù)目的初始匹配點(diǎn)對(duì),記為samples,以此計(jì)算出變換矩陣M(CNN特征提取網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)了噪聲、模糊等不確定性對(duì)視頻圖像的影響,因此這里求解的變換矩陣用的是幾何變換模型M);
(3)使用此矩陣去判定剩余匹配點(diǎn)對(duì)是否滿足M,如果滿足,則判定為一致集的數(shù)據(jù),記為inliers,計(jì)算出一致集在總的匹配點(diǎn)對(duì)中的比例;
(4)判斷一致集占比是否增大,并判斷誤差是否在閾值內(nèi),若滿足則將此矩陣確定為最終結(jié)果;若不滿足,則重新開(kāi)始迭代。
虛影現(xiàn)象的去除是視頻融合的關(guān)鍵[17]。多視角攝像機(jī)的相機(jī)質(zhì)量差異及擺放的角度不同是造成虛影問(wèn)題的主要原因。在圖像拼接過(guò)程中,若視頻序列中出現(xiàn)運(yùn)動(dòng)的物體,更容易造成虛影現(xiàn)象,影響最終拼接質(zhì)量。去除運(yùn)動(dòng)物體所產(chǎn)生的虛影現(xiàn)象的算法流程如圖5所示。
圖5 虛影去除算法流程
(1)輸入源圖像I(x,y)并對(duì)輸入圖像進(jìn)行梯度域計(jì)算從而構(gòu)建一個(gè)梯度向量場(chǎng)。
(2)標(biāo)注所有待移除虛影的鄰域,并從源圖像和梯度向量場(chǎng)中移除虛影對(duì)象。
(3)虛影初步填充。通過(guò)梯度域的區(qū)域填充操作,使用圖像其他部分中能找到的最適合的部分來(lái)恢復(fù)這些區(qū)域。用這種方式獲得一個(gè)填充到合成梯度向量場(chǎng)的域以及對(duì)應(yīng)的一個(gè)初步填充完成的拼接圖像If。
(5)用散度向量場(chǎng)作為指導(dǎo)向量來(lái)構(gòu)造泊松方程。設(shè)待拼接圖像為I(x,y),拉普拉斯算子為 r2,構(gòu)建的泊松方程公式為
(6)通過(guò)求解泊松方程得到結(jié)果圖像Ic。在處理這一線性偏微分方程的過(guò)程中,應(yīng)用諾伊曼邊界條件指定邊界情況進(jìn)行求解。使用圖像If作為帶入偏微分方程的初始值,這樣可以獲得更好的虛影去除效果[18]。新的拼接圖像恢復(fù)后,將這個(gè)結(jié)果作為最后的拼接圖像,解決全景圖像拼接過(guò)程中運(yùn)動(dòng)物體產(chǎn)生虛影現(xiàn)象的問(wèn)題。
以連鎮(zhèn)高鐵揚(yáng)州東站視頻融合智能監(jiān)控系統(tǒng)使用過(guò)程中產(chǎn)生的圖像難以拼接以及融合結(jié)果畸變的問(wèn)題為例,本節(jié)將傳統(tǒng)圖像拼接方法與本文提出的基于深度學(xué)習(xí)的圖像融合方法進(jìn)行對(duì)比。選取同一站臺(tái)不同角度的2張像素分別為522×555和498×561的待匹配圖像,如圖6所示。2種方法所得到的拼接結(jié)果分別如圖7和圖8所示??梢钥闯?,紅色方框內(nèi)出現(xiàn)了明顯的圖片失真情況。
圖6 待匹配圖像
圖7 傳統(tǒng)方案拼接圖像
圖8 本文方案拼接圖像
本文通過(guò)計(jì)算特征點(diǎn)坐標(biāo)的均方根誤差(RMSE,Root Mean Square Error)比較算法的準(zhǔn)確性。假設(shè)共有n個(gè)待計(jì)算的特征點(diǎn),其RMSE 公式為
其中,(xi,yi)和(x0i,y0i)分別為待匹配圖像與參考圖像對(duì)應(yīng)的特征點(diǎn)的坐標(biāo)[19]。從Liberty數(shù)據(jù)集中隨機(jī)抽取10 000張圖片進(jìn)行測(cè)試,傳統(tǒng)方法下ERMSE=0.828,平均正確匹配特征點(diǎn)數(shù)為216,本文方法ERMSE=0.792,平均正確匹配特征點(diǎn)數(shù)為287。根據(jù)上述計(jì)算結(jié)果,本文的圖像融合方法能獲得更好的效果。
本文對(duì)基于SIFT的傳統(tǒng)圖像拼接方案進(jìn)行了分析,針對(duì)實(shí)施過(guò)程中存在的高維特征缺乏等情況進(jìn)行優(yōu)化處理,提出了基于深度學(xué)習(xí)的圖像拼接算法。利用深度學(xué)習(xí)提高特征描述子的能力,并輔以剔除錯(cuò)配點(diǎn)和去除虛影等算法優(yōu)化操作。本文的改進(jìn)算法解決了傳統(tǒng)SIFT算法中誤匹配對(duì)多、匹配結(jié)果仿射易失真的問(wèn)題。經(jīng)實(shí)驗(yàn)證明,改進(jìn)后的算法對(duì)圖像配準(zhǔn)具有良好的效果。未來(lái)還將在平均運(yùn)行速度和多場(chǎng)景適用性上對(duì)算法繼續(xù)改進(jìn)。