蔡澤民,廖小鑫,賴劍煌,陳軍
1.汕頭大學(xué)工學(xué)院電子系,汕頭 515063;2.廣東省數(shù)字信號(hào)與圖像處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,汕頭 515063;3.中山大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006;4.機(jī)器智能與先進(jìn)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,廣州 510006;5.佛山科學(xué)技術(shù)學(xué)院工業(yè)設(shè)計(jì)與陶瓷藝術(shù)學(xué)院,佛山 528000
光流估計(jì)作為計(jì)算機(jī)視覺(jué)的一個(gè)重要研究方向,在人群運(yùn)動(dòng)分割(Liu 等,2020b)、物體跟蹤(You等,2021)、視頻動(dòng)作識(shí)別(Solmaz等,2012)和流體運(yùn)動(dòng)估計(jì)(邵緒強(qiáng) 等,2021)等方面有著廣泛應(yīng)用。盡管光流在計(jì)算機(jī)視覺(jué)領(lǐng)域受到了研究者的關(guān)注,但復(fù)雜背景條件下精確估計(jì)光流仍然存在許多挑戰(zhàn)(張聰炫 等,2017)。本文提出一種基于STAR(structure-texture aware retinex)解耦的光流估計(jì)方法。首先采用結(jié)構(gòu)紋理感知的Retinex 模型(STAR)將圖像中的光照分量與反射分量分離。圖1 是STARFlow 解耦過(guò)程的可視化結(jié)果,其表明STAR 圖像解耦能在不影響結(jié)構(gòu)細(xì)節(jié)情況下顯著降低原視頻幀的光照變化,與Wedel 等人(2009)提出的結(jié)構(gòu)紋理分解方法相比,STAR解耦結(jié)果包含更豐富的細(xì)節(jié)信息,有助于提高光流計(jì)算的魯棒性。為了在計(jì)算光流時(shí)保持良好的運(yùn)動(dòng)邊緣,使用L0梯度最小化對(duì)模型進(jìn)行平滑稀疏約束,以全局約束速度場(chǎng)分量非零元個(gè)數(shù)。此外,本文給出了求解新模型STARFlow的數(shù)值解法。在3 個(gè)具有挑戰(zhàn)性的公開(kāi)數(shù)據(jù)集上所進(jìn)行的評(píng)估,驗(yàn)證了STARFlow方法優(yōu)于眾多基于變分框架及基于深度學(xué)習(xí)框架的光流估計(jì)方法。為了驗(yàn)證STARFlow 方法在生物特征識(shí)別應(yīng)用上的有效性,本文通過(guò)STARFlow 提取臉部運(yùn)動(dòng)光流特征,在CASIA(Institute of Automation,Chinese Academy of Sciences)人臉?lè)雌墼p數(shù)據(jù)集上進(jìn)行了人臉活體檢測(cè)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了本文方法在不同光照條件下具有良好的魯棒性,更適合于人臉活體檢測(cè)應(yīng)用。
圖1 圖像解耦結(jié)果Fig.1 Image decoupling ((a)two consecutive frames in alley_2 (clean set)of MPI Sintel dataset;(b)visualization results obtained by the structure-texture method proposed by Wedel et al.(2019);(c)visualization results obtained by the STAR decoupling method)
本文基于圖像序列STAR 解耦,采用L0 平滑稀疏約束,建立起復(fù)雜環(huán)境下魯棒光流估計(jì)模型STARFlow,保留了更多的運(yùn)動(dòng)細(xì)節(jié),并給出了模型求解方法。
近年來(lái),大多數(shù)光流計(jì)算方法致力于在理想條件下提高光流估計(jì)精度(付婧祎 等,2021)。然而,連續(xù)圖像間的光照變化可能非常復(fù)雜,在許多實(shí)際應(yīng)用場(chǎng)景中,光流估計(jì)仍然面臨重大挑戰(zhàn)。為了提高光流計(jì)算對(duì)光照變化的魯棒性,研究人員付出了很多努力。Brox等人(2004)采用亮度梯度恒常性假設(shè)作為變分模型的數(shù)據(jù)項(xiàng)約束,取代了眾所周知的亮度恒定假設(shè)。同時(shí),采用了由粗到細(xì)的流動(dòng)扭曲技術(shù),獲得了高精度的光流場(chǎng)。然而,無(wú)論是亮度恒定假設(shè)還是亮度梯度恒定假設(shè)都無(wú)法準(zhǔn)確建模光照變化,使得光流計(jì)算總是對(duì)光照變化敏感。Zimmer等人(2011)開(kāi)發(fā)了一個(gè)補(bǔ)充框架,將數(shù)據(jù)項(xiàng)和正則化項(xiàng)中的可用信息結(jié)合起來(lái)。為了實(shí)現(xiàn)對(duì)光照變化和異常值的魯棒性,模型在HSV(hue,saturation,value)顏色空間中采用了約束歸一化和高階恒定假設(shè)。Molnár等人(2010)提出了一種基于歸一化互相關(guān)變換(cross-correlation transform,CT)的變分方案,適用于彩色和灰度序列。在此之后,Drulea 和Nedevschi(2013)提出了一種快速且可并行化的基于塊的最小化方法,使用零均值歸一化互相關(guān)作為塊之間的匹配成本。Fang 等人(2013)為塊匹配方法引入了正負(fù)投票策略。結(jié)果表明,與亮度恒常性假設(shè)相比,基于CT 的塊匹配方法對(duì)光照變化更具魯棒性。Chen 等人(2018)提出的基于Split-Bregman的光流模型在處理光照變化時(shí)沿用了Drulea 和Nedevschi(2013)提出的零均值歸一化互相關(guān)方法。然而,基于互相關(guān)的光流方法僅在每一個(gè)圖像塊周圍環(huán)境和中心像素之間具有相同的局部概率信息。韋伯定律可以應(yīng)用于各種感覺(jué)模式(亮度、響度等),在此基礎(chǔ)上,Mei 等人(2020)給出一種高效的全變分光流方法,稱為加權(quán)正則化變換(weighted regularization transform,WRT),該方法優(yōu)化了韋伯定律,以在光照變化條件下提供魯棒的光流估計(jì)。然而,傳統(tǒng)的基于塊的數(shù)據(jù)項(xiàng),包括人口普查變換(census transform,CT),由于其局部表面的強(qiáng)烈變化,導(dǎo)致無(wú)法處理尺度變化。
對(duì)連續(xù)兩幀圖像的預(yù)處理也為提高光流估計(jì)的魯棒性提供了思路。Mileva 等人(2007)通過(guò)圖像歸一化、對(duì)數(shù)導(dǎo)數(shù)和顏色空間轉(zhuǎn)換獲得了光流計(jì)算中的光照不變量,采用Brox 等人(2004)提出的變分框架,提高了光流估計(jì)精度,但計(jì)算復(fù)雜度高。Wedel等人(2009)提出了一種圖像分解方法,以消除光流估計(jì)中光照變化的影響,雖然該方法對(duì)光照變化具有魯棒性,但由于圖像分解中的信息丟失,其精度性能(如平均端點(diǎn)誤差(end-point error,EPE)和平均角誤差(average angle error,AAE))不夠好。Kumar 等人(2013)提出了另一種解耦方法,以提高光流對(duì)不均勻光照的適應(yīng)性。在計(jì)算光流時(shí),將反射率和光照分量從圖像亮度中分離出來(lái),并結(jié)合了更優(yōu)的反射率恒定性假設(shè)。然而,該方法并未將圖像中的光照分量完全分離,反射分量中仍包含許多光照變化成分,導(dǎo)致模型在處理明顯光照變化時(shí)魯棒性不佳。
由于模型固有的不適定性,計(jì)算光流時(shí)通常需要正則化處理。在局部處理方法中,如Lucas-Kanade 所提出的,正則化是通過(guò)施加局部運(yùn)動(dòng)模式(恒定運(yùn)動(dòng)、仿射變換等)隱式實(shí)現(xiàn)的。在全局技術(shù)中,Horn 和Schunck(1981)所提出的稠密光流,通過(guò)使用顯式Tikhonov正則化來(lái)增強(qiáng)目標(biāo)運(yùn)動(dòng)場(chǎng)的全局平滑性。Tikhonov 正則化通常使用L2 范數(shù),并通過(guò)保持小振幅系數(shù)均勻分布使其最小化,從而在光流計(jì)算中捕獲全局模式。與L2 范數(shù)不同,L1 范數(shù)的最小化傾向于產(chǎn)生許多零系數(shù)或小振幅系數(shù),而很少產(chǎn)生大振幅系數(shù)。對(duì)于離散信號(hào),L1范數(shù)比L2范數(shù)能得到更好的結(jié)果。Bruhn 和Weickert(2005)提出一種新方案,通過(guò)使用L1 范數(shù)代替L2 范數(shù)來(lái)提高光流估計(jì)的精度,并獲得了實(shí)時(shí)性能?,F(xiàn)有變分光流模型在處理正則化問(wèn)題時(shí)仍然采用傳統(tǒng)的L1范數(shù)和L2 范數(shù)。圖2 是Middlebury 數(shù)據(jù)集中的Grove3 序列的光流可視化結(jié)果。其中,圖2(b)為基于L2 范數(shù)正則化的H&S 方法估計(jì)結(jié)果,圖2(c)為基于L1范數(shù)正則化的TV_L1方法計(jì)算結(jié)果,圖2(d)為基于L0 范數(shù)正則化的STARFlow 光流計(jì)算結(jié)果。使用L1 或L2 范數(shù)正則化可以產(chǎn)生平滑流場(chǎng)并保持運(yùn)動(dòng)非連續(xù)性。然而,如圖2(b)(c)所示,計(jì)算結(jié)果丟失了精細(xì)尺度的運(yùn)動(dòng)結(jié)構(gòu)并產(chǎn)生過(guò)多的分割偽影。
圖2 Middlebury數(shù)據(jù)集上Grove3序列的光流可視化結(jié)果Fig.2 Optical flow visualization results of Grove3 sequence on Middlebury dataset((a)ground-truth;(b)H&S;(c)TV_L1;(d)STARFlow)
本文方法在計(jì)算光流時(shí),不是直接依賴亮度恒常性假設(shè),而是采用結(jié)構(gòu)紋理感知Retinex 模型,將圖像亮度解耦成反射和光照分量,從而可單獨(dú)執(zhí)行反射或光照恒常性假設(shè)。
Retinex 模型用于建立人類視覺(jué)系統(tǒng)的顏色感知模擬(Land,1977),其物理目標(biāo)是將觀測(cè)圖像分解為光照和反射分量,該模型可表示為
式中,L表示場(chǎng)景的光照分量,R代表場(chǎng)景的表面反射分量,⊙表示矩陣點(diǎn)乘。然而,Retinex 解耦問(wèn)題是高度不適定的,還需增加適當(dāng)?shù)墓庹蘸头瓷湎闰?yàn)來(lái)正則化解空間。定性地說(shuō),光照成分應(yīng)該是分段平滑的,其捕捉的是場(chǎng)景中對(duì)象的結(jié)構(gòu);而反射分量主要呈現(xiàn)觀察場(chǎng)景的物理特征,負(fù)責(zé)捕捉紋理信息(Wei 等,2009)。為了獲取圖像的結(jié)構(gòu)紋理信息,引入平均局部方差濾波器(mean of least variance,MLV)(Cai等,2017),該濾波器可表示為
式中,Ω表示對(duì)應(yīng)I中每個(gè)像素鄰域的局部塊(Danon等,2019)。|Ω|表示Ω中的元素個(gè)數(shù)。由于式(2)描述的MLV 濾波器更傾向于捕捉結(jié)構(gòu)信息,因此不能直接應(yīng)用于Retinex 解耦。如Retinex 理論所述,較大的導(dǎo)數(shù)歸因于反射率的變化,而較小的導(dǎo)數(shù)則出現(xiàn)在平滑光照中。因此,考慮引入一種指數(shù)形式的局部導(dǎo)數(shù),用于靈活調(diào)控結(jié)構(gòu)和紋理估計(jì)。具體而言,通過(guò)控制指數(shù)的增長(zhǎng)或衰減,使局部導(dǎo)數(shù)能更清楚地反映相應(yīng)的內(nèi)容結(jié)構(gòu)或詳細(xì)紋理,從而能更靈活地應(yīng)用于結(jié)構(gòu)和紋理解耦(Xu 等,2020)。指數(shù)化平均局部方差濾波器(exponential mean of least variance,EMLV)可表示為
式中,γ是用于控制圖像I的梯度敏感度指數(shù)。通過(guò)對(duì)指數(shù)γ的分析,當(dāng)γ= 0.5時(shí),EMLV濾波器能更好地顯示圖像紋理,而當(dāng)γ≥1 時(shí),EMLV 濾波器更傾向于提取結(jié)構(gòu)邊緣?;谏鲜鲇^察,得到一種初始化方案,即設(shè)置L0=R0=I0.5,同時(shí)建立相應(yīng)的加權(quán)矩陣
式中,γδ>1,γt<1 用于調(diào)節(jié)光照和反射解耦時(shí)的結(jié)構(gòu)和紋理感知,?表示點(diǎn)除運(yùn)算,ε為常數(shù),本文ε= 0.001。由此得到一種基于結(jié)構(gòu)紋理感知的Retinex 圖像解耦模型(structure-texture aware retinex,STAR),其能量泛函可表示為
式中,S0和T0是式(4)(5)中定義的加權(quán)矩陣,分別表示光照分量的結(jié)構(gòu)圖和反射分量的紋理圖。φ和ψ是比例系數(shù),用于調(diào)節(jié)數(shù)據(jù)項(xiàng)和正則化項(xiàng)之間的比重。式(6)中的目標(biāo)函數(shù)涉及光照變量L和反射變量R,它們是可分離的,且分離后的子問(wèn)題是凸問(wèn)題,考慮采用交替求解的方式。記Lk和Rk為第k次迭代時(shí)得到的光照和反射分量,K代表最大迭代次數(shù),則變量Lk和Rk的更新方式如下:
1)固定R,更新L。
在第k+ 1 次迭代時(shí),關(guān)于L的優(yōu)化問(wèn)題可表示為
為了求解問(wèn)題(7),考慮將方程矢量化。為此,使 用 矢 量 化 操 作 符vec( ·),定 義i=vec(I),l=vec(L),rk=vec(Rk),s0=vec(S0)。將具有前向差分離散梯度算子的Toeplitz 矩陣記作G,則Gl=vec(?L)。記Drk= diag(rk)和Ds0= diag(s0)分別表示以rk和s0為主對(duì)角線的矩陣,則問(wèn)題(7)可轉(zhuǎn)化為標(biāo)準(zhǔn)最小二乘回歸問(wèn)題,即
通過(guò)對(duì)式(8)求關(guān)于l的導(dǎo)數(shù),并將導(dǎo)數(shù)值置為0,可得到相應(yīng)的解為
最后,將式(9)逆矢量化,得到相應(yīng)的矩陣形式解為L(zhǎng)k+1=vec-1(lk+1)。
2)固定L,更新R。
由式(7)獲得Lk+1后,可類似得到關(guān)于R的優(yōu)化問(wèn)題
近似地,可將問(wèn)題(10)重新表述為矢量化格式,記r=vec(R),t0=vec(T0),Gr=vec(?R),Dlk=diag(lk+1)以及Dt0= diag(t0),則問(wèn)題(10)轉(zhuǎn)化為一個(gè)標(biāo)準(zhǔn)最小二乘回歸問(wèn)題,即
同樣,通過(guò)對(duì)r求導(dǎo)并置為0,可得到相應(yīng)的極值解,即
將式(12)逆矢量化,得到相應(yīng)的矩陣形式解Rk+1=vec-1(rk+1)。
由于目標(biāo)函數(shù)(6)是凸函數(shù),具有全局最優(yōu)解,因此上述算法是收斂的。
Horn 和Schunck(1981)提出的H&S 光流是經(jīng)典的光流估計(jì)算法,常作為初始光流。該方法基于亮度恒常性假設(shè),表達(dá)式為
式中,I(x,y,t)表示t時(shí)刻(x,y)處的亮度值,(dx,dy)是連續(xù)圖像幀同一像素點(diǎn)的位移矢量。為了后續(xù)表示 方 便,將 上 述 向 量 分 別 記 做x=(x,y,t),f=(dx,dy,dt) =(u,v,τ),u為水平方向速度,v為垂直方向速度,τ為兩個(gè)連續(xù)幀之間的時(shí)間間隔。則式(13)可表示為
為使估計(jì)誤差最小化,采用平滑約束項(xiàng)對(duì)光流場(chǎng)進(jìn)行局部約束,并將光流估計(jì)問(wèn)題轉(zhuǎn)化為能量泛函最小化問(wèn)題。記H&S 光流法的數(shù)據(jù)項(xiàng)為E′data,用于懲罰偏離亮度恒常性假設(shè)的情況,則相應(yīng)的表達(dá)式為
式中,Ω表示圖像計(jì)算域。
由式(15)兩邊取對(duì)數(shù),可得
將解耦操作(式(1))作用于式(16)兩邊,有
該表達(dá)式有效分解了光流計(jì)算中的反射與光照成分,從而可以分別懲罰與反射恒常性假設(shè)和光照恒常性假設(shè)相關(guān)的偏差。由于反射成分不受光照變化影響,相對(duì)于光照恒常性,反射恒常性假設(shè)應(yīng)當(dāng)?shù)玫礁浞值谋U希蕴岣吖饬鲗?duì)光照變化的魯棒性。因此,在進(jìn)行光流估計(jì)時(shí),反射和光照分量按一定比例融合,其中反射分量應(yīng)占主導(dǎo)。相應(yīng)的加權(quán)表達(dá)式為
式中,ξ控制著反射恒常性假設(shè)與光照恒常性假設(shè)的相關(guān)偏差。
更進(jìn)一步地,采用濾波方式提取光照分量中的有用信息,相應(yīng)的濾波操作可表示為
式中,L表示經(jīng)濾波后的目標(biāo)圖像,L′代表濾波前的原圖像分量,F(xiàn)l是5 × 5 的低通濾波器。由此,經(jīng)過(guò)加權(quán)和濾波處理后的數(shù)據(jù)項(xiàng)可表示為
將式(20)中與反射恒常性假設(shè)和光照恒常性假設(shè)相關(guān)的偏差懲罰項(xiàng)進(jìn)行泰勒展開(kāi),可得
因此,有
式中,Lx,Ly,Lt分別表示濾波后光照分量L對(duì)x,y,t的偏導(dǎo),而Rx,Ry和Rt分別代表反射分量R對(duì)x,y,t的偏導(dǎo)。u和v分別表示圖像像素點(diǎn)的水平速度分量和垂直速度分量。由式(22)整理得到新的光流約束方程,可表示為
由此,得到最終的模型數(shù)據(jù)項(xiàng)為
為了光流計(jì)算時(shí)能保持良好的運(yùn)動(dòng)邊緣,受Xu等人(2011)優(yōu)化框架的啟發(fā),采用L0 梯度最小化方式對(duì)光流場(chǎng)進(jìn)行平滑處理,正則化項(xiàng)可表示為
式 中,?u=[?xu,?yu]T,?v=[?xv,?yv]T?!??u‖0和‖ ?v‖0分別為二元函數(shù),定義為
則式(25)中圖像域Ω內(nèi)L0范數(shù)度量可表示為
式中,#表示計(jì)數(shù)運(yùn)算符,式(28)(29)度量的是光流場(chǎng)水平分量u和垂直分量v的非零梯度個(gè)數(shù)。up和vp分別代表u和v分量在像素點(diǎn)p位置的水平和垂直梯度。
顯然,當(dāng)連續(xù)幀之間存在一些大的差異時(shí),例如第1幀某些區(qū)域存在非零梯度值,而第2幀相應(yīng)區(qū)域梯度為零,此時(shí)光流場(chǎng)梯度應(yīng)具有稀疏性。基于此,本文提出了一種新的正則化函數(shù),通過(guò)梯度L0 范數(shù)對(duì)模型進(jìn)行平滑約束。采用稀疏梯度計(jì)數(shù)方式,可約束非零流動(dòng)梯度的數(shù)量,以恢復(fù)重要的運(yùn)動(dòng)結(jié)構(gòu)。
為了從式(23)求解獲得光流場(chǎng)(u,v),可最小化STARFlow模型,具體為
式中,α用于調(diào)節(jié)數(shù)據(jù)項(xiàng)和平滑項(xiàng)之間的比例關(guān)系。該能量泛函采用L1 范數(shù)度量數(shù)據(jù)項(xiàng)的懲罰以處理光流場(chǎng)異常值,正則化項(xiàng)則使用L0范數(shù)作為平滑—稀疏約束。
為了優(yōu)化數(shù)據(jù)項(xiàng),在原數(shù)據(jù)項(xiàng)中引入一度量輸出(u,v)與初始光流(u0,v0)之間差異的二次懲罰函數(shù),以保證它們的相似性,即
為了最小化式(31),依據(jù)式(32)(33),引入帶卷積操作的迭代式,具體為
式中,θ是SOR因子,通常設(shè)置為θ= 1。
為了約束輸出光流場(chǎng)(u,v)與(un,vn)之差,考慮如下優(yōu)化問(wèn)題
式中,N1和N2分別約束分量u和v的非零梯度數(shù)量。通過(guò)引入加權(quán)系數(shù)η,式(38)和(39)可聯(lián)立為
式(40)采用離散計(jì)數(shù)方案并以統(tǒng)計(jì)方式模擬全局不連續(xù)性,傳統(tǒng)離散方法(如梯度下降法)難以解決該優(yōu)化問(wèn)題??紤]采用間接方法求解并保留模型屬性。引入輔助變量p=[pu,pv]T和q=[qu,qv]T并采用二次懲罰函數(shù)來(lái)度量光流梯度(?u,?v)與輔助變量(p,q)之間的差異,可得
式中,λ是比例系數(shù),輔助變量(p,q)與光流梯度(?u,?v)之間的相似性可通過(guò)λ調(diào)節(jié)。
為了估計(jì)式(41)(42)中的4 個(gè)未知量,并最終獲得光流場(chǎng)(u,v),設(shè)計(jì)了兩階段算法,具體如下:
階段1)假設(shè)u,v已知,求解p與q。
由式(41)(42),有
為方便起見(jiàn),根據(jù)u和v的梯度,令其中一項(xiàng)非負(fù)積分為0,則第k次迭代的基本可行解(p,q)為
階段2)p,q已知。式(41)(42)轉(zhuǎn)化為二次函數(shù)最小化問(wèn)題,即
其離散歐拉—拉格朗日方程可表示為
式中,Δ是拉普拉斯算子,?·表示散度。采用快速傅里葉變換(fast Fourier transform,F(xiàn)FT)作用于方程兩側(cè),在重新整理排列后可得到光流場(chǎng)計(jì)算公式
式 中,F(xiàn)(·)是FFT 算 子,F(xiàn)*表 示F 的 復(fù) 合 共 軛,F(xiàn)-1(·)代表逆變換。算法的總體框架如圖3所示。
圖3 算法總體框架Fig.3 Overview of the proposed method
實(shí)驗(yàn)在3 個(gè)主流數(shù)據(jù)集上進(jìn)行,分別是Middlebury 光流數(shù)據(jù)集(Baker 等,2011))、KITTI flow 2015光流數(shù)據(jù)集(Geiger 等,2013)以及MPI Sintel 數(shù)據(jù)集(Butler 等,2012),以驗(yàn)證光流估計(jì)精度,尤其是對(duì)光照變化的魯棒性。實(shí)驗(yàn)將本文方法與其他基于全變分框架的光流方法進(jìn)行比較,并在具有挑戰(zhàn)性的KITTI 數(shù)據(jù)集上與部分基于深度學(xué)習(xí)框架的光流估計(jì)算法進(jìn)行對(duì)比分析。
Middlebury 數(shù)據(jù)集由兩組圖像序列組成。訓(xùn)練集僅包含8 對(duì)具有g(shù)round-truth 的圖像對(duì),而測(cè)試集是12 對(duì)ground-truth 不公開(kāi)的圖像對(duì),以供在線評(píng)測(cè)。Middlebury 數(shù)據(jù)集中所有序列的位移都比較小,通常低于10 像素。因此,本文方法可以在不進(jìn)行空間金字塔運(yùn)算的情況下對(duì)光流估計(jì)的準(zhǔn)確性進(jìn)行評(píng)估。本文方法的Middlebury 在線評(píng)估結(jié)果可在網(wǎng)站https://vision.middlebury.edu/flow/eval/resultsxiaoxin-liao/results-e1.php 查詢,本文方法取得了具有競(jìng)爭(zhēng)力的排名。圖4 顯示了來(lái)自Middlebury 訓(xùn)練集中一些具有復(fù)雜紋理圖像對(duì)的光流可視化結(jié)果,從上至下依次是Grove2、RubberWhale、Dimetrodon、Urban2和Venus序列。圖4(a)是各序列對(duì)應(yīng)的原始幀,圖4(b)是相應(yīng)的光流場(chǎng)真值,圖4(c)是本文方法得到的光流場(chǎng)。從圖4 可以看出,本文方法對(duì)于包含隱藏紋理的樣本同樣具有魯棒性。
圖4 Middlebury訓(xùn)練集光流可視化結(jié)果Fig.4 Visuallizations of estimated optical flow from Middlebury dataset ((a)original images;(b)ground-truth;(c)ours)
Middlebury 數(shù)據(jù)集是在穩(wěn)定光照條件下生成的。為了使用Middlebury 數(shù)據(jù)集驗(yàn)證模型的光照魯棒性,考慮對(duì)原始圖像進(jìn)行光照合成。
給定與原圖像I大小相同的光照核f,則合成光照?qǐng)D像Ir滿足
式中,s是圖像中像素的2維坐標(biāo)向量,Q=(1 -ω) +是f的加權(quán)核,通過(guò)比例參數(shù)ω控制光照強(qiáng)度。實(shí)驗(yàn)分別采用線性、正弦、高斯和混合高斯的光照模式渲染圖像。例如,通過(guò)合成第2 幀圖像的高斯光照成分使前后幀產(chǎn)生明顯光照變化。即
式中,jc表示光照區(qū)域的中心,I是原圖像,Ir代表渲染結(jié)果。提供Guassian 光照核,其高亮顯示了原圖像中jc中心周圍的局部區(qū)域。
合成光照實(shí)驗(yàn)結(jié)果如圖5所示。其中,第2列是Middlebury 訓(xùn)練集上RubberWhale 序列第2 幀的合成光照?qǐng)D像,第4—8 列是本文方法和其他4 種常見(jiàn)方法在不同合成光照變化條件下獲得的光流場(chǎng)可視化對(duì)比結(jié)果。從上到下4 行的合成光照模式依次是線性、正弦、高斯和混合高斯(雙核)。從圖5 可見(jiàn),在不同光照變化條件下,基于解耦的Wedel 等人(2009)方法和Kumar等人(2013)方法所獲光流場(chǎng)嚴(yán)重失真,出現(xiàn)大量噪聲,這是由于這兩種方法在解耦時(shí)無(wú)法將光照分量有效分離。而本文方法可通過(guò)結(jié)構(gòu)紋理感知方式將光照分量與反射分量充分分離,具有很好的光照魯棒性,因此可獲得最接近于ground-truth 的光流場(chǎng)。此外,基于互相關(guān)的SBFlow方法和基于塊的WRT 方法雖然也能較準(zhǔn)確計(jì)算光流,但是會(huì)出現(xiàn)零散的噪聲,所恢復(fù)的運(yùn)動(dòng)邊緣也存在模糊情況。
圖5 合成光照實(shí)驗(yàn)結(jié)果Fig.5 Optical flow fields from synthtic images with illumination variations ((a)the first frame of RubberWhale sequence;(b)the artificially synthesized image;(c)ground-truth;(d)STARFlow(ours);(e)Wedel et al.(2009);(f)WRT;(g)SBFlow;(h)Kumar et al.(2013))
為了得到更客觀的比較,圖6 給出了在不同光照強(qiáng)度ω取值下這5 種方法在Middlebury 數(shù)據(jù)集上的平均終點(diǎn)誤差(EPE)和平均角度誤差(AAE)演變情況。從圖6 可見(jiàn),即使光照變化大(ω取值高),本文方法獲得的光流場(chǎng)誤差仍然很低且較穩(wěn)定,這表明STARFlow計(jì)算精度高,對(duì)光照變化不敏感。
圖6 不同光照變化條件下本文方法和其他4種光流估計(jì)方法的誤差演變情況Fig.6 Error evolution of the proposed method and other four advanced illumination robust optical flow estimation methods under different illumination conditions ((a)linear;(b)sine;(c)Gaussian;(d)mixture of Gaussian)
Middlebury 數(shù)據(jù)集在分辨率方面具有良好的質(zhì)量,但該數(shù)據(jù)集僅包含40 幅合成圖像,需要在真實(shí)圖像序列上進(jìn)一步評(píng)估算法的性能。
MPI Sintel 數(shù)據(jù)集提供了一個(gè)具有挑戰(zhàn)性的評(píng)估基準(zhǔn)。它包含多個(gè)具有大位移和鏡面反射的真實(shí)圖像序列。clean和final子集各包含23種不同場(chǎng)景,提供了1 041 個(gè)訓(xùn)練圖像對(duì)和相應(yīng)的光流場(chǎng)groundtruth。不同光流方法在該數(shù)據(jù)集上的評(píng)估結(jié)果如表1 所 示。EPE all(endpoint error over the whole frames)、EPE noc(endpoint error over regions that remain visible in adjacent frames)和EPE occ(endpoint error over regions that are visible only in one of two adjacent frames)分別代表在整個(gè)圖像、非遮擋區(qū)域和遮擋區(qū)域計(jì)算光流所得的誤差。
表1 不同光流方法在MPI Sintel評(píng)估數(shù)據(jù)集上的評(píng)估結(jié)果Table 1 Evaluation results of different optical flow methods on MPI Sintel dataset
從表1 可以看出,STARFlow 雖然基于變分思想,更適用于小位移序列,但在該數(shù)據(jù)集下仍然能獲得比其他方法更優(yōu)的估計(jì)效果,包括基于深度學(xué)習(xí)框架的FDFlowNet(fast deep flownet)(Kong 和Yang,2020)和PWC-Net(pyramid,warping,and cost volume net)(Sun 等,2018)方法、基于變分框架的WRT(Mei 等,2020)和SBFlow(Chen 等,2018),以及其他基于圖像分解的光流估計(jì)方法。
MPI Sintel 數(shù)據(jù)集的cave 3 序列和Perturbed-Shaman 序列的光流可視化結(jié)果如圖7 所示。其中,第1 行是MPI Sintel 數(shù)據(jù)集中的原始圖像,第2 行是相應(yīng)的真實(shí)光流場(chǎng),第3—9 行分別是本文方法(STARFlow)、FDFlowNet、PWC-Net、SBFlow、WRT、Wedel 等 人(2009)的 分 解 方 法 以 及Kumar 等 人(2013)的解耦方法獲得的光流場(chǎng)可視化結(jié)果。從圖7可以看出,基于深度學(xué)習(xí)框架的FDFlowNet 和PWCNet 以及基于變分框架的WRT 和SBFlow 等方法雖然也能較準(zhǔn)確計(jì)算光流,但所恢復(fù)的運(yùn)動(dòng)邊緣模糊,缺少了許多運(yùn)動(dòng)細(xì)節(jié),這表明當(dāng)前的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)方法不能很好地恢復(fù)小尺度運(yùn)動(dòng)結(jié)構(gòu)。而本文提出的STARFlow 方法在保留運(yùn)動(dòng)細(xì)節(jié)方面表現(xiàn)更出色,恢復(fù)的運(yùn)動(dòng)信息更清晰,保持了運(yùn)動(dòng)邊緣,獲得了更接近于ground-truth 的光流場(chǎng)。這得益于L0 正則化器的優(yōu)勢(shì),本文方法在恢復(fù)具有高對(duì)比度的精細(xì)尺度運(yùn)動(dòng)結(jié)構(gòu)方面顯著優(yōu)于當(dāng)前最先進(jìn)的光流計(jì)算方法,如圖7 中的紅框標(biāo)記區(qū)域,其中流動(dòng)邊緣與groundtruth更加接近。
圖7 MPI Sintel數(shù)據(jù)集光流可視化結(jié)果Fig.7 Visualizations of estimated optical flow fields from MPI Sintel dataset((a)Cave 3 in clean set;(b)Cave 3 in final set;(c)Perturbed-Shaman in clean set;(d)Perturbed-Shaman in final set)
KITTI flow 2015數(shù)據(jù)集由194組圖像序列構(gòu)成,這些圖像序列獲取自一輛行駛中的車輛。該車輛配備了精確的測(cè)距儀,并對(duì)其自身運(yùn)動(dòng)進(jìn)行精確定位,通過(guò)特定方法獲得真實(shí)光流場(chǎng)。與MPI Sintel 數(shù)據(jù)集相似,KITTI 數(shù)據(jù)集包含了大量大位移運(yùn)動(dòng),如快速行駛的車輛。通過(guò)在該數(shù)據(jù)集上的實(shí)驗(yàn),同時(shí)與其他方法進(jìn)行比較(其中大部分是基于深度學(xué)習(xí)的光流估計(jì)方法),本文方法(STARFlow)在Fl-bg(the percentage of flow outliers averaged over background regions)、Fl-fg(the percentage of flow outliers averaged over foreground)和Fl-all(the percentage of flow outliers averaged over all regions)3 個(gè)指標(biāo)上相比于其他方法具有明顯優(yōu)勢(shì),如表2 所示。同時(shí),圖8 給出了不同光流方法在KITTI 評(píng)估集image_2 序列上獲得的彩色編碼光流圖像及其誤差圖。誤差圖使用對(duì)數(shù)色標(biāo),正確估計(jì)和錯(cuò)誤估計(jì)分別用藍(lán)色和紅色陰影表示,暗色調(diào)代表位于圖像區(qū)域之外的被遮擋像素。結(jié)果表明,在各種具有挑戰(zhàn)性的細(xì)節(jié)(如移動(dòng)的車輛、路燈和建筑物等)中,相比于其他方法,STARFlow在保留運(yùn)動(dòng)細(xì)節(jié)方面表現(xiàn)更優(yōu),誤差圖中藍(lán)色陰影更多而紅色陰影更少,表明本文方法能更清晰地恢復(fù)運(yùn)動(dòng)特征,更多的運(yùn)動(dòng)邊緣得到保持。KITTI數(shù)據(jù)集本身含有強(qiáng)光照變化,STARFlow 光流估計(jì)結(jié)果更接近于真實(shí)光流場(chǎng),說(shuō)明該方法精度高,魯棒性強(qiáng)。
圖8 不同方法在KITTI數(shù)據(jù)集上的光流圖和誤差圖Fig.8 The estimated optical flow and error maps of different methods on KITTI dataset((a)the 0000016 sequence in image2 set;(b)the 0000008 sequence in image2 set)
表2 不同光流方法在KITTI flow 2015評(píng)估數(shù)據(jù)集上的評(píng)估結(jié)果Table 2 Evaluation results of different optical flow methods on KITTI flow 2015 evaluation dataset/%
總之,盡管本文方法更適合于小位移運(yùn)動(dòng)恢復(fù),但在Middlebury、MPI Sintel 和KITTI flow 2015 等具有挑戰(zhàn)性的評(píng)測(cè)基準(zhǔn)上均實(shí)現(xiàn)了高精度的光流估計(jì)。值得注意的是,盡管MPI Sintel 和KITTI 數(shù)據(jù)集中包含復(fù)雜光照變化,STARFlow 方法仍能取得魯棒的光流估計(jì)結(jié)果。
為了驗(yàn)證STARFlow 光流方法在實(shí)際應(yīng)用方面的有效性,本文將提取的光流特征在CASIA 人臉?lè)雌垓_數(shù)據(jù)集(Zhang 等,2012)上進(jìn)行人臉活性檢測(cè)實(shí)驗(yàn)。CASIA 數(shù)據(jù)集包含真實(shí)人臉和欺騙人臉的視頻片段,這些片段具有許多復(fù)雜的欺騙模式,也包含較多的大位移,這對(duì)基于變分的光流方法是相當(dāng)具有挑戰(zhàn)性的。為了驗(yàn)證本文方法的光照魯棒性,在數(shù)據(jù)集中添加了4 種不同的合成光照。此外,將STARFlow 光流方法與最先進(jìn)的基于光流的反欺騙方法進(jìn)行比較。例如,CASIA 團(tuán)隊(duì)的方法(CASIA)(Chingovska 等,2013)、基于深度網(wǎng)絡(luò)的無(wú)監(jiān)督光流方法ARFlow(Liu 等,2020a)、基于變分的光流計(jì)算方法WRT(Mei 等,2020)和SBFlow(Chen 等,2018)。實(shí)驗(yàn)統(tǒng)計(jì)了每種方法的反欺騙分類準(zhǔn)確率和半總錯(cuò)誤率(half total error rate,HTER)。HTER 是一類評(píng)判活體檢測(cè)算法性能的重要標(biāo)準(zhǔn),指的是錯(cuò)誤拒絕率(false rejection rate,F(xiàn)RR)和錯(cuò)誤接受率(false acceptance rate,F(xiàn)AR)總和的一半。反欺騙分類準(zhǔn)確率和半總錯(cuò)誤率的比較結(jié)果如表3 和表4 所示。其中,平均正確率表示在4 種合成光照條件下的準(zhǔn)確率和半總錯(cuò)誤率的平均值;平均變化表示不同光流方法在原數(shù)據(jù)集下的準(zhǔn)確率和HTER 與平均值A(chǔ)verage之差。
從表3 和表4 可以看出,本文方法比ARFlow,SBFlow,WRT,CASIA方法均具有更高的分類準(zhǔn)確率和更低的半總錯(cuò)誤率。在原數(shù)據(jù)集下分別提高了約3.5%,4.2%,4.4%,9.1%。與其他光流方法相比,STARFlow 光流方法在不同光照變化情況下的準(zhǔn)確率和半總錯(cuò)誤率也表現(xiàn)得更加穩(wěn)定。與無(wú)光照變化情況相比,STARFlow 光流方法的準(zhǔn)確率和半總錯(cuò)誤率平均變化分別為1.1%和1.6%,明顯優(yōu)于其他方法。實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了STARFlow 光流方法在不同光照變化下具有良好的魯棒性,更適合于人臉活性檢測(cè)應(yīng)用。
表3 在CASIA數(shù)據(jù)集上進(jìn)行人臉活性檢測(cè)的準(zhǔn)確率對(duì)比Table 3 The accuracy of face liveness detection on the CASIA dataset under different illumination patterns/%
表4 在CASIA數(shù)據(jù)集上進(jìn)行人臉活性檢測(cè)的半總錯(cuò)誤率對(duì)比Table 4 The HTER of face liveness detection on the CASIA dataset under different illumination patterns/%
本文提出了一種基于STAR 解耦的魯棒光流估計(jì)方法,基于結(jié)構(gòu)紋理感知Retinex 模型,將圖像中的光照與反射分量分離。為了在計(jì)算光流時(shí)保持良好的運(yùn)動(dòng)邊緣,使用L0 梯度最小化對(duì)光流場(chǎng)進(jìn)行平滑處理,稀疏約束限制了速度與擴(kuò)散梯度的非零個(gè)數(shù)。此外,給出了求解優(yōu)化問(wèn)題的數(shù)值辦法。最后,在3 個(gè)具有挑戰(zhàn)性的光流數(shù)據(jù)集上進(jìn)行評(píng)估,驗(yàn)證了STARFlow 方法的計(jì)算精度與光照魯棒性。將STARFlow 方法應(yīng)用于臉部運(yùn)動(dòng)光流特征提取并進(jìn)行人臉活體檢測(cè)實(shí)驗(yàn),對(duì)比實(shí)驗(yàn)驗(yàn)證了STARFlow方法更具魯棒性,改善了人臉活體檢測(cè)效果。在下一步工作中,將致力于提升本文方法的實(shí)時(shí)性能并將應(yīng)用于生物特征識(shí)別、機(jī)器視覺(jué)等領(lǐng)域。