吉珊珊 陳傳波
1(東莞職業(yè)技術(shù)學院計算機工程系 廣東 東莞 523808) 2(華中科技大學軟件學院 湖北 武漢 430074)
目標檢測是智能監(jiān)控、虛擬現(xiàn)實、人機交互、動作分析等領域的關(guān)鍵技術(shù),其性能直接影響了應用領域的效果[1]。目前主流的目標檢測與識別工作主要針對某些指定的應用場景,如手勢識別[2]、動作識別[3]、面部表情識別[4]等。語義分割[5]融合了傳統(tǒng)的視頻分割和目標識別兩個任務,其目標是將視頻分割成若干特定語義的區(qū)域,最終獲得像素語義標注的視頻序列。語義分割的優(yōu)點在于能夠無差別地檢測出前景區(qū)域,本文利用語義分割的優(yōu)點,將語義分割思想應用到目標檢測領域中。
深度卷積神經(jīng)網(wǎng)絡(Deep Convolutional Neural Networks,DCNN)通過訓練數(shù)據(jù)自動地學習特征,在圖像、視頻的目標識別領域取得了較好的效果[6]。文獻[7]將DCNN應用于人臉標簽識別的問題中,該研究通過GPU提高了DCNN的處理速度,并且實現(xiàn)了較高的檢測準確率。文獻[8]提出一種基于DCNN與長短期記憶網(wǎng)絡(Long-Short Term Memory,LSTM)的維吾爾語文本突發(fā)事件識別方法,該算法實現(xiàn)了較高的召回率與查準率。文獻[9]將DCNN應用于動作識別領域中,該算法獲得了極高的查全率與查準率,但是該算法需要輸入先驗動作集進行預訓練。上述DCNN模型大多為全監(jiān)督或者半監(jiān)督的問題,在弱監(jiān)督的DCNN訓練過程中存在明顯的標簽不一致問題,而視頻目標檢測問題大多屬于弱監(jiān)督數(shù)據(jù)。
為了解決DCNN的標簽不一致問題,本文提出置信幀的概念,算法采用置信幀對預訓練的DCNN模型進行優(yōu)化調(diào)節(jié),提高模型的性能。DCNN輸出的特征還不足以準確提取出目標,采用馬爾可夫模型將前景目標與背景分割。本文采用馬爾可夫隨機場(Markov Random Field,MRF)優(yōu)化DCNN獲得的標簽,進一步提高像素標簽映射的精度,最終通過密集光流法對分割檢測結(jié)果進行提取,提高目標邊緣的檢測準確率。
本文方法的核心思想是利用置信幀的高置信度調(diào)節(jié)DCNN模型。設Φ表示視頻幀的索引集,Ω表示視頻的弱標簽集。采用預訓練的DCNN模型θ處理各幀f∈Φ,使用SOFTMAX函數(shù)計算像素i屬于類xi∈Ο的概率P(xi|θ),Ο表示目標與背景的集合。使用ARGMAX函數(shù)處理每個像素i,計算語義標簽的映射S:S(i)=argmaxxiP(xi|θ)。
采用訓練集Γ訓練DCNN模型θ,選出全局CE幀與局部CE幀,計算標簽映射Gg與Gl來建立自適應數(shù)據(jù)集。算法1為DCNN模型訓練的偽代碼,首先對S的每個標簽映射進行連通區(qū)域分析(Connected Component Analysis,CCA),產(chǎn)生一個目標的候選區(qū)域集,記為R。然后評估目標的置信度C(Rk),Rk表示目標區(qū)域,k為區(qū)域的序號。C(·)算子的輸入為一個標簽映射,輸出為標簽映射中像素被設為目標的平均概率。
算法1DCNN模型訓練
輸入:θ,Ω。
/*θ為DCNN模型,Ω為弱標記集合*/
輸出:θ′。
/*θ′為調(diào)節(jié)后的DCNN模型*/
1.d=0;
/*局部最優(yōu)置信度*/
2.FOREACHf∈ΦDO
4. 計算P(x|θ),S=argmaxxP(x|θ);
5. 計算S中連接元素的集合R;
6. FOREACHRk∈R DO
7. IFC(Rk)>toTHEN
9. IF (S(i) ∈Ω&&i?Rk)
14. IFfmodτb=0 THEN
17.d=0;
/*d初始化為0*/
18.使用Γ將DCNN模型θ調(diào)節(jié)為θ′。
圖1為線上程序的訓練過程。對輸入視頻做預訓練,選出長時(long-term)幀集與短時(short-term)幀集,對模型進行優(yōu)化與調(diào)節(jié)。分別維護Γ的長時幀隊列Tl與短時幀隊列Ts,Tl保存τl的全局CE幀,Ts保存τs的局部CE幀,Tl隊列的優(yōu)先級高于Ts隊列。Tl、Ts作為自適應數(shù)據(jù)集,更新模型θ的參數(shù)。
圖1 線上程序的訓練過程
DCNN的輸出還不足以準確提取出目標,采用馬爾可夫模型[10]將前景目標與背景分割。
視頻的前景分割方案大多采用固定的掩膜來提取局部特征,估計出超像素的標簽,然后通過MRF對標簽作平滑處理,所以超像素的分割效果高度依賴超像素的形狀與大小。為了解決該問題,考慮多個超像素分割可提高超像素的標簽準確率,為此設計了“多假設”MRF模型。
為局部上下文引入鄰接超像素的鄰居,同時引入相交超像素的鄰居,這兩種超像素鄰居有助于融合多個超像素的不同描述符。MRF模型同時描述了超像素內(nèi)部與超像素外部的上下文信息,內(nèi)部鄰居包含了給定超像素的相鄰超像素,外部鄰居包含了給定超像素的相交超像素。采用MRF模型編碼內(nèi)部鄰居與外部鄰居的上下文約束條件,以提高超像素標簽的一致性。
(1)
圖2 超像素的MRF模型示意圖
(2)
(3)
MRF模型的數(shù)據(jù)成本D(si,c)定義為超像素si的類標簽為c的置信度,平滑成本E(ci,cj)定義為兩個相鄰超像素標簽分別為ci和cj的概率。DCNN的輸出為視頻幀的像素類標簽映射,將類標簽相同的相鄰像素劃分為同一個超像素。然后將超像素的強度值設為該超像素中所有像素的平均強度值,基于平均強度定義MRF模型的數(shù)據(jù)項。圖3為超像素均值化處理的結(jié)果圖。
圖3 超像素均值化處理的結(jié)果
SP1與SP2的平滑處理成本依賴標簽的共生概率,定義為:
E(ci,cj)=-log[(P(ci|cj))+P(cj|ci)/2]δ
(4)
式中:P(ci|cj)是某個超像素標簽為ci同時其鄰居標簽為cj的條件概率,如果ci=cj,δ則設為0,否則為1。
(5)
(6)
MRF模型的平滑常量集為{l×λ|l∈{0,1,2}; 5≤λ≤25,λ∈Z}。函數(shù)g設為g(x,y)=0.5x+0.5y,SP3的數(shù)據(jù)成本定義為:
(7)
計算三個連續(xù)幀的光流,首先使用高斯濾波器過濾每幀的噪聲,計算當前幀與前一幀之間的光流,記為OF1,當前幀與下一幀之間的光流,記為OF2,兩個光流融合為稠密光流,將OF1與OF2線性組合為每幀的總光流。圖4為計算密集光流的流程圖。
圖4 計算密集光流的流程圖
假設亮度恒定,可得:
Ft=i(x,y)=Ft+Δt(x+Δx,y+Δy)
(8)
式中:(x,y)為像素的位置;(x+Δx,y+Δy)為Δt時差的幀坐標;Ft=i與Ft+Δt為時差為Δt的兩個幀。將式(8)作泰勒級數(shù)展開,忽略其高階項,可得:
本研究組前期研究顯示結(jié)直腸癌患者中伴發(fā)高血糖者占29.67%,其中伴發(fā)糖尿病者占14.83%[6]。本研究顯示,109例結(jié)直腸癌患者中血糖正常者占結(jié)直腸癌患者總數(shù)的68.80%,高血糖狀態(tài)者占31.19%,其中并發(fā)糖尿病者占16.51%,本研究結(jié)果與前期報道基本一致。
(9)
式(9)為光流的約束條件,為了獲得光流問題的唯一解,需要對ui和vi增加其他光滑約束條件,結(jié)合灰度最小化與光滑約束條件估計光流域:
(10)
式中:參數(shù)α負責調(diào)節(jié)光滑度。將Ei最小化,可得:
(11)
(12)
(13)
(14)
因為計算光流的處理中包含不同的處理,所以上述總光流依然含有噪聲。前景與背景的分割受噪聲的影響較大,采用自適應閾值機制降低噪聲的影響。
Otsu方法[13]是一種全局優(yōu)化的自適應閾值降噪算法,該方法最小化類內(nèi)方程、最大化類間方差。幀的像素強度Fi(x,y)范圍設為0~L-1,設nj是灰度為j的像素數(shù)量,n為幀F(xiàn)i的像素總數(shù)量?;叶萰的概率定義為:
(15)
如果一個幀分為兩個類D0和D1,D0和D1的像素灰度范圍分別為[0,th-1]和[th,L-1],其中th表示像素的分類閾值。設C0(th)和C1(th)表示累加概率,μ0和μ1分別表示D0類和D1類的平均強度。
(16)
(17)
平均灰度值μth計算如下:
μth=C0(th)μ0+C1(th)μ1
(18)
(19)
通過最大化類間方差估計0~L-1范圍的最優(yōu)閾值:
(20)
(21)
(22)
第i幀的密集光流可表示為:
(23)
圖5(a)和圖5(b)是兩個連續(xù)的視頻幀,圖5(g)是兩個連續(xù)幀之間的光流圖。圖5(c)和圖5(d)是未進行降噪處理和均衡化處理的目標分割結(jié)果,圖5(e)和圖5(f)是完成降噪處理和均衡化處理的目標分割結(jié)果。
圖5 密集光流法與均衡化處理的結(jié)果圖
采用traffic數(shù)據(jù)集(https://vid.me/videodata)、walking數(shù)據(jù)集(https://vid.me/videodata)和Youtube-Object-Dataset數(shù)據(jù)集(https://data.vision.ee.ethz.ch/cvl/youtube-objects/)作為benchmark數(shù)據(jù)集。walking數(shù)據(jù)集是一個行人識別的數(shù)據(jù)集,traffic數(shù)據(jù)集是一個交通監(jiān)控的多目標數(shù)據(jù)集。Youtube-Object-Dataset數(shù)據(jù)集是一個大規(guī)模的視頻數(shù)據(jù)集,共有10個目標,每個目標包含9~24個視頻。Youtube-Object-Dataset數(shù)據(jù)集包含正定的前景提取結(jié)果,可用作分析檢測目標與正定目標的重合程度。
將每個視頻分為若干個鏡頭,每個鏡頭包含相同的目標與不同的背景。對視頻的鏡頭進行預處理,首先將每個視頻幀的長邊剪切為500像素,然后通過反射處理將視頻幀放大至900×900像素。
實驗環(huán)境為Intel (R) Core (TM) i7-4770 CPU@3.40 GHz處理器,8 GB內(nèi)存?;贑affe Library[14]實現(xiàn)DCNN模型,基于MATLAB編程實現(xiàn)目標檢測算法。ODVT[15]是基于原卷積神經(jīng)網(wǎng)絡的目標檢測技術(shù),CSFDV[16]是一種基于壓縮感知的目標檢測技術(shù),這兩種技術(shù)在前景檢測的準確率上取得了較大的進步,將本文算法與這兩個算法進行橫向比較。
算法的參數(shù)設為:閾值to=0.75、tb=0.8,背景值設為略高于前景,留出空間以保留目標周圍的像素。局部時間設為τb=30、τs=5、τl=10。DCNN的學習率為0.001,動量為0.9,權(quán)重衰減為0.000 50。
采用FPR、TPR、精度和F-Score作為目標檢測的性能指標,定義如下:
(24)
(25)
(26)
(27)
式中:FP為假正率;TN為真負率;TP為真正率;TPR為召回率。
Intersection-Over-Union(IOU)定義為系統(tǒng)預測的目標與正定目標的重合程度,計算方法為檢測結(jié)果與正定值的交集除以兩者的并集,該指標能夠精細地評估目標檢測的準確率。
4.3.1walking與traffic數(shù)據(jù)集的實驗結(jié)果
圖6、圖7分別為3個目標檢測算法對于traffic和walking數(shù)據(jù)集的實驗結(jié)果,traffic和walking 2個數(shù)據(jù)集均為運動目標的數(shù)據(jù)集,本文算法對于3個數(shù)據(jù)集均實現(xiàn)了較好的檢測準確率和較低的誤檢率。
圖6 traffic數(shù)據(jù)集的性能結(jié)果
圖7 walking數(shù)據(jù)集的性能結(jié)果
圖8、圖9分別為3個目標檢測算法對于traffic和walking數(shù)據(jù)集的前景提取實例。3個算法雖然均檢測出traffic數(shù)據(jù)集中的車輛,但是對車輛的分割結(jié)果多有缺失,而本文算法提取的前景目標較為準確,并且保留了較為完好的輪廓。
圖8 traffic數(shù)據(jù)集的前景提取實例
圖9 walking數(shù)據(jù)集的前景提取實例
4.3.2Youtube-Object-Dataset的實驗結(jié)果
為了進一步觀察本文算法對于目標提取的細節(jié)保留效果,基于Youtube-Object-Dataset數(shù)據(jù)集進行了實驗。圖10為Youtube-Object-Dataset數(shù)據(jù)集的實驗結(jié)果,本文算法對于Aero的檢測率低于其他2個算法,但其他9個目標的效果均明顯高于其他2個算法,原因是Aero目標移動速度較快,本文算法的提取效果較差。
圖10 Youtube-Object-Dataset數(shù)據(jù)集的實驗結(jié)果
圖11為Youtube-Object-Dataset數(shù)據(jù)集的分割實例圖,(a)、(d)、(g)、(j)、(m)為ODVT算法的結(jié)果,(b)、(e)、(h)、(k)、(n)為CSFDV算法的結(jié)果,(c)、(f)、(i)、(l)、(o)為本文算法的結(jié)果??煽闯霰疚乃惴▽τ诓煌瑪?shù)據(jù)集的分割準確率較高,對于目標輪廓的提取更為細致。
圖11 3個目標檢測算法對Youtube-Object-Dataset的分割結(jié)果
為了提高視頻目標檢測的邊緣準確性,提出一種基于卷積神經(jīng)網(wǎng)絡和馬爾可夫隨機場的視頻目標檢測算法。采用置信幀對預訓練的DCNN模型進行優(yōu)化調(diào)節(jié),提高模型的性能,采用馬爾可夫模型將前景目標與背景分割,采用馬爾可夫隨機場優(yōu)化DCNN獲得的標簽,進一步提高像素標簽映射的精度。本文算法對視頻目標邊緣分割的準確率較高,可用于機器人等對精度要求高的領域。本文算法的DCNN模型訓練的時間復雜度較高,基于GPU可實現(xiàn)較快的處理速度,未來將關(guān)注于提高算法的時間效率,進一步提高算法的實用性。