亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ForegroundNet:一種基于語(yǔ)義與動(dòng)態(tài)特征的前景檢測(cè)算法

        2020-08-27 06:12:28賴少川王佳欣馬翠霞
        圖學(xué)學(xué)報(bào) 2020年3期
        關(guān)鍵詞:前景背景像素

        賴少川,王佳欣,馬翠霞

        ForegroundNet:一種基于語(yǔ)義與動(dòng)態(tài)特征的前景檢測(cè)算法

        賴少川1,王佳欣2,3,馬翠霞2

        (1. 中國(guó)石化銷售股份有限公司華南分公司,廣東 廣州 510000;2. 中國(guó)科學(xué)院軟件研究所,北京 100190;3. 中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 101408)

        針對(duì)以往的前景檢測(cè)方法對(duì)場(chǎng)景信息依賴較多的問(wèn)題,提出了一種實(shí)時(shí)的無(wú)需迭代更新背景模型的前景檢測(cè)深度學(xué)習(xí)模型ForegroundNet。ForegroundNet首先通過(guò)骨干網(wǎng)絡(luò)從當(dāng)前圖像和輔助圖像中提取語(yǔ)義特征,輔助圖像為相鄰的圖像幀或者是自動(dòng)生成的視頻背景圖像;然后將提取得到的特征輸入到包含短連接的反卷積網(wǎng)絡(luò)中,使得最終特征圖在與輸入圖像具有相同的大小,并且包含不同尺度的語(yǔ)義及動(dòng)態(tài)特征;最后使用softmax層進(jìn)行二值分類,得到最終檢測(cè)結(jié)果。在CDNet數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,相比于當(dāng)前值為0.82的次優(yōu)方法,F(xiàn)oregroundNet能夠獲得0.94的值,具有更高的檢測(cè)精度;同時(shí)ForegroundNet檢測(cè)速度達(dá)到123 fps,具有良好的實(shí)時(shí)性。

        前景檢測(cè);深度學(xué)習(xí);計(jì)算機(jī)視覺(jué);卷積神經(jīng)網(wǎng)絡(luò);運(yùn)動(dòng)分割

        前景檢測(cè)是一種在攝像機(jī)可見(jiàn)區(qū)域中分割變化或移動(dòng)區(qū)域的技術(shù)[1],是視頻監(jiān)控、人機(jī)交互和機(jī)器人等計(jì)算機(jī)視覺(jué)任務(wù)中的一個(gè)基本問(wèn)題。以往的前景檢測(cè)方法通常假設(shè)光照和背景穩(wěn)定不變,并采用多種基于人工設(shè)計(jì)特征的背景建模技術(shù),如高斯混合模型GMM[2]和SuBSENSE[3]。這些方法需要同時(shí)初始化和維護(hù)正確的背景模型,并使用背景模型和預(yù)先定義的閾值計(jì)算每個(gè)輸入幀的前景掩碼。由于此類方法預(yù)測(cè)的前景與真實(shí)情況存在差異,并隨時(shí)間增加誤差不斷累積,難以應(yīng)對(duì)背景劇烈變化的場(chǎng)景。

        隨著硬件技術(shù)與機(jī)器學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了眾多突破?;诖髷?shù)據(jù)與神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)到的特征,在一定程度上提高了前景檢測(cè)的精度。然而基于CNN的方法需要提前獲得目標(biāo)的場(chǎng)景信息,如使用一個(gè)背景圖像和多個(gè)輸入幀作為輸入[4-5],或要求對(duì)每個(gè)測(cè)試集取其中少量帶標(biāo)注的視頻幀進(jìn)行預(yù)訓(xùn)練[6]。但在實(shí)際應(yīng)用中這些要求難以滿足,因?yàn)檎鎸?shí)環(huán)境可能頻繁變化,難以獲得一個(gè)與實(shí)際情況始終保持一致的背景模型,同時(shí)應(yīng)對(duì)大量全新的視頻場(chǎng)景,既不便獲得帶標(biāo)注的對(duì)應(yīng)視頻幀,也難以針對(duì)不同視頻場(chǎng)景訓(xùn)練不同的網(wǎng)絡(luò)模型權(quán)重。因此,為了應(yīng)對(duì)陌生的視頻場(chǎng)景及頻繁變化的真實(shí)環(huán)境,需要擺脫對(duì)場(chǎng)景信息的依賴。

        結(jié)合背景模型與CNN的方法如CNN-SFC[7],利用3種前景檢測(cè)方法SuBSENSE、FTSG[8]以及CwisarDH[9],將其輸出結(jié)果輸入到以VGG[10]為骨架編碼器的UNet[11]網(wǎng)絡(luò)中,最終得到修正的前景預(yù)測(cè)結(jié)果。類似的還有結(jié)合背景模型與CNN的方法[12],利用Triplet網(wǎng)絡(luò)進(jìn)行背景的深度特征提取,再通過(guò)維護(hù)基于樣本的背景模型,輸出相應(yīng)場(chǎng)景下的前景檢測(cè)結(jié)果。這些方法雖然不直接依賴于目標(biāo)視頻的場(chǎng)景信息,但由于缺乏對(duì)前景及背景的語(yǔ)義建模,或缺乏對(duì)動(dòng)態(tài)特征的建模,雖不需要背景圖像或場(chǎng)景中的視頻幀作為訓(xùn)練時(shí)的輸入,但在全新的視頻場(chǎng)景,很難對(duì)前景做出準(zhǔn)確的預(yù)測(cè),在一定程度上,對(duì)新場(chǎng)景的預(yù)測(cè)結(jié)果,依舊依賴訓(xùn)練視頻的場(chǎng)景信息。

        本文的主要研究成果為:①提出一個(gè)基于語(yǔ)義與動(dòng)態(tài)特征的深度學(xué)習(xí)模型ForegroundNet。如圖1所示,以VGG或MobileNet[13]為骨干網(wǎng)絡(luò),通過(guò)遷移學(xué)習(xí),利用骨干網(wǎng)絡(luò)從已訓(xùn)練好的ImageNet[14]權(quán)重中獲取2幅輸入圖像的語(yǔ)義特征,并通過(guò) 5個(gè)反卷積層及跳躍連接構(gòu)建一個(gè)雙流編碼器融合-解碼器網(wǎng)絡(luò),從而提取所需的多尺度動(dòng)態(tài)特征。由于CDNet2014[15]中的視頻鏡頭基本固定,因而ForegroundNet可以通過(guò)來(lái)自2幅圖像的特征合并與卷積操作,學(xué)習(xí)優(yōu)于幀差法及高斯混合模型的特征,如前景的動(dòng)態(tài)特征與外形特征,最終區(qū)分像素是否屬于運(yùn)動(dòng)目標(biāo)。②本文方法在CDNet2014數(shù)據(jù)集上獲得更好的結(jié)果(值達(dá)到0.92),并具有良好的實(shí)時(shí)性(123 fps),F(xiàn)oregroundNet不需要預(yù)先提供目標(biāo)場(chǎng)景的信息,減少了對(duì)場(chǎng)景信息的依賴。同時(shí),本文通過(guò)實(shí)驗(yàn)驗(yàn)證了模型超參數(shù)的設(shè)置,如骨干網(wǎng)絡(luò)、合并方式、Drop out參數(shù)和幀差。

        圖1 ForegroundNet概要圖

        1 相關(guān)工作

        1.1 傳統(tǒng)的前景檢測(cè)算法

        傳統(tǒng)前景檢測(cè)算法通常不采用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征,而是采用人工設(shè)計(jì)特征與背景建模技術(shù),并以遍歷像素的方式計(jì)算輸入幀的前景掩碼概率。主要使用參數(shù)模型(如高斯混合模型GMM)或非參數(shù)模型(如SuBSENSE,VIBE[16])建立背景模型。由于內(nèi)存和計(jì)算復(fù)雜度上的限制,無(wú)法使用超過(guò)3個(gè)高斯模型對(duì)背景像素進(jìn)行建模,而實(shí)際場(chǎng)景下使用少數(shù)高斯分布進(jìn)行聯(lián)合的參數(shù)模型不能處理視頻中的突然變化(對(duì)于非高斯分布,少數(shù)高斯分布的聯(lián)合分布通常難以進(jìn)行準(zhǔn)確的擬合與逼近)。對(duì)于非參數(shù)模型,通過(guò)記錄各個(gè)位置輸入像素的歷史,以預(yù)測(cè)當(dāng)前位置輸入的像素是否為背景。盡管類似VIBE的方法在效率和精度上都優(yōu)于大多數(shù)參數(shù)模型,但其難以處理頻繁的背景變化與復(fù)雜的視頻場(chǎng)景。

        1.2 基于卷積神經(jīng)網(wǎng)絡(luò)的前景檢測(cè)算法

        基于CNN的前景檢測(cè)算法應(yīng)用CNN和深度學(xué)習(xí)技術(shù),通常使用一個(gè)背景圖像和多個(gè)視頻圖像幀作為輸入[4-5],或者需要對(duì)每個(gè)測(cè)試集,利用其中一些具有標(biāo)注圖像的幀進(jìn)行訓(xùn)練[4]。文獻(xiàn)[5]利用SuBSENSE和FTSG生成背景圖像,并用背景圖像和標(biāo)注圖像訓(xùn)練針對(duì)特定視頻類別的模型,因此所提出方法需要對(duì)每個(gè)類別重新訓(xùn)練。文獻(xiàn)[6]從標(biāo)注圖像生成背景圖像,然后利用背景圖像和前半序列的標(biāo)注圖像訓(xùn)練LeNet-5[17]網(wǎng)絡(luò)的變種,最終獲得了接近于傳統(tǒng)方法的前景檢測(cè)精度,如SuBSENSE,IUTIS[18]。另提出了一種半自動(dòng)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)方法來(lái)精確地生成前景掩碼,該方法需要利用每個(gè)場(chǎng)景的幾幀圖像對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),從而達(dá)到與人工標(biāo)注相近的結(jié)果。

        基于單個(gè)視頻幀及CNN的前景檢測(cè)算法,容易對(duì)訓(xùn)練視頻過(guò)度擬合。為了避免過(guò)擬合和對(duì)不同視頻的重新訓(xùn)練,并保證前景檢測(cè)的實(shí)時(shí)性,使用輕量級(jí)網(wǎng)絡(luò)如MobileNet或VGG作為骨干網(wǎng)絡(luò),其包含來(lái)自ImageNet的語(yǔ)義信息。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,僅利用在ImageNet上預(yù)訓(xùn)練的權(quán)重,同時(shí)在不進(jìn)行過(guò)度調(diào)參的情況下,F(xiàn)oregroundNet可以采用單一模型處理所有數(shù)據(jù)集中的視頻,其效果超越了目前最優(yōu)的傳統(tǒng)前景檢測(cè)方法SuBSENSE。

        1.3 基于編解碼網(wǎng)絡(luò)的前景檢測(cè)算法

        此類方法使用自動(dòng)編碼器網(wǎng)絡(luò)生成背景圖像,然后使用閾值獲得前景掩碼[19-20],或者使用自動(dòng)編碼器網(wǎng)絡(luò)直接生成前景掩碼[21-22]。文獻(xiàn)[19-20]使用自動(dòng)編碼器網(wǎng)絡(luò)生成背景圖像,然后使用背景與輸入幀像素值的像素差和給定的閾值生成前景掩碼。然而,如果前景對(duì)象與背景顏色相似,即使有一個(gè)最理想的背景圖像,該方法也很難得到一個(gè)準(zhǔn)確的前景掩碼。ZHANG等[23]提出了一種基于層疊的降噪自解碼器網(wǎng)絡(luò)的圖像特征生成方法,利用散列方法對(duì)圖像特征表示進(jìn)行二值化,以減少內(nèi)存占用,提高檢測(cè)效率,然后利用背景模型與輸入特征之間的漢明距離生成前景掩碼。該方法與傳統(tǒng)方法一樣,仍然嚴(yán)重依賴于背景模型的初始化和更新。

        文獻(xiàn)[21]以當(dāng)前幀、前一幀和背景圖像為輸入,在每個(gè)視頻類別上訓(xùn)練編解碼網(wǎng)絡(luò)產(chǎn)生分割圖。分割圖將用于生成前景掩碼和更新背景模型。文 獻(xiàn)[22]采用編碼器-解碼器網(wǎng)絡(luò)提取像素級(jí)語(yǔ)義特征,利用長(zhǎng)短期記憶網(wǎng)絡(luò)建模,且隨時(shí)間變化的像素級(jí)變化,結(jié)合空間變換網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)層降低對(duì)攝像機(jī)運(yùn)動(dòng)的敏感度,平滑前景邊界。更詳細(xì)的相關(guān)工作可以參考文獻(xiàn)[1,24-25]。

        本文提出的ForegroundNet使用一個(gè)主圖像幀和一個(gè)輔助圖像作為輸入來(lái)產(chǎn)生前景掩碼,可利用超過(guò)100層的網(wǎng)絡(luò)(卷積和反卷積)對(duì)圖像特征進(jìn)行編碼和解碼,結(jié)合成鏡像的短連接以增強(qiáng)多尺度特征重用。在采用單個(gè)模型權(quán)重的情況下,無(wú)需采用級(jí)連學(xué)習(xí)、集成學(xué)習(xí)或條件隨機(jī)場(chǎng)后處理,即可獲得在CDNet2014數(shù)據(jù)集上單模型更高的結(jié)果。

        2 ForegroundNet

        2.1 ForegourndNet結(jié)構(gòu)

        通過(guò)輸入當(dāng)前圖像與輔助圖像訓(xùn)練一個(gè)端到端的全卷積網(wǎng)絡(luò)來(lái)預(yù)測(cè)前景圖像掩碼。將輸入圖像對(duì)的大小縮放為224×224,保持與在ImageNet上預(yù)訓(xùn)練的MobileNet、VGG等骨干網(wǎng)絡(luò)的輸入尺寸一致,避免因尺度變化而帶來(lái)的性能下降,從而提高語(yǔ)義特征的遷移學(xué)習(xí)效率。ForegroundNet網(wǎng)絡(luò)由基于骨干網(wǎng)絡(luò)的融合編碼器和一個(gè)帶反卷積網(wǎng)絡(luò)的解碼器構(gòu)成(表1)。通過(guò)添加編碼器和解碼器之間的短連接,使得解碼器中含有融合后的較高維特征、來(lái)自2幅輸入圖像的較低維特征,以便于ForegroundNet學(xué)習(xí)輸入視頻中的語(yǔ)義及動(dòng)態(tài)特征。本文通過(guò)每個(gè)像素的標(biāo)簽?{0,1}來(lái)指明每個(gè)像素中是否包含前景:=0為背景,=1為前景。解碼器產(chǎn)生224×224×2的輸出,然后送入softmax層進(jìn)行分類。網(wǎng)絡(luò)的損耗函數(shù)是像素級(jí)softmax損失的總和,即

        表1 ForegroundNet的解碼器網(wǎng)絡(luò)結(jié)構(gòu)

        其中,softmax為softmax損失;y為真實(shí)標(biāo)簽;p為在坐標(biāo)點(diǎn)(,)對(duì)2個(gè)標(biāo)簽的預(yù)測(cè)概率,即背景和前景。見(jiàn)表1基于拼接合并類型的ForegroundNet,對(duì)應(yīng)著圖2中的反卷積網(wǎng)絡(luò),具有6個(gè)合并(拼接)層,5個(gè)反卷積(conv2d_transpose)層和9個(gè)卷積(conv2d)層。其中,Concatenate_i,conv2d_j,conv2d_transpose_k是在ForegroundNet的反卷積網(wǎng)絡(luò)中的第,,個(gè)卷積和反卷積層。為了簡(jiǎn)化說(shuō)明,沒(méi)有顯示歸一化層和drop out層。而對(duì)于每個(gè)卷積層,其后依次是歸一化層和drop out層。對(duì)于不同的合并類型,網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于合并層可能具有不同的輸出形狀。每層的輸出形狀均以(batchsize×height×width×channel)表示。此處忽略批量大小(batch size),對(duì)于concatenate_1,7×7×2048表示輸出的特征高度為7,寬度為7,通道數(shù)為2 048。表1中的反卷積層,,,,對(duì)應(yīng)于圖2中的相應(yīng)結(jié)構(gòu)。

        2.2 算法實(shí)現(xiàn)

        本文在CDNet2014數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),簡(jiǎn)稱為CDNet數(shù)據(jù)集。對(duì)于所有實(shí)驗(yàn),可根據(jù)以下基準(zhǔn)配置來(lái)修改參數(shù):使用MobileNet作為骨干網(wǎng)絡(luò),在一定程序上通過(guò)減小模型參數(shù)來(lái)避免過(guò)擬合,并通過(guò)減小模型大小來(lái)提高實(shí)時(shí)性;使用當(dāng)前圖像幀和自動(dòng)生成的背景圖像作為輸入(輸入類型);設(shè)置Drop out參數(shù)值為0,避免因Drop out導(dǎo)致批量歸一化層不穩(wěn)定;網(wǎng)絡(luò)層合并類型為拼接,雖然拼接增加了少量網(wǎng)絡(luò)參數(shù),但可以保存所有的輸入圖像特征,提高模型精度;對(duì)于ForegroundNet的反卷積網(wǎng)絡(luò)中的卷積層(圖2),使用3×3的卷積核而不是更大的卷積核來(lái)達(dá)到減少參數(shù)的目的,并且用1×1的卷積步長(zhǎng)和零填充策略保持特征圖的大小不變;使用整流線性單位(ReLU)作為激活函數(shù),并在圖2的反卷積網(wǎng)絡(luò)中的每個(gè)卷積和反卷積層之后插入批處理歸一化和Drop out層。

        圖2 ForegroundNet框架

        對(duì)于來(lái)自雙幀的特征,在6個(gè)不同的圖像尺度上(1,1/2,1/4,1/8,1/16,1/32)分別通過(guò)短連接和特征合并,獲取不同尺度的語(yǔ)義及動(dòng)態(tài)特征。針對(duì)每個(gè)尺度的處理模塊包含3類,分別是合并模塊:用來(lái)將輸入特征融合;卷積模塊:對(duì)特征進(jìn)行轉(zhuǎn)換;反卷積模塊:對(duì)特征尺度進(jìn)行變換。由于處理模塊中包含一個(gè)卷積模塊與反卷積模塊,與VGG網(wǎng)絡(luò)結(jié)構(gòu)類似,可以通過(guò)堆疊卷積網(wǎng)絡(luò)層處理相同尺度的特征以達(dá)到更好的特征提取能力。實(shí)驗(yàn)中固定骨干網(wǎng)絡(luò)的權(quán)重,在一定程度上避免ForegroundNet對(duì)CDNet2014數(shù)據(jù)集的過(guò)擬合。

        3 實(shí) 驗(yàn)

        3.1 訓(xùn)練數(shù)據(jù)

        CDNet數(shù)據(jù)集包含多種類別的視頻,這些類別涵蓋了許多監(jiān)控環(huán)境中遇到的挑戰(zhàn)。研究者們已經(jīng)提出了多種前景和變化檢測(cè)算法,其在某些特定類型的視頻中表現(xiàn)良好,但是大多數(shù)算法對(duì)突然的光照變化、惡劣的環(huán)境條件(夜晚,下雨,下雪,空氣湍流)、背景/攝像機(jī)運(yùn)動(dòng)、陰影以及偽裝效果(物體和背景的顏色相似)效果不穩(wěn)定。CDNet數(shù)據(jù)集中的每張標(biāo)注幀都有像素級(jí)別的標(biāo)注,包括靜止(Static)、陰影(Shadow)、未標(biāo)注(Non-ROI)、未知(Unknown)和運(yùn)動(dòng)(Moving)。

        在訓(xùn)練階段,首先將輸入圖像中的Non-ROI像素替換為隨機(jī)常量值(標(biāo)簽圖像中的Non-ROI和Unknown像素將被視為地面真實(shí)圖像中的背景,因?yàn)槠湮礃?biāo)注為背景或運(yùn)動(dòng)對(duì)象,所有也不更改對(duì)應(yīng)未知像素標(biāo)注的輸入圖像區(qū)域),然后將輸入圖像的RGB值標(biāo)準(zhǔn)化為[–1,1]。記={main,auxilary}為一對(duì)輸入圖像。本文通過(guò)像素標(biāo)簽?{0,1}來(lái)顯示每個(gè)像素是屬于前景還是背景。背景類別(=0)是包括靜態(tài)背景、無(wú)意義的變化和動(dòng)態(tài)背景變化,而前景類別是指人們感興趣的變化。如果使用2個(gè)圖像幀作為輸入,可隨機(jī)選擇2個(gè)具有幀差的圖像(幀索引差)作為輸入圖像幀,并使用人工標(biāo)注結(jié)果作為標(biāo)簽。如果使用背景圖像作為輔助輸入,本文采用LaBGen[26]的默認(rèn)設(shè)置為每個(gè)視頻序列生成相應(yīng)的背景圖像。

        3.2 訓(xùn)練過(guò)程

        本網(wǎng)絡(luò)包含圖2中的2個(gè)主要組件:特征網(wǎng)絡(luò)(骨干網(wǎng)絡(luò))和分割網(wǎng)絡(luò)(反卷積網(wǎng)絡(luò))。2個(gè)輸入分支通過(guò)基本連接和短連接進(jìn)行交互。為了訓(xùn)練模型,首先使用ImageNet上預(yù)訓(xùn)練的模型初始化特征網(wǎng)絡(luò),然后僅在固定骨干網(wǎng)絡(luò)權(quán)重的CDNet數(shù)據(jù)集上微調(diào)分割網(wǎng)絡(luò)。實(shí)驗(yàn)訓(xùn)練中,發(fā)現(xiàn)針對(duì)單個(gè)視頻可以用更簡(jiǎn)單的CNN網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行背景建模,但其性能隨著視頻種類的增加而迅速下降。因此,在整個(gè)數(shù)據(jù)集采用相同的網(wǎng)絡(luò)權(quán)重。

        本文在CDNet 2014數(shù)據(jù)集上使用Adam優(yōu)化器訓(xùn)練了30個(gè)。批次大小為32,為0.9,衰減率為0.001。為了避免過(guò)擬合,本文應(yīng)用了數(shù)據(jù)擴(kuò)充。數(shù)據(jù)擴(kuò)充包括亮度更改、中值模糊和等操作。在實(shí)驗(yàn)中采用數(shù)據(jù)集Tiny CDNet用于更快的參數(shù)優(yōu)化和更好的欠擬合/過(guò)擬合檢查(在官方測(cè)試中ForegroundNet的值為0.94,而在Tiny CDNet上只達(dá)到0.89)。Tiny CDNet數(shù)據(jù)集使用完整CDNet數(shù)據(jù)集的5%,且?guī)畹扔?0。可將Tiny CDNet數(shù)據(jù)集隨機(jī)分為互斥的訓(xùn)練和測(cè)試數(shù)據(jù)集。在訓(xùn)練階段,將每個(gè)訓(xùn)練周期的訓(xùn)練數(shù)據(jù)集順序隨機(jī)打亂,以使輸入樣本在種類和時(shí)序上多樣化。Tiny CDNet數(shù)據(jù)集在實(shí)驗(yàn)中的效果與Full CDNet數(shù)據(jù)集相似,因?yàn)榇蠖鄶?shù)圖像序列的幀速率均超過(guò)30 fps,幀數(shù)間隔為20,意味著當(dāng)前圖像和輔助圖像均在1 s內(nèi)被捕獲。由于1 s內(nèi)圖像的內(nèi)容基本相似,因此采用Tiny CDNet進(jìn)行訓(xùn)練包含的樣本多樣性近似于Full CDNet,但Tiny CDNet可以加快實(shí)驗(yàn)速度,同時(shí)避免數(shù)據(jù)集劃分上的重疊問(wèn)題。

        3.3 評(píng)估方法

        為將本文方法與CDNet 2014數(shù)據(jù)集競(jìng)賽中提交結(jié)果的方法進(jìn)行比較,對(duì)比了本文與其他方法在7種不同評(píng)價(jià)指標(biāo)上的結(jié)果。設(shè)置為正確預(yù)測(cè)的正例數(shù)(檢測(cè)為前景的前景像素),為正確預(yù)測(cè)的負(fù)例數(shù)(檢測(cè)為背景的背景像素),為錯(cuò)誤預(yù)測(cè)的正例數(shù)(檢測(cè)為背景的前景像素),為錯(cuò)誤預(yù)測(cè)的負(fù)例數(shù)(檢測(cè)為前景的背景像素)。推薦的評(píng)估指標(biāo)是檢測(cè)到的前景像素的精度,檢測(cè)到的前景像素的召回率和檢測(cè)到的前景像素的值,即

        大多數(shù)情況下高召回率意味著低精度,而高精度意味著低召回率。為了比較不同的方法,值是同時(shí)考慮召回率和精度的良好指標(biāo)。CDNet基準(zhǔn)中定義了其他評(píng)估指標(biāo),如,,,等。

        3.4 在完整CDNet 2014數(shù)據(jù)集上的性能

        表2顯示了在值方面與CDNet官網(wǎng)[15,29]上幾種最新方法的定量比較。本文方法的評(píng)估指標(biāo)均有良好的表現(xiàn)。表3展示了算法針對(duì)CDNet不同類別視頻的詳細(xì)結(jié)果信息。ForegroundNet達(dá)到了更高的值,=0.94,相比于次優(yōu)方法的0.82提升了12%。圖3顯示了CDNet 2014數(shù)據(jù)集各種序列的典型分割結(jié)果,其中,從左到右依次是“當(dāng)前幀”,GMM[2],KDE[30],BMOG[31],SubSense[3],F(xiàn)TSG[8],ITUIS-5[18],DeepBS[5],本文的結(jié)果(ours)和標(biāo)注結(jié)果(GT);從上到下,分別為CDNet數(shù)據(jù)集中不同的視頻種類。NV: night video, SD:shadow, CJ:camera jitter, TB:turbulence, DB:dynamic background, BL:baseline, LF:low frame rate, IOM:intermittent object motion, BW:bad weather, PTZ:PTZ, TM:thermal。本文方法獲得的結(jié)果優(yōu)于其他方法,特別是在IOM,PTZ,TM類別上。IOM更依賴動(dòng)態(tài)特征對(duì)前景進(jìn)行區(qū)分,PTZ的鏡頭存在一定縮放變化,而TM則缺乏相應(yīng)的語(yǔ)義信息。這在一定程度上證實(shí)ForegroundNet不僅在靜態(tài)鏡頭下具備良好的語(yǔ)義特征學(xué)習(xí)能力,在鏡頭變化不大的情況下也具備一定的動(dòng)態(tài)特征學(xué)習(xí)能力。

        表2 CDNet 2014數(shù)據(jù)集比較

        表3 在CDNet 2014數(shù)據(jù)集上的ForegroundNet的結(jié)果

        圖3 在CDNet 2014 數(shù)據(jù)集上的分割結(jié)果

        3.5 Tiny CDNet 2014數(shù)據(jù)集的消融實(shí)驗(yàn)

        3.5.1 骨干網(wǎng)絡(luò)的效果

        表4通過(guò)比較3種骨干網(wǎng)絡(luò)(VGG16[10],VGG19[10],MobileNet)的效果,顯示了其值比較的結(jié)果。使用VGG16的網(wǎng)絡(luò)獲得了更高的值,而使用MobileNet則在效率和值之間取得了更好的平衡。使用MobileNet的網(wǎng)絡(luò)提升了近50%,而平均值僅減少了2%。

        表4 Tiny CDNet 2014數(shù)據(jù)集上骨干網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)

        3.5.2 網(wǎng)絡(luò)層合并類型的影響

        表5為具有不同網(wǎng)絡(luò)層合并類型(例如拼接、相乘或相加)的結(jié)果,其中相加的值最好。這是由于拼接策略使得通道數(shù)翻倍,增加了參數(shù)量,導(dǎo)致了過(guò)擬合現(xiàn)象。而相乘策略則丟失了大量運(yùn)動(dòng)信息。

        表5 Tiny CDNet 2014數(shù)據(jù)集上的圖層合并類型實(shí)驗(yàn)

        3.5.3 Drop out的影響

        表6顯示了在0.0~0.5之間時(shí)ForegroundNet的值??梢詼p輕模型的過(guò)度擬合,但也給模型訓(xùn)練帶來(lái)不穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,其為0.1時(shí)結(jié)果最優(yōu)。

        表6 Tiny CDNet 2014數(shù)據(jù)集的Drop Out實(shí)驗(yàn)

        3.6 使用相鄰幀作為輔助輸入

        3.6.1 輸入幀類型

        基于基準(zhǔn)配置,本文使用圖像幀作為當(dāng)前輸入,并使用相鄰輸入幀(簡(jiǎn)稱為當(dāng)前幀+相鄰幀)或自動(dòng)生成的背景圖像(簡(jiǎn)稱為當(dāng)前幀+背景圖像)作為輔助輸入。表7為Tiny CDNet數(shù)據(jù)集不同輸入類型的比較。網(wǎng)絡(luò)遵循對(duì)稱性準(zhǔn)則,使用2個(gè)輸入幀,分別為在時(shí)間的當(dāng)前輸入幀和在時(shí)間-7的相鄰輸入幀(本實(shí)驗(yàn)設(shè)置幀差為7)。表7顯示使用當(dāng)前幀+相鄰幀的結(jié)果與使用當(dāng)前幀+背景圖像的結(jié)果相近。因此,在無(wú)法獲得背景圖像情況下,網(wǎng)絡(luò)可以在沒(méi)有背景圖像作為輔助輸入的情況下,以2個(gè)圖像幀作為輸入來(lái)獲得相近的值,保證檢測(cè)網(wǎng)絡(luò)的穩(wěn)定運(yùn)行。

        表7 在Tiny CDNet 2014數(shù)據(jù)集上的輸入類型實(shí)驗(yàn)。

        3.6.2 輸入幀之間的幀差選擇

        為了驗(yàn)證在當(dāng)前幀+相鄰幀輸入模式下具有不同幀差的基準(zhǔn)網(wǎng)絡(luò)性能,表8顯示了不同幀差(范圍從1~9)的值結(jié)果。最佳幀差會(huì)隨視頻的每秒幀數(shù)(fps)和前景圖像的運(yùn)動(dòng)速度而變化。對(duì)于CDNet2014數(shù)據(jù)集而言,一般幀差為7既可以使2個(gè)輸入幀之間有較大差異,也可以保持背景相對(duì)穩(wěn)定,從而取得最優(yōu)的值。

        表8 在Tiny CDNet 2014數(shù)據(jù)集上的幀差選擇實(shí)驗(yàn)

        4 結(jié) 論

        本文提出了一種基于語(yǔ)義與動(dòng)態(tài)特征的雙流編碼器融合-解碼器前景檢測(cè)分割網(wǎng)絡(luò)ForegroundNet。與之前需要維護(hù)背景模型及依賴背景信息的CNN方法不同,本方法可僅使用2幅圖像作為輸入,利用學(xué)習(xí)到的語(yǔ)義和動(dòng)態(tài)特征完成前景檢測(cè)。給出了采用相鄰幀或背景幀作為輔助輸入圖像的對(duì)比實(shí)驗(yàn),結(jié)果表明ForegroundNet可以采用相鄰幀作為輸入并獲得與采用背景幀相近的前景檢測(cè)精度,減少對(duì)場(chǎng)景信息的依賴。通過(guò)設(shè)計(jì)實(shí)驗(yàn)在CDNet 2014數(shù)據(jù)集上進(jìn)行相關(guān)驗(yàn)證,結(jié)果表明本方法在輸入 2幅幀圖像的情況下可獲得更高的值,而且具備良好的實(shí)時(shí)性。

        [1] SOBRAL A, VACAVANT A. A comprehensive review of background subtraction algorithms evaluated with synthetic and real videos[J]. Computer Vision and Image Understanding, 2014, 122: 4-21.

        [2] ZIVKOVIC Z. Improved adaptive Gaussian mixture model for background subtraction[C]//Proceedings of the 17th International Conference on Pattern Recognition, 2004. ICPR 2004. New York: IEEE Press, 2004: 28-31.

        [3] ST-CHARLES P-L, BILODEAU G A, BERGEVIN R. SuBSENSE: a universal change detection method with local adaptive sensitivity[J]. IEEE Transactions on Image Processing, 2015, 24(1): 359-373.

        [4] BRAHAM M, VAN DROOGENBROECK M. Deep background subtraction with scene-specific convolutional neural networks[C]//2016 International Conference on Systems, Signals and Image Processing (IWSSIP). New York: IEEE Press, 2016: 1-4.

        [5] BABAEE M, DINH D T, RIGOLL G. A deep convolutional neural network for video sequence background subtraction[J]. Pattern Recognition, 2018, 76: 635-649.

        [6]WANG Y, LUO Z M, JODOIN P M. Interactive deep learning method for segmenting moving objects[J]. Pattern Recognition Letters, 2017, 96: 66-75.

        [7] ZENG D D, ZHU M, KUIJPER A. Combining background subtraction algorithms with convolutional neural network[J]. Journal of Electronic Imaging, 2019, 28(1): 013011.

        [8] WANG R, BUNYAK F, SEETHARAMAN G, et al. Static and moving object detection using flux tensor with split Gaussian models[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2014: 414-418.

        [9] DE GREGORIO M, GIORDANO M. CwisarDH $$^+$$: Background detection in RGBD videos by learning of weightless neural networks[C]//International Conference on Image Analysis and Processing. Heidelberg: Springer, 2017: 242-253.

        [10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-11-27]. http://arxiv.org/abs/1409.1556.

        [11] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//Lecture Notes in Computer Science. Heidelberg: Springer, 2015: 234-241.

        [12] NGUYEN T P, PHAM C C, HA S V-U, et al. Change detection by training a triplet network for motion feature extraction[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(2): 433-446.

        [13] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2019-11-27]. http://arxiv.org/abs/1704.04861.

        [14] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

        [15] WANG Y, JODOIN P M, PORIKLI F, et al. CDnet 2014: an expanded change detection benchmark dataset[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2014: 387-394.

        [16] BARNICH O, VAN DROOGENBROECK M. ViBe: a universal background subtraction algorithm for video sequences[J]. IEEE Transactions on Image Processing, 2011, 20(6): 1709-1724.

        [17] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

        [18] BIANCO S, CIOCCA G, SCHETTINI R. Combination of video change detection algorithms by genetic programming[J]. IEEE Transactions on Evolutionary Computation, 2017, 21(6): 914-928.

        [19] XU P, YE M, LI X, et al. Dynamic background learning through deep auto-encoder networks[C]//Proceedings of the ACM International Conference on Multimedia-MM’14. New York: ACM Press, 2014: 107-116.

        [20] XU P, YE M, LIU Q, et al. Motion detection via a couple of auto-encoder networks[C]//2014 IEEE International Conference on Multimedia and Expo (ICME). New York: IEEE Press, 2014: 1-6.

        [21] LIM K, JANG W D, KIM C S. Background subtraction using encoder-decoder structured convolutional neural network[C]//2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). New York: IEEE Press, 2017: 1-6.

        [22] CHEN Y Y, WANG J Q, ZHU B K, et al. Pixel-wise deep sequence learning for moving object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017(99): 1.

        [23] ZHANG Y Q, LI X, ZHANG Z F, et al. Deep learning driven blockwise moving object detection with binary scene modeling[J]. Neurocomputing, 2015, 168: 454-463.

        [24] BOUWMANS T. Traditional and recent approaches in background modeling for foreground detection: an overview[J]. Computer Science Review, 2014, 11-12: 31-66.

        [25] BOUWMANS T, JAVED S, SULTANA M, et al. Deep neural network concepts for background subtraction: a systematic review and comparative evaluation[J]. Neural Networks, 2019, 117: 8-66.

        [26] LAUGRAUD B, PIéRARD S, VAN DROOGENBROECK M. LaBGen: a method based on motion detection for generating the background of a scene[J]. Pattern Recognition Letters, 2017, 96: 12-21.

        [27] YINGYING CHEN, JINQIAO WANG, HANQING LU. Learning sharable models for robust background subtraction[C]//2015 IEEE International Conference on Multimedia and Expo (ICME). New York: IEEE Press, 2015: 1-6.

        [28] JIANG S, LU X. WeSamBE: a weight-sample-based method for background subtraction[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(9): 2105-2115.

        [29] GOYETTE N, JODOIN P M, PORIKLI F, et al. Changedetection.net: a new change detection benchmark dataset[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2012: 1-8.

        [30] ELGAMMAL A, HARWOOD D, DAVIS L. Non-parametric model for background subtraction[C]// European Conference on Computer Vision. Heidelberg: Springer, 2000: 751-767.

        [31] MARTINS I, CARVALHO P, CORTE-REAL L, et al. BMOG: boosted Gaussian mixture model with controlled complexity[J]. Pattern Analysis and Applications. 2018, 21(3): 641-654.

        ForegroundNet: a semantic and motional feature based foreground detection algorithm

        LAI Shao-chuan1, WANG Jia-xin2,3, MA Cui-xia2

        (1. South China branch of Sinopec Sales Co., Ltd, Guangdong Province, Guangzhou Guangdong 510000, China; 2. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China; 3. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 101408, China)

        Aiming at the problem that the previous foreground detection methods depend more heavily on scene information, a real-time foreground detection deep learning model ForegroundNet without iteratively updating the background model is proposed. ForegroundNet extracts semantic features from current and auxiliary images with backbone networks firstly, the auxiliary images which can be either an adjacent image frame or an automatically generated background image. These features are further fed into deconvolution network with short connections, which make the final feature maps have the same size as input images and contain semantic and motional features in different scales, finally we use softmax layer to perform a binary classification. The results on CDNet dataset show that ForegroundNet achieves better F-Measure of 0.94 compare to the 0.82 of suboptimal method. More over ForegroundNet has good real-time performance that its speed reaches 123 fps.

        foreground detection; deep learning; computer vision; convolution neural network; motion segmentation

        TP 391

        10.11996/JG.j.2095-302X.2020030409

        A

        2095-302X(2020)03-0409-08

        2019-11-19;

        2020-03-29

        國(guó)家自然科學(xué)基金項(xiàng)目(61872346);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018YFC0809303)

        賴少川(1968-),男,廣東揭陽(yáng)人,高級(jí)工程師,學(xué)士。主要研究方向?yàn)楣艿拦芾怼o(wú)人機(jī)圖像處理。E-mail:laisc.xshn@sinopec.com

        猜你喜歡
        前景背景像素
        趙運(yùn)哲作品
        藝術(shù)家(2023年8期)2023-11-02 02:05:28
        像素前線之“幻影”2000
        “新四化”背景下汽車NVH的發(fā)展趨勢(shì)
        我國(guó)旅游房地產(chǎn)開(kāi)發(fā)前景的探討
        《論持久戰(zhàn)》的寫作背景
        四種作物 北方種植有前景
        “像素”仙人掌
        離岸央票:需求與前景
        晚清外語(yǔ)翻譯人才培養(yǎng)的背景
        量子糾纏的來(lái)歷及應(yīng)用前景
        太空探索(2016年10期)2016-07-10 12:07:01
        亚洲视频在线一区二区| 国产精品久久久久久久y| 一本色道久久88综合亚洲精品| a黄片在线视频免费播放 | 中文字幕人妻中文| 国产极品美女高潮无套在线观看 | 国产av无码专区亚洲av果冻传媒 | 亚洲国产精品国自产拍av在线| 日韩精品视频高清在线| 婷婷色婷婷开心五月四房播播| 国产一品道av在线一二三区| 一本大道久久精品一本大道久久| 日本一区二区三区亚洲| 亚洲日韩一区二区一无码| 亚洲综合伊人制服丝袜美腿 | 亚洲性啪啪无码AV天堂| 日本熟妇裸体视频在线| 激情综合色综合啪啪开心| 国产又滑又嫩又白| 美女超薄透明丝袜美腿| 日韩av在线手机免费观看| 国产乱人偷精品人妻a片| 麻豆乱码国产一区二区三区| 亚洲情精品中文字幕有码在线| 男女啪啪视频高清视频| 亚洲精品久久久久中文字幕一福利| 国产又色又爽又刺激视频| 中文字幕亚洲精品综合| 国产爆乳无码一区二区麻豆| 久久99精品久久久久久hb无码| 国产360激情盗摄一区在线观看| 黄色一区二区三区大全观看| 欧美成人精品午夜免费影视| 国产精品久久久久尤物| 国产伦奸在线播放免费| 超碰97人人射妻| 亚洲国产成人精品无码区在线观看 | 国产在线视频国产永久视频| 国产在线观看黄片视频免费| 少妇性俱乐部纵欲狂欢电影| 岛国AV一区二区三区在线观看|