蒙曉宇,朱 磊,張 博,潘 楊
(西安工程大學(xué)電子信息學(xué)院,西安 710048)
運(yùn)動(dòng)目標(biāo)檢測(cè)為目標(biāo)跟蹤和識(shí)別奠定基礎(chǔ),是計(jì)算機(jī)視覺中的核心問題,也是視覺領(lǐng)域最基本的問題[1]。運(yùn)動(dòng)目標(biāo)檢測(cè)算法分為靜態(tài)背景下的運(yùn)動(dòng)目標(biāo)檢測(cè)和動(dòng)態(tài)背景下的運(yùn)動(dòng)目標(biāo)檢測(cè),取決于監(jiān)視場(chǎng)景與攝像機(jī)之間的相對(duì)運(yùn)動(dòng)。
目前,靜態(tài)背景下的運(yùn)動(dòng)目標(biāo)檢測(cè)方法包括幀間差分法[2-3]、背景差分法[4-5]以及光流法[6-7];動(dòng)態(tài)背景下的運(yùn)動(dòng)目標(biāo)檢測(cè)主要是背景運(yùn)動(dòng)補(bǔ)償差分技術(shù)[8-9]。一般情況下視頻監(jiān)控通常采用靜止的攝像頭,因此可以直接利用背景差分法將輸入圖像與不含運(yùn)動(dòng)目標(biāo)的背景圖像求差分即可得到前景目標(biāo)或背景。為準(zhǔn)確地提取目標(biāo),Barnich等[10]提出了視覺背景提取算法(visual background extractor,ViBe),采用隨機(jī)更新背景模型,該方法在復(fù)雜背景下不能有效抑制運(yùn)動(dòng)目標(biāo)的殘影,需要用較長(zhǎng)的視頻序列消除鬼影區(qū)域。Peng等[11]提出了人混合高斯模型(Gaussian mixture model,GMM),該方法利用較長(zhǎng)時(shí)間內(nèi)大量樣本值的概率密度統(tǒng)計(jì)信息,該方法計(jì)算量較大,無法在短時(shí)間內(nèi)提取準(zhǔn)確的前景目標(biāo)。在混合模型的基礎(chǔ)上,李笑等[12]在此基礎(chǔ)上引入四幀間差分,借助計(jì)數(shù)器調(diào)整高斯模型,提高高斯分量的自適應(yīng)性,改進(jìn)后的模型使得模型的時(shí)間復(fù)雜度降低,而且適用于多場(chǎng)景。郝曉麗等[13]提出了自適應(yīng)學(xué)習(xí)率高斯混合背景建模,采用自適應(yīng)的學(xué)習(xí)率更新背景模型,保證在動(dòng)態(tài)背景下實(shí)時(shí)檢測(cè)目標(biāo),由于天氣、光照的影響,導(dǎo)致檢測(cè)的前景目標(biāo)完整度不是很高,對(duì)于抖動(dòng)相機(jī)下的視頻準(zhǔn)確率略低于靜止相機(jī)下的運(yùn)動(dòng)目標(biāo)。同時(shí)抖動(dòng)相機(jī)下的視頻序列提取運(yùn)動(dòng)目標(biāo)存在一定的困難,主要是恢復(fù)圖像的原始位置。屠禮芬等[14]提出了背景自適應(yīng)方案,通過角點(diǎn)檢測(cè)提取感興趣區(qū)域的特征點(diǎn),通過特征點(diǎn)估計(jì)相機(jī)的抖動(dòng)偏移量,最終使用背景差分法檢測(cè)運(yùn)動(dòng)目標(biāo),由于背景差分對(duì)灰度信息不是很敏感,當(dāng)背景模型中的灰度值和前景目標(biāo)中的灰度值相近時(shí),導(dǎo)致檢測(cè)過程中出現(xiàn)空洞,目標(biāo)檢測(cè)不完整等情況。廖娟等[15]提出了相機(jī)抖動(dòng)場(chǎng)景下運(yùn)動(dòng)信息的前景檢測(cè)算法,構(gòu)建非參數(shù)的背景運(yùn)動(dòng)信息分布模型,該方法需要大量的圖像進(jìn)行模型的更新,導(dǎo)致視頻中前面的圖像無法檢測(cè)的問題。根據(jù)相機(jī)抖動(dòng)、陰影反射各種實(shí)際問題,Kushwaha等[16]提出了一種在復(fù)雜小波域中使用動(dòng)態(tài)背景建模和陰影抑制對(duì)目標(biāo)進(jìn)行分割的方法,該方法相比于其他方法在性能方面有很大的提升。近年來,運(yùn)用深度學(xué)習(xí)方法已成為研究的熱點(diǎn),張匯等[17]提出了基于快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region convolutional neural network,F(xiàn)aster RCNN)的行人檢測(cè)方法,利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)網(wǎng)絡(luò)提取圖像的特征,通過聚類和構(gòu)建區(qū)域建議網(wǎng)絡(luò)提取可能含有行人的區(qū)域,在利用檢測(cè)網(wǎng)絡(luò)對(duì)其分類和判別,最后將行人目標(biāo)框定出來。Faster RCNN是目前主流的目標(biāo)檢測(cè)方法,但速度上并不能滿足實(shí)時(shí)要求,而YOLO(you only look once)算法[18]使用回歸思想,直接在輸入圖像的多個(gè)位置上回歸出該位置的目標(biāo)邊框及目標(biāo)類別,因此在速度上優(yōu)于Faster RCNN算法。徐國(guó)標(biāo)等[19]針對(duì)遠(yuǎn)場(chǎng)景、小目標(biāo)難以檢測(cè)的問題對(duì)YOLO算法進(jìn)行了改進(jìn),核心思想是以Darknet-53為基礎(chǔ)網(wǎng)絡(luò),多尺度預(yù)測(cè)邊界框,以運(yùn)動(dòng)目標(biāo)圖像坐標(biāo)的偏移量作為邊框長(zhǎng)寬的線性變換來實(shí)現(xiàn)邊框的回歸,在檢測(cè)準(zhǔn)確性和準(zhǔn)確率兩方面得到提高,但計(jì)算量大,模型設(shè)計(jì)復(fù)雜,對(duì)硬件的要求較高。
深度學(xué)習(xí)方法準(zhǔn)確率高,但計(jì)算量大,訓(xùn)練耗時(shí),模型正確性驗(yàn)證復(fù)雜且麻煩對(duì)硬件要求較高,某些深度網(wǎng)絡(luò)不僅訓(xùn)練而且線上部署也需要顯卡GPU(graphics processing unit)支持;傳統(tǒng)方法研究最多的是背景差分法,背景差分的思想是點(diǎn)對(duì)點(diǎn)間進(jìn)行差分,而在相機(jī)抖動(dòng)過程中,圖像中的背景及前景目標(biāo)相對(duì)于真實(shí)的圖像所差別,該方法對(duì)于相機(jī)的頻繁抖動(dòng)性能大打折扣,導(dǎo)致大量的背景被誤檢為前景目標(biāo),出現(xiàn)多檢錯(cuò)檢的問題,在相機(jī)抖動(dòng)的情況下即時(shí)對(duì)當(dāng)前幀圖像進(jìn)行校正從而避免錯(cuò)檢的情況,因此解決相機(jī)抖動(dòng)問題是至關(guān)重要。
針對(duì)上述問題,提出一種既適用于靜止相機(jī)又適用于頻繁抖動(dòng)相機(jī)下運(yùn)動(dòng)目標(biāo)檢測(cè)方法。針對(duì)上述問題做以下改進(jìn):①對(duì)背景幀(只包含背景的圖像)和當(dāng)前幀(包含前景目標(biāo)及背景的圖像)特征點(diǎn)匹配過程以每個(gè)特征點(diǎn)為中心設(shè)置搜索窗口計(jì)算相關(guān)值,減少了算法的運(yùn)行時(shí)間;②對(duì)感興趣區(qū)域進(jìn)行特征點(diǎn)檢測(cè),對(duì)當(dāng)前幀和背景幀中的特征點(diǎn)進(jìn)行匹配,用匹配點(diǎn)對(duì)的偏移量來估計(jì)整幅圖像的偏移量,并對(duì)當(dāng)前幀圖像進(jìn)行校正;③在運(yùn)動(dòng)目標(biāo)細(xì)分割過程中分別對(duì)彩色圖像的各通道進(jìn)行背景差分,避免了灰度信息對(duì)運(yùn)動(dòng)目標(biāo)像素點(diǎn)的漏檢。
所提方法主要步驟為:一是基于尺度不變特征變換(scale-invariantfeature transform,SIFT)特征匹配的圖像校正,該步驟使用SIFT[20]檢測(cè)背景幀圖像和當(dāng)前幀圖像的特征點(diǎn),并對(duì)其特征點(diǎn)進(jìn)行匹配得到特征點(diǎn)對(duì),根據(jù)特征點(diǎn)對(duì)的偏移量估計(jì)相機(jī)的抖動(dòng)參數(shù);二是基于結(jié)構(gòu)相似性估計(jì)的運(yùn)動(dòng)目標(biāo)粗定位,通過結(jié)構(gòu)相似性判斷兩幅圖像的相似性確定運(yùn)動(dòng)目標(biāo)區(qū)域;三是基于背景差分的彩色圖像細(xì)分割,在粗定位基礎(chǔ)上使用背景差分最終得到完整的運(yùn)動(dòng)目標(biāo)。所提方法流程圖如圖1所示。
圖1 基于特征檢測(cè)的運(yùn)動(dòng)目標(biāo)檢測(cè)方法流程圖Fig.1 The flow chart of moving target detection method based on fusion feature detection
基于結(jié)構(gòu)相似性粗定位與背景差分細(xì)分割的運(yùn)動(dòng)目標(biāo)檢測(cè)方法首先利用文獻(xiàn)[21]的動(dòng)態(tài)模式分解方法對(duì)輸入的視頻序列提取彩色背景圖像,對(duì)當(dāng)前幀圖像和背景圖像使用SIFT特征檢測(cè)提取兩幅圖像的特征點(diǎn),并在小范圍內(nèi)采用相關(guān)法對(duì)兩幅圖像的特征點(diǎn)進(jìn)行匹配,根據(jù)匹配點(diǎn)對(duì)在水平和垂直方向的偏移量估計(jì)相機(jī)抖動(dòng)情況下當(dāng)前幀圖像相對(duì)背景圖像的偏移量,達(dá)到校正圖像消除相機(jī)抖動(dòng)的目的,為后續(xù)步驟提供基礎(chǔ);其次,將校正后的當(dāng)前幀圖像和背景圖像分成大小相同且互不重疊的圖像塊,對(duì)兩幅圖像相同位置的圖像塊利用結(jié)構(gòu)相似性判斷其相似度,其中圖像塊越相似說明該區(qū)域?yàn)楸尘埃瑘D像塊越不相似說明該區(qū)域?yàn)槟繕?biāo)區(qū)域,從而實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)的粗定位。由于粗定位圖像中既包含運(yùn)動(dòng)目標(biāo)也包含少量的背景圖像,后續(xù)步驟只需剔除掉小部分背景即可得到完整準(zhǔn)確的前景運(yùn)動(dòng)目標(biāo),因此對(duì)粗定位得到的彩色當(dāng)前幀圖像及背景圖像的各個(gè)通道利用背景差分法,最后根據(jù)形態(tài)學(xué)處理得到運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果即前景目標(biāo)圖。
由于視頻監(jiān)控中既包含靜止的攝像頭也包含抖動(dòng)的攝像頭,抖動(dòng)攝像頭采集的視頻圖像直接使用背景差分法檢測(cè)運(yùn)動(dòng)目標(biāo)時(shí),將大量的背景誤檢為前景導(dǎo)致檢測(cè)不準(zhǔn)確,因此在檢測(cè)前需要對(duì)圖像進(jìn)行校正。SIFT是一種檢測(cè)局部特征的算法,對(duì)圖像的視角變化、光照變化以及亮度信息具有很強(qiáng)的適應(yīng)性[22]。因此采用SIFT算子提取圖像特征檢測(cè)圖像特征點(diǎn),該算法主要步驟包括關(guān)鍵點(diǎn)的檢測(cè)和特征點(diǎn)的匹配。關(guān)鍵點(diǎn)的檢測(cè)是將背景和當(dāng)前幀圖像利用高斯函數(shù)差分(difference of Gaussian,DOG),也就是在不同參數(shù)下的高斯濾波相減的結(jié)果與圖像卷積,假設(shè)圖像為I,當(dāng)前幀圖為IF,背景圖為IB,由DOG空間的局部極值點(diǎn)組成整幅圖像的特征點(diǎn),特征檢測(cè)公式為
D(x,y,σ)=[L(x,y,kσ)-L(x,y,σ)]
(1)
L(x,y,σ)=G(x,y,σ)I(x,y)
(2)
(3)
式中:D(x,y,σ)高斯函數(shù)差分;G(x,y,σ)為尺度可變高斯核函數(shù);I(x,y)為原圖像中各像素點(diǎn);L(x,y,σ)為高斯核與圖像的卷積;(x,y)為圖像的像素點(diǎn);k為相鄰兩個(gè)高斯尺度空間的比例因子;σ為圖像的平滑程度。
通過相關(guān)法對(duì)檢測(cè)的特征點(diǎn)進(jìn)行匹配,相機(jī)的抖動(dòng)一般不會(huì)大幅度的偏移,所以在小范圍內(nèi)采用圖像窗口替代窮舉法計(jì)算相關(guān)性,以當(dāng)前幀圖IB中任意一特征點(diǎn)為中心,選擇N×N(N為窗口大小)大小的相關(guān)窗口,在背景幀圖IF同樣的位置選取2N×2N大小的搜索窗口,計(jì)算當(dāng)前幀中位于該區(qū)域的特征點(diǎn)與背景圖中特征點(diǎn)的相關(guān)性,相關(guān)窗口和搜索窗口越大匹配精度會(huì)更高,但由于相機(jī)的抖動(dòng)局部特征沒有發(fā)生變化,只是位置發(fā)生了偏移,而且位置的偏移量也不會(huì)超過圖像大小的1/10,根據(jù)實(shí)驗(yàn)得出相關(guān)窗口取值不需要過大,選取N=7,這樣不僅降低了計(jì)算量,在14×14的搜索窗口中,匹配的特征點(diǎn)對(duì)也相對(duì)較多,最終可以更加準(zhǔn)確地得到圖像的偏移量,相關(guān)搜索圖如圖2所示。
圖2 相關(guān)搜索圖Fig.2 Correlation search graph
首先計(jì)算特征點(diǎn)之間的相關(guān)性,相關(guān)值的定義為
(4)
(5)
式(5)中:σ(IK)為標(biāo)準(zhǔn)差,K=B,F。
通過計(jì)算搜索窗內(nèi)的所有特征點(diǎn)的相關(guān)值,選取相關(guān)值最大的特征點(diǎn)作為匹配點(diǎn)。通過對(duì)整幅圖像的計(jì)算得到整幅圖像的匹配點(diǎn)對(duì),將當(dāng)前幀和背景圖得到的匹配點(diǎn)對(duì)表示在背景圖像中,因?yàn)檎故菊麄€(gè)背景圖無法看清每個(gè)特征點(diǎn)的偏移程度,所以展示部分匹配結(jié)果,如圖3所示。
根據(jù)匹配點(diǎn)對(duì)的偏移量得到當(dāng)前幀圖相對(duì)于背景圖在水平和垂直方向的偏移量,每對(duì)匹配點(diǎn)的水平和垂直方向的偏移量計(jì)算公式分別為
Δxi=xFi-xBi
(6)
Δyi=yFi-yBi
(7)
式中:xFi和xBi分別為背景圖和當(dāng)前幀圖第i對(duì)特征匹配點(diǎn)對(duì)的橫坐標(biāo);yFi和yBi分別為背景圖和當(dāng)前幀圖第i對(duì)特征匹配點(diǎn)對(duì)的縱坐標(biāo)。
*為當(dāng)前幀中的特征點(diǎn);+為背景圖中的特征點(diǎn)圖3 部分背景圖與當(dāng)前幀圖的特征點(diǎn)匹配圖Fig.3 Part of the background image and the feature point matching image of the current frame image
理想情況下所有匹配點(diǎn)對(duì)在水平和垂直方向的偏移量大小相等的,由于實(shí)際情況中噪聲和復(fù)雜自然環(huán)境的影響,每對(duì)匹配點(diǎn)對(duì)在水平和垂直方向的偏移量有微小的變化。因此統(tǒng)計(jì)整幅圖像水平方向Δxi和垂直方向Δyi偏移量的個(gè)數(shù),將出現(xiàn)次數(shù)最多的Δxi和Δyi作為相機(jī)抖動(dòng)的參數(shù),假設(shè)背景中特征點(diǎn)的坐標(biāo)為(u,v)(u和v分別為圖像的特征點(diǎn)橫、縱坐標(biāo)),則當(dāng)前幀匹配到的特征點(diǎn)通過校正后的坐標(biāo)為(u+Δxi,v+Δyi),根據(jù)相機(jī)抖動(dòng)參數(shù)補(bǔ)全當(dāng)前幀圖像,超出的圖像的范圍用背景圖像補(bǔ)全,圖4是對(duì)當(dāng)前幀圖像的校正,圖4(a)為當(dāng)前幀圖像,當(dāng)Δxi=3,Δyi=8時(shí),校正后的圖像如圖4(b)所示為了顯示更好的視覺效果,將補(bǔ)全的背景部分用黑色表示。如果是靜止的攝像頭在圖像校正時(shí)其水平和垂直方向的偏移量為0,則該圖片不需要進(jìn)行背景補(bǔ)全。
圖4 當(dāng)前幀圖像校正前后對(duì)比Fig.4 Comparison of the current frame image before and after correction
在運(yùn)動(dòng)目標(biāo)檢測(cè)中常出現(xiàn)由于背景而導(dǎo)致誤檢和多檢的情況,為縮小運(yùn)動(dòng)目標(biāo)檢測(cè)范圍,減小背景圖像對(duì)檢測(cè)結(jié)果的不利影響,對(duì)校正后的當(dāng)前幀圖像利用結(jié)構(gòu)相似性大致提取運(yùn)動(dòng)目標(biāo)區(qū)域,由于實(shí)驗(yàn)中的每個(gè)視頻序列都是同一相機(jī)在不同時(shí)間下拍攝,因此兩幅圖像背景大部分相同,僅在運(yùn)動(dòng)目標(biāo)區(qū)域有所差別。結(jié)構(gòu)相似性(structural similarity index,SSIM)[23]是一種測(cè)量?jī)煞鶊D像間的相似性程度指標(biāo),因此采用結(jié)構(gòu)相似性對(duì)圖像進(jìn)行粗定位。一幅是背景圖像,另一幅是校正后的當(dāng)前幀圖,通過計(jì)算兩幅圖像的相似性來檢測(cè)目標(biāo)的大致位置。
首先將背景圖和校正后的當(dāng)前幀圖分成大小相同且互不重疊的結(jié)構(gòu)塊,結(jié)構(gòu)塊的大小直接影響后續(xù)檢測(cè)的效果,相對(duì)來說結(jié)構(gòu)塊越大,檢測(cè)的結(jié)果越準(zhǔn)確,選取40*40大小的結(jié)構(gòu)塊,然后對(duì)兩幅圖像中相應(yīng)大小的結(jié)構(gòu)塊使用結(jié)構(gòu)相似性測(cè)量公式,計(jì)算兩個(gè)結(jié)構(gòu)塊X、Y的相似性值,結(jié)構(gòu)相似性公式為
SSIM(X,Y)=[l(X,Y)]ω[c(X,Y)]β×
[s(X,Y)]γ
(8)
(9)
(10)
(11)
式中:l(X,Y)、c(X,Y)和s(X,Y)分別為圖像塊的亮度、對(duì)比度和結(jié)構(gòu)相似度測(cè)量值;ω、β和γ分別為亮度分量、對(duì)比度分量和結(jié)構(gòu)分量所占權(quán)重;μX和μY分別為圖像塊X和Y的像素均值;δX和δY分別為圖像塊X和Y的標(biāo)準(zhǔn)差;δXY為圖像塊X、Y的協(xié)方差;C1、C2和C3為常數(shù)。
通過計(jì)算背景圖像和前景圖像對(duì)應(yīng)塊得到每個(gè)40*40圖像塊的相似性值,結(jié)構(gòu)相似性的取值范圍在0~1,當(dāng)兩個(gè)圖像塊越相似,相似性值越接近于1,通過實(shí)驗(yàn)得到結(jié)構(gòu)相似值為0.75時(shí),對(duì)運(yùn)動(dòng)目標(biāo)的粗定位效果最好,當(dāng)結(jié)構(gòu)相似值大于0.75時(shí)判定該結(jié)構(gòu)塊為背景區(qū)域,反之則為運(yùn)動(dòng)目標(biāo)區(qū)域。經(jīng)過結(jié)構(gòu)相似性計(jì)算得到運(yùn)動(dòng)目標(biāo)的大致位置,如圖5所示,其中,圖5(a)為校正后的當(dāng)前幀圖,圖5(b)為通過文獻(xiàn)[21]得到的背景圖;圖5(c)為經(jīng)過結(jié)構(gòu)相似性算法得到目標(biāo)的粗定位二值圖,圖5(d)為粗定位的二值圖像與當(dāng)前幀的彩色圖像點(diǎn)乘得到的粗定位彩色圖。
圖5 基于結(jié)構(gòu)相似性運(yùn)動(dòng)目標(biāo)粗定位結(jié)果圖Fig.5 Result graph of rough localization of moving target based on structural similarity
根據(jù)基于結(jié)構(gòu)相似性的運(yùn)動(dòng)目標(biāo)粗定位得到運(yùn)動(dòng)目標(biāo)區(qū)域,因?yàn)榇侄ㄎ皇菍?duì)圖像塊進(jìn)行處理,要么整個(gè)圖像塊保留,要么整個(gè)圖像塊剔除,導(dǎo)致得到的結(jié)果圖不僅包含大量的前景運(yùn)動(dòng)目標(biāo)而且包含小部分背景,接下來需要剔除掉多余的背景,選用最簡(jiǎn)單有效的背景差分法,背景差分法對(duì)兩幅圖像像素的對(duì)應(yīng)位置點(diǎn)對(duì)點(diǎn)計(jì)算,點(diǎn)對(duì)點(diǎn)進(jìn)行計(jì)算過程中僅涉及當(dāng)前像素點(diǎn),不會(huì)影響其他像素點(diǎn),有效地提取前景運(yùn)動(dòng)目標(biāo),又因?yàn)閱渭兊幕叶葓D像信息過于單一,當(dāng)背景圖像和運(yùn)動(dòng)目標(biāo)圖像中的灰度值相近時(shí),背景差分法容易產(chǎn)生空洞現(xiàn)象,而粗定位可以得到當(dāng)前幀和背景圖像的彩色信息,由于彩色圖像的信息遠(yuǎn)豐富于灰度圖像的信息,因此采用彩色圖像三通道分別進(jìn)行背景差分,通過式(12)得到背景差分圖像,由式(13)對(duì)差分圖像閾值化處理,當(dāng)差分值大于閾值時(shí)說明對(duì)應(yīng)的兩像素點(diǎn)之間存在明顯差異,該像素點(diǎn)為運(yùn)動(dòng)目標(biāo)像素點(diǎn);當(dāng)差分值小于閾值時(shí),說明對(duì)應(yīng)像素點(diǎn)之間的變化不明顯,因此判定該像素點(diǎn)為背景像素點(diǎn)。
d=|IF(x,y)-IB(x,y)|
(12)
(13)
式中:IF(x,y)和IB(x,y)分別為彩色圖像下當(dāng)前幀和背景幀每個(gè)像素點(diǎn);Th為前景與背景的分割閾值,閾值的選取至關(guān)重要,直接影響實(shí)驗(yàn)的結(jié)果,固定的閾值對(duì)于每幅固然是不合適的,因此采用最大類間方差法自適應(yīng)計(jì)算閾值,該方法的錯(cuò)分率小并且對(duì)于每幅圖像根據(jù)圖像本身選擇合適閾值;I(x,y)為通過背景差分后得到的前景目標(biāo)圖像。
通常情況下,采用圖像的灰度信息進(jìn)行背景差分,若當(dāng)前幀圖像和背景圖像中的灰度信息相差不明顯時(shí),通過閾值處理后將會(huì)把前景目標(biāo)當(dāng)成是背景,這種檢測(cè)的效果達(dá)不到最終效果,因此使用彩色圖像進(jìn)行背景差分,這樣既包含灰度信息又包含亮度信息,最后通過與操作和形態(tài)學(xué)處理得到完整的運(yùn)動(dòng)目標(biāo)圖像,基于背景差分的彩色圖像細(xì)分割如圖6所示。
圖6 基于背景差分的彩色圖像細(xì)分割圖Fig.6 Color image segmentation based on background difference
為驗(yàn)證本文方法能完整的提取運(yùn)動(dòng)目標(biāo),實(shí)驗(yàn)選用channet_2012數(shù)據(jù)集中的部分視頻進(jìn)行測(cè)試,其中包含抖動(dòng)的相機(jī)場(chǎng)景下和靜止的相機(jī)場(chǎng)景下視頻共5種,相機(jī)抖動(dòng)場(chǎng)景視頻有羽毛球(badminton)和林蔭大道(boulevard);相機(jī)靜止場(chǎng)景視頻有后門(backdoor)、行人(pedestrians)和交通(traffic),從視覺效果和參數(shù)指標(biāo)兩方面進(jìn)行對(duì)比,選用具有代表性的背景建模算法GMM,ViBe和自適應(yīng)的背景建模(即GMM+)[24]與本文方法進(jìn)行比較,測(cè)試結(jié)果如圖7所示,每一行表示不同算法對(duì)同一視頻圖像的實(shí)驗(yàn)結(jié)果。
從圖7實(shí)驗(yàn)結(jié)果看出,各算法都可以檢測(cè)到運(yùn)動(dòng)目標(biāo),ViBe算法和GMM算法都呈現(xiàn)出不同程度的前景丟失,GMM+算法對(duì)于前景目標(biāo)的檢測(cè)效果相對(duì)完整,但出現(xiàn)多檢情況,由于背景差分過程中灰度信息的變化。在badminton視頻、pedestrians視頻和traffic視頻中ViBe算法出現(xiàn)多檢的情況,不能有效的抑制背景初始化時(shí)產(chǎn)生的前景目標(biāo),但對(duì)于較長(zhǎng)的視頻序列,能夠?qū)堄跋?,如backdoor視頻和boulevard視頻;GMM算法相對(duì)于ViBe算法檢測(cè)效果較好,檢測(cè)到的運(yùn)動(dòng)目標(biāo)較完整,但出現(xiàn)了大量的干擾像素和噪點(diǎn),對(duì)背景像素的抑制不都完整,尤其是backdoor視頻和traffic視頻表現(xiàn)出大量的背景;GMM+算法采用自適應(yīng)的學(xué)習(xí)率更新背景模型,相對(duì)于GMM算法和ViBe算法檢測(cè)效果較好,不僅消除了干擾像素點(diǎn)而且目標(biāo)邊緣信息完整,GMM+算法對(duì)于車輛的檢測(cè)效果比較好,但對(duì)于人物細(xì)節(jié)部分存在漏檢,一方面人物的細(xì)節(jié)部分較多,另一方面人物面積相對(duì)于車輛面積較小,導(dǎo)致檢測(cè)不準(zhǔn)確。而本文方法不論目標(biāo)是人物還是車輛檢測(cè)效果都較好,目標(biāo)輪廓清晰完整,無重影和噪點(diǎn)。
圖7 各算法對(duì)視頻圖像的檢測(cè)結(jié)果Fig.7 Detection results of various algorithms on video images
為了進(jìn)一步驗(yàn)證各方法的檢測(cè)效果,采用查全率(recall)、查準(zhǔn)率(precision)、準(zhǔn)確率(F-measure)3個(gè)標(biāo)準(zhǔn)指標(biāo)作為運(yùn)動(dòng)目標(biāo)檢測(cè)的評(píng)價(jià)指標(biāo),準(zhǔn)確率為查全率和查準(zhǔn)率的加權(quán)調(diào)和平均。查全率、查準(zhǔn)率和準(zhǔn)確率指標(biāo)值越大則表示檢測(cè)效果越好,算法越可靠。查全率Re、查準(zhǔn)率Pr和準(zhǔn)確率Fm的計(jì)算公式分別為
(14)
(15)
(16)
式中:TP為正確檢測(cè)前景點(diǎn)的個(gè)數(shù);FN為錯(cuò)誤檢測(cè)背景點(diǎn)的個(gè)數(shù),即漏檢測(cè)的前景點(diǎn);FP為錯(cuò)誤檢測(cè)前景點(diǎn)的個(gè)數(shù)。
根據(jù)以上3個(gè)評(píng)價(jià)指標(biāo)對(duì)本文方法進(jìn)行驗(yàn)證,不同算法下各項(xiàng)參數(shù)指標(biāo)對(duì)比結(jié)果如表1所示。
表1 各算法的前景檢測(cè)指標(biāo)參數(shù)對(duì)比Table 1 Comparison of foreground detection index parameters of each algorithm
表1給出5種場(chǎng)景下4種算法的前景檢測(cè)結(jié)果指標(biāo)對(duì)比,本文方法的各項(xiàng)參數(shù)指標(biāo)均高于ViBe算法、GMM算法及改進(jìn)的GMM算法,在5種場(chǎng)景下的準(zhǔn)確率達(dá)到90%以上,因此本文方法既適用于靜止相機(jī)下的目標(biāo)檢測(cè)又適用于抖動(dòng)相機(jī)下的運(yùn)動(dòng)目標(biāo)檢測(cè)。
提出了基于特征檢測(cè)的運(yùn)動(dòng)目標(biāo)檢測(cè)方法可以應(yīng)用于靜止相機(jī)下和抖動(dòng)相機(jī)下的運(yùn)動(dòng)目標(biāo)檢測(cè),首先通過視頻序列得到背景圖像,使用SIFT算子檢測(cè)背景圖和當(dāng)前幀圖的特征點(diǎn),通過特征匹配得到兩幅圖像間的匹配特征點(diǎn)對(duì),根據(jù)特征點(diǎn)對(duì)的偏移量估計(jì)恢復(fù)整幅圖像在水平和垂直方向的偏移程度;為了減少噪聲和背景的干擾,對(duì)圖像進(jìn)行分塊處理,根據(jù)結(jié)構(gòu)相似性測(cè)量值得到粗定位的彩色運(yùn)動(dòng)目標(biāo)圖;為了得到精確完整的運(yùn)動(dòng)目標(biāo)圖像充分利用了彩色圖像信息,對(duì)粗定位的彩色運(yùn)動(dòng)目標(biāo)圖進(jìn)行背景差分。實(shí)驗(yàn)結(jié)果表明,所提出的方法相比于其他經(jīng)典的算法,不論是車輛還是人物細(xì)節(jié)信息都比較完整,消除噪聲的同時(shí)抑制的背景的干擾,檢測(cè)準(zhǔn)確率也得到提高。