魏 瑋,馬 瑞,王小芳
(河北工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與軟件學(xué)院,天津 300401) (*通信作者電子郵箱mary102452@163.com)
視頻中人臉位置的定量檢測
魏 瑋,馬 瑞*,王小芳
(河北工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與軟件學(xué)院,天津 300401) (*通信作者電子郵箱mary102452@163.com)
現(xiàn)有的人臉檢測評判標(biāo)準(zhǔn)通常情況下僅僅只是對人臉有無的定性檢測,對于視頻中人臉位置的定量描述并沒有嚴(yán)格的規(guī)范;另外,現(xiàn)在的一些研究如視頻人臉替換等對視頻流中人臉位置的連續(xù)性有較高的要求。為了解決上述兩個(gè)問題,相比之前的人臉檢測以及人臉跟蹤評估標(biāo)準(zhǔn),提出了一種視頻中人臉位置的定量檢測評估標(biāo)準(zhǔn),并且提出了一種視頻中人臉位置的檢測方法。該方法首先通過改進(jìn)的Haar-Like級聯(lián)分類器在目標(biāo)區(qū)域中檢測到人臉初始位置;然后采用金字塔光流法對人臉位置進(jìn)行預(yù)測,同時(shí)引入正反向誤差檢測機(jī)制實(shí)現(xiàn)對結(jié)果的自檢測,最終確定人臉位置。實(shí)驗(yàn)結(jié)果表明,檢測標(biāo)準(zhǔn)能夠?qū)y試算法在視頻人臉檢測的定量描述結(jié)果給出評判,提出的檢測算法在人臉位置的時(shí)間一致性上有所提升。
視頻序列;人臉檢測;正反向誤差;金字塔光流;視頻閃爍;時(shí)間一致性
人臉檢測是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)核心問題,近幾年人臉檢測不僅在算法研究上不斷突破,一些檢測技術(shù)已被廣泛應(yīng)用到商業(yè)領(lǐng)域。在算法研究已走向成熟的同時(shí),如何評估這些算法的性能變得尤為重要。Schneiderman等[1-2]提出的著名的CMU+MIT數(shù)據(jù)庫,是人臉檢測常用的測試集合,它結(jié)合了正面人臉以及平面內(nèi)旋轉(zhuǎn)的人臉集合。Jesorsky等[3]提出了BiolD數(shù)據(jù)集包含在各種光照和復(fù)雜背景下的1 521張面部圖像,其中眼睛的位置已被手工標(biāo)注。由Jain等[4]提出的FDDB數(shù)據(jù)庫涵蓋了在自然環(huán)境下的各種人臉,該數(shù)據(jù)庫使用Faces in the Wild數(shù)據(jù)庫中包含5 171張人臉的2 845張圖片作為測試集,其官網(wǎng)上公布了公開發(fā)表和未公開發(fā)表的人臉檢測算法評測集,能夠通過一定的標(biāo)準(zhǔn)來評估檢測算法的性能。
人臉檢測作為后續(xù)人臉特征點(diǎn)定位、人臉識別等的基礎(chǔ),隨著研究的深入,簡單地從圖片中檢測出人臉無法滿足視頻人臉檢測的需要。Dale等[5]指出,在視頻中人臉替換時(shí),會出現(xiàn)閃爍抖動(dòng)(flicker)問題,除去邊緣融合的問題,檢測視頻中人臉時(shí)同一張人臉檢測到的大小縮放也是重要原因。目前人臉檢測數(shù)據(jù)庫或評價(jià)標(biāo)準(zhǔn)都存在下面幾個(gè)缺點(diǎn)中的一個(gè)或幾個(gè):
1)數(shù)據(jù)集僅包含人臉的灰度圖像,不適用于彩色特征的人臉檢測;
2)數(shù)據(jù)庫的數(shù)據(jù)源是圖片格式,測評的是人臉檢測算法對于單張人臉的檢測準(zhǔn)確度,對視頻人臉的檢測評估并不適用;
3)現(xiàn)有的視頻數(shù)據(jù)集多是為跟蹤服務(wù),和對行人姿態(tài)的或人臉表情的判別,如MOBIO數(shù)據(jù)庫[6]和MPIBC數(shù)據(jù)庫[7]。
本文作者充分研究以上數(shù)據(jù)庫,結(jié)合實(shí)驗(yàn)提出一種視頻中人臉位置的定量檢測評估標(biāo)準(zhǔn),評估方法旨在對視頻中人臉檢測算法的輸出結(jié)果有一個(gè)定量的描述,并以此為檢測人臉位置時(shí)間一致性的評估標(biāo)準(zhǔn),并且通過改進(jìn)后視頻人臉檢測算法和標(biāo)準(zhǔn)算法的對比實(shí)驗(yàn)結(jié)果證明,對于視頻中的人臉檢測,該算法能夠?qū)z測算法的人臉位置的時(shí)間一致性作出準(zhǔn)確的評估。
人臉檢測算法如Viola等[8]提出的基于Haar-like的Adaboost人臉檢測算法,以及Chen等[9]提出的聯(lián)合級聯(lián)人臉檢測與人臉對齊(Joint cascade face Detection and Alignment, JDA)算法,均為基于統(tǒng)計(jì)理論的人臉檢測算法,通過訓(xùn)練得到的分類器,檢測結(jié)果的確定方法上存在統(tǒng)計(jì)誤差,在檢測結(jié)果的定量描述中均會受到統(tǒng)計(jì)漲落的影響,即基于統(tǒng)計(jì)理論的算法大都是用統(tǒng)計(jì)量的均值來代替該量的數(shù)學(xué)期望。根據(jù)統(tǒng)計(jì)理論,當(dāng)樣本總數(shù)趨于無窮時(shí)該結(jié)論是精確的,但實(shí)際樣本總數(shù)總是有限的,并且視頻中每幀的檢測結(jié)果是獨(dú)立的,人臉定量檢測出的人臉位置一般均會有明顯的偏差,本文實(shí)驗(yàn)表明在一段人臉大小角度不發(fā)生變化的視頻中此種算法檢測出的人臉位置及同一個(gè)人臉的大小一般會有0到幾個(gè)像素的偏差,而跟蹤算法如壓縮跟蹤(Compressive Tracking, CT)[10]和跟蹤-學(xué)習(xí)-檢測(Tracking-Learning-Detection, TLD)[11]算法也存在同樣的問題。
現(xiàn)在權(quán)威的FDDB數(shù)據(jù)庫涵蓋了自然條件下的各種人臉,在相同的基準(zhǔn)下通過評測算法對利用人臉檢測算法得到的檢測結(jié)果進(jìn)行算法評估,為人臉檢測算法的深入研究提供助力?,F(xiàn)有的視頻人臉檢測算法常見的是給出最可能包括人臉的方框,鮮有文獻(xiàn)涉及視頻人臉定量檢測評價(jià)方法,現(xiàn)常用的方法就是將視頻視為幀的序列后再引用類似FDDB等的圖片中人臉檢測評價(jià)標(biāo)準(zhǔn),來評價(jià)視頻中人臉檢測的準(zhǔn)確性。FDDB庫中的圖片均是各不相關(guān)的,沒有視頻序列中各個(gè)幀的繼承關(guān)系,而這種繼承關(guān)系對保持人臉畫面的時(shí)間一致性(一致的話,人臉就不應(yīng)閃爍)是必須的,視頻中的人臉檢測比單純的圖片檢測更為復(fù)雜,所以用作視頻中人臉檢測準(zhǔn)確性的評判標(biāo)準(zhǔn)就很牽強(qiáng)??紤]到視頻的時(shí)序性,判斷人臉的有無已無法滿足后續(xù)對人臉處理的需要。檢測結(jié)果的時(shí)間一致性應(yīng)加入到對視頻中的人臉檢測算法的評判中。
為了說明這種相鄰幀中人臉畫面的時(shí)間一致性在人臉位置上的體現(xiàn),本文將被拍攝者靜止不動(dòng)的視頻用檢測算法檢測到的人臉按中心位置對齊后播放,用實(shí)驗(yàn)者的視覺觀察發(fā)現(xiàn)人臉的大小位置在不斷變化——閃爍。這些是檢測過程中出現(xiàn)的誤差,導(dǎo)致人臉替換中出現(xiàn)閃爍現(xiàn)象。
前文指出,傳統(tǒng)人臉檢測算法對于人臉在視頻中的確切位置并沒能給出足夠準(zhǔn)確的檢測結(jié)果,在特征點(diǎn)標(biāo)定過程中也有一定的統(tǒng)計(jì)誤差。為了能直觀地反映檢測過程中視頻人臉位置的變化,進(jìn)而判斷檢測算法的優(yōu)劣,對算法人臉在中心點(diǎn)位置上的時(shí)間一致性作出評估,本文提出了一種視頻正面人臉位置的定量檢測的評估標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)由以下兩個(gè)評價(jià)方法構(gòu)成。
2.1 靜態(tài)檢測誤差
理想狀態(tài)下,拍攝環(huán)境不變時(shí),對被檢測者正面人臉靜止不動(dòng)的視頻進(jìn)行檢測,檢測到的人臉應(yīng)是位置大小均不發(fā)生變化的,即應(yīng)滿足人臉位置的時(shí)間一致性。由于攝像機(jī)電子噪聲和檢測算法存在統(tǒng)計(jì)漲落,檢測到的人臉并非靜止。
在實(shí)驗(yàn)中,本文作者嘗試用經(jīng)典的人臉檢測算法對視頻進(jìn)行檢測,并判斷檢測結(jié)果是否靜止。檢測用視頻有三段,分別是兩個(gè)靜止的拍攝視頻,一段沒有明顯變化的電影視頻,所有視頻均為25 幀/s,20 s,大小為720×480。將檢測結(jié)果以中心點(diǎn)對齊作為測試用視頻的一部分。本文實(shí)驗(yàn)設(shè)置包括15段視頻:3段以原始視頻的某幀人臉疊加的靜止視頻;9段分別采用Haar-Like算法、libface算法、CT算法的檢測結(jié)果視頻以及3段附加視頻。
被測試者被要求觀看這15段視頻并在每段視頻結(jié)束后對視頻的抖動(dòng)程度打分。分?jǐn)?shù)的設(shè)定參照五點(diǎn)李克特分值:強(qiáng)烈同意抖動(dòng)(5)、同意抖動(dòng)(4)、既同意也不同意抖動(dòng)(3)、不同意抖動(dòng)(2)、強(qiáng)烈不同意抖動(dòng)(1)。實(shí)驗(yàn)最后收集到16個(gè)不同測試者意見,通過穿插在測試用視頻中的附加視頻讓測試者選擇附加視頻出現(xiàn)幾張人臉來去除那些沒有認(rèn)真觀察的無效數(shù)據(jù)最后得到14個(gè)測試者的意見。
平均的單個(gè)人臉相同圖片疊加的視頻分值為1.14,表明受試者能夠清楚地判斷這些視頻是完全不抖動(dòng)的。而其他三種算法的平均分值為4.33(Haar-Like)、4.14(libface)、2.43(CT)除CT算法外其他兩項(xiàng)均被認(rèn)為是檢測結(jié)果有劇烈抖動(dòng)。
通過上述實(shí)驗(yàn),驗(yàn)證了之前提到的人臉位置的時(shí)間一致性問題。為了將算法檢測結(jié)果在視頻靜止人臉定量檢測的時(shí)間一致性上以數(shù)值的形式表示出來,定義靜止視頻人臉檢測誤差σ:
其中,(xi,yi)為第i幀檢測到的人臉中心點(diǎn)位置坐標(biāo),n為視頻總幀數(shù),(x0,y0)是第一幀的人臉中心點(diǎn)位置。通過計(jì)算得到檢測人臉中心點(diǎn)與預(yù)設(shè)中心點(diǎn)的歐氏距離的變化Di來反映中心點(diǎn)的偏移,Di的平均值σ作為檢測誤差值,反映了該算法檢測結(jié)果的平均偏移程度。如圖1為三種算法對視頻人臉的檢測結(jié)果隨幀數(shù)的變化。三幅圖分別為檢測到的人臉中心點(diǎn)與預(yù)設(shè)中心點(diǎn)的歐氏距離即Di隨著幀數(shù)的變化圖像,從中可以看出Haar-Like檢測和libface檢測中心點(diǎn)的位置是有較大偏移的,驗(yàn)證了之前提出的單幀人臉檢測應(yīng)用于視頻中人臉檢測可能會出現(xiàn)抖動(dòng)問題,甚至?xí)霈F(xiàn)超過表示范圍的點(diǎn),這是由于算法檢測時(shí)的誤檢造成的,如圖2。CT算法檢測到的人臉中心點(diǎn)變化相對幅度較小,這也驗(yàn)證了對抖動(dòng)視頻的打分結(jié)果。另外,值得注意的是,所有算法的對比均是在相同的測試視頻上進(jìn)行比較的,即視頻中人臉定位測量因?yàn)橐曨l質(zhì)量的不同結(jié)果可能有很大差別,現(xiàn)在還沒有找到可以對這些算法不考慮測試視頻的評測方法,因此本文采用統(tǒng)一的自拍視頻作為測試用視頻,對各種算法檢測結(jié)果進(jìn)行對比,實(shí)驗(yàn)表明通過靜止視頻人臉檢測誤差σ,以及對齊的人臉視頻是可以對算法在視頻中人臉的定量檢測作出對比評價(jià)的。這在復(fù)雜背景的正面人臉電影視頻下也得到驗(yàn)證。
圖1 三種算法對視頻人臉的檢測結(jié)果
圖2 基于Haar-Like的Adaboost算法誤檢圖例
2.2 動(dòng)態(tài)視頻檢測
對于視頻中運(yùn)動(dòng)的正面人臉,當(dāng)人臉不發(fā)生轉(zhuǎn)動(dòng)時(shí)檢測結(jié)果應(yīng)當(dāng)與靜止時(shí)相同,但是實(shí)際檢測結(jié)果卻并非如此,因此對于視頻中運(yùn)動(dòng)的正面人臉檢測同樣將檢測到的人臉以中心點(diǎn)對齊播放,以視頻的抖動(dòng)程度來反映該人臉檢測算法的檢測效果,并且定義運(yùn)動(dòng)視頻人臉檢測誤差ε:
其中:j∈Si∩Si+1,F(xiàn)i為第i幀與第i+1(幀以中心點(diǎn)對齊后的檢測人臉相交區(qū)域的像素平均差。Si為第i幀檢測人臉區(qū)域,I(fj(i),i)為第i幀fj(i)位置的像素值,α為抖動(dòng)加權(quán)系數(shù)。考慮到由于檢測和跟蹤窗口大小變化而造成窗口抖動(dòng)如圖3,分別為Haar-Like檢測時(shí)視頻第90幀、第134幀、第173幀檢測結(jié)果。同樣各種算法所用的測試視頻均為同一視頻。
圖3 Haar-Like檢測視頻人臉結(jié)果
結(jié)合上述評價(jià)標(biāo)準(zhǔn)以及初步的實(shí)驗(yàn)結(jié)果可以看出,傳統(tǒng)的圖片中人臉檢測算法應(yīng)用到視頻中不能保證檢測結(jié)果的時(shí)間一致性,檢測出的人臉疊加視頻均有劇烈抖動(dòng)。CT算法是預(yù)測算法,它的主要原理是根據(jù)前一幀的信息更新的各個(gè)參數(shù)預(yù)測下一幀信息,但下一幀的樣本取自上一幀樣本位置周圍。實(shí)驗(yàn)表明,這種結(jié)合前后幀信息的預(yù)測跟蹤方法對保證視頻中人臉檢測時(shí)間一致性有效。為了能夠有效利用視頻序列前后幀的信息,使檢測不再落于單幀的局限,提高視頻中人臉檢測在位置上的時(shí)間一致性,本文提出了一種利用金字塔LK光流法確定視頻人臉位置,在預(yù)測結(jié)果中加入Forward-Backward誤差檢測[12]使算法具有自檢測功能的視頻中人臉的檢測方法。
3.1 金字塔LK光流法
光流法是空間運(yùn)動(dòng)物體在觀察成像平面上的像素運(yùn)動(dòng)的瞬時(shí)速度,是利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性來找到上一幀跟當(dāng)前幀之間存在的對應(yīng)關(guān)系,從而計(jì)算出相鄰幀之間物體的運(yùn)動(dòng)信息的一種方法[13]。在很多實(shí)際應(yīng)用中,稀疏光流比稠密光流的計(jì)算開銷較小,稀疏光流計(jì)算需要指定一組目標(biāo)點(diǎn),選擇合適的目標(biāo)點(diǎn),可用較少的數(shù)據(jù)和計(jì)算量,得到理想的跟蹤預(yù)測結(jié)果。
典型的LK光流算法實(shí)際上是在每一幀中某一已知鄰域內(nèi)尋找最佳匹配的問題,找到的最佳匹配點(diǎn)即為預(yù)測到的目標(biāo)點(diǎn)位置。LK算法通過求解式(1)中的最優(yōu)化問題來預(yù)測目標(biāo)點(diǎn)位置。
(1)
其中:H(y)和G(y)分別表示兩幅圖像在相應(yīng)坐標(biāo)下的像素灰度值,算法的目標(biāo)是找到相應(yīng)的向量h,使得在感興趣的區(qū)域R中,H(y+h) 和G(y)的差別最小。式(1)通過高斯迭代法[14]求解,得到預(yù)測點(diǎn)的運(yùn)動(dòng)狀態(tài)。
利用LK光流法計(jì)算時(shí),計(jì)算量在很大程度上被選擇的特征窗口的大小、物體運(yùn)動(dòng)的速度和圖像的紋理所影響。當(dāng)選擇的特征窗口較小時(shí),窗口內(nèi)圖像運(yùn)動(dòng)變化比較小,造成求解運(yùn)動(dòng)向量h不易;而當(dāng)選擇的特征窗口過大,則有悖于圖像灰度一致性假設(shè)。因此在經(jīng)典的LK光流法的基礎(chǔ)上采用圖像金字塔算法處理圖像,將圖像開始時(shí)在金字塔的頂層即在較大的空間尺度上進(jìn)行目標(biāo)預(yù)測跟蹤,再通過對圖像金字塔迭代向下直到圖像金字塔的底層的處理來修正初始運(yùn)動(dòng)向量的假定。
構(gòu)建圖像高斯金字塔分兩步計(jì)算:第一步對圖像作高斯(Gaussian)平滑;第二步向下采樣,借助亞采樣可以獲得一幅圖像的一個(gè)縮略圖,但如果需要減少一幅圖像的尺寸,僅僅靠亞采樣會丟失許多信息。根據(jù)采樣定理,需要讓所有小于最短波長的1/4 采樣而得到的精細(xì)結(jié)構(gòu)能通過平滑濾波器來消除掉,這樣才能獲得一幅正確的采樣圖像[15]。假設(shè)原圖為M×N大小的圖像,金字塔第l層圖像的數(shù)字表達(dá)式,第l層是由l-1層圖像Al-1經(jīng)高斯窗口函數(shù)W卷積及下采樣得到,公式如下:
其中:0≤i
整個(gè)PRLK算法的步驟是:在金字塔的最高層計(jì)算光流,用得到的運(yùn)動(dòng)估計(jì)結(jié)果作為下一層金字塔的起始點(diǎn),重復(fù)這個(gè)過程直到金字塔的底層。經(jīng)過這樣由粗到細(xì)的光流估計(jì),可以解決快而長的運(yùn)動(dòng)無法準(zhǔn)確定位的問題。
3.2Forward-Backward誤差檢測
實(shí)驗(yàn)通過libface算法[16]檢測初始人臉位置,利用Adaboost人眼檢測算法[17]確定人眼的中心位置,結(jié)合檢測到的人臉中心點(diǎn),將這三點(diǎn)作為有效的特征點(diǎn);通過LK稀疏光流法進(jìn)行特征點(diǎn)預(yù)測,采用金字塔搜索提高計(jì)算速度和準(zhǔn)確度;對于預(yù)測到的特征點(diǎn)本文采用Forward-Backward誤差檢測判斷是否有效。
其中:τ為預(yù)測誤差的閾值,對于預(yù)測若大于閾值則將上一幀的人臉位置賦給當(dāng)前幀。
實(shí)驗(yàn)表明該算法能及時(shí)調(diào)整檢測結(jié)果,明顯改善視頻正面人臉檢測所造成的抖動(dòng)問題,且能保證檢測結(jié)果的實(shí)時(shí)性。
為了驗(yàn)證本文提出的判斷視頻中人臉位置定量檢測的標(biāo)準(zhǔn)的實(shí)用性,以及自檢測金字塔光流法的有效性,評測實(shí)驗(yàn)分別采用了四個(gè)電影視頻,三個(gè)人12段拍攝視頻,拍攝視頻采用大華HF5221E攝像頭,自然光照下采集,拍攝視頻分為靜止不動(dòng)的視頻,人臉單獨(dú)橫向、縱向運(yùn)動(dòng)以及人臉橫縱向運(yùn)動(dòng)的視頻進(jìn)行實(shí)驗(yàn)。所有視頻統(tǒng)一視頻長度為20s,幀率為25 幀/s,畫面大小為720×480。
4.1 靜止檢測實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)使用三段靜止不動(dòng)的拍攝視頻,以及兩段靜止不動(dòng)的電影視頻作為實(shí)驗(yàn)數(shù)據(jù)。如圖4所示是本文提出的算法與其他三種算法對某一人臉靜止的視頻的檢測Di的變化對比,依次是基于Haar-Like的Adaboost算法、libface人臉檢測算法 (FDDB非公開類評測排名第二)、CT跟蹤算法。為了防止偶然因素統(tǒng)一選取了視頻第100~200幀的結(jié)果數(shù)據(jù)。
通過圖4可以看出Haar-Like算法檢測的人臉位置變化較大,且位置較為離散,并出現(xiàn)誤檢現(xiàn)象;libface檢測人臉位置比Haar-Like穩(wěn)定,沒有誤檢的情況;CT跟蹤算法,比單幀的檢測效果好,并無誤檢情況出現(xiàn);圖4(d)是本文采用的方法,可以看出效果較前三種算法有了明顯改善,中心點(diǎn)的位移變化控制在5以內(nèi)說明該算法在視頻靜止人臉定量檢測上是有效的。
表1列出了四種算法的靜止視頻人臉檢測誤差σ值以及對視頻抖動(dòng)效果打分的分值。其中Haar-Like算法時(shí)若計(jì)入誤檢人臉,則數(shù)值過大為54.25,所以本表中數(shù)值為去掉誤檢人臉后的值。
圖4 四種不同的人臉檢測算法的實(shí)驗(yàn)結(jié)果
算法檢測誤差σ分值算法檢測誤差σ分值Haar?Like算法10.5194.33CT算法4.0662.43libface算法7.4654.14本文算法2.6872.04
由表1中數(shù)據(jù)可以看出其結(jié)果和圖4所示結(jié)果相同:Haar-Like的檢測誤差最高,很大部分由于算法本身是單幀的人臉檢測運(yùn)用分類器有一定的隨機(jī)誤差;libface的檢測誤差較小,但仍有輕微人眼可辨的位移變化;CT檢測結(jié)果較前者要好;本文算法的檢測誤差最小,視頻中靜止的人臉檢測的定量檢測問題得到有效改善。同時(shí)通過打分結(jié)果對比得出檢測誤差與將檢測到的人臉對齊播放的視頻效果一致,說明該檢測誤差σ在一定程度上反映了靜止的視頻人臉定量檢測結(jié)果的好壞。
4.2 運(yùn)動(dòng)檢測實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)采用兩段電影視頻,以及9段拍攝視頻進(jìn)行實(shí)驗(yàn),得到的平均運(yùn)動(dòng)的視頻人臉檢測誤差ε結(jié)果以及打分結(jié)果如表2所示。Haar-Like算法采用去掉誤檢后的值。
由表中數(shù)據(jù)可以看出:對于運(yùn)動(dòng)中的人臉檢測,Haar-Like算法與libface算法的結(jié)果略低于其他兩種算法,檢測誤差ε值較大,說明檢測到的人臉位置有較大變化,這與將檢測到的人臉對齊播放的視頻效果一致。進(jìn)一步說明該檢測誤差ε在一定程度上可以對運(yùn)動(dòng)中的視頻人臉定量檢測作出對比評價(jià),且本文提出的算法對運(yùn)動(dòng)中的人臉視頻定量檢測結(jié)果有較大改善。
表2 運(yùn)動(dòng)視頻人臉檢測的檢測誤差和抖動(dòng)分值
4.3 算法效率分析
表3給出了上述三種算法效率比較。實(shí)驗(yàn)視頻統(tǒng)一視頻長度為20s,幀率為25 幀/s,畫面大小為720×480。為了測試算法的效率,實(shí)驗(yàn)得出多個(gè)視頻檢測耗時(shí)計(jì)算出平均檢測速度(該速度沒有計(jì)算實(shí)驗(yàn)結(jié)果顯示時(shí)間)。實(shí)驗(yàn)硬件采用IntelCorei7CPU4.00GHz,64位操作系統(tǒng)。從表中可以看出,本文算法的平均檢測速度遠(yuǎn)高于一般視頻的幀率,達(dá)到了實(shí)時(shí)性的要求。實(shí)驗(yàn)結(jié)果表明,本文算法相對于傳統(tǒng)的視頻中Haar-Like算法和libface人臉檢測以及CT跟蹤算法在視頻的人臉檢測性能上有明顯提高。
表3 視頻人臉檢測的算法效率
本文結(jié)合目前視頻中人臉檢測現(xiàn)狀以及實(shí)驗(yàn)和文獻(xiàn)中人臉替換領(lǐng)域?qū)τ谝曨l人臉檢測在位置上的時(shí)間一致性要求提出了視頻中人臉的定量測量,通過對齊人臉中心點(diǎn)播放以及對靜止的人臉視頻和運(yùn)動(dòng)的人臉視頻定義檢測誤差反映定量檢測結(jié)果的優(yōu)劣。通過測試者打分驗(yàn)證了檢測誤差的有效性。比較三種算法以及本文提出的改進(jìn)算法的檢測結(jié)果驗(yàn)證了評價(jià)標(biāo)準(zhǔn)的可行性,通過本文算法在視頻中檢測到的人臉滿足人臉位置的時(shí)間一致性且通過計(jì)算時(shí)間效率驗(yàn)證其具有實(shí)時(shí)性。本文對于視頻人臉在大小角度不變的情況下對中心點(diǎn)位置的時(shí)間一致性進(jìn)行了研究,提出了一種人臉位置的定量檢測評估方法及相應(yīng)的視頻人臉檢測的改進(jìn)算法,但并未涵蓋視頻中人臉檢測的時(shí)間一致性的各個(gè)方面。對于復(fù)雜情況下的人臉視頻,例如人物或鏡頭的遠(yuǎn)近變化造成的人臉大小變化,以及由于人臉或鏡頭的偏轉(zhuǎn)造成的角度變化等引起的視頻人臉檢測在大小角度的時(shí)間一致性問題則需要結(jié)合運(yùn)動(dòng)軌跡擬合及相應(yīng)的實(shí)驗(yàn)樣本等作進(jìn)一步的研究。
)
[1]SCHNEIDERMANH,KANADET.Probabilisticmodelingoflocalappearanceandspatialrelationshipsforobjectrecognition[C]//Proceedingsofthe1998IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 1998: 45-51.
[2]SCHNEIDERMANH,KANADET.Astatisticalmethodfor3Dobjectdetectionappliedtofacesandcars[C]//Proceedingsofthe2000IEEEConferenceonComputerVisionandPatternRecognition.Piscataway:NJ:IEEE, 2000,1: 746-751.
[3]JESORSKYO,KIRCHBERGKJ,FRISCHHOLZRW.RobustfacedetectionusingtheHausdorffdistance[M]//Audio-andVideo-BasedBiometricPersonAuthentication,LNCS2091.Berlin:Springer, 2001: 90-95.
[4]JAINV,LEARNED-MILLERE.FDDB:abenchmarkforfacedetectioninunconstrainedsettings[EB/OL]. [2016- 02- 01].http://people.cs.umass.edu/~elm/papers/fddb.pdf.
[5]DALEK,SUNKAVALLIK,JOHNSONMK,etal.Videofacereplacement[J].ACMTransactionsonGraphics, 2011, 30(6): 61-64.
[6]MCCOOLC,MARCELS,HADIDA,etal.Bi-modalpersonrecognitiononamobilephone:usingmobilephonedata[C]//Proceedingsofthe2012IEEEInternationalConferenceonMultimediaandExpoWorkshops.Washington,DC:IEEEComputerSociety, 2012: 635-640.
[7]KLEINERM,WALLRAVENC,BüLTHOFFHH,etal.TheMPIVideoLab—asystemforhighqualitysynchronousrecordingofvideoandaudiofrommultipleviewpoints[EB/OL]. [2016- 01- 17].http://www.kyb.tue.mpg.de/fileadmin/user_upload/files/publications/pdfs/pdf2774.pdf.
[8]VIOLAP,JONESMJ.Robustreal-timefacedetection[J].InternationalJournalofComputerVision, 2004, 57(2): 137-154.
[9]CHEND,RENS,WEIY,etal.Jointcascadefacedetectionandalignment[M]//ComputerVision—ECCV2014,LNCS8694. 2014: 109-122.
[10]ZHANGK,ZHANGL,YANGMH.Real-timecompressivetracking[C]//ComputerVision—ECCV2012,LNCS7574.Berlin:Springer, 2012: 864-877.
[11]KALALZ,MIKOLAJCZYKK,MATASJ.Tracking-learning-detection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012, 34(7): 1409-1422.
[12]KALALZ,MIKOLAJCZYKK,MATASJ.Forward-backwarderror:automaticdetectionoftrackingfailures[C]//Proceedingsofthe2010 20thInternationalConferenceonPatternRecognition.Washington,DC:IEEEComputerSociety, 2010: 2756-2759.
[13]NEGAHDARIPOURS.Reviseddefinitionofopticalflow:integrationofradiometricandgeometriccuesfordynamicsceneanalysis[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 1998, 20(9): 961-979.
[14]LUCASBD.Generalizedimagematchingbythemethodofdifferences[EB/OL]. [2016- 01- 21].http://www.ri.cmu.edu/publication_view.html?pub_id=5610.
[15] 王斌,何中市,伍星,等.基于高斯金字塔的圖像運(yùn)動(dòng)估計(jì)算法[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(7):174-178.(WANGB,HEZS,WUX,etal.NewdiamondsearchalgorithmbasedonGaussianpyramid[J].ComputerEngineeringandApplications, 2015, 51(7): 174-178.)
[16]Libface—facerecognitionlibrary. [CP/OL].[2016- 03- 21].http://libface.sourceforge.net/file/Home.html.
[17] 甘玲,朱江,苗東.擴(kuò)展Haar特征檢測人眼的方法[J].電子科技大學(xué)學(xué)報(bào),2010,39(2):247-250.(GANL,ZHUJ,MIAOD.Applicationoftheexpansionhaarfeaturesineyedetection[J].JournalofUniversityofElectronicScienceandTechnologyofChina, 2010, 39(2): 247-250.)
ThisworkispartiallysupportedbyTianjinSci-TechProject(14RCGFGX00846, 15ZCZDNC00130).
WEI Wei, born in 1960, Ph. D., professor. His research interests include machine vision, pattern recognition, data mining.
MA Rui, born in 1992,M.S.candidate. Her research interests include image processing, pattern recognition.
WANG Xiaofang, born in 1972, Ph. D., lecturer.Her research interests include virtual reality, machine vision.
Quantitative detection of face location in videos
WEI Wei, MA Rui*, WANG Xiaofang
(SchoolofComputerScienceandEngineering,HebeiUniversityofTechnology,Tianjin300401,China)
Available face detection and evaluation standards are usually only a qualitative detection of the face existing, and have no strict norms for the quantitative description of the face location in videos.In addition, some researches such as video face replacement have higher requirements for the continuity of the face position in the video sequences. To solve these two problems, compared with the previous face detection algorithms and the face tracking evaluation standards, a quantitative detection standard of the human face position in the video was proposed, and a modified method of video face position detection was put forward. The initial face location was firstly detected in the target area by the improved Haar-Like cascade classifier; then the pyramid optical flow method was used to predict the position of the face, at the same time the forward-backward error detection mechanism was introduced to the self-checking of results, and finally the location of human face was determined. The experimental results show that the detection standard can give the evaluation of the quantitative description of the detection algorithm in the video face detection, and the proposed detection algorithm has a great improvement in the time consistency of face position in the detection results.
video sequence; face detection; forward-backward error; pyramid optical flow; video flicker; time consistency
2016- 08- 15;
2016- 09- 25。 基金項(xiàng)目:天津市科技計(jì)劃項(xiàng)目(14RCGFGX00846, 15ZCZDNC00130)。
魏瑋(1960—),男,山東曲阜人,教授,博士, CCF會員,主要研究方向:機(jī)器視覺、模式識別、數(shù)據(jù)挖掘; 馬瑞(1992—),女,河北定州人,碩士研究生,主要研究方向:圖像處理、模式識別; 王小芳(1972—),女,河北邢臺人,講師,博士,主要研究方向:虛擬現(xiàn)實(shí)、機(jī)器視覺。
1001- 9081(2017)03- 0801- 05
10.11772/j.issn.1001- 9081.2017.03.801
TP391.413
A