劉 瓊
(北京信息科技大學(xué)自動(dòng)化學(xué)院 北京 100192)
?
導(dǎo)引概率圖與顯著特征相結(jié)合的行人目標(biāo)檢測(cè)①
劉 瓊②
(北京信息科技大學(xué)自動(dòng)化學(xué)院 北京 100192)
研究了仿生人眼視覺注意機(jī)制,采用目標(biāo)導(dǎo)引概率圖作為自上而下的信息,通過調(diào)制基于目標(biāo)顯著特征的自下而上信息,實(shí)現(xiàn)行人目標(biāo)檢測(cè)的方法。首先,對(duì)相似場(chǎng)景的目標(biāo)樣本圖像提取尺度不變特征變換(SIFT)特征,基于貝葉斯公式,采用高斯混合模型(GMM)建立目標(biāo)導(dǎo)引概率模型,利用期望最大(EM)算法和狄利克雷過程(DP)自動(dòng)估計(jì)模型參數(shù);進(jìn)而,對(duì)一副待檢測(cè)圖像,采用已估概率模型計(jì)算圖像中每一像元的目標(biāo)似然性,形成導(dǎo)引概率圖作為自上而下的信息;同時(shí),針對(duì)行人目標(biāo),模擬中央-外周機(jī)制計(jì)算多尺度的膚色特征和豎直方向特征,形成基于目標(biāo)顯著特征的自下而上信息;最后,將兩者結(jié)合得到候選目標(biāo)區(qū)域,再通過提取候選區(qū)域的積分梯度直方圖和等價(jià)的局部二值模式(LBP)特征,輸入到級(jí)聯(lián)支持向量機(jī)(SVM)分類器,驗(yàn)證并得到目標(biāo)檢測(cè)結(jié)果。基于實(shí)拍數(shù)據(jù)庫(kù)和復(fù)旦大學(xué)-賓夕法尼亞大學(xué)行人數(shù)據(jù)庫(kù)的大量實(shí)驗(yàn)表明,對(duì)概率模型的這種改進(jìn)能顯著提升行人目標(biāo)預(yù)測(cè)效果,且檢測(cè)算法在整體上優(yōu)于傳統(tǒng)檢測(cè)算法。
視覺注意(VA), 概率引導(dǎo)圖, 顯著特征, 行人目標(biāo)檢測(cè)(PD)
人類視覺注意(visual attention)機(jī)制具有高效、準(zhǔn)確的優(yōu)點(diǎn),實(shí)現(xiàn)該機(jī)制的仿生計(jì)算是計(jì)算機(jī)視覺研究領(lǐng)域追求的目標(biāo),尤其對(duì)無人駕駛等情況下實(shí)現(xiàn)該功能應(yīng)用的目標(biāo)更為迫切[1]。視覺注意來源于感知驅(qū)動(dòng)和任務(wù)驅(qū)動(dòng)。來源于感知驅(qū)動(dòng),稱為感知信息驅(qū)動(dòng)的自下而上的視覺注意[2],來源于任務(wù)驅(qū)動(dòng),稱為任務(wù)信息驅(qū)動(dòng)的自上而下的視覺注意[3]。前者是指人們?cè)跓o觀測(cè)任務(wù)或觀測(cè)期望的情況下,被場(chǎng)景中的顯著物體或區(qū)域所吸引的視覺注意,該注意的機(jī)制是由底層感知數(shù)據(jù)驅(qū)動(dòng),與觀察任務(wù)、情感、記憶等因素?zé)o關(guān),因而人們無法有意識(shí)地控制其信息處理過程,且在該過程中所做出的反應(yīng)是實(shí)時(shí)的。后者則是在有意識(shí)的條件下,尋求期望目標(biāo)的一種視覺行為,它與大腦高層的感知過程相關(guān),存在空間搜索和特征匹配兩條視覺通路,且顯著區(qū)域不受感受野的范圍與大小控制,通過顯性的注意轉(zhuǎn)移實(shí)現(xiàn)目標(biāo)檢測(cè)[4-6]。本文著眼于對(duì)自上而下任務(wù)信息驅(qū)動(dòng)的視覺注意的過程模擬,通過模擬空間搜索和特征匹配兩條視覺通路,應(yīng)用于行人目標(biāo)檢測(cè)(pedestrian detection)。
空間搜索基于目標(biāo)與場(chǎng)景中其他物體之間的關(guān)系,因此,如何建模物體之間的關(guān)系是實(shí)現(xiàn)仿生計(jì)算的關(guān)鍵?;貧w人類視覺注意心理,假設(shè)搜索目標(biāo)為電腦,很顯然目光停留在書桌附近的概率要明顯大于在沙發(fā)周圍的概率,因此,采用概率推理的方式模擬空間搜索過程符合仿生機(jī)理要求。文獻(xiàn)[7]通過構(gòu)建貝葉斯模型,采用全局gist特征預(yù)測(cè)目標(biāo)出現(xiàn)的區(qū)域,在該區(qū)域中再采用顯著特征定位目標(biāo)。由于gist特征是全局特征,適合于對(duì)場(chǎng)景做粗水平歸類,如室內(nèi)或戶外等,因此,該方法適合于遠(yuǎn)距離拍攝所獲取的大場(chǎng)景圖像。與此同時(shí),預(yù)測(cè)的區(qū)域僅為圖像水平劃分的區(qū)域,搜索尺度太大。本文主要在該模型的工作基礎(chǔ)之上,做如下改進(jìn):(1)采用尺度不變特征變換(SIFT)特征作為預(yù)測(cè)特征,估計(jì)場(chǎng)景圖像每一個(gè)像元的目標(biāo)概率似然度,使其適用于任意距離拍攝的圖像;(2)采用Dirichlet過程對(duì)高斯混合模型(Gaussion minture model, GMM)的聚類中心個(gè)數(shù)進(jìn)行估計(jì),提高模型預(yù)測(cè)的準(zhǔn)確率。(3)通過提取更符合目標(biāo)特性的IHOG-LBP特征,并經(jīng)過SVM分類判別,進(jìn)一步驗(yàn)證候選區(qū)域是否含有目標(biāo),提高檢測(cè)準(zhǔn)確率,更符合工程實(shí)際的要求。
全文整體算法流程如圖1所示。
圖1 基于導(dǎo)引概率圖與顯著特征的行人目標(biāo)檢測(cè)計(jì)算流程圖
1.1 基于SIFT特征的混合高斯概率模型構(gòu)建與參數(shù)求解
在給定圖像的觀測(cè)數(shù)據(jù)集合v下,計(jì)算目標(biāo)物體O的似然函數(shù),可在經(jīng)典的概率論框架下依據(jù)貝葉斯原理構(gòu)建:
(1)
其中,P(O|v)是在給定圖像所有位置觀測(cè)數(shù)據(jù)集合v的條件下,目標(biāo)O存在的條件概率密度函數(shù)。O表示圖像中目標(biāo)物體的屬性:O={o,x,σ,…},其中o表示目標(biāo)物體的類別,x表示目標(biāo)物體在圖像中的位置坐標(biāo),σ表示目標(biāo)物體的大小。這里并沒有列完所有的參數(shù),其他的一些參數(shù)也可以用來描述目標(biāo)物體,比如物體的形態(tài)姿勢(shì),物體的亮度等。但在空間搜索中,目標(biāo)物體在圖像中的位置x是首要關(guān)注的參數(shù)??紤]到SIFT特征具有優(yōu)良的穩(wěn)定性[8],式(1)中的v,本文采用圖像所有的SIFT特征點(diǎn)的特征向量,因此,也將其稱之為SIFT概率模型。
式(1)是計(jì)算目標(biāo)物體在圖像中理想位置o的概率密度函數(shù),由于觀測(cè)數(shù)據(jù)v考慮了圖像所有位置,其維度將非常高,從而使建模概率密度函數(shù)的問題變得極為病態(tài)。為了降低復(fù)雜度,考慮在目標(biāo)一定的鄰域范圍內(nèi)進(jìn)行觀測(cè),并假設(shè)圖像中其他區(qū)域的觀測(cè)值與目標(biāo)鄰域內(nèi)的觀測(cè)值相互獨(dú)立。于是,式(1)可以改寫為
(2)
其中,視覺特征向量vC變?yōu)槟繕?biāo)區(qū)域的特征,其維度明顯低于前述視覺特征向量v,vC為行人目標(biāo)的SIFT特征向量,o指定為行人目標(biāo)。P(vc|o)是在行人目標(biāo)類里,有關(guān)SIFT特征向量的條件概率分布,可以利用樣本庫(kù)中的行人目標(biāo)圖像事先學(xué)習(xí)得到。因而求解式(2)的主要問題就是如何得到似然函數(shù)P(x,vc|o)。為了能夠使式(2)所代表的模型更加具體且方便計(jì)算,接下來,采用GMM對(duì)似然函數(shù)P(x,vc|o)進(jìn)行建模。
由于似然函數(shù)P(x,vc|o)求解在給定目標(biāo)物體類別的情況下,目標(biāo)物體在圖像中的位置坐標(biāo)x與目標(biāo)物體的視覺特征vc的條件概率。為了計(jì)算簡(jiǎn)便,可以認(rèn)為目標(biāo)物體在圖像中的位置x與目標(biāo)物體的視覺特征vc為兩個(gè)隨機(jī)變量,所以直接應(yīng)用混合高斯模型不太適宜。為了簡(jiǎn)化問題,可假設(shè)目標(biāo)物體在圖像中的位置坐標(biāo)x與目標(biāo)物體的視覺特征vc從統(tǒng)計(jì)的角度來看是互相獨(dú)立的,故可以將混合高斯模型中的聯(lián)合概率分解為兩個(gè)高斯分布的乘積,也即
(3)
其中第一個(gè)高斯分布建模了行人目標(biāo)在圖像中的位置分布,第二個(gè)高斯分布建模了每一個(gè)聚類的視覺特征的分布。而混合高斯的每一個(gè)成分可以看作一個(gè)聚類中心,它描述了整個(gè)聯(lián)合概率的分布情況。
得到似然函數(shù)P(x,vc|o)模型式(3)后,接下來的工作就是求解模型,完成對(duì)模型中未知參數(shù)的估計(jì),從而能夠利用該模型求得目標(biāo)物體在圖像中的位置的后驗(yàn)概率,即P(x|vc,o)。在此,本文通過期望最大化(expectation maximization,EM)算法[9]求解模型參數(shù)。由于式(2)所示模型中出現(xiàn)了統(tǒng)計(jì)上相互獨(dú)立的2個(gè)隨機(jī)變量:目標(biāo)物體在圖像中的位置坐標(biāo)x與目標(biāo)物體的視覺特征vc。在求偏導(dǎo)時(shí),為了簡(jiǎn)化,可以假設(shè)目標(biāo)物體在圖像中的位置坐標(biāo)x與目標(biāo)物體的視覺特征vc之間具有線性關(guān)系,即
表1 基于EM算法的混合高斯模型參數(shù)推導(dǎo)
xi=ai+Ai(vc-vi)
(4)
接下來,便可按照對(duì)似然函數(shù)求偏導(dǎo)的方法,推導(dǎo)出模型參數(shù),從而得到物體在圖像中的位置。具體的基于EM算法的參數(shù)推導(dǎo)過程如表1所示。
1.2 基于狄利克雷過程的GMM聚類中心數(shù)估計(jì)
此前所建立的概率模型是基于高斯模型的混合,并用EM算法求解未知參數(shù)。但在求解過程中,如何確定混合高斯分布的個(gè)數(shù)是一個(gè)很棘手的問題。如果設(shè)置混合高斯的個(gè)數(shù)過多,則整個(gè)模型的復(fù)雜度將會(huì)很高,在學(xué)習(xí)過程中也容易出現(xiàn)過學(xué)習(xí)現(xiàn)象。反之,如果混合高斯分布的個(gè)數(shù)過少,則整個(gè)模型的復(fù)雜度可能偏低,模型將不會(huì)有很好的泛化和推廣能力,而且會(huì)出現(xiàn)欠學(xué)習(xí)現(xiàn)象。如圖2所示,其中圖2(a)是原始的數(shù)據(jù)點(diǎn)的分布,但它們由幾個(gè)混合高斯分布來表示是未知的。如果預(yù)先指定5個(gè)聚類中心,則混合高斯模型學(xué)習(xí)后得到的結(jié)果如圖2(b)所示。而自組織情況下,數(shù)據(jù)點(diǎn)的分布只有3個(gè)聚類中心,其聚類結(jié)果如圖2(c)所示。由此可以看出,預(yù)先指定聚類中心個(gè)數(shù)的方式不合理,而且會(huì)使得模型的預(yù)測(cè)和泛化能力較低。
圖2 同一數(shù)據(jù)集在指定分布個(gè)數(shù)與自組織情況 下的聚類效果比較
為了解決這個(gè)問題,本文引入非參數(shù)貝葉斯模型中的狄利克雷過程(Dirichlet Process,DP)[10]對(duì)混合高斯分布中的高斯模型個(gè)數(shù)進(jìn)行估計(jì),并將其稱之為DP-GMM。
Dirichlet分布用于描述n維(n>2)隨機(jī)變量X的分布,是Beta分布的多維泛化形式,一般記做Dir(α),其概率密度函數(shù)表達(dá)式為
(5)
給定一個(gè)狄利克雷過程DP(H,α),其中基準(zhǔn)分布H可以認(rèn)為是一個(gè)任意的分布,而濃度系數(shù)α是一個(gè)正實(shí)數(shù)。對(duì)狄利克雷過程進(jìn)行一次采樣,得到的是一個(gè)隨機(jī)分布,這個(gè)隨機(jī)分布的取值是從基準(zhǔn)分布H上采樣得到的。也就是說,狄利克雷過程的輸出分布的支撐集和狄利克雷過程的基準(zhǔn)分布的支撐集是一樣的。狄利克雷過程的輸出分布是離散的,這意味著即使狄利克雷過程的基準(zhǔn)分布是連續(xù)分布(連續(xù)分布也就意味著從這個(gè)分布上采樣的任意兩個(gè)采樣值互不相同的概率為1),從狄利克雷過程的輸出分布上采樣得到的單個(gè)樣本值有可能會(huì)重復(fù)。其中,狄利克雷過程采樣值重復(fù)程度的大小由濃度系數(shù)α決定,當(dāng)濃度系數(shù)α很大時(shí),采樣值重復(fù)的次數(shù)越少。如果狄利克雷過程的基準(zhǔn)分布是連續(xù)分布,則每次對(duì)這個(gè)基準(zhǔn)分布的采樣值都是不一樣的,而狄利克雷過程的輸出分布返回的每一個(gè)可能采樣值的頻率對(duì)應(yīng)的是一個(gè)無限的概率集合,則這個(gè)無限的概率集合是按照破棍過程[11]分布的。
由于從狄利克雷過程采樣得到的是離散的樣本值,它的一個(gè)重要的應(yīng)用是將其作為對(duì)無限混合模型的先驗(yàn)概率分布的一個(gè)估計(jì)。此時(shí),整個(gè)生成模型的過程如下:首先從狄利克雷過程采樣得到一個(gè)樣本分布,然后對(duì)應(yīng)每一個(gè)數(shù)據(jù)點(diǎn),從這個(gè)樣本分布上逐一采樣,再將其作為這個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)某一混合成分的概率分布。由于模型最后生成的不同的混合成分的個(gè)數(shù)沒有限制,所以在無預(yù)先定義混合成分個(gè)數(shù)時(shí),狄利克雷過程是一個(gè)較為合適的模型。運(yùn)用到對(duì)混合高斯分布中的高斯模型個(gè)數(shù)進(jìn)行估計(jì),本文首先從狄利克雷過程中進(jìn)行采樣,得到一個(gè)似然函數(shù)P(x, vc|o)的先驗(yàn)概率分布,也即通過狄利克雷過程確定高斯聚類中心的個(gè)數(shù)。然后再采用期望最大化算法對(duì)混合高斯模型的參數(shù)進(jìn)行最大似然估計(jì)。
為了驗(yàn)證基于狄利克雷過程非參數(shù)貝葉斯模型對(duì)聚類效果的改進(jìn),本文對(duì)比了對(duì)于隨機(jī)生成的一組數(shù)據(jù),在預(yù)先指定混合高斯聚類中心個(gè)數(shù)與采用狄利克雷過程確定混合高斯聚類中心個(gè)數(shù)后的聚類情況,如圖3所示。
(a) 聚類中心個(gè)數(shù)設(shè)置為5的GMM聚類效果
(b) 基于DP-GMM的自動(dòng)聚類效果 圖3 GMM與DP-GMM對(duì)同一組數(shù)據(jù)的聚類效果對(duì)比
可以看出,圖3(b)中聚類個(gè)數(shù)為4,相對(duì)圖3(a)中設(shè)定聚類個(gè)數(shù)為5的效果更為合理。因此,利用狄利克雷過程的非參數(shù)貝葉斯模型對(duì)聚類個(gè)數(shù)估計(jì)能夠減少因聚類數(shù)錯(cuò)誤而對(duì)后續(xù)計(jì)算帶來較大的誤差與影響。
1.3 基于DP-GMM的導(dǎo)引注意區(qū)域提取算法
通過大量的樣本圖像對(duì)式(2)的P(x, vc|o)建立DP-GMM模型。對(duì)于一幅新待檢測(cè)圖像,依賴學(xué)習(xí)得到的高斯模型以及提取到的整幅圖像的SIFT特征點(diǎn),得到圖像中對(duì)該目標(biāo)關(guān)注的中心,也即x,實(shí)現(xiàn)對(duì)圖像中目標(biāo)區(qū)域的預(yù)注意。詳細(xì)算法描述如表2所示。
從概率模型的計(jì)算結(jié)果得到了行人目標(biāo)在圖像中的位置概率分布,因此,將目標(biāo)的位置分布作為一種自上而下的任務(wù)導(dǎo)引特征。任務(wù)導(dǎo)引圖保持與原始圖像相同的拓?fù)浣Y(jié)構(gòu),其中每一個(gè)像素點(diǎn)的像素值與目標(biāo)在該點(diǎn)出現(xiàn)的概率成正比。關(guān)注區(qū)域中具有較大概率值的位置,其顯著值也相應(yīng)的較高。而對(duì)于注意關(guān)注區(qū)域之外的其他區(qū)域,顯著值均設(shè)置為一個(gè)極小值,如10-6。
2.1 候選區(qū)域提取
基于概率模型得到了行人目標(biāo)在圖像中位置的概率分布,完成了視覺選擇性注意的第一步——空間搜索。進(jìn)一步地,為了找到各個(gè)目標(biāo)的具體位置,需要在關(guān)注區(qū)域中,通過特征匹配找到目標(biāo)候選區(qū)域。針對(duì)行人目標(biāo),本文主要選擇膚色和豎直方向作為行人的兩種本體特征,將特征計(jì)算的結(jié)果作為特征圖。其中豎直方向特征的計(jì)算通過原始圖像的灰度圖與二維Gabor卷積核得到,此處不再贅述。
表2 基于DP-GMM的預(yù)注意關(guān)注區(qū)域提取算法
膚色的計(jì)算公式主要基于文獻(xiàn)[12]中給出的膚色高斯分布型概率計(jì)算公式
(6)
由于r′+g′+b′=1,因而式中的向量c采用r′,g′和b′中的任意兩個(gè)分量均可計(jì)算得到結(jié)果。將c,μ,∑的值分別代入式(6)中,即可得到像素點(diǎn)P的膚色似然性SL(P)公式
(7)
考慮人類視覺系統(tǒng)感受野中的中心-外周機(jī)制,Rodieck于1965年提出了同心圓拮抗式(Homocentric Opponent)感受野的數(shù)學(xué)模型[13],如圖4所示。它由一個(gè)興奮作用強(qiáng)的中心機(jī)制和一個(gè)作用較弱但面積更大的抑制性周邊機(jī)制構(gòu)成。這兩個(gè)具有相互拮抗作用的機(jī)制,都具有高斯分布的特性,但中心機(jī)制具有更高的峰敏感度,而且彼此方向相反,兩者為相減關(guān)系,通常稱為高斯差分(Difference of Gaussian,DoG)模型。
圖4 同心圓拮抗式感受野的數(shù)學(xué)模型[13]
因此,本文綜合顯著性的直觀感受與感受野的特性,采用如下基于高斯尺度空間的顯著特征圖計(jì)算公式:
F(c,s)=|F(c)ΘF(s)|
(8)
式中,F(xiàn)(c)與F(s)分別表示中心(Center)與外周(Surrounding)尺度下的特征圖;外周尺度比中心尺度大,通過對(duì)中心尺度做進(jìn)一步的采樣得到,因此,外周尺度下的圖像是中心尺度下圖像結(jié)構(gòu)的簡(jiǎn)化。F(c,s)表示作差后的結(jié)果,體現(xiàn)中心外周尺度圖像之間的差異大小,模擬“中心-外周”競(jìng)爭(zhēng);式中符號(hào)“Θ”表示不同尺度圖像之間的一種做差運(yùn)算,通過將插值后的外周尺度圖像與中心尺度圖像的像素點(diǎn)之間進(jìn)行一一對(duì)應(yīng)作差而實(shí)現(xiàn)。在此基礎(chǔ)上,歸一化運(yùn)算不同特征分量的特征圖,并在不同的尺度間合并,得到各個(gè)特征分量的顯著圖,最后通過線性相加運(yùn)算得到最終的顯著圖。本文共有6對(duì)尺度圖像進(jìn)行了作差運(yùn)算:其中中心尺度c={2,3,4},環(huán)繞尺度δ={3,4},s=c+δ。
根據(jù)人的一般比例布局與分布,且考慮到行人皮膚裸漏的位置主要在臉部,因此,假設(shè)所有顯著區(qū)域位于人的臉部,確定候選區(qū)域目標(biāo)的大致包圍盒(bounding box)。
2.2 候選區(qū)域驗(yàn)證與目標(biāo)檢測(cè)
方向梯度直方圖(histogram of oriented gradient, HOG)是由Dalal在2005年提出,在SIFT特征的基礎(chǔ)之上發(fā)展起來的用于描述物體形狀的一種特征,最初即用于行人檢測(cè)[14]。局部二值模式(local binary pattern, LBP)通過比較圖像像素點(diǎn)之間的灰度值差異,有效描述物體紋理。兩者在行人檢測(cè)領(lǐng)域均應(yīng)用廣泛[15]。本文在候選區(qū)域的驗(yàn)證主要通過這兩類特征,并引入積分圖思想[16],構(gòu)建積分IHOG-LBP特征即IHOG-LBP特征,最后采用三級(jí)級(jí)聯(lián)SVM分類器對(duì)檢測(cè)區(qū)域進(jìn)行分級(jí)檢測(cè)。若三級(jí)分類檢測(cè)均通過,則標(biāo)記為行人目標(biāo)。由于HOG、積分圖思想和LBP特征都比較常見,本文只對(duì)特征計(jì)算過程中參數(shù)的設(shè)置和個(gè)別重要的公式加以說明。
本文HOG特征的計(jì)算細(xì)胞單元分別設(shè)置為32×32,16×16,8×8個(gè)像素大小;每2×2個(gè)細(xì)胞單元組成一個(gè)方塊。為了消弱陰影、光照以及邊緣變化給特征向量帶來的影響,采用下式
(9)
歸一化區(qū)間塊內(nèi)的HOG特征向量。式中L是特征向量,‖L‖k是它的k范數(shù),k=1,2,…, ε是一個(gè)無窮小的正數(shù)常量,為了防止歸一化時(shí)出現(xiàn)分母為零的情況。在HOG特征的提取過程中,由于方塊之間的重疊造成大量的重復(fù)計(jì)算,因此,我們引入積分圖思想,對(duì)各個(gè)區(qū)域HOG特征計(jì)算采用積分圖累加的方式,以提高算法效率。積分圖方法是加速特征計(jì)算的一種有效方式,以類似數(shù)學(xué)中積分的方式,圖像中的每一個(gè)像素點(diǎn)存儲(chǔ)以原點(diǎn)為矩形左上角點(diǎn),該點(diǎn)為右下角點(diǎn)的矩形區(qū)域所有像素點(diǎn)的特征值,以便在對(duì)圖像只進(jìn)行一次遍歷的情況下完成對(duì)圖像中所有像素點(diǎn)的特征值計(jì)算,從而提高算法運(yùn)行效率。此外,考慮到后續(xù)分類中使用級(jí)聯(lián)SVM分類器中需多次提取不同大小細(xì)胞單元的HOG特征,采用積分的HOG特征(簡(jiǎn)稱為IHOG特征)后,只需對(duì)該細(xì)胞單元的四個(gè)頂點(diǎn)進(jìn)行簡(jiǎn)單的加減運(yùn)算即可得到該單元的HOG特征,而不需要重新累加細(xì)胞單元內(nèi)各個(gè)像素點(diǎn)的特征值。
本文LBP特征計(jì)算選用等價(jià)模式LBP。采用等價(jià)模式主要是為了在不丟失任何信息的條件下,減少二進(jìn)制模式的種類[17]。
將目標(biāo)位置概率圖作為任務(wù)導(dǎo)引圖調(diào)制自下而上的顯著性注意圖,并將調(diào)制結(jié)果得到的顯著區(qū)域作為集中注意的目標(biāo)區(qū)域,并選擇合適的候選區(qū)域,通過提取候選區(qū)域的IHOG-LBP特征,得到目標(biāo)分類檢測(cè)的結(jié)果。圖5描述了該方法對(duì)一幅圖像具體的檢測(cè)流程。
從圖5中可以看出,基于SIFT概率模型計(jì)算的位置概率作為任務(wù)導(dǎo)引特征可以有效地調(diào)制基于目標(biāo)顯著性計(jì)算的結(jié)果。場(chǎng)景中的背景墻部分由于具有與膚色較為近似的顏色特征,單純通過顯著性注意圖容易將其作為候選區(qū)域而有可能發(fā)生錯(cuò)檢且浪費(fèi)時(shí)間,而通過任務(wù)導(dǎo)引圖的調(diào)制能夠有效地得到原始圖像中行人所在的集中注意區(qū)域。進(jìn)而,通過基于IHOG-LBP特征對(duì)候選區(qū)域進(jìn)行驗(yàn)證,得到了理想的目標(biāo)檢測(cè)結(jié)果。其中,4號(hào)候選區(qū)域中由于行人臉部未能完整覆蓋,因此該區(qū)域被認(rèn)為沒有覆蓋目標(biāo)。
圖5 實(shí)例化行人目標(biāo)檢測(cè)流程
實(shí)驗(yàn)分成兩個(gè)部分,第一部分將對(duì)基于DP-GMM改進(jìn)的圖像預(yù)注意區(qū)域提取結(jié)果與文獻(xiàn)[7]中基于混合高斯模型的提取效果進(jìn)行比對(duì),第二部分將對(duì)行人目標(biāo)檢測(cè)的結(jié)果與傳統(tǒng)的目標(biāo)檢測(cè)方法相比較。實(shí)驗(yàn)所采用的數(shù)據(jù)庫(kù)主要是復(fù)旦大學(xué)-賓夕法尼亞大學(xué)行人數(shù)據(jù)庫(kù)和校園實(shí)拍圖像。當(dāng)CoverRate大于50%時(shí),檢測(cè)結(jié)果視為正確。考慮到圖像中存在相互之間有遮擋或部分重疊的多個(gè)行人,在基于顯著性計(jì)算結(jié)果生成候選區(qū)域時(shí),容易造成一個(gè)候選區(qū)域覆蓋多個(gè)行人目標(biāo),因此,在檢測(cè)過程中,當(dāng)一個(gè)外圍框包含有多個(gè)行人時(shí),可作為多次檢測(cè)的結(jié)果,但外圍框的個(gè)數(shù)不能少于顯著性計(jì)算得到的顯著區(qū)域個(gè)數(shù)。此外,當(dāng)一個(gè)行人有多個(gè)外圍框包圍時(shí),只有一個(gè)結(jié)果被認(rèn)為正確,其他所有結(jié)果都列為誤檢結(jié)果。圖6所示為復(fù)旦大學(xué)-賓夕法尼亞大學(xué)行人數(shù)據(jù)庫(kù)部分圖像示例。
實(shí)驗(yàn)1:基于DP-GMM改進(jìn)的預(yù)注意區(qū)域提取較文獻(xiàn)[7]中給出模型,其主要改進(jìn)的地方體現(xiàn)在采用了Dirichlet過程(DP)對(duì)聚類個(gè)數(shù)進(jìn)行估計(jì),此外將方向特征改成了SIFT特征作為圖像的觀測(cè)數(shù)據(jù)。
圖6 復(fù)旦大學(xué)-賓夕法尼亞大學(xué)行人數(shù)據(jù)庫(kù)部分圖像示例
實(shí)驗(yàn)中采用表2中給出的算法,將不同拍攝距離下得到的圖像一起訓(xùn)練,220幅圖像用于訓(xùn)練得到DP-GMM模型,剩余的92幅圖像用于測(cè)試。部分圖像基于GMM和DP-GMM對(duì)部分圖像的預(yù)注意區(qū)域的提取效果如圖7所示,其中估計(jì)得到M=10。
從圖7中可以看出,對(duì)于偏近距離拍攝的圖片(如圖7左邊的圖像),預(yù)注意區(qū)域提取效果比較接近,都能較好地覆蓋行人的范圍,且關(guān)注的區(qū)域與人眼直觀觀測(cè)較為符合。但在圖7右邊所示的近距離拍攝圖片中,文獻(xiàn)[7]得到的預(yù)注意區(qū)域僅能覆蓋圖像中位于中心區(qū)域附近的兩個(gè)行人目標(biāo),而本文模型能夠覆蓋圖像中所有的行人目標(biāo),更好地捕捉面向行人的關(guān)注區(qū)域。
(a) 文獻(xiàn)[7]中方法得到的關(guān)注區(qū)域
(b) 本文算法得到的關(guān)注區(qū)域 圖7 預(yù)注意區(qū)域提取效果比較
為了反映在整個(gè)圖像數(shù)據(jù)庫(kù)中面向行人目標(biāo)的關(guān)注區(qū)域提取效果,本文通過準(zhǔn)確率(Precision)-召回率(Recall)曲線即PR曲線來進(jìn)行描述。由于任務(wù)導(dǎo)引圖中每一個(gè)像素點(diǎn)的像素值即為目標(biāo)在該點(diǎn)出現(xiàn)的概率,因此調(diào)節(jié)目標(biāo)似然的概率閾值,并且根據(jù)該閾值對(duì)圖像進(jìn)行二值化,可以得到不同的關(guān)注區(qū)域的大小。對(duì)于整個(gè)數(shù)據(jù)庫(kù)而言,隨著閾值的改變,可以得到反映算法魯棒特性的PR曲線。在上述數(shù)據(jù)庫(kù)中,兩種方法得到的PR曲線如圖8所示,從圖中我們可以比較得出,采用DP對(duì)GMM進(jìn)行改進(jìn),并采用SIFT特征明顯優(yōu)于文獻(xiàn)[7]基于GMM和方向特征的方法。
實(shí)驗(yàn)2:行人目標(biāo)檢測(cè)是當(dāng)前目標(biāo)檢測(cè)領(lǐng)域研究較多的一類問題,但是大多數(shù)方法都是采用基于圖像處理的方法,即從目標(biāo)的底層特征分析著眼來解決問題,比較有名的有聯(lián)合局部與全局特征的方法(combination of local and global,CLG)[18]以及基于霍夫變換(Hough transform,HT)投票(Voting)[19]的方法,這兩類方法代表了概率計(jì)算框架下以像素級(jí)特征為底層元素和以圖像子塊(Patch)為底層元素的行人檢測(cè)最為經(jīng)典的方法,具有典型的代表性,因此,本文主要與這兩種方法進(jìn)行比較。
圖8 衡量本文方法與文獻(xiàn)[7]的行人目標(biāo)關(guān)注區(qū)域 提取效果的PR曲線
實(shí)驗(yàn)過程中采用與本節(jié)實(shí)驗(yàn)1中同樣的方式調(diào)整概率閾值,得到的PR曲線如圖9所示。從PR曲線中可以看出,在召回率小于0.3時(shí),本文方法的精度介于CLG與HT之間,略遜于CLG。當(dāng)召回率大于0.3時(shí),該方法較之CLG和HT均有優(yōu)勢(shì)。這說明在概率閾值較小的情況下,綜合考慮基于像素級(jí)的全局與局部特征更有利于行人目標(biāo)檢測(cè),但隨著概率閾值的增大,本文方法采用SIFT特征生成的概率導(dǎo)引圖更為魯棒,且綜合顯著特征與層級(jí)篩選機(jī)制,能更好地檢測(cè)到行人目標(biāo),且算法復(fù)雜性低于CLG方法。
圖9 衡量傳統(tǒng)方法與本文方法檢測(cè)效果的PR曲線
針對(duì)任意距離拍攝場(chǎng)景中的行人目標(biāo)檢測(cè),本文模擬人眼任務(wù)導(dǎo)引視覺注意機(jī)制的空間搜索與特征匹配實(shí)現(xiàn)過程,采用基于Dirichlet改進(jìn)的SIFT混合高斯概率模型計(jì)算圖像中每個(gè)像素點(diǎn)的目標(biāo)似然概率作為空間搜索的啟發(fā)式信息,調(diào)制基于目標(biāo)本體顯著特征計(jì)算結(jié)果,在圖像數(shù)據(jù)庫(kù)與實(shí)拍圖像中均取得了較為優(yōu)良的檢測(cè)精度。本文方法適用于任意距離拍攝的場(chǎng)景圖片,且具有較好的魯棒性。但顯著性的檢測(cè)依賴于行人目標(biāo)的特性是豎直且有部分皮膚的裸漏。
然而,本文方法也存在一定的局限性,主要表現(xiàn)在考慮到算法的快速性要求時(shí),候選區(qū)域驗(yàn)證時(shí)采用的檢測(cè)窗口大小恒定,忽略了尺度因素的影響。此外,傳統(tǒng)的基于圖像處理的行人目標(biāo)檢測(cè)方法也在不斷地改進(jìn)與更新,同時(shí)也采用了各種方式與方法來加速檢測(cè)過程,本文作為對(duì)基于生物啟發(fā)式視覺注意機(jī)制的模型化計(jì)算理論研究與應(yīng)用研究,仍然需要在快速注意機(jī)制上尋求更好的工程化建模方法。
[1] Major Research plan of National Natural Science Foundation of China: cognitive computing of visual and auditory information[Online], available: http:// ccvai.xjtu.edu.cn/ mes.do? method=getoverview: xjtu, 2015
[2] Yantis S. To See is to attend.Science, 2003, 299(5603):54-56
[3] Fecteau J H, Bell A H, Munoz D P. Neural correlates of the automatic and goal-driven biases in orienting spatial attention.JournalofNeurophysiology, 2004, 92(3): 1728-1737
[4] Corbetta M. Frontoparietal cortical networks for directing attention and the eye to visual locations: identical, independent, or overlapping neural systems?ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica(PNAS). 1998, 95(3):831-838
[5] Findlay J M, Gilchrist I D. Visual Attention: The Active Vision Perspective. Vision and attention, New York: Springer, 2000. 83-103
[6] Yarbus A L. Eye Movements and Vision. New York: Plenum Press,1967
[7] Torralba A, Oliva A, Castelhano M S. Contextual guidance of eye movements and attention in real-world scenes: the role of global features in object search.PsychologicalReview, 2006. 113(4): 766-786
[8] Lowe D G. Distinctive image features from scale-invariant keypoints.InternationalJournalofComputerVision, 2004. 60(2): 91-110
[9] Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the em algorithm.JournaloftheRoyalStatisticalSociety, Series B (Methodological). 1977, 39(1): 1-38
[10] Ferguson T S. A bayesian analysis of some nonparametric problems.TheAnnalsofStatistics, 1973. 1(2): 209-230
[11] Ishwaran H, James L F. Gibbs sampling methods for stick-breaking priors.JournaloftheAmericanStatisticalAssociation, 2001, 96(453): 161-173
[12] Walther D. Interactions of Visual Attention and Object Recognition:Computational Modeling, Algorithms, and Psychophysics:[Ph.D dissertation]. Pasadena, California: California Institute of Technology, 2006
[13] Rodieck R W. Quantitative analysis of cat retinal ganglion cell response to visual stimuli.VisionResearch, 1965. 5(12): 583-601
[14] Dala l N, TriggsB. Histograms of oriented gradients for human detection. In: Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), San Diego, USA, 2005. 886-893
[15] Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: an evaluation of the state of the art.IEEETransactionsOnPatternAnalysisandMachineIntelligence, 2012, 34(4):743-761
[16] Viola P, Jones M. Rapid object detection using a boosted cascade of simple features. In: Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), Kauai, USA, 2001. 511-518
[17] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns.IEEETransactionsOnPatternAnalysisandMachineIntelligence, 2002, 24(7): 971-987
[18] Leibe B, Seemann E, Schiele B. Pedestrian detection in crowded scenes. In: Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), San Diego, USA, 2005. 878-885
[19] Barinova O, Lempitsky V, KohliP. On detection of multiple object instances using Hough transforms.IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012, 34(9): 1773-1784
Pedestrian detection by combining guided probability map and saliency features
Liu Qiong
(Department of Automation, Beijing Information Science and Technology University, Beijing 100192)
The pedestrian detection mechanism characterized by Abstract mimicking human visual attention and using the guided probability map as the top-down information to mediate the bottom-up information based on saliency features was studied. Firstly, the guided probability map was built based on the Gaussian Mixture Model (GMM) to extract the scale-invariant feature transform (SIFT) features of similar scene images, and the expectation maximization (EM) algorithm and the Dirichlet Processing (DP) were used to estimate the parameters of the GMM automatically. Then, to a new image, the likelihood probability of every pixel was computed by the obtained GMM so as to form the top-down information. Meanwhile, the center-surround mechanism was mimicked to compute the multiscale skin feature and the vertical direction feature to from the bottom-up information of the pedestrian’s saliency feature. Finally, through combining the two-way information, the candidate target areas were obtained, and the integral histogram of oriented gradients and local binary pattern (IHOG-LBP) features of the candidate areas were extracted and then inputted to the cascade support vector machine (SVM) classifier to verify and obtain the pedestrian detection result. The results of the experiment based on the Penn-Fudan pedestrian database and realistic images show that the proposed probability map can improve the prediction detection and the whole detection algorithm outperforms other traditional object detection methods.
visual attention (VA), guided probability map, saliency feature, pedestrian detection (PD)
10.3772/j.issn.1002-0470.2016.05.006
①北京市教委2014年度科研面上基金(KM201411232008)和北京信息科技大學(xué)2016年度大學(xué)生科技創(chuàng)新資助項(xiàng)目。
2016-03-23)
②女,1984年生,博士,講師;研究方向:模式識(shí)別,認(rèn)知計(jì)算;聯(lián)系人,E-mail: liuqionglq@126.com