摘 要: 針對HOG在強(qiáng)噪條件下以及加權(quán)Hu矩在弱噪條件下識別性能較差的情況,通過最小二乘擬合估計(jì)加權(quán)系數(shù)與噪聲參數(shù)之間的映射關(guān)系,自適應(yīng)調(diào)整融合參數(shù)達(dá)到將加權(quán)Hu矩和HOG特征融合的目的。實(shí)驗(yàn)證明,基于加權(quán)Hu矩和HOG的特征識別對噪聲的容忍度更好,適用范圍更廣,識別率更穩(wěn)定。
關(guān)鍵詞: 加權(quán)Hu矩; 噪聲估計(jì); 自適應(yīng)融合; 加權(quán)系數(shù)
中圖分類號: TN911.73?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2014)01?0014?05
0 引 言
近年來,隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,人體行為識別逐漸成為研究的熱點(diǎn)。如何有效地從圖像序列中獲得人體行為特征成為了研究的關(guān)鍵。其中,HOG和Hu矩是十分常見的兩種特征提取方法,然而針對場景中的噪聲變化,這兩種方法的適應(yīng)范圍較小,識別率變化較大。因此,本文中將重點(diǎn)討論兩種特征的融合算法,以達(dá)到對噪聲容忍度好,適用范圍大的目的。
1 特征提取算法
1.1 方向梯度直方圖描述子(HOG)
HOG(Histogram of Oriented Gradient)算法通過計(jì)算局部區(qū)域上的梯度方向直方圖來構(gòu)成人體特征,能夠很好地描述圖像局部區(qū)域外觀和形狀,HOG是在Cell和Block的網(wǎng)格內(nèi)進(jìn)行計(jì)算的,Cell由若干像素點(diǎn)構(gòu)成,Block由若干相鄰的Cell構(gòu)成,HOG算子提取的流程如圖1所示。
圖1 HOG特征提取流程圖
本文中進(jìn)行HOG特征提取時(shí),輸入圖像大小為64×80,Cell大小為8×8,Block大小為16×16,Block的步進(jìn)為8個(gè)像素,梯度方向?qū)?60°分為9個(gè)區(qū)間。
為了驗(yàn)證HOG特征的性能,分別采集200幀揮手、彎腰、走路以及展腹跳的幀圖像,其中每種動(dòng)作的100幀(共400幀)作為訓(xùn)練樣本,每種動(dòng)作的余下100幀(共400幀)作為測試樣本,見表1。
分別提取訓(xùn)練樣本和測試樣本的HOG特征提取算子,以euclidean距離作為判別準(zhǔn)則進(jìn)行模板的匹配。此外,為了驗(yàn)證算法在噪聲情況下的魯棒性,對測試樣本進(jìn)行了加噪處理(高斯噪聲方差0.01,椒鹽噪聲密度0.02),識別率見表2。
從表2可知,HOG特征提取算子對未加噪聲的圖像識別率很高,但是若測試樣本存在強(qiáng)噪聲時(shí),則識別性能大幅度下降。因此,依靠單一的HOG特征提取算子進(jìn)行人體行為的識別,性能較差。
表1 四種人體行為圖像
表2 HOG特征識別率 %
[\揮手\彎腰\展腹跳\走路\識別率\原始圖像\100\97\99\98\98\加噪后\83\65\57\55\65\]
1.2 加權(quán)Hu矩描述子
Hu M.K.在文獻(xiàn)[1]中利用代數(shù)不變矩理論構(gòu)造出7個(gè)不變矩,這種不變矩在平移、約束縮放、旋轉(zhuǎn)下保持不變,但對圖像細(xì)節(jié)信息的表征有限,不具備非約束縮放不變性且識別率較低。因此,本文中提出一種加權(quán)Hu矩算子,具體流程如圖2所示。
圖2 加權(quán)Hu矩特征提取流程圖
首先,為了獲得更多的圖像細(xì)節(jié)信息,將傳統(tǒng)Hu矩進(jìn)行擴(kuò)展,并且對擴(kuò)展Hu矩進(jìn)行修正,使得圖像在縮放的條件下,依然保持不變性。然而,在進(jìn)行特征提取時(shí),傳統(tǒng)的判別準(zhǔn)則認(rèn)為不同Hu矩對行為判別的貢獻(xiàn)值是一致的,而實(shí)際情況往往不是這樣。因此,應(yīng)充分考慮不同Hu矩的貢獻(xiàn)值,構(gòu)造一個(gè)Hu加權(quán)矩。本文采用對9個(gè)擴(kuò)展Hu修正矩進(jìn)行線性規(guī)劃,找到每個(gè)Hu修正矩的最優(yōu)加權(quán)值,進(jìn)而構(gòu)造一個(gè)Hu加權(quán)修正矩。
設(shè)構(gòu)造成的新的加權(quán)修正矩為:
[Φ=σ1Φ″1+σ2Φ″2+...+σ9Φ″9, i=19σi=1, 0<σi<1]
為了獲得最優(yōu)解,擬采用方差加權(quán)矩最小作為判定準(zhǔn)則,即:
[V(Φ)=σ21V(Φ″1)+σ22V(Φ″2)+...+σ29(Φ″9)]
達(dá)到最小時(shí)[σ]的值作為求得的權(quán)值,加權(quán)Hu矩的具體求解過程在文獻(xiàn)[2]中有詳細(xì)介紹。
為了驗(yàn)證加權(quán)Hu矩的性能,分別采集200幀揮手、彎腰、走路以及展腹跳的幀圖像,其中每種動(dòng)作的100幀作為訓(xùn)練樣本,每種動(dòng)作的余下100幀作為測試樣本。并將識別結(jié)果與原始Hu矩和擴(kuò)展Hu矩的識別性能進(jìn)行比較,見表3。此外,為了驗(yàn)證加權(quán)Hu矩在噪聲情況下的魯棒性,對測試樣本進(jìn)行了加噪處理(高斯噪聲方差0.01,椒鹽噪聲密度0.02),識別率見表4。
表3 不同Hu矩的性能比較 %
[\揮手\彎腰\展腹跳\走路\識別率\原始Hu矩\80\73\70\77\75\擴(kuò)展Hu矩\83\79\77\81\80\加權(quán)Hu矩\90\83\80\87\85\]
表4 加權(quán)Hu矩識別率 %
[\揮手\彎腰\展腹跳\走路\識別率\原始圖像\90\83\80\87\85\加噪后\83\75\73\81\78\]
由表3,表4可知,與原始Hu矩和擴(kuò)展Hu矩相比,加權(quán)Hu矩的識別性能有了一定的提升。與HOG相比,雖然對于原始測試樣本的識別率不如HOG特征的識別率好,但加權(quán)Hu矩的噪聲容忍度較好。
2 加權(quán)Hu矩和HOG的特征融合
通過上一節(jié)的實(shí)驗(yàn)結(jié)果可知,HOG特征對于原始的測試樣本的識別率很高,要優(yōu)于加權(quán)Hu矩的識別性能。然而,當(dāng)圖像中有強(qiáng)噪聲時(shí),加權(quán)Hu矩的識別率依然保持在較好的水平,而HOG性能急劇下降。因此,如何選取合適的方法將兩種特征融合在一起顯得十分的必要。
加權(quán)Hu矩和HOG特征融合流程圖如圖3所示。
圖3 加權(quán)Hu矩和HOG特征融合流程圖
由圖3可知,首先提取訓(xùn)練樣本的噪聲參數(shù),然后提取訓(xùn)練樣本圖像的HOG特征和加權(quán)Hu矩特征,再選用適當(dāng)?shù)娜诤纤惴ㄟM(jìn)行特征的融合,從而得到訓(xùn)練樣本的特征向量;對于測試樣本,采用與訓(xùn)練樣本相同的步驟,提取出測試樣本的特征向量。最后,將測試樣本與訓(xùn)練樣本集進(jìn)行模板匹配,從而得到匹配結(jié)果。整個(gè)流程的關(guān)鍵步驟在于特征融合算法的確立。
提取的HOG的特征向量[T1=[x1,x2,…,x36],]加權(quán)Hu矩的特征向量為[T2=[y]],為了實(shí)現(xiàn)特征的融合,將找到合適的[α]和[β,]使得融合后的新特征向量滿足:
[T=αT1+βT2,α+β=1]
其中[α]與[β]分別為HOG和加權(quán)Hu矩的加權(quán)系數(shù)。
圖像中的噪聲以高斯噪聲和椒鹽噪聲的形式存在。其中,高斯噪聲的強(qiáng)度[IG]可由均值[m]和方差[v]表示,椒鹽噪聲的強(qiáng)度[IJ]可由噪聲密度[d]表示,我們可將高斯噪聲的均值附加到圖像的均值上。因此,對于一幅獲取的圖像,它的噪聲參數(shù)依賴于[(v,d),]下面通過噪聲參數(shù)來估計(jì)HOG和加權(quán)Hu矩的融合加權(quán)系數(shù)[α]和[β。]因?yàn)镠OG提取的特征為36維向量,加權(quán)Hu矩為一維向量,因此:
[α=P1P1+36P2∝(v,d), β=36P2P1+36P2∝(v,d)]
式中:[P1]和[P2]為HOG和加權(quán)Hu矩的識別率。
因此,如何根據(jù)噪聲參數(shù) [(v,d)] 獲得[α]和[β]是需要解決的關(guān)鍵問題,將在下文中詳細(xì)闡述。
3 加權(quán)系數(shù)[α]和[β]的確立
從上文已知[α]和[β]的表達(dá)式,針對特定幀,[P1+36P2=C,]因此可認(rèn)為:
[α∝P1∝(v,d), β∝P2∝(v,d)]
下面將根據(jù)不同的噪聲參數(shù)進(jìn)行一系列仿真獲得加權(quán)系數(shù)與噪聲參數(shù)的映射關(guān)系。
3.1 [α]與噪聲參數(shù)的映射關(guān)系
因?yàn)楦咚乖肼晱?qiáng)度[IG]與椒鹽噪聲強(qiáng)度[IJ]相互獨(dú)立,因此可單獨(dú)討論[α]與噪聲參數(shù)[v,d]之間的關(guān)系。首先固定椒鹽噪聲的噪聲密度[d,]改變高斯噪聲的方差[v,]觀察[α]的變化。接著固定高斯噪聲的方差[v,]觀察[α]的變化,實(shí)驗(yàn)結(jié)果見表5,表6。
考慮到加噪的隨機(jī)性,為了減少單次測量帶來的識別率的偏差,對于每一種高斯噪聲方差和椒鹽噪聲密度,各采取50次實(shí)驗(yàn),結(jié)果取均值作為該噪聲方差以及噪聲強(qiáng)度下的識別率。下面,采用最小二乘法擬合獲得映射關(guān)系。為了衡量不同階數(shù)的擬合性能,在此引入AIC信息準(zhǔn)則,該準(zhǔn)則建立在熵的概念之上,可以權(quán)衡所估計(jì)模型的復(fù)雜度和模型擬合數(shù)據(jù)的優(yōu)良性,優(yōu)先考慮AIC值最小的模型,AIC的表達(dá)式如下:
[AIC=log(VN)+2kN]
如果[k?N,][AIC=logVN+1+2kN。]其中[V]為剩余平方和,剩余值即擬合值與實(shí)際值的差,[k]為估計(jì)的參數(shù)的數(shù)量,[N]為觀察數(shù)。采用最小二乘法擬合時(shí),階數(shù)太高會(huì)增加運(yùn)算的復(fù)雜度,而且會(huì)出現(xiàn)過擬合,因此一般考慮5階以下的情況。
表5 高斯噪聲對[α]的影響
[\高斯噪聲方差\椒鹽噪聲強(qiáng)度\[α]\HOG\0.000 1\0.02\0.030 5\0.001\0.02\0.028 7\0.01\0.02\0.022 6\0.05\0.02\0.009 8\]
表6 椒鹽噪聲對[α]的影響
[\高斯噪聲方差\椒鹽噪聲強(qiáng)度\[α]\HOG\0.01\0.005\0.029 4\0.01\0.01\0.028 3\0.01\0.02\0.022 6\0.01\0.05\0.018 9\]
采用不同階次擬合時(shí)的AIC值見表7,表8。
表7 高斯噪聲改變時(shí)不同階次擬合的AIC值
[擬合階數(shù)\1\2\3\4\5\AIC值\3.475 1\1.544 5\0.01\0.01\0.01\]
表8 椒鹽噪聲改變時(shí)不同階次擬合的AIC值
[擬合階數(shù)\1\2\3\4\5\AIC值\3.309 9\0.665 1\0.01\0.01\0.01\]
從AIC值可知,三階擬合的性能與三階以上的擬合性能基本相同,但遠(yuǎn)優(yōu)于一階和二階的擬合性能,考慮到模型的復(fù)雜度以及性能的優(yōu)良性,選取三階進(jìn)行數(shù)據(jù)的擬合。擬合曲線如圖4,圖5所示。
圖4 [α]隨著高斯噪聲方差變化的不同階次擬合曲線
從圖中可以看出,三階擬合數(shù)據(jù)與原始數(shù)據(jù)的重合度已經(jīng)較好。因此可得,在椒鹽噪聲的噪聲密度不變的情況下,[α]與高斯噪聲的映射關(guān)系式為:
[α=-2.712 1×103v3+172.612 6 v2-2.269 2v+0.030 8]
在高斯噪聲方差不變的情況下,[α]與椒鹽噪聲的噪聲密度的映射關(guān)系式為:
[α=753.718 1d3-49.191 1d2-0.379 8d+0.028 7]
通過固定高斯噪聲的方差或者椒鹽噪聲的噪聲密度分別求得了[α]與[(v,d)]的映射關(guān)系,可知在[(v,d)] 同時(shí)改變的情況下,[α]的表達(dá)式為:
[α=a1v+a2v2+a3v3+b1d+b2d2+b3d3+c]
通過多元線性回歸,得到:
[α=0.036 7-2.175 0v+161.642 8v2-2.530 2×103v3-0.398 3d-50.166 7d2+766.666 7d3]
圖5 α隨著椒鹽噪聲強(qiáng)度變化的不同階次擬合曲線
3.2 [β]與噪聲參數(shù)的映射關(guān)系
在對[β]進(jìn)行討論時(shí),采用與[α]相同的方法進(jìn)行映射關(guān)系的估計(jì)。
首先首先固定椒鹽噪聲的噪聲密度[d,]改變高斯噪聲的方差[v,]觀察[β]的變化,接著固定高斯噪聲的方差[v,]改變椒鹽噪聲的密度[d,]觀察[β]的變化,實(shí)驗(yàn)結(jié)果見表9,表10。
表9 高斯噪聲對[β]的影響
[\高斯噪聲方差\椒鹽噪聲強(qiáng)度\[β]\加權(quán)Hu矩\0.000 1\0.02\0.969 5\0.001\0.02\0.971 3\0.01\0.02\0.977 4\0.05\0.02\0.990 2\]
其中,為了減小加噪的隨機(jī)性帶來的識別率的偏差,對于每一種高斯噪聲方差椒鹽噪聲密度,各采取50次實(shí)驗(yàn),結(jié)果取均值作為該噪聲方差下的識別率。
采用不同階次擬合時(shí),AIC值見表11,表12。
通過AIC值可知,三階擬合為最優(yōu)估計(jì),圖6,圖7為不同階次的最小二乘擬合曲線。
從圖中可以看出,三階擬合數(shù)據(jù)與原始數(shù)據(jù)的重合度已經(jīng)較好。因此可得,在椒鹽噪聲的噪聲密度不變的情況下,[β]與高斯噪聲的映射關(guān)系為:
[β=2.712 1×103v3-172.612 6v2-2.269 2v+0.969 2]
表10 椒鹽噪聲對[β]的影響
[\高斯噪聲方差\椒鹽噪聲強(qiáng)度\[β]\加權(quán)Hu矩\0.01\0.005\0.970 6\0.01\0.01\0.971 7\0.01\0.02\0.977 4\0.01\0.05\0.981 1\]
表11 高斯噪聲改變時(shí)不同階次擬合的AIC值
[擬合階數(shù)\1\2\3\4\5\AIC值\0.447 1\0.311 3\0.01\0.01\0.01\]
表12 椒鹽噪聲改變時(shí)不同階次擬合的AIC值
[擬合階數(shù)\1\2\3\4\5\AIC值\0.529 0\0.475 1\0.01\0.01\0.01\]
圖6 [β]隨著高斯噪聲方差變化的不同階次擬合曲線
圖7 [β]隨著椒鹽噪聲密度變化的不同階次擬合曲線
在高斯噪聲方差不變的情況下,[β]與椒鹽噪聲的映射關(guān)系為:
[β=-753.718 1d3+49.191 1d2-0.379 8d+0.971 3]
通過固定高斯噪聲的方差或者椒鹽噪聲的噪聲密度分別求得了[β]與[(v,d)]的映射關(guān)系,可知在[(v,d)]同時(shí)改變的情況下,[β]的表達(dá)式為:
[β=a1v+a2v2+a3v3+b1d+b2d2+b3d3+c]
通過多元線性回歸,得到:
[β=0.963 3+2.175 0v-161.642 8v2+2.530 2×103v3-0.398 3d+50.166 7d2-766.666 7d3]
所以,在提取了圖像的噪聲參數(shù)[(v,d)]后,根據(jù)加權(quán)系數(shù)和噪聲參數(shù)的映射關(guān)系確定[α]和[β]的值。
4 實(shí)驗(yàn)仿真
由上文可知,對于給定噪聲參數(shù)[(v,d),]可以確定HOG與加權(quán)Hu矩的加權(quán)參數(shù)[α和β,]從而能夠確定兩種特征的融合方式。通過特征提取,HOG的特征向量[T1=[x1,x2,…,x36]],加權(quán)Hu矩的特征向量為[T2=[y]],為了減小融合時(shí)的誤差,在融合前要分別對[T1]和[T2]進(jìn)行歸一化處理,使得所有特征值規(guī)范到[[0,1]],融合后的特征變?yōu)椋?/p>
[T=αT1+βT2=α(x1,x2,…,x36)+βy]
在進(jìn)行模板匹配時(shí),采用euclidean距離作為判別準(zhǔn)則,判別式如下:
[d=αi=136(x′i-xi)2+β(y′i-yi)2]
為了驗(yàn)證算法的性能,采用不同的噪聲參數(shù)[(v,d)]進(jìn)行驗(yàn)證,識別結(jié)果見表13。
通過仿真結(jié)果可知,基于HOG和加權(quán)Hu矩特征融合的識別與單一采用HOG特征以及加權(quán)Hu矩的識別率相比,在弱噪聲的條件下,其識別率與單一HOG特征識別率接近,而優(yōu)于加權(quán)Hu矩的識別率;在強(qiáng)噪聲條件下,其識別率與加權(quán)Hu矩的識別率接近,而優(yōu)于HOG的識別率。
表13 基于加權(quán)Hu矩和HOG特征的自適應(yīng)融合方法的識別率
[\高斯噪聲方差\椒鹽噪聲強(qiáng)度\識別率 /%\HOG
+
加權(quán)Hu矩\0.01\0.005\95\0.000 1\0.02\92\0.01\0.01\85\0.001\0.02\84\0.01\0.02\76\0.05\0.02\70\0.01\0.05\63\]
5 結(jié) 語
本文首先通過對傳統(tǒng)Hu矩特征進(jìn)行擴(kuò)展、修正以及加權(quán)等方法的處理,構(gòu)造出加權(quán)Hu矩。接著,通過最小二乘擬合獲得HOG與加權(quán)Hu矩的特征融合加權(quán)系數(shù)[α]和[β,]最后采用euclidean距離作為判別準(zhǔn)則進(jìn)行模板的匹配?;诩訖?quán)Hu矩和HOG的自適應(yīng)特征融合方法,可以根據(jù)場景的噪聲情況自適應(yīng)地調(diào)整特征融合的參數(shù),與單一的HOG或者加權(quán)Hu矩的識別方法相比,適用范圍更廣,識別率更穩(wěn)定,能夠在某些特定場景下有效地實(shí)現(xiàn)某些人體行為的識別。
參考文獻(xiàn)
[1] HU M K. Visual pattern recognition by moment invariants [J]. IRE Transactions on Information Theory, 1962, 8(2): 179?187.
[2] LIANG Chen?hua, CHANG Qing. Weighted modified Hu moment in human behavior recognition[C]// Advanced Information and Computer Technology in Engineering and Manufacturing, Environmental Engineering. Xiamen: AMSMT, 2013: 2194?2198.
[3] BLANK Moshe, GORELICK Lena, SHECHTMAN Eli, et al. Actions as space?time shapes [C]// Proceedings of 2005 10th IEEE International Conference on Computer Vision. Beijing: ICCV, 2005, 2: 1395?1402.
[4] 王天樹,鄭南寧,徐迎慶,等.人體運(yùn)動(dòng)非監(jiān)督聚類分析[J].軟件學(xué)報(bào),2003,14(2):209?214.
[5] HARITAOGLU I, HARWOOD D, DAVIS L. W4:real?time surveillance of people and their activities [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 809?830.
[6] RIBEIRO P C, SANTOS?VICTOR J. Human activities recognition from video: modeling, feature selection and classification architecture [C]// Proceeding of Workshop on Human Activity Recognition and Modeling. Oxford, UK: HAREM, 2005: 61?70.
[7] ANDRADE E L, FISHER R B. Simulation of crowd problems for computer vision [C]// Proceeding of the 1st International Workshop on Crowd Simulation. Utrecht, Netherlands: V?CROWDS, 2005: 71?80.
[8] DALAL N, TRIGGS B, SCHMID C. Human detection using oriented histograms of flow and appearance[C]// Proceedings of the 9th European conference on Computer Vision. Graz, Austria: ECCV, 2006, 2: 428?441.
[9] 凌志剛,趙春暉,梁彥,等.基于視覺的人體行為理解綜述[J].計(jì)算機(jī)應(yīng)用研究,2008,25(9):2570?2571.
[10] SAAD A, MUBARAKL S. COCOA: tracking in aerial imagery [J]. Proceedings of SPIE Airborne Intelligence, Surveillance, Reconnaissance (ISR) Systems and Applications. Orlando: ISR, 2006: 1?4.