史東承, 衡瑤瑤
(長(zhǎng)春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 吉林 長(zhǎng)春 130012)
隨著人類(lèi)社會(huì)的穩(wěn)步發(fā)展,計(jì)算機(jī)視覺(jué)領(lǐng)域的蒸蒸日上,人體行為識(shí)別技術(shù)也慢慢深入到我們生活的方方面面,人類(lèi)的衣食住行已離不開(kāi)科技產(chǎn)品的輔助。人體行為識(shí)別技術(shù)的發(fā)展對(duì)社會(huì)公共設(shè)施提供了便利,例如養(yǎng)老院、醫(yī)院、警察局等處處體現(xiàn)了該技術(shù)的重要性。人體行為識(shí)別主要研究特征提取和分類(lèi)識(shí)別兩個(gè)方面。近年來(lái),研究者們已經(jīng)提取出了解決特征提取識(shí)別率低的方法。在特征提取研究中主要是根據(jù)圖像的紋理、梯度、形狀等特征提出了許多特征描述子,主要包括局部二值模式(Local Binary Patterns, LBP)、方向梯度直方圖(Histogram of Oriented Gradient, HOG)、尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)以及傅里葉描述子(Fourier Descriptor, FD)等。
圖像形狀的特征方法:
1)區(qū)域的形狀特征提取,如Hu不變矩[1]分別提取訓(xùn)練樣本和測(cè)試樣本的HOG和加權(quán)Hu矩自適應(yīng)融合參數(shù)將兩者融合后,進(jìn)行模板匹配達(dá)到識(shí)別的效果對(duì)噪聲干擾有很好的魯棒性。
2)邊界的形狀特征提取,如HOG[2]是對(duì)織物疵點(diǎn)的檢測(cè),通過(guò)疵點(diǎn)的灰度和紋理特征用HOG提取的紋理特征,超像素分割提取灰度特征,用低秩分解融合特征來(lái)檢測(cè)疵點(diǎn)。和傅里葉變換[3]將人體姿勢(shì)的二維輪廓進(jìn)行傅里葉變換生成傅里葉描述子結(jié)合SVM進(jìn)行姿勢(shì)識(shí)別,其他方法,如小波[4]使用離散小波紋理特征獲得均勻完整局部二值模式變換特征提取技術(shù)產(chǎn)生了最好的分類(lèi)精度。
在分類(lèi)識(shí)別研究方面主要有K最近鄰(K Nearest Neighbor, KNN)、隱馬爾可夫模型(Hidden Markov Model, HMM)、支持向量機(jī)(Support Vector Machine, SVM)等方法。文獻(xiàn)[5]證明了KNN分類(lèi)器的性能顯著地提高了在給定數(shù)據(jù)集中成對(duì)比較特征時(shí)基于訓(xùn)練類(lèi)組統(tǒng)計(jì)的兩個(gè)標(biāo)準(zhǔn)的使用。文獻(xiàn)[6]提出了一種交互的嵌入式隱馬爾可夫模型框架的自動(dòng)檢測(cè)和分類(lèi)人類(lèi)個(gè)體行為和群體互動(dòng)。文獻(xiàn)[7]提出了一種結(jié)合測(cè)地線(xiàn)圖和支持向量機(jī)(SVM)的人工關(guān)節(jié)估計(jì)算法。文獻(xiàn)[8]提出一種基于隱馬爾可夫模型和支持向量機(jī)混合模型的音頻分類(lèi)方法,用于語(yǔ)音、音樂(lè)、語(yǔ)音+音樂(lè)、靜音四類(lèi)音頻分類(lèi)??紤]到提取特征復(fù)雜度和識(shí)別率,文中提出了基于改進(jìn)后的HOG特征+FD特征融合的方法表征圖像的特征+SVM完成分類(lèi)識(shí)別。該方法首先分別提取出人體行為數(shù)據(jù)庫(kù)中每幀圖像的HOG特征和FD特征,然后用PCA對(duì)HOG特征降維,將降維后的HOG特征改進(jìn)與FD特征融合放入SVM中訓(xùn)練識(shí)別。實(shí)驗(yàn)表明,文中算法在人體行為識(shí)別中識(shí)別率可達(dá)到86%以上。
文中算法大概流程有三部分:目標(biāo)檢測(cè)、特征融合、分類(lèi)識(shí)別。人體行為數(shù)據(jù)庫(kù)為小段視頻,首先用背景差分法將視頻幀中的前景目標(biāo)提取出來(lái)保存成圖片格式,然后對(duì)圖片進(jìn)行預(yù)處理獲取人體的輪廓形狀,將人體形狀作為輸入提取圖像的HOG+FD的融合特征,最后進(jìn)入SVM分類(lèi)識(shí)別。
人體行為識(shí)別算法流程如圖1所示。
圖1 人體行為識(shí)別算法流程
背景差分法實(shí)際上就是根據(jù)視頻序列的圖像構(gòu)建一個(gè)背景模板,后面的圖像與其做減法的方法。文中采用中值背景建模的方法,選視頻幀的前15幀來(lái)作為背景建模,然后從16幀開(kāi)始與背景圖形做差分運(yùn)算,選擇出合適的閾值對(duì)差分圖像作二值化。得到的目標(biāo)圖像做邊緣檢測(cè)得到目標(biāo)輪廓。
KTH數(shù)據(jù)庫(kù)中提取的輪廓圖如圖2所示。
圖2 KTH數(shù)據(jù)庫(kù)中提取的輪廓圖
FD描述全局特征的矩陣,表示圖像輪廓形狀的特征,將處理后的圖像輪廓曲線(xiàn)用坐標(biāo)點(diǎn)構(gòu)建成一維序列后,對(duì)其進(jìn)行一維的傅里葉變換,從而獲得可以描述輪廓信息的一系列傅里葉系數(shù)。其能量主要集中于少數(shù)幾個(gè)低頻傅里葉系數(shù),因此少數(shù)系數(shù)就可以描繪該序列特征。人體行為輪廓通過(guò)上面方法已經(jīng)得到,取輪廓任一點(diǎn)(x0,y0)開(kāi)始,沿著圖像輪廓逆時(shí)針?lè)较蚯斑M(jìn),輪廓上的點(diǎn)表示為(x0,y0),(x1,y1),(x2,y2),…,(xn,yn),構(gòu)成一條封閉輪廓曲線(xiàn),在X-Y坐標(biāo)平面看成一個(gè)復(fù)平面,則可以看成一列一維的復(fù)數(shù)序列cn,即cn=xn+jyn(n=1,2,…,n-1)。接下來(lái)對(duì)該離散序列做傅里葉變換。輪廓的傅里葉描述子見(jiàn)下式:
(1)
HOG是描述局部特征的算法。它提取圖像特征的方式是計(jì)算圖像局部區(qū)域的梯度和方向,然后進(jìn)行統(tǒng)計(jì)得到。在一幅圖像中,圖形局部的邊緣或梯度的方向密度分布能夠很好地描述圖像的形狀。對(duì)圖像進(jìn)行HOG特征提取的步驟如下:
1)標(biāo)準(zhǔn)化。輸入提取輪廓后的圖像,將像素點(diǎn)灰度值通過(guò)伽馬校正歸一化[0,1]范圍。
2)計(jì)算每個(gè)像素的梯度。采用[-1,0,1]的梯度算子來(lái)計(jì)算圖像的水平和垂直的梯度。
3)圖像分割為單元格。把整個(gè)圖像分割為一個(gè)一個(gè)的Cell單元格(16*16像素)。
4)單元格構(gòu)建梯度直方圖。將圖像分成若干的Cell單元格(16*16像素),把0°~360°分成9個(gè)bin作為梯度的方向,對(duì)cell內(nèi)每個(gè)像素用梯度方向在直方圖中進(jìn)行加權(quán)投影,就可以得到這個(gè)cell的梯度方向直方圖了,即對(duì)應(yīng)9維特征向量。
5)Block塊內(nèi)梯度直方圖。把各個(gè)細(xì)胞單元組合成大的、空間上連通的區(qū)間(blocks)。這樣,一個(gè)block內(nèi)所有cell的特征向量串聯(lián)起來(lái)便得到該block的HOG特征。
6)收集特征。將圖像中的所有Block特征描述子收集起來(lái)就是整張圖像的特征描述子。
KTH人體行為數(shù)據(jù)庫(kù)中跑步動(dòng)作的梯度方向直方圖如圖3所示。
圖3 KTH人體行為數(shù)據(jù)庫(kù)中跑步動(dòng)作的梯度方向直方圖
主成分分析(Principal Component Analysis, PCA),通常是用來(lái)為高維特征降維。PCA的步驟為:
1)文中將圖像的尺寸歸一化為120*90大小的圖片,用HOG提取圖像特征后得到30*24維的特征描述子;
2)通過(guò)協(xié)方差公式[9]可以得到24*24維的HOG的協(xié)方差矩陣,得到特征向量和特征根;
3)根據(jù)貢獻(xiàn)量從大到小排列得到新的矩陣,將每張圖像降維到576維。
FD是一個(gè)基于全局提取特征描述子的算法,HOG是一個(gè)基于局部提取特征描述子的算法,將兩個(gè)算法中的改進(jìn)部分相融合,可以有效地提高人體行為識(shí)別的識(shí)別率。傅里葉變換可以將能量集中在極少的幾個(gè)低頻系數(shù)上,即用少數(shù)的幾個(gè)特征描述子就可以很好地保證序列幀的特征。經(jīng)過(guò)多次試驗(yàn)結(jié)果證明,在KTH數(shù)據(jù)庫(kù)中采用6維的FD可以集合SVM,達(dá)到80.33%的識(shí)別率。HOG特征經(jīng)過(guò)PCA降維后得到576維的特征描述子,根據(jù)PCA的原理特征,矩陣的特征值是由大到小排列的,根據(jù)其貢獻(xiàn)量大小排列。文中算法選取其貢獻(xiàn)量的90%來(lái)識(shí)別效果最好,可以達(dá)到83.33%的識(shí)別率。文中的算法是將兩個(gè)特征級(jí)聯(lián)融合生成一個(gè)新的特征矩陣。
SVM是可以用在很多領(lǐng)域的判別方法。它是一種監(jiān)督的學(xué)習(xí)模型,在模式識(shí)別、分類(lèi)和回歸的研究上扮演著重要的角色。SVM方法是通過(guò)一個(gè)非線(xiàn)性映射,把樣本空間映射到一個(gè)高維乃至無(wú)窮維的特征空間中,非線(xiàn)性可分問(wèn)題轉(zhuǎn)換到線(xiàn)性可分問(wèn)題。其實(shí)就是將輸入變量全部映射的一個(gè)高維空間,在構(gòu)造出最優(yōu)分類(lèi)超平面用作分類(lèi)識(shí)別。分類(lèi)函數(shù)為:
f(x)=wTx+b
(2)
其中,w是與空間維數(shù)有關(guān)的,對(duì)于樣本點(diǎn)(xi,yi),樣本點(diǎn)到分類(lèi)超平面的距離為yi(wTxi+b),對(duì)w和b進(jìn)行歸一化,用w/‖w‖和b/‖w‖分別代替w和b,即幾何間隔為f(x)/‖w‖,求最大幾何間隔為等價(jià)于:
(3)
式(3)為線(xiàn)性分類(lèi)情況,非線(xiàn)性分類(lèi)按照式(3)進(jìn)行分類(lèi)可能會(huì)降低準(zhǔn)確率,因此,加入松弛變量和懲罰因子,則非線(xiàn)性的分類(lèi)如下:
(4)
另
w=a1x1y1+a2x2y2+…+anxnyn
其中,n為總樣本數(shù),則最優(yōu)分類(lèi)超平面的求取為:
(5)
即轉(zhuǎn)換成求內(nèi)積[10]。
文中實(shí)驗(yàn)是在Matlab的仿真環(huán)境下完成的,采用KTH和Weizmann人體行為庫(kù)來(lái)驗(yàn)證文中算法的有效性。從KTH數(shù)據(jù)庫(kù)中選出6個(gè)動(dòng)作類(lèi),包括拳擊、鼓掌、畫(huà)圈、慢跑、散步、跑步。在Weizmann 庫(kù)中也選出6個(gè)動(dòng)作類(lèi),包括跳起鼓掌、跳躍、單腿跳、跑步、散步、快速雙腿跳。在數(shù)據(jù)庫(kù)的每類(lèi)動(dòng)作中隨機(jī)抽取60張圖像,其中50張作為訓(xùn)練集,剩下的10張作為測(cè)試集。
首先,將數(shù)據(jù)庫(kù)中選取的圖像目標(biāo)檢測(cè)后得到特征提取算法的輸入圖像,處理過(guò)后的示例如圖4所示。
圖4 KTH目標(biāo)檢測(cè)后的示例圖
完成第一步后,把結(jié)果作為輸入分別提取出每張圖像的FD和HOG,HOG特征描述子用PCA降維后按照其貢獻(xiàn)率大小來(lái)排列,故選取其90%能量的描述子與FD級(jí)聯(lián),然后將生成的新的描述子放入SVM中進(jìn)行訓(xùn)練。訓(xùn)練時(shí)依次把一個(gè)動(dòng)作類(lèi)別的全部樣本歸為一個(gè)動(dòng)作類(lèi),把其他動(dòng)作類(lèi)的樣本歸為另外一類(lèi),文中兩個(gè)庫(kù)中選用的6個(gè)動(dòng)作類(lèi)就可以構(gòu)造出6個(gè)不同SVM。有了各自的分類(lèi)器后,就可以進(jìn)行最后的分類(lèi)。將文中算法與提取單個(gè)特征的算法相比,識(shí)別率占明顯優(yōu)勢(shì)。不同算法基于KTH、Weizmann數(shù)據(jù)集的識(shí)別率的比較見(jiàn)表1。
表1 不同算法基于KTH、Weizmann數(shù)據(jù)集的識(shí)別率的比較
綜上所述,文中將全局特征與局部特征相融合的算法用在人體行為識(shí)別中。通過(guò)對(duì)提取的HOG特征描述子降維與FD想融合構(gòu)造一個(gè)全新的特征矩陣,彌補(bǔ)了單獨(dú)采用全局描述子或局部描述子的缺陷,有效地提高了分類(lèi)器的識(shí)別率,在KTH和Weizmann數(shù)據(jù)集的試驗(yàn)中,文中算法得到了證實(shí),識(shí)別率最高,可達(dá)到91.66%。
[1] 梁琛華,常青,胡謀法.基于加權(quán)Hu矩和HOG特征的自適應(yīng)融合人體行為識(shí)別新方法[J].現(xiàn)代電子技術(shù),2014(1):14-18.
[2] 劉洲峰,閆磊,李春雷,等.基于特征融合與低秩分解的織物疵點(diǎn)檢測(cè)[J].棉紡織技術(shù),2017(10):1-4.
[3] 崔廣才,竇鳳平,王春才,等.基于傅里葉與局部特征結(jié)合的人體姿態(tài)識(shí)別方法研究[J].長(zhǎng)春理工大學(xué)學(xué)報(bào):自然科學(xué)版,2016(1):82-87.
[4] Yadav A R, Anand R S, Dewal M L, et al. Multiresolution local binary pattern variants based texture feature extraction techniques for efficient classification of microscopic images of hardwood species[J]. Applied Soft Computing,2015,32(C):101-112.
[5] Bhattacharya G, Ghosh K, Chowdhury A S. Granger causality driven AHP for feature weighted kNN[J]. Pattern Recognition,2017,66:425-436.
[6] Liu C D, Chung Y N, Chung P C. Anintteraction-embedded HMM framework for human behavior understanding: with nursing environments as examples[M]. [s.n.]: IEEE Press,2010.
[7] Kim H, Lee S, Kim Y, et al. Weighted joint-based human behavior recognition algorithm using only depth informayion for low-cost intelligent video-surveillance system[J]. Expert Systems WithI Applications an International Journal,2016,45(C):131-141.
[8] 史東承,韓玲艷,于明會(huì).基于HMM/SVM的音頻自動(dòng)分類(lèi)[J].長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2008,29(2):178-182.
[9] Kim J M, Chung K, Kang M. Continuous gesture recognition using HLAC and low-dimensional space[J]. Wireless Personal Communications,2015,86(1):1-16.
[10] Cervantes J, García Lamont F, López-Chau A, et al. Data selection based on decision tree for SVM classification on large data sets[J]. Applied Soft Computing,2015,37(C):787-798.