張博
(大唯機(jī)電安裝工程(蘇州)有限公司,江蘇蘇州,215000)
人體姿態(tài)行為識別是機(jī)器視覺領(lǐng)域重要的研究方向,在智能家居、醫(yī)療、安保、和體育運(yùn)動等領(lǐng)域有著廣泛的應(yīng)用前景[1]。人體姿態(tài)識別通常是利用經(jīng)過預(yù)處理的運(yùn)動視頻片斷或包含人體動作的圖像進(jìn)行識別。蘇超[2]提出首先通過高斯濾波去除圖像中的高斯噪聲,然后結(jié)合注意機(jī)制的目標(biāo)檢測算法檢測目標(biāo)學(xué)生在圖像中的位置。然后,通過改進(jìn)的openpose模型從檢測到的圖像中提取人體骨骼關(guān)節(jié)點的坐標(biāo),最后利用st-支持向量機(jī)分類器對得到的關(guān)節(jié)坐標(biāo)進(jìn)行分類,從而快速準(zhǔn)確地識別學(xué)習(xí)者的行為狀態(tài)。郭天曉等[3]首先建立簡化的人體骨架模型,利用人體姿態(tài)估計技術(shù)提取骨架模型中各關(guān)節(jié)點的坐標(biāo)信息;其次,采用人體中心投影法提取動作特征區(qū)域,消除人體整體位移對動作識別的影響;最后,以特征區(qū)域編碼作為特征向量,輸入多分類器進(jìn)行動作識別。同時,通過優(yōu)化特征向量的長度來優(yōu)化識別率和識別速度。王萌萌[4]提出了提出了一種基于時空網(wǎng)絡(luò)的行為分類算法模型。將傳統(tǒng)的圖卷積網(wǎng)絡(luò)應(yīng)用于人的行為識別,引入時間卷積進(jìn)行深度學(xué)習(xí)的行為分析。Rijun Liao等人[5]提出一種新的模型PoseGait,利用卷積神經(jīng)網(wǎng)絡(luò)從圖像中估計出的人體三維姿態(tài)作為步態(tài)識別的輸入特征,同時從三維姿態(tài)中設(shè)計時空特征來提高識別率。Hanguen Kim等人[6]提出了僅使用深度信息的人體姿態(tài)估計和手勢識別算法,該算法是通過比較輸入關(guān)鍵幀和注冊手勢的關(guān)鍵幀來實現(xiàn)的,產(chǎn)生最小比較誤差的手勢被選擇為識別手勢,因此不需要事先了解人體模型。
實驗流程框架如圖1所示。
圖1 流程框架圖
(1)人體姿態(tài)庫的采集。人體姿態(tài)庫決定著訓(xùn)練模型的優(yōu)劣,對于實驗結(jié)果至關(guān)重要,本文選取HMDB51運(yùn)動數(shù)據(jù)庫中四類人體姿態(tài)視頻 :跑(run)、揮手(wave)、倒立(handstand)和跳(jump),將視頻按幀讀取然后調(diào)整大小為120*180的圖片。在得到的所有圖片中選出包含人體完整輪廓且人體姿態(tài)特征清晰明顯的1500張圖片作為最終的訓(xùn)練樣本,將不同種類的人體姿態(tài)分別保存在文件夾中,建立標(biāo)簽供后面支持向量機(jī)訓(xùn)練用。
(2)圖像前置處理。圖像前置處理部分主要包括對于人體姿態(tài)ROI的提取和歸一化兩部分。
1)人體姿態(tài)ROI的提取。首先對圖像進(jìn)行灰度化,單通道圖像能夠減少計算量便于特征提取,選取伽馬系數(shù)為0.5,進(jìn)行伽馬校正處理,削弱光強(qiáng)和顏色等對于后期HOG特征提取的干擾。然后對灰度化后的圖像進(jìn)行中值濾波,高斯濾波操作用以消除椒鹽噪聲和高斯噪聲,降低訓(xùn)練樣本中噪音對于結(jié)果的影響。
降噪以后對于圖像進(jìn)行二值化,閾值分割采用的最大類間方差作為選取閾值的方法,能夠很好的將人體姿態(tài)輪廓從圖片中提取出來,因為人與周圍環(huán)境像素值具有較大差異,提取輪廓后置人體姿態(tài)區(qū)域像素值為255,背景區(qū)域像素值為0。最后對圖像進(jìn)行形態(tài)學(xué)操作,本文采用頂帽操作方式,頂帽操作可以對于圖像中人體姿態(tài)區(qū)域中像素值較低的區(qū)域填充上該像素點周圍8個像素點中像素值最大的部分即像素值置為255,從而使得人體輪廓清晰完整。如圖2是人體姿態(tài)區(qū)域分割結(jié)果。
圖2 人體姿態(tài)與背景分割提取
2)人體運(yùn)動區(qū)域歸一化。首先對形態(tài)學(xué)處理結(jié)果(目標(biāo)人體區(qū)域)進(jìn)行標(biāo)記,統(tǒng)計標(biāo)記區(qū)域的面積分布,對于標(biāo)記區(qū)域的像素值進(jìn)行歸一化處理。
3)HOG特征提取。對于歸一化樣本,對四類樣本中的所有圖像依次分批處理:首先對顏色空間進(jìn)行歸一化,分別計算每個像素在水平方向和垂直方向上的梯度值和角度值,總的梯度值為水平梯度和垂直梯度值的L2范數(shù),然后再將梯度分布直方圖歸一化并且將調(diào)整后尺寸大小為64*128的灰度圖像劃分為8*8像素單元,并對180*128灰度圖像進(jìn)行分割。平均分成9等分,9個方向的梯度直方圖以每個單元為單位計數(shù),2*2個單元構(gòu)成一個交替塊,每個塊具有16*9維特征,每個圖像表示為3780維特征。最后得到梯度方向直方圖特征,并將其送入支持向量機(jī)進(jìn)行訓(xùn)練。
4)支持向量機(jī)分類器的訓(xùn)練。支持向量機(jī)分類器用于對跑步、倒立、揮手和跳躍等數(shù)據(jù)集進(jìn)行分類,但是支持向量機(jī)最早是解決二值分類問題的有效方法,而訓(xùn)練兩種以上的人體姿態(tài)HOG特征數(shù)據(jù)集是一個多類分類問題,因此需要將支持向量機(jī)擴(kuò)展到多類分類問題,即需要利用支持向量機(jī)中的核方法來解決多分類問題。本文采用openCV軟件庫來進(jìn)行訓(xùn)練以實現(xiàn)上述功能。在每次訓(xùn)練中,訓(xùn)練集中的樣本數(shù)應(yīng)至少占總樣本數(shù)的60%,這樣訓(xùn)練后的模型就不會欠擬合,同時將剩余的樣本作為測試集。在確定每個訓(xùn)練集中的樣本數(shù)后,取50次訓(xùn)練后的平均值作為識別率。最后計算了每種類型樣本的平均識別率。
(3)采用支持向量機(jī)分類器對數(shù)據(jù)集中跑步、倒立、揮手和跳躍四類HOG特征數(shù)據(jù)進(jìn)行訓(xùn)練。由于是多分類問題故需要采用核函數(shù)將數(shù)據(jù)集映射到更高維空間中來進(jìn)行分類,該實驗分別采用線性核函數(shù),高斯核函數(shù)以及拉普拉斯核函數(shù)來進(jìn)行試驗。
最終得到實驗結(jié)果如表1,表2,表3所示。
表1 線性核函數(shù)識別率
表2 高斯核函數(shù)識別率
表3 拉普拉斯核函數(shù)識別率
選擇線性核函數(shù)進(jìn)行多次訓(xùn)練后,各類樣本的測試結(jié)果如表1所示,可知當(dāng)線性核函數(shù)被選為支持向量機(jī)的核函數(shù)時,當(dāng)訓(xùn)練樣本數(shù)占樣本總數(shù)的比例相同時,具有跑步和倒立這兩種特征的圖像擁有較高的識別率,揮手和跳躍識別率較低。原因是跑步和倒立的HOG特征和其他特征相比,在支持向量機(jī)映射的高維空間中歐式距離較遠(yuǎn)容易區(qū)分,在訓(xùn)練樣本類型不變的情況下,訓(xùn)練樣本占樣本總數(shù)的比例越高,識別精度越高,預(yù)測效果越好。選擇高斯核函數(shù)進(jìn)行多次訓(xùn)練后,每個樣本的測試結(jié)果如表2所示。可以看出,在選擇高斯核函數(shù)作為支持向量機(jī)的核函數(shù)進(jìn)行實驗時,跑步和倒立得到的實驗結(jié)果依舊好于揮手和跳躍。然而,高斯核函數(shù)對于線性不可分的情況具有很強(qiáng)的魯棒性,因此用高斯核函數(shù)進(jìn)行分類識別的準(zhǔn)確率在4項人體姿態(tài)分類中比用線性核函數(shù)進(jìn)行分類識別的準(zhǔn)確率均要高。采用拉普拉斯核函數(shù)得到的結(jié)果具有和高斯核函數(shù)整體相近的識別準(zhǔn)確率。因此,有必要選擇高斯核函數(shù)作為支持向量機(jī)姿態(tài)識別的核函數(shù),亦可以滿足高識別準(zhǔn)確率的要求,同時,實驗還表明,支持向量機(jī)在處理人體姿態(tài)識別問題上具有識別精度高、簡單快速等優(yōu)點,適合在工業(yè)生產(chǎn)實際中使用。綜合上述實驗結(jié)果,利用HOG特征結(jié)合支持向量機(jī)分類器用于人體姿態(tài)識別是具有可行性的。
針對不同情況下人體姿態(tài)在空間幾何結(jié)構(gòu)上的差異,本文在openCV中編程進(jìn)行試驗,利用梯度方向直方圖表示不同的人體姿態(tài)特征,利用支持向量機(jī)分類器實現(xiàn)對不同人體姿態(tài)的分類識別。最后,還比較了線性核函數(shù)、高斯核函數(shù)和拉普拉斯核函數(shù)應(yīng)用到支持向量機(jī)分類器時對不同人體姿態(tài)分類結(jié)果的影響。實驗結(jié)果表明,將HOG特征與支持向量機(jī)分類器相結(jié)合,可以有效地實現(xiàn)日常人體姿態(tài)的識別,具有良好的識別效果。
利用支持向量機(jī)分類器針對不同的人體姿態(tài)樣本進(jìn)行訓(xùn)練時,可以發(fā)現(xiàn)支持向量機(jī)分類器映射到高維空間中所需的核函數(shù)以及其參數(shù)的不同設(shè)置對人體姿態(tài)識別率有很大影響。當(dāng)支持向量機(jī)分類器訓(xùn)練不同的人體姿態(tài)樣本時,支持向量機(jī)分類器核函數(shù)的選取和核函數(shù)參數(shù)的不同設(shè)置對人體姿態(tài)識別率有很大的影響。同時樣本的數(shù)目與識別的準(zhǔn)確率呈現(xiàn)正相關(guān),收集更多的訓(xùn)練樣本種類和數(shù)目,是得到一個較高準(zhǔn)確率的前提。如何根據(jù)人體姿態(tài)樣本的種類和數(shù)量,選擇合適的核函數(shù)及其參數(shù),目前尚未有合適的基礎(chǔ)研究成果來提供核函數(shù)選取準(zhǔn)則,更多的是依靠試驗方法選取,因此是利用HOG特征和支持向量機(jī)識別日常人體姿態(tài)尚需進(jìn)一步的研究。