中國空空導(dǎo)彈研究院 劉雷杰
人體動作識別一直以來都是計算機視覺、人工智能領(lǐng)域的熱點研究問題,被廣泛應(yīng)用于人 機交互、行為描述、多媒體應(yīng)用及運動科學(xué)等領(lǐng)域。傳統(tǒng)的人體動作識別方法主要有兩大類,一類是通過讓被跟蹤者穿上帶有可用于跟蹤的傳感器,如加速度計及裝在衣服上的張力傳感器[1]或者是帶有標記的光點信息的衣服[2]等。另一類方法是利用視覺捕捉技術(shù)[3],通過對視頻流信息中的人體特征檢測,分析判斷被跟蹤對象的姿態(tài)動作。此類方法設(shè)備復(fù)雜、計算復(fù)雜度高,難以實時化處理,且識別正確率無法達到較高水平。近年來,微軟推出的Kinect for Windows[4]設(shè)備能提供被跟蹤者的彩色信息、三維深度信息。由于深度信息的補充,使得它本身對于識別人體動作更為準確,處理方法也相對比較比較簡單,非常適合應(yīng)用于實時化處理系統(tǒng)中。
然而由于在實踐中,Kinect所采集的骨架節(jié)點位置信息中存在一些噪聲,如動作識別過程中,肢體末端會產(chǎn)生較多抖動,且在身體部位發(fā)生遮擋時,設(shè)備返回的骨架節(jié)點的三維信息會有較大誤差。因此很有必要在使用骨架跟蹤數(shù)據(jù)之前使用降噪濾波器從數(shù)據(jù)中去除盡可能多的噪聲。
由于光照、采集對象、距離及姿勢等的不確定性,同時由于傳感器本身量化噪聲,及計算引入的舍入效應(yīng)等方面的原因,Kinect所采集骨架節(jié)點的空間三維信息會帶入較多噪音。
為了分析其采集數(shù)據(jù)中噪聲特性,本文通過對揮手動作進行多個序列動作捕捉,每個序列大概50秒(約1500幀數(shù)據(jù)),通過對手臂上幾個簡單節(jié)點的數(shù)據(jù)分析可以知道(如圖1所示)。
Kinect所采集的骨架信息中主要包含兩類噪聲,一類是紅色箭頭所指的孤立的幅值很高的噪聲,而另一類則是綠色的箭頭標示的幅值較小但是頻率相對低很多的周期性噪聲。
圖1 揮手動作下手腕上骨架節(jié)點數(shù)據(jù)的橫向位置信息
針對Kinect采集的骨架信息中孤立的幅值很高的噪聲,本文根據(jù)這一噪聲特性選擇使用自回歸移動平均(ARMA)濾波器[5]。該濾波器是一類通用的線性濾波器。 ARMA濾波器的輸出是當前和前N個輸入的加權(quán)平均值,以及M個先前的濾波器輸出:
式中,ai和bi系數(shù)是濾波參數(shù)。 第一項稱為移動平均(MA)項,第二項稱為自回歸(AR)項。本文通過多次實驗發(fā)現(xiàn),N和M的取值分別是5,5, ?。?.02,0.04,0.06,0.08,0.12),ai取(0.08,0.12,0.14,0.16,0.18),得到的實驗結(jié)果既能有效的去掉由于測量不精確所帶來的孤立的白噪聲,又不影響Kinect的實時捕捉。
而對于Kinect所捕捉的人體骨架信息中的周期性噪聲,采用雙移動平均濾波器(Double Moving Averaging Filter)[6]能有效的去除此類噪聲。雙重移動均值濾波器被用于許多應(yīng)用中,例如股市預(yù)測,當數(shù)據(jù)具有線性趨勢時,它們非常有用。雙移動平均濾波器所使用的基礎(chǔ)數(shù)據(jù)模型是將線性直線擬合到本地輸入數(shù)據(jù),因此與簡單平均濾波器相比,它更適合跟蹤輸入數(shù)據(jù)的變化。假設(shè)是n時刻的輸入數(shù)據(jù)的一階和二階移動平均值:
然后過濾器輸出作為移動平均的一階加上趨勢調(diào)整項給出:
本文取N = 2,第二移動平均值和濾波器輸出由下式給出:
這將導(dǎo)致:
圖2 Kinect采集揮手動作骨架節(jié)點信息信息及濾波結(jié)果
圖3 Kinect采集原始數(shù)據(jù)數(shù)據(jù)及濾波結(jié)果
針對揮手的數(shù)據(jù),以手腕節(jié)點的橫向坐標為例,進行自回歸移動平均(ARMA)濾波及雙移動平均濾波后,得到的結(jié)果如圖2。從圖中可以看出,兩次濾波后不但能有效去除噪聲,而且濾波結(jié)果與原始數(shù)據(jù)只有將近6個點的距離,也就是0.2秒(kinect的幀率為30fps),對于實時性不影響。
以一個簡單的手勢(畫動作)識別為例,對文本所提出的方法進行驗證說明(如圖3所示)。
實驗結(jié)果取得了很好的效果,能有效去除由于Kinect本身測量誤差帶來的孤立的白噪聲及周期性的噪聲,人體動作識別的精確度有較大的提高,且不影響其實時性。
[1]Allen F R,Ambikairajah E, Lovell N H,et al.Classification of a known sequence of motions and postures from accelerometry data using adapted Gaussian mixture models[J].Physiological Measurement,2006,27(10):935.
[2]Mattmann C,Clemens F,Tr?ster G.Sensor for Measuring Strain in Textile[J].Sensors,2008,8(6):3719.
[3]Boyer E,Boyer E,Boyer E.A survey of vision-based methods for action representation,segmentation and recognition[J].Computer Vision& Image Understanding,2011,115(2):224-241.
[4]Zhang Z.Microsoft Kinect Sensor and Its Effect[J].IEEE Multimedia,2012,19(2):4-10.
[5]鄧自立,馬建為,杜洪越.ARMA模型參數(shù)估計的兩段最小二乘法[J].科學(xué)技術(shù)與工程,2002,2(5):3-5.
[6]J·E·科瓦爾科夫斯基,I·安妮洛維奇,J·J·鐘.具有可調(diào)整加權(quán)因數(shù)的指數(shù)加權(quán)移動平均濾波器[P].CN 103997313 B.2017.