李 航,于家祥,殷守林,孫 可
(沈陽(yáng)師范大學(xué) 軟件學(xué)院,沈陽(yáng) 110034)
人體行為識(shí)別技術(shù)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域中被廣泛研究的課題。在現(xiàn)有的方法中,描述對(duì)象特征值的方法大概分為4類(lèi):基于運(yùn)動(dòng)的方法,基于表征的方法,基于時(shí)空體積的方法和基于時(shí)空興趣點(diǎn)的方法。行為識(shí)別方法主要基于機(jī)器學(xué)習(xí)技術(shù),包括KNN、支持向量機(jī)(SVM)、Boosting分類(lèi)、隱馬爾可夫模型[1-2]。顧澤凌等[3]提出了一種用于行為表示的特征集,使用特征集建模行為作為基于示例的空間中從示例到行為圖像的最小距離集。利用模糊邏輯對(duì)人體運(yùn)動(dòng)軌跡進(jìn)行分析,以識(shí)別人體的行為,進(jìn)行異常事件檢測(cè)。董恩康等[4]使用離散HMM[5-6]識(shí)別3名受試者中6種不同網(wǎng)球擊球的圖像序列。張敬轅等[7]提出了一種基于HMM的模型特征集動(dòng)作識(shí)別方法。然而,由于動(dòng)態(tài)場(chǎng)景的復(fù)雜度和不確定性等復(fù)雜環(huán)境場(chǎng)景,如背景、遮擋、運(yùn)動(dòng)物體姿態(tài)和大小的變化,使得行為識(shí)別仍然是一個(gè)挑戰(zhàn)性的問(wèn)題。
本文通過(guò)用戶的動(dòng)作和手勢(shì)來(lái)理解用戶,從而為用戶提供所需服務(wù)。在最大化的提高用戶便捷的同時(shí),對(duì)資源的消耗也大大降低。為了實(shí)現(xiàn)自動(dòng)提取行為,有必要使用一些方法來(lái)自動(dòng)識(shí)別用戶行為,滿足目標(biāo)需求。提出了利用模糊算法從視頻序列中識(shí)別人類(lèi)行為的方法,并在此基礎(chǔ)上提出了一個(gè)能有效識(shí)別輸入圖像序列中的基本行為類(lèi)型的方法,如手寫(xiě)、行走和奔跑。這種算法能夠檢測(cè)人機(jī)交互中手勢(shì)和動(dòng)作,視頻監(jiān)控中的異常事件,分析智能空間中的重要事件等。該算法對(duì)現(xiàn)實(shí)問(wèn)題中的不確定性具有很強(qiáng)的解決能力。算法中定義了模糊規(guī)則,目的是能夠更好的識(shí)別特征。實(shí)現(xiàn)模糊算法的方法是創(chuàng)造一個(gè)模糊C均值(FCM)聚類(lèi)方法。最終結(jié)果在Weizmann公共數(shù)據(jù)集[8]上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果達(dá)到了94.03%的平均識(shí)別準(zhǔn)確率,其性能優(yōu)于基于隱馬爾可夫模型等傳統(tǒng)方法及最新提出的方法。
現(xiàn)實(shí)環(huán)境下的行為識(shí)別具有挑戰(zhàn)性,因?yàn)榇嬖谛袨?、?dòng)作及目標(biāo)位置、方向和速度的不確定因素等,即使是代表相同動(dòng)作類(lèi)的不同主體的行為特征也具有多樣性。同時(shí),同一動(dòng)作類(lèi)別的多個(gè)實(shí)例對(duì)象的行為并不是唯一的。因此,行為特征主體間的差異很大,導(dǎo)致了行為識(shí)別的不確定性和模糊性。
傳統(tǒng)方法結(jié)合了計(jì)算機(jī)視覺(jué)和模糊邏輯來(lái)識(shí)別提取視頻中的動(dòng)作行為。在這一領(lǐng)域,模糊邏輯已經(jīng)成為識(shí)別人類(lèi)行為和處理不確定性的有力工具。Chang等[9]提出了一種基于模糊規(guī)則的電子健康人類(lèi)活動(dòng)識(shí)別算法,該算法的準(zhǔn)確率約為90%。屈娟等[10]提出了基于模糊邏輯的日常生活識(shí)別算法的人類(lèi)活動(dòng),分析結(jié)果具有魯棒性。在岳菊梅[11]的工作中,提出了一個(gè)交互的計(jì)算機(jī)圖形學(xué)方法,其中包含了一組模糊邏輯分析工具和一個(gè)模糊推理模型。利用模糊邏輯方法來(lái)識(shí)別學(xué)生的行為,以評(píng)估在控制課程實(shí)驗(yàn)室的表現(xiàn)。這些方法大多利用復(fù)雜的特征重構(gòu)來(lái)增加模糊邏輯的復(fù)雜性。該方法利用模糊邏輯和簡(jiǎn)化的特征模型,實(shí)現(xiàn)了對(duì)人的行為的特征表述,并在識(shí)別速度上取得了較好的效果。
圖1為所提出算法的識(shí)別模型,分為3個(gè)步驟:1)在訓(xùn)練過(guò)程中,利用模糊邏輯方法檢測(cè)并提取人體輪廓。然后,從提取的輪廓中,對(duì)模型的特征集進(jìn)行計(jì)算,并對(duì)基于模糊邏輯的識(shí)別方法對(duì)輸入特征向量來(lái)進(jìn)行描述。然后通過(guò)聚類(lèi)分析得到模糊系統(tǒng)輸入的模糊隸屬度函數(shù)。2)在測(cè)試階段,首先對(duì)人體檢測(cè),然后跟蹤人體提取輪廓圖像,根據(jù)輪廓圖像計(jì)算輸入形狀特征,并將其用于基于模糊識(shí)別系統(tǒng)的計(jì)算值。3)在提出的模糊系統(tǒng)中,每個(gè)隸屬函數(shù)對(duì)應(yīng)一個(gè)行為模型,每個(gè)輸出度表示當(dāng)前框架中的行為與知識(shí)庫(kù)中訓(xùn)練的行為模型之間的可能性。然后,對(duì)當(dāng)前幀中的行為分類(lèi),并通過(guò)選擇具有高不可預(yù)測(cè)度的條件模型進(jìn)行識(shí)別。
圖1 提出的人體行為識(shí)別模型Fig.1 Proposed human action recognition model
為了獲得輪廓分割,李莉等[12]提出了高斯混合模型(GMM)來(lái)提取前景圖像。然而,簡(jiǎn)單地將GMM前景視為現(xiàn)實(shí)環(huán)境中的人體輪廓是不合理的,因?yàn)樗枰紤]各種因素,包括光線條件、反射、陰影問(wèn)題。為了解決這些問(wèn)題,楊志勇等[13]提出了一種新型模糊邏輯算法。該方法能夠在一定程度上處理上述不確定性;但是,由于分類(lèi)錯(cuò)誤,可能會(huì)導(dǎo)致提取的輪廓有差異。所以,本文提出的行為檢測(cè)方法能夠處理現(xiàn)實(shí)動(dòng)態(tài)環(huán)境中存在的高不確定性問(wèn)題,同時(shí)能有效地提取人體輪廓。通過(guò)使用提出的方法,行為識(shí)別的平均準(zhǔn)確度提高到99.94%,平均錯(cuò)誤分類(lèi)率降低了5.71%。
本文提出的方法是基于運(yùn)動(dòng)速度和外觀形狀在內(nèi)的多特征模型,具有低計(jì)算復(fù)雜度的高效特征集。提取的輪廓圖像如圖2所示,根據(jù)以重心{X(t),Y(t)}為中心的極坐標(biāo)劃分。
圖2 提取的輪廓及切片表示圖Fig.2 Expracted silhouette and slice representation diagram
假設(shè)正在處理第t幀,而第t幀的人體輪廓圖像是由本文基于模糊邏輯算法提取的。利用模糊邏輯算法對(duì)人體行為進(jìn)行分類(lèi),首先需將輸入的多個(gè)偏振參量進(jìn)行模糊化處理,把原始的輸入數(shù)據(jù)以隸屬度形式轉(zhuǎn)化為模糊基,對(duì)于某一個(gè)確定的輸入數(shù)據(jù)可以屬于不同的模糊基,不同的模糊基中也對(duì)應(yīng)著不同的隸屬度,在模糊化的過(guò)程中最重要的環(huán)節(jié)則為隸屬度函數(shù)的選取。通過(guò)大量的對(duì)比實(shí)驗(yàn),隸屬度函數(shù)可以取得人體行為中最佳的識(shí)別效果,其表達(dá)式為
(1)
圖3 隸屬度函數(shù)圖Fig.3 Membership function graph
式中:X為輸入變量;X1為T(mén)型隸屬度函數(shù)的左起始點(diǎn)值;X2、X3分別為函數(shù)區(qū)間的左右拐點(diǎn);X4為函數(shù)的右結(jié)束點(diǎn)。隸屬度函數(shù)如圖3所示。
(2)
在模糊系統(tǒng)中,測(cè)試項(xiàng)包括人體輪廓質(zhì)心在水平方向上的運(yùn)動(dòng)速度(O1)和人體輪廓反轉(zhuǎn)方向上的運(yùn)動(dòng)速度(O2)?;诖?可以描述人體輪廓的運(yùn)動(dòng)速度。頭部輪廓的面積比(O3)是整個(gè)人體輪廓像素計(jì)數(shù)中頭部輪廓像素計(jì)數(shù)的百分比,同樣,右手輪廓的面積比(O4)、右腿輪廓的面積比(O5)、左手輪廓的面積比(O6)、左腿輪廓的面積比(O7)。通過(guò)使用上述變量,般的運(yùn)動(dòng)特性。此外,使用該7維特征集的復(fù)雜性低到足以構(gòu)造計(jì)算效率高的模糊邏輯系統(tǒng),從而獲得合理的識(shí)別精度。這7維特征集都由4個(gè)模糊集表示,分別是非常低、低、中和高。模糊系統(tǒng)的輸出是由高、低2個(gè)模糊集表示的行為可能性。通過(guò)FCM聚類(lèi)得到如圖4所示的模糊隸屬度函數(shù)(MF)。假設(shè),當(dāng)測(cè)量{O1…O7}函數(shù)的時(shí)候,從輪廓圖像上可以看出可能的行為特征(跑步、散步、原地跳躍、跳起、向前跳躍、橫沖直撞、揮舞雙手、跳躍、彎曲、舉手)。測(cè)量和行為之間的映射是通過(guò)模糊規(guī)則實(shí)現(xiàn)的。在算法中規(guī)則大小為191。
可以有效地模擬一般目標(biāo)的移動(dòng)信息和一
每個(gè)行為類(lèi)使用相同的模糊隸屬度函數(shù)(MF)如圖4所示。在函數(shù)中,使用乘積t-范數(shù)來(lái)表示AND邏輯連結(jié)和蘊(yùn)涵運(yùn)算。行為識(shí)別是通過(guò)選擇具有最高識(shí)別強(qiáng)度的最佳候選行為類(lèi)別作為識(shí)別的行為類(lèi)型來(lái)完成的。然而,如果2個(gè)不同的候選行為類(lèi)具有相同的輸出度,則意味著這2個(gè)候選行為類(lèi)具有顯著的高行為相似性,并且在當(dāng)前幀中無(wú)法有效地區(qū)分。將邏輯規(guī)則對(duì)輸入數(shù)據(jù)所對(duì)應(yīng)的的類(lèi)型進(jìn)行判斷,該規(guī)則的邏輯語(yǔ)言描述為:
(3)
其中,j=1,2,…,10,Wij為第j類(lèi)行為的識(shí)別度,MBfij(Xi)為特征參數(shù)Xi對(duì)應(yīng)第j類(lèi)粒子的隸屬度值。
本文在Weizmann人類(lèi)行為數(shù)據(jù)集[14]進(jìn)行實(shí)驗(yàn)。仿真環(huán)境為:Windows 10,Intel Core i7-10750H,Nvidia GeForce,RAM 16GB、Matlab2017a。Weizmann動(dòng)作數(shù)據(jù)集包括5 687幀和10種不同類(lèi)型的行為類(lèi)別:跑步、走路、雙腿原地跳躍、向前跳躍、彎曲、旋轉(zhuǎn)跳躍、側(cè)向跳躍、舉手等。此數(shù)據(jù)集中的視頻序列是用固定攝像機(jī)在簡(jiǎn)單背景環(huán)境下拍攝的。但是,當(dāng)行為類(lèi)別的數(shù)量較大時(shí),它提供了一個(gè)很好的實(shí)驗(yàn)環(huán)境來(lái)研究所提方法的識(shí)別精度。
圖5 Weizmann數(shù)據(jù)集Fig.5 Weizmann dataset
在9個(gè)不同的人身上,每種行為類(lèi)型分別拍攝一次或幾次,總共產(chǎn)生93個(gè)視頻序列。采用了交叉驗(yàn)證方法。在測(cè)試階段,對(duì)提出的模型進(jìn)行逐幀和逐視頻識(shí)別評(píng)估。具體來(lái)說(shuō),逐幀識(shí)別是指對(duì)每一幀執(zhí)行提出的識(shí)別算法,然后獲得每一幀的識(shí)別結(jié)果,而逐幀識(shí)別是指對(duì)整個(gè)視頻序列實(shí)現(xiàn)全局識(shí)別結(jié)果。
表1顯示了使用基于模糊的方法對(duì)Weizmann上的行為類(lèi)進(jìn)行每幀識(shí)別的平均精度的混淆矩陣??梢钥吹?所提出的算法以較高的平均準(zhǔn)確率正確地識(shí)別了大多數(shù)動(dòng)作,包括了最具挑戰(zhàn)性的行為類(lèi)別之一——“原地跳”。其識(shí)別率為99.94%,24.35%的誤分類(lèi)率是由于行為的相似性造成的。
表1 Weizmann人體動(dòng)作數(shù)據(jù)集每幀平均精度的混淆矩陣Table 1 Confusion matrix of average precision per frame in Weizmann human motion data set
表2顯示,在Weizmann數(shù)據(jù)集上,所提出的算法優(yōu)于其他最新方法。與基于特征融合、基于多視圖、基于高階注意力、基于非合作式的算法相比,本文提出的方法的平均每幀準(zhǔn)確率分別提高了8.85%、4.96%、3.74%、1.4%。每個(gè)視頻識(shí)別性能比這4種方法分別提高了12.0%、8.3%、2.43%和0.84%。因此,實(shí)驗(yàn)結(jié)果表明,本文基于模糊規(guī)則的行為識(shí)別具有較好的結(jié)果。
表2 Weizmann數(shù)據(jù)集上與傳統(tǒng)非模糊方法的識(shí)別精度比較Table 2 Comparison of recognition accuracy with different methods
本文提出了一個(gè)高效的模糊邏輯算法用來(lái)識(shí)別人體行為。使用基于模糊邏輯規(guī)則,從輸入的視頻序列和提取的人體輪廓中提取輪廓圖像。然后,根據(jù)提取的特征計(jì)算輸入特征。最后,利用所提出的模糊識(shí)別方法,基于輸入特征集對(duì)人的行為進(jìn)行識(shí)別。在Weizmann人類(lèi)行為數(shù)據(jù)集上進(jìn)行了測(cè)試,與傳統(tǒng)方法相比,本文提出的方法有效提高了識(shí)別效率。
沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年1期