葉果,程洪,趙洋
(電子科技大學自動化工程學院,四川成都 611731)
電影中吸煙活動識別
葉果,程洪,趙洋
(電子科技大學自動化工程學院,四川成都 611731)
電影中的活動識別是計算機視覺領(lǐng)域的一個難點問題.傳統(tǒng)識別算法受到電影中鏡頭視角變化、場景變化和光照變化等因素的影響,使得其對于真實場景活動識別的效果較差.針對上述問題,提出一種新穎的基于互信息的組合識別方法.該方法以純貝葉斯互信息最大化構(gòu)造初始框架,針對“吸煙”這類極具代表性的動作,將活動的SIFT信息和STIP信息融合得到最優(yōu)的組合分類器.該方法在電影《咖啡和煙》中進行了測試,實驗結(jié)果表明,該方法具有很好的魯棒性,并且很大程度上提高了抽煙活動的識別率.
電影;吸煙活動識別;純貝葉斯互信息最大化;計算機視覺;模式識別
人活動識別是計算機視覺與模式識別的重要研究領(lǐng)域,具有重要的學術(shù)價值和應用前景.自動活動識別和檢索是數(shù)字媒體中的重要研究內(nèi)容[1-2].傳統(tǒng)的活動識別多集中在受限制環(huán)境中,而真實環(huán)境中的人體活動分析,由于電影、視頻中有人的外形、動作、姿勢變化、鏡頭遠近變化、視角變化、周圍環(huán)境變化的影響,導致人活動識別是一個極具挑戰(zhàn)的問題[1,3].為了減小這些因素的影響,先前人們的工作使用了大量簡化的措施,比如限制鏡頭的運動,采用特定的固定場景,限定視角的變化等.
最近,廣電總局辦公廳發(fā)出《廣電總局辦公廳關(guān)于嚴格控制電影、電視劇中吸煙鏡頭的通知》,通知中指出,鑒于電影和電視劇在社會公眾中的廣泛影響,國家有關(guān)部門、社會各界要求嚴格控制電影和電視劇中吸煙鏡頭的呼聲越來越強烈,電影和電視劇中過多的吸煙鏡頭,不符合我國政府控煙的基本立場,客觀上有誤導吸煙之嫌,容易對社會公眾,特別是對未成年人產(chǎn)生不良影響.為避免電影和電視劇中個別鏡頭誤導社會公眾吸煙,特別是讓未成年人遠離煙草,倡導健康生活方式,培育社會文明,要進一步控制電影和電視劇中的吸煙活動在整個電影長度中的比例.對每年大量的電影、視頻進行抽煙活動長度的人工統(tǒng)計幾乎不可能.如何快速自動地對電影中的吸煙活動進行識別并統(tǒng)計其在整個電影中的比例是解決上述問題的關(guān)鍵.
此外,據(jù)中國疾病預防控制中心統(tǒng)計,從2002—2010年,中國煙民的數(shù)量仍在3億以上,居高不下.吸煙已經(jīng)深深危害了人們的身體健康.自動檢測公共場所以及特定人群的吸煙活動具有重要意義,這將為社會調(diào)查和電子健康評估提供一種便利.
為了解決上述問題,本文提出了一種基于時空興趣點(spatio-temporal interest point,STIP)[4]和尺度不變特征變換(scale invariant feature transform,SIFT)[5]的純貝葉斯互信息最大化組合分類器(naive-Bayesian mutual information maximization, NBMIM)進行吸煙活動識別.這種分類器不僅能識別出“銜煙”這樣的靜態(tài)行為,而且具有很好的魯棒性,該方法很大程度上提高了電影中抽煙活動的正確識別率.
活動識別與分析如今在計算機視覺中是一個很熱門的研究方向,并且已經(jīng)出現(xiàn)了很多解決其中問題的方法.其中一種方法是通過運動軌跡來判斷活動,這需要特定的目標跟蹤[6-7],還有一種是通過身體的輪廓來判斷人的活動,這需要去掉其背景[8].很多新方法都在不斷地被發(fā)掘出來[9-10],現(xiàn)在的分類方法大多是通過局部時空特征來判定,并且使用的特征是形狀和運動信息[11-13].
最近也有與本文相近的一些研究,袁浚菘提出一種純貝葉斯互信息最大化的方法在活動識別方面取得了比較好的效果[14];一種自動提取電影中各種片段的方法最近也被提出[2];Laptev提出了一種基于關(guān)鍵幀的方法在電影的人活動識別中得到了應用[15],并且他在實驗中對于各種活動分類方法在電影中的識別效果進行了比較[1].但是以上這些方法只是對于點煙、吸煙這樣的動態(tài)動作的檢測,卻無法識別“銜煙”這樣的靜態(tài)行為[15],或者只能基于圖片識別“銜煙”這樣的靜態(tài)行為[16].而往往這2種動作會同時交替出現(xiàn)在電影中,現(xiàn)有的方法并不能很好地識別出來,Laptev提出的最新組合算法在對電影的8種常見動作進行分類,其中最好的一類正確識別率為53.3%.目前并沒有一種專門針對于電影中吸煙活動的分類器,而這也是本文的意義所在.
本文的吸煙活動檢測系統(tǒng)包含了2個步驟:訓練和識別,如圖1所示.與傳統(tǒng)的識別方法不同,本文將識別電影中所有的吸煙活動.傳統(tǒng)的方法只關(guān)注點煙、吸煙這樣短暫的動態(tài)動作,但是電影中會存在大量的“銜煙”這樣的靜態(tài)場景,加上電影中經(jīng)常出現(xiàn)鏡頭切換、視角變化、光照變換、其他人活動等多種因素的影響,只使用運動特性識別,其效果較差.本文將同時基于形狀信息STFT和運動信息STIP,使用純貝葉斯互信息最大化組合分類器來進行識別.與添加關(guān)鍵幀的方法[15]相比,本方法不需要大量的人工標注和提取關(guān)鍵幀,而是自動計算每一幀,從而能夠快速自動地檢測和識別吸煙行為.
圖1 識別系統(tǒng)框架Fig.1 The recognition system framework
本文吸煙活動識別算法流程如下:圖1左邊是本文的訓練模塊,首先,提取視頻每一幀的SIFT特征點和視頻段的時空興趣點STIP,然后,從訓練數(shù)據(jù)中生成特征池,這些特征描述符按其活動類別分為“吸煙”活動與“其他”活動,最后基于前述的訓練模塊,進行圖1右子圖的識別.在提取完視頻的特征后,對于測試視頻的吸煙活動的檢測識別,主要分3步來實現(xiàn):1)使用SIFT信息和外形-純貝葉斯互信息最大化分類器(A-NBMIM)對視頻段的每一幀進行分類.如果判斷出視頻段中含1幀以上的吸煙圖片,就將其視頻段保留;否則,認為該視頻段為“其他”類.通過這一步可以降低后續(xù)步驟分類對“其他”活動分類錯誤的概率.2)使用STIP特征信息和運動-純貝葉斯互信息最大化分類器(M-NBMIM)對提取的視頻段進行分類.考慮到在測試樣本的特征點數(shù)過少時進行分類會出現(xiàn)偶然性誤差較大的情況和計算的分數(shù)相同不能判斷的情況,這里點數(shù)少于20個的視頻段將不予以計算,從而在這一步,將會分出“吸煙”、“其他”、“不能判斷”這3類動作.3)針對第2步中出現(xiàn)的“不能判斷”,根據(jù)前面使用SIFT信息和A-NBMIM的分類結(jié)果,統(tǒng)計吸煙幀數(shù)占視頻段的比例,若大于50%,就將這一段視頻定義為“吸煙”,反之定義為“其他”.按照以上算法完成對所有測試樣本的識別并統(tǒng)計出電影中的抽煙活動.
3.1.1 SIFT特征
SIFT特征是圖像的局部不變特征,它非常適合對不同圖像或場景中的同一目標進行匹配,具有很高的魯棒性.它對圖像的光線亮度變化、尺度縮放以及旋轉(zhuǎn)都能保持不變,對視角變化和噪聲的出現(xiàn)也保持一定程度的穩(wěn)定性,適用于海量數(shù)據(jù)庫中進行快速的實時匹配,在目標識別中取得了良好的應用.圖2中上面2幅圖為活動分析中基于視頻幀提取的SIFT點.
圖2 活動識別中的SIFT和STIP點Fig.2 The SIFT and STIP points in action recognition
提取SIFT特征步驟如下[5].
1)檢測潛在興趣點及其尺度:首先建立圖像金字塔,然后利用高斯微分(difference-of-Gaussian,DOG)識別對尺度和方向不變的潛在興趣點.
2)檢測興趣點:對上述產(chǎn)生的潛在興趣點,根據(jù)穩(wěn)定性度量選擇穩(wěn)定的興趣點.
3)賦予興趣點主方向:利用興趣點鄰域像素的梯度方向直方圖計算每個關(guān)鍵點的主方向,使興趣點的描述具有旋轉(zhuǎn)不變性.值得注意的是,一個興趣點可能存在多個主方向,這在實際使用中提高了局部描述器的魯棒性.
4)生成特征點描述矢量:根據(jù)前面得到的興趣點的位置、最優(yōu)尺度以及主方向,將該圖像塊劃分成4×4的子塊,每個子塊量化成8個方向.因此,得到一個128維的局部特征描述器,并將其歸一化成2-范數(shù)為1的矢量,量化后的局部描述器具有亮度不變性.
3.1.2 STIP特征
本文把動作表示成一個時空目標,并且用一個時空興趣點集(STIPs)[4]來描述它.與在二維圖像中用到的SIFT特征不同,STIP特征是對三維視頻中不變特征的擴展.提取完STIP特征之后,可以用以下2類特征來描述它們[1]:梯度直方圖(histogram of oriented gradient,HOG)和光流直方圖(histogram of flow,HOF).其中梯度直方圖是一個72維的矢量,描述的是外形特征;光流直方圖是一個90維的矢量,描述的是局部運動特征.由于STIP特征對于三維視頻來說是局部不變的,所以這種特征對于動作變化相對魯棒,而這種變化往往是由于動作的速度、尺度、光照和衣服等引起的.圖2中下面2幅圖為活動分析中基于視頻序列提取的STIP特征點.
純貝葉斯互信息最大化(naive-Bayesian mutual information maximization,NBMIM)的方法[14]在活動識別方面取得了比較好的效果.在本文系統(tǒng)中將采用此種方法結(jié)合各種特征來形成組合分類器.
本文用時空目標來表現(xiàn)動作,提取視頻序列的STIP特征,用V={It}表示一個視頻序列,其中每一幀It由收集的STIPs構(gòu)成,那么It={di}.然后用Q={di}表示一個視頻段的 STIP,C={1,2,…,c,…,N}代表種類的標記集合.
基于純貝葉斯假設(shè)和每個STIP間相互獨立的假設(shè)可以得到一個視頻段Q與一個特定類別c∈C的互信息為
通過高斯核與最近鄰近似得到其中的似然率如式(2).
因此,對于每一個與c類相關(guān)的STIP,這里調(diào)整其分數(shù)為
最后,本文可以通過計算每一視頻段中STIP或者SIFT點的得分來判斷其屬于哪一類.
本文使用文獻[1,15]中提供的視頻段以及在《風聲》等電影中截取的吸煙片段,這些活動就出現(xiàn)在不同場景,被不同的人表現(xiàn)出來,并且從不同的角度被拍攝記錄.然后分別提取其視頻段的STIP和每一幀的SIFT特征點.
對于“吸煙”活動,采用的《風聲》、《熱血高?!贰ⅰ陡锩贰冯娪爸械奈鼰熎巫鳛橛柧殬颖?,共110個小視頻段.然后提取其STIP點特征,共89 908個點,同時,為避免大量重復的特征帶來的計算浪費,每隔25幀提取其SIFT特征,共37 687個點.
對于“其他”活動,采用《阿甘正傳》、《蝴蝶效應》等電影中的片段,包含站立、坐下、握手、擁抱、坐起、打電話、走出車、接吻等多種主要動作以及其他雜亂動作[1].使用了12個大視頻片段,使提取點數(shù)相接近,以避免訓練樣本不均勻帶來的影響,共提取了86 810個STIP點,以及38 326個SIFT特征點.
對于測試數(shù)據(jù),使用電影《咖啡和煙》中的吸煙片段[15]以及《低俗小說》、《火星任務(wù)》等電影的非吸煙活動片段[1].由于電影《咖啡和煙》按場景與主題分為了11個片段,相當于從11部電影中提取數(shù)據(jù),所以就只在這些數(shù)據(jù)中進行實驗.測試數(shù)據(jù)共84個視頻段,包含42個吸煙樣本和42個其他活動樣本,分別提取其每一幀的SIFT特征點和視頻段的STIP特征.
這些訓練數(shù)據(jù)和測試數(shù)據(jù)使用的電影不相同,所以均沒有主題和背景上的重疊.訓練與測試樣本示例如圖3所示,圖中上2行對應的為“吸煙”動作,下2行對應的為“非吸煙”動作,即“其他”類.詳細視頻數(shù)據(jù)見網(wǎng)址www.uestcrobot.net/smokings.
圖3 實驗中使用的訓練樣本與測試樣本Fig.3 Examples of training samples and testing samples in our experiments
本文實驗中參數(shù)為經(jīng)驗參數(shù)λ=1,σ=2.6,可以達到最優(yōu)的實驗效果,分別使用文獻[4-5]提供的方法來提取STIP特征和SIFT特征.
使用M-NBMIM方法進行分類實驗,其結(jié)果如表1所示.可以看出,只使用STIP特征,系統(tǒng)的識別率并不高.原因在于STIP不包含靜態(tài)外形信息,所以“銜煙”這樣的活動STIP點較少,或者沒有特征點的動作不能判斷,并且會有較多的“其他”類被誤判為“吸煙”類,從而總體識別率不高.
表1 基于M-NBMIM的實驗結(jié)果Table 1 The results based on M-NBMIM
下面將按照本文提出的純貝葉斯互信息最大化組合分類器進行分類.先用SIFT信息找出不含吸煙片段的視頻段,將其定義為“其他”.然后對剩下的視頻段使用STIP信息進行初步分類.由于吸煙這個動作的時間短暫性和擁有大量“銜煙”這樣的靜態(tài)行為,因此出現(xiàn)了許多點數(shù)過少的情況.這種情況用于計算會導致大量偶然因素,使得結(jié)果不能真實穩(wěn)定,所以實驗中直接將此種情況提取出來,不使用STIP點計算分類.然后再使用點數(shù)少于20的視頻段包含的所有幀的SIFT特征進行計算,得到最終分類結(jié)果,結(jié)果如表2所示.
表2 基于提出的組合分類器的實驗結(jié)果Table 2 The results based on combined classifier
從表2結(jié)果可以看出,在使用了SIFT特征后,在第1步中,能夠?qū)ⅰ捌渌边@類動作的識別錯誤率降低,在第3步中,能提高吸煙這種特定動作的識別正確率,這樣系統(tǒng)對于吸煙活動的識別率也就得到了大幅度的提升.
本文主要對真實電影中的人的抽煙行為進行識別,與之前在特定場景中分析人的活動相比,這里是在包括人物外表改變、場景變換、鏡頭視角變換和動作時間改變的真實場景中進行活動分析與識別.在真實場景的識別活動中,由于各種因素的影響,導致現(xiàn)在很多在特定視頻中識別效果比較好的方法在真實電影中的識別效果很低.考慮到若只使用單獨運動信息或形狀信息在真實場景中識別效果不高,因此采用了一種純貝葉斯互信息最大化組合分類器作為統(tǒng)一的計算框架,實驗結(jié)果證明此方法相比于傳統(tǒng)方法提高了識別率.
但是,使用視頻中幀的信息的方法,對于包含物品的運動比較有效,如吸煙、喝水,而對于諸如走路、慢跑、跑步這樣動作相似的行為識別效果一般.如何將這種方法運用到其他所有動作以及如何減少運算時間都將是今后研究的重點方向.
[1]LAPTEV I,MARSZALEK M,SCHMID C,et al.Learning realistic human actions from movies[C]//Proceedings of CVPR:IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,USA,2008:1-8.
[2]GAIDON A,MARSZALEK M,SCHMID C.Mining visual actions from movies[C]//Proceedings of BMVC:British Machine Vision Conference.London,UK,2009:1-11.
[3]WANG J Z,GEMAN D,LUO Jiebo,et al.Real-world image annotation and retrieval:an introduction to the special section[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(11):1873-1876.
[4]LAPTEV I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2/3):107-123.
[5]LOWE D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[6]ALI S,BASHARAT A,SHAH M.Chaotic invariants for human action recognition[C]//Proceedings of ICCV:IEEE International Conference on Computer Vision.Rio de Janeiro,Brazil,2007:14-21.
[7]NGUYEN N T,PHUNG D Q,VENKATESH S,et al.Learning and detecting activities from movement trajectories using the hierarchical hidden Markov models[C]//Proceedings of CVPR:IEEE Conference on Computer Vision and Pattern Recognition.San Diego,USA,2005:955-960.
[8]MOESLUND T B,HILTON A,KRUGER V.A survey of advances in vision-based human motion capture and analysis[J].Computer Vision and Image Understanding,2006,104(2):90-126.
[9]DUAN Lixin,XU Dong,TSANG I W,et al.Visual event recognition in videos by learning from web data[C]//Proceedings of CVPR:IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,USA,2010:1959-1966.
[10]CAO Liangliang,LIU Zicheng,HUANG T.Cross-dataset action detection[C]//Proceedings of CVPR:IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,USA,2010:1998-2005.
[11]NATARAJAN P,NEVATIA R.View and scale invariant action recognition using multiview shape-flow models[C]//Proceedings of CVPR:IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,USA,2008:1-8.
[12]VITALADEVUNI S N,KELLOKUMPU V,DAVIS L S.Action recognition using ballistic dynamics[C]//Proceedings of CVPR:IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,USA,2008:1-8.
[13]YILMAZ A,SHAH M.Actions sketch:a novel action representation[C]//Proceedings of CVPR:IEEE Conference on Computer Vision and Pattern Recognition.San Diego,USA,2005:984-989.
[14]YUAN Junsong,LIU Zicheng,WU Ying.Discriminative subvolume search for efficient action detection[C]//Proceedings of CVPR:IEEE Conference on Computer Vision and Pattern Recognition.Miami,USA,2009:2442-2449.
[15]LAPTEV I,PEREZ P.Retrieving actions in movies[C]//Proceedings of ICCV:IEEE International Conference on Computer Vision.Rio de Janeiro,Brazil,2007:1-8.
[16]WU Pin,HSIEH J H,CHENG J C,et al.Human smoking event detection using visual interaction clues[C]//Proceedings of ICPR:IEEE International Conference on Pattern Recognition.Istanbul,Turkey,2010:4334-4347.
葉果,男,1990年生,本科生,主要研究方向為人的活動識別、計算機視覺與模式識別.
程洪,男,1973年生,教授,博士生導師,博士,IEEE和ACM會員,2010國家教育部新世紀優(yōu)秀人才計劃入選者,2006—2009年在美國卡內(nèi)基-梅隆大學計算機學院進行博士后研究.主要研究方向為機器人、計算機視覺與模式識別、機器學習.先后主持和參與包括國家“973”計劃項目、國家“863”計劃項目、國家自然科學青年基金和面上項目,以及重要企業(yè)橫向項目等10余項科研項目.發(fā)表學術(shù)論文40余篇,出版教材和專著各1部.
趙洋,男,1988年生,碩士研究生,主要研究方向為計算機視覺與模式識別.
Smoking recognition in movies
YE Guo,CHENG Hong,ZHAO Yang
(School of Automation,University of Electronic Science and Technology of China,Chengdu 611731,China)
Action recognition in movies is a difficult problem in the computer vision domain.Traditional approaches have a bad recognition effect because they are subjected to viewpoint changes,scene changes,and illumination changes in real scenes.This paper presented a novel combined recognition approach,using mutual information to solve the problems mentioned above.This method builds the initial skeleton using naive-Bayesian mutual information maximization(NBMIM)and combines the shape information with the motion information to recognize smoking,which is a typical activity in movies.The proposed smoking recognition approach was evaluated in the filmCoffee and Cigarettes.The results indicate that the proposed method is robust,and it significantly improves the recognition rate.
movies;smoking action recognition;naive-Bayesian mutual information maximization;computer vision;pattern recognition
TP391.4
A
1673-4785(2011)05-0440-05
10.3969/j.issn.1673-4785.2011.05.008
2011-03-29.
國家“973”計劃資助項目(2011CB707000);國家自然科學基金資助項目(61075045);中央高?;究蒲袠I(yè)務(wù)費專項基金資助項目(ZYGX2009X013);新世紀優(yōu)秀人才支持計劃資助項目(Y02020023901067).
葉果.E-mail:yeguo0112@gmail.com.