祁家榕 張昌偉
摘要: 行為分析有著廣泛的應(yīng)用前景,如智能視頻監(jiān)控、人機(jī)交互、自動(dòng)識(shí)別報(bào)警、公共安全等方面,行為分析已成為相關(guān)領(lǐng)域的研究熱點(diǎn)并有其潛在的經(jīng)濟(jì)價(jià)值。在人工智能和自動(dòng)化操控迅速發(fā)展的當(dāng)下,行為分析作為人工智能發(fā)展的中流砥柱也成為了國(guó)內(nèi)外研究人員相繼探討的熱點(diǎn),關(guān)于人體行為分析的研究方式、模型算法和描述方法都取得了切實(shí)有效的發(fā)展。根據(jù)采用不同識(shí)別技術(shù)人體行為識(shí)別目前主流要分為四大類:基于計(jì)算機(jī)視覺(jué)的行為識(shí)別、基于傳感器系統(tǒng)的行為識(shí)別、基于位置的行為識(shí)別和基于人物交互的行為識(shí)別。這篇文章主要探討研究了行為識(shí)別技術(shù)和應(yīng)用這2個(gè)方面的問(wèn)題,綜述了目前已有的技術(shù)情況,在探討該方向各類技術(shù)的發(fā)展情況和研究現(xiàn)狀的基礎(chǔ)上,總結(jié)了當(dāng)前行為分析仍然存在的問(wèn)題和未來(lái)可能的發(fā)展前景。
關(guān)鍵詞: 智能監(jiān)測(cè); 行為識(shí)別; 位置服務(wù); 人物交互
中圖分類號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):2095-2163(2017)04-0024-04
0引言
關(guān)于人類行為的識(shí)別研究最早始于19世紀(jì)70年代,Marey等科學(xué)家在動(dòng)物行為方面展開了機(jī)械學(xué)研究[1],但是鑒于當(dāng)時(shí)計(jì)算機(jī)硬件的整體發(fā)展水平較低,不能支持大量數(shù)據(jù)的科學(xué)計(jì)算,人體行為分析在科學(xué)界也并未得到恰如其分的應(yīng)有重視。直到20世紀(jì)90年代,關(guān)于人體行為分析的研究成果也仍寥寥可數(shù),當(dāng)時(shí)研究者通過(guò)采集大量實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析對(duì)比,訓(xùn)練構(gòu)建人體模型,然后匹配模型和行為序列,最后獲得行為理解結(jié)果和實(shí)例應(yīng)用。這些研究的缺陷可最終解析為堪稱巨大的計(jì)算量,因而只能分析簡(jiǎn)單的運(yùn)動(dòng)行為。進(jìn)入本世紀(jì)后,清華大學(xué)、美國(guó)加州理工學(xué)院、麻省理工大學(xué) MIT、加州大學(xué)伯克利分校Berkeley、Google研究院、 Intel與微軟研究院、英國(guó)劍橋大學(xué)等[2]多家名校和科研機(jī)構(gòu)都在識(shí)別領(lǐng)域尤其是行為識(shí)別方面展開了深入探索。在工業(yè)產(chǎn)業(yè)方面,行為識(shí)別已占據(jù)了普及優(yōu)勢(shì),如安全監(jiān)控、體感游戲、人員調(diào)度、行程規(guī)劃、用戶社交行為分析等多類研究領(lǐng)域中均已出現(xiàn)行為識(shí)別的應(yīng)用。隨著人體行為和人工智能等其他領(lǐng)域的緊密結(jié)合,行為采集和分析得到的數(shù)據(jù)信息給科學(xué)研究帶來(lái)了可觀的高效便利,人體行為分析以及模式識(shí)別已成為相關(guān)領(lǐng)域位居熱門的研究話題之一。
1行為識(shí)別的分類
研究中,對(duì)于行為中信息表達(dá)的直觀呈現(xiàn)可見(jiàn)于圖1。并且,人類的行為模式識(shí)別也始終是作為自動(dòng)化科學(xué)研究的重點(diǎn)而獲得學(xué)界的高度關(guān)注與各類投入,同時(shí)行為模式在探索時(shí)也廣泛借鑒并融合了認(rèn)知科學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別等諸多方面的研究成果。從辨別規(guī)模大小來(lái)看,行為識(shí)別有單用戶行為識(shí)別、多用戶行為識(shí)別、異常行為識(shí)別三種。其中,單用戶行為識(shí)別較為精細(xì),廣泛用于智能家居中,對(duì)使用者的日常生活行為做出實(shí)時(shí)判斷,精確分析感知用戶生活需求,幫助居民日常生活,提高其生活品質(zhì)。多用戶行為識(shí)別則用于高密度人群行為的研究分析,主要對(duì)高密度人群本身固有的復(fù)雜度,對(duì)整個(gè)群體流、群體行為進(jìn)行識(shí)別,這方面的成果演進(jìn)對(duì)于人群密集的場(chǎng)所,如:火車站、商場(chǎng)、十字交叉路口等地方的人群疏導(dǎo)具有尤為重大的現(xiàn)實(shí)意義。另外,異常行為識(shí)別主要用于一些特殊的場(chǎng)所,例如監(jiān)獄、養(yǎng)老院、校園等涉及人身安全較多的場(chǎng)所,可及時(shí)啟動(dòng)并有效發(fā)揮室內(nèi)監(jiān)督功能。
2行為識(shí)別技術(shù)
[BT5]2.1基于計(jì)算機(jī)視覺(jué)的行為識(shí)別
經(jīng)過(guò)多年的研究,國(guó)內(nèi)外學(xué)者利用計(jì)算機(jī)視覺(jué)在人體檢測(cè)領(lǐng)域已經(jīng)設(shè)計(jì)構(gòu)建了多種框架,主要分為基于視頻的方法和基于圖像的方法。其中,基于視頻記錄的研究方法,是指利用圖像序列或視頻中的活動(dòng)信息來(lái)研究人體的檢測(cè)。這種方法通過(guò)對(duì)比不同圖像像素之間的差別來(lái)實(shí)現(xiàn)目標(biāo)提取,優(yōu)點(diǎn)是運(yùn)算速率比常規(guī)方法至少提高2~3倍,可以在安全系統(tǒng)的視頻監(jiān)控中實(shí)時(shí)監(jiān)測(cè)人物活動(dòng)[3]?;趫D像特征提取,訓(xùn)練分析得到相應(yīng)的分類器實(shí)現(xiàn)人體檢測(cè)和目標(biāo)活動(dòng)指示。這種方法能夠直接提取圖像中的特征,并將這些識(shí)別特征通過(guò)改進(jìn)的貝葉斯分類器等技術(shù)處理后,最終獲得預(yù)測(cè)模型。這種模式不僅能夠運(yùn)用在單幀圖像分析中,還可以在圖像序列中得到拓展呈現(xiàn)“海量、高維”的特征,同時(shí)不受到攝像頭的運(yùn)動(dòng)、環(huán)境變化、目標(biāo)長(zhǎng)時(shí)間沒(méi)有顯著變化等特殊復(fù)雜情況的影響。利用攝像頭監(jiān)控系統(tǒng)獲取用戶的行為狀態(tài)信息,再利用模式識(shí)別算法,從視頻和圖像序列中分析可視目標(biāo),其典型的計(jì)算過(guò)程由4個(gè)步驟組成:目標(biāo)檢測(cè)、行為追蹤、動(dòng)作識(shí)別和高層的行為識(shí)別。計(jì)算機(jī)視覺(jué)技術(shù)在處理異常行為檢測(cè)中自有其特點(diǎn)與優(yōu)勢(shì),如檢測(cè)用戶摔倒等異常行為。因?yàn)樽匀画h(huán)境、不確定人為屬性等客觀存在的因素,圖像視頻采集的數(shù)據(jù)受客觀環(huán)境機(jī)制的影響嚴(yán)重;視頻數(shù)據(jù)存儲(chǔ)量巨大,綜合計(jì)算時(shí)間長(zhǎng)、復(fù)雜度高,而且人的行為在環(huán)境中的隨意性等也會(huì)導(dǎo)致最終的回歸模型突顯較大偏差。在不同場(chǎng)合使用攝像頭監(jiān)控人物行為還涉及到隱私和公共安全方面的種種問(wèn)題,長(zhǎng)期以來(lái)一直存在著質(zhì)疑與爭(zhēng)議。
2.2基于傳感器的行為識(shí)別
在人工智能獲得強(qiáng)力推廣的當(dāng)下,利用傳感器進(jìn)行人體行為識(shí)別已然成為智能化的一個(gè)重要分支。這種識(shí)別方法主要利用傳感器和傳感網(wǎng)絡(luò)來(lái)捕捉用戶行為。該方法相比利用視覺(jué)進(jìn)行人體行為識(shí)別的方式,前期投入少、設(shè)備復(fù)雜性小,具有更好的空間自由性。通常采用的方法是利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法,根據(jù)傳感器獲取的數(shù)據(jù)信息來(lái)訓(xùn)練構(gòu)建一個(gè)行為識(shí)別模型。該方法將被測(cè)人體和傳感器視作一個(gè)整體,并借由傳感器識(shí)別用戶。經(jīng)常使用的傳感器件有熱敏傳感器、力敏傳感器、放射線敏傳感器、加速度傳感器、磁力傳感器。通過(guò)傳感器監(jiān)測(cè)到被測(cè)物體的測(cè)量信息,按一定規(guī)律變換成電信號(hào)或其他所需形式的信息輸出,主要用來(lái)測(cè)試記錄運(yùn)動(dòng)模式和實(shí)時(shí)行為動(dòng)作,如站立、行走、奔跑、跳躍等運(yùn)動(dòng)形態(tài)。通過(guò)授權(quán)的分布式配置的計(jì)算機(jī)和傳感器來(lái)監(jiān)控人的行為,使這些計(jì)算機(jī)能更好地在人們的行為上生成控制作用。研究中通過(guò)將傳感器分支節(jié)點(diǎn)分別綁定在人體需要觀察的部位進(jìn)行分支數(shù)據(jù)采集。同時(shí)采用加速傳感器來(lái)展開運(yùn)動(dòng)過(guò)程中各部位加速度數(shù)據(jù)的測(cè)量,向基站提供持續(xù)穩(wěn)定的觀測(cè)數(shù)據(jù)。如圖2所示,傳感器網(wǎng)絡(luò)是由運(yùn)動(dòng)物體上分布的大量微小無(wú)線傳感器節(jié)點(diǎn)互聯(lián)建立而成,通過(guò)觀測(cè)用戶動(dòng)作所產(chǎn)生的物理參數(shù)變化,實(shí)時(shí)監(jiān)控用戶行為,進(jìn)而根據(jù)上下文信息自適應(yīng)完成目標(biāo)任務(wù),從而貫徹實(shí)現(xiàn)了智能化環(huán)境的全新概念。當(dāng)下智能傳感網(wǎng)絡(luò)已成為物聯(lián)網(wǎng)不可或缺的組成部分,在安全監(jiān)控、醫(yī)療保健、數(shù)據(jù)記錄等方面具有實(shí)際廣闊的應(yīng)用前景。endprint
根據(jù)傳感器應(yīng)用常見(jiàn)特征,應(yīng)用于行為活動(dòng)的傳感網(wǎng)絡(luò)分為3類:頻率特征傳感網(wǎng)、時(shí)域特征傳感網(wǎng)和用戶自定義特征傳感網(wǎng)。圍繞這3類特征網(wǎng)絡(luò)的研究,傳感器技術(shù)今后的發(fā)展內(nèi)容將重點(diǎn)立足于如下方向:
1)新型材料研制,使用集成工藝和多變量復(fù)合傳感器 ,改進(jìn)生產(chǎn)技術(shù)提高傳感器靈敏度;
2)使用智能化技術(shù)和智能多變傳感器,結(jié)合邏輯判斷、無(wú)線探測(cè)和智能電量傳感器技術(shù);
3)采用網(wǎng)絡(luò)化傳感器,使傳感器具有網(wǎng)絡(luò)化的標(biāo)準(zhǔn)接口和協(xié)議功能。
2.3基于位置的行為識(shí)別
位置服務(wù)(Location Based Services,LBS)又稱定位服務(wù),基于空間位置,以無(wú)線定位、GIS、互聯(lián)網(wǎng)、數(shù)據(jù)庫(kù)、無(wú)線通信等相關(guān)技術(shù)優(yōu)勢(shì)深度融合的一種無(wú)線位置服務(wù)。地理信息可以提供相應(yīng)的位置服務(wù)信息,是挖掘數(shù)據(jù)源信息的根本。目前,主流的定位技術(shù)包括衛(wèi)星定位、感知定位和基于通訊基礎(chǔ)設(shè)施的定位。能夠?yàn)橛脩籼峁┑姆?wù)有緊急呼叫定位、車輛追蹤、智能交通、定位查詢。有很多大型公司已從不同的行業(yè)領(lǐng)域提出了各自專屬的一整套的位置服務(wù)解決方案,如Sun公司的Java Location Service平臺(tái)、ESRI公司的ARC Location Service方案,MapInfo公司設(shè)計(jì)的無(wú)線空間信息服務(wù)解決方案MLS[4],均為本行業(yè)發(fā)展奠定了良好重要的基礎(chǔ)。基于位置的行為識(shí)別系統(tǒng)技術(shù)結(jié)構(gòu)則如圖3所示。
當(dāng)下頗具主流研究?jī)r(jià)值的課題表述即是從WiFi信號(hào)強(qiáng)度推斷人體的位置和運(yùn)動(dòng)。在霧雨、深夜等一些特殊惡劣的氣候條件下,視頻監(jiān)控往往受到明顯干擾,在得不到清晰圖像的基礎(chǔ)上,很難運(yùn)用現(xiàn)有的視頻處理技術(shù)對(duì)行為進(jìn)行監(jiān)控和識(shí)別。而且,攝像頭存在范圍盲區(qū),也不可能覆蓋到每個(gè)角落,同時(shí)對(duì)一些不能公開拍攝的場(chǎng)所還存在一定的局限性?;诟鞣N無(wú)線技術(shù),如紅外、超聲波、RFID、無(wú)線局域網(wǎng)、藍(lán)牙、ZigBee等在靈活結(jié)合通信和計(jì)算機(jī)的先進(jìn)工具成果條件下則可有效提供隨時(shí)隨地的行為識(shí)別服務(wù)。
2.4基于人物交互的行為識(shí)別
人物交互是指用戶與其所在環(huán)境狀況之間交互的相關(guān)信息。這一研究通?;谌缦录僭O(shè):用戶執(zhí)行特定的行為狀態(tài)時(shí)會(huì)接觸到一系列物體,比如:手持牙刷刷牙、穿運(yùn)動(dòng)鞋跑步、用掃帚掃地等。在不失一般性的情況下,可以定義用戶的行為狀態(tài)與其所接觸的一系列目標(biāo)物品有關(guān)。這主要是通過(guò)RFID無(wú)線射頻自動(dòng)識(shí)別標(biāo)簽來(lái)獲取目標(biāo)對(duì)象的相關(guān)數(shù)據(jù)。交互反饋式的模型設(shè)計(jì)即如圖4所示。檢測(cè)器憑借目標(biāo)物體上安裝的RFID標(biāo)簽感應(yīng)電流獲得的能量發(fā)送出某一頻率的信號(hào),接收器讀取信息并進(jìn)行解碼,最終用戶可以通過(guò)視覺(jué)系統(tǒng)檢測(cè)標(biāo)簽的性能,并利用讀卡系統(tǒng)來(lái)測(cè)試判斷執(zhí)行的某項(xiàng)具體行為動(dòng)作。
人物交互匯聚了多個(gè)計(jì)算領(lǐng)域的研究精華。首先是普適計(jì)算,由其研發(fā)了大量低成本的計(jì)算設(shè)備提供各種數(shù)據(jù)計(jì)算處理的可能;第二是智能系統(tǒng)的研究,這為人物交互研究設(shè)定了學(xué)習(xí)算法和匹配模式;第三是環(huán)境感知,可以有效追蹤和定位各種類型的對(duì)象,并適當(dāng)表示對(duì)象與其所處環(huán)境的交互。 全球智能工業(yè)創(chuàng)新大會(huì)已然明確提出到2020年,人們將生活在一個(gè)人機(jī)互動(dòng)的媒體時(shí)代,未來(lái)面對(duì)的將不僅只是人的社交,而且還將出現(xiàn)人機(jī)交互的社交。從工業(yè)1.0到工業(yè)4.0,通過(guò)人類使用的設(shè)備進(jìn)行智能的交互,智能制造則使經(jīng)濟(jì)的發(fā)展更加趨近智能化,將智能物體融入到人的角色,從而形成一個(gè)友好的數(shù)字化生活鏈環(huán)。
3行為識(shí)別的應(yīng)用和發(fā)展
目前與人體行為識(shí)別相關(guān)的人工智能正延展不斷地進(jìn)入人們的生活,這些年一大批人工智能產(chǎn)品和公司亦呈現(xiàn)出可觀長(zhǎng)足的發(fā)展勢(shì)頭。在行為識(shí)別研究中,作為人工智能的一種尤為重要的系統(tǒng)工具已然陸續(xù)推出了一系列的實(shí)體設(shè)備及功能設(shè)計(jì)。在移動(dòng)健康看護(hù)與隨身運(yùn)動(dòng)監(jiān)測(cè)領(lǐng)域,有與手機(jī)相連的電子血壓計(jì)、B超儀等對(duì)家用醫(yī)療市場(chǎng)的指定匹配以及智能眼鏡、智能手環(huán)等等;在公共安全領(lǐng)域,異常行為識(shí)別在抓捕罪犯和各大超市、銀行的行為監(jiān)控中正在提供不可小覷的判別增強(qiáng)辨識(shí)作用;在體感游戲領(lǐng)域,行為分析在虛擬現(xiàn)實(shí)中可運(yùn)用許多真實(shí)人體運(yùn)動(dòng)數(shù)據(jù)來(lái)實(shí)現(xiàn)動(dòng)漫中的虛擬人物運(yùn)動(dòng),如微軟Kinect體感游戲;在競(jìng)技運(yùn)動(dòng)領(lǐng)域,踢足球機(jī)器人也是此類研究的典型代表。
4結(jié)束語(yǔ)
綜合各方面研究論述可知,當(dāng)下學(xué)界在人體行為識(shí)別方面的分析將不僅停留在理論研究的層面,還將進(jìn)一步深入貼近人的真實(shí)需求,并在感知、網(wǎng)絡(luò)、算法、軟件等各個(gè)層面展開更為充分廣泛的系統(tǒng)研究。
科技的不斷進(jìn)步和發(fā)展,使得今后無(wú)論在科技研究領(lǐng)域還是工業(yè)制造領(lǐng)域,對(duì)于行為識(shí)別的設(shè)計(jì)上應(yīng)該更加側(cè)重于優(yōu)先考慮可靠性強(qiáng)、適用范圍廣、操作便捷、便民實(shí)用的特征方式。行為分析的科學(xué)價(jià)值和經(jīng)濟(jì)價(jià)值可顯著改進(jìn)信息技術(shù)對(duì)社會(huì)的服務(wù)能力,并對(duì)交通服務(wù)和預(yù)測(cè)人類社交相關(guān)領(lǐng)域起到有益的推動(dòng)促進(jìn)作用。
參考文獻(xiàn):
[1] 谷軍霞,丁曉青,王生進(jìn). 行為分析算法綜述[J]. 中國(guó)圖象圖形學(xué)報(bào),2009,14(3):377-387.
[2] SEO H J,MILANFAR P. Action recognition from one example[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011,33(5):867-882.
[3] 郭萍.基于視頻的人體行為分析[D]. 北京:北京交通大學(xué),2012.
[4] 汪亮. 基于可穿戴傳感器網(wǎng)絡(luò)的人體行為識(shí)別技術(shù)研究[D]. 南京:南京大學(xué),2014.
[5] [JP3]LIANG Yunji,ZHOU Xingshe,YU Zhiwen,et al. Energyefficient motion related activity recognition on mobile devices for pervasive healthcare[J]. Mobile Networks and Applications, 2014,19(3):303-317.[ZK)][JP]
[HT5”SS][ST5”BZ][WT5”BZ][JY](下轉(zhuǎn)第30頁(yè))[FL)]
[WTBZ][ST6BZ][HT6SS]
[6] [ZK(#]陳昌紅,朱秀昌. 人群行為分析研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué),2012,39(10):7-11.
[7] LAPTEV I, MARSZALEK M ,SCHMID C ,et al. Learning realistic human actions from movies[C]//Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR08) . Anchorage, AK, USA:IEEE,2008:1-8.
[8] AGGARWAL J K, RYOO M S. Human activity analysis: A review[J]. ACM Computing Surveys(CSUR), 2011,43(3):1-43.
[9] AGGARWAL J K,CAI Q. Human motion analysis: A review[J]. Computer Vision and Image Understanding ,1999,73(3):428-440.
[10]WANG Y, MORI G. Human action recognition by semilatent topic models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,31(10):1762-1774.endprint