邱楷洋 李敏
[摘要]視頻場(chǎng)景中運(yùn)動(dòng)人體行為語(yǔ)義計(jì)算是一個(gè)多學(xué)科交叉的研究課題,具有廣泛的應(yīng)用前景。其關(guān)鍵技術(shù)包括:場(chǎng)景語(yǔ)義提取和場(chǎng)景分類(lèi),場(chǎng)景空間關(guān)系以及運(yùn)動(dòng)人體行為的自然語(yǔ)言描述與推理。論文對(duì)這三個(gè)關(guān)鍵技術(shù)近10年的主要研究成果進(jìn)行了分別介紹,在對(duì)這些方法的優(yōu)缺點(diǎn)總結(jié)的基礎(chǔ)上,預(yù)測(cè)了這三種關(guān)鍵技術(shù)的發(fā)展方向。
[關(guān)鍵詞]行為語(yǔ)義計(jì)算 場(chǎng)景語(yǔ)義提取 自然語(yǔ)言描述方法 場(chǎng)景空間關(guān)系描述
一、引言
視覺(jué)是人類(lèi)最重要的感覺(jué)器官,視覺(jué)信息是人類(lèi)最主要的信息來(lái)源。機(jī)器視覺(jué)是一種典型的仿生學(xué),是人工智能的主要研究?jī)?nèi)容,有著重要的研究?jī)r(jià)值。而基于機(jī)器視覺(jué)信息對(duì)運(yùn)動(dòng)人體的行為識(shí)別和理解,是一個(gè)多學(xué)科交叉,并充滿(mǎn)挑戰(zhàn)的科學(xué)領(lǐng)域。該領(lǐng)域的典型的應(yīng)用有:智能機(jī)器人、智能監(jiān)控、人機(jī)交互技術(shù)、運(yùn)動(dòng)分析、虛擬現(xiàn)實(shí)技術(shù)等。運(yùn)動(dòng)人體行為識(shí)別研究主要分為三個(gè)層次:底層研究,中層研究和高層研究。底層是指信息采集、關(guān)鍵幀提取以及信號(hào)去噪等環(huán)節(jié);中層是指運(yùn)動(dòng)人體檢測(cè)與跟蹤、行為識(shí)別與理解、異常行為判定與處理、運(yùn)動(dòng)軌跡分析、手勢(shì)識(shí)別與理解等。高層研究則是指對(duì)運(yùn)動(dòng)人體的行為進(jìn)行建模,根據(jù)場(chǎng)景敏感度對(duì)人體行為進(jìn)行語(yǔ)義描述與推理。對(duì)于底層研究和中層研究,相關(guān)的技術(shù)已經(jīng)發(fā)展了數(shù)十年,各類(lèi)研究成果已經(jīng)相當(dāng)豐富,典型的技術(shù)手段有:模版匹配法和狀態(tài)空間法,與之相關(guān)的各種文章也出現(xiàn)了很多。人類(lèi)的自然語(yǔ)言產(chǎn)生和文字的出現(xiàn)是人類(lèi)文明發(fā)展的里程碑式的標(biāo)志。自然語(yǔ)言記錄了人類(lèi)的文明成果,實(shí)現(xiàn)了人類(lèi)文明成果的交流和分享。運(yùn)動(dòng)人體行為識(shí)別的高層次研究就是研究如何實(shí)現(xiàn)運(yùn)動(dòng)人體行為的自然語(yǔ)言描述和計(jì)算推理及語(yǔ)義計(jì)算。
語(yǔ)義是概念與其在概念中的表達(dá)關(guān)系以及不同概念在時(shí)間,空間及因果上的聯(lián)系。計(jì)算是指尋找語(yǔ)義的方法。此項(xiàng)技術(shù)是在底層研究和中層研究的基礎(chǔ)上發(fā)展起來(lái)的,是近幾年才興起的,已經(jīng)越來(lái)越受到各國(guó)研究機(jī)構(gòu)和學(xué)者的關(guān)注。運(yùn)動(dòng)人體行為語(yǔ)義計(jì)算技術(shù)目前已經(jīng)有了一個(gè)相對(duì)明確的技術(shù)框架,如圖1所示。
由圖1可以按看出,運(yùn)動(dòng)人體行為語(yǔ)義計(jì)算涉及場(chǎng)景的語(yǔ)義,場(chǎng)景空間位置關(guān)系,運(yùn)動(dòng)人體本身語(yǔ)義三個(gè)方面的技術(shù)。本文將關(guān)注運(yùn)動(dòng)人體行為語(yǔ)義識(shí)別研究,從運(yùn)動(dòng)人體的場(chǎng)景分類(lèi)識(shí)別,空間位置關(guān)系描述,運(yùn)動(dòng)人體行為語(yǔ)義識(shí)別三個(gè)方面進(jìn)行歸納和總結(jié),分類(lèi)介紹現(xiàn)有的科研成果,并對(duì)該領(lǐng)域研究將來(lái)的發(fā)展方向進(jìn)行展望。
二、場(chǎng)景語(yǔ)義提取與場(chǎng)景分類(lèi)
場(chǎng)景信息直接影響著運(yùn)動(dòng)人體的行為,并且相同的行為在不同的場(chǎng)景會(huì)有不同的理解。所以場(chǎng)景的情景語(yǔ)義和場(chǎng)景識(shí)別是運(yùn)動(dòng)人體行為語(yǔ)義識(shí)別的關(guān)鍵技術(shù)之一。對(duì)于場(chǎng)景的識(shí)別,目前有兩大主流技術(shù):①基于數(shù)學(xué)模型的方法;②基于語(yǔ)義模型的方法,文章將分別介紹這兩種方法的發(fā)展現(xiàn)狀。
(一)基于數(shù)學(xué)模型的場(chǎng)景識(shí)別
這類(lèi)方法都是采用了人工智能領(lǐng)域的典型數(shù)學(xué)成果,包括(隱馬爾科夫)ttMM,神經(jīng)網(wǎng)絡(luò),貝葉斯網(wǎng)(BN)等。何彥斌等人提出了一種基于HMM模型的場(chǎng)景識(shí)別方法,指定相關(guān)情境信息,以隱含場(chǎng)景集和觀察情境集作為參數(shù),利用HMM對(duì)隱含場(chǎng)景關(guān)系進(jìn)行建模而設(shè)計(jì)了相應(yīng)的算法。一種基于部分連接神經(jīng)網(wǎng)絡(luò)的場(chǎng)景識(shí)別方法被提出來(lái)。該方法不依賴(lài)圖像特征值的選取和圖像特征數(shù)目的精簡(jiǎn),將每個(gè)像素都作為神經(jīng)網(wǎng)絡(luò)的輸入。還有學(xué)者將貝葉斯網(wǎng)和HMM結(jié)合起來(lái)實(shí)現(xiàn)對(duì)上下文場(chǎng)景的識(shí)別。支持向量機(jī)(supportvector machine)SVM是近些年發(fā)展很活躍的一種分類(lèi)方法,LuMing Zhang在其論文中重點(diǎn)考慮了場(chǎng)景的幾何特性、空間特性(拓?fù)?、方位等),采用了SVM實(shí)現(xiàn)了空間圖像場(chǎng)景的分類(lèi)。在一些特定的應(yīng)用中,室內(nèi)場(chǎng)景的識(shí)別也顯得很有價(jià)值。比如在看護(hù)機(jī)器人的應(yīng)用中,有學(xué)者用室內(nèi)的普通物體作為中間描述向量,并用這些向量生成統(tǒng)計(jì)空間模型,實(shí)現(xiàn)了室內(nèi)場(chǎng)景的分類(lèi)和識(shí)別。無(wú)論是HMM,SVM,BN還是其他數(shù)學(xué)統(tǒng)計(jì)模型都是在特定的使用條件下有著優(yōu)異的表現(xiàn),但這些模型離識(shí)別系統(tǒng)的可持續(xù)性和普適性還有一定距離。