【摘 要】在真實(shí)的世界里,存在著復(fù)雜的場(chǎng)景以及不同視角等情況,計(jì)算機(jī)識(shí)別人體行為不是簡(jiǎn)單的事情。計(jì)算機(jī)幾乎很難知道對(duì)于人體行為會(huì)具有什么樣的特征,因?yàn)樘卣鞯倪x擇與具體的問題高度依賴。特別是行為識(shí)別上,不同的行為類型在外觀和行為模型上都呈現(xiàn)出非常大的不同。
【關(guān)鍵詞】視頻 行為識(shí)別 檢測(cè)
近年來,各種視頻監(jiān)控越來越深入我們的生活中。因其實(shí)時(shí)性、直觀性以及設(shè)備成本日益降低在各行各業(yè)中而倍受青睞。但視頻監(jiān)控系統(tǒng)還是依靠人工來控制,沒有進(jìn)入數(shù)字化的全天實(shí)時(shí)監(jiān)測(cè)、智能分析圖像數(shù)據(jù)。要實(shí)現(xiàn)完全數(shù)字化的監(jiān)控的關(guān)鍵在于人體行為的智能識(shí)別。
早些時(shí)候有人提出并且應(yīng)用了智能圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),它是在原始的輸入中應(yīng)用可訓(xùn)練的濾波器和局部鄰域池化操作,來得到一個(gè)分級(jí)的且逐漸復(fù)雜的特征表示。實(shí)踐表示,采用合適的規(guī)則化項(xiàng)來訓(xùn)練,它可以達(dá)到非常好的效果。比較好的地方是對(duì)姿勢(shì)、光照和復(fù)雜背景存在不變性,單只受限在2D輸入的舞臺(tái)。本文文章提出了一個(gè)新的3D卷積神經(jīng)網(wǎng)絡(luò)模型,用于運(yùn)動(dòng)識(shí)別。該模型可以從空間和時(shí)間的維度提取特征,然后進(jìn)行3D卷積,以捕捉從多個(gè)連續(xù)幀得到的運(yùn)動(dòng)信息。為了有效的綜合運(yùn)動(dòng)信息,文中通過在卷積神經(jīng)網(wǎng)絡(luò)的卷積層進(jìn)行3D卷積,以捕捉空間上、時(shí)間上的維度,讓其都具有區(qū)分性的特征。
3D卷積是通過堆疊多個(gè)連續(xù)的幀組成一個(gè)立方體,然后在立方體中運(yùn)用3D卷積核。在其中,卷積層中每一個(gè)特征map都會(huì)與上一層中多個(gè)鄰近的連續(xù)幀相連,以捕捉運(yùn)動(dòng)信息。一個(gè)卷積map的某一位置的值是通過卷積上一層的三個(gè)連續(xù)的幀的同一個(gè)位置的局部感受得到的。要強(qiáng)調(diào)的是:3D卷積核只能從cube中提取一種類型的特征,因?yàn)樵谡麄€(gè)cube中卷積核的權(quán)值都是一樣的,也就是共享權(quán)值,都是同一個(gè)卷積核。可以采用多種卷積核,以提取多種特征。有一個(gè)通用的設(shè)計(jì)規(guī)則就是:在后面的層(離輸出層近的)特征map的個(gè)數(shù)應(yīng)該增加,這樣就可以從低級(jí)的特征maps組合產(chǎn)生更多類型的特征。本文中的3D 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)包含一個(gè)硬連線hardwired層、3個(gè)卷積層、2個(gè)下采樣層和一個(gè)全連接層。每個(gè)3D卷積核卷積的立方體是連續(xù)7幀,每幀patch大小是60x40。
在第一層,應(yīng)用了一個(gè)固定的hardwired的核去對(duì)原始的幀進(jìn)行處理,產(chǎn)生多個(gè)通道的信息,然后對(duì)多個(gè)通道分別處理。最后再將所有通道的信息組合起來得到最終的特征描述。這個(gè)實(shí)線層實(shí)際上是編碼對(duì)特征的先驗(yàn)知識(shí),這比隨機(jī)初始化性能要好。
每幀提取五個(gè)通道的信息,分別是:灰度、x和y方向的梯度,x和y方向的光流。其中,前面三個(gè)都可以每幀都計(jì)算。然后水平和垂直方向的光流場(chǎng)需要兩個(gè)連續(xù)幀才確定。所以是7x3 + (7-1)x2=33個(gè)特征maps。然后用一個(gè)7x7x3的3D卷積核(7x7在空間,3是時(shí)間維)在五個(gè)通道的每一個(gè)通道分別進(jìn)行卷積。為了增加特征map的個(gè)數(shù)(實(shí)際上就是提取不同的特征),在每一個(gè)位置都采用兩個(gè)不同的卷積核,這樣在C2層的兩個(gè)特征maps組中,每組都包含23個(gè)特征maps。23是(7-3+1)x3+(6-3+1)x2前面那個(gè)是:七個(gè)連續(xù)幀,其灰度、x和y方向的梯度這三個(gè)通道都分別有7幀,然后水平和垂直方向的光流場(chǎng)都只有6幀。54x34是(60-7+1)x(40-7+1)。
在緊接著的下采樣層S3層max pooling,在C2層的特征maps中用2x2窗口進(jìn)行下采樣,這樣就會(huì)得到相同數(shù)目但是空間分辨率降低的特征maps。下采樣后,就是27x17=(52/2)*(34/2)。 C4是在5個(gè)通道中分別采用7x6x3的3D卷積核。為了增加特征maps個(gè)數(shù),在每個(gè)位置都采用3個(gè)不同的卷積核,這樣就可以得到6組不同的特征maps,每組有13個(gè)特征maps。13是((7-3+1)-3+1)x3+((6-3+1)-3+1)x2前面那個(gè)是:七個(gè)連續(xù)幀,其灰度、x和y方向的梯度這三個(gè)通道都分別有7幀,然后水平和垂直方向的光流場(chǎng)都只有6幀。21x12是(27-7+1)x(17-6+1)。
S5層用的是3x3的下采樣窗口,所以得到7x4. 到這個(gè)階段,時(shí)間維上幀的個(gè)數(shù)已經(jīng)很小了。在這一層,只在空間維度上面卷積,這時(shí)候使用的核是7x4,然后輸出的特征maps就被減小到1x1的大小。而C6層就包含有128個(gè)特征map,每個(gè)特征map與S5層中所有78(13x6)個(gè)特征maps全連接,這樣每個(gè)特征map就是1x1,也就是一個(gè)值了,而這個(gè)就是最終的特征向量了。
經(jīng)過多層的卷積和下采樣后,每連續(xù)7幀的輸入圖像都被轉(zhuǎn)化為一個(gè)128維的特征向量,這個(gè)特征向量捕捉了輸入幀的運(yùn)動(dòng)信息。輸出層的節(jié)點(diǎn)數(shù)與行為的類型數(shù)目一致,而且每個(gè)節(jié)點(diǎn)與C6中這128個(gè)節(jié)點(diǎn)是全連接的。采用一個(gè)線性分類器來對(duì)這128維的特征向量進(jìn)行分類,實(shí)現(xiàn)行為識(shí)別。模型中所有可訓(xùn)練的參數(shù)都是隨機(jī)初始化的,然后通過在線BP算法進(jìn)行訓(xùn)練。
3D 卷積神經(jīng)網(wǎng)絡(luò)模型的輸入被限制為一個(gè)少的連續(xù)視頻幀,因?yàn)殡S著輸入窗口大小的增加,模型需要訓(xùn)練的參數(shù)也會(huì)增加。當(dāng)然有些人的行為是跨越很多幀的,所以在3D 卷積神經(jīng)網(wǎng)絡(luò)模型中,有必要捕捉這種高層的運(yùn)動(dòng)信息。需要用大量的幀來計(jì)算運(yùn)動(dòng)特征,然后把這些運(yùn)動(dòng)特征作為輔助輸出去規(guī)則化3D 卷積神經(jīng)網(wǎng)絡(luò)模型。
對(duì)于每一個(gè)需要訓(xùn)練的行為,提取其長(zhǎng)時(shí)間的行為信息,作為其高級(jí)行為特征。這個(gè)運(yùn)動(dòng)信息因?yàn)闀r(shí)間夠長(zhǎng),所以要比卷積神經(jīng)網(wǎng)絡(luò)的輸入幀的立方體包含的信息要豐富很多。然后我們就迫使卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)非常接近這個(gè)特征的特征向量。這可以通過在卷積神經(jīng)網(wǎng)絡(luò)的最后一個(gè)隱層再連接一系列的輔助輸出節(jié)點(diǎn),然后訓(xùn)練過程中,使提取的特征更好的逼近這個(gè)計(jì)算好的高層的行為運(yùn)動(dòng)特征向量。
試驗(yàn)中,在原始的灰度圖像中計(jì)算稠密sift描述子,然后通過這些sift描述子和運(yùn)動(dòng)邊緣歷史圖像(MEHI)組合構(gòu)造bag-of-words特征作為輔助特征。 因?yàn)榛叶葓D保留了外觀信息,運(yùn)動(dòng)邊緣歷史圖像只關(guān)心形狀和運(yùn)動(dòng)模式,所以可以提取這兩個(gè)互補(bǔ)的信息作為兩個(gè)連續(xù)幀的局部特征bag。先簡(jiǎn)單的計(jì)算兩幀間的差分,這樣就可以保留運(yùn)動(dòng)信息,然后對(duì)其執(zhí)行一次Canny邊緣檢測(cè),這樣可以使得觀測(cè)圖像更加清楚簡(jiǎn)潔。最總的運(yùn)動(dòng)邊緣圖像就是將歷史的這些圖像乘以一個(gè)遺忘因子再累加起來得到。
本文中,構(gòu)造不同的3D 卷積神經(jīng)網(wǎng)絡(luò)模型,它可以從輸入捕捉潛在的互補(bǔ)信息,然后在預(yù)測(cè)階段,每個(gè)模型都針對(duì)一個(gè)輸入得到對(duì)應(yīng)的輸出,然后再組合這些輸出得到最終的結(jié)果。
作者簡(jiǎn)介:
王 杰,男,漢族,山東煙臺(tái)人,煙臺(tái)南山學(xué)院軟件工程學(xué)院,碩士,教師,助教,教育技術(shù)。
王君明,女,漢族,山東煙臺(tái)人,煙臺(tái)南山學(xué)院軟件工程學(xué)院,碩士,教師,助教,影視藝術(shù)。