聞 號
(安徽大學(xué) 電子信息工程學(xué)院,安徽 合肥 230601)
隨著智能手機(jī)、動作相機(jī)、監(jiān)控?cái)z像機(jī)等的普及,網(wǎng)絡(luò)上視頻的數(shù)量已經(jīng)超出了人們觀看所有視頻的能力。由于行為識別問題在視頻監(jiān)控、人機(jī)交互和視頻內(nèi)容分析等方面具有很大的潛力,視頻中人體行為的識別受到了廣泛關(guān)注。例如,Wang等[1]提出了一種改進(jìn)的密集軌跡算法。文獻(xiàn)[2]使用了在做小碼書情況下的多時(shí)空特征。文獻(xiàn)[3]使用多種特征來描述行為的整體分布和局部變化。文獻(xiàn)[4]使用能量函數(shù)對運(yùn)動區(qū)域進(jìn)行高斯取樣,使樣本點(diǎn)分布于運(yùn)動劇烈的區(qū)域。雖然這些方法已經(jīng)在目標(biāo)檢測和跟蹤方面取得了驚人的進(jìn)展,但是從視頻中檢測出更多的抽象動作和事件仍然具有挑戰(zhàn)性。
在訓(xùn)練人體行為模型時(shí)需要大量的訓(xùn)練數(shù)據(jù)來避免過度擬合,然而數(shù)據(jù)獲取需要耗費(fèi)大量人力物力。相比之下,從網(wǎng)絡(luò)上收集和處理數(shù)據(jù)要便宜得多。而且觀察到,通過動作名稱查詢的Web圖像通常描述一個(gè)歧視性的動作場景,以此可以捕捉并突出顯示視頻中感興趣的動作和事件。所以這是一個(gè)證明網(wǎng)絡(luò)圖像可以增強(qiáng)行為識別的有力證據(jù)。顯然在視頻中提供的時(shí)間信息和圖像中描繪的歧視性場景間存在互補(bǔ)優(yōu)勢。
提出的方法與Web learning(網(wǎng)絡(luò)學(xué)習(xí))息息相關(guān)。典型的工作有文獻(xiàn)[5-6],從這些研究內(nèi)容可以看出,網(wǎng)絡(luò)數(shù)據(jù)域與目標(biāo)域之間的域差異是個(gè)熱點(diǎn)問題。域差異問題是一個(gè)跨域?qū)W習(xí)問題,也是一個(gè)遷移學(xué)習(xí)問題。因此,試圖通過跨域字典學(xué)習(xí)的方法,同時(shí)對網(wǎng)絡(luò)圖像域和目標(biāo)域進(jìn)行字典學(xué)習(xí)來解決這個(gè)問題。
設(shè)計(jì)的人體行為識別算法流程如圖1所示。
圖1 算法流程
獲取網(wǎng)絡(luò)圖像作為目標(biāo)域,獲取數(shù)據(jù)集中每個(gè)類視頻的關(guān)鍵幀圖像作為源域。使用SIFT算法提取的目標(biāo)域和源域圖像的底層特征描述子,分別作為跨域字典學(xué)習(xí)算法的輸入,同時(shí)進(jìn)行字典學(xué)習(xí),進(jìn)而獲得網(wǎng)絡(luò)圖像的特征表示;使用文獻(xiàn)[1]提出的密集軌跡算法提取數(shù)據(jù)集中視頻的密集軌跡特征,再通過字典學(xué)習(xí)、詞袋模型編碼得到視頻中人體行為的特征表示。將兩組特征進(jìn)行長拼接,把拼接后的特征向量放入支持向量機(jī)中進(jìn)行訓(xùn)練分類。實(shí)驗(yàn)選擇的數(shù)據(jù)集分別是KTH[7]和YouTube[8]。
本節(jié)列出了收集和組織網(wǎng)絡(luò)圖像的步驟。借助Google Image API,可以輕松地以幾乎零成本獲取所需的動作圖像。使用每個(gè)類別名稱作為關(guān)鍵字在Google圖片搜索服務(wù)中下載檢索到的圖像。使用照片過濾器刪除不太可能出現(xiàn)在視頻中的人造圖像。收集了大約15 000張網(wǎng)絡(luò)圖像(如圖2所示)分別用在KTH數(shù)據(jù)庫中的六種人體行為和YouTube數(shù)據(jù)庫的十一種人體行為的識別實(shí)驗(yàn)中。
圖2 網(wǎng)絡(luò)圖片(從左向右分別表示騎車、騎馬、高爾夫、蕩秋千、顛球)
(1)
根據(jù)Zhu Fan等[10]提出的方法,對式1轉(zhuǎn)換:
〈Dt,Ds,Xt,A,W〉=
(2)
也可以把式2轉(zhuǎn)換為最簡單的形式,上式因子可簡寫為:
(3)
優(yōu)化問題目標(biāo)函數(shù)簡化為:
(4)
從而優(yōu)化問題即可使用K-SVD[11]算法通過迭代更新的方式求解。
根據(jù)文獻(xiàn)[1]提出的密集軌跡算法獲取行為視頻的底層特征描述子。為了評估文中方法的性能,使用標(biāo)準(zhǔn)的詞袋模型方法,為底層特征描述子構(gòu)造了一個(gè)字典。根據(jù)經(jīng)驗(yàn)將字典的可視化詞語個(gè)數(shù)固定為4 000,使用k-means方法隨機(jī)選擇100 000訓(xùn)練特征進(jìn)行聚類。初始化k-means 8次,以此提高精度,保證最低的誤差結(jié)果。特征描述子會根據(jù)歐氏距離被分配到它們最接近的詞匯,由此產(chǎn)生的視覺詞匯直方圖被用作視頻中人體行為的特征表示。
KTH數(shù)據(jù)集包含六種人類運(yùn)動行為:散步、慢走、跑、拳擊、揮手和鼓掌(如圖3所示)。每一種行為由25個(gè)人展示數(shù)次,分別拍攝在四個(gè)不同場景下。數(shù)據(jù)庫總共有598個(gè)視頻樣本。根據(jù)文獻(xiàn)[7]中的實(shí)驗(yàn)設(shè)置把樣本中(2,3,5,6,7,8,9,10,22)9個(gè)人分為測試集,剩下的16人為訓(xùn)練集。
YouTube數(shù)據(jù)集包含11種人類行為:騎車、跳水、高爾夫、顛球、蹦床、騎馬、投籃、排球、秋千、網(wǎng)球和遛狗(如圖4所示)。
表1和表2分別列出了在KTH數(shù)據(jù)集和YouTube數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果??梢钥闯?,文中方法比密集軌跡算法表現(xiàn)得更出色,在KTH數(shù)據(jù)集中準(zhǔn)確率提高了1%,在YouTube數(shù)據(jù)集中提高了2.2%。在具有背景復(fù)雜、拍攝時(shí)攝像機(jī)移動等復(fù)雜視頻的YouTube數(shù)據(jù)集中,文中方法明顯優(yōu)于其他方法。實(shí)驗(yàn)結(jié)果表明,該方法可以有效地增強(qiáng)視頻中的動作識別能力。
圖3 KTH數(shù)據(jù)庫視頻實(shí)例
圖4 YouTube數(shù)據(jù)庫視頻實(shí)例
方法準(zhǔn)確率/%文獻(xiàn)[7]91.8文獻(xiàn)[12]93.3密集軌跡93.1文中方法93.9
表2 在YouTube數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果
在對網(wǎng)絡(luò)圖像進(jìn)行跨域字典學(xué)習(xí)時(shí)引入了視頻關(guān)鍵幀,所以不確定視頻關(guān)鍵幀有沒有對結(jié)果產(chǎn)生影響。對此進(jìn)行了一組對比實(shí)驗(yàn),如表3、表4所示。第一個(gè)是只使用視頻作為輸入;第二個(gè)是視頻與視頻關(guān)鍵幀作為輸入;第三個(gè)是視頻加上視頻關(guān)鍵幀和網(wǎng)絡(luò)圖片作為輸入。實(shí)驗(yàn)結(jié)果表明,文中方法有效增強(qiáng)了密集軌跡算法對人體行為的識別能力。
表3 使用不同的訓(xùn)練數(shù)據(jù)在KTH數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果
表4 使用不同的訓(xùn)練數(shù)據(jù)在YouTube數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果
通過對網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)理論的研究,提出了一種利用大量的網(wǎng)絡(luò)數(shù)據(jù)作為輔助數(shù)據(jù)來增強(qiáng)密集軌跡算法對人體行為的識別能力的方法。實(shí)驗(yàn)結(jié)果表明,該方法有效提高了密集軌跡算法對人體行為的識別能力。特別對含有質(zhì)量低、場景較復(fù)雜等復(fù)雜視頻的YouTube數(shù)據(jù)庫,其表現(xiàn)更突出。下一步的工作是解決圖片的收集問題,不再是通過人為篩選圖片,而是通過訓(xùn)練的人體行為模型自動篩選圖片,這樣會大大提高圖片獲取的速度和數(shù)量。