陳 娟,楊 倩,文 泉,劉歆瀏,劉議聰
(1. 電子科技大學 計算機科學與工程學院,四川 成都 611731;2. 西南自動化研究所,四川 綿陽 621000)
“挑戰(zhàn)性課程”的核心思想是:教師以全球的前沿科研問題作為切入點,并集成相關基礎學科的核心知識體系,設計兼具“調整性”和“趣味性”課程內容;在教學環(huán)節(jié)的設計上,著重激發(fā)學生的學習主動性和創(chuàng)造性,讓學生在教學活動中通過挑戰(zhàn)自我、互動協(xié)作、探索鉆研,來獲取知識、提示學習能力、增強學習的獲得感。綜合性的課程實驗,是“挑戰(zhàn)性課程”非常重要的教學資源。本文面向人工智能系列“挑戰(zhàn)性課程”,開發(fā)和設計了“視頻多目標跟蹤”綜合實驗,引導學生使用性能領先的“神經網(wǎng)絡”技術[1-3],來解決“視頻多目標跟蹤”的科研問題。
“視頻多目標跟蹤”[4-10]的核心任務:在視頻序列中,預測多個運動目標在下一個時刻的坐標位置,維持每個跟蹤目標的序號(即目標的標識符),記錄每個運動目標的軌跡。在本實驗中選擇“行人跟蹤”[11]作為研究問題,主要原因包括:第一,在現(xiàn)實生活中,行人是會發(fā)生劇烈形變的“非剛體”目標;第二,行人的多目標跟蹤,在實時監(jiān)控和安防等領域有著非常廣泛的應用;第三,全世界知名高校和優(yōu)秀科研機構,提供了豐富的“行人跟蹤”的視頻數(shù)據(jù)集。
本文在國際權威期刊提供的公開數(shù)據(jù)集[12]上,對比和實現(xiàn)了“視頻多目標跟蹤系統(tǒng)”的綜合實驗設計。
通過實現(xiàn)性能領先的神經網(wǎng)絡技術,來設計“多目標跟蹤系統(tǒng)”的綜合實驗[12],包括使用遞歸神經網(wǎng)絡[13],計算視頻目標在下一幀中的坐標位置和運行長短期記憶模型[14],來完成不同視頻目標之間的數(shù)據(jù)關聯(lián)。
M是整個視頻中所有目標的個數(shù),N是視頻的某一幀中所有目標的個數(shù)。D是目標的坐標維度,在本實驗中D=4 。具體地,本文使用目標中心點的橫坐標x和縱坐標y,以及目標包圍框的長h和寬w,來表示目標的信息。t表示視頻幀的序號。
其中,表示編號對應概率關系的矩陣A 的每個元素的取值在0 和1 之間;表示目標出現(xiàn)概率的向量ε的每個元素的取值在0 和1 之間。
1.2.1 遞歸神經網(wǎng)絡的輸入和輸出
遞歸神經網(wǎng)絡的“輸出”參數(shù)包括:①當前幀中目標的預測位置;②當前幀中目標的更新位置(用于遞歸神經網(wǎng)絡的下一次迭代計算);③當前幀對應的網(wǎng)絡隱藏層節(jié)點ht+1;④當前幀中目標出現(xiàn)的概率;⑤前一幀和當前幀中,同一個目標出現(xiàn)概率的絕對值差分。
1.2.2 遞歸神經網(wǎng)絡的優(yōu)化
遞歸神經網(wǎng)絡的損失函數(shù),定義為:
1.3.1 長短期記憶模型的輸入和輸出
長短期記憶模型的“輸入”參數(shù)包括:①前一次迭代的記憶單元ci;②前一次迭代的隱藏層節(jié)點hi;③第t+1 幀中不同目標之間的位置距離Ct+1。
長短期記憶模型的“輸出”參數(shù)包括:①后一次迭代的記憶單元②后一次迭代的隱藏層節(jié)點③第t+ 1幀中出現(xiàn)的目標的序號
其中,不同目標之間的位置距離定義為:
1.3.2 長短期記憶模型的優(yōu)化
長短期記憶模型的損失函數(shù),定義為:
本文選擇輕量級的Lua 腳本語言和科學計算平臺Torch 作為“視頻多目標跟蹤”系統(tǒng)的編程環(huán)境。本文實驗的硬件條件包括:GPU 的型號為GTX965M,顯存為2 G,內存為8 G。
在本實驗中,遞歸神經網(wǎng)絡只包含1 層神經元,共300 個節(jié)點。長短期記憶模型包含2 層神經元,每層共500 個節(jié)點。
本文選擇了9 種公認的衡量視頻多目標跟蹤結果的指標[12],來評價實驗平臺在視頻多目標跟蹤方面的性能。這9 種指標的定義如下:
FP(↓):跟蹤過程中,丟失的目標總數(shù)。
FN(↓):跟蹤過程中,誤報的目標總數(shù)。
MT(↑):目標的大部分被跟蹤到的軌跡占比(>80%)。
ML(↓):目標的大部分跟丟的軌跡占比(<20%)。
FM(↓):真實軌跡被打斷的次數(shù)。
IDS(↓):一條跟蹤軌跡改變目標序號的次數(shù)。
MOTA(↑):結合目標丟失、目標誤報、目標序號改變這3 個方面的綜合準確性。
MOTP(↑):所有跟蹤目標與標準包圍框的平均邊框重疊率。
FPS(↑):每秒能處理的視頻幀的數(shù)目。
其中,(↑)表示指標的值越大目標跟蹤的效果越好,而(↓)表示指標的值越小目標跟蹤的效果越好。
本文使用了國際權威期刊提供的“行人跟蹤”公開數(shù)據(jù)集,所有的視頻序列都是在室外的街道上拍攝的,包含固定攝像機和移動攝像機2 種類型的視頻序列。其中,移動攝像機佩戴在第三方的行人身上。而固定攝像機的視野位置分為2 種:與行人高度相當?shù)奈恢煤瓦h高于行人高度的監(jiān)控位置。
2.3.1 行人跟蹤視頻的數(shù)據(jù)規(guī)模
訓練數(shù)據(jù)集由11 個視頻組成,包含6 個固定攝像頭的視頻序列和5 個移動攝像頭的視頻序列。訓練數(shù)據(jù)集共計5500 幀,包含550 條跟蹤軌跡。
測試數(shù)據(jù)集由11 個視頻組成,包含6 個固定攝像頭的視頻序列和5 個移動攝像頭的視頻序列。測試數(shù)據(jù)集共計5783 幀,包含721 條跟蹤軌跡。
2.3.2 行人目標的密度
行人目標的密度定義為:整個視頻的所有目標包圍框的個數(shù)除以整個視頻的總幀數(shù)。其中:(1)在訓練數(shù)據(jù)集中,共計39 905 個目標包圍框,行人目標出現(xiàn)的平均密度為7.3 個/幀;(2)在測試數(shù)據(jù)集中,共計61 440 個目標包圍框,行人目標出現(xiàn)的平均密度為10.6 個/幀。
2.3.3 視頻的光照條件和視野尺寸
視頻數(shù)據(jù)集的光照條件:(1)在訓練數(shù)據(jù)集中,晴天的視頻序列占36%,陰天的視頻序列占55%,夜間的視頻序列占 9%;(2)在測試數(shù)據(jù)集中,晴天的視頻序列占55%,陰天的視頻序列占45%。
視頻數(shù)據(jù)集的視野尺寸:(1)在訓練數(shù)據(jù)集中,視野尺寸較大的視頻序列占 9%,視野尺寸中等的視頻序列占 82%,視野尺寸較小的視頻序列占 9%;(2)在測試數(shù)據(jù)集中,視野尺寸較大的視頻序列占18%,視野尺寸中等的視頻序列占82%。
本文使用性能領先的神經網(wǎng)絡技術,實現(xiàn)了“多目標跟蹤系統(tǒng)”的實驗,在測試數(shù)據(jù)集上得到的視頻多目標跟蹤的平均結果總結在表1 中。根據(jù)實驗結果的指標顯示:在 FP 指標上,在“攝像機固定”的視頻中丟失的目標總數(shù)更少;在 FN 指標上,在“攝像機固定”的視頻中誤報的目標總數(shù)更少;在MT 指標上,在“攝像機移動”的視頻中大部分跟蹤到的軌跡數(shù)目更多;在ML 指標上,在“攝像機固定”的視頻中大部分跟丟的軌跡數(shù)目更少;在FM 指標上,在“攝像機移動”的視頻中真實軌跡被打斷的次數(shù)更少;在IDS 指標上,在“攝像機移動”的視頻中跟蹤軌跡改變目標序號的次數(shù)更少;在MOTA 指標上,在“攝像機固定”的視頻中目標丟失、目標誤報、目標序號改變這3 方面的綜合準確性更高;在MOTP 指標上,在“攝像機移動”的視頻中所有跟蹤目標與標準包圍框的平均邊框重疊率更高;在FPS 指標上,在“攝像機固定”的視頻中每秒能處理的視頻幀的數(shù)目更多。
表1 行人視頻數(shù)據(jù)集上的多目標跟蹤結果
本實驗對攝像機固定的視頻序列和攝像機移動的視頻序列完成行人多目標跟蹤結果的樣例,如圖1 所示。在圖1 中,使用不同顏色的方框來標定不同行人在視頻中的位置。實驗結果表明,在視頻背景復雜、行人目標密集的情況下,本文設計的多目標跟蹤系統(tǒng),能夠比較準確地定位視頻中的多個行人目標。
圖1 行人多目標跟蹤結果舉例
本文在“行人跟蹤”數(shù)據(jù)集上,使用性能領先的神經網(wǎng)絡技術,實現(xiàn)了“視頻多目標跟蹤系統(tǒng)”的綜合實驗。通過實驗結果的分析發(fā)現(xiàn),基于遞歸神經網(wǎng)絡和長短期記憶模型的“視頻多目標跟蹤”系統(tǒng),能夠有效地完成“行人”的多目標跟蹤。