羅 森 覃禮榮
1(廣西科技師范學院 廣西 來賓 546199) 2(梧州學院 廣西 梧州 543002)
多人視頻(如籃球比賽、足球比賽等)中的重要事件和關鍵角色檢測在視頻搜索和視頻分析等領域具有重要用途[1],相關數據集和模型[2]也為視頻中的事件識別和檢測帶來很多幫助。然而,目前很多檢測局限于單人行動,即視頻中僅包含一個人物,執(zhí)行一個主要活動。因此,多人視頻的事件檢測則更具挑戰(zhàn)性和實際意義。
近些年,已有一些研究成果,如文獻[3]針對大量群體,利用個體信息的上下文結構描述符對人的行為進行描述和檢測。針對籃球比賽事件,文獻[4]將網絡直播文本(Live Text,LT)作為輔助信息,提取文本事件作為事件標注的語料,分析并檢測了籃球視頻的中級語義特征,利用顏色直方圖和邊緣像素點將鏡頭劃分為遠鏡頭、特寫鏡頭和場外鏡頭,促進對籃球事件的檢測和標注。文獻[5]利用籃球視頻中的非場景目標信息與比賽事件語義之間的對應關系,設計一種籃球視頻事件檢測算法,提高了籃球重要事件的檢測準確率。但該方法沒有對籃球數據庫進行系統(tǒng)構建。
也有一些文獻通過使用“注意力”模型從一個固定輸入到一個固定輸出對元素進行對齊。如文獻[6]生成一個圖像-標題(I-T),關注圖像的不同區(qū)域人物角色和行為動作;文獻[7]利用時空結構(S-T)生成一個視頻-標題,關注視頻內的不同幀;文獻[8]將端到端訓練的深層網絡模型運用在體育視頻分析中。
由于“注意力”與正在進行的活動相關度最高[9],可隨時間和空間而改變,對于籃球比賽視頻(角色變化頻繁,與一般視頻區(qū)別較大)多人事件和關鍵角色檢測具有一定優(yōu)勢。因此,本文結合空間注意力和時間注意力,提出一種基于注意力模型的方法。該方法可完成對孤立剪輯的分類,以及在較長的未剪輯視頻中對事件進行時間定位的任務,其性能超過了一般現(xiàn)有方法。
本文使用NBA多場籃球比賽視頻剪輯,這些比賽是在不同時間段、不同場館中進行。視頻時長通常為1.5~3.0 h。首先,本文對表1所列舉的11個關鍵的事件類型進行了手工識別,考慮了5種投籃類型,每種類型分別包括得分或失敗,最后一種事件類型為搶斷。然后,在視頻中出現(xiàn)“終結點”的時候對這些事件的終結點進行標注(可以采用機器視覺方法)。終結點通??梢暂^好地識別(例如:籃球離開投籃者的手,落到其他如籃框等地方;某隊球員突然搶斷,控球方從一方轉為另一方)。由于評價人員對一個事件何時開始難以達成共識,為了確定開始時間,本文假定每個事件的時長為4 s。4 s足夠對每個事件進行分類,同時也可以很好地進行定位。
表1 數據集中事件的視頻剪輯數量及對應的平均人數
續(xù)表1
按照上述剪輯,所有視頻隨機劃分為212個訓練視頻,12個驗證視頻和33個測試視頻,并將每個視頻分割到4 s的剪輯中(使用注釋界限),將這些剪輯視頻的幀率下采樣到6幀/s。為了排除球員的特寫鏡頭以及觀眾和即時回放的鏡頭,本文使用一個單獨訓練的分類器,將非正面拍攝的鏡頭過濾掉。由此,共有11 420個訓練剪輯、851個驗證剪輯和2 274個測試剪輯,每個剪輯均包含11個事件標簽之一。
除了對事件標簽和開始及終結時間進行注釋外,本文在測試集中采集了850個視頻剪輯上的眾包注釋,其中要求標注人員在投籃球員嘗試一次出手的幀上對籃球位置進行標記。
本文在來自訓練視頻中的一個9 000個幀的子集中,對所有球員的包圍框進行標注。使用這些注釋對一個多人包圍框檢測器進行了訓練,并在本文數據集中的所有視頻上運行了該訓練后的檢測器。本文再次對每幀中置信度高于0.5的所有檢測結果進行訓練,得出每剪輯6~8人的檢測結果,如表1所示。在表1中,這些事件是有重合的,比如兩分球得分(一次運動行為得兩分)包括上籃得分和扣籃得分,以及其他兩分球,從表1的統(tǒng)計數據可以看出,兩分球行為(包括兩分球得分和兩分球未得分)的剪輯訓練和測試量明顯高于上籃行為和扣籃行為,所涉及的平均人數也更高。在數據集的統(tǒng)計中,多人包圍框使用了驗證視頻中的實際包圍框,所達到的平均重疊率為0.7,召回率為0.8。
本文構建的模型可以通過事件的不同階段中關注特定人類,推導出一個事件。首先由相對應的雙向長短期記憶[10](BLSTM)網絡處理每個球員的跟蹤軌跡,其中BLSTM和長短期記憶(Long Short-Term Memory, LSTM)網絡都是時間遞歸神經網絡,是為解決遞歸神經網絡[11](Recurrent Neural Network, RNN)存在的長期依賴問題而專門設計的。本文方法的基本流程如圖1所示,首先將跟蹤軌跡和事件狀態(tài)分別輸入到LSTM和BLSTM中,隨著事件的不斷發(fā)展,通過一個注意力模型,使用BLSTM的隱藏狀態(tài),在每個時刻對“關鍵”球員進行識別。被關注的球員可隨著時間推移而改變。
圖1 本文方法基本流程
每個視頻幀均由一個1 024維的特征向量ft表示,是Inception7網絡的最后一個全連接層的激活向量。此外,本文計算了視頻幀中每個人的空間定位特征,即一個2 805維的特征向量pti,其中包含著幀t中第i個球員的包圍盒的外觀信息(1 365維)和空間信息(1 440維)。本文對視頻幀中的球員區(qū)域進行裁剪和調整大小后輸入Inception7網絡,并對來自一個較低層的響應進行池化,提取出外觀特征??臻g特征對應于一個32×32的空間直方圖,結合一個空間金字塔來表示不同尺度的包圍框位置。
本文的目的是訓練模型將視頻剪輯分入11個類別中的一個類別里。此外,模型還有一個附帶效果,能夠識別每幀中的關鍵球員。
(1)
然后,使用一個單向LSTM表示在時間t的事件狀態(tài):
(2)
(3)
如果該視頻屬于分類k,則yk=1,反之,則yk=0。
本文關注的是在每個時間步上的特征集合。根據此設定,需要解決兩個關鍵問題:1) 雖然本文在每個幀中有著不同的檢測,但可以通過一個目標跟蹤方法跨幀對檢測結果進行連接,這可能會帶來更好的球員特征表示;2) 對球員的關注取決于事件的狀態(tài),并且需要隨著事件的演變而發(fā)展。例如,在一次“罰球”的開始過程中,關注到進行投籃的球員是非常重要的。然而,在事件將要終結時,投籃的成功或失敗則可以通過對持球人進行觀察來判斷。
2.3.1帶跟蹤的注意力模型
首先,利用一個標準方法,將屬于同一個球員的檢測結果關聯(lián)到跟蹤中。將KLT跟蹤器[12]與二分圖匹配結合來關聯(lián)數據。
(4)
在每個時間步上,本文選擇在那一時刻相關度最高的球員。通過將處于該時間步的球員表示為一個凸組合形式完成選擇:
(5)
(6)
2.3.2不帶跟蹤的注意力模型
由于存在遮擋和快速移動的情況,在擁擠場景中對人類進行跟蹤比較困難。在此類設定中,不帶跟蹤的模型是有利的。因此該模型隨著事件演變,在球員間切換關注也將更加靈活。為此,本文提出一個模型,將每幀中的檢測都視為獨立于其他的幀?;跓o跟蹤注意力的球員特征的計算如下:
(7)
(8)
本節(jié)給出在NBA籃球比賽數據集上的三組實驗:事件分類,事件檢測,注意力評價。
在所有BLSTM(包括LSTM)網絡中使用了256維隱藏狀態(tài),在這些神經網絡之前,利用一個帶有修正線性單元非線性的256維的嵌入層對球員特征和幀特征進行嵌入。本文對球員位置特征使用了32×32的bins與空間金字塔池化。所有視頻剪輯的時長均為4 s,用于注意力Softmax加權的τ值設為0.25。批處理大小為128,學習率為0.005,使用RMSProp算法[14],在每一萬次迭代后將學習率降低0.1個因子。實驗平臺是一個包括20個GPU的集群,迭代訓練10萬次。通過在驗證集上進行的交叉驗證選擇出超參數。
表2給出了每個設定的平均精度均值。使用全局信息以及局部球員信息的方法,性能優(yōu)于僅使用局部球員信息和僅使用全局信息的模型;使用加權求和對球員信息進行結合,性能優(yōu)于統(tǒng)一求均值,而基于跟蹤的注意力模型性能稍好于不帶跟蹤的版本。同時,一個標準的弱監(jiān)督方法,例如多示例學習[15](MIL),其有效性看起來要低于本文提出的模型方法。文獻[4]將直播文本(LT)作為輔助,分析并檢測了籃球視頻的中級語義特征,為了簡化,其將上籃得分和扣籃得分都歸納為兩分球得分,在籃球事件的構建上力求簡單,忽略了很多精彩的事件檢測。另外本文將文獻[7]多人視頻事件檢測方法應用到籃球視頻事件檢測中,該方法將視頻幀分為不同的區(qū)域來檢測人物角色和行為,其在快速變化的籃球視頻中效果并不好,是所有方法表現(xiàn)最差的一個,其主要原因可能是籃球視頻角色和運動轉換更快,采用一般多人視頻的檢測分析方法并不適用。
性能表現(xiàn)隨分類不同而變化,所有方法對例如“扣籃失敗”等的分類結果均不理想,本文對這種分類只有很少的數據。但是,在面對基于投籃的事件,例如“罰球”“上籃”和“三分球”等,本文方法性能表現(xiàn)較好,其中對投籃球員或防守球員的關注是十分有用的。
表2 孤立的視頻剪輯、事件分類的平均精度均值的比較
使用一個滑動窗口方法,即:滑動一個4 s窗口穿過所有的籃球比賽視頻,并將此窗口分入不相關類或11個事件分類之一,使用的步長為2 s。將與11個標注事件的重疊均不超過1 s的所有窗口視為不相關類。在訓練、測試和驗證階段使用了相同的設定。最終在所有的視頻中得出90 200個不相關樣本。
表3給出了檢測結果。可以看到,注意力模型的性能優(yōu)于現(xiàn)有的先進方法;與孤立剪輯分類相比較,所有的方法在時序定位方面均表現(xiàn)稍差。 在所有方法中,對“搶斷”的分類和檢測有著顯著的性能差別,這是因為在檢測設定中采用了很大數量的不相關實例,這種不相關事件通常為球員之間互相傳球活動?!皳寯唷笔录c“傳球”非常相似,區(qū)別在于前者的球傳遞到了對方球隊球員的手中。
表3 未剪輯視頻、事件檢測的平均精度均值比較
續(xù)表3
如上所述,注意力能夠在分類和檢測等任務中提高模型的性能。為評價注意力模型,本文標注了距離球最近的球員以及“投籃者”。
表4給出了在“投籃者”分類上的平均精度。結果表明,無跟蹤注意力模型能夠較好地為投籃者挑選一些適當的分類,如“罰球得分/失敗”“上籃得分/失敗”“扣籃得分”。這表明注意力在球員檢測上能夠定位正在投籃的球員。
表4 注意力評價的平均精度均值
圖2給出了在樣本視頻中,注意力的可視化表示。每幀中籃球的位置用“☆”表示,每列圖像表示一個不同類型的事件。圖3給出了被關注的球員在球場上3種不同類型的事件的空間分布熱度圖,表示隨著事件演變,被關注球員遍及籃球場上的不同位置。第一行表示“罰籃”的熱度圖。該模型重點關注一個事件開始時投籃球員的位置,隨后將注意力分散到其他位置。但是,在上籃事件中,關注點放在籃下;在罰球事件中,關注點在罰球線上;而在三分球事件中,關注點則在三分線外環(huán)。不帶跟蹤的模型將每幀中的檢測獨立于其他幀,事件終結時,注意力會根據上一事件狀態(tài)進行分散,比如三分球事件結束關注點在三分線外,因此,感覺注意力的范圍更大。而帶跟蹤的模型考慮運動軌跡和前后幀,并在整個事件中重點關注某個單一球員,對球員的偏移貫穿著整個視頻。例如,在罰球時,如圖4所示,該模型注意到處于一個特定位置的防守球員,與投籃者不同,該球員在整個事件中一直可見。
圖2 在不同事件的開始時高亮“被關注”的球員
圖3 注意力(來自不帶跟蹤模型)分布的可視化表示
圖4 帶跟蹤模型的注意力分布
針對多人視頻中的事件分類和檢測,本文提出一個基于注意力的模型。除了對事件進行識別之外,還能夠識別參與事件中的關鍵人,無須使用事件注釋的方式進行有針對性的訓練。因此,本文方法適用于多人環(huán)境。另外,本文還提出一個籃球比賽視頻數據集,包括密集的事件注釋。實驗結果表明,所提方法能夠對孤立剪輯進行分類,在較長的未剪輯視頻中對事件進行時間定位,性能較優(yōu),且可以將注意力放在相關球員上。