基于交互關(guān)系分組建模融合的組群行為識(shí)別算法

2022-02-12 02:48:42王傳旭

計(jì)算機(jī)與現(xiàn)代化 2022年1期

王傳旭,劉冉

(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東青島 266061)

0 引言

近年來，行為識(shí)別[1-3]在計(jì)算機(jī)視覺中取得重大進(jìn)展，其包括單人行為或多人合作的組群行為，在智能監(jiān)控、集體行為分析、大規(guī)模監(jiān)測和體育分析等領(lǐng)域具有重要的研究價(jià)值。與此同時(shí)，隨著深度學(xué)習(xí)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用，其逐漸成為行為識(shí)別研究的熱點(diǎn)。

由于組群行為是多人參加的集體活動(dòng)，在研究過程中，不僅要考慮單人的行為，還需要分析人與人之間的交互關(guān)系，而這些交互關(guān)系承載了組群行為的核心信息，制約著識(shí)別精度。文獻(xiàn)[4]提出了一種基于LSTM(Long-Short Term Memory)網(wǎng)絡(luò)的循環(huán)交互上下文模型，利用LSTM的信息傳播和聚集屬性建立模型，達(dá)到識(shí)別群組行為的目的。文獻(xiàn)[5]構(gòu)建了一種層次關(guān)系網(wǎng)絡(luò)，計(jì)算組群成員之間的個(gè)人表示和潛在關(guān)系并用于多人行為識(shí)別。文獻(xiàn)[6]設(shè)計(jì)出一種新的逐步細(xì)化群組行為低層次特征和高層次關(guān)系的方法，該方法構(gòu)造了一個(gè)語義關(guān)系圖(Semantic Relation Graph, SRG)，用于建模人物之間的關(guān)系，然后根據(jù)2個(gè)馬爾可夫決策過程對SRG逐步細(xì)化，得到最終的組群行為標(biāo)簽。文獻(xiàn)[7]設(shè)計(jì)了一種基于層次長短期并發(fā)記憶(H-LSTCM)的模型，通過模擬人群之間長期相互關(guān)聯(lián)的動(dòng)態(tài)信息來識(shí)別人物之間的相互作用。文獻(xiàn)[8]通過社交互動(dòng)將人群劃分為不同的社交群體，預(yù)測個(gè)人行為和社交行為，從而得到群組行為。文獻(xiàn)[9]將圖卷積網(wǎng)絡(luò)擴(kuò)展應(yīng)用到組群行為識(shí)別中，提出了一種成員關(guān)系圖(Actor Relation Graphs, ARG)，利用二維CNN和圖卷積網(wǎng)絡(luò)構(gòu)建了人物關(guān)系圖，以捕捉人物之間的外觀和位置關(guān)系，并推理他們的交互關(guān)系，使得群組行為識(shí)別的準(zhǔn)確性顯著提升。

以上這些基于深度學(xué)習(xí)網(wǎng)絡(luò)的組群行為識(shí)別方法雖然都取得了不錯(cuò)的結(jié)果，然而它們存在如下2個(gè)問題：1)沒有充分考慮復(fù)雜場景中組群成員的角色多樣繁雜，導(dǎo)致交互關(guān)系推理復(fù)雜度高，它們實(shí)際上是不宜采用單一的交互關(guān)系架構(gòu)來刻畫整個(gè)組群的特征。2)沒有考慮成員之間對組群行為的貢獻(xiàn)大小不一，缺少對核心成員在組群行為的決定性作用分析，籠統(tǒng)地考慮所有成員的交互關(guān)系，則會(huì)導(dǎo)致信息冗余和引入無關(guān)成員因素的噪聲干擾問題。因此，本文提出一種復(fù)雜組群場景下分組交互關(guān)系推理，并進(jìn)一步再融合的模型，將場景成員以分組和全局統(tǒng)籌2種信息互補(bǔ)方式分別進(jìn)行交互關(guān)系推理，逐步融合細(xì)化關(guān)系特征，再構(gòu)成互補(bǔ)雙路識(shí)別，旨在提升組群行為識(shí)別精度。

本文的工作主要有：

1)針對多角色復(fù)雜組群情況下的交互關(guān)系建模，根據(jù)視頻場景的初始化信息提出了分組建模方式，例如，根據(jù)組群成員之間的空間距離閾值(CAD數(shù)據(jù)集等)或空間坐標(biāo)(Volleyball數(shù)據(jù)集等)實(shí)施分組建模，則整個(gè)組群化整為零，不僅降低了交互關(guān)系推理的復(fù)雜度，還提升了交互關(guān)系建模的精細(xì)程度。

2)設(shè)計(jì)同一場景下不同分組建模中關(guān)鍵人物匹配的反饋優(yōu)化策略。在全局場景下，將利用GCN網(wǎng)絡(luò)得到的全局關(guān)系特征作為真實(shí)值，而各分組的局部關(guān)系特征合并組成的全局關(guān)系特征為預(yù)測值，構(gòu)建兩者之間的交叉熵?fù)p失函數(shù)反饋優(yōu)化上一級(jí)分組交互關(guān)系GCN網(wǎng)絡(luò)，旨在提升2個(gè)分組中的關(guān)鍵人物與全局中關(guān)鍵人物的匹配成功率。

3)構(gòu)建雙路互補(bǔ)的決策融合架構(gòu)，本文利用全局信息作為信息互補(bǔ)策略，結(jié)合初始特征構(gòu)成一路組群行為識(shí)別支路；同時(shí)，利用組間關(guān)系特征與初始特征構(gòu)成另一路組群行為識(shí)別支路，最后采用決策融合策略整合2個(gè)支路的識(shí)別結(jié)果，得到最終群組行為識(shí)別標(biāo)簽。

1 相關(guān)工作

1.1 常規(guī)無交互關(guān)系的群組行為識(shí)別方法

早期的群組行為識(shí)別方法關(guān)注于對整體組群場景的描述和建模，缺少對組群成員之間交互關(guān)系的刻畫。文獻(xiàn)[10]提出了一種Coherence Constrained Graph LSTM(CCG-LSTM)框架，抑制無關(guān)運(yùn)動(dòng)，提取相關(guān)運(yùn)動(dòng)以及其對群組行為的貢獻(xiàn)來實(shí)現(xiàn)行為識(shí)別。文獻(xiàn)[11]提出了一種基于多流架構(gòu)與長短時(shí)記憶網(wǎng)絡(luò)的模型，融合局部和全局的外觀和運(yùn)動(dòng)信息得到組群行為類別。文獻(xiàn)[12]提出了一種用于群體行為識(shí)別的半監(jiān)督、多級(jí)序列生成對抗網(wǎng)絡(luò)(MLS-GAN)結(jié)構(gòu)，該結(jié)構(gòu)以鑒別器和生成器對抗性的真假進(jìn)行半監(jiān)督學(xué)習(xí)，實(shí)現(xiàn)對群組行為的判斷。文獻(xiàn)[13]通過基于LSTM的層次關(guān)注和上下文建模框架同時(shí)處理對行為有重大貢獻(xiàn)的人和團(tuán)體中的背景結(jié)構(gòu)問題，進(jìn)行群組行為的識(shí)別。文獻(xiàn)[14]設(shè)計(jì)了一個(gè)弱監(jiān)督群體行為識(shí)別，在只有視頻級(jí)標(biāo)簽可用的情況下進(jìn)行訓(xùn)練和測試。上述方法雖然注意到了對全局組群場景的描述和利用，但是由于缺少對組群內(nèi)部成員交互關(guān)系的體現(xiàn)而顯得整體組群特征比較粗糙，使得它們的識(shí)別精度受限。

1.2 基于交互關(guān)系建模組群行為識(shí)別方法

隨著研究方法的深入，認(rèn)識(shí)到組群成員內(nèi)部的交互關(guān)系才是描述組群行為的核心信息載體[15]，近年提出了不少交互關(guān)系建模的深度學(xué)習(xí)方法。文獻(xiàn)[16]構(gòu)造了一種分層圖型模型，考慮個(gè)人行為標(biāo)簽之間的依賴性來優(yōu)化每個(gè)行為的預(yù)測標(biāo)簽，然后捕捉單人行為類別，達(dá)到識(shí)別群組行為的目的。文獻(xiàn)[17]提出了基于注意力和圖架構(gòu)的群體行為識(shí)別模型，通過捕獲多個(gè)人交互關(guān)系，構(gòu)建關(guān)聯(lián)圖，進(jìn)行關(guān)系推理，實(shí)現(xiàn)群組行為標(biāo)簽的預(yù)測。文獻(xiàn)[18]提出了一種結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(SRNN)，利用一系列相互連接的RNN網(wǎng)絡(luò)來共同捕捉個(gè)人行為、人與人之間的交互關(guān)系及群組行為。文獻(xiàn)[19]提出了嵌入圖關(guān)注塊(GAB)的圖注意力交互模型(GAIM)，以在架構(gòu)中顯式和自適應(yīng)地推斷個(gè)人和組群級(jí)別的不平衡交互關(guān)系，并進(jìn)一步學(xué)習(xí)和時(shí)空演化這些互動(dòng)中的集體行為預(yù)測標(biāo)簽。以上方法均重視了利用交互關(guān)系構(gòu)建組群特征，并通過對應(yīng)的消融測試(ablation tests)證實(shí)了交互關(guān)系模塊可以有效提升識(shí)別精度。

1.3 基于關(guān)鍵人物的交互關(guān)系建模的組群行為識(shí)別方法

交互關(guān)系描述可以細(xì)致刻畫組群內(nèi)部的成員之間的互動(dòng)，從組群內(nèi)部反映群體行為的本質(zhì)，近期的文獻(xiàn)在此基礎(chǔ)上提出以關(guān)鍵人物為核心的交互關(guān)系建模方法，不僅約簡了交互關(guān)系模型，重點(diǎn)突出了核心成員對組群行為的影響，還抑制了無關(guān)人員的冗余信息干擾。

文獻(xiàn)[20]提出了一個(gè)基于注意力機(jī)制和遞歸神經(jīng)網(wǎng)絡(luò)RNN的模型，該文通過他們提出的大規(guī)模僅有運(yùn)動(dòng)時(shí)間標(biāo)注的籃球數(shù)據(jù)集上，測試該模型證明了關(guān)鍵人物在多人行為識(shí)別中的決定性作用。文獻(xiàn)[21]提出了一種參與貢獻(xiàn)時(shí)間動(dòng)態(tài)模型(PC-TDM)以便排除無關(guān)次要人員的干擾，得到群組行為標(biāo)簽。文獻(xiàn)[22]結(jié)合時(shí)空注意力的語義圖提出了一種注意力語義遞歸神經(jīng)網(wǎng)絡(luò)(stagNet)，利用時(shí)空注意力模型來關(guān)注關(guān)鍵人物，以提高識(shí)別性能。文獻(xiàn)[23]開發(fā)了一種語義保存師生(SPTS)網(wǎng)絡(luò)體系結(jié)構(gòu)，證明利用注意力機(jī)制確定關(guān)鍵人物能提升3%的準(zhǔn)確率。文獻(xiàn)[24]構(gòu)建了一種使用門控融合單元(Gated Fusion Unit, GFU)進(jìn)行特征融合的組群行為識(shí)別框架，其重點(diǎn)關(guān)注關(guān)鍵人物特征信息，忽略無關(guān)人員對群組行為的影響，最后送入softmax分類器進(jìn)行組群行為類別分類。

1.4 基于多支路決策融合的組群行為識(shí)別方法

交互關(guān)系是組群行為的核心但不是全部信息載體，本文基于信息互補(bǔ)思想，除了分組交互關(guān)系信息支路實(shí)現(xiàn)行為識(shí)別外，還設(shè)計(jì)包含底層時(shí)空信息和全局信息的另一路識(shí)別網(wǎng)絡(luò)，希望通過決策融合的方法，獲得更佳識(shí)別效果。

總的說來，決策水平可以融合模型中不同的分類結(jié)果，同時(shí)不同分類器的錯(cuò)誤互不相關(guān)、互不影響，不會(huì)造成錯(cuò)誤的進(jìn)一步累加，常見的融合方式包括最大值融合(max-fusion)、投票法[25]、加權(quán)平均法(averaged-fusion)[11]和基于貝葉斯規(guī)則的融合(Bayes’rule based)[26]等?？紤]到分類器存在拒識(shí)別問題，經(jīng)過對上述方法分析對比后，本文采用權(quán)重自適應(yīng)方法進(jìn)行2支路的決策融合，即對于2個(gè)支路得到的結(jié)果進(jìn)行歸一化處理，計(jì)算本路準(zhǔn)確度在結(jié)果集合中所占比例作為支路的權(quán)重劃分依據(jù)(權(quán)重之和為1)，以期能有效提高最終的識(shí)別結(jié)果。

綜合考慮以上4種方法的優(yōu)點(diǎn)，本文擬將復(fù)雜群組劃分為交互相對簡單鮮明的幾個(gè)小組，通過關(guān)系推理選取它們中的關(guān)鍵人物(交互關(guān)系最強(qiáng)的人員)來進(jìn)行整個(gè)群組行為的預(yù)測。重點(diǎn)解決如何充分利用關(guān)鍵人物和交互關(guān)系信息，以及為了進(jìn)一步降低交互關(guān)系推理的復(fù)雜度提出分組建模，來提高群組行為識(shí)別精度。

2 算法描述

算法模型如圖1所示，概述如下。

圖1 本文整體算法架構(gòu)

首先，將組群成員按照位置信息分為2組?；跀?shù)據(jù)集提供的bounding boxes標(biāo)注信息，本文進(jìn)一步通過Inception-v3[27]和RoIAlign[28]這2個(gè)網(wǎng)絡(luò)提取視頻外觀特征，并將此稱為初始特征。利用個(gè)人空間坐標(biāo)X排序大小先后建立組群成員序號(hào){ID=(0,1,…,n)}，n表示組群成員人數(shù)，并對組群進(jìn)行二分組(以6個(gè)人為一組從左到右分為2組)。這樣可得分組a、分組b和全局3個(gè)組群場景。

最后，構(gòu)建信息互補(bǔ)的雙路識(shí)別網(wǎng)絡(luò)，通過決策融合獲得組群行為類別。將初始特征信息分別與上述得到的全局特征Gg和精簡全局關(guān)系特征L組成2支路識(shí)別網(wǎng)絡(luò)，并通過決策融合得到組群行為標(biāo)簽。

3 初始特征提取

本文主要針對Volleyball數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理得到組群成員的外觀特征信息。

首先，借用文獻(xiàn)[29]提供的針對該數(shù)據(jù)集的軌跡數(shù)據(jù)，得到組群成員的邊界框，如圖2所示，利用該標(biāo)注信息形成每個(gè)成員的邊界框序列。然后，采用Inception-v3和RoIAlign網(wǎng)絡(luò)提取每幀邊界框成員的精準(zhǔn)外觀特征。最后，經(jīng)過全連接層獲得每個(gè)成員的d維外觀特征向量，即每個(gè)人的初始特征。

圖2 Volleyball數(shù)據(jù)集中個(gè)人和組群行為的邊界框標(biāo)定樣例

4 交互關(guān)系分組建模

由于復(fù)雜群組情況下，參與人數(shù)較多和角色復(fù)雜會(huì)導(dǎo)致交互關(guān)系推理難度提升，本文采用分組建模方法。針對Volleyball數(shù)據(jù)集，利用每個(gè)人的bounding box的X坐標(biāo)和序號(hào)ID將整個(gè)組群分為2組，如圖3所示的小組a和小組b。然后，針對每組群體采用GCN網(wǎng)絡(luò)進(jìn)行交互關(guān)系建模，詳細(xì)過程如下。

圖3 Volleyball數(shù)據(jù)集中整體組群分為2組展示

4.1 組內(nèi)交互關(guān)系建模

利用GCN進(jìn)行組群交互關(guān)系建模時(shí)，需要先初始化交互關(guān)系。受到文獻(xiàn)[9]的啟發(fā)，本文利用組群成員間的外觀特征、位置信息，構(gòu)建有向關(guān)系圖作為GCN的初始輸入。

4.1.1 組內(nèi)交互關(guān)系的初始化

針對群內(nèi)成員關(guān)系圖的初始化，本文隨機(jī)輪流選取多個(gè)成員作為目標(biāo)節(jié)點(diǎn)，分別將成員間的外觀特征相似度、相對位置遠(yuǎn)近和關(guān)系值大小作為度量，構(gòu)建多個(gè)關(guān)系圖。如圖4所示的3個(gè)有向關(guān)系圖實(shí)例，它們是同時(shí)選取成員0和5作為目標(biāo)節(jié)點(diǎn)產(chǎn)生的，規(guī)定箭頭方向指向目標(biāo)節(jié)點(diǎn)。下面針對上述3個(gè)度量進(jìn)行闡述。

圖4 分組a關(guān)系圖展示

針對外觀信息相似度的計(jì)算，本文采用嵌入向量卷積方法，公式如下：

(1)

針對空間位置遠(yuǎn)近的計(jì)算，本文采用距離編碼的方式，公式如下：

(2)

其中，φt使用不同波長的正弦和余弦函數(shù)將2個(gè)人物的相對距離嵌入到高維表示中，Wt,p和bt,p是嵌入特征轉(zhuǎn)換為標(biāo)量的權(quán)重向量，最后進(jìn)行ReLU激活。

基于上述信息，則成員i和j的關(guān)系值度量，本文采用如下公式：

(3)

針對關(guān)系圖初始化的最佳數(shù)量問題，為了避免初始化關(guān)系圖的偏頗，本文針對一個(gè)分組場景生成了多個(gè)初始化關(guān)系圖，以表征其交互關(guān)系的多樣性和可能性，將在實(shí)驗(yàn)部分通過統(tǒng)計(jì)分析的方法，確定初始化關(guān)系圖的最優(yōu)數(shù)量范圍。

4.1.2 交互關(guān)系分組推理

初始化后的關(guān)系圖送入GCN進(jìn)行組內(nèi)交互關(guān)系推理。如圖5所示，以分組a中目標(biāo)節(jié)點(diǎn)0、5為例，針對每個(gè)初始化輸入關(guān)系圖，令Ga∈RKa×Ka表示該圖中各個(gè)節(jié)點(diǎn)之間的相關(guān)性矩陣，Ka代表分組a的人物總數(shù)；Ha(l)∈RKa×d代表GCN第l層的節(jié)點(diǎn)特征集合，Wa(l)∈Rd×d代表l層的學(xué)習(xí)權(quán)重矩陣，則GCN對該圖的目標(biāo)節(jié)點(diǎn)利用公式(4)與其關(guān)系節(jié)點(diǎn)進(jìn)行信息聚合，圖中用節(jié)點(diǎn)體積變大代表聚合信息的增加，如圖5右側(cè)關(guān)系圖中目標(biāo)節(jié)點(diǎn)0和5。

圖5 分組a推理關(guān)系圖展示

GCN推理單張關(guān)系圖的簡化公式為：

Ha(l+1)=ReLU(GtHa(l)Wa(l))

(4)

(5)

4.2 交互關(guān)系推理可視化

下面以組群行為“L-spike”為例，闡述上述交互關(guān)系推理的可視化過程，旨在進(jìn)一步論述組群中每個(gè)成員的交互關(guān)系融合機(jī)理和關(guān)鍵人物的確認(rèn)。

圖6中，橫坐標(biāo)表示目標(biāo)成員，縱坐標(biāo)代表與之交互的關(guān)系成員，用灰色的暗淡代表交互關(guān)系的強(qiáng)弱。其中，圖6(a)展示了全局場景下群組交互關(guān)系推理出的成員之間相關(guān)性矩陣圖，通過計(jì)算每個(gè)目標(biāo)成員所在列之和作為其對外的關(guān)系強(qiáng)度，進(jìn)而經(jīng)過排序定位出關(guān)鍵人物；以目標(biāo)成員2和5為例，經(jīng)過排序后，目標(biāo)節(jié)點(diǎn)2的交互關(guān)系強(qiáng)度最弱，其融合關(guān)系節(jié)點(diǎn)的特征最少，優(yōu)先排除作為關(guān)鍵人物的可能性；目標(biāo)節(jié)點(diǎn)5與其他成員的交互關(guān)系強(qiáng)度最強(qiáng)，交互關(guān)系強(qiáng)度排在第一位，所以定位“5”為全局關(guān)鍵人物，如圖所示關(guān)鍵人物用星號(hào)標(biāo)注，又由于其行為屬性為“spike”，進(jìn)而為下一步組群行為預(yù)測為“L-spike”提供重要信息。圖6(b)和圖6(c)展示的是分組場景下群組交互關(guān)系推理的相關(guān)性矩陣圖，根據(jù)同樣規(guī)則進(jìn)行關(guān)系強(qiáng)度排序，定位關(guān)鍵人物分別為“5-spike”和“6-block”。

(a) 全局：“L-spike”

(b) 分組a：“Spike”

5 全局與子組內(nèi)關(guān)鍵人物匹配和再優(yōu)化

圖7 關(guān)鍵人物再優(yōu)化和匹配結(jié)構(gòu)圖

(6)

(7)

其中，⊕表示連接，C=cI+cg，cI和cg分別代表個(gè)人和群組行為的類別數(shù)量。

6 基于信息互補(bǔ)構(gòu)建雙路識(shí)別

針對全局關(guān)系特征Gg比較寬泛，而組間關(guān)系特征L相對精簡，為了達(dá)到信息互補(bǔ)的目的，本文將初始特征分別與兩者相結(jié)合，構(gòu)建雙路識(shí)別網(wǎng)絡(luò)。

(8)

(9)

其中，yG和yL代表全局和分組的組群行為分?jǐn)?shù)，λ1、λ2是自適應(yīng)權(quán)重。

圖8以“L-spike”組群行為識(shí)別為例，展示整個(gè)群組行為雙路識(shí)別架構(gòu)。2個(gè)分組作為支路，經(jīng)GCN關(guān)系推理和關(guān)鍵人物匹配再優(yōu)化得到精簡組間關(guān)系特征L與初始特征聚合，送入分類器進(jìn)行群組行為識(shí)別；初始特征和全局關(guān)系特征Gg聚合，送入分類器實(shí)現(xiàn)另一路群組行為識(shí)別，兩者經(jīng)過決策融合得到最終的行為識(shí)別標(biāo)簽“L-spike”。

圖8 “L-spike”推理過程樣例圖

為了低成本保留時(shí)間信息，在時(shí)間和計(jì)算資源的合理預(yù)算下實(shí)現(xiàn)端到端學(xué)習(xí)。本文模型采用稀疏時(shí)間采樣策略提取時(shí)間域中的信息。在訓(xùn)練期間，從數(shù)據(jù)集中隨機(jī)采樣一組N=3幀，并在這些幀中的人物上構(gòu)建時(shí)間圖。在測試時(shí)，使用滑動(dòng)窗口方法，對所有窗口的活動(dòng)分?jǐn)?shù)求平均以形成全局活動(dòng)預(yù)測。

7 算法驗(yàn)證

本文采用公開數(shù)據(jù)集Volleyball和NBA進(jìn)行算法的驗(yàn)證。

7.1 數(shù)據(jù)集

Volleyball數(shù)據(jù)集[5]包含55個(gè)排球比賽視頻，每個(gè)比賽視頻又劃分出了多個(gè)組群行為片段，共計(jì)4830個(gè)視頻片段；其中每個(gè)片段包含1個(gè)組活動(dòng)標(biāo)簽，包括Right set、Right spike、Right pass、Right winpoint、Left set、Left spike、Left pass、Left winpoint這8種類別。此外，每個(gè)片段都標(biāo)有個(gè)人動(dòng)作標(biāo)簽，這些個(gè)人行為共包括9種類型：waiting、setting、digging、falling、spiking、blocking、jumping、standing、moving。本文選用其中的3493個(gè)片段作為訓(xùn)練，1337個(gè)測試片段用來測試。

NBA數(shù)據(jù)集[14]包含181個(gè)籃球比賽視頻，每個(gè)比賽視頻又劃分出了多個(gè)組群行為片段，共計(jì)9172個(gè)視頻片段；其中每個(gè)片段包含1個(gè)組活動(dòng)標(biāo)簽，包括2p-succ、2p-fail.-offff、2p-fail.-def、2p-layup-succ、2p-layup-fail.-offff、2p-layup-fail.-def、3p-succ、3p-fail.-offff、3p-fail.-def這9種類別，本文選用其中的7624個(gè)片段作為訓(xùn)練，1548個(gè)測試片段用來測試。

7.2 實(shí)驗(yàn)配置和網(wǎng)絡(luò)參數(shù)初始化

本實(shí)驗(yàn)在Pytorch框架下進(jìn)行，Ubuntu版本為18.04，CUDA版本為8.0，CUDNN版本為6.0，顯卡型號(hào)為NVIDIA GTX1080Ti。為了計(jì)算高效、所需內(nèi)存少，本文使用Adam的隨機(jī)梯度下降來學(xué)習(xí)具有固定超參數(shù)的網(wǎng)絡(luò)參數(shù)(θ1=0.9，θ2=0.999，ε=10-8)，對于Volleyball數(shù)據(jù)集：最小批次為32幀，學(xué)習(xí)率為0.00005，Epochs為100；對于NBA數(shù)據(jù)集，使最小批次為64幀，學(xué)習(xí)率為0.0001，Epochs為200；對于關(guān)系推理來說，GCN的參數(shù)設(shè)置為dk=256、ds=32對數(shù)據(jù)進(jìn)行統(tǒng)一化，防止網(wǎng)絡(luò)不收斂。

本文使用第3章提到的方法，為每個(gè)人物提取1024維特征向量。通過第4章的方法，把每個(gè)人看成一個(gè)節(jié)點(diǎn)，構(gòu)建關(guān)系圖作為GCN網(wǎng)絡(luò)的輸入。融合GCN輸出關(guān)系圖的數(shù)據(jù)生成每個(gè)人的交互關(guān)系特征向量，并用來進(jìn)行關(guān)鍵人物的提取和群組行為的識(shí)別。實(shí)驗(yàn)期間，經(jīng)過對VGG16[29]網(wǎng)絡(luò)和Inception v3進(jìn)行比較，決定采用第2個(gè)網(wǎng)絡(luò)為骨干網(wǎng)絡(luò)，并與現(xiàn)有算法進(jìn)行比較。

7.3 初始化交互關(guān)系圖最佳數(shù)量的確定

為了確定初始化關(guān)系圖數(shù)量的最佳范圍，本文通過實(shí)驗(yàn)并以組群行為識(shí)別準(zhǔn)確率作為評價(jià)指標(biāo)來進(jìn)行驗(yàn)證和統(tǒng)計(jì)。全局和分組的初始化關(guān)系圖測試結(jié)果如表1所示。

從表1(a)與表1(b)對比中發(fā)現(xiàn)，全局和分組人物初始關(guān)系圖得到最佳結(jié)果的數(shù)量要求不同，在全局交互關(guān)系推理中16張圖最佳，在分組交互關(guān)系推理中8張圖最有效，這是因?yàn)殡S著群組成員的數(shù)量變化，不同類型的交互關(guān)系數(shù)量也會(huì)發(fā)生改變，初始關(guān)系圖的數(shù)量要求也有所不同。在以下實(shí)驗(yàn)中采用全局關(guān)系圖的數(shù)量為16，分組關(guān)系圖的數(shù)量為8。

表1 基于排球數(shù)據(jù)集的群組行為識(shí)別準(zhǔn)確率表(a) 全局關(guān)系：不同數(shù)量初始化關(guān)系圖時(shí)的識(shí)別精度比較

表(b) 分組關(guān)系：不同數(shù)量初始化關(guān)系圖時(shí)的識(shí)別精度比較

7.4 消融測試

為了測試分組交互關(guān)系對組群行為分類的重要性，本文設(shè)計(jì)3種基線方法與本文模型進(jìn)行比較。

Baseline1為全局場景下，群組成員經(jīng)過關(guān)系圖建模和GCN關(guān)系推理，得到最終的識(shí)別結(jié)果，簡稱B1。

Baseline2為場景分組，對各分組成員分別進(jìn)行關(guān)系圖建模和GCN關(guān)系推理得到各自的關(guān)鍵人物，然后再次進(jìn)行GCN推理，最后將獲得的精簡組間關(guān)系特征送入分類器進(jìn)行識(shí)別，簡稱B2。

Baseline3為沒有交叉熵?fù)p失函數(shù)優(yōu)化的情況下，全局交互關(guān)系指導(dǎo)組間交互關(guān)系的推進(jìn)，各分組通過關(guān)系推理得到組關(guān)鍵人物，對組間關(guān)鍵人物再次進(jìn)行關(guān)系推理，后期采用決策融合的方式得到最終行為標(biāo)簽，簡稱B3。

Baseline4即本文算法，在交叉熵?fù)p失函數(shù)對分組關(guān)系推理再優(yōu)化的情況下，全局交互關(guān)系指導(dǎo)組間交互關(guān)系推理，各分組通過關(guān)系推理得到組內(nèi)關(guān)鍵人物，對組間關(guān)鍵人物再次進(jìn)行關(guān)系推理，后期采用決策融合的方式得到最終行為標(biāo)簽，簡稱B4。

表2展示了本文模型在Volleyball數(shù)據(jù)集上各基線方法的實(shí)驗(yàn)結(jié)果。

表2 模型在Volleyball數(shù)據(jù)集上各種基線方法的比較

經(jīng)過表2實(shí)驗(yàn)結(jié)果對比，分析得到：1)B2比B1準(zhǔn)確率提升了0.6個(gè)百分點(diǎn)，這是因?yàn)榕c全局關(guān)系推理不同，分組交互關(guān)系推理簡化了復(fù)雜群組的關(guān)系建模，降低了信息冗余，因此能夠提高組群行為識(shí)別率。2)B3比B2準(zhǔn)確率提升了0.4個(gè)百分點(diǎn)，因?yàn)橥ㄟ^分組交互關(guān)系的推理結(jié)合全局關(guān)系推理，確定了各分組關(guān)鍵人物的重要程度，有利于精簡全局關(guān)系圖的構(gòu)建，后期經(jīng)過信息互補(bǔ)的雙路決策融合，能讓群組行為識(shí)別更為準(zhǔn)確。3)B4比B3準(zhǔn)確率提升了0.8個(gè)百分點(diǎn)，最大原因是，在進(jìn)行B4模型推理前期，通過交叉熵?fù)p失函數(shù)確保全局和分組關(guān)鍵人物能夠匹配成功，在一定程度上防止了信息不收斂，能顯著提升群組行為的識(shí)別效果。B4準(zhǔn)確率高于其他基線模型，這表明，按照場景信息分組，精簡全局交互關(guān)系推理和信息互補(bǔ)雙路識(shí)別，對提高群組行為的識(shí)別精度有著重要作用。因此，本文模型即B4的實(shí)驗(yàn)效果最佳。

7.5 本文模型與其他方法的比較

為了證明本文算法的有效性和先進(jìn)性，本文通過以準(zhǔn)確率為基準(zhǔn)與其他先進(jìn)算法進(jìn)行比較。

7.5.1 Volleyball數(shù)據(jù)集

表3為本文算法和近兩年CVPR算法在Volleyball數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。從表中數(shù)據(jù)分析，本文融合了前4種方法中的特征提取、外觀和位置信息和關(guān)系推理的方法，取得了較為優(yōu)越的識(shí)別效果，識(shí)別精度分別提高了2.5個(gè)百分點(diǎn)、3.6個(gè)百分點(diǎn)、1.3個(gè)百分點(diǎn)和0.5個(gè)百分點(diǎn)。

表3 Volleyball數(shù)據(jù)集流行方法的比較

表3中，本文使用與文獻(xiàn)[30]相同的Inception-v3模型進(jìn)行特征提取，但該文獻(xiàn)模型側(cè)重通過全連接層(FCN)對特征提取層進(jìn)行微調(diào)，以使其能夠捕獲上下文和交互信息，而本文模型主要通過捕獲和利用群組成員之間的交互關(guān)系進(jìn)行建模，定位了關(guān)鍵人物，并進(jìn)一步構(gòu)建組間交互關(guān)系模型，并與全局交互關(guān)系模型構(gòu)成雙路互補(bǔ)識(shí)別網(wǎng)路，然后，雙路網(wǎng)絡(luò)再進(jìn)行決策融合實(shí)現(xiàn)最終的組群行為識(shí)別，因此在識(shí)別準(zhǔn)確性方面提高了2.5個(gè)百分點(diǎn)。文獻(xiàn)[5]在關(guān)系建模時(shí)缺少對空間位置信息的考量，因此提取的交互關(guān)系特征不充分，無法證明交互關(guān)系的完整性，本文方法優(yōu)點(diǎn)在于構(gòu)建了基于位置和外觀信息的關(guān)系圖，并通過GCN網(wǎng)絡(luò)進(jìn)行交互關(guān)系推理，從而實(shí)現(xiàn)整個(gè)群組行為的分析。文獻(xiàn)[6]的語義關(guān)系圖主要是采用底層時(shí)空特征和原始交互特征作為群組成員節(jié)點(diǎn)的屬性，而本文使用了更為具體的外觀和位置信息構(gòu)建出的關(guān)系圖和采用了更為有效的關(guān)系圖時(shí)間建模方法，因此，組群行為準(zhǔn)確率從91.8%提升到93.1%。最后，本文模型準(zhǔn)確率高于文獻(xiàn)[9]，主要是因?yàn)楸疚脑谄淙株P(guān)系推理的基礎(chǔ)上，又采用了分組關(guān)系推理的方法，利用代表各分組信息的組關(guān)鍵人物進(jìn)行精簡交互關(guān)系推理，并與全局關(guān)系推理進(jìn)行決策融合達(dá)到信息互補(bǔ)的目的，來提高識(shí)別結(jié)果的準(zhǔn)確性。

7.5.2 NBA數(shù)據(jù)集

本實(shí)驗(yàn)借用文獻(xiàn)[14]中目標(biāo)檢測模塊提供的成員真實(shí)邊界框和行為標(biāo)簽信息來驗(yàn)證本文算法的有效性，并在NBA數(shù)據(jù)集上與近幾年視頻分類算法的測試結(jié)果進(jìn)行了比較，包括：TSN[31]、TRN[32]、I3D[33]、I3D+NLN[1]、SAM[14]，從表4中數(shù)據(jù)分析，識(shí)別精度分別提高了10.3個(gè)百分點(diǎn)、7.8個(gè)百分點(diǎn)、15.4個(gè)百分點(diǎn)、15.8個(gè)百分點(diǎn)和0.6個(gè)百分點(diǎn)。

表4中，本文算法準(zhǔn)確率高于文獻(xiàn)[31-32]，是因?yàn)椤癟SN”和“TRN”的方法僅使用幀級(jí)信息，而本文在使用幀級(jí)信息的基礎(chǔ)上，再利用視頻幀內(nèi)成員的外觀、位置和交互信息構(gòu)建關(guān)系圖，通過提煉幀內(nèi)信息的方式，達(dá)到提高群組行為識(shí)別準(zhǔn)確度的目的。本文算法準(zhǔn)確率高于文獻(xiàn)[1，33]，主要是因?yàn)椤癐3D”和“I3D+NLN”模型過度依賴于密集視頻幀，信息冗余，無法精煉信息，所以在測試中表現(xiàn)不佳。本文算法準(zhǔn)確率高于文獻(xiàn)[14]，是因?yàn)椋紫缺疚乃惴ㄊ窃谖墨I(xiàn)[14]目標(biāo)檢測模塊獲取的人物候選框的基礎(chǔ)上，再通過Incvption-v3和RoIAlign網(wǎng)絡(luò)獲得更為精確的外觀信息；然后本文算法與文獻(xiàn)[14]在視頻幀內(nèi)建立關(guān)系圖的方式不同，文獻(xiàn)[14]對所有成員使用全連接的方式，會(huì)導(dǎo)致信息冗余、計(jì)算量大的問題，降低識(shí)別效果，而本文模型在全局和分組場景下建立交互關(guān)系模型，再利用代表各分組信息的組關(guān)鍵人物進(jìn)行精簡交互關(guān)系推理，大幅度降低了計(jì)算量，提升了識(shí)別精度，最終在通過全局和組間關(guān)系推理進(jìn)行決策融合的方式進(jìn)行信息互補(bǔ)，提高了識(shí)別結(jié)果的準(zhǔn)確性。

表4 NBA數(shù)據(jù)集流行方法的比較

8 結(jié)束語

本文針對組群行為中個(gè)體成員運(yùn)動(dòng)屬性較多，交互關(guān)系復(fù)雜以及常規(guī)全連接交互關(guān)系模型中的信息冗余等問題，構(gòu)建一種復(fù)雜組群分組交互關(guān)系建模的框架。通過分別對場景分組和全局群組的交互關(guān)系建模，提取到了各分組和全局關(guān)鍵人物，并對兩者進(jìn)行匹配和再優(yōu)化操作；然后，對匹配成功后的組間關(guān)鍵人物再次進(jìn)行交互關(guān)系建模，得到精簡全局關(guān)系特征；最后，全局和精簡全局關(guān)系特征分別結(jié)合初始特征，構(gòu)建了雙路組群行為識(shí)別架構(gòu)，并利用決策融合實(shí)現(xiàn)群組行為的識(shí)別。在Volleyball數(shù)據(jù)集和CAD數(shù)據(jù)集上對本文模型進(jìn)行訓(xùn)練和測試，并對比多種方法，驗(yàn)證了分組關(guān)系推理在組群行為識(shí)別的有效性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放