亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于選擇性融合及關(guān)系推理的群組行為識別

        2023-01-01 00:00:00劉斯凡林國丞秦建偉王傳旭
        計算機應(yīng)用研究 2023年3期

        摘 要:為解決如何選取更具辨別力的多模態(tài)人物特征,以及在進行人物關(guān)系推理時如何更加關(guān)注特定于個人的時空交互建模的問題,提出了基于選擇性特征融合的動態(tài)關(guān)系推理算法框架(SFDRI)。通過設(shè)計選擇性特征融合模塊,根據(jù)不同模態(tài)特征的隨機函數(shù)概率分布得分,添加重采樣方法以選取最相關(guān)的特征表示實現(xiàn)多模態(tài)特征的選擇融合,并采用動態(tài)關(guān)系推理模塊實現(xiàn)針對個人的復(fù)雜時空推理,通過在時空圖上初始化交互域,利用點積計算預(yù)測人物交互關(guān)系矩陣,并同時添加每個人物特征的動態(tài)偏移以形成特定于個人的交互圖,通過迭代更新交互圖上的特征進行最終的群組行為的識別。結(jié)合對比實驗,算法在公開的排球數(shù)據(jù)集(volleyball dataset,VD)和集體活動數(shù)據(jù)集(collective activity dataset,CAD)上分別提升了1.2%和1.5%的平均識別精度,證明了算法框架的有效性。

        關(guān)鍵詞:群組行為識別;多模態(tài)融合;交互關(guān)系推理;行為識別

        中圖分類號:TP301.6 文獻標志碼:A

        文章編號:1001-3695(2023)03-045-0914-05

        doi:10.19734/j.issn.1001-3695.2022.07.0346

        Group activity recognition based on selective fusion and relational reasoning

        Liu Sifan,Lin Guocheng,Qin Jianwei,Wang Chuanxu

        (School of Information Science amp; Technology,Qingdao University of Science amp; Technology,Shandong Qingdao 266061,China)

        Abstract:To address the problem of how to select more discriminative multimodal character features and how to pay more attention to individual-specific spatio-temporal interaction modeling when performing character relationship inference,this paper proposed an algorithmic framework for dynamic relationship inference based on selective feature fusion(SFDRI).It achieved the selective fusion of multimodal features by designing a selective feature fusion module that added a resampling method to select the most relevant feature representation based on the probability distribution scores of the random functions of different modal features.And it used the dynamic relationship inference module to achieve complex spatio-temporal inference for indivi-duals.By initializing the interaction domain on the spatio-temporal graph,it used the dot product to calculate the predicted character interaction matrix,and meanwhile added dynamic offsets of each character feature to form an individual-specific interaction graph,and iteratively updated the features on the interaction graph for the final group behavior recognition.Combined with the comparison experiments,the algorithm improves the average recognition accuracy by 1.2% and 1.5% on the publicly available volleyball dataset and collective activity dataset,respectively,demonstrating the effectiveness of the algorithmic framework.

        Key words:group activity recognition;multi-modal fusion;interaction relation reasoning;behavior recognition

        0 引言

        群組行為識別旨在推斷場景中一群人執(zhí)行的整體活動。其深入研究在監(jiān)控、體育視頻分析、社會場景理解、異常行為監(jiān)測等場景中有著重要的社會應(yīng)用價值。

        在研究中,對人物間復(fù)雜的時空相互作用進行建模是一項難題,通過精心設(shè)計的推理模塊提煉人物之間的高級語義關(guān)系,建模推斷視頻中的群體、事件或關(guān)鍵參與者[1,2],關(guān)乎識別最終的準確率。隨著神經(jīng)網(wǎng)絡(luò)的出現(xiàn),群組行為識別工作[3]成功地通過循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在人物動作和群體層面上建模了時間動態(tài);文獻[4]的工作將RNN與注意力機制相結(jié)合,以捕獲人與人之間的空間或時間域中的關(guān)鍵特征以更好地進行識別。近年來,基于圖結(jié)構(gòu)數(shù)據(jù)進行推理的方法引起了研究者的注意[5],包括基于圖卷積的變體網(wǎng)絡(luò)[6],它們在構(gòu)建的語義圖上進行信息傳遞,取得了具有競爭力的結(jié)果[7]。Wu等人[8]最先提出使用圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)來學(xué)習時空圖上人與人之間的交互;后來,一些工作[9]在建立關(guān)系模型和聚集特征時,將以前的全連通圖改進為縱橫交錯圖以進行群體成員之間的關(guān)系推理。然而,上述方法在預(yù)定義的圖上建立個體成員之間的交互,忽視了群組成員會根據(jù)自己的上下文關(guān)系與其他人物互動的問題。如圖1所示,左側(cè)視頻中第二個人與即將扣球的第四個人互動,右側(cè)視頻中的第四個人與即將發(fā)球的第五個人進行互動,灰色箭頭表示連接關(guān)鍵人物和重要語義人物的交互,可以明顯看出與特定成員互動的其他參與者應(yīng)該是針對該成員的,預(yù)定義的圖方法不適合每一個成員的關(guān)系推理。針對上述問題,文章受可變形卷積[10]的啟發(fā)設(shè)計了動態(tài)關(guān)系推理模塊,包括人物間的關(guān)系學(xué)習和動態(tài)位置偏移兩個部分,通過結(jié)合兩個部分來預(yù)測特定于人物的交互圖,關(guān)系學(xué)習部分預(yù)測一個人特定的關(guān)系矩陣,動態(tài)位置偏移預(yù)測交互場內(nèi)每個特征的位置偏移,將初始化的交互域形成一個圖,從而實現(xiàn)全局級別的互動,以更好地推理視頻中人物之間的關(guān)系從而進行群組行為識別。

        另一個群組行為識別中常被忽略的問題則是多模態(tài)特征融合。在進行人物間關(guān)系提煉推理之前,單人特征提取階段有著給定視頻數(shù)據(jù)人物多、動作變化多樣的特點,單一模態(tài)的視覺特征提取方法不足以檢測到動作的細微變化,Simonyan等人[11]證明了通過融合包含互補信息的不同模態(tài)人物特征可以提高性能。因此在研究中傾向于提取多種模態(tài)的特征信息以增強人物表示、豐富互補的特征信息,為了減輕計算量去除冗余信息,就需要從多種模態(tài)特征中提取最具代表性的特征來增強人物表示[1]。在先前的工作中,一部分群組行為識別算法遵循后期融合策略,例如文獻[12]提出的多流架構(gòu)與長短時記憶網(wǎng)絡(luò)模型,通過后期決策層融合多流得分進行預(yù)測,但無用信息的輸入增大了下游任務(wù)的計算量。另一部分群體行為識別算法選擇在前期進行多模態(tài)人物特征融合,文獻[13]中討論了將光流、姿態(tài)、RGB特征通過元素和、元素乘積等簡單地融合,雖然連接了不同模態(tài)的特征,但缺點是信息冗余,特征利用率低,各模態(tài)關(guān)鍵特征難以突出;雖然文獻[14]通過設(shè)計自適應(yīng)融合的自動編碼器讓網(wǎng)絡(luò)決定如何更有效地組合多模態(tài)特征,但該方法對意外的數(shù)據(jù)損壞和缺失的狀態(tài)下缺少魯棒性。受變分自編碼器和重采樣算法[15]的啟發(fā),文章設(shè)計選擇性融合模塊,以實現(xiàn)捕捉復(fù)雜跨模態(tài)的相互作用,有效利用額外的和相互信息的同時引入Gumbel擾動,期望從統(tǒng)計學(xué)角度指導(dǎo)選擇概率分布,直觀地學(xué)習保留最相關(guān)的特征表示,同時丟棄無用或誤導(dǎo)性信息。

        1 方法

        針對如何選取更具辨別力的多模態(tài)人物特征,以及在進行人物關(guān)系推理時如何更加關(guān)注特定于個人的時空交互建模的問題,設(shè)計了基于選擇性特征融合的動態(tài)關(guān)系推理算法框架(SFDRI)。該算法框架包括圖2所示的三個主要模塊,即多流人物特征提取、多模態(tài)特征融合和動態(tài)關(guān)系推理模塊。其中多流人物特征提取旨在克服單一模態(tài)提取特征信息的不全面問題,豐富個體特征;多模態(tài)特征融合模塊的目的是提煉各個模態(tài)中最具代表性的信息,去除冗余和無用信息,以減輕下游人物關(guān)系推理模塊的計算負擔;動態(tài)關(guān)系推理模塊則將重點聚焦于特定于人物的交互上下文,以克服以往在預(yù)定義圖上進行推理的局限性。各模塊具體設(shè)計架構(gòu)本章將一一進行介紹。

        1.1 多流人物特征提取

        首先進行多流特征提取,具體通過姿態(tài)網(wǎng)絡(luò)和3DCNN主干網(wǎng)絡(luò)分別對連續(xù)視頻幀中的人物姿態(tài)、光流和RGB特征進行提取,以豐富個體特征。

        1)姿態(tài)特征提取 視頻中人的動作都涉及身體關(guān)節(jié)運動,如手、胳膊和腿,人體姿態(tài)預(yù)測不僅適用體育活動中執(zhí)行的精細動作識別,如volleyball數(shù)據(jù)集中的扣球和接球,也適用于日常動作,如CAD中的走路和談話。為了獲得人物的關(guān)節(jié)位置,文章應(yīng)用了姿態(tài)估計模型高分辨率網(wǎng)絡(luò)(high-resolution net,HRNet)[16],接受視頻幀中人物的邊界框作為輸入,并預(yù)測關(guān)鍵節(jié)點位置,從而產(chǎn)生特征圖表示。在實驗中,本文使用該網(wǎng)絡(luò)的最后一層特征圖,即分類層之前,并使用在COCO數(shù)據(jù)集關(guān)鍵點上進行訓(xùn)練的最小網(wǎng)絡(luò)pose_hrnet_w32,取得了良好的性能。

        2)RGB與光流特征提取 研究表明[17],具有足夠可用數(shù)據(jù)進行訓(xùn)練的3DCNN可以構(gòu)建用于動作識別的強時空表示。由于靜態(tài)分支中單獨的姿態(tài)網(wǎng)絡(luò)不能從單個幀中捕獲關(guān)節(jié)的運動,所以本文采用Kinetics預(yù)訓(xùn)練的雙流膨脹3D卷積網(wǎng)絡(luò)(two-stream inflated 3D convNet,I3D)為主干網(wǎng)[17],使用I3D網(wǎng)絡(luò)中的光流和RGB表示人物動態(tài)特征。RGB流以RGB視頻幀作為輸入Ft,t=1,…,T幀,而對于光流,本文將輸入序列幀轉(zhuǎn)換為連續(xù)光流幀,通過I3D進行處理。在實踐中,提取mixed-4f層中生成高分辨率的特征圖,RoIAlign[18]層將坐標投影到特征圖上,被用于提取輸入幀中每個人物邊界框的特征,然后將其嵌入到D維空間中。本文將人物特征堆疊起來形成a∈RT×N×D,其中T和N分別表示時間步長(即時間維度)和每幀中帶注釋的人的數(shù)量(即空間維度)??臻g維度是按照文獻[8]的人物坐標排序的。

        1.2 選擇性特征融合

        在該模塊中,為了將多模態(tài)人物特征有效地組合和利用,本文不再使用以往僅元素和或元素積的特征簡單融合方法[13],而是在變分自編碼器和重采樣算法[15]的啟發(fā)下,設(shè)計跨不同模態(tài)的選擇性特征融合的方法,不再用一個連續(xù)的值對每個特征進行重新加權(quán),而是學(xué)習一個隨機函數(shù),生成特征概率分布,對最終最具辨別性得分最大的特征進行選擇性采樣,并希望通過加入Gumbel擾動增加模型魯棒性,選取各模態(tài)最具代表性的信息。

        其中,1.1節(jié)多流主干網(wǎng)絡(luò)提取好的多模態(tài)特征數(shù)據(jù)由N個標記的人物特征組成,定義為a=(ar,ao,ap),其中ar,ao,ap∈RD,分別代表RGB、光流和姿態(tài),D為特征維度。數(shù)據(jù)以N為索引a=(a1,a2,…,an),其中ai=(ari,aoi,api),1≤i≤N。隨機函數(shù)是由參數(shù)化的伯努利分布實現(xiàn)的隨機神經(jīng)網(wǎng)絡(luò)。然而,在實驗過程中,由于反向傳播算法不能直接應(yīng)用于非微分層,所以離散變量采樣步驟很難訓(xùn)練。為了解決梯度下降以指導(dǎo)算法優(yōu)化的問題,研究通常使用REIN-FORCE算法[19]構(gòu)建梯度估計器來解決這個問題。本文則采用一種Gumbel-Softmax重采樣[15]的輕量級方法來處理離散變量。

        2 實驗

        2.1 數(shù)據(jù)集介紹

        到目前為止,群體活動識別中有兩個廣泛使用的數(shù)據(jù)集,即集體活動數(shù)據(jù)集(CAD)[24]和排球數(shù)據(jù)集(VD)[25]。

        排球數(shù)據(jù)集由3 493個訓(xùn)練片段和1 337個測試片段組成,它們是從55個排球比賽視頻中剪裁出來的。對于每個短片,它提供三種注釋:a)給定剪輯幀中人物邊界框的坐標;b)個人動作標簽,即blocking、digging、falling、jumping、moving、setting、spiking、standing和waiting;c)給定的組活動標簽,包含四個主要活動(set,spike,pass,winpoint),它們分別分為兩個子組(left和right),總共八個組活動標簽。為了對整個剪輯執(zhí)行特征提取,使用文獻[13]提供的數(shù)據(jù)。用于評估模型性能的指標,采用平均識別精度(mean per class accuracy,MPCA)。

        集體活動數(shù)據(jù)集由44個視頻組成,其中包含194~1 814幀不等的幀數(shù)。與VD類似,它用三個級別的注釋進行標記:a)人物邊界框的坐標;b)帶注釋的人的個人動作標簽;c)組活動標簽,即crossing、waiting、queueing、walking和talking。本文按照文獻[26]將交叉和步行合并為移動,使用32個視頻進行訓(xùn)練,12個視頻進行測試。

        2.2 實驗細節(jié)設(shè)置

        對于VD,使用分辨率為H×W=720×1 280的視頻圖像,對于CAD,使用分辨率為H×W=480×720的視頻圖像。對于兩個數(shù)據(jù)集,使用包含T=10幀的視頻片段。對于VD,場景中的最大人數(shù)為N=12,對于CAD,N=13。對于I3D網(wǎng)絡(luò),該主干網(wǎng)絡(luò)由Kinetics-400預(yù)測模型初始化,使用在時間維度上進行平均池化后的Mixed-4f層獲得的特征圖。然后將特征圖調(diào)整為90×160并使用RoIAlign層提取輸入視頻中間幀的每個邊界框里大小為5×5的特征。之后將姿態(tài)、RGB和光流特征嵌入到具有相同維度D=128的向量空間中。選擇性融合中,溫度τ在開始時設(shè)置為1,并在訓(xùn)練過程的每個epoch中逐漸降低到0.5。動態(tài)推理模塊的卷積操作由零向量初始化[30],在圖上應(yīng)用卷積時,使用零填充來保持固定的交互域大小。對于VD的訓(xùn)練,使用Adam優(yōu)化器,其學(xué)習率從1×10-4開始,衰減率為每10個epoch降低1/3。對于CAD的訓(xùn)練,使用相同的優(yōu)化器,學(xué)習率保持在5×10-5??偣策\行30個epoch,Adam的超參數(shù)為β1=0.9,β2=0.999和ε=10-8。

        2.3 消融實驗

        在該節(jié)中,本文在VD上進行定量實驗分析,以證明各個模塊的有效性?;€模型[Base model],由多流骨干網(wǎng)(在這里本文將RGB、光流和姿態(tài)人物特征簡單進行相加)、RoIAlign和最終分類層組成;[ours/F],包含骨干網(wǎng)、RoIAlign、選擇性融合模塊、分類層;[ours/R],包含骨干網(wǎng)、RoIAlign、動態(tài)推理模塊、分類層;[SFDRI],骨干網(wǎng)、RoIAlign、選擇性融合模塊、動態(tài)推理模塊、分類層,即整體架構(gòu)。

        添加各個模塊的實驗結(jié)果如表1所示,結(jié)合表中數(shù)據(jù)可以看出,文章設(shè)計的整體框架中的各個模塊都能夠顯著提高性能。單獨添加融合模塊和動態(tài)推理模塊都使平均識別精度分別提升了3.3%和3.8%。尤其是在推理人物交互關(guān)系時添加的動態(tài)偏移,雙線性采樣器通過雙線性權(quán)重重新定義了特征插值,這些權(quán)重由動態(tài)偏移量決定,在某種程度上可以看做是一種動態(tài)關(guān)系。

        為了更直觀地比較模塊的性能,文章還分別將融合模塊、推理模塊與最近常用的方法進行了詳細的對比實驗,依然采用群體活動識別精度作為模型評估指標。對于選擇性融合,額外對比了相加和級聯(lián)兩類群組行為識別中常用的融合,實驗結(jié)果如表2所示。對于早期的簡單融合,例如級聯(lián)和相加對于模型的表現(xiàn)效果不佳,與單分支模型表現(xiàn)相似甚至更差。在訓(xùn)練融合網(wǎng)絡(luò)時,遵循了諸多技巧以確保訓(xùn)練的穩(wěn)定性,其中一些幫助最大的包括激活函數(shù)以及Adam優(yōu)化器。選擇性融合有效地組合多模態(tài)輸入,并對最具代表性的特征進行了選取提煉,比相加與直接連接分別提升了3.3%和2.4%,相比以往的淺層融合,效果得到了明顯改善。

        對于交互關(guān)系推理模塊,本文在實驗中僅使用各單流分支模型,不使用動態(tài)交互關(guān)系推理模塊作為基線模型(base/single),并選取了近年來具有代表性的ARG[8]和activity map[32]方法對每個單分支模態(tài)分別建模推理對比,展示文中動態(tài)建模的優(yōu)勢,實驗結(jié)果如表3所示。ARG使用關(guān)系圖來聚合參與者之間的信息,作者使用嵌入點積方法表示外觀關(guān)系,距離掩碼表示位置關(guān)系;而本文模型應(yīng)用位置偏移替代位置掩碼,通過特定于人物的交互圖傳遞信息的方法表現(xiàn)出了優(yōu)越的性能,各模態(tài)分支相較于ARG方法分別提升了1.3%、0.5%和2.9%。activity map是基于使用空間活動圖的多個細化階段,由于與本文使用的是相同的主干網(wǎng)I3D,所以直接將其與文獻[32]中得到的結(jié)果進行比較。本文與activity map在光流上的結(jié)果相差不大,在RGB上的結(jié)果略差,但是本文不需要將邊界框注釋轉(zhuǎn)換為分割掩碼,也不需要細化多個階段,就能實現(xiàn)這些結(jié)果。

        圖5為left_pass活動的可視化,人物關(guān)系交互圖中總結(jié)了關(guān)于第2個人在不同時間步中的交互,這表明,本文雖然只設(shè)置了初始化交互域,但仍能模擬全局級別的交互優(yōu)點,如交互圖5中黃色框(見電子版)是該人物與其他組群成員的兩個關(guān)鍵交互,他們可能會接替2號人物進行傳球。

        2.4 與先進方法的比較

        在該節(jié)中,將本文設(shè)計的多模態(tài)特征選擇與動態(tài)關(guān)系推理框架與先進的方法進行比較,使用預(yù)測小組活動的識別精度作為評價指標。

        在VD上的實驗結(jié)果如表4所示,SFDRI對比其他方法有著大幅度的提升,比文獻[28]的方法提升了1.2%的平均識別精度,對于同樣利用圖結(jié)構(gòu)進行建模推理人物關(guān)系[8]的方法相比提高了1.8%的識別精度。證明了增加人物模態(tài)特征并對重要信息進行提煉的重要性,以及動態(tài)偏移對于特定于人物動態(tài)上下文關(guān)系交互的有效性學(xué)習。

        在CAD上的表現(xiàn)如表5所示,該框架比文獻[13]相同主干網(wǎng)方法提升了1.9%,體現(xiàn)了交互關(guān)系推理模塊的優(yōu)越性,以及多模態(tài)特征融合的必要性。從表中,本文還可以關(guān)注到SFDRI優(yōu)于其他基于GNN的方法。從而揭示了引入動態(tài)性的有點和融合互補性特征的重要性。

        模型在CAD和VD上的混淆矩陣分別如圖6(a)和(b)所示。對于VD,動態(tài)空間遠程交互建模使得模型能夠區(qū)分左側(cè)活動和右側(cè)活動,與文獻[3]中的混淆矩陣相比,文章方法在pass和set活動方面表現(xiàn)優(yōu)越。本文將其歸因于時空人物之間的動態(tài)交互,因為pass和set涉及一個人傳球和一個人接球。對于CAD,與文獻[25]的混淆矩陣相比,可以更好地區(qū)分waiting。以往方法因為沒有區(qū)分人物的時間變化而把waiting誤認為是moving,而動態(tài)推理模型很好地解決了這一點。

        3 結(jié)束語

        本文提出了針對多模態(tài)特征融合與人物關(guān)系推理的整體算法框架(SFDRI),通過選擇性融合解決了多模態(tài)特征冗余及重要特征選取的問題,并通過定義交互域添加動態(tài)偏移解決對預(yù)定義圖的推理問題。對比實驗證明了算法框架的有效性。更具挑戰(zhàn)性的融合策略和計算技巧留待以后的工作進行探索,后續(xù)研究可以通過添加人物軌跡特征并研究來自更多模態(tài)的特征融合方案,以及有效的數(shù)據(jù)增強方案;并在推理模塊更加注重特定于當前人物的上下文特征,并從節(jié)省計算開銷的角度對框架進行改進。

        參考文獻:

        [1]劉繼超,劉云,王傳旭.基于核心人物和交互關(guān)系建模的群組行為識別[J].青島科技大學(xué)學(xué)報:自然科學(xué)版,2022,43(3):98-106.(Liu Jichao,Liu Yun,Wang Chuanxu.Group activity recognition based on relationship network and core person modeling[J].Journal of Qingdao University of Science and Technology:Natural Science Edition,2022,43(3):98-106.)

        [2]王傳旭,薛豪.基于GFU和分層LSTM的組群行為識別研究方法[J].電子學(xué)報,2020,48(8):1465-1471.(Wang Chuanxu,Xue Hao.Group activity recognition based on GFU and hierarchical LSTM[J].Acta Electronica Sinica,2020,48(8):1465-1471.)

        [3]Bagautdinov T,Alahi A,F(xiàn)leuret F,et al.Social scene understanding:end-to-end multi-person action localization and collective activity re-cognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4315-4324.

        [4]Tang Jinhui,Shu Xiangbo,Yan Rui,et al.Coherence constrained graph LSTM for group activity recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(2):636-647.

        [5]Pramono R R A,Chen Y T,F(xiàn)ang W H.Empowering relational network by self-attention augmented conditional random fields for group activity recognition[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:71-90.

        [6]張?zhí)煊辏S飛,江朝暉.基于時空自注意力轉(zhuǎn)換網(wǎng)絡(luò)的群組行為識別[J].智能計算機與應(yīng)用,2021,11(5):77-81,87.(Zhang Tianyu,Xu Fei,Jiang Chaohui.Spatio-temporal transformer network for group activity recognition[J].Intelligent Computer and Applications,2021,11(5):77-81,87.)

        [7]孔瑋,劉云,李輝,等.基于圖卷積網(wǎng)絡(luò)的行為識別方法綜述[J].控制與決策,2021,36(7):1537-1546.(Kong Wei,Liu Yun,Li Hui, et al.A survey of action recognition methods based on graph convolutional network[J].Control and Decision,2021,36(7):1537-1546.)

        [8]Wu Jianchao,Wang Limin,Wang Li,et al.Learning actor relation graphs for group activity recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9964-9974.

        [9]Yan Rui,Xie Lingxi,Tang Jinhui,et al.Social adaptive module for weakly-supervised group activity recognition[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:208-224.

        [10]Zhu Xizhou,Hu Han,Lin S,et al. Deformable ConvNets v2:more deformable,better results[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9308-9316.

        [11]Simonyan K,Zisserman A.Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems.2014.

        [12]王傳旭,胡小悅,孟唯佳,等.基于多流架構(gòu)與長短時記憶網(wǎng)絡(luò)的組群行為識別方法研究[J].電子學(xué)報,2020,48(4):800-807.(Wang Chuanxu,Hu Xiaoyue,Meng Weijia,et al.Research on group behavior recognition method based on multi-stream architecture and long short-term memory network[J].Acta Electronica Sinica,2020,48(4):800-807.)

        [13]Gavrilyuk K,Sanford R,Javan M,et al.Actor-transformers for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:839-848.

        [14]Sahu G,Vechtomova O.Adaptive fusion techniques for multimodal data[C]//Proc of the 16th Conference of the European Chapter of the Association for Computational Linguistics.2021:3156-3166.

        [15]Jang E,Gu Shixiang,Poole B.Categorical reparametrization with Gumble-softmax[C]//Proc of International Conference on Learning Representations.2017.

        [16]Sun Ke,Xiao Bin,Liu Dong,et al.Deep high-resolution representation learning for human pose estimation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway NJ:IEEE Press,2019:5693-5703.

        [17]Carreira J,Zisserman A.Quo vadis,action recognition?A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway NJ:IEEE Press,2017:6299-6308.

        [18]He Kaiming,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway NJ:IEEE Press,2017:2961-2969.

        [19]Mnih A,Gregor K.Neural variational inference and learning in belief networks[C]//Proc of International Conference on Machine Lear-ning.2014:1791-1799.

        [20]Maddison C J,Tarlow D,Minka T.A sampling[EB/OL].(2014-10-31).https://arxiv.org/abs/1411.0030.

        [21]Shen Chen,Qi Guojun,Jiang Rongxin,et al.Sharp attention network via adaptive sampling for person re-identification[J].IEEE Trans on Circuits and Systems for Video Technology,2018,29(10):3016-3027.

        [22]Zhang Li,Xu Dan,Arnab A,et al. Dynamic graph message passing networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway NJ:IEEE Press,2020:3726-3735.

        [23]Jaderberg M,Simonyan K,Zisserman A.Spatial transformer networks[C]//Advances in Neural Information Processing Systems.2015.

        [24]Choi W,Shahid K,Savarese S.What are they doing? Collective activity classification using spatio-temporal relationship among people[C]//Proc of the 12th IEEE International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2009:1282-1289.

        [25]Ibrahim M S,Muralidharan S,Deng Z,et al.A hierarchical deep temporal model for group activity recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1971-1980.

        [26]Yan Rui,Xie Lingxi,Tang Jinhui,et al.HiGCIN:hierarchical graph-based cross inference network for group activity recognition[J/OL].IEEE Trans on Pattern Analysis and Machine Intelligence,2020.http://doi.org/10.1109/tpami.2020.3034233.

        [27]Shu Tianmin,Todorovic S,Zhu Songchun.CERN:confidence-energy recurrent network for group activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5523-5531.

        [28]王傳旭,劉冉.基于交互關(guān)系分組建模融合的組群行為識別算法[J].計算機與現(xiàn)代化,2022(1):1-9.(Wang Chuanxu,Liu Ran.Group activity recognition algorithm based on interaction relationship grouping modeling fusion[J].Computers and Modernization,2022(1):1-9.)

        [29]Li Xin,Choo Chuah M.SBGAR:semantics based group activity recognition[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2876-2885.

        [30]Dai Jifeng,Qi Haozhi,Xiong Yuwen,et al.Deformable convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:764-773.

        [31]Ibrahim M S,Mori G.Hierarchical relational networks for group activity recognition and retrieval[C]//Proc of European Conference on Computer Vision.2018:721-736.

        [32]Azar S M,Atigh M G,Nickabadi A,et al.Convolutional relational machine for group activity recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway NJ:IEEE Press,2019:7892-7901.

        收稿日期:2022-07-12;修回日期:2022-08-26 基金項目:國家自然科學(xué)基金資助項目(61672305)

        作者簡介:劉斯凡(1998-),女,山東濟南人,碩士研究生,主要研究方向為計算機視覺;林國丞(1995-),男,浙江衢州人,碩士研究生,主要研究方向為計算機視覺;秦建偉(1996-),男,山東濰坊人,碩士研究生,主要研究方向為目標檢測;王傳旭(1968-),男(通信作者),山東濟寧人,教授,碩導(dǎo),博士,主要研究方向為計算機視覺(Qust_wcx@163.com).

        在线国产小视频| 无码一区二区三区| 日韩精品一区二区三区中文| 欧美黑人巨大xxxxx| 亚洲成精品动漫久久精久| 五十路在线中文字幕在线中文字幕 | 国产成人无码区免费网站| 97av在线播放| 国产精品高湖呻呤久久av| 国产对白国语对白| 久久久www成人免费无遮挡大片| 亚洲福利天堂网福利在线观看| 久久精品国产亚洲av日韩精品 | 亚洲av无码成人精品区在线观看| A阿V天堂免费无码专区| 女优av性天堂网男人天堂| 久久人妻av一区二区软件| 日韩精品人妻系列无码专区免费| 亚洲片在线视频| av在线免费观看男人天堂| 人妻仑乱a级毛片免费看| а中文在线天堂| 岛国av一区二区三区| 国产一级一片内射视频播放| 人妻少妇精品无码专区动漫| 国产亚洲欧美在线| 国产精品污一区二区三区在线观看 | 国产内射XXXXX在线| 亚洲精品综合久久国产二区| 人妻少妇被粗大爽.9797pw| 四川丰满少妇被弄到高潮| 黄色大片一区二区中文字幕| 蜜桃精品视频一二三区| 寂寞少妇做spa按摩无码| 色综合自拍| av男人操美女一区二区三区| 久久无码潮喷a片无码高潮 | 久久精品无码免费不卡| 国产欧美激情一区二区三区| 国产成人av三级在线观看韩国| 久久天天躁狠狠躁夜夜av|