亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

結(jié)合殘差收縮和時空上下文的行為檢測網(wǎng)絡(luò)

2023-03-10 02:11:34陶孟元占生寶

光學(xué)精密工程 2023年4期

黃忠，陶孟元，胡敏，劉娟，占生寶

（1.安慶師范大學(xué) 電子工程與智能制造學(xué)院，安徽安慶 246133；2.合肥工業(yè)大學(xué) 計算機與信息學(xué)院，安徽合肥 230009）

1 引言

隨著機器人被廣泛應(yīng)用于迎賓講解、體感游戲、老人陪護等自然人機交互場景，如何讓機器人正確理解人的行為成為人機交互的研究熱點［1］。行為檢測作為提升人機交互質(zhì)量最重要的手段，受到研究者高度重視和廣泛關(guān)注。行為檢測的主要任務(wù)是在未經(jīng)過剪輯處理的視頻流中，自動定位動作時間邊界（即行為起止時間）并進行動作識別［2］。因此，與已知動作邊界的行為識別方法相比，行為檢測方法更符合機器人在自然人機交互場景中的應(yīng)用。然而，當(dāng)前行為檢測方法一方面由于視頻流易受光照、遮擋、背景等因素影響，提取的動作特征包含較多冗余信息；另一方面由于缺乏時空上下文信息，動作邊界定位精度和行為分類準(zhǔn)確度有待提高［3］。設(shè)計能夠抑制冗余特征信息并融入時空上下文信息的時序網(wǎng)絡(luò)仍是行為檢測領(lǐng)域亟待解決的問題。

當(dāng)前行為檢測網(wǎng)絡(luò)主要分為單階段方法、兩階段方法以及弱監(jiān)督學(xué)習(xí)方法［4］。單階段方法是在一維時序特征基礎(chǔ)上，直接生成時間邊界并預(yù)測行為類別，如 SMS［5］，I2Net［6］，DecoupleSSAD［7］等；兩階段方法則是先從視頻流中提取大量包含行為的時序候選片段，然后從中篩選優(yōu)質(zhì)的時序片段再進行邊界定位和行為分類。Zhao Y等［8］采用結(jié)構(gòu)化時間金字塔對每個動作的時序進行建模，并引入判別模型實現(xiàn)邊界定位和行為識別；Lin T等提出LGN［9］實現(xiàn)行為局部和全局上下文信息的融合；Xu H等［10］提出RC3D方法，首先采用3D全卷積網(wǎng)絡(luò)對視頻流進行編碼，然后利用候選網(wǎng)絡(luò)生成包含行為的候選片段并分類。由于R-C3D完善的框架和優(yōu)秀的檢測性能，受到研究者的廣泛關(guān)注并提出了多種改進的方法。如Chen G等［11］利用時間位置感知網(wǎng)絡(luò)達到篩選高質(zhì)量時序候選片段和行為分類的目的；Xu H等［12］融合運動光流和RGB流，采用雙流結(jié)構(gòu)實現(xiàn)行為分類；Yang L等［13］在anchorbase基礎(chǔ)上通過改進錨框機制解決視頻序列過長或過短的問題。與單階段方法相比，兩階段方法在數(shù)據(jù)不均衡等情況下的檢測精度和分類效果具有較大提升。但由于缺乏冗余信息的抑制機制和時序候選片段間的上下文信息，兩階段方法的邊界定位精度和行為分類準(zhǔn)確度仍難以滿足機器人用戶感知和理解的應(yīng)用要求［14-15］。弱監(jiān)督學(xué)習(xí)方法則是在已有模型基礎(chǔ)上計算片段的動作概率，再依賴多實例學(xué)習(xí)策略實現(xiàn)行為分類，代表性的有AffNet［16］，MSA-Net［17］，Back-TAL［18］等。盡管弱監(jiān)督學(xué)習(xí)方法不需要標(biāo)注大量樣本，但其檢測精度和算法性能仍有待進一步提高。

針對行為檢測特征提取冗余度高及行為邊界定位不準(zhǔn)確的問題，本文以兩階段的R-C3D方法為基礎(chǔ)，提出一種改進的行為檢測網(wǎng)絡(luò)（RSSTCBD）。在特征提取子網(wǎng)中，為了抑制背景、噪聲等冗余信息，在3D-ResNet卷積網(wǎng)絡(luò)基礎(chǔ)上融合收縮結(jié)構(gòu)和軟閾值化操作，設(shè)計通道自適應(yīng)閾值的殘差收縮單元（3D Residual Shrinkage unit with channel-adaptive Soft Thresholds，3DRSST）；在時序候選子網(wǎng)中，針對在R-C3D網(wǎng)絡(luò)中使用一次卷積策略易造成空間特征信息丟失的問題，采用多層卷積策略增加時序侯選片段的時序維度感受野；在行為分類子網(wǎng)中，采用非局部注意力機制捕獲優(yōu)質(zhì)時序片段間的時空上下文信息。本文創(chuàng)新點如下：（1）結(jié)合殘差收縮結(jié)構(gòu)和時空上下文，提出一種改進的行為檢測網(wǎng)絡(luò)RS-STCBD。該網(wǎng)絡(luò)通過抑制行為特征中的冗余信息并融合行為時空上下文信息提高行為檢測的準(zhǔn)確度；（2）嵌入收縮結(jié)構(gòu)和軟閾值化操作，設(shè)計3D-RSST單元，并構(gòu)建多個3D-RSST單元級聯(lián)的特征提取子網(wǎng)。通過自動學(xué)習(xí)通道閾值和軟閾值化操作，該子網(wǎng)能夠自適應(yīng)消除冗余信息以提升特征提取的有效度；（3）采用多層卷積策略增加時序侯選片段的時序維度感受野，并引入非局部注意力機制獲取優(yōu)質(zhì)時序片段間的時空上下文信息。通過改善時序候選子網(wǎng)和行為分類子網(wǎng)的時空上下文捕獲能力，從而提升動作邊界定位和行為分類的精度。

2 RS-STCBD網(wǎng)絡(luò)設(shè)計

R-C3D行為檢測網(wǎng)絡(luò)主要由特征提取子網(wǎng)、時序候選子網(wǎng)以及行為分類子網(wǎng)三部分組成。針對R-C3D行為檢測網(wǎng)絡(luò)提取特征冗余度高及邊界定位不準(zhǔn)確的問題，本文提出一種改進的行為檢測網(wǎng)絡(luò)RS-STCBD，如圖1所示。其主要包括嵌入殘差收縮結(jié)構(gòu)的特征提取子網(wǎng)（Feature Subnet）、基于多層卷積的時序候選子網(wǎng)（Proposal Subnet）以及引入非局部注意力機制的行為分類子網(wǎng)（Classification Subnet）。

圖1 RS-STCBD網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of RS-STCBD

2.1 嵌入殘差收縮結(jié)構(gòu)的特征提取子網(wǎng)

在人機交互自然情景下，行為檢測易受噪聲、光照等環(huán)境因素的干擾。由于缺乏抗干擾機制，R-C3D特征提取子網(wǎng)獲取的行為特征包含較多冗余信息。同時，由于視頻中不同行為的冗余信息存在較大差異，其抑制閾值也應(yīng)各不相同。為自適應(yīng)的抑制不同視頻流的冗余信息，本文在3D-Resnet［19-20］基礎(chǔ)上通過嵌入收縮結(jié)構(gòu)（Shrinkage Module）和軟閾值化（Soft Thresholding）操作構(gòu)建3D-RSST單元，如圖2所示，其中紅色虛線框部分為嵌入的收縮結(jié)構(gòu)（彩圖見期刊電子版）。

圖2 3D-RSST單元Fig.2 Unit of 3D residual shrinkage with channel-adaptive soft thresholds （3D-RSST）

首先，將經(jīng)卷積和最大池化操作后的視頻圖像特征圖作為3D-RSST單元的輸入X，再將X進行批標(biāo)準(zhǔn)化、ReLU及卷積操作等得到收縮結(jié)構(gòu)的輸入x，并采用絕對值和全局均值池化操作將x簡化為一維向量x′：

其中：ReLU(·)為ReLU激活函數(shù)；BN(·)為批標(biāo) 準(zhǔn) 化；Conv(·)為3×3×3大小的卷積；GAP(·)為全局均值池化，C，L，H，W分別代表特征圖的通道數(shù)、幀長度、長和寬。

然后，將簡化后的向量x′分別送入通道收縮系數(shù)支路和通道均值特征支路。在通道收縮系數(shù)支路中，利用兩層全連接層計算x′第c通道的收縮系數(shù)αc：

其中：FC(·)為全連接層；δ(·)為Sigmoid激活函數(shù)；αc∈(0，1)為第c通道的收縮系數(shù)。在通道均值特征支路中，分別計算各通道特征的平均值βc：

其中，average(·)為平均值函數(shù)。

通過通道收縮系數(shù)支路和通道均值特征支路分別獲取αc和βc后，第c通道的收縮閾值τc可表示為：

通過計算C個通道的收縮閾值，可以獲得輸入特征x的收縮閾值向量τ=(τ1，τ2，…，τC)。

最后，為抑制與行為目標(biāo)無關(guān)的冗余信息，利用式（4）計算的收縮閾值向量τ對輸入特征x進行軟閾值化［21］：

其中：sign(·)和max(·)分別表示符號函數(shù)和最大值函數(shù)；xs為輸入特征圖x軟閾值化后的特征。由式（5）可知，當(dāng)|x|＜τ時，xs置為零；當(dāng)|x|＞τ時，xs朝著零的方向收縮。本文將軟閾值化的輸出xs與特征圖X做殘差連接，并作為3D-RSST單元的輸出，即：

由以上步驟可知，構(gòu)建的3D-RSST單元可根據(jù)自動學(xué)習(xí)的閾值對各個特征通道進行軟閾值化，從而自適應(yīng)地消除冗余特征信息。為了提高抑制冗余信息的效果，將多個3D-RSST單元進行級聯(lián)并構(gòu)建特征提取子網(wǎng)，如圖1中特征提取子網(wǎng)所示。圖1特征提取子網(wǎng)中包含1個卷積層、1個最大池化層和3個不同結(jié)構(gòu)的3D-RSST單元級聯(lián)模塊（3D-RSST Cascade Module），其結(jié)構(gòu)參數(shù)如表1所示。通過特征提取子網(wǎng)處理后的時空特征圖E可表示為：

表1 特征提取子網(wǎng)結(jié)構(gòu)參數(shù)Tab.1 Structure parameter of feature subnet

其中：E∈，R1(·)，R2(·)，R3(·)分別表示3個不同結(jié)構(gòu)的3D-RSST單元級聯(lián)模塊。

2.2 基于多層卷積的時序候選子網(wǎng)

在時序候選子網(wǎng)中，需要從時空特征圖E中分割出包含行為的時序候選片段。針對R-C3D一次卷積易造成空間特征信息丟失的問題，本文采用多層卷積增加時序維度感受野。改進后的子網(wǎng)結(jié)構(gòu)如圖1中時序候選子網(wǎng)所示。在改進后的時序候選子網(wǎng)中，首先使用3個卷積層對時空特征圖E做卷積操作，并采用3×3×3的卷積核增加時序維度感受野；然后利用池化將時空特征圖E轉(zhuǎn)化為時序特征圖E′：

表2 多層卷積的參數(shù)Tab.2 Parameter of multilayer convolution

最后將時序特征圖E′上L8個時間點作為錨點（即時序候選片段的中心點），并在每個錨點位置設(shè)置S個不同尺度的錨框長度，因此可獲得(L8)*S個時序候選片段。將這些時序候選片段特征圖輸入至1×1×1卷積層可得到其邊界起止時間以及邊界置信度：

其中：proposal表示時序候選片段；[tstart，tend]表示時序候選片段的起止時間邊界；score為邊界置信度。

2.3 引入非局部注意力機制的行為分類子網(wǎng)

行為分類子網(wǎng)的任務(wù)是結(jié)合特征提取子網(wǎng)所提取的時空特征圖E和時序候選子網(wǎng)生成的時序候選片段proposal，根據(jù)一定策略篩選優(yōu)質(zhì)時序候選片段并對其進行邊界調(diào)整和行為分類。在R-C3D中，行為分類子網(wǎng)利用非極大值抑制策略獲取K個優(yōu)質(zhì)時序片段，并將各自特征圖送入全連接層進行時序邊界回歸和行為分類。由于人類行為具有連續(xù)性和整體性，利用非極大值抑制策略篩選的優(yōu)質(zhì)時序片段在時間和空間上均存在相關(guān)性。因此，本文在行為分類子網(wǎng)絡(luò)中引入非局部注意力機制［22］以獲取K個優(yōu)質(zhì)時序片段間的上下文運動信息。改進后的行為分類子網(wǎng)如圖1中行為分類子網(wǎng)所示。

首先，采用三維ROI池化操作將K個不等長的優(yōu)質(zhì)時序片段映射到時空特征圖E的對應(yīng)位置上：

其中：NMS(·)和ROIPooling(·)分別表示非極大值抑制操作和三維ROI池化操作；γ表示為非極大值抑制閾值；Pk∈R256×1×4×4(k∈[1，K])為優(yōu)質(zhì)時序片段特征圖，即通過三維ROI池化操作將不等長的優(yōu)質(zhì)時序片段固定為等長（1×4×4）的特征圖。

其中：Wθ，Wφ為權(quán)重矩陣；(k∈[1，K])表示特征圖Pk第i(i∈[1，16])個位置特征；(l∈[1，K])表示特征圖Pl第j(j∈[1，16])個位置特征；度量位置向量與的相似度。同時，將特征圖第j個位置的通道特征（256維）進行線性轉(zhuǎn)換：

其中，Wg為權(quán)重矩陣。

最后，根據(jù)特征圖Pk與特征圖Pl之間的相似度以及計算第k個特征圖第i個位置的時空上下文特征，并將其與原始特征圖作殘差連接：

將特征圖Pk所有位置點的殘差連接特征進行級聯(lián)，并輸入至兩個獨立的全連接層，可分別得到第k個優(yōu)質(zhì)時序片段的時間邊界位置和行為類別概率：

2.4 RS-STCBD算法描述

綜上，本文提出的RS-STCBD方法可分為特征提取、時序候選以及行為分類三部分，其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，具體算法描述如下：

輸入：視頻流V，特征圖通道數(shù)C，3D-RSST單元級聯(lián)深度D，視頻幀長度L，錨框長度列表S，非極大值抑制閾值γ，行為類別數(shù)m。

輸出：視頻流V包含的K個時序片段的邊界以及被預(yù)測為各類行為的概率。

第一步：將視頻流V輸入至基于表1參數(shù)的特征提取子網(wǎng)，獲取特征圖E。

第二步：將特征圖E輸入至基于表2參數(shù)的時序候選子網(wǎng)，獲取時序候選片段proposal。

第三步：將時序候選片段proposal輸入至基于非局部注意力機制的行為分類子網(wǎng)，輸出時序片段的邊界以及各類行為的概率。

3 RS-STCBD網(wǎng)絡(luò)優(yōu)化

在RS-STCBD網(wǎng)絡(luò)中，時序候選子網(wǎng)優(yōu)化時序候選片段的邊界以及判別其是否包含動作，行為分類子網(wǎng)則完成優(yōu)質(zhì)時序片段的邊界回歸和行為分類。本文采用時序候選子網(wǎng)和行為分類子網(wǎng)聯(lián)合優(yōu)化策略：

其中：λ為平衡因子；Lpro為時序候選子網(wǎng)損失函數(shù)，Lact為行為分類子網(wǎng)損失函數(shù)，計算方式如式（16）：

4 實驗結(jié)果分析

4.1 行為數(shù)據(jù)集及實驗環(huán)境

為了訓(xùn)練RS-STCBD網(wǎng)絡(luò)參數(shù)以及驗證模型的有效性，本文在公開的THUMOS14［23］和ActivityNet1.2［24］數(shù)據(jù)集上進行實驗。兩個數(shù)據(jù)集均包含大量真實環(huán)境下人類日常生活和體育運動的行為視頻，各數(shù)據(jù)集分布如表3所示。THUMOS14數(shù)據(jù)集含有613段視頻數(shù)據(jù)，具有20種動作類別；ActivityNet1.2數(shù)據(jù)集含有9 682段視頻，具有100種動作類別。本文主要解決自然場景中的行為檢測問題，因此需要使用未經(jīng)過剪輯的視頻數(shù)據(jù)作為數(shù)據(jù)集?？紤]THUMOS14訓(xùn)練集中200個視頻均為已剪輯過的行為片段，不符合本文行為檢測任務(wù)要求，因此實驗中以THUMOS14驗證集中的200個視頻（3 007個行為片段）作為訓(xùn)練集、測試集中的213個視頻（3 358個行為片段）作為測試集；在ActivityNet1.2數(shù)據(jù)集中分別以訓(xùn)練集中4 819個視頻（7151個行為片段）作為訓(xùn)練集、驗證集中2 383個視頻（3 582個行為片段）作為測試集。

表3 THUMOS14和ActivityNet1.2行為數(shù)據(jù)集Tab.3 Behavioral datasets of THUMOS14 and ActivityNet1.2

在Ubuntu18.04操作系統(tǒng)上，采用一塊Quadro P6000顯卡并基于Pytorch構(gòu)建和訓(xùn)練RS-STCBD網(wǎng)絡(luò)，其詳細實現(xiàn)已開源在Github網(wǎng) 站（https：//github.com/huangzhong3315/RSSTCBD）。網(wǎng)絡(luò)相關(guān)參數(shù)如表4所示。構(gòu)建的RS-STCBD網(wǎng)絡(luò)共包含80.15M個參數(shù)，在THUMOS14 和ActivityNet1.2數(shù)據(jù)集上，一輪訓(xùn)練時間分別約2.6 h和4.2 h；單一動作檢測時間約0.8 s。

表4 網(wǎng)絡(luò)參數(shù)設(shè)置Tab.4 Parameter setting of network

4.2 RS-STCBD網(wǎng)絡(luò)評價

4.2.1 行為檢測精度評價

基于THUMOS14行為數(shù)據(jù)集，本文將提出的RS-STCBD方法與R-C3D［10］，MSA-Net［17］，SSN［8］，LGN［9］，DecoupleSSAD［7］，BackTAL［18］等方法進行比較?？紤]樣本數(shù)量、行為類別的不平衡性等問題，本文采用平均精度（Average Precision， AP）和均方平均精度（mean Average Precision， mAP）評估行為檢測效果。AP及mAP的計算方法均與以上相關(guān) 方法保持一致［7-10，17-18］。表5統(tǒng)計了不同方法在交并比閾值iou∈[0.1，0.7]間的檢測精度。表5表明：當(dāng)iou≤0.3時，過小閾值將導(dǎo)致時序候選片段間的重疊程度增大，而RS-STCB的非極大值閾值策略對重疊度高的時序候選片段抑制能力弱，因此其檢測精度低于其他檢測方法；當(dāng)0.3＜iou＜0.5時，RS-STCBD檢測精度雖低于DecoupleSSAD、BackTAL方法，但由于時序候選片段間重合程度的逐漸較小，其已優(yōu)于R-C3D、MSA-Net、SSN、LGN等方法；當(dāng)iou≥0.5時，RS-STCBD的檢測精度均高于其它方法。從表5可以看出，隨著交并比閾值iou的增大，各方法mAP值均呈下降趨勢。iou＜0.5時，各行為檢測方法雖具有較高的mAP值，但由于保留了大量的冗余時序候選片段而難以應(yīng)用于實際場景；iou≥0.5時，本文方法的行為檢測精度更具優(yōu)勢，因此其更適合于自然人機交互場景中應(yīng)用。

表5 THUMOS14數(shù)據(jù)集上不同方法的mAP比較Tab.5 mAP comparison of different methods in THUMOS14

此外，為進一步比較各類行為的檢測精度，在交并比閾值iou=0.5下，統(tǒng)計了各方法20類行為的AP@0.5值及mAP@0.5值。表6中本文方法mAP@0.5為36.9%。與SMS［4］，RC3D［10］，Two-stream R-C3D［12］，LGN［9］等方法相比，RS-STCBD提高了10種動作的檢測效果，尤其提升了Clean and Jerk（46.2%），Cliff Diving（61.3%），Hammer Throw（71.5%），Pole Vault（71.6%）等長時序行為的檢測精度。然而，Cricket Bowling，Volleyball Spiking，Soccer Penalty等行為檢測精度不及部分方法。這主要由于本文通過嵌入收縮結(jié)構(gòu)和軟閾值化操作構(gòu)建3DRSST單元難以自適應(yīng)抑制人物過多、遮擋面積過大等冗余信息。

表6 THUMOS14數(shù)據(jù)集上不同方法下各行為AP@0.5比較Tab.6 Comparison of AP@0.5 of each behavior under different methods in THUMOS14

為了說明本文方法的泛化能力，本文將提出的RS-STCBD方法與R-C3D［10］，TwinNet［25］，AffNet［16］，BackTAL［18］，MHCS［26］，SSN［8］等方法在ActivityNet1.2數(shù)據(jù)集上進行比較，實驗結(jié)果如表7所示。由表7可以看出，本文提出方法在mAP@0.5，，iou∈[0.5， 0.95]之間的平均mAP值以及mAP@0.75，mAP@0.95值普遍高于其他方法。

表7 ActivityNet1.2數(shù)據(jù)集上不同方法的mAP比較Tab.7 mAP comparison of different methods in ActivityNet1.2

4.2.2 時序邊界劃分評價

為了說明RS-STCBD時序邊界的定位效果，在THUMOS14數(shù)據(jù)集上，本文將其與R-C3D方法進行比較。圖3為同一時序片段中Cricket Bowling和Cricket Shot兩類運動的邊界定位效果。從圖3可以看出，Cricket Bowling和Cricket Shot的時間定位邊界在R-C3D方法均有重疊，而在RS-STCBD方法中沒有交叉。這說明RS-STCBD方法在區(qū)分兩種運動的邊界方面具有更高的精確度。圖4為Billiards動作在R-C3D和RSSTCBD方法上的邊界定位效果。從圖4中可以看出，R-C3D方法對Billiards運動邊界定位包含了背景、人像等非運動信息，而RS-STCBD方法能夠較好的區(qū)分非運動信息和運動信息。這說明RS-STCBD方法在判別運動信息和非運動信息方面具有較高的區(qū)分度。圖5為High Jump動作在R-C3D和RS-STCBD方法上的檢測結(jié)果。與R-C3D方法相比，RS-STCBD方法劃分的時序片段邊界框更接近于真實邊界框GT，且各時序片段的動作分類結(jié)果具有更高的置信度。

圖3 Cricket在R-C3D和RS-STCBD上的檢測結(jié)果Fig.3 Detection results of Cricket movement on R-C3D and RS-STCBD

圖4 Billiards在R-C3D和RS-STCBD上的檢測結(jié)果Fig.4 Detection results of Billiards movement on R-C3D and RS-STCBD

圖5 High Jump在R-C3D和RS-STCBD上的檢測結(jié)果Fig.5 Detection results of High Jump movement on R-C3D and RS-STCBD

4.3 消融實驗

為了說明改進的子網(wǎng)對行為檢測的影響，本文進行5類消融實驗，并分別統(tǒng)計不同子網(wǎng)組合策略在THUMOS14和ActivityNet1.2數(shù)據(jù)集上的檢測效果。參考SSN［8］，LGN［9］，BackTAL［18］等的iou參數(shù)設(shè)置方式，表8分別統(tǒng)計了THUMOS14數(shù)據(jù)集在iou∈[0.4，0.7]以及ActivityNet1.2數(shù)據(jù)集在iou∈[0.5，0.95]的檢測精度。表8中，Strategy1表示在特征提取子網(wǎng)中使用3D-RSST單元級聯(lián)模塊替代R-C3D中的C3D模塊；Strategy2表示在時序候選子網(wǎng)中使用多層卷積（Multilayer Convolution）替代一次卷積；Strategy3表示在行為分類子網(wǎng)中引入非局部注意力機制（Non-local Attention Mechanism）。從表8可以看出，與R-C3D相比，三種策略在不同iou值下均提高了行為檢測的mAP值，這說明本文嵌入殘差收縮結(jié)構(gòu)、以多層卷積增加時序維度感受野以及引入非局部注意力機制等的有效性。相比Strategy2和Strategy3，Strategy1的提升效果更為顯著，這表明設(shè)計的自適應(yīng)收縮閾值3DRSST單元在提取行為特征的同時，能夠有效抑制噪聲、背景等冗余信息；此外，這也說明改進特征提取子網(wǎng)仍是提高行為檢測性能的重要手段。與其它策略相比，本文構(gòu)建的RS-STCBD網(wǎng)絡(luò)嵌入了殘差收縮結(jié)構(gòu)并融入了時空上下文信息，從而提升了動作邊界定位和行為分類的精度；特別地，在THUMOS14和ActivityNet1.2數(shù)據(jù)集上mAP@0.5分別達到了36.9%和41.6%，比R-C3D提高了8.0%和14.8%。

表8 不同改進階段的消融實驗結(jié)果Tab.8 Results of ablation experiments at different improvement stages

4.4 參數(shù)分析

本文討論了平衡因子λ、非極大值抑制閾值γ以及優(yōu)質(zhì)時序片段數(shù)量K對mAP@0.5的影響。圖6顯示了平衡因子λ∈[0.1，0.9]間的RS-STCBD網(wǎng)絡(luò)性能。由圖6可知，當(dāng)λ＜0.4，mAP@0.5隨著λ的增大呈上升趨勢；當(dāng)λ＞0.4時，mAP@0.5隨著λ的增大顯著下降；當(dāng)λ=0.4時，mAP@0.5達到峰值。因此，本文平衡因子λ取0.4。圖7統(tǒng)計了非極大值抑制閾值γ∈[0.0，0.9]對RS-STCBD網(wǎng)絡(luò)性能的影響。由圖7可知，γ＜0.2時，隨著γ的逐漸增大，漏刪的冗余時序候選片段數(shù)量逐漸減小，因此mAP@0.5呈上升趨勢；γ=0.2時，mAP@0.5達到峰值；0.2＜γ≤0.4時，隨著γ的逐漸增大，誤刪的優(yōu)質(zhì)時序片段數(shù)量增加，從而mAP@0.5逐漸下降；γ＞0.4時，篩選的優(yōu)質(zhì)時序片段數(shù)量達到飽和，因此mAP@0.5維持不變。圖8統(tǒng)計了優(yōu)質(zhì)時序片段數(shù)量K∈[50，400]對RS-STCBD網(wǎng)絡(luò)性能的影響。由圖8可知，K＜150時，隨著K的增加，篩選的優(yōu)質(zhì)時序片段數(shù)量也隨之增加，因此mAP@0.5呈上升趨勢；K≥150時，由于K與網(wǎng)絡(luò)輸出的優(yōu)質(zhì)時序片段數(shù)量相當(dāng)，篩選的候選片段將包含所有的優(yōu)質(zhì)時序片段，因此mAP@0.5趨于穩(wěn)定。此結(jié)果也表明本文采用非極大值抑制策略優(yōu)選時序片段的有效性。

圖6 平衡因子對mAP@0.5的影響Fig.6 Influence of balance factor on mAP@0.5

圖7 非極大值抑制閾值對mAP@0.5的影響Fig.7 Influence of NMS threshold on mAP@0.5

圖8 優(yōu)質(zhì)時序片段數(shù)量對mAP@0.5的影響Fig.8 Influence of number of high-quality proposals on mAP@0.5

5 結(jié)論

為提高行為時間邊界定位精度和分類準(zhǔn)確度，本文基于R-C3D方法提出一種改進的RSSTCBD行為檢測網(wǎng)絡(luò)。在特征提取子網(wǎng)中，設(shè)計3D-RSST單元并構(gòu)建特征提取網(wǎng)絡(luò)以自適應(yīng)消除行為特征中的噪聲、背景等冗余信息；在時序候選子網(wǎng)和行為分類子網(wǎng)中，通過多層卷積和非局部注意力機制，增加時序侯選片段的時序維度感受野和優(yōu)質(zhì)時序片段間的上下文時空運動信息。在THUMOS14和ActivityNet1.2數(shù)據(jù)集上評價了RS-STCBD網(wǎng)絡(luò)的動作邊界定位和行為分類精確度，并討論了交并比閾值、平衡因子、非極大值抑制閾值以及優(yōu)質(zhì)時序片段數(shù)量等超參數(shù)對網(wǎng)絡(luò)性能的影響。實驗結(jié)果表明：在兩個數(shù)據(jù)集上，RS-STCBD方法的mAP@0.5達36.9%和41.6%，比R-C3D方法分別提高了8.0%和14.8%。因此，基于改進網(wǎng)絡(luò)的行為檢測方法有利于改善自然場景下的人機交互質(zhì)量。由于受物體遮擋、行為動作相似等影響，各類行為檢測的精度仍存在較大差異，如何從行為時空特征建模、行為多模態(tài)信息融合等角度進一步提高各類行為分類的準(zhǔn)確度將是下一步需要開展的工作。