亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特征挖掘與區(qū)域增強的弱監(jiān)督時序動作定位

        2023-12-31 00:00:00王靜王傳旭
        計算機應用研究 2023年8期

        摘 要:弱監(jiān)督時序動作定位旨在定位視頻中行為實例的起止邊界及識別相應的行為。現(xiàn)有方法盡管取得了很大進展,但依然存在動作定位不完整及短動作的漏檢問題。為此,提出了特征挖掘與區(qū)域增強(FMRE)的定位方法。首先,通過基礎分支計算視頻片段之間的相似分數(shù),并以此分數(shù)聚合上下文信息,得到更具有區(qū)別性的段分類分數(shù),實現(xiàn)動作的完整定位;然后,添加增強分支,對基礎分支定位中持續(xù)時間較短的動作提案沿時間維度進行動態(tài)上采樣,進而采用多頭自注意機制對動作提案間的時間結構顯式建模,促進具有時間依賴關系的動作定位且防止短動作的漏檢;最后,在兩個分支之間構建偽標簽互監(jiān)督,逐步改進在訓練過程中生成動作提案的質量。該算法在THUMOS14和ActivityNet1.3數(shù)據(jù)集上分別取得了70.3%和40.7%的檢測性能,證明了所提算法的有效性。

        關鍵詞:時序動作定位;逆變換;動態(tài)采樣;偽標簽互監(jiān)督;多頭自注意

        中圖分類號:TP391.4文獻標志碼:A

        文章編號:1001-3695(2023)08-050-2555-06

        doi:10.19734/j.issn.1001-3695.2022.12.0642

        Feature mining and region enhancement for weakly supervised

        temporal action localization

        Wang Jing,Wang Chuanxu

        (School of Information Science amp; Technology,Qingdao University of Science amp; Technology,Qingdao Shandong 266100,China)

        Abstract:Weakly supervised temporal action localization (WTAL) aims to locate the start and end boundaries of action instances and identify the corresponding actions.Although the existing methods have made great progress,there are still problems of incomplete localization and missing detection of shorter motions.To this end,this paper proposed a localization method of feature mining and region enhancement (FMRE).Firstly it calculated the similarity score between video segments through the base branch,and aggregated the context information with this score to obtain a more differentiated segment classification score,further realizing the complete positioning of the action.Then,it added a enhance branch to dynamically up-sample action proposals with a shorter duration in the initial localization along the temporal dimension,and then utilized the multi-head self-attention mechanism to explicitly model the temporal structure between action proposals,which facilitated action localization with temporal dependencies and prevented missing detection of short actions.Finally,it constructed pseudo-labels of mutual supervision between the two branches to gradually improve the quality of action proposals during the training process.The algorithm achieves mAP of 70.3% and 40.7% detection performances on the THUMOS14 and ActivityNet1.3 datasets respectively,which proves the effectiveness of the proposed algorithm.

        Key words:temporal action localization;inverse transform;dynamic sampling;pseudo-label mutual supervision;multi-head self-attention

        0 引言

        時序動作定位是視頻理解中一項重要且具有挑戰(zhàn)性的任務,其在視頻監(jiān)控、事件檢測、交通監(jiān)管等領域得到了廣泛應用。然而,該工作大多數(shù)都是以完全監(jiān)督的方式處理,注釋大量的動作時間邊界即耗時又費力。相反,弱監(jiān)督學習可以大大簡化數(shù)據(jù)收集和標記成本,得到了研究者的廣泛關注。

        弱監(jiān)督時序動作定位的經(jīng)典方法是將此任務公式化為一個多實例學習(MIL)問題,整個未剪輯視頻被視為一個包含正、負實例的包,即動作實例和背景幀。隨著時間的推移執(zhí)行片段分類以生成類激活序列(CAS),然后通過top-k聚合得到視頻級預測,閾值化生成行為提議,如圖1(a)所示(其中:class為分類監(jiān)督;CAS為類激活案例;箭頭指示傳播方向)。由于此框架只優(yōu)化分類目標,所以本文認為將視頻中片段作為獨立實例的MIL方法,忽略了在特征建模及預測階段對動作片段內(nèi)和跨動作片段間潛在的時間結構進行建模,且分類器生成的CAS表示每個片段的特定類別動作概率,但它只覆蓋對動作分類貢獻最大且最具有辨別力的區(qū)域[1],導致從CAS中生成的動作提案和位置偽標簽都是低質量的。其次是模型偏向于持續(xù)時間較長的動作片段,造成短動作的漏檢及低質量預測,如圖1(b)所示。

        本文為了解決動作實例的漏檢和完整性問題,提出了基于特征挖掘與區(qū)域增強的研究算法,稱之為FMRE。首先通過段內(nèi)多頭自我注意機制平滑的MIL方法生成動作提案,這些提案顯示了未剪輯視頻中的動作位置及持續(xù)時間的初步估計。進而采用逆變換理論對短動作提案進行動態(tài)上采樣,然后通過自我注意顯式建模提案間的交互關系,從而促進具有時間依賴關系的動作定位且防止短動作的誤報和漏檢。最后,為了優(yōu)化定位目標,進一步構建了基礎分支和增強分支之間的偽標簽互監(jiān)督。將每個分支的定位結果作為另一個分支的定位目標,交替凍結一個分支來訓練另一個分支,從而促使模型定位更加完整和精確,如圖1(c)所示。本文主要貢獻總結如下:

        a)提出了段內(nèi)、提案間的多頭自我注意模塊。即前者是計算視頻片段與查詢之間的相似度分數(shù),進而利用這些分數(shù)聚合上下文信息,以此得到更具有區(qū)別性的段分類并抑制無關信息的干擾。后者則是顯式建模動作提案之間的時間結構,促進動作定位且防止動作誤報。

        b)通過初定位的動作提案,采用逆變換原理,對一定長度的動作進行動態(tài)上采樣,從而避免短動作的漏檢和低質量預測。

        c)在公開數(shù)據(jù)集THUMOS14和ActivityNet1.3上進行了大量實驗。結果表明,所提方法比目前最先進的方法具有更好的性能。

        1 相關工作

        1.1 弱監(jiān)督時序動作定位

        弱監(jiān)督時序動作定位(WTAL)僅使用視頻級動作標簽進行訓練,有效地減輕了對昂貴動作邊界注釋的需求。受目標檢測中類激活圖的啟發(fā)[2],早期方法通常是根據(jù)視頻級的類別標簽訓練動作分類器,然后根據(jù)分類器的參數(shù)計算類激活序列,最后閾值化CAS得到動作提案。

        分類和定位在優(yōu)化目標上存在根本性區(qū)別,即分類主要依賴于最具辨別力的動作片段,而定位需要挖掘完整的動作區(qū)域。CAS通常是稀疏和不完整的,進而導致從CAS中生成的動作提案和位置偽標簽都是低質量的。為了解決這些問題,CMCS[1]則并行訓練多個分類器,用于檢測不同的動作區(qū)域。不同于此,DGAM[3]通過條件變分自動編碼器分離上下文和動作,CleanNet[4]進一步提出了行為提議評估器,以進行有效的邊界調(diào)整。

        上述方法僅是通過分類監(jiān)督進行定位。最近一些研究引入了基于自我訓練的框架,即在當前步驟的CAS上設置閾值,并生成偽標簽作為下一次訓練的位置監(jiān)督,逐步細化偽標簽實現(xiàn)優(yōu)質定位。具體地說,EM-MIL[5]利用類特定的CAS和與類無關的注意力作為偽標簽,將WTAL任務視為期望最大化問題進行優(yōu)化。TSCN[6]分別基于RGB和Flow數(shù)據(jù)預測偽標簽,然后對這兩個偽標簽進行后期融合以減少誤報。受其思想的啟發(fā),本文FMRE框架通過段內(nèi)自我注意聚合上下文信息,以此提煉動作特征并抑制無關信息的干擾;提案間自我注意顯式建模不同實例之間的結構關系來促進定位。其次,采用逆變換原理對時序短動作片段進行動態(tài)上采樣,以此避免漏檢和低置信度預測,最后通過偽標簽互監(jiān)督提高定位性能。

        1.2 偽標簽指導交互訓練

        在弱監(jiān)督或有限監(jiān)督的視覺任務中,使用偽標簽來指導模型訓練得到越來越多的關注。在弱監(jiān)督的目標檢測中,自我訓練[7,8]是一個開創(chuàng)性的研究方向,它首先訓練教師模型,然后選擇每個未標記樣本中的最大預測概率作為動作定位的偽標簽來訓練最終的檢測器。同樣,在半監(jiān)督學習[9~13]和域自適應[14~16]算法中,預訓練的網(wǎng)絡以監(jiān)督的方式在標記的源數(shù)據(jù)集上進行訓練,然后用于未標記的目標數(shù)據(jù)集生成偽標簽,進而指導訓練過程。與上述工作相似,本文FMRE就是利用偽段級標簽(即動作提案)來指導在WTAL任務中的訓練過程。將每個分支的定位結果作為另一個分支的定位目標,交替凍結一個分支來訓練另一個分支,多次迭代、進而實現(xiàn)動作的不漏檢且準確識別與定位。

        1.3 注意力機制

        注意力機制可以理解為計算機視覺系統(tǒng)在模擬人類視覺系統(tǒng),迅速高效地關注重點區(qū)域,并處理這些區(qū)域的特性。近年來,基于注意力的方法被廣泛應用于動作定位的研究,Islam等人[17]提出了具有混合注意力機制的HAM-Net框架,包括時間軟、半軟和硬注意力。其時間軟注意力模塊由分類分數(shù)引導來模擬背景活動且找到動作的高辨別區(qū)域,半軟和硬注意力模塊對視頻片段中動作的高辨別度區(qū)域進行擦除并計算兩個注意力分數(shù),進而挖掘動作辨別度低的幀,通過聯(lián)合學習來捕獲完整的動作實例。不同于此,Wang等人[18]改進條件變分自動編碼器(CVAE)注意力生成模型,加入動作前后幀信息以獲取幀級注意力值,從而增強幀前后的關聯(lián)性,避免幀信息丟失問題。自注意機制與其不同之處在于,它是輸入序列內(nèi)部元素之間或者輸出序列內(nèi)部元素之間發(fā)生的注意力機制。Zhou等人[19]使用自我注意來捕捉用戶不同行為的影響,對用戶行為進行建模,并將其應用于推薦任務。受其思想的啟發(fā),本文提出了段內(nèi)、提案間的多頭自我注意模塊,即前者是建模查詢片段的上下文信息來提煉片段特征,以此得到更具有區(qū)別性的段分類分數(shù)。后者則是通過模擬動作提案之間的關系,促進具有時間依賴關系的動作定位。

        FMER總體框架如圖2所示,其中:藍色區(qū)域表示對未剪輯視頻提取特征得到片段級特征表示;綠色區(qū)域指示基礎分支,通過段內(nèi)自我注意平滑MIL方法生成動作的初始定位。橙色區(qū)域則是增強分支,對基礎分支中的短動作動態(tài)上采樣,提案間自我注意建模時間結構來促進定位,避免短動作的漏檢。

        2 方法

        2.1 問題表述

        2.2 基礎分支

        2.3 增強分支

        2.4 迭代訓練的偽標簽互監(jiān)督

        3 實驗

        3.1 數(shù)據(jù)集和評價指標

        3.2 實現(xiàn)細節(jié)

        3.3 與最先進的方法進行比較

        3.4 消融實驗

        3.5 定性的可視化分析

        為了定性地展示所提框架的優(yōu)越性,在圖6可視化了兩個示例。圖中:在每個例子中有九個圖。前三個圖分別是輸入視頻、CAS和基礎分支的定位結果。中間三個圖顯示了輸入視頻、CAS和增強分支的定位結果。最后三個圖分別是最終CAS、整個框架的最終定位結果和真實動作間隔?;A分支以均勻時間分布的視頻作為源,只能檢測出長動作。通過動態(tài)計算放大比在增強分支進行短動作的上采樣,從而防止短動作的漏檢和低質量預測。偽標簽互監(jiān)督使最終的定位結果更加完整和精確。

        圖6(a)描繪了一個具有背景挑戰(zhàn)的案例擲鐵餅,它看起來與前景非常相似,即便如此,本文通過自注意力機制建模上下文信息,以此得到更具有區(qū)別性的段分數(shù),進而抑制背景信息的干擾,實現(xiàn)精準定位。圖6(b)展示了包含長短不同的打籃球動作的視頻,通過本文的增強分支對其短的動作實例進行上采樣,以此避免了低質量預測,進而偽標簽互監(jiān)督促使兩個分支之間的相互增強,從而獲得更完整、更精確的預測結果。

        4 結束語

        專注于弱監(jiān)督時序動作定位任務研究,例如時序較短行為的漏檢,以及一些候選剪輯被隨意忽略導致定位不完整或者過度完整。本文提出了基于特征挖掘與區(qū)域增強的新算法,通過段內(nèi)自我注意提煉特征以獲得更易于區(qū)分動作和背景的片段,進而得到更具有區(qū)別性的段分類分數(shù),實現(xiàn)動作的初始定位。為避免基礎分支對短動作的漏檢,添加增強分支對較短動作進行動態(tài)上采樣,進而捕獲不同動作提案之間的關系來促進動作定位并避免低質量預測。最后構建偽標簽互監(jiān)督,通過提供更細粒度的監(jiān)督,促使兩分支相互增強,在多次迭代中逐步定位更完整、更精確的動作區(qū)域。在THUMOS14和ActivityNet1.3上的實驗證明了所提FMRE框架的有效性和先進性。

        行為定位和識別任務的最新進展表明,建模上下文可以為動作識別提供更豐富的線索。受此啟發(fā),下一步工作將引入顯式的背景建模來增強本文框架的判別能力,從而抑制背景噪聲的干擾,從而獲得準確的動作提案。

        參考文獻:

        [1]Liu Daochang,Jiang Tingting,Wang Yizhou.Completeness modeling and context separation for weakly supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1298-1307.

        [2]Zhou Bolei,Khosla A,Lapedriza A,et al.Learning deep features for discriminative localization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:2921-2929.

        [3]Shi Baifeng,Dai Qi,Mu Yadong,et al.Weakly-supervised action localization by generative attention modeling[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1009-1019.

        [4]Liu Ziyi,Wang Le,Zhang Qilin,et al.Weakly supervised temporal action localization through contrast based evaluation networks[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3899-3908.

        [5]Luo Zhekun,Guillory D,Shi Baifeng,et al.Weakly-supervised action localization with expectation-maximization multi-instance learning[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:729-745.

        [6]Zhai Yuanhao,Wang Le,Tang Wei,et al.Two-stream consensus network for weakly-supervised temporal action localization[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:37-54.

        [7]Zou Yang,Yu Zhiding,Liu Xiaofeng,et al.Confidence regularized self-training[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:5982-5991.

        [8]Ren Zhongzheng,Yu Zhiding,Yang Xiaodong,et al.Instance-aware,context-focused,and memory-efficient weakly supervised object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10598-10607.

        [9]Sohn K,Berthelot D,Carlini N,et al.FixMatch:simplifying semi-supervised learning with consistency and confidence[J].Advances in Neural Information Processing Systems,2020,33:596-608.

        [10]Weng Zejia,Yang Xitong,Li Ang,et al.Semi-supervised vision transformers[C]//Proc of European Conference on Computer Vision.Cham:Springer,2022:605-620.

        [11]Paul S,Roy S,Roy-Chowdhury A K.W-talc:weakly-supervised temporal activity localization and classification[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:588-607.

        [12]Idrees H,Zamir A R,Jiang Y G,et al.The THUMOS challenge on action recognition for videos “in the wild”[J].Computer Vision and Image Understanding,2017,155:1-23.

        [13]Caba Heilbron F,Escorcia V,Ghanem B, et al.ActivityNet:a large-scale video benchmark for human activity understanding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2015:961-970.

        [14]Saito K,Ushiku Y,Harada T.Asymmetric tri-training for unsupervised domain adaptation[C]//Proc of International Conference on Machine Learning.2017:2988-2997.

        [15]Liang Jian,He Ran,Sun Zhenan,et al.Exploring uncertainty in pseudo-label guided unsupervised domain adaptation[J].Pattern Recognition,2019,96:106996.

        [16]Das D,Lee C S.Graph matching and pseudo-label guided deep unsupervised domain adaptation[C]//Proc of International Conference on Artificial Neural Networks.Cham:Springer,2018:342-352.

        [17]Islam A,Long C,Radke R.A hybrid attention mechanism for weakly-supervised temporal action localization[C]//Proc of AAAI Confe-rence on Artificial Intelligence.Menlo Park,CA:AAAI Press,2021:1637-1645.

        [18]Wang Jing,Wang Chuanxu.Self-attention relational modeling and background suppression for weakly supervised temporal action localization[J].Journal of Electronic Imaging,2022,31(6):063019.

        [19]Zhou Chang,Bai Jinze,Song Junshuai,et al.Atrank:an attention-based user behavior modeling framework for recommendation[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Menlo Park,CA:AAAI Press,2018:4564-4571.

        [20]Duval V,Aujol J F,Gousseau Y.The TVL1 model:a geometric point of view[J].Multiscale Modeling amp; Simulation,2009,8(1):154-189.

        [21]Carreira J,Zisserman A.Quo vadis,action recognition?A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:6299-6308.

        [22]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2014).https://arxiv.org/abs/1412.6980.

        [23]Gao Junyu,Chen Mengyuan,Xu Changsheng.Fine-grained temporal contrastive learning for weakly-supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:19999-20009.

        [24]Lee P,Uh Y,Byun H.Background suppression network for weakly-supervised temporal action localization[C]//Proc of AAAI Confe-rence on Artificial Intelligence.Menlo Park,CA:AAAI Press,2020:11320-11327.

        [25]Yang Wenfei,Zhang Tianzhu,Yu Xiaoyuan,et al.Uncertainty guided collaborative training for weakly supervised temporal action detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:53-63.

        [26]Zhang Can,Cao Meng,Yang Dongming,et al.CoLA:weakly-supervised temporal action localization with snippet contrastive learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:16010-16019.

        [27]Huang Linjiang,Wang Liang,Li Hongsheng.Foreground-action consistency network for weakly supervised temporal action localization[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:8002-8011.

        [28]Shou Zheng,Gao Hang,Zhang Lei,et al.AutoLoc:weakly-supervised temporal action localization in untrimmed videos[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:154-171.

        [29]Qu Sanqing,Chen Guang,Li Zhijun,et al.ACM-NET:action context modeling network for weakly-supervised temporal action localization[EB/OL].(2021).https://arxiv.org/abs/2104.02967.

        [30]Luo Wang,Zhang Tianzhu,Yang Wenfei,et al.Action unit memory network for weakly supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:9969-9979.

        青春草在线视频精品| 国产亚州精品女人久久久久久| 熟妇人妻丰满少妇一区| 亚洲乱码av中文一区二区第八页| 成人av毛片免费大全| 午夜秒播久久精品麻豆| 含紧一点h边做边走动免费视频| 成人午夜性a级毛片免费| 国产精自产拍久久久久久蜜 | 亚洲一区日本一区二区| 亚洲国产av高清一区二区三区| 丰满少妇被猛烈进入高清播放| 大胸少妇午夜三级| 越猛烈欧美xx00动态图| 国产精品久久国产精品99gif| 国产乱人视频在线观看播放器| 在线亚洲精品中文字幕美乳色| 国产日本精品一二三四区| 亚洲av成人网| 国产精品久久久久av福利动漫 | 一区二区三区国产在线网站视频 | 亚洲天堂手机在线| 日韩av中文字幕一卡二卡| 成年网站在线91九色| 老师露出两个奶球让我吃奶头| 亚洲国产无套无码av电影| 澳门毛片精品一区二区三区| 美女极度色诱视频国产免费| 国产av自拍在线观看| 久久国产精品亚洲va麻豆| 日本少妇高潮喷水xxxxxxx| 国产精品免费大片| 99久久久精品免费| 国产午夜福利av在线麻豆| 国产一区二区av免费在线观看| 国产精品一区二区久久乐下载| 日韩精品无码区免费专区| 欧洲国产精品无码专区影院| 手机在线中文字幕av| 一区在线视频免费播放| 男女爱爱好爽视频免费看|