亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于3D-SVD的時(shí)空行為定位算法①

        2022-01-06 06:05:02王紫煙張立華杜洋濤
        關(guān)鍵詞:雙流特征提取時(shí)空

        王紫煙,張立華,2,3,4,翟 鵬,5,杜洋濤

        1(復(fù)旦大學(xué) 智能機(jī)器人研究院,上海 200433)

        2(季華實(shí)驗(yàn)室,佛山 528200)

        3(智能機(jī)器人教育部工程研究中心,上海 200433)

        4(吉林省人工智能與無人系統(tǒng)工程研究中心,長春 130012)

        5(上海智能機(jī)器人工程技術(shù)研究中心,上海 200433)

        時(shí)空行為定位技術(shù)是一種針對(duì)目標(biāo)行為的智能視頻分析技術(shù),即在視頻幀進(jìn)行行為分類并產(chǎn)生與行人空間位置相關(guān)的定位框序列.旨在不需要人為干預(yù)的情況下,利用計(jì)算機(jī)視覺和視頻分析方法對(duì)攝像頭下的人類行為或視頻網(wǎng)站上的視頻進(jìn)行自動(dòng)分析,在智能體育和智能監(jiān)控領(lǐng)域有著廣泛的應(yīng)用.

        時(shí)空行為定位技術(shù)在時(shí)間和空間上同時(shí)定位人體的行為,這在計(jì)算機(jī)視覺領(lǐng)域是一項(xiàng)非常重要的任務(wù).為了解決這個(gè)任務(wù),早期Weinzaepfel等[1]采用CNN網(wǎng)絡(luò)和時(shí)空運(yùn)動(dòng)直方圖描述符對(duì)軌跡進(jìn)行評(píng)分來確定行為的空間位置,并采用多尺度滑動(dòng)窗口進(jìn)行時(shí)間定位.在雙流網(wǎng)絡(luò)和3D-CNN網(wǎng)絡(luò)應(yīng)用于行為識(shí)別任務(wù)之后,由于其優(yōu)秀的性能,此后的時(shí)空行為定位工作大多基于這兩個(gè)框架進(jìn)行.這些算法通常又包括兩個(gè)部分:生成幀級(jí)動(dòng)作和生成幀間關(guān)聯(lián).為了生成更準(zhǔn)確的幀級(jí)動(dòng)作,Peng等[2]將RPN擴(kuò)展到光流數(shù)據(jù)上訓(xùn)練運(yùn)動(dòng)的RPN,以此來提高幀級(jí)行為檢測(cè)的性能.Yang等[3]提出了級(jí)聯(lián)方案,采用級(jí)聯(lián)區(qū)域提議網(wǎng)絡(luò)生成幀級(jí)動(dòng)作.

        幀間關(guān)聯(lián)一般又稱為行為管道的構(gòu)建,多采用貪婪算法和動(dòng)態(tài)規(guī)劃算法.為了更高效地找到行為管道的多重路徑,Alwanda等[4]開發(fā)了一種低成本的動(dòng)態(tài)規(guī)劃算法并利用相鄰幀的時(shí)間一致性修正了不準(zhǔn)確的行為邊界框.此外,因?yàn)樾袨楣艿揽梢岳靡曨l幀的時(shí)間連續(xù)性特征定位行為的時(shí)空位置,所以為了更好的利用這一特性,Hou等[5]在3D-CNN的基礎(chǔ)上提出了一個(gè)tol池化層,緩解了行為管道上時(shí)空的再變化問題.Kalogeiton等[6]則對(duì)每個(gè)行為框進(jìn)行精修來得到更準(zhǔn)確的行為管道.Li等[7]利用LSTM結(jié)構(gòu)捕捉時(shí)間信息,并使用維特比算法連接每一幀的行為框形成行為管道.在以上工作的基礎(chǔ)上,He等[8]構(gòu)建了一個(gè)新的行為定位框架,并利用TPN生成了通用的行為管道.

        以上的工作在行為定位任務(wù)上均有著不錯(cuò)的表現(xiàn),但是其中很多工作基于雙流網(wǎng)絡(luò)或者3D-CNN進(jìn)行,雙流網(wǎng)絡(luò)中的光流網(wǎng)絡(luò)分支計(jì)算效率低,而3D-CNN參數(shù)量大,在一定程度上也存在著精度與計(jì)算效率之間的矛盾.為了緩解該矛盾,Qiu等[9]提出了P3D網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)中用二維空間卷積和一維時(shí)間卷積來模擬3D卷積以降低參數(shù)量.在P3D的基礎(chǔ)上,Tran等[10]做了大量的實(shí)驗(yàn)探索類似的架構(gòu),并將其重新演繹為(2+1)D.

        本文為了解決3D-CNN計(jì)算量大的問題,從3D卷積核自身出發(fā),將二維層面的SVD思想擴(kuò)展到3D-CNN中得到3D-SVD,有效的降低了3D卷積網(wǎng)絡(luò)的參數(shù)量,并基于3D-SVD提出了一個(gè)時(shí)空行為定位網(wǎng)絡(luò)框架.首先,在數(shù)據(jù)集的處理上,我們加入了mixup算法進(jìn)行數(shù)據(jù)增強(qiáng),豐富了數(shù)據(jù)集的內(nèi)容.其次,我們構(gòu)建雙流網(wǎng)絡(luò)架構(gòu)對(duì)行為進(jìn)行識(shí)別并定位,采用空間定位網(wǎng)絡(luò)和時(shí)空特征提取網(wǎng)絡(luò)融合的方式,并使用3D-SVD對(duì)三維卷積網(wǎng)絡(luò)進(jìn)行優(yōu)化.最后,采用序列重排序算法和動(dòng)態(tài)規(guī)劃算法對(duì)行為管道進(jìn)行構(gòu)建,可以有效降低行為的空間漂移對(duì)定位結(jié)果的影響.根據(jù)實(shí)驗(yàn)結(jié)果表明,我們的網(wǎng)絡(luò)在兩個(gè)公開的數(shù)據(jù)集上指標(biāo)都有所提升.

        1 相關(guān)工作

        本文的主要研究內(nèi)容包括時(shí)空行為定位,行為管道構(gòu)建和數(shù)據(jù)增強(qiáng)3個(gè)部分.時(shí)空行為定位和行為管道構(gòu)建可以對(duì)視頻中的行為進(jìn)行定位和分類.而時(shí)空行為定位網(wǎng)絡(luò)需要大量的視頻數(shù)據(jù)來進(jìn)行訓(xùn)練,因此數(shù)據(jù)增強(qiáng)也是時(shí)空行為定位任務(wù)中常見的子任務(wù).

        1.1 數(shù)據(jù)增強(qiáng)

        數(shù)據(jù)增強(qiáng)是一種數(shù)據(jù)擴(kuò)增技術(shù),可以在有限的數(shù)據(jù)集上進(jìn)行擴(kuò)充得到更多的數(shù)據(jù)來幫助訓(xùn)練.常用的數(shù)據(jù)增強(qiáng)技術(shù)有圖像翻轉(zhuǎn)、裁剪、縮放等幾何層面上的增強(qiáng)方式,也有增加噪聲、進(jìn)行填充、顏色變換等顏色層面上的增強(qiáng)方式,這兩種圖像增強(qiáng)方式都是在單個(gè)圖像上進(jìn)行操作的圖像增強(qiáng)技術(shù).除此之外,還有在多個(gè)圖像上進(jìn)行操作從而產(chǎn)生新圖像的圖像增強(qiáng)技術(shù).其中,SMOTE算法[11]利用插值來改變數(shù)據(jù)集的類不平衡現(xiàn)象,SamplePairing算法[12]將不同的圖像分別進(jìn)行處理后再疊加來得到新的樣本.近幾年生成對(duì)抗網(wǎng)絡(luò)[13]逐漸興起,這種網(wǎng)絡(luò)可以通過一個(gè)生成網(wǎng)絡(luò)隨機(jī)的生成圖像,再通過一個(gè)判別網(wǎng)絡(luò)判斷生成的圖像是否“真實(shí)”.這樣通過網(wǎng)絡(luò)的學(xué)習(xí),來隨機(jī)生成與數(shù)據(jù)集分布一致的圖像集合,將有限的數(shù)據(jù)內(nèi)容變得更加的豐富.

        1.2 時(shí)空行為定位

        時(shí)空行為定位任務(wù)可以同時(shí)完成行為檢測(cè)和行為分類兩個(gè)任務(wù).行為檢測(cè)實(shí)質(zhì)上是一個(gè)目標(biāo)檢測(cè)任務(wù),可以檢測(cè)出目標(biāo)行為在時(shí)空的具體位置.一般目標(biāo)檢測(cè)任務(wù)是幀級(jí)層面上的檢測(cè)任務(wù),RCNN[14]作為基于區(qū)域的檢測(cè)算法,使用選擇搜索算法在圖像上提取出可能包含物體的區(qū)域,然后使用分類網(wǎng)絡(luò)得到每個(gè)區(qū)域內(nèi)物體的類別.在此基礎(chǔ)上,Faster RCNN[15]提出了RPN代替了RCNN中的選擇搜索算法,Fast-RCNN[16]共享了卷積計(jì)算提高了特征的利用效率.為了進(jìn)一步提高目標(biāo)檢測(cè)算法的實(shí)時(shí)性,YOLO[17]和SSD[18]將檢測(cè)任務(wù)統(tǒng)一為一個(gè)端到端的回歸問題,目前的YOLO版本能夠現(xiàn)階段最優(yōu)的檢測(cè)結(jié)果.在幀級(jí)目標(biāo)檢測(cè)的基礎(chǔ)上,時(shí)空行為定位任務(wù)還需要對(duì)行為進(jìn)行時(shí)序上的檢測(cè),大多采用構(gòu)建行為管道的方法,輔以雙流網(wǎng)絡(luò)[19]和3D-CNN[20]網(wǎng)絡(luò)來進(jìn)行時(shí)空行為定位.最近有工作將2D特征和3D特征構(gòu)建雙流網(wǎng)絡(luò)[21],進(jìn)行了通道融合得到了很好的結(jié)果.但上述時(shí)空行為定位方法采用的3D-CNN網(wǎng)絡(luò)具有很大的參數(shù)量,導(dǎo)致整體網(wǎng)絡(luò)計(jì)算負(fù)擔(dān)過大.

        1.3 行為管道構(gòu)建方法

        構(gòu)建行為管道即從視頻片段每一幀檢測(cè)到的一系列行為框中找到最優(yōu)的行為框路徑,將其鏈接為行為管道,行為管道的構(gòu)建方法決定了時(shí)空行為定位的準(zhǔn)確性.行為管道構(gòu)建實(shí)際上是一個(gè)最優(yōu)路徑搜索問題,有學(xué)者采用貪婪算法[12]增量的生成多個(gè)行為管道,再利用動(dòng)態(tài)規(guī)劃的方法找出最優(yōu)的行為管道.還有學(xué)者采用維特比算法[7]鏈接不斷遞增的行為框以此形成多通道的行為序列.為了更高效地搜索到行為管道,優(yōu)化動(dòng)態(tài)規(guī)劃算法來增強(qiáng)整體算法效率也成了研究方向之一,基于此有學(xué)者開發(fā)了一種低成本的能在單次運(yùn)行中找到多重路徑的算法[4].除此之外,HISAN[22]在動(dòng)態(tài)規(guī)劃的基礎(chǔ)上采用了SR算法減少了邊界框在鏈接過程中遮擋和背景的影響,并采用多路徑搜索算法進(jìn)行優(yōu)化,一次迭代就能找到所有可能的路徑.

        2 基于3D-SVD的行為定位算法

        本文構(gòu)建了一個(gè)端到端的框架,可以定位視頻中的多個(gè)行為,在這個(gè)框架下可以同時(shí)提取到關(guān)鍵幀的二維特征和輸入片段的三維特征.基于3D-SVD的行為定位算法整體框架如圖1所示,分為3個(gè)主要部分:空間定位網(wǎng)絡(luò)、時(shí)空特征提取網(wǎng)絡(luò)和行為管道構(gòu)建.接下來,介紹本文框架的具體結(jié)構(gòu).

        圖1 整體框架圖

        2.1 雙流網(wǎng)絡(luò)結(jié)構(gòu)

        空間定位網(wǎng)絡(luò)和時(shí)空特征提取網(wǎng)絡(luò)組成了一個(gè)雙流網(wǎng)絡(luò).空間定位網(wǎng)絡(luò)分支采用Darknet-53[23]作為主干網(wǎng)絡(luò),利用視頻關(guān)鍵幀的二維特征來實(shí)現(xiàn)行為的空間定位.時(shí)空特征提取網(wǎng)絡(luò)分支在傳統(tǒng)三維卷積網(wǎng)絡(luò)的基礎(chǔ)上采用SVD的思想,SVD矩陣分解如圖2(a)所示.本文將SVD的矩陣分解思想擴(kuò)展到三維層面,將3D卷積核進(jìn)行分解,這樣分解矩陣能夠共享視頻不同維度的權(quán)值,減少傳統(tǒng)三維卷積網(wǎng)絡(luò)的參數(shù)量,我們將其稱為3D-SVD.

        圖2 SVD和3D-SVD分解對(duì)比

        3D-SVD將3D卷積核分解的過程可以用Tucker分解來表示,如圖2(b)所示.假設(shè)X是大小為t×h×w的三階張量,進(jìn)行Tucker分解后為:

        其中,g的大小為r1×r2×r3,T的大小為t×r1,H的大小為h×r2,W的大小為w×r3,即:

        當(dāng)g為h×t×w時(shí),可以得到視頻的3個(gè)視角,正常視角W-H、沿著時(shí)間維度的高度信息視角H-T和沿著時(shí)間維度的寬度信息視角W-T,與CoST網(wǎng)絡(luò)[24]相似.

        設(shè)輸入的特征圖的大小為T×H×W×C1,是輸入通道.那么3個(gè)視角的輸出特征圖為:

        然后將3組特征圖進(jìn)行加權(quán)求和:

        如式(3)所示,3個(gè)視角的卷積核共享權(quán)重,3DSVD能夠?qū)σ曨l3個(gè)視角的特征進(jìn)行融合,從而實(shí)現(xiàn)視頻的行為分類.

        3D-ResNeXt-101網(wǎng)絡(luò)[25]在Kinetics數(shù)據(jù)集上獲得了很好的表現(xiàn),因此將3D-ResNeXt-101網(wǎng)絡(luò)作為時(shí)空特征提取網(wǎng)絡(luò)的主干網(wǎng)絡(luò).3D-ResNeXt-101的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,在此基礎(chǔ)上將其中的中間層卷積替換為如圖3(b)所示的3D-SVD結(jié)構(gòu)即可有效的減少參數(shù)量,并能得到所需要的時(shí)空信息.

        圖3 殘差單元對(duì)比

        表1 3D-ResNeXt-101結(jié)構(gòu)

        在時(shí)空特征提取網(wǎng)絡(luò)這個(gè)分支中,輸入是由一系列連續(xù)幀所組成的視頻片段,經(jīng)過3D-ResNeXt-101網(wǎng)絡(luò)后輸出為[幀數(shù)×高度×寬度×3]的特征圖,為了和空間定位分支網(wǎng)絡(luò)輸出的特征圖相匹配,將時(shí)空特征提取網(wǎng)絡(luò)輸出的特征圖的深度維數(shù)減少到1.

        2.2 基于序列重排序的行為管道構(gòu)建

        在進(jìn)行定位和分類的過程之中,行為的空間漂移會(huì)導(dǎo)致其定位精度的降低.因此,采用序列重排序算法,可以減少運(yùn)動(dòng)漂移對(duì)檢測(cè)的影響從而鏈接到行為管道的正確路徑.

        接著采用非最大值抑制算法將邊界框的數(shù)量減少到Nnms

        2.3 數(shù)據(jù)增強(qiáng)—mixup算法

        在實(shí)際的行為定位任務(wù)中,Okan等[21]采用了圖像抖動(dòng)、改變圖像飽和度、色調(diào)和曝光度等技術(shù)對(duì)行為定位數(shù)據(jù)集的訓(xùn)練部分進(jìn)行了圖像增強(qiáng).這些圖像增強(qiáng)操作可以有效的生成不同光照條件,不同視角以及不同環(huán)境下的圖像,提高了訓(xùn)練的效果.但是這些變換都是基于單個(gè)圖像進(jìn)行的操作.行為定位任務(wù)實(shí)際環(huán)境復(fù)雜,所以我們需要一種增加數(shù)據(jù)多樣性的數(shù)據(jù)增強(qiáng)方法來增加算法的魯棒性.考慮到系統(tǒng)的效率,我們?cè)黾恿送瑯邮抢昧瞬逯堤匦缘膍ixup算法對(duì)已有的數(shù)據(jù)集進(jìn)行進(jìn)一步的圖像增強(qiáng)操作.這種算法是一種利用了線性插值增強(qiáng)新樣本數(shù)據(jù)的數(shù)據(jù)增強(qiáng)方法,基于領(lǐng)域風(fēng)險(xiǎn)最小化原則的數(shù)據(jù)增強(qiáng)方法.

        設(shè)x為數(shù)據(jù),y為數(shù)據(jù)標(biāo)簽,P(x,y)為兩者的聯(lián)合分布,l(.)為損失函數(shù),經(jīng)驗(yàn)風(fēng)險(xiǎn)為:

        訓(xùn)練集{x,y}用狄拉克函數(shù)近似表示為:

        數(shù)據(jù)量完成由n到m的增廣之后,式子變換為:

        其中,v代表鄰域分布,mixup采用了線性插值的方法,用線性表達(dá)代表鄰域分布.

        設(shè)(xi,yi)和(xj,yj)為在訓(xùn)練集中隨機(jī)選取的兩個(gè)樣本點(diǎn),則插值產(chǎn)生的新的數(shù)據(jù)點(diǎn)為:

        3 實(shí)驗(yàn)結(jié)果及分析

        為了評(píng)估算法的性能,本節(jié)在UCF101-24和JHMDB-21兩個(gè)流行且具有挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與其它算法的結(jié)果進(jìn)行比較和分析.

        本文的實(shí)驗(yàn)均在配有4張32 GB顯存的DGX STATION上進(jìn)行,在Linux操作系統(tǒng)下使用PyTorch框架作為運(yùn)行環(huán)境.

        3.1 實(shí)驗(yàn)數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        UCF101-24是UCF-101的子類數(shù)據(jù)集,包含24種行為類別和3207個(gè)帶有行為邊界框標(biāo)注的視頻,提供了行為的類別和空間標(biāo)注信息.

        J-HMDB-21是HMDB-51的子類數(shù)據(jù)集,包含21種行為類別和928個(gè)短視頻.在每個(gè)視頻的所有幀中都有一個(gè)行為實(shí)例.

        兩個(gè)公開數(shù)據(jù)集中的數(shù)據(jù)來源于視頻網(wǎng)站上真實(shí)場(chǎng)景下所拍攝的視頻,主要包含體育運(yùn)動(dòng)行為和日常生活行為,如圖4和圖5所示.

        圖4 UCF101-24數(shù)據(jù)集

        圖5 J-HMDB-21數(shù)據(jù)集

        評(píng)價(jià)指標(biāo):在時(shí)空行為定位任務(wù)中最常用的評(píng)價(jià)指標(biāo)為Frame-mAP和Video-mAP,前者是對(duì)于幀的度量,代表了每幀檢測(cè)的召回曲線下的區(qū)域,后者是對(duì)于行為管道的度量,視頻平均每幀與真實(shí)標(biāo)簽的IOU超過了實(shí)驗(yàn)設(shè)定的閾值,并且準(zhǔn)確的預(yù)測(cè)了行為的類別,則行為管道是正確的實(shí)例.最后計(jì)算每個(gè)行為類別的平均精度.

        3.2 實(shí)現(xiàn)細(xì)節(jié)

        本文采用了雙流網(wǎng)絡(luò)的框架,需要對(duì)提取空間信息的2D網(wǎng)絡(luò)參數(shù)和提取時(shí)間信息的3D網(wǎng)絡(luò)參數(shù)進(jìn)行初始化.采用了在PASCAL VOC上進(jìn)行了預(yù)訓(xùn)練的2D模型和在Kinetics上進(jìn)行了預(yù)訓(xùn)練的3D模型.在本文的模型之中,兩個(gè)網(wǎng)絡(luò)的參數(shù)可以進(jìn)行聯(lián)合更新.設(shè)置初始的學(xué)習(xí)速率為0.0001.

        對(duì)于時(shí)空特征提取網(wǎng)絡(luò)輸入的視頻剪輯長度,因?yàn)殚L序列往往包含更多的時(shí)間信息,因此采用16幀的剪輯長度,并將下采樣率設(shè)置為1.在模型進(jìn)行訓(xùn)練之前,除了采用mixup算法進(jìn)行數(shù)據(jù)增強(qiáng)之外,同時(shí)采用了圖像水平翻轉(zhuǎn)、隨機(jī)剪裁、改變圖像色調(diào)和飽和度這樣基礎(chǔ)的數(shù)據(jù)增強(qiáng)操作,將圖像統(tǒng)一隨機(jī)縮放為224×224大小的圖像輸入網(wǎng)絡(luò).

        3.3 雙流網(wǎng)絡(luò)消融實(shí)驗(yàn)

        本文采用了雙流網(wǎng)絡(luò)框架.在傳統(tǒng)的雙流網(wǎng)絡(luò)中,單獨(dú)的二維卷積網(wǎng)絡(luò)和單獨(dú)的光流網(wǎng)絡(luò)都無法對(duì)行為的時(shí)空信息進(jìn)行準(zhǔn)確的判斷,所以一般采用兩個(gè)網(wǎng)絡(luò)融合的結(jié)果.為了對(duì)每條網(wǎng)絡(luò)分支的作用做出更準(zhǔn)確的判斷,本文設(shè)置了消融實(shí)驗(yàn)來判斷雙流結(jié)構(gòu)是否能得到更好的結(jié)果.

        實(shí)驗(yàn)采用Frame-mAP、定位召回率和行為分類準(zhǔn)確率3個(gè)指標(biāo).其中,定位召回率指的是正確定位的行為數(shù)與真實(shí)標(biāo)簽行為總數(shù)之比.

        在兩個(gè)數(shù)據(jù)集上分別進(jìn)行的消融實(shí)驗(yàn)表明,空間定位網(wǎng)絡(luò)和時(shí)空特征提取網(wǎng)絡(luò)進(jìn)行融合后能得到更好的平均精準(zhǔn)度,比單獨(dú)的時(shí)空特征提取網(wǎng)絡(luò)提高了9.5%和15.9%,如表2和表3所示.此外,空間定位網(wǎng)絡(luò)在定位上能得到更好的結(jié)果,定位精度比時(shí)空特征提取網(wǎng)絡(luò)高3%和14.4%,時(shí)空特征提取網(wǎng)絡(luò)在行為分類上能得到更好的結(jié)果,分類精度比空間定位網(wǎng)絡(luò)高8.3%和16.1%.因此空間定位網(wǎng)絡(luò)更關(guān)注空間特征,時(shí)空特征提取網(wǎng)絡(luò)更關(guān)注時(shí)間特征.采用這兩個(gè)網(wǎng)絡(luò)融合的方法能更好的融合時(shí)空信息.

        表2 在UCF101-24上的實(shí)驗(yàn)結(jié)果(%)

        表3 在J-HMDB-21上的實(shí)驗(yàn)結(jié)果(%)

        3.4 數(shù)據(jù)增強(qiáng)算法消融實(shí)驗(yàn)

        為了更直觀的判斷mixup算法對(duì)于本文行為定位方法的影響,進(jìn)行了關(guān)于數(shù)據(jù)增強(qiáng)算法的消融實(shí)驗(yàn),結(jié)果如表4所示.根據(jù)表4可知,增加mixup算法能有效的擴(kuò)充數(shù)據(jù)集,使訓(xùn)練過程更加的有效,得到更好的結(jié)果.

        表4 不同數(shù)據(jù)增強(qiáng)下的Frame-mAP(%)

        3.5 比較實(shí)驗(yàn)

        本小節(jié)比較了本文提出的算法和其它相關(guān)算法在UCF101-24和J-HMDB-21兩個(gè)公開數(shù)據(jù)集上的Frame-mAP和Video-mAP,并在不同的IOU上進(jìn)行了對(duì)比實(shí)驗(yàn).本小節(jié)對(duì)比的算法皆為近幾年論文產(chǎn)出結(jié)果,其中一部分方法在某些指標(biāo)上擁有先進(jìn)的結(jié)果[5,6,26],一部分采用了與本文相似的雙流網(wǎng)絡(luò)結(jié)構(gòu)和動(dòng)態(tài)規(guī)劃算法,具有比較意義[2,4,27,28].

        實(shí)驗(yàn)結(jié)果如表5所示,對(duì)比兩個(gè)數(shù)據(jù)集上的FramemAP指標(biāo),本文提出的方法相對(duì)于之前的方法分別提升了7.1%和5.8%,具有良好的性能.

        表5 不同模型Frame-mAP對(duì)比(%)

        此外,我們對(duì)比了兩個(gè)數(shù)據(jù)集上的Video-mAP性能指標(biāo),如表6和表7所示.在IoU閾值分別為0.2和0.5的情況下,本文提出的方法在J-HMDB-21數(shù)據(jù)集上總是優(yōu)于當(dāng)前的方法,分別提高了5.2%和5.3%,另外在UCF101-24數(shù)據(jù)集上的改進(jìn)稍遜色于在J-HMDB-21上的結(jié)果,這是由于J-HMDB-21擁有更多相似子行為序列的行為類別.根據(jù)目前的實(shí)驗(yàn),隨著IoU數(shù)值的改變,Video-mAP也會(huì)隨之變化,實(shí)驗(yàn)結(jié)果表明,在IoU為0.2時(shí),能得到最好的結(jié)果.

        表6 不同模型在UCF101-24上Video-mAP對(duì)比(%)

        表7 不同模型在J-HMDB-21上Video-mAP對(duì)比(%)

        3.6 結(jié)果可視化

        最后,對(duì)圖6的時(shí)空定位網(wǎng)絡(luò)可視化輸出結(jié)果進(jìn)行分析.由圖6(a)-圖6(c)可得,本文所用的方法在背景簡單的情況下可以準(zhǔn)確的進(jìn)行視頻行為定位任務(wù),在視頻序列中定位行為發(fā)生的空間位置并識(shí)別行為的類別.圖6(d)和圖6(e)則表明,面對(duì)同一類行為的時(shí)空定位,在背景有與行為類別無關(guān)的行為發(fā)生時(shí),可能會(huì)產(chǎn)生誤判的行為.同時(shí),圖6(d)和圖6(e)與Saha等[28]的可視化結(jié)果進(jìn)行對(duì)比表明,本文的方法在行為產(chǎn)生重疊的情況下也能得到準(zhǔn)確的結(jié)果.

        圖6 定位和行為識(shí)別可視化

        4 結(jié)論與展望

        本文提出了一種基于3D-SVD的時(shí)空行為定位算法,用于解決行為定位任務(wù)中3D網(wǎng)絡(luò)參數(shù)量過大的問題.本文算法基于雙流網(wǎng)絡(luò)的框架實(shí)現(xiàn),在雙流網(wǎng)絡(luò)的框架下同時(shí)訓(xùn)練了空間定位網(wǎng)絡(luò)和時(shí)空特征提取網(wǎng)絡(luò),將SVD算法引入3D卷積中,構(gòu)建了能將3D卷積核進(jìn)行分解的3D-SVD,降低了網(wǎng)絡(luò)的參數(shù)量,實(shí)現(xiàn)了行為的定位和分類; 利用mixup算法進(jìn)行了數(shù)據(jù)增強(qiáng),輔以基礎(chǔ)數(shù)據(jù)增強(qiáng)操作對(duì)數(shù)據(jù)集進(jìn)行增廣; 并采用序列重排序算法和動(dòng)態(tài)規(guī)劃算法構(gòu)建了更為合適的行為管道.在兩個(gè)常用的公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的結(jié)果表明,本文的模型在各指標(biāo)上能獲得較優(yōu)的結(jié)果.

        猜你喜歡
        雙流特征提取時(shí)空
        方一帆
        四川省成都市雙流區(qū)東升迎春小學(xué)
        跨越時(shí)空的相遇
        雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對(duì)策
        鏡中的時(shí)空穿梭
        四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
        玩一次時(shí)空大“穿越”
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        時(shí)空之門
        精品乱码久久久久久中文字幕| 午夜视频在线观看日本| 中文字幕亚洲一区视频| 国产日产韩国av在线| 国产av一区二区三区天堂综合网| 欧美精品videossex少妇| 精品国产一区二区三区久久久狼| 无遮挡粉嫩小泬| 亚洲av成熟国产精品一区二区| 精品国产一区二区三区av| 国产精品永久免费| a国产一区二区免费入口| 中文无码免费在线| 亚洲成熟中老妇女视频| 国模gogo无码人体啪啪| 国语对白嫖老妇胖老太| 成人激情四射网| 精品人妻一区二区久久| 少妇又色又爽又高潮在线看| 曰本女人与公拘交酡| 国产精品永久免费视频| 亚洲中文字幕不卡无码| 蜜桃传媒免费在线观看| 亚洲色精品三区二区一区| 熟女人妻在线视频| 日韩亚洲欧美久久久www综合 | 亚洲精品美女久久久久久久| 美女黄18以下禁止观看| 亚洲免费看三级黄网站| 国内嫩模自拍诱惑免费视频| 国产成人精品白浆久久69| 人与嘼av免费| 日韩av中文字幕亚洲天| 精品国内日本一区二区| 久久久久亚洲av成人无码| 亚洲国产成人精品无码区在线观看 | 国模无码一区二区三区| 日韩精品一区二区三区在线观看| 日本av在线精品视频| 国产三级不卡一区不卡二区在线| 成人乱码一区二区三区av|