亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ResNeXt的人體動(dòng)作識(shí)別

2020-05-21 07:55:32蔣圣南陳恩慶鄭銘耀段建康

圖學(xué)學(xué)報(bào) 2020年2期

關(guān)鍵詞：光流類別動(dòng)作

蔣圣南，陳恩慶，鄭銘耀，段建康

蔣圣南，陳恩慶，鄭銘耀，段建康

(鄭州大學(xué)信息工程學(xué)院，河南鄭州 450000)

人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的核心研究方向之一，在很多場合都有應(yīng)用。深度卷積神經(jīng)網(wǎng)絡(luò)在靜態(tài)圖像識(shí)別方面已取得了巨大成功，并逐漸擴(kuò)展到視頻內(nèi)容識(shí)別領(lǐng)域，但應(yīng)用依然面臨很大挑戰(zhàn)。為此提出一種基于ResNeXt深度神經(jīng)網(wǎng)絡(luò)模型用于視頻中的人體動(dòng)作識(shí)別，主要包括：①使用新型ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)代替原有的各種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，并使用RGB和光流2種模態(tài)的數(shù)據(jù)，使模型可充分地利用視頻中動(dòng)作外觀及時(shí)序信息；②將端到端的視頻時(shí)間分割策略應(yīng)用于ResNeXt網(wǎng)絡(luò)模型，同時(shí)將視頻分為段實(shí)現(xiàn)對(duì)視頻序列的長范圍時(shí)間結(jié)構(gòu)進(jìn)行建模，并通過測試得到最優(yōu)視頻分段值，使模型能更好地區(qū)分存在子動(dòng)作共享現(xiàn)象的相似動(dòng)作，解決某些由于子動(dòng)作相似而易發(fā)生的誤判問題。通過在動(dòng)作識(shí)別數(shù)據(jù)集UCF101和HMDB51上進(jìn)行的測試表明，該模型和方法的動(dòng)作識(shí)別準(zhǔn)確率性能優(yōu)于目前文獻(xiàn)中的一些模型和方法的性能。

動(dòng)作識(shí)別；ResNeXt；視頻時(shí)間分割；數(shù)據(jù)增強(qiáng)；多模態(tài)

在視頻中識(shí)別人體行為是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，也是計(jì)算機(jī)視覺領(lǐng)域的核心任務(wù)之一，并受到了研究人員的廣泛關(guān)注[1-6]。其在行為分析、人工智能交互、視頻監(jiān)控等領(lǐng)域均有重要的應(yīng)用。與靜止的圖像分類相比，視頻的時(shí)間分量提供了用于識(shí)別的重要線索，因此基于運(yùn)動(dòng)信息可識(shí)別多個(gè)動(dòng)作。此外，視頻為單個(gè)圖像提供自然數(shù)據(jù)增強(qiáng)。對(duì)于視頻中的動(dòng)作識(shí)別，外觀和時(shí)間動(dòng)態(tài)是2個(gè)關(guān)鍵且互補(bǔ)的線索。然而，由于背景雜亂、視點(diǎn)變化、尺度變化、光照條件不同以及相機(jī)運(yùn)動(dòng)等局限性，提取其信息是不易的。因此，在學(xué)習(xí)行為類別分類信息的同時(shí)，設(shè)計(jì)有效的表示是應(yīng)對(duì)這些挑戰(zhàn)的關(guān)鍵。

ResNeXt網(wǎng)絡(luò)同時(shí)采用了VGGNet網(wǎng)絡(luò)堆疊的思想和Inception網(wǎng)絡(luò)的拆分-轉(zhuǎn)換-合并的策略，以及ResNet網(wǎng)絡(luò)的殘差模塊的思路，并且通過增加基數(shù)來提高網(wǎng)絡(luò)的性能，使得網(wǎng)絡(luò)在不增加參數(shù)復(fù)雜度的前提下提高準(zhǔn)確率，同時(shí)還減少了超參數(shù)的數(shù)量[15]，因此，ResNeXt網(wǎng)絡(luò)模型在ImageNet和CIFAR數(shù)據(jù)庫上均展現(xiàn)了優(yōu)異的性能。另一方面，從動(dòng)作識(shí)別角度看，一個(gè)好的視頻特性應(yīng)該包含盡可能豐富的動(dòng)作的空間信息和時(shí)間信息，而網(wǎng)絡(luò)模型層數(shù)越多，意味著能夠提取到不同水平的特征越豐富，不同層次信息的組合也會(huì)越多，模型的學(xué)習(xí)和表征能力也會(huì)更強(qiáng)。因此本文考慮將ResNeXt網(wǎng)絡(luò)模型應(yīng)用到視頻人體動(dòng)作識(shí)別中，從而更好地獲取動(dòng)作的空間和時(shí)間特征，實(shí)驗(yàn)結(jié)果也表明了其用于動(dòng)作識(shí)別的有效性。

此外，在基于視頻的動(dòng)作識(shí)別應(yīng)用中，動(dòng)作的各視頻幀之間存在著很強(qiáng)的時(shí)間相關(guān)性和空間相關(guān)性，好的動(dòng)作視頻表示方法還需要在有效避免樣本數(shù)量限制的同時(shí)，盡可能少冗余且充分利用視頻中的時(shí)間信息。本文采用RGB以及光流 2種模態(tài)的數(shù)據(jù)作為動(dòng)作識(shí)別模型的輸入，RGB數(shù)據(jù)代表視頻幀的動(dòng)作空間信息，而光流數(shù)據(jù)代表視頻幀的動(dòng)作時(shí)間信息。2種模態(tài)的數(shù)據(jù)結(jié)合，能夠優(yōu)勢(shì)互補(bǔ)，使動(dòng)作識(shí)別獲得更高的精確度。在實(shí)際應(yīng)用中，由于密集采樣的視頻幀在計(jì)算量等方面的限制，對(duì)于持續(xù)時(shí)間較長的動(dòng)作視頻，往往無法通過采樣全部視頻幀獲取整個(gè)動(dòng)作視頻的視覺信息，因此本文引入TSN[16](時(shí)間分割網(wǎng)絡(luò))中視頻時(shí)間分割的思想，對(duì)長范圍時(shí)間結(jié)構(gòu)的動(dòng)作進(jìn)行分段采樣建模。即將動(dòng)作視頻時(shí)間分割為段(segment)，從每個(gè)對(duì)應(yīng)的片段中隨機(jī)采樣得到短片段(snippet)，再將短片段分別送入ResNeXt網(wǎng)絡(luò)得到初始的動(dòng)作類別得分，最后將初始類別得分融合得到最終識(shí)別結(jié)果。因此本文模型可以利用整個(gè)視頻中動(dòng)作的長范圍時(shí)間信息進(jìn)行端到端的視頻級(jí)別的動(dòng)作分類識(shí)別。

1 基于ResNeXt架構(gòu)的動(dòng)作識(shí)別模型

圖1為本文提出的用于動(dòng)作識(shí)別的整體網(wǎng)絡(luò)結(jié)構(gòu)。一個(gè)輸入待識(shí)別的動(dòng)作視頻將被分割成段，然后從段中隨機(jī)選取一個(gè)短片段送入ResNeXt網(wǎng)絡(luò)獲得動(dòng)作的初始類別得分，最后融合初始類別分?jǐn)?shù)來獲得最終的動(dòng)作類別得分。

圖1 基于ResNeXt和視頻時(shí)間分割建模的網(wǎng)絡(luò)架構(gòu)

1.1 ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)

視頻識(shí)別的基礎(chǔ)是能夠提取更具有判別性的時(shí)間和空間信息，眾多研究[14,17]表明，更深的CNN能夠提取更多的判別信息，從而提高預(yù)測性能。此外，最近的研究成果[8,18]證明，網(wǎng)絡(luò)模型的深度對(duì)于視覺表現(xiàn)特征至關(guān)重要。殘差網(wǎng)絡(luò)[14]有效地解決了加深網(wǎng)絡(luò)層引起的退化問題。要提高模型的準(zhǔn)確率，一般的方法是加深或加寬網(wǎng)絡(luò)，但是，隨著超參數(shù)數(shù)量的增加(比如channels數(shù)，filter size等)，網(wǎng)絡(luò)設(shè)計(jì)的難度和計(jì)算開銷也會(huì)增加，而ResNeXt[15]結(jié)構(gòu)可以在不增加參數(shù)復(fù)雜度的前提下提高準(zhǔn)確率，同時(shí)還減少了超參數(shù)的數(shù)量。因此，本文將ResNeXt作為提取動(dòng)作空間和時(shí)間特征的基礎(chǔ)網(wǎng)絡(luò)。

ResNeXt網(wǎng)絡(luò)模型是高度模塊化的設(shè)計(jì)，同時(shí)采用了VGG網(wǎng)絡(luò)堆疊的思想和Inception網(wǎng)絡(luò)拆分-轉(zhuǎn)換-合并的思想，以及ResNet網(wǎng)絡(luò)殘差模塊的思想。網(wǎng)絡(luò)由一系列殘差塊組成，其具有相同的拓?fù)浣Y(jié)構(gòu)，且遵循2個(gè)簡單規(guī)則：①如果生成同樣大小的空間映射，則模塊中的拓?fù)浣Y(jié)構(gòu)共享相同的超參數(shù)(如寬度和濾波器大小等)；②每次當(dāng)空間映射基于因子2下采樣時(shí)，模塊的寬度乘以2。第二個(gè)規(guī)則保證了計(jì)算的復(fù)雜度，對(duì)于浮點(diǎn)數(shù)運(yùn)算(包括乘-加法)，所有模塊的計(jì)算量大致相同。

在ResNeXt中，拆分-轉(zhuǎn)換-合并的形式可表示為

其中，Ti為相同的拓?fù)浣Y(jié)構(gòu)；C為一個(gè)模塊中所具有的相同分支的數(shù)目，通常將C稱為基數(shù)[15]，用于模型復(fù)雜度的另外一個(gè)度量。C的取值可以是任意數(shù)，本文C取值為32。雖然寬度的大小與簡單變換(內(nèi)積)的數(shù)量有關(guān)，但基數(shù)的大小控制著復(fù)雜變換的數(shù)量，并且實(shí)驗(yàn)證明基數(shù)是一個(gè)基本維度，增加基數(shù)比增加CNN的寬度和深度更有效，能夠獲得更好的模型表達(dá)能力。圖2為ResNeXt網(wǎng)絡(luò)的一個(gè)基本模塊，可在每個(gè)低維嵌入上實(shí)施一系列變換，然后再將輸出通過相加的方式聚合。

1.2 長范圍時(shí)間結(jié)構(gòu)建模

對(duì)于一般的CNN，其輸入是單幀或連續(xù)的堆疊幀，只關(guān)注短時(shí)間的視頻變化，無法有效地提取長范圍時(shí)間信息。然而視頻中的長范圍時(shí)間信息對(duì)于動(dòng)作識(shí)別起著更重要的作用[19]。例如籃球投籃和扣籃在短時(shí)間內(nèi)彼此相似，但是在長時(shí)間范圍上卻存在較大的差異，因此如果只是將運(yùn)動(dòng)中的一小段視頻用于訓(xùn)練網(wǎng)絡(luò)，很可能會(huì)造成誤判。受到TSN[16]的啟發(fā)，本文采用視頻時(shí)間分割的思想，對(duì)基于ResNeXt網(wǎng)絡(luò)的方法進(jìn)一步改進(jìn)，實(shí)現(xiàn)對(duì)整個(gè)視頻的長范圍時(shí)間結(jié)構(gòu)建模。

首先，等間隔將視頻分為個(gè)片段，即{1,2,…,S}，然后從相應(yīng)的片段中隨機(jī)采樣得到短片段{1,2,…,x}，并將其送入ResNeXt網(wǎng)絡(luò)以獲得初始動(dòng)作類別得分。再通過求平均的方法對(duì)個(gè)短片段的類別得分進(jìn)行融合，從而獲得短片段之間關(guān)于類別假設(shè)的共識(shí)。最后，基于該共識(shí)，使用Softmax函數(shù)預(yù)測整段視頻中屬于每個(gè)行為類別的概率，即

其中，為數(shù)據(jù)集中包含的動(dòng)作類別數(shù)；y為第類動(dòng)作的真實(shí)標(biāo)簽；g為第類動(dòng)作的類別共識(shí)得分，其通過類別共識(shí)函數(shù)對(duì)個(gè)短片段上相同類別的得分?jǐn)?shù)取平均得出。

在反向傳播過程中，使用個(gè)短片段來聯(lián)合優(yōu)化模型參數(shù)，并且通過小批量梯度下降來學(xué)習(xí)模型參數(shù)，在參數(shù)更新時(shí)使用了個(gè)短片段的類別共識(shí)。這種優(yōu)化方法，能夠?qū)W習(xí)到視頻級(jí)的模型參數(shù)，從而獲得長范圍的時(shí)間信息。

1.3 數(shù)據(jù)增強(qiáng)方法

使用數(shù)據(jù)增強(qiáng)技術(shù)能夠增加樣本的多樣性，彌補(bǔ)數(shù)據(jù)樣本量不足的缺點(diǎn)，從而防止模型過擬合，讓模型更具魯棒性。本文使用了多剪裁、水平翻轉(zhuǎn)和尺度抖動(dòng)3種方法擴(kuò)充數(shù)據(jù)集。尺度抖動(dòng)將輸入圖像或者光流場的大小固定為256×340，裁剪區(qū)域的寬和高隨機(jī)從{256,224,192,168}中選擇。最后再將裁剪區(qū)域調(diào)整到224×224用于網(wǎng)絡(luò)訓(xùn)練。另外，在所有訓(xùn)練中本文均使用了隨機(jī)水平翻轉(zhuǎn)。

2 實(shí)驗(yàn)結(jié)果分析

2.1 數(shù)據(jù)集

本文在UCF101[20]和HMDB51[21]數(shù)據(jù)集上評(píng)估基于ResNeXt網(wǎng)絡(luò)的性能。UCF101是從YouTube上剪輯的101類真實(shí)世界中不同種類的人類動(dòng)作視頻，包含有13 320個(gè)視頻，每個(gè)視頻片段持續(xù)3~10 s，平均為100~300幀，其部分動(dòng)作視頻的采樣幀如圖3所示。UCF101給出了最大的多樣性，且在攝像機(jī)運(yùn)動(dòng)、物體外觀和姿態(tài)、物體尺度、視點(diǎn)、雜亂背景、光照條件等方面存在較大的差異，是迄今為止最具挑戰(zhàn)性的數(shù)據(jù)集之一。HMDB51數(shù)據(jù)集共有51個(gè)類別，包含6 799個(gè)視頻。視頻主要來自于電影，還有一些是從YouTube和Google Videos中得到。HMDB51數(shù)據(jù)集的部分動(dòng)作視頻的采樣幀如圖4所示。對(duì)于這2個(gè)數(shù)據(jù)集，本文遵循提供的評(píng)估協(xié)議并使用標(biāo)準(zhǔn)的訓(xùn)練/測試splits。首先在UCF-101數(shù)據(jù)集的split1上探索和評(píng)估本文方法。為了與現(xiàn)有技術(shù)方法進(jìn)行比較，列舉了UCF101和HMDB51的3個(gè)splits的平均識(shí)別準(zhǔn)確度。

圖3 UCF101的部分動(dòng)作視頻采樣幀

圖4 HMDB51的部分動(dòng)作視頻采樣幀

2.2 實(shí)驗(yàn)設(shè)置

訓(xùn)練：本文使用小批量隨機(jī)梯度下降算法學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重，由于硬件限制，批量大小設(shè)置為16。權(quán)重衰減和動(dòng)量分別設(shè)置為0.000 5和0.900 0，基本學(xué)習(xí)率設(shè)置為0.001 0。通過ImageNet上的預(yù)訓(xùn)練初始化權(quán)重，epoch設(shè)置為30。本文實(shí)驗(yàn)均在CPU(E5-2640 v4)和Ttian V GPU上進(jìn)行的，使用的深度學(xué)習(xí)平臺(tái)為Pytorch。

測試：本文遵循了原始雙流ConvNets的測試方案[22]。對(duì)動(dòng)作視頻以相等的時(shí)間間隔對(duì)25個(gè)RGB幀或光流幀采樣。對(duì)每個(gè)采樣幀，通過裁剪4個(gè)角，一個(gè)中心和其水平翻轉(zhuǎn)來獲得10個(gè)ConvNet輸入。本文將加權(quán)平均用于融合空間和時(shí)間網(wǎng)絡(luò)。空間網(wǎng)絡(luò)和時(shí)間網(wǎng)絡(luò)的權(quán)重比設(shè)置為1∶1.5。

2.3 基于ResNeXt網(wǎng)絡(luò)與其他卷積網(wǎng)絡(luò)的性能對(duì)比

對(duì)本文提出的基于ResNeXt網(wǎng)絡(luò)的視頻動(dòng)作識(shí)別方法進(jìn)行評(píng)估，且與VGGNet-16、ResNet101和BN-Inception網(wǎng)絡(luò)進(jìn)行比較，分別評(píng)估這4個(gè)網(wǎng)絡(luò)在RGB和光流以及雙流融合后的識(shí)別率。實(shí)驗(yàn)結(jié)果見表1，由結(jié)果可知，在RGB數(shù)據(jù)和光流數(shù)據(jù)及在雙流的網(wǎng)絡(luò)上，使用ResNeXt網(wǎng)絡(luò)的精度皆優(yōu)于其他網(wǎng)絡(luò)，證明了ResNeXt網(wǎng)絡(luò)在用于視頻的人體動(dòng)作識(shí)別上的有效性。

表1 UCF101(split1)上不同網(wǎng)絡(luò)在RGB和光流上的精確度(%)

2.4 不同視頻時(shí)間分段數(shù)K的影響

視頻時(shí)間分割短片段數(shù)對(duì)于分類結(jié)果有重要的影響，因此控制的取值對(duì)于實(shí)現(xiàn)良好的分類效果至關(guān)重要。當(dāng)取1時(shí)，相當(dāng)于未使用視頻時(shí)間分割的策略，但增加值有望提高模型的識(shí)別性能。在實(shí)驗(yàn)中，本文將的取值設(shè)置為1~9，并使用相同的測試方法進(jìn)行性能評(píng)估。結(jié)果見表2。隨著短片段數(shù)值的增加，分類正確率也相應(yīng)地提升，比如取5時(shí)比取1時(shí)結(jié)果提升了2.4%。說明使用更多的時(shí)間片段有助于捕獲更豐富的信息，從而更好的模擬整個(gè)視頻的時(shí)間結(jié)構(gòu)。當(dāng)值繼續(xù)增加時(shí)，識(shí)別性能趨向于飽和。

表2 不同K值下UCF101(split1)的分類精確度(%)

2.5 本文算法模型與現(xiàn)有的主流方法的性能對(duì)比

本文將實(shí)驗(yàn)得到的最佳性能與現(xiàn)有的先進(jìn)算法在UCF101和HMDB51的數(shù)據(jù)集3個(gè)splits上的平均識(shí)別率進(jìn)行了比較。結(jié)果見表3，對(duì)于UCF101數(shù)據(jù)集，本文方法優(yōu)于其他先進(jìn)算法，相對(duì)于目前最好的傳統(tǒng)方法IDT[2]而言，精度提高了9.3%；與基于三維卷積神經(jīng)網(wǎng)絡(luò)的方法T3D[23]相比，精度提高了2.0%；與使用雙流網(wǎng)絡(luò)的方法ST-ResNet[24]相比，精度也提高了1.8%。對(duì)于HMDB51數(shù)據(jù)集，本文方法也具有相當(dāng)?shù)母偁幜?，相比于基于雙流網(wǎng)絡(luò)的方法TSN[16]和ST-ResNet[24]，精度分別提高了3.1%和5.2%。實(shí)驗(yàn)證明了本文所提出的基于ResNeXt的動(dòng)作識(shí)別方法的有效性。

表3 在UCF101和HMDB51的3個(gè)split的識(shí)別精確度(%)

3 結(jié)束語

本文提出了一種基于ResNeXt網(wǎng)絡(luò)的用于視頻中的人體動(dòng)作識(shí)別方法。以ResNeXt網(wǎng)絡(luò)為基礎(chǔ)，使用RGB及光流2種模態(tài)的數(shù)據(jù)，能夠更多地提取關(guān)于動(dòng)作的外觀特征和時(shí)間特征，從而更好地實(shí)現(xiàn)對(duì)于動(dòng)作的分類。視頻時(shí)間分割方法的使用，能夠?qū)σ曨l中的長范圍時(shí)間建模，從而更好地利用視頻中更長范圍的時(shí)間信息。實(shí)驗(yàn)結(jié)果表明，本文方法在UCF101和HMDB51兩個(gè)主流動(dòng)作識(shí)別數(shù)據(jù)集上均帶來了一定程度的性能提升。

[1] VEERIAH V, ZHUANG N F, QI G J. Differential recurrent neural networks for action recognition[C]// 2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4041-4049.

[2] WANG H, SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 3551-3558.

[3] WANG L M, QIAO Y, TANG X O. Motionlets: mid-level 3D parts for human motion recognition[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 2674-2681.

[4] NG J Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classi?cation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4694-4702.

[5] WANG L M, QIAO Y, TANG X O. Action recognition with trajectory-pooled deep-convolutional descriptors[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4305-4314.

[6] GAN C, WANG N Y, YANG Y, et al. DevNet: a deep event network for multimedia event detection and evidence recounting[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 2568-2577.

[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[8] SIMONYAN K, ZISSERMAN, A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-07-05]. https://arxiv.org/ abs/1409.1556.

[9] ZHOU B, LAPEDRIZA A, XIAO J X, et al. Learning deep features for scene recognition using places database[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS). New York: CAM Press, 2014: 487-495.

[10] SHEN L, LIN Z C, HUANG Q M. Relay backpropagation for effective learning of deep convolutional neural networks[M]//Computer Vision-ECCV 2016. Heidelberg: Springer International Publishing, 2016: 467-482.

[11] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.

[12] WANG L, QIAO Y, TANG X. Action recognition with trajectory-pooled deep-convolutional descriptors[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4305-4314.

[13] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1-9.

[14] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

[15] XIE S N, GIRSHICK R, DOLLáR, PIOTR, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 634.

[16] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition[M]//Computer Vision–ECCV 2016. Heidelberg: Springer International Publishing, 2016: 20-36.

[17] YU W, YANG K, BAI Y, et al. Visualizing and comparing AlexNet and VGG using deconvolutional layers[EB/OL]. [2019-07-05]. https://arxiv.org/abs/ 1412.6631.

[18] SZEGEDY C, LIU W, JIA Y Q. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015:1-9.

[19] WANG L M, QIAO Y, TANG X O. Latent hierarchical model of temporal structure for complex activity classification[J]. IEEE Transactions on Image Processing, 2014, 23(2): 810-822.

[20] SOOMRO K, ZAMIR A R, SHAH M. UCF101: a dataset of 101 human actions classes from videos in the wild[EB/OL]. [2019-07-05]. https://arxiv.org/abs/1212. 0402.

[21] KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a large video database for human motion recognition[C]//2011 International Conference on Computer Vision. New York: IEEE Press, 2011: 2556-2563.

[22] LIU X, YANG X D. Multi-stream with deep convolutional neural networks for human action recognition in videos[M]//Neural Information Processing. Heidelberg: Springer International Publishing, 2018: 251-262.

[23] DIBA A, FAYYAZ M, SHARMA V, et al. Temporal 3D ConvNets: new architecture and transfer learning for video classification[EB/OL]. [2019-07-05]. https://arxiv. org/abs/1711.08200.

[24] FEICHTENHOFER C, PINZ A, WILDES R P. Spatiotemporal residual networks for video action recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 3468-3476.

[25] FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1933-1941.

[26] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4489-4497.

[27] GIRDHAR R, RAMANAN D, GUPTA A, et al. ActionVLAD: learning spatio-temporal aggregation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 337.

Human action recognition based on ResNeXt

JIANG Sheng-nan, CHEN En-qing, ZHEN Ming-yao, DUAN Jian-kang

(School of Information Engineering, Zhengzhou University, Zhengzhou Henan 450000, China)

Human action recognition is one of the core research directions in the field of computer vision and is applied in many occasions. Deep convolutional neural networks have achieved great success in static image recognition and have gradually expanded into the field of video content recognition, but they still face great challenges in applications. This paper proposes a deep neural network model based on ResNeXt network for human action recognition in video. The main innovations of this paper include: ① The new ResNeXt network structure was used to replace the original convolutional neural network structure. Two kinds of modal data of RGB and optical flow was collected to make full use of the appearance and temporal order information in the video. ② The end-to-end video time segmentation strategy was applied to the proposed ResNeXt network model. The video was divided intosegments to model the long-range time structure of the video sequence, and the optimal value ofwas obtained through tests, which enables the model to better distinguish the similar actions with sub-action sharing phenomenon and solve the problems of misjudgment that are easy to emerge due to similar sub-actions. Tests performed on the widely used action recognition data sets UCF101 and HMDB51 showed that the action recognition accuracy of the proposed model and method is better than that of the models and methods in the existing literature.

action recognition; ResNeXt; video temporal segmentation; data enhancement; multimodal

TP 391

10.11996/JG.j.2095-302X.2020020277

2095-302X(2020)02-0277-06

2019-08-05；

2019-08-29

國家自然科學(xué)基金項(xiàng)目(U1804152，61806180)

蔣圣南(1994–)，女，河南商丘人，碩士研究生。主要研究方向?yàn)槿斯ぶ悄堋⒂?jì)算機(jī)視覺等。E-mail：shengnanjiang77@163.com

陳恩慶(1977–)，男，福建龍海人，教授，博士，碩士生導(dǎo)師。主要研究方向?yàn)橛?jì)算機(jī)視覺、模式識(shí)別和多媒體信息處理。E-mail：ceq2003@163.com