亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多輸入流的卷積行為識別網(wǎng)絡(luò)*

        2023-03-18 11:40:48劉石磊李欽楊耿
        科學(xué)與信息化 2023年5期
        關(guān)鍵詞:訓(xùn)練樣本卷積神經(jīng)網(wǎng)絡(luò)

        劉石磊 李欽 楊耿

        1. 深圳信息職業(yè)技術(shù)學(xué)院 廣東 深圳 518172;

        2. 香港理工大學(xué) 香港 999077

        引言

        行為識別作為計算機世界領(lǐng)域的研究重點,在視頻監(jiān)控、人機交互、環(huán)境輔助生活、智能駕駛等應(yīng)用方面有很大的應(yīng)用空間。但是,受到遮擋、視角變化、尺度變化、陰影、光照變化和類內(nèi)變異與類間相似性等的影響,人體行為識別率并不理想。

        由當前的行為識別方法上看,主要體現(xiàn)在以下方面:第一,基于圖像局部特征檢測的方法,即利用多極體系結(jié)構(gòu)分級的建構(gòu)實施行為識別的方法;第二,運用深度學(xué)習(xí)開展行為識別的方法。

        基于圖像局部特征檢測的方法:使用方向梯度直方圖(Hog)或尺度不變(SHIFT)檢測子來提取視頻中的形狀信息,并用光流直方圖(HOF)或運動邊界直方圖特征提取視頻中的運動信息(MBH),然后用詞包形式進行編碼,并訓(xùn)練分類器識別人體行為[1-3]。

        基于深度學(xué)習(xí)的方法:以上所提出的基于圖像局部特征的人體行為識別方法,即把視頻圖像中所提取的局部特征,依托手工制造獲得高維特征,所以這些方法具有很強的針對性,但通用性并不是很好。為了獲取通用性強的視頻中人體行為識別的方法,近些年來,學(xué)者們開始對基于深度學(xué)習(xí)算法應(yīng)用的研究。

        由目前的基于深度學(xué)習(xí)的方法上看,主要如下:第一,基于雙流的方法,即運用空間流(spatial)、結(jié)合幀圖像提取到的光流場圖像(temporal flow),并對視頻圖像、密集分流開展CNN模型的訓(xùn)練,判斷兩個分支網(wǎng)絡(luò)關(guān)于動作的識別,融合兩個網(wǎng)絡(luò)的直接平均分類得分、svm分類得分,從而得出最終的結(jié)果[4-6]。

        第二類是基于3D卷積網(wǎng)絡(luò)的方法,通過3D卷積,可以直接處理視頻[7-9]。

        當前,在基于視頻的行為識別應(yīng)用領(lǐng)域,深度學(xué)習(xí)得到了普遍應(yīng)用,但是仍面臨著兩個主要問題:一是長范圍時間結(jié)構(gòu)在理解視頻中較長時間的行為上起著重要作用,但是目前的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大多只關(guān)注表象和短時間段的運動;二是在實際中,對于深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練而言,亟須大量的訓(xùn)練樣本,進一步優(yōu)化其網(wǎng)絡(luò)性能,但視頻數(shù)據(jù)的樣本量是有限的。因此如何設(shè)計有效的深度網(wǎng)絡(luò)來學(xué)習(xí)視頻序列的最佳表示,并在有限的訓(xùn)練樣本下,訓(xùn)練網(wǎng)絡(luò)以提高模型的性能是目前急需解決的研究課題。本文提出一種基于多輸入流的行為識別網(wǎng)絡(luò),首先將視頻分段,然后利用稀疏采樣策略提取視頻序列, 使得網(wǎng)絡(luò)能學(xué)習(xí)到較長時間范圍結(jié)構(gòu),同時提出基于多輸入流的卷積網(wǎng)絡(luò)結(jié)構(gòu)來提高雙流卷積神經(jīng)網(wǎng)絡(luò)在視頻行為識別方面的處理能力。

        1 方法

        1.1 稀疏采樣

        在時間結(jié)構(gòu)上視頻的連續(xù)幀是高度冗余的。因此,密集的時間采樣,通常導(dǎo)致高度相似的采樣幀,這是不必要的。相反,基于這種情況,使用稀疏時間采樣策略更有利。所以,我們在長視頻序列上,利用稀疏采樣方案,對短片段進行提取,值得注意的是,樣本依時間維度進行均勻分布。在這一前提下,使用分段結(jié)構(gòu),對源自采樣片段的信息實施聚合處理。由這個層面上看,時間段網(wǎng)絡(luò)能夠在整體上建模遠程時間結(jié)構(gòu)視頻。此外,這種稀疏采樣策略,使用比較低的成本,對相關(guān)信息進行保留,對時間和資源進行合理預(yù)算,以此開展對長視頻序列的端到端學(xué)習(xí)。為了充分利用視頻中的視覺內(nèi)容,我們提出基于多輸入流的卷積行為識別網(wǎng)絡(luò)。

        具體的網(wǎng)絡(luò)結(jié)構(gòu)如下:

        具體實施方法:首先,將一個輸入的視頻分割成K個部分,如接著,對得到的K組視頻序列稀疏隨機采樣得到并將輸入雙流(two-stream)卷積神經(jīng)網(wǎng)絡(luò)中(圖中K組網(wǎng)絡(luò)共享參數(shù)W),輸出對應(yīng)K組得分;接下來,運用平均均值的融合方法得到最終類別得分,該部分對應(yīng)圖1中segmental consensus部分,并且用 表示融合后的輸出。最后將提取出時間和空間信息合并作為最終特征來進行分類處理。

        在此,我們使用Softmax函數(shù)來進行分類,使用標準的分類交叉熵損失(cross-entropy loss)來度量損失函數(shù),以及隨機梯度下降法(SGD)來訓(xùn)練網(wǎng)絡(luò)參數(shù)。

        網(wǎng)絡(luò)損失函數(shù)定義如下:

        其中,C是動作的類別數(shù),yi代表第i類的groundtruth標簽。

        網(wǎng)絡(luò)結(jié)構(gòu):選擇BN-Inception結(jié)構(gòu)設(shè)計時空雙流(twostream)卷積神經(jīng)網(wǎng)絡(luò),其中,空間流卷積神經(jīng)網(wǎng)絡(luò)作用在單幀的RGB圖像上(single RGB images),而時間流卷積神經(jīng)網(wǎng)絡(luò)以堆疊的光流數(shù)據(jù)幀(stacked optical flow field)作為輸入。

        1.2 防止過擬合

        視頻數(shù)據(jù)量過少會使得網(wǎng)絡(luò)面臨嚴重的過擬合問題。針對此類問題我們提出三種防止過擬合的方法

        1.2.1 數(shù)據(jù)增強。數(shù)據(jù)增強能出現(xiàn)不同的訓(xùn)練樣本,能有效避免出現(xiàn)嚴重的過擬合情況。在傳統(tǒng)的 two-stream 中,運用隨機裁剪、水平翻轉(zhuǎn)方法,拓展訓(xùn)練樣本的量。此外,還可以采用兩種新方法:①角裁剪(corner cropping),即只由圖片的中心、邊角對區(qū)域進行提取,以此防止對關(guān)注圖片的中心進行默認。②尺度抖動(scale-jittering),即把輸入圖像、光流場的大小進行固定,對于裁剪區(qū)域的寬和高而言,對其進行隨機選擇。最終,這些裁剪區(qū)域能被調(diào)整成最為恰當?shù)拇笮?,并在網(wǎng)絡(luò)訓(xùn)練中得以運用。事實上,這種方法不光包括了尺度抖動,還包括了寬高比抖動。

        1.2.2 交叉 - 模態(tài)預(yù)訓(xùn)練(Cross modality Pre-training)。當訓(xùn)練樣本較少時,預(yù)訓(xùn)練是一種較好的訓(xùn)練神經(jīng)網(wǎng)絡(luò)防止過擬合的方法。

        1.2.3 正則化(Regularization Technique)。批量歸一化(BN)可以用來解決協(xié)方差偏移(covariate shift)的問題。

        2 實驗結(jié)果

        在HW[10]和Caltech101[11]數(shù)據(jù)可上進行了實驗,表1和表2給出了幾種算法和我們提出的算法的比較。由表1和表2可知,我們算法明顯優(yōu)于其他幾種算法。

        表1 幾種算法在HW數(shù)據(jù)庫上的識別率(%)和方差

        表2 幾種算法在Caltech101數(shù)據(jù)庫上的識別率(%)和方差

        3 結(jié)束語

        長范圍時間結(jié)構(gòu)在理解視頻中較長時間的行為上起著重要作用。深度學(xué)習(xí)雖然已經(jīng)被有效地運用到靜止圖像的分類研究上,但并不能有效地提取出較長時間范圍視頻序列中的時序結(jié)構(gòu)信息,因此如何設(shè)計出合適的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來有效提取長時間范圍結(jié)構(gòu)是目前行為識別需要解決的一個關(guān)鍵問題和難點。本文設(shè)計了一種卷積神經(jīng)網(wǎng)絡(luò),能夠有效地提出視頻序列中的圖像信息和時序結(jié)構(gòu),從而達到對行為視頻進行分類的目的。

        猜你喜歡
        訓(xùn)練樣本卷積神經(jīng)網(wǎng)絡(luò)
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        人工智能
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
        融合原始樣本和虛擬樣本的人臉識別算法
        基于稀疏重構(gòu)的機載雷達訓(xùn)練樣本挑選方法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        在线一区二区三区国产精品| 中文字幕视频一区二区| www插插插无码视频网站| av一区二区三区在线| 久久狠狠爱亚洲综合影院| 极品美女尤物嫩模啪啪| 精品国产性色无码av网站| 手机在线播放成人av| 国产成人美女AV| 少妇仑乱a毛片| 亚洲精品中字在线观看| 国产精品短视频| 少妇人妻精品一区二区三区| 蜜桃视频永久免费在线观看 | 国产精品自拍盗摄自拍 | 亚洲一区二区三区久久蜜桃| 18成人片黄网站www| 日本av一区二区三区在线| 国产av天堂亚洲国产av麻豆| 韩国无码av片在线观看网站| 变态调教一区二区三区女同| 日韩亚洲午夜精品一区二区三区| 少妇极品熟妇人妻无码| 综合五月激情二区视频| 国产91久久精品成人看网站| 亚洲mv国产精品mv日本mv| 成年免费视频黄网站zxgk| 国产亚洲精品视频一区二区三区| 国产成人精品麻豆| 欧美巨大xxxx做受l| 国产成人av三级在线观看韩国| 中文人妻无码一区二区三区| 亚洲综合久久精品无码色欲| 亚洲人成在线播放网站| 日韩激情av不卡在线| 久久青草国产免费观看| 18禁男女爽爽爽午夜网站免费| 国产欧美日韩精品专区| 99久久精品人妻少妇一| 亚洲精品成人国产av| 99re热这里只有精品最新|