亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于可變形卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別方法

        2018-05-09 08:48:39蘇軍雄見雪婷華俊達(dá)張勝祥
        關(guān)鍵詞:變形特征

        蘇軍雄,見雪婷,劉 瑋,華俊達(dá),張勝祥

        (華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)

        0 引 言

        手勢(shì)識(shí)別是人機(jī)交互的一種直接的表達(dá)形式,將手勢(shì)作為計(jì)算機(jī)的輸入已經(jīng)日益成為一種趨勢(shì)。神經(jīng)網(wǎng)絡(luò)通過(guò)連接到計(jì)算機(jī)相機(jī)捕獲手勢(shì)或更一般的人體姿勢(shì)和運(yùn)動(dòng)來(lái)判別手勢(shì)[1-3]。2015年11月,Google發(fā)布深度學(xué)習(xí)框架TensorFlow并宣布開源,使得神經(jīng)網(wǎng)絡(luò)與手勢(shì)識(shí)別更好地融合?,F(xiàn)今伴隨著人機(jī)交互技術(shù)飛速發(fā)展,手勢(shì)識(shí)別技術(shù)也逐漸出現(xiàn)在人們的視野中。在家庭娛樂(lè)方面被廣泛熟知的微軟Xbox游戲機(jī),主要由Kinect3D體感攝影機(jī)組成,上面集成了可以識(shí)別動(dòng)作及表情的攝像頭和紅外傳感器。手勢(shì)識(shí)別也應(yīng)用在智能駕駛中,在2015年的CES展上,寶馬展出了最新iDrive系統(tǒng),其重要變化之一就是引入了手勢(shì)識(shí)別功能,通過(guò)安裝在車頂上的3D傳感器對(duì)駕駛員的手勢(shì)進(jìn)行識(shí)別,實(shí)現(xiàn)駕駛員能夠利用手勢(shì)控制車輛導(dǎo)航、信息娛樂(lè)等功能。

        傳統(tǒng)的手勢(shì)識(shí)別模型大致可以分為以下3類:1)基于加速傳感器戒指等可穿戴設(shè)備的手勢(shì)識(shí)別方法[4]。該方法有效且可用于復(fù)雜環(huán)境下的手勢(shì)識(shí)別,即將識(shí)別問(wèn)題轉(zhuǎn)換成求解樣本間的稀疏表示問(wèn)題。該方法一般都使用穿戴型的傳感器進(jìn)行數(shù)據(jù)采集,并非直接在視頻流和圖片上獲取,只借助電腦無(wú)法實(shí)現(xiàn)數(shù)據(jù)獲取。2)基于視覺(jué)的手勢(shì)識(shí)別。例如,基于RGB圖像的時(shí)間序列手勢(shì)輪廓模型的手勢(shì)識(shí)別方法[5]、多色彩度結(jié)合的手勢(shì)識(shí)別算法[6]和人工設(shè)計(jì)特征提取的手勢(shì)識(shí)別算法[7-8]。由于RGB圖像只包含色度信息,對(duì)于其他膚色或近膚色的抗干擾性較差。3)基于RGB-D圖像(彩色和深度圖像)的手勢(shì)識(shí)別技術(shù),該方法信息獲取簡(jiǎn)單方便、信息量豐富、自由度高[9]。通過(guò)模糊聚類算法對(duì)手、臉的近距離遮擋進(jìn)行分割,利用SVM和深度HOG特征完成靜態(tài)手勢(shì)識(shí)別。其能夠較好地分割出近臉的靜態(tài)手勢(shì),但是該方法的實(shí)時(shí)性和在不同距離下的適用性有待于驗(yàn)證[10]。后2種方法都是基于人工提取圖像中的特征實(shí)現(xiàn)的。然而,人工提取圖像的特征過(guò)程復(fù)雜,需要有較高的專業(yè)知識(shí)和經(jīng)驗(yàn),難于輕易地泛化到大多數(shù)的場(chǎng)景中來(lái)。

        卷積神經(jīng)網(wǎng)絡(luò)[11]是目前機(jī)器視覺(jué)和圖像處理領(lǐng)域應(yīng)用廣泛的模型之一,受到了工業(yè)界和學(xué)術(shù)界的高度關(guān)注。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)已成功應(yīng)用于圖像檢索[12]、表情識(shí)別[13]、行人檢測(cè)[13]、人體行為檢測(cè)[14]和手勢(shì)識(shí)別[15]中。得益于卷積神經(jīng)網(wǎng)絡(luò)可以直接從原始圖像中識(shí)別視覺(jué)模式,其需要的預(yù)處理工作很少[15]。并且卷積神經(jīng)網(wǎng)絡(luò)一般在圖像處理方面有如下的優(yōu)勢(shì):1)輸入圖像和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能很好地吻合;2)特征提取和模式分類能夠同時(shí)進(jìn)行;3)權(quán)值共享可以大大減少網(wǎng)絡(luò)的訓(xùn)練參數(shù),使得神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得簡(jiǎn)單,泛用性增強(qiáng)[16]。

        但是傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的采樣會(huì)受卷積核的影響,其采樣的性能會(huì)受限于卷積核中固有的幾何設(shè)計(jì)。因此,本文基于對(duì)卷積神經(jīng)網(wǎng)絡(luò)的卷積層結(jié)構(gòu)進(jìn)行改進(jìn),提出一個(gè)名為DC-VGG的卷積神經(jīng)網(wǎng)絡(luò),較好地解決了手勢(shì)識(shí)別上圖像采樣的問(wèn)題。通過(guò)在實(shí)驗(yàn)中比較改進(jìn)后的DC-VGG與傳統(tǒng)的VGG、LeNet-5網(wǎng)絡(luò)的性能,得出一些有益的結(jié)論,有利于以后的研究。

        1 卷積神經(jīng)網(wǎng)絡(luò)

        在傳統(tǒng)的圖像識(shí)別中,建立圖像識(shí)別的分類模型是一件十分費(fèi)力的事情,需要輸入圖像,通過(guò)設(shè)計(jì)一系列模型對(duì)圖片進(jìn)行預(yù)處理,根據(jù)提取出來(lái)的指標(biāo)進(jìn)行分類得到輸出結(jié)果,如圖1所示。而利用卷積神經(jīng)網(wǎng)絡(luò)則不需要考慮特征設(shè)計(jì)和提取的問(wèn)題,它只需直接將圖像作為數(shù)據(jù)輸入網(wǎng)絡(luò)中,就可以在輸出端得到分類結(jié)果。如圖2所示。

        圖1 傳統(tǒng)分類模型

        圖2 卷積神經(jīng)網(wǎng)絡(luò)分類模型

        得益于卷積神經(jīng)網(wǎng)絡(luò)可以直接利用原始圖像作為輸入數(shù)據(jù),使得前期所需要進(jìn)行的預(yù)處理大大減少。并且卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)局域感受域、權(quán)值共享和降采樣這3種方法來(lái)實(shí)現(xiàn)對(duì)圖片的處理。局部感受域指的是在卷積層中,每一層的神經(jīng)元只與上一層的一個(gè)小鄰域內(nèi)的神經(jīng)單元連接,通過(guò)局部感受域,每個(gè)神經(jīng)元可以提取初級(jí)的視覺(jué)特征;權(quán)值共享可以是卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)共享,具有更少的參數(shù),從而減少了訓(xùn)練所需要的數(shù)據(jù);降采樣是在池化層進(jìn)行的,降采樣可以減少特征的分辨率,實(shí)現(xiàn)了對(duì)位移、縮放和其他形式的扭曲的不變性[16]。

        但是,在傳統(tǒng)的卷積層中,局部感受域的幾何結(jié)構(gòu)是方塊型卷積,致使局部感受域中提取的特征也屬于方塊型的特征。而圖像中的手勢(shì)是不規(guī)則的形狀,直接用固定的方塊型卷積提取其特征會(huì)使卷積層中的幾何變換能力變得低效,增大識(shí)別的難度。

        相比原本的卷積核,引入可變形的卷積核可以使接受圖像的感受域的區(qū)域變得更符合實(shí)際情況的需要。即引入可變形的卷積核可以根據(jù)實(shí)際物體的形狀而進(jìn)行自我提取特征,提取圖像物體的輪廓也不是固定的正方形,而是以一種近似于物體淪落的形狀作為卷積核的提取特征的“滑動(dòng)框”。這樣極大地保留了圖像中物體原本所具有的特征,不會(huì)因受限方形的提取特征的“滑動(dòng)框”而使得某些特征被割裂,使圖像中物體特征提取受到一定的損失或者丟失。另外,這樣也符合實(shí)際情況的需要,使得圖像中物體的特征保留得更完整、更全面,從而能有效地提高網(wǎng)絡(luò)的性能,較好地進(jìn)行手勢(shì)識(shí)別。因此,本文引入一種改進(jìn)卷積核[17]結(jié)構(gòu)的方法,具體原理如1.1節(jié)所示。

        1.1 可變形卷積層

        傳統(tǒng)的卷積層的幾何結(jié)構(gòu)是固定的,采取的是方塊型卷積核。若采用二維網(wǎng)格圖表示,則如圖3(a)所示,因而其幾何變換的能力有限。而對(duì)于可變形卷積則會(huì)突破幾何結(jié)構(gòu)的固定性,在每一個(gè)卷積核上加入一個(gè)偏移的向量,如圖3(b)~圖3(d)所示,從而可以提升卷積神經(jīng)網(wǎng)絡(luò)的泛化能力,提高不規(guī)則圖形上的識(shí)別效果。

        (a) (b) (c) (d)圖3 卷積核采樣點(diǎn)的位置分布圖

        圖3中分別展示4種3×3的卷積核采樣點(diǎn)的位置分布圖。圖3(a)代表傳統(tǒng)的卷積核的取樣點(diǎn);圖3(b)代表引入一種隨機(jī)偏移向量的卷積核的取樣點(diǎn);圖3(c)與圖3(d)是圖3(b)的特殊情況,都是引入規(guī)則性偏移向量的卷積核取樣點(diǎn),表明可變形卷積可以在各種尺度、各種旋轉(zhuǎn)變換下推廣。

        通常,二維卷積核的提取分為2個(gè)步驟:1)在特征圖上利用一個(gè)規(guī)則化的網(wǎng)格R進(jìn)行采樣;2)在每個(gè)采樣點(diǎn)處乘上相應(yīng)的權(quán)值w并求和。

        下面,以一個(gè)二維的3×3的卷積核采樣為例:

        R={(-1,-1), (-1,0), …, (0,1), (1,1)}

        在傳統(tǒng)卷積核中,每一個(gè)位置p0的輸出結(jié)果為:

        (1)

        其中pn表示在區(qū)域R的任一位置。

        在可變形卷積核中,引入一個(gè)偏移向量{Δpn|n=1,…,N},其中N=|R|。式(1)可變形為[17]:

        (2)

        其中,pn表示在卷積窗口中任意一個(gè)像素點(diǎn),w(pn)表示像素點(diǎn)pn的權(quán)重,x表示輸入層像素點(diǎn)的集合,Δpn表示像素點(diǎn)pn的偏移量。

        由于采樣是在不規(guī)則區(qū)域上進(jìn)行,會(huì)導(dǎo)致偏移向量通常情況下為分?jǐn)?shù)。因此,式(2)需要通過(guò)雙線性插值來(lái)實(shí)現(xiàn):

        (3)

        其中p表示區(qū)域中的任意位置,且p=p0+pn+Δp; q表示所有的空間分布特征;G(·,·)表示雙線性插值核,由于其是二維的,可以分解成2個(gè)一維的內(nèi)核:

        G(q,p)=g(qx,px)g(qy,py)

        (4)

        其中g(shù)(a,b)=max (0,1-|a-b|)。

        圖4展現(xiàn)了可變形卷積層的實(shí)現(xiàn)過(guò)程。在輸入層中原本固定采樣區(qū)域分別加入偏移向量,然后在卷積核中通過(guò)雙線性插值的算法將帶有偏移向量的采樣點(diǎn)集中在一起,并且使得帶偏移向量的輸出特征圖與輸入的特征圖具有一致的空間分辨率,最終傳遞給下一個(gè)網(wǎng)絡(luò)層。這樣,在不改變空間分辨率的情況下,實(shí)現(xiàn)對(duì)不規(guī)則圖像特征的提取。

        圖4 可變形卷積層的實(shí)現(xiàn)過(guò)程

        1.2 池化層

        在池化層中,本文選用了平均池化的池化方法,即對(duì)鄰域內(nèi)的特征點(diǎn)求其平均。

        因此,在池化層的形式如式(5)所示:

        (5)

        其中,pn表示在池化窗口中任意一個(gè)像素點(diǎn),ni,j表示固定在bin里的總像素?cái)?shù)。

        2 卷積網(wǎng)絡(luò)結(jié)構(gòu)及改進(jìn)

        2.1 VGG卷積網(wǎng)絡(luò)結(jié)構(gòu)

        VGG-16卷積網(wǎng)絡(luò)共有21層,其中包括13個(gè)卷積層、5個(gè)池化層和3個(gè)全連接層,具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。其中,VGG-16使用多個(gè)較小卷積核的卷積層代替一個(gè)卷積核較大的卷積層,一方面可以減少參數(shù),另一方面進(jìn)行了更多的非線性映射,可以增加網(wǎng)絡(luò)的表達(dá)能力。

        圖5 VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)

        2.2 VGG卷積網(wǎng)絡(luò)的改進(jìn)

        本文的卷積網(wǎng)絡(luò)結(jié)構(gòu)是在VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上加以改進(jìn)的。原先的VGG-16網(wǎng)絡(luò)結(jié)構(gòu)包括13個(gè)卷積層(C)、5個(gè)池化層(S)和3個(gè)全連接層(F),而改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)縮減了卷積層的個(gè)數(shù),并且引入可變形卷積層,將部分的傳統(tǒng)卷積層替換成可變形卷積層,最終包括6個(gè)卷積層(C)、4個(gè)可變形卷積層(DC)、5個(gè)池化層(S)和3個(gè)全連接層(F)。改進(jìn)后的網(wǎng)絡(luò)稱為DC-VGG網(wǎng)絡(luò)。具體的網(wǎng)絡(luò)結(jié)構(gòu)連接方法如圖6所示。

        圖6 DC-VGG的網(wǎng)絡(luò)結(jié)構(gòu)

        2.3 DC-VGG的網(wǎng)絡(luò)結(jié)構(gòu)

        本文搭建的DC-VGG網(wǎng)絡(luò)結(jié)構(gòu)共由18層組成。該網(wǎng)絡(luò)的輸入層需要256×256大小的圖像作為輸入,經(jīng)過(guò)卷積層(C)、可變形卷積層(DC)、池化層(S)和全連接層(F)的共同作用,最終得到輸出的結(jié)果(其中各階段輸出結(jié)果見表1)。

        表1 DC-VGG網(wǎng)絡(luò)結(jié)構(gòu)輸出結(jié)果

        類型卷積核輸出特征圖大小輸出特征圖個(gè)數(shù)C13×3256×25664C23×3256×25664S32×2128×12864DC43×3128×12864C53×3128×128128S62×264×64128DC73×364×64128C83×364×64256S92×232×32256DC103×332×32256C113×332×32512S122×216×16512DC133×316×16512C143×316×16512S152×28×8512F161×114096F171×114096F181×111000

        在C1,C2網(wǎng)絡(luò)層中,會(huì)對(duì)輸入的圖像進(jìn)行方形區(qū)域內(nèi)的卷積作用。因此,每個(gè)神經(jīng)元會(huì)與輸入圖像中的某個(gè)3×3的方形區(qū)域相連接,得到64個(gè)特征圖,其大小為256×256。

        在S3網(wǎng)絡(luò)層中,則會(huì)對(duì)C2的特征圖進(jìn)行降采樣處理。在該網(wǎng)絡(luò)層中將會(huì)利用2×2的抽樣窗口進(jìn)行操作,得到64個(gè)特征圖,其大小為128×128。

        在DC4網(wǎng)絡(luò)層中,會(huì)對(duì)S3的特征圖進(jìn)行不規(guī)則區(qū)域內(nèi)的卷積作用。因此,該層中的每個(gè)神經(jīng)元會(huì)與S3的特征圖中的某個(gè)3×3的延伸不規(guī)則區(qū)域相連接,得到64個(gè)特征圖,其大小為128×128。

        在C5網(wǎng)絡(luò)層中(同C1),對(duì)DC4進(jìn)行卷積的操作,得到128個(gè)特征圖,其大小為128×128。

        在S6網(wǎng)絡(luò)層中(同S3),為第2個(gè)池化層,繼續(xù)進(jìn)行降采樣處理。抽樣窗口為2×2,特征圖為128個(gè),其大小為64×64。

        在DC7網(wǎng)絡(luò)層中(同DC4),繼續(xù)在不規(guī)則區(qū)域提取特征圖。其中,卷積核為3×3,得到特征圖為128個(gè),其大小為64×64。

        在C8網(wǎng)絡(luò)層中(同C1),對(duì)DC7進(jìn)行卷積操作。其中,卷積核為3×3,得到256個(gè)特征圖,其大小為64×64。

        在S9網(wǎng)絡(luò)層中(同S3),為第3個(gè)池化層,繼續(xù)進(jìn)行降采樣處理。抽樣窗口為2×2,特征圖為256個(gè),其大小為32×32。

        在DC10網(wǎng)絡(luò)層中(同DC4),繼續(xù)在不規(guī)則區(qū)域提取特征圖。其中,卷積核為3×3,得到特征圖為256個(gè),其大小為32×32。

        在C11網(wǎng)絡(luò)層中(同C1),對(duì)DC10進(jìn)行卷積操作。其中,卷積核為3×3,得到512個(gè)特征圖,其大小為32×32。

        在S12網(wǎng)絡(luò)層中(同S3),為第4個(gè)池化層,繼續(xù)進(jìn)行降采樣處理。抽樣窗口為2×2,特征圖為512個(gè),其大小為16×16。

        在DC13網(wǎng)絡(luò)層中(同DC4),繼續(xù)在不規(guī)則區(qū)域提取特征圖。其中,卷積核為3×3,得到特征圖為512個(gè),其大小為16×16。

        在C14網(wǎng)絡(luò)層中(同C1),對(duì)DC13進(jìn)行卷積操作。其中,卷積核為3×3,得到512個(gè)特征圖,其大小為16×16。

        在S15網(wǎng)絡(luò)層中(同S3),為第5個(gè)池化層,繼續(xù)進(jìn)行降采樣處理。抽樣窗口為2×2,特征圖為512個(gè),其大小為8×8。

        在F16,F(xiàn)17,F(xiàn)18的全連接層中,把S15層的特征圖的數(shù)據(jù)向量化后連接到輸出層,最終得到一個(gè)1×1×1000的輸出結(jié)果,用來(lái)進(jìn)行識(shí)別。

        3 實(shí)驗(yàn)和結(jié)果分析

        3.1 圖像的預(yù)處理

        在手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)中,為了有效提高算法性能,通常要進(jìn)行手勢(shì)區(qū)域檢測(cè)、分割和手勢(shì)的規(guī)范化處理等預(yù)處理操作。

        在本次實(shí)驗(yàn)中,對(duì)數(shù)據(jù)集的圖片僅進(jìn)行了手勢(shì)的規(guī)范化處理。將數(shù)據(jù)集的所有RGB圖片保持原本的長(zhǎng)寬比,裁剪成256×256大小,用來(lái)作為實(shí)驗(yàn)的輸入層數(shù)據(jù),同時(shí)裁剪后的圖像能夠降低網(wǎng)絡(luò)的運(yùn)算量,更容易提取出合適的特征,從而提高識(shí)別率。

        圖7為手勢(shì)預(yù)處理演示圖。

        圖7 手勢(shì)預(yù)處理演示圖

        3.2 實(shí)驗(yàn)分析

        3.2.1 實(shí)驗(yàn)基礎(chǔ)

        圖8 10種手勢(shì)

        本文的所有實(shí)驗(yàn)都是在Ubuntu 16.04 LTS系統(tǒng)下利用TensorFlow框架完成的,系統(tǒng)的硬件環(huán)境為I5-7300HQ處理器,主頻為2.50 GHz。而實(shí)驗(yàn)的數(shù)據(jù)集則是選取了一個(gè)公共的手勢(shì)庫(kù),手勢(shì)庫(kù)的名稱為L(zhǎng)arge RGB-D Extensible Hand Gesture Dataset[18]。選取10種手勢(shì)用于實(shí)驗(yàn),如圖8所示。將數(shù)據(jù)集設(shè)置為1500張,測(cè)試集設(shè)置為150張。每個(gè)手勢(shì)的實(shí)驗(yàn)分別運(yùn)行5次,取其識(shí)別率的平均值,作為最終某個(gè)手勢(shì)的識(shí)別率。同時(shí)也記錄3種網(wǎng)絡(luò)單張圖像的平均識(shí)別時(shí)間,通過(guò)結(jié)合手勢(shì)的識(shí)別率來(lái)反映3種網(wǎng)絡(luò)的性能情況。

        3.2.2 LeNet-5, VGG, DC-VGG對(duì)比

        本文自行搭建了LeNet-5, VGG-16, DC-VGG這3種網(wǎng)絡(luò)結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)實(shí)驗(yàn)的數(shù)據(jù)集進(jìn)行訓(xùn)練。分別將3種卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到10種手勢(shì)的數(shù)據(jù)集中,學(xué)習(xí)率設(shè)置為0.001, batch-size設(shè)置為32,意味著每次傳入32張圖片進(jìn)行訓(xùn)練,每訓(xùn)練100次記錄一次識(shí)別率(記作迭代1次),總共迭代20次。取最后5次迭代時(shí)記錄的識(shí)別率,計(jì)算其平均值,從而得到3種網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果,具體如表2所示。

        表2 3種網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果

        手勢(shì)網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別率/%LeNet-5VGG-16DC-VGG手勢(shì)194.4496.0098.79手勢(shì)294.1795.8897.02手勢(shì)394.3395.6697.96手勢(shì)492.8896.1198.48手勢(shì)595.1795.8898.17手勢(shì)693.2995.8898.38手勢(shì)793.9294.8898.48手勢(shì)893.2596.0097.96手勢(shì)994.9295.7797.75手勢(shì)1093.0495.8897.85

        另外,對(duì)3種網(wǎng)絡(luò)的單張平均識(shí)別時(shí)間進(jìn)行統(tǒng)計(jì),記錄運(yùn)行識(shí)別集所需要的時(shí)間,再除以對(duì)應(yīng)的識(shí)別集的圖像數(shù),得到各網(wǎng)絡(luò)結(jié)構(gòu)的單張平均識(shí)別時(shí)間如表3所示。

        表3 3種網(wǎng)絡(luò)結(jié)構(gòu)的單張平均識(shí)別時(shí)間

        網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別時(shí)間/msLeNet-512.9VGG-1642.3DC-VGG137

        從上述的實(shí)驗(yàn)結(jié)果來(lái)看,引入可變形卷積層的DC-VGG網(wǎng)絡(luò)的識(shí)別率優(yōu)于LeNet-5和VGG-16網(wǎng)絡(luò),說(shuō)明引入可變形卷積層可有效提高網(wǎng)絡(luò)的性能,提升了卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本對(duì)象的容忍度和多樣性,豐富了卷積神經(jīng)網(wǎng)絡(luò)特征的表達(dá)能力。

        不過(guò)在識(shí)別時(shí)間的表現(xiàn)上差強(qiáng)人意,這其中的差異是由于網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)的不同所造成的。網(wǎng)絡(luò)層數(shù)越深,所需要經(jīng)歷的時(shí)間越長(zhǎng);還有可變形卷積層的采樣需要借助雙線性插值來(lái)實(shí)現(xiàn),從而增加了網(wǎng)絡(luò)運(yùn)算的復(fù)雜度,導(dǎo)致時(shí)間比VGG-16的長(zhǎng)。這一點(diǎn),是今后需要優(yōu)化和改進(jìn)的地方。

        3.2.3 DC-VGG網(wǎng)絡(luò)與其他模型對(duì)比

        在實(shí)驗(yàn)中選取有代表性的傳統(tǒng)手勢(shì)識(shí)別算法,依此在公共的手勢(shì)庫(kù)Large RGB-D Extensible Hand Gesture Dataset[18]上進(jìn)行實(shí)驗(yàn)的驗(yàn)證。

        表4中列舉了比較實(shí)驗(yàn)的結(jié)果。其中,SIFT+SVM方法[7]是將SIFT特征提取與SVM(支持向量機(jī))分類器結(jié)合組成的,獲得了84.67%的識(shí)別率;將SURT方法特征[8]提取與SVM分類器結(jié)合組成的方法,獲得了88.33%的識(shí)別率;在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型上,獲得了94.87%的識(shí)別率;而本文的可變形卷積網(wǎng)絡(luò)算法,得到了98.08%的識(shí)別率,優(yōu)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)和基于人工特征設(shè)計(jì)的傳統(tǒng)算法。

        表4 DC-VGG網(wǎng)絡(luò)與其他方法識(shí)別性能比較

        對(duì)比方法平均識(shí)別率/%SIFT+SVM84.67SURT+SVM88.33卷積神經(jīng)網(wǎng)絡(luò)94.87本文算法98.08

        通過(guò)上述比較實(shí)驗(yàn)結(jié)果可知,人工設(shè)計(jì)特征算法的識(shí)別率沒(méi)有卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別率高,這說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)的特征提取更充分、更真實(shí),在識(shí)別率上的表現(xiàn)更出色。另外,通過(guò)對(duì)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行加入可變形卷積層的擴(kuò)展,明顯地提高了手勢(shì)識(shí)別的識(shí)別率,表明卷積神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的可擴(kuò)展性,同時(shí),結(jié)構(gòu)性的擴(kuò)展也展現(xiàn)出對(duì)性能巨大的提升潛力。

        4 結(jié)束語(yǔ)

        本文在VGG-16卷積神經(jīng)網(wǎng)絡(luò)中引入可變形卷積層的模塊,應(yīng)用到公共的手勢(shì)識(shí)別數(shù)據(jù)庫(kù)中,對(duì)比傳統(tǒng)的LeNet-5和VGG-16的網(wǎng)絡(luò)結(jié)構(gòu),均取得較好的識(shí)別率。這說(shuō)明加入可變形卷積這種空間變化的模塊,能有效地提高卷積神經(jīng)網(wǎng)絡(luò)的性能,提高卷積神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力,為復(fù)雜背景下有效識(shí)別手勢(shì)提供參考,并且具有一定的延拓能力。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的DC-VGG與VGG-16網(wǎng)絡(luò)相比結(jié)構(gòu)簡(jiǎn)單,比傳統(tǒng)的人工設(shè)計(jì)特征的算法識(shí)別率更高,更加穩(wěn)定。卷積神經(jīng)網(wǎng)絡(luò)局部感受域和權(quán)值共享的特征,直接將RGB圖像輸入神經(jīng)網(wǎng)絡(luò)中,亦大大減少了圖片預(yù)處理的難度。

        參考文獻(xiàn):

        [1] Pavlovic V I, Sharma R, Huang T S. Visual interpretation of hand gestures for human-computer interaction: A review[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(7):677-695.

        [2] Wu Ying, Huang T S. Vision-based gesture recognition: A review[C]// Proceedings of the 1999 International Gesture Workshop on Gesture-based Communication in Human-Computer Interaction. 1999:103-115.

        [3] Jaimes A, Sebe N. Multimodal human-computer interaction: A survey[J]. Computer Vision and Image Understanding, 2007,108(1-2):116-134.

        [4] Xie Renqiang, Sun Xia, Xia Xiang, et al. Similarity matching-based extensible hand gesture recognition[J]. IEEE Sensors Journal, 2015,15(6):3475-3483.

        [5] 龐海波,李占波,丁友東. 基于時(shí)間序列手勢(shì)輪廓模型的動(dòng)態(tài)手勢(shì)識(shí)別[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015,43(1):140-146.

        [6] Bhuyan M K, Kumar D A, MacDorman K F, et al. A novel set of features for continuous hand gesture recognition[J]. Journal on Multimodal User Interfaces, 2014,8(4):333-343.

        [7] 李翠,王小妮,劉園園. 基于SIFT算法的手勢(shì)控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 現(xiàn)代經(jīng)濟(jì)信息, 2016(10):337.

        [8] Wallach H M. Topic modeling: Beyond bag-of-words[C]// Proceedings of the 23rd International Conference on Machine Learning. 2006:977-984.

        [9] 曹潔,趙修龍,王進(jìn)花. 基于RGB-D信息的動(dòng)態(tài)手勢(shì)識(shí)別方法[J/OL]. http://www.arocmag.com/article/02-2018-06-050.html, 2017-06-14.

        [10] 劉斌,趙興,胡春海,等. 面向顏色深度圖像手臉近距遮擋的手勢(shì)識(shí)別[J]. 激光與光電子學(xué)進(jìn)展, 2016(6):134-143.

        [11] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. 2012,1:1097-1105.

        [12] 陳祖雪. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別研究[D]. 西安:陜西師范大學(xué), 2016.

        [13] 柯圣財(cái),趙永威,李弼程,等. 基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督核哈希的圖像檢索方法[J]. 電子學(xué)報(bào), 2017,45(1):157-163.

        [14] Fan Yin, Lu Xiangju, Li Dian, et al. Video-based emotion recognition using CNN-RNN and C3D hybrid networks[C]// Proceedings of the 18th ACM International Conference on Multimodal Interaction. 2016:445-450.

        [15] 左艷麗,馬志強(qiáng),左憲禹. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人體檢測(cè)研究[J]. 現(xiàn)代電子技術(shù), 2017,40(4):12-15.

        [16] 趙志宏,楊紹普,馬增強(qiáng). 基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識(shí)別研究[J]. 系統(tǒng)仿真學(xué)報(bào), 2010,22(3):638-641.

        [17] Dai Jifeng, Qi Haozhi, Xiong Yuwen, et al. Deformable Convolutional Networks[DB/OL]. https://arxiv.org/abs/1703.06211, 2017-06-05.

        [18] Multimedia Computing Laboratory. Large RGB-D Extensible Hand Gesture Dataset[DB/OL]. http://mclab.citi.sinica.edu.tw/dataset/lared/lared.html#download, 2014-07-18.

        猜你喜歡
        變形特征
        抓住特征巧觀察
        談詩(shī)的變形
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        “我”的變形計(jì)
        變形巧算
        抓住特征巧觀察
        例談拼圖與整式變形
        會(huì)變形的餅
        亚洲av无码乱码在线观看牲色| 亚洲AV无码一区二区水蜜桃| 亚洲国产成人精品久久成人| 男男亚洲av无一区二区三区久久| 专干老熟女视频在线观看| 国产精品成人免费视频网站京东| 无码在线观看123| 国产av精品一区二区三区不卡| 西川结衣中文字幕在线| 精品久久欧美熟妇www| 国产一区二区激情对白在线| 蜜桃视频高清在线观看| 精品久久亚洲中文字幕| 爆爽久久久一区二区又大又黄又嫩| 亚洲伊人久久大香线蕉影院| 久久亚洲精品成人av观看| 青青草国产在线视频自拍| 亚洲精品国偷拍自产在线麻豆| 国产91福利在线精品剧情尤物| 一道本中文字幕在线播放| 香蕉成人伊视频在线观看| 公粗挺进了我的密道在线播放贝壳| 狠狠色狠狠色综合网老熟女| 日韩一区二区中文天堂| 免费av一区二区三区无码| 人妻被黑人粗大的猛烈进出| 99RE6在线观看国产精品| 日本久久精品视频免费| 国产精品久久久久9999赢消| 国产人在线成免费视频麻豆| 色av色婷婷18人妻久久久| 黑人巨大精品欧美| 欧美性猛交内射兽交老熟妇| 超碰观看| 久久国产精品婷婷激情| 亚洲国产天堂一区二区三区| 国产99re在线观看只有精品| 色妞一区二区三区免费视频| 99久久无色码中文字幕人妻蜜柚| www插插插无码免费视频网站| 亚洲色无码中文字幕|