亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        復(fù)雜環(huán)境下通用的手勢(shì)識(shí)別方法

        2016-07-19 20:39:39杜堃譚臺(tái)哲
        計(jì)算機(jī)應(yīng)用 2016年7期
        關(guān)鍵詞:特征區(qū)域方法

        杜堃 譚臺(tái)哲

        摘要:用來(lái)解決手勢(shì)識(shí)別中光照變化、背景干擾等問(wèn)題的方法,往往計(jì)算量大,耗時(shí)長(zhǎng)。針對(duì)這一問(wèn)題,提出了一種復(fù)雜環(huán)境下通用的手勢(shì)識(shí)別方法。該方法利用二進(jìn)制方式實(shí)現(xiàn)支持向量機(jī)(SVM)模型并且使用位運(yùn)算代替滑動(dòng)窗口從而完成目標(biāo)快速篩選,然后用統(tǒng)一計(jì)算設(shè)備架構(gòu)(CUDA)實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)對(duì)初篩區(qū)域進(jìn)行二次判斷和識(shí)別。該方法不依賴于動(dòng)態(tài)手勢(shì)識(shí)別技術(shù),可以應(yīng)用于動(dòng)態(tài)和靜態(tài)的手勢(shì)識(shí)別,能夠同時(shí)處理光照變化、背景干擾的問(wèn)題。實(shí)驗(yàn)結(jié)果表明所提算法的計(jì)算效率相比基于滑動(dòng)窗口的算法有100至1000倍的提升,處理一幅圖片的時(shí)間約為0.01s。在修正后的Marcel數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果達(dá)到了96.1%的準(zhǔn)確率和100%的召回率。效率上的提升使得算法能夠?qū)崟r(shí)進(jìn)行復(fù)雜環(huán)境下的手勢(shì)識(shí)別。

        關(guān)鍵詞:

        手勢(shì)識(shí)別;位運(yùn)算;卷積神經(jīng)網(wǎng)絡(luò);復(fù)雜環(huán)境;膚色似然

        中圖分類號(hào): TP391.413 文獻(xiàn)標(biāo)志碼:A

        0引言

        現(xiàn)行的手勢(shì)識(shí)別方法的主要步驟是提取精確的手勢(shì)區(qū)域,然后作形狀或者輪廓識(shí)別。提取手勢(shì)區(qū)域的方法有依賴于測(cè)距設(shè)備的方法,比如Kinect[1-2]、雙目設(shè)備[3],也有依賴于單目視覺(jué)的方法[4]。前者的主要原理是人機(jī)交互中手的位置距離傳感器應(yīng)該在一定的區(qū)間內(nèi),之后進(jìn)行距離閾值分割。而基于視覺(jué)的方法主要是確定合理的膚色閾值,進(jìn)行膚色分割和去噪,確定手勢(shì)區(qū)域或者輪廓。

        這些方法雖然依賴的特征不同,但是在整體處理步驟上比較相似,都需要首先對(duì)手勢(shì)區(qū)域進(jìn)行精確的分割。方法面臨的挑戰(zhàn)主要集中在復(fù)雜環(huán)境下的手勢(shì)分割。如果希望算法在距離、光照可變的環(huán)境下表現(xiàn)出良好的魯棒性,一般會(huì)將很多非手勢(shì)的區(qū)域也識(shí)別為手勢(shì),這將增加手勢(shì)分割的難度,在復(fù)雜背景下,這一問(wèn)題會(huì)更加明顯。在背景環(huán)境復(fù)雜時(shí)如果想降低手勢(shì)分割的難度,一般需要對(duì)輸入的圖像特征進(jìn)行更嚴(yán)格的提取,這同時(shí)也降低了模型的魯棒性,在光照、距離等條件變化時(shí),會(huì)出現(xiàn)丟失手勢(shì)的問(wèn)題。

        兩類問(wèn)題相互制約,針對(duì)這一情況,研究者們把精力主要放在如何更加精準(zhǔn)地提取特征上面。用作手勢(shì)分割的特征主要集中在膚色[4]和距離[1,3],有的學(xué)者采取了將輪廓信息結(jié)合先驗(yàn)形狀來(lái)進(jìn)行更加準(zhǔn)確的分割方式來(lái)處理這一問(wèn)題[5],此類方法被廣泛地用于邊緣提取領(lǐng)域,在針對(duì)小規(guī)模噪聲區(qū)域以及手勢(shì)類別較少的情況時(shí)能獲取不錯(cuò)的效果。主要問(wèn)題是對(duì)于多個(gè)先驗(yàn)形狀的表達(dá)沒(méi)有特別理想的方案,在形狀增多之后,形狀項(xiàng)的作用明顯下降,這與形狀之間本身的沖突有關(guān)。更重要的一點(diǎn)是圖像分割方法一般耗時(shí)都在數(shù)秒甚至數(shù)十秒,時(shí)間復(fù)雜度上無(wú)法滿足手勢(shì)識(shí)別的需要。因?yàn)槭謩?shì)分割的運(yùn)用場(chǎng)景多為動(dòng)態(tài)場(chǎng)景,所以運(yùn)動(dòng)目標(biāo)檢測(cè)的方法也經(jīng)常用來(lái)輔助手勢(shì)分割。

        現(xiàn)行手勢(shì)分割方法中最常用的是按照提取膚色特征、二值化、形態(tài)學(xué)濾波、運(yùn)動(dòng)目標(biāo)特征或者距離特征協(xié)助檢測(cè)這個(gè)過(guò)程處理[3-4]。有時(shí)還需要做人臉檢測(cè),排除人臉區(qū)域的干擾。融合了多種特征的方法在光照變化和背景擁有類似膚色的物體時(shí)仍然會(huì)出現(xiàn)不能有效分割的情形。

        在手勢(shì)識(shí)別方面,Dardas等[6]提出了一種基于特征包的手勢(shì)識(shí)別方法,在識(shí)別率和計(jì)算效率上都取得了較好的結(jié)果。對(duì)于良好的手勢(shì)輪廓,Belongie等[7]提出的形狀上下文能夠得到高準(zhǔn)確率和對(duì)非剛性畸變魯棒的結(jié)果。矩特征,指尖等手勢(shì)的幾何特征[1]也經(jīng)常被用作為手勢(shì)識(shí)別的特征。卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)獲取特征,在處理靜態(tài)圖片時(shí)表現(xiàn)出了非常高的準(zhǔn)確率,同時(shí)對(duì)噪聲以及各種形變魯棒。

        本文提出一種新的方法來(lái)解決手勢(shì)識(shí)別中魯棒性和算法復(fù)雜性之間的矛盾。該方法第1步使用二進(jìn)制運(yùn)算實(shí)現(xiàn)的支持向量機(jī)(Support Vector Machine, SVM)分類器并用位運(yùn)算代替滑動(dòng)窗口,快速提取出多個(gè)可能的備選區(qū)域。第2步使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)完成手勢(shì)的再判定與識(shí)別工作。文中算法的實(shí)現(xiàn)方式非常關(guān)鍵,直接關(guān)系模型的運(yùn)算效率。第1步中使用的分類器為線性SVM模型,需要在支持64位整型機(jī)器的環(huán)境下使用二進(jìn)制運(yùn)算的方式實(shí)現(xiàn),在執(zhí)行效率上相對(duì)于基于滑動(dòng)窗口的算法有著100倍左右的提升[8]。第2步使用的分類器為卷積神經(jīng)網(wǎng)絡(luò),在實(shí)現(xiàn)上使用了統(tǒng)一計(jì)算設(shè)備架構(gòu)(Compute Unified Device Architecture, CUDA)進(jìn)行卷積運(yùn)算的加速,能獲得10倍左右的加速比[9]。

        1手勢(shì)區(qū)域提取

        本文手勢(shì)區(qū)域提取的方法不要求精確提取手勢(shì)輪廓或者鎖定備選框。該方法核心思想是用最短的時(shí)間排除掉絕大部分的搜索區(qū)域,剩下無(wú)法判斷的區(qū)域結(jié)合其他方法進(jìn)行處理。

        方法本身并不依賴于特定特征,所有能夠用來(lái)排除大量備選區(qū)域的特征均可以使用,比如通過(guò)測(cè)距設(shè)備獲取的距離似然特征,使用視覺(jué)設(shè)備獲取的膚色似然特征。因?yàn)槟w色似然特征對(duì)于硬件的要求更低,本文選擇膚色似然特征進(jìn)行實(shí)驗(yàn)。

        1.1獲取膚色特征

        本文使用橢圓模型提取膚色似然區(qū)域[10-11]。首先將膚色變換到Y(jié)CbCr空間,橢圓膚色模型認(rèn)為膚色在Cr和Cb分量組成的空間里的分布集中在一個(gè)橢圓區(qū)域內(nèi)。該橢圓中心點(diǎn)坐標(biāo)為(155.6,103),長(zhǎng)短軸比例為1∶1.6,旋轉(zhuǎn)角度為43°。式(1)描述了Cr和Cb組成的空間中的像素點(diǎn)距離橢圓中心的距離,也可以理解成是膚色的概率。該值恒大于0,最大值為255,標(biāo)準(zhǔn)差系數(shù)為σ2??梢酝ㄟ^(guò)調(diào)整標(biāo)準(zhǔn)差系數(shù)σ2來(lái)控制膚色判斷的嚴(yán)格程度,不同σ2下的分割效果如圖1所示。不同的標(biāo)準(zhǔn)差系數(shù)對(duì)于膚色區(qū)域的判斷影響十分明顯。當(dāng)σ2較小時(shí)提取區(qū)域判斷為膚色的區(qū)域很小,此時(shí)真實(shí)的手勢(shì)區(qū)域可能被誤檢成非手勢(shì)區(qū)域;當(dāng)σ2增大時(shí),膚色似然圖中判斷為膚色的區(qū)域會(huì)一直增加,此時(shí)膚色似然圖中被誤檢為膚色的區(qū)域也會(huì)增加。

        光照變化和膚色的多樣性會(huì)影響膚色似然特征的計(jì)算。針對(duì)光照變化以及膚色變化的情況。有以下方法可以改善:

        方法1使用對(duì)光照魯棒的特征,比如距離似然特征。

        方法2使用較大的標(biāo)準(zhǔn)差系數(shù)σ2,后面提取區(qū)域的過(guò)程中使用較多的備選框以提高召回率。

        方法3使用迭代的方法調(diào)整橢圓模型的中心坐標(biāo)和標(biāo)準(zhǔn)差系數(shù),方法3一般用于光照連續(xù)變化場(chǎng)景,比如視頻流的處理。

        1.2膚色似然特征與手勢(shì)區(qū)域檢測(cè)

        獲取膚色似然圖之后,下一步需要計(jì)算似然圖中的手勢(shì)區(qū)域。手勢(shì)區(qū)域和非手勢(shì)區(qū)域在8×8膚色似然圖下有著明顯的差別,如圖2所示。這一步的思路是使用滑動(dòng)窗口的方法,對(duì)膚色似然圖進(jìn)行遍歷。因?yàn)樽罱K需要處理是在遍歷的過(guò)程中將窗口中的膚色似然圖像作為手勢(shì)區(qū)域分類器的輸入,得到一個(gè)“窗口值”,用來(lái)確定是否為備選窗口。

        考慮到手勢(shì)識(shí)別應(yīng)用場(chǎng)景多為人機(jī)交互,手勢(shì)的長(zhǎng)寬比固定,不會(huì)被人為拉伸,所以選用“正方形”滑動(dòng)窗口;并且手勢(shì)區(qū)域在整幅圖像中所占比例會(huì)有所變化但變化幅度不大,所以不用設(shè)定太多不同尺度的滑動(dòng)窗口。在此處設(shè)定4個(gè)不同尺度的手勢(shì)區(qū)域48×48、64×64、80×80、96×96用以檢測(cè)不同大小的手勢(shì)。

        為了保證滑動(dòng)窗口的大小始終為8×8,將膚色似然圖調(diào)整為不同的尺度,以尺度為360×240的膚色似然圖為例,當(dāng)手勢(shì)區(qū)域大小由48×48調(diào)整為8×8時(shí),膚色似然圖的長(zhǎng)寬也對(duì)應(yīng)變化原圖的1/6,變?yōu)?0×40。大小為的64×64、80×80、96×96的手勢(shì)區(qū)域所對(duì)應(yīng)的調(diào)整后的膚色似然圖尺度分別為45×30、36×24、30×20,如圖2(d)所示。

        在分類器的選擇上選用的是線性SVM分類器[12]。實(shí)驗(yàn)正樣例選取的均為人工標(biāo)記的手勢(shì)區(qū)域的膚色似然圖,在選取正樣例的過(guò)程中可以先使用少量樣本訓(xùn)練一個(gè)線性SVM分類器,然后使用該分類器進(jìn)行樣本初篩,之后再人工調(diào)整。負(fù)樣例是在正樣例以外的區(qū)域中隨機(jī)選取。正負(fù)樣本均需要進(jìn)行歸一化處理,處理成為8×8的區(qū)域?!按翱谥怠北硎維VM系數(shù)矩陣和8×8的內(nèi)積?!按翱谥怠钡挠?jì)算過(guò)程如式(2)所示:

        s=〈w,x〉;w∈R8×8,x∈{0,1,…,255}8×8(2)

        其中:w為權(quán)值矩陣;x為膚色似然圖的像素值,如圖2(c)所示;s為滑動(dòng)窗口的“窗口值”。

        1.3BISL二進(jìn)制膚色似然特征

        為了加速滑動(dòng)窗口的計(jì)算,本文借鑒了文獻(xiàn)[8]中一般物體識(shí)別時(shí)用到的方法,使用64位整型表示8×8的二進(jìn)制矩陣,并且使用一些列的位運(yùn)算操作來(lái)實(shí)現(xiàn)加速[13-14]。二進(jìn)制膚色似然特征(Binary Skin LikeHood, BISL)特征,是將膚色似然特征使用多個(gè)64位整型表示之后形成的特征。

        1.3.1近似參數(shù)矩陣w

        線性模型矩陣w∈R8×8可以使用文獻(xiàn)[13]中的算法1對(duì)其進(jìn)行近似可得w≈∑Nwj=1βjaj。其中:Nw代表基向量的個(gè)數(shù);aj∈{-1,1}8×8代表基向量; βj∈R代表相應(yīng)基向量的系數(shù)。

        算法1使用二進(jìn)制方法近似w。

        程序前

        輸入:w,Nw。

        輸出:{βj}Nwj=1,{aj}Nwj=1。

        初始化殘差:ε=w

        for j=1 to Nw do

        aj=sign(ε)

        βj=〈aj,ε〉/‖aj‖2(將殘差ε映射到aj上)

        ε=ε-βjaj(更新殘差)

        end for

        程序后

        1.3.2處理輸入矩陣x

        本文截取x的高Nx位近似x(如圖3(a)),x可以由BISL特征表示成如下形式:

        x=∑Nxk=128-kbk(5)

        其中:x∈{0,1,…,255}8×8,bk∈{0,1}8×8。

        算法2對(duì)區(qū)域獲取BISL特征。

        參數(shù)含義:bx,y∈{0,1}8×8,rx,y∈{0,1}8,bx,y∈{0,1}。

        程序前

        輸入:膚色似然圖的二進(jìn)制值bW×H。

        輸出:BISL特征組成的矩陣bW×H。

        初始值:bW×H=0,rW×H=0

        for each position(x,y) in scanline order do

        rx,y=(rx-1,y<<1)|bx,y

        bx,y=(bx,y-1<<8)|rx,y

        end for

        程序后

        通常來(lái)說(shuō),獲取8×8的BISL特征需要遍歷64個(gè)位置。Cheng等[8]巧妙地利用了64位整型的特點(diǎn),在算法2中使用了“按位或”和“移位”操作避免了循環(huán)。首先BISL特征bx,y和它的最后一行rx,y分別使用一個(gè)INT64變量和一個(gè)byte變量存儲(chǔ)。然后相鄰的BISL特征有重復(fù)的部分,可以通過(guò)左移8位操作保留重復(fù)的部分并給不同的部分騰出空間,將騰出的這8位的空間與新的byte變量進(jìn)行“按位與”,就獲取了新的BISL特征。相鄰的byte變量的獲取過(guò)程與之類似。

        綜合式(4)和(5)可以得到由BISL特征和分類器參數(shù)計(jì)算出窗口值:

        s≈∑Nwj=1βj∑Nxk=1Cj,k(6)

        其中Cj,k=28-k(2〈a+j,bk,l〉-bk,l)。

        將窗口值topk的窗口作為候選窗口,進(jìn)行進(jìn)一步的識(shí)別。k的取值由實(shí)驗(yàn)環(huán)境確定,k越大,手勢(shì)檢測(cè)模型召回率越高,進(jìn)一步識(shí)別的時(shí)間復(fù)雜度也會(huì)增加。

        2使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)識(shí)別

        本章所提輸入是手勢(shì)檢測(cè)部分所得到的窗口值排名前k的候選窗口,這些窗口區(qū)域都是在上一步被判定為極有可能為手勢(shì)的區(qū)域,所以本章中需要使用更為復(fù)雜的特征和更強(qiáng)的分類模型來(lái)處理這個(gè)問(wèn)題。卷積神經(jīng)網(wǎng)絡(luò)和一般的神經(jīng)網(wǎng)絡(luò)相比,具有權(quán)值共享、局部感知等特點(diǎn)[15-16],充分地利用了輸入值的空間關(guān)系信息,并且容易使用硬件加速[9]。綜合考慮模型的分類能力、魯棒性以及識(shí)別效率等因素,本文使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)識(shí)別。

        2.1樣本、特征以及網(wǎng)絡(luò)結(jié)構(gòu)

        卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本是根據(jù)手勢(shì)檢測(cè)步驟中得到的窗口值topk 8×8窗口計(jì)算出來(lái)的。在確定窗口值topk 8×8窗口時(shí),記錄下這k個(gè)窗口在對(duì)應(yīng)的膚色似然圖中的坐標(biāo)。根據(jù)這個(gè)坐標(biāo)計(jì)算出原圖像所對(duì)應(yīng)的窗口坐標(biāo)。這個(gè)過(guò)程可以看作是根據(jù)圖2(c)中的8×8窗口位置來(lái)獲取圖2(a)中對(duì)應(yīng)尺度的窗口圖像位置,進(jìn)而獲得窗口圖像。在獲取窗口圖像后,本文將備選窗口圖像大小調(diào)整為29×29,然后計(jì)算它的膚色似然圖,得到29×29的膚色似然圖作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。卷積神經(jīng)網(wǎng)絡(luò)的特征選擇可以有很多,比如窗口的灰度圖、梯度特征、局部二進(jìn)制特征。選用29×29的膚色似然圖的原因是膚色似然圖在膚色檢測(cè)的過(guò)程中已經(jīng)計(jì)算過(guò)一遍,不需要再重復(fù)計(jì)算。訓(xùn)練樣本一共分為10類,6個(gè)備選手勢(shì)類,4個(gè)錯(cuò)誤類。這里設(shè)計(jì)4個(gè)錯(cuò)誤類的原因是因?yàn)樵谑謩?shì)區(qū)域提取的過(guò)程中,被錯(cuò)分成手勢(shì)區(qū)域的候選框是有著明顯的特點(diǎn)的。主要的幾類情況是識(shí)別到手勢(shì)邊緣,識(shí)別到手勢(shì)中心,識(shí)別到非手勢(shì)區(qū)域,可以參考圖2(b)的情形。在網(wǎng)絡(luò)設(shè)計(jì)的時(shí)候需要重點(diǎn)關(guān)注這些錯(cuò)誤的情形,實(shí)驗(yàn)發(fā)現(xiàn),將所有的錯(cuò)誤情形視為1類的模型識(shí)別率要低于將錯(cuò)誤情形分成4類的模型。將錯(cuò)誤情形分為4類的卷積神經(jīng)網(wǎng)絡(luò)一共有10個(gè)輸出節(jié)點(diǎn),其中6個(gè)代表6種不同的手勢(shì),另外4個(gè)代表4類典型的錯(cuò)誤。需要注意的是,在計(jì)算模型準(zhǔn)確率的時(shí)候并不將4類錯(cuò)誤加以區(qū)分。假定4類錯(cuò)誤分別為錯(cuò)誤1、錯(cuò)誤2、錯(cuò)誤3、錯(cuò)誤4,將錯(cuò)誤1識(shí)別成了錯(cuò)誤2,仍然認(rèn)為模型判斷正確。

        為了使樣本具有平移和小幅度旋轉(zhuǎn)的魯棒性,對(duì)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本進(jìn)行了一些平移和旋轉(zhuǎn)上的擴(kuò)展??紤]到手勢(shì)與手寫(xiě)字符的區(qū)別,本文并沒(méi)有進(jìn)行彈性形變擴(kuò)展。整個(gè)卷積網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示。

        本文參照文獻(xiàn)[15]中提到的方法來(lái)設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)包含兩個(gè)卷積層:第1層用來(lái)提取一些類似于邊緣、角點(diǎn)、交線的底層圖像特征;第2個(gè)卷積層以這些特征為基礎(chǔ)生成更加復(fù)雜的特征。兩個(gè)下采樣層均按照2×2的因子進(jìn)行最大池化,卷積核的大小定為5×5,第1個(gè)卷積層有5個(gè)卷積核,第2個(gè)卷積層有10個(gè)卷積核。光柵化之后采用兩層全相連多層感知機(jī)結(jié)構(gòu),隱層單元數(shù)量設(shè)定為100個(gè),最后針對(duì)多分類問(wèn)題,使用softmax設(shè)置10個(gè)輸出節(jié)點(diǎn)。

        2.2卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算過(guò)程

        本文使用的卷積神經(jīng)網(wǎng)絡(luò)主要參照文獻(xiàn)[17]中提到的算法實(shí)現(xiàn)。下面主要針對(duì)卷積層和下采樣層的正向計(jì)算和反向傳播計(jì)算進(jìn)行討論。

        2.2.1正向計(jì)算

        2.2.2反向傳播

        3實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)平臺(tái)為Intel Core i74702MQ 2.2GHz, 4GB RAM, NVIDIA GeForce GTX 760M。CPU支持POPCNT命令,顯卡支持CUDA平臺(tái),操作系統(tǒng)為Windows 8 Pro 64位。

        3.1手勢(shì)檢測(cè)部分

        手勢(shì)檢測(cè)部分所采用的數(shù)據(jù)集是Sebastien Marcel Static Hand Posture Database數(shù)據(jù)集,數(shù)據(jù)集包含10個(gè)人的6種手勢(shì)(a,b,c,point,five,v)(A,B,C,Point(P),F(xiàn)ive(F),V),總共接近5000個(gè)樣本(如圖5)。

        實(shí)驗(yàn)對(duì)簡(jiǎn)單環(huán)境和復(fù)雜環(huán)境分別取100張測(cè)試圖片進(jìn)行測(cè)試(如圖6)。在實(shí)驗(yàn)中發(fā)現(xiàn),在簡(jiǎn)單環(huán)境下,直接獲取“窗口值”最大的窗口作為備選區(qū)域即可。在光照變化和背景復(fù)雜的情況下,“窗口值”大小前4的窗口已經(jīng)可以覆蓋所有的實(shí)際手勢(shì)區(qū)域,即達(dá)到100%的召回率(如表1)。

        實(shí)驗(yàn)對(duì)比了基于滑動(dòng)窗口方法實(shí)現(xiàn)手勢(shì)檢測(cè)、多模板匹配外加人臉排除以及本文的手勢(shì)檢測(cè)方法的運(yùn)算速度。在3種不同尺寸的樣本中分別取1000張測(cè)試圖片進(jìn)行測(cè)試,結(jié)果如表2所示。

        3.2手勢(shì)識(shí)別部分

        手勢(shì)識(shí)別部分的樣本來(lái)源于手勢(shì)檢測(cè)部分的結(jié)果。數(shù)據(jù)一共分為10類,除了6個(gè)手勢(shì)類之外,還設(shè)定4個(gè)錯(cuò)誤類。4類錯(cuò)誤分別命名為E1、E2、E3、E4。其中:E1代表識(shí)別到手勢(shì)中心;E2代表識(shí)別到手勢(shì)邊緣;E3代表識(shí)別到非手勢(shì)干擾區(qū);E4代表除E3之外的弱干擾區(qū),如圖7所示。

        因?yàn)?0類的訓(xùn)練樣本數(shù)量有一定的差異。其中最多的手勢(shì)Point有1395個(gè)樣本,最少的V有435個(gè)樣本。錯(cuò)誤類樣本中總量為1216個(gè),其中E1 178個(gè),E2 81個(gè),E3 943,E4 14個(gè),這個(gè)具體數(shù)量與手勢(shì)檢測(cè)所設(shè)定的備選窗口數(shù)量有關(guān)以及選擇的輸入圖片有關(guān),可以調(diào)整,本文實(shí)驗(yàn)中備選窗口數(shù)量設(shè)為4,輸入圖片中背景復(fù)雜的一共有473張。在樣本不平衡的情況下所訓(xùn)練出卷積神經(jīng)網(wǎng)絡(luò)模型測(cè)試準(zhǔn)確率為93%左右。對(duì)樣本進(jìn)行抽樣和擴(kuò)展,擴(kuò)展方法如下。

        1)對(duì)于6個(gè)手勢(shì)類,在每個(gè)類的訓(xùn)練集中隨機(jī)抽取350張樣本,對(duì)抽取的圖片在隨機(jī)方向上進(jìn)行1到2個(gè)像素的平移得到另外350個(gè)樣本,每一類總共會(huì)得到700個(gè)樣本。

        2)對(duì)于錯(cuò)誤類E1,首先對(duì)訓(xùn)練集進(jìn)行4次隨機(jī)方向上1到2個(gè)像素的平移,每一次都會(huì)得到一個(gè)新的訓(xùn)練樣本,最后進(jìn)行隨機(jī)抽樣,每類選擇700個(gè)樣本。

        3)對(duì)于錯(cuò)誤類E2,首先對(duì)訓(xùn)練集進(jìn)行10次隨機(jī)方向上1到2個(gè)像素的平移,每一次都會(huì)得到一個(gè)新的訓(xùn)練樣本,最后進(jìn)行隨機(jī)抽樣,每類選擇700個(gè)樣本。

        4)對(duì)于錯(cuò)誤類E3,直接進(jìn)行隨機(jī)抽樣,每類選擇700個(gè)樣本。

        5)對(duì)于錯(cuò)誤類E4,將樣本復(fù)制50次,獲取700個(gè)樣本。

        擴(kuò)展后的訓(xùn)練集有6000張訓(xùn)練樣本,測(cè)試集有1000個(gè)樣本。手勢(shì)識(shí)別的結(jié)果如表3所示,在手勢(shì)識(shí)別部分修正后的準(zhǔn)確率為96.1%,空格部分代表0,4個(gè)錯(cuò)誤類準(zhǔn)確率計(jì)算方式在2.1節(jié)有說(shuō)明。

        圖8對(duì)比了本文算法和其他算法的性能,當(dāng)訓(xùn)練樣本大于100時(shí),本文算法和特征包算法的準(zhǔn)確率相近。算法的運(yùn)行效率明顯高于特征包(Bag of Features, BoF)算法,如表4所示,平均識(shí)別時(shí)間表示的是手勢(shì)識(shí)別算法對(duì)單一“窗口”圖像的計(jì)算時(shí)間,整體計(jì)算時(shí)間包含了手勢(shì)檢測(cè)和手勢(shì)識(shí)別兩個(gè)部分以及一些預(yù)處理環(huán)節(jié),基于特征包的兩類算法對(duì)應(yīng)的手勢(shì)檢測(cè)方法采用的是對(duì)模板匹配和人臉排除,本文的算法是采用位運(yùn)算支持向量機(jī)和CUDA卷積神經(jīng)網(wǎng)絡(luò)。CUDA卷積神經(jīng)網(wǎng)絡(luò)處理29×29大小的圖片用時(shí)約為0.001s。手勢(shì)識(shí)別過(guò)程中,因?yàn)榉指钏惴ㄇ蟮玫氖?個(gè)備選窗口,所以識(shí)別過(guò)程中需要識(shí)別4個(gè)窗口,對(duì)一幅輸入圖像而言手勢(shì)檢測(cè)和識(shí)別總用時(shí)約為0.013s。

        實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠在光照變化、背景復(fù)雜的情況下依然保持高準(zhǔn)確率和良好的運(yùn)算效率。

        4結(jié)語(yǔ)

        本文提出了一種新型的手勢(shì)識(shí)別方法,與傳統(tǒng)的手勢(shì)識(shí)別方法相比,本文方法利用位運(yùn)算代替滑動(dòng)窗口,在數(shù)微秒的時(shí)間內(nèi)將備選窗口數(shù)量由千萬(wàn)級(jí)別縮減到個(gè)位數(shù)。獲取備選區(qū)域之后使用基于CUDA的卷積神經(jīng)網(wǎng)絡(luò)對(duì)備選區(qū)域進(jìn)行細(xì)分和識(shí)別。在實(shí)際的計(jì)算過(guò)程中可以通過(guò)硬件優(yōu)化得到100至1000倍的加速比。本文方法僅僅通過(guò)膚色似然特征就在Marcel數(shù)據(jù)集上得到了96%左右的準(zhǔn)確率。本文提出的方法主要解決了魯棒性和計(jì)算復(fù)雜度的矛盾,并且方法所使用的特征可以使用其他的特征替換,這使得模型具有良好的可擴(kuò)展性。

        本文方法的局限性主要體現(xiàn)在對(duì)特征提取的召回率有要求,如果完全沒(méi)辦法提取到特征,本文的方法會(huì)失效。另外,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練耗時(shí)長(zhǎng),網(wǎng)絡(luò)設(shè)計(jì)依賴經(jīng)驗(yàn),在更加復(fù)雜的分類上,卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的設(shè)計(jì)也會(huì)更加困難。

        參考文獻(xiàn):

        [1]

        談家譜,徐文勝.基于Kinect的指尖檢測(cè)與手勢(shì)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2015,35(6):1795-1800.(TAN J P, XU W S. Fingertip detection and gesture recognition method based on Kinect [J]. Journal of Computer Applications, 2015, 35(6): 1795-1800.)

        [2]

        NEWCOMBE R A, IZADI S, HILLIGES O, et al. KinectFusion: realtime dense surface mapping and tracking [C]// Proceedings of the 2011 IEEE International Symposium on Mixed and Augmented Reality. Washington, DC: IEEE Computer Society, 2011: 127-136.

        [3]

        譚同德,郭志敏.基于雙目視覺(jué)的人手定位與手勢(shì)識(shí)別系統(tǒng)研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(1):259-264.(TAN T D, GUO Z M. Research on location and gesture recognition of hand based on binocular stereovision [J]. Computer Engineering and Design, 2012 33(1): 259-264.)

        [4]

        WACHS J P, KLSCH M, STERN H, et al. Visionbased handgesture applications [J] Communications of the ACM, 2011, 54(2): 60-70.

        [5]

        SAMUEL D, RATHI Y, A. TANNENBAUM A. A framework for image segmentation using shape models and kernel space shape priors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(8): 1385-1399.

        [6]

        DARDAS N H, GEORGANAS N D. Realtime hand gesture detection and recognition using bagoffeatures and support vector machine techniques [J]. IEEE Transactions on Instrumentation & Measurement, 2011, 60(11): 3592-3607.

        [7]

        BELONGIE S, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509-522.

        [8]

        CHENG M M, ZHANG Z M, LIN W Y. BING: binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 3286-3293.

        [9]

        STRIGL, KOFLER K, PODLIPNIG S. Performance and scalability of GPUbased convolutional neural networks [C]// Proceedings of the 2010 18th Euromicro Conference on Parallel, Distributed and Networkbased Processing. Piscataway, NJ: IEEE, 2010: 317-324.

        [10]

        BOJIC N, PANG K. Adaptive skin segmentation for head and shoulder video sequences [C]// Visual Communications and Image Processing 2000. Bellingham, WA: SPIE, 2000: 704-711.

        [11]

        KOVAC J, PEER P, SOLINA F. Human skin color clustering for face detection [C]// IEEE Region 8 EUROCON 2003. Computer as a Tool. Piscataway, NJ: IEEE, 2003, 2: 144-148.

        [12]

        FAN R E, CHANG K W, HSIEH C J, et al. Liblinear: a library for large linear classification [J]. Journal of Machine Learning Research, 2008, 9(12): 1871-1874.

        [13]

        HARE S, SAFFARI A, TORR P H S. Efficient online structured output learning for keypointbased object tracking [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1894-1901.

        [14]

        ZHENG S, STURGESS P, TORR P H S. Approximate structured output learning for constrained local models with application to realtime facial feature detection and tracking on lowpower devices [C]// Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE, 2013: 1-8.

        [15]

        SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition. Washington, DC: IEEE Computer Society, 2003: 958-963.

        [16]

        LECUN Y, BOSER B, DENKER J S, et al. Handwritten digit recognition with a backpropagation network [M]// Advances in Neural Information Processing Systems 2. San Francisco: Morgan Kaufmann, 1990: 396-404.

        [17]

        CIRESAN D C, MEIER U, MASCI J, et al. Flexible, high performance convolutional neural networks for image classification [C]// IJCAI11: Proceedings of the TwentySecond International Joint Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2011: 1237-1242.

        猜你喜歡
        特征區(qū)域方法
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        關(guān)于四色猜想
        分區(qū)域
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚(yú)
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        深夜福利国产精品中文字幕| 日本午夜精品理论片A级APP发布| 中文乱码字幕高清在线观看| 日本av第一区第二区| 久久亚洲道色综合久久| 亚洲精品乱码久久久久久金桔影视 | 免费a级毛片无码a∨免费| 国产精品自拍视频在线| 国产免码va在线观看免费| 丰满人妻被中出中文字幕| 亚洲午夜看片无码| 隔壁的日本人妻bd高清中字| 永久天堂网av手机版| 亚洲国产精品sss在线观看av| 欧美精品日韩一区二区三区| 日本中文字幕有码在线播放| 99久久99久久久精品齐齐| 久久婷婷香蕉热狠狠综合| 亚洲xx视频| 中文字幕一区二区av| 国产精品泄火熟女| 激情综合欧美| 一区二区三区精品偷拍av| 人妻少妇被猛烈进入中文字幕| 国产中文欧美日韩在线| 久久福利青草精品资源| 精品不卡视频在线网址| 无码a级毛片免费视频内谢| 国产午夜福利短视频| 日本啪啪一区二区三区| 国产熟女精品一区二区三区| 亚洲综合小综合中文字幕| (无码视频)在线观看| 狠狠躁夜夜躁无码中文字幕| 久久av一区二区三区下| 一道本久久综合久久鬼色| 少妇下蹲露大唇无遮挡| 久久精品爱国产免费久久| 国产一区二区三区四区在线视频 | 久久97久久97精品免视看| 国产精品女同一区二区|