亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別算法設(shè)計與實(shí)現(xiàn)

        2017-11-02 01:24:53孫旭飛吳一鵬
        關(guān)鍵詞:特征模型

        張 斌,孫旭飛,吳一鵬

        (福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)

        基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別算法設(shè)計與實(shí)現(xiàn)

        張 斌,孫旭飛,吳一鵬

        (福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)

        為了克服傳統(tǒng)手勢識別方法復(fù)雜的人工提取特征值操作,引入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢識別,該算法可以直接對原始圖像進(jìn)行處理,具有局部感知域、權(quán)值共享和池化等特點(diǎn),可以有效提取圖像特征。使用Marcel手勢識別數(shù)據(jù)集對框架進(jìn)行訓(xùn)練,采用交叉驗(yàn)證的方法對系統(tǒng)進(jìn)行評估,實(shí)驗(yàn)結(jié)果表明該方法可以識別經(jīng)過訓(xùn)練的手勢,且精確度高,魯棒性強(qiáng)。

        卷積神經(jīng)網(wǎng)絡(luò);局部感受域;權(quán)值共享;池化;手勢識別

        0 引言

        近年來,人機(jī)交互行為越來越多地出現(xiàn)在日常生活中,特別是隨著計算機(jī)視覺技術(shù)的快速發(fā)展,人機(jī)交互技術(shù)得到長足的進(jìn)步。按照目前的發(fā)展趨勢,以人為中心的人機(jī)交互技術(shù)勢必會取代以計算機(jī)為中心的人機(jī)交互技術(shù)[1]。而手勢識別的研究正符合這一潮流。手勢識別為許多設(shè)備提供了人機(jī)交互的方式。采用手勢操作設(shè)備,首先需要預(yù)設(shè)手勢對應(yīng)的控制指令,然后利用拍照、視頻切割等方法,采集不同的手勢,最后設(shè)備識別出手勢所代表的指令,控制設(shè)備從而達(dá)到人機(jī)交互[2]。傳統(tǒng)的手勢識別方法[3-4]需要人工提取特征值,這是一個費(fèi)時費(fèi)力的方法,為了達(dá)到更好的精度需要提取大量的特征值,甚至需要依賴專業(yè)知識,因此特征值的數(shù)量和質(zhì)量成為了傳統(tǒng)手勢識別方法的瓶頸。為了突破該瓶頸,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別算法。

        卷積神經(jīng)網(wǎng)絡(luò)是一種常見的深度學(xué)習(xí)架構(gòu),受生物自然視覺認(rèn)知機(jī)制啟發(fā)而來,經(jīng)過不斷的發(fā)展改進(jìn),最終發(fā)展成為一個非常適合用于處理圖像和音頻的神經(jīng)網(wǎng)絡(luò)[5]。由于卷積神經(jīng)網(wǎng)絡(luò)可直接從原始圖像數(shù)據(jù)中提取特征的特性,目前它的運(yùn)用領(lǐng)域已經(jīng)十分廣泛,比如手寫字符識別、人臉識別、人眼檢測[6]、車牌字符識別[7]。

        1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一種,它的結(jié)構(gòu)與之前其他神經(jīng)網(wǎng)絡(luò)最大的不同在于它每一層的數(shù)據(jù)不是由若干個向量節(jié)點(diǎn)構(gòu)成,而是由若干個矩陣數(shù)據(jù)節(jié)點(diǎn)構(gòu)成。在計算時采用的是矩陣卷積的形式,所以命名為卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)主要用于識別位移、縮放及旋轉(zhuǎn)不變性的二維數(shù)據(jù)[8],且它的局部感知特性和權(quán)值共享網(wǎng)絡(luò)與現(xiàn)實(shí)世界中的動物神經(jīng)網(wǎng)絡(luò)相似,因此它在圖像處理和音頻識別等方面有特殊的優(yōu)勢[9-10]。

        1.1 網(wǎng)絡(luò)特征

        卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)主要包括兩部分:特征提取層和特征映射層。特征提取層中的每個輸入與前一層輸出的局部接受域相連,以提取該局部的特征,并且該特征與其他特征的相對位置關(guān)系也隨之確定;特征映射層中每個特征映射為一個平面,上面的權(quán)值全部相等,多個特征映射組成一個計算層。因?yàn)樵搶又忻總€映射平面內(nèi)權(quán)值共享,使得網(wǎng)絡(luò)中的參數(shù)個數(shù)大量減少。

        特征提取層中主要部分為卷積層和池化層,網(wǎng)絡(luò)中的每一個卷積層都緊跟著一個池化層,對特征進(jìn)行二次提取,這種特殊的提取結(jié)構(gòu)減小了特征數(shù)量維度,降低了計算量。

        卷積層是對輸入進(jìn)行卷積運(yùn)算。卷積運(yùn)算的本質(zhì)是一個卷積核(特征矩陣)在輸入的圖像矩陣上按照一定的規(guī)則移動,并與圖像矩陣上對應(yīng)位置的元素相乘后結(jié)果相加得到的一個值。當(dāng)卷積核移動完畢時,就得到新的圖像矩陣,新矩陣就是上一層圖像矩陣的特征,其數(shù)學(xué)表達(dá)式如式(1)所示:

        (1)

        (2)

        池化層也稱下采樣層,其目的是減少特征映射的數(shù)量,對特征進(jìn)行降維操作,因?yàn)樵谟嬎懔糠浅4蟮臅r候,要形成一個特征輸入過多的分類器十分不易。并且通過降維能過濾掉帶噪聲的特性,減少了運(yùn)算復(fù)雜度,增強(qiáng)有效的圖像識別特征。池化層一般的形式如式(3)所示:

        (3)

        其中,down()表示池化函數(shù),一般有最大池化、平均池化等,本文使用最大池化函數(shù)。它是對該層輸入圖像的一個n×n矩陣大小的區(qū)域求最大值。式中β為加權(quán)系數(shù),b為偏置系數(shù)。

        1.2 基于卷積神經(jīng)網(wǎng)絡(luò)的算法結(jié)構(gòu)設(shè)計

        本文采用8層結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),包括輸入層、2層卷積層(C)、2層抽樣層(S)、2層全連接層(F)和輸出層,如圖1所示。

        圖1 手勢識別網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        卷積神經(jīng)網(wǎng)絡(luò)模型的輸入層直接讀取原始圖像,并將圖片按固定數(shù)量隨機(jī)打亂順序封裝成批輸入,防止讀入的一批圖片都是同一手勢,保證每次訓(xùn)練能包含多數(shù)手勢。C1層與C3層為卷積層,作用是對上一層的輸出結(jié)果進(jìn)行卷積得出圖像的特征矩陣,本文是用5×5的卷積核對輸入圖像抽取特征,生成特征圖。S1層與S2層為池化層,對卷積層的輸出進(jìn)行子采樣,池化窗口大小為3×3。F1層與F2層是全連接層,該層的每個神經(jīng)元與上一層所有輸出神經(jīng)元相連接。最終由F2層把特征數(shù)據(jù)向量化并連接到輸出層。輸出層是一個分類器,該層的神經(jīng)元數(shù)量由識別的種類確定,本文有6類手勢用于識別,因此有6個神經(jīng)元。輸出層采用Softmax回歸模型,該模型是一個將目標(biāo)變量分為K類的算法,建模使用的分布是多項(xiàng)式分布。Softmax模型可以將F2層傳過來的特征值經(jīng)過計算轉(zhuǎn)換成相應(yīng)的概率。

        1.3 卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練

        本文的模型是一個串聯(lián)結(jié)構(gòu),根據(jù)圖1的結(jié)構(gòu),每一層的輸入為上一層的輸出。模型訓(xùn)練是一個迭代的過程,將圖像數(shù)據(jù)封裝成批,分批輸入模型,優(yōu)化模型參數(shù)。本文使用的優(yōu)化策略是隨機(jī)梯度下降算法。衡量優(yōu)化效果的標(biāo)準(zhǔn)是損失函數(shù)的解,損失函數(shù)是一種衡量預(yù)測值與真實(shí)值之間的相關(guān)程度的函數(shù),目標(biāo)是求每個批次中所有樣本的平均損失。因此合適大小的批次對模型的優(yōu)化程度和速度有一定的提高。本文選用交叉熵函數(shù)作為模型的損失函數(shù)。交叉熵函數(shù)起初常用在信息壓縮編碼技術(shù)中,目前已經(jīng)發(fā)展成為深度學(xué)習(xí)領(lǐng)域中的重要技術(shù)。它的定義如式(4)所示,式中y是預(yù)測的概率分布,y′是實(shí)際的分布。交叉熵用于衡量預(yù)測與真實(shí)之間的差距性,該值越小說明預(yù)測與真實(shí)越相似。

        (4)

        本文使用隨機(jī)梯度下降優(yōu)化算法降低損失函數(shù)的解。梯度下降是在每次迭代中對每個變量,按照損失函數(shù)在該變量當(dāng)前點(diǎn)負(fù)梯度方向前進(jìn)一定步長,更新對應(yīng)的參數(shù)值,以達(dá)到最小化損失函數(shù)。這里的步長就是學(xué)習(xí)率,它是優(yōu)化算法中的一個重要參數(shù),它的初始值對算法有很大的影響,過大可能導(dǎo)致無法優(yōu)化,太小有可能會導(dǎo)致函數(shù)得到的是局部最優(yōu)。

        學(xué)習(xí)率在訓(xùn)練過程中呈指數(shù)形式衰減,學(xué)習(xí)率的衰減函數(shù)如式(5)所示。公式中y為新的學(xué)習(xí)率,x為當(dāng)前學(xué)習(xí)率,dr為學(xué)習(xí)率的衰減因子,s為當(dāng)前訓(xùn)練步數(shù),ds為衰減寬帶,控制衰減周期。學(xué)習(xí)率的衰減可以加快算法的收斂速度。

        (5)

        2 實(shí)驗(yàn)過程及結(jié)果分析

        本文的手勢識別算法是基于Python語言和TensorFlow深度學(xué)習(xí)框架開發(fā)的,采用類似LeNet5的CNN模型框架[6]。TensorFlow是Google公司發(fā)布的第二代機(jī)器學(xué)習(xí)系統(tǒng),它采用數(shù)據(jù)流圖的形式構(gòu)建網(wǎng)絡(luò)模型,具有很強(qiáng)的數(shù)值計算能力和高度的靈活性,并且提供了大量神經(jīng)網(wǎng)絡(luò)的接口,簡化構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型的代碼任務(wù)。本文使用的數(shù)據(jù)庫是Marcel手勢數(shù)據(jù)庫,該庫包含6類手勢圖片,其中訓(xùn)練集有4 872張圖片,測試集有1 057張圖片。

        2.1 圖像的預(yù)處理

        卷積神經(jīng)網(wǎng)絡(luò)可以直接對原始圖像進(jìn)行處理分析,本文隨機(jī)對數(shù)據(jù)集中的圖片進(jìn)行翻轉(zhuǎn)、亮度調(diào)節(jié)、對比度更改等操作,加入噪聲可防止模型過擬合。這樣可以擴(kuò)大樣本集,充分訓(xùn)練模型參數(shù),提高模型的準(zhǔn)確率。

        2.2 實(shí)驗(yàn)結(jié)果分析

        本算法利用TensorFlow提供的可視化系統(tǒng)監(jiān)控卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,跟蹤模型中重要參數(shù)在訓(xùn)練過程中的變化趨勢。圖2與圖3是實(shí)驗(yàn)輸出的圖表,其中圖2是學(xué)習(xí)率的變化趨勢,它的橫坐標(biāo)為當(dāng)前訓(xùn)練的步數(shù),縱坐標(biāo)為學(xué)習(xí)率的值。由圖可知學(xué)習(xí)率是衰減的。圖3是訓(xùn)練過程中總體的loss值,它是損失函數(shù)的解,loss值總體趨勢降低表明訓(xùn)練的效果越來越好。

        圖2 學(xué)習(xí)率變化趨勢

        圖3 loss值變化趨勢

        模型訓(xùn)練完成后,利用測試集評估模型,可以得出該模型對手勢的識別率。手勢識別總體測試結(jié)果如表1所示,可以看出對Marcel手勢數(shù)據(jù)庫的平均識別率達(dá)88.7%,說明該模型對手勢的識別率高。由表中克制手勢C識別率較其他手勢識別率低,分析訓(xùn)練集發(fā)現(xiàn)手勢C展示的是手的側(cè)面,背景占據(jù)圖片過多影響手勢識別準(zhǔn)確率。

        表1 手勢識別結(jié)

        3 結(jié)論

        本文引入卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)手勢識別算法,通過對樣本數(shù)據(jù)學(xué)習(xí)訓(xùn)練,獲得圖像的特征矩陣,避免了傳統(tǒng)手勢識別方法復(fù)雜的人工提取特征值等操作所可能導(dǎo)致的圖像信息的丟失,特征提取不完整等缺點(diǎn)??偨Y(jié)了卷積神經(jīng)網(wǎng)絡(luò)在圖像處理中的優(yōu)點(diǎn):可以直接對原始圖像進(jìn)行處理;局部感知域和權(quán)值共享減少了參數(shù)空間,降低了算法的復(fù)雜度;池化技術(shù)增強(qiáng)了卷積網(wǎng)絡(luò)的魯棒性,避免了圖片畸變導(dǎo)致識別錯誤。本文通過設(shè)計模型,并對模型進(jìn)行實(shí)驗(yàn),驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)手勢識別算法的精確性和魯棒性。為了提高識別的準(zhǔn)確率,下一步應(yīng)該進(jìn)一步優(yōu)化模型的網(wǎng)絡(luò)結(jié)構(gòu),尋找手勢識別最優(yōu)的卷積神經(jīng)網(wǎng)絡(luò)模型。

        [1] 吳杰.基于深度學(xué)習(xí)的手勢識別研究[D].成都:電子科技大學(xué),2015.

        [2] 杜曉川.基于視覺的動態(tài)手勢識別相關(guān)技術(shù)研究及實(shí)現(xiàn)[D]. 成都:電子科技大學(xué), 2012.

        [3] 徐鵬, 薄華. 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識別[J]. 微型機(jī)與應(yīng)用, 2015, 34(12):45-47.

        [4] 鄧柳,汪子杰.基于深度卷積神經(jīng)網(wǎng)絡(luò)的車型識別研究[J]. 計算機(jī)應(yīng)用研究, 2016, 33(3):930-932.

        [5] 王振, 高茂庭. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別算法設(shè)計與實(shí)現(xiàn)[J]. 現(xiàn)代計算機(jī)(普及版), 2015(7):61-66.

        [6] TIVIVE F H C, BOUZERDOWN A. An eye feature detector based on convolutional neural network[C].Eighth International Symposium on Signal Processing and ITS Applications. IEEE, 2005:90-93.

        [7] 趙志宏,楊紹普,馬增強(qiáng).基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識別研究[J].天津:系統(tǒng)仿真學(xué)報,2010, 22(3):638-641.

        [8] 王強(qiáng).基于CNN的字符識別方法研究[D].天津:天津師范大學(xué),2014.

        [9] AN D C, MEIER U, MASCI J, et al. Flexible, high performance convolutional neural networks for image classification[C].IJCAI 2011, Proceedings of the International Joint Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July. DBLP, 2011:1237-1242.

        [10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc., 2012:1097-1105.

        Design and implementation of gesture recognition algorithm based on convolution neural network

        Zhang Bin, Sun Xufei, Wu Yipeng

        (College of Physics and Information Engineering, Fuzhou University, Fuzhou 350108, China)

        In order to overcome the traditional gesture recognition method of complex artificial extraction of characteristic value, this paper introduces the convolution neural network into gesture recognition. The algorithm can deal with the original gesture image directly, and has local receptive fields, shared weights and pooling and so on ,which can effectively extract the image features. In this paper, the Marcel gesture recognition dataset is used to train the framework. The cross validation method is used to evaluate the system. The experimental results show that the method can identify trained gestures with high accuracy and robustness.

        convolutional neural network; local receptive fields; shared weights; pooling; gesture recognition

        TP391.9

        A

        10.19358/j.issn.1674- 7720.2017.20.015

        張斌,孫旭飛,吳一鵬.基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別算法設(shè)計與實(shí)現(xiàn)[J].微型機(jī)與應(yīng)用,2017,36(20):51-53.

        2017-03-31)

        張斌(1992-),通信作者,男,在讀碩士研究生,主要研究方向:智能交通、嵌入式系統(tǒng)。E-mail:308009849@qq.com。

        孫旭飛(1961-),男,碩士,副教授,主要研究方向:嵌入式系統(tǒng)、智能交通技術(shù)、電力線擴(kuò)頻載波技術(shù)。

        吳一鵬(1991-),男,在讀碩士研究生,主要研究方向:智能交通、嵌入式系統(tǒng)。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        在线播放草猛免费视频| 永久无码在线观看| 欧美手机在线视频| 看一区二区日本视频免费| 欧美日韩在线视频| 成人三级a视频在线观看| 亚洲视频1区| 国产美女主播福利一区| 亚洲熟女少妇精品综合| 久久久国产乱子伦精品作者| 亚洲中文字幕无码中字| 中文字幕亚洲精品码专区| 亚洲中文字幕高清av| 国产综合精品| 亚洲av理论在线电影网| 中文字幕精品亚洲无线码二区| 天堂免费av在线播放| 正在播放老肥熟妇露脸| 人与嘼av免费| 日韩精品一区二区三区在线观看的| 一区二区三区日本伦理| 中文人妻熟妇乱又伦精品| 国产欧美日韩综合在线一区二区| 精品日产一区2区三区| 国产情侣自拍在线视频 | 和外国人做人爱视频| 国产精品主播视频| 国产精品高清一区二区三区人妖| 人妻夜夜爽天天爽三区丁香花| 美女又色又爽视频免费| 久久久国产精品免费无卡顿| 久久婷婷综合激情亚洲狠狠| 亚洲理论电影在线观看| 国产精品成人av在线观看 | 国产一级做a爱免费观看| 日本最新一区二区三区视频| 国产精品国产三级第一集 | 一区二区三区国产视频在线观看| 国产美女主播视频一二三区 | 极品美女扒开粉嫩小泬图片| 少妇spa推油被扣高潮|