亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于嵌網(wǎng)融合結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)手勢(shì)圖像識(shí)別方法*

        2020-01-03 06:50:52馮翔吳瀚司冰靈季超
        生物醫(yī)學(xué)工程研究 2019年4期
        關(guān)鍵詞:池化金字塔手勢(shì)

        馮翔,吳瀚,司冰靈,季超

        (濰坊醫(yī)學(xué)院 生物科學(xué)與技術(shù)學(xué)院,濰坊 261000)

        1 引 言

        手勢(shì)較其它語言、文字更形象,在聾啞人交流、肢體信號(hào)表達(dá)、智能人機(jī)交互等場(chǎng)合得到廣泛應(yīng)用[1-2]。其中,基于手勢(shì)圖像的人機(jī)交互成為國內(nèi)外人工智能領(lǐng)域研究的熱點(diǎn),在遠(yuǎn)程手術(shù)操作、復(fù)雜環(huán)境無人化作業(yè)、智能家居等場(chǎng)合蘊(yùn)藏著巨大商業(yè)前景[3-4]。但手勢(shì)變化的多樣性、復(fù)雜性對(duì)識(shí)別精確性、可靠性均產(chǎn)生不利影響,成為限制該技術(shù)推廣的焦點(diǎn)、難點(diǎn)[5-7]。

        特征提取是影響手勢(shì)識(shí)別準(zhǔn)確率、穩(wěn)健性的關(guān)鍵因素。楊全等[7]重點(diǎn)分析手勢(shì)主軸方向角及質(zhì)心位置關(guān)系,利用深度積分圖像提取其特征并結(jié)合支持向量機(jī)算法識(shí)別。該思路計(jì)算量大且對(duì)于模糊失焦圖像失效。Ren等[8]采用閾值分解及近似凸分解思路分割手指區(qū)域,利用指尖相對(duì)距離進(jìn)行匹配識(shí)別,但閾值及匹配參數(shù)的設(shè)定往往需先驗(yàn)知識(shí),導(dǎo)致可靠性較差。Lai等[9]提出基于指尖輪廓分段匹配的識(shí)別框架,但僅依靠指尖特征忽視了手掌對(duì)于特定手勢(shì)的表達(dá)性。另外,王景中等[10]通過圖像差分、連通域檢測(cè)等獲取完整手型輪廓并采用局部二進(jìn)制變換、主成分分析提取特征。上述思路多采用人工設(shè)定特征,忽視了特征的多樣性、內(nèi)在聯(lián)系性。卷積神經(jīng)網(wǎng)絡(luò)方法擺脫人工特征設(shè)定的局限性,采用非監(jiān)督式特征選定與挖掘思路獲取信息,成為當(dāng)前深度學(xué)習(xí)領(lǐng)域的重要手段。梁智杰等[11]采用卷積神經(jīng)網(wǎng)絡(luò)及長短時(shí)記憶模型來處理特征信息;Barbu等[12]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)算法來構(gòu)造特征提取與識(shí)別框架;Kim等[13]基于雷達(dá)手勢(shì)成像的微多普勒特征,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。上述卷積網(wǎng)絡(luò)架構(gòu)多采用傳統(tǒng)模型,對(duì)標(biāo)準(zhǔn)數(shù)據(jù)集測(cè)試效果較好,但對(duì)自建數(shù)據(jù)集存在泛化能力差、挖掘能力弱、識(shí)別準(zhǔn)確率低等問題。

        本研究基于LeNet-5網(wǎng)絡(luò)架構(gòu)及信息融合思想提出新的嵌網(wǎng)融合-卷積識(shí)別網(wǎng)絡(luò)結(jié)構(gòu),以多層感知器替換傳統(tǒng)線性卷積核來構(gòu)造特征提取框架,并級(jí)聯(lián)Inception模型,同時(shí)將金字塔采樣機(jī)制引入池化層以替換常規(guī)采樣機(jī)制,利用金字塔多尺度融合策略來拼接不同維度的特征,將融合特征傳輸給全連接層,最后在全連接層中引入Hinge loss函數(shù)的支持向量機(jī)思路[12]進(jìn)行識(shí)別。實(shí)驗(yàn)仿真中,將所提網(wǎng)絡(luò)在MNIST集及自建手勢(shì)集進(jìn)行驗(yàn)證,準(zhǔn)確率最高可達(dá)98.2%,優(yōu)于幾種常規(guī)網(wǎng)絡(luò)。

        2 卷積神經(jīng)網(wǎng)絡(luò)概述

        卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)領(lǐng)域最常用的網(wǎng)絡(luò)架構(gòu),被廣泛應(yīng)用于人臉識(shí)別、視覺目標(biāo)提取、語音識(shí)別等。其架構(gòu)主要由輸入層(Input Layer)、卷積層(Convolutional Layer)、池化層(Pooling Layer)、全連接層(Fully Connected Layer)及輸出層(Output Layer)構(gòu)成。其中,LeNet-5是LeCun等用于手寫數(shù)字識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),也是當(dāng)前最具代表性的架構(gòu)之一[14],見圖1。

        圖1LeNet-5架構(gòu)簡(jiǎn)化示意圖

        Fig.1The simplified diagram of LeNet-5

        卷積層用于提取輸入圖像特征,該過程可由式(1)中卷積運(yùn)算表示:

        (1)

        卷積核按窗掃描方式從左到右、從上到下移動(dòng)運(yùn)算。該過程實(shí)現(xiàn)了局部特征感知和參數(shù)共享,相比傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)大大降低了計(jì)算量和參數(shù)復(fù)雜度。

        池化層按特征不變性原則對(duì)圖像特征進(jìn)行統(tǒng)計(jì)抽樣、聚合來降低數(shù)據(jù)規(guī)模,在一定程度上避免了過擬合。常用池化方法有平均池化(Average Pooling)、最大池化(Max Pooling)等,見圖2。值得注意的是,池化層和卷積層的區(qū)別在于,其池化操作只是簡(jiǎn)單地取平均值或最大值運(yùn)算,而非各元素的加權(quán)和。

        全連接層及輸出層主要用于圖像特征分類,可根據(jù)實(shí)際需求設(shè)定為單層或多層,表示如下:

        hw,b(x)=relu(wTx+b)

        (2)

        其中,hw,b(x)表示輸出,x為輸入特征向量,w為權(quán)值向量,b為偏置,relu(·)為激活函數(shù)。

        圖2 池化方式示意圖

        3 嵌網(wǎng)融合-卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建

        常規(guī)卷積神經(jīng)網(wǎng)絡(luò)層間缺乏跨層式-互通信息流動(dòng),歷經(jīng)多次池化采樣后目標(biāo)特征信息急劇減少,影響識(shí)別[6-7]。本研究基于LeNet-5模型引入嵌網(wǎng)結(jié)構(gòu)、Inception模塊及金字塔多尺度采樣融合模型來構(gòu)造特征挖掘架構(gòu)。首先,利用多層感知機(jī)替換傳統(tǒng)卷積層中線性卷積核,以提取局部感受野內(nèi)的顯著特征,其過程為:

        (3)

        圖3 嵌網(wǎng)卷積層示意圖

        同時(shí),本研究參照GoogleNet模型引入Inception模塊實(shí)現(xiàn)對(duì)卷積層的特征融合,該Inception模塊由前攝入層(Previous Layer)、并行處理層(Parallel Processing Layer)及拼接層(Filter Concat Layer)組成。其中,并行處理層含多個(gè)通道,各通道均設(shè)置不同池化、卷積操作,使其感受野不同(即包含多尺度信息)。第一個(gè)通道為1×1的卷積層,第二個(gè)通道為1×1和3×3的卷積層,第三個(gè)通道為1×1和5×5的卷積層,第四個(gè)通道為3×3的池化層和1×1的卷積層,見圖4。設(shè)置1×1卷積核目的在于對(duì)Inception模塊進(jìn)行降維。因此,本研究引入Inception模塊使得嵌網(wǎng)結(jié)構(gòu)在深度、寬度均得到擴(kuò)展,挖掘特征能力進(jìn)一步增強(qiáng)。

        圖4 Inception模塊示意圖

        由于池化采樣中較小的池化窗口可能導(dǎo)致局部細(xì)節(jié)信息丟失,網(wǎng)絡(luò)泛化能力變差。本研究對(duì)LeNet-5模型加以改進(jìn),將傳統(tǒng)單一池化方式替換為金字塔池化模型(spatial pyramid pooling,SPP),即在下采樣過程中,將池化窗口按照從大到小順序依次進(jìn)行下采樣,然后將若干維度的特征拼接融合之后傳輸給全連接層。本研究在LeNet-5模型的第3池化層中采用SPP結(jié)構(gòu),見圖5。第1級(jí)池化窗口大小為2×2,滑動(dòng)步長為2,取最大池化方式;第2級(jí)窗口大小為3×3,滑動(dòng)步長為3,取最大池化方式;第3級(jí)窗口大小為5×5,滑動(dòng)步長為4,取均值池化方式。相較傳統(tǒng)單一池化方式,SPP池化模型可實(shí)現(xiàn)任意大小的圖像特征處理,提取的特征信息更豐富,使得網(wǎng)絡(luò)魯棒性、靈活性更強(qiáng)。

        圖5 金字塔池化示意圖

        考慮到卷積網(wǎng)絡(luò)在樣本量較小情況下易出現(xiàn)過擬合、泛化能力較差,而支持向量機(jī)算法可使用正則化方式來優(yōu)化模型的結(jié)構(gòu)風(fēng)險(xiǎn),在樣本量較少的情況下獲得較好的分類準(zhǔn)確率。因此,在卷積神經(jīng)網(wǎng)絡(luò)全連接層嵌入支持向量機(jī)思路,即結(jié)合支持向量機(jī)的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則來彌補(bǔ)卷積網(wǎng)絡(luò)的不足,同時(shí)卷積網(wǎng)絡(luò)也可改善支持向量機(jī)特征表達(dá)不足的缺陷,使得二者優(yōu)勢(shì)互補(bǔ)。本研究借鑒文獻(xiàn)[12,15]思路在全連接層中嵌入Hinge loss函數(shù),替換傳統(tǒng)全連接層中的Logistic loss函數(shù),該損失函數(shù)即以構(gòu)造待分類樣本的最大邊距超平面來實(shí)現(xiàn)分類思路。所提嵌網(wǎng)融合網(wǎng)絡(luò)參數(shù)見表1,結(jié)構(gòu)見圖6。

        表1 嵌網(wǎng)融合-卷積識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)

        圖6嵌網(wǎng)融合-卷積識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        Fig.6Embedded fusion convolution network diagram

        4 計(jì)算機(jī)實(shí)驗(yàn)及結(jié)果分析

        本研究在Windows-Caffe環(huán)境下實(shí)驗(yàn),CPU i7-7700HQ,2.8 GHz,8 G內(nèi)存。實(shí)驗(yàn)數(shù)據(jù)集為MNIST手寫數(shù)字集和自制手勢(shì)集,見圖7。自制數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集各手勢(shì)有100張圖片,測(cè)試集各手勢(shì)有20張圖片,圖片大小為96×96像素。MNIST手寫數(shù)字集包含“0-9”十種手寫數(shù)字,共60 000個(gè)訓(xùn)練樣本和10 000個(gè)測(cè)試樣本,圖片大小為28×28像素。

        圖7 自制手勢(shì)圖像示意圖

        為評(píng)價(jià)不同網(wǎng)絡(luò)的性能,分別引入標(biāo)準(zhǔn)LeNet-5結(jié)構(gòu)、嵌入金字塔池化的LeNet-5+SPP結(jié)構(gòu)、嵌入多層感知機(jī)及Inception模塊的LeNet-5+NIN結(jié)構(gòu),以及嵌入金字塔池化和多層感知器及Inception的LeNet-5+SPP+NIN結(jié)構(gòu)。各識(shí)別網(wǎng)絡(luò)在訓(xùn)練過程中均迭代2 000次,網(wǎng)絡(luò)學(xué)習(xí)率為指數(shù)衰減,初始學(xué)習(xí)率為0.001,衰減率為0.95。為分析各網(wǎng)絡(luò)的魯棒性,特進(jìn)行100次蒙特卡洛試驗(yàn),見表2、表3。不同網(wǎng)絡(luò)架構(gòu)的識(shí)別準(zhǔn)確率隨迭代次數(shù)比較見圖8(以自制手勢(shì)集為例)。

        表2 不同網(wǎng)絡(luò)準(zhǔn)確率比較

        由表2和圖8可知,LeNet-5+SPP+NIN結(jié)構(gòu)取得最好的準(zhǔn)確率,且損失函數(shù)最小。這是由于嵌入的多層感知器層和Inception結(jié)構(gòu)以及金字塔池化方式使得特征挖掘網(wǎng)絡(luò)具備多尺度深層次特征提取融合能力,擺脫了傳統(tǒng)LeNet-5模型特征信息逐層減少的弊端,并且Inception結(jié)構(gòu)及金字塔池化方式的引入可避免網(wǎng)絡(luò)因?qū)哟渭由疃霈F(xiàn)過擬合現(xiàn)象。由圖8可知,隨著迭代次數(shù)的增加,各網(wǎng)絡(luò)的識(shí)別能力逐漸增強(qiáng),但LeNet-5+SPP+NIN網(wǎng)絡(luò)結(jié)構(gòu)一直處于領(lǐng)先位置。傳統(tǒng)LeNet-5的分類準(zhǔn)確率在迭代2 000次情況下平均僅為82.7%,而嵌網(wǎng)融合識(shí)別網(wǎng)絡(luò)準(zhǔn)確率提升11.5%,達(dá)到94.2%??紤]到自制手勢(shì)數(shù)據(jù)集中,手勢(shì)圖像的“正反面”和“旋轉(zhuǎn)角度”增大了網(wǎng)絡(luò)識(shí)別的難度。本研究對(duì)“0~5”六種手勢(shì)的識(shí)別準(zhǔn)確率分析見表3,由表3可知手勢(shì)0取得最高的準(zhǔn)確率,手勢(shì)2和手勢(shì)3因存在“正反面”而識(shí)別準(zhǔn)確率略差。

        圖8 不同網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率比較

        表3 LeNet-5+SPP+NIN網(wǎng)絡(luò)模型對(duì)每類手勢(shì)識(shí)別準(zhǔn)確率

        為進(jìn)一步評(píng)估所提嵌網(wǎng)-融合網(wǎng)絡(luò)的特征學(xué)習(xí)挖掘能力,特設(shè)置不同超參數(shù)學(xué)習(xí)率來研究在2 000次迭代中的識(shí)別準(zhǔn)確率變化規(guī)律,見圖9。學(xué)習(xí)率為lr=0.001、0.0008、0.0005以及0.0003。

        由圖9可知,學(xué)習(xí)率較高時(shí)導(dǎo)致識(shí)別網(wǎng)絡(luò)在訓(xùn)練一定次數(shù)后難以達(dá)到全局最優(yōu)解,而可能陷入局部最優(yōu)解,無法繼續(xù)提升其準(zhǔn)確率;當(dāng)學(xué)習(xí)率較低時(shí)(lr=0.0003),模型準(zhǔn)確率上升較慢,增加了識(shí)別網(wǎng)絡(luò)訓(xùn)練的時(shí)間;只有當(dāng)學(xué)習(xí)率適中時(shí)(如lr=0.0005),所提模型才能在相對(duì)較短時(shí)間內(nèi)達(dá)到最高的準(zhǔn)確率。

        圖9 不同學(xué)習(xí)率下網(wǎng)絡(luò)識(shí)別準(zhǔn)確率比較

        Fig.9Comparison of accuracy for different learning rates

        5 結(jié)語

        本研究基于LeNet-5網(wǎng)絡(luò)和信息融合思想提出新的嵌網(wǎng)融合-卷積識(shí)別網(wǎng)絡(luò)來解決手勢(shì)識(shí)別問題。首先,以多層感知器來構(gòu)造特征提取框架,并在卷積層輸出端級(jí)聯(lián)Inception結(jié)構(gòu),同時(shí)用金字塔采樣機(jī)制替換常規(guī)采樣,利用金字塔多尺度融合策略來拼接不同維度的特征,進(jìn)而將融合特征傳輸給全連接層,最后引入支持向量機(jī)思路識(shí)別。實(shí)驗(yàn)中將所提網(wǎng)絡(luò)在MNIST數(shù)字集及自建手勢(shì)集進(jìn)行驗(yàn)證,識(shí)別準(zhǔn)確率最高達(dá)到98.2%,均優(yōu)于常規(guī)網(wǎng)絡(luò)。如何在網(wǎng)絡(luò)深度一定的前提下,提高多尺度特征融合能力及識(shí)別準(zhǔn)確率將是下一步研究重點(diǎn)。

        猜你喜歡
        池化金字塔手勢(shì)
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計(jì)
        “金字塔”
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        A Study of the Pit-Aided Construction of Egyptian Pyramids
        挑戰(zhàn)!神秘手勢(shì)
        海上有座“金字塔”
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
        V字手勢(shì)的由來
        勝利的手勢(shì)
        男女后进式猛烈xx00动态图片| 在线观看视频亚洲一区二区三区| 亚洲伊人av天堂有码在线| 国产精品综合色区在线观看| 野外性史欧美k8播放| 国内精品久久久久久久久蜜桃| 青青草视频在线播放观看| 国产av无码专区亚洲版综合| 久久精品99久久香蕉国产色戒 | 国产日产高清一区二区三区| 国产成人无码专区| 无遮挡又黄又刺激又爽的视频| av资源在线看免费观看| 中文字幕熟女激情50路| 日韩夜夜高潮夜夜爽无码| 97久久天天综合色天天综合色hd| 国产传媒在线视频| 人妻中文久久人妻蜜桃| 亚洲日韩欧美一区、二区| 国产精品 视频一区 二区三区 | 丝袜美腿av免费在线观看| 国产农村妇女精品一区| 国产亚洲午夜高清国产拍精品| 麻豆国产av尤物网站尤物| 亚洲激情一区二区三区视频| 在线无码中文字幕一区| 日本一区二区视频高清| 韩国三级中文字幕hd| 国产特级全黄一级毛片不卡| 亚洲国产精品成人av| 欧洲美女黑人粗性暴交视频| 内射少妇36p九色| 亚洲中文字幕精品久久久久久直播 | 樱花AV在线无码| 国产一区二三区中文字幕| √天堂资源中文www| 亚洲av日韩av永久无码色欲| 精品黄色av一区二区三区| 亚洲一区二区免费在线观看视频| 又粗又粗又黄又硬又深色的| 熟女人妻丰满熟妇啪啪|