亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進的殘差網(wǎng)絡手勢識別方法*

        2021-06-16 07:09:40張雷樂田軍委劉雪松
        西安工業(yè)大學學報 2021年2期
        關(guān)鍵詞:模型

        張雷樂,田軍委,劉雪松,王 沁

        (西安工業(yè)大學 機電工程學院,西安 710021)

        隨著計算機技術(shù)的迅速發(fā)展,以及5G網(wǎng)絡的迅速普及,人們對于智能生活的要求越來越高。想要解決一些復雜的任務還是有一定的困難,因此,將機械臂控制技術(shù)與人機交互技術(shù)相結(jié)合能有效地提高機械臂的作業(yè)能力和智能程度[1]。目前對于手勢識別、動作識別及視線跟蹤等基于人體動作習慣的人機交互形式成為當前熱門的研究領(lǐng)域[2-3]。

        近年來,隨著人工智能的快速發(fā)展,深度學習技術(shù)在圖像處理方面取得了很好的成績[4]。 文獻[5]采用深度神經(jīng)網(wǎng)絡進行圖像識別,通過加深網(wǎng)絡層數(shù)來提高有用特征的提取率,在ImageNet評測問題中將準確率提高了90%。對于深層次的神經(jīng)網(wǎng)絡,如果對每層網(wǎng)絡都進行訓練,其時間復雜度會升高,容易陷入局部極值,收斂速度會降低。文獻[6]是一種基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)的手語識別模型。該模型先采用兩路結(jié)構(gòu)相同的卷積神經(jīng)網(wǎng)絡模型對RGB圖像和深度圖像進行特征提取,然后將提取的特征進行融合并輸入到下一級的前反饋神經(jīng)網(wǎng)絡中繼續(xù)提取有效特征進行分類,在基準數(shù)據(jù)集上識別準確率達到82%。此方法對采集到的圖像特征進行重復利用,減少參數(shù),提高訓練速度。對參數(shù)的重復利用容易出現(xiàn)過擬合現(xiàn)象,其模型的泛化性與魯棒性會下降[7]。由深度學習理論分析可知,在理想的網(wǎng)絡訓練方式下,更深的網(wǎng)絡肯定會比較淺的網(wǎng)絡效果要好[8]。在實踐過程中,隨著網(wǎng)絡層數(shù)的增加,網(wǎng)絡模型的分類性能卻越來越差。文獻[9]在Highway網(wǎng)的基礎上提出了殘差網(wǎng)絡,采用捷徑連接取代Highway網(wǎng)中的網(wǎng)關(guān)單元,可以保留全部的原始信息并且減少了網(wǎng)絡參數(shù),其表征能力強。

        對于傳統(tǒng)的殘差網(wǎng)絡,其網(wǎng)絡層數(shù)加深時,其網(wǎng)絡模型的準確率脆弱,易受數(shù)據(jù)分布中微小自然變化的影響,魯棒性差[10]。因此,為了進一步提高手勢識別的準確率、魯棒性以及收斂速度,文中通過改進殘差網(wǎng)絡模型和動態(tài)調(diào)節(jié)學習率等訓練方法來獲取最優(yōu)的網(wǎng)絡訓練模型,與原始網(wǎng)絡模型訓練過程進行對比,驗證文中方法的有效性。

        1 手勢特征提取的基本原理

        基于卷積神經(jīng)網(wǎng)絡的手勢識別過程可以看作是手勢特征的濾波器[11]。在神經(jīng)網(wǎng)絡中,利用卷積層中卷積核與輸入圖像的卷積運算,保留出手勢圖像中的手勢特征信息,過濾掉背景信息。圖1是不同卷積層提取手勢圖像特征的過程。經(jīng)過淺層網(wǎng)絡卷積過濾掉手勢圖像中的非連續(xù)線段特征,保留出如線條,角度等連續(xù)線段特征;經(jīng)過中層網(wǎng)絡卷積過濾掉手勢圖像中無法構(gòu)成完整輪廓的線條特征;經(jīng)過高層網(wǎng)絡卷積運算得到如復雜形狀、顏色組合等高層次抽象特征,為手勢圖像分類提供依據(jù)。

        圖1 卷積神經(jīng)網(wǎng)絡提取圖像特征過程

        由圖1可知,以非連續(xù)卷積過程中得到的共性特征為基礎,在連續(xù)卷積過程中提取手勢樣本的個性特征[12]。其中共性特征提取出手部輪廓,個性特征對手勢樣本進行分類操作。

        2 改進的殘差網(wǎng)絡模型

        2.1 殘差網(wǎng)絡模型

        傳統(tǒng)的隨著網(wǎng)絡深度與高度的增加,網(wǎng)絡的性能也會隨之有所提高。然而在實際的實驗過程中,發(fā)現(xiàn)隨著網(wǎng)絡層數(shù)的增加,實驗的訓練準確率反而會下降,出現(xiàn)網(wǎng)絡退化問題。為了解決網(wǎng)絡退化問題[13],何愷明提出了一種殘差結(jié)構(gòu),如圖2所示。整個模塊將正常的卷積層輸出和輸入相加得到最終的輸出。其公式表達Y=F(x)+x,x為輸入,F(xiàn)(x)為卷積分支的輸出,Y為整個結(jié)構(gòu)的輸出。

        圖2 殘差結(jié)構(gòu)

        由圖2可以看出殘差塊使用跳躍鏈接,緩解了在深度神經(jīng)網(wǎng)絡中增加深度帶來的梯度消失問題。同時,將開始的輸入信息直接傳遞給輸出,防止信息缺失,使得網(wǎng)絡能夠更好地提取輸入與輸出之間有差別特征。由此,簡化了網(wǎng)絡的訓練過程中識別的難度,提高了網(wǎng)絡訓練的速度 。

        在手勢的分類過程中,由于傳統(tǒng)的殘差網(wǎng)絡主要訓練千萬種分類,其網(wǎng)絡參數(shù)大,容易產(chǎn)生冗余參數(shù),造成訓練過程繁瑣,收斂速度慢。考慮到手勢識別為二分類,所以文中基于原始ResNet18和ResNet34網(wǎng)絡設計一種改進的殘差網(wǎng)絡sResNet-I(small-ResNet-I)模型,通過減少BasicBlock(殘差模塊)個數(shù)來減少網(wǎng)絡參數(shù),防止過擬合,從而提高訓練速度。

        sResNet-I與原始ResNet34網(wǎng)絡的卷積主要結(jié)構(gòu)及其參數(shù)見表1。

        表1 網(wǎng)絡卷積結(jié)構(gòu)對比

        改進后的殘差網(wǎng)絡模型主體(sResNet-I),由3個包含64個卷積核、3個包含128個卷積核、4個包含256個卷積核、3個包含512個卷積核的殘差塊和兩層全連接層組成,模型輸出為2維,對應兩種手勢形態(tài)。由表1可知,相對于傳統(tǒng)殘差網(wǎng)絡模型(ResNet34),改進后的殘差網(wǎng)絡模型(sResNet-I),其參數(shù)量減少 ,加快了網(wǎng)絡訓練速度,同時防止過擬合。

        Softmax函數(shù)表達式:

        (1)

        式(1)中分子將輸入的實數(shù)值映射到零到無窮;分母將所有結(jié)果相加進行歸一化處理。其中j=1,…,K,K為實數(shù)。

        Categorical_crossentropy損失函數(shù)公式:

        (2)

        2.2 殘差結(jié)構(gòu)的改進

        在卷積神經(jīng)網(wǎng)絡傳播的過程中,卷積層和池化層主要是對原始輸入手勢圖像進行特征提取,全連接層以這些提取的特征作為輸入,經(jīng)過加權(quán)處理輸出對應類別。在卷積運算過程中,其卷積核內(nèi)部的參數(shù)為權(quán)重,神經(jīng)元與神經(jīng)元之間通過激活函數(shù)連接。獲得更多的有用特征信息,即需要對每個權(quán)重進行微小更新。權(quán)重在整個網(wǎng)絡優(yōu)化過程中主要目的是優(yōu)化激活函數(shù)的輸出值,進而實現(xiàn)對成本函數(shù)的優(yōu)化。圖3是卷積神經(jīng)網(wǎng)絡反向傳播過程。

        圖3 卷積神經(jīng)網(wǎng)絡反向傳播

        卷積到卷積層運算:

        (3)

        式中:x為輸入的手勢圖像矩陣;w為卷積核內(nèi)的參數(shù)權(quán)重;b為偏置;z為神經(jīng)元輸入;l為網(wǎng)絡的層數(shù);i為下一層神經(jīng)元特征向量個數(shù);S為上層特征向量向量個數(shù)。

        (4)

        式中:a為經(jīng)過激活函數(shù)輸出。卷積層池化層運算:

        (5)

        式中:ap為池化層輸出。池化層到全連接層運算:

        (6)

        (7)

        式中:fw,b(x)為實際輸出值。

        Lw,b(x)=g(|y-fw,b(x)|)。

        (8)

        式中:y為期望輸出值;Lw,b(x)為損失函數(shù)。

        由式(4)和式(7)可知,激活函數(shù)是將激活的神經(jīng)元特征通過函數(shù)把重要的特征保留并映射出來,負責將神經(jīng)元的輸入映射到輸出端。激活函數(shù)引入非線性因素,能夠提取多樣性的特征,解決復雜的問題,防止出現(xiàn)過擬合現(xiàn)象。

        由圖2可知,傳統(tǒng)的殘差結(jié)構(gòu)中卷積層間使用ReLU激活函數(shù),其數(shù)學表達式為

        (9)

        由式(9)可知,當輸入為負值時,輸出為0,ReLU不激活神經(jīng)元,無法從大量數(shù)據(jù)中提取到有用的特征,達不到精確手勢識別的效果。

        在卷積神經(jīng)網(wǎng)絡反向傳播中,權(quán)重和偏置的迭代更新:

        bi=bi-1-α?L,

        (10)

        wi=wi-1-α?L。

        (11)

        為了提高手勢識別網(wǎng)絡模型的抗干擾能力(魯棒性),采用ELU作為激活函數(shù):

        (12)

        由式(12)可知,相較于ReLU激活函數(shù),當ELU函數(shù)輸入為正值時,右側(cè)線性部分能夠緩解梯度消失問題;當輸入為負值時,左側(cè)為軟包和,能緩解非正常輸入時的問題,讓其更加具有魯棒性;ELU函數(shù)輸出均值接近于0,其收斂速度更快。

        2.3 動態(tài)學習率的調(diào)節(jié)

        梯度下降是神經(jīng)網(wǎng)絡訓練過程中比較重要的部分,通常使用成本函數(shù)進行反向傳播不斷地更新權(quán)重和偏置參數(shù)找到損失函數(shù)的最低點,使訓練的模型達到最優(yōu)的結(jié)果。梯度下降的公式:

        (13)

        式中:wnew和w為迭代過程中的權(quán)值;η為學習率;Loss為損失函數(shù)。

        由式(13)可以得出,當學習率設置太小時,其手勢訓練過程需要花費更多的時間來進行收斂;學習率設置太大時,迭代最終結(jié)果會在最小值附近震蕩無法達到最小值。為了解決這一問題,需要采用動態(tài)調(diào)節(jié)學習率[14-15]。動態(tài)調(diào)節(jié)是根據(jù)應用場景,在不同的優(yōu)化階段能夠動態(tài)改變學習率,以得到更好的結(jié)果,不同階段調(diào)節(jié)學習率為

        (14)

        式中:ηi為迭代次數(shù)為i時的學習率;ηi+1為迭代次數(shù)為i+1時的學習率;Δdi為迭代次數(shù)為i次時的損失梯度值(|Δdi|<1),求解為

        (15)

        由式(14)與式(15)可知,當Δdi-1≤0時,損失函數(shù)正常下降,為了提高收斂速度,此時學習率應以較小的速度下降;當損失函數(shù)出現(xiàn)震蕩變化時,此時Δdi>0,學習率應以較快的速度下降。

        2.4 動量梯度下降法

        利用隨機梯度下降法(Stochastic Gradient Descent,SGD)法進行網(wǎng)絡參數(shù)調(diào)整過程中發(fā)現(xiàn),網(wǎng)絡傳播過程中其權(quán)重及偏置等參數(shù)的更新基本依據(jù)當前輸入的樣本批大小,因此更新過程十分不穩(wěn)定[16]。動量方法是加快梯度下降的速度,主要處理高曲率一致的梯度和帶噪聲的梯度[17]。文中對手勢數(shù)據(jù)集進行數(shù)據(jù)增強處理,其中做了部分遮擋,加入噪聲處理,目的是為了提高樣本的多樣性,從而驗證不同動量值對整個訓練過程的影響。

        3 手勢數(shù)據(jù)庫的建立

        3.1 構(gòu)建手勢數(shù)據(jù)集

        數(shù)據(jù)樣本的準確性對于訓練卷積神經(jīng)網(wǎng)絡的識別過程至關(guān)重要[18]。文中通過模仿機械手爪抓取貨物的操作過程,將手勢定義為兩類(張開、閉合)。通過使用手機采集不同人不同角度的手勢圖像,其中張開手勢收集614幅,閉合手勢收集647幅,共計1 261幅圖像樣本,圖4展示張開手勢和圖5展示閉合手勢的樣本定義。

        圖4 張開手勢

        圖5 閉合手勢

        3.2 數(shù)據(jù)集樣本預處理

        在進行手勢識別的研究過程中,前期手勢數(shù)據(jù)集的采集以及手勢圖像的預處理情況都會影響手勢分類結(jié)果[19]。通??梢酝ㄟ^圖像平移、翻轉(zhuǎn)、縮放、加噪聲處理及部分遮擋等圖像增強手段將數(shù)據(jù)進行成倍擴充,來解決訓練過程中的過度擬合情況[20],預處理后的樣本如圖6和圖7所示。

        圖6 張開數(shù)據(jù)預處理后樣本

        圖7 閉合數(shù)據(jù)預處理后樣本

        當數(shù)據(jù)樣本具有足夠的多樣性時,網(wǎng)絡模型在訓練過程中可以提取到更多更可信的共性特征,從而不斷更新網(wǎng)絡參數(shù),提高模型的泛化能力,得到最優(yōu)的網(wǎng)絡模型。

        將預處理后的數(shù)據(jù)樣本和采集到的原始樣本按7∶3的比例隨機放入訓練集與測試集中。其中訓練集工883個樣本,測試集378個樣本。建立3個不同的測試集樣本來對比最終的試驗結(jié)果,通過實驗結(jié)果來驗證所改進的網(wǎng)絡的普適性。

        4 試驗及結(jié)果分析

        為了驗證文中提出的改進殘差網(wǎng)絡模型的有效性。文中采用的硬件平臺為Intel I9-9900K、Nvidia RTX2080TI、32G內(nèi)存、軟件平臺Windows10 64bit操作系統(tǒng)、Tensorflow-GPU1.13.0進行實驗測試。

        4.1 驗證改進殘差網(wǎng)絡模型的有效性

        數(shù)據(jù)集樣本圖統(tǒng)一輸入尺寸224×224 pixel,模型使用SGD優(yōu)化器,將學習率設定為0.1,學習衰減率值與動量設為0,批量大小設定為36,迭代次數(shù)為20。不同網(wǎng)絡模型訓練準確率如圖8所示。

        圖8 不同網(wǎng)絡模型訓練準確率

        由圖8可以看出四條曲線中,隨著迭代次數(shù)的增加,四條曲線準確率都在不斷提高。首先加入改進殘差塊的resnet34-I相比于resnet34訓練曲線震蕩小,準確率高;當訓練到第3次時,由于隨機輸入手勢樣本集中出現(xiàn)了異常的信號(手勢遮擋,模糊等問題),resnet34曲線出現(xiàn)震蕩,且識別準確率有所下降。相對于resnet34網(wǎng)絡模型resnet34-I曲線隨著迭代次數(shù)的增加準確率能更加平穩(wěn)的上升。因為resnet34-I使用ELU作為激活函數(shù),由理論分析可知,ELU激活函數(shù)在接受一個異常的信號輸入時,損失函數(shù)的值增大,更新的參數(shù)為負值,此時ELU激活函數(shù)仍具有一定的輸出;而且當輸入為負值時,其具有一定的抗干擾能力,不會使激活函數(shù)突然崩掉,失去激活函數(shù)的意義;sResnet-I與resnet34-I兩條曲線情況可以看出,在前8輪訓練中resnet34-I網(wǎng)絡模型其訓練準確率更高,其收斂速度更快,在第8輪之后兩個網(wǎng)絡模型的訓練準確率幾乎重合。然而,在20輪的訓練過程中,由于sResnet-I其參數(shù)相對于resnet34-I少,其訓練時間更短,訓練速度更快。

        4.2 驗證學習率動態(tài)調(diào)整的有效性

        在驗證動態(tài)調(diào)整學習率的有效性時,分別設置固定學習率0.01,0.1,0.2、動態(tài)調(diào)節(jié)學習率進行實驗對比,動態(tài)調(diào)節(jié)學習率初始值設置為0.1,其他網(wǎng)絡參數(shù)保持一致,圖9是隨著訓練次數(shù)的增加,損失誤差的變化情況。由圖9可看出,學習率為0.01,0.1,0.2,動態(tài)學習率時,損失值都是隨著訓練次數(shù)的增加而下降。固定學習率為0.2時,在訓練初期,網(wǎng)絡會陷入局部最優(yōu)狀態(tài),隨著迭代次數(shù)的增加,損失值不在下降,識別準確率不在提高。在訓練初期,固定學習率0.1相比于固定學習率0.01,從損失值下降的速度來看,0.01固定學習率和動態(tài)學習率下降速度最快;但隨著訓練次數(shù)的增加動態(tài)學習率的損失更加逼近0,由圖9可看出,動態(tài)學習率達到穩(wěn)定時所需要的迭代次數(shù)越少。

        圖9 不同學習率下的損失圖

        4.3 動量選擇

        文中選擇0.5,0.7,0.9的動量值進行對比,根據(jù)識別準確率與迭代次數(shù)圖選擇出最優(yōu)的動量值。

        圖10可以看出隨著迭代次數(shù)的增加,三條曲線識別準確率均不斷提高。

        圖10 不同動量參數(shù)訓練結(jié)果對比圖

        由圖10可知,相對于動量值0.7和0.9,動量值為0.5時不僅有效的提高了識別收斂速度,同時取得了最高的識別準確率。當動量較大時,在正確收斂的時間因所提供的加速度快,跳過最小。

        4.4 測試樣本值

        綜合以上實驗,文中確定以sResnet-I作為手勢識別的網(wǎng)絡模型。采用動態(tài)調(diào)整學習率,動量參數(shù)選擇0.5。為了進一步驗證此模型的有效性,文中將已經(jīng)構(gòu)建的三組測試樣本分別在四個網(wǎng)絡模型上進行數(shù)值測試,測試結(jié)果見表2。

        表2 四組模型測試結(jié)果

        由表2可以看出,加入改進后的殘差塊結(jié)構(gòu),識別準確率提升了19.61%;相對于sResnet-I網(wǎng)絡模型,Resnet34-I識別準確率提高了1.12%,因Resnet34-I訓練時間較長,平均每輪訓練時間增加11.2 s。為了提高訓練速度,文中選用sResnet-I作為手勢識別的網(wǎng)絡訓練模型。

        5 結(jié) 論

        1) 在手勢識別的過程中,手勢數(shù)據(jù)集樣本的選擇、網(wǎng)絡模型的選擇以及參數(shù)的調(diào)整都會影響手勢識別的效果。文中通過對數(shù)據(jù)集進行數(shù)據(jù)增強預處理,增強其泛化能力,防止過擬合;改進殘差塊,改變激活函數(shù)ReLU提高手勢識別的魯棒性;降低卷積層數(shù),減少迭代參數(shù)提高網(wǎng)絡模型訓練速度;動態(tài)調(diào)整學習率提高手勢識別的收斂速度以及準確率;優(yōu)選動量值來提高其訓練過程的收斂速度以及模型訓練過程穩(wěn)定性。

        2) 文中提出的sResnet-I模型其手勢識別準確率相對于resnet34、sResnet分別提高了12.1%,19.61%。相對于Resnet34-I,sResnet-I訓練消耗時間短,平均每輪訓練時間減少11.2 s。提高了識別的魯棒性和收斂速度。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        日韩av毛片在线观看| 亞洲綜合無碼av一區二區| 国产偷2018在线观看午夜| 亚洲素人av在线观看| 亚洲av无一区二区三区久久蜜桃| а天堂中文最新一区二区三区| 国产偷国产偷亚洲清高| 国产精品国产三级国产AvkTV| 国产一区三区二区视频在线观看 | 亚洲精品98中文字幕| 中文字幕日韩三级片| 久久久久久久综合狠狠综合 | 久久这里只精品国产免费10 | 欧美视频二区欧美影视| 人妻精品一区二区免费| 久久精品女同亚洲女同| 亚洲图片日本视频免费| 在线观看91精品国产免费免费| 扒开非洲女人大荫蒂视频| 亚洲美女毛片在线视频| 无码少妇一区二区性色av| 亚洲综合久久久| 久久综合老鸭窝色综合久久 | 国产综合久久久久久鬼色| 5级做人爱c视版免费视频| 日本av在线精品视频| 99久久婷婷国产亚洲终合精品| 婷婷中文字幕综合在线| 中文字幕亚洲精品第1页| 亚洲av成人波多野一区二区| 十八禁视频网站在线观看| 国产精品麻豆aⅴ人妻| 精品一区二区三区人妻久久| 国产91色综合久久免费| 国产又黄又爽又色的免费| 未满十八勿入av网免费| 国产又湿又爽又猛的视频| 国产精品视频一区二区三区不卡| 欧美性猛交xxxx黑人| 黑丝美女喷水在线观看| 国产自拍视频在线观看网站|