亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進AlexNet 的雙模態(tài)握筆手勢識別

        2021-12-17 00:56:14張璐陶然彭志飛丁金洋
        智能計算機與應用 2021年6期
        關鍵詞:模態(tài)特征模型

        張璐,陶然,彭志飛,丁金洋

        (東華大學 計算機科學與技術學院,上海 201600)

        0 引言

        近年來,隨著計算機視覺應用技術的快速發(fā)展,國內外的研究人員對人臉、表情、姿態(tài)、手勢等人機交互方面進行了大量的研究[1]。較于其它交互方式,手勢具有更加直接、靈活、自然的特點,因此手勢識別引起了研究者的極大關注[2]。由于當下部分中小學生握筆手勢不規(guī)范,導致坐姿不標準、眼睛近視以及手指關節(jié)增生,對其身心健康造成了不良的影響[3]。

        手勢分為靜態(tài)手勢以及動態(tài)手勢識別兩種類型,本文僅對靜態(tài)手勢識別進行研究,其關鍵技術分為手勢分割、手勢識別兩部分。薛俊韜[4]等人利用人體膚色的聚類特性,在YCbCr 空間構建皮膚顏色分布模型,對手勢進行分割,此顏色空間受光照等變化影響較小,膚色的聚類效果好,因此本文手勢分割算法基于此顏色空間。謝崢桂等人[5]首先對手勢圖像進行手勢分割預處理,接著對處理后的圖像利用CNN 模型進行特征提取和識別。文獻[6]基于卷積神經(jīng)網(wǎng)絡開發(fā)了OpenPose 模型,實現(xiàn)了人體關鍵點檢測以及骨架圖的繪制。Mazhar等人[7]基于OpenPose 模型構建了手勢實時檢測人機交互系統(tǒng)。隨著深度學習的不斷發(fā)展,研究者們提出了多模態(tài)輸入的方法。文獻[8]中提出,將骨骼關節(jié)信息、深度圖像和RGB 圖像同時輸入至隱馬爾可夫模型的半監(jiān)督分層動態(tài)框架,進行手勢分割和識別。

        綜上所述,本研究受到多模態(tài)的啟發(fā),提出基于改進AlexNet 的雙模態(tài)握筆手勢識別方法,將握筆手勢分割圖像與骨架圖像同時輸入至增加了批標準化、注意力機制以及修改了卷積核大小的改進AlexNet 中,進行手勢分割和識別。

        1 相關工作

        1.1 手勢分割

        手勢分割[9]旨在將圖像中手勢區(qū)域和背景區(qū)域分離,從而將手勢從圖片中提取出來。目前,基于視覺的手勢分割方法主要有基于膚色的手勢分割方法、基于運動的手勢分割方法、基于輪廓的手勢分割方法等。由于手勢圖像是RGB 形式,光照變化會對膚色分割產生影響,不適合進行膚色分割。而YCbCr 色彩空間膚色聚類效果好,可將RGB 圖像中的皮膚信息映射到YCbCr 空間,通過判斷某點在YCbCr 空間的坐標(Cb,Cr)是否在橢圓內,將膚色區(qū)域與背景部分區(qū)分開。

        由于手勢分割后的圖像包含噪聲等,因此利用圖像增強技術改善圖像的視覺效果,突出圖像中計算機感興趣的部分。圖像增強[10]是利用數(shù)學形態(tài)學對圖像進行處理,其中包括圖像腐蝕、膨脹、開運算和閉運算等。對圖像先腐蝕后膨脹的操作稱為開運算,具有分離細小物體的作用。本文使用開運算對握筆手勢分割圖像進行圖像增強,使其進一步優(yōu)化。

        1.2 AlexNet 簡介

        卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[11]是由YannLeCun 于1988 年提出的一種深度前饋神經(jīng)網(wǎng)絡,主要由卷積層、池化層和全連接層組成。AlexNet 是CNN 模型的歷史突破點,之后的網(wǎng)絡模型都基于此進行改進。

        AlexNet[12]是卷積神經(jīng)網(wǎng)絡最具代表性的模型之一,且在2012 舉行的ImageNet 大規(guī)模視覺識別挑戰(zhàn)比賽中獲勝。AlexNet 網(wǎng)絡由5 個卷積層、3 個全連接層組成,其網(wǎng)絡結構如圖1 所示。

        圖1 AlexNet 網(wǎng)絡結構圖Fig.1 AlexNet network structure diagram

        AlexNet 相比其它網(wǎng)絡具有的優(yōu)勢是:使用了ReLu激勵函數(shù)、Dropout、數(shù)據(jù)增強、最大池化以及局部響應歸一化(Local Response Normalization,LRN)技術。

        ReLu函數(shù)作為AlexNet 中的激活函數(shù),有效地防止訓練圖像識別模型時出現(xiàn)過擬合問題;Dropout能夠使神經(jīng)元在訓練過程中以一定的概率停止,避免了網(wǎng)絡模型的過擬合;最大池化解決了平均池化的模糊化問題,豐富了手勢圖像特征;數(shù)據(jù)增強通過截取手勢圖像方式,實現(xiàn)了圖像數(shù)據(jù)量的增加,從而防止過擬合問題的出現(xiàn),提升網(wǎng)絡的泛化能力;LRN則對當前層的輸出結果做平滑處理,增強了網(wǎng)絡模型的泛化能力。

        2 改進的AlexNet 雙模態(tài)握筆手勢識別方法

        針對單模態(tài)卷積神經(jīng)網(wǎng)絡特征提取不充分的問題,本文提出了一種基于改進AlexNet 的雙模態(tài)握筆手勢識別方法。即將握筆手勢分割圖像與骨架圖像輸入至改進的AlexNet 中進行特征提取、特征融合,最后利用Softmax 層對9 類握筆手勢進行分類。

        2.1 網(wǎng)絡結構設計

        為了能夠更好地解決握筆手勢識別問題,本文對AlexNet 進行了改進。改進的AlexNet 網(wǎng)絡結構如圖2 所示。

        圖2 改進的AlexNet 網(wǎng)絡結構圖Fig.2 Improved AlexNet network structure diagram

        如圖2 所示,本文在卷積層之后添加批量歸一化(Batch Normalization,BN)與注意力機制。BN 層用來解決訓練過程中識別率出現(xiàn)波動大的問題,注意力機制則用來加強包含握筆手勢信息的特征圖,添加的注意力機制的結構如圖3 所示。其次,修改了卷積核大小。為了適應1 000種圖像的多分類問題,原AlexNet 網(wǎng)絡結構第一個卷積核的大小為11×11,而本文改進的AlexNet 是用于9 種握筆手勢識別,因此將AlexNet 的第一層卷積核大小改為3×3,不僅能夠更好地獲取握筆手勢圖像特征分布,而且可以減少參數(shù)訓練。本文將AlexNet 使用的隨機梯度下降法替換為自適應時刻估計算法,以自適應調整學習率,減少調參量。本文在有無LRN 層的模型上進行測試,結果并無區(qū)別,因此刪除了LRN 層。

        如圖3 所示,SE 模塊作用在通道尺度,給不同的通道特征進行加權操作。對于輸入的C × H × W的特征圖,根據(jù)全局平均池化處理得到C個標量,然后將輸出的結果通過2 個全連接層以及激勵函數(shù)得到權重。通過在每個通道的維度上學習、更新不同的權重,最終得到計算注意力的矩陣以加強重要特征。

        圖3 SE 模塊結構圖Fig.3 Structure of SE Module

        2.2 基于改進AlexNet 的雙模態(tài)握筆手勢識別

        由于單模態(tài)輸入提取特征不豐富,本文提出了雙模態(tài)輸入的方法,即對握筆手勢圖像進行手勢分割以及骨架提取的2 種處理方式,獲取握筆手勢分割圖像與握筆手勢骨架圖像。其中骨架提取是在原圖上進行的。

        在對改進AlexNet 網(wǎng)絡進行模型訓練之前,先對握筆手勢分割圖像以及骨架圖像進行數(shù)據(jù)增強處理,包括:旋轉、縮放、平移和尺度變換等;接著對數(shù)據(jù)集進行尺度歸一化,得到224×224 的圖像;最后對處理后的圖像,利用改進的AlexNet 網(wǎng)絡進行特征提取、特征融合和手勢識別。雙模態(tài)握筆手勢識別框架圖如圖4 所示。

        圖4 雙模態(tài)握筆手勢識別框架Fig.4 Bimodal pen-h(huán)olding gesture recognition frame diagram

        先將雙模態(tài)握筆手勢圖像分別輸入至改進AlexNet 網(wǎng)絡進行特征提取、特征拼接后,進行全連接操作,利用Softmax 層進行分類,最后得到握筆手勢識別結果。

        3 實驗結果與分析

        3.1 雙模態(tài)握筆手勢數(shù)據(jù)集的建立

        本文在對文獻資料[3]的研究基礎上,將握筆手勢分為9 種類型,其中包括:標準型、錯位型、橫搭型、埋頭型、扭曲型、扭轉型、拳頭型、睡覺型和直線型。9 種握筆手勢的部分數(shù)據(jù)集如圖5 所示。

        圖5 9 種握筆手勢部分數(shù)據(jù)集展示Fig.5 Data set display of nine pen-h(huán)olding gesture

        由于握筆手勢沒有數(shù)據(jù)集,因此本文嚴格按照各種類型的標準在不同的角度、背景下自建數(shù)據(jù)集。每種手勢有900 張,共計8 100 張。訓練集、測試集與驗證集以6:2:2 的比例進行劃分。接著對握筆手勢圖像進行分割、骨架提取2 種處理方式,獲取2 種不同模式的圖像,即雙模態(tài)圖像,雙模態(tài)握筆手勢數(shù)據(jù)集的制作過程如圖6 所示。由于數(shù)據(jù)集數(shù)量的限制,本文對雙模態(tài)數(shù)據(jù)集進行數(shù)據(jù)增強處理。其中包括:旋轉、縮放變換、平移變換和尺度變換等,使得握筆手勢數(shù)據(jù)集更加豐富、有效。

        圖6 雙模態(tài)數(shù)據(jù)集制作流程Fig.6 Production process of bimodal data set

        首先對握筆手勢圖像利用顏色空間轉換、橢圓膚色模型分割、開運算去噪技術進行握筆手勢分割,得到握筆手勢分割圖像;同時利用OpenPose 手部模型進行骨架提取,得到握筆手勢骨架圖像;最后綜合得到雙模態(tài)握筆手勢數(shù)據(jù)集。

        3.2 實驗與對比

        為了評估本算法的優(yōu)越性,本文對網(wǎng)絡參數(shù)進行調整后,進行了3 組對比實驗。網(wǎng)絡參數(shù)首先在改進AlexNet 網(wǎng)絡的基礎上對參數(shù)進行設置。首先對比了batch 的大小對網(wǎng)絡訓練的結果,通過設置batch為16、32、64,得到3 種識別率的變化,對3 種識別率進行分析。在batch為64 的情況下,識別率高、收斂速度快且波動小;接著對比了迭代次數(shù)為100 和150 的情況,結果表明,迭代次數(shù)為150時,識別率更加穩(wěn)定;最后對比了Dropout 系數(shù)為0.5 和0.8 的情況,選擇了0.5 進行實驗,此時識別率波動小,收斂速度較快。在此基礎上,本文設置了3 組對比實驗。

        3.2.1 第一組實驗

        在改進的AlexNet 中進行。在其它參數(shù)不變的情況下,對只添加BN 層與只添加SE 模塊進行對比,結果如圖7、圖8 所示。

        由圖7、圖8 的識別率結果可見,只添加BN 層的識別率波動小,但是識別率較低;添加了注意力機制的識別率雖然相對于只添加BN 層的識別率高,但識別率變化起伏波動大。

        圖7 只添加BN 層的識別率Fig.7 Add only recognition rate of BN layer

        圖8 只添加SE 模塊的識別率Fig.8 Add only recognition rate of SE

        3.2.2 第二組實驗

        將握筆手勢分割圖像、握筆手勢骨架圖像和雙模態(tài)圖像輸入至改進AlexNet 網(wǎng)絡,對識別效果進行比較如圖9 所示。同時,還比較了不同迭代次數(shù)下的識別準確率。

        通過圖9 可以發(fā)現(xiàn),握筆手勢分割圖像的識別率比骨架圖像、以及雙輸入圖像的識別率低。由于采用握筆手勢分割圖像進行識別時,手勢遮擋使得手指的分割結果不明顯;骨架圖像盡管因為部分遮擋導致提取不完整,但是因為同一類型的骨架圖像提取都有一些缺失,且有原圖特征補充,因此骨架圖像的識別率比分割圖像的識別率高;而雙模態(tài)圖像綜合了握筆手勢分割圖像、骨架圖像以及原始圖像的特征,使得其識別率高于握筆手勢分割圖像、骨架圖像。

        圖9 不同迭代次數(shù)下握筆手勢分割圖、骨架圖以及雙模態(tài)圖像的識別率Fig.9 Recognition rates of pen-h(huán)olding gesture segmentation image,skeleton image and bimodal images with different iteration times

        3.2.3 第三組實驗

        比較了本文模型與AlexNet 模型以及文獻[13]中提出的改進AlexNet 模型的識別精度,用于驗證本文改進的AlexNet 模型在特征提取能力上和識別準確率上的提高,實驗結果如圖10 所示。

        圖10 不同迭代次數(shù)下雙模態(tài)圖像輸入至3 種網(wǎng)絡的識別率Fig.10 Recognition rate of bimodal images input to three networks with different iteration times

        由圖10 可知,3 種模型的對比,發(fā)現(xiàn)本文模型的識別率高于AlexNet 以及文獻[13]中改進的AlexNet 模型。由于AlexNet 網(wǎng)絡結構第一個卷積層是11×11、無注意力機制,使得提取的特征不夠豐富有效,且卷積層之后沒有添加BN 層,使得識別率波動大;文獻[13]中雖然提出了添加BN 層以及調參的方法,但是沒有添加注意力機制,使得握筆手勢圖像的重要特征沒有被關注。

        基于改進AlexNet 的雙模態(tài)握筆手勢識別的準確率,相比單模態(tài)以及其它網(wǎng)絡結構有明顯提升。同時,不同迭代次數(shù)產生的識別效果也有所差別。針對本實驗所采用的雙模態(tài)握筆手勢數(shù)據(jù)集及其預處理操作,迭代次數(shù)為150 的時候所獲得的識別效果最好。該實驗結果表明,本文提出的模型通過對雙模態(tài)握筆手勢數(shù)據(jù)集進行特征提取,能夠獲得相比于單模態(tài)數(shù)據(jù)集更加豐富的特征信息,融合這些特征對握筆手勢圖像進行分類,能夠有效提高卷積神經(jīng)網(wǎng)絡的靜態(tài)握筆手勢識別準確率。

        4 結束語

        近年來,關于握筆手勢的理論研究很多,但是相關人工智能方面的實踐卻很少。且當下部分中小學生握筆手勢不標準,導致坐姿不健康的同時致使眼睛近視、頸椎彎曲以及手指關節(jié)增生等問題,對其未來身心健康的發(fā)展造成不良的影響。本文初步研究了握筆手勢的識別,受到多模態(tài)的啟發(fā),提出了一種AlexNet 優(yōu)化與雙模態(tài)的握筆手勢識別方法,同時自建了握筆手勢數(shù)據(jù)集,實現(xiàn)了9 種握筆手勢識別。未來將進一步擴充握筆手勢數(shù)據(jù)集的同時研究動態(tài)的握筆手勢識別。

        猜你喜歡
        模態(tài)特征模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        國內多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        国产精品自在线免费| 2018天天躁夜夜躁狠狠躁| 日本熟妇hdsex视频| 国产亚洲精久久久久久无码| 一区二区久久不射av| 久久精品亚洲成在人线av| 国产精品妇女一区二区三区| 国产人妻精品无码av在线| 久久久国产精品麻豆| 亚洲无码啊啊啊免费体验| 国产丝袜美腿中文字幕| 日本中国内射bbxx| 亚洲精品久久无码av片软件| 亚洲AⅤ男人的天堂在线观看| 综合成人亚洲网友偷自拍| 国产午夜免费高清久久影院| 999国内精品永久免费视频| 亚洲另类激情专区小说婷婷久 | 无码av永久免费大全| 久久精品国产亚洲av一般男女| 日本一二三区视频在线| 国产农村妇女高潮大叫| 国产西西裸体一级黄色大片| 精品国产一区二区三区性色| 久久婷婷人人澡人人爽人人爱| 国产精品日韩高清在线蜜芽| 女优av福利在线观看| 日本熟女中文字幕在线| 中文字幕在线亚洲日韩6页| 国产精品爽爽va在线观看网站| 人妻中文字幕一区二区三区| 亚洲国产精品无码久久一区二区| 精品国产aⅴ无码一区二区| 久久久久成人精品免费播放网站| 亚洲捆绑女优一区二区三区| 一本色道久久88亚洲精品综合| 精品久久久久久久久久久aⅴ| av毛片一区二区少妇颜射| 中文字幕在线乱码一区| 国产人妻久久精品二区三区特黄| www.91久久|