亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)YOLOv3的手勢(shì)實(shí)時(shí)識(shí)別方法

        2020-03-19 12:24:56劉芝國(guó)周文軍劉佳慧
        計(jì)算機(jī)工程 2020年3期
        關(guān)鍵詞:方法模型

        張 強(qiáng),張 勇,劉芝國(guó),周文軍,劉佳慧

        (合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥 230601)

        0 概述

        近年來(lái),隨著人工智能技術(shù)的快速發(fā)展,人機(jī)交互的方式也發(fā)生了很大改變,從打字、觸屏到語(yǔ)音,交互方式的發(fā)展給人們的操作帶來(lái)了便利。然而,更為高效、舒適的交互方式是讓機(jī)器能夠直接理解人的肢體語(yǔ)言。手勢(shì)是一種包含了較多信息量的肢體語(yǔ)言,具有自然、友好、高效和直觀等優(yōu)點(diǎn),因此,基于手勢(shì)的人機(jī)交互引起了人們的關(guān)注并得到廣泛應(yīng)用[1]。

        在人機(jī)交互技術(shù)中,手勢(shì)識(shí)別技術(shù)是重要的組成部分[2]。傳統(tǒng)的基于人工建模方式的手勢(shì)識(shí)別技術(shù)有基于模板匹配、基于數(shù)據(jù)手套、基于隱馬爾科夫模型等。文獻(xiàn)[3]提出了一種基于多特征融合和模板匹配的手勢(shì)識(shí)別方法,其平均識(shí)別準(zhǔn)確率(mean Average Precision,mAP)可以達(dá)到96.7%,識(shí)別速度為15 FPS。文獻(xiàn)[4]提出了一種基于數(shù)據(jù)手套的手勢(shì)識(shí)別方法,其mAP達(dá)到93.19%。文獻(xiàn)[5]設(shè)計(jì)一種基于隱馬爾科夫模型的同步手勢(shì)分割和識(shí)別方法,該方法的mAP達(dá)到92.22%。以上方法在準(zhǔn)確率方面取得了較好的效果,但要滿足靜態(tài)手勢(shì)的實(shí)時(shí)識(shí)別要求,識(shí)別速度和準(zhǔn)確率都需要進(jìn)一步提高。除此之外,通過(guò)人工建模方式設(shè)計(jì)手勢(shì)描述特征的過(guò)程十分繁瑣,且無(wú)法深度挖掘更高層次、更多維度的特征信息,導(dǎo)致基于傳統(tǒng)方法的模型范性差,很難達(dá)到實(shí)時(shí)檢測(cè)的目的。

        近年來(lái),深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)硬件的發(fā)展使得手勢(shì)實(shí)時(shí)檢測(cè)成為可能。文獻(xiàn)[6]提出一種基于人工神經(jīng)網(wǎng)絡(luò)的方法,以進(jìn)行印度手語(yǔ)識(shí)別,該方法的mAP為91.11%。文獻(xiàn)[7]借助Kinect設(shè)備提出一種基于深度信息的手勢(shì)識(shí)別方法,其mAP達(dá)到95%。文獻(xiàn)[8]提出一種將遷移學(xué)習(xí)應(yīng)用于手勢(shì)識(shí)別的方法,其mAP提高到97.81%。文獻(xiàn)[9]提出一種基于SSD的靜態(tài)手勢(shì)實(shí)時(shí)識(shí)別方法,該方法的mAP達(dá)到93.3%,識(shí)別速度為30 FPS,在mAP和識(shí)別速度上有了較大的改進(jìn)。

        文獻(xiàn)[10]在YOLOv2[11]的基礎(chǔ)上提出YOLOv3,YOLOv3是目前最優(yōu)秀的目標(biāo)檢測(cè)算法之一,在檢測(cè)實(shí)時(shí)性方面表現(xiàn)突出。YOLOv2已經(jīng)成功應(yīng)用于行人檢測(cè)[12]、皮膚診斷[13]等領(lǐng)域,作為YOLOv2的改進(jìn)版,YOLOv3檢測(cè)速度更快、檢測(cè)精度更高,因此,將該方法應(yīng)用于靜態(tài)手勢(shì)實(shí)時(shí)識(shí)別時(shí)取得了較好的效果,其mAP達(dá)到95.9%,檢測(cè)速度高達(dá)48 FPS。但是,YOLOv3在識(shí)別精度和速度上仍然具有改進(jìn)的空間,而且由于訓(xùn)練集數(shù)量龐大,導(dǎo)致其訓(xùn)練時(shí)間過(guò)長(zhǎng)。為解決上述問(wèn)題,本文對(duì)YOLOv3方法進(jìn)行改進(jìn),借助Kinect設(shè)備,將實(shí)驗(yàn)數(shù)據(jù)集由RGB圖像改為IR、Registration of RGB、RGB和Depth 4種類(lèi)型的Kinect圖像,進(jìn)一步提高mAP[14],采用k-means聚類(lèi)算法對(duì)初始候選框參數(shù)進(jìn)行優(yōu)化,以提高識(shí)別速度[15]。在此基礎(chǔ)上,加入遷移學(xué)習(xí)方法,對(duì)模型的基礎(chǔ)特征提取器進(jìn)行改進(jìn),從而提高模型的效率[16]。

        1 靜態(tài)手勢(shì)實(shí)時(shí)識(shí)別方法

        本文提出一種基于YOLOv3的靜態(tài)手勢(shì)實(shí)時(shí)識(shí)別方法,該方法的總體流程如圖1所示,其包括訓(xùn)練和測(cè)試2個(gè)部分。訓(xùn)練部分為模塊Ⅰ~模塊Ⅲ,測(cè)試部分為模塊Ⅳ。

        圖1 方法總體流程Fig.1 Overall process of the method

        1.1 訓(xùn)練集制作

        相比多數(shù)公共手勢(shì)數(shù)據(jù)集使用的RGB圖像,Kinect圖像可以挖掘手勢(shì)圖像的深度信息[17-19],原因是Kinect具有紅外線發(fā)射器和由紅外線CMOS(Complementary Metal-Oxide-Semiconductor)攝影機(jī)構(gòu)成的3D結(jié)構(gòu)光深度感應(yīng)器,可以采集IR、Registration of RGB、RGB和Depth圖像。因此,本文借助Kinect設(shè)備自制手勢(shì)數(shù)據(jù)集,訓(xùn)練集制作過(guò)程分為4步,如圖2所示,其中,圖片分辨率單位為像素。

        圖2 訓(xùn)練集制作過(guò)程示意圖Fig.2 Schematic diagram of training set generation process

        訓(xùn)練集制作過(guò)程具體如下:1)使用Kinect設(shè)備為每一個(gè)手勢(shì)場(chǎng)景都拍攝IR、Registration of RGB、RGB和Depth圖像各一張,圖片分辨率為600像素×450像素;2)將每張圖片進(jìn)行復(fù)制,并分別按比例調(diào)整它們的分辨率大小為300 像素×225 像素、400 像素×300 像素、500 像素×375 像素,使用這種方法將數(shù)據(jù)集擴(kuò)增為原來(lái)的4倍;3)將上一步中得到的每張圖片進(jìn)行人工標(biāo)記手勢(shì)區(qū)域,注釋手勢(shì)的類(lèi)別信息和位置信息,生成手勢(shì)標(biāo)簽文件;4)將每一張用于訓(xùn)練的Kinect圖像和對(duì)應(yīng)的手勢(shì)標(biāo)簽文件組合在一起,作為訓(xùn)練集。

        1.2 遷移Darknet-53模型生成

        本文模塊中使用的Darknet-53模型是YOLOv3的基礎(chǔ)特征提取器[10],其作用是提取訓(xùn)練圖像的特征。Darknet-53網(wǎng)絡(luò)架構(gòu)如圖3所示。

        圖3 Darknet-53網(wǎng)絡(luò)架構(gòu)Fig.3 Network architecture of Darknet-53

        Darknet-53網(wǎng)絡(luò)模型結(jié)合了YOLOv2的基礎(chǔ)特征提取器Darknet-19[9]和深度殘差網(wǎng)絡(luò)[20],由連續(xù)的3×3卷積層和1×1殘差層組成。Darknet-53是模型訓(xùn)練過(guò)程中最重要的部分,為解決模型訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題,本文又結(jié)合了遷移學(xué)習(xí)方法使模型的訓(xùn)練更加高效。

        根據(jù)文獻(xiàn)[21-22]對(duì)遷移學(xué)習(xí)的研究和實(shí)踐可以得出,將訓(xùn)練好的模型參數(shù)遷移到新的模型來(lái)幫助新模型訓(xùn)練,可以提高新模型的訓(xùn)練效果。因此,將ASL數(shù)據(jù)集[23]下訓(xùn)練好的Darknet-53網(wǎng)絡(luò)參數(shù)遷移到本文基礎(chǔ)網(wǎng)絡(luò)中并對(duì)其進(jìn)行初始化,過(guò)程如下:

        1)從ASL數(shù)據(jù)集中選取A、B、C、D、E、F、G、H、I和K共10組字母手勢(shì)的樣本,每組包含100個(gè)樣本,來(lái)自不同的5個(gè)人,每個(gè)樣本由一張RGB圖片和一張Depth圖片組成,一共2 000張手勢(shì)圖片,部分樣本示例如圖4所示。

        圖4 ASL數(shù)據(jù)集部分樣本示例Fig.4 Some samples of ASL dataset

        2)將上一步中選取的2 000張手勢(shì)圖片進(jìn)行復(fù)制,并分別按比例調(diào)整它們的分辨率大小為300像素×225像素、400 像素×300像素、500像素×375像素、600像素×450像素,使用這種方法將數(shù)據(jù)集擴(kuò)增為原來(lái)的4倍,一共得到8 000張手勢(shì)圖片。

        3)將上一步中得到的8 000張手勢(shì)圖片經(jīng)過(guò)Darknet-53進(jìn)行預(yù)訓(xùn)練,將訓(xùn)練好的網(wǎng)絡(luò)參數(shù)遷移到基礎(chǔ)網(wǎng)絡(luò)中進(jìn)行初始化,生成遷移Darknet-53模型。

        經(jīng)過(guò)上述過(guò)程,訓(xùn)練集不再經(jīng)過(guò)Darknet-53進(jìn)行特征提取,而是直接經(jīng)過(guò)遷移Darknet-53模型來(lái)提取特征。

        1.3 初始候選框參數(shù)改進(jìn)

        YOLOv3在訓(xùn)練過(guò)程中將圖像劃分為S×S的網(wǎng)格(cell),每個(gè)cell預(yù)測(cè)B個(gè)檢測(cè)邊界框及其置信度PConf(O)[24]。

        PConf(O)=Pr(O)×I

        (1)

        (2)

        (3)

        YOLOv3在目標(biāo)檢測(cè)過(guò)程中引入候選區(qū)域框(anchor box)[25]。候選區(qū)域框是一組固定尺寸和寬高比的初始候選框,其性能優(yōu)劣直接影響到目標(biāo)檢測(cè)的速度和目標(biāo)框位置的精度。為得到最優(yōu)的anchor參數(shù),本文采用k-means聚類(lèi)算法對(duì)自制數(shù)據(jù)集中手工標(biāo)記的目標(biāo)框進(jìn)行聚類(lèi)分析,找到最優(yōu)的k值(anchor box個(gè)數(shù))和k個(gè)聚類(lèi)中心的寬高維度,作為網(wǎng)絡(luò)配置文件中anchor的參數(shù)。

        本文使用手肘法確定k值,指標(biāo)是誤差平方和(Sum of the Squared Errors,SSE)[26-27],SSE計(jì)算如下:

        (4)

        其中,Ci是第i個(gè)簇,p是Ci中的樣本點(diǎn),mi是Ci的重心(Ci中所有樣本的均值),SSE是所有樣本的聚類(lèi)誤差,代表了聚類(lèi)效果的好壞。

        手肘法的核心思想是:隨著k值的增大,樣本劃分更加精細(xì),SSE逐漸變小,當(dāng)k值達(dá)到最優(yōu)聚類(lèi)數(shù)時(shí),繼續(xù)增加k值對(duì)聚類(lèi)程度的提高會(huì)迅速變小,表現(xiàn)為SSE下降幅度驟減,SSE和k的關(guān)系圖呈現(xiàn)出一個(gè)手肘的形狀,肘部對(duì)應(yīng)的k值就是所需的最優(yōu)聚類(lèi)數(shù)。通常k-means聚類(lèi)算法采用歐式距離代表樣本點(diǎn)和樣本均值之間的誤差,這里的樣本點(diǎn)是預(yù)測(cè)框,樣本均值是真實(shí)框,使用I反映預(yù)測(cè)框和真實(shí)框的誤差,I越大,表明誤差越小。用式(5)表示樣本的聚類(lèi)誤差:

        (5)

        其中,Ip表示樣本p的I,用1-Ip表示樣本p的誤差。本文在自制數(shù)據(jù)集上使用手肘法,繪制SSE和k的關(guān)系曲線如圖5所示。

        圖5 SSE隨k值的變化趨勢(shì)Fig.5 SSE changing with k value

        1.4 四類(lèi)Kinect圖像識(shí)別結(jié)果融合

        圖1中的模塊Ⅳ是整個(gè)方法流程的測(cè)試部分,測(cè)試圖像由4種類(lèi)型的Kinect圖像構(gòu)成,不同于只由單個(gè)測(cè)試圖像決定特定場(chǎng)景中某個(gè)手勢(shì)的分類(lèi)方法,本文方法融合了4種類(lèi)型的Kinect測(cè)試圖像對(duì)某個(gè)手勢(shì)的分類(lèi)結(jié)果,用m表示4種類(lèi)型的Kinect圖像,m∈{1,2,3,4},m=1,2,3,4分別代表IR、Registration of RGB、RGB和Depth圖像。用am表示第m種類(lèi)型圖像的置信度??紤]到Registration of RGB圖像來(lái)源于RGB圖像,設(shè)定其置信度為RGB圖像的一半,IR圖像和Depth圖像由其獨(dú)立的傳感器生成,設(shè)定置信度與RGB圖像相同。由此設(shè)定四類(lèi)圖像的置信度分別為:

        用n表示字母手勢(shì),n∈{1,2,3,4,5,6,7,8,9,10},n=1,2,3,4,5,6,7,8,9,10 分別代表字母手勢(shì)A,B,C,D,E,F,G,H,I,K。Pm(n)代表該待測(cè)手勢(shì)被第m種類(lèi)型圖像識(shí)別為字母手勢(shì)n的概率,Pm(n)∈{1,0},當(dāng)且僅當(dāng)該待測(cè)手勢(shì)被第m種類(lèi)型圖像識(shí)別為字母手勢(shì)n時(shí),Pm(n)=1;否則,Pm(n)=0。用p(n)表示融合四類(lèi)Kinect圖像識(shí)別結(jié)果后,該待測(cè)手勢(shì)最終被識(shí)別為字母手勢(shì)n的概率。p(n)的計(jì)算公式如下:

        (6)

        在p(n)中選出概率最大的n所代表的字母,即為最終識(shí)別結(jié)果。

        圖6 4種類(lèi)型的Kinect圖像原圖及其識(shí)別結(jié)果顯示圖Fig.6 Four types of Kinect original images and theirrecognition results

        上述判別方法對(duì)動(dòng)態(tài)視頻同樣有效,原因是該方法的識(shí)別不僅針對(duì)靜態(tài)圖片,還可以是拍攝的一段包含4種類(lèi)型Kinect圖像的視頻,或者調(diào)用Kinect攝像頭同時(shí)輸出4種類(lèi)型的Kinect圖像來(lái)進(jìn)行實(shí)時(shí)識(shí)別。測(cè)試部分是本文方法整個(gè)流程中的最后一個(gè)模塊,經(jīng)過(guò)4個(gè)模塊,可以完成對(duì)自制靜態(tài)手勢(shì)數(shù)據(jù)集的實(shí)時(shí)識(shí)別,下文將通過(guò)實(shí)驗(yàn)驗(yàn)證本文方法的有效性。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 數(shù)據(jù)集

        為了充分地對(duì)比RGB圖像和Kinect圖像對(duì)識(shí)別結(jié)果的影響,本文的實(shí)驗(yàn)數(shù)據(jù)集全部采用自制數(shù)據(jù)集,拍攝工具為網(wǎng)絡(luò)攝像頭mosengsm rqeso008和Microsoft Kinect 2.0。在26個(gè)字母手勢(shì)中選取10個(gè)字母手勢(shì)作為代表,分別為A、B、C、D、E、F、G、H、I、K。為驗(yàn)證方法的魯棒性,在制作數(shù)據(jù)集時(shí),圖像分辨率、單張圖片包含的手勢(shì)個(gè)數(shù)、光線強(qiáng)度、拍攝的距離遠(yuǎn)近、背景、手勢(shì)重疊情況不盡相同。分別用網(wǎng)絡(luò)攝像頭和Kinect設(shè)備拍攝RGB圖像數(shù)據(jù)集和Kinect圖像數(shù)據(jù)集,部分圖像數(shù)據(jù)集示例如圖7所示。

        圖7 自制數(shù)據(jù)集的部分示例圖片F(xiàn)ig.7 Some sample pictures of self-made dataset

        在每種數(shù)據(jù)集中,都按照單張圖片包含的手勢(shì)個(gè)數(shù)小于等于3和大于3分別拍攝不同條件下的7組手勢(shì)圖片各400張。這7組不同條件分別指:正常情況(光照強(qiáng)度為200 lx),光線較暗(光照強(qiáng)度為5 lx),光線較亮(光照強(qiáng)度為10 000 lx),手勢(shì)離攝像頭距離較近(小于1 m,以下簡(jiǎn)稱(chēng)距離較近),手勢(shì)離攝像頭距離較遠(yuǎn)(大于50 m,以下簡(jiǎn)稱(chēng)距離較遠(yuǎn)),手勢(shì)重疊,背景復(fù)雜。除了距離較近和距離較遠(yuǎn)2組條件外,其余組在拍攝過(guò)程中手勢(shì)離攝像頭的距離都在2 m~10 m之間。

        每組的手勢(shì)數(shù)量統(tǒng)計(jì)如表1所示,拍攝的RGB圖像和Kinect圖像數(shù)據(jù)集包含的手勢(shì)總數(shù)分別為16 871和16 892。從拍攝的每組圖片中隨機(jī)抽取100張作為測(cè)試圖片,剩下的300張作為訓(xùn)練圖片并人工標(biāo)記手勢(shì)標(biāo)簽。本文的網(wǎng)絡(luò)攝像頭和Kinect設(shè)備拍攝的圖片分辨率為600 像素×450 像素,為了對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)增,對(duì)每張圖片進(jìn)行復(fù)制并按比例分別調(diào)整它們的分辨率大小為300像素×225像素、400像素×300像素、500像素×375像素,使用這種方法將數(shù)據(jù)集擴(kuò)增為原來(lái)的4倍,總計(jì)16 800張RGB訓(xùn)練圖片、5 600張RGB測(cè)試圖片、16 800張Kinect訓(xùn)練圖片(IR、Registration of RGB、RGB和Depth圖片各4 200張)和5 600張Kinect測(cè)試圖片(IR、Registration of RGB、RGB和Depth圖片各1 400張),以作為下文的實(shí)驗(yàn)數(shù)據(jù)集。

        表1 自制數(shù)據(jù)集手勢(shì)數(shù)量統(tǒng)計(jì)Table 1 Statistics of gestures in self-made dataset

        2.2 結(jié)果分析

        2.2.1 Kinect數(shù)據(jù)集與RGB數(shù)據(jù)集的mAP對(duì)比

        將自制的16 800張Kinect訓(xùn)練圖片及其手勢(shì)標(biāo)簽文件作為圖1中模塊Ⅰ的輸入,按照?qǐng)D1所示的流程,在模塊Ⅳ中使用自制的5 600張Kinect測(cè)試圖片進(jìn)行手勢(shì)識(shí)別得到識(shí)別結(jié)果,分別統(tǒng)計(jì)各類(lèi)型圖片的mAP和融合四類(lèi)Kinect圖像識(shí)別結(jié)果得出的mAP。然后將訓(xùn)練集改為自制的16 800張RGB訓(xùn)練圖片及其手勢(shì)標(biāo)簽文件經(jīng)過(guò)模塊Ⅰ進(jìn)行訓(xùn)練,按照同樣的流程,只是在模塊Ⅳ的識(shí)別部分,減少融合判別的方法,對(duì)5 600張RGB測(cè)試圖片進(jìn)行手勢(shì)識(shí)別得到識(shí)別結(jié)果并計(jì)算mAP。經(jīng)過(guò)上述過(guò)程得出的結(jié)果為:4種Kinect測(cè)試圖像的mAP分別為95.1%(IR圖像)、93.8%(Registration of RGB圖像)、95.0%(RGB圖像)、94.3%(Depth圖像);融合四類(lèi)Kinect測(cè)試圖像識(shí)別結(jié)果的mAP為99.8%;RGB測(cè)試圖像的mAP為95.9%。從實(shí)驗(yàn)結(jié)果可以看出,雖然使用Kinect單一類(lèi)型圖像的mAP不及RGB圖像,但是融合四類(lèi)Kinect圖像識(shí)別結(jié)果后,mAP提高到99.8%,比RGB圖像的95.9%高出3.9個(gè)百分點(diǎn)。為進(jìn)一步研究Kinect 4種類(lèi)型的圖像在不同條件下的性能表現(xiàn),另外進(jìn)行一組對(duì)比實(shí)驗(yàn),分別將RGB圖像訓(xùn)練集和Kinect圖像訓(xùn)練集中的7組不同條件下的數(shù)據(jù)集單獨(dú)取出進(jìn)行訓(xùn)練和識(shí)別,結(jié)果如表2所示。由表2可以看出,當(dāng)光線較暗或較亮?xí)r,RGB圖像和Registration of RGB圖像識(shí)別精度受到很大影響,而IR圖像和Depth圖像具有較高的識(shí)別精度,其中,IR圖像識(shí)別精度更高;當(dāng)手勢(shì)離攝像頭較近或較遠(yuǎn)時(shí),各種類(lèi)型的圖像識(shí)別精度并未受到影響;當(dāng)手勢(shì)發(fā)生重疊時(shí),Depth圖像可以提供很好的識(shí)別效果;在背景復(fù)雜的情況下,只有Registration of RGB圖像保持較高的識(shí)別精度。因此,IR圖像可以在光線較亮或較暗情況下提高識(shí)別精度,Registration of RGB圖像可以在背景復(fù)雜情況下提高識(shí)別精度,RGB圖像可以在正常情況下保持較高的識(shí)別精度,Depth圖像可以在手勢(shì)重疊的情況下提高識(shí)別精度,而不論在上述哪種情況下,使用融合四類(lèi)Kinect圖像識(shí)別結(jié)果的方法取得的識(shí)別正確率總是最高。因此,融合四類(lèi)Kinect圖像識(shí)別結(jié)果的方法可以有效降低光線強(qiáng)度變化、背景和重疊情況對(duì)手勢(shì)識(shí)別精度的影響。

        表2 不同條件下的數(shù)據(jù)集識(shí)別正確率對(duì)比Table 2 Comparison of dataset recognition accuracy under different conditions %

        2.2.2 遷移學(xué)習(xí)實(shí)驗(yàn)與結(jié)果

        按照?qǐng)D1模塊Ⅱ中遷移Darknet-53模型的生成方式,用同樣的方式生成遷移VGG-16模型、遷移Darknet-19模型、遷移Resnet101模型,然后按照?qǐng)D1的流程,訓(xùn)練集使用自制的16 800張Kinect訓(xùn)練圖片及其手勢(shì)標(biāo)簽文件,測(cè)試集使用自制的5 600張Kinect測(cè)試圖片,融合四類(lèi)圖像的識(shí)別結(jié)果,分別使用無(wú)遷移的Darknet-53模型、遷移VGG-16模型、遷移Darknet-19模型、遷移Resnet101模型和遷移Darknet-53模型進(jìn)行訓(xùn)練,并統(tǒng)計(jì)隨著迭代次數(shù)的增加mAP的變化情況,結(jié)果如圖8所示。

        圖8 各遷移學(xué)習(xí)模型的mAP變化情況Fig.8 Change of mAP of different transfer learning models

        隨著迭代次數(shù)的增加,將各遷移學(xué)習(xí)模型mAP趨于穩(wěn)定的值作為平均識(shí)別正確率,從訓(xùn)練開(kāi)始到mAP值趨于穩(wěn)定所花費(fèi)的時(shí)間作為訓(xùn)練時(shí)間,各模型性能對(duì)比結(jié)果如表3所示。

        表3 5種遷移學(xué)習(xí)模型性能對(duì)比Table 3 Performance comparison of five transferlearning models

        從表3可以看出,使用無(wú)遷移的Darknet-53模型比遷移VGG-16模型、遷移Darknet-19模型和遷移Resnet101模型訓(xùn)練時(shí)間更短,mAP更高,使用遷移Darknet-53模型取得了最短的訓(xùn)練時(shí)間和最高的mAP,該結(jié)果表明,在基礎(chǔ)特征提取器的比較中,Darknet-53比VGG-16、Darknet-19、Resnet101效果更好。因此,本文方法沿用YOLOv3中的Darknet-53模型,并在其中加入遷移學(xué)習(xí)技術(shù),將訓(xùn)練時(shí)間從16 h減小到12 h,減小了25%,且mAP保持不變。

        2.2.3 初始候選框優(yōu)化實(shí)驗(yàn)與結(jié)果

        原YOLOv3中設(shè)定anchor的個(gè)數(shù)為9[10],9組寬高維度分別為:(10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116×90),(156×198),(373×326),它們是在COCO數(shù)據(jù)集[28]上進(jìn)行維度聚類(lèi)的結(jié)果。本文使用圖1模塊Ⅲ中的k-means聚類(lèi)算法在自制數(shù)據(jù)集上進(jìn)行維度聚類(lèi),得到的最優(yōu)anchor個(gè)數(shù)為8,對(duì)應(yīng)的8組寬高維度分別為:(19×29)、(32×36)、(30×56)、(41×78)、(50×56)、(53×99)、(68×67)、(104×178)。使用自制的16 800張Kinect訓(xùn)練圖像作為訓(xùn)練集,分別使用YOLOv3的候選框參數(shù)和本文方法的候選框參數(shù),調(diào)用Kinect攝像頭進(jìn)行實(shí)時(shí)識(shí)別,測(cè)試這2種方案的平均重疊率和識(shí)別速度,結(jié)果如表4所示。

        表4 候選框生成方案性能對(duì)比結(jié)果Table 4 Results of performance comparison of candidateframe generation schemes

        從表4可以看出,YOLOv3的識(shí)別速度達(dá)到48 FPS,基本滿足實(shí)時(shí)識(shí)別的要求,但是本文通過(guò)圖1模塊Ⅲ的k-means聚類(lèi)方法對(duì)初始候選框參數(shù)進(jìn)行改進(jìn),得到了更高的平均重疊率,且識(shí)別速度達(dá)到了52 FPS。

        2.2.4 手勢(shì)識(shí)別方法對(duì)比實(shí)驗(yàn)與結(jié)果

        本文對(duì)比其他一些先進(jìn)的深度學(xué)習(xí)方法(Faster R-CNN[25]、SSD[9]、YOLOv2[11]和RetinaNet-101[20]),訓(xùn)練集全部采用自制的16 800張Kinect訓(xùn)練圖像,測(cè)試過(guò)程調(diào)用Kinect攝像頭同時(shí)輸出4種類(lèi)型的Kinect圖像進(jìn)行實(shí)時(shí)識(shí)別。實(shí)驗(yàn)環(huán)境如下:硬件方面,采用的GPU為INVDIA GTX Titan X,CPU為Intel Core i7-7700K,主頻4.2 GHz,內(nèi)存32 GB;軟件方面,采用的操作系統(tǒng)為Ubuntu 16.04,框架為tensorflow1.3。分別計(jì)算并統(tǒng)計(jì)上述方法的mAP和識(shí)別速度,結(jié)果如圖9所示。其中,網(wǎng)絡(luò)模型訓(xùn)練參數(shù)部分依據(jù)經(jīng)驗(yàn)設(shè)定,學(xué)習(xí)率、策略、批尺寸、分步、最大批、分步系數(shù)、動(dòng)量和衰減具體如表5所示。從圖9可以看出,在mAP方面,本文方法和RetinaNet-101方法相比其他方法效果更好;在識(shí)別速度方面,本文方法和YOLOv2方法優(yōu)于其他方法。相比Faster R-CNN、SSD、YOLOv2和RetinaNet-101方法,本文方法在mAP和識(shí)別速度上都具有明顯優(yōu)勢(shì)。

        圖9 不同方法的mAP和識(shí)別速度對(duì)比Fig.9 Comparison of mAP and recognition speedof different methods

        表5 各方法的網(wǎng)絡(luò)模型訓(xùn)練參數(shù)設(shè)置Table 5 Parameter settings of network model training for each method

        3 結(jié)束語(yǔ)

        本文提出一種基于改進(jìn)YOLOv3的靜態(tài)手勢(shì)實(shí)時(shí)識(shí)別方法,數(shù)據(jù)集為自制的4種類(lèi)型的Kinect圖像,基礎(chǔ)特征提取器采用遷移Darknet-53模型,通過(guò)k-means聚類(lèi)算法對(duì)初始候選框參數(shù)進(jìn)行改進(jìn),識(shí)別過(guò)程中融合四類(lèi)Kinect圖像的識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法的mAP為99.8%,識(shí)別速度高達(dá)52 FPS,相比原YOLOv3方法訓(xùn)練時(shí)間縮短25%。下一步將通過(guò)改進(jìn)YOLOv3的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)以及擴(kuò)充數(shù)據(jù)集的方式來(lái)解決識(shí)別過(guò)程中出現(xiàn)的識(shí)別錯(cuò)誤問(wèn)題。此外,本文方法僅針對(duì)靜態(tài)的手勢(shì)進(jìn)行實(shí)時(shí)識(shí)別,對(duì)連續(xù)動(dòng)態(tài)的手勢(shì)進(jìn)行快速識(shí)別也是今后的研究方向。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        国产精品亚洲一区二区杨幂| 天天做天天摸天天爽天天爱 | 丰满巨臀人妻中文字幕| 久久天天躁夜夜躁狠狠85麻豆| 精品深夜av无码一区二区| 亚洲黄色一级毛片| 中文字幕日韩人妻在线| 日韩肥臀人妻中文字幕一区| 国产一区二区三区乱码| 无码人妻丰满熟妇精品区| 久久AⅤ天堂Av无码AV| 成人免费播放视频影院| 少妇性俱乐部纵欲狂欢电影| 曰本无码人妻丰满熟妇5g影院| 国产 无码 日韩| 国产91成人精品高潮综合久久| 成人免费xxxxx在线观看| 国产一级特黄无码免费视频| 亚洲一区日本一区二区| 亚洲综合一区中文字幕| 久久精品麻豆日日躁夜夜躁| 中文字幕无码专区一VA亚洲V专| 淫秽在线中国国产视频| 国产成人av无码精品| 少妇装睡让我滑了进去| 巨乳av夹蜜桃站台蜜桃机成人| 国产女人av一级一区二区三区 | 五月婷婷开心六月激情| 少妇人妻综合久久中文字幕| 天天av天天爽无码中文| 日韩丝袜人妻中文字幕| 好大好爽我要高潮在线观看| 50岁熟妇的呻吟声对白| 一本一道AⅤ无码中文字幕| 国产精品久久婷婷免费观看| 亚洲国产精品无码专区| 97视频在线播放| 亚洲国产综合一区二区| 精品国际久久久久999波多野| 久久成人麻豆午夜电影| 亚洲区福利视频免费看|