亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的人耳識(shí)別研究

2015-12-02 07:01:46穆志純

中北大學(xué)學(xué)報(bào)(自然科學(xué)版) 2015年5期

胡穎，穆志純

（1.山西職業(yè)技術(shù)學(xué)院電氣工程與自動(dòng)化系，山西太原030006；2.北京科技大學(xué) 自動(dòng)化學(xué)院，北京100083）

0 引言

人體生物特征的識(shí)別應(yīng)用越來越廣泛，但是人體生物特征隨著年齡及環(huán)境的變化而變化，因此選取的生物特征能保證其在一定時(shí)間的穩(wěn)定性尤其重要.臉部特征和耳部特征最易提取，并且不易被復(fù)制，因此用來作為研究的對(duì)象.其中耳部特征隨年齡變化更小些，不易被損傷，穩(wěn)定性更好，在做識(shí)別過程中不需要人主動(dòng)參與，有很好的隱蔽性.相對(duì)于臉部識(shí)別，人耳圖像較小，在識(shí)別過程中計(jì)算量較小.因此，人耳識(shí)別成為目前研究的重點(diǎn).

根據(jù)特征提取方法的不同，人耳識(shí)別一般分為基于幾何形狀特征的識(shí)別［1-5］和基于代數(shù)特征的識(shí)別［6-7］兩種方法.前者需要提取外耳和內(nèi)耳的邊緣特征，具有直觀、快速的優(yōu)點(diǎn)，但與頭部姿勢(shì)、拍攝角度以及光照強(qiáng)度等有關(guān)，使得提取的特征不夠穩(wěn)定；后者要求數(shù)據(jù)集包含于全局線性結(jié)構(gòu)，實(shí)際應(yīng)用中難以滿足.因此，本文在考慮識(shí)別速度和特征穩(wěn)定性的基礎(chǔ)上，提出一種基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的人耳識(shí)別方法.

卷積神經(jīng)網(wǎng)絡(luò)作為人工神經(jīng)網(wǎng)絡(luò)一種，其識(shí)別的高效性引起了廣泛的重視，主要應(yīng)用在語音分析和圖像識(shí)別領(lǐng)域.卷積神經(jīng)網(wǎng)絡(luò)具有獨(dú)特的多層網(wǎng)絡(luò)結(jié)構(gòu)，利用空間關(guān)系將權(quán)值在各層之間共享，減少了需要訓(xùn)練學(xué)習(xí)權(quán)值的數(shù)量，有效地把網(wǎng)絡(luò)模型復(fù)雜度降至最低.當(dāng)輸入是圖像的時(shí)候，該網(wǎng)絡(luò)的結(jié)構(gòu)較其他網(wǎng)絡(luò)的優(yōu)勢(shì)更加突出.卷積神經(jīng)網(wǎng)絡(luò)將圖像分解后，用一小部分作為輸入，減小已有算法中特征提取的復(fù)雜度，避免了數(shù)據(jù)重建過程［8-9］.卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在人臉識(shí)別和檢測(cè)機(jī)器人導(dǎo)航、手寫字符識(shí)別、路人檢測(cè)中得到成功的應(yīng)用［10-13］.

本文首先介紹了卷積神經(jīng)網(wǎng)絡(luò)原理與結(jié)構(gòu)，進(jìn)而對(duì)其結(jié)構(gòu)和算法進(jìn)行了改進(jìn)并應(yīng)用于人耳識(shí)別中，通過與原有算法和三層感知神經(jīng)網(wǎng)絡(luò)識(shí)別對(duì)比，結(jié)果表明改進(jìn)算法的識(shí)別率要優(yōu)于以前的算法.

1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)一般由輸入層、特征提取層（S-層）、特征映射層（C-層）和輸出層等串聯(lián)形成多層神經(jīng)網(wǎng)絡(luò)，每層由多個(gè)二維平面組成，每個(gè)平面（代表一個(gè)特征）包含若干神經(jīng)元.S-面由相同特征的S-元組合構(gòu)成，S-層由不同特征的S-面組成.提取相同特征的C-元組合在一起形成C-面，不同特征的C-面組成C-層.二維圖像由輸入層直接接受，每個(gè)輸入級(jí)只含有一個(gè)輸入層，S-層與C-層串接形成中間級(jí)，各層互連的結(jié)構(gòu)中嵌入圖像特征的提取.

卷積神經(jīng)網(wǎng)絡(luò)中，每個(gè)神經(jīng)元對(duì)全局圖像的識(shí)別只需連接感受野的局部圖像，不需對(duì)全局圖像進(jìn)行連接，因此降低了參數(shù)數(shù)目.在特征提取層，每個(gè)神經(jīng)元的輸入與前一層的感受野相連，通過提取感受野的局部特征從而確定特征間的位置，將每層的特征組合起來就得到了全局的特征信息.對(duì)于圖像上全部的位置都采用同樣的學(xué)習(xí)特征，降低了運(yùn)算復(fù)雜度.同時(shí)，在該網(wǎng)絡(luò)中將激活函數(shù)用sigmoid表示，可以保持特征映射的位移不變性.

在識(shí)別時(shí)，為適應(yīng)輸入樣本可能會(huì)產(chǎn)生的畸變，采用特有的兩次特征提取結(jié)構(gòu).在這種結(jié)構(gòu)中，卷積神經(jīng)網(wǎng)絡(luò)的局部平均與二次提取是通過每一個(gè)特征提取層（S-層）和對(duì)應(yīng)的特征映像層（C-層）連接來求得.

卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)如圖1所示.本文的CNN是4層網(wǎng)絡(luò)的結(jié)構(gòu)，隱含層是由S-層和C-層組成.原始圖像經(jīng)輸入層映射到Us2層的多個(gè)平面上，表示第一次提取了原始圖像的多個(gè)特征.然后，以此類推，每層提取前一層的局部特征，通過訓(xùn)練，對(duì)S-層神經(jīng)元的權(quán)值進(jìn)行修正.為保持位移旋轉(zhuǎn)不變性，同一平面對(duì)應(yīng)的神經(jīng)元權(quán)值相等，以保持位移、旋轉(zhuǎn)不變性.

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖 Fig.1 Convolution neural network structure

2 基于卷積神經(jīng)網(wǎng)絡(luò)的人耳識(shí)別

本文的CNN網(wǎng)絡(luò)由輸入層和輸出層構(gòu)成，輸入層的節(jié)點(diǎn)數(shù)為400，2個(gè)輸出層節(jié)點(diǎn)數(shù)，其中還包含了4層隱含層.網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.輸入、輸出層的設(shè)計(jì)：輸入層、中間層（隱含層）和輸出層三層結(jié)構(gòu)構(gòu)成了基本的卷積神經(jīng)網(wǎng)絡(luò)模型.中間層可以是多層，但研究表明，中間層的層數(shù)和神經(jīng)元的個(gè)數(shù)并非越多越好.為了更好地模擬人耳特征，輸入窗口的大小設(shè)置為通用的20×20，輸入層節(jié)點(diǎn)數(shù)為400，恰好對(duì)應(yīng)于20×20圖像窗口中的各個(gè)像素；考慮到識(shí)別結(jié)果只判斷是否為人耳，因此分類的卷積神經(jīng)網(wǎng)絡(luò)類別數(shù)為2；輸出層的節(jié)點(diǎn)數(shù)也定位為2.

中間層的設(shè)計(jì)：CNN的中間層由圖像特征增強(qiáng)的卷積層、數(shù)據(jù)縮減的子抽樣層和兩個(gè)激活函數(shù)層構(gòu)成.圖像特征增強(qiáng)的卷積層的設(shè)計(jì)主要基于信號(hào)的卷積運(yùn)算來實(shí)現(xiàn)圖像的特征增強(qiáng).將輸入圖像的信號(hào)矩陣分別與增強(qiáng)圖像整體特征的兩個(gè)拉普拉斯算子和強(qiáng)化了邊緣特征的兩個(gè)Sobel邊緣算子構(gòu)成的卷積核進(jìn)行卷積運(yùn)算后，得到4個(gè)18×18的待測(cè)圖像.利用圖像局部相關(guān)性的原理在子抽樣層將卷積層輸出的4個(gè)18×18圖像作為輸入，分別進(jìn)行子抽樣運(yùn)算后得到輸出為4個(gè)9×9圖像.原圖像相鄰4個(gè)點(diǎn)求取平均值得到子抽樣的樣點(diǎn)值.該設(shè)計(jì)可以有效減少數(shù)據(jù)處理運(yùn)算量，又保留了原圖像的主要信息.

圖2 基于卷積神經(jīng)網(wǎng)絡(luò)的人耳識(shí)別原理圖 Fig.2 Ear recognition schematics based on convolution neural network

激活函數(shù)層的設(shè)計(jì)分為兩層：第一層中對(duì)抽樣層輸出的4個(gè)9×9圖像分別利用激活函數(shù)進(jìn)行連結(jié)，得到相應(yīng)的中間輸出.第二層中將4個(gè)激活函數(shù)“并與”方式與輸出層連接，得出神經(jīng)網(wǎng)絡(luò)的最終判斷結(jié)果.本層訓(xùn)練所需激活函數(shù)為9×9×4+1×4個(gè).

3 仿真結(jié)果分析

本文選用北京科技大學(xué)的USTB人耳庫.該庫現(xiàn)有790幅人耳圖像，每幅圖像的大小為100×150，部分圖像如圖3所示.實(shí)驗(yàn)將人耳集合劃分為訓(xùn)練集、檢驗(yàn)集和測(cè)試集，隨機(jī)選取訓(xùn)練集的數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，前向傳播得到網(wǎng)絡(luò)的輸出；利用輸出值與標(biāo)簽值的最大熵準(zhǔn)則，使用反向傳播算法來調(diào)整卷積神經(jīng)網(wǎng)絡(luò)權(quán)重，在驗(yàn)證集中檢驗(yàn)識(shí)別準(zhǔn)確率，隨機(jī)選取訓(xùn)練集數(shù)據(jù)，直至識(shí)別率收斂為止，這時(shí)模型參數(shù)訓(xùn)練完成.在測(cè)試過程中利用訓(xùn)練好的模型參數(shù)對(duì)測(cè)試機(jī)進(jìn)行預(yù)測(cè)，獲得此卷積神經(jīng)網(wǎng)絡(luò)的最終的識(shí)別準(zhǔn)確率.

圖3 人耳樣本Fig.3 Ears sample

為了進(jìn)一步證實(shí)維數(shù)與旋轉(zhuǎn)角度對(duì)于識(shí)別率的影響，實(shí)驗(yàn)測(cè)試集本文選取旋轉(zhuǎn)角度為5°～35°，間隔為10°的方法進(jìn)行識(shí)別.每個(gè)偏轉(zhuǎn)角度從10～100維取值，每隔10維取一個(gè)值.表1，圖4和圖5給出了對(duì)比實(shí)驗(yàn)結(jié)果.

圖4 識(shí)別率曲線 Fig.4 Recognition rate curve

表1 兩種神經(jīng)網(wǎng)絡(luò)識(shí)別率對(duì)比 Tab.1 Comparison of recognition ratio between two neural networks

圖5 不同角度的人耳識(shí)別結(jié)果 Fig.5 Ear recognition results in different angles

由圖5可以看出，隨著維數(shù)的增加，三層卷積神經(jīng)網(wǎng)絡(luò)和三層感知神經(jīng)網(wǎng)絡(luò)的識(shí)別概率都趨于上升.與感知神經(jīng)網(wǎng)絡(luò)相比，本文提出的卷積神經(jīng)網(wǎng)絡(luò)具有更好的識(shí)別率.當(dāng)旋轉(zhuǎn)角度發(fā)生變化時(shí)，兩種方法的識(shí)別概率均發(fā)生變化.當(dāng)旋轉(zhuǎn)角度為35°時(shí)，兩種方法的識(shí)別概率均優(yōu)于其他角度.綜合圖4和圖5，可得以下結(jié)論：

1）嵌入維數(shù)越大，降維后所保留的特征信息越多，識(shí)別概率越大.

2）卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別率基本不受維數(shù)影響或者是影響基本沒有，而感知神經(jīng)網(wǎng)絡(luò)的識(shí)別率受維數(shù)影響較大.

4 結(jié) 論

本文將卷積神經(jīng)網(wǎng)絡(luò)用于人耳識(shí)別中，提出一種新的識(shí)別方法.能夠直接提取人耳圖像特征，再利用二次特征識(shí)別方法對(duì)人耳圖像進(jìn)行識(shí)別，可以有效提高識(shí)別率，尤其是在人耳角度從0°～35°范圍變化時(shí)，本文算法識(shí)別概率最高可達(dá)99%.實(shí)驗(yàn)表明，在人耳姿態(tài)發(fā)生較大變化時(shí)，本文算法仍能保持良好的識(shí)別概率，穩(wěn)定性高于傳統(tǒng)的感知神經(jīng)網(wǎng)絡(luò).同時(shí)實(shí)驗(yàn)還對(duì)比了維數(shù)與識(shí)別率的關(guān)系，綜合考慮維數(shù)和識(shí)別率的關(guān)系，給出了不同維數(shù)下的識(shí)別結(jié)果，通過結(jié)果對(duì)比認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)基本不受維數(shù)影響，這對(duì)于今后研究姿態(tài)人耳圖像識(shí)別具有一定的參考價(jià)值.

［1］Iannarelli A.Ear identification，forensic identification series［M］.California：Fremont Paramount Publishing Company，1989.

［2］Burge M，Burge W.Ear biometrics in computer vision［C］.Proceedings of the 15th International conference of Pattern Recognition.Barcelona，Spain，2000，2：822-826.

［3］Hurley D J，Nixon M S，Carter J N.Force field energy functions for image feature extraction［J］.Image and VisionComputing（S0262-8856），2002，20（5／6）：311-317.

［4］Hurley D J，Nixon M S，Carter J N.A new force field transform for ear and face recognition［C］.Proceedings of the IEEEInternational Conference on Image Processing.Vancouver，Canada，2000，1：25-28.

［5］Hurley D J，Nixon M S，Carter J N.Force field feature extraction for ear biometrics［J］.Computer Vision and Image Understanding（S1077-3142），2005，98（3）：491-512.

［6］Chang K，Bowyer K W，Sarkar S，et al.Comparison and combination of ear and face images in appearancebased biometrics［J］.IEEE Transactions on Pattern A-nalysis and Machine Intelligence（S0162-8828），2003，25（9）：1160-1166.

［7］Zhang Haijun，Mu Zhichun，Qu Wei，et al.A novel approach for ear recognition based on ICA and RBF network［C］.Proceedings of 2005 International Conference on Machine Learning and Cybernetics，Guangzhou，China，2005，7：4511-4515.

［8］Seung H，Lee D.The manifold ways of perception［J］.Science（S0036-8075），2000，290（5500）：2268-2269.

［9］Lu H M，F(xiàn)ainman Y，Robert H N.Image manifolds［J］.Proceedings of SPIE（S0277-786X），1998，3307：52-63.

［10］Lecun Y.Generalization and network design strategies［R］.Pfeifer：Connectionist Research Group，1989.

［11］Simard P Y，Steinkraus D，Platt J C.Best practices for convolutional neural networks applied to visual document analysis［C］.Proc of the Seventh International Conference on Document Analysis and Recognition.Washington：IEEE，2003：958-962.

［12］Ranzato M A，Poultney C，Chopra S，et al.Efficient learning of sparse representations with an energybased model［C］.NIPS 2006.Cambridge：MIT Press，2007：1137-1144.

［13］Jarrett K，Kavukcuoglu K，Ranzato M A，et al.What is the best Multi-Stage architecture for object recognition［C］.Proc of ICCV.Kyoto：IEEE，2009：2146-2153.