亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于AlexNet網(wǎng)絡(luò)的交通標(biāo)志識別方法

2022-03-30 07:28:10徐兢成王麗華

無線電工程 2022年3期

關(guān)鍵詞：特征模型

徐兢成，王麗華

(南京信息工程大學(xué) 自動化學(xué)院，江蘇南京 210044)

0 引言

在現(xiàn)有的交通標(biāo)志識別研究中，已經(jīng)有很多方法用來識別和檢測交通標(biāo)志，因?yàn)榻煌?biāo)志具有與周邊環(huán)境相比更為獨(dú)特的形狀和顏色特征，主要的識別方法有基于標(biāo)志形狀特征的識別方法、基于其顏色特征的識別方法以及結(jié)合二者主要特征加入神經(jīng)網(wǎng)絡(luò)進(jìn)行智能檢測的識別方法。在這些方法中，最早是由Piccioli等[1]提出的基于交通標(biāo)志特定形狀進(jìn)行邊緣檢測的模板匹配識別方法，Shen等[2]利用交通標(biāo)志中的R層信息對圖像進(jìn)行分割，大略提取出標(biāo)志的候選區(qū)域進(jìn)行識別的方法，后來經(jīng)過相關(guān)學(xué)者的不斷努力，逐漸出現(xiàn)了SNCC(Simplified Normalized Cross Correlation)算法等。如今對交通標(biāo)志的識別大多采用多尺度多空間相結(jié)合的方式進(jìn)行識別，有基于貝葉斯和馬爾科夫隨機(jī)場的識別方法[3]、基于OSPA(Optimal Sub-patten Assignment)距離和特征點(diǎn)采樣的識別方法[4]以及基于卷積神經(jīng)網(wǎng)絡(luò)的識別方法。這些識別方法致力于識別交通標(biāo)志的形狀以及顏色特征，進(jìn)行反復(fù)訓(xùn)練提取特征點(diǎn)，在大多數(shù)的識別環(huán)境下都有著不錯的識別速率與正確性，但是在應(yīng)對復(fù)雜環(huán)境下的標(biāo)志識別時(shí)往往還不具備很好的識別效率，缺乏一定的普適性。此外，在現(xiàn)實(shí)環(huán)境下的標(biāo)志識別中，還面臨著以下幾點(diǎn)問題：首先在具體的應(yīng)用中捕捉交通標(biāo)志的角度不同，對圖像特征的提取是一項(xiàng)很大的挑戰(zhàn)；其次，嚴(yán)酷的天氣環(huán)境也會大大影響獲取交通標(biāo)志圖像的質(zhì)量，進(jìn)一步提高了識別難度；最后，當(dāng)交通標(biāo)志識別運(yùn)用到車輛行駛過程中時(shí)，對圖像捕捉的速度，實(shí)時(shí)識別的精確度提出了更高的要求。

基于上述存在的問題，也為了能夠在性能和應(yīng)用條件之間起到良好的平衡[5]，本文提出了一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)用于道路交通標(biāo)志識別，首先在數(shù)據(jù)集的處理上采用了多種方法進(jìn)行數(shù)據(jù)增強(qiáng)，網(wǎng)絡(luò)架構(gòu)上用批歸一化處理代替了原有網(wǎng)絡(luò)的局部歸一化處理，提高了網(wǎng)絡(luò)的收斂速度，并且在最終輸入全連接層之前加入了全局平均池化(Global Average Pooling，GAP)層。經(jīng)過實(shí)際測試，該方法相對于傳統(tǒng)的識別手段計(jì)算量更小，魯棒性更好，使用泛化性更強(qiáng)，具備良好的應(yīng)用前景。

1 卷積神經(jīng)網(wǎng)絡(luò)介紹

1.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)的概念取自于20世紀(jì)60年代Hubel等人在研究貓視覺皮層細(xì)胞時(shí)所提出的感受野概念(Receptive Field),然后在80年代Fukushima基于感受野概念的基礎(chǔ)提出了神經(jīng)認(rèn)知器(Neocognitron)概念，這便是最初CNN實(shí)現(xiàn)的原型。在此之后大量的卷積神經(jīng)模型相繼涌現(xiàn)，例如LeNet AlexNet VGG NiN GooLeNet等。

傳統(tǒng)的CNN包括輸入層、卷積層、激勵層、池化層和全連接層5個(gè)部分。輸入層是對輸入的圖像進(jìn)行預(yù)處理，常見的預(yù)處理方法有去均值和歸一化。卷積層是對該層網(wǎng)絡(luò)進(jìn)行卷積處理，由多個(gè)特征面(Feature Map)組成，每個(gè)特征面又由多個(gè)神經(jīng)元所組成，神經(jīng)元通過卷積核與上一層特征面的局部相連接，卷積層通過卷積操作自主提取上層特征，因此CNN相對于傳統(tǒng)的全神經(jīng)網(wǎng)絡(luò)而言，既是一個(gè)特征提取器又是一個(gè)分類器[6]。激勵層的作用是對卷積層的輸出做一次非線性映射，若沒有激勵層的作用，每一層輸出都將與上一層輸入呈現(xiàn)線性關(guān)系，不再具備隱層的效果[7]。激勵層的激勵函數(shù)有很多，例如Sigmoid、Tanh、以及ReLU函數(shù)，近些年研究中應(yīng)用最多的是ReLU函數(shù)，它所具備的單邊抑制性、稀疏激活性都能大大加快網(wǎng)絡(luò)的迭代速率，降低網(wǎng)絡(luò)復(fù)雜度與參數(shù)量，有利于網(wǎng)絡(luò)進(jìn)行訓(xùn)練。池化層的作用是對上層輸出進(jìn)行池化(Pooling)操作，旨在通過降低特征面的分辨率獲取具有空間不變性的特征[8]，作用是降低特征維度，減少參數(shù)數(shù)量，從而防止過擬合。常用的池化方法包括最大池化(Max Pooling)和平均池化(Average Pooling)法，本文將采用最大池化的方法。在池化層后是全連接層，全連接層用來整合卷積層或者池化層中具有區(qū)別性的局部信息，然后傳輸給輸出層利用損失函數(shù)進(jìn)行分析，從而完成分類任務(wù)。

相比于其他的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，CNN具有局部連接、權(quán)值共享和池化的特點(diǎn)[9]，其中局部連接使神經(jīng)元只與前一輸出層的局部區(qū)域相連接，權(quán)值共享的存在使所有的局部連接都使用相同的參數(shù)，最后通過池化的作用減少圖片的規(guī)模，減少神經(jīng)元數(shù)目，從而使網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)大大減少，計(jì)算復(fù)雜度降低，過擬合程度減少，從而使網(wǎng)絡(luò)模型能夠處理完成更加復(fù)雜的分類任務(wù)，大大提高了模型的泛化能力。

1.2 AlexNet卷積神經(jīng)網(wǎng)絡(luò)

AlexNet網(wǎng)絡(luò)模型由Hinton以及他的學(xué)生Alex Krizhevsky所設(shè)計(jì)，并在2012年的ImageNet競賽中獲得冠軍，其物體分類錯誤率僅有16.4%，相比于傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法而言極其出色。該模型由11層組成，分別為5個(gè)卷積層、3個(gè)池化層以及3個(gè)全連接層，其中圖像特征信息的提取工作主要由卷積層和池化層完成，而全連接層的作用則是整合局部特征信息，將特征信息扁平化處理，傳遞給Softmax層繼續(xù)完成分類任務(wù)[10]。

相比于傳統(tǒng)的CNN，AlexNet網(wǎng)絡(luò)采用了許多有效的改動，例如采用了ReLU函數(shù)進(jìn)行激活，起到稀疏網(wǎng)絡(luò)減少參數(shù)的作用。ReLU函數(shù)的表達(dá)式如下：

ReLU(x)=max(0,x)。

(1)

其次，重疊池化(Overlapping Pooling)、局部歸一化處理(Local Response Normalization)、在全連接層采用Dropout處理等等，這些操作大大減少了網(wǎng)絡(luò)復(fù)雜度以及參數(shù)數(shù)量，提高了網(wǎng)絡(luò)的訓(xùn)練速度，減少了過擬合[11]。這也是本文選用該網(wǎng)絡(luò)的主要原因之一。

2 本文方法

2.1 數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)又稱為數(shù)據(jù)擴(kuò)增，具體表現(xiàn)為在不增加數(shù)據(jù)集的情況下使現(xiàn)有數(shù)據(jù)產(chǎn)生更多的使用價(jià)值。本文使用的數(shù)據(jù)集來源于互聯(lián)網(wǎng)，為了使其具備更強(qiáng)的魯棒性和泛化性能，減少過擬合，擬對所采用的數(shù)據(jù)集采用以下幾類簡易方法擴(kuò)充數(shù)據(jù)集。

2.1.1 圖像旋轉(zhuǎn)

在線性代數(shù)中，如想對某一向量改變方向但不改變原有大小，可以對其乘以旋轉(zhuǎn)矩陣(Rotation Matrix)，其公式具體如下：

(2)

對現(xiàn)有的數(shù)據(jù)集分別乘以旋轉(zhuǎn)矩陣，其角度分別為90°，180°，270°。理論上這樣可以將現(xiàn)有的數(shù)據(jù)集擴(kuò)大三倍，大大提高了有限數(shù)據(jù)集的利用價(jià)值，進(jìn)一步提高了該網(wǎng)絡(luò)的學(xué)習(xí)能力。圖1是對圖像做一次旋轉(zhuǎn)變換。

圖1 圖像旋轉(zhuǎn)變換Fig.1 Image rotation transformation

2.1.2 圖像翻轉(zhuǎn)

通過對圖像進(jìn)行簡單的豎直或者水平翻轉(zhuǎn)也可以有效地?cái)U(kuò)充現(xiàn)有的數(shù)據(jù)集，圖2為圖像水平翻轉(zhuǎn)示意。

圖2 圖像水平翻轉(zhuǎn)Fig.2 Image horizontal flip

2.1.3 Mixup—多樣本數(shù)據(jù)增強(qiáng)方法

該方法是一種基于鄰域風(fēng)險(xiǎn)最小化原則的數(shù)據(jù)增強(qiáng)方法，它使用線性插值得到新樣本數(shù)據(jù)[12]。表示為：

(xn,yn)=λ(xi,yi)+(1-λ)(xj,yj)，

(3)

式中，λ的取值為0～1。通過該混類數(shù)據(jù)增強(qiáng)方式，本實(shí)驗(yàn)?zāi)Ｐ偷聂敯粜院头夯缘玫搅撕艽蟮奶岣摺?/p>

2.1.4 顏色擾動

本文還隨機(jī)對部分的圖片進(jìn)行了亮度和對比度的修改，以期能對不同光照條件下的圖片處理能力有所提高。

2.2 數(shù)據(jù)集

本實(shí)驗(yàn)采用的數(shù)據(jù)集是 GTSRB-2020，來源于德國交通標(biāo)志數(shù)據(jù)庫，共包含43個(gè)類別的標(biāo)志，總計(jì)40 000張樣本。本實(shí)驗(yàn)使用其中所有類型，每種類型300～2 000張樣本不等，樣本數(shù)據(jù)類型為JPG。圖片采集于各類自然環(huán)境下交通路口圖景，不僅僅有該類標(biāo)識清晰的樣本，還有大量的低分辨率、光照強(qiáng)度或大或小環(huán)境下的模糊樣本，此外各樣本還或大或小、左右顛倒，具備了實(shí)際路況時(shí)可能發(fā)生的各種條件[13]。除此之外，為避免數(shù)據(jù)樣本過少可能造成的網(wǎng)絡(luò)模型過擬合等現(xiàn)象發(fā)生，通過上述各類數(shù)據(jù)增強(qiáng)方式，對現(xiàn)有樣本數(shù)量進(jìn)行擴(kuò)大。樣本用于訓(xùn)練集和測試集的分配比例為7∶3，另外本數(shù)據(jù)集有單獨(dú)的驗(yàn)證集無需再進(jìn)行分配。圖3是本文所用到的部分?jǐn)?shù)據(jù)集。

圖3 數(shù)據(jù)集Fig.3 Dataset

2.3 批量歸一化處理

在網(wǎng)絡(luò)模型的訓(xùn)練過程中，由于每一層輸入圖像的特征參數(shù)一直在向前傳播，進(jìn)行更新，導(dǎo)致隱層數(shù)據(jù)的分布也會一直發(fā)生變化[14]，大大降低了網(wǎng)絡(luò)的訓(xùn)練速度。針對該現(xiàn)象，本文采用批歸一化算法(Batch Normalization)對其進(jìn)行優(yōu)化處理，其優(yōu)點(diǎn)是縮短訓(xùn)練時(shí)間、加快網(wǎng)絡(luò)收斂、提高網(wǎng)絡(luò)的泛化能力。該算法的原理是在每層輸入時(shí)加入批歸一化層，使其每一層均值為0，標(biāo)準(zhǔn)差為1，保證了數(shù)據(jù)的穩(wěn)定性。主要公式如下：

(4)

(5)

(6)

(7)

式中，m為mini-batch size；ε為一個(gè)非常微小的正數(shù)；γ，β為2個(gè)可學(xué)習(xí)重構(gòu)參數(shù)。首先對批樣本數(shù)據(jù)進(jìn)行均值μ求解，其次計(jì)算數(shù)據(jù)方差，使用求得的均值與方差對批次數(shù)據(jù)進(jìn)行歸一化處理，最后加入學(xué)習(xí)參數(shù)，使得輸出的歸一值服從標(biāo)準(zhǔn)的高斯分布。BN算法的加入使得網(wǎng)絡(luò)的訓(xùn)練速度相較于以前提升了10倍左右，相較于LRN算法，是一種更為有效的歸一化處理[15]。

2.4 全局平均池化層

CNN在通常的分類過程中，是對卷積層最后一層的輸出特征圖進(jìn)行量化，量化后的結(jié)果會進(jìn)入全連接層，但是全連接層結(jié)構(gòu)復(fù)雜，參數(shù)較多，極易產(chǎn)生過擬合[16]，使模型的泛化能力大大降低，于是本文采用在全連接層輸入之前加入GAP層[17]，對輸入特征圖進(jìn)行全局池化，每個(gè)特征圖都可以得到一個(gè)輸出，大大地減少了網(wǎng)絡(luò)參數(shù)，避免了過擬合的發(fā)生。此外，它還使得網(wǎng)絡(luò)空間結(jié)構(gòu)更具穩(wěn)定性。

2.5 本文網(wǎng)絡(luò)結(jié)構(gòu)

基于上述方法，本文網(wǎng)絡(luò)結(jié)構(gòu)用BN處理取代AlexNet網(wǎng)絡(luò)中原有的LRN處理，在原有的全連接層之前加入GAP層并取代它。網(wǎng)絡(luò)包含9層，輸入圖像的分辨率為227 pixel×227 pixel×3 pixel。第一卷積層使用步幅為4，尺寸為11×11的卷積核;第二卷積層使用步幅為1，尺寸為5×5的卷積核;之后第三、四、五卷積層均采用步幅為1，尺寸為3×3的卷積核。需要特別標(biāo)注的是，對所有的卷積層使用ReLU線性激活函數(shù)，并且將原有的LRN處理全部修改為BN批歸一化處理。在第一、二、五卷積層之后使用尺寸為3×3，步幅為2的池化層進(jìn)行最大重疊池化處理。全局平均池化層的內(nèi)核設(shè)置為3×3，最終輸出的神經(jīng)元數(shù)量為43，之后將所提取的特征向量輸入到Softmax中用于交通標(biāo)志識別分類，最終輸出預(yù)測值。表1是本文網(wǎng)絡(luò)參數(shù)設(shè)定，圖4是本文網(wǎng)絡(luò)模型結(jié)構(gòu)總體框架。

表1 本文網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)設(shè)定

圖4 網(wǎng)絡(luò)框架Fig.4 Network framework

表1中Type為各層類型，Conv表示卷積層,Max Pooling表示最大池化層，LRN表示局部歸一化操作。第二列參數(shù)K表示各層卷積核尺寸，s表示卷積或者池化層的步幅，第三列F表示輸出特征圖的維度，M表示輸出特征圖的數(shù)量。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境設(shè)置

本實(shí)驗(yàn)硬件環(huán)境如下：使用一塊GeForce RTX 2060顯卡，CPU型號為i7-9700 k，內(nèi)存16 GB，平臺為Tensorflow2.4，操作系統(tǒng)為Windows10。在訓(xùn)練和測試過程中，本網(wǎng)絡(luò)模型采用交叉熵作為損失函數(shù)，用Adam算法迭代訓(xùn)練和測試網(wǎng)絡(luò)參數(shù)，初始學(xué)習(xí)率設(shè)置為0.001。Batchsize設(shè)置為64，訓(xùn)練迭代50次。

3.2 本文優(yōu)化網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果及分析

基于2.2中的數(shù)據(jù)集，對其進(jìn)行數(shù)據(jù)增強(qiáng)后，分別在經(jīng)典網(wǎng)絡(luò)模型AlexNet上和作者所優(yōu)化卷積網(wǎng)絡(luò)模型上運(yùn)行，epoch均為50次，最終得到數(shù)據(jù)結(jié)果，表2為2種模型的性能比較，2個(gè)模型的在驗(yàn)證集上的表現(xiàn)性能也繪制出了準(zhǔn)確度曲線，如圖5和圖6所示。

表2 2種模型的表現(xiàn)性能

圖5 Alex網(wǎng)絡(luò)準(zhǔn)確率曲線Fig.5 Alex network accuracy curve

圖6 本文網(wǎng)絡(luò)準(zhǔn)確率曲線Fig.6 Proposed network accuracy curve

改進(jìn)模型相較于原始網(wǎng)絡(luò)不僅是準(zhǔn)確度得到了提高，收斂速度也得到了大大提高，二者單次迭代的處理速度比較如表3所示。

表3 2種網(wǎng)絡(luò)單次迭代速度比較

可以看出，本文優(yōu)化過后的網(wǎng)絡(luò)相比于之前的網(wǎng)絡(luò)準(zhǔn)確性與魯棒性都有了很大的提高，傳統(tǒng)網(wǎng)絡(luò)即使迭代多次會仍會出現(xiàn)準(zhǔn)確率忽大忽小的問題，而這些在本文網(wǎng)絡(luò)中都得到了很好的解決。除此之外觀察圖5和圖6，還可以發(fā)現(xiàn)網(wǎng)絡(luò)不僅僅是準(zhǔn)確率得到了提高，收斂速度也明顯加快。這不僅僅得益于合理的Dropout系數(shù)設(shè)置，也得益于本文批歸一化處理和全局平均池化層的處理，這2種處理大大加快了網(wǎng)絡(luò)的處理速度，減少了網(wǎng)絡(luò)參數(shù)數(shù)量。

在實(shí)驗(yàn)過程中還發(fā)現(xiàn)，進(jìn)行有效的數(shù)據(jù)預(yù)處理也能起到優(yōu)化的作用，本文在采用GTSRB數(shù)據(jù)集時(shí)，通過Python將數(shù)據(jù)集格式轉(zhuǎn)為JPG類型之后，在輸入網(wǎng)絡(luò)之前全都裁剪成了224×224像素大小的尺寸，與不進(jìn)行數(shù)據(jù)預(yù)處理相比，網(wǎng)絡(luò)效果有一定的改善。此外本文所提及的數(shù)據(jù)增強(qiáng)的方法，在實(shí)際網(wǎng)絡(luò)模型訓(xùn)練過程中為解決樣本可能過少而引起的過擬合問題，也有一定的幫助。

4 結(jié)束語

本文提出了一種基于AlexNet網(wǎng)絡(luò)優(yōu)化的CNN模型的交通標(biāo)志識別方法，與原有的網(wǎng)絡(luò)相比，創(chuàng)造性地引入了全局平均池化層，大大減少了網(wǎng)絡(luò)的處理深度。本文使用GTSRB數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明，本文提出的改進(jìn)AlexNet網(wǎng)絡(luò)大大地提高了對交通標(biāo)志的識別精度，并且網(wǎng)絡(luò)的參數(shù)量以及過擬合程度減少了很多，進(jìn)一步促進(jìn)了網(wǎng)絡(luò)模型的訓(xùn)練。下一步工作要把網(wǎng)絡(luò)模型結(jié)構(gòu)作進(jìn)一步改進(jìn)，加寬加深，使網(wǎng)絡(luò)的識別速度與精度得到進(jìn)一步提高。從而在現(xiàn)實(shí)交通環(huán)境下實(shí)現(xiàn)對多種復(fù)雜的交通標(biāo)志進(jìn)行識別處理，真正意義上實(shí)現(xiàn)交通網(wǎng)絡(luò)的智能化。