亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習模型的圖像識別應用研究

2020-12-16 09:11:26張寶燕

山西電子技術 2020年6期

張寶燕

(晉中學院，山西晉中 030600)

0 引言

如今，圖像識別由于其廣泛的應用而成為一個重要的研究領域。對于手寫分類等圖像識別問題，特征提取的好壞對提取結(jié)果至關重要。針對手寫體字符識別問題，Huang等人[1]從筆畫中提取出字符的結(jié)構(gòu)特征，并將其用于手寫體字符的識別。Rui等人[2]采用形態(tài)學方法改進字符的局部特征，然后利用PCA提取字符的特征。這些方法都需要手動從圖像中提取特征。模型的預測能力對建模者的先驗知識有很強的依賴性。在計算機視覺領域，由于特征向量的高維性，手工特征提取非常繁瑣和不切實際[3]。

近年來，大多數(shù)分類和回歸機器學習方法都是淺層學習算法。復雜函數(shù)難以有效地表示，對于復雜的分類問題，其泛化能力有限[4,5]。

為了克服淺層表示和人工提取特征的問題，Hinton等人在2006年提出了深度學習[6]。深度學習的本質(zhì)是通過建立多層模型并用大量的數(shù)據(jù)對其進行訓練來實現(xiàn)自我學習。深度學習方法是一種具有多層表示的表示學習方法，通過組合簡單但非線性的模塊，每個模塊將一個級別的表示轉(zhuǎn)換為更高、更抽象的表示。有了足夠多的這樣的變換組合，就可以學習非常復雜的函數(shù)[7]。

1 卷積神經(jīng)網(wǎng)絡

1.1 卷積神經(jīng)網(wǎng)絡模型介紹

圖1是一個簡單的卷積神經(jīng)網(wǎng)絡模型。第一層是輸入層，輸入的圖像直接輸入到輸入層。第二層是BN層，它主要是對卷積層提取到的特征進行歸一化處理?？梢愿纳屏鹘?jīng)網(wǎng)絡的梯度，允許更大的學習率以及大幅提高模型的訓練速度。第三層是池化層，它計算輸入要素圖的局部平均值或最大值，主要作用是進行特征降維，壓縮數(shù)據(jù)和參數(shù)的數(shù)量，減小過擬合，同時提高模型的容錯性。接下來的卷積層，BN層和池化層以相同的方式運行。最后輸出層是全連接層，輸出神經(jīng)元的最大值是最終分類器的結(jié)果。

圖1 卷積神經(jīng)網(wǎng)絡模型

1.2 卷積神經(jīng)網(wǎng)絡理論

卷積層使用卷積核對輸入信號的局部區(qū)域執(zhí)行卷積運算，從而產(chǎn)生相應的特性。權重共享是卷積層的最重要特征，這意味著當每個卷積窗口遍歷整個圖像時，卷積窗口的參數(shù)是固定的。這樣可以避免因參數(shù)爆炸而導致的過擬合現(xiàn)象，并減少系統(tǒng)訓練網(wǎng)絡所需的內(nèi)存。以第一層為例。如前所述，要素圖中的所有單位共享相同的權重集和相同的偏差，因此它們在輸入的所有可能位置上都保留相同的要素。卷積過程描述為：

(1)

批量歸一化(BN)層旨在減少內(nèi)部協(xié)方差的偏移，加快深度神經(jīng)網(wǎng)絡的訓練過程，提高網(wǎng)絡訓練效率并增強網(wǎng)絡泛化能力。轉(zhuǎn)換過程描述為：

(2)

式中，γl(i)和βl(i)分別是BN層的標度和偏移量，zl(i,j)是BN層的輸出，ε是保證數(shù)值不為零的常數(shù)項。

在CNN體系結(jié)構(gòu)中，通常在批處理規(guī)范化層之后添加池化層。神經(jīng)網(wǎng)絡操作的主要目的是降低采集層的參數(shù)，本文選擇的最大池化層轉(zhuǎn)換描述為：

(3)

通過反向傳播算法和隨機梯度下降算法訓練搭建的卷積神經(jīng)網(wǎng)絡。我們假設訓練樣本總數(shù)為N,則CNN的損失函數(shù)可以表示為：

(4)

損失函數(shù)相對于卷積核系數(shù)和偏差的梯度為：

(5)

(6)

2 實驗驗證

2.1 實驗數(shù)據(jù)

我們選擇MNIST手寫數(shù)字數(shù)據(jù)庫來比較深度學習的性能。MNIST數(shù)據(jù)集來自美國國家標準與技術研究所，整個數(shù)據(jù)集由來自250個不同人手寫的數(shù)字構(gòu)成，其中50%是高中學生,50%來自人口普查局的工作人員，這說明了數(shù)據(jù)很分散，可以充分驗證模型的識別能力。MNIST包含60 000個訓練樣本和10 000個測試樣本，圖像大小為28×28。一些來自MNIST手寫數(shù)據(jù)庫的真實樣本集如圖2所示。

圖2 MNIST數(shù)據(jù)庫部分真實樣本

2.2 實驗結(jié)果對比

首先為了驗證不同卷積核個數(shù)對卷積神經(jīng)網(wǎng)絡識別精度的影響，以及為了觀察卷積內(nèi)核的數(shù)量如何影響整體性能，我們選擇了三種不同的卷積神經(jīng)網(wǎng)絡：784-4-12，784-8-24，784-16-48。其中784是輸入數(shù)據(jù)的維數(shù)。中間的兩個數(shù)字分別為第一個卷積層和第二個卷積層的內(nèi)核數(shù)。三個不同卷積神經(jīng)網(wǎng)絡的識別精度如表1所示，當預測值與地面真實性之間的均方誤差小于0.001時，我們假設網(wǎng)絡達到收斂。從表1中我們可以看出，MNIST數(shù)據(jù)庫上三個CNN的準確率非常的高，均達到了九十五以上。取得上述結(jié)果的原因是MNIST數(shù)據(jù)庫中包含有大量的訓練樣本，足夠卷積神經(jīng)網(wǎng)絡提取到充分的關鍵特征。

表1 不同卷積核數(shù)量的卷積神經(jīng)網(wǎng)絡結(jié)果對比

由表1的對比結(jié)果可知，當內(nèi)核數(shù)從4、12增加到8、24再增加到16、48時，基于MNIST數(shù)據(jù)集的準確率不斷增加，從最初的97.31%增加到97.48%，最后增加到97.71%。上述的對比結(jié)果表明，如果訓練樣本的數(shù)量能夠完全滿足學習方法的要求，則隨著核數(shù)的增加，從CNN提取的特征數(shù)量將增加，并且CNN的識別性能會越來越好。

為了充分驗證卷積神經(jīng)網(wǎng)絡的識別效果，本文選擇利用人工神經(jīng)網(wǎng)絡以及深度置信網(wǎng)絡進行對比，其中人工神經(jīng)網(wǎng)絡為淺層神經(jīng)網(wǎng)絡，深度置信網(wǎng)絡為深度學習網(wǎng)絡，可以充分驗證所搭建卷積神經(jīng)網(wǎng)絡的圖像識別能力。其中，在該組實驗中，卷積神經(jīng)網(wǎng)絡的結(jié)構(gòu)為784-16-48，學習率為0.01，人工神經(jīng)網(wǎng)絡的結(jié)構(gòu)為784-100-10，學習率為0.05，深度置信網(wǎng)絡的結(jié)構(gòu)為784-150-100-10，學習率為0.1。實驗結(jié)果對比如表2所示。圖3展示了所有網(wǎng)絡的錯誤率隨著迭代次數(shù)的變換情況。

圖3 網(wǎng)絡的錯誤率隨著迭代次數(shù)的變化結(jié)果

表2 所有模型的識別對比結(jié)果

實驗結(jié)果表明，與淺層人工神經(jīng)網(wǎng)絡相比，CNN和DBN在MNIST數(shù)據(jù)庫都具有較高的準確率。此外，深度學習可以主動學習數(shù)據(jù)的固有特征，而不是手動提取特征。但是，深度學習在實際應用中的成功取決于標記的數(shù)據(jù)。比較表2中的實驗結(jié)果，我們可以了解DBN和CNN之間的主要區(qū)別：DBN屬于無監(jiān)督學習方法，是一種生成深度模型;而CNN屬于監(jiān)督學習方法，是一種歧視深度模型。DBN通常適用于一維數(shù)據(jù)建模，如語音;，而CNN更適用于二維數(shù)據(jù)建模，如圖像。CNN本質(zhì)上是輸入和輸出的映射。它可以學習很多映射關系，不需要任何精確的數(shù)學表達式，而DBN則需要建立可見和隱藏單元之間的聯(lián)合概率分布，以及可見和隱藏單元的邊際概率分布。從實驗結(jié)果可知，在圖像識別方面，CNN擁有著得天獨厚的優(yōu)勢。

2.3 結(jié)果可視化

為了直觀地理解所提出的卷積神經(jīng)網(wǎng)絡的特征學習過程，利用t分布隨機鄰居嵌入(t-SNE)對不同迭代步數(shù)階段學習到的深度特征進行網(wǎng)絡可視化。本文總共選取了最初狀態(tài)、迭代十次、迭代五十次以及最終迭代得到的深度特征，如圖4所示。

圖4 可視化結(jié)果

從圖4可知，原始數(shù)據(jù)的十種類別隨機的混合在一起，很難清晰地將其分開。當?shù)沃螅茸畛醯脑紨?shù)據(jù)辨識度稍微好些，但仍然很難直接將其分開。隨著迭代的繼續(xù)進行，當達到五十次后，十種類別的辨識度更高了，基本可以分開，當達到最終迭代效果后，所有類別都可以完全清晰地分開。這體現(xiàn)了卷積神經(jīng)網(wǎng)絡隨著迭代的不斷進行，學習到的特征也越來越有代表性。

3 結(jié)論

本文將深度學習應用于實詞手寫字符識別，獲得了良好的圖像識別性能。通過比較實驗結(jié)果，分析了卷積神經(jīng)網(wǎng)絡的特征提取過程。深度學習可以通過深度非線性網(wǎng)絡模型來近似復雜函數(shù)。它不僅避免了手動提取特征的繁重工作，而且更好地描述了數(shù)據(jù)的潛在信息。未來我們將進一步研究深度學習的優(yōu)化，并將其應用于更復雜的圖像識別問題。