◆任楚嵐 孫佳楠 張陽
基于AlexNet的注意力機制網(wǎng)絡(luò)研究
◆任楚嵐1孫佳楠1張陽2
(1.沈陽化工大學(xué)計算機科學(xué)與技術(shù)學(xué)院 遼寧 110142;2.遼寧中醫(yī)藥大學(xué)附屬醫(yī)院 遼寧 110032)
本文采用引入人類視覺系統(tǒng)的注意力機制對AlexNet網(wǎng)絡(luò)模型進行改進,通過融入注意力機制對AlexNet注意力機制網(wǎng)絡(luò)進行研究,并通過CIFAR-10數(shù)據(jù)集進行實驗對比驗證。實驗對比結(jié)果表明,AlexNet注意力機制網(wǎng)絡(luò)模型比傳統(tǒng)AlexNet網(wǎng)絡(luò)模型具有更好的分類效果,其分類準(zhǔn)確率提升了2%。
深度學(xué)習(xí);注意力機制;卷積神經(jīng)網(wǎng)絡(luò)
自2006年起,深度學(xué)習(xí)因其強大的自動提取特征能力、復(fù)雜模型構(gòu)建能力和圖像處理能力出現(xiàn)在了人們的視野之中。它是一種使用多層復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個處理層進行數(shù)據(jù)處理的方法[1]。近年來,深度學(xué)習(xí)方法由于其在數(shù)據(jù)分析處理上的特點已經(jīng)被廣泛應(yīng)用于各種領(lǐng)域,尤其是在語音識別[2-3]、圖像識別[4-5]等領(lǐng)域已經(jīng)取得了突破性進展。
深度學(xué)習(xí)作為機器學(xué)習(xí)中一種較好的方法,是機器學(xué)習(xí)的重要組成部分。它主要在于建立一個模擬人類腦部進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),用以模仿人腦的機制來解釋和分析數(shù)據(jù),例如圖像,文本和聲音等。本文將選用AlexNet網(wǎng)絡(luò)模型對已有數(shù)據(jù)進行基礎(chǔ)訓(xùn)練,并融入了注意力學(xué)習(xí)機制,通過對原有模型的改進,提高其準(zhǔn)確率。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)技術(shù)在圖像處理和自然語言處理等領(lǐng)域取得了顯著成效,越來越多的領(lǐng)域都開始嘗試使用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)來解決問題。卷積神經(jīng)網(wǎng)絡(luò)是一種多層次的網(wǎng)絡(luò)模型,是神經(jīng)認(rèn)知機的推廣形式。
卷積神經(jīng)網(wǎng)絡(luò)的歷史可以追溯到20世紀(jì)60年代,由于Hubel和Wiesel[6]通過對貓腦視覺皮層的研究,發(fā)現(xiàn)了一系列復(fù)雜的“感受野”,其只受某些特定區(qū)域刺激的響應(yīng),接受局部信息,繼而提出了卷積神經(jīng)網(wǎng)絡(luò)的概念。CNN是對BP神經(jīng)網(wǎng)絡(luò)的一種改進,雖然它們都是采用前向傳播輸出計算值,利用反向傳播調(diào)整權(quán)重和偏置。但CNN在層與層之間采用局部連接,而BP神經(jīng)網(wǎng)絡(luò)采用的是全連接。卷積神經(jīng)網(wǎng)絡(luò)有一個輸入層,每一層都接收上一層的輸入,直到輸出,其基本結(jié)構(gòu)主要是由輸入層、卷積層、池化層(也稱為降采樣層)、全連接層以及輸出層構(gòu)成[7]。
卷積層作為輸入層后的第一層,旨在提取輸入的特征表示。卷積層是由多個特征圖組成,每個特征圖由多個神經(jīng)元組成,每個神經(jīng)元通過卷積核與上一層特征圖的局部區(qū)域相連。卷積核是一個帶權(quán)值的矩陣,用于提取和計算不同的特征映射。卷積所得的輸出可由如下公式表示:
yj=∑iwij*xi+bj(1)
式中:Xi為輸入特征圖,Yi為輸出特征圖,權(quán)值記為Wij,bi是其偏置參數(shù)。
池化層(降采樣層)是在卷積層之后,旨在通過降低特征映射的分辨率(降維和抽象)來實現(xiàn)移位不變性。池化層同樣由多個特征圖組成,它的每個特征圖唯一對應(yīng)于其前一個卷積層相應(yīng)的特征圖,且不會改變特征圖的個數(shù)。常用的池化方法有最大池化和平均池化。最大池化是把區(qū)塊中元素的最大值作為函數(shù)的輸出,提取特征平面的局部最大響應(yīng)。平均池化是將計算得到的區(qū)塊中所有元素的算術(shù)平均值作為函數(shù)的輸出,提取特征平面局部響應(yīng)的均值。
在經(jīng)過多次卷積層和池化層后,卷積神經(jīng)網(wǎng)絡(luò)通常會連接一個或者多個全連接層[8]。全連接層將當(dāng)前層的每個神經(jīng)元與其前一層中的所有神經(jīng)元相連接,以產(chǎn)生全局語義信息。全連接層可以整合卷積層或池化層中具有類別區(qū)分性的局部信息。為了提升整個網(wǎng)絡(luò)的性能,每個神經(jīng)元的激勵函數(shù)一般采用ReLU函數(shù)。卷積神經(jīng)網(wǎng)絡(luò)的最后一層是輸出層。對于分類問題而言,經(jīng)常會使用softmax函數(shù)進行邏輯回歸分類,返回輸入圖片所屬某一類別的概率;對于回歸問題,會返回具體的數(shù)值。
注意力機制的概念主要源于模仿人視覺的注意力形式。人腦在接收外界信息時,并不會處理所有信息,而是只關(guān)注重要的信息,這有助于過濾干擾信息,提高信息處理效率[9]。在人視覺感知中,由于處理整個視野的能力有限,人們通常將注意力集中在特定區(qū)域,以關(guān)注需要的信息。然后,將此信息用于指導(dǎo)下一個聚焦點[10-11]。受人視覺系統(tǒng)始終專注于視覺數(shù)據(jù)某一部分的啟發(fā),人們進行了許多嘗試,包括圖像分類和生成、唇讀和語義分割等[12]。
本文數(shù)據(jù)集采用的是國際認(rèn)可的標(biāo)準(zhǔn)數(shù)據(jù)集CIFAR-10。該數(shù)據(jù)集包括飛機、汽車、鳥類、貓、鹿、狗、蛙類、馬、船和卡車這十大類現(xiàn)實世界中的真實物體。該數(shù)據(jù)集共有60000張彩色圖像,這些圖像是32*32的,共分為10個類,每類6000張圖。這里面有50000張用于訓(xùn)練,構(gòu)成了5個訓(xùn)練批,每一批10000張圖;另外10000張用于測試,單獨構(gòu)成一批。測試批的數(shù)據(jù)里,取自10類中的每一類,每一類隨機取1000張。抽剩下的就隨機排列組成了訓(xùn)練批。
AlexNet是由Alex Krizhevsky等人[13]在2012年的ImageNet比賽中使用并命名的,由于其優(yōu)秀的圖像識別能力,將正確識別率提高了一倍有余,成功奪得了那年的冠軍并再次引起了人工智能和深度學(xué)習(xí)的熱潮。本次實驗以AlexNet作為原始的網(wǎng)絡(luò)模型進行訓(xùn)練測試。AlexNet擁有8層結(jié)構(gòu),在圖片識別上具有出色的效果,其具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 AlexNet網(wǎng)絡(luò)結(jié)構(gòu)圖
AlexNet網(wǎng)絡(luò)模型的第一層到第五層結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò),第六層到第八層為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。第一、二層的結(jié)構(gòu)相似,都使用了卷積、ReLU、池化、歸一化操作。第三層和第四層的結(jié)構(gòu)類似,使用了卷積和ReLU操作。第五層與三、四層相比,多了池化操作,分別為卷積、ReLU和池化。再將前五層操作后的結(jié)果傳遞到傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,在最后的三層均使用全連接網(wǎng)絡(luò)結(jié)構(gòu)。
使用AlexNet網(wǎng)絡(luò)模型對已有數(shù)據(jù)進行的分類結(jié)果如下表1所示。
表1 AlexNet網(wǎng)絡(luò)模型的分類結(jié)果
對于數(shù)據(jù)圖像的分類識別問題,圖片中往往存在著無效信息,如何摒棄這些無效信息,關(guān)注特定的信息,是提高網(wǎng)絡(luò)模型分類效率和分類準(zhǔn)確率的關(guān)鍵。因此,為了對AlexNet網(wǎng)絡(luò)模型進一步探討,本文引入了注意力機制的概念,在傳統(tǒng)AlexNet網(wǎng)絡(luò)模型的基礎(chǔ)上,增加了注意力層,將其融入AlexNet網(wǎng)絡(luò)模型結(jié)構(gòu)中,成為AlexNet注意力機制網(wǎng)絡(luò)模型。其具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 AlexNet注意力機制網(wǎng)絡(luò)結(jié)構(gòu)圖
與傳統(tǒng)的AlexNet網(wǎng)絡(luò)模型相比較,AlexNet注意力機制網(wǎng)絡(luò)模型在輸入層和第一層之間加入了一層注意力層。使用AlexNet注意力機制網(wǎng)絡(luò)模型對已有數(shù)據(jù)進行的分類結(jié)果如下表2所示。
表2 AlexNet注意力機制網(wǎng)絡(luò)模型的分類結(jié)果
兩種網(wǎng)絡(luò)模型的實驗分類結(jié)果對比如下表3所示。
表3 兩種網(wǎng)絡(luò)模型的實驗分類結(jié)果對比
兩種網(wǎng)絡(luò)模型的準(zhǔn)確率對比圖如圖3所示。
圖3 兩種網(wǎng)絡(luò)模型的準(zhǔn)確率對比圖
通過實驗結(jié)果對比可以看出,融入注意力機制的AlexNet網(wǎng)絡(luò)模型比傳統(tǒng)的AlexNet網(wǎng)絡(luò)模型的準(zhǔn)確率有了明顯的提高。
本文通過引入注意力機制,對基于AlexNet的注意力機制網(wǎng)絡(luò)進行了研究。通過融入注意力機制的AlexNet網(wǎng)絡(luò)模型與傳統(tǒng)的AlexNet網(wǎng)絡(luò)模型的實驗對比表明,改進后的網(wǎng)絡(luò)模型具有更高的分類準(zhǔn)確率,為卷積神經(jīng)網(wǎng)絡(luò)進一步的研究提供了可能。
[1]Schmidhuber,Jürgen. Deep Learning in Neural Networks:An Overview[J]. Neural Netw,2015,61:85-117.
[2]Hinton G,Deng L,Yu D,et al. Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups. IEEE Signal Processing Magazine,2012, 29(6):82-97
[3]Mikolov T,Deoras A,Povey D,et al. Strategies for training large scale neural network language models. 2011 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU),2011:196-201
[4]Farabet C,Couprie C,Najman L,et al. Learning hierarchical features for scene labeling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929
[5]Krizhevsky A,Sutskever I,Hinton G E. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems,2012:1097-1105
[6]Hubel D H,Wiesel T N . Receptive fields,binocular interaction and functional architecture in the cat"s visual cortex[J]. The Journal of Physiology,1962,160(1):106-154.
[7]陳超,齊峰.卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計算機視覺領(lǐng)域中的應(yīng)用綜述[J].計算機科學(xué),2019,46(03):63-73.
[8]劉方園,王水花,張煜東.深度置信網(wǎng)絡(luò)模型及應(yīng)用研究綜述[J].計算機工程與應(yīng)用,2018,54(01):11-18+47.
[9]Leng J,Liu Y,Chen S . Context-Aware Attention Network for Image Recognition[J]. Neural Computing and Applications,2019(4).
[10]Xiong,C.,Shi,X., Gao,Z.et al.Attention augmented multi-scale network for single image super-resolution. Appl Intell (2020).
[11]Zhu Y,Liu G . Fine-grained action recognition using multi-view attentions[J]. The Visual Computer,2019(12).
[12]Emami H,Aliabadi M M,Dong M,et al. SPA-GAN:Spatial Attention GAN for Image-to-Image Translation[J]. 2019.
[13]Krizhevsky A,Sutskever I,Hinton G .ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems,2012,25(2).