亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Sobel算子的池化算法設(shè)計(jì)

2023-03-15 10:34:12馮松松王斌君

科學(xué)技術(shù)與工程 2023年3期

馮松松，王斌君

(中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院，北京 100038)

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，CNN)是根據(jù)生物視知覺原理構(gòu)建的前饋神經(jīng)網(wǎng)絡(luò)，可對(duì)輸入信息按設(shè)計(jì)的階層進(jìn)行平移不變分類，適用于有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)最早可追溯到1979—1980年福島邦彥模擬生物視覺皮層機(jī)制提出的“neocognitron”深度神經(jīng)網(wǎng)絡(luò)[1]，初步實(shí)現(xiàn)卷積層和池化層功能，可對(duì)特征進(jìn)行提取、篩選，對(duì)后續(xù)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展具有啟發(fā)性意義。

Waibel等[2]首次將卷積神經(jīng)網(wǎng)絡(luò)用于語(yǔ)音識(shí)別，設(shè)計(jì)出了時(shí)延卷積神經(jīng)網(wǎng)絡(luò)(time delay neural network，TDNN)算法，并采用反向傳播機(jī)制進(jìn)行訓(xùn)練，獲得了圓滿的效果，優(yōu)于同時(shí)期的主流語(yǔ)音識(shí)別算法隱馬爾可夫模型(hidden Markov model，HMM)等。

LeCun等[3]提出適用于計(jì)算機(jī)視覺問(wèn)題的LeNet，它包含卷積層、全連接層，并用隨機(jī)梯度下降(stochastic gradient descent，SGD)進(jìn)行學(xué)習(xí)，結(jié)構(gòu)上已接近現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)。同時(shí)期，隨著支持向量機(jī)(support vector machine，SVM)等核學(xué)習(xí)方法的流行，對(duì)卷積神經(jīng)網(wǎng)絡(luò)的研究熱度逐漸降低。Hinton等[4]正式提出深度學(xué)習(xí)(deep learning)概念，開啟了現(xiàn)代深度學(xué)習(xí)研究新紀(jì)元。深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究，是機(jī)器學(xué)習(xí)的一種，目前，卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)等深度學(xué)習(xí)模型已成功應(yīng)用于計(jì)算機(jī)視覺、自然語(yǔ)言處理、語(yǔ)音識(shí)別等眾多領(lǐng)域，碩果顯著。

此后，得益于硬件設(shè)備計(jì)算能力的提升，以及大數(shù)據(jù)時(shí)代的到來(lái)，AlexNet[5]、ZFNet[6]、VGG[7]、GoogLeNet[8]、ResNet[9]、DenseNet[10]和UNet[11]等一系列深度卷積神經(jīng)網(wǎng)絡(luò)被提出，廣泛應(yīng)用于不同計(jì)算機(jī)視覺任務(wù)中；此外TextCNN[12]、DPCNN[13]、TextRCNN[14]等卷積神經(jīng)網(wǎng)絡(luò)在文本分類等自然語(yǔ)言處理任務(wù)中也取得顯著成果，這些成就和實(shí)質(zhì)性的進(jìn)展，極大地推動(dòng)了卷積神經(jīng)網(wǎng)絡(luò)的深入研究和蓬勃發(fā)展。

現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)由輸入層、多個(gè)隱藏層、輸出層3個(gè)主要模塊組成，其中，每個(gè)隱藏層通常還可包含卷積層、池化層等。不同的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)，實(shí)現(xiàn)的效果也有較大差別。通常池化層可實(shí)現(xiàn)特征選擇、縮小參數(shù)矩陣、降低特征維度的功能。此外，池化操作還具有擴(kuò)大感受野等作用。

在實(shí)際使用中，為更好地保留內(nèi)容和風(fēng)格特征，減少特征信息損失，研究人員根據(jù)整體模型架構(gòu)提出了不同的池化方法。本文按池化結(jié)果與池化窗口內(nèi)單個(gè)點(diǎn)的值或多個(gè)點(diǎn)的值有關(guān)，將現(xiàn)有的池化方法分為單值策略和多值策略。下面分別進(jìn)行闡述。

(1)單值策略。這類池化算法中最具代表性的是最大池化。最大池化是取每個(gè)池化窗口內(nèi)的最大值，能很好地保留最強(qiáng)的紋理、輪廓等特征，但會(huì)淡化其它紋理特征以及整體背景風(fēng)格等信息。

He等[15]提出空間金字塔池化(spatial pyramid pooling)方案，在該池化算法中，作者使用不同尺寸的最大池化核對(duì)特征圖進(jìn)行池化，對(duì)得到的池化結(jié)果進(jìn)行拼接，獲得了多個(gè)尺度上的特征，豐富了感受野。

Wu等[16]提出最大池化失活(max pooling dropout)方案，作者指出在訓(xùn)練時(shí)使用最大池丟失等價(jià)于具有可調(diào)參數(shù)的多項(xiàng)分布抽樣激活，本質(zhì)是對(duì)池化窗口內(nèi)部分元素進(jìn)行隨機(jī)失活，再取余下元素的最大值。此外，Zhai等[17]還提出隨機(jī)采樣池化等。

(2)多值策略。平均池化是多值策略的代表，平均池化是對(duì)池化窗口內(nèi)的所有元素求均值，降低了估計(jì)值方差，能很好地保留整體風(fēng)格特征，但會(huì)弱化紋理、輪廓等信息。

Deliège等[18]提出順序池化(ordinal pooling)方案，將每個(gè)池化窗口內(nèi)的元素按順序排列，并根據(jù)對(duì)應(yīng)位置的權(quán)重計(jì)算求值，其中權(quán)重是在訓(xùn)練中學(xué)習(xí)得到的。順序池化考慮到了池化核內(nèi)的每個(gè)元素，減少了特征信息的丟失，但計(jì)算復(fù)雜度較大。

Rippel等[19]提出譜池化(spectral pooling)方案，基于快速傅里葉變換，對(duì)特征圖進(jìn)行離散傅里葉變換，通過(guò)截?cái)囝l域?qū)崿F(xiàn)特征降維，再經(jīng)過(guò)傅里葉逆變換得到池化結(jié)果。譜池化具有濾波功能，在保存低頻變化特征的同時(shí)可靈活調(diào)整輸出維度。整體保存了更多特征信息。但是，計(jì)算量大，訓(xùn)練時(shí)間長(zhǎng)。

劉硯萍等[20]提出引入少量可學(xué)習(xí)參數(shù)的自學(xué)習(xí)池化算法，對(duì)不同特征通道進(jìn)行獨(dú)立池化，并給池化層可學(xué)習(xí)權(quán)重添加正則約束項(xiàng)，增加算法的魯棒性。

此外Stergiou等[21]提出基于Softmax加權(quán)的池化方案，Gong等[22]提出多尺度無(wú)序池化(multi-scale orderless pooling)，Gao等[23]提出基于局部重要性的池化，Sharma等[24]提出引入模糊邏輯的模糊池化，Wan等[25]提出基于信息熵的特征加權(quán)池化，Lin等[26]提出用于特征融合的雙線性池化，Arandjelovic等[27]提出局部特征聚合的NetVlad池化，王宇航等[28]提出基于高斯函數(shù)的加權(quán)平均池化等均屬于多值池化方案。

除上述兩種基本的池化方法外，Yu等[29]提出混合池化(mixed pooling)方案，在最大池化和平均池化中隨機(jī)選擇，結(jié)合了兩種經(jīng)典池化方案的優(yōu)點(diǎn)，豐富了特征層，一定程度上解決了過(guò)擬合問(wèn)題，但普適性較差。

針對(duì)上述各池化算法存在的問(wèn)題，在設(shè)計(jì)全新的池化算法時(shí)，將考慮特征圖整體的內(nèi)容及風(fēng)格特征分布，有選擇性的進(jìn)行池化，在保持池化前后特征圖的內(nèi)容、風(fēng)格特征分布一致的情況下，穩(wěn)定提高模型準(zhǔn)確率，并且可用來(lái)替代常用的最大池化、平均池化，成為一種通用的池化算法。

1 池化算法設(shè)計(jì)

池化的最終目的是對(duì)特征圖進(jìn)行降采樣，在降低模型參數(shù)量的同時(shí)，盡量減少特征信息的損失，保持池化前后特征圖的不變性。當(dāng)前，常用的池化方法是在池化窗口內(nèi)取某個(gè)代表值(如最大池化)或多個(gè)值的加權(quán)(如平均池化)，同一池化層采用相同的策略。一般來(lái)說(shuō)，單值策略能更好的保持特征圖的某些內(nèi)容特征，而多值策略則能更好的保持圖像的整體風(fēng)格特征。因此，現(xiàn)有的池化方法要么導(dǎo)致池化前后特征圖的均值保持接近，要么導(dǎo)致池化前后特征圖的標(biāo)準(zhǔn)差保持接近，二者難以兼顧。

受人眼視覺系統(tǒng)更關(guān)注圖像中的邊緣區(qū)域以及視覺皮層分級(jí)處理視覺信號(hào)的啟發(fā)，在對(duì)卷積后的特征圖進(jìn)行池化時(shí)，不僅要保留池化域中的最大值、平均值，還需保留一部分最小值。保留部分最小值有兩個(gè)好處，一是使池化前后特征圖的均值、標(biāo)準(zhǔn)差分布保持一致，特別是能減少整體特征的損失；二是使池化后的特征圖有明顯的對(duì)比，邊緣清晰，便于后續(xù)進(jìn)一步識(shí)別。為此設(shè)計(jì)全新的池化算法，根據(jù)特征圖中風(fēng)格特征、內(nèi)容特征的分布，合理地選擇池化窗口內(nèi)的最大值、平均值或最小值作為池化結(jié)果。

1.1 Mam池化算法

為保持池化前后特征圖中的風(fēng)格特征、內(nèi)容特征不變，在對(duì)同一卷積后的特征圖池化時(shí)，不僅要選擇池化窗口內(nèi)的最大值、平均值作為池化結(jié)果，還要有一部分池化窗口選擇最小值，保持池化前后特征圖的均值、標(biāo)準(zhǔn)差分布一致。

Mam(maximum-average-minimum)池化算法的設(shè)計(jì)思路是對(duì)池化窗口進(jìn)行劃分，即一部分池化窗口取最大值；一部分池化窗口取均值，還有一部分池化窗口取最小值。劃分的依據(jù)為每個(gè)池化窗口的均值A(chǔ)vg(aij)與整個(gè)池化域的均值mA和標(biāo)準(zhǔn)差sA的加權(quán)做比較。以非重疊池化為例，池化核大小、步長(zhǎng)均為k，aij=A[k*i:k*i+k,k*j:k*j+k]表示池化域中的每一個(gè)池化窗口。其中，i，j表示池化后特征圖的第i行、第j列，*表示卷積操作。具體池化過(guò)程表達(dá)式為

(1)

式(1)中：A表示池化前特征圖；B表示池化后特征圖；α、β為可調(diào)節(jié)參數(shù)。

Mam池化算法的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單，便于理解，引入的額外計(jì)算量小。缺點(diǎn)也很明顯，并沒有考慮每個(gè)池化窗口內(nèi)的特征分布與整個(gè)池化域的內(nèi)容特征、風(fēng)格特征分布之間的內(nèi)在關(guān)聯(lián)，而是簡(jiǎn)單根據(jù)整個(gè)池化域的均值、標(biāo)準(zhǔn)差對(duì)不同池化窗口進(jìn)行劃分，在實(shí)際使用中表現(xiàn)不佳。

1.2 Sobel池化算法

理論上講，Mam池化算法能保持池化前后特征圖的整體內(nèi)容和風(fēng)格特征分布一致。為使池化更能充分體現(xiàn)整體風(fēng)格、主要內(nèi)容等特征的分布，本文使用了Sobel算子對(duì)卷積后的特征圖進(jìn)行處理，得到每個(gè)像素點(diǎn)的梯度值，并根據(jù)梯度值大小分布選擇池化窗口內(nèi)的最大值、均值或最小值做為池化結(jié)果。

1.2.1 Sobel算子

Sobel算子是基于一階導(dǎo)數(shù)的離散性差分算子，對(duì)像素值變化更為敏感，常用作對(duì)數(shù)字圖像進(jìn)行邊緣檢測(cè)。在進(jìn)行邊緣檢測(cè)時(shí)，Sobel算子對(duì)周圍像素的重要性根據(jù)位置進(jìn)行加權(quán)求值，邊緣檢測(cè)效果較好。

Sobel算子包括檢測(cè)水平邊緣的gx算子[圖1(a)]和檢測(cè)豎直邊緣的gy算子[圖1(b)]，本文中在使用Sobel算子進(jìn)行邊緣檢測(cè)時(shí)，只保留梯度值，不考慮梯度方向。

圖1 Sobel算子Fig.1 Sobel operator

計(jì)算每個(gè)像素點(diǎn)梯度值的流程如下：

(1)用gx算子在圖像A上做卷積(*)操作檢測(cè)水平邊緣，即

Gx=A*gx

(2)

(2)用gy算子在圖像A上做卷積操作檢測(cè)垂直邊緣，即

Gy=A*gy

(3)

(3)結(jié)合水平方向和垂直方向計(jì)算圖像A中每一個(gè)像素點(diǎn)的梯度值，即

G=|Gx|+|Gy|

(4)

1.2.2 Sobel池化算法

池化也稱降采樣，旨在對(duì)輸入的特征圖進(jìn)行壓縮，減少冗余信息，合理的池化算法能在減小模型參數(shù)量的同時(shí)，最大程度保留關(guān)鍵特征。為使池化前后特征圖中內(nèi)容特征、風(fēng)格特征分布保持一致，將特征損失降至最小，先用Sobel算子對(duì)特征圖進(jìn)行邊緣檢測(cè)得到每個(gè)像素點(diǎn)的梯度值，對(duì)特征圖進(jìn)行池化時(shí)，考慮到池化窗口的梯度均值與整個(gè)特征圖的梯度均值和梯度標(biāo)準(zhǔn)差之間的關(guān)系，確定取該池化窗口內(nèi)的最大值、均值或最小值作為池化結(jié)果[式(5)]，使每個(gè)池化窗口的取值更合理。

具體實(shí)現(xiàn)過(guò)程如圖2所示(以單個(gè)特征圖池化為例)，算法如下。

圖2 Sobel池化流程圖Fig.2 Sobel pooling flow chart

(1)對(duì)特征圖A進(jìn)行上、下、左、右為1的邊緣復(fù)制填充，使采用Sobel算子計(jì)算得到的梯度圖G保持尺度大小不變。

(2)對(duì)填充后的特征圖進(jìn)行水平[式(2)]、垂直[式(3)]兩個(gè)方向的邊緣檢測(cè)求得Gx、Gy。

(3)采用式(4)合并Gx、Gy得到特征圖中每一個(gè)點(diǎn)的梯度，求得梯度圖G，不考慮梯度方向，只保留數(shù)值。

(4)對(duì)梯度圖G求均值mG，標(biāo)準(zhǔn)差sG。以非重疊池化為例，按照池化核大小、步長(zhǎng)k將梯度圖G劃分成多個(gè)k×k大小的池化窗口，對(duì)每個(gè)池化窗口分別求均值A(chǔ)vg(gij)，其gij=G[k*i:k*i+k,k*j:k*j+k]。

(5)以非重疊池化為例，按照池化核大小、步長(zhǎng)k將特征圖A劃分成多個(gè)k×k大小的池化窗口aij，其中aij=A[k*i:k*i+k,k*j:k*j+k]。對(duì)特征圖進(jìn)行池化，Avg(gij)大于mG+αsG的取特征圖A中對(duì)應(yīng)池化窗口內(nèi)最大值作為池化結(jié)果，Avg(gij)小于mG-βsG的取特征圖A中對(duì)應(yīng)池化窗口內(nèi)最小值作為池化結(jié)果，Avg(gij)介于mG-βsG到mG+αsG之間的取特征圖A中對(duì)應(yīng)池化窗口內(nèi)均值作為池化結(jié)果，計(jì)算過(guò)程為

(5)

2 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

本節(jié)實(shí)驗(yàn)選擇計(jì)算機(jī)視覺領(lǐng)域經(jīng)典的分類任務(wù)來(lái)驗(yàn)證設(shè)計(jì)的池化方法能在不同圖像分類模型、不同圖像數(shù)據(jù)集上起到較好的分類效果。

進(jìn)行實(shí)驗(yàn)的環(huán)境為一臺(tái)4核心、16 G內(nèi)存的服務(wù)器，操作系統(tǒng)為Windows10，并配有一張32 G顯存的NVIDIA Tesla V100顯卡，使用Python 3.7.13、Pytorch 1.11.0+cu113框架。

2.1 不同池化方法效果對(duì)比

為驗(yàn)證設(shè)計(jì)的Sobel池化算法對(duì)圖像池化后，得到的圖像層次更加分明、易于判別，選擇了最大池化、平均池化、Mam池化做對(duì)比，直接對(duì)顏色、細(xì)節(jié)、紋理、對(duì)比度等各不相同的2 048×2 048像素高清圖像連續(xù)進(jìn)行4次2×2非重疊池化，采用各池化算法池化后的圖像如圖3所示。

圖3 不同池化方法池化效果Fig.3 Pooling results of different pooling methods

從圖3中可以看出：采用最大池化得到的圖像只保留了每個(gè)池化窗口內(nèi)的最大值，導(dǎo)致池化后圖像像素均值高于原圖，使圖像整體偏亮，明、暗區(qū)域?qū)哟尾幻黠@；采用平均池化得到的圖像保持了池化前后圖像像素均值不變，但池化后圖像像素的標(biāo)準(zhǔn)差小于原圖，導(dǎo)致池化后圖像邊緣輪廓模糊，辨別度低；采用Mam池化、Sobel池化得到的圖像，既保留了原圖中的部分最大值，也保留了部分最小值，使得池化前后圖像的均值、標(biāo)準(zhǔn)差變化較小，得到的池化圖像輪廓清晰，明、暗區(qū)域?qū)哟畏置鳎子谧R(shí)別，但采用Mam池化算法得到的的圖像存在亮的區(qū)域更亮、暗的區(qū)域更暗，而且邊緣位置會(huì)向亮的區(qū)域偏移，出現(xiàn)失真，而本文中采用的Sobel池化算法能很好地均衡圖像的明、暗區(qū)域分布，使得圖像邊緣輪廓更為清晰真實(shí)，易于識(shí)別。

2.2 不同經(jīng)典模型在同一數(shù)據(jù)集上的表現(xiàn)

為驗(yàn)證設(shè)計(jì)的Sobel池化算法具有普適性，能夠取代最大池化、平均池化，在VGG、ResNet等經(jīng)典且廣泛適用的模型上取得較好的分類結(jié)果，設(shè)計(jì)了本實(shí)驗(yàn)，選擇的數(shù)據(jù)集為貓、狗數(shù)據(jù)集，它是kaggle上經(jīng)典的圖像二分類競(jìng)賽數(shù)據(jù)集，實(shí)驗(yàn)時(shí)貓、狗各選擇2 000張作為基礎(chǔ)數(shù)據(jù)集，按8∶2劃分訓(xùn)練集、測(cè)試集。訓(xùn)練、測(cè)試時(shí)，輸入圖像尺寸為256×256像素，不做圖像增強(qiáng)，Batch設(shè)置為64，采用隨機(jī)梯度下降優(yōu)化器，學(xué)習(xí)率為0.001，動(dòng)量設(shè)置為0.9，采用交叉熵?fù)p失函數(shù)，Sobel池化、Mam池化中的α、β均設(shè)置為0.5。評(píng)價(jià)標(biāo)準(zhǔn)為充分訓(xùn)練后在測(cè)試集上的最高準(zhǔn)確率，為降低偶然性，將測(cè)試集前五準(zhǔn)確率均值也作為評(píng)價(jià)指標(biāo)之一。

如表1所示，將VGG、ResNet等經(jīng)典模型的池化層替換成Mam池化層后，Mam池化整體上優(yōu)于平均池化，但并不優(yōu)于最大池化，雖然Mam池化算法實(shí)現(xiàn)了對(duì)不同池化窗口進(jìn)行劃分，但并沒有考慮特征圖整體的內(nèi)容、風(fēng)格特征分布，因而效果并沒有達(dá)到預(yù)期。

表1 各經(jīng)典圖像分類模型準(zhǔn)確率Table 1 Accuracy of each classic image classification model

將池化層替換成本文設(shè)計(jì)的Sobel池化算法后，在測(cè)試集的準(zhǔn)確率上有明顯提升，均優(yōu)于最大池化、平均池化、Mam池化，這也證實(shí)了Sobel池化算法能夠替代常用的最大池化、平均池化，適用于各種卷積神經(jīng)網(wǎng)絡(luò)模型。

2.3 VGG16、Resnet34在不同數(shù)據(jù)集上的表現(xiàn)

本節(jié)實(shí)驗(yàn)選擇的是廣泛應(yīng)用于圖像分類、目標(biāo)檢測(cè)定位、圖像分割等任務(wù)的基礎(chǔ)VGG16模型以及Resnet34模型，所選擇的數(shù)據(jù)集為Caltech101、Flowers數(shù)據(jù)集和Fruits360數(shù)據(jù)集[30]。Caltech101是用于圖像分類、目標(biāo)識(shí)別的數(shù)據(jù)集，包含101個(gè)種類，每種類別圖像數(shù)量在40～800張不等，圖像大小約為300×200像素。Flowers數(shù)據(jù)集是網(wǎng)上公開數(shù)據(jù)集，它包括雛菊、蒲公英、玫瑰、向日葵、郁金香5個(gè)種類，共計(jì)4 326張圖像。Fruits 360數(shù)據(jù)集包含蔬菜、水果共計(jì)131個(gè)種類類，90 483張圖片，圖像大小為100×100像素。

如表2所示，本文所設(shè)計(jì)的Sobel池化算法不僅能夠適用于不同經(jīng)典模型，對(duì)同一模型在不同尺寸大小、不同數(shù)據(jù)量的圖像數(shù)據(jù)集上亦能取得顯著的提升，測(cè)試集上準(zhǔn)確率均高于常用的最大池化、平均池化以及Mam池化，再一次證實(shí)了Sobel池化算法的具有較強(qiáng)的泛化性，適用于不同模型、不同數(shù)據(jù)集。

2.4 α、β超參數(shù)探索

Sobel池化中參數(shù)α、β的設(shè)定影響著模型準(zhǔn)確率，根據(jù)式(7)知，當(dāng)mG+αsGGmax時(shí)，每個(gè)池化窗口均取最小值，等同于最小池化。故α、β的選擇對(duì)Sobel池化算法至關(guān)重要，合理的α、β選擇會(huì)最大程度降低特征信息損失，避免過(guò)擬合，提升準(zhǔn)確率。本節(jié)實(shí)驗(yàn)仍選用VGG16作為基礎(chǔ)模型，采用Sobel池化，進(jìn)行實(shí)驗(yàn)，探究α、β取值對(duì)模型準(zhǔn)確率的影響，本次實(shí)驗(yàn)中α、β的取值相同，所選數(shù)據(jù)集仍為貓、狗數(shù)據(jù)集，取測(cè)試集上最高5個(gè)準(zhǔn)確率的均值作為評(píng)價(jià)指標(biāo)。

如表3所示，根據(jù)實(shí)驗(yàn)結(jié)果可以看出，在一定范圍內(nèi)，隨α、β取值的增大，準(zhǔn)確率程下降趨勢(shì)。隨著(α+β)sG接近Gmax-Gmin時(shí)，Sobel池化測(cè)試準(zhǔn)確率也在逐漸接近平均池化準(zhǔn)確率。

表3 不同α、β取值下VGG16測(cè)試準(zhǔn)確率Table 3 Accuracy of VGG16 under different α and β values

2.5 結(jié)果分析

根據(jù)上述實(shí)驗(yàn)結(jié)果可以看出，用本文設(shè)計(jì)的Sobel池化算法替換VGG、ResNet等經(jīng)典模型中的池化層，經(jīng)模型充分?jǐn)M合訓(xùn)練集數(shù)據(jù)后，在測(cè)試集上的準(zhǔn)確率均高于最大池化、平均池化以及簡(jiǎn)單的對(duì)激活后特征圖求均值、標(biāo)準(zhǔn)差后分層的Mam池化，此外，Sobel池化算法在不同復(fù)雜數(shù)據(jù)集上亦取得了顯著的提高，這證實(shí)了Sobel池化算法具有普適性、通用性，能夠增強(qiáng)模型的泛化能力，穩(wěn)定提高模型準(zhǔn)確率。

3 結(jié)論

本文設(shè)計(jì)了一種基于Sobel算子的池化算法，將其命名為Sobel池化。Sobel池化先用Sobel算子對(duì)激活后特征圖進(jìn)行邊緣檢測(cè)得到梯度值，根據(jù)梯度變化明顯點(diǎn)的分布，對(duì)特征圖不同池化窗口進(jìn)行選擇性池化，這樣能夠在減少參數(shù)量的同時(shí)，盡可能的保留關(guān)鍵特征，降低信息損失，由于對(duì)特征圖中的數(shù)據(jù)不只保留最大值或加權(quán)均值，而是根據(jù)特征圖內(nèi)容、風(fēng)格分布綜合決定每一個(gè)池化窗口選擇最大值、平均值還是最小值作為池化結(jié)果，能夠合理的保留背景、紋理等關(guān)鍵特征信息，有效的避免過(guò)擬合，穩(wěn)定提升模型準(zhǔn)確率。

通過(guò)實(shí)驗(yàn)可以明顯看出本文設(shè)計(jì)的Sobel池化算法具有普適性、通用性，能夠在不同的卷積神經(jīng)網(wǎng)絡(luò)模型、不同復(fù)雜數(shù)據(jù)集上取得較好的效果，可以用來(lái)替代常用的最大池化、平均池化。