趙志成,羅 澤,王鵬彥,李 健
1(中國科學(xué)院 計算機網(wǎng)絡(luò)信息中心,北京 100190)
2(中國科學(xué)院大學(xué),北京 100049)
3(四川臥龍國家級自然保護區(qū)管理局,臥龍 623006)
深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),使得圖像分類領(lǐng)域取得了一系列的突破.深度神經(jīng)網(wǎng)絡(luò)可以通過多級表示,學(xué)習(xí)到更加復(fù)雜的高級語義特征.在一個端到端的多層模型中,低、中、高不同級別的特征以及分類器被整合起來,特征的等級隨著通過所堆疊層的數(shù)量(深度)逐漸豐富[1–5].2012年,Krizhevsky[6]用5個卷積層和3個全連接層的網(wǎng)絡(luò)在ILSVRC競賽上取得了38.1%的Top-1和16.4%的Top-5錯誤率.2014年,VGGNet[7]首次將網(wǎng)絡(luò)的深度增加到了19層,在ILSVRC競賽上取得了24.7%的Top-1錯誤率和7.3%的Top-5錯誤率.回顧深度卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的發(fā)展歷史,可以清楚地發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的表達能力和提取特征的能力隨著網(wǎng)絡(luò)的深度的增加而增加[8,9].
然而,網(wǎng)絡(luò)的深度并非越深越好.在一定的深度范圍內(nèi),隨著網(wǎng)絡(luò)層數(shù)的增加,模型可以擬合更加復(fù)雜的函數(shù),模型性能也可以得到提升.但是在網(wǎng)絡(luò)層數(shù)增加到一定的數(shù)目之后,繼續(xù)增加網(wǎng)絡(luò)的層數(shù),訓(xùn)練精度和測試精度迅速下降.研究人員發(fā)現(xiàn),隨著網(wǎng)絡(luò)深度的增加,準(zhǔn)確率達到飽和后再增加網(wǎng)絡(luò)的深度分類的效果反而越來越差.實驗表明,20層以上的深度網(wǎng)絡(luò),繼續(xù)疊加增加網(wǎng)絡(luò)的層數(shù),分類的精度反而會降低,50層網(wǎng)絡(luò)的測試誤差率大概是20層網(wǎng)絡(luò)的一倍[10].這種網(wǎng)絡(luò)的退化現(xiàn)象表明了直接增加深度的深度學(xué)習(xí)系統(tǒng)并不是很容易被優(yōu)化.
為了解決由于深度增加帶來的網(wǎng)絡(luò)退化問題,2015年微軟亞洲研究院的He等人[11]提出了深度殘差網(wǎng)絡(luò)(deep residual network).在殘差學(xué)習(xí)(residual learning)的啟發(fā)下,網(wǎng)絡(luò)中引入了恒等映射的設(shè)計,巧妙的緩解了由于深度增加帶來的梯度爆炸或梯度消失以及網(wǎng)絡(luò)退化的問題,提升了信息傳遞路徑的數(shù)量,使得網(wǎng)絡(luò)的深度可以由幾十層推到千層.深度殘差網(wǎng)絡(luò)的出現(xiàn)極大的提高了系統(tǒng)的準(zhǔn)確率,使得訓(xùn)練極深的網(wǎng)絡(luò)成為可能,是圖像分類領(lǐng)域具有重要意義的突破性進展.
由于深度殘差網(wǎng)絡(luò)的優(yōu)良特性,它被應(yīng)用到多個領(lǐng)域,例如人臉識別[12]、目標(biāo)檢測[13]、行人檢測[14]、語義分割[15]、自然語言處理[16]等,取得了很好的效果.本文將以深度殘差網(wǎng)絡(luò)在圖像分類領(lǐng)域的進展為線索,簡要闡述其成功的原因,介紹深度殘差網(wǎng)絡(luò)在圖像分類領(lǐng)域的一些研究進展,比較這些不同的網(wǎng)絡(luò)在圖像分類數(shù)據(jù)集上的性能表現(xiàn),探索未來研究的一些方向.
直接增加網(wǎng)絡(luò)的深度,會使得深度學(xué)習(xí)系統(tǒng)很難被優(yōu)化.假設(shè)我們現(xiàn)在有一個淺層的網(wǎng)絡(luò),那么應(yīng)該存在一個深層的網(wǎng)絡(luò):它是在由淺層網(wǎng)絡(luò)的基礎(chǔ)上堆疊了多個x→x(恒等映射)的映射構(gòu)成的,那么該深層神經(jīng)網(wǎng)絡(luò)的性能至少應(yīng)該不會比淺層網(wǎng)絡(luò)的性能差.然而實驗卻證明找不到這樣一個我們理想當(dāng)中的深層神經(jīng)網(wǎng)絡(luò),這種現(xiàn)象說明通過直接疊加深度的方式來擬合這樣一個x→x恒等映射是非常困難的.
在淺層網(wǎng)絡(luò)已經(jīng)達到了飽和之后,通過在它后面再加上恒等映射層(identity mapping),不僅可以使得網(wǎng)絡(luò)的深度增加使得模型有更強的表現(xiàn)能力,而且保證了系統(tǒng)的誤差不會隨著深度增加而增加[11].
假設(shè)原始神經(jīng)網(wǎng)絡(luò)的一個殘差單元要學(xué)習(xí)的目標(biāo)映射為H(x),這個目標(biāo)映可能很難學(xué)習(xí).殘差神經(jīng)網(wǎng)絡(luò)讓殘差單元不直接學(xué)習(xí)目標(biāo)映射,而是學(xué)習(xí)一個殘差F(x)=H(x)?x.這樣原始的映射變成了F(x)+x.原始殘差單元可以看做是由兩部分構(gòu)成,一個線性的直接映射x→x和一個非線性映射F(x).特別地,如果x→x是最優(yōu)的學(xué)習(xí)策略,那么相當(dāng)于把非線性映射F(x)的權(quán)重參數(shù)設(shè)置為0.恒等映射使得非線性映射F(x)學(xué)習(xí)線性的x→x映射變得容易很多.
深度殘差網(wǎng)絡(luò)的基本組成單元是殘差單元,殘差單元一般由卷積Conv層,批處理歸一化Batchnorm層和非線性激活函數(shù)Relu共同構(gòu)成.圖1給出了原始殘差單元的示意圖,令第l個殘差單元的輸入為xl,那么下一層的輸出為:
其中,F(xl,Wl)是殘差函數(shù),Wl是該殘差函數(shù)對應(yīng)的權(quán)重參數(shù);f(?)是非線性激活函數(shù)Relu.
圖1 原始殘差學(xué)習(xí)單元結(jié)構(gòu)圖
深度殘差網(wǎng)絡(luò)由多個殘差學(xué)習(xí)單元堆疊而成.給定輸入的圖像數(shù)據(jù),深度殘差網(wǎng)絡(luò)首先將輸入數(shù)據(jù)依次送入卷積層Conv、非線性激活函數(shù)層Relu和批處理歸一化層Batchnorm;然后將處理的結(jié)果進一步送入到多個殘差單元,再經(jīng)過批處理歸一化層BN 和多個全連接層;最后得到輸出結(jié)果.
在構(gòu)建”超深”的網(wǎng)絡(luò)比如100層以上的網(wǎng)絡(luò)時,將多個原始殘差學(xué)習(xí)模塊直接堆疊起來會造成參數(shù)的爆炸.為了在不損失精度的情況下降低深層網(wǎng)絡(luò)的的參數(shù)量,He等人[10]提出了一種稱為”瓶頸”(bottleneck)的殘差模塊結(jié)構(gòu),如圖2.這種瓶頸結(jié)構(gòu)的設(shè)計主要目的是為了減少參數(shù)量從而減少計算量,使得深度殘差網(wǎng)絡(luò)的訓(xùn)練速度加快.
圖2 Bottleneck結(jié)構(gòu)
在原始殘差單元的基礎(chǔ)上,研究者對于Batchnorm[17](批歸一化)和激活函數(shù)Relu的放置位置和組合方式進行了不同的探索.研究發(fā)現(xiàn),殘差單元不同的構(gòu)造方式對于精度、網(wǎng)絡(luò)的收斂以及訓(xùn)練的速度都有影響.He等[10]在2016年提出了Pre-activation (預(yù)激活)的殘差單元,提高了模型的泛化能力,減少了過擬合的影響.Han等[18]在此基礎(chǔ)上,對于殘差單元進行了更多的測試,不同殘差單元的結(jié)構(gòu)圖如圖3所示,不同殘差單元在分類任務(wù)下的表現(xiàn)結(jié)果如表1所示.
圖3 不同殘差單元結(jié)構(gòu)圖
表1 不同殘差單元錯誤率對比(單位:%)
CIFAR-10和CIFAR-100是圖像分類領(lǐng)域常用的比較性能的數(shù)據(jù)集.CIFAR-10數(shù)據(jù)集由來自10個類的60 000個32×32彩色圖像組成,其中每個類包含6000個圖像,有50 000個訓(xùn)練圖像和10 000個測試圖像[19],如圖4.
CIFAR-100數(shù)據(jù)集是CIFAR-10的擴展數(shù)據(jù)集,它包含的類別數(shù)更多(100個類別),每個類別中有600張圖像(500張訓(xùn)練圖像和100張測試圖像).除此之外,CIFAR-100中的100個小類還可以被分成20個大類.數(shù)據(jù)集中的每個圖像都帶有一個“精細”的類別標(biāo)簽(它所屬的小類)和一個“粗糙”標(biāo)簽(它所屬的大類).
在原始深度殘差網(wǎng)絡(luò)的啟發(fā)下,研究者們從不同的角度出發(fā)(例如繼續(xù)增加網(wǎng)絡(luò)的深度、增加的網(wǎng)絡(luò)的寬度、更細化的網(wǎng)絡(luò)架構(gòu)設(shè)計、引入注意力機制等等),為了增加模型的表示能力和泛化能力,提高模型提取特征的能力,對于深度殘差網(wǎng)絡(luò)進行了不同方向的改進,同時在CIFAR-10,CIFAR-100這兩個圖像分類數(shù)據(jù)集上進行了性能驗證.
圖4 CIFAR10數(shù)據(jù)集示例圖[19]
Zhang等人[20]的研究表明,不同于以往不斷的疊加網(wǎng)絡(luò)的深度,網(wǎng)絡(luò)的寬度作為一個重要的維度也需要被關(guān)注.隨著模型深度的加深,在梯度進行反向傳播時,并不能保證能夠流經(jīng)每一個殘差單元(Residual unit)的權(quán)重層,絕大多數(shù)的殘差單元只能提供很少的信息,只有少數(shù)幾個殘差單元能夠?qū)W到有用的表達提取到有用的特征[21,22].這里的“寬度”指的是特征映射的通道數(shù),在卷積層中指的式增加卷積核的個數(shù).Sergey等[23]從增加網(wǎng)絡(luò)的“寬度”入手,提出了Wide Residual Netork (WRN),使用一種較淺的但是寬度更寬的模型,來更加有效的提升模型的性能.
寬殘差網(wǎng)絡(luò)的實驗結(jié)果表明,寬度可以提高特征的復(fù)用,能夠帶來網(wǎng)絡(luò)表現(xiàn)能力和泛化能力的提升,同樣的參數(shù)數(shù)量,寬的網(wǎng)絡(luò)訓(xùn)練訓(xùn)練速度也更快.WRN的具體構(gòu)造如表2所示,不同深度的網(wǎng)絡(luò)在數(shù)據(jù)集上的表現(xiàn)如表3所示.
Veit等人[24]的實驗證明深度殘差網(wǎng)絡(luò)其實可以看做是相對較淺網(wǎng)絡(luò)的集合.他們的研究表明,從殘差網(wǎng)絡(luò)中刪除一個單獨的殘差單元,即只保留一個恒等映射,不會對整體性能產(chǎn)生明顯的影響,經(jīng)過不同的實驗證明刪除殘差單元相當(dāng)于刪除集成的網(wǎng)絡(luò)中的一些淺層的網(wǎng)絡(luò).但是在普通網(wǎng)絡(luò)如 VggNet 和GoogleNet中,刪除任意一個網(wǎng)絡(luò)層都會導(dǎo)致網(wǎng)絡(luò)的性能的驟降.
表2 k倍寬殘差網(wǎng)絡(luò)具體架構(gòu)設(shè)計
表3 不同配置的寬殘差網(wǎng)絡(luò)實驗結(jié)果
深度殘差網(wǎng)絡(luò)下一般在下采樣殘差單元中將通道數(shù)加倍.實驗發(fā)現(xiàn),在深度殘差網(wǎng)絡(luò)中分別刪除下采樣功能的殘差單元和非下采樣的殘差單元,刪除下采樣的殘差單元會造成網(wǎng)絡(luò)更多的性能下降.為了更好的解決這個問題,Han等人[18]設(shè)計了一個“金字塔”殘差網(wǎng)絡(luò)(Pyramidal residual Network,PyramidNet).如圖5所示,不同于以往在下采樣單元時網(wǎng)絡(luò)突然加倍,該網(wǎng)絡(luò)的寬度隨深度的增加而逐漸增加,這種形狀類似于從頂部向下逐漸變寬的金字塔結(jié)構(gòu).金字塔型殘差網(wǎng)絡(luò)具體結(jié)構(gòu)如表4,分類錯誤率對比如表5.
圖5 金字塔型網(wǎng)絡(luò)殘差單元
表4 金字塔型殘差網(wǎng)絡(luò)具體架構(gòu)
表5 金字塔型殘差網(wǎng)絡(luò)分類錯誤率對比
金字塔殘差網(wǎng)絡(luò)的通道數(shù)的具體計算公式如式(2),其中k代表第k層,N代表總的層數(shù),Dk代表第k層的通道數(shù),α代表最后一層輸出通道數(shù).
這種網(wǎng)絡(luò)設(shè)計可以有效的改善過擬合的問題,與其他網(wǎng)絡(luò)架構(gòu)設(shè)計相比,它顯示出很好的泛化能力;而且在金字塔型的殘差網(wǎng)絡(luò)中,刪除具有下采樣功能的殘差單元不會降低性能.
受到 ResNet 將輸入和輸出相加形成殘差結(jié)構(gòu)的啟發(fā),Huang等人[21]設(shè)計出一種將輸出與輸入并聯(lián)到一起的網(wǎng)絡(luò)架構(gòu),實現(xiàn)了每一層都能直接得到之前所有層的輸出的密集型卷積網(wǎng)絡(luò)(Densely convolutional Network,DenseNet).該網(wǎng)絡(luò)可以有效的緩解梯度消失的問題,增加特征的重用性,并大幅減少參數(shù)數(shù)量.在這種新型網(wǎng)絡(luò)架構(gòu)中,每層的輸入由所有之前層的特征映射組成,其輸出將傳輸給每個后續(xù)層.
在原始的深度殘差網(wǎng)絡(luò)中,恒等映射的輸出是通過加法結(jié)合起來的.在這種情況下,如果兩個層的特征映射的分布差異性很大的話,這有可能會影響特征的重用同時阻礙信息流的傳播.密集型網(wǎng)絡(luò)(DenseNet)(如圖6)通過將特征映射級聯(lián)而不是將特征映射直接相加,可以在保留所有特征映射的同時增加輸出的多樣性,促進特征被重用.實驗證明,在相同的參數(shù)量下密集型網(wǎng)絡(luò)具備更高的參數(shù)效率,有更好的收斂效果.表6是不同增長率k下的分類錯誤率.
圖6 密集型網(wǎng)絡(luò)結(jié)構(gòu)圖[21]
表6 不同增長率k下分類錯誤率
注意力機制在計算機視覺中也起著重要的作用,注意力機制不止能使得運算聚焦于特定的區(qū)域,同時也可以使得該部分區(qū)域的特征重要性得到增強.為了在深度殘差網(wǎng)絡(luò)中引入注意力的機制,Wang等[22]提出了殘差注意力網(wǎng)絡(luò)(Residual Attention Network,RAN).
一個注意力殘差單元如圖7所示,分為兩個分支,右邊的分支就是普通的卷積網(wǎng)絡(luò),即主干分支,叫做Trunk Branch.左邊的分支是為了得到一個掩碼mask,該掩碼的作用是得到輸入特征x的attention map,所以叫做Mask Branch,這個Mask Branch包含down sample和upsample的過程,目的是為了保證和右邊分支的輸出大小一致.
注意單元的計算公式如式(3),其中M(x)為Mask Branch的輸出,F(x)為主分支的輸出.借鑒了ResNet中恒等映射的思想,當(dāng)掩碼分支M(x)=0時,該層的輸入就等于F(x),所以該層的效果至少不會比原始的F(x)差,殘差單元更容易被優(yōu)化.同時掩碼分支的設(shè)計,使得特征圖可以學(xué)習(xí)到不同大小的權(quán)重值,進而讓主干分支輸出的特征圖中顯著的特征更加顯著,增加了特征的判別性.
圖7 注意力殘差單元結(jié)構(gòu)圖[22]
殘差注意力模型不僅可以提升網(wǎng)絡(luò)的性能,還具有很強的擴展性,可以結(jié)合到目前的大部分深層網(wǎng)絡(luò)中,做到端到端的訓(xùn)練.因為殘差結(jié)構(gòu)的存在,也可以很容易將網(wǎng)絡(luò)擴展到百數(shù)層.實驗證明,使用該種策略可以在達到其他大網(wǎng)絡(luò)的分類準(zhǔn)確率的同時顯著降低計算量(計算量基本上為原始ResNet深層網(wǎng)絡(luò)的69%左右),具體的實驗結(jié)果如表7所示.
表7 注意力殘差網(wǎng)絡(luò)錯誤率對比
深度殘差網(wǎng)絡(luò)的由于網(wǎng)絡(luò)更深或者更寬,網(wǎng)絡(luò)的參數(shù)量很大,往往非常容易造成過擬合,模型在訓(xùn)練集上表現(xiàn)很好,在測試集上卻表現(xiàn)很差.為了解決過擬合的問題,同時受到Dropout思想的啟發(fā),隨機深度殘差網(wǎng)絡(luò)(ResDrop)[25]在訓(xùn)練時使用伯努利隨機變量,隨機使得一部分的殘差單元”失活”,使得網(wǎng)絡(luò)不依賴于某個特定的殘差單元,起到一部分正則化的效果.和Dropout類似,在進行測試時使用整個網(wǎng)絡(luò)進行預(yù)測.
在訓(xùn)練期間,隨機深度殘差網(wǎng)絡(luò)的深度會減小,進而會導(dǎo)致前向傳播和反向傳播的深度變短,所以其訓(xùn)練時間不會隨著深度殘差網(wǎng)絡(luò)的深度而線性地增加.
此外,訓(xùn)練期間網(wǎng)絡(luò)深度的減少會增強前邊層參數(shù)的梯度更加有利于梯度的傳播,這將使得1000層以上的隨機深度殘差網(wǎng)絡(luò)能夠正常訓(xùn)練.隨機深度的殘差網(wǎng)絡(luò)可以被看做不同深度網(wǎng)絡(luò)的集成[24],與恒定深度的深度殘差網(wǎng)絡(luò)相比不易過擬合.隨機深度殘差網(wǎng)絡(luò)在CIFAR-10和CIFAR-100上分別取得了5.25%和24.98%的錯誤率.
深度殘差網(wǎng)絡(luò)一直是圖像分類領(lǐng)域研究的熱點.自從深度殘差網(wǎng)絡(luò)被提出以來,研究者們?yōu)榱颂嵘疃葰埐罹W(wǎng)絡(luò)的表征能力和泛化能力,提高在分類任務(wù)上的表現(xiàn),研究出了多個改進的版本[26–28].這些改進或變體可以大體可以分成基于殘差單元的優(yōu)化改進,基于整體網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計的改進、加入attention機制3種.
基于殘差單元的改進主要是通過修改殘差單元的不同層的擺放位置和修改殘差單元的殘差函數(shù).Zhang在殘差單元中加入Dropout[29]層取得了更好的表現(xiàn),Xie等人[30]引入了一個“基數(shù)”的超參數(shù)通過增加殘差單元獨立路徑的數(shù)量提高了準(zhǔn)確率,在此基礎(chǔ)上Gastaldi提出Shake-Shake正則化殘差網(wǎng)絡(luò)[31],采用隨機仿射組合替換并行分支的標(biāo)準(zhǔn)求和來提高多分支網(wǎng)絡(luò)的泛化能力.
基于整體網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的改進的研究是指改變網(wǎng)絡(luò)結(jié)構(gòu)的整體框架.通過改進深度殘差網(wǎng)絡(luò)的架構(gòu)使得梯度更加容易傳播,模型的表示能力更強,殘差網(wǎng)絡(luò)更容易優(yōu)化.Zhang等人[32]在原始殘差網(wǎng)絡(luò)的基礎(chǔ)上增加了一個層級的快捷連接構(gòu)建了一個多級網(wǎng)絡(luò),Yamada等人[33]進一步把隨機深度引入到“金字塔”殘差網(wǎng)絡(luò)框架中,提出了PyramidSepDrop網(wǎng)絡(luò)模型.
將Attention機制引入深度殘差網(wǎng)絡(luò)是目前研究的熱點方向之一.Squeeze and excitation networks[34]認為不同的特征映射通道的重要性不同,在他們的壓縮和激勵模塊中,他們使用全局平均池化(Global Average Pooling)來計算通道的注意力(權(quán)重值).Woo等人[35]在此基礎(chǔ)上,提出了卷積注意力模塊CBAM (Convolutional Block Attention Module),利用一個有效的結(jié)構(gòu)設(shè)計來結(jié)合空間(feature map)和通道的注意力,通過將空間注意力和通道注意力結(jié)合取得了在不同的數(shù)據(jù)集上取得了更好的性能.
此外,還有一些研究者將3種方法混合也取得了很好的效果,例如Tan等人[36]通過混合改進在CIFAR-10和CIFAR-100上分別取得了1.1%和8.3%的錯誤率,不同的深度殘差網(wǎng)絡(luò)性能表現(xiàn)如表8所示.
表8 深度殘差網(wǎng)絡(luò)性能對比
深度殘差網(wǎng)絡(luò)的出現(xiàn),極大的提高了深度學(xué)習(xí)的表征能力和學(xué)習(xí)能力,成為圖像分類領(lǐng)域研究的熱點方向.
本文分析了深度殘差網(wǎng)絡(luò)和其變體,比較不同模型在常用圖像分類數(shù)據(jù)集上的性能表現(xiàn),通過分析可見在圖像分類領(lǐng)域深度殘差網(wǎng)絡(luò)已有一定的研究成果.鑒于目前深度殘差網(wǎng)絡(luò)和其變體還存在收斂速度慢、訓(xùn)練時間長、網(wǎng)絡(luò)參數(shù)冗余、網(wǎng)絡(luò)設(shè)計復(fù)雜、對于數(shù)據(jù)需求量大依賴人為標(biāo)注等缺點,未來的研究方向在于:
(1)減少深度殘差網(wǎng)絡(luò)的參數(shù),在不損失精度的情況下對于深度殘差網(wǎng)絡(luò)進行有效的壓縮.深度殘差網(wǎng)絡(luò)由于在寬度和深度上增加了很多,會產(chǎn)生很多的冗余參數(shù),如何在不損失性能的情況下減少深度殘差網(wǎng)絡(luò)的參數(shù)量從而提高深度殘差網(wǎng)絡(luò)的計算性能是個具有現(xiàn)實意義的問題.
(2)在數(shù)據(jù)量較小的情況下,獲得更好的性能.目前在圖像分類領(lǐng)域深度殘差網(wǎng)絡(luò)的精度仍然依賴于數(shù)據(jù)集樣本的多少,數(shù)據(jù)增強的策略等.在數(shù)據(jù)標(biāo)注不足的情況下,如何獲得相同的性能也是一個值得關(guān)注的問題.更少的依賴有監(jiān)督學(xué)習(xí)和人類的先驗標(biāo)注信息,將無監(jiān)督學(xué)習(xí)或者強化學(xué)習(xí)和深度殘差網(wǎng)絡(luò)結(jié)合值得我們不斷的探索.
(3)增強深度殘差網(wǎng)絡(luò)的學(xué)習(xí)能力和泛化能力.深度殘差網(wǎng)絡(luò)的參數(shù)量往往很大,模型往往在訓(xùn)練集上效果效果很好,在測試集上效果很差,如何防止過擬合使得模型可以很好地泛化是一個值得研究的問題.另外,在現(xiàn)有基礎(chǔ)上,改進殘差單元和殘差網(wǎng)絡(luò)的結(jié)構(gòu)、引入注意力機制以及混合改進等,使得深度殘差網(wǎng)絡(luò)在分類任務(wù)上取得更高的準(zhǔn)確率是值得深入探索的核心問題.