卷積神經(jīng)網(wǎng)絡(luò)的正則化方法綜述

2024-04-29 00:00:00陳琨王安志

計(jì)算機(jī)應(yīng)用研究 2024年4期

摘要：近年來，卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于計(jì)算機(jī)視覺各個(gè)領(lǐng)域中并取得了顯著的效果。正則化方法是卷積神經(jīng)網(wǎng)絡(luò)的重要組成部分，它能避免卷積神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練的過程中出現(xiàn)過擬合現(xiàn)象。目前關(guān)于卷積神經(jīng)網(wǎng)絡(luò)正則化方法的綜述較少，且大多缺乏對新提出的正則化方法的總結(jié)。首先對卷積神經(jīng)網(wǎng)絡(luò)中的正則化方法相關(guān)文獻(xiàn)進(jìn)行詳細(xì)的總結(jié)和梳理，將正則化方法分為參數(shù)正則化、數(shù)據(jù)正則化、標(biāo)簽正則化和組合正則化；然后在ImageNet等公開數(shù)據(jù)集上，基于top－1 accuracy、top－5 accuracy等評價(jià)指標(biāo)，對不同正則化方法的優(yōu)缺點(diǎn)進(jìn)行對比分析；最后討論了卷積神經(jīng)網(wǎng)絡(luò)的正則化方法未來的研究趨勢和工作方向。

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)；正則化方法；過擬合；泛化

中圖分類號：TP391.41文獻(xiàn)標(biāo)志碼： A文章編號：1001－3695（2024）04－001－0961－09

doi：10.19734/j.issn.1001－3695.2023.06.0347

Survey on regularization methods for convolutional neural network

Chen Kun， Wang Anzhi

（School of Big Data amp; Computer Science， Guizhou Normal University， Guiyang 550025，China）

Abstract：In recent years，convolutional neural networks have been widely used in various fields of computer vision andachieved remarkable results.Regularization method is an important part of convolutional neural network，which helps to avoid the overfitting phenomenon of convolutional neural network in the process of model training.There are fewer reviews on regularization methods for convolutional neural networks，and most of them lack a summary of the newly proposed regularization methods.Firstly，this paper conducted a detailed summary of the literature on regularization methods in convolutional neural networks，and classified the regularization methods into parameter regularization，data regularization，label regularization and combinatorial regularization.After that， on the public datasets such as ImageNet，it compared and analyzed the advantages and disadvantages of different regularization methods based on evaluation indexes such as top－1 accuracy and top－5 accuracy.Finally，it discussed the future research trends and work directions of regularization methods for convolutional neural network.

Key words：convolutional neural network； regularization method； overfitting； generalization

0 引言

2012年Krizhevsky等人［1］提出的AlexNet引入了卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN），在ImageNet大賽上以遠(yuǎn)超第二名的成績奪得冠軍，至此CNN其強(qiáng)大的建模能力引起廣泛關(guān)注。與傳統(tǒng)方法相比，CNN的引入為計(jì)算機(jī)視覺領(lǐng)域帶來了很大的提升，如圖像分類［2］、目標(biāo)檢測［3］、語義分割［4］、實(shí)例分割［5］等。在CNN訓(xùn)練過程中，應(yīng)該減少模型泛化誤差，從而讓模型在測試階段能夠保持優(yōu)秀的性能。正則化方法是CNN的重要組成部分，是減少泛化誤差的重要步驟。

正則化（regularization）是一種避免模型過擬合、減少泛化誤差的方法。隨著神經(jīng)網(wǎng)絡(luò)深度不斷增加，模型復(fù)雜度和未訓(xùn)練的參數(shù)會不斷擴(kuò)大，這時(shí)模型極易出現(xiàn)過擬合現(xiàn)象，具體表現(xiàn)如圖1所示，模型在訓(xùn)練數(shù)據(jù)上損失較小且預(yù)測準(zhǔn)確率較高，但在測試集上模型的損失會很大而準(zhǔn)確率較低。而使用正則化方法就是通過稀疏化網(wǎng)絡(luò)參數(shù)或增強(qiáng)輔助數(shù)據(jù)以達(dá)到增強(qiáng)模型泛化能力的目的，進(jìn)而防止模型過擬合。通過對正則化方法相關(guān)文獻(xiàn)的廣泛調(diào)研，本文制作了CNN中的正則化方法的研究熱度柱形圖，如圖2所示，很明顯能夠看到CNN的正則化方法的研究熱度正在日益上漲。

本文將不同的正則化方法分為參數(shù)正則化、數(shù)據(jù)正則化和標(biāo)簽正則化三類。

a）參數(shù)正則化。隨著對神經(jīng)網(wǎng)絡(luò)的深入研究，涌現(xiàn)了很多減小或者稀疏參數(shù)的正則化方法。比如，2012年Hinton等人［6］提出dropout，該方法的工作原理是神經(jīng)網(wǎng)絡(luò)在前向傳播的時(shí)候讓某個(gè)神經(jīng)元以一定概率p處于未激活狀態(tài)，從而減弱模型對某些局部特征的依賴而增強(qiáng)其泛化性。

b）數(shù)據(jù)正則化。用足量的訓(xùn)練樣本，同樣能夠讓模型避免過擬合現(xiàn)象，但是單純使用人工標(biāo)注數(shù)據(jù)集的方式通常會消耗大量的人力、物力，甚至花費(fèi)的成本會遠(yuǎn)遠(yuǎn)大于模型本身能帶來的價(jià)值。針對上述問題，數(shù)據(jù)正則化對神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)進(jìn)行優(yōu)化調(diào)整是非常有效的低成本避免模型過擬合的方法。比如，Sangdoo等人［7］提出的CutMix方法，將訓(xùn)練樣本隨機(jī)進(jìn)行兩兩配對，隨機(jī)將其中一張圖的一部分進(jìn)行裁剪并疊加到另一張圖的相同位置，標(biāo)簽信息也進(jìn)行相應(yīng)的疊加，從而實(shí)現(xiàn)訓(xùn)練樣本的擴(kuò)增。

c）標(biāo)簽正則化。標(biāo)簽正則化是通過對標(biāo)簽信息進(jìn)行優(yōu)化，讓模型能夠提升泛化能力。在CNN中的多分類任務(wù)上，數(shù)據(jù)標(biāo)簽通常是以one－h(huán)ot的形式進(jìn)行編碼，這類型的編碼方式鼓勵(lì)模型預(yù)測目標(biāo)類別的概率趨近于1，這樣會讓模型在對多目標(biāo)進(jìn)行分類時(shí)缺乏適應(yīng)性，使得模型對自身預(yù)測過于自信從而導(dǎo)致過擬合。為解決此類問題，Christian等人［8］提出標(biāo)簽平滑，通過在標(biāo)簽的分布信息中加入噪聲，使得模型對正負(fù)樣本的預(yù)測值差別縮小，以此達(dá)到避免模型過擬合的問題。

本文通過對CNN中的正則化方法相關(guān)文獻(xiàn)的調(diào)研，還發(fā)現(xiàn)在實(shí)際應(yīng)用過程中，將不同的正則化方法進(jìn)行組合使用，效果往往能夠優(yōu)于單一使用一種正則化方法。

1 參數(shù)正則化

在大型的神經(jīng)網(wǎng)絡(luò)中對目標(biāo)函數(shù)添加適應(yīng)的正則化項(xiàng)或?qū)W(wǎng)絡(luò)中的參數(shù)進(jìn)行一定的控制，是現(xiàn)在非常普遍的預(yù)防過擬合的措施。近年來對于該類型的研究依然有很多成果，本章將對于參數(shù)正則化進(jìn)行詳細(xì)分析。

1.1 dropout正則化處理

在大型的卷積神經(jīng)網(wǎng)絡(luò)中，dropout處理［6］是一種能夠有效避免網(wǎng)絡(luò)中參數(shù)量過大的方法。dropout作用于神經(jīng)網(wǎng)絡(luò)的效果可視化如圖3所示，該方法的思想上類似于Breiman［9］研究的套袋模型，dropout以一定概率p隨機(jī)地使隱藏層中的特征節(jié)點(diǎn)處于未激活的狀態(tài)，讓其不參與到模型的訓(xùn)練過程中，從而讓網(wǎng)絡(luò)的復(fù)雜度與模型的參數(shù)量得到有效的控制。dropout在卷積神經(jīng)網(wǎng)絡(luò)第n～n+1層的第i個(gè)神經(jīng)元的前向傳播過程如式（1）（2）所示。

其中： r （n）是與第n層神經(jīng)元個(gè)數(shù)相同的向量，每個(gè)元素取值為1、0，并且符合伯努利分布，即每一個(gè)元素被保留的概率為p， w （n+1）i是第n～n+1層的權(quán)重矩陣， b （n+1）i是第n層到第n+1層的偏置。

Srivastava等人［10］發(fā)現(xiàn)當(dāng)神經(jīng)網(wǎng)絡(luò)中的層數(shù)固定時(shí)，p的數(shù)值過大或過小都可能造成模型過擬合或欠擬合，0.4≤p≤0.8時(shí)模型的測試誤差會比較平緩。為了提升dropout效果，Ian等人［11］定義了一個(gè)新的激活函數(shù)maxout，它的輸出是一組輸入特征值中的最大值并且能夠促進(jìn)dropout的優(yōu)化。Jumsuk等人［12］通過使用自注意力機(jī)制與dropout進(jìn)行結(jié)合提出了一個(gè)基于注意力的dropout層，能夠誘導(dǎo)CNN分類器去學(xué)習(xí)全局特征信息。Zhu等人［13］的TargetDrop同樣結(jié)合了注意力機(jī)制對dropout進(jìn)行改進(jìn)，該方法能夠精準(zhǔn)地屏蔽掉檢測對象的部分有效特征，促使模型學(xué)習(xí)到更多的判別信息。Wan等人［14］提出的DropConnect，通過隨機(jī)丟棄權(quán)重來對dropout進(jìn)行改進(jìn)，使用了DropConnect的全連接層會變成稀疏連接層。Mojtaba等人［15］提出的patchup能丟棄任意形狀的特征，而不是只有矩形，提高模型泛化能力的同時(shí)也提升了模型對對抗攻擊的魯棒性。Hojjat等人［16］提出skipout將網(wǎng)絡(luò)劃分為訓(xùn)練層和魯棒層，模型在訓(xùn)練時(shí)跳過魯棒層保證了網(wǎng)絡(luò)反向傳播的有效性，提升了模型泛化能力。Lu等人［17］結(jié)合拉德馬赫復(fù)雜度提出了LocalDrop，增加一定的網(wǎng)絡(luò)反向傳播優(yōu)化時(shí)間，提升dropout性能。RandomDrop［18］是為殘差網(wǎng)絡(luò)進(jìn)行設(shè)計(jì)的，以線性衰減概率丟棄殘差層。Yoshihito等人［19］受shake－shake［20］的啟發(fā)，結(jié)合RandomDrop提出了shake－drop，通過對殘差網(wǎng)絡(luò)的特征映射乘上正則化權(quán)重，改善模型泛化能力的同時(shí)提升了殘差網(wǎng)絡(luò)的性能。類似地，Lu等人［21］的MSC（multiscale conditional）正則化將特征劃分為三個(gè)不同尺度的特征映射，分別乘上不同的正則化權(quán)重，有效地提升了正則化過程的靈活性和適應(yīng)性。Zhao等人［22］提出的frequency regularization直接通過截?cái)啻罅康臄y帶高頻信息的參數(shù)張量，使得網(wǎng)絡(luò)的參數(shù)量得到有效降低，從而預(yù)防出現(xiàn)過擬合的現(xiàn)象。

由于dropout處理進(jìn)行丟棄的特征節(jié)點(diǎn)是獨(dú)立的隨機(jī)單元，無法有效地降低卷積層中特征節(jié)點(diǎn)之間的相關(guān)性，所以dropout通常無法應(yīng)用于卷積層。Ghiasi等人［23］提出一個(gè)結(jié)構(gòu)化的dropout，即DropBlock，它從特征圖中丟棄連續(xù)的區(qū)域，而不是僅僅丟棄獨(dú)立的隨機(jī)單元，大量的實(shí)驗(yàn)表明，DropBlock在ImageNet圖像分類任務(wù)中是一種很有效的正則化器。Brahim等人［24］將dropout與混合池化模塊進(jìn)行結(jié)合，有效地避免了模型通過參數(shù)之間的相互聯(lián)系來記憶樣本。Jonathan等人［25］提出的spatial－dropout通過從卷積層刪除整個(gè)特征映射來解決節(jié)點(diǎn)之間的相關(guān)性問題。

由于dropout及其改進(jìn)在使用中對特征節(jié)點(diǎn)采取的方式大多是隨機(jī)處理，所以可能會導(dǎo)致上下文信息或目標(biāo)完全丟失。Ba等人［26］用一個(gè)與深度網(wǎng)絡(luò)共享參數(shù)的網(wǎng)絡(luò)來對dropout的超參數(shù)p進(jìn)行計(jì)算，該方法能夠適用于深度網(wǎng)絡(luò)中的無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。Gong等人［27］通過dromask引入額外的超參數(shù)對丟棄特征和保留特征數(shù)量比例進(jìn)行權(quán)衡，以避免有效目標(biāo)的信息過度丟失。Pham等人［28］提出了AutoDropout，它實(shí)現(xiàn)了dropout模式的過程自動化，在該方法中控制器學(xué)會在卷積神經(jīng)網(wǎng)絡(luò)中的每個(gè)層生成dropout，并將其驗(yàn)證結(jié)果作為控制器學(xué)習(xí)的信號，AutoDropout提高了卷積神經(jīng)網(wǎng)絡(luò)的圖像分類性能，并且也能提高比較主流的Transformer［29～31］模型的性能。

1.2 范數(shù)正則化

范數(shù)正則化是一種常見的預(yù)防過擬合的方法，在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中，它通常用于損失函數(shù)，即在損失函數(shù)后添加一個(gè)正則化項(xiàng)，目的是對損失函數(shù)中的某一些函數(shù)做一定的限制，使得這些參數(shù)能夠在訓(xùn)練的過程中避免過分?jǐn)M合噪聲數(shù)據(jù)。對標(biāo)準(zhǔn)損失函數(shù)添加正則化項(xiàng)可表示為

其中：R（ω）為正則化項(xiàng)；λ為正則化項(xiàng)的權(quán)重。

1.2.1L1正則化（L1－norm）

輸入網(wǎng)絡(luò)中的特征中有很大一部分是不提供有用信息的，這些特征信息稱為噪聲，在網(wǎng)絡(luò)訓(xùn)練中模型有可能將這些噪聲進(jìn)行擬合，使得模型測試誤差增大。為解決上述問題，L1正則化將參數(shù)進(jìn)行稀疏從而更有利于特征選擇。在損失函數(shù)中應(yīng)用L1正則化項(xiàng)，如式（4）所示。

其中：Q為特征的維數(shù)； W 為權(quán)值向量。為了避免L1正則化的公式在零處不可微，故在實(shí)際應(yīng)用中會增加了一個(gè)接近零的超參數(shù)ε。對于L1正則化的研究，Hong等人［32］提出了一個(gè)新的算法L1－POFR（penalized orthogonal forward regression），該算法以正向回歸的方式同時(shí)進(jìn)行正則化優(yōu)化、模型項(xiàng)選擇和參數(shù)估計(jì)，通過對訓(xùn)練模型的回歸矩陣進(jìn)行正交分解，使得原始的L1算法的效率得到了有效提高。Lu等人［33］提出的L1－SSL（semi－supervised learning）有效利用了L1正則化稀疏性的良好特性，從而很好地抑制了噪聲標(biāo)簽的消極影響。Enzo等人［34］提出的SeReNe利用特征節(jié)點(diǎn)的靈敏度作為正則化器來讓模型訓(xùn)練獲得稀疏的模型結(jié)構(gòu)。讓網(wǎng)絡(luò)更加稀疏的方法還有Hu等人［35］對CNN前饋網(wǎng)絡(luò)的輸入節(jié)點(diǎn)或冗余權(quán)值進(jìn)行剪枝讓網(wǎng)絡(luò)更加稀疏。

在卷積層中BN（batch normalization）的使用通常會給網(wǎng)絡(luò)訓(xùn)練帶來額外的計(jì)算量從而消耗更多的內(nèi)存，導(dǎo)致訓(xùn)練速度大大減慢并加重訓(xùn)練工作量。Wu等人［36］提出了一種使用L1算法的BN，該方法的關(guān)鍵是去除傳統(tǒng)L2－BN層中復(fù)雜的平方根運(yùn)算，在Fashion－MNIST［37］、ILSVRC12［38］數(shù)據(jù)集上的卷積神經(jīng)網(wǎng)絡(luò)和在CIFAR和LSUN－Bedroom［39］上生成的對抗網(wǎng)絡(luò)中進(jìn)行測試，L1－BN算法在精準(zhǔn)度和計(jì)算量之間得到了有效的權(quán)衡。

1.2.2L2正則化（L2－norm）

L2正則化也稱為“嶺回歸”，在深度網(wǎng)絡(luò)中L2正則化使用率極高。L2正則化是將各元素的平方和求平方根，讓所有的參數(shù)都接近于0而不是變?yōu)?，不產(chǎn)生稀疏的模型。L2正則化可以讓網(wǎng)絡(luò)中的所有的參數(shù)比較均衡，使模型不會對某個(gè)特征節(jié)點(diǎn)特別敏感，當(dāng)訓(xùn)練好的模型在測試集上運(yùn)行時(shí)，即使測試集中圖像的某個(gè)噪聲點(diǎn)異常突出，但對于整體模型的最終輸出而言，并不會因?yàn)檫@個(gè)噪聲而使得預(yù)測與真實(shí)值偏差太多。

L2正則化損失函數(shù)可表示如式（6）所示。

其中：Q為特征的維數(shù)； W 為權(quán)值向量。

Corinna等人［40］發(fā)現(xiàn)L1正則化可以導(dǎo)致內(nèi)核（即CNN用于提取特征的filter）的性能適度改進(jìn)，但在大規(guī)模使用的情況下會導(dǎo)致性能下降，而L2正則化可以有效避免這類問題。通過實(shí)驗(yàn)數(shù)據(jù)對比，L2正則化的性能明顯優(yōu)于L1正則化。

1.3 權(quán)重衰減（weight decay）

權(quán)重衰減［41］是一種在權(quán)重的梯度下降更新式中，通過減少當(dāng)前梯度值對梯度更新的影響，以此對模型的擬合過程進(jìn)行干擾，防止模型過擬合的參數(shù)正則化方法。權(quán)重衰減在梯度下降更新中的應(yīng)用如式（7）所示。

其中：E為權(quán)重參數(shù)；λ為權(quán)重衰減系數(shù)；α為學(xué)習(xí)率。

在網(wǎng)絡(luò)訓(xùn)練中，L2正則化也能使得權(quán)重衰減到一個(gè)更小的值，所以有很多人將L2正則化與權(quán)重衰減畫等號，但這個(gè)認(rèn)知是有誤的。Ilya等人［42］對這個(gè)問題的解釋作出了系統(tǒng)的闡述和實(shí)驗(yàn)。在標(biāo)準(zhǔn)的隨機(jī)梯度下降（stochastic gradient descent，SGD）中，可以發(fā)現(xiàn)L2正則化和權(quán)值衰減正則化對于預(yù)防模型過擬合的效果是等效的，但是當(dāng)采用了自適應(yīng)梯度算法（adaptive moment estimation，Adam）［43］時(shí)，L2正則化的效果會低于權(quán)重衰減，這是因?yàn)锳dam每個(gè)參數(shù)的學(xué)習(xí)率會隨著時(shí)間變化而SGD學(xué)習(xí)率不受時(shí)間影響，從表達(dá)式來看，L2正則化項(xiàng)會隨著學(xué)習(xí)率的改變而變化；而如果使用權(quán)值衰減，因?yàn)闄?quán)重衰減系數(shù)與學(xué)習(xí)率無關(guān)，即每次衰減的比例是固定的，所以在使用Adam時(shí)會導(dǎo)致L2正則化的效果低于權(quán)重衰減。

2 數(shù)據(jù)正則化

上一章介紹了對深度網(wǎng)絡(luò)進(jìn)行參數(shù)正則化的主流方式，對網(wǎng)絡(luò)中的參數(shù)進(jìn)行正則化可以達(dá)到預(yù)防模型過擬合的效果，而對訓(xùn)練數(shù)據(jù)以及模型訓(xùn)練方式進(jìn)行對應(yīng)正則化操作也能達(dá)到降低模型過擬合的目的。比如數(shù)據(jù)增廣［44］、早期停止［45］都是目前數(shù)據(jù)正則化中主流的方法。

2.1 數(shù)據(jù)增廣（data augmentation）

目前數(shù)據(jù)增廣的相關(guān)研究已經(jīng)形成一個(gè)體系，本節(jié)會選出近年來常見的方法對該方向進(jìn)行闡述，若想對該方向進(jìn)行更進(jìn)一步的了解，可以參考文獻(xiàn)［46～48］。

解決過擬合最直接的方式是給予充足的有效訓(xùn)練樣本，但從時(shí)間和經(jīng)濟(jì)成本的角度來看，這種方式在現(xiàn)實(shí)中是不可取的，對于有上千萬甚至上億的參數(shù)量的大型神經(jīng)網(wǎng)絡(luò)而言，需要標(biāo)注的有效訓(xùn)練樣本是不可估量的，而標(biāo)注有效的訓(xùn)練樣本需要花費(fèi)大量的人力與時(shí)間，可能光是標(biāo)注數(shù)據(jù)投入的成本就已經(jīng)遠(yuǎn)遠(yuǎn)超出訓(xùn)練網(wǎng)絡(luò)所能產(chǎn)生的價(jià)值。為了有效地解決小樣本模型訓(xùn)練中樣本量不足的問題，數(shù)據(jù)增廣是一種有效的正則化方法，以一定的規(guī)則去修改訓(xùn)練樣本，同時(shí)平衡各類別中樣本的比例，使得模型能夠增強(qiáng)學(xué)習(xí)從而達(dá)到減少過擬合的目的。如今數(shù)據(jù)增廣流行的方法包括隨機(jī)裁剪、圖像翻轉(zhuǎn)和隨機(jī)擦除［49］等。

CNN從VGG［2］發(fā)展到ResNet［50］，數(shù)據(jù)增廣正則化方法得到了廣泛的應(yīng)用。Krishna等人［44］提出的“ 捉迷藏（hide－and－seek）”能夠生成多個(gè)不連續(xù)的隱藏補(bǔ)丁，使得在訓(xùn)練圖像中形成多種遮擋組合，讓模型在測試階段遇到可識別目標(biāo)被隱藏時(shí)迫使模型尋找其他相關(guān)內(nèi)容，提高模型對遮擋情況的魯棒性。Sangdoo等人［7］提出的CutMix在訓(xùn)練圖像之間隨機(jī)剪切并粘貼，標(biāo)簽數(shù)據(jù)也進(jìn)行相應(yīng)處理。Yan等人［51］提出的LMix使用隨機(jī)掩模來保持訓(xùn)練樣本的數(shù)據(jù)分布，并使用高頻濾波來銳化樣本以突出識別區(qū)域。Terrance等人［52］提出的cutout是在訓(xùn)練過程中隨機(jī)地屏蔽輸入圖像中的一個(gè)固定大小的矩形區(qū)域，它可以與其他技術(shù)結(jié)合使用，如批量歸一化（batch normalization）［53］，但它對訓(xùn)練樣本處理的隨機(jī)性可能會將有效特征區(qū)域完全屏蔽。對于上述問題，Gong等人［54］提出了一種自適應(yīng)的數(shù)據(jù)增強(qiáng)方法KeepAugment，該方法能夠通過顯著圖來衡量圖像中矩形區(qū)域的重要性，始終保持重要區(qū)域不受影響。在對抗訓(xùn)練方向上，Zhang等人［55］提出的mixup被廣泛關(guān)注，從本質(zhì)上來說，mixup是成對樣本及其標(biāo)簽的混合，mixup能夠減少模型對錯(cuò)誤標(biāo)簽的記憶，增加對對抗實(shí)例的魯棒性，在對mixup的實(shí)際使用中，它可以通過幾行代碼實(shí)現(xiàn)。

現(xiàn)實(shí)場景中圖像在記錄或者傳播的過程中，可能出現(xiàn)圖像失真，導(dǎo)致圖像邊界難以區(qū)分，Jiang等人［56］提出的“特征弱化（feature weaken）能夠使特征更加緊湊，由于特征弱化調(diào)整了樣本邊界從而使得反向傳播中梯度優(yōu)化值得到降低，所以該方法能提高模型的分類性能和泛化能力并穩(wěn)定模型訓(xùn)練、加快模型收斂速度。Google團(tuán)隊(duì)為了能夠更好地讓模型挑選出適合當(dāng)前網(wǎng)絡(luò)的增廣方式，設(shè)計(jì)了一個(gè)自動數(shù)據(jù)增廣方法AutoAugment［57］，通過使用搜索算法來找到最佳數(shù)據(jù)增廣策略，讓模型在使用目標(biāo)數(shù)據(jù)集訓(xùn)練后能夠獲得更好的測試精度。

Liang等人［58］對不同數(shù)據(jù)增廣的樣本進(jìn)行傅里葉頻譜對比，從圖4可知小物體通常表現(xiàn)為高頻信息，而大物體則是低頻信息。簡單的圖像翻轉(zhuǎn)數(shù)據(jù)增廣方法并不會改變圖像的任何像素值，在傅里葉頻譜上和原始圖像差別不大，使用圖像裁剪的方法相對于原始圖像高頻分量更向中心集中，同時(shí)低頻分量占比更多，對抗性圖像在整體上提高了圖像高頻信息。通過實(shí)驗(yàn)表明，對抗性樣本可以顯著提高小目標(biāo)的檢測精度，精度可以從22.5%提高到23.6%；自適應(yīng)裁剪數(shù)據(jù)增廣能提高中等目標(biāo)和大目標(biāo)的性能，使中等目標(biāo)檢測精度增益為0.7%、大目標(biāo)檢測精度增益為0.3%。為了促進(jìn)對數(shù)據(jù)增廣方法的理解，本文對常用的數(shù)據(jù)增廣方法進(jìn)行了可視化，效果如圖5所示。

人工智能進(jìn)行人機(jī)交互時(shí)不僅有圖像信息的交互還有文本信息的交互，文本信息的訓(xùn)練數(shù)據(jù)增廣也必不可少。Jason等人［59］提出的EDA（easy data augmentation）被稱為最簡單的自然語言處理數(shù)據(jù)增廣方法，是由四種功能強(qiáng)大的操作組成，即同義詞替換［60］、隨機(jī)插入、隨機(jī)交換和隨機(jī)擦除。

2.2 提前停止（early stopping）

訓(xùn)練過程中常用的策略還有提前停止，首先將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集三部分，在訓(xùn)練過程中每隔一定迭代（iteration）次數(shù)便使用測試集對模型進(jìn)行預(yù)測，當(dāng)模型在測試集上的誤差不再降低時(shí)，便可以提前停止對模型的訓(xùn)練。

Bai等人［61］利用提前停止的思想，在原有的基礎(chǔ)上提出了漸進(jìn)早期停止（progressive early stopping，PES）方法，使用該方法可以讓模型抵御樣本中噪聲標(biāo)簽的影響，作者建議將CNN分離為不同部分，初始化階段使用相對大量的epoch來預(yù)訓(xùn)練模型，得到預(yù)訓(xùn)練模型后再進(jìn)行少量epoch的訓(xùn)練，如今的模型訓(xùn)練大多都是在預(yù)訓(xùn)練模型上進(jìn)行優(yōu)化調(diào)整。

3 標(biāo)簽正則化

在CNN中常用的標(biāo)簽正則化，如標(biāo)簽平滑（label smoo－thing）［8］、知識蒸餾（knowledge distillation）［62］等，都是通過對目標(biāo)標(biāo)簽分布進(jìn)行修正以達(dá)到優(yōu)化模型的目的，知識蒸餾方法如今體系較為完善，具體的細(xì)節(jié)內(nèi)容可查看Gou 等人［62］和Tian等人［63］相關(guān)綜述，本章著重對標(biāo)簽正則化中的標(biāo)簽平滑進(jìn)行詳細(xì)闡述。

機(jī)器學(xué)習(xí)中，多分類數(shù)據(jù)標(biāo)簽通常都是以one－h(huán)ot形式進(jìn)行編碼，這樣會使得向量元素的值只有0和1，模型對多目標(biāo)進(jìn)行分類時(shí)，可能會導(dǎo)致物體之間的關(guān)聯(lián)信息丟失，而從丁家滿等人［64］和羅俊等人［65］的研究來看，標(biāo)簽之間的關(guān)聯(lián)信息有助于提升模型性能。為提升模型多分類任務(wù)性能，Christian 等人［8］提出了標(biāo)簽平滑（label smoothing），通過向真實(shí)標(biāo)簽中加入噪聲來進(jìn)行正則化，從而抑制模型過擬合。以交叉熵?fù)p失函數(shù)為例，損失函數(shù)及其標(biāo)簽分布如式（8）（9）所示。

其中：p（k）為模型計(jì)算的每個(gè)標(biāo)簽的概率；q（k）為標(biāo)簽的真實(shí)分布。

對上述損失函數(shù)及其標(biāo)簽分布進(jìn)行標(biāo)簽平滑后，不再使用原始的標(biāo)簽概率分布p（k），而考慮標(biāo)簽的真實(shí)分布μ（k）與平滑指數(shù)ε來對q（k）進(jìn)行修正，修正后新的標(biāo)簽概率分布式為

經(jīng)過標(biāo)簽平滑操作，錯(cuò)誤標(biāo)簽的概率不再絕對為0，使得物體之間的聯(lián)系得到保留，緩解了模型對于預(yù)測結(jié)果過于自信導(dǎo)致過擬合的問題。但標(biāo)簽平滑也存在著一些問題，比如Hinton等人［66］發(fā)現(xiàn)，盡管標(biāo)簽平滑會引發(fā)正則化效應(yīng)，但由于平滑概率分布不太可能完全匹配真實(shí)的概率，所以標(biāo)簽平滑很可能會引入損害泛化性能的偏差。對于這類問題，文獻(xiàn)［67］提出了一種稱為標(biāo)簽松弛的技術(shù)，其關(guān)鍵核心是使用一組更大的候選分布去替換類標(biāo)簽相關(guān)的概率分布，從而降低了在學(xué)習(xí)過程中消極信息的影響。

4 組合正則化

前三章描述了不同類型的正則化方法，它們都在模型的訓(xùn)練過程中發(fā)揮著重要的作用。在實(shí)際的模型訓(xùn)練中，通常會使用不同的正則化方法進(jìn)行組合使用，本章將對主流的正則化組合方法進(jìn)行詳細(xì)闡述。

通過實(shí)驗(yàn)發(fā)現(xiàn)，在模型訓(xùn)練預(yù)處理階段對導(dǎo)入的訓(xùn)練數(shù)據(jù)進(jìn)行cutout數(shù)據(jù)增廣后，模型對于識別被遮擋物體的能力得到了提升，但是模型對錯(cuò)誤標(biāo)簽信息依舊敏感，當(dāng)使用cutout與mixup相結(jié)合后，訓(xùn)練出來的模型的性能有了較為顯著的提升，將訓(xùn)練樣本在預(yù)訓(xùn)練階段進(jìn)行多種數(shù)據(jù)增廣是如今較為常見的處理手段。對訓(xùn)練樣本進(jìn)行預(yù)處理本質(zhì)上是讓模型能夠得到更好的學(xué)習(xí)，無法影響模型網(wǎng)絡(luò)與訓(xùn)練過程。所以，在對訓(xùn)練樣本進(jìn)行預(yù)處理后，還可以繼續(xù)考慮對模型網(wǎng)絡(luò)與訓(xùn)練過程進(jìn)行正則化處理。以ResNet－18為例，單一使用TargetDrop時(shí)，該模型在目標(biāo)檢測中精準(zhǔn)度能達(dá)到95.59，而僅僅使用cutout與TargetDrop相結(jié)合就能夠讓模型在目標(biāo)檢測任務(wù)上的精準(zhǔn)度達(dá)到96.23。同樣地，對網(wǎng)絡(luò)PyramidNet－200使用數(shù)據(jù)正則化cutout與標(biāo)簽正則化label smoothing，在CIFAR－100數(shù)據(jù)集上同樣能夠讓模型性能在使用單一正則化方法的基礎(chǔ)上得到提升。這些實(shí)驗(yàn)更進(jìn)一步地驗(yàn)證了使用多種正則化組合提升模型訓(xùn)練效果的有效性。

但并不是任意組合的正則化方法都有助于提升訓(xùn)練效果，Müller等人［68］發(fā)現(xiàn)當(dāng)標(biāo)簽平滑與知識蒸餾一同使用時(shí)，教師模型的準(zhǔn)確性能得到提高，但學(xué)生模型的性能會降低，在數(shù)據(jù)集MNIST［69］上進(jìn)行實(shí)驗(yàn)會發(fā)現(xiàn)學(xué)生模型的訓(xùn)練誤差會比基線學(xué)生網(wǎng)絡(luò)高。同樣地，將TargetDrop與dropout進(jìn)行組合使用，網(wǎng)絡(luò)的參數(shù)量能夠更顯著地降低，但由于特征信息的大量丟失使得模型無法有效地學(xué)習(xí)到目標(biāo)對象的有效特征，模型的性能依然無法提升甚至?xí)档?。所以在使用組合正則化方法時(shí)，必須了解每一個(gè)正則化的優(yōu)點(diǎn)與局限性，才能保證使用正則化組合時(shí)能夠讓其局限性得到互補(bǔ)，更好地促進(jìn)模型訓(xùn)練。

5 數(shù)據(jù)集、評估指標(biāo)和性能分析

大量可靠的帶標(biāo)注數(shù)據(jù)集是深度學(xué)習(xí)成功的前提之一。在CNN中常用的公開數(shù)據(jù)集有CIFAR［70］、ImagNet［71］，本章將基于上述兩種數(shù)據(jù)集對卷積神經(jīng)網(wǎng)絡(luò)中的正則化方法進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)所用數(shù)據(jù)集的概況如表1所示。

5.1 實(shí)驗(yàn)公開數(shù)據(jù)集介紹

a）CIFAR數(shù)據(jù)集。CIFAR－10和CIFAR－100都是從一個(gè)有8 000萬個(gè)已標(biāo)注的微小圖像數(shù)據(jù)集中分離出來的子集。正則化方法對比實(shí)驗(yàn)使用的CIFAR－10數(shù)據(jù)集是由60 000個(gè)尺寸大小為32×32彩色圖像組成，其中50 000張圖片作為訓(xùn)練集，10 000張圖像作為測試集。CIFAR－10數(shù)據(jù)集有10個(gè)類別，每一個(gè)類別有6 000張圖像。在實(shí)驗(yàn)過程中將數(shù)據(jù)集化分為5個(gè)訓(xùn)練批次和1個(gè)測試批次，每一個(gè)批次有10 000張圖片，測試批次所選用的圖片恰好包含每一個(gè)類隨機(jī)選擇的1 000張圖片。CIFAR－100同樣是由60 000個(gè)尺寸大小為32×32彩色圖像組成，一共有100個(gè)類別，每個(gè)類別下有600張圖片。與CIFAR－10不同的是，CIFAR－100還將100個(gè)類別化為了20個(gè)超類，即類別為“床”“椅子”此類的圖像化為超類（superclass）“家用家具”。所以每一個(gè)圖像的標(biāo)簽都帶有一個(gè)“精細(xì)”標(biāo)簽（它所屬的類）和一個(gè)“粗糙”標(biāo)簽（它所屬的超類）。在訓(xùn)練過程中將每一個(gè)類別中隨機(jī)抽取500張圖像作為訓(xùn)練集，另外的100張圖像作為測試集。雖然CIFAR數(shù)據(jù)集尺寸較小，但是數(shù)據(jù)規(guī)模相對較大，所以非常適合復(fù)雜模型特別是深度學(xué)習(xí)模型訓(xùn)練，因而成為深度學(xué)習(xí)領(lǐng)域主流的物體識別數(shù)據(jù)集。

b）ImagNet數(shù)據(jù)集。ImageNet是根據(jù)WordNet構(gòu)建的一個(gè)大規(guī)模圖像數(shù)據(jù)庫，其中包含了1 500多萬幅圖片并涵蓋2萬多個(gè)類別，平均每個(gè)類別都包含1 000張圖片，如今關(guān)于圖像分類、檢測等研究工作大多基于此數(shù)據(jù)集展開。實(shí)驗(yàn)選用ImageNet－1K進(jìn)行評估，該數(shù)據(jù)集一共包含1 000個(gè)類別，將其中120萬張圖片作為訓(xùn)練集，15萬張圖片作為測試集使用。

5.2 實(shí)驗(yàn)神經(jīng)網(wǎng)絡(luò)模型介紹

a）ResNet。ResNet于2015年提出，并在ImageNet大賽中取得了分類任務(wù)的第一名，ResNet與普通的卷積模塊不同的是增加了一條Identify連接，也稱為跳躍連接。該網(wǎng)絡(luò)主要解決了CNN中梯度消失和梯度爆炸的問題，避免了模型在CNN深度加深的過程中出現(xiàn)模型退化，即網(wǎng)絡(luò)疊加更多的卷積層后，性能出現(xiàn)快速下降的情況。實(shí)驗(yàn)使用了疊加不同ResNet模塊層數(shù)的ResNet網(wǎng)絡(luò)模型，分別是ResNet－18、ResNet－50、ResNet－56、ResNet－101、ResNet－110。同時(shí)還使用了一些ResNet的變體，如PyramidNet－200 、EfficientNet－B0、WRN－28－10。

b）InceptionNet。InceptionNet是Google團(tuán)隊(duì)在2014年提出的，該網(wǎng)絡(luò)模型獲得了2014年ImageNet大賽的分類任務(wù)第一名。InceptionNet的提出是為了解決CNN中的網(wǎng)絡(luò)中參數(shù)增多使得計(jì)算復(fù)雜度變大，同時(shí)網(wǎng)絡(luò)深度越深越容易出現(xiàn)梯度消失的問題，所以InceptionNet是以降低參數(shù)量為目的，它是一個(gè)稀疏網(wǎng)絡(luò)結(jié)構(gòu)，能夠增加神經(jīng)網(wǎng)絡(luò)的效果，又能保證計(jì)算資源使用效率。在本文中使用Inception－V4為主干網(wǎng)絡(luò)進(jìn)行了相應(yīng)實(shí)驗(yàn)。

c）DenseNet。DenseNet于2017年提出，與ResNet相比，DenseNet提出了一個(gè)更密集的跳躍連接機(jī)制，即連接所有的層，讓每一個(gè)層都會接受到前面所有層作為額外的輸入。該網(wǎng)絡(luò)模型通過使用密集的跳躍連接機(jī)制使得模型梯度的反向傳播效果得到了提升，并且每一層接收的額外輸入使用的是concat進(jìn)行特征拼接，從而實(shí)現(xiàn)了特征重用。雖然密集連接看似會增加很多額外的計(jì)算量，但由于每一層的特征輸出通道數(shù)的增長率都會控制得較小，所以在實(shí)際的應(yīng)用中，使用DenseNet反而會讓參數(shù)量更小、計(jì)算更高效。本文使用的是DenseNet－BC－190作為主干網(wǎng)絡(luò)進(jìn)行相應(yīng)的實(shí)驗(yàn)。

5.3 評估指標(biāo)

在CNN中常用的評估指標(biāo)有平均準(zhǔn)確率（average precision，AP）、top－1準(zhǔn)確率和top－5準(zhǔn)確率。AP表示檢測所得正樣本數(shù)占所有檢測樣本的比例，其表達(dá)式如式（13）所示。

AP= TP/（TP+FP）（13）

其中：TP表示被正確檢測為正例的實(shí)例數(shù)，F(xiàn)P表示被錯(cuò)誤檢測為正例的實(shí)例數(shù)，AP表示類別的平均檢測精度。

模型在預(yù)測某一張圖片時(shí)，會給出1 000個(gè)類別的概率從高到低進(jìn)行排名。top－1準(zhǔn)確率是指模型對目標(biāo)類別預(yù)測排名第一與真實(shí)類別相符合的概率；top－5準(zhǔn)確率則是指模型對目標(biāo)類別預(yù)測排名前五中，與真實(shí)類別相符合的概率。

5.4 性能分析

表2對正則化方法分類的機(jī)制、優(yōu)勢、局限性這三個(gè)方面進(jìn)行了詳細(xì)比較。本節(jié)使用5.2節(jié)中提到的數(shù)據(jù)評估策略在ResNet－50、ResNet－101［50］、PyramidNet200［72］、Inception－V4［73］等主干網(wǎng)絡(luò)和CIFAR、ImagNet數(shù)據(jù)集上對各個(gè)正則化方法從分類問題和目標(biāo)檢測的角度進(jìn)行性能評估，同時(shí)還對不同正則化方法進(jìn)行組合測試，具體結(jié)果如表3～5所示。

1）圖像分類從表中可得：a）在不同的數(shù)據(jù)集上分類的結(jié)果也不相同，受到類別個(gè)數(shù)的影響，CIFAR－10的分類結(jié)果總體要大于CIFAR－100和ImagNet數(shù)據(jù)集的分類結(jié)果；b）在參數(shù)正則化中，DropBlock和AutoDropout在不同的數(shù)據(jù)集下都有較好的效果，可根據(jù)表2的分析進(jìn)行合適的選擇對網(wǎng)絡(luò)進(jìn)行優(yōu)化改進(jìn)；c）在數(shù)據(jù)正則化中，多分類效果最好的是AutoAugment，使用該方法與其他正則化技術(shù)進(jìn)行搭配，能夠使得模型訓(xùn)練效果得到更好的優(yōu)化；d）對不同正則化進(jìn)行組合，在CIFAR和ImagNet數(shù)據(jù)集上表現(xiàn)比較優(yōu)秀，可見在模型訓(xùn)練的過程嘗試搭配使用不同的正則化，能讓模型得到更優(yōu)的分類性能；e）通過實(shí)驗(yàn)可知，并不是所有的正則化方法組合都能提升模型的分類能力，比如在不同的主干網(wǎng)絡(luò)中將label smoothing與DroBlock進(jìn)行組合，模型基本沒有得到效果提升，所以采用何種正則化組合能夠有效改善模型，需要進(jìn)行實(shí)驗(yàn)驗(yàn)證；f）使用優(yōu)質(zhì)的標(biāo)注數(shù)據(jù)集并使用簡單的圖像變換策略進(jìn)行數(shù)據(jù)增廣，能夠讓模型性能得到提升，但真實(shí)場景下的圖像數(shù)據(jù)可能與訓(xùn)練樣本數(shù)據(jù)有很大不同，最新的方法feature weaken也在探索減少真實(shí)圖像與標(biāo)注圖像差異的方法，說明研究真實(shí)圖像與標(biāo)注圖像之間的差異性是值得關(guān)注的。

2）目標(biāo)檢測在計(jì)算機(jī)視覺領(lǐng)域目標(biāo)檢測任務(wù)中，常見的基于CNN的目標(biāo)檢測器可以劃分為one－stage［74～76］和two－stage［77，78］兩類。從表中可得：a）雖然參數(shù)正則化中AutoDropout對于模型的性能提升較好，但是使用該方法需要大量的額外計(jì)算成本，而在目標(biāo)檢測實(shí)際應(yīng)用中需要考慮性能與延遲的權(quán)衡；b）對模型進(jìn)行特定目標(biāo)檢測訓(xùn)練時(shí)，通常都是小樣本訓(xùn)練，而數(shù)據(jù)增廣能夠最大限度地填補(bǔ)訓(xùn)練樣本量的不足，讓模型在目標(biāo)檢測任務(wù)上得到更好的性能，比如CutMix、mixup等數(shù)據(jù)增廣的方式都能使得模型的檢測精度得到提升；c）無論是在分類任務(wù)還是目標(biāo)檢測上，使用不同的正則化方法進(jìn)行合理的組合使用，都會讓模型的性能得到更好的效果，比如cutout與KeepAugmeng相結(jié)合就能使得模型的檢測精度在單一使用其中任何一個(gè)的基礎(chǔ)上得到顯著的提升。

6 正則化方法的未來研究趨勢

正則化方法的創(chuàng)建初衷是用來解決模型過擬合問題，如今各類正則化方法已經(jīng)在CNN中得到應(yīng)用，并帶來了很好的效果。未來正則化方法在以下方面值得進(jìn)一步研究。

a）計(jì)算機(jī)視覺的方向。Transformer是一種采用注意力機(jī)制的深度學(xué)習(xí)模型，在如今依然是一個(gè)不斷探索的領(lǐng)域，將應(yīng)用于CNN效果較好的正則化方法直接移植到Transformer中效果普遍較差，研究如何將CNN中效果好的正則化方法適配Transformer，讓模型能夠更好地?cái)M合網(wǎng)絡(luò)的全局信息，是一個(gè)值得改進(jìn)的思路。

b）元學(xué)習(xí)方面。元學(xué)習(xí)是讓模型學(xué)習(xí)如何去學(xué)習(xí)，正則化方法對不同的網(wǎng)絡(luò)架構(gòu)需要對自身超參數(shù)進(jìn)行調(diào)整，可以嘗試結(jié)合元學(xué)習(xí)的思想讓模型在訓(xùn)練過程中學(xué)習(xí)如何設(shè)置更好的正則化參數(shù)，這樣能夠讓模型在面對多任務(wù)問題時(shí)能有更好的適應(yīng)性。

c）模型優(yōu)化與泛化的權(quán)衡。目前大多數(shù)正則化效果好的方法都側(cè)重于提高模型的泛化能力，而忽略了模型優(yōu)化的問題，導(dǎo)致模型在訓(xùn)練過程中學(xué)習(xí)不穩(wěn)定收斂速度較慢，雖然現(xiàn)在已經(jīng)有一部分針對該問題的研究，但是離期望的效果還有很大的差距，所以該方向同樣值得繼續(xù)深入研究。

7 結(jié)束語

本文根據(jù)近幾年來CNN中常用的正則化方法，通過參數(shù)正則化、數(shù)據(jù)正則化、標(biāo)簽正則化這三方面進(jìn)行了詳細(xì)總結(jié)。正則化方法作為機(jī)器學(xué)習(xí)中防止訓(xùn)練模型出現(xiàn)過擬合問題的一項(xiàng)重要手段，已經(jīng)在各個(gè)模型訓(xùn)練中廣泛應(yīng)用，例如小樣本訓(xùn)練的網(wǎng)絡(luò)。在對正則化方法進(jìn)行系統(tǒng)的總結(jié)過程中，筆者發(fā)現(xiàn)在對于深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行正則化方法應(yīng)用時(shí)，單一地使用正則化方法可能帶來的效果對于實(shí)驗(yàn)結(jié)果而言是不明顯的，而將正則化方法進(jìn)行組合應(yīng)用時(shí)，能更有效地預(yù)防模型過擬合問題。發(fā)現(xiàn)一個(gè)新的正則化方法并對其進(jìn)行系統(tǒng)性總結(jié)是非常困難的，但對不同的正則化方法進(jìn)行創(chuàng)新組合使用使得模型得到更好的優(yōu)化是比較容易實(shí)現(xiàn)的，這也是今后筆者會著重進(jìn)行研究的方向。

參考文獻(xiàn)：

［1］Krizhevsky A，Sutskever I，Hinton G E.ImageNet classification with deep convolutional neural networks［C］//Proc of the 26th Annual Conference on Neural Information Processing Systems.2012：1106－1114.

［2］Karen S，Andrew Z.Very deep convolutional networks for large－scale image recognition［C］//Proc of the 3rd International Conference on Learning Representations.2015.

［3］Ross B G，Jeff D，Trevor D，et al.Rich feature hierarchies for accurate object detection and semantic segmentation［C］//Proc of Conference on Computer Vision and Pattern Recognition.2014.

［4］Jonathan L，Evan S，Trevor D.Fully convolutional networks for semantic segmentation［C］//Proc of Conference on Computer Vision and Pattern Recognition.2015.

［5］Kaiming H，Georgia G，Piotr D，et al.Mask R－CNN［C］//Proc of International Conference on Computer Vision.2017.

［6］Hinton G E，Srivastava N，Krizhevsky A，et al.Improving neural networks by preventing coadaptation of feature detectors［C］//Proc of Conference on Computer Vision and Pattern Recognition.2012.

［7］Sangdoo Y，Dongyoon H，Seong J O，et al.CutMix：regularization stra－tegy to train strong classifiers with localizable features［C］//Proc of International Conference on Computer Vision.2019：6022－6031.

［8］Christian S，Vincent V，Sergey I，et al.Rethinking the inception architecture for computer vision［C］//Proc of Conference on Computer Vision and Pattern Recognition.2016：2818－2826.

［9］Breiman L.Bagging predictors［J］. Machine Learning ，1996： 24 （2）：123－140.

［10］Srivastawa N，Hinton G E，Krizhevsky A，et al.Dropout：a simple way to prevent neural networks from overfitting［J］. Journal of Machine Learning Research ，2014， 15 （1）：1929－1958.

［11］Ian J G，David W F，Mehdi M，et al.Maxout networks［C］//Proc of the 30th International Conference on Machine Learning.New York：ACM Press，2013：1319－1327.

［12］Junsuk C，Seungho L，Hyunjung S.Attention－based dropout layer for weakly supervised single object localization and semantic segmentation［J］. IEEE Trans on Pattern Analysis and Machine Intelligence ，2021， 43 （12）：4256－4271.

［13］Zhu Hui，Zhao Xiaofang.TargetDrop：a targeted regularization method for convolutional neural networks［C］//Proc of International Confe－rence on Acoustics Speech and Signal Processing.Piscataway，NJ：IEEE Press，2022：3283－3287.

［14］Wan Li，Matthew D Z，Zhang Sixin，et al.Regularization of neural networks using dropconnect［C］//Proc of the 30th International Conference on Machine Learning.New York：ACM Press，2013：1058－1066.

［15］Mojtaba F，Mohammad A，Akilesh B et al.PatchUp：a feature－space block－level regularization technique for convolutional neural networks［C］//Proc of the 34th Conference on Innovative Applications of Artificial Intelligence.2022：589－597.

［16］Hojjat M，Eghbal G M.Skipout：an adaptive layer－level regularization framework for deep neural networks［J］. IEEE Access ，2022， 10 ：62391－62401.

［17］Lu Ziqing，Xu Chang，Du Bo，et al.LocalDrop：a hybrid regularization for deep neural networks［J］. IEEE Trans on Pattern Analysis and Machine Intelligence ，2022， 44 （7）：3590－3601.

［18］Huang Gao，Sun Yu，Liu Zhuang，et al.Deep networks with stochastic depth［C］//Proc of Asia－Pacific Signal and Information Processing Association Annual Summit and Conference.Piscataway，NJ：IEEE Press，2016：1－4.

［19］Yoshihiro Y，Masakazu I，Koichi K.ShakeDrop regularization［C］//Proc of the 6th International Conference on Learning Representations.2018.

［20］Xavier G.Shake－Shake regularization［C］//Proc of the 5th International Conference on Learning Representations.2017.

［21］Lu Yao，Lu Guangming，Li Jinxing，et al.Multiscale conditional regularization for convolutional neural networks［J］. IEEE Trans on Cybernetics ，2022， 52 （1）：444－458.

［22］Zhao Chenqiu，Dong Guanfang，Zhang Shupei，et al.Frequency regularization：restricting information redundancy of convolutional neural networks［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2023.

［23］Ghiasi G，Lin T Y，Le Q.DropBlock：a regularization method for convolutional networks［C］//Proc of Annual Conference on Neural Information Processing Systems.2018：10750－10760.

［24］Brahim A S，Abdelhamid E H，Aicha M.Mixed－pooling－dropout for convolutional neural network regularization［J］. Journal of King Saud University－ Computer and Information Sciences ，2022， 34 （8A）：4756－4762.

［25］Jonathan T，Ross G，Arjun J，et al.Efficient object localization using convolutional networks［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2015：648－656.

［26］Ba L J，F(xiàn)rey B.Adaptive dropout for training deep neural networks［C］//Proc of the 26th International Conference on Neural Information Processing Systems.2013：3084－3092.

［27］Gong Dianchen，Wang Zhiling，Wang Hanqi，et al.DropMask：a data augmentation method for convolutional networks［C］//Proc of the 6th Advanced Information Technology，Electronic and Automation Control Conference.Piscataway，NJ：IEEE Press，2022：1718－1722.

［28］Pham H，Le Q V.AutoDropout：learning dropout patterns to regularize deep networks［C］//Proc of the 35th AAAI Conference on Artificial Intelligence.2021：9351－9359.

［29］Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［C］//Proc of the 31st InternationalConference on Neural Information Processing Systems.2017：6000－6010.

［30］Czernorucki M V，De Salles M B C，Avila S L，et al.Multi－objective design optimization for HVDC－LCC converter transformers：analytical and fea－based comparison［J］. IEEE Access ，2023， 11 ：23032－23045.

［31］Bumsoo K，Jonghwan M，Minchul S，et al.MSTR：multi－scale Transformer for end－to－end human－object interaction detection［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022：19556－19565.

［32］Hong Xia，Chen Sheng，Guo Yi，et al.l1－norm penalized orthogonal forward regression［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2015.

［33］Lu Zhiwu，Peng Yuxin.Robust image analysis by l1－norm semi－supervised learning［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2011.

［34］Enzo T，Andrea B，F(xiàn)rancesco O，et al.SeReNe：sensitivity－based regularization of neurons for structured sparsity in neural networks［J］. IEEE Trans on Neural Networks and Learning Systems ，2022， 33 （12）：7237－7250.

［35］Hu Yaokai，Li Feng，Li Bo.Group L1/2 regularization for filter pruning of convolutional neural networks［C］//Proc of the 4th International Conference on Frontiers Technology of Information and Computer.Piscataway，NJ：IEEE Press，2022：1029－1032.

［36］Wu Shuang，Deng Lei，Liu Liu，et al.L1－norm batch normalization for efficient training of deep neural networks［J］. IEEE Trans on Neural Networks and Learning Systems ，2019， 30 （7）：2043－2051.

［37］Han X，Kashif R，Roland V.Fashion－MNIST：a novel image dataset for benchmarking machine learning algorithms［C］//Proc of Conference on Computer Vision and Pattern Recognition.2017.

［38］Olga R，Deng Jia，Hao Su，et al.ImageNet large scale visual recognition challenge［J］. International Journal of Computer Vision ，2015， 115 （3）：211－252.

［39］Fisher Y，Yinda Z，Shuran S，et al.LSUN：construction of a large－scale image dataset using deep learning with humans in the loop［C］//Proc of Conference on Computer Vision and Pattern Recognition.Pisca－taway，NJ：IEEE Press，2017.

［40］Corinna C，Mehryar M，Afshin R.L2 regularization for learning kernels［C］//Proc of the 25th Conference on Uncertainty in Artificial Intelligence.2009：109－116.

［41］Anders K，John A.H.A simple weight decay can improve generalization［C］//Advances in Neural Information Processing Systems.1991：950－957.

［42］Ilya L，F(xiàn)rank H.Decoupled weight decay regularization［C］//Proc of the 7th International Conference on Learning Representations.2019.

［43］Kingma D P，Ba J.Adam：a method for stochastic optimization［C］//Proc of the 3rd International Conference on Learning Representations.2015.

［44］Krishna K S，Hao Yu，Aron S，et al.Hide－and－seek：a data augmentation technique for weakly－supervised localization and beyond［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018.

［45］Morgan N，Bourlard H.Generalization and parameter estimation in feedforward nets：some experiments［C］//Proc of the 2nd International Conference on Neural Information Processing Systems.1989：630－637.

［46］Connor S，Taghi M K.A survey on image data augmentation for deep learning［J］. Journal of Big Data ，2019， 6 （1）：60.

［47］Yang Suorong，Xiao Weikang，Zhang Mengcheng，et al.Image data augmentation for deep learning：a survey［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022.

［48］Yang Zihang，Sinnott R O，Bailey J，et al.A survey of automated data augmentation algorithms for deep learning－based image classication tasks［J］. Knowledge and Information Systems， 2023， 65 （7）：2805－2861.

［49］Zhong Zhun，Zheng Liang，Kang Guoliang，et al.Random erasing data augmentation［C］//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2020.

［50］He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al.Deep residual lear－ning for image recognition［C］//Proc of Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2016：770－778.

［51］Yan Linyu，Zheng Kunpeng，Xia Jinyao，et al.LMix：regularization strategy for convolutional neural networks［J］. Signal Image Video Process ，2023， 17 （4）：1245－1253.

［52］Terrance D，Graham W T.Improved regularization of convolutional neural networks with cutout［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017.

［53］Sergey I，Christian S.Batch normalization：accelerating deep network training by reducing internal covariate shift［C］//Proc of the 32nd International Conference on Machine Learning.2015：448－456.

［54］Gong Chengyue，Wang Dilin，Li Meng，et al.Keepaugment：a simple information preserving data augmentation approach［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2021：1055－1064.

［55］Zhang Hongyi，Cisse M，Dauphin Y N，et al.Mixup：beyond empirical risk minimization［C］//Proc of the 6th International Conference on Learning Representations.2018.

［56］Jiang Songhao，Chu Yan，Ma Tianxing，et al.Feature weaken：vicinal data augmentation for classification［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022.

［57］Ekin D C，Barret Z，Dandelion M，et al.AutoAugment：learning augmentation strategies from data［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：113－123.

［58］Liang Jiawei，Liang Siyuan，Liu Aishan，et al.Rethinking data augmentation in knowledge distillation for object detection［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022.

［59］Jason W W，Kai Z.EDA：easy data augmentation techniques for boosting performance on text classification tasks［C］//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.2019：6381－6387.

［60］Zhang Xiang，Zhao Junbo，LeCun Y.Character－level convolutional networks for text classification.［C］//

Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge，MA：MIT Press，2015：649－657.

［61］Bai Yingbin，Yang Erkun，Han Bo，et al.Understanding and improving early stopping for learning with noisy labels［C］//Proc of the 35th Conference on Neural Information Processing Systems.2021：24392－24403.

［62］Gou Jianping，Yu Baosheng，Maybank S J，et al.Knowledge distillation：a survey［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020.

［63］Tian Yijun，Pei Shichao，Zhang Xiangliang，et al.Knowledge distillation on graphs：a survey［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2023.

［64］丁家滿，劉楠，周蜀杰，等.基于正則化的半監(jiān)督弱標(biāo)簽分類方法［J］.計(jì)算機(jī)學(xué)報(bào)，2022， 45 （1）：69－81. （Ding Jiaman，Liu Nan，Zhou Shujie，et al.Semi－supervised weak－label classification method by regularization［J］. Chinse Journal of Computers ，2022， 45 （1）：69－81.）

［65］羅俊，高清維，檀怡，等.基于雙拉普拉斯正則化和因果推斷的多標(biāo)簽學(xué)習(xí)［J］.計(jì)算機(jī)工程，2023， 49 （11）：49－60. （Luo Jun，Gao Qingwei，Tan Yi，et al.Multi－lable learning based on double Laplace regularization and causal inference［J］. Computer Engineering ，2023， 49 （11）：49－60.）

［66］Hinton G E，Osindero S，Teh Y W.A fast learning algorithm for deep belief nets［J］. Neural Computing ，2006， 18 （7）：1527－1554.

［67］Julian L，Eyke H.From label smoothing to label relaxation［C］//Proc of the 33rd Conference on Innovative Applications of Artificial Intel－ligence.2021：8583－8591.

［68］Müller R，Kornblith S，Hinton G E.When does label smoothing help？［C］//Proc of the 33rd International Conference on Neural Information Processing Systems.2019：4696－4705.

［69］Gregory C，Saeed A，Jonathan T，et al.EMNIST：an extension of MNIST to handwritten letters［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017.

［70］Brendan M，Eider M，Daniel R，et al.Communication－efficient learning of deep networks from decentralized data［C］//Proc of the 20th International Conference on Artificial Intelligence and Statistics.2017：1273－1282.

［71］Deng Jia，Dong Wei，Richard S，et al.ImageNet：a large－scale hierarchical image database［C］//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2009：248－255.

［72］Dongyoon H，Jiwhan K，Junmo K.Deep pyramidal residual networks［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017：6307－6315.

［73］Christian S，Sergey I，Vincent V，et al.Inception－v4，inception－ResNet and the impact of residual connections on learning［C］//Proc of the 31st AAAI Conference on Artificial Intelligence.2017：4278－4284.

［74］Chien Y W，Alexey B，Mark L.YOLOv7：trainable bag－of－freebies sets new state－of－the－art for real－time object detectors［C］//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022.

［75］Li Chuyi，Li Lulu，Geng Yifei，et al.YOLOv6 v3.0：a full－scale reloading［C］//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2023.

［76］Xu Xianzhe，Jiang Yiqi，Chen Weihua，et al.DAMO－YOLO：a report on real－time object detection design［C］//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022.

［77］Ren Shaoqing，He Kaiming，Ross B G，et al.Faster R－CNN：towards real－time object detection with region proposal networks［J］. IEEE Trans on Pattern Analysis and Machine Intelligence ，2017， 39 （6）：1137－1149.

［78］Liu Zongmin，Wang Jirui，Li Jie，et al.A novel improved mask RCNN for multiple targets detection in the indoor complex scenes［C］//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2023.

［79］Hinton G E，Vinyals O，Dean J.Distilling the knowledge in a neural network［C］//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2015.

收稿日期：2023－06－29；修回日期：2023－08－28 基金項(xiàng)目：國家自然科學(xué)基金地區(qū)基金資助項(xiàng)目（62162013）；貴州師范大學(xué)學(xué)術(shù)新苗基金資助項(xiàng)目（黔師新苗［2022］30號）

作者簡介：陳琨（1999—），男，貴州黔南人，碩士研究生，CCF會員，主要研究方向?yàn)槿斯ぶ悄?、目?biāo)檢測；王安志（1986—），男（通信作者），貴州銅仁人，副教授，碩導(dǎo)，博士，主要研究方向?yàn)槿斯ぶ悄?、深度學(xué)習(xí)、計(jì)算機(jī)視覺（andyscu@163.com）.

計(jì)算機(jī)應(yīng)用研究2024年4期

計(jì)算機(jī)應(yīng)用研究的其它文章: 基于節(jié)點(diǎn)動態(tài)評分機(jī)制的分組共識算法; TCSNGAN:基于Transformer和譜歸一化CNN的圖像生成模型; 車聯(lián)網(wǎng)安全標(biāo)準(zhǔn)綜述; 基于模態(tài)語義增強(qiáng)的跨模態(tài)食譜檢索方法; 多級敏感區(qū)域室內(nèi)定位中的隱私保護(hù)算法; 融合小生境機(jī)制的增強(qiáng)麻雀搜索算法及其應(yīng)用

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

卷積神經(jīng)網(wǎng)絡(luò)的正則化方法綜述