亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

目標檢測模型的優(yōu)化訓練方法研究

2020-07-25 02:48:26楊海龍王澧冰

遼寧科技大學學報 2020年2期

楊海龍，田瑩，王澧冰

（遼寧科技大學計算機與軟件工程學院，遼寧鞍山 114051）

現(xiàn)階段流行的深度學習檢測框架主要包括兩個類別：單階段檢測模型和兩階段檢測模型。YOLO系列算法屬于單階段類別，例如YOLO［1］、YOLO9000［2］、YOLOv3［3］和 SSD［4］。R-CNN［5］和相應延伸出來的變體網(wǎng)絡則屬于兩階段類別，例如Fast R-CNN［6］、Faster R-CNN［7］和 Μask R-CNN［8］。單階段和兩階段模型都是基于圖像分類骨干網(wǎng)絡，例如ZFNet［9］、VGG［10］和ResNet［11］等，來進行特征提取從而完成檢測任務。盡管現(xiàn)在的檢測模型準確率越來越高，推理速度越來越快，但是它的訓練并不高效，從而制約了其檢測性能的進一步提升。

圖像分類任務是計算機視覺領域多個研究方向的基礎。針對如何更好地訓練分類模型，目前已有很多方法被用于實踐。但是對于目標檢測的深度學習模型而言，和分類網(wǎng)絡相比，它們的計算復雜度更高，網(wǎng)絡設計也更復雜，優(yōu)化難度也大大增加。所以針對目標檢測模型的優(yōu)化訓練方法的研究和實驗不是很多。

在單階段目標檢測器中，最后的分類和檢測結果直接由一個卷積神經(jīng)網(wǎng)絡（Convolutional neural network，CNN）生成。然而在兩階段檢測中，例如Faster R-CNN［7］，先由區(qū)域生成網(wǎng)絡（Region proposal network，RPN）生成感興趣區(qū)域（Region of interest，RoI），最后的預測依據(jù)感興趣區(qū)域坐標在特征圖上采樣和池化后得到特征來生成。這種特征處理流程的不同會導致兩種模型在數(shù)據(jù)處理和網(wǎng)絡訓練優(yōu)化上區(qū)別較大。有的訓練方法只對單階段檢測模型有效，有的則只對兩階段檢測模型有效，找到對兩者都有性能提升的優(yōu)化訓練方法是其中的關鍵。

本文將數(shù)據(jù)增強、類標簽平滑、學習率優(yōu)化和隨機尺度訓練四種優(yōu)化訓練方法，用于單階段檢測模型YOLOv3和兩階段檢測模型Faster R-CNN中，通過實驗證明這些方法不但對提升兩種模型的檢測準確率都有一定的幫助，而且也有著很好的泛化能力。并且，只是將這些方法加入到檢測模型訓練的過程中，并不會對模型的網(wǎng)絡設計做出任何改變，因此對模型推理階段不造成額外的計算代價。

1 優(yōu)化訓練方法

1.1 數(shù)據(jù)增強

本文采用兩種數(shù)據(jù)增強方式：隨機顏色擾動和隨機幾何變換。隨機顏色擾動包括對圖片色調、對比度、亮度和飽和度的調整。隨機幾何變換方式包括隨機的水平翻轉、隨機的圖片大小調整和隨機的圖片裁剪和擴大等。對于Faster RCNN，不采用隨機裁剪的增強方式。圖1展示了亮度與對比度調整、水平翻轉和隨機裁剪三種常用數(shù)據(jù)增強方式。

圖1 數(shù)據(jù)增強方式Fig.1 Data augmentation method

1.2 類標簽平滑

在卷積神經(jīng)網(wǎng)絡的最后階段通常采用softmax函數(shù)進行分類，計算一個類別在所有類別n中所占的概率

式中：z表示最后分類輸出層的沒有歸一化的計算值；p表示最后的計算概率值；下標i表示計算物體的類別。

檢測網(wǎng)絡訓練過程中的目標分類損失，采用交叉熵損失函數(shù)

式中：pi是輸出的分布概率；qi是基準的概率分布。

對于常用的獨熱（One-hot）向量形式，在q的分布中，正確類的標簽的概率值是1，其他類的標簽概率值都是0。本文在q的分布中采用類標簽平滑分布［12］

式中：K表示訓練集的總類別數(shù)；y表示基準標簽類別；ε是常數(shù)，用來降低模型對正確類別的置信程度，本文設置ε=0.01。

1.3 學習率優(yōu)化

在訓練網(wǎng)絡時，初始階段設置的學習率較大，隨著訓練的進行逐漸降低學習率。步幅學習率法是常用的學習率設置方法，如圖2中虛線所示，隨著迭代的進行，訓練到達一定的迭代次數(shù)時，學習率便會乘以一個0到1之間的小數(shù)，從而達到降低學習率的目的。例如在Faster R-CNN［7］的訓練過程中，迭代進行到60 K時，學習率便會乘以0.1這個比率進行自降；在YOLOv3［3］的訓練中，當?shù)M行到40 K和45 K時，學習率都會乘以比率0.1，從而使學習率降低。

本文采用余弦學習率方法［13］，將學習率隨著迭代進行的變化曲線定義為余弦形式。如圖2實線所示。假設模型訓練要進行150個epoch，可以將學習率定義為

式中：l表示迭代過程中的學習率；x表示迭代進行的次數(shù)。

圖2 學習率優(yōu)化方法Fig.2 Learning rate optimization method

為了更好地避免模型訓練開始階段產(chǎn)生梯度爆炸現(xiàn)象，將學習率預熱啟發(fā)方法［14］用于本文學習率優(yōu)化過程中。如圖2中初始的虛線所示，在訓練開始階段的迭代中線性地快速增加學習率。

1.4 隨機尺寸訓練

正常情況下訓練集圖片的尺寸是多樣的，考慮到內存的限制和使得批量處理更為簡單，在文獻［1］和［4］中，訓練圖片都以固定尺寸輸入到網(wǎng)絡中，導致最后訓練得到的模型對于輸入圖片的魯棒性不高。

本文探究隨機尺度訓練方法［3］對于網(wǎng)絡性能的提升程度。如圖3所示，以YOLOv3網(wǎng)絡為例，輸入的訓練圖片尺寸依次增加64分辨率，尺寸為352、416、480和544四個分辨率，在同一次迭代中的圖片尺寸大小保持一致。

圖3 隨機圖片尺度訓練Fig.3 Random picture scale training

2 實驗結果與分析

為了驗證本文提出的優(yōu)化訓練方法對于目標檢測性能的提升程度，選用單階段檢測器YOLOv3和兩階段檢測器Faster R-CNN作為實驗的基礎檢測網(wǎng)絡。YOLOv3由于它的高效性和準確性，是目前公認的最優(yōu)秀的檢測器之一?，F(xiàn)在很多兩階段檢測器其實都是Faster R-CNN的變體。實驗中為了排除測試方法的不同對于結果的影響，測試結果統(tǒng)一為單尺度、單模型，通過標準的非極大值抑制（Non-maximum suppression implementation，NΜS）后的輸出結果。

2.1 實驗平臺

實驗采用的Centos7服務器CPU型號為Intel? Xeno（R）CPU E5-2650v4@2.20GHz，內存為96G，GPU為雙路NVIDIAGTX 1080Ti。實驗平臺為基于python3的anaconda深度學習集成環(huán)境，深度學習框架為mxnet。

2.2 PASCAL VOC數(shù)據(jù)集

PASCALVOC［15-16］是一個常用的標準目標檢測數(shù)據(jù)集。實驗把VOC07 trainval和VOC12 trainval作為訓練集，VOC07 test作為驗證集。通過PASCALVOC開發(fā)工具包中定義的測試標準進行評估后，得到最終的平均準確率結果（mean average precision，mAP）。對于YOLOv3模型，驗證時統(tǒng)一使用416×416分辨率的圖片。當采用隨機圖片尺寸訓練方法時，隨機輸入352、416、480和544四個分辨率的圖片；不采用隨機尺寸方法時，輸入圖片的分辨率固定為416×416。對于Faster RCNN模型，訓練和驗證時輸入的圖片短邊都固定為600像素，同時保證長邊尺寸不超過1 000像素。

2.2.1 實驗結果表1為YOLOv3模型在VOC 07數(shù)據(jù)集上的實驗結果。對于YOLOv3模型，數(shù)據(jù)增強方法對于基準mAP貢獻了14.98%，接近15%。隨機圖片尺度訓練、學習率優(yōu)化和類標簽平滑也都能在一定程度上提高檢測準確率，分別貢獻了0.38%、0.45%和0.39%的mAP值。將隨機圖片尺度訓練、學習率優(yōu)化和類標簽平滑三種訓練方法綜合，能夠給YOLOv3模型帶來1.22%的準確率提升。在單尺度416×416測試的情況下，mAP達到了81.38%。圖4為應用優(yōu)化訓練方法后的YOLOv3檢測采樣示例圖片的可視化，證明模型能夠很好地檢測到圖片中的物體。

表1 YOLOv3實驗結果，%Tab.1 Experimental results of YOLOv3

圖4 YOLOv3應用訓練方法目標檢測示例圖Fig.4 Detection examples using training method YOLOv3s

表2為Faster R-CNN模型在VOC 07數(shù)據(jù)集上的實驗結果。對于Faster R-CNN模型，和YOLOv3相比，數(shù)據(jù)增強方法對于檢測準確率的提升就小了很多。當采用數(shù)據(jù)增強方法訓練網(wǎng)絡時，mAP只得到了一個很小的0.22%的增加量。學習率優(yōu)化對于Faster R-CNN的準確率提升為1.79%。類標簽平滑的提升率為0.61%。學習率優(yōu)化和類標簽平滑兩種優(yōu)化方法綜合能給Faster RCNN帶來相比基準高2.40%的mAP提升。圖5為應用優(yōu)化訓練方法后的Faster R-CNN檢測采樣示例圖片的可視化，證明模型同樣能夠很好地檢測到圖片中的物體。

表2 Faster R-CNN實驗結果，%Tab.2 Experimental results of Faster R-CNN

2.2.2 實驗結果分析數(shù)據(jù)增強對YOLOv3的檢測性能起著較大的作用，而對于Faster R-CNN的檢測準確率卻只有0.22%的較小貢獻值。是因為Faster R-CNN訓練時，首先通過區(qū)域生成網(wǎng)絡生成候選區(qū)域的坐標，然后依照這些坐標在特征圖上采樣候選區(qū)域，這個過程相當于通過裁剪特征自動地完成了空間特征增強。而YOLOv3等單階段檢測模型直接從原始圖像特征生成預測，沒有產(chǎn)生候選區(qū)域的過程，所以需要圖像裁剪和縮放等來進行數(shù)據(jù)增強，從而達到訓練模型的魯棒性，進而提升檢測準確率。

類標簽平滑方法的應用分別給YOLOv3和Faster R-CNN帶來了0.39%和0.61%的性能提升。對于獨熱向量形式，正確類的標簽概率值為1，其他類的都是0，但是根據(jù)softmax函數(shù)，實際輸出的概率分布中的正確類的概率只能無限接近1，但永遠不是1。這就使得模型要對自己的輸出概率有很高的置信度，從而使得模型訓練過程中有過擬合的傾向，影響模型訓練的效果。將ε=0.01的標簽平滑方法用于訓練，就大大降低了這種過擬合的傾向。

圖5 Faster R-CNN應用訓練方法目標檢測示例圖Fig.5 Detection examples using training method Faster R-CNN

學習率優(yōu)化訓練方法給YOLOv3帶來了0.45%的準確率提升，對于Faster R-CNN的提升程度更大，為1.79%。傳統(tǒng)的步幅學習率方法存在的一個問題是：學習率突然下降會造成接下來幾輪迭代中學習動量的震蕩，使模型訓練變得不穩(wěn)定。當采用余弦學習率時就避免了這種問題。同時，訓練開始階段的學習率預熱啟發(fā)方法的應用，也很好地避免了梯度爆炸情況的出現(xiàn)。應用余弦學習率和預熱啟發(fā)這兩種學習率優(yōu)化訓練方法，使得模型整個訓練過程中的梯度更新平穩(wěn)進行。

在YOLOv3模型的訓練中應用隨機尺度訓練方法，能有效地提高訓練模型的魯棒性，從而給YOLOv3帶來0.38%的準確率提升。

2.3 ΜS COCO數(shù)據(jù)集

為了更好地驗證這些訓練方法對于檢測任務的提升效果，同時也為了驗證算法的泛化能力，在ΜS COCO［17］數(shù)據(jù)集上進一步實驗。最終輸出的mAP由COCO數(shù)據(jù)集中定義的新標準mAP@0.50：0.95進行評估后獲得。

ΜS COCO數(shù)據(jù)集相比PASCALVOC的檢測難度更大，包含更多的小目標，圖片中物體的咬合遮擋情況更為復雜。物體類別相比PASCALVOC的20類增加到了80類，平均每張圖片中包含的物體數(shù)目和類的數(shù)量也有較大的增加。為了更好地檢測到小目標，F(xiàn)aster R-CNN訓練和驗證時輸入到網(wǎng)絡的圖片尺寸被統(tǒng)一到800×1 300分辨率。將數(shù)據(jù)增強、類標簽平滑和學習率優(yōu)化三種優(yōu)化訓練方法同時用于YOLOv3和Faster R-CNN的訓練中。

表3是在ΜS COCO數(shù)據(jù)集上的訓練結果。綜合應用本文提出的優(yōu)化訓練方法時，YOLOv3模型的三個不同尺度的檢測結果都有一定程度的提升，當驗證圖片尺度為544時，提升率為2.5%。當驗證圖片尺度為416時，提升率為3.5%。當驗證圖片尺度為352時，提升率高達3.9%，表明應用這些方法能更好地提升較小尺度圖片的檢測效果。將三種優(yōu)化訓練方法綜合應用于Faster R-CNN模型，選用特征提取網(wǎng)絡為ResNet50時，mAP有0.5%的提升；選用網(wǎng)絡為ResNet101，則提升程度可以達到0.9%。

對比實驗結果表明，本文提出的優(yōu)化訓練方法也可以高效地適用于ΜS COCO數(shù)據(jù)集，從而證明這些方法有很好的泛化能力。

表3 ΜS COCO實驗結果，%Tab.3 Experimental results of ΜS COCO

3 結論

本文在YOLOv3和Faster R-CNN的網(wǎng)絡模型訓練中應用了數(shù)據(jù)增強、類標簽平滑、學習率優(yōu)化和隨機圖片尺寸訓練四種優(yōu)化訓練方法，通過實驗證明這些方法能夠不同程度地提升這兩種模型的目標檢測準確率。同時，其良好的泛化性也表明這些方法在一定程度上也能夠適用于其他的檢測網(wǎng)絡模型。而且所提出的這些方法并沒有對檢測模型網(wǎng)絡的結構設計做出任何改變，因此不會給模型帶來推理階段的額外消耗。