亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度學(xué)習(xí)目標(biāo)識(shí)別算法發(fā)展趨勢(shì)研究

2018-05-18 07:43:13

信息通信技術(shù)與政策 2018年4期

1 引言

目標(biāo)識(shí)別技術(shù)是指基于計(jì)算機(jī)圖像技術(shù)對(duì)感興趣的目標(biāo)的屬性類別進(jìn)行判斷，即分類問(wèn)題，是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)課題之一，同時(shí)也是一個(gè)熱點(diǎn)問(wèn)題，具有非常廣闊的應(yīng)用市場(chǎng)，從國(guó)家視角來(lái)看，其可以應(yīng)用于智能交通、公眾安全監(jiān)控等領(lǐng)域，而民用視角來(lái)看則可以應(yīng)用于自動(dòng)駕駛、智能家居、身份認(rèn)證等場(chǎng)景。目標(biāo)識(shí)別技術(shù)一直受到學(xué)術(shù)屆的關(guān)注，早期的目標(biāo)識(shí)別技術(shù)，通常基于手調(diào)特征與經(jīng)典分類算法進(jìn)行設(shè)計(jì)，如通過(guò)方向梯度直方圖特征（Histogram of Oriented Gridients，HOG）結(jié)合支持向量機(jī)（Support Vector Machine，SVM）實(shí)現(xiàn)行人識(shí)別，基于哈爾（HaarLike）特征結(jié)合提升算法（Boosting）實(shí)現(xiàn)人臉識(shí)別。目標(biāo)識(shí)別領(lǐng)域的傳統(tǒng)算法具有實(shí)現(xiàn)方便、計(jì)算速度快等優(yōu)點(diǎn)，但往往精度不高，對(duì)于方向、尺度變化、噪聲、遮擋等干擾魯棒性不強(qiáng)，同時(shí)對(duì)于數(shù)據(jù)集比較敏感。而深度學(xué)習(xí)算法在近年來(lái)發(fā)展迅速，在目標(biāo)識(shí)別算法領(lǐng)域占據(jù)了主導(dǎo)地位。深度學(xué)習(xí)算法通?；诤Ａ坑?xùn)練樣本，依靠卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力，實(shí)現(xiàn)分類。相比于傳統(tǒng)算法雖然訓(xùn)練速度較慢，占用的計(jì)算資源較多，但能夠?qū)崿F(xiàn)高精度的識(shí)別效果。

2 深度學(xué)習(xí)目標(biāo)識(shí)別算法的發(fā)展歷程

深度學(xué)習(xí)目標(biāo)識(shí)別算法通?；诰矸e神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）進(jìn)行設(shè)計(jì)。從發(fā)展歷程來(lái)看，深度學(xué)習(xí)類目標(biāo)識(shí)別算法的發(fā)展主要經(jīng)歷了以下幾個(gè)重要的時(shí)間節(jié)點(diǎn)。1998年，Lecun等人提出的LeNet結(jié)構(gòu)，是最早的CNN模型，LeNet應(yīng)用在MNIST手寫體字符識(shí)別數(shù)據(jù)上取得了非常好的分類效果。但由于數(shù)據(jù)、算力等原因，沒(méi)有得到廣泛的推廣。2006年，Hinton利用單層受限玻爾茲曼機(jī)自編碼預(yù)訓(xùn)練，使得深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得可能，深度學(xué)習(xí)重新引起了學(xué)術(shù)界的重視。并行計(jì)算工具GPU的發(fā)展，使深度學(xué)習(xí)算法訓(xùn)練速度慢的問(wèn)題得到了改善。2012年，AlexNet獲得ImageNet大尺度視覺(jué)識(shí)別任務(wù)挑戰(zhàn)賽（ImageNetLargeScaleVisualRecognitionCompetition，ILSVRC）的冠軍，使得深度學(xué)習(xí)算法發(fā)展步入新的階段，在AlexNet之后呈現(xiàn)出爆發(fā)式的增長(zhǎng)趨勢(shì)，相繼誕生出VGG、殘差網(wǎng)絡(luò)（Deep Residual Network，ResNet）等著名方法。這些深度學(xué)習(xí)目標(biāo)識(shí)別算法多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行設(shè)計(jì)，同時(shí)輻射向目標(biāo)檢測(cè)、目標(biāo)分割等其他領(lǐng)域，推動(dòng)了整個(gè)計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域的進(jìn)步。圖1展示了近年深度學(xué)習(xí)算法不斷刷新ImageNet等數(shù)據(jù)集的榜單的狀態(tài)。圖2展示了近年來(lái)較為著名的深度學(xué)習(xí)算法圖譜。

3 深度學(xué)習(xí)目標(biāo)識(shí)別算法發(fā)展趨勢(shì)分析

總體來(lái)看，基于深度學(xué)習(xí)技術(shù)的目標(biāo)識(shí)別算法多數(shù)基于CNN設(shè)計(jì)不同的結(jié)構(gòu)，進(jìn)而達(dá)到識(shí)別效果。這些算法在AlexNet的基礎(chǔ)上，主要沿著以下幾個(gè)趨勢(shì)發(fā)展（見(jiàn)圖3）。

（1）深度加深

深度是CNN結(jié)構(gòu)的核心要素之一，AlexNet是一個(gè)8層的CNN結(jié)構(gòu)，包括5個(gè)卷積層和3個(gè)全連接層。VGG以AlexNet為基礎(chǔ)，提出了“卷積棧”的概念，VGG使用3×3的卷積核取代了AlexNet中的大核，通過(guò)“卷積?！钡亩询B實(shí)現(xiàn)了多個(gè)模型，其中最為著名的是16層的VGG-16和19層的VGG-19。深度的加深使得網(wǎng)絡(luò)的性能得到改善。理論上來(lái)講，深層的CNN結(jié)構(gòu)應(yīng)該具有更強(qiáng)的表示能力，然而深度的加深產(chǎn)生了梯度消失的現(xiàn)象，阻礙了網(wǎng)絡(luò)的收斂。ResNet通過(guò)引入殘差單元使這一問(wèn)題得到了解決。殘差單元的提出使CNN結(jié)構(gòu)能夠變得非常之深，目前最深的ResNet能夠達(dá)到1000多層，深度的增加賦予了ResNet更強(qiáng)的分類能力。

（2）卷積模塊功能增強(qiáng)

通過(guò)增強(qiáng)卷積模塊的功能，能夠賦予CNN更強(qiáng)的感知能力。

圖2 卷積神經(jīng)網(wǎng)絡(luò)發(fā)展圖譜

部分算法通過(guò)對(duì)改變卷積層的連接方式，組合搭建模塊，進(jìn)而增強(qiáng)卷積層功能，以GoogleNet、ResNet和DenseNet為主要代表。GoogleNet提出的Inception模塊，在每個(gè)卷積層使用不同尺寸的卷積核進(jìn)行卷積，然后再把各通道的輸出進(jìn)行串聯(lián)。殘差網(wǎng)絡(luò)ResNet提出的殘差單元模塊，通過(guò)恒等映射、空間填充或1×1卷積層連接卷積層的輸入和輸出，形成“Shortcut”，“Shortcut”為梯度的前向傳遞提供了直接路徑，從而能夠解決隨著網(wǎng)絡(luò)加深而產(chǎn)生的梯度消失現(xiàn)象。ResNet使CNN網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)加深，且易于收斂，進(jìn)一步提升了深度學(xué)習(xí)算法的分類精度，同時(shí)也為CNN結(jié)構(gòu)設(shè)計(jì)提供了新的思路，在ResNet的基礎(chǔ)上形成了若干變種，其中較為著名的包括寬殘差網(wǎng)（Wide Residual Networks，WRN），WRN 在ResNet的基礎(chǔ)上調(diào)整了網(wǎng)絡(luò)寬度，以淺而寬型的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)了更高的分類精度。DenseNet則認(rèn)為解決深度學(xué)習(xí)梯度消失的現(xiàn)象需要增添層與層之間的連接，由此提出了緊致模塊，在緊致單元內(nèi)的層與層之間實(shí)現(xiàn)緊致連接，各層輸出采用串聯(lián)形式。整個(gè)網(wǎng)絡(luò)通過(guò)若干緊致模塊連接而成，各模塊之間添加池化層、歸一化層。DenseNet的出現(xiàn)使得算法精度得到進(jìn)一步提升。

圖3 基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法發(fā)展趨勢(shì)

也有部分算法面向方向旋轉(zhuǎn)、尺度變化等干擾，通過(guò)改變卷積方式增強(qiáng)卷積功能，以方向卷積網(wǎng)絡(luò)（Oriented Response Networks，ORN）、Gabor卷積網(wǎng)絡(luò)（Gabor Convolutional Networks，GCN）、可變形卷積神經(jīng)網(wǎng)絡(luò)（Deformable Convolutional Networks，Deformable ConvNets）等為代表。其中，ORN主要面向方向魯棒問(wèn)題，通過(guò)對(duì)卷積核進(jìn)行空域旋轉(zhuǎn)產(chǎn)生自適應(yīng)旋轉(zhuǎn)卷積核（Active Rotating Filter，ARF），從而賦予了CNN感知方向變化的能力。GCN將Gabor小波變換的思想引入到CNN結(jié)構(gòu)，通過(guò)傳統(tǒng)卷積核與Gabor核的調(diào)制形成Gabor方向卷積核（Gabor Orientation Filters，GOFs），GOFs繼承了 Gabor變換提取不同方向、不同尺度特征的思想，通過(guò)調(diào)制的方式將Gabor濾波器與CNN進(jìn)行有機(jī)結(jié)合，實(shí)現(xiàn)了特征增強(qiáng)。DeformableConvNets打破了傳統(tǒng)CNN對(duì)于卷積核形狀的限制，使卷積核能夠進(jìn)行平移、縮放、旋轉(zhuǎn)等仿射變換，產(chǎn)生靈活、非固定的卷積核形狀，從而提升了卷積核的感知能力。

（3）設(shè)計(jì)新的功能單元、損失函數(shù)等

通過(guò)設(shè)計(jì)新的功能單元或損失函數(shù)能夠改善網(wǎng)絡(luò)性能。

空域變換網(wǎng)絡(luò)（Spatial Transformer Networks，STN）在卷積層之間增添空域仿射變換層，提升網(wǎng)絡(luò)對(duì)于仿射變換的學(xué)習(xí)能力。另一方面，經(jīng)典的CNN結(jié)構(gòu)常使用的損失函數(shù)主要包括交叉熵?fù)p失函數(shù)（Cross Entropy）、Softmax損失函數(shù)等，通過(guò)比較網(wǎng)絡(luò)輸出和真實(shí)標(biāo)簽的差異，進(jìn)而計(jì)算誤差傳遞梯度。通過(guò)此類損失函數(shù)能夠較好地反應(yīng)網(wǎng)絡(luò)誤差，但卻無(wú)法評(píng)估樣本分類后類內(nèi)、類間的離散度。一個(gè)好的分類算法不僅要求高精度，且應(yīng)該使得樣本經(jīng)過(guò)分類器后，類內(nèi)差異小，而類間差異大，這樣的分類器具有強(qiáng)的魯棒性。而在參考文獻(xiàn)[9]中，筆者提出了一種新的損失函數(shù)——中心損失（Center Loss），除了考慮Softmax損失，還將類內(nèi)的離散度也作為計(jì)算損失的指標(biāo)，加入Center Loss后對(duì)CNN網(wǎng)絡(luò)提取的特征進(jìn)行可視化降維，能夠發(fā)現(xiàn)類內(nèi)距離變小，模型判別力的提升。采取類似思路的還有FisherLoss，將類間間距加入損失函數(shù)考量，進(jìn)而提升網(wǎng)絡(luò)分類性能。

（4）輻射向檢測(cè)任務(wù)

正確分類是進(jìn)行目標(biāo)檢測(cè)的基礎(chǔ)，深度學(xué)習(xí)在目標(biāo)識(shí)別方面取得的發(fā)展同樣推動(dòng)了目標(biāo)檢測(cè)的進(jìn)步，催生出了一系列新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Regions with CNN Features，RCNN）、單次多框檢測(cè)器（Single Shot MultiBox Detector，SSD）等算法為代表。RCNN采用“選擇性搜索+遷移學(xué)習(xí)”的策略，通過(guò)區(qū)域提名算法生成大量候選區(qū)域，然后將這些候選區(qū)域尺寸歸一化后，通過(guò)AlexNet在ImageNet上的預(yù)訓(xùn)練模型提取特征，以微調(diào)的方式對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整。同時(shí)，將提取的特征用于訓(xùn)練SVM分類器。當(dāng)待檢測(cè)圖像進(jìn)行測(cè)試時(shí)，SVM分類器給出物體的類別屬性。RCNN再?gòu)腟VM選出的正樣本中經(jīng)過(guò)非最大抑制、包圍框回歸等對(duì)物體的位置進(jìn)行精修，進(jìn)而完成檢測(cè)過(guò)程。RCNN使得目標(biāo)檢測(cè)算法的精度大幅提升，檢測(cè)速度成為技術(shù)瓶頸。為進(jìn)一步提升精度、改善速度，F(xiàn)astRCNN和FasterRCNN相繼提出。相比于RCNN，他們所做的優(yōu)化主要包括引入ROI-Pooling層解決了RCNN中冗余的特征提取、使用Softmax輸出判斷目標(biāo)類別信息取代了SVM分類器、通過(guò)區(qū)域生成網(wǎng)絡(luò)取代了區(qū)域提名算法，這些改善使得目標(biāo)檢測(cè)算法速度得到大幅提升。在RCNN系列網(wǎng)絡(luò)的基礎(chǔ)上，又相繼誕生了YoLo（You Only Look Once）、單次多框檢測(cè)器。目前，SSD已經(jīng)能夠?qū)崿F(xiàn)58FPS的檢測(cè)速度，基本能夠滿足實(shí)時(shí)性。

4 結(jié)束語(yǔ)

本文回顧了近年來(lái)深度學(xué)習(xí)在目標(biāo)識(shí)別領(lǐng)域的經(jīng)典算法，并對(duì)它們的發(fā)展趨勢(shì)進(jìn)行了分析和歸類。從技術(shù)層面來(lái)看，以卷積神經(jīng)網(wǎng)絡(luò)為主的深度學(xué)習(xí)目標(biāo)識(shí)別算法主要沿著以下4個(gè)方向發(fā)展：深度加深、增強(qiáng)卷積功能、設(shè)計(jì)新的功能單元或損失函數(shù)、輻射向檢測(cè)、分割等其他任務(wù)，進(jìn)而推動(dòng)目標(biāo)識(shí)別技術(shù)朝著更精準(zhǔn)、更快速、應(yīng)用更廣泛的方向不斷進(jìn)步。