任萌
摘 要:隨著人工智能的快速發(fā)展,人們現(xiàn)在的生活也越來越智能化,各類人臉識別打卡,指紋檢測技術越來越廣泛地應用到人們的日常生活當中,這離不開圖像視覺識別算法和相關技術的發(fā)展。其中,卷積神經(jīng)網(wǎng)絡對于視覺識別技術和方法的研究中已經(jīng)占有絕對的優(yōu)勢。目前,許多研究學者嘗試通過優(yōu)化卷積神經(jīng)網(wǎng)絡算法的結構和性能來提高圖像識別的精確度和識別速度,從而使得其可以廣泛應用于數(shù)據(jù)挖掘的各個領域,并對其在實際生活的應用做出更大的貢獻,本文將對The Residual Network, DenseNet, GoogLeNet 三種圖像視覺識別模型的訓練過程、應用和特點進行研究,同時對圖像視覺識別算法和技術在實際生活中的應用進行簡要論述與展望,特別是在數(shù)據(jù)挖掘方面的應用。圖像視覺識別技術是一種可以應用于各個領域,也可以剖析人類行為的熱點研究課題。
關鍵詞: 圖像視覺識別; Residual Network; DenseNet; GoogLeNet; 卷積神經(jīng)網(wǎng)絡; 對比分析; 數(shù)據(jù)挖掘
文章編號: 2095-2163(2019)03-0294-04 中圖分類號: TP183 文獻標志碼: A
0 引 言
圖像視覺識別(Image Visual Recognition)作為一種已經(jīng)在現(xiàn)實生活中廣泛應用的技術,近幾年來,更是發(fā)展迅速。2014年,Szegedy等人[1]提出了GloogLeNet,這是一種全新的深度學習結構,主要解決計算機硬件和稀疏結構之間的矛盾問題?;诰矸e神經(jīng)網(wǎng)絡[2](CNN)中類似于LeNet-5的標準結構而提出的。既引入稀疏性,又利用現(xiàn)有硬件針對密集矩陣的計算能力,設計了Inception[3-4]結構用于機器學習的分類任務中[5],但參數(shù)太多,容易發(fā)生過擬合。2015年,微軟的 He等4名華人提出了ResNet[6-8] (Residual Neural Network),使用ResNet Unit成功訓練出了152層的神經(jīng)網(wǎng)絡結構,加快神經(jīng)網(wǎng)絡的訓練速度,模型的精度也有大幅提升。ResNet[9]在圖像識別[10]、定位和檢測任務中也都取得了非常不錯的效果。2017年,Huang等人提出DenseNet[11],避開了ResNet的加深神經(jīng)網(wǎng)絡和Inception的加寬網(wǎng)絡結構的方式,利用每一個輸入層都會直接影響到后面所有輸出層的思想,提升模型精度。
目前,圖像視覺識別技術的應用已可見到很多,包括人臉檢測[12-13]、目標檢測[14-15]、以及百度、IBM和Google推出的很多圖像檢測模塊的產(chǎn)品都已經(jīng)得到了廣泛使用。通過辨識圖片中的物體類別,都已經(jīng)陸續(xù)應用到醫(yī)學[16]、車輛定損[14,17]、農(nóng)作物識別[18]等等社會實際生活中,提高人們的生活品質。
但是,從數(shù)據(jù)挖掘[19-21]的角度來看,圖像識別技術使得不僅僅可以從單一的文字來挖掘人們的行為和喜好,同樣可以通過在線社交評論網(wǎng)站的圖片來挖掘不同人的行為和喜好。這也是目前學界廣受研究者關注的一個研究課題。
1 圖像視覺識別算法
1.1 GoogLeNet
GoogLeNet是Google研究出來的深度網(wǎng)絡結構,通過提出Inception的網(wǎng)絡結構來引出2個問題,對此可描述為:
(1)增加網(wǎng)絡深度可以提高模型精確度。
(2)降維可以減少計算量。
其核心思想便是通過增加模型深度(層數(shù))或者其寬度(神經(jīng)元)來保證高質量的模型。如圖1所示,整個GoogLeNet就是由多個Inception結構串聯(lián)起來,其中利用1×1的卷積來進行升降維,并在多個尺寸上同時進行卷積再聚合。該圖引自Szegedy等人的論文中。
1.2 ResNet
ResNet 殘差網(wǎng)絡最初是由He等人[7,22]提出來的,并由其進行擴展。通過采用了一種原則性方法,對每一層的輸入做了一個參考,這種殘差函數(shù)更容易優(yōu)化,能使網(wǎng)絡層數(shù)大大加深。研究中給出一個實例如圖2所示。圖2(a)中,映射后可以擬合出任意目標映射H(x),其中x表示網(wǎng)絡層數(shù),引出了一個Residual net。圖2(b)擬合出F(x),而且H(x)=F(x)+x,其中F(x)表示殘差映射,當H(x)最優(yōu)映射接近identity時,很容易捕捉到小的擾動。在計算機視覺里,隨著網(wǎng)絡深度的加深,特征的等級就會增高。有相關研究表明,網(wǎng)絡的深度是取得良好成效的重要因素,然而梯度彌散則成為訓練深層次網(wǎng)絡的障礙,使其無法收斂。目前,已經(jīng)相繼推出了一些方法可以彌補這一缺陷,通過實現(xiàn)各層輸入歸一化,使得可以收斂的網(wǎng)絡的深度提升為原來的10倍。只是,雖然達到了收斂的目的,但隨著網(wǎng)絡層數(shù)的增加會導致更大的誤差,使得網(wǎng)絡開始退化。
若要獲得更好的需要網(wǎng)絡性能,F(xiàn)(x)=H(x)-x是ResNet學習的殘差函數(shù),如果F(x)=0,那么此時的H(x)=x 為恒等映射,即沒有引入額外的參數(shù)和計算復雜度,由此通過學習來找到對恒等映射的擾動會比重新學習一個映射函數(shù)要容易?;谇笆鎏幚恚芯康玫降木徒凶鰵埐顗K(Residual Block), 而把這些殘差塊堆積起來就是殘差網(wǎng)絡了。這就是ResNet最主要的優(yōu)點,直接將深層轉化為前層,ShortCut(捷徑)。研究可知,每個殘差塊可以表示為:
在式(1)、式(2)基礎上,研究求得從前層l到深層L的學習特征,可寫作如下數(shù)學形式:
然后通過計算梯度來消除殘差塊。
1.3 DenseNet
DenseNet 是以前饋的方式將各分層鏈接到每一層。主要由DenseBlock和Transition組成,可以緩解梯度消失問題,提高模型精度,并大幅減少參數(shù)數(shù)量。如此設計使得網(wǎng)絡訓練更加容易,每一層都可以利用原始的輸入信息和損失函數(shù)的梯度,其設計結構如圖3所示。這也更加有利于訓練更深的網(wǎng)絡。并且其稠密鏈接的正則化作用在少量的訓練集中可以有效降低過擬合。同時,為了改善層之間的信息流,其設計研發(fā)是基于ResNet之上,相應的公式具體如下:
其中,H[x0,x1,x2,…,xl]表示層中串聯(lián)生成的特征和。這里仍需指出,如果將該模型應用于大的數(shù)據(jù)集上時會損耗很大的硬件內存。因此建議將其應用于小數(shù)據(jù)集中。
2 應用
2.1 圖像視覺識別算法的應用
自從圖像視覺識別算法面世以來,便引發(fā)了研究熱潮,無論在理論或是技術上均取得了長足進步,其成果應用也已逐漸拓展至生活的方方面面。例如,通用物體及場景識別和圖像主體檢測,代替了人眼的辨識功能;細粒度圖像識別,對圖片中的動物、植物、菜品、logo商標、車型等進行識別;實現(xiàn)圖片中的人流統(tǒng)計,人體分析;識別車輛外觀受損部件及受損類型應用與車損檢測中,減少了人力勞動;相冊圖片分類,安裝在手機端,可以幫助人們整理相冊,節(jié)省手機內存等等。
特別地,在數(shù)據(jù)挖掘推薦系統(tǒng)(Recommendation System)的有關研究、成果推廣中,比如,像大眾點評,貓途鷹(TripAdvisor)等旅游或其它在線社交網(wǎng)絡中,若立足于消費者層面,當其擬欲進行消費選擇時,如果想要根據(jù)自己的喜好,屏蔽不想接觸到的垃圾圖片,便可以通過圖像視覺識別技術來過濾掉相關圖片,從而提高消費者的旅游和用餐體驗。而立足于酒店或者相關管理人員的層面,在推薦系統(tǒng)中,不僅可以利用用戶的評論和評分來幫助消費者進行推薦選擇,還可以根據(jù)用戶以往在評論中發(fā)表的圖片來匹配其在意向中最為青睞的酒店類型和消費體驗。同樣地,用戶出門在外通常會通過圖片的方式來記錄自己的生活,那么,還可以通過圖像視覺識別技術來發(fā)現(xiàn)消費者的旅游軌跡,從而在以后的旅游中更好地為消費者量身定制相關服務或產(chǎn)品,使得消費者的生活更加便利與智能化。
有了圖像視覺識別算法,前文的圖像視覺識別內容在社交網(wǎng)站的相關研究中實現(xiàn)起來就更加方便了。通過爬取在線社交網(wǎng)站的圖片,并識別其圖像實體內容,利用推薦系統(tǒng)和自然語言處理(Natural Language Processing)相關算法對文本信息進行處理,來提取得到不同圖片組的側重點,從而設計推出更有利于消費者和相關管理人員的網(wǎng)站,這無論是對于消費者、網(wǎng)站管理員、或者酒店管理員來說,均可從中得到好處。
2.2 算法對比
在前文中,研究已經(jīng)綜合探討了3種圖像視覺識別算法。其中,DenseNet是基于GoogLeNet和ResNet兩個模型提出的。3種圖像視覺識別模型對比見表1。由表1可以看出,GoogLeNet[23]最早進入公眾視野,但是其性能卻遜色于后來的2個模型,其參數(shù)較多,并且容易產(chǎn)生過擬合,若訓練集有限,這一特征將更加明顯;一旦訓練的網(wǎng)絡越大,那么該模型的計算復雜度就會越大,難以應用到實際場景中。針對不同的應用場景,3個模型的優(yōu)勢領域也不一樣。其中,ResNet和DenseNet更能受到廣大研究學者的推崇與青睞,其核心思想均是適用于Highway Nets小數(shù)據(jù)集的時候。因為數(shù)據(jù)集小,就容易產(chǎn)生過擬合,而DenseNet能更好地解決過擬合問題,其泛化性能也更好。但是,對于較大的數(shù)據(jù)集,ResNet的性能要更勝一籌,并且速度相對于DenseNet算法來說也更快。究其原因就在于,DenseNet每一層都需要用到前面所有層的特征。這樣看來,DenseNet即便改善了算法精度,解決了過擬合問題,而且泛化性能有所提高,但是該算法對硬件內存占用卻會隨著數(shù)據(jù)集增大而逐步提高,對于硬件環(huán)境是非常不友好的。因此在設計中就需要根據(jù)不同的應用場景已知的既有條件來選擇研究使用的模型。
3 結束語
論文中綜合探討了GoogLeNet、 ResNet、 DenseNet三個模型的基本原理,同時也對比了3個模型的性能。從中不難發(fā)現(xiàn),圖像視覺識別算法正呈現(xiàn)出智能化態(tài)勢,但是其中也存在著一定的缺陷與不足。盡管DenseNet參數(shù)、精度和結構以及調節(jié)方面有出色表現(xiàn),但是其在大數(shù)據(jù)集的內存占用情況上卻仍有待改善。而ResNet雖然贏得了業(yè)界的廣泛認可,但在精度上卻比不上DenseNet的訓練精度。這也是后續(xù)工作中的一個重點研究方向。
目前,已有相當數(shù)量的研究人員正在嘗試將圖像視覺識別技術更廣泛地應用在數(shù)據(jù)挖掘中,利用在線社交網(wǎng)站上的圖片來發(fā)掘消費者的運行軌跡和其它社交習慣也不失為一個值得深入探索的項目研究課題。更多的研究實踐均會證明,圖像視覺識別技術在未來的科技進步中必將展示出較高的實用價值。
參考文獻
[1] SZEGEDY C , LIU Wei , JIA Yangqing , et al. Going deeper with convolutions[J]. arXiv preprint arXiv:1409.4842,2014.
[2] DONAHUE J , HENDRICKS L A , GUADARRAMA S , et al. Long-term recurrent convolutional networks for visual recognition and description[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA, USA:IEEE, 2015:2625-2634.
[3] LAINA I, RUPPRECHT C, BELAGIANNIS V, et al. Deeper depth prediction with fully convolutional Residual networks[C]// IEEE International Conference on 3D Vision(3DV). Stanford, CA, USA :IEEE,2016:1-13.
[4] IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167v2,2015.
[5] 張宏偉, 張凌婕, 李鵬飛,等. 基于GoogLeNet的色織物花型分類[J]. 紡織科技進展, 2017(7):33-35,52.
[6] LI Sihan, JIAO Jiantao, HAN Yanjun, et al. Demystifying ResNet[J]. arXiv preprint arXiv:1611.01186,2014.
[7] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[J]. arXiv preprint arXiv: 1512.03385, 2015.
[8] XIE Saining, GIRSHICK R, DOLLR P. Aggregated residual transformations for deep neural networks[J]. arXiv preprint arXiv:1611.05431,2016.
[9] TARG S, ALMEIDA D , LYMAN K. Resnet in Resnet: Generalizing residual architectures[J]. arXiv preprint arXiv:1603.08029,2016.
[10]WU Zifeng , SHEN Chunhua , HENGEL A V D . Wider or deeper: Revisiting the ResNet model for visual recognition[J]. Pattern Recognition, 2019,90:119-133.
[11]HUANG Gao, LIU Zhuang, van der MAATEN L, et al. Densely connected convolutional networks[J]. arXiv preprint arXiv:1608.06993,2016.
[12]付學桐. 基于深度學習的人臉識別技術研究[J]. 通訊世界,2019,26(2):299-300.
[13]張裕平,龔曉峰,雒瑞森. 稀疏化的雙向二維主成分人臉圖像識別[J/OL]. 計算機工程:1-7[2019-02-28]. http://kns.cnki.net/kcms/detail/31.1289.TP.20190122.1629.005.html.
[14]張長青,楊楠. 一種面向交通標志識別系統(tǒng)的圖像識別算法[J/OL]. 電子科技: 1-5[2018-12-20] . http://kns.cnki.net/kcms/detail/61.1291.TN.20181220.0913.044.html.
[15]RUSSAKOVSKY O, DENG Jia, SU Hao, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3):211-252.
[16]賴杰偉,陳韻岱,韓寶石,等. 基于DenseNet的心電數(shù)據(jù)自動診斷算法[J]. 南方醫(yī)科大學學報,2019,39(1):69-75.
[17]李曉飛. 基于深度學習的行人及騎車人車載圖像識別方法[D]. 北京:清華大學,2016.
[18]宋麗娟. 基于圖像的農(nóng)作物病害識別關鍵算法研究[D]. 西安:西北大學,2018.
[19]鳳祥云,盧輝斌. 基于數(shù)據(jù)挖掘的水下激光圖像識別技術[J]. 激光雜志,2016,37(1):55-58.
[20]楊帆,周華,王嫣. 基于數(shù)據(jù)挖掘的激光雷達圖像識別技術[J]. 激光雜志,2016,37(7):39-42.
[21]周誠誠,張代遠. 利用圖像識別技術過濾海量可疑釣魚網(wǎng)站[J]. 計算機技術與發(fā)展,2012,22(11):246-249.
[22]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Identity mappings in deep residual networks[J]. arXiv preprint arXiv:1603.05027, 2016.
[23]KHAN R U, ZHANG Xiaosong , KUMAR R. Analysis of ResNet and GoogleNet models for malware detection[EB/OL].[2018-08-28]. https://DOI.ORG/10.1007/S11416-018-0324-Z.
[24] 黃奕暉,馮前進. 基于三維全卷積DenseNet的腦膠質瘤MRI分割[J]. 南方醫(yī)科大學學報,2018,38(6):661-668.