王煜瑄,李振一,曲亞川
(1.青島理工大學(xué)機(jī)械與汽車工程學(xué)院,山東 青島 266520;2.青島理工大學(xué)信息與控制工程學(xué)院,山東 青島 266520)
人工智能是能夠自主感知周圍環(huán)境并做出響應(yīng)行為來達(dá)到某一目標(biāo)的智能體,其中深度學(xué)習(xí)作為人工智能的一個(gè)分支,以人工神經(jīng)網(wǎng)絡(luò)為架構(gòu),對數(shù)據(jù)中的高級抽象進(jìn)行表征學(xué)習(xí)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,在自然語言處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、蒙特卡洛、語言處理、自動(dòng)駕駛等領(lǐng)域都得到了廣泛應(yīng)用。
人類對世界的認(rèn)知多數(shù)來自視覺。在計(jì)算機(jī)視覺訓(xùn)練的過程中用到的一種關(guān)鍵技術(shù)是卷積神經(jīng)網(wǎng)絡(luò)模型(ConvolutionNeural Networks,CNN)。
深度學(xué)習(xí)在圖像識(shí)別方面的出色表現(xiàn)通常是通過神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)的,神經(jīng)網(wǎng)絡(luò)雖然對不同的數(shù)據(jù)都具有很輕的非線性擬合能力,但是在語音、圖像上遲遲得不到突破。為了發(fā)展高精度、高可靠度的圖像識(shí)別技術(shù),需要對現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類總結(jié)與改善。本文主要對基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法進(jìn)行回顧和總結(jié):第1 節(jié),主要針對圖像識(shí)別模型的定義和研究必要性進(jìn)行討論,介紹圖像識(shí)別技術(shù)的必要性。第2 節(jié),對卷積神經(jīng)網(wǎng)絡(luò)基本概念進(jìn)行闡述。第3 節(jié),介紹目前較為常見的卷積神經(jīng)網(wǎng)絡(luò)模型并分析其優(yōu)缺點(diǎn)。第4 節(jié),通過引用論述說明圖像識(shí)別算法的研究方向、實(shí)際應(yīng)用和當(dāng)前面臨的挑戰(zhàn)。第5 節(jié),對全文進(jìn)行總結(jié),對神經(jīng)網(wǎng)絡(luò)圖像識(shí)別算法模型當(dāng)前面臨的問題進(jìn)行簡述,針對這些挑戰(zhàn)給出可能的解決方向。
圖像識(shí)別是指利用計(jì)算機(jī)分辨圖片中的人物、物體位置等,并在此基礎(chǔ)上進(jìn)行分析與理解,最終實(shí)現(xiàn)不同模式目標(biāo)和對象的識(shí)別。圖像識(shí)別的結(jié)果取決于神經(jīng)網(wǎng)絡(luò)模型的選擇以及亟待解決的問題。目前,神經(jīng)網(wǎng)絡(luò)模型被使用在多種場合,其不透明性、非線性擬合始終被認(rèn)為是神經(jīng)網(wǎng)絡(luò)的主要缺陷之一。這種不透明模型會(huì)產(chǎn)生沒有根據(jù)的結(jié)果與識(shí)別,這種無根據(jù)結(jié)果會(huì)導(dǎo)致潛在的信任危機(jī)和安全危機(jī),尤其在必須保證模型高度可靠的領(lǐng)域,例如醫(yī)學(xué)診斷、自動(dòng)駕駛、刑事司法、建筑施工等。
卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)是BP 神經(jīng)網(wǎng)絡(luò),是一種按誤差反向傳播訓(xùn)練的多層前饋網(wǎng)絡(luò),它們均采用前向傳播方式來計(jì)算輸出值,采用反向傳播方式調(diào)整權(quán)值和偏置。CNN 與BP 神經(jīng)網(wǎng)絡(luò)最大的不同點(diǎn)是CNN 模型相鄰兩層之間的神經(jīng)元是部分連接結(jié)構(gòu),而不是全連接結(jié)構(gòu),即下一層的某個(gè)神經(jīng)元的感知區(qū)域只能覆蓋上一層的一部分神經(jīng)元。目前卷積網(wǎng)絡(luò)模型的發(fā)展趨向于多元化,但是整體結(jié)構(gòu)還是1998 年Le Cun 和Bottou 等人設(shè)計(jì)出的Le Net-5 卷積神經(jīng)網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)主要包括輸入層、卷積層、激活函數(shù)、池化層、全連接層。每一層均有多個(gè)特征圖。其結(jié)構(gòu)包括以下幾個(gè)方面的特點(diǎn):
1.上一層的局部區(qū)域輸入得到特征提取過程中每個(gè)節(jié)點(diǎn)的特征值。
2.多個(gè)特征圖組成特征層且每個(gè)特征映射都是二維平面映射,特征圖中所有節(jié)點(diǎn)共享相同的卷積核。
3.卷積層后是局部下采樣層,經(jīng)處理后的特征圖分辨率和變形敏感度降低。
4.多層神經(jīng)網(wǎng)絡(luò)作為最后的分類器。
假設(shè)輸入的原始圖像用A0表示,用FA表示第A 層的特征圖,則由如下公式得到下一層的特征圖:
FA=f(F(A-1)?WA+bA)[1]
其中f(x)代表非線性激活函數(shù),WA為代表卷積核,?代表卷積運(yùn)算,bA代表偏置項(xiàng)。
卷積層后一般接入池化層,池化層是對特征進(jìn)一步的抽象與降維,其結(jié)果一般是池化區(qū)域最大值或者平均值。平均池化是對卷積核內(nèi)的元素取平均值,最大池化是對卷積核內(nèi)的元素取最大值,通過此操作可以在避免噪聲的同時(shí)減小卷積引起的均值偏差,更精確地反映圖像的邊緣紋理特征。
全連接層在卷積神經(jīng)網(wǎng)絡(luò)中起到“分離器”的作用,通常為模型的最后一層,將池化層的所有特征矩陣轉(zhuǎn)化成一位的特征大向量,對提取的特征進(jìn)行分類。
LeNet 模型的提出使得基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別模型成為研究重點(diǎn),當(dāng)前利用卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖像識(shí)別成果眾多,本節(jié)將對圖像識(shí)別領(lǐng)域具有代表性的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行整理,將模型的使用條件、優(yōu)點(diǎn)、缺點(diǎn)等做了詳細(xì)的描述。
由于LeNet 模型架構(gòu)簡單并使用全連接層,導(dǎo)致其只能使用在內(nèi)容簡單的場景也需要消耗大量計(jì)算資源,所以該模型很少用在實(shí)際任務(wù)中。與LeNet 不同的是,AlexNet 模型進(jìn)行了更深的網(wǎng)絡(luò)設(shè)計(jì)并借助參數(shù)優(yōu)化來獲取更高維的特征,以應(yīng)對特征復(fù)雜的圖像。
該模型不需要將輸入的圖像轉(zhuǎn)化為灰度圖,并且首次加入了CPU 并行運(yùn)算部署更深、更寬的網(wǎng)絡(luò),以更快的速度進(jìn)行訓(xùn)練。在模型結(jié)構(gòu)方面利用ReLU 作為激活函數(shù),收斂速度較Sigmoid 和tanh 更快且不需要進(jìn)行指數(shù)運(yùn)算,解決了神經(jīng)網(wǎng)絡(luò)中的梯度消失與梯度飽和問題。為了進(jìn)一步解決收斂問題,AlexNet 模型引入LRN 局部響應(yīng)歸一化的概念,實(shí)現(xiàn)了“側(cè)抑制”,即對局部神經(jīng)元的活動(dòng)創(chuàng)建競爭機(jī)制,使得其中響應(yīng)比較大的值變得相對更大,并抑制其它反饋較小的神經(jīng)元,增強(qiáng)了模型泛化能力。同時(shí),Dropout 隨機(jī)失活神經(jīng)元的加入能夠隨機(jī)刪除神經(jīng)元,使神經(jīng)網(wǎng)絡(luò)模型避免過擬合。由于AlexNet 模型設(shè)計(jì)池化步長小于池化尺寸,需要進(jìn)行重疊的最大池化來避免平均池化產(chǎn)生的模糊效果。
VGGNet 是在AlexNet 的基礎(chǔ)上創(chuàng)造更深的網(wǎng)絡(luò),在網(wǎng)絡(luò)深度上達(dá)到19層。此外,該模型的適應(yīng)能力較強(qiáng),可根據(jù)需求,將網(wǎng)絡(luò)深度與網(wǎng)絡(luò)能力之間的關(guān)系展開全面且嚴(yán)格化的模擬。VGGNet 模型中大多使用3×3 卷積操作和2×2 的最大池化操作,使得特征圖經(jīng)過很深的網(wǎng)絡(luò)之后尺寸減小,進(jìn)而增加網(wǎng)絡(luò)層數(shù)。VGGNet 模型為了減少網(wǎng)絡(luò)參數(shù),通過多次重復(fù)引入包含了小尺寸卷積核的卷積層串聯(lián)的方式。與具有較大核的卷積層相比,此方式能夠保證相同感受野的同時(shí)減少網(wǎng)絡(luò)的參數(shù)量,提高了網(wǎng)絡(luò)的非線性表達(dá)能力,獲得更好的特征提取與特征學(xué)習(xí)能力。VGGNet 網(wǎng)絡(luò)具有模型簡潔,收斂和迭代速度快的特點(diǎn),并且由于使用的卷積核較小,所以計(jì)算量速度快。
Faster R-CNN 算法包括4 個(gè)部分,分別是對于圖像中特征的獲取、生成anchor 區(qū)域、檢測目標(biāo)分類和獲取目標(biāo)位置,然后利用一個(gè)神經(jīng)網(wǎng)絡(luò)將這4 個(gè)模塊結(jié)合起來,訓(xùn)練了一個(gè)端到端的網(wǎng)絡(luò)。接下來敘述Faster R-CNN模型的大致流程,首先將圖片輸入到Faster R-CNN網(wǎng)絡(luò),經(jīng)過共享卷積層計(jì)算后等到公共特征圖,這一步對于輸入的圖像尺寸并沒有要求;特征圖經(jīng)過RPN 網(wǎng)絡(luò)的加工處理得到anchor 區(qū)域,判斷anchor 區(qū)域中是否存在檢測物體以及物體類別;如果經(jīng)過判斷得到的是需要的信息,則輸入到ROI 池化層得到相同維度的特征,然后將相同維度的特征進(jìn)行softmax 分類以及回歸。如果檢測的不是前景特征,則把這些生成anchor區(qū)域舍去。然后對anchor 區(qū)域進(jìn)行位置修正,從而形成較為準(zhǔn)確的候選區(qū)域。經(jīng)過不斷地技術(shù)升級,該模型能夠?qū)崿F(xiàn)精度較高地物體檢測性能。Faster R-CNN模型首次提出了RPN 網(wǎng)絡(luò),在提高精度的同時(shí)提高了訓(xùn)練速度,解決了SS 網(wǎng)絡(luò)選擇性搜索的弊端。模型在算法中使用了ROI Pooling 技術(shù),根據(jù)預(yù)選框的位置坐標(biāo)在特征圖中將相應(yīng)區(qū)域池化為固定尺寸的特征圖,以便進(jìn)行后續(xù)的分類和候選框回歸操作。此外,為了提高檢測模型對于全局特征地檢測能力以及加大局部特征之間關(guān)聯(lián)性和類似性特征的鑒別性,F(xiàn)aster R-CNN模型引入了注意力機(jī)制。
為了探索更深層的卷積神經(jīng)網(wǎng)絡(luò)同時(shí)避免非常深的網(wǎng)絡(luò)導(dǎo)致精度上的過度擬合和飽和問題,微軟研究院何凱明團(tuán)隊(duì)搭建了融入殘差塊ResNet。ResNet 模型的基本思想是引入了能夠跳過這一層或多層的跳接。即圖1 中的由輸入x 連接到F(x)+x 的弧線。這消除了神經(jīng)網(wǎng)絡(luò)由于深度過大而造成訓(xùn)練困難的問題。這使得ResNet 在圖像識(shí)別、檢測、定位等任務(wù)中取得了很好的效果。
全卷積神經(jīng)網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)的全連接層轉(zhuǎn)化成了卷積層。與早期的卷積神經(jīng)網(wǎng)絡(luò)不同,F(xiàn)CN 可以輸入任意尺寸的圖像,利用反卷積層進(jìn)行上采樣操作,以此對最深的卷積層產(chǎn)生的特征圖進(jìn)行處理,從而得到與原始圖像相同尺寸的特征圖,這樣就會(huì)對每一個(gè)像素都產(chǎn)生一個(gè)預(yù)測。由于FCN 模型去掉了全連接層,故該模型能夠保留原始圖像中的空間信息進(jìn)而解決語義分割問題。
Mask R-CNN 模型是在Faster R-CNN 的基礎(chǔ)上融合FCN 的像素識(shí)別方法,將原有ROI pooling 改進(jìn)為更加精確的ROI Align。該算法模型由ResNet101 特征提取網(wǎng)絡(luò)、FPN特征融合網(wǎng)絡(luò)、RPN區(qū)域候選網(wǎng)絡(luò)、Mask R-CNN Head 輸出層4 部分組成[2]。
首先Mask R-CNN 模型將ResNet 殘差網(wǎng)絡(luò)結(jié)構(gòu)與特征金字塔結(jié)合的方式,對原有的特征圖提取的卷積層和池化層結(jié)構(gòu)做出了優(yōu)化,生成多尺度特征映射圖的同時(shí)兼顧小目標(biāo)和細(xì)節(jié)特征。然后通過ROI Align在特征圖的各個(gè)像素點(diǎn)上產(chǎn)生一系列的預(yù)選框,最后通過全卷積神經(jīng)網(wǎng)絡(luò)完成對標(biāo)注圖像的提取,完成精確的圖像識(shí)別。
卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過了較長時(shí)間的發(fā)展,已經(jīng)在很多領(lǐng)域都取得了較好的實(shí)驗(yàn)結(jié)果,并在一些領(lǐng)域已經(jīng)有了商業(yè)化應(yīng)用。基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別技術(shù)具有提取特征能力強(qiáng)、識(shí)別精度高以及實(shí)施性強(qiáng)等優(yōu)點(diǎn),在人臉識(shí)別、醫(yī)療圖像處理、遙感圖像識(shí)別、農(nóng)業(yè)病蟲害識(shí)別、公安刑偵等方面運(yùn)用廣泛。
隨著模式識(shí)別技術(shù)的發(fā)展,人臉識(shí)別技術(shù)逐漸運(yùn)用到視頻監(jiān)控系統(tǒng)、智能支付、刑偵系統(tǒng)等應(yīng)用中。但是由于人臉識(shí)別因光照、遮擋物等引起的不確定性,使得人臉識(shí)別技術(shù)依舊面臨著許多挑戰(zhàn)。在某些特殊的應(yīng)用中,如皮膚檢測,需要采用特殊的光照技術(shù)進(jìn)行人臉拍攝并識(shí)別。孫金龍[3]等人利用RetinaFace 算法進(jìn)行網(wǎng)絡(luò)增強(qiáng)訓(xùn)練,進(jìn)一步優(yōu)化不同照明條件的人臉識(shí)別技術(shù)的魯棒性。在現(xiàn)實(shí)情況中,人臉容易出現(xiàn)不同程度的遮擋,從而造成人臉識(shí)別困難。陳燦林[4]提出基于Wasserstein 距離的局部遮擋人臉修復(fù)算法來修復(fù)人臉被遮擋的部分,上述研究的測試結(jié)果均表明系統(tǒng)對遮擋人臉識(shí)別具有很好的識(shí)別效果。
隨著科技的發(fā)展,雖然人臉識(shí)別技術(shù)在許多領(lǐng)域均有突破,但是此技術(shù)依舊存在潛在的缺陷,比如侵犯權(quán)力、潛在的數(shù)據(jù)盜竊、3D 掩碼攻擊等問題。
深度學(xué)習(xí)在醫(yī)療圖像輔助診斷領(lǐng)域取得了重大的成功。在臨床方面,醫(yī)生可以通過醫(yī)學(xué)成像來診斷患者病情。但是目前對于影像判斷病情仍需要人工閱片,在這過程中醫(yī)生在診斷病情時(shí)的主觀性不可忽視。而卷積神經(jīng)網(wǎng)絡(luò)憑借其能夠解決圖像級識(shí)別問題中的高分辨率小目標(biāo)識(shí)別問題、區(qū)域級目標(biāo)識(shí)別問題中的不完整目標(biāo)標(biāo)注問題、像素級目標(biāo)識(shí)別的識(shí)別精度問題等,成為圖像分割、圖像分類等領(lǐng)域的重要研究熱點(diǎn)之一。在醫(yī)學(xué)領(lǐng)域中,醫(yī)學(xué)圖像分割能夠?qū)ζ鞴傩螒B(tài)、病區(qū)面積、細(xì)胞輪廓等進(jìn)行分割,在輔助治療中,醫(yī)學(xué)圖像分割可以使醫(yī)生做出更準(zhǔn)確、更權(quán)威的治療方案。張光華[5]等人通過LiTS 肝影像數(shù)據(jù)集和自有數(shù)據(jù)集,提出的肝分割和肝病灶分割算法提高了肝病灶分割的精確性。黃凱達(dá)[6]等人提出了一種基于空間和密度轉(zhuǎn)換模型來對肺部CT 影像進(jìn)行數(shù)據(jù)增強(qiáng)的算法,為肺部分割提供了很好的技術(shù)支持。
隨著高分辨率的遙感圖像需求不斷增長,衛(wèi)星感受器等器件受有效載荷、成本和寬帶技術(shù)的限制,已經(jīng)無法滿足遙感圖像分類、圖像分辨率高、包含豐富的空間細(xì)節(jié)信息等技術(shù)要求。朱萌[7]等人研究了一種基于多形態(tài)稀疏分解的遙感圖像融合方法,能夠向卷積神經(jīng)網(wǎng)絡(luò)輸入稀疏分解的不同形態(tài)成分,然后經(jīng)過關(guān)鍵特征提取能夠得到高分辨率并含有豐富信息的圖像。王樂萱[8]等人提出了基于注意力機(jī)制的多尺度殘差卷積神經(jīng),解決了沙漠地區(qū)遙感圖像地物目標(biāo)尺度大、難以準(zhǔn)確地自動(dòng)化分類的問題。
卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展使得遙感影像技術(shù)得到發(fā)展,但是對于某些應(yīng)用,比如卷積神經(jīng)網(wǎng)絡(luò)在云陰影檢測、復(fù)雜地形勘測等領(lǐng)域還處在初級階段,待改善的地方較多。
近年來,由于病蟲害種類繁多、植物輪廓和紋理脈絡(luò)的變化,使得農(nóng)作物特征提取困難。為了解決此問題,研究人員將目標(biāo)聚焦于卷積神經(jīng)網(wǎng)絡(luò),利用其擅長提取輪廓、紋理等特征來進(jìn)行病蟲害的檢測與識(shí)別。
在農(nóng)作物病害的特征提取過程中,由于數(shù)據(jù)集分布不均勻、光照等背景因素原因,造成識(shí)別準(zhǔn)確度低。方桃[9]等人在ResNet50 模型用Focal loss 函數(shù)替換了標(biāo)準(zhǔn)交叉嫡函數(shù),并采用Adam 優(yōu)化方法提高精度,在數(shù)據(jù)集Plant Village 上進(jìn)行實(shí)驗(yàn)驗(yàn)證,證明經(jīng)過改進(jìn)的算法具有一定的優(yōu)越性。李進(jìn)[10]等人提出了基于多尺度殘差網(wǎng)絡(luò)MSA-ResNet 的農(nóng)作物病害識(shí)別,將AI Challenger 2018 數(shù)據(jù)集分布不均勻的問題進(jìn)行數(shù)據(jù)預(yù)處理,刪除樣本數(shù)量極少的類別后對數(shù)據(jù)集標(biāo)簽進(jìn)行重采樣操作,使數(shù)據(jù)集各類分布較為均勻。在殘差塊中采用多尺度卷積核替換單一尺度的卷積核來解決農(nóng)作物病害病斑癥狀的大小、顏色和形狀在不同程度和不同時(shí)期不同的問題,通過實(shí)驗(yàn)得農(nóng)作物病害識(shí)別準(zhǔn)確率達(dá)到89.64%,具有較優(yōu)的性能表現(xiàn)。
隨著卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,其對農(nóng)作物病害識(shí)別具有準(zhǔn)確性、快速性等特點(diǎn),能夠?qū)崟r(shí)有效地檢測出病蟲害的類別和嚴(yán)重程度,但是由于實(shí)際農(nóng)田的不可靠因素過多,如大氣質(zhì)量、光照因素、種植疏密等問題,其圖像采集依舊是一個(gè)重要問題。
卷積神經(jīng)網(wǎng)絡(luò)能通過對數(shù)據(jù)不斷地學(xué)習(xí)然后提取特征,優(yōu)化自身性能,所以具有很強(qiáng)的泛化性,其克服了傳統(tǒng)模型不能預(yù)測復(fù)雜的非線性模型的缺點(diǎn)。但是利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別仍然存在許多亟待解決的問題,這些問題是圖像識(shí)別基礎(chǔ)進(jìn)一步發(fā)展的阻礙。
1.卷積神經(jīng)網(wǎng)絡(luò)模型的核心任務(wù)之一是圖像語義分割,雖然已經(jīng)對CNN 網(wǎng)絡(luò)進(jìn)行多種多樣的改進(jìn),使模型既能保證模型簡化還能保持良好的分割性、魯棒性,但還是沒有一個(gè)基本模型來同時(shí)解決模型簡化以及良好分割問題。
2.在生活中圖數(shù)據(jù)具有多樣性,也會(huì)出現(xiàn)環(huán)境中存在與識(shí)別物體形狀相似的物體,這使得圖卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)需要更加復(fù)雜,在卷積神經(jīng)網(wǎng)絡(luò)的算法優(yōu)化等方面帶來了諸多挑戰(zhàn)。
3.目前的一些模型是根據(jù)某一數(shù)據(jù)集進(jìn)行設(shè)計(jì)的,無論是網(wǎng)絡(luò)層次結(jié)構(gòu)還是具體的實(shí)驗(yàn)研究都是基于固定模型進(jìn)行設(shè)定的,如果能夠?qū)崿F(xiàn)模型對于不同數(shù)據(jù)集進(jìn)行自適應(yīng)設(shè)計(jì)網(wǎng)絡(luò)深度與識(shí)別訓(xùn)練,可以提高模型的通用性與智能化。
綜上所述,雖然卷積神經(jīng)網(wǎng)絡(luò)依舊存在許多需要突破的問題,如對卷積神經(jīng)網(wǎng)絡(luò)的初始狀態(tài)參數(shù),尋優(yōu)算法的選取等問題,但是目前在圖像識(shí)別領(lǐng)域也出現(xiàn)了新的研究方法和思路來推進(jìn)圖像的高分辨率、高可靠性、實(shí)時(shí)性等特點(diǎn),比如使用Transformer 模型結(jié)構(gòu)代替卷積塊等,所以在圖像分類、檢測、識(shí)別等領(lǐng)域應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)依舊是未來的重要研究方向。