細(xì)粒度圖像分類的深度學(xué)習(xí)方法

2021-10-12 08:49:42李祥霞吉曉慧

計(jì)算機(jī)與生活 2021年10期

李祥霞，吉曉慧，李彬

1.廣東財(cái)經(jīng)大學(xué) 信息學(xué)院，廣州 510320

2.華南理工大學(xué) 自動化科學(xué)與工程學(xué)院，廣州 510641

傳統(tǒng)的圖像分類分為語義級圖像和實(shí)例級圖像這兩大類[1]。語義級包括對象識別、場景識別等任務(wù)，旨在識別不同類別的圖像，如汽車和飛機(jī)等，隨著神經(jīng)網(wǎng)絡(luò)的數(shù)輪更新，研究者們發(fā)展出了分類準(zhǔn)確率更高的、結(jié)構(gòu)更復(fù)雜的網(wǎng)絡(luò)用在ImageNet 為代表的語義級圖像分類中。而實(shí)例級是對不同的個(gè)體進(jìn)行分類，其中最重要的研究內(nèi)容當(dāng)屬人臉識別和指紋識別。其中，人臉識別已經(jīng)被大量應(yīng)用到人們的生活中，但仍存在表情變化引起的類內(nèi)差距增大、遮擋引起的局部特征缺失等問題。而細(xì)粒度圖像處于這兩者的中間狀態(tài)，兼具了語義級圖像分類特征難以提取和定位以及實(shí)例級圖像分類中類間差異小而類內(nèi)差異大的問題，但同時(shí)該領(lǐng)域的研究往往會大量借鑒前兩個(gè)領(lǐng)域的研究成果。

細(xì)粒度圖像分類旨在區(qū)分同一類別的子類別，如識別出車的品牌、鳥的種類、貓的品種等，也可叫作子類別分類。相較于對象識別等語義級圖像分類任務(wù)，細(xì)粒度圖像往往需要借助非常微小的局部差異才能區(qū)分出不同的類別。和人臉識別等實(shí)例級分類任務(wù)相比，細(xì)粒度圖像的類內(nèi)差異更加巨大，并且受到姿勢、背景干擾、遮擋以及拍攝角度等因素的影響[2]，加上細(xì)粒度數(shù)據(jù)集類內(nèi)差異大而類間差異小的特點(diǎn)，使得細(xì)粒度圖像分類一直是計(jì)算機(jī)視覺領(lǐng)域中一項(xiàng)極具挑戰(zhàn)力的任務(wù)。鑒于類內(nèi)差異大而類間差異小導(dǎo)致的分類準(zhǔn)確率的下降的問題和更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)帶來的計(jì)算復(fù)雜度的提升，提升細(xì)粒度圖像分類的分類準(zhǔn)確率和減少計(jì)算成本成了當(dāng)前圖像分類領(lǐng)域的兩個(gè)重要的研究方向。

傳統(tǒng)的基于特征提取的細(xì)粒度圖像分類算法主要是利用人工構(gòu)建的算子進(jìn)行圖像特征提取，但是其提取特征能力較弱，并且提取到的特征表達(dá)能力比較有限，因此該算法具有一定的局限性。隨著計(jì)算機(jī)硬件的發(fā)展以及互聯(lián)網(wǎng)的發(fā)展帶來的信息爆炸，研究者們發(fā)現(xiàn)Hinton 在1986 年提出的基于反向傳播的神經(jīng)網(wǎng)絡(luò)方法在海量數(shù)據(jù)以及巨大計(jì)算能力的支持下，能夠?qū)崿F(xiàn)自動提取特征并根據(jù)這些特征實(shí)現(xiàn)圖片的準(zhǔn)確分類。從此，圖像分類任務(wù)進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)的時(shí)代，深度學(xué)習(xí)也被越來越多地提及。近年來，隨著深度學(xué)習(xí)的興起，基于深度學(xué)習(xí)的圖像分類逐步成為研究熱點(diǎn)，細(xì)粒度圖像分類也得到了長足的發(fā)展。深度學(xué)習(xí)在特征提取方面展現(xiàn)出其獨(dú)特的優(yōu)勢和潛力，在使用的過程中，需要順應(yīng)細(xì)粒度圖像數(shù)據(jù)庫本身的特點(diǎn)，同時(shí)參考研究者們在相似的數(shù)據(jù)庫中用到的方法以構(gòu)建合適的分類框架，才能獲得更好的分類性能，而不是一味擴(kuò)充數(shù)據(jù)庫以及構(gòu)建更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。

本文首先概述了細(xì)粒度圖像分類，并介紹了幾種常用的細(xì)粒度圖像數(shù)據(jù)庫。然后，從基于強(qiáng)監(jiān)督和弱監(jiān)督學(xué)習(xí)這兩方面，分別介紹了幾種典型的細(xì)粒度圖像分類算法以及研究現(xiàn)狀。最后，討論了基于深度學(xué)習(xí)的細(xì)粒度圖像分類算法的未來研究方向和面臨的挑戰(zhàn)。

1 細(xì)粒度圖像分類

1.1 細(xì)粒度圖像分類

細(xì)粒度圖像分類實(shí)質(zhì)是定位到目標(biāo)及局部區(qū)域，對局部區(qū)域進(jìn)行特征提取，對提取到的特征進(jìn)行處理，來完成分類器的訓(xùn)練和檢測。這種分類任務(wù)最大的難點(diǎn)在于細(xì)粒度圖像的信噪比很小，類別差異通常只存在于很細(xì)小的局部區(qū)域中，而找到這些細(xì)小的局部區(qū)域，對其進(jìn)行準(zhǔn)確的區(qū)分是算法成功的關(guān)鍵。

細(xì)粒度圖像分類在許多領(lǐng)域都有著非常普遍的研究需求和應(yīng)用場景。例如，胸部病灶的病理形態(tài)、位置、大小等具有多樣性和較大的差異性，并且一些疾病樣本的比例也不平衡，因而不同類型的胸部疾病分類也屬于細(xì)粒度圖像分類問題。目前，此類工作主要依賴于放射科醫(yī)生的人工觀察，易受到胸部病理特征臨床表現(xiàn)多樣性、放射科醫(yī)師閱片疲勞和缺乏臨床經(jīng)驗(yàn)等因素影響，會造成誤診、漏診的現(xiàn)象。

在細(xì)粒度圖像分類任務(wù)中，許多算法過分依賴于人工標(biāo)注信息。常用的標(biāo)注信息主要是指標(biāo)注框（bounding box）以及局部區(qū)域位置信息（part locations）等，在檢測前景對象時(shí)使用標(biāo)注框，可以消除背景噪聲的干擾；局部區(qū)域位置信息可以用來實(shí)現(xiàn)局部區(qū)域的定位，或是姿態(tài)對齊等操作，以完成局部特征的提取。這些人工標(biāo)注信息由于獲取不易，算法的實(shí)用性較弱?，F(xiàn)在越來越多的算法傾向于使用類別標(biāo)簽等來完成分類任務(wù)。

近幾年來，細(xì)粒度圖像分類取得了飛速的發(fā)展，從傳統(tǒng)的人工提取特征及分類器設(shè)計(jì)，逐漸朝著基于端到端的神經(jīng)網(wǎng)絡(luò)的方向發(fā)展。傳統(tǒng)的細(xì)粒度圖像分類算法主要包括三個(gè)步驟：特征定位、特征提取和分類器。這類算法通常先是在訓(xùn)練集中找到特征點(diǎn)的位置信息，再用這些特征點(diǎn)的位置信息去提取測試圖片的局部區(qū)域，然后用人工提取的特征對局部區(qū)域進(jìn)行特征提取，最后將提取到的特征放到分類器中。端到端細(xì)粒度圖像分類算法也可以分為三個(gè)步驟：特征區(qū)域定位、局部特征切割和分類神經(jīng)網(wǎng)絡(luò)。圖1 是端到端的細(xì)粒度圖像分類算法的典型流程圖。該算法采用共享的卷積層神經(jīng)網(wǎng)絡(luò)的底層提取圖片中的信息，將提取到的特征送入?yún)^(qū)域檢測子網(wǎng)絡(luò)和分類子網(wǎng)絡(luò)，然后在檢測子網(wǎng)絡(luò)中利用選擇性搜索、K-近鄰等算法進(jìn)行候選區(qū)域的篩選，然后在這些區(qū)域中利用Fast R-CNN（fast region-convolutional neural network）等算法挑選出置信度最高的局部區(qū)域，將這些局部區(qū)域的位置信息送入到分類子網(wǎng)絡(luò)中，然后利用特征圖切割的方式將對應(yīng)位置的特征提取出來送入到全連接層從而得到最終的分類結(jié)果。

Fig.1 Typical flowchart of end-to-end fine-grained image classification algorithm圖1 端到端的細(xì)粒度圖像分類算法的典型流程圖

與傳統(tǒng)細(xì)粒度圖像分類算法相比，端到端的分類算法特殊在于特征提取的部分，神經(jīng)網(wǎng)絡(luò)對圖片的特征信息的提取能力遠(yuǎn)遠(yuǎn)超過人工構(gòu)建的特征，神經(jīng)網(wǎng)絡(luò)在分類任務(wù)中是一個(gè)前后相同的整體，低層的特征受到分類結(jié)果反向傳播的影響，因此趨向于尋找最有判別能力的特征。神經(jīng)網(wǎng)絡(luò)的特征提取都是經(jīng)過了大量的計(jì)算被證實(shí)對分類結(jié)果有顯著影響的特征，因此自然比人工構(gòu)建的特征提取算法提取到的特征更有判別能力?，F(xiàn)在最常用的是卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）對圖像進(jìn)行特征提取。卷積神經(jīng)網(wǎng)絡(luò)無需復(fù)雜的特征提取和數(shù)據(jù)重建過程，且提取到的特征更具有特征表達(dá)和判別能力，已經(jīng)廣泛應(yīng)用于圖像分類[3-4]、行為識別[5-6]、圖像描述[7-8]、圖像檢索[9-10]等領(lǐng)域。

1.2 細(xì)粒度圖像數(shù)據(jù)庫

細(xì)粒度圖像數(shù)據(jù)集通常需要專業(yè)領(lǐng)域的專家知識才能完成數(shù)據(jù)的采集和標(biāo)注，因此數(shù)據(jù)集的獲取難度更大。本節(jié)介紹了幾種常用的細(xì)粒度圖像數(shù)據(jù)庫，并在表1 展示了這些數(shù)據(jù)庫的具體類別和大小。

Table 1 Fine-grained image datasets表1 常用細(xì)粒度圖像數(shù)據(jù)庫

CUB-200-2011[11]數(shù)據(jù)庫：此數(shù)據(jù)庫是2011 年加利福尼亞理工學(xué)院推出的鳥類細(xì)粒度圖像分類數(shù)據(jù)庫。CUB-200-2011 是細(xì)粒度圖像分類任務(wù)中最常用的數(shù)據(jù)庫。

Car-196[12]數(shù)據(jù)庫：Car-196 是2013 年Stanford University 在ICCV 會議上推出的汽車類細(xì)粒度圖像分類數(shù)據(jù)庫，車的品牌、型號以及年份都會影響對車輛類別的劃分。提供了196 類車輛圖像數(shù)據(jù)，只提供了標(biāo)注框信息。

FGVC-Aircraft[13]數(shù)據(jù)庫：FGVC-Aircraft 是2013年ICCV 上作為在ImageNet 細(xì)粒度分類挑戰(zhàn)大賽的一部分推出的。提供了102 類不同的飛機(jī)照片，整個(gè)數(shù)據(jù)庫包含10 200 張圖片，只提供了標(biāo)注框信息。此數(shù)據(jù)庫的分類難度較大，由于外觀相似，飛機(jī)類別的劃分依賴于噴漆或是細(xì)微的外形差異。

2 基于深度學(xué)習(xí)的細(xì)粒度分類

目前，基于深度學(xué)習(xí)的細(xì)粒度圖像分類算法主要采用卷積神經(jīng)網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)是由LeCun于1998 年提出的，設(shè)計(jì)靈感來源于對動物神經(jīng)元的研究，其本質(zhì)是多層感知機(jī)的變種，它采用局部連接和共享權(quán)值的方式，不但減少了權(quán)值的數(shù)量使得網(wǎng)絡(luò)易于優(yōu)化，同時(shí)降低了過擬合的風(fēng)險(xiǎn)。

目前，常見的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要有AlexNet、VGGNet、GoogleNet 和ResNet。2012 年，Alex 等人提出了AlexNet 模型[14]，使得卷積神經(jīng)網(wǎng)絡(luò)以及深度學(xué)習(xí)逐漸在圖像、語音等領(lǐng)域大放異彩。AlexNet 網(wǎng)絡(luò)使用層疊的卷積層，解決了網(wǎng)絡(luò)深度問題，使得網(wǎng)絡(luò)學(xué)習(xí)到更有判別能力的圖像特征。牛津大學(xué)視覺幾何組和谷歌DeepMind 公司的研究院共同提出了VGGNet 模型[15]，其中最為廣泛應(yīng)用的是VGG-16 和VGG-19 網(wǎng)絡(luò)。2014 年，Szegedy 等人提出GoogleNet模型[16-18]，利用多種卷積運(yùn)算進(jìn)行組合的方法，形成一個(gè)個(gè)功能單元，以便在相同的計(jì)算量下獲得更多的特征。ResNet 模型[19]是由微軟人工智能團(tuán)隊(duì)提出的新型深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，其通過層與層的跳躍連接，訓(xùn)練出更深的網(wǎng)絡(luò)，緩解了梯度消失問題。

基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類方法主要分為兩種：基于強(qiáng)監(jiān)督學(xué)習(xí)和基于弱監(jiān)督學(xué)習(xí)分類算法。

2.1 基于強(qiáng)監(jiān)督的細(xì)粒度圖像分類

基于強(qiáng)監(jiān)督學(xué)習(xí)指的是利用數(shù)據(jù)集中給出的所有標(biāo)注（邊框以及全部特征點(diǎn)信息）來對測試集中圖片的特征點(diǎn)進(jìn)行定位，再對定位到的特征區(qū)域進(jìn)行進(jìn)一步的處理，進(jìn)而得到最終的分類結(jié)果，能夠提高分類的準(zhǔn)確率和有效性。

Zhang等人[20]在2014年提出了基于局部的R-CNN（Part-based R-CNNs）細(xì)粒度圖像分類算法，通過自底向上的候選區(qū)域生成方法和區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法相配合進(jìn)行物體檢測，然后將這些目標(biāo)區(qū)域進(jìn)行姿態(tài)歸一化并提取特征，最后將提取到的特征送入支持向量機(jī)（support vector machine，SVM）分類器進(jìn)行分類。該分類框架的分類準(zhǔn)確率超越了先前所提出的基于中層表征的、基于姿態(tài)標(biāo)準(zhǔn)化描述符的細(xì)粒度圖形分類方法等。該算法也奠定了其后幾年的細(xì)粒度圖像分類的基礎(chǔ)，使得其后的基于“強(qiáng)監(jiān)督”的細(xì)粒度圖像分類算法基本都是遵從這樣一個(gè)局部區(qū)域檢測、局部區(qū)域特征點(diǎn)提取以及最后的特征分類這種流程。然而，該算法也存在著一些缺點(diǎn)，自底向上的區(qū)域定位方法，會產(chǎn)生大量的無關(guān)區(qū)域，大幅度限制了算法的速度。由于姿態(tài)問題會對分類造成極大干擾。為了解決這個(gè)問題，Branson 等人[21]提出了姿態(tài)歸一化的CNN（pose normalized CNN）模型，針對提取的不同層次的局部信息，進(jìn)行姿態(tài)對齊操作，提取到不同層的卷積特征。

Part-based R-CNNs 模型自下而上的區(qū)域合并方法學(xué)習(xí)部位檢測器，會產(chǎn)生大量的無關(guān)區(qū)域。在常見的鳥類目標(biāo)分類任務(wù)中，“Part-based R-CNNs”利用姿態(tài)歸一化，通過不同的網(wǎng)絡(luò)檢測鳥的頭、身體等部位并合成一個(gè)特征向量，再使用SVM 進(jìn)行訓(xùn)練，這種檢測辦法損失了各個(gè)部位的相關(guān)性。為了解決這個(gè)問題，Zhang 等人[22]提出了SPDA-CNN（semantic part detection and abstraction-CNN），分別從候選區(qū)域生成、局部區(qū)域的增加、特征提取及改變最終分類網(wǎng)對原網(wǎng)絡(luò)進(jìn)行了改進(jìn)。該算法包含兩個(gè)網(wǎng)絡(luò)：檢測子網(wǎng)絡(luò)和分類子網(wǎng)絡(luò)。檢測子網(wǎng)絡(luò)是用自上而下的候選區(qū)域方法生成小的語義區(qū)域的候選。分類子網(wǎng)絡(luò)是在檢測子網(wǎng)絡(luò)生成的候選區(qū)域中進(jìn)行特征提取，然后進(jìn)行分類。為了檢測到語義對象的細(xì)小候選區(qū)域，該算法利用K-近鄰生成候選區(qū)域的方法，通過添加幾何限制來減小生成候選區(qū)域的數(shù)量，生成包含更有效的局部信息的候選區(qū)域。檢測網(wǎng)絡(luò)將K-近鄰給出的候選區(qū)域用快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法（Fast R-CNN）進(jìn)行區(qū)域回歸。SPDA-CNN 添加到幾何限制在更細(xì)小的語義級的局部區(qū)域中生成了候選區(qū)域，比Part-based R-CNNs 生成候選區(qū)域用到的選擇性搜索[23]生成的區(qū)域數(shù)量降低了一個(gè)數(shù)量級。在CUB-200-2011 數(shù)據(jù)集上取得了85.14%的分類結(jié)果。

Wei 等人[24]提出了Mask-CNN 模型，不同于Partbased R-CNNs 的細(xì)粒度分類算法直接利用卷積特征的做法，Mask-CNN 模型對深度卷積特征進(jìn)行了評估和篩選，它是第一個(gè)端到端的選擇深度卷積描述符（deep descriptor）模型。很多基于局部定位的算法，如Part-based R-CNNs[20]、Part-stacked CNN[25]等，都是直接使用深度卷積描述符，然后將其編碼到單個(gè)的特征表示中，而沒有對這些獲得的深度卷積描述符進(jìn)行評估。Mask-CNN 模型通過使用CNN，可以不用像對人工提取的特征一樣在特征向量中篩選出有效特征，但是需要選出有用的卷積描述符。Mask-CNN 模型丟棄了全連接層，利用了更少的特征維數(shù)，提升了推理速度，使得網(wǎng)絡(luò)計(jì)算效率更高。在進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)，不需要標(biāo)注框信息，僅依靠局部標(biāo)注信息（part annotations）和類別標(biāo)簽（image-level labels）就在CUB-200-2011 數(shù)據(jù)集上獲得了較好的分類性能。

這些基于強(qiáng)監(jiān)督學(xué)習(xí)方法雖然獲得了較好的分類結(jié)果，但是它們往往嚴(yán)重依賴于大量的人工標(biāo)注信息來完成建模和分類預(yù)測，人工標(biāo)注的數(shù)據(jù)很難獲取且所付出的代價(jià)昂貴，這將會影響細(xì)粒度圖像分類在應(yīng)用領(lǐng)域的使用和發(fā)展。

2.2 基于弱監(jiān)督的細(xì)粒度圖像分類

近幾年，基于弱監(jiān)督學(xué)習(xí)已經(jīng)成為基于深度學(xué)習(xí)的細(xì)粒度圖像分類方法的研究趨勢，其舍棄了數(shù)據(jù)庫中提供的人工標(biāo)注信息，轉(zhuǎn)而依靠注意力模型、雙線性卷積神經(jīng)網(wǎng)絡(luò)等方法去定位圖片中的關(guān)鍵區(qū)域，通過多尺度的方法來獲得較為完整的全局和局部區(qū)域的特征，不但減少了人工標(biāo)注的格外數(shù)據(jù)成本，同時(shí)更加符合實(shí)際應(yīng)用需求。

2.2.1 基于注意力模型的細(xì)粒度圖像分類

兩級注意力算法[26]是第一個(gè)嘗試不利用人工標(biāo)注信息，只使用類別標(biāo)簽的細(xì)粒度圖像分類方法。此算法主要關(guān)注對象級和局部級兩個(gè)層次的特征，其實(shí)也就是強(qiáng)監(jiān)督模型中的標(biāo)注框和局部區(qū)域位置信息。其中對象級模型是針對對象級圖像進(jìn)行分類。將經(jīng)過預(yù)處理得到的包含多個(gè)候選區(qū)域的圖片，用來從頭開始訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。經(jīng)過卷積網(wǎng)絡(luò)之后，得到一個(gè)Softmax 層的輸出，對所有區(qū)域的輸出進(jìn)行平均，作為Softmax 層的最終輸出。在獲得局部區(qū)域特征后，將其連在一起得到一個(gè)特征向量，用來訓(xùn)練SVM 分類，最后結(jié)合對象級模型的預(yù)測結(jié)果和局部級模型的結(jié)果，作為兩級注意力模型的最終輸出。該算法在Alex-Net 網(wǎng)絡(luò)結(jié)構(gòu)上準(zhǔn)確率達(dá)到了69.7%，若采用網(wǎng)絡(luò)深度和通道數(shù)量更多的VGG-Net 構(gòu)架，分類的準(zhǔn)確率能提升到77.9%。由于兩級注意力模型局部區(qū)域的檢測是通過聚類算法得到的，分類精度低于同樣使用AlexNet 的強(qiáng)監(jiān)督的Part-based R-CNNs算法。

許多弱監(jiān)督分類方法[27-32]雖然訓(xùn)練時(shí)只需要類別標(biāo)簽，但是這些方法在執(zhí)行過程中，在對象定位任務(wù)中出現(xiàn)錯(cuò)誤，就會嚴(yán)重影響到分類效果。由于這些方法無法利用GPUs 進(jìn)行并行計(jì)算，計(jì)算速度較慢。基于優(yōu)化特征表示的方法也有很多優(yōu)秀的算法，比如通過優(yōu)化主干網(wǎng)絡(luò)[33]、特征提取結(jié)構(gòu)[34]、數(shù)據(jù)增強(qiáng)[35]、遷移學(xué)習(xí)[36]等來獲得更好的特征表示的方法。但這些方法也存在缺點(diǎn)，首先一個(gè)有效的方法是應(yīng)該將不同的中級信息與最后輸出融合起來，在不同情況下都應(yīng)該完全利用到不同的輸出結(jié)果。其次，一般的預(yù)訓(xùn)練遷移學(xué)習(xí)可能表現(xiàn)較差，而在特定領(lǐng)域遷移學(xué)習(xí)表現(xiàn)較好，但需要花費(fèi)大量時(shí)間對每個(gè)細(xì)粒度數(shù)據(jù)集在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。

Zhu 等人[37]提出了一種新型的基于CNN 的級聯(lián)注意力網(wǎng)絡(luò)模型。這個(gè)方法利用了空間混淆注意力來區(qū)分輸入圖像的模糊區(qū)域。這個(gè)模型包括三部分：空間混淆注意力模塊、交叉網(wǎng)絡(luò)注意力和網(wǎng)絡(luò)融合注意力模塊。所有的模塊可以一起工作，進(jìn)行端到端的訓(xùn)練優(yōu)化，其中利用到了全局注意力池化來使用空間混淆注意力，其收到來自CNN1 的注意力二進(jìn)制掩膜，然后把它當(dāng)作過濾器，從而讓CNN2 去注意已篩選過的區(qū)域。不同于之前所提出的注意力機(jī)制方法[27,29,32]，這個(gè)方法的骨干網(wǎng)絡(luò)是完全并行運(yùn)行的，使其獲得了更好的泛化能力和更快的計(jì)算速度。該算法在CUB-200-2011 數(shù)據(jù)集上獲得了90.8%的準(zhǔn)確率。

Fig.2 Architecture of attribute guided attention network圖2 屬性引導(dǎo)的注意力網(wǎng)絡(luò)結(jié)構(gòu)

Yan 等人[38]利用漸進(jìn)特征學(xué)習(xí)的方法來對細(xì)粒度進(jìn)行分類，其網(wǎng)絡(luò)結(jié)構(gòu)主要分為兩個(gè)階段：第一個(gè)階段設(shè)計(jì)了一個(gè)屬性指導(dǎo)的注意力網(wǎng)絡(luò)，用來發(fā)現(xiàn)和對齊有區(qū)分度的局部特征；第二個(gè)階段采用一個(gè)多尺度主動融合網(wǎng)絡(luò)來分類，聚合注意力區(qū)域中有區(qū)別的特征。與傳統(tǒng)融合算法相比，所提出的主動漸進(jìn)融合網(wǎng)絡(luò)對候選噪聲區(qū)域具有較強(qiáng)的魯棒性，并且融合的圖像表示的判別能力并沒有降低。同時(shí)，將這兩個(gè)階段集成到一個(gè)單一的框架中，使整個(gè)系統(tǒng)可以共同訓(xùn)練。很多模型[39-43]使用了局部檢測網(wǎng)絡(luò)算法，提取大量的局部區(qū)域來訓(xùn)練CNN 網(wǎng)絡(luò)，針對復(fù)雜的問題擴(kuò)展性不好，并且需要大量的人工標(biāo)注信息訓(xùn)練局部檢測網(wǎng)絡(luò)，而該模型不存在這種局限。一些使用Fisher Vector 或者最大/平均池化進(jìn)行對齊的算法也存在丟失大量語義和空間關(guān)系信息的缺點(diǎn)。相比于傳統(tǒng)的注意力模型，兩級注意力[26]缺乏強(qiáng)監(jiān)督信息的指導(dǎo)，因此在很多情況下也不能準(zhǔn)確定位到有用的局部區(qū)域。而Yan 等人[38]設(shè)計(jì)的由屬性引導(dǎo)的注意力網(wǎng)絡(luò)采用了循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN），比如LSTM（long short-term memory）[44]，將判別信息從第一個(gè)節(jié)點(diǎn)累積到最深層的節(jié)點(diǎn)，從而產(chǎn)生具有高度判別力的對象級特征表示。如果當(dāng)前局部區(qū)域不能提供足夠的有區(qū)分的信息，就轉(zhuǎn)向?qū)ο蟮南乱粋€(gè)局部區(qū)域。該算法僅僅依靠標(biāo)簽屬性，在CUB-200-2011 數(shù)據(jù)集上獲得了85.1%的分類結(jié)果。圖2 是Yan 等人提出的網(wǎng)絡(luò)結(jié)構(gòu)。

2.2.2 雙線性卷積神經(jīng)網(wǎng)絡(luò)

Lin 等人[45]設(shè)計(jì)了一種雙線性卷積神經(jīng)網(wǎng)絡(luò)模型，在整體上實(shí)現(xiàn)了端到端的訓(xùn)練優(yōu)化。圖3 是雙線性卷積神經(jīng)網(wǎng)絡(luò)模型，其包含了兩個(gè)特征提取器，輸出后經(jīng)過外積相乘，進(jìn)行池化后得到圖像描述算符。

Fig.3 Bilinear CNN model圖3 雙線性卷積神經(jīng)網(wǎng)絡(luò)模型

從圖3 中可以看出，模型的前半部分是普通的卷積層和池化層，只需求得后半部分的梯度值，即可完成整個(gè)模型端到端訓(xùn)練。雙線性CNN 模型中CNN網(wǎng)絡(luò)A 的作用是對物體進(jìn)行定位，也就是檢測前景對象和局部區(qū)域，而CNN 網(wǎng)絡(luò)B 是對CNN 網(wǎng)絡(luò)A 定位到的物體位置進(jìn)行特征提取。兩個(gè)網(wǎng)絡(luò)之間相互協(xié)調(diào)作用，在整體上完成了模型端到端的訓(xùn)練過程。該算法在CUB-200-2011 數(shù)據(jù)集上獲得了84.1%的分類精度。雙線性CNN 模型是第一個(gè)可以端到端訓(xùn)練的協(xié)方差池化網(wǎng)絡(luò)模型，它對協(xié)方差矩陣進(jìn)行L2 歸一化處理之后采用了元素平方根歸一化，沒有直接使用卷積特征，而是利用卷積特征和自己的外積作為其圖像表示，有力地推動了細(xì)粒度分類的進(jìn)步。而它的缺點(diǎn)是最后的圖像表示的維數(shù)過高，降低了雙線性CNN 模型的實(shí)用性。針對這個(gè)問題，Gao 等人[46]提出了一種壓縮雙線性池化（compact bilinear pooling）模型，降低了特征向量的維數(shù)，并同時(shí)確保了分類的準(zhǔn)確率。

由于雙線性CNN 未能捕捉特征圖通道之間的非線性關(guān)系，使得卷積網(wǎng)絡(luò)的表達(dá)能力得不到充分利用。為了解決這個(gè)問題，葛疏雨等人[47]提出了一種核化雙線性卷積網(wǎng)絡(luò)模型，利用核函數(shù)建模通道間的非線性關(guān)系，卷積網(wǎng)絡(luò)的表達(dá)能力大幅度提高，在數(shù)據(jù)集CUB-200-2011、Car-196、FGVC-Aircraft 上都獲得了優(yōu)異的分類性能。

2.2.3 基于空間關(guān)系的模型

現(xiàn)在主流的細(xì)粒度圖像分類主要分成基于局部定位和特征表示這兩種類型?；诰植慷ㄎ坏姆椒▋H僅試圖定位圖像有用的局部區(qū)域，然后對這些區(qū)域提取特征，其難點(diǎn)就在于這些局部區(qū)域的標(biāo)注信息難以獲得。Krause 等人[48]提出的方法沒有直接使用這些局部定位，而是利用了局部區(qū)域中高度有序的空間信息，獲得了更多區(qū)分度的線索。而基于特征表示的方法需要產(chǎn)生有效的圖像表示，依賴深度卷積神經(jīng)網(wǎng)絡(luò)模型才能夠獲得良好的性能。在這些方法中，都沒有用到局部區(qū)域的空間關(guān)系。

Qi 等人[49]利用空間關(guān)系來對細(xì)粒度圖像進(jìn)行分類，主要分為兩部分：局部區(qū)域選擇和特征表示。前者利用局部區(qū)域之間的固有空間關(guān)系來選擇具有高判別力的局部區(qū)域?qū)Γ笳咛剿骶植繀^(qū)域之間的相互作用來描述選擇后的局部區(qū)域，并為細(xì)粒度圖像分類構(gòu)建一個(gè)語義圖像級別的特征表示。

空間關(guān)系可以提供一個(gè)有用的語義特征來豐富特征表示的信息，同時(shí)幫助區(qū)分對象和背景。在以前的研究中，通?？臻g關(guān)系是由人工來定義的，比如Bloch[50]拓?fù)潢P(guān)系和幾何關(guān)系的考慮。而Qi 等人[49]的研究是使用的局部區(qū)域之間的距離，利用空間關(guān)系就能捕獲局部區(qū)域更多有區(qū)分度的特征，并且不需要任何局部定位的人工標(biāo)注信息。圖4 顯示了不同特征維數(shù)對分類準(zhǔn)確率的影響。從圖4 中可以看出，在維數(shù)達(dá)到6 000 之前，隨著特征表示維數(shù)的增加，分類準(zhǔn)確率顯著提高，在超過6 000 之后趨于穩(wěn)定。相比于前面提到的雙線性CNN 和Compact 雙線性CNN 模型，該方法所用到的圖像特征維數(shù)顯著減少，在保證分類精度的基礎(chǔ)上，提高了運(yùn)算速度。該算法在數(shù)據(jù)集CUB-200-2011 上獲得了85.5%的準(zhǔn)確率。

Fig.4 Influence of different dimensions on classification accuracy圖4 不同的特征維數(shù)對分類準(zhǔn)確率的影響

2.2.4 其他模型

大多數(shù)的細(xì)粒度圖像算法都是針對輪廓清晰、有相對固定的外觀特征和明顯的部件構(gòu)成的對象。針對一些特定領(lǐng)域的沒有可分離的部件的子類別圖像的研究，目前還比較少。Won 等人[51]提出了一個(gè)以對象級CNN 為基礎(chǔ)模型和多個(gè)局部級CNN 模型結(jié)合的多尺度CNN 算法，針對的識別對象是沒有可分離局部特征的圖像。該算法在多個(gè)食物數(shù)據(jù)集的圖像上進(jìn)行細(xì)粒度分類，利用不同的層次的食物細(xì)節(jié)來訓(xùn)練多個(gè)CNN。首先對象級CNN 通過使用對象級縮放因子對訓(xùn)練圖像進(jìn)行調(diào)整，將對象的外觀作為一個(gè)整體進(jìn)行學(xué)習(xí)。然后使用經(jīng)過訓(xùn)練的對象級CNN，根據(jù)調(diào)整后的圖像在不同的局部級尺度對局部級CNN 進(jìn)行微調(diào)。其中局部級CNN 的圖像調(diào)整需要更多的修剪，利用線性尺度隨機(jī)裁剪法，根據(jù)尺度可控參數(shù)的公式，設(shè)置合適的參數(shù)，采用不同的尺度為局部級CNN 調(diào)整圖像的大小。該研究表明，通過尺度可控圖像調(diào)整方法訓(xùn)練的多尺度CNN 可以顯著提高食物數(shù)據(jù)集的識別性能，證明在不同尺度上調(diào)整圖像大小有助于多尺度CNN 學(xué)習(xí)不同層次的目標(biāo)細(xì)節(jié)，而無需明確地將目標(biāo)分割成部分。

近些年生成對抗網(wǎng)絡(luò)（generative adversarial networks，GAN）在圖像的多個(gè)領(lǐng)域取得了優(yōu)異的成果。其中，Xie 等人[52]將CNN 和GAN 結(jié)合在一起，利用GAN 來增強(qiáng)數(shù)據(jù)集。算法使用預(yù)先訓(xùn)練好的YOLO v2[53]對象檢測模型對原始數(shù)據(jù)集上的粗粒度對象進(jìn)行檢測和裁剪。其次，將裁剪后的圖像發(fā)送給GAN的生成器以生成更多的數(shù)據(jù)，并為生成的圖像分配統(tǒng)一的標(biāo)簽，混合這些原始的真實(shí)圖像和生成的圖像后，將這些混合圖像輸入到一個(gè)CNN 分類器和一個(gè)特征融合的CNN 分類器中。如此，CNN 分類器可以同時(shí)訓(xùn)練帶有真實(shí)標(biāo)簽和生成標(biāo)簽的圖像，實(shí)現(xiàn)了細(xì)粒度識別的良好正則化并且獲得了更有競爭力的分類性能。佘海龍等人[54]提出了三維CNN 模型應(yīng)用于高光譜遙感圖像分類，使用大步距卷積層替代池化層，引入L2 正則化、批量歸一化、Dropout等一系列的策略，在減少網(wǎng)絡(luò)參數(shù)的同時(shí)有效防止過擬合現(xiàn)象。引入圖像分類中，并獲得了一定成果，大幅度降低了網(wǎng)絡(luò)模型的參數(shù)、計(jì)算量并提高了分類的精度。此深度網(wǎng)絡(luò)方法可以思考引入到其他細(xì)粒度識別任務(wù)中，可以更好地提高分類的準(zhǔn)確性和有效性。徐可文等人[55]綜述了近年來機(jī)器學(xué)習(xí)算法在超聲圖像領(lǐng)域的研究和應(yīng)用進(jìn)展，指出了深度學(xué)習(xí)在醫(yī)學(xué)影像領(lǐng)域開展研究所面臨的困難與挑戰(zhàn)。

2.3 基于數(shù)據(jù)增強(qiáng)的細(xì)粒度圖像分類

數(shù)據(jù)增強(qiáng)是擴(kuò)充數(shù)據(jù)的有效方法之一，可以有效地提高細(xì)粒度圖像分類模型準(zhǔn)確率。Hu 等人[56]基于雙線性CNN 提出了雙線性注意力池化方法，對原圖進(jìn)行注意力式剪切、注意力式丟棄，以此得到隨著模型迭代更新變動的增強(qiáng)數(shù)據(jù)，這些新數(shù)據(jù)和原圖一起提高模型準(zhǔn)確率。該算法采用的是單一語義的數(shù)據(jù)增強(qiáng)方式，處理更復(fù)雜的細(xì)粒度識別任務(wù)存在缺少有效分類信息的問題。對此，譚潤等人[57]結(jié)合雙線性注意力池化的優(yōu)勢構(gòu)建模塊提取雙語義數(shù)據(jù)，和原圖一起以雙語義數(shù)據(jù)增強(qiáng)的方式提高模型分類準(zhǔn)確率，在CUB-200-2011 數(shù)據(jù)集上獲得了89.5%的分類準(zhǔn)確率。雖然該算法提升了分類精度，但提升了模型復(fù)雜度，可能限制了模型在移動端的應(yīng)用。丁文謙等人[58]在雙線性注意力池化模型的基礎(chǔ)上，提出了一種基于Xception 網(wǎng)絡(luò)的弱監(jiān)督數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)，用Xception 網(wǎng)絡(luò)替代原模型采用的Inception v3 作為骨干網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò)，利用深度可分離卷積替代普通CNN 生成注意力圖來引導(dǎo)數(shù)據(jù)增強(qiáng)，然后將增強(qiáng)后的圖像返回網(wǎng)絡(luò)作為輸入圖像來增強(qiáng)網(wǎng)絡(luò)的泛化能力，在CUB-200-2011 數(shù)據(jù)集上獲得了89.28%的分類精度。Li等人[59]提出了屬性混合（atrribute mix），一種屬性級的數(shù)據(jù)增強(qiáng)方法來擴(kuò)充細(xì)粒度樣本，其原理是在細(xì)粒度子類別之間共享屬性特征，并且可以在圖像之間無縫傳輸。屬性混合是一種簡單但有效的增強(qiáng)策略，可以在不增加推理預(yù)算的基礎(chǔ)上顯著提高識別性能，若與最先進(jìn)的細(xì)粒度識別方法相結(jié)合，可以進(jìn)一步提高性能。Xie 等人[52]提出了使用GAN 來擴(kuò)充數(shù)據(jù)集，也是常用的一種數(shù)據(jù)增強(qiáng)策略，將GAN 生成的圖像與原始的訓(xùn)練數(shù)據(jù)結(jié)合，更好地執(zhí)行細(xì)粒度圖像分類任務(wù)，獲得更好的分類性能。

2.4 在復(fù)雜場景下的細(xì)粒度圖像分類

在復(fù)雜場景下的細(xì)粒度圖像分類是計(jì)算機(jī)視覺領(lǐng)域重要的研究方向，并已經(jīng)取得了一定的研究成果。行人重識別任務(wù)是常見的復(fù)雜場景下的細(xì)粒度分類的應(yīng)用。大多數(shù)先進(jìn)的行人重識別方法，通常由三重?fù)p失驅(qū)動組成，不能有效地學(xué)習(xí)細(xì)粒度特征，因?yàn)檫@些方法更關(guān)注區(qū)分巨大的外觀差異。為了解決這個(gè)問題，Yan 等人[60]引入了一個(gè)新的成對損失函數(shù)，通過自適應(yīng)地對差異小的圖像強(qiáng)制指數(shù)懲罰和對差異大的圖像強(qiáng)制有界懲罰，使得模型能夠更好地學(xué)習(xí)細(xì)粒度特征。在數(shù)據(jù)集[61-63]上的實(shí)驗(yàn)結(jié)果表明，所提出的損失函數(shù)在很大程度上優(yōu)于常用的損失函數(shù)，并且顯著地提升了學(xué)習(xí)效率。Han 等人[64]提出了一種補(bǔ)充強(qiáng)化注意網(wǎng)絡(luò)，在行人重識別任務(wù)中學(xué)習(xí)多種判別特征的嵌入。作者們提出的空間互補(bǔ)性和特征空間互補(bǔ)性保證了多樣行動特征可以通過不同的分支學(xué)習(xí)，此外還采用自適應(yīng)加權(quán)策略進(jìn)行特征融合，在低維特征下得到了比高維特征更有競爭力的結(jié)果。該方法的優(yōu)越性在數(shù)據(jù)集[61-63]上得到了證明。謝彭宇等人[65]提出了一種基于多尺度聯(lián)合學(xué)習(xí)的行人重識別方法，通過對比實(shí)驗(yàn)發(fā)現(xiàn)，由于細(xì)粒度局部分支充分利用了不相鄰部件間的相關(guān)性，比起兩種不同粒度的全局分支，細(xì)粒度局部分支顯著地提升了模型的魯棒性，并且對模型的性能有更大的提升。通過對各個(gè)部件之間不同尺度下的潛在關(guān)系的挖掘，結(jié)合全局特征形成了更有判別力的行人特征，該方法在三個(gè)主流的行人重識別數(shù)據(jù)集[61-63]上實(shí)現(xiàn)了先進(jìn)的性能。

細(xì)粒度動作識別任務(wù)中，針對視頻舞蹈動作的識別，韓婷婷[66]提出了一種動作顯著約束的深度卷積特征描述子，同時(shí)將視覺關(guān)注機(jī)制引入到細(xì)粒度動作的表示方法中。研究證明，該方法能從更有分辨力的空間區(qū)域進(jìn)行特征提取，使得特征描述子對于局部的表現(xiàn)和運(yùn)動模式中存在的微小差異更加敏銳，對比傳統(tǒng)的網(wǎng)絡(luò)表示方法，識別性能大幅度提高。

細(xì)粒度圖像分類也已經(jīng)廣泛應(yīng)用于復(fù)雜場景下的車輛識別任務(wù)。李寬寬等人[67]提出了雙線性聚合殘差注意力的細(xì)粒度圖像分類模型。在原雙線性CNN基礎(chǔ)上，把原有特征提取子網(wǎng)絡(luò)轉(zhuǎn)變?yōu)楦邔W(xué)習(xí)能力的聚合殘差網(wǎng)絡(luò)，來提升網(wǎng)絡(luò)的特征捕獲能力，方法在Stanford Cars 細(xì)粒度圖像數(shù)據(jù)集上分類精度達(dá)到94.70%，性能優(yōu)于大多數(shù)主流模型方法。Xiang 等人[68]提出了一種用于細(xì)粒度車輛識別的全局拓?fù)浼s束網(wǎng)絡(luò)。該網(wǎng)絡(luò)采用了全局拓?fù)潢P(guān)系約束來描述零件之間的相互作用，并將其集成到CNN 中。零件之間的拓?fù)潢P(guān)系被編碼為深度卷積層，從訓(xùn)練中學(xué)到圖片，通過培訓(xùn)整個(gè)網(wǎng)絡(luò)，核的梯度信息的反向傳播全局拓?fù)潢P(guān)系將引導(dǎo)前幾層變得更好檢測有用的零件，從而提高車輛識別能力。該網(wǎng)絡(luò)在Stanford Cars和CompCars 數(shù)據(jù)集上，均達(dá)到了較好的性能。Fang等人[69]提出了細(xì)粒度的卷積神經(jīng)網(wǎng)絡(luò)框架對車輛進(jìn)行識別。該方法使用卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖，從特征圖映射到輸入圖像來定位區(qū)域，區(qū)域重復(fù)被細(xì)化提煉，最后在ComCars 數(shù)據(jù)集上達(dá)到98.29%的識別精度。Li 等人[70]提出了一種新的雙重交叉熵?fù)p失函數(shù)。實(shí)驗(yàn)證明所提出的損失函數(shù)改善了細(xì)粒度車輛分類性能，在Stanford Cars-196 數(shù)據(jù)集獲得了較好的性能。Huang 等人[71]結(jié)合了顏色和模型，以及三重分類損失提出了雙重域多任務(wù)模型，實(shí)現(xiàn)細(xì)粒度距離測量，提高了車輛識別準(zhǔn)確性。

3 總結(jié)與展望

本文從細(xì)粒度圖像分類的意義出發(fā)，介紹了細(xì)粒度圖像分類算法的研究現(xiàn)狀。從基于強(qiáng)監(jiān)督和弱監(jiān)督兩個(gè)角度，介紹了幾種典型的基于深度學(xué)習(xí)的細(xì)粒度圖像分類算法。表2 總結(jié)了上述典型的算法在數(shù)據(jù)集CUB-200-2011 上的性能表現(xiàn)，并說明了算法所需要的標(biāo)注信息。

基于深度學(xué)習(xí)的細(xì)粒度圖像分類雖然已經(jīng)取得了突破性的進(jìn)展，但是依然面臨以下挑戰(zhàn)：

（1）數(shù)據(jù)集規(guī)模小，標(biāo)注與類別數(shù)量有限。

（2）在自然環(huán)境下，在光照、遮擋、模糊和低分辨率等復(fù)雜場景下的圖像識別在當(dāng)前的學(xué)術(shù)研究中較為欠缺，影響到細(xì)粒度分類的現(xiàn)實(shí)應(yīng)用。

Table 2 Performance of different algorithms on CUB-200-2011 dataset表2 CUB-200-2011 數(shù)據(jù)庫上的算法性能比較

對于未來的發(fā)展方向，可以從以下幾方面考慮：

（1）對自然環(huán)境中輪廓不清晰、無明顯對象的研究。細(xì)粒度圖像算法的研究對象一般為鳥類、汽車、飛機(jī)等具有明顯形態(tài)或輪廓的物體，這類研究對象具有相對固定的外觀特征。但是針對自然環(huán)境中的巖石標(biāo)本、植物圖像標(biāo)本等輪廓不明確、無明顯部件構(gòu)成的對象，很少有細(xì)粒度圖像分類的相關(guān)研究。

（2）細(xì)粒度的小樣本學(xué)習(xí)。細(xì)粒度圖像分類對訓(xùn)練集的要求很高，需要大量可靠的標(biāo)簽數(shù)據(jù)集，因此需要相應(yīng)領(lǐng)域?qū)＜业氖止?biāo)記，這一過程耗時(shí)且成本高，因此面對標(biāo)記數(shù)據(jù)缺乏的挑戰(zhàn)，如何高效利用小樣本進(jìn)行學(xué)習(xí)具有一定的發(fā)展意義。

（3）將遷移學(xué)習(xí)引入到細(xì)粒度圖像分類中。目前，在數(shù)據(jù)庫中，針對前景對象突出，背景單一的圖像，細(xì)粒度圖像分類算法實(shí)現(xiàn)了良好的分類性能，但其在自然環(huán)境下存在一定的局限性。引入遷移學(xué)習(xí)，研究一些域自適應(yīng)的模型算法，在更現(xiàn)實(shí)的環(huán)境中進(jìn)行細(xì)粒度分析，以滿足細(xì)粒度圖像分類的現(xiàn)實(shí)應(yīng)用的需求。

（4）有效利用細(xì)粒度圖像的多級標(biāo)簽體系蘊(yùn)含的豐富信息，可以提升細(xì)粒度圖像的分類精度。在對細(xì)粒度圖像進(jìn)行子類別劃分時(shí)，有時(shí)需要進(jìn)行多級劃分，同一細(xì)粒度對象包含不同層級的多個(gè)標(biāo)簽。

（5）自動細(xì)粒度模型。自動機(jī)器學(xué)習(xí)（auto machine learning，AutoML）和神經(jīng)架構(gòu)搜索（neural architecture searching，NAS）在計(jì)算機(jī)視覺領(lǐng)域引起了研究者們的熱切關(guān)注。通過AutoML 和NAS 技術(shù)開發(fā)的自動細(xì)粒度模型可以找到更好的深度模型。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放