譚 潤(rùn),葉武劍,劉怡俊
(廣東工業(yè)大學(xué)信息工程學(xué)院,廣州 514000)
細(xì)粒度圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域一項(xiàng)極具挑戰(zhàn)和應(yīng)用價(jià)值的研究課題,其在傳統(tǒng)圖像分類基礎(chǔ)上進(jìn)行更精細(xì)的圖像類別子類劃分,如區(qū)分鳥(niǎo)的種類等。區(qū)別于傳統(tǒng)圖像,細(xì)粒度圖像均來(lái)自同一基本類別,不同子類圖像間的差異較小,只通過(guò)目標(biāo)整體輪廓往往無(wú)法取得良好的分類效果;而同一子類不同圖像中又存在姿態(tài)、光照、背景遮擋等諸多影響因素,類內(nèi)差異較大,因此,細(xì)粒度圖像分類往往只能借助于極其細(xì)微的局部差異才能較好地完成分類。同時(shí),細(xì)粒度圖像數(shù)據(jù)庫(kù)的獲取和標(biāo)注依賴于專家級(jí)別的知識(shí),制作成本和時(shí)間成本昂貴。上述這些問(wèn)題都給細(xì)粒度圖像分類造成了極大的困難,使現(xiàn)有算法難以很好地完成分類任務(wù)。
細(xì)粒度圖像分類的研究工作主要分為基于強(qiáng)監(jiān)督信息和基于弱監(jiān)督信息2 個(gè)方向[1-2]。兩者區(qū)別在于,基于強(qiáng)監(jiān)督信息的算法需要引入額外的人工標(biāo)注信息,如局部區(qū)域位置、標(biāo)注框等,用于定位圖像局部關(guān)鍵區(qū)域,而基于弱監(jiān)督信息的算法僅依靠圖像標(biāo)簽完成圖像局部關(guān)鍵部位的定位和特征提取。目前研究思路主要分為2 種:一是通過(guò)構(gòu)建更具判決力的特征表征,適配于復(fù)雜的細(xì)粒度圖像分類任務(wù);二是在算法中引入注意力機(jī)制,通過(guò)注意力機(jī)制弱監(jiān)督式地聚焦于部分局部區(qū)域,進(jìn)一步提取特征,但仍存在定位不準(zhǔn)確的問(wèn)題。同時(shí),細(xì)粒度圖像中存在較多的遮擋,只通過(guò)提取少部分的局部關(guān)鍵特征,往往無(wú)法在所有同一類別圖像上得到對(duì)應(yīng),不能達(dá)到良好的分類效果。
本文提出一種基于雙語(yǔ)義增強(qiáng)和目標(biāo)定位的細(xì)粒度圖像分類算法。以雙線性注意力池化(Bilinear Attention Pooling,BAP)方式構(gòu)建注意力學(xué)習(xí)模塊和信息增益模塊提取雙語(yǔ)義數(shù)據(jù),并結(jié)合原圖通過(guò)雙語(yǔ)義數(shù)據(jù)增強(qiáng)的方式提高模型分類準(zhǔn)確率。該算法一方面通過(guò)模塊相互增益可控地學(xué)習(xí)圖像中多個(gè)局部關(guān)鍵特征,另一方面分別獲取2 種語(yǔ)義層次數(shù)據(jù),用于豐富模型訓(xùn)練數(shù)據(jù),以雙語(yǔ)義數(shù)據(jù)增強(qiáng)的方式輔助模型訓(xùn)練,同時(shí)在測(cè)試階段構(gòu)建目標(biāo)定位模塊,實(shí)現(xiàn)目標(biāo)整體定位。
目前,單獨(dú)使用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(如VGG[3]、ResNet[4]和Inception[5-6])無(wú)法很好 地完成細(xì)粒度 圖像分類任務(wù),因此,研究者通常在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行基于強(qiáng)監(jiān)督信息或基于弱監(jiān)督信息方向的算法研究。
基于強(qiáng)監(jiān)督信息的細(xì)粒度圖像分類算法需要利用訓(xùn)練數(shù)據(jù)集中已有的人工標(biāo)注信息定位局部關(guān)鍵部位,再進(jìn)一步提取特征。ZHANG 等提出Part R-CNN算法[7],利用選擇性搜索形成關(guān)鍵部位的候選框,通過(guò)目標(biāo)檢測(cè)R-CNN[8]算法對(duì)候選區(qū)域進(jìn)行檢測(cè),挑選出評(píng)分值高的區(qū)域提取卷積特征用于訓(xùn)練SVM分類器。BRANSON 等從分類目標(biāo)姿態(tài)入手,提出姿態(tài)歸一化CNN[9]。LIN 等提出Deep LAC[10],在同一個(gè)網(wǎng)絡(luò)中進(jìn)行部件定位、對(duì)齊及分類,設(shè)計(jì)VLF 函數(shù)用于Deep LAC 中的反向傳播。但基于強(qiáng)監(jiān)督信息的算法所依賴的人工標(biāo)注信息獲取耗時(shí)且代價(jià)昂貴,導(dǎo)致該類算法實(shí)用性較差。
僅依靠圖像標(biāo)簽信息完成細(xì)粒度圖像分類任務(wù)成為近年來(lái)主要的研究方向。JADERBERG 等提出時(shí)空卷積神經(jīng)網(wǎng)絡(luò)(ST-CNN)[11],在目標(biāo)合適的區(qū)域進(jìn)行適當(dāng)?shù)膸缀巫儞Q校正圖像姿態(tài)。FU 等提出循環(huán)注意力神經(jīng)網(wǎng)絡(luò)(RA-CNN)[12],在多尺度下遞歸式地預(yù)測(cè)注意區(qū)域的位置并提取相應(yīng)的特征,由粗到細(xì)迭代地得到最終的預(yù)測(cè)結(jié)果。但該模型在同一時(shí)間只能關(guān)注于一個(gè)注意力區(qū)域,存在時(shí)間效率問(wèn)題。ZHENG 等提出多注意力卷積神經(jīng)網(wǎng)絡(luò)(MA-CNN)[13],通過(guò)構(gòu)建一個(gè)部位分類子網(wǎng)絡(luò)學(xué)習(xí)多個(gè)特征部位。但該模型在同一時(shí)間只能定位2~4 個(gè)關(guān)鍵局部區(qū)域,這對(duì)于復(fù)雜的細(xì)粒度圖像仍是不夠的。
雙線性網(wǎng)絡(luò)也是弱監(jiān)督算法的一種,與同類算法不同,其從高階特征表達(dá)的角度出發(fā),以外積匯合的方式聚合2個(gè)特征塊。這種高階特征間的交互作用適配于細(xì)粒度圖像分類任務(wù),如LIN 等提出雙線性CNN[14]和 改進(jìn)的 雙線性CNN[15]用 于細(xì)粒度圖像分類,LI 等利用矩陣平方進(jìn)一步改進(jìn)雙線性CNN[16]。但該類算法往往受限于較高的計(jì)算復(fù)雜度。HU 等在雙線性CNN 的基礎(chǔ)上提出雙線性注意力池化方法[17],同時(shí)對(duì)原圖采取注意力式剪切、注意力式丟棄,得到可以隨著模型迭代更新變動(dòng)的增強(qiáng)數(shù)據(jù),這些數(shù)據(jù)和原圖一起以數(shù)據(jù)增強(qiáng)的方式提高模型分類準(zhǔn)確率。但該算法只利用了單一語(yǔ)義的數(shù)據(jù)增強(qiáng)方式,對(duì)于更復(fù)雜的細(xì)粒度圖像任務(wù)仍存在缺少有效分類信息的問(wèn)題。
為提取足夠多的有區(qū)分度的局部關(guān)鍵特征,本文在訓(xùn)練階段以雙線性注意力池化的方式在網(wǎng)絡(luò)不同深度構(gòu)建注意力學(xué)習(xí)模塊和信息增益模塊,同時(shí)為提高模型中期特征表達(dá)能力,并行地在注意力學(xué)習(xí)模塊和信息增益模塊中分別引入卷積塊注意模塊(Convolutional Block Attention Mmodule,CBAM)。而在測(cè)試階段,通過(guò)注意力學(xué)習(xí)模塊和信息增益模塊分別得到特征圖,并以此構(gòu)建目標(biāo)定位模塊用于聚焦圖像中的目標(biāo)整體,從而進(jìn)一步提高分類準(zhǔn)確率。
本文算法的訓(xùn)練流程及網(wǎng)絡(luò)模型如圖1 和圖2所示,測(cè)試流程如圖3 所示。訓(xùn)練流程模塊分別提取兩種語(yǔ)義層次的數(shù)據(jù),以2 種語(yǔ)義數(shù)據(jù)增強(qiáng)的方式輔助模型訓(xùn)練。
圖1 訓(xùn)練流程Fig.1 Training procedure
圖2 網(wǎng)絡(luò)模型框架Fig.2 Framework of network model
圖3 測(cè)試流程Fig.3 Testing procedure
圖1 中的注意力學(xué)習(xí)模塊和圖片剪切模塊1 用于第1 類語(yǔ)義數(shù)據(jù)增強(qiáng),其中注意力學(xué)習(xí)模塊負(fù)責(zé)分類特征的學(xué)習(xí),圖片剪切模塊1 從分類特征中得到第1 種語(yǔ)義類型的剪切圖片輔助模型訓(xùn)練,該語(yǔ)義類型圖片更關(guān)注于分類目標(biāo)的局部細(xì)節(jié)信息。
1)注意力學(xué)習(xí)模塊
如圖1 所示,模型首先從特征提取模塊得到深度特征f1∈RC×H×W。對(duì)于細(xì)粒度圖像分類任務(wù),為使特征圖有足夠的特征表達(dá)能力同時(shí)增強(qiáng)特定區(qū)域的表征,從特征圖本身出發(fā),模型加入卷積塊注意力模塊(CBAM)[18],從通道維度和空間維度引入關(guān)注權(quán)重,提升特征圖對(duì)關(guān)鍵局部區(qū)域的關(guān)注度。(1)從通道維度引入關(guān)注權(quán)重。
對(duì)得到的初始深度特征f1分別進(jìn)行全局平均池化和全局最大池化,得到2 個(gè)C維的池化特征,這2 個(gè)池化特征均經(jīng)過(guò)一個(gè)共享參數(shù)的多層感知器(Multi-Layer Perceptron,MLP),分別得到2個(gè)1×1×C維的通道關(guān)注權(quán)重,最后將其分別對(duì)應(yīng)元素相加,經(jīng)sigmoid 激活函數(shù)激活得到最終的通道關(guān)注權(quán)重Mc(f1),如式(1)所示:
將該權(quán)重與初始特征f1相乘,得到通道關(guān)注特征f1c∈RC×H×W,如式(2)所示:
(2)從空間維度引入關(guān)注權(quán)重。
對(duì)上一步得到的通道關(guān)注特征f1c∈RC×H×W,沿著通道方向進(jìn)行取平均(mean)和最大(max),得到2 個(gè)維度為1×H×W的特征圖,將這2 個(gè)特征圖進(jìn)行維度拼接得到維度為2×H×W的特征圖,最后本模型選擇用一個(gè)卷積核大小為7×7 的卷積層對(duì)其進(jìn)行卷積操作,經(jīng)sigmoid 激活函數(shù)激活得到最終的空間關(guān)注權(quán)重Ms(f1c),如式(3)所示:
將該權(quán)重與特征f2相乘,得到最終的聚焦特征F1∈RC×H×W,如式(4)所示:
通過(guò)上述過(guò)程,得到經(jīng)過(guò)CBAM 模塊的聚焦特征F1,之后模型采用雙線性注意力匯合的思想,將聚焦特征F1與其經(jīng)過(guò)k個(gè)1×1 卷積核后得到的注意力圖A1k以外積即點(diǎn)乘的形式匯合,從注意力圖出發(fā),使得到的分類特征的每一維代表分類目標(biāo)中的一部分關(guān)鍵部位,最終得到注意力學(xué)習(xí)模塊的分類特征P1,如式(5)所示:
其中:g為特征聚合函數(shù)。本文在該模塊中采用全局平均池化方式為特征聚合函數(shù)聚合特征。
2)圖片剪切模塊1
從注意力學(xué)習(xí)模塊得到注意力圖A1k∈RK×H×W,其中每一通道的注意力圖代表分類目標(biāo)的一關(guān)鍵部位。模型在每個(gè)迭代過(guò)程中隨機(jī)挑選一個(gè)通道的注意力圖,這樣隨著網(wǎng)絡(luò)訓(xùn)練,每個(gè)通道的注意力圖都有可能被挑選到。然后由挑選到的注意力圖A1k1∈R1×H×W按是否大于閾值θ可以生成剪切的掩模圖,如式(6)所示:
其中:I為原圖;S為采樣函數(shù)。
圖1 中的信息增益模塊和圖片剪切模塊2 用于第2 類語(yǔ)義增強(qiáng),其中信息增益模塊負(fù)責(zé)更深層次分類特征的學(xué)習(xí),圖片剪切模塊2 從深度分類特征得到第2 種語(yǔ)義類型的剪切圖片輔助模型訓(xùn)練,該語(yǔ)義類型圖片更關(guān)注于分類目標(biāo)的重要輪廓。
1)信息增益模塊
對(duì)比注意力學(xué)習(xí)模塊,模型從特征提取模塊更深層次的卷積層中得到深度特征f2∈RC×H×W,一方面,更深網(wǎng)絡(luò)層次的卷積特征可以更關(guān)注于分類目標(biāo)整體的重要信息;另一方面,隨著訓(xùn)練迭代,模型分類逐漸滿足于注意力學(xué)習(xí)模塊的分類特征映射,通過(guò)構(gòu)建一個(gè)結(jié)構(gòu)相似但關(guān)注點(diǎn)區(qū)別于注意力學(xué)習(xí)模塊的新的信息學(xué)習(xí)模塊,可以形成相對(duì)的信息差,共同作用于最后的模型分類。因此,區(qū)別于以往的CBAM 模塊以單個(gè)或殘差的形式出現(xiàn),模型并行地引入一個(gè)額外的CBAM 模塊得到特征F2∈RC×H×W,同理,最后運(yùn)用雙線性注意力匯合的思想,將特征F2與生成的注意力圖A2k匯合得到最后的分類特征P2。
2)圖片剪切模塊2
與圖片剪切模塊1 同理,模型從信息增益模塊生成的注意力圖A2k∈RK×H×W中得到剪切圖片2,但為了增強(qiáng)其與注意力學(xué)習(xí)模塊的區(qū)分度,對(duì)注意力圖A2k采用K-Max pooling 處理,即保留前K個(gè)響應(yīng)最大的注意力圖。由經(jīng)過(guò)K-Max pooling 層的注意力圖去生成剪切圖片。
在測(cè)試階段,為了降低模型對(duì)分類圖片的誤判,模型通過(guò)構(gòu)建一個(gè)目標(biāo)定位模塊,定位原圖中的分類目標(biāo),并將其放大至原圖得到目標(biāo)定位圖片。具體步驟:首先可以從注意力學(xué)習(xí)模塊和信息增益模塊分別得到經(jīng)過(guò)CBAM 模塊的聚焦特征F1和F2。對(duì)于特征F1∈RC×H×W,沿著通道方向?qū)μ卣鱂1進(jìn)行深度求和,得到一個(gè)二維的深度描述子S(i,j)∈RH×W,由S(i,j)可以得到其均值a-,對(duì)于S(i,j)中大于均值aˉ的值設(shè)定為1,其他則設(shè)定為0。由此,最終可以從注意力學(xué)習(xí)模塊得到掩模圖M1(i,j)。同理,可以從信息增益模塊中的特征F2中得到掩模圖M2(i,j)。將這2 個(gè)掩模圖分別對(duì)應(yīng)原圖,取其重疊的部分,最終將重疊部分放大至原圖大小得到目標(biāo)定位圖片,如式(8)所示:
其中:S為采樣函數(shù);I為原圖。
由以上提出模型,可以分別得到分類特征P1和P2,對(duì)其采用交叉熵?fù)p失函數(shù)指導(dǎo)模型訓(xùn)練,與此同時(shí),模型另外沿通道聯(lián)接特征P1和P2,得到特征P,同樣采用交叉熵?fù)p失函數(shù)。對(duì)于注意力學(xué)習(xí)模塊和信息增益模塊,模型采用雙線性注意力匯合的思想,引入中心損失函數(shù)Center Loss,迫使最終特征P1和P2的每一維能對(duì)應(yīng)分類目標(biāo)的一關(guān)鍵部位。在測(cè)試階段,模型實(shí)驗(yàn)只取聯(lián)接特征P用于得到預(yù)測(cè)值。本模型實(shí)驗(yàn)損失函數(shù)最終如式(9)所示:
本節(jié)通過(guò)實(shí)驗(yàn)證明各模塊分別及其組合對(duì)模型分類準(zhǔn)確率的貢獻(xiàn),同時(shí)在3 個(gè)通用實(shí)驗(yàn)數(shù)據(jù)集上對(duì)比其他主流算法,最后通過(guò)可視化實(shí)驗(yàn)給出注意力學(xué)習(xí)模塊和信息增益模塊得到的不同語(yǔ)義層次的剪切圖片,及其測(cè)試時(shí)經(jīng)過(guò)目標(biāo)定位后得到的剪切圖片。本文模型由pytorch 深度學(xué)習(xí)框架所搭建,訓(xùn)練環(huán)境為英偉達(dá)P40 GPU。
本次實(shí)驗(yàn)采用細(xì)粒度圖像識(shí)別領(lǐng)域3 個(gè)通用實(shí)驗(yàn)數(shù)據(jù)集:CUB-200-2011鳥(niǎo)類數(shù)據(jù)集[19],F(xiàn)GVC Aircraft飛機(jī)數(shù)據(jù)集[20],Stanford Cars 車類數(shù)據(jù)集[21]。這3 個(gè)數(shù)據(jù)集的詳細(xì)信息如表1 所示。
表1 細(xì)粒度圖像分類數(shù)據(jù)集Table 1 Fine-grained image classification datasets
實(shí)驗(yàn)參數(shù)設(shè)置:本次實(shí)驗(yàn)?zāi)P筒捎猛ㄓ镁W(wǎng)絡(luò)模型Inception V3 作為特征提取器,取Mix6d 層特征映射作為注意力學(xué)習(xí)模塊的特征圖,取Mix6e 層特征映射作為信息增益模塊的特征圖。注意力圖由特征圖經(jīng)若干個(gè)1×1 卷積核得到,其中注意力學(xué)習(xí)模塊和信息增益模塊本實(shí)驗(yàn)均設(shè)置為64 個(gè)1×1 卷積核,即生成64 張注意力圖。剪切圖片模塊θ閾值設(shè)為:random(0.4,0.6)。中心損失函數(shù)參數(shù)λ設(shè)為1。
訓(xùn)練參數(shù)設(shè)置:批量樣本數(shù)設(shè)為16,學(xué)習(xí)率設(shè)為0.01。實(shí)驗(yàn)采用隨機(jī)梯度下降法(SGD)來(lái)訓(xùn)練模型,動(dòng)量設(shè)為0.9,權(quán)重衰減設(shè)為0.000 01。最大迭代次數(shù)設(shè)為180。在訓(xùn)練階段,剪切模塊剪切圖片大小均為256像素×256像素。
測(cè)試參數(shù)設(shè)置:批量樣本數(shù)設(shè)為12,目標(biāo)定位模塊圖片大小設(shè)為448像素×448像素。
實(shí)驗(yàn)數(shù)據(jù)集預(yù)處理:實(shí)驗(yàn)訓(xùn)練過(guò)程將所有圖片調(diào)整尺寸為448像素×448像素,統(tǒng)一將圖片進(jìn)行隨機(jī)翻轉(zhuǎn)、隨機(jī)調(diào)整亮度、標(biāo)準(zhǔn)化。測(cè)試過(guò)程將調(diào)整尺寸為448像素×448像素,統(tǒng)一將圖片標(biāo)準(zhǔn)化。
表2 給出在數(shù)據(jù)集CUB-200-2011 上模塊及其組合對(duì)模型分類準(zhǔn)確率的貢獻(xiàn),可以看出,各模塊能有效地提高模型分類準(zhǔn)確率。本文構(gòu)建的注意力模塊和信息增益模塊所提取的分類特征較好地表征了細(xì)粒度圖像。表3 給出2 種語(yǔ)義數(shù)據(jù)增強(qiáng)下上模塊及其組合對(duì)模型分類準(zhǔn)確率的貢獻(xiàn),可以看出,結(jié)合語(yǔ)義數(shù)據(jù)訓(xùn)練能大幅提高模型分類準(zhǔn)確率,且組合2 種語(yǔ)義數(shù)據(jù)輔助模型訓(xùn)練達(dá)到了模型最高的準(zhǔn)確率。數(shù)據(jù)增強(qiáng)可以提高細(xì)粒度圖像分類模型的準(zhǔn)確率,并且雙語(yǔ)義數(shù)據(jù)增強(qiáng)的設(shè)置下可以使模型性能達(dá)到最優(yōu)。
表2 模塊及其組合貢獻(xiàn)程度Table 2 Contribution of module and their combinations %
表3 2 種語(yǔ)義數(shù)據(jù)及其組合貢獻(xiàn)程度Table 3 Contribution of two kinds of semantic data and their combinations %
本文設(shè)置實(shí)驗(yàn)在數(shù)據(jù)集CUB-200-2011、FGVC Aircraft和Stanford Cars上對(duì)比其他同期先進(jìn)算法,實(shí)驗(yàn)結(jié)果分別如表4~表6 所示??梢钥闯觯瑢?duì)比本實(shí)驗(yàn)的基準(zhǔn)網(wǎng)絡(luò)Inception-V3,本文算法在CUB-200-2011鳥(niǎo)類數(shù)據(jù)集上準(zhǔn)確率提高了5.8%,對(duì)比本文采用的雙線性注意力池化特征聚合方式,本文算法在CUB-200-2011 鳥(niǎo)類數(shù)據(jù)集上準(zhǔn)確率提高了3.1%。對(duì)比其他同期先進(jìn)細(xì)粒度圖像分類算法,本文模型在數(shù)據(jù)集CUB-200-2011、FGVC Aircraft 和Stanford Cars 上均表現(xiàn)出了更優(yōu)越的性能。此外,本文模型在實(shí)驗(yàn)細(xì)節(jié)參數(shù)設(shè)置下,模型復(fù)雜度為185.71 MB。
表4 在CUB-200-2011 數(shù)據(jù)集上的分類性能對(duì)比Table 4 Comparison of classification performance on CUB-200-2011 dataset %
表5 在FGVC Aircraft 數(shù)據(jù)集上的分類性能對(duì)比Table 5 Comparison of classification performance on FGVC Aircraft dataset %
表6 在Stanford Cars 數(shù)據(jù)集上的分類性能對(duì)比Table 6 Comparison of classification performance on Stanford Cars dataset %
由圖片剪切模塊1 和圖片剪切模塊2 得到的剪切圖片如圖4 所示??梢钥闯?,在雙語(yǔ)義數(shù)據(jù)增強(qiáng)模型的設(shè)置下,模型可以由此得到2 種不同語(yǔ)義層次的剪切圖片。其中剪切圖片1 更關(guān)注于分類目標(biāo)局部細(xì)節(jié)信息例如鳥(niǎo)的眼睛等,剪切圖片2 更關(guān)注目標(biāo)重要的有區(qū)分度的輪廓,結(jié)合這2 種語(yǔ)義層次的剪切圖片可以有效提高模型分類準(zhǔn)確率。
本文給出經(jīng)過(guò)目標(biāo)定位模塊的圖片,如圖5 所示??梢钥闯?,經(jīng)過(guò)目標(biāo)定位模塊模型可以準(zhǔn)確地定位于分類目標(biāo)整體,從而忽視圖片背景等無(wú)關(guān)信息的干擾。
針對(duì)細(xì)粒度圖像分類類內(nèi)差異大、類間差異小的特點(diǎn),本文基于雙線性注意力融合提出注意力學(xué)習(xí)模塊和信息增益模塊,分別關(guān)注目標(biāo)局部細(xì)節(jié)信息和目標(biāo)整體重要輪廓,由此得到2 種語(yǔ)義層次的增強(qiáng)數(shù)據(jù)輔助模型訓(xùn)練,并在測(cè)試階段提出目標(biāo)定位模塊用于定位目標(biāo)整體,進(jìn)一步提高分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文算法在CUB-200-2011、FGVC Aircraft 和Stanford Cars 數(shù)據(jù)集上分別達(dá)到89.5%、93.6%和94.7%的分類準(zhǔn)確率,性能優(yōu)于對(duì)比算法。本文設(shè)計(jì)的2 種語(yǔ)義特征學(xué)習(xí)模塊可以得到2 種語(yǔ)義層次的增強(qiáng)數(shù)據(jù),但得到的2 種語(yǔ)義層次的剪切圖片區(qū)分度不夠明顯,有可能成為冗余數(shù)據(jù),無(wú)法為模型帶來(lái)增益。下一步將增加模塊間的區(qū)分度,減少冗余信息。此外,本文算法包含了特征間的外積運(yùn)算,對(duì)比基準(zhǔn)網(wǎng)絡(luò)Inception-V3 復(fù)雜度較高,這局限了模型在移動(dòng)端的應(yīng)用范圍,后續(xù)將考慮降低模型復(fù)雜度,構(gòu)建輕量型細(xì)粒度圖像分類網(wǎng)絡(luò)。