彭耀葵 呂友成
(1、廣東工業(yè)大學,廣東 廣州510000 2、廣州星海集成電路基地有限公司,廣東 廣州510000)
細粒度圖像的分類目的在于區(qū)分具有細微視覺差異的從屬類別,比傳統(tǒng)粗粒度圖像分類更加具有挑戰(zhàn)性。其挑戰(zhàn)主要有以下方面:(1)圖像之間的特征差異較小,判別性的特征更加細微。例如:需要根據(jù)鳥羽毛的一部分的顏色來確定類別。(2)訓練數(shù)據(jù)集信息有限,僅使用其所屬的類別,而沒有人工的標注框等信息。
細粒度圖像分類的關(guān)鍵步驟是從圖片中提取出最顯著的局部特征。如果特征區(qū)域是手動標記的,則將花費額外的時間和經(jīng)濟成本,因此可以考慮使用弱監(jiān)督方法。此外,單純的卷積網(wǎng)絡(luò)很難處理細粒度的分類問題,因此使用想辦法找出需要注意的區(qū)域。數(shù)據(jù)增強是訓練常用方法,可用于防止數(shù)據(jù)過擬合和改善模型的性能。許多常用的數(shù)據(jù)增強方法使用隨機方法,例如隨機圖像裁剪、旋轉(zhuǎn)、放大,可能使目標適合我們的需求,但是會引入嘈雜的目標或背景信息。因此,我們設(shè)計了一個以注意力為導向的數(shù)據(jù)增強模塊,可以實現(xiàn)更好的分類效果,該方法可實現(xiàn)比當前最新方法好的效果。
弱監(jiān)督學習不需要借助附加的人工標注信息[1],降低了人工的工作量,同時在濾去背景等噪聲干擾之后,網(wǎng)絡(luò)可以提取出人類考慮不到的區(qū)域特征,從而提高了網(wǎng)絡(luò)的分類精度。常見的方法有以下幾種:
雙線性CNN 算法[2],該方法依賴于兩個特征提取器的連接,兩個特征提取器的輸出在圖像的每個位置使用外部乘積相乘,然后得到最后的結(jié)果。關(guān)鍵是使用二階統(tǒng)計信息來融合來自不同渠道的信息,實現(xiàn)細粒度分類。
但是,由于原始雙線性池的導致其高維性,Gao 等人提出的CBP 緊湊型雙線性池化的方法,該方法使用Tensor Sketch 投影和Random Maclaurin 投影來極大地減小尺寸而不會降低精度。
WSDAN[3]的作者從特征圖通道之間的局部特征的交互作用提出了一種雙線性注意力集中機制(BAP),以提高它們的表示能力。但是,在WSDAN 網(wǎng)絡(luò)中的閾值是人為設(shè)計的固定值,該值具有很大的隨意性,導致預(yù)測結(jié)果不盡人意。
本文提出新的方法就是基于圖像二值化設(shè)計了一個閾值,以便每個圖片根據(jù)其自身的特征使用相應(yīng)的閾值范圍。下面詳細介紹所我們提出的網(wǎng)絡(luò)結(jié)構(gòu),包括弱監(jiān)督學習的注意力圖,注意力圖指導的圖像數(shù)據(jù)增強和分類的損失函數(shù)設(shè)計。對于每個輸入圖像,設(shè)計一個弱監(jiān)督學習網(wǎng)絡(luò)以生成相應(yīng)的注意力圖,以表示目標的最大區(qū)別特征,然后通過基于注意力圖的數(shù)據(jù)增強方法對其進行裁剪或放大,最后通過網(wǎng)絡(luò)以獲取最終分類結(jié)果。該過程如圖1 所示。
圖1 本文構(gòu)建的模型結(jié)構(gòu)圖
獲取弱監(jiān)督學習的注意力圖的方法具體如下:我們使用resnet50 深度卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),在為每個訓練圖像提取基本特征圖之后,繼而生成相應(yīng)的注意力圖,以表示圖像的最顯著特征部分。通過使用注意力圖,我們設(shè)計出更加靈活的網(wǎng)絡(luò)結(jié)構(gòu),并且可以更輕松地實現(xiàn)細粒度分類的端到端訓練。
受雙線性池化的網(wǎng)絡(luò)模型的啟發(fā),我們設(shè)計了網(wǎng)絡(luò)結(jié)構(gòu)的第二部分。每個注意力圖代表目標圖像的特定部分,將獲得的特征圖和注意圖的元素相乘,然后使用卷積處理局部特征圖,最后結(jié)合每個局部特征圖以獲得特征矩陣。
傳統(tǒng)隨機的數(shù)據(jù)增強效率非常低,特別是如果圖像中的可判別性區(qū)域在整個圖片中所占的比例較小,則會導致更多的背景噪聲,因此使用注意力圖進行圖像增強[4]。除此之外,物體在不同的圖像中占有不同的比例。因此,我們讓圖像本身確定自己的閾值,而不是使用手動設(shè)計的值來調(diào)整閾值。自適應(yīng)二值化閾值算法用于獲取整個圖像的平均值,并將其用作基準。這樣,我們可以獲得針對不同圖像的最合適的圖像增強。裁剪大于基準的區(qū)域以獲取關(guān)鍵區(qū)域,并在該區(qū)域上使用弱監(jiān)督學習來生成注意力圖,以表示目標的顯著特征,我們稱之為裁剪注意力。另外,我們添加了一個輔助分支,丟棄具有更高基準的區(qū)域并使用左側(cè)的部分,以便網(wǎng)絡(luò)可以學習非關(guān)鍵區(qū)域的某些功能,從而生成次要關(guān)注地圖,我們將其稱為掉落注意力。結(jié)合這兩個分支,我們的圖像增強功能可以有效地提取圖像中最有用的區(qū)域特征。
在圖2 中可以看到聚焦細節(jié)的圖像。第一張圖片是原始圖片,第二張圖片是經(jīng)過設(shè)計的蒙版處理后獲得的圖像,可以看出主要部分和背景部分是可區(qū)分的。第三張圖片是在注意力圖指導下進行數(shù)據(jù)增強后獲得的圖像,紅色部分是特征信息最明顯的區(qū)域。
圖2 從左到右分別是原始圖像、蒙版生成圖像和細節(jié)聚焦圖像
受焦點損失的啟發(fā)[5],我們將標準的交叉熵損失與焦點損失的結(jié)果結(jié)合在一起。通過減少易于分類的樣本的權(quán)重,該模型可以將更多的注意力集中在訓練過程中難以分類的樣本上。通過控制兩個部分的不同比例,網(wǎng)絡(luò)可以適應(yīng)更多的數(shù)據(jù)集。焦點損失函數(shù)的表示如公式(1)所示。
同時,中心損失[6]功能被引入到我們的網(wǎng)絡(luò)中。在特征圖中為訓練集的每個類別維護一個班級中心。在訓練過程中,網(wǎng)絡(luò)映射后,特征圖中的樣本與類中心之間的距離約束增加,以達到更好的分類效果。中心損失函數(shù)的表示如公式(2)所示。
這兩個損失函數(shù)的比例由超參數(shù)β 控制,本文設(shè)計調(diào)整不同數(shù)據(jù)集的β 值以獲得最佳結(jié)果,模型整體的損失函數(shù)的表示如公式(3)所示。
在本節(jié)中,我們進行了許多實驗和比較,以證明模型的準確性。分別從實驗數(shù)據(jù)集、實驗環(huán)境和實驗結(jié)果進行了分析。
CUB-200-2011 鳥類數(shù)據(jù)集包括200 種鳥類,有5994 個訓練圖像和5794 個測試圖像。Stanford-Cars 汽車數(shù)據(jù)集有16185張不同型號的汽車圖片,訓練集8144 張、測試集8041 張。FGVC-Aircraft 飛機數(shù)據(jù)集包含10200 架飛機圖像,102 個類別,每類100 幅圖像。
實驗環(huán)境基于Ubuntu16.04 操作系統(tǒng),CPU 為Inteli7-9700,GPU 為NVIDIA RTX2080,運行內(nèi)存16G。該模型采用在ImageNet 上經(jīng)過預(yù)訓練的Resnet50 模型為基本網(wǎng)絡(luò)。刪除了原始的完全連接層,并添加卷積層、下采樣層和特征提取層以提取感興趣的區(qū)域,使用自定義蒙版生成圖像區(qū)域關(guān)注圖。權(quán)重衰減和動量分別設(shè)置為1×10-5和0.9,學習速率初始值設(shè)置為0.001,衰減速率為0.9。
本文的方法與上述細粒度圖像分類數(shù)據(jù)集上的最新方法進行比較,結(jié)果如表1 所示??梢钥闯?本文的網(wǎng)絡(luò)體系結(jié)構(gòu)對這些數(shù)據(jù)集都實現(xiàn)了最佳分類效果。
表1 實驗結(jié)果在三個不同的數(shù)據(jù)集上與最新方法的比較
從表1 可看出:(1)本文網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)于許多使用附加圖像注釋的強監(jiān)督方法,模型無需其它人工標注信息;(2)本文方法優(yōu)于大多數(shù)其它弱監(jiān)督方法,能更準確獲得圖像顯著區(qū)域。
本文提出了一種基于注意力機制下圖像增強的弱監(jiān)督細粒度圖像分類端到端網(wǎng)絡(luò)。弱監(jiān)督分類網(wǎng)絡(luò)生成注意力圖,注意力機制能夠引導圖像的增強,從而使網(wǎng)絡(luò)獲得更好的分類結(jié)果。這兩個模塊進行交互,以使網(wǎng)絡(luò)模型可以獲得更多的局部顯著性特征信息,并確保分類結(jié)果更高的準確性。