冀?中,趙可心,張鎖平,李明兵
?
基于空間變換雙線性網(wǎng)絡(luò)的細(xì)粒度魚(yú)類(lèi)圖像分類(lèi)
冀?中1,趙可心1,張鎖平2,李明兵2
(1. 天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072;2. 國(guó)家海洋技術(shù)中心,天津 300072)
有效地識(shí)別水下各種魚(yú)類(lèi)目標(biāo)具有重要的實(shí)際意義和理論價(jià)值.魚(yú)類(lèi)生存環(huán)境復(fù)雜,由于海洋的極端條件,水下魚(yú)類(lèi)圖像的分辨率低,且圖像類(lèi)間相似度高、類(lèi)內(nèi)差異性大,并受光照、角度、姿態(tài)等的影響較大,這些因素使得魚(yú)類(lèi)識(shí)別成為一項(xiàng)具有挑戰(zhàn)的任務(wù).針對(duì)這些難點(diǎn),提出了一個(gè)能夠有效進(jìn)行細(xì)粒度魚(yú)類(lèi)圖像分類(lèi)的深度學(xué)習(xí)模型.該模型包含空間變換網(wǎng)絡(luò)和雙線性網(wǎng)絡(luò)兩部分,首先利用空間變換網(wǎng)絡(luò)作為注意力機(jī)制,去除圖像背景中復(fù)雜的干擾信息,選擇圖像中感興趣的目標(biāo)區(qū)域,簡(jiǎn)化后續(xù)分類(lèi);雙線性網(wǎng)絡(luò)通過(guò)融合兩個(gè)深度網(wǎng)絡(luò)的特征圖提取圖像的雙線性特征,使得對(duì)目標(biāo)中具有判別性的特定位置有較強(qiáng)的響應(yīng),從而識(shí)別種類(lèi),該模型可以進(jìn)行端到端的訓(xùn)練.在公開(kāi)的F4K數(shù)據(jù)集上,該模型取得了最好的性能,識(shí)別正確率為99.36%,較現(xiàn)有最好算法DeepFish提高0.56%,此外,發(fā)布了一個(gè)包含100類(lèi)共6358張圖片的新的魚(yú)類(lèi)圖像數(shù)據(jù)集Fish100,該模型在Fish100數(shù)據(jù)集上的識(shí)別正確率高出BCNN算法0.98%.多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了模型的有效性與先進(jìn)性.
魚(yú)類(lèi)分類(lèi);細(xì)粒度分類(lèi);空間變換;雙線性網(wǎng)絡(luò)
近年來(lái),隨著水下觀測(cè)事業(yè)的迅速發(fā)展,水下圖像視頻激增,水下目標(biāo)識(shí)別的需求也日益劇增.魚(yú)類(lèi)識(shí)別是其中的重要任務(wù)之一,它可幫助海洋科學(xué)家和生物學(xué)家等研究人員進(jìn)行相關(guān)研究,科學(xué)家通過(guò)魚(yú)類(lèi)自動(dòng)識(shí)別可獲得某些特定魚(yú)類(lèi)的分布,統(tǒng)計(jì)魚(yú)群數(shù)量,進(jìn)而可以監(jiān)測(cè)評(píng)估魚(yú)類(lèi)種群以及生態(tài)系統(tǒng),分析海洋環(huán)境的變化以及用于輔助魚(yú)類(lèi)養(yǎng)殖等[1-4].然而目前識(shí)別算法主要針對(duì)陸上的物體,對(duì)水下識(shí)別研究還較少.海洋環(huán)境復(fù)雜惡劣,圖像分辨率低,魚(yú)類(lèi)圖像的類(lèi)間相似度高、類(lèi)內(nèi)差異性大,并受光照、角度、姿態(tài)等的影響,這些因素使得魚(yú)類(lèi)識(shí)別極具挑戰(zhàn)性.
傳統(tǒng)方法首先提取圖像特征,然后將特征向量輸入到分類(lèi)器中進(jìn)行魚(yú)類(lèi)圖像分類(lèi).但是,這些傳統(tǒng)方法的分類(lèi)精度較低,泛化能力也較弱.卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的提出推動(dòng)了計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展,一些相關(guān)工作也開(kāi)始利用CNN進(jìn)行魚(yú)類(lèi)圖像識(shí)別.例如,Ding等[5]設(shè)計(jì)了3種簡(jiǎn)單的不同深度的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于魚(yú)類(lèi)識(shí)別,Qin等[6]提出了一個(gè)包含卷積層、非線性層、特征池化層、空間金字塔池化層和分類(lèi)器的深度網(wǎng)絡(luò).然而,這些方法只是應(yīng)用了基本的深度學(xué)習(xí)結(jié)構(gòu),并沒(méi)有針對(duì)細(xì)粒度圖像識(shí)別的難點(diǎn)來(lái)解決問(wèn)題,例如對(duì)局部細(xì)節(jié)特征的學(xué)習(xí),因此有效性仍有待提升.
為此,本文提出了一個(gè)適用于水下環(huán)境的魚(yú)類(lèi)圖像分類(lèi)的深度學(xué)習(xí)模型,稱(chēng)為空間變換雙線性魚(yú)類(lèi)圖像網(wǎng)絡(luò)(spatial transformation bilinear fish net,STB fish-net).該框架包含空間變換網(wǎng)絡(luò)和雙線性網(wǎng)絡(luò)兩部分.空間變換網(wǎng)絡(luò)作為一種注意力機(jī)制,可以選擇圖像中有判別性的區(qū)域,去除一部分復(fù)雜的背景,以簡(jiǎn)化后續(xù)的分類(lèi)任務(wù).而雙線性網(wǎng)絡(luò)采用了基于VGG-16[7]的雙線性模型,通過(guò)融合兩個(gè)CNN網(wǎng)絡(luò)的特征圖,使得CNN濾波器對(duì)目標(biāo)的某個(gè)具有判別性的特定位置(如魚(yú)身或魚(yú)尾)有較強(qiáng)的響應(yīng),從而有效識(shí)別種類(lèi).
本節(jié)將從圖像分類(lèi)、細(xì)粒度圖像分類(lèi)和魚(yú)類(lèi)圖像分類(lèi)3個(gè)方面由粗到細(xì)介紹各種圖像分類(lèi)方法.
圖像分類(lèi)是計(jì)算機(jī)視覺(jué)研究中的基本問(wèn)題,也是圖像檢索、圖像分割、行為分析等其他高層視覺(jué)任務(wù)的基礎(chǔ).Wang等[8]提出了一種新的紋理描述符——結(jié)構(gòu)元素描述符(SED),SED可以有效地描述圖像并表示圖像局部特征.此外,SED可以提取和描述顏色和紋理特征.隨后,文獻(xiàn)[9]進(jìn)一步提出了一種基于紋理的有效彩色圖像檢索方法,該方法利用顏色共生矩陣提取紋理特征,還考慮了諸如分量和分布的顏色信息,所獲得的特征不僅反映紋理相關(guān)性而且還表示顏色信息.近年來(lái),Wang等[10]又提出了多因素關(guān)聯(lián)(MFC)來(lái)描述圖像,結(jié)構(gòu)元素相關(guān)性(SEC)、梯度值相關(guān)性(GVC)和梯度方向相關(guān)性(GDC)3種相關(guān)性用于提取圖像特征.為了降低傳統(tǒng)徑向諧波傅里葉矩(RHFM)方法的時(shí)間復(fù)雜度,文獻(xiàn)[11]引入了一種快速精確的FFT算法,該算法可以有效抵抗常見(jiàn)的圖像處理攻擊.Wang等[12]提出了四元極化諧波傅里葉矩(QPHFM)用于彩色圖像處理,文中實(shí)驗(yàn)結(jié)果表明,QPHFM在無(wú)噪聲和嘈雜條件下可以實(shí)現(xiàn)圖像重建和不變物體識(shí)別.傳統(tǒng)方法更側(cè)重于提取圖像的某一種或某幾種特征,例如紋理特征或顏色特征,這適用于圖像檢索領(lǐng)域中圖像相似度的計(jì)算,然而不適用于細(xì)粒度魚(yú)類(lèi)圖像分類(lèi)中姿態(tài)多變、類(lèi)間相似度高的特點(diǎn).
細(xì)粒度圖像識(shí)別旨在區(qū)分同一類(lèi)別下的不同子類(lèi),如識(shí)別各種鳥(niǎo)類(lèi)、狗類(lèi)等,與普通的目標(biāo)識(shí)別相比,細(xì)粒度圖像識(shí)別更有難度[13-16].早期的方法首先檢測(cè)目標(biāo)和具有判別性的局部,然后再提取特征用于分類(lèi).Zhang等[13]使用RCNN加上幾何先驗(yàn)知識(shí)進(jìn)行局部區(qū)域定位,然后利用姿態(tài)歸一化表示來(lái)訓(xùn)練分類(lèi)器.隨后,Zhang等[16]又提出一個(gè)端到端可訓(xùn)練的利用全卷積定位局部的模型.該模型包含兩個(gè)子網(wǎng)絡(luò),定位網(wǎng)絡(luò)用于學(xué)習(xí)找到圖像中的判別性局部,包含語(yǔ)義池化的分類(lèi)網(wǎng)絡(luò)用于學(xué)習(xí)細(xì)粒度分類(lèi)器.
因?yàn)榧?xì)粒度圖像局部的標(biāo)注通常需要相應(yīng)領(lǐng)域的專(zhuān)家才能完成,所以其標(biāo)注代價(jià)較高.目前大多研究集中于弱監(jiān)督方式,即只需要圖像的類(lèi)別標(biāo)簽.例如,Zhang等[17]提出了一個(gè)基于兩步來(lái)挑選深度過(guò)濾器響應(yīng)的結(jié)構(gòu).第1步找到顯著且一致地響應(yīng)特定模式的獨(dú)特濾波器,并學(xué)習(xí)一組局部檢測(cè)器.第2步通過(guò)費(fèi)舍爾矢量的空間加權(quán)組合來(lái)匯集深度濾波器響應(yīng),然后將其編碼為最終的特征表示.Lin等[18]提出了一種雙線性網(wǎng)絡(luò)(bilinear convolutional neural network,BCNN),其包含兩個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò),通過(guò)融合來(lái)自?xún)蓚€(gè)深度網(wǎng)絡(luò)的特征圖,得到最終的雙線性特征.BCNN使用雙線性模型模擬圖像的位置和外觀兩個(gè)變量,該文獻(xiàn)中的可視化實(shí)驗(yàn)證明BCNN對(duì)高度定位的局部特征具有強(qiáng)大的激活功能.
傳統(tǒng)的魚(yú)類(lèi)識(shí)別研究依賴(lài)于手工提取的特征,這些方法是任務(wù)驅(qū)動(dòng)的,泛化能力弱.例如,Strachan等[19]比較了依據(jù)不變矩、不匹配的優(yōu)化和形狀描述符3種不同的識(shí)別方法,在一個(gè)魚(yú)的小型數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率分別為73%、63%和90%.Larsen等[20]基于形狀和紋理對(duì)3種魚(yú)類(lèi)進(jìn)行分類(lèi)并達(dá)到76%的識(shí)別率.Huang等[21]提出了一種平衡保證優(yōu)化樹(shù)(BGOT)算法來(lái)控制層次分類(lèi)中的誤差累積.他們對(duì)包含從水下錄像中收集的10種物種的3179條魚(yú)類(lèi)圖像的數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),得到了95%的準(zhǔn)確度.隨后,Huang等[22]進(jìn)一步使用高斯混合模型(GMM)結(jié)合BGOT來(lái)改進(jìn)層次分類(lèi)中的性能.White等[23]開(kāi)發(fā)了一款應(yīng)用用于自動(dòng)識(shí)別魚(yú)類(lèi)并測(cè)量魚(yú)的長(zhǎng)度,通過(guò)矩不變方法確定魚(yú)的方向.
近幾年,深度學(xué)習(xí)逐漸應(yīng)用到魚(yú)類(lèi)圖像識(shí)別.例如,Ding等[5]設(shè)計(jì)了3種不同深度的卷積神經(jīng)網(wǎng)絡(luò)用于魚(yú)類(lèi)識(shí)別.Qin等[6]提出了一個(gè)用于魚(yú)類(lèi)分類(lèi)的5層深度網(wǎng)絡(luò).然而這些方法很少針對(duì)魚(yú)類(lèi)細(xì)節(jié)特征進(jìn)行識(shí)別,仍不夠完善.
單一的圖像紋理或顏色特征不能滿足圖像細(xì)粒度分類(lèi)的要求,深度特征更具魯棒性和有效性.本文所提方法加入了可以作為注意力機(jī)制的空間變換網(wǎng)絡(luò)來(lái)選擇感興趣的目標(biāo)區(qū)域,并對(duì)目標(biāo)進(jìn)行放大,再運(yùn)用雙線性網(wǎng)絡(luò)進(jìn)一步定位學(xué)習(xí)局部具有判別性細(xì)節(jié)特征,因此可以適應(yīng)魚(yú)類(lèi)圖像的角度多樣、姿態(tài)復(fù)雜的特點(diǎn),具有更好的性能.
本節(jié)介紹所提STB fish-net的網(wǎng)絡(luò)模型.如圖1所示,STB fish-net由空間變換網(wǎng)絡(luò)和雙線性網(wǎng)絡(luò)兩部分組成.其中,空間變換網(wǎng)絡(luò)[24]作為一種注意力機(jī)制用于選擇感興趣的圖像區(qū)域.雙線性網(wǎng)絡(luò)提取圖像的基于VGG-16的雙線性特征,融合后的特征對(duì)圖像某個(gè)具有判別性的局部區(qū)域有高度響應(yīng),從而識(shí)別該魚(yú)類(lèi)物種.
圖1?所提STB fish-net模型結(jié)構(gòu)示意
空間變換網(wǎng)絡(luò)是一種動(dòng)態(tài)機(jī)制,可以通過(guò)為每個(gè)輸入樣本生成適當(dāng)?shù)淖儞Q,主動(dòng)對(duì)圖像進(jìn)行包括縮放、裁剪、旋轉(zhuǎn)以及非剛性變形的空間變換.這允許空間變換網(wǎng)絡(luò)選擇最感興趣的圖像區(qū)域,去除一部分復(fù)雜的背景,以簡(jiǎn)化后續(xù)的分類(lèi)任務(wù),提高分類(lèi)性能.空間變換網(wǎng)絡(luò)可以通過(guò)標(biāo)準(zhǔn)的反向傳播進(jìn)行訓(xùn)練,可進(jìn)行端到端的訓(xùn)練.本文將空間變換網(wǎng)絡(luò)視為一種注意力機(jī)制來(lái)捕獲目標(biāo)區(qū)域.
空間變換網(wǎng)絡(luò)結(jié)構(gòu)如圖1左側(cè)虛線框內(nèi)所示,由定位網(wǎng)絡(luò)、網(wǎng)格生成器和采樣器3部分組成.
2.1.1?定位網(wǎng)絡(luò)
2.1.2?網(wǎng)格生成器
(1)
本文的目的是找到輸入圖像中感興趣的區(qū)域,故而使用變換
(2)
2.1.3?采樣器
(3)
雙線性網(wǎng)絡(luò)用于提取經(jīng)過(guò)空間變換網(wǎng)絡(luò)后的圖像的雙線性特征,結(jié)構(gòu)如圖1右側(cè)虛線框內(nèi)所示.雙線性網(wǎng)絡(luò)即融合圖像兩種深度特征的網(wǎng)絡(luò)結(jié)構(gòu).所提方法提取圖像基于VGG-16的雙線性特征,首先應(yīng)用兩個(gè)VGG-16網(wǎng)絡(luò)提取圖像特征,然后將特征圖進(jìn)行轉(zhuǎn)置操作與原特征圖做外積得到雙線性特征.
(4)
將圖像上所有位置的特征求和得到整個(gè)圖像的特征表示為
(5)
VGG-16是一個(gè)經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò),它采用了3×3的卷積核,前面是5段卷積層和池化層的堆疊,后面幾層是全連接層,最后是Softmax分類(lèi)器.在所提方法中,提取了第5段卷積層之后輸出的特征圖.
雙線性特征允許兩個(gè)特征流的輸出通過(guò)所有成對(duì)的相互作用而相互調(diào)節(jié),其目的是融合兩個(gè)網(wǎng)絡(luò),使得在相同位置的通道響應(yīng)相對(duì)應(yīng).經(jīng)過(guò)空間變換網(wǎng)絡(luò)后的圖像只包含目標(biāo)區(qū)域,如果卷積網(wǎng)絡(luò)中的濾波器對(duì)某些空間位置(魚(yú)身或魚(yú)尾)的紋理有響應(yīng),并且另一個(gè)網(wǎng)絡(luò)可以識(shí)別該位置,那么它們的組合識(shí)別該魚(yú)類(lèi)物種.
(6)
1) F4K(FishForKnowledge)
F4K數(shù)據(jù)集[25]是由F4K項(xiàng)目制作的一個(gè)公開(kāi)數(shù)據(jù)集,該數(shù)據(jù)集是從開(kāi)放海域捕獲的實(shí)況視頻中截取的魚(yú)類(lèi)畫(huà)面,包含23種魚(yú)類(lèi),共27370張圖像.不同種類(lèi)的圖像數(shù)量差異巨大,數(shù)量最多的一類(lèi)包含12112張圖像,數(shù)量最少的一類(lèi)只有16張圖像.圖2是其中6個(gè)種類(lèi)的示例,每一類(lèi)圖像不僅在姿態(tài)、大小方位上不同,顏色、紋理也有差異.按照文獻(xiàn)[6]中的設(shè)置,將該數(shù)據(jù)集5/7設(shè)為訓(xùn)練集,1/7設(shè)為驗(yàn)證集,1/7設(shè)為測(cè)試集,訓(xùn)練集中數(shù)量小于300的種類(lèi),隨機(jī)旋轉(zhuǎn)負(fù)-10°~10°之間的度數(shù),重復(fù)5次,得到擴(kuò)充的數(shù)據(jù)集.
文獻(xiàn)[26]只選取了F4K數(shù)據(jù)集中的15類(lèi)進(jìn)行實(shí)驗(yàn),并將3/5設(shè)為訓(xùn)練集,1/5設(shè)為驗(yàn)證集,1/5設(shè)為測(cè)試集.為了比較,本文按照文獻(xiàn)[26]中的實(shí)驗(yàn)進(jìn)行設(shè)置.
圖2?F4K數(shù)據(jù)集示例
2) Fish100
Fish100數(shù)據(jù)集是由筆者在一個(gè)公開(kāi)數(shù)據(jù)上整理得到,并公開(kāi)發(fā)布.Image CLEF提供的marine animal species數(shù)據(jù)集中包含了各種海洋生物,因?yàn)槭菑木W(wǎng)絡(luò)下載的緣故,其中一些圖片分類(lèi)錯(cuò)誤,筆者參考專(zhuān)業(yè)書(shū)籍,并加入了一些新的類(lèi)別,重新整理了100類(lèi)魚(yú)類(lèi)圖像,共6358張,如圖3所示.此數(shù)據(jù)集不同魚(yú)類(lèi)相似度很高,而同一種魚(yú)類(lèi)由于環(huán)境影響或變態(tài)發(fā)育等導(dǎo)致差異很大.由于圖像數(shù)量較少,實(shí)驗(yàn)中只設(shè)置了訓(xùn)練集和測(cè)試集,其中將數(shù)據(jù)集的4/5作為訓(xùn)練集,1/5作為測(cè)試集,實(shí)驗(yàn)結(jié)果采用5折交叉驗(yàn)證方式.表1所示為本文實(shí)驗(yàn)用到的3個(gè)數(shù)據(jù)集中訓(xùn)練集、驗(yàn)證集、測(cè)試集的設(shè)置.
圖3?Fish100 數(shù)據(jù)集示例
表1?訓(xùn)練集、驗(yàn)證集和測(cè)試集的設(shè)置
Tab.1?Training,validation and test sets
注:F4K(23)表示包含23種魚(yú)類(lèi)的F4K數(shù)據(jù)集;F4K(15)表示包含15種魚(yú)類(lèi)的F4K數(shù)據(jù)集.
圖4?空間變換網(wǎng)絡(luò)在F4K數(shù)據(jù)集上的輸入輸出圖像示例
圖5 空間變換網(wǎng)絡(luò)在Fish100數(shù)據(jù)集上的輸入輸出圖像示例
實(shí)驗(yàn)中batch size設(shè)為16.訓(xùn)練時(shí),首先用在ImageNet數(shù)據(jù)集上訓(xùn)練好的參數(shù)初始化VGG-16網(wǎng)絡(luò),學(xué)習(xí)速率為0.9,動(dòng)量0.9,用訓(xùn)練集僅訓(xùn)練最后一層,迭代1000次,損失收斂后,保存參數(shù),再用訓(xùn)練集以0.001的學(xué)習(xí)速率微調(diào)整個(gè)網(wǎng)絡(luò),迭代1000次,損失收斂后,在測(cè)試集得到最終的性能.實(shí)驗(yàn)結(jié)果如表2所示.
表2?實(shí)驗(yàn)結(jié)果對(duì)比
Tab.2?Comparison of experimental results
選取的對(duì)比算法分別是:基于分類(lèi)回歸樹(shù)的方法(CART)[27],基于使用拒絕選項(xiàng)的強(qiáng)制平衡優(yōu)化樹(shù)的方法(BEDTR)[26],VGG-16[7],雙線性卷積神經(jīng)網(wǎng)絡(luò)(BCNN)[18],以及Qin等[6]提出的包含空間金字塔池化層等的5層深度網(wǎng)絡(luò).其中前2個(gè)是傳統(tǒng)方法,后3個(gè)是基于深度學(xué)習(xí)的方法.另外,CART[27]和BEDTR[26]算法只在F4K(15)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),DeepFish[6]算法只在F4K(23)上進(jìn)行了實(shí)驗(yàn),由于筆者沒(méi)有公布代碼,為此本文只將這些對(duì)比算法在相應(yīng)數(shù)據(jù)集上進(jìn)行了對(duì)比.而B(niǎo)CNN[18]和VGG-16[7]在3個(gè)數(shù)據(jù)集上均進(jìn)行了實(shí)驗(yàn).
從表2可以看出,在3個(gè)數(shù)據(jù)集上,所提STB fish-net方法均取得了最好的性能,分別高于性能第2高的算法0.56%、0.12%和0.98%.DeepFish[6]方法是一個(gè)包含卷積層、非線性層、特征池化層,空間金字塔池化層和分類(lèi)器的深度網(wǎng)絡(luò),其沒(méi)有針對(duì)細(xì)粒度圖像識(shí)別難點(diǎn)的結(jié)構(gòu),而所提STB fish-net方法中的空間變換和雙線性特征使得網(wǎng)絡(luò)更能夠關(guān)注到對(duì)分類(lèi)有重要意義的局部區(qū)域.從表2中還可以看出,BCNN[18]方法優(yōu)于VGG-16[7]方法,準(zhǔn)確率在3個(gè)數(shù)據(jù)集上分別提高了5%、6%和10%,并且能媲美甚至好于現(xiàn)有的魚(yú)類(lèi)識(shí)別算法,說(shuō)明相比于傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò),BCNN更適應(yīng)于細(xì)粒度圖像識(shí)別,圖像的雙線性特征對(duì)圖像中具有判別性的區(qū)域有較強(qiáng)響應(yīng)[18].所提STB fish-net方法要優(yōu)于VGG-16[7]和BCNN[18]方法,使得實(shí)驗(yàn)結(jié)果進(jìn)一步提升,說(shuō)明利用空間變換網(wǎng)絡(luò)去除復(fù)雜背景有助于提升分類(lèi)性能.
此外,將不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比發(fā)現(xiàn),在數(shù)據(jù)集F4K(23)和F4K(15)上的結(jié)果要明顯好于數(shù)據(jù)集Fish100,原因主要有如下兩點(diǎn):①圖像類(lèi)別和數(shù)量存在差異,F(xiàn)4K(23)和F4K(15)分別包含23種和15種魚(yú)類(lèi),遠(yuǎn)少于Fish100的100類(lèi);而圖像總數(shù)是27370和24150,要明顯多于Fish100的6358.②相比于另外兩個(gè)數(shù)據(jù)集,F(xiàn)ish100類(lèi)間相似度更高,類(lèi)內(nèi)差異性更大.因此,F(xiàn)ish00數(shù)據(jù)集的挑戰(zhàn)性要更大.
圖6是在F4K(15)數(shù)據(jù)集上得到的混淆矩陣,水平方向是預(yù)測(cè)類(lèi)別,垂直方向是真實(shí)類(lèi)別,各方塊內(nèi)的數(shù)字代表測(cè)試集中各種預(yù)測(cè)結(jié)果的數(shù)量,對(duì)角線內(nèi)為預(yù)測(cè)正確的數(shù)量.從圖4中可以看出,許多圖像都被錯(cuò)誤地分類(lèi)為Dascyllus,在訓(xùn)練集中Dascyllus的數(shù)量為12174,遠(yuǎn)遠(yuǎn)多于其他類(lèi)別.由此可得,影響實(shí)驗(yàn)結(jié)果的主要原因是不同類(lèi)別之間的數(shù)量不均衡,不同類(lèi)別之間最大的數(shù)量差距在500倍左右,樣本不均衡使得算法更傾向于把數(shù)據(jù)少的類(lèi)分到數(shù)據(jù)多的類(lèi)里,因此,很多種類(lèi)都被誤判為數(shù)量最多的Dascyllus.在F4K(23)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),依照文獻(xiàn)[6]中的設(shè)置對(duì)數(shù)量少的類(lèi)別進(jìn)行數(shù)據(jù)增強(qiáng),改善樣本不均衡問(wèn)題.
圖6?在F4K(15)數(shù)據(jù)集上得到的混淆矩陣
本文提出了一個(gè)基于空間變換和雙線性卷積神經(jīng)網(wǎng)絡(luò)的魚(yú)類(lèi)細(xì)粒度識(shí)別算法.該方法利用空間變換網(wǎng)絡(luò)作為注意力機(jī)制,去除圖像背景中復(fù)雜的干擾信息,獲取圖像中目標(biāo)區(qū)域,然后提取目標(biāo)區(qū)域的雙線性特征用于分類(lèi),在不同的魚(yú)類(lèi)數(shù)據(jù)集上驗(yàn)證了其有效性.此外,所提算法能夠提取細(xì)粒度圖像的判別性特征,可應(yīng)用于圖像檢索、信息融合[28]和顯著性檢測(cè)相關(guān)領(lǐng)域.
考慮到將水下圖像分辨率低的特點(diǎn),今后將從提升圖像質(zhì)量方面來(lái)改善模型,例如與水下圖像增強(qiáng)或超分辨率算法相結(jié)合,增加圖像的細(xì)節(jié)特征,進(jìn)一步提升算法性能.
[1] Lee D J,Schoenberger R B,Shiozawa D,et al. Contour matching for a fish recognition and migration-monitoring system[C]//The International Society for Optics and Photonics. Maspalomas,Spain,2004:37-48.
[2] Ruff B,Marchant J,F(xiàn)rost A. Fish sizing and monitoring using a stereo image analysis system applied to fish farming[J]. Aquacultural Engineering,1995,14(2):155-173.
[3] Spampinato C,Chen-Burger Y,Nadarajan G,et al. Detecting,tracking and counting fish in low quality unconstrained underwater videos[C]//3rd International Conference on Computer Vision Theory and Applications. Funchal,Portugal,2008:514-519.
[4] Spampinato C,Giordano D,Salvo R,et al. Automatic fish classification for underwater species behavior understanding[C]//ACM International Workshop on Analysis Andretrieval of Tracked Events and Motion in Imagery Streams. Firenze,Italy,2010:45-50.
[5] Ding G,Song Y,Guo J,et al. Fish Recognition using convolutional neural network[C]//Oceans Conference. Anchorage,USA,2017:1-4.
[6] Qin H,Li X,Liang J,et al. DeepFish:Accurate underwater live fish recognition with a deep architecture[J]. Neurocomputing,2016,187:49-58.
[7] Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]// https://arxiv. org/abs/1409. 1556, 2015-04-10.
[8] Wang X,Wang Z. A novel method for image retrieval based on structure elements’ descriptor[J]. Journal of Visual Communication and Image Representation,2013,24(1):63-74.
[9] Wang X,Chen Z,Yun J. An effective method for colorimage retrieval based on texture[J]. Computer Standards& Interfaces,2012,34(1):31-35.
[10] Wang X,Wang Z. The method for image retrieval based on multi-factors correlation utilizing block truncation coding[J]. Pattern Recognition,2014,47(10):3293-3303.
[11] Wang C,Wang X,Xia Z. Geometrically invariant imagewatermarking based on fast Radial Harmonic Fourier Moments[J]. Signal Processing:Image Communica-tion,2016,45:10-23.
[12] Wang C,Wang X,Li Y. Quaternion polar harmonic Fourier moments for color images[J]. Information Sciences,2018,450:141-156.
[13] Zhang N,Donahue J,Girshick R,et al. Part-based R-CNNs for fine-grained category detection[C]//European Conference on Computer Vision. Zurich,Switzerland,2014:834-849.
[14] Ji Zhong,Yu Yunlong,Pang Yanwei,et al. Manifold regularized cross-modal embedding for zero-shot learning [J]. Information Sciences,2017,378:48-58.
[15] 冀?中,謝于中,龐彥偉. 基于典型相關(guān)分析和距離度量學(xué)習(xí)的零樣本學(xué)習(xí)[J]. 天津大學(xué)學(xué)報(bào):自然科學(xué)與工程技術(shù)版,2017,50(8):813-820.
Ji Zhong,Xie Yuzhong,Pang Yanwei. Zero-shot learning based on canonical correlation analysis and distance metric learning[J]. Journal of Tianjin University:Science and Technology,2017,50(8):813-820(in Chinese).
[16] Zhang N,Shelhamer E,Gao Y,et al. Fine-grained poseprediction,normalization,and recognition[J]. Computer Science,2015,69(2):207-221.
[17] Zhang H,Xu T,Elhoseiny M,et al. SPDA-CNN:Unifying semantic part detection and abstraction for fine-grained recognition[C]//International Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:1143-1152.
[18] Lin T,RoyChowdhury A,Maji S. Bilinear CNN modelsfor fine-grained visual recognition[C]//International Conference on Computer Vision. Santiago,Chile,2015:1449-1457.
[19] Strachan N,Nesvadba P,Allen A. Fish species recognition by shape analysis of images[J]. Pattern Recognition,1990,23(5):539-544.
[20] Larsen R,Olafsdottir H,Ersb?ll B. Shape and texture based classification of fish species[C]//Scandinavian Conference on Image Analysis. Oslo,Norway,2009:745-749.
[21] Huang P,Boom B,F(xiàn)isher R. Underwater live fish recognition using a balance-guaranteed optimized tree[C]// Asian Conference on Computer Vision. Daejeon,Korea,2013:422-433.
[22] Huang P,Boom B,F(xiàn)isher R. GMM improves the reject option in hierarchical classification for fish recognition[C]//Winter Conference on Applications of Computer Vision. Steamboat Springs,USA,2014:371-376.
[23] White D,Svellingen C,Strachan N. Automated measurement of species and length of fish by computer vision[J]. Fisheries Research,2006,80(2):203-210.
[24] Jaderberg M,Simonyan K,Zisserman A,et al. Spatial transformer networks[C]//Advances in Neural Information Processing Systems. Montreal,Canada,2015:2017-2025.
[25] Boom B,Huang P,He J,et al. Supporting ground-truthannotation of image datasets using clustering[C] //International Conference on Pattern Recognition. Tsukuba,Japan,2012:1542-1545.
[26] Huang P X,Boom B T,F(xiàn)isher R B. Hierarchical classification with reject option for live fish recognition[J]. Machine Vision and Applications,2014,26(1):89-102.
[27] Hastie T,Tibshirani R,F(xiàn)riedman J,et al. The Elements of Statistical Learning[M]. New York:Springer,2009.
[28] Unar S,Wang X,Zhang C. Visual and textual information fusion using Kernel method for content based image retrieval[J]. Information Fusion,2018,44:176-187.
Fine-Grained Fish Image Classification Based on a Bilinear Network with Spatial Transformation
Ji Zhong1,Zhao Kexin1,Zhang Suoping2,Li Mingbing2
(1. School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China; 2. National Ocean Technology Center,Tianjin 300072,China)
Effective classification of various fish species under water has great practical and theoretical significance. Due to the extreme conditions of the ocean,underwater images have very low resolution. Since the living environment is highly complex,fish images have properties of high inter-class similarity,large intra-class variety,and are greatly affected by light,angle,posture etc. These factors make fish classification a challenging task. To cope with these challenges,a deep fine-grained fish imageclassification model is proposed. It consists of a spatial transformer network and a bilinear network. Specifically,the spatial transformer network aims at removing the complex background as an attention mechanism and selecting the region of interest in the image. The bilinear network extracts the bilinear features of the image by fusing the feature maps of two deep networks,so that it responds to the discriminative part of the target. The model can be trained in an end-to-end way. The model achieves its best performance on the public F4K dataset. The recognition accuracy was 99.36%,which was 0.56% higher than the DeepFish algorithm. In addition,a new dataset called Fish100,containing 100 categories of 6358 images,was released. Accuracy of the model is 0.98% higher than that of the bilinear convolutional neural network(BCNN)model. Experiments on several datasets verified the effectiveness and superiority of the proposed algorithm.
fish classification;fine-grained classification;spatial transformation;bilinear network
10.11784/tdxbz201808040
TP37
A
0493-2137(2019)05-0475-08
2018-08-10;
2018-11-04.
冀中(1979— ),男,博士,副教授,jizhong@tju.edu.cn.
張鎖平,iot323@163.com.
國(guó)家自然科學(xué)基金資助項(xiàng)目(61771329);天津市自然科學(xué)基金資助項(xiàng)目(17JCYBJC16300).
the National Natural Science Foundation of China(No. 61771329),the Natural Science Foundation of Tianjin,China (No. 17JCYBJC16300).
(責(zé)任編輯:孫立華)