鐘奇林,左劼,孫頻捷
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.上海政法學(xué)院,上海200000)
近十余年來(lái),多媒體上圖像數(shù)據(jù)快速增長(zhǎng),基于內(nèi)容的圖像檢索這一研究領(lǐng)域吸引了廣大學(xué)者們的關(guān)注?;趦?nèi)容的圖像檢索的任務(wù)是用戶用待查詢圖像作為檢索任務(wù)輸入,檢索現(xiàn)有圖像庫(kù)中與待查詢圖像視覺語(yǔ)義相近的前n 張圖像。該領(lǐng)域的關(guān)鍵問題在于如何抽取低維度的具有表示能力的圖像特征,使得圖像類內(nèi)相似度高,類間相似度低。2014 年,Ali Sharif Razavian 等學(xué)者第一次提出了將預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型和Spatial Search 區(qū)域提取方法應(yīng)用到基于內(nèi)容的圖像檢索問題的Off the Shelf 方法[1],并在圖像檢索公開數(shù)據(jù)集上取得了不錯(cuò)的效果,該方法引起了學(xué)者們將卷積神經(jīng)網(wǎng)絡(luò)和圖像區(qū)域提取方法應(yīng)用于圖像檢索領(lǐng)域的關(guān)注。從2015 年至2019 年出現(xiàn)了更多基于區(qū)域、使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像檢索的研究方法,并在各公開數(shù)據(jù)集上取得了優(yōu)異的成果,進(jìn)一步證明了提取圖像區(qū)域?qū)τ趫D像檢索問題上的有效性和研究意義。
上世紀(jì)70 年代初,學(xué)者們就開始了對(duì)圖像檢索的研究,起初是研究基于文本的圖像檢索,即通過對(duì)圖像庫(kù)圖像進(jìn)行文本標(biāo)注的方式以滿足用戶方便地檢索圖像庫(kù)中相應(yīng)主題的圖像需求。直至90 年代,隨著互聯(lián)網(wǎng)上人們產(chǎn)生的圖像數(shù)據(jù)日益增多,基于文本的圖像檢索所需的人工標(biāo)注量太大,于是產(chǎn)生了基于內(nèi)容的圖像檢索,即用戶可以檢索現(xiàn)有圖像庫(kù)中與用戶查詢圖像相同場(chǎng)景、紋理、顏色分布的圖像?;趦?nèi)容的圖像檢索一般步驟分為四步,如圖1 所示。第一步:使SIFT、CNN 方法對(duì)圖像進(jìn)行特征抽??;第二步:對(duì)于抽取的圖像特征進(jìn)行聚類,聚類中心抽象為相應(yīng)的視覺詞匯,形成相應(yīng)的視覺詞匯表;第三步:對(duì)圖像抽取的特征進(jìn)行索引,產(chǎn)生表示圖像的多維特征向量;第四步:進(jìn)行圖像間相似度或距離的計(jì)算,返回用戶排序好最為相似的檢索圖像列表。這四個(gè)步驟中第二、三步屬于可選,主要被基于SIFT 方法的框架所使用?;趦?nèi)容的圖像檢索根據(jù)檢索速度大致分為兩類:基于實(shí)值特征的檢索方法和基于二值特征的檢索方法,其中經(jīng)典的二值特征方法有LSH[3]、DQN[4]、DHN[5]、ITQ[6]等方法。根據(jù)抽取特征采用方法大致也分為兩類:基于SIFT 方法抽取圖像特征的檢索方法和基于卷積神經(jīng)網(wǎng)絡(luò)抽取圖像特征的檢索方法,基于SIFT 方法抽取圖像特征的檢索方法自2003 年開始研究,研究成果頗豐,其中經(jīng)典的方法包括BOVW[7]、VLAD[8]、FV[9]、RootSIFT[10],基于卷積神經(jīng)網(wǎng)絡(luò)抽取圖像特征的檢索方法自2014 年開始研究,研究進(jìn)度較快,其中經(jīng)典的方法包括Off the Shelf、MSS[11]、R-MAC[12]、SiaMAC[13]、Deep Retrieval[14]。
圖1 CBIR圖像檢索總體框架[2]
自2013 年后,深度學(xué)習(xí)為大多數(shù)領(lǐng)域的進(jìn)一步研究提供了新的方向,CBIR 圖像檢索領(lǐng)域也出現(xiàn)了很多基于區(qū)域使用深度學(xué)習(xí)的檢索方法,這些方法抽取卷積神經(jīng)網(wǎng)絡(luò)輸出層作為特征的方式可分為兩類:
(1)抽取全連接層輸出。即抽取CNN 全連接層神經(jīng)元輸出作為輸入圖像的特征向量。
(2)抽取卷積層輸出。即抽取CNN 卷積部分的卷積層神經(jīng)元輸出值,該輸出為三階張量,需要轉(zhuǎn)換為向量,常用的轉(zhuǎn)換方法公式如下:
式中Ifeat為最終的圖像特征向量,Iconv( )W,H,K 為卷積層輸出張量,由K 個(gè)通道,每個(gè)通道上的特征圖大小為W×H。
這些方法計(jì)算圖像間相似度方式也可分為兩類:
(1)由圖像多區(qū)域間相似度計(jì)算得到圖像之間的相似度(Region Similarity to Image Similarity)。即由圖像區(qū)域特征之間的相似度計(jì)算得到圖像之間的相似度,然后根據(jù)圖像之間的相似度對(duì)檢索圖像進(jìn)行排序。該類方法為早期研究方法所采用,如Off the Shelf、MSS 等方法。方法公式如下:
(2)由圖像區(qū)域特征得到圖像特征再計(jì)算圖像間相似度(Region Feature to Image Feature)。即由圖像多區(qū)域的特征通過池化的方式處理得到圖像的特征,然后根據(jù)圖像特征向量計(jì)算得到圖像之間的相似度并對(duì)圖像進(jìn)行排序。典型的方法有R-MAC、MR-MRAC+方法。池化方法公式如下:
式中Ifeat為圖像特征向量,為圖像第j 個(gè)區(qū)域特征向量,維度均為n 維,m 維圖像提取的區(qū)域個(gè)數(shù)。為圖像特征向量第i 維度數(shù)值。func 函數(shù)可以為max、sum 等函數(shù),R-MAC、MR R-MAC+[15]方法采用sum 函數(shù)。
目前基于多尺度多分辨率方法提取區(qū)域的方法假定圖像重要區(qū)域可能出現(xiàn)在不同尺度的不同位置上,這些研究以簡(jiǎn)單快捷的多分辨率、多尺度方法獲取圖像區(qū)域,提取區(qū)域后基于圖像區(qū)域的特征得到圖像之間的相似度。該類方法主要基于Spatial Search 及其改進(jìn)方法提取圖像區(qū)域,Spatial Search 方法對(duì)于輸入圖像,提取L 級(jí)不同大小的圖像區(qū)域,對(duì)于第i 級(jí),提取i× i 個(gè)有重疊、相同大小、共同覆蓋輸入圖像的區(qū)域。Off the Shelf 方法首次采用Spatial Search 方法提取圖像區(qū)域,并使用全連接層輸出作為區(qū)域特征、Region Similarity to Image Similarity 方式計(jì)算圖像間相似度。MSS方法對(duì)Off the Shelf 方法進(jìn)行改進(jìn),將原圖像左右旋轉(zhuǎn)90 度后的圖像加入提取的圖像區(qū)域集合中。并使用卷積層輸出轉(zhuǎn)化為特征向量作為區(qū)域特征、在Region Similarity to Image Similarity 方式中使用與區(qū)域面積成正相關(guān)的權(quán)重。R-MAC 方法對(duì)Off the Shelf、MSS 方法進(jìn)行改進(jìn),先提取圖像的CNN 卷積特征Fconv,在卷積特征Fconv(W,H,K)上應(yīng)用Spatial Search 方法抽取相應(yīng)區(qū)域卷積層輸出轉(zhuǎn)化為特征向量作為區(qū)域特征,并提出Region Feature to Image Feature 方法,降低圖像之間相似度計(jì)算的復(fù)雜度。MR R-MAC+方法對(duì)R-MAC 方法進(jìn)行改進(jìn),將多分辨率概念引入?yún)^(qū)域提取方法中,同時(shí)對(duì)Spatial Search 改進(jìn)以提取不同長(zhǎng)寬比圖像的區(qū)域。
目前基于Selective Search 提取區(qū)域的方法研究不多,Selective Search 方法于2013 年J. R. R. Uijlings 等人提出以檢測(cè)圖像中目標(biāo)區(qū)域,該方法假設(shè)圖像中各物體存在層級(jí)關(guān)系,例如勺子在杯子里而被子在桌子上,由圖像分割方法產(chǎn)生小區(qū)域并不斷融合區(qū)域產(chǎn)生新區(qū)域最終得到候選目標(biāo)區(qū)域集合。OLDFP 方法[16]首次采用Selective Search 方法提取圖像中的物體區(qū)域集合,并使用全連接層輸出作為區(qū)域特征、Region Feature to Image Feature 方式獲取圖像特征向量,其在Region Feature to Image Feature 方式中使用max 函數(shù)進(jìn)行池化。方法提取的特征具有抗圖像中物體的空間位置變換、幾何變換等性質(zhì)。
目前基于RPN 網(wǎng)絡(luò)提取區(qū)域的方法借助網(wǎng)絡(luò)模型融合預(yù)測(cè)圖像目標(biāo)區(qū)域位置與目標(biāo)區(qū)域類別兩個(gè)模塊于一個(gè)模型中?;谝粋€(gè)模型改進(jìn)可以完成區(qū)域提取、區(qū)域特征提取、區(qū)域特征聚合生成圖像特征多個(gè)功能。Amaia Salvador 首次提出將Faster R-CNN 網(wǎng)絡(luò)模型應(yīng)用于CBIR 圖像檢索的方法[17],方法針對(duì)Faster RCNN 網(wǎng)絡(luò)模型提出了兩種特征池化的策略:圖像級(jí)激活層池化和區(qū)域級(jí)激活層池化。圖像級(jí)激活層池化應(yīng)用于初始檢索階段,區(qū)域級(jí)激活層池化應(yīng)用于空間重排序階段。方法使用Faster R-CNN 模型在圖像檢索數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí),便于網(wǎng)絡(luò)抽取更具有表征能力的圖像特征,并嘗試只更新分類分支的全連接層權(quán)重和整個(gè)網(wǎng)絡(luò)中除前兩層卷積層后的所有網(wǎng)絡(luò)層權(quán)重兩種方式,實(shí)驗(yàn)對(duì)比說(shuō)明后者效果明顯優(yōu)于前者。由于R-MAC 方法中提取的區(qū)域未能完整包含物體,Albert Gordo 等人對(duì)R-MAC 方法改進(jìn)提出了Deep Retrieval 方法,方法包含學(xué)習(xí)R-MAC 方法池化機(jī)制的過程,并用RPN 網(wǎng)絡(luò)解決了R-MAC 方法中提取區(qū)域未能完整包含物體的問題。在方法中使用三元排序損失的孿生神經(jīng)網(wǎng)絡(luò)對(duì)修改的網(wǎng)絡(luò)模型進(jìn)行參數(shù)調(diào)優(yōu),提升模型抽取的圖像特征表示能力。其提出的方法中訓(xùn)練、特征抽取階段如圖2 所示。
圖2 Deep Retrieval方法中訓(xùn)練、特征抽取流程[14]
2017 年Albert Gordo 等人對(duì)Deep Retrieval 方法改進(jìn)[18],引入了多分辨率,建立了一個(gè)端到端圖像特征抽取模型,模型在更大的Landmarks 數(shù)據(jù)集上遷移學(xué)習(xí),效果達(dá)到了此前的state-of-art 水平。
基于多尺度多分辨率方法提取區(qū)域的方法基于規(guī)則提取圖像區(qū)域,提取的每個(gè)區(qū)域不一定能剛好覆蓋圖像中物體,但該類型的方法具有易于實(shí)現(xiàn)、效果較好、可遷移、后續(xù)改進(jìn)方法檢索速度快等特點(diǎn)?;赟elective Search 方法提取區(qū)域的方法為使用RPN 網(wǎng)絡(luò)作為提取區(qū)域方法前的過渡階段,Selective Search 方法在輸入圖像過大時(shí)運(yùn)行時(shí)間過長(zhǎng),但Selective Search 方法基于紋理、顏色等因素融合現(xiàn)有區(qū)域產(chǎn)生目標(biāo)區(qū)域的方式更適用于自然界中拍攝的圖像,其包含的物體各種各樣,很難用RPN 網(wǎng)絡(luò)遷移學(xué)習(xí)解決?;赗PN 網(wǎng)絡(luò)提取區(qū)域的方法目前在圖像檢索公開數(shù)據(jù)集的檢索精度達(dá)到state-of-art 水平,對(duì)于特定圖像庫(kù)進(jìn)行遷移學(xué)習(xí)后效果顯著,但是需要對(duì)圖像庫(kù)中圖像的物體區(qū)域信息進(jìn)行標(biāo)注,較為耗時(shí)耗力。歸納的檢索方法在各公開圖像檢索數(shù)據(jù)集上的檢索性能對(duì)例如表1 所示。
表1 歸納方法在公開檢索數(shù)據(jù)集上精度:其中Ukbench數(shù)據(jù)集為p@4 指標(biāo)、其余數(shù)據(jù)集為MAP 指標(biāo)
基于區(qū)域的CBIR 圖像檢索方法自卷積神經(jīng)網(wǎng)絡(luò)快速發(fā)展后引領(lǐng)著圖像檢索領(lǐng)域的研究熱潮,其研究成果頗豐。近年來(lái),不少研究方法在傳統(tǒng)圖像檢索公開數(shù)據(jù)集精度已非常高,使用查詢擴(kuò)展、空間重排序等策略后,效果進(jìn)一步提升。圖像檢索開始涉足細(xì)粒度、多標(biāo)簽、醫(yī)學(xué)等領(lǐng)域,如2018 年Zheng Zhang 等人對(duì)多標(biāo)簽圖像檢索提出的IDSH 二值特征學(xué)習(xí)方法[19]、2019年Narayan Hegde 等人對(duì)于醫(yī)學(xué)HE 細(xì)胞染色圖像提出的SMILY 方法[20]。結(jié)合新領(lǐng)域的圖像檢索將會(huì)遇到新領(lǐng)域未知的檢索挑戰(zhàn),解決新領(lǐng)域新的挑戰(zhàn)將成為圖像檢索新的研究熱潮。