江佳翼,左劼,孫頻捷
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.上海政法學(xué)院,上海200000)
基于內(nèi)容的圖像檢索技術(shù)已在實(shí)際生活中廣泛使用。基于內(nèi)容的圖像檢索是指從圖像中提取出包含語義信息的特征,之后與待測數(shù)據(jù)庫中的待測圖像對(duì)應(yīng)的特征計(jì)算相似度,返回相似度最高的一些結(jié)果。傳統(tǒng)的圖像檢索會(huì)去提取圖像的紋理等信息[1],由于深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)能提取出更好的特征,在圖像檢索中能發(fā)揮更好的作用。
然而提取的各種特征只能表征圖像的一些低階信息,無法與圖像的高階語義匹配,這被稱為“語義鴻溝”,即圖像的一些固有特征與用戶的真實(shí)需求不一致。為了解決這一問題,交互式圖像檢索發(fā)揮了重要作用。交互式圖像檢索是指讓用戶參與到檢索的整個(gè)系統(tǒng)中,讓用戶對(duì)檢索結(jié)果進(jìn)行標(biāo)注,得到用戶對(duì)于結(jié)果的反饋,然后交互式圖像檢索框架對(duì)反饋信息進(jìn)行學(xué)習(xí),捕捉用戶的真實(shí)興趣,從而讓下一輪檢索效果更好。文獻(xiàn)[2]提出將交互式圖像檢索應(yīng)用在醫(yī)學(xué)領(lǐng)域,達(dá)到了一定的效果。
交互式圖像檢索的目的是學(xué)到一個(gè)新的度量,文獻(xiàn)[3]的方法利用孿生神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)用戶標(biāo)注的圖像特征和查詢圖像特征的新的相似度度量方式,文獻(xiàn)[4-5]的方法用支持向量機(jī)去學(xué)習(xí)用戶的興趣度模型,文獻(xiàn)[6]的方法將用戶的反饋劃分為四個(gè)級(jí)別,而不是一般的非正即負(fù)的反饋,通過規(guī)則挖掘來獲取圖像相關(guān)性。已有的交互式圖像檢索方法,將查詢圖像和待測圖像均看成一個(gè)整體,忽略了圖像中各個(gè)區(qū)域的重要性,而用戶對(duì)于給定的查詢圖像,往往只關(guān)注圖像中的某些區(qū)域。文獻(xiàn)[7-8]的方法利用到了區(qū)域信息,將兩個(gè)圖片最相似的區(qū)域的相似度看為兩張圖片的相似度。本文針對(duì)這個(gè)問題進(jìn)行研究,提出了利用圖像區(qū)域信息的交互式圖像檢索框架,用兩個(gè)圖片各個(gè)區(qū)域的相似度的加權(quán)平均來表征兩個(gè)圖片的總體相似度,且在交互的過程中,不斷改變各個(gè)區(qū)域的權(quán)重,以提高下一次檢索的性能。
本文的主要貢獻(xiàn)在于:
(1)用兩個(gè)圖像各個(gè)區(qū)域?qū)Φ南嗨贫鹊拿娣e加權(quán)平均來表示整個(gè)圖像的相似度,這種方式很好地利用到了區(qū)域信息。
(2)隨著交互進(jìn)行,不斷調(diào)整查詢圖像中各個(gè)區(qū)域的權(quán)重,從而讓用戶更感興趣的區(qū)域發(fā)揮更重要作用,改善了檢索性能。
圖像檢索是根據(jù)查詢圖像,從待測圖像庫中找出用戶想要的圖像結(jié)果。傳統(tǒng)基于內(nèi)容的圖像檢索會(huì)提取圖像的傳統(tǒng)特征,如紋理、顏色,來表征圖像,這種方式往往不能對(duì)圖像的內(nèi)容有很好的理解。隨著深度學(xué)習(xí)的發(fā)展,目前的基于內(nèi)容的圖像檢索是通過神經(jīng)網(wǎng)絡(luò)來提取圖像的深層特征,能更好地表達(dá)圖像的內(nèi)容。其具體做法是:將待提取圖像輸入已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型中,讓其經(jīng)過前饋計(jì)算后,得到在某一層的輸出,將其作為圖像的特征。
在得到圖像的特征之后,可以存儲(chǔ)在圖像數(shù)據(jù)庫中,方便之后使用。在檢索時(shí),會(huì)計(jì)算查詢圖像與各個(gè)待測圖像的相似度,一般選用余弦相似度。然后根據(jù)相似度從大到小排序,返回相似度最高的前K 個(gè)作為檢索結(jié)果。
為了改善圖像檢索的性能,需要使得特征能更好地表達(dá)圖像的內(nèi)容。目前的工作提出了很多的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以選擇相同網(wǎng)絡(luò)結(jié)構(gòu)中不同神經(jīng)網(wǎng)絡(luò)層去提取特征,也可以采用另一種新的網(wǎng)絡(luò)結(jié)構(gòu)去提取特征,所有這些方法他們都可以被抽象為一個(gè)特征提取器。特征提取的越好,圖像檢索的效果就越好。常見的有VGG16、VGG19 等。
基于內(nèi)容的圖像檢索只會(huì)得到圖像的固有屬性所產(chǎn)生的排序,無法在檢索的過程中得到用戶的反饋信息,為了利用用戶反饋,越來越多的研究者開始關(guān)注交互式圖像檢索。交互式圖像檢索是將用戶納入了檢索過程的整個(gè)系統(tǒng)中,具體流程如下:
(1)將用戶提供的查詢圖像Q 與待測圖像庫中的各個(gè)圖像計(jì)算特征相似度,最終結(jié)果為S,將S 排序后,返回前K 個(gè)結(jié)果。
(2)用戶對(duì)返回的K 個(gè)結(jié)果進(jìn)行標(biāo)注,結(jié)果是用戶想要的則標(biāo)注為1,反之則是0。
(3)根據(jù)用戶所有反饋信息,將其作為標(biāo)簽,與已標(biāo)注的圖像對(duì)應(yīng)的特征一起送入SVM 模型,得到一個(gè)用戶興趣度模型。
(4)將待測圖像庫中的未標(biāo)注圖片送入訓(xùn)練好的SVM 中,得到分類概率,其概率值的含義是用戶對(duì)待測圖像的興趣度P,然后乘以之前得到的相似度S,即Score=S*P。Score 即新一輪檢索的得分,返回Score最大的前K 個(gè)對(duì)應(yīng)圖像結(jié)果給用戶。
(5)重復(fù)234 過程,直到用戶停止交互。
圖像檢索的目的不僅僅是返回最相似的圖像,而還有返回用戶最想要的圖像,交互式圖像檢索能捕捉到用戶真實(shí)需求,這是圖像檢索所做不到的。根據(jù)用戶的反饋信息,我們可以訓(xùn)練出一個(gè)二分類模型,即在特征空間中尋找到一條分界線,將剩余的待測圖像分成兩部分,表示用戶對(duì)圖像的興趣度,且離這條分界線越遠(yuǎn),表示用戶的興趣度相應(yīng)的越大(或越?。?。根據(jù)興趣度與相似度的乘積,我們可以返回給用戶新的檢索結(jié)果,這些結(jié)果是既滿足與查詢圖像的相似性,又滿足用戶的興趣的結(jié)果。從而使得新的檢索結(jié)果性能更好。
已有的交互式圖像檢索框架,將圖像看作一個(gè)整體,忽略了圖像中各區(qū)域關(guān)系。對(duì)于一幅圖像,我們可以通過區(qū)域選擇算法得到其區(qū)域信息(圖1)。在所選擇到的區(qū)域中,用戶必然不是對(duì)每個(gè)區(qū)域都是同樣關(guān)注,如在圖1 中,用戶一般會(huì)對(duì)包含槍械部分的區(qū)域更關(guān)心,而對(duì)底下的畫布的關(guān)注度則沒那么強(qiáng)。所以我們需要尋求一種新的匹配措施,使得圖像的區(qū)域信息能被利用起來。
圖1 圖像的區(qū)域
為了獲得圖像中的各個(gè)區(qū)域,一般可以用窮舉法列出物體可能出現(xiàn)的區(qū)域,但是這樣做的復(fù)雜度太高。目前廣泛采取的做法是通過選擇性搜索算法(Selective Search),它會(huì)先分割整幅圖像得到小圖像,然后合并一些區(qū)域來得到最終結(jié)果。這種方法的表現(xiàn)良好,因此在本實(shí)驗(yàn)中也是采用這種算法。
我們通過Selective Search 來得到圖像的各個(gè)區(qū)域。對(duì)于查詢圖像,我們得到其N 個(gè)區(qū)域,對(duì)于待測圖像,我們得到其M 個(gè)區(qū)域。針對(duì)每個(gè)區(qū)域,我們會(huì)通過神經(jīng)網(wǎng)絡(luò)得到這個(gè)區(qū)域的特征。然后我們將查詢圖像與待測圖像的各個(gè)區(qū)域兩兩計(jì)算相似度,得到一個(gè)N*M 的相似度矩陣,如圖2。
圖2
相似度矩陣中每一個(gè)值Tij表示查詢圖像的第i個(gè)區(qū)域與待測圖像的第j 個(gè)區(qū)域的相似度。為了度量兩個(gè)圖像的相似度s,我們對(duì)矩陣的每一行求得一個(gè)最大值,其含義為:對(duì)查詢圖像的每一個(gè)區(qū)域,我們找到在其在待測圖像中最匹配的區(qū)域?qū)?yīng)的相似度。然后將所有行的最大值求平均,得到s1。
以上是基于查詢圖像去找到待測圖像中的最匹配區(qū)域??紤]到查詢圖像中,并不是每個(gè)區(qū)域,用戶都感興趣。我們也可以反過來,根據(jù)待測圖像中的區(qū)域,去找到查詢圖像中的最匹配區(qū)域,得到s2。
我們定義最終查詢圖像與待測圖像的相似度s 為:
通過這樣的區(qū)域匹配,用區(qū)域之間的相似度來表征總體的相似度,能很好地使區(qū)域信息被捕捉到。
在2.1 小節(jié)中,s1(s2)的計(jì)算是直接將各行(列)的最大值求平均,這是將圖像中的各個(gè)區(qū)域看成同等重要,但顯然,對(duì)于用戶而言,查詢圖像并不是各個(gè)區(qū)域都同樣重要。為了衡量不同區(qū)域?qū)τ脩舳缘闹匾潭?,我們給每個(gè)匹配區(qū)域?qū)Χx一個(gè)權(quán)重wi。下面介紹如何表示wi。
一般而言,區(qū)域面積大的區(qū)域,會(huì)具有更多的重要性。在這樣的假設(shè)下,我們首先通過區(qū)域面積給選出來的區(qū)域進(jìn)行加權(quán),以2.1 小節(jié)中s1 的獲得為例,我們假設(shè)查詢圖像的第i 個(gè)區(qū)域Qi與待測圖像的Imgi區(qū)域匹配,那么我們可以得到這兩個(gè)區(qū)域的面積的乘積Areai,于是可以得到一個(gè)維度為N 的向量Area,它表示了每個(gè)匹配的區(qū)域?qū)Φ拿娣e,歸一化后可以將其與區(qū)域?qū)Φ南嗨贫燃訖?quán)平均,作為基于區(qū)域面積的相似度度量方法。
然而基于面積加權(quán)的一個(gè)弊端是,每個(gè)區(qū)域的面積是固定的,所以權(quán)重也是固定的,無法在交互式圖像檢索中獲取到用戶興趣,于是我們?yōu)槊總€(gè)查詢圖像中的區(qū)域定義了變量,維度為N。我們將wi=Areaij,即我們的匹配區(qū)域?qū)Φ臋?quán)重是自定義區(qū)域權(quán)重與面積權(quán)重的綜合考量。
因此,加了權(quán)重的相似度s1 計(jì)算我們定義為s1'。則其表達(dá)式為:
我們定義的是查詢圖像的興趣度權(quán)重,因?yàn)榇郎y圖像有很多個(gè),所以我們沒有定義待測圖像的權(quán)重,這也無意義。在求得時(shí)我們用查詢圖像的權(quán)重去表示待測圖像權(quán)重:
其中wi,j表示待測圖像的j 區(qū)域匹配到的查詢圖像區(qū)域?yàn)閕 的權(quán)重。
用戶的反饋信息是用戶對(duì)之前已給出的檢索結(jié)果的標(biāo)注,1 表示對(duì)應(yīng)的檢索結(jié)果是用戶喜歡的,-1 則相反。對(duì)于每一個(gè)標(biāo)注結(jié)果,我們?nèi)匀粡南嗨贫染仃嚾胧?,取每一列最大的值,即在?jì)算s2’時(shí)待測圖像每一個(gè)區(qū)域,所匹配到的查詢圖像的區(qū)域。值得注意的是,這些區(qū)域有可能是重復(fù)的,因?yàn)榇郎y圖像的不同區(qū)域可能匹配到相同的查詢圖像區(qū)域。當(dāng)命中一次查詢圖像的區(qū)域后,如果用戶的標(biāo)注為1,那么我們認(rèn)為這個(gè)區(qū)域是用戶感興趣的區(qū)域,那我們需要增加這個(gè)命中的查詢圖像區(qū)域的權(quán)重;反之用戶的標(biāo)注為-1,那么這是一個(gè)與用戶興趣無關(guān)的區(qū)域,我們需要減小其權(quán)重。即對(duì)每一個(gè)命中區(qū)域i,其權(quán)重變化公式為:
其中,label 表示用戶標(biāo)注,取值為[1,-1],step 表示權(quán)重更新的步長,默認(rèn)取值為0.01。
可以看到,當(dāng)label 為-1 時(shí),wi會(huì)被縮小一定倍數(shù),label 為1 時(shí)則會(huì)放大一定的倍數(shù)。
在已有的交互式圖像檢索方法中,下一輪檢索得分是Score=S*P,其中S 是兩個(gè)圖像的相似度。在我們的方法中,我們得到s 的值后,也是采取Score=S’*P 的方式來得到新的排序得分。然后返回得分最高的,且未被用戶標(biāo)記過的結(jié)果。
已有的工作中,使用的數(shù)據(jù)集是Caltech101、Corel5K。Caltech101 含101 類圖像,圖像種類較多。Corel5K 含50 個(gè)主題,每個(gè)主題100 張圖像,一共5000張圖像,我們認(rèn)為其圖像種類太少,任務(wù)相對(duì)簡單。在本文實(shí)驗(yàn)中,我們選擇了Caltech256,他是Caltech101的加強(qiáng)版,含有257 類,圖像種類更多,任務(wù)難度更大。對(duì)于每一類,我們抽30 張作為待檢索圖像,10 張作為查詢圖像。所以一共有30×257=7710 張待測圖像,10×257=2570 張查詢圖像。
不同于圖像檢索,交互式圖像檢索中,我們需要記錄用戶已經(jīng)標(biāo)注的樣本,這樣在下一次檢索結(jié)果返回的時(shí)候,我們需要過濾掉已經(jīng)讓用戶看過的結(jié)果。我們采用MAP 來評(píng)估檢索的性能,AP 表示為:
其中,R 表示對(duì)于一個(gè)查詢圖像,其總的同類數(shù),Rj表示在前j 個(gè)中,有多少個(gè)是查詢圖像的同類,Ij=1表示第j 位的結(jié)果是同類,反之Ij=0 表示不是同類。我們?cè)O(shè)置n=100,然后MAP 表示所有查詢圖像的AP結(jié)果的均值。
實(shí)驗(yàn)設(shè)計(jì)如下:
(1)已有的方法:以整張圖計(jì)算相似度。
(2)基于區(qū)域?qū)Φ拿娣e加權(quán)計(jì)算方法。這種方式不隨著交互改變區(qū)域的重要度。
(3)基于區(qū)域?qū)Φ拿娣e加權(quán)以及區(qū)域重要度加權(quán)計(jì)算方法。這種方式會(huì)隨著交互的進(jìn)行,改變區(qū)域的重要度。
實(shí)驗(yàn)結(jié)果如表1,表中數(shù)值表示前100 個(gè)返回結(jié)果的MAP 值。
表1
可以看到,基于區(qū)域相似度的計(jì)算方法在多次交互中均優(yōu)于已有的交互式圖像檢索方式,這證明了基于區(qū)域相似度檢索的有效性,同時(shí),比較實(shí)驗(yàn)2 與實(shí)驗(yàn)3,我們發(fā)現(xiàn),改變了區(qū)域權(quán)重的方法,會(huì)使得交互過程中,檢索的性能改善的更好,說明區(qū)域權(quán)重很好地反映了用戶的興趣點(diǎn)所在。
本文提出了一種基于區(qū)域信息的交互式圖像檢索框架,利用了區(qū)域的面積信息,并且在用戶交互的過程中不斷調(diào)整不同區(qū)域的權(quán)重,更好地抓住了用戶對(duì)查詢圖像不同區(qū)域的興趣度,實(shí)驗(yàn)表明,我們的方法優(yōu)于目前的方法,解決了已有的交互式圖像檢索任務(wù)中對(duì)區(qū)域信息沒有利用的問題。