亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的草圖檢索方法研究進(jìn)展*

        2021-12-23 06:18:46姬子恒
        關(guān)鍵詞:細(xì)粒度草圖類別

        姬子恒,王 斌

        (南京財(cái)經(jīng)大學(xué)信息工程學(xué)院,江蘇 南京210023)

        1 引言

        基于內(nèi)容的圖像檢索技術(shù)CBIR(Content-Based Image Retrieval)[1 -3]是計(jì)算機(jī)視覺和圖像處理領(lǐng)域一個(gè)重要的研究方向,其任務(wù)是在圖像數(shù)據(jù)庫中檢索與用戶所提交樣本圖像在內(nèi)容上一致或相似的圖像,主要是通過對(duì)圖像底層特征的比較來實(shí)現(xiàn)。CBIR執(zhí)行的前提是需要用戶提供一幅自然圖像,以表達(dá)用戶的檢索意圖。但是,在實(shí)際應(yīng)用中,找到一幅準(zhǔn)確表達(dá)用戶檢索意圖的自然圖像并不容易,且在很多情況下,很難得到這樣的自然圖像,從而限制了用戶的個(gè)性語義表達(dá)。一個(gè)替代的方法是,用戶可以提供一幅自畫的草圖來表達(dá)其檢索意圖,因此基于草圖的圖像檢索技術(shù)應(yīng)運(yùn)而生?;诓輬D的圖像檢索SBIR(Sketch Based Image Retrieval)是CBIR檢索形式的擴(kuò)展,相較于CBIR,手繪草圖可更方便、更直接地表達(dá)用戶的檢索意圖。圖1a為使用百度CBIR識(shí)圖檢索系統(tǒng),用鴨子的自然圖像作為檢索圖像,返回的前4個(gè)圖像的檢索結(jié)果;圖1b為Pang等人[4]實(shí)現(xiàn)的SBIR檢索系統(tǒng),用鴨子草圖作為檢索圖像,返回的前4個(gè)圖像的檢索結(jié)果。從圖1可以看出,SBIR的檢索結(jié)果差強(qiáng)人意,對(duì)比兩者輸入圖像可獲取的信息,易看出SBIR更具有挑戰(zhàn)性。

        Figure 1 Retrieval examples of CBIR retrieval system and SBIR retrieval system圖1 CBIR檢索系統(tǒng)和SBIR檢索系統(tǒng)的檢索例圖

        草圖可以簡單分為專業(yè)素描與簡易草圖,在計(jì)算機(jī)中,專業(yè)素描往往以灰度圖像的形式表示,而簡易草圖為二值圖像[5],如圖2所示。在現(xiàn)實(shí)生活中,素描圖像通常由專業(yè)人員繪制而成,從應(yīng)用的角度來看,專業(yè)素描不具有普遍性,所以研究者們將研究集中于簡易草圖。草圖不同于圖像,圖像是由密集像素組成視覺對(duì)象的透視投影,而草圖是主觀和抽象的線條圖,它們包含非常少的目標(biāo)信息,但是卻有令人驚訝的直觀說明性。

        Figure 2 Examples of professional sketches and simple sketches圖2 專業(yè)素描與簡易草圖示例

        1.1 草圖檢索的挑戰(zhàn)性

        盡管草圖檢索取得了很大的進(jìn)展,但是目前的研究仍然面臨著幾大問題:

        (1)草圖-圖像的跨域差距。草圖與圖像為非同源數(shù)據(jù),處于不同的域空間,圖像是對(duì)物體的像素完美描繪,而草圖是高度抽象的線條集合。如何將兩者更好地進(jìn)行特征匹配或嵌入空間映射,縮小兩者的跨域差距成為最關(guān)鍵的研究內(nèi)容。

        (2)草圖多義性。由于繪畫能力和藝術(shù)表達(dá)方式因人而異,且草圖本身具有一定的模糊性,導(dǎo)致草圖會(huì)因用戶主觀意識(shí)被理解為不同的語義信息,即草圖存在大量的類間差異,如圖3所示。

        (3)草圖檢索成本問題。隨著互聯(lián)網(wǎng)2.0時(shí)代的到來,用戶產(chǎn)生的內(nèi)容越來越多,數(shù)據(jù)增加為檢索系統(tǒng)帶來巨大的壓力。當(dāng)遇到大規(guī)模檢索情景時(shí),系統(tǒng)輸入一幅手繪草圖需要與系統(tǒng)數(shù)據(jù)庫中大量的自然圖像進(jìn)行特征相似性計(jì)算,如何以更高的效率獲得理想的結(jié)果也成為草圖檢索的一大問題。

        (4)草圖數(shù)據(jù)集缺乏。與可以輕松訪問到百萬級(jí)數(shù)據(jù)集的照片(ImageNet、CIFAR等)相比,草圖研究可使用的公共數(shù)據(jù)集(Sketchy、TU-Berlin等)僅為亞萬級(jí),數(shù)據(jù)缺乏成為研究進(jìn)展緩慢的重要原因。

        1.2 傳統(tǒng)的草圖檢索方法與基于深度學(xué)習(xí)的草圖檢索方法

        在傳統(tǒng)的草圖檢索研究[6 -13]中,草圖被看作是基于形狀輪廓的表達(dá),研究重點(diǎn)集中于如何利用幾何關(guān)系表達(dá)草圖特征。特征提取通常在針對(duì)草圖特別設(shè)計(jì)的特征描述符上(例如方向邊緣直方圖[14]、關(guān)鍵形狀學(xué)習(xí)[15]等二進(jìn)制形狀特征描述符和梯度場(chǎng)[16]、尺度不變特征[17]等自然圖像特征描述符)進(jìn)行邊緣提??;之后,將草圖與邊緣圖使用歐氏距離等方法進(jìn)行相似度測(cè)量,通過相似度匹配對(duì)候選結(jié)果的輸出進(jìn)行排序與檢索;最后完成圖像檢索,傳統(tǒng)的草圖檢索方法流程圖如圖4所示。但是,由于草圖本身具有的高度抽象性,生成的特征描述子對(duì)于草圖的內(nèi)容無法有效地?cái)M合[18],因此不能滿足現(xiàn)實(shí)場(chǎng)景的使用。除此之外,使用傳統(tǒng)的草圖檢索方法無法實(shí)現(xiàn)端到端的檢索系統(tǒng),導(dǎo)致工作量大量提升。

        Figure 4 Flowchart of traditional sketch retrieval method圖4 傳統(tǒng)的草圖檢索方法流程圖

        Figure 5 Flowchart of sketch retrieval based on deep learning圖5 基于深度學(xué)習(xí)的草圖檢索流程

        2012年在ImageNet圖像識(shí)別比賽中,Hinton課題組使用AlexNet網(wǎng)絡(luò)獲得冠軍,掀起了深度學(xué)習(xí)新浪潮。草圖檢索作為計(jì)算機(jī)視覺領(lǐng)域中的重要研究方向之一,使用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)等深度學(xué)習(xí)技術(shù)已成為解決相關(guān)問題的主要方法。深度學(xué)習(xí)不同于傳統(tǒng)手工特征提取需要層層設(shè)計(jì),其可以學(xué)習(xí)手繪草圖與自然圖像包括低、中、高不同層次的深度特征,并學(xué)習(xí)理解圖像中隱含的抽象語義信息,可以有效地捕捉人類感知。深度學(xué)習(xí)提取的深度特征更適合草圖的研究,彌補(bǔ)了傳統(tǒng)方法的不足,可實(shí)現(xiàn)端到端的檢索系統(tǒng),有效地提高了草圖檢索的性能。圖5給出了基于深度學(xué)習(xí)的草圖檢索流程。

        近年來,雖然已有大量的研究工作將深度學(xué)習(xí)應(yīng)用于草圖檢索,但在國內(nèi)外還沒有發(fā)表過對(duì)該方面工作進(jìn)行系統(tǒng)歸納和總結(jié)的綜述性文獻(xiàn)。本文聚焦于基于深度學(xué)習(xí)的草圖檢索方法,對(duì)現(xiàn)有的基于深度學(xué)習(xí)的草圖檢索方法進(jìn)行綜述和評(píng)論,并對(duì)未來的相關(guān)問題的研究進(jìn)行總結(jié)和展望。本文結(jié)構(gòu)安排如下:第2節(jié)介紹基于深度學(xué)習(xí)的SBIR常用模型;第3節(jié)介紹SBIR研究常用的公共數(shù)據(jù)集;第4節(jié)探討SBIR中粗粒度與細(xì)粒度檢索問題;第5節(jié)研究基于深度學(xué)習(xí)的SBIR的檢索效率;第6節(jié)討論用于SBIR的深度模型的泛化問題;第7節(jié)進(jìn)行代表性方法的實(shí)驗(yàn)比較研究;最后一節(jié)為結(jié)束語。

        2 SBIR深度學(xué)習(xí)特征提取模型

        在圖像處理領(lǐng)域中,常用的深度學(xué)習(xí)特征提取模型包括單層網(wǎng)絡(luò)、孿生網(wǎng)絡(luò)(Siamese Network)、三重網(wǎng)絡(luò)(Triplet Network)和多層深度融合卷積神經(jīng)網(wǎng)絡(luò)等。SBIR研究不同于自然圖像相關(guān)研究,其數(shù)據(jù)包含自然圖像與手繪草圖2個(gè)部分,它們是處于2個(gè)不同領(lǐng)域的異質(zhì)數(shù)據(jù),致使研究重點(diǎn)不僅需要關(guān)注于圖像的語義、特征等內(nèi)容,還需解決跨域問題。

        SBIR研究初期,孿生網(wǎng)絡(luò)為研究者們常用的網(wǎng)絡(luò)模型,其可以實(shí)現(xiàn)異質(zhì)數(shù)據(jù)在不同網(wǎng)絡(luò)同步輸入并完成數(shù)據(jù)在嵌入空間的映射。之后,Bui等人[19]通過實(shí)驗(yàn)發(fā)現(xiàn),三重網(wǎng)絡(luò)可以更好地捕獲實(shí)例間的細(xì)微差異,適用于SBIR的研究,由此三重網(wǎng)絡(luò)模型成為SBIR研究中最常使用的結(jié)構(gòu)。本節(jié)選取具有代表性的孿生網(wǎng)絡(luò)與三重網(wǎng)絡(luò)進(jìn)行介紹。

        Figure 6 Siamese network structure 圖6 孿生網(wǎng)絡(luò)結(jié)構(gòu)圖

        2.1 孿生網(wǎng)絡(luò)(Siamese Network)

        孿生網(wǎng)絡(luò)是由Hadsell等人[20]提出的。在SBIR研究中,孿生網(wǎng)絡(luò)作為模型框架,如圖6所示,將手繪草圖與自然圖像作為模型的輸入,通過深度網(wǎng)絡(luò)學(xué)習(xí),拉近標(biāo)記為相似的草圖-圖像對(duì)在特征向量空間中的距離,而加大標(biāo)記為不相似的草圖-圖像對(duì)在特征向量空間中的距離。使用類別標(biāo)簽Y={0,1}建立三元組(S,I,Y),其中S和I分別為輸入草圖與圖像,當(dāng)Y=1時(shí),表示輸入草圖-圖像對(duì)類別相同;相反,當(dāng)Y=0時(shí),表示類別不同。對(duì)比損失函數(shù)公式(Contrastive Loss)[20]如式(1)所示:

        (1)

        一般情況下,孿生網(wǎng)絡(luò)中2個(gè)分支使用相同的CNN模型,例如AlexNet、Sketch-A-Nett和VGGNet等。近來,也有工作將不同的CNN網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)描述草圖特征的不變嵌入[19,21,22]。

        2.2 三重網(wǎng)絡(luò)(Triplet Network)

        三重網(wǎng)絡(luò)模型曾應(yīng)用于人臉識(shí)別以及跨域問題,包括3D姿勢(shì)估計(jì)(圖像與姿勢(shì)空間的映射)和場(chǎng)景描述(圖像和自然語言空間的映射)。Bui等人[19]在草圖檢索問題中首次嘗試使用三重網(wǎng)絡(luò),檢索精度取得了顯著的提升。在之后的研究中,三重網(wǎng)絡(luò)成為最常用的模型框架。三重網(wǎng)絡(luò)通常使用3個(gè)相同深度網(wǎng)絡(luò)模型的分支,每個(gè)分支輸入的數(shù)據(jù)不同,第1分支又被稱為錨分支,輸入數(shù)據(jù)為手繪草圖;第2分支輸入與輸入草圖類別相同的自然圖像,稱為正圖像;第3分支則輸入與輸入草圖類別不同的自然圖像,稱為負(fù)圖像。三重?fù)p失函數(shù)負(fù)責(zé)指導(dǎo)訓(xùn)練階段。實(shí)驗(yàn)表明,與孿生網(wǎng)絡(luò)相比,三重網(wǎng)絡(luò)可以更好地捕獲實(shí)例間的細(xì)微差異。圖7展示了三重網(wǎng)絡(luò)模型框架。

        Figure 7 Triplet network structure 圖7 三重網(wǎng)絡(luò)模型

        三重網(wǎng)絡(luò)的目的是將同一類別的草圖與正圖像之間的距離最小化,并將草圖與負(fù)圖像之間的距離最大化,通過這樣的方法增大類間距離,使輸入檢索草圖時(shí)可以在空間中獲得更好的映射。三重網(wǎng)絡(luò)給定一個(gè)三元組t(S,p+,p-),S、p+和p-分別為輸入草圖、正圖像和負(fù)圖像,其對(duì)應(yīng)的三元組損失函數(shù)[23]如式(2)所示:

        Lθ(t(S,p+,p-))=

        max(0,m+Fθ(S,p+)-Fθ(S,p-))

        (2)

        其中,m為正查詢距離和負(fù)查詢距離之間的邊距,如果草圖與正圖像之間的距離和草圖與負(fù)圖像之間的距離小于間距m,則該三元組不會(huì)受到處罰。Fθ為測(cè)量特征向量距離的方法(實(shí)值計(jì)算時(shí)常用歐氏距離,二進(jìn)制編碼時(shí)常用漢明距離)。

        3 草圖檢索常用公共數(shù)據(jù)集

        手繪草圖公共數(shù)據(jù)集在SBIR研究中起著重要的作用。手繪草圖數(shù)據(jù)的收集不同于自然圖像,不僅有數(shù)量要求,還需要在數(shù)據(jù)集中保留草圖的抽象性、模糊性和多樣性,所以同一個(gè)實(shí)例物體需要不同的人進(jìn)行繪制。本節(jié)主要介紹現(xiàn)有的常用手繪草圖公共數(shù)據(jù)集。

        3.1 TU-Berlin Extended

        TU-Berlin數(shù)據(jù)集是由Eitz等人[24]建立的,覆蓋250個(gè)物體類別,每個(gè)類別80幅,一共包含20 000幅草圖。圖8為TU-Berlin數(shù)據(jù)集部分示例圖。該數(shù)據(jù)集擁有“時(shí)序”屬性,因此除了用于粗粒度檢索之外,還可用于人類使用草圖來描述物體的過程研究。使用TU-Berlin需要配合與草圖類別相對(duì)應(yīng)的自然圖像,所以往往與Liu等人[25]提供的擴(kuò)展自然圖像數(shù)據(jù)集TU-Berlin Extended相結(jié)合使用。該擴(kuò)展數(shù)據(jù)集與TU-Berlin中草圖類別相對(duì)應(yīng),其中包含204 489幅自然圖像。數(shù)據(jù)集來源:http:∥cybertron.cg.tuberlin.de/-eitz/projects/classifysketch/。

        Figure 8 Part images in the TU-Berlin dataset圖8 TU-Berlin數(shù)據(jù)集圖像部分示例

        3.2 Sketchy Extended

        Sketchy數(shù)據(jù)集是由Sangkloy等人[26]建立的,該數(shù)據(jù)集中所有手繪草圖通過眾包方式收集,并要求參與者通過直觀回憶參考圖像的方式進(jìn)行繪畫,這樣保證了草圖本身的直觀性與抽象性。除此之外,該數(shù)據(jù)集在每一幅手繪草圖中添加Sketchablity屬性,以此完成人工標(biāo)注工作,表明該手繪草圖在繪制時(shí)的難易程度[18],為用戶提供了特定照片和草圖之間的細(xì)粒度關(guān)聯(lián)。Sketchy包含12 500件物品的自然圖像,對(duì)應(yīng)75 471幅手繪草圖,每幅圖像大約對(duì)應(yīng)6幅草圖,種類也多達(dá)125種。圖9為 Sketchy Extended數(shù)據(jù)集部分示例圖。Liu等人[25]用來自ImageNet的60 502幅圖像擴(kuò)充了Sketchy數(shù)據(jù)集。對(duì)于深度學(xué)習(xí)草圖檢索研究,Sketchy Extended也是驗(yàn)證模型有效性的數(shù)據(jù)集。數(shù)據(jù)集來源:http:∥sketchy.eye-gatech.edu/。

        Figure 9 Part images in the Sketchy Extended dataset圖9 Sketchy Extended數(shù)據(jù)集圖像部分示例

        3.3 QMUL Chair-V2和QMUL Shoe-V2

        QMUL數(shù)據(jù)集的建立是為了進(jìn)行細(xì)粒度檢索的研究,其包含2個(gè)對(duì)象種類(椅子和鞋子),分為QMUL Chair-V2和QMUL Shoe-V2[27]。為了凸顯出椅子和鞋子的類內(nèi)區(qū)別,他們將2大類物品進(jìn)行細(xì)致的小類別劃分,數(shù)據(jù)集中數(shù)據(jù)皆以草圖-圖像對(duì)的形式存在,其中自然圖像是從購物網(wǎng)絡(luò)平臺(tái)上獲得的。QMUL Shoe-V2數(shù)據(jù)集是最大的單類細(xì)粒度草圖檢索FG-SBIR(Fine-Grained Sketch-Based Image Retrieval)數(shù)據(jù)集含有1 800個(gè)訓(xùn)練草圖-圖像對(duì)和200個(gè)測(cè)試草圖-圖像對(duì)。QMUL Chair-V2含有200個(gè)訓(xùn)練草圖-圖像對(duì)和97個(gè)測(cè)試草圖-圖像對(duì)。圖10為QMUL Chair-V2和QMUL Shoe-V2數(shù)據(jù)集部分示例圖。數(shù)據(jù)集來源:http:∥sketchx.eecs.qmul.ac.uk/downloads/。

        Figure 10 Part images in QMUL Chair-V2 and QMUL Shoe-V2 datasets圖10 QMUL Chair-V2和QMUL Shoe-V2數(shù)據(jù)集圖像部分示例

        3.4 QuickDraw Extended

        QuickDraw Extended是由Dey等人[28]建立的,他們通過從QuickDraw中篩選出合適的草圖,并根據(jù)其草圖類型與自然圖像進(jìn)行了匹配,主要為了解決草圖數(shù)據(jù)集數(shù)量不足的問題。該數(shù)據(jù)集橫跨110種類別,每個(gè)類別包含3 000幅草圖,總計(jì)330 000幅草圖和204 000幅自然圖像。圖11為QuickDraw Extended數(shù)據(jù)集部分示例圖。數(shù)據(jù)集來源:https:∥githu-b.com/googlecreativelab/quickdraw-dataset。

        Figure 11 Part images in the QuickDraw Extended dataset圖11 QuickDraw Extended數(shù)據(jù)集圖像部分示例

        3.5 常用數(shù)據(jù)集的對(duì)比分析

        深度學(xué)習(xí)技術(shù)需要大量數(shù)據(jù)作為輸入,至今為止,手繪草圖數(shù)據(jù)集仍然缺乏,在一定程度上阻礙了SBIR技術(shù)的進(jìn)一步發(fā)展。以上介紹的數(shù)據(jù)集為草圖檢索研究過程中最常用的手繪草圖數(shù)據(jù)集,根據(jù)每個(gè)數(shù)據(jù)集的特性,不同的數(shù)據(jù)集可用于不同方向的草圖檢索研究。草圖檢索技術(shù)大致可分為粗粒度檢索與細(xì)粒度檢索,需要進(jìn)行細(xì)粒度檢索相關(guān)研究時(shí),研究人員需要大量的不同類別草圖與其對(duì)應(yīng)的自然圖像,所以常常使用TU-Berlin和Sketchy這2個(gè)數(shù)據(jù)集;而在進(jìn)行細(xì)粒度檢索時(shí)更加關(guān)注的是一個(gè)較大類別中的不同分類,QMUL Chair-V2、QMUL Shoe-V2和Sketchy更加合適。從深度網(wǎng)絡(luò)模型的角度來看,粗粒度數(shù)據(jù)集可以更好地反映出模型針對(duì)空間分布的高維特征映射能力,而細(xì)粒度偏向于學(xué)習(xí)數(shù)據(jù)中細(xì)節(jié)特征與語義特征,更有利于類內(nèi)目標(biāo)的檢索。表1對(duì)以上公共數(shù)據(jù)集進(jìn)行了對(duì)比與總結(jié)。

        4 粗粒度檢索與細(xì)粒度檢索

        粗粒度檢索與細(xì)粒度檢索是草圖檢索領(lǐng)域的2類問題。粗粒度檢索側(cè)重于類間差異,旨在檢索與查詢草圖共享相同類別標(biāo)簽的自然圖像。為了充分表達(dá)草圖的類間差異特征描述,CNN學(xué)習(xí)過程應(yīng)專注于草圖的全局特征和高級(jí)語義特征。細(xì)粒度檢索FG-SBIR又稱為實(shí)例級(jí)(instance-level)檢索,而細(xì)粒度檢索除了保留類別級(jí)的一致性外,還旨在保留類內(nèi)實(shí)例級(jí)別的一致性,即只有檢索結(jié)果為與輸入草圖唯一對(duì)應(yīng)的實(shí)例圖像才可判定為一次成功的檢索。深度學(xué)習(xí)應(yīng)用于粗粒度草圖檢索已有大量的研究工作,算法的檢索性能提升很快,而近來,有研究將深度學(xué)習(xí)應(yīng)用于更具挑戰(zhàn)性的細(xì)粒度草圖檢索問題,取得了一些進(jìn)展。本節(jié)對(duì)這2類研究工作進(jìn)行綜述和總結(jié)。

        4.1 粗粒度檢索

        粗粒度檢索研究中使用的深度網(wǎng)絡(luò)模型,大多以孿生網(wǎng)絡(luò)或三重網(wǎng)絡(luò)為基礎(chǔ),根據(jù)研究重點(diǎn)的不同(例如域?qū)R、語義保留等問題),提出合適的變形結(jié)構(gòu)(例如孿生同構(gòu)網(wǎng)絡(luò)、三重異構(gòu)網(wǎng)絡(luò)等)。Qi等人[29 -32]首次將孿生網(wǎng)絡(luò)應(yīng)用于粗粒度SBIR問題中,提出了針對(duì)草圖特性的CNN網(wǎng)絡(luò)結(jié)構(gòu),如圖6所示。實(shí)驗(yàn)中使用以類Sketch-A-Net[30]為基礎(chǔ)網(wǎng)絡(luò)的同構(gòu)孿生網(wǎng)絡(luò)。與傳統(tǒng)的手工提取特征方法相比,Qi等人[29]從全新的視角解決域移位問題,通過CNN學(xué)習(xí)對(duì)比損失函數(shù)引導(dǎo)模型訓(xùn)練。雖然實(shí)驗(yàn)結(jié)果與傳統(tǒng)方法相比平均精度均值mAP(mean Average Precision)僅提升了1%,但是深度學(xué)習(xí)的引入突破了傳統(tǒng)方法的束縛。

        Bui等人[19]將三重網(wǎng)絡(luò)應(yīng)用于粗粒度草圖檢索,提出并比較了幾種三重異構(gòu)CNN網(wǎng)絡(luò)。在錨分支與另外2個(gè)分支之間,通過使用不同的權(quán)重分享策略(權(quán)重?zé)o分享、權(quán)重半分享和權(quán)重全分享)進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明使用權(quán)重半分享策略的網(wǎng)絡(luò)有更好的類別概括能力,其mAP值比Qi等人提出的孿生網(wǎng)絡(luò)mAP值提升超過18%。

        Table 1 Commonly used SBIR public datasets表1 常用SBIR公共數(shù)據(jù)集

        Lei等人[31]在ImageNet數(shù)據(jù)集上使用VGG-19網(wǎng)絡(luò)訓(xùn)練得到的預(yù)訓(xùn)練模型,解決了深度網(wǎng)絡(luò)需要大量數(shù)據(jù)訓(xùn)練的問題,并使用Candy算子提取自然圖像邊緣輪廓,相比于其他邊緣提取算法可以保留更多的紋理細(xì)節(jié),使網(wǎng)絡(luò)在學(xué)習(xí)過程中獲得更多的語義信息。

        Yu等人[33]將多步驟草圖繪畫概念引入SBIR問題,文中結(jié)合手繪草圖的時(shí)序信息,將手繪草圖與圖像邊緣圖按繪畫順序分解為3部分視覺表示層,這些視覺表示層在同一層中彼此對(duì)應(yīng)。根據(jù)多層視覺表示層相應(yīng)地提出了多層深度融合卷積網(wǎng)絡(luò),基于多層視覺表示,將草圖和二進(jìn)制邊緣圖饋入多通道多尺度的深層CNN中,以提取不同層中的唯一特征表達(dá),然后將3層特征融合為最終的精確特征以代表草圖或圖像,多層融合網(wǎng)絡(luò)結(jié)構(gòu)如圖12所示。雖然將特征表達(dá)擴(kuò)展到多層可以將草圖的更多抽象和語義信息以及圖像的二進(jìn)制邊緣圖用于相似度計(jì)算,但使用多步驟訓(xùn)練存在新增筆劃信息是否有效的問題,如果所增加筆劃為無效信息,則會(huì)成為噪聲,導(dǎo)致最終得到的融合特征并非最佳特征表示。

        Figure 12 Multi-layer converged network structure圖12 多層融合網(wǎng)絡(luò)結(jié)構(gòu)

        Song等人[21]為了更好地解決草圖域和圖像域映射到公共空間域的問題,提出一種具有形狀回歸的邊緣引導(dǎo)跨域?qū)W習(xí)方法,使用邊緣引導(dǎo)模塊融合經(jīng)過級(jí)聯(lián)操作的自然圖像和相應(yīng)的邊緣圖,有效引導(dǎo)自然圖像特征提取域?qū)R過程,并使用形狀回歸模塊探索草圖與圖像之間的形狀相似性,從而縮小不同域的特征表示差異。

        Bui等人[19]的研究表明,對(duì)于具有挑戰(zhàn)性的草圖數(shù)據(jù)集(如Sketchy、Flickr15k等),用邊緣圖代替圖像將對(duì)檢測(cè)準(zhǔn)確性產(chǎn)生負(fù)面影響。雖然利用邊緣檢測(cè)算子提取出圖像邊緣圖,完成圖像域向草圖域的近似轉(zhuǎn)化,以減少域差,但是邊緣圖中存在不可避免的噪聲,而且使自然圖像只保留邊緣輪廓與空間分布信息,而丟失了大量的高維語義信息,導(dǎo)致CNN網(wǎng)絡(luò)未能發(fā)揮出其學(xué)習(xí)圖像高維特征的優(yōu)勢(shì)。使用自然圖像作為CNN輸入源更有利于語義特征的提取和域差的減少,為之后的研究提供了指導(dǎo)。表2列出了5種代表性的深度草圖粗粒度檢索方法,給出了它們所用的基礎(chǔ)網(wǎng)絡(luò)、模型結(jié)構(gòu)、使用方法、損失函數(shù)、測(cè)試數(shù)據(jù)集和檢索精度,以資對(duì)比。

        從表2可以看出,使用三重網(wǎng)絡(luò)模型[19,33,21]比使用孿生網(wǎng)絡(luò)模型[29,31]的檢索精度更高。從使用的損失函數(shù)角度來看,僅使用對(duì)比損失或三元組損失引導(dǎo)模型訓(xùn)練的實(shí)驗(yàn)結(jié)果不理想,這歸因于通過損失函數(shù)引導(dǎo)的訓(xùn)練結(jié)果在特征空間中不同類別所對(duì)應(yīng)的特征向量分布較為分散,共享同類標(biāo)簽的特征向量未能得到較好的內(nèi)聚性。

        4.2 細(xì)粒度檢索

        相較于粗粒度檢索,細(xì)粒度檢索是一項(xiàng)更富有挑戰(zhàn)性的任務(wù):(1)視覺特征不僅需要細(xì)粒度,而且還需要跨域執(zhí)行;(2)手繪草圖高度抽象,使得細(xì)粒度匹配更加困難;(3)更為重要的是,訓(xùn)練所需帶注釋的跨域草圖-圖像對(duì)數(shù)據(jù)集稀少,使得許多深度學(xué)習(xí)方法面臨巨大挑戰(zhàn)。因此,相關(guān)研究者將研究重點(diǎn)集中于如何利用高維特征與更有效的局部信息實(shí)現(xiàn)跨模態(tài)匹配。本節(jié)將對(duì)細(xì)粒度檢索研究中具有代表性的工作進(jìn)行歸納總結(jié)。

        Table 2 Five representative coarse-grained retrieval methods for sketches with deep learning表2 5種代表性的深度草圖粗粒度檢索方法

        Yu等人[27]首次將深度學(xué)習(xí)引入細(xì)粒度檢索問題中,他們?cè)陬悇e級(jí)檢索模型基礎(chǔ)上構(gòu)建具有三元組排名損失的遷移模型,該模型通過分階段預(yù)訓(xùn)練策略緩解細(xì)粒度數(shù)據(jù)不足的問題。在數(shù)據(jù)處理方面,文中將邊緣圖和草圖組合成映射對(duì),提高CNN網(wǎng)絡(luò)在特征提取過程中空間映射的有效性,但使用的網(wǎng)絡(luò)模型過于依賴數(shù)據(jù)集的信息標(biāo)注,這樣的工作將花費(fèi)大量的勞動(dòng)成本。Sangkloy等人[26]提供了Sketchy數(shù)據(jù)集,并在CNN網(wǎng)絡(luò)中加入嵌入損失與分類損失,新數(shù)據(jù)集的提出為細(xì)粒度檢索研究開辟了新的發(fā)展空間。

        Zhang等人[22]使用異構(gòu)網(wǎng)絡(luò)(網(wǎng)絡(luò)分支的網(wǎng)絡(luò)結(jié)構(gòu)或網(wǎng)絡(luò)參數(shù)不同)的變體實(shí)現(xiàn)端到端的圖像檢索,以減少邊緣圖提取在高維特征提取過程中造成的圖像信息丟失,結(jié)合對(duì)比損失與三元組排名損失進(jìn)行逐步訓(xùn)練。在他們的研究中,將Tu-Berlin、ImageNet subset、Sketchy和QMUL Chair-V2分別用于訓(xùn)練或微調(diào),這樣的做法不利于語義信息在特征空間中的保存。

        Song等人[34]引入對(duì)視覺細(xì)節(jié)的空間位置敏感的注意力模塊來實(shí)現(xiàn)空間感知,并添加連接融合塊將粗粒度語義信息與細(xì)粒度語義信息進(jìn)行融合。Song等人[34]提出的深層空間注意力FG-SBIR模型在CNN的每個(gè)分支中添加注意力模塊,用于表示學(xué)習(xí)的計(jì)算集中于特定的可辨別局部區(qū)域,而不是均勻分布在整體視圖表示上。雖然CNN特征輸出中包含細(xì)粒度信息,可以基于細(xì)微的細(xì)節(jié)進(jìn)行區(qū)分,但是2個(gè)分支之間的特征未對(duì)齊,以及每個(gè)細(xì)粒度特征的語義感知信息較少而導(dǎo)致特征噪聲更大。常用的對(duì)比損失或三元組排名損失通常使用基于歐氏距離的能量函數(shù),該函數(shù)依賴于逐元素距離的計(jì)算,導(dǎo)致對(duì)錯(cuò)位十分敏感。因此,使用這2種損失函數(shù)建立于特征向量完全按元素對(duì)齊的假設(shè)之上,這與現(xiàn)實(shí)情況不符。為了解決這些問題,文獻(xiàn)[34]提出了一種基于高階可學(xué)習(xí)能量函數(shù)HOLEF(Higher-Order Learnable Energy Function)的損耗,其基于一對(duì)輸入向量,通過向量之間加權(quán)外部減法形成的三重態(tài)損失的二階距離函數(shù)。使用此能量函數(shù),在比較草圖和圖像時(shí),將計(jì)算2個(gè)特征向量之間的外部減法,從而詳盡地測(cè)量2個(gè)域之間的逐元素特征差。雖然該實(shí)驗(yàn)檢索精度有所提升,但是檢索時(shí)間增加了一倍,效率大大降低。

        Pang等人[4]認(rèn)為在訓(xùn)練數(shù)據(jù)有限且僅關(guān)注區(qū)分性損失的情況下,僅學(xué)習(xí)2個(gè)域嵌入共同空間模型難以捕獲所有域不變信息,無法有效地推廣到與訓(xùn)練數(shù)據(jù)不同的測(cè)試域,導(dǎo)致訓(xùn)練域與測(cè)試域之間的差異和失準(zhǔn)。為此,作者引入跨域圖像合成的生成任務(wù),提出了一種新的判別-生成混合模型,該模型將強(qiáng)制被學(xué)習(xí)的嵌入空間保留對(duì)跨域重構(gòu)有用的域不變信息,從而顯著減小異域間隙。Xu等人[35]探索了SBIR中的跨模式檢索方法的有效性,使用概率方法對(duì)聯(lián)合多模態(tài)數(shù)據(jù)分布進(jìn)行建模,學(xué)習(xí)多模態(tài)相關(guān)性,利用子空間學(xué)習(xí)構(gòu)造公共子空間并將多模態(tài)數(shù)據(jù)映射到其中,以進(jìn)行跨模態(tài)匹配。實(shí)驗(yàn)表明子空間學(xué)習(xí)可以有效地對(duì)草圖-圖像域間隙進(jìn)行建模。表3列出了7種代表性的深度草圖細(xì)粒度檢索方法,給出了它們所用的基礎(chǔ)網(wǎng)絡(luò)、模型結(jié)構(gòu)、使用方法、損失函數(shù)、測(cè)試數(shù)據(jù)集和檢索精度,以資對(duì)比。

        5 深度哈希技術(shù)

        草圖檢索研究除了需要解決減少草圖與圖像之間的域差,提高檢索精度之外,還需解決大規(guī)模檢索的效率問題[38-41]。隨著數(shù)據(jù)規(guī)模的不斷增大,使用距離算法計(jì)算相似度排名會(huì)花費(fèi)巨大的存儲(chǔ)空間和檢索時(shí)間成本。哈希技術(shù)[42 -46]將圖像的高維特征映射到二值空間,用低維哈希序列來表征圖像,降低了檢索算法對(duì)計(jì)算機(jī)內(nèi)存空間的要求,提高了檢索速度。傳統(tǒng)的哈希編碼方法主要是利用手工提取的特征作為圖像表示,并通過不同的投影與量化方法(例如矢量迭代量化方法ITQ(ITerative Quantization)[39]、譜哈希方法SH(Spectral Hashing)[40]、核哈希[47]等)學(xué)習(xí)哈希碼。近年來,深度哈希技術(shù)引起了計(jì)算機(jī)視覺研究者們的關(guān)注,其通過網(wǎng)絡(luò)模型學(xué)習(xí)草圖特征向量,之后將特征向量通過完全連接層且使用Sigmoid函數(shù)作為激活函數(shù),并設(shè)定神經(jīng)元的數(shù)量,即最終想獲得的哈希碼長度。與傳統(tǒng)方法相比,跨域深度哈希(Cross Domain Deep Hashing)[48,49]編碼能夠更好地保留語義信息,同時(shí)以低計(jì)算量映射大規(guī)模異構(gòu)數(shù)據(jù),實(shí)現(xiàn)更優(yōu)質(zhì)的檢索性能。與此同時(shí),深度哈希檢索也帶了更大的挑戰(zhàn):(1)需要更緊湊的二進(jìn)制編碼實(shí)現(xiàn)有效的大規(guī)模檢索;(2)需要使特征更具區(qū)分度來緩解由于數(shù)據(jù)高度抽象帶來的劇烈變化。

        Table 3 Seven representative fine-grained retrieval methods for sketches with deep learning表3 7種代表性的深度草圖細(xì)粒度檢索方法

        采用深度哈希技術(shù)的模型的目標(biāo)函數(shù)主要由3部分組成:(1)跨域交叉熵?fù)p失:為了將同一類別的草圖與自然圖像的二進(jìn)制編碼拉近;(2)語義分解損失:為了保持類別之間的二進(jìn)制編碼語義關(guān)系;(3)量化損失。總的損失函數(shù)[25]定義如式(3)所示:

        s.t.BI∈{-1,1}m×n1,BS∈{-1,1}m×n2

        (3)

        其中,λ、γ為超參數(shù),BI、BS分別為自然圖像與草圖的二進(jìn)制編碼,W為跨域相似性矩陣,φ(TI)、φ(TS)分別為圖像與草圖的類別詞向量嵌入,D為共享的語義嵌入,ωI、ωS分別為自然圖像與草圖的特征矩陣,F(xiàn)I(ωI)、FS(ωS)分別為用于圖像與草圖的CNN網(wǎng)絡(luò)。

        Liu等人[25]首次將深度哈希方法用于草圖檢索問題中,提出了新的二進(jìn)制編碼方法——深度草圖哈希DSH(Deep Sketch Hashing),使用一種半異構(gòu)深度網(wǎng)絡(luò)并將其結(jié)合到端到端二進(jìn)制編碼框架中。在DSH學(xué)習(xí)過程中對(duì)草圖輔助信息進(jìn)行編碼,有效地減輕草圖-圖像之間的幾何失真,并捕獲到交叉視圖的相似性以及不同類別之間固有的語義相似性,但二值化過程引入的量化誤差會(huì)破壞域不變信息和跨域的語義一致性。Zhang等人[50]提出生成域遷移哈希方法,該方法使用對(duì)抗生成網(wǎng)絡(luò)GANs(Generative Adversarial Nets)[51]將草圖遷移到自然圖像中增強(qiáng)泛化能力。在提出的學(xué)習(xí)框架中使用對(duì)抗損失與循環(huán)一致性損失共同優(yōu)化了循環(huán)一致性遷移和哈希編碼,還在其中加入了注意力模塊,指導(dǎo)模型學(xué)習(xí)最具代表性的區(qū)域。表4列出了2種代表性的草圖檢索深度哈希方法,給出了它們所用的基礎(chǔ)網(wǎng)絡(luò)、模型結(jié)構(gòu)、使用方法、損失函數(shù)、測(cè)試數(shù)據(jù)集和檢索精度,以資對(duì)比。

        Table 4 Two representative sketch retrieval deep hashing methods表4 2種代表性的草圖檢索深度哈希方法

        6 類別泛化

        所謂類別泛化,即通過特征提取模型,將訓(xùn)練過程中的可見數(shù)據(jù)與語義標(biāo)簽等輔助信息(例如詞向量、屬性向量)相結(jié)合,利用特征映射空間的語義信息“推理”出未見數(shù)據(jù)類別,從而完成圖像檢索任務(wù)?,F(xiàn)在的大多數(shù)草圖研究方法無法將已訓(xùn)練的類別高維特征映射到未訓(xùn)練類別的特征空間中,完成未訓(xùn)練類別的草圖檢索,由此衍生出SBIR研究的新課題——SBIR類別泛化。在現(xiàn)實(shí)生活中,檢索系統(tǒng)訓(xùn)練數(shù)據(jù)無法涵蓋數(shù)據(jù)庫中潛在檢索查詢和候選對(duì)象的所有概念,所以草圖檢索的類別泛化成為亟需解決的新問題。

        Bui等人[52]利用三元組損失網(wǎng)絡(luò)提出了一種SBIR的有效表示,利用孿生卷積神經(jīng)網(wǎng)絡(luò)SCNN(Siamese Convolutional Neural Network)實(shí)現(xiàn)了描述不變嵌入來提高檢索可見數(shù)據(jù)以外的能力,并且提出一種緊湊圖像描述符實(shí)現(xiàn)在資源有限的移動(dòng)設(shè)備上完成對(duì)數(shù)據(jù)集的有效檢索。之后Bui等人[36]又提出一種同時(shí)具有對(duì)比損失與三元組損失的混合多級(jí)訓(xùn)練網(wǎng)絡(luò),使用該網(wǎng)絡(luò)進(jìn)行多階段回歸對(duì)數(shù)百個(gè)對(duì)象類別進(jìn)行泛化。階段1將訓(xùn)練網(wǎng)絡(luò)每個(gè)分支設(shè)定為共享權(quán)重層,學(xué)習(xí)對(duì)應(yīng)域中獨(dú)有的特征;階段2通過比較2個(gè)域中的低維特征來學(xué)習(xí)2個(gè)域中的共同特征;階段3使用三元組損失對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行調(diào)整與完善,也進(jìn)一步提高準(zhǔn)確性。但是,他們僅對(duì)未訓(xùn)練類別泛化分析進(jìn)行研究,并未進(jìn)行具體實(shí)驗(yàn)。之后一段時(shí)間內(nèi),草圖檢索泛化問題沒有取得大的突破。

        2018年由Yelamarthi等人[53]首次將零次學(xué)習(xí)ZSL(Zero-Shot Learning)[54 -62]引入草圖檢索問題中,在此之前,大多數(shù)零次學(xué)習(xí)方法應(yīng)用于自然圖像處理領(lǐng)域,該類方法建立于一個(gè)假設(shè)之上:測(cè)試數(shù)據(jù)集分為可見數(shù)據(jù)與不可見數(shù)據(jù),其共享語義空間且在語義嵌入空間中進(jìn)行域?qū)R操作[56]。通過將可見數(shù)據(jù)與跨域遷移的語義知識(shí)映射到共享的語義空間中,根據(jù)可見數(shù)據(jù)訓(xùn)練學(xué)習(xí)到的嵌入屬性完成對(duì)不可見數(shù)據(jù)的檢索。零次學(xué)習(xí)的挑戰(zhàn)性在于如何通過共享空間中的語義信息完成域?qū)R,從而實(shí)現(xiàn)不可見數(shù)據(jù)分類。隨著新事物的不斷增加,使用零次學(xué)習(xí)提高泛化能力成為必然趨勢(shì)。圖13所示為零次學(xué)習(xí)示意圖。

        Figure 13 Schematic diagram of zero-shot learning圖13 零次學(xué)習(xí)示意圖

        Yelamarthi等人[53]提出了ZS-SBIR的新基準(zhǔn),以VGGNet為基礎(chǔ)網(wǎng)絡(luò),為草圖檢索問題設(shè)計(jì)了條件變體自動(dòng)編碼器框架CVAE(Conditional Variational AutoEncode)和對(duì)抗自動(dòng)編碼器框架CAAE(Conditional Adversarial AutoEncode),如圖14所示。本質(zhì)上,文中模型將草圖特征向量作為輸入,使用生成模型隨機(jī)填充缺失的信息,從而生成更多可能的圖像向量,利用這些生成的圖像特征向量從數(shù)據(jù)庫中檢索圖像。在Yelamarthi等人的實(shí)驗(yàn)中,將草圖與圖像數(shù)據(jù)全部作為輸入,而在泛化問題中,圖像和草圖并非所有的區(qū)域都可為跨模態(tài)映射提供關(guān)鍵的有效信息。

        Figure 14 Architecture of CVAE and CAAE 圖14 CVAE和CAAE體系結(jié)構(gòu)圖

        深度哈希有效地解決了大規(guī)模的草圖檢索問題,但是如果檢索草圖為訓(xùn)練過程中未見過的類別,使用深度哈希往往會(huì)失敗。Shen等人[63]針對(duì)這個(gè)問題提出了零次草圖圖像哈希ZSIH(Zero-Shot Image Hashing)模型。模型結(jié)構(gòu)由端到端的三重網(wǎng)絡(luò)組成,其中2個(gè)分支為二進(jìn)制編碼器,第3個(gè)分支分別利用Kronecker融合層和圖卷積來減輕草圖-圖像的異質(zhì)性并增強(qiáng)數(shù)據(jù)之間的語義關(guān)系。由于使用哈希算法的二值化過程引入的量化誤差會(huì)破壞域不變信息和跨域的語義一致性,因此文中還提出一種生成哈希算法,使零次學(xué)習(xí)知識(shí)表示得以重構(gòu)。但是,Kronecker融合層效率低下,將花費(fèi)大量的檢索成本。ZSIH是第一次將ZSL和跨域哈希相結(jié)合應(yīng)用到SBIR任務(wù)中,對(duì)ZS-SBIR的研究具有重要意義。為使草圖域與圖像域能夠更好地在公共映射空間中語義對(duì)齊,往往需要使用高階的草圖-圖像對(duì),例如Sketchy數(shù)據(jù)集。

        Dutta等人[64]提出了語義對(duì)齊的配對(duì)周期一致生成SEM PCYC(SEMantically tied Paired CYcle Consistency)模型,其中每個(gè)分支通過對(duì)抗訓(xùn)練將視覺信息映射到公共語義空間。在對(duì)抗學(xué)習(xí)中將分類損失、循環(huán)一致?lián)p失和對(duì)抗損失相結(jié)合,保持每個(gè)分支的循環(huán)一致性。該模型只需要在類別級(jí)監(jiān)督下進(jìn)行學(xué)習(xí),從而避免使用高階的草圖-圖像對(duì)或內(nèi)存融合層。

        Dey等人[28]提出了一個(gè)新的ZS-SBIR模型,在模型中嵌入外部語義信息并使用2個(gè)新的損失函數(shù)來幫助實(shí)現(xiàn)可見類與不可見類之間的語義轉(zhuǎn)換。一種為域分離損失,通過迫使網(wǎng)絡(luò)學(xué)習(xí)與域無關(guān)的嵌入來彌合域之間的差距,其中梯度反轉(zhuǎn)層GRL(Gradient Reversal Layer)鼓勵(lì)編碼器從草圖和圖像中提取互信息。另一種為語義損失,可以確保在已獲取的嵌入中保留語義信息。在理想情況下,草圖域和圖像域可以在公共語義空間完全對(duì)齊。假設(shè)理想情況成立,為使草圖檢索得到更好的效果,則需要考慮如何在學(xué)習(xí)過程中保留更多的有效語義,從而完成擁有細(xì)節(jié)語義的檢索。

        Liu等人[65]從域適應(yīng)的角度來解決以上問題,提出一種語義感知的知識(shí)保存SAKE(Semantic-Aware Knowledge prEservation)方法,通過使用師生優(yōu)化模型進(jìn)行近似計(jì)算,其中ImageNet的預(yù)訓(xùn)練模型作為教師信號(hào),結(jié)合外部語義信息指導(dǎo)語義感知知識(shí)在嵌入空間中得到更好的保存與映射,從而進(jìn)一步減少兩域域差。表5列出了6種代表性的深度草圖檢索類別泛化方法,給出了它們所用的基礎(chǔ)網(wǎng)絡(luò)、模型結(jié)構(gòu)、使用方法、損失函數(shù)、測(cè)試數(shù)據(jù)集和檢索精度,以資對(duì)比。

        從表5可以看出,SBIR類別泛化不僅關(guān)注域差減少問題,其對(duì)模型的推斷未知類別能力、域?qū)R、語義保留等方面也有較高的要求。從Bui等人[52,53,63]的研究重點(diǎn)與實(shí)驗(yàn)結(jié)果中可以看出,他們提出的模型未能較好地保留語義與捕捉類內(nèi)差異性,導(dǎo)致實(shí)驗(yàn)結(jié)果并不理想。而從Liu等人[65]的消融實(shí)驗(yàn)可知,注意力機(jī)制、語義對(duì)齊模塊和語義知識(shí)保存模塊均可有效提升模型性能。如何更好地實(shí)現(xiàn)保存語義知識(shí)、提升域?qū)R性能將成為解決類別泛化的關(guān)鍵。

        7 實(shí)驗(yàn)比較研究

        針對(duì)基于深度學(xué)習(xí)的草圖檢索,本文還進(jìn)行了實(shí)驗(yàn)比較研究,其主要目的有2個(gè):(1)評(píng)估選用測(cè)試集的特點(diǎn)與適用場(chǎng)景;(2)評(píng)估測(cè)試模型性能優(yōu)劣。數(shù)據(jù)集選取方面,本文選取了TU-Berlin和Sketchy公共數(shù)據(jù)集,這2個(gè)數(shù)據(jù)集已被多篇文獻(xiàn)[23,25,50,53,63-65]作為研究標(biāo)準(zhǔn)。本文還將較新的QuickDraw數(shù)據(jù)集[28]作為新基準(zhǔn)納入對(duì)比實(shí)驗(yàn),此數(shù)據(jù)集雖然還未得到廣泛的使用,但相比于其他2個(gè)數(shù)據(jù)集,該數(shù)據(jù)集有效地緩解了手繪草圖研究中缺少大規(guī)模草圖數(shù)據(jù)集問題,根據(jù)其特有特性可以從實(shí)驗(yàn)中獲得更加豐富的模型評(píng)估信息。模型選取方面,本文選取CVPR、ECCV、ICCV等計(jì)算機(jī)視覺頂級(jí)會(huì)議提出的3個(gè)最新SBIR模型進(jìn)行驗(yàn)證,分別為GRLZS模型[28]、SEM PCYC模型[64]和SAKE模型[65]。

        Table 5 Six representative generalization methods for sketch retrieval categories with deep learning表5 6種代表性的深度草圖檢索類別泛化方法

        Table 6 Results comparison of GRLZS,SEM-PCYC and SAKE on TU-Berlin,Sketchy,and Quickdraw datasets表6 GRLZS、SEMPCYC和SAKE在TU-Berlin、Sketchy、QuickDraw數(shù)據(jù)集上的結(jié)果對(duì)比

        7.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)平臺(tái)為一臺(tái)個(gè)人計(jì)算機(jī),CPU為Intel(R)Core(TM)i9-9900K,操作系統(tǒng)為Windows 10,內(nèi)存為32 GB,GPU為NVIDIA RTX 2080。實(shí)現(xiàn)算法的編程語言為PyThon,編程工具為Pychram,深度學(xué)習(xí)框架為PyTorch。為了實(shí)現(xiàn)有效的結(jié)果比較,本文將各模型參數(shù)盡可能統(tǒng)一。起始學(xué)習(xí)率lr=1e-4,最低衰減為lr=1e-7;參數(shù)優(yōu)化器權(quán)值β1=0.9,β2=0.999,λ=5e-4。

        7.2 評(píng)估準(zhǔn)則

        在對(duì)比實(shí)驗(yàn)中,本文采用2個(gè)標(biāo)準(zhǔn)的信息檢索性能評(píng)估準(zhǔn)則——平均精度均值和查準(zhǔn)率。

        (1)平均精度均值。

        在SBIR研究中,平均精度均值mAP為常用檢索性能評(píng)估準(zhǔn)則,其定義如式(4)所示:

        (4)

        其中,Pr(q)表示查詢草圖q的檢索精度,S表示測(cè)試集中查詢草圖的數(shù)量,Avg(·)表示平均函數(shù)。

        (2)查準(zhǔn)率。

        查準(zhǔn)率(Precision)是指在一次查詢過程中,檢索系統(tǒng)預(yù)測(cè)為正樣本圖像數(shù)量占所有返回圖像數(shù)量的比例。

        (5)

        其中,tp(true positives)表示被系統(tǒng)檢索到的正樣本圖像數(shù)量,fp(false positives)表示被系統(tǒng)檢索到的負(fù)樣本圖像數(shù)量。

        7.3 實(shí)驗(yàn)結(jié)果對(duì)比與分析

        在實(shí)驗(yàn)中,本文將TU-Berlin、Sketchy和QuickDraw 3個(gè)數(shù)據(jù)集作為基準(zhǔn),在GRLZS、SEMPCYC和SAKE 3個(gè)訓(xùn)練模型上進(jìn)行測(cè)試。通過實(shí)驗(yàn)結(jié)果對(duì)比,有利于從不同角度分析模型的優(yōu)劣,表6所示為實(shí)驗(yàn)測(cè)試結(jié)果。

        從表6的實(shí)驗(yàn)結(jié)果可以看出,3個(gè)模型在QuickDraw數(shù)據(jù)集上的測(cè)試結(jié)果均低于另外2個(gè)數(shù)據(jù)集上的測(cè)試結(jié)果。通過觀察數(shù)據(jù)集得知,雖然QuickDraw數(shù)據(jù)集相比于另外2個(gè)數(shù)據(jù)集,在手繪草圖數(shù)量上有絕對(duì)性的優(yōu)勢(shì),但是QuickDraw圖像質(zhì)量不高、表達(dá)語義模糊等原因?qū)е伦罱K的測(cè)試結(jié)果不理想。實(shí)驗(yàn)結(jié)果表明,在SBIR問題中,不僅需要草圖數(shù)量大,還需要較高質(zhì)量的草圖才能更好地進(jìn)行語義提取與泛化。觀察另外2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,在相同的模型中,使用Sketchy數(shù)據(jù)集往往比使用TU-Berlin數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果更勝一籌,根據(jù)測(cè)試結(jié)果驗(yàn)證出,無論是從數(shù)量上還是從Sketchy數(shù)據(jù)集中包含實(shí)例對(duì)標(biāo)簽的屬性來看,Sketchy是比TU-Berlin更優(yōu)質(zhì)的數(shù)據(jù)集。

        從模型角度看,在TU-Berlin和Sketchy 2個(gè)數(shù)據(jù)集上,SAKE模型與其它2個(gè)模型相比,結(jié)果有顯著的提高。與GRLZS和SEM-PCYC不同,SAKE模型著重解決域適應(yīng)問題,該模型為微調(diào)數(shù)據(jù)中的訓(xùn)練樣本生成了偽標(biāo)簽并保留在預(yù)訓(xùn)練模型中,具有豐富視覺特征的原始域知識(shí),使合適的候選圖像與干擾信息得到了更好的區(qū)分。網(wǎng)絡(luò)在進(jìn)行前向訓(xùn)練時(shí),將二進(jìn)制編碼附加到第1層的輸出中,用來指示輸入的數(shù)據(jù)是圖像域還是草圖域,用1個(gè)帶條件的自動(dòng)編碼器代替2個(gè)獨(dú)立的網(wǎng)絡(luò),幫助網(wǎng)絡(luò)學(xué)習(xí)來自不同模態(tài)輸入數(shù)據(jù)的不同特征。由于基準(zhǔn)數(shù)據(jù)集中沒有對(duì)應(yīng)標(biāo)簽,SAKE使用ImageNet預(yù)訓(xùn)練網(wǎng)絡(luò)初始化模型,作為教師信號(hào),通過外部語義知識(shí)的約束來監(jiān)督網(wǎng)絡(luò)的學(xué)習(xí)。與SAKE模型相比,雖然SEM PCYC模型使用循環(huán)一致?lián)p失函數(shù)與外部語義信息的結(jié)合,將草圖域和圖像域在嵌入空間中更好地對(duì)齊,但是未能對(duì)預(yù)訓(xùn)練模型中的有效知識(shí)進(jìn)行保存,導(dǎo)致在訓(xùn)練過程中丟失大部分知識(shí)。但是,從表6中可以清楚觀察到,SAKE模型在QuickDraw數(shù)據(jù)集上表現(xiàn)并不理想,從其使用的教師指導(dǎo)模塊可以分析其原因,QuickDraw中手繪草圖與其他2個(gè)數(shù)據(jù)集中手繪草圖相比,存在無法表達(dá)完整語義的草圖,這導(dǎo)致在教師指導(dǎo)模塊中為訓(xùn)練的模型提供較大噪聲,產(chǎn)生存在誤差的指導(dǎo)信號(hào),被訓(xùn)練出的模型無法從源數(shù)據(jù)中學(xué)習(xí)有用的感知知識(shí)進(jìn)行有效存儲(chǔ),最終的檢索效果也隨之降低。

        8 結(jié)束語

        雖然草圖檢索研究已經(jīng)取得了很大的進(jìn)展,但是還遠(yuǎn)遠(yuǎn)無法滿足實(shí)際應(yīng)用的需求,該領(lǐng)域仍然面臨很多具有挑戰(zhàn)性的問題,未來可主要著眼于如下研究工作:

        (1)到目前為止,SBIR研究可使用的公共數(shù)據(jù)集在數(shù)量上仍然不足,一定程度上阻礙了研究的進(jìn)一步發(fā)展。可用于細(xì)粒度檢索的數(shù)據(jù)集(與Sketchy數(shù)據(jù)集相似)更是成為SBIR研究的亟需資源。雖然遷移學(xué)習(xí)和無監(jiān)督機(jī)器學(xué)習(xí)可能有助于解決標(biāo)簽不足的草圖訓(xùn)練數(shù)據(jù)問題,但是為推動(dòng)SBIR研究與發(fā)展,仍然需要收集高質(zhì)量的手繪草圖數(shù)據(jù),只有在擁有充足實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上,模型才能廣泛地從手繪草圖中獲取抽象數(shù)據(jù)模式和高度復(fù)雜的時(shí)序邏輯信息。

        (2)如何將草圖與圖像之間的公共特征進(jìn)行更好的映射,減少兩域之間的差距將是一個(gè)長久的課題。本文建議參考圖像檢索領(lǐng)域中最新技術(shù)(例如動(dòng)態(tài)路由、Few-Shot、MatchNet、Meta learning等),它們應(yīng)用于其它問題中取得了很好的結(jié)果,可以為SBIR相關(guān)問題的研究提供新的思路。

        (3)現(xiàn)有的基于深度學(xué)習(xí)的草圖檢索方法所使用的網(wǎng)絡(luò)模型(如AlexNet、VGG16等),其網(wǎng)絡(luò)結(jié)構(gòu)大多是基于自然圖像的特性所設(shè)計(jì)的,然而自然圖像與手繪草圖之間存在較大差異,未能有針對(duì)草圖本身所具有的抽象性、時(shí)序性等特征設(shè)計(jì)的有效的深度學(xué)習(xí)網(wǎng)絡(luò),因此在之后的研究工作中,可以從草圖的固有特點(diǎn)有針對(duì)性地壓縮模型結(jié)構(gòu),減少網(wǎng)絡(luò)中不必要的參數(shù)等,設(shè)計(jì)專用神經(jīng)網(wǎng)絡(luò),提高檢索性能。

        猜你喜歡
        細(xì)粒度草圖類別
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        畫好草圖,尋找球心
        草圖
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        一波三折
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        久久久精品久久波多野结衣av| 一区二区三区人妻少妇| 四虎国产成人永久精品免费| 久久久午夜精品福利内容| av中文字幕不卡无码| 日本二区三区视频免费观看| 中文字幕人妻在线少妇| 野外亲子乱子伦视频丶| 日韩精品成人一区二区三区| 青青草免费激情自拍视频| 国产亚洲精品一区在线| 夜夜爽妓女8888888视频| 久久精品人成免费| 精品国产日韩无 影视| 在线精品国产亚洲av麻豆 | 啦啦啦www在线观看免费视频| 亚洲人成无码网站久久99热国产| 亚洲人妻中文字幕在线视频| 性色av色香蕉一区二区蜜桃| 亚洲国产av玩弄放荡人妇| 亚洲精品不卡电影| 用力草我小逼视频在线播放| 久久精品国产av一级二级三级| 樱桃视频影视在线观看免费| 无码 制服 丝袜 国产 另类| 亚洲一区二区三区高清视频| 欧美颜射内射中出口爆在线| 一本无码人妻在中文字幕免费 | 青春草在线观看免费视频| 在线观看一级黄片天堂| 曰批免费视频播放免费直播 | 国产精品高清亚洲精品| 国产内射一级一片内射视频| 色哟哟网站在线观看| 中文精品久久久久中文| 亚洲精品一区二区成人精品网站 | 亚洲av综合av国一区二区三区 | 中国内射xxxx6981少妇| 日韩偷拍一区二区三区视频| 免费人妻精品一区二区三区| а√天堂资源官网在线资源|