面向Logo識(shí)別的合成數(shù)據(jù)生成方法研究

2018-05-29 07:36:26江玉朝吉立新高超李邵梅

網(wǎng)絡(luò)與信息安全學(xué)報(bào) 2018年5期

江玉朝，吉立新，高超，李邵梅

（國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心，河南鄭州 450002）

1 引言

Logo識(shí)別是計(jì)算機(jī)視覺中一項(xiàng)具有挑戰(zhàn)性的任務(wù)，在很多領(lǐng)域有著廣泛的應(yīng)用，如敏感視頻識(shí)別[1]、商標(biāo)識(shí)別與產(chǎn)權(quán)保護(hù)[2]、智能交通[3]等。對(duì)于一般目標(biāo)的識(shí)別，深度學(xué)習(xí)方法已經(jīng)取得了巨大的成功[4～6]。通常，構(gòu)建一個(gè)目標(biāo)識(shí)別的深層神經(jīng)網(wǎng)絡(luò)模型需要大量手工標(biāo)注的訓(xùn)練數(shù)據(jù)，然而，在Logo識(shí)別任務(wù)中能夠獲取到的公開數(shù)據(jù)集非常小，現(xiàn)有的Logo數(shù)據(jù)集如表 1所示[7～12]。顯然，如此小的訓(xùn)練數(shù)據(jù)量對(duì)于學(xué)習(xí)具有數(shù)百萬參數(shù)的深層模型是遠(yuǎn)遠(yuǎn)不夠的，通過增加手工標(biāo)注來擴(kuò)充數(shù)據(jù)集是解決這一問題較直接而簡(jiǎn)單的思路，但是昂貴的標(biāo)注成本以及大量的時(shí)間開銷往往令人難以承受，同時(shí)，相比通用物體，很多情況下很難大量獲取到包含 Logo的真實(shí)場(chǎng)景圖像。面對(duì)種類龐雜的 Logo對(duì)象，試圖通過自動(dòng)的方式搜集大規(guī)模訓(xùn)練數(shù)據(jù)也顯得較為困難，諸如網(wǎng)絡(luò)爬蟲一類的Web數(shù)據(jù)挖掘方法雖然在一些目標(biāo)識(shí)別任務(wù)中起到了一定的作用[13,14]，但由于典型的Web圖像及其元數(shù)據(jù)中一般不包含目標(biāo)定位的相關(guān)標(biāo)注信息，采用此類方法難以獲得Logo對(duì)象的精確標(biāo)注。

表1 現(xiàn)有的Logo識(shí)別數(shù)據(jù)集

合成數(shù)據(jù)生成是指在不依賴手工標(biāo)注的前提下自動(dòng)生成與真實(shí)數(shù)據(jù)近似的合成數(shù)據(jù)，從而擴(kuò)展訓(xùn)練數(shù)據(jù)集的方法，當(dāng)沒有充足的訓(xùn)練數(shù)據(jù)可用于訓(xùn)練大型深層網(wǎng)絡(luò)時(shí)，該方法是手工標(biāo)注海量數(shù)據(jù)的有效替代方案。例如，Gupta等[15]和Jaderberg等[16]通過人工合成自然場(chǎng)景文本數(shù)據(jù)訓(xùn)練文本識(shí)別模型；Georgakis等[17]通過分割出語義級(jí)別的“桌子”“柜臺(tái)”等可能的支撐平面來指導(dǎo)合成圖像中目標(biāo)的放置，輔助室內(nèi)場(chǎng)景中的目標(biāo)檢測(cè)；Eggert等[18]使用合成數(shù)據(jù)訓(xùn)練SVM分類器進(jìn)行公司 Logo檢測(cè)；Su等[12]在文獻(xiàn)[18]的基礎(chǔ)上，考慮了合成Logo圖像上下文的多樣性，進(jìn)行了利用大規(guī)模合成的 Logo圖像訓(xùn)練深層模型的首次嘗試，較大地提升了檢測(cè)模型應(yīng)對(duì)復(fù)雜背景的頑健性。而缺陷方面，文獻(xiàn)[12,18]使用的合成 Logo圖像的方法過于樸素，對(duì)于合成圖像與真實(shí)場(chǎng)景圖像的擬合考慮嚴(yán)重不足，僅通過將變換后的 Logo模板放于任意場(chǎng)景圖像中的隨機(jī)位置完成 Logo圖像的合成。這種方式會(huì)使合成Logo圖像的上下文真實(shí)性嚴(yán)重不足，導(dǎo)致模型過多地學(xué)習(xí)到合成圖像的細(xì)節(jié)，而無法很好地泛化到真實(shí)場(chǎng)景圖像上，圖1給出了文獻(xiàn)[12,18]中合成圖像的示例。

圖1 文獻(xiàn)[12,18]中的Logo圖像合成示例

為解決深度學(xué)習(xí)框架下 Logo識(shí)別任務(wù)中標(biāo)注數(shù)據(jù)缺乏的問題，本文提出了一種新的合成訓(xùn)練數(shù)據(jù)的算法，算法在充分挖掘和利用 Logo圖像上下文信息的基礎(chǔ)上，通過合成盡可能擬合真實(shí)場(chǎng)景的 Logo圖像，在不增加額外標(biāo)注成本的前提下，實(shí)現(xiàn) Logo識(shí)別算法性能的提升。雖然這項(xiàng)工作不是合成Logo圖像的首次嘗試[12,18]，但是本文改進(jìn)了以往合成 Logo圖像的簡(jiǎn)單思路，充分利用了Logo對(duì)象內(nèi)部、Logo周圍鄰域、Logo與其他對(duì)象之間以及 Logo所處場(chǎng)景等多種類型的上下文信息，同時(shí)考慮Logo對(duì)象的自身特點(diǎn)，使借助自動(dòng)合成的 Logo圖像參與訓(xùn)練能夠產(chǎn)生更為顯著的算法性能增益。實(shí)驗(yàn)方面，本文基于Faster R-CNN[19]目標(biāo)檢測(cè)框架在 Logo識(shí)別的benchmark數(shù)據(jù)集 FlickrLogos-32[9]上進(jìn)行了詳細(xì)的實(shí)驗(yàn)驗(yàn)證，取得了當(dāng)前基于合成 Logo圖像輔助 Logo識(shí)別任務(wù)的最好結(jié)果（mAP 58.9% VS.54.8%[12]），充分驗(yàn)證了本文合成算法的有效性。此外，本文基于合成數(shù)據(jù)前提下探究的諸多訓(xùn)練策略與方法具備一定的借鑒和推廣意義。

2 基于上下文的Logo圖像合成算法

圖2給出了本文基于合成數(shù)據(jù)進(jìn)行Logo識(shí)別的整體算法框架，其中，生成合成圖像作為本文的算法核心，主要包括Logo模板選取、背景圖像選取、Logo模板變換以及Logo圖像合成4個(gè)過程，下文將分別對(duì)其進(jìn)行詳細(xì)闡述。在Logo識(shí)別模型的訓(xùn)練方面，本文基本上沿用文獻(xiàn)[12]中的順序?qū)W習(xí)策略，該策略源自于課程學(xué)習(xí)[20]中先易后難的學(xué)習(xí)思路，首先使用大規(guī)模的合成圖像預(yù)訓(xùn)練深層模型，然后用少量的真實(shí)樣本數(shù)據(jù)對(duì)模型進(jìn)行精調(diào)。除此之外，本文通過實(shí)驗(yàn)探究發(fā)現(xiàn)，先用合成圖像與真實(shí)圖像的混合數(shù)據(jù)進(jìn)行訓(xùn)練，再用真實(shí)圖像進(jìn)行精調(diào)，將取得更好的訓(xùn)練效果。

2.1 Logo模板選取

為了進(jìn)行 Logo圖像的合成，首先需要每類Logo用于合成的模板圖像。文獻(xiàn)[18]中使用像素級(jí)別的Logo掩碼（如圖3(a)所示），此類模板的背景是不透明的，因此能夠更多地保留 Logo對(duì)象原生的細(xì)節(jié)，即Logo周圍鄰域的上下文信息；而缺陷也較為明顯，一是像素級(jí)別的掩碼需要通過煩瑣的手工標(biāo)注提取得到，二是合成圖像中Logo鄰域上下文信息的多樣性有所欠缺。相反，文獻(xiàn)[12]中使用背景完全透明的Logo模板（如圖3(b)所示），使任意合成圖像中Logo鄰域的像素完全由背景圖像決定，而不是 Logo模板，這樣一來極大地提升了合成 Logo鄰域上下文的多樣性，增強(qiáng)了識(shí)別模型應(yīng)對(duì)復(fù)雜背景的頑健性；缺陷方面，一是由于采用隨機(jī)放置 Logo模板的做法，不可避免地會(huì)出現(xiàn) Logo與復(fù)雜背景混雜的情形（如圖3(b)所示），這顯然與Logo本身的設(shè)計(jì)原則[21]相違背，導(dǎo)致合成圖像與真實(shí)場(chǎng)景圖像間的差異增大，二是由于過度地引入上下文信息，模型的誤報(bào)率有所增加[12]。

圖3 文獻(xiàn)[12,18]中Logo模板選取對(duì)比

可見，以上2種Logo模板的選取做法是各有優(yōu)劣而又相互補(bǔ)充的，考慮到后續(xù)合成數(shù)據(jù)集的構(gòu)建與標(biāo)注都是自動(dòng)的，本文選擇在 Logo模板的預(yù)處理上花費(fèi)一定的開銷。因此，在 Logo模板的選取上，本文綜合選用了像素級(jí)別的Logo掩碼以及背景完全透明的Logo圖像（本文中兩者合成的數(shù)量比為1：1）。以FlickrLogos-32數(shù)據(jù)集的32類Logo為例，相應(yīng)的Logo模板如圖4所示。

圖4 選取的Logo模板

2.2 背景圖像選取

在現(xiàn)實(shí)場(chǎng)景中，目標(biāo)一般不可能單獨(dú)存在，它往往會(huì)與環(huán)境以及周圍其他對(duì)象有著千絲萬縷的聯(lián)系，這就是通常所說的上下文信息[22]。多種類型的上下文信息理論上已被證明在計(jì)算機(jī)視覺、圖像處理領(lǐng)域扮演著非常重要的角色，能夠提升檢測(cè)識(shí)別算法的精度與速度[23,24]。而作為承載合成 Logo全局上下文信息的背景圖像，文獻(xiàn)[18]和文獻(xiàn)[12]在其選擇上僅考慮了上下文的多樣性，使用FlickrLogos-32數(shù)據(jù)集中不含Logo的6 000張圖片作為合成圖像的背景來源，這樣的簡(jiǎn)單處理必然會(huì)導(dǎo)致合成的Logo圖像中蘊(yùn)含很多不真實(shí)的上下文信息，進(jìn)而影響練習(xí)得到的深層模型在真實(shí)場(chǎng)景中的泛化能力。如圖5所示，Logo十分生硬地出現(xiàn)在毫不相關(guān)的場(chǎng)景中，盡管這并不妨礙人類進(jìn)行識(shí)別，但在實(shí)際訓(xùn)練過程中這些上下文信息完全不一致的合成樣本很可能作為噪聲數(shù)據(jù)存在。

因此，在背景圖像選取方面，本文致力于減輕由于 Logo模板與背景圖像語義相關(guān)性太弱造成的上下文信息不一致的情況對(duì)算法性能的影響。具體來說，本文首先使用爬蟲程序預(yù)先為每類Logo在谷歌圖片搜索網(wǎng)站上爬取了300張與之相關(guān)的場(chǎng)景圖像，然后結(jié)合現(xiàn)今流行的基于CNN的場(chǎng)景分類模型Places365-VGG對(duì)爬取的場(chǎng)景圖像進(jìn)行批量分類，進(jìn)而統(tǒng)計(jì)出每類 Logo出現(xiàn)頻率最高的5個(gè)Top-1場(chǎng)景作為合成圖像的背景來源。其中，Places365-VGG是文獻(xiàn)[25]開源的針對(duì)大規(guī)模場(chǎng)景圖像數(shù)據(jù)庫 Places2的子集Places365訓(xùn)練的 CNN場(chǎng)景分類模型，網(wǎng)絡(luò)結(jié)構(gòu)采用的是VGG-16，其在Places365的驗(yàn)證集和測(cè)試集上均取得了目前最高的 Top-1分類精度。圖6以Starbucks為例，給出了其背景圖像選取的算法流程。

2.3 Logo模板變換

傳統(tǒng)的圖像數(shù)據(jù)增強(qiáng)方法已被證明能夠有效地豐富訓(xùn)練集、提升檢測(cè)識(shí)別模型的頑健性和泛化能力[26]。本文中不依賴傳統(tǒng)數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練集進(jìn)行擴(kuò)充，而是采用圖像合成作為訓(xùn)練數(shù)據(jù)的主要增強(qiáng)方法。實(shí)際上，在合成圖像的基礎(chǔ)上再進(jìn)行數(shù)據(jù)增強(qiáng)的意義并不大，因此本文將數(shù)據(jù)增強(qiáng)應(yīng)用于Logo模板的變換上。

圖5 不真實(shí)合成Logo圖像示例

由于實(shí)際自然場(chǎng)景中 Logo呈現(xiàn)的尺度變化范圍較大[9]，同時(shí)拍攝角度的不同可能導(dǎo)致Logo出現(xiàn)旋轉(zhuǎn)、扭曲、變形以及部分遮擋等問題[27]，此外，成像設(shè)備分辨率不同、光照條件變化等因素會(huì)顯著增加 Logo識(shí)別的難度。因此，為了盡可能擬合實(shí)際場(chǎng)景并且豐富合成圖像中 Logo的多樣性，本文對(duì)Logo模板嘗試進(jìn)行了仿射變換、隨機(jī)裁剪、顏色變換、高斯模糊等一系列增強(qiáng)變換。需要說明的是，每種變換之間相互獨(dú)立且隨機(jī)進(jìn)行。下面以仿射變換為例給出其數(shù)學(xué)描述。由于卷積神經(jīng)網(wǎng)絡(luò)本身具有平移不變性，所以本文針對(duì) Logo模板并不進(jìn)行平移變換，由此仿射變換的維度從3維降到2維，在2維平面上對(duì)于Logo模板I進(jìn)行仿射變換的具體數(shù)學(xué)形式如下。

圖6 背景圖像選取算法流程

其中，矩陣Rθ定義旋轉(zhuǎn)變換，旋轉(zhuǎn)角度θ本文選擇在的范圍內(nèi)隨機(jī)取值，但隨機(jī)變換的概率控制在0.1以下，因?yàn)閷?shí)際場(chǎng)景中Logo發(fā)生旋轉(zhuǎn)的情況較少[12]。矩陣P混合定義了尺度變換Scale(a, b)和錯(cuò)切變換Shear(c, d)，對(duì)于尺度變換，本文統(tǒng)計(jì)了Flickrlogos-32數(shù)據(jù)集整體對(duì)象的大小分布情況（如圖7所示），選擇控制Logo模板的長(zhǎng)邊變化為40～250 pixel之間的隨機(jī)數(shù)，短邊則進(jìn)行等比例縮放；錯(cuò)切變換的參數(shù)選擇為[0,0.2]之間的隨機(jī)數(shù)。圖8給出了本文Logo模板變換示意。

圖7 FlickrLogos-32數(shù)據(jù)集對(duì)象大小分布

圖8 本文Logo模板變換示意

2.4 Logo圖像合成

鑒于Logo對(duì)象具有平面性的特點(diǎn)，本文將隨機(jī)變換后的Logo模板覆蓋在語義層面上與其盡可能相關(guān)的隨機(jī)背景圖片上，從而實(shí)現(xiàn)Logo圖像的合成。與文獻(xiàn)[12,18]中將Logo模板隨機(jī)放置的做法不同，本文特別關(guān)注Logo模板在背景中出現(xiàn)的位置。誠然，試圖在背景中找到最“合理”的位置涉及Logo對(duì)象與背景中其他對(duì)象之間復(fù)雜上下文關(guān)聯(lián)關(guān)系的分析與處理，即圖像的語義分割以及場(chǎng)景理解。而在本文的語境中，參與合成的對(duì)象較為特殊——Logo作為獨(dú)立對(duì)象進(jìn)行合成，缺乏其“宿主”上下文信息的參與和指導(dǎo)，因而在語義層面上尋求合理位置的實(shí)現(xiàn)難度較高。

因此，現(xiàn)階段本文的合成目標(biāo)不追求能夠找到語義層面上最“合理”的位置，而是盡可能尋求數(shù)據(jù)層面上較合適的位置。盡管有研究[28]表明，視覺觀察到的一致性效應(yīng)很可能主要由場(chǎng)景的語義屬性造成，而與一些低級(jí)視覺特征（如顏色、形狀等）的關(guān)系不大。但依據(jù) Logo的設(shè)計(jì)原則[21]，Logo對(duì)象確實(shí)應(yīng)當(dāng)出現(xiàn)在背景中紋理較簡(jiǎn)單、色彩較單調(diào)且與 Logo本身顏色分布明顯不同的區(qū)域。

具體而言，除了少數(shù)一些由純文字符號(hào)組成的 Logo（如 Google），絕大多數(shù) Logo在設(shè)計(jì)時(shí)具備其主體色調(diào)[21]，同時(shí)在形狀輪廓方面，Logo一般都不呈現(xiàn)為規(guī)則的矩形結(jié)構(gòu)（如圖4所示）。因此在數(shù)據(jù)層面上，本文采用主顏色相似性比較算法，通過分別統(tǒng)計(jì)變換后的 Logo模板與隨機(jī)選取的背景放置區(qū)域在 HSV顏色空間中各顏色出現(xiàn)的頻率，選出最頻繁出現(xiàn)的2種顏色作為各自的主色，如果兩者的主色存在重疊，則更換背景圖片而后重新隨機(jī)選取背景放置區(qū)域，直到找到主色不重疊的位置進(jìn)行合成。算法1給出了本文Logo圖像合成算法流程。

算法1 基于主顏色相似性比較的Logo圖像合成算法

輸入變換后的Logo模板I*，隨機(jī)選取的背景圖像B

輸出合成的Logo圖像B*

1) 在背景圖像B中隨機(jī)選取Logo模板I*的放置區(qū)域ROI，并使

2) 逐像素分別計(jì)算I*與ROI在HSV顏色空間中的顏色分布。

3) 分別統(tǒng)計(jì)(ROI)，得到 I*和 ROI各自的 2個(gè)主色。返回類似[black, white]的二維數(shù)組。

4) if I*和ROI的主色存在重疊

5) 重新隨機(jī)選取背景圖像B。

6) return 1)

7) else

綜合以上4個(gè)過程，本文合成算法不僅可以實(shí)現(xiàn)基于上下文的大規(guī)模Logo圖像的自動(dòng)合成，同時(shí)能夠保證毫無遺漏地對(duì)合成圖像中的每個(gè)Logo對(duì)象進(jìn)行精確標(biāo)注，圖9給出了本文合成算法的最終效果示例。

圖9 本文合成算法的合成效果示例

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

本文實(shí)驗(yàn)采用的數(shù)據(jù)集源自奧格斯堡大學(xué)多媒體計(jì)算和計(jì)算機(jī)視覺實(shí)驗(yàn)室維護(hù)并公開的FlickrLogos-32數(shù)據(jù)集，作為 Logo識(shí)別的benchmark數(shù)據(jù)集，其通常用于評(píng)估多類Logo檢測(cè)/識(shí)別以及真實(shí)圖像上的 Logo檢索方法。FlickrLogos-32共有8 420張圖像（包含6 000張不含Logo的圖像），分為32類Logo，每類為70張且均具有較為平坦的表面。在實(shí)際訓(xùn)練過程中，本文嚴(yán)格按照該數(shù)據(jù)集的官方劃分標(biāo)準(zhǔn)，劃分每類Logo僅有10張圖像作為訓(xùn)練樣本，剩下的60張則作為測(cè)試樣本，給定如此少的訓(xùn)練樣本，一方面無疑對(duì)學(xué)習(xí)具有數(shù)百萬參數(shù)的深層神經(jīng)網(wǎng)絡(luò)提出巨大挑戰(zhàn)，另一方面也為驗(yàn)證訓(xùn)練樣本缺乏條件下基于本文合成算法輔助 Logo識(shí)別任務(wù)的有效性提供基礎(chǔ)實(shí)驗(yàn)平臺(tái)。

目標(biāo)識(shí)別問題通常需要一定的評(píng)價(jià)指標(biāo)來評(píng)估算法的性能，Logo識(shí)別領(lǐng)域中常用的評(píng)價(jià)指標(biāo)是mAP（mean average precision）。mAP綜合表征了查準(zhǔn)率（precision）和查全率（recall），其值越大，表明算法識(shí)別性能越好，本文中選擇mAP進(jìn)行算法性能的評(píng)估。

表2 本文合成算法實(shí)驗(yàn)結(jié)果及與文獻(xiàn)[12]的對(duì)比

3.2 對(duì)比實(shí)驗(yàn)與分析

首先本文基本復(fù)現(xiàn)了文獻(xiàn)[12]在 FlickrLogos-32數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果，因?yàn)橹挥袊?yán)格控制除了合成算法以外再無其他任何算法優(yōu)化，本文合成算法的有效性驗(yàn)證及與文獻(xiàn)[12]方法的對(duì)比才有意義。具體而言，本文使用Faster R-CNN目標(biāo)檢測(cè)算法作為L(zhǎng)ogo識(shí)別的算法框架，網(wǎng)絡(luò)結(jié)構(gòu)采用VGG-16，并將其在PASCAL VOC 2007目標(biāo)檢測(cè)任務(wù)上預(yù)訓(xùn)練的模型作為網(wǎng)絡(luò)的初始化權(quán)重，其他相關(guān)參數(shù)以及訓(xùn)練策略均保持與文獻(xiàn)[12]相同。在復(fù)現(xiàn)結(jié)果的基礎(chǔ)上，利用本文合成算法自動(dòng)地為每類Logo生成100張合成圖像以及相應(yīng)的標(biāo)注數(shù)據(jù)，然后依次基于合成圖像和真實(shí)圖像進(jìn)行Logo識(shí)別模型的訓(xùn)練。總體來說，與文獻(xiàn)[12]的對(duì)比實(shí)驗(yàn)主要有以下3個(gè)過程。1) RealImg：僅使用320張帶標(biāo)記的真實(shí)圖像進(jìn)行模型的訓(xùn)練。2) SynImg-32Cls：僅使用3 200張帶標(biāo)記的合成圖像進(jìn)行模型的訓(xùn)練。3) SynImg-32Cls+RealImg：先使用3 200張合成圖像進(jìn)行模型的預(yù)訓(xùn)練，再使用320張真實(shí)圖像對(duì)模型進(jìn)行精調(diào)。相關(guān)實(shí)驗(yàn)結(jié)果如表2所示。需要說明的是，表2中第3大列實(shí)驗(yàn)數(shù)據(jù)分別是每類Logo的AP（average precision）值。

表2中，單純使用真實(shí)圖像進(jìn)行訓(xùn)練，本文（RealImg（Ours））取得了與 RealImg（[12]）近似的實(shí)驗(yàn)結(jié)果（50.5% VS 50.4%），雖然50.5%是一次實(shí)驗(yàn)的結(jié)果，但是實(shí)際上針對(duì)RealImg本文進(jìn)行了多次實(shí)驗(yàn)，mAP值基本在50.0%上下很小幅度變化，導(dǎo)致實(shí)驗(yàn)結(jié)果不穩(wěn)定的原因主要在于神經(jīng)網(wǎng)絡(luò)算法本身的隨機(jī)性（如Faster R-CNN使用隨機(jī)梯度下降的優(yōu)化算法），因此本文基本復(fù)現(xiàn)了文獻(xiàn)[12]在 FlickrLogos-32數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。而在此基礎(chǔ)上，采用本文合成算法的SynImg-32Cls（Ours）以及 SynImg-32Cls+RealImg（Ours）均相對(duì)于文獻(xiàn)[12]的方法取得明顯優(yōu)勢(shì)（32.6% VS 27.6%, 58.5% VS 54.8%），充分驗(yàn)證了本文合成算法的有效性。更為值得一提的是，取得如此性能的提升既不依賴于額外的手工標(biāo)注，也不需要像文獻(xiàn)[12]那樣構(gòu)建龐大的（463類）常見Logo模板集。

除此之外，筆者還觀察到以下情況。1) 僅使用10張真實(shí)圖像訓(xùn)練，針對(duì)32類Logo的識(shí)別 Faster R-CNN就已經(jīng)取得較好的訓(xùn)練結(jié)果（mAP 50.5%），這得益于遷移學(xué)習(xí)思想的運(yùn)用，網(wǎng)絡(luò)的初始化權(quán)重本文使用的是在 PASCAL VOC數(shù)據(jù)集上預(yù)訓(xùn)練的模型。2) 雖然SynImg-32Cls（Ours）相對(duì)于 SynImg-32Cls（[12]）有很大的提升，但是僅使用合成圖像進(jìn)行訓(xùn)練的效果仍與使用少量真實(shí)圖像的方法存在很大的差距，造成該現(xiàn)狀的潛在原因可能是真實(shí)圖像與合成圖像之間存在較大的分布差異，模型在合成圖像上學(xué)習(xí)到的細(xì)節(jié)難以泛化到真實(shí)圖像中，即通常所說的域漂移問題[29]。從這個(gè)角度上看，合成數(shù)據(jù)擴(kuò)展訓(xùn)練集方法的關(guān)鍵在于如何優(yōu)化合成算法以盡可能縮小合成圖像與真實(shí)圖像間的分布差異，而本文算法在本質(zhì)上也是通過利用多種類型的上下文信息在此方面進(jìn)行嘗試與努力。3) 基于先使用合成與真實(shí)的混合數(shù)據(jù)進(jìn)行訓(xùn)練，再用真實(shí)圖像進(jìn)行精調(diào)（fusion + RealImg）的訓(xùn)練策略，模型將取得更好的訓(xùn)練結(jié)果（mAP 58.9%）。文獻(xiàn)[12]中為了驗(yàn)證課程學(xué)習(xí)思想的有效性，僅限于使用混合數(shù)據(jù)進(jìn)行訓(xùn)練，沒有再進(jìn)一步地利用真實(shí)數(shù)據(jù)。實(shí)際上，筆者認(rèn)為“先混合再真實(shí)”的訓(xùn)練策略與課程學(xué)習(xí)“先易后難”的核心思想是一致的，這也啟發(fā)筆者擴(kuò)展遷移學(xué)習(xí)的訓(xùn)練思路，以往在訓(xùn)練一個(gè)深層神經(jīng)網(wǎng)絡(luò)之前，筆者通常會(huì)在更通用的大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練以獲得網(wǎng)絡(luò)的初始化權(quán)重，而現(xiàn)在筆者可以預(yù)先將目標(biāo)數(shù)據(jù)集與通用大數(shù)據(jù)集混合起來進(jìn)行訓(xùn)練，然后在目標(biāo)數(shù)據(jù)集上進(jìn)行精調(diào)，這應(yīng)當(dāng)能取得可預(yù)期的更好結(jié)果。

圖10給出了基于本文合成算法在FlickrLogos-32測(cè)試集上的部分實(shí)例測(cè)試結(jié)果，可以發(fā)現(xiàn)算法對(duì)于目標(biāo)的多尺度、多視角、旋轉(zhuǎn)變形以及部分遮擋等情形具備一定的頑健性。

圖10 基于本文算法在FlickrLogos-32測(cè)試集上的測(cè)試結(jié)果示例

3.3 進(jìn)一步的驗(yàn)證

為了定量地探究本文合成算法中每項(xiàng)改進(jìn)細(xì)節(jié)對(duì)算法性能的影響，本文針對(duì)算法中的每項(xiàng)改進(jìn)進(jìn)行了補(bǔ)充實(shí)驗(yàn)。這組實(shí)驗(yàn)的基線方法為表 2中SynImg-32Cls + RealImg（Ours），每次實(shí)驗(yàn)控制忽略合成算法中的一項(xiàng)改進(jìn)細(xì)節(jié)，訓(xùn)練策略均按照先使用3 200張合成圖像進(jìn)行模型的預(yù)訓(xùn)練，再使用320張真實(shí)圖像對(duì)模型進(jìn)行精調(diào)，具體有以下5個(gè)過程。1) Transparent Only：用于合成的Logo模板僅選擇背景完全透明的 Logo圖像。2) Pixel-level Only：用于合成的Logo模板僅選擇像素級(jí)別的Logo掩碼。3) Random Context：用于合成的背景圖像任意選取，不考慮語義相關(guān)性。4) No Logo Transformations：合成前不對(duì)Logo模板進(jìn)行任何變換。5) Random Position：合成圖像中 Logo模板的放置位置完全隨機(jī)。相關(guān)實(shí)驗(yàn)結(jié)果如表3所示。

表3 本文合成算法每項(xiàng)改進(jìn)對(duì)性能影響的定量實(shí)驗(yàn)結(jié)果

表3中，從宏觀上可以看出，與基線方法相比，本文合成算法的每項(xiàng)改進(jìn)對(duì)最終識(shí)別模型的性能提升都起到了促進(jìn)作用，進(jìn)一步驗(yàn)證了基于本文合成算法的有效性。更具體地觀察到如下事實(shí)。1) 采用像素級(jí)別的Logo掩碼進(jìn)行合成的效果要優(yōu)于采用背景完全透明的情形（58.1% VS 57.8%），這表明 Logo掩碼中包含的局部上下文信息對(duì)于相關(guān)特征的學(xué)習(xí)是有所裨益的，但相較而言仍是綜合使用兩者的效果更好。2) 不考慮上下文一致性的隨機(jī)背景選取做法會(huì)造成一定程度的性能損失（56.7% VS 58.5%），這表明合成圖像中全局上下文信息對(duì)于特定對(duì)象的識(shí)別有著關(guān)鍵的輔助作用。3) 針對(duì)Logo模板進(jìn)行的增強(qiáng)變換對(duì)于性能提升的效果最顯著（56.3% VS 58.5%），這直接證明了傳統(tǒng)數(shù)據(jù)增強(qiáng)對(duì)最終模型的識(shí)別性能以及泛化能力有著非常重要的影響。4) 僅在數(shù)據(jù)層面上優(yōu)化合成位置的做法對(duì)算法性能會(huì)產(chǎn)生微小提升（58.2% VS 58.5%），性能提升受限的可能原因在于神經(jīng)網(wǎng)絡(luò)算法對(duì)于圖像細(xì)節(jié)的感知方式與人類視覺系統(tǒng)存在一定的差異，合成圖像中的一些低級(jí)視覺特征對(duì)于最終性能的影響較為有限。

最后，本文還探究了基于合成數(shù)據(jù)方法前提下參與訓(xùn)練的合成樣本數(shù)量對(duì)算法性能的影響。

如圖所示，圖11(a)為僅用合成圖像進(jìn)行訓(xùn)練的結(jié)果，圖11(b)為先用合成圖像進(jìn)行訓(xùn)練、再用真實(shí)圖像進(jìn)行精調(diào)的結(jié)果。從圖中可以看出，適度增加參與訓(xùn)練的合成樣本數(shù)量能夠在一定程度上提升識(shí)別模型的性能。由于從該角度出發(fā)的探究更像是一項(xiàng)具體的調(diào)參工作，因此本文對(duì)此并未展開更加深入的研究。

圖11 合成樣本數(shù)量對(duì)算法性能的影響

4 結(jié)束語

本文針對(duì)深度學(xué)習(xí)框架下 Logo識(shí)別任務(wù)中標(biāo)注數(shù)據(jù)缺乏的問題，從自動(dòng)合成大規(guī)模訓(xùn)練數(shù)據(jù)的角度，在現(xiàn)有合成思路的基礎(chǔ)上，提出了一種基于上下文的 Logo圖像合成算法。通過在FlickrLogos-32數(shù)據(jù)集上的詳細(xì)實(shí)驗(yàn)，表明當(dāng)只有少量標(biāo)注數(shù)據(jù)可用時(shí)，采用本文的合成算法能夠在不依賴額外手工標(biāo)注的前提下，實(shí)現(xiàn) Logo識(shí)別算法性能的較大幅度提升（mAP提升 8.5%，50.4% VS 58.9%，如表2所示），充分驗(yàn)證了本文合成算法的有效性與優(yōu)越性，同時(shí)進(jìn)一步表明多種類型的上下文信息能夠有效地提升目標(biāo)識(shí)別算法的性能。此外，本文基于合成數(shù)據(jù)前提下探究的諸多訓(xùn)練策略與方法具備一定的借鑒和推廣意義。由于對(duì)于合成圖像中 Logo位置的優(yōu)化本文仍停留在數(shù)據(jù)層面，如何更深層次地利用上下文信息以及進(jìn)一步縮小合成樣本與真實(shí)樣本間的分布差異將是本文下一步的研究方向。

參考文獻(xiàn)：

[1]符亞彬. 基于 Logo標(biāo)志檢測(cè)的暴恐視頻識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京：北京交通大學(xué),2016.FU Y B. Design and implementation of violence and fear video recognition system based on Logo mark detection[D]. Beijing：Beijing Jiaotong University,2016.

[2]GAO Y, WANG F, LUAN H, et al. Brand data gathering from live social media streams[C]//ACM International Conference on Multimedia Retrieval. 2014：169.

[3]PAN C, YAN Z, XU X, et al. Vehicle logo recognition based on deep learning architecture in video surveillance for intelligent traffic system[C]//IET International Conference on Smart and Sustainable City. 2013：123-126.

[4]HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]//IEEE International Conference on Computer Vision. 2017：2980-2988.

[5]WANG X, SHRIVASTAVA A, GUPTA A. A-Fast-RCNN： hard positive generation via adversary for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017：3039-3048.

[6]LIU W, ANGUELOV D, ERHAN D, et al. SSD： single shot MultiBox detector[M]//Computer Vision-ECCV 2016. Springer International Publishing, 2016：21-37.

[7]JOLY A, BUISSON O. Logo retrieval with a contrario visual query expansion[C]//International Conference on Multimedia 2009.2009：581-584.

[8]KALANTIDIS Y, PUEYO L G, TREVISIOL M, et al. Scalable triangulation-based logo recognition[C]//ACM International Conference on Multimedia Retrieval. 2011：1-7.

[9]ROMBERG S, PUEYO L G, LIENHART R, et al. Scalable logo recognition in real-world images[C]//ACM International Conference on Multimedia Retrieval. 2011：25.

[10]HOI S C H, WU X, LIU H, et al. LOGO-Net： Large-scale deep logo detection and brand recognition with deep region-based convolutional networks[J]. IEEE Transactions on Pattern Analysis &Machine Intelligence, 2015, 46(5)：2403-2412.

[11]BIANCO S, BUZZELLI M, MAZZINI D, et al. Deep learning for logo recognition[J]. Neuro Computing, 2017, 245(C)：23-30.

[12]SU H, ZHU X, GONG S. Deep learning logo detection with data expansion by synthesising context[C]//IEEE Winter Conference on Applications of Computer Vision. 2017：530-539.

[13]CHEN X, GUPTA A. Webly supervised learning of convolutional networks[C]//IEEE International Conference on Computer Vision.2016：1431-1439.

[14]SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2016). 2016：761-769.

[15]GUPTA A, VEDALDI A, ZISSERMAN A. Synthetic data for text localisation in natural images[C]//IEEE Computer Vision and Pattern Recognition. 2016：2315-2324.

[16]JADERBERG M, SIMONYAN K, VEDALDI A, et al. Reading text in the wild with convolutional neural networks[J]. International Journal of Computer Vision, 2016, 116(1)：1-20.

[17]GEORGAKIS G, MOUSAVIAN A, BERG A C, et al. Synthesizing training data for object detection in indoor scenes[C]//Robotics：Science and Systems. 2017.

[18]EGGERT C, WINSCHEL A, LIENHART R. On the benefit of synthetic data for company logo detection[C]//ACM International Conference on Multimedia. 2015：1283-1286.

[19]REN S, HE K, GIRSHICK R, et al. Faster R-CNN： towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. 2015：91-99.

[20]BENGIO Y, COLLOBERT R, WESTON J. Curriculum learning[C]//ACM International Conference on Machine Learning.2009：41-48.

[21]LIU B. Modest proposal for the principle of logo design[J]. Packaging Engineering, 2005, 127(2)：222-222.

[22]OLIVA A, TORRALBA A. The role of context in object recognition[J]. Trends in Cognitive Sciences, 2007, 11(12)：520.

[23]MOTTAGHI R, CHEN X, LIU X, et al. The role of context for object detection and semantic segmentation in the wild[C]//IEEE Computer Vision and Pattern Recognition. 2014：891-898.

[24]KATTI H, PEELEN M V, ARUN S P. How do targets, nontargets,and scene context influence real-world object detection?[J]. Attention Perception & Psychophysics, 2017(2)：1-16.

[25]ZHOU B, LAPEDRIZA A, KHOSLA A, et al. Places： a 10 million image database for scene recognition[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 99： 1-1.

[26]GUO J, GOULD S. Deep CNN ensemble with data augmentation for object detection[J]. Computer Science, 2015.

[27]OLIVEIRA G, FRAZ?O X, PIMENTEL A, et al. Automatic graphic logo detection via fast region-based convolutional networks[C]//IEEE International Joint Conference on Neural Networks. 2016.

[28]MUNNEKE J, BRENTARI V, PEELEN M. The influence of scene context on object recognition is independent of attentional focus[J].Frontiers in Psychology, 2013, 4(8)：552.

[29]NGUYEN H V, HO H T, PATEL V M, et al. DASH-N： joint hierarchical domain adaptation and feature learning[J]. IEEE Transactions on Image Processing, 2015, 24(12)：5479-5491.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放