江玉朝,吉立新,高超,李邵梅
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
Logo識(shí)別是計(jì)算機(jī)視覺中一項(xiàng)具有挑戰(zhàn)性的任務(wù),在很多領(lǐng)域有著廣泛的應(yīng)用,如敏感視頻識(shí)別[1]、商標(biāo)識(shí)別與產(chǎn)權(quán)保護(hù)[2]、智能交通[3]等。對(duì)于一般目標(biāo)的識(shí)別,深度學(xué)習(xí)方法已經(jīng)取得了巨大的成功[4~6]。通常,構(gòu)建一個(gè)目標(biāo)識(shí)別的深層神經(jīng)網(wǎng)絡(luò)模型需要大量手工標(biāo)注的訓(xùn)練數(shù)據(jù),然而,在Logo識(shí)別任務(wù)中能夠獲取到的公開數(shù)據(jù)集非常小,現(xiàn)有的Logo數(shù)據(jù)集如表 1所示[7~12]。顯然,如此小的訓(xùn)練數(shù)據(jù)量對(duì)于學(xué)習(xí)具有數(shù)百萬參數(shù)的深層模型是遠(yuǎn)遠(yuǎn)不夠的,通過增加手工標(biāo)注來擴(kuò)充數(shù)據(jù)集是解決這一問題較直接而簡(jiǎn)單的思路,但是昂貴的標(biāo)注成本以及大量的時(shí)間開銷往往令人難以承受,同時(shí),相比通用物體,很多情況下很難大量獲取到包含 Logo的真實(shí)場(chǎng)景圖像。面對(duì)種類龐雜的 Logo對(duì)象,試圖通過自動(dòng)的方式搜集大規(guī)模訓(xùn)練數(shù)據(jù)也顯得較為困難,諸如網(wǎng)絡(luò)爬蟲一類的Web數(shù)據(jù)挖掘方法雖然在一些目標(biāo)識(shí)別任務(wù)中起到了一定的作用[13,14],但由于典型的Web圖像及其元數(shù)據(jù)中一般不包含目標(biāo)定位的相關(guān)標(biāo)注信息,采用此類方法難以獲得Logo對(duì)象的精確標(biāo)注。
表1 現(xiàn)有的Logo識(shí)別數(shù)據(jù)集
合成數(shù)據(jù)生成是指在不依賴手工標(biāo)注的前提下自動(dòng)生成與真實(shí)數(shù)據(jù)近似的合成數(shù)據(jù),從而擴(kuò)展訓(xùn)練數(shù)據(jù)集的方法,當(dāng)沒有充足的訓(xùn)練數(shù)據(jù)可用于訓(xùn)練大型深層網(wǎng)絡(luò)時(shí),該方法是手工標(biāo)注海量數(shù)據(jù)的有效替代方案。例如,Gupta等[15]和Jaderberg等[16]通過人工合成自然場(chǎng)景文本數(shù)據(jù)訓(xùn)練文本識(shí)別模型;Georgakis等[17]通過分割出語義級(jí)別的“桌子”“柜臺(tái)”等可能的支撐平面來指導(dǎo)合成圖像中目標(biāo)的放置,輔助室內(nèi)場(chǎng)景中的目標(biāo)檢測(cè);Eggert等[18]使用合成數(shù)據(jù)訓(xùn)練SVM分類器進(jìn)行公司 Logo檢測(cè);Su等[12]在文獻(xiàn)[18]的基礎(chǔ)上,考慮了合成Logo圖像上下文的多樣性,進(jìn)行了利用大規(guī)模合成的 Logo圖像訓(xùn)練深層模型的首次嘗試,較大地提升了檢測(cè)模型應(yīng)對(duì)復(fù)雜背景的頑健性。而缺陷方面,文獻(xiàn)[12,18]使用的合成 Logo圖像的方法過于樸素,對(duì)于合成圖像與真實(shí)場(chǎng)景圖像的擬合考慮嚴(yán)重不足,僅通過將變換后的 Logo模板放于任意場(chǎng)景圖像中的隨機(jī)位置完成 Logo圖像的合成。這種方式會(huì)使合成Logo圖像的上下文真實(shí)性嚴(yán)重不足,導(dǎo)致模型過多地學(xué)習(xí)到合成圖像的細(xì)節(jié),而無法很好地泛化到真實(shí)場(chǎng)景圖像上,圖1給出了文獻(xiàn)[12,18]中合成圖像的示例。
圖1 文獻(xiàn)[12,18]中的Logo圖像合成示例
為解決深度學(xué)習(xí)框架下 Logo識(shí)別任務(wù)中標(biāo)注數(shù)據(jù)缺乏的問題,本文提出了一種新的合成訓(xùn)練數(shù)據(jù)的算法,算法在充分挖掘和利用 Logo圖像上下文信息的基礎(chǔ)上,通過合成盡可能擬合真實(shí)場(chǎng)景的 Logo圖像,在不增加額外標(biāo)注成本的前提下,實(shí)現(xiàn) Logo識(shí)別算法性能的提升。雖然這項(xiàng)工作不是合成Logo圖像的首次嘗試[12,18],但是本文改進(jìn)了以往合成 Logo圖像的簡(jiǎn)單思路,充分利用了Logo對(duì)象內(nèi)部、Logo周圍鄰域、Logo與其他對(duì)象之間以及 Logo所處場(chǎng)景等多種類型的上下文信息,同時(shí)考慮Logo對(duì)象的自身特點(diǎn),使借助自動(dòng)合成的 Logo圖像參與訓(xùn)練能夠產(chǎn)生更為顯著的算法性能增益。實(shí)驗(yàn)方面,本文基于Faster R-CNN[19]目標(biāo)檢測(cè)框架在 Logo識(shí)別的benchmark數(shù)據(jù)集 FlickrLogos-32[9]上進(jìn)行了詳細(xì)的實(shí)驗(yàn)驗(yàn)證,取得了當(dāng)前基于合成 Logo圖像輔助 Logo識(shí)別任務(wù)的最好結(jié)果(mAP 58.9% VS.54.8%[12]),充分驗(yàn)證了本文合成算法的有效性。此外,本文基于合成數(shù)據(jù)前提下探究的諸多訓(xùn)練策略與方法具備一定的借鑒和推廣意義。
圖2給出了本文基于合成數(shù)據(jù)進(jìn)行Logo識(shí)別的整體算法框架,其中,生成合成圖像作為本文的算法核心,主要包括Logo模板選取、背景圖像選取、Logo模板變換以及Logo圖像合成4個(gè)過程,下文將分別對(duì)其進(jìn)行詳細(xì)闡述。在Logo識(shí)別模型的訓(xùn)練方面,本文基本上沿用文獻(xiàn)[12]中的順序?qū)W習(xí)策略,該策略源自于課程學(xué)習(xí)[20]中先易后難的學(xué)習(xí)思路,首先使用大規(guī)模的合成圖像預(yù)訓(xùn)練深層模型,然后用少量的真實(shí)樣本數(shù)據(jù)對(duì)模型進(jìn)行精調(diào)。除此之外,本文通過實(shí)驗(yàn)探究發(fā)現(xiàn),先用合成圖像與真實(shí)圖像的混合數(shù)據(jù)進(jìn)行訓(xùn)練,再用真實(shí)圖像進(jìn)行精調(diào),將取得更好的訓(xùn)練效果。
為了進(jìn)行 Logo圖像的合成,首先需要每類Logo用于合成的模板圖像。文獻(xiàn)[18]中使用像素級(jí)別的Logo掩碼(如圖3(a)所示),此類模板的背景是不透明的,因此能夠更多地保留 Logo對(duì)象原生的細(xì)節(jié),即Logo周圍鄰域的上下文信息;而缺陷也較為明顯,一是像素級(jí)別的掩碼需要通過煩瑣的手工標(biāo)注提取得到,二是合成圖像中Logo鄰域上下文信息的多樣性有所欠缺。相反,文獻(xiàn)[12]中使用背景完全透明的Logo模板(如圖3(b)所示),使任意合成圖像中Logo鄰域的像素完全由背景圖像決定,而不是 Logo模板,這樣一來極大地提升了合成 Logo鄰域上下文的多樣性,增強(qiáng)了識(shí)別模型應(yīng)對(duì)復(fù)雜背景的頑健性;缺陷方面,一是由于采用隨機(jī)放置 Logo模板的做法,不可避免地會(huì)出現(xiàn) Logo與復(fù)雜背景混雜的情形(如圖3(b)所示),這顯然與Logo本身的設(shè)計(jì)原則[21]相違背,導(dǎo)致合成圖像與真實(shí)場(chǎng)景圖像間的差異增大,二是由于過度地引入上下文信息,模型的誤報(bào)率有所增加[12]。
圖3 文獻(xiàn)[12,18]中Logo模板選取對(duì)比
可見,以上2種Logo模板的選取做法是各有優(yōu)劣而又相互補(bǔ)充的,考慮到后續(xù)合成數(shù)據(jù)集的構(gòu)建與標(biāo)注都是自動(dòng)的,本文選擇在 Logo模板的預(yù)處理上花費(fèi)一定的開銷。因此,在 Logo模板的選取上,本文綜合選用了像素級(jí)別的Logo掩碼以及背景完全透明的Logo圖像(本文中兩者合成的數(shù)量比為1:1)。以FlickrLogos-32數(shù)據(jù)集的32類Logo為例,相應(yīng)的Logo模板如圖4所示。
圖4 選取的Logo模板
在現(xiàn)實(shí)場(chǎng)景中,目標(biāo)一般不可能單獨(dú)存在,它往往會(huì)與環(huán)境以及周圍其他對(duì)象有著千絲萬縷的聯(lián)系,這就是通常所說的上下文信息[22]。多種類型的上下文信息理論上已被證明在計(jì)算機(jī)視覺、圖像處理領(lǐng)域扮演著非常重要的角色,能夠提升檢測(cè)識(shí)別算法的精度與速度[23,24]。而作為承載合成 Logo全局上下文信息的背景圖像,文獻(xiàn)[18]和文獻(xiàn)[12]在其選擇上僅考慮了上下文的多樣性,使用FlickrLogos-32數(shù)據(jù)集中不含Logo的6 000張圖片作為合成圖像的背景來源,這樣的簡(jiǎn)單處理必然會(huì)導(dǎo)致合成的Logo圖像中蘊(yùn)含很多不真實(shí)的上下文信息,進(jìn)而影響練習(xí)得到的深層模型在真實(shí)場(chǎng)景中的泛化能力。如圖5所示,Logo十分生硬地出現(xiàn)在毫不相關(guān)的場(chǎng)景中,盡管這并不妨礙人類進(jìn)行識(shí)別,但在實(shí)際訓(xùn)練過程中這些上下文信息完全不一致的合成樣本很可能作為噪聲數(shù)據(jù)存在。
因此,在背景圖像選取方面,本文致力于減輕由于 Logo模板與背景圖像語義相關(guān)性太弱造成的上下文信息不一致的情況對(duì)算法性能的影響。具體來說,本文首先使用爬蟲程序預(yù)先為每類Logo在谷歌圖片搜索網(wǎng)站上爬取了300張與之相關(guān)的場(chǎng)景圖像,然后結(jié)合現(xiàn)今流行的基于CNN的場(chǎng)景分類模型Places365-VGG對(duì)爬取的場(chǎng)景圖像進(jìn)行批量分類,進(jìn)而統(tǒng)計(jì)出每類 Logo出現(xiàn)頻率最高的5個(gè)Top-1場(chǎng)景作為合成圖像的背景來源。其中,Places365-VGG是文獻(xiàn)[25]開源的針對(duì)大規(guī)模場(chǎng)景圖像數(shù)據(jù)庫 Places2的子集Places365訓(xùn)練的 CNN場(chǎng)景分類模型,網(wǎng)絡(luò)結(jié)構(gòu)采用的是VGG-16,其在Places365的驗(yàn)證集和測(cè)試集上均取得了目前最高的 Top-1分類精度。圖6以Starbucks為例,給出了其背景圖像選取的算法流程。
傳統(tǒng)的圖像數(shù)據(jù)增強(qiáng)方法已被證明能夠有效地豐富訓(xùn)練集、提升檢測(cè)識(shí)別模型的頑健性和泛化能力[26]。本文中不依賴傳統(tǒng)數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練集進(jìn)行擴(kuò)充,而是采用圖像合成作為訓(xùn)練數(shù)據(jù)的主要增強(qiáng)方法。實(shí)際上,在合成圖像的基礎(chǔ)上再進(jìn)行數(shù)據(jù)增強(qiáng)的意義并不大,因此本文將數(shù)據(jù)增強(qiáng)應(yīng)用于Logo模板的變換上。
圖5 不真實(shí)合成Logo圖像示例
由于實(shí)際自然場(chǎng)景中 Logo呈現(xiàn)的尺度變化范圍較大[9],同時(shí)拍攝角度的不同可能導(dǎo)致Logo出現(xiàn)旋轉(zhuǎn)、扭曲、變形以及部分遮擋等問題[27],此外,成像設(shè)備分辨率不同、光照條件變化等因素會(huì)顯著增加 Logo識(shí)別的難度。因此,為了盡可能擬合實(shí)際場(chǎng)景并且豐富合成圖像中 Logo的多樣性,本文對(duì)Logo模板嘗試進(jìn)行了仿射變換、隨機(jī)裁剪、顏色變換、高斯模糊等一系列增強(qiáng)變換。需要說明的是,每種變換之間相互獨(dú)立且隨機(jī)進(jìn)行。下面以仿射變換為例給出其數(shù)學(xué)描述。由于卷積神經(jīng)網(wǎng)絡(luò)本身具有平移不變性,所以本文針對(duì) Logo模板并不進(jìn)行平移變換,由此仿射變換的維度從3維降到2維,在2維平面上對(duì)于Logo模板I進(jìn)行仿射變換的具體數(shù)學(xué)形式如下。
圖6 背景圖像選取算法流程
其中,矩陣Rθ定義旋轉(zhuǎn)變換,旋轉(zhuǎn)角度θ本文選擇在的范圍內(nèi)隨機(jī)取值,但隨機(jī)變換的概率控制在0.1以下,因?yàn)閷?shí)際場(chǎng)景中Logo發(fā)生旋轉(zhuǎn)的情況較少[12]。矩陣P混合定義了尺度變換Scale(a, b)和錯(cuò)切變換Shear(c, d),對(duì)于尺度變換,本文統(tǒng)計(jì)了Flickrlogos-32數(shù)據(jù)集整體對(duì)象的大小分布情況(如圖7所示),選擇控制Logo模板的長(zhǎng)邊變化為40~250 pixel之間的隨機(jī)數(shù),短邊則進(jìn)行等比例縮放;錯(cuò)切變換的參數(shù)選擇為[0,0.2]之間的隨機(jī)數(shù)。圖8給出了本文Logo模板變換示意。
圖7 FlickrLogos-32數(shù)據(jù)集對(duì)象大小分布
圖8 本文Logo模板變換示意
鑒于Logo對(duì)象具有平面性的特點(diǎn),本文將隨機(jī)變換后的Logo模板覆蓋在語義層面上與其盡可能相關(guān)的隨機(jī)背景圖片上,從而實(shí)現(xiàn)Logo圖像的合成。與文獻(xiàn)[12,18]中將Logo模板隨機(jī)放置的做法不同,本文特別關(guān)注Logo模板在背景中出現(xiàn)的位置。誠然,試圖在背景中找到最“合理”的位置涉及Logo對(duì)象與背景中其他對(duì)象之間復(fù)雜上下文關(guān)聯(lián)關(guān)系的分析與處理,即圖像的語義分割以及場(chǎng)景理解。而在本文的語境中,參與合成的對(duì)象較為特殊——Logo作為獨(dú)立對(duì)象進(jìn)行合成,缺乏其“宿主”上下文信息的參與和指導(dǎo),因而在語義層面上尋求合理位置的實(shí)現(xiàn)難度較高。
因此,現(xiàn)階段本文的合成目標(biāo)不追求能夠找到語義層面上最“合理”的位置,而是盡可能尋求數(shù)據(jù)層面上較合適的位置。盡管有研究[28]表明,視覺觀察到的一致性效應(yīng)很可能主要由場(chǎng)景的語義屬性造成,而與一些低級(jí)視覺特征(如顏色、形狀等)的關(guān)系不大。但依據(jù) Logo的設(shè)計(jì)原則[21],Logo對(duì)象確實(shí)應(yīng)當(dāng)出現(xiàn)在背景中紋理較簡(jiǎn)單、色彩較單調(diào)且與 Logo本身顏色分布明顯不同的區(qū)域。
具體而言,除了少數(shù)一些由純文字符號(hào)組成的 Logo(如 Google),絕大多數(shù) Logo在設(shè)計(jì)時(shí)具備其主體色調(diào)[21],同時(shí)在形狀輪廓方面,Logo一般都不呈現(xiàn)為規(guī)則的矩形結(jié)構(gòu)(如圖4所示)。因此在數(shù)據(jù)層面上,本文采用主顏色相似性比較算法,通過分別統(tǒng)計(jì)變換后的 Logo模板與隨機(jī)選取的背景放置區(qū)域在 HSV顏色空間中各顏色出現(xiàn)的頻率,選出最頻繁出現(xiàn)的2種顏色作為各自的主色,如果兩者的主色存在重疊,則更換背景圖片而后重新隨機(jī)選取背景放置區(qū)域,直到找到主色不重疊的位置進(jìn)行合成。算法1給出了本文Logo圖像合成算法流程。
算法1 基于主顏色相似性比較的Logo圖像合成算法
輸入 變換后的Logo模板I*,隨機(jī)選取的背景圖像B
輸出 合成的Logo圖像B*
1) 在背景圖像B中隨機(jī)選取Logo模板I*的放置區(qū)域ROI,并使
2) 逐像素分別計(jì)算I*與ROI在HSV顏色空間中的顏色分布。
3) 分別統(tǒng)計(jì)(ROI),得到 I*和 ROI各自的 2個(gè)主色。返回類似[black, white]的二維數(shù)組。
4) if I*和ROI的主色存在重疊
5) 重新隨機(jī)選取背景圖像B。
6) return 1)
7) else
綜合以上4個(gè)過程,本文合成算法不僅可以實(shí)現(xiàn)基于上下文的大規(guī)模Logo圖像的自動(dòng)合成,同時(shí)能夠保證毫無遺漏地對(duì)合成圖像中的每個(gè)Logo對(duì)象進(jìn)行精確標(biāo)注,圖9給出了本文合成算法的最終效果示例。
圖9 本文合成算法的合成效果示例
本文實(shí)驗(yàn)采用的數(shù)據(jù)集源自奧格斯堡大學(xué)多媒體計(jì)算和計(jì)算機(jī)視覺實(shí)驗(yàn)室維護(hù)并公開的FlickrLogos-32數(shù)據(jù)集,作為 Logo識(shí)別的benchmark數(shù)據(jù)集,其通常用于評(píng)估多類Logo檢測(cè)/識(shí)別以及真實(shí)圖像上的 Logo檢索方法。FlickrLogos-32共有8 420張圖像(包含6 000張不含Logo的圖像),分為32類Logo,每類為70張且均具有較為平坦的表面。在實(shí)際訓(xùn)練過程中,本文嚴(yán)格按照該數(shù)據(jù)集的官方劃分標(biāo)準(zhǔn),劃分每類Logo僅有10張圖像作為訓(xùn)練樣本,剩下的60張則作為測(cè)試樣本,給定如此少的訓(xùn)練樣本,一方面無疑對(duì)學(xué)習(xí)具有數(shù)百萬參數(shù)的深層神經(jīng)網(wǎng)絡(luò)提出巨大挑戰(zhàn),另一方面也為驗(yàn)證訓(xùn)練樣本缺乏條件下基于本文合成算法輔助 Logo識(shí)別任務(wù)的有效性提供基礎(chǔ)實(shí)驗(yàn)平臺(tái)。
目標(biāo)識(shí)別問題通常需要一定的評(píng)價(jià)指標(biāo)來評(píng)估算法的性能,Logo識(shí)別領(lǐng)域中常用的評(píng)價(jià)指標(biāo)是mAP(mean average precision)。mAP綜合表征了查準(zhǔn)率(precision)和查全率(recall),其值越大,表明算法識(shí)別性能越好,本文中選擇mAP進(jìn)行算法性能的評(píng)估。
表2 本文合成算法實(shí)驗(yàn)結(jié)果及與文獻(xiàn)[12]的對(duì)比
首先本文基本復(fù)現(xiàn)了文獻(xiàn)[12]在 FlickrLogos-32數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,因?yàn)橹挥袊?yán)格控制除了合成算法以外再無其他任何算法優(yōu)化,本文合成算法的有效性驗(yàn)證及與文獻(xiàn)[12]方法的對(duì)比才有意義。具體而言,本文使用Faster R-CNN目標(biāo)檢測(cè)算法作為L(zhǎng)ogo識(shí)別的算法框架,網(wǎng)絡(luò)結(jié)構(gòu)采用VGG-16,并將其在PASCAL VOC 2007目標(biāo)檢測(cè)任務(wù)上預(yù)訓(xùn)練的模型作為網(wǎng)絡(luò)的初始化權(quán)重,其他相關(guān)參數(shù)以及訓(xùn)練策略均保持與文獻(xiàn)[12]相同。在復(fù)現(xiàn)結(jié)果的基礎(chǔ)上,利用本文合成算法自動(dòng)地為每類Logo生成100張合成圖像以及相應(yīng)的標(biāo)注數(shù)據(jù),然后依次基于合成圖像和真實(shí)圖像進(jìn)行Logo識(shí)別模型的訓(xùn)練。總體來說,與文獻(xiàn)[12]的對(duì)比實(shí)驗(yàn)主要有以下3個(gè)過程。1) RealImg:僅使用320張帶標(biāo)記的真實(shí)圖像進(jìn)行模型的訓(xùn)練。2) SynImg-32Cls:僅使用3 200張帶標(biāo)記的合成圖像進(jìn)行模型的訓(xùn)練。3) SynImg-32Cls+RealImg:先使用3 200張合成圖像進(jìn)行模型的預(yù)訓(xùn)練,再使用320張真實(shí)圖像對(duì)模型進(jìn)行精調(diào)。相關(guān)實(shí)驗(yàn)結(jié)果如表2所示。需要說明的是,表2中第3大列實(shí)驗(yàn)數(shù)據(jù)分別是每類Logo的AP(average precision)值。
表2中,單純使用真實(shí)圖像進(jìn)行訓(xùn)練,本文(RealImg(Ours))取得了與 RealImg([12])近似的實(shí)驗(yàn)結(jié)果(50.5% VS 50.4%),雖然50.5%是一次實(shí)驗(yàn)的結(jié)果,但是實(shí)際上針對(duì)RealImg本文進(jìn)行了多次實(shí)驗(yàn),mAP值基本在50.0%上下很小幅度變化,導(dǎo)致實(shí)驗(yàn)結(jié)果不穩(wěn)定的原因主要在于神經(jīng)網(wǎng)絡(luò)算法本身的隨機(jī)性(如Faster R-CNN使用隨機(jī)梯度下降的優(yōu)化算法),因此本文基本復(fù)現(xiàn)了文獻(xiàn)[12]在 FlickrLogos-32數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。而在此基礎(chǔ)上,采用本文合成算法的SynImg-32Cls(Ours)以及 SynImg-32Cls+RealImg(Ours)均相對(duì)于文獻(xiàn)[12]的方法取得明顯優(yōu)勢(shì)(32.6% VS 27.6%, 58.5% VS 54.8%),充分驗(yàn)證了本文合成算法的有效性。更為值得一提的是,取得如此性能的提升既不依賴于額外的手工標(biāo)注,也不需要像文獻(xiàn)[12]那樣構(gòu)建龐大的(463類)常見Logo模板集。
除此之外,筆者還觀察到以下情況。1) 僅使用10張真實(shí)圖像訓(xùn)練,針對(duì)32類Logo的識(shí)別 Faster R-CNN就已經(jīng)取得較好的訓(xùn)練結(jié)果(mAP 50.5%),這得益于遷移學(xué)習(xí)思想的運(yùn)用,網(wǎng)絡(luò)的初始化權(quán)重本文使用的是在 PASCAL VOC數(shù)據(jù)集上預(yù)訓(xùn)練的模型。2) 雖然SynImg-32Cls(Ours)相對(duì)于 SynImg-32Cls([12])有很大的提升,但是僅使用合成圖像進(jìn)行訓(xùn)練的效果仍與使用少量真實(shí)圖像的方法存在很大的差距,造成該現(xiàn)狀的潛在原因可能是真實(shí)圖像與合成圖像之間存在較大的分布差異,模型在合成圖像上學(xué)習(xí)到的細(xì)節(jié)難以泛化到真實(shí)圖像中,即通常所說的域漂移問題[29]。從這個(gè)角度上看,合成數(shù)據(jù)擴(kuò)展訓(xùn)練集方法的關(guān)鍵在于如何優(yōu)化合成算法以盡可能縮小合成圖像與真實(shí)圖像間的分布差異,而本文算法在本質(zhì)上也是通過利用多種類型的上下文信息在此方面進(jìn)行嘗試與努力。3) 基于先使用合成與真實(shí)的混合數(shù)據(jù)進(jìn)行訓(xùn)練,再用真實(shí)圖像進(jìn)行精調(diào)(fusion + RealImg)的訓(xùn)練策略,模型將取得更好的訓(xùn)練結(jié)果(mAP 58.9%)。文獻(xiàn)[12]中為了驗(yàn)證課程學(xué)習(xí)思想的有效性,僅限于使用混合數(shù)據(jù)進(jìn)行訓(xùn)練,沒有再進(jìn)一步地利用真實(shí)數(shù)據(jù)。實(shí)際上,筆者認(rèn)為“先混合再真實(shí)”的訓(xùn)練策略與課程學(xué)習(xí)“先易后難”的核心思想是一致的,這也啟發(fā)筆者擴(kuò)展遷移學(xué)習(xí)的訓(xùn)練思路,以往在訓(xùn)練一個(gè)深層神經(jīng)網(wǎng)絡(luò)之前,筆者通常會(huì)在更通用的大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練以獲得網(wǎng)絡(luò)的初始化權(quán)重,而現(xiàn)在筆者可以預(yù)先將目標(biāo)數(shù)據(jù)集與通用大數(shù)據(jù)集混合起來進(jìn)行訓(xùn)練,然后在目標(biāo)數(shù)據(jù)集上進(jìn)行精調(diào),這應(yīng)當(dāng)能取得可預(yù)期的更好結(jié)果。
圖10給出了基于本文合成算法在FlickrLogos-32測(cè)試集上的部分實(shí)例測(cè)試結(jié)果,可以發(fā)現(xiàn)算法對(duì)于目標(biāo)的多尺度、多視角、旋轉(zhuǎn)變形以及部分遮擋等情形具備一定的頑健性。
圖10 基于本文算法在FlickrLogos-32測(cè)試集上的測(cè)試結(jié)果示例
為了定量地探究本文合成算法中每項(xiàng)改進(jìn)細(xì)節(jié)對(duì)算法性能的影響,本文針對(duì)算法中的每項(xiàng)改進(jìn)進(jìn)行了補(bǔ)充實(shí)驗(yàn)。這組實(shí)驗(yàn)的基線方法為表 2中SynImg-32Cls + RealImg(Ours),每次實(shí)驗(yàn)控制忽略合成算法中的一項(xiàng)改進(jìn)細(xì)節(jié),訓(xùn)練策略均按照先使用3 200張合成圖像進(jìn)行模型的預(yù)訓(xùn)練,再使用320張真實(shí)圖像對(duì)模型進(jìn)行精調(diào),具體有以下5個(gè)過程。1) Transparent Only:用于合成的Logo模板僅選擇背景完全透明的 Logo圖像。2) Pixel-level Only:用于合成的Logo模板僅選擇像素級(jí)別的Logo掩碼。3) Random Context:用于合成的背景圖像任意選取,不考慮語義相關(guān)性。4) No Logo Transformations:合成前不對(duì)Logo模板進(jìn)行任何變換。5) Random Position:合成圖像中 Logo模板的放置位置完全隨機(jī)。相關(guān)實(shí)驗(yàn)結(jié)果如表3所示。
表3 本文合成算法每項(xiàng)改進(jìn)對(duì)性能影響的定量實(shí)驗(yàn)結(jié)果
表3中,從宏觀上可以看出,與基線方法相比,本文合成算法的每項(xiàng)改進(jìn)對(duì)最終識(shí)別模型的性能提升都起到了促進(jìn)作用,進(jìn)一步驗(yàn)證了基于本文合成算法的有效性。更具體地觀察到如下事實(shí)。1) 采用像素級(jí)別的Logo掩碼進(jìn)行合成的效果要優(yōu)于采用背景完全透明的情形(58.1% VS 57.8%),這表明 Logo掩碼中包含的局部上下文信息對(duì)于相關(guān)特征的學(xué)習(xí)是有所裨益的,但相較而言仍是綜合使用兩者的效果更好。2) 不考慮上下文一致性的隨機(jī)背景選取做法會(huì)造成一定程度的性能損失(56.7% VS 58.5%),這表明合成圖像中全局上下文信息對(duì)于特定對(duì)象的識(shí)別有著關(guān)鍵的輔助作用。3) 針對(duì)Logo模板進(jìn)行的增強(qiáng)變換對(duì)于性能提升的效果最顯著(56.3% VS 58.5%),這直接證明了傳統(tǒng)數(shù)據(jù)增強(qiáng)對(duì)最終模型的識(shí)別性能以及泛化能力有著非常重要的影響。4) 僅在數(shù)據(jù)層面上優(yōu)化合成位置的做法對(duì)算法性能會(huì)產(chǎn)生微小提升(58.2% VS 58.5%),性能提升受限的可能原因在于神經(jīng)網(wǎng)絡(luò)算法對(duì)于圖像細(xì)節(jié)的感知方式與人類視覺系統(tǒng)存在一定的差異,合成圖像中的一些低級(jí)視覺特征對(duì)于最終性能的影響較為有限。
最后,本文還探究了基于合成數(shù)據(jù)方法前提下參與訓(xùn)練的合成樣本數(shù)量對(duì)算法性能的影響。
如圖所示,圖11(a)為僅用合成圖像進(jìn)行訓(xùn)練的結(jié)果,圖11(b)為先用合成圖像進(jìn)行訓(xùn)練、再用真實(shí)圖像進(jìn)行精調(diào)的結(jié)果。從圖中可以看出,適度增加參與訓(xùn)練的合成樣本數(shù)量能夠在一定程度上提升識(shí)別模型的性能。由于從該角度出發(fā)的探究更像是一項(xiàng)具體的調(diào)參工作,因此本文對(duì)此并未展開更加深入的研究。
圖11 合成樣本數(shù)量對(duì)算法性能的影響
本文針對(duì)深度學(xué)習(xí)框架下 Logo識(shí)別任務(wù)中標(biāo)注數(shù)據(jù)缺乏的問題,從自動(dòng)合成大規(guī)模訓(xùn)練數(shù)據(jù)的角度,在現(xiàn)有合成思路的基礎(chǔ)上,提出了一種基于上下文的 Logo圖像合成算法。通過在FlickrLogos-32數(shù)據(jù)集上的詳細(xì)實(shí)驗(yàn),表明當(dāng)只有少量標(biāo)注數(shù)據(jù)可用時(shí),采用本文的合成算法能夠在不依賴額外手工標(biāo)注的前提下,實(shí)現(xiàn) Logo識(shí)別算法性能的較大幅度提升(mAP提升 8.5%,50.4% VS 58.9%,如表2所示),充分驗(yàn)證了本文合成算法的有效性與優(yōu)越性,同時(shí)進(jìn)一步表明多種類型的上下文信息能夠有效地提升目標(biāo)識(shí)別算法的性能。此外,本文基于合成數(shù)據(jù)前提下探究的諸多訓(xùn)練策略與方法具備一定的借鑒和推廣意義。由于對(duì)于合成圖像中 Logo位置的優(yōu)化本文仍停留在數(shù)據(jù)層面,如何更深層次地利用上下文信息以及進(jìn)一步縮小合成樣本與真實(shí)樣本間的分布差異將是本文下一步的研究方向。
參考文獻(xiàn):
[1]符亞彬. 基于 Logo標(biāo)志檢測(cè)的暴恐視頻識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京: 北京交通大學(xué),2016.FU Y B. Design and implementation of violence and fear video recognition system based on Logo mark detection[D]. Beijing:Beijing Jiaotong University,2016.
[2]GAO Y, WANG F, LUAN H, et al. Brand data gathering from live social media streams[C]//ACM International Conference on Multimedia Retrieval. 2014:169.
[3]PAN C, YAN Z, XU X, et al. Vehicle logo recognition based on deep learning architecture in video surveillance for intelligent traffic system[C]//IET International Conference on Smart and Sustainable City. 2013:123-126.
[4]HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]//IEEE International Conference on Computer Vision. 2017:2980-2988.
[5]WANG X, SHRIVASTAVA A, GUPTA A. A-Fast-RCNN: hard positive generation via adversary for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017:3039-3048.
[6]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision-ECCV 2016. Springer International Publishing, 2016:21-37.
[7]JOLY A, BUISSON O. Logo retrieval with a contrario visual query expansion[C]//International Conference on Multimedia 2009.2009:581-584.
[8]KALANTIDIS Y, PUEYO L G, TREVISIOL M, et al. Scalable triangulation-based logo recognition[C]//ACM International Conference on Multimedia Retrieval. 2011:1-7.
[9]ROMBERG S, PUEYO L G, LIENHART R, et al. Scalable logo recognition in real-world images[C]//ACM International Conference on Multimedia Retrieval. 2011:25.
[10]HOI S C H, WU X, LIU H, et al. LOGO-Net: Large-scale deep logo detection and brand recognition with deep region-based convolutional networks[J]. IEEE Transactions on Pattern Analysis &Machine Intelligence, 2015, 46(5):2403-2412.
[11]BIANCO S, BUZZELLI M, MAZZINI D, et al. Deep learning for logo recognition[J]. Neuro Computing, 2017, 245(C):23-30.
[12]SU H, ZHU X, GONG S. Deep learning logo detection with data expansion by synthesising context[C]//IEEE Winter Conference on Applications of Computer Vision. 2017:530-539.
[13]CHEN X, GUPTA A. Webly supervised learning of convolutional networks[C]//IEEE International Conference on Computer Vision.2016:1431-1439.
[14]SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2016). 2016:761-769.
[15]GUPTA A, VEDALDI A, ZISSERMAN A. Synthetic data for text localisation in natural images[C]//IEEE Computer Vision and Pattern Recognition. 2016:2315-2324.
[16]JADERBERG M, SIMONYAN K, VEDALDI A, et al. Reading text in the wild with convolutional neural networks[J]. International Journal of Computer Vision, 2016, 116(1):1-20.
[17]GEORGAKIS G, MOUSAVIAN A, BERG A C, et al. Synthesizing training data for object detection in indoor scenes[C]//Robotics:Science and Systems. 2017.
[18]EGGERT C, WINSCHEL A, LIENHART R. On the benefit of synthetic data for company logo detection[C]//ACM International Conference on Multimedia. 2015:1283-1286.
[19]REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. 2015:91-99.
[20]BENGIO Y, COLLOBERT R, WESTON J. Curriculum learning[C]//ACM International Conference on Machine Learning.2009:41-48.
[21]LIU B. Modest proposal for the principle of logo design[J]. Packaging Engineering, 2005, 127(2):222-222.
[22]OLIVA A, TORRALBA A. The role of context in object recognition[J]. Trends in Cognitive Sciences, 2007, 11(12):520.
[23]MOTTAGHI R, CHEN X, LIU X, et al. The role of context for object detection and semantic segmentation in the wild[C]//IEEE Computer Vision and Pattern Recognition. 2014:891-898.
[24]KATTI H, PEELEN M V, ARUN S P. How do targets, nontargets,and scene context influence real-world object detection?[J]. Attention Perception & Psychophysics, 2017(2):1-16.
[25]ZHOU B, LAPEDRIZA A, KHOSLA A, et al. Places: a 10 million image database for scene recognition[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 99: 1-1.
[26]GUO J, GOULD S. Deep CNN ensemble with data augmentation for object detection[J]. Computer Science, 2015.
[27]OLIVEIRA G, FRAZ?O X, PIMENTEL A, et al. Automatic graphic logo detection via fast region-based convolutional networks[C]//IEEE International Joint Conference on Neural Networks. 2016.
[28]MUNNEKE J, BRENTARI V, PEELEN M. The influence of scene context on object recognition is independent of attentional focus[J].Frontiers in Psychology, 2013, 4(8):552.
[29]NGUYEN H V, HO H T, PATEL V M, et al. DASH-N: joint hierarchical domain adaptation and feature learning[J]. IEEE Transactions on Image Processing, 2015, 24(12):5479-5491.