亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于可變形卷積的手繪圖像檢索①

        2020-07-25 01:47:26王文超
        計算機系統(tǒng)應用 2020年7期
        關鍵詞:變形特征

        王文超

        (中國石油大學(華東)計算機科學與技術學院,青島 266580)

        手繪對于人類而言是非常直觀且通用的工具,是人類的本能,從原始時期就被用來描述人類所看到的現(xiàn)實世界.近年來,隨著智能手機、平板電腦、手繪板等移動設備的普及,手繪圖像的獲取更加容易,使得手繪圖像檢索的研究變得日益繁盛和重要起來.手繪圖像檢索是一種通過手繪圖像檢索自然彩圖的圖像檢索技術,是以圖搜圖技術的一種.與文本標簽相比,手繪圖像所包含的信息更加豐富,表達更加生動形象;與自然圖像相比,手繪圖像鉤玄提要,只保留了物體最基本的骨架輪廓信息,而且手繪允許人們隨心所欲地表達想要描述的物體.由于手繪檢索獨特的優(yōu)勢,目前已在圖片檢索、在線商城、安防等領域得到了足夠的重視與應用.比如在線商城根據(jù)用戶通過手繪圖像推薦相似商品,公安人員通過素描畫像進行嫌疑犯定位等等.近期流行的“你畫我猜”等應用背后也是手繪識別技術的體現(xiàn).

        1 相關工作

        手繪圖像檢索相關研究可追溯至自上世紀90年代,早期工作如GF-HOG[1]、HELO[2]、RST-HELO[3]等多通過設計手工特征對線條輪廓進行特征表達,但由于手繪圖像具有抽象性、隨意性等特點并未取得良好效果.隨著深度學習的興起,基于神經(jīng)網(wǎng)絡的方法開始逐漸奏效.2014年,Yu Qian 針對手繪圖像稀疏性的特點,設計了第一個適用于手繪圖像的卷積神經(jīng)網(wǎng)絡Sketch-a-Net[4],作者利用手繪圖像繪制過程中線條的時序順序,將手繪圖分為5種不同層次的表達并據(jù)此構建了5分支網(wǎng)絡,最后通過貝葉斯融合得到最終特征描述.作者將Sketch-a-Net 用于手繪圖像分類并取得了良好效果.2016年,新加坡南洋理工大學[5]針對自然圖像背靜雜亂的特點,引入目標檢測中的RPN (Region Proposal Network)網(wǎng)絡對于圖像中可能存在的目標予以定位,并將手繪圖像與RPN網(wǎng)絡生成的每個Region Proposal進行相似度比較以此實現(xiàn)實例檢索.其網(wǎng)絡結構延續(xù)了Sketch-a-Net的設計思路,然而此方法由于操作繁瑣檢索效率稍顯不足.同年,北京郵電大學提出一種基于孿生網(wǎng)絡(Siamese Networks)的手繪檢索方法[6],通過選取正負樣本對的形式使網(wǎng)絡對圖像相似性進行建模.基礎網(wǎng)絡結構則為模仿Sketch-a-Net 搭建的小型卷積網(wǎng)絡,然而由于網(wǎng)絡深度較淺并未取得良好效果.2018年,Bui Tu在Siamese Networks 基礎上采用了Triplet Networks進行手繪圖像檢索[7],該方法每次選取三個樣本:一張作為參照的手繪圖像,一張與手繪圖像同類別的自然圖像作為正樣本,另一張不同類別的作為負樣本,通過Triplet loss進行網(wǎng)絡訓練.作者通過實驗發(fā)現(xiàn)網(wǎng)絡結構采用AlexNet[8]、GoogLeNet[9]等在ImageNet上訓練過的網(wǎng)絡比采用Sketch-a-Net 能夠取得更好的效果.類似的,Huang F和Seddati O 等人的工作[10,11]也得出了類似的結論.文獻[10]采用Alexnet作為基礎網(wǎng)絡,而文獻[11]提出的Quadruplet Networks 則采用了Resnet-18[12].

        通過以上介紹可知,Sketch-a-Net 雖然針對手繪圖像特點設計,但是一方面其5分支結構過于復雜不易操作,另一方面由于網(wǎng)絡深度較淺,特征表達能力不足,直接將其用于手繪檢索并未取得理想效果.另一方面,遷移學習在圖像分類、目標檢測、目標跟蹤等諸多計算機視覺任務中均體現(xiàn)出明顯優(yōu)勢,采用在自然圖像數(shù)據(jù)集ImageNet上訓練得到的VGG[13]、GoogLeNet等作為基礎網(wǎng)絡結構并針對特定任務特定數(shù)據(jù)進行微調(diào),可以有效減少網(wǎng)絡訓練難度并帶來性能提升.因此手繪圖像檢索近期工作也逐漸傾向于遷移學習而忽略了對手繪圖像特點的探索.

        手繪圖像與自然圖像有著截然不同的特性.自然圖像顏色、背景以及紋理細節(jié)信息豐富,而手繪圖像僅由簡單的線條輪廓組成,因此,設計適合手繪圖像稀疏性特點的卷積神經(jīng)網(wǎng)絡結構仍然是有必要的.為此,本文提出一種基于可變形卷積的手繪檢索方法,打破標準卷積只能在矩形感受野內(nèi)均勻采樣的特點,通過學習卷積核的位置偏移量使得網(wǎng)絡關注到手繪圖像輪廓區(qū)域,以獲得更加魯棒的特征表達.

        2 基于可變形卷積的手繪圖像檢索

        該部分將從消除域差異、網(wǎng)絡結構與訓練、特征表達與相似度度量等方面對本文提出的基于可變形卷積的手繪圖像檢索方法進行詳細描述.

        2.1 消除域差異

        實現(xiàn)手繪圖像的跨域檢索首先要做的就是消除手繪域與自然圖像域之間的域差異.本文沿用現(xiàn)有工作最常采用的思路,將自然圖像通過邊緣檢測轉化為類手繪圖,即邊緣圖,以此減小域間差異實現(xiàn)跨域檢索.與現(xiàn)有工作最常采用的Canny邊緣檢測相比,本文采用的Berkerly邊緣檢測算法[14]通過訓練分類器得到每一個像素屬于邊緣的概率,通過設置恰當?shù)拈撝?能夠最大程度上保留目標的主體輪廓而消除不必要的細節(jié)信息干擾.圖1為Canny算子與Berkerly算法效果對比,第1行為原始圖像,第2行為Canny邊緣檢測效果圖,第3行為本文采用Berkerly邊緣檢測效果圖.

        2.2 可變形卷積

        卷積操作是圖像處理最基礎也是最常用的操作之一.以卷積作為主要操作的卷積神經(jīng)網(wǎng)絡同樣在計算機視覺領域大放異彩.每個卷積核都是一個濾波模板,通過卷積核與圖像在特定鄰域內(nèi)做卷積操作可以檢測圖像是否具備某些特征.以3×3尺寸的卷積核為例,對于輸入圖像x,卷積操作在中心位置pcenter處的響應y(pcenter)可定義為:

        其中,F表示3×3卷積核定義的感受野位置,w表示卷積核采樣權重.

        圖1 邊檢檢測效果對比

        對于自然圖像而言,由于其細節(jié)信息豐富,任意位置處的像素信息均有可能對圖片內(nèi)容理解做出貢獻,因此在使用標準卷積進行均勻采樣的情況下能夠取得良好效果.而使用標準卷積處理手繪圖像時,卷積核感受野內(nèi)的背景像素幾乎對手繪圖像識別沒有幫助,因此如果能夠打破規(guī)格化的矩形感受野,使得卷積操作能夠更偏重于提供有用信息的線條像素而忽略部分背景像素,將更有助于手繪圖像的特征學習.為此,本文將可變形卷積引入手繪圖像檢索.

        在可變形卷積中,卷積核采樣位置不再由卷積核尺寸限制,而是通過學習得到,即式(2)中的Offset.引入可變形卷積后,卷積操作可定義為:

        可變形卷積由Dai Jifeng 首次提出并用于目標檢測任務[15],通過引入可變形卷積可以使網(wǎng)絡適應圖片中不同尺寸的目標.文獻[15]僅對輸入特征圖的每一個位置學習一對偏移量,而各通道之間共享學習到的偏移量.然而,不同通道代表的特征一般并不相同,因此本文充分考慮了通道之間的差異性,設計了更為靈活多樣的可變形卷積操作,具體如圖2.

        如圖2所示,給定輸入圖像或卷積網(wǎng)絡中間層的特征圖,記其尺寸大小為W×H×C,其中W表示寬度,H表示高度,C表示通道數(shù).本文方法需要對輸入特征圖每個通道的每個位置學習x和y兩個方向的偏移量,因此需要學習2WHC個參數(shù).該過程可通過2C個3×3卷積核對輸入特征圖進行卷積操作實現(xiàn),得到的偏移量特征圖尺寸為W×H×2C.值得注意的是,網(wǎng)絡學習到的偏移量(即采樣位置)并不要求是整數(shù),而且極有可能是浮點數(shù),因此采樣位置的像素值需要通過對輸入特征圖進行雙線性插值得到.

        圖2 可變形卷積示意圖

        本文采用的可變形卷積模塊可以替換標準卷積網(wǎng)絡中的任意卷積層而不影響網(wǎng)絡的整體結構,具有簡單靈活且高效的特點.

        2.3 網(wǎng)絡結構

        如圖3所示,本文采用VGG-16網(wǎng)絡結構作為基準網(wǎng)絡結構,VGG網(wǎng)絡由于其優(yōu)異的效果與可拓展性現(xiàn)已成為圖像檢索任務最常選用的網(wǎng)絡結構之一.需要說明的是,本文引入的可變形卷積模塊可與任意卷積神經(jīng)網(wǎng)絡結合,并不依賴于某個具體網(wǎng)絡結構.如圖所示,本文將VGG-16網(wǎng)絡每個block的第一層卷積層由原來的標準卷積替換為可變形卷積,在實驗部分將會對該替換選擇進行分析.

        2.4 網(wǎng)絡訓練

        由于手繪圖像數(shù)量較少,本文采用類手繪圖(邊緣圖)進行網(wǎng)絡訓練.將數(shù)據(jù)集按照1:1的比例劃分訓練集與測試集,以ImageNet上預訓練權重為初始化網(wǎng)絡參數(shù),通過類別交叉熵損失進行遷移學習.一方面,與自然圖像相比邊緣圖的數(shù)量仍然較少,通過遷移學習而不是從頭訓練會取得更好的效果;另一方面,本文引入的可變形卷積模塊在初始狀態(tài)時偏置為零,并不會改變網(wǎng)絡狀態(tài),因此可以通過預訓練權重進行微調(diào).

        圖3 整體網(wǎng)絡框架圖

        2.5 特征表達與相似度度量

        與卷積層相比,全連接層往往包含更多的語義信息,因此本文提取加入可變形卷積的VGG-16網(wǎng)絡的第二個全連接層特征作為輸入圖像的特征向量.將自然圖像通過邊緣檢測算法轉化為邊緣圖后,手繪圖像與邊緣圖可以共享一個網(wǎng)絡進行特征提取.

        本文采用歐式距離衡量手繪圖像特征si與自然圖像特征ni之間的相似度.基于特征向量距離的遠近,相似度公式定義為:

        其中,d(,)表示兩個向量的歐式距離,k表示檢索結果總數(shù),S(,)越大表示圖像相似度越高.

        2.6 檢索算法流程

        本文基于可變形卷積的手繪檢索算法描述如算法1.

        算法1.基于可變形卷積的手繪圖像檢索算法1)通過Berkerly邊緣檢測算法將數(shù)據(jù)庫中的自然圖像轉化為二值化邊緣圖2)將所有邊緣圖輸入基于可變形卷積的VGG網(wǎng)絡并提取全連接層特征作為特征描述子3)將給定的手繪圖像輸入基于可變形卷積的VGG網(wǎng)絡并提取全連接層特征作為特征描述子4)通過歐氏距離進行特征相似度度量5)返回檢索結果

        3 實驗分析

        3.1 基準數(shù)據(jù)集

        本文選用手繪圖像檢索常用的數(shù)據(jù)集Flickr15k為基準數(shù)據(jù)集進行實驗驗證與對比.Flickr15k 同時包含手繪圖像和與之對應的自然彩圖.其中手繪圖像329幅,分別屬于33個類別,由10名非專業(yè)手繪創(chuàng)作者繪制而成.自然圖像共14 460幅,分屬60個類別.

        3.2 評價標準

        本文采用圖像檢索任務最常用的mAP (mean Average Precision)指標作為主要評價標準,mAP值越高代表檢索效果越好.

        3.3 實驗環(huán)境

        本文所有實驗均在以下環(huán)境配置中進行:Intel Xeon CPU E5處理器,一塊GeForce GTX Titan X顯卡,以TensorFlow為后端的Keras 深度學習框架.

        3.4 可變形卷積替換選擇

        為驗證可變形卷積對檢索精度的影響,本文通過將原始VGG-16網(wǎng)絡不同卷積層由原來的標準卷積替換為可變形卷積并進行多次對比試驗,實驗結果記錄如表1所示.其中BxCy代表第x個block 中的第y個卷積層.對勾表示該層采用可變形卷積.

        實驗表明,將VGG-16 中每個block的第一個卷積層替換為可變形卷積,或者將第二個卷積層替換為可變形卷積,均會對檢索精度帶來不同程度的提升,說明本文引入的可變形卷積是有效的.但是將每個block 前兩層均替換為可變形卷積時,效果反而不如僅替換一層,原因可能是連續(xù)堆疊多層可變形卷積使得引入的偏移量參數(shù)相互影響,不易優(yōu)化所致.因此本文在VGG-16 每個block的第一個卷積層使用可變形卷積.

        表1 可變形卷積替換選擇

        3.5 實驗對比

        本文選取經(jīng)典手工特征描述子HOG、GF-HOG、RST-HELO 等方法,以及采用深度特征的Siamese CNN、Triplet CNN、Quadruplet CNN 等方法與本文提出的算法進行對比,不同方法在Flickr15k上的mAP表2所示.

        通過表2結果可知,本文提出的基于可變形卷積的手繪檢索方法是有效的.其得到的特征描述子平均檢索精度遠超手工特征描述子30%~40%,而且與同為深度特征的其他方法相比平均檢索精度也能有較大幅的提升.

        圖4為采用本文基于可變形卷積的手繪檢索方法對于Flickr15k數(shù)據(jù)集的部分檢索結果.左側為輸入的手繪圖像,右側為從自然圖像數(shù)據(jù)庫中檢索到的相似度top-8 排名的圖像.可以看出本文方法能夠取得較為理想的檢索效果.

        表2 Flickr15k上各方法mAP 對比

        圖4 本文方法檢索結果

        4 總結

        本文分析了針對手繪圖像稀疏性等特點設計神經(jīng)網(wǎng)絡結構的必要性,提出基于可變形卷積的手繪檢索方法,使得卷積神經(jīng)網(wǎng)絡更加關注手繪圖像輪廓信息以獲取更魯棒的特征表達.本文以VGG-16為基礎網(wǎng)絡,通過在Flickr15k數(shù)據(jù)集上的實驗驗證了引入可變形卷積的效果增益,并對可變形卷積的添加位置進行了討論.另外,本文方法具有良好的拓展性和遷移性,可變形卷積模塊可以添加到任意卷積神經(jīng)網(wǎng)絡,該手繪檢索流程也同樣適用于其他手繪圖像數(shù)據(jù)庫的檢索.

        猜你喜歡
        變形特征
        抓住特征巧觀察
        談詩的變形
        中華詩詞(2020年1期)2020-09-21 09:24:52
        新型冠狀病毒及其流行病學特征認識
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        “我”的變形計
        變形巧算
        抓住特征巧觀察
        例談拼圖與整式變形
        會變形的餅
        亚洲乱码中文字幕视频| 免费一本色道久久一区| 国产精品国产三级国产av主| 水蜜桃视频在线观看入口| 国产精品久久久久久久久绿色| 男男车车的车车网站w98免费| 亚洲AV一二三四区四色婷婷| 最新日韩精品视频免费在线观看| 国产av一区二区三区在线播放| 亚洲va中文字幕无码毛片| 青青青爽国产在线视频| 精品免费看国产一区二区白浆| 在线观看国产视频午夜| 国产麻豆精品一区二区三区v视界 妺妺窝人体色www看美女 | 国产老熟女网站| 亚洲人成人影院在线观看| 亚洲无码美韩综合| 手机在线播放av网址| 日本精品无码一区二区三区久久久| 亚洲另类国产综合第一| 国内自拍第一区二区三区| 午夜一区二区视频在线观看| 黑人上司粗大拔不出来电影| 美日韩毛片| 国产毛片精品一区二区色| 精品久久久久久综合日本| 中文字幕久无码免费久久| 日韩在线观看网址| av新型国产在线资源| 精品亚洲成a人无码成a在线观看 | 91九色精品日韩内射无| аⅴ天堂中文在线网| 国产精品成人免费视频网站京东| 国产成人一区二区三区高清 | 国产无套内射又大又猛又粗又爽| 亚洲av之男人的天堂网站| 亚洲三区二区一区视频| 蜜臀av在线一区二区尤物| av综合网男人的天堂| 一区二区三区日韩亚洲中文视频| 青青草在线成人免费视频|