亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度卷積聚合特征的圖像檢索方法*

2022-09-28 07:26:34馮慶賀聶廣華劉榮升遲明路王元利高雅昆張建霞

河南工學院學報 2022年3期

馮慶賀,聶廣華,劉榮升,遲明路,王元利,高雅昆,張建霞

(1.河南工學院智能工程學院,河南新鄉(xiāng) 453003;2.河南工學院電氣工程與自動化學院,河南新鄉(xiāng) 453003)

0 引言

伴隨著個人移動終端、對地觀測衛(wèi)星、醫(yī)學影像設備和交通視頻監(jiān)控設備的普及應用,海量的人臉圖像、遙感圖像、醫(yī)學圖像和交通視頻監(jiān)控圖像正在不斷地被收集和存儲[1,2]。由于圖像的數(shù)量呈現(xiàn)了爆炸式增長,因此高效準確地檢索到感興趣的目標圖像,在移動邊緣計算領域、遙感衛(wèi)星觀測領域、醫(yī)學輔助診斷領域和智能交通監(jiān)控領域都成為一個被廣泛關注的研究熱點,而有效的特征提取對圖像檢索系統(tǒng)的準確性和高效性方面都起著關鍵的作用[3,4]。

縱覽國內外研究現(xiàn)狀,特征提取方法大致可以劃分為圖像底層視覺特征提取方法和深度卷積特征提取方法兩個方面。圖像底層視覺特征提取方法主要包括顏色特征提取、形狀特征提取和紋理特征提取三個大類[5,6]。最近幾年,深度卷積特征提取開始逐漸走進圖像檢索領域。不同于圖像顏色、形狀和紋理特征,深度卷積特征提取方法主要從圖像的語義進行考慮[7]。但是基于圖像分類任務訓練的卷積神經網絡模型并不可以直接應用于圖像檢索任務。其中重要的原因是圖像分類任務的目標是將具有相同語義的圖像劃分到一個類別內[8],然而圖像檢索任務需要具體到同一個事物。例如在最常用的Pairs-6K地標建筑數(shù)據集中進行埃菲爾鐵塔圖像檢索,就需要所檢索到的圖像中包含埃菲爾鐵塔這個地標性建筑。因此從預訓練模型抽取的深度卷積特征通常存在嚴重的冗余影響圖像檢索準確率的問題。

針對這個問題,提出一種深度卷積聚合(Deep Convolutional Aggregation, DCA)算法用于消減預訓練模型抽取的深度卷積特征冗余,以提高圖像檢索的準確率。所提出算法可以概括為三個步驟:篩選、聚合和池化。在篩選步驟中,提出一種基于熵的卷積描述子篩選策略;在聚合步驟中,卷積描述子通過洪泛算法聚合為目標掩碼圖;在池化步驟中,卷積特征圖內部的目標掩碼圖區(qū)域被池化后再聚合。再通過在公共的地標建筑圖像數(shù)據集上的定量和定性實驗,以驗證該算法在特征篩選上的有效性和在地標建筑圖像檢索上的優(yōu)越性。

1 深度卷積特征分析

當前預訓練的AlexNet、GoogLeNet、VGGNet、ResNet和DenseNet等卷積神經網絡模型已經廣泛應用于圖像檢索研究工作,考慮到在ImageNet上預訓練VGG16網絡模型的良好遷移學習性能,并且當前大多數(shù)圖像檢索的研究工作也都基于VGG16網絡模型上進行深度卷積特征提取,為了保證算法和實驗對比的有效性和公平性,本文采用預訓練的VGG16網絡模型作為算法的基礎。與此同時,本文也采用文獻[9]中的參數(shù)設置方案,圖像的尺寸被重置為700×700后輸入網絡模型中,之后抽取模型的池化5層(Pool-5)進行深度卷積特征提取。如圖1所示,在Pool-5層解析中,將Pool-5看做一個三維卷積激活張量,其包含K個大小為L×W的卷積特征圖集合S,其中任意一個卷積特征圖標記為Sk,k∈K。為了方便,本文采用不同的顏色進行卷積特征圖的區(qū)分[10]。轉換空間角度,將Pool-5三維卷積激活張量看作L×W個卷積描述子,其中每一個卷積描述子可以看作一個K維變量標記為Cell(l,w),其中l(wèi)∈[1,L],w∈[1,W]。

圖1 Pool-5層解析

然而,Pool-5卻不適合直接作為一個深度卷積特征,主要原因是卷積神經網絡模型自身存在嚴重的參數(shù)冗余問題。如文獻[10]認為,卷積神經網絡模型精度只損失1%的前期下,采用最簡單的標量量化方法可以將網絡模型參數(shù)的總量壓縮至原大小的1/16到1/24;卷積神經網絡模型中只需要5%的參數(shù),即可重構出剩下95%參數(shù);在卷積神經網絡模型精度只損0.58%的情況下,采用通用的網絡量化方法可以將網絡模型的體積縮減20.34倍,浮點數(shù)運算的次數(shù)縮減4.06倍?；谝陨涎芯拷Y論,本文推測卷積神經網絡模型中Pool-5也存在著嚴重冗余。為了驗證這種推測,本文對Pool-5中所有卷積特征圖Sk進行了求和,獲得一個掩碼圖,之后等比放大至原圖像大小。如圖2所示,可以看到在Oxford-5K和Pairs-6K數(shù)據集上不同地標建筑物的Pool-5掩碼圖定位結果示例,其中掩碼區(qū)域代表求和后值不為0的區(qū)域。從圖中可以清楚看到目標掩碼圖幾乎覆蓋了整張圖像的絕大多數(shù)區(qū)域,其中包括干擾的天空背景、遮擋的樹木、周圍建筑等等。如此之多的干擾因素不僅會導致Pool-5的嚴重冗余問題,更會影響到深度卷積特征的表達能力,增加計算負擔和存儲花費。如何有效去除冗余是一個值得研究的問題。

(a) Oxford-5K數(shù)據集

2 深度卷積聚合特征提取

2.1 基于熵的卷積描述子篩選

熵這個概念最初由Clausius在熱力學中將其定義為體系混亂的程度。之后Shannon將信息熵的概念引入信息論,將其定義為變量的不確定度。變量的不確定度通常采用概率分布進行度量。在數(shù)學上,設X為一個變量,其取值范圍為?,x∈?。變量X的熵被定義為H(X),具體定義如下所示[11]:

(1)

式中,p(x)代表x的概率。通常H(X)越大代表變量X的不確定度越高,所包含的信息也就越多。

受啟發(fā)于Shannon信息熵理論,本文將卷積層中每個卷積描述子看做一個變量。如果卷積描述子里面存在不為0的值越多,那么代表卷積描述子的不確定度也就越高,對應的熵值也就越大。據此,本文構建了深度卷積聚合算法如圖3所示,Pool-5中每一個卷積描述子Cell(l,w)的熵被定義為H(l,w),具體定義如下所示:

圖3 深度卷積聚合算法流程圖

(2)

式中,p(k)代表k的概率。通常熵H(l,w)的值越大代表卷積描述子Cell(l,w)的不確定度越高。

(3)

(4)

2.2 目標掩碼圖構建

盡管在2.1節(jié)根據熵值去除了池化五層中部分冗余的卷積描述子Cell(l,w),然而實際上所篩選出的感興趣卷積描述子仍然存在著部分冗余,并不是所有的感興趣卷積描述子都屬于目標區(qū)域。為了進一步有效篩選出目標所在的區(qū)域,本文利用文獻[9]中的洪泛算法,將所有感興趣卷積描述子聚合為N個候選的感興趣區(qū)域(Region-of-Interest, ROI),返回其中最大的感興趣區(qū)域作為目標掩碼圖Mask,具體定義如下:

(5)

式中,ROIn表示為第n個感興趣區(qū)域,n∈[1,2,…,N]。在池化五層中,N的值為512。

2.3 多層卷積聚合特征提取算法

接下來,本文將目標掩碼圖Mask與Pool-5中每一張卷積特征圖Sk進行交集運算,用于選取Sk中目標區(qū)域(Object-of-Rgion)ORk,具體定義如下所示:

ORk=Mask?Sk

(6)

其中符號?代表交集運算。

之后,對從特征圖Sk中選取的目標區(qū)域ORk進行平均池化,獲得DCAave。具體定義如下所示:

(7)

為了進一步將DCAave串聯(lián)為深度卷積聚合特征向量DCA,DCA具體定義如下所示:

DCA=[DCAave(0),DCAave(1)，…，DCAave(k-1)]

(8)

3 實驗仿真

3.1 實驗設置

為保證實驗的精準性和可復現(xiàn)性,本文參照文獻[12,13]中的實驗參數(shù)設置方案,把最常用的Oxford-5K和Pairs-6K地標建筑數(shù)據集用于測試所提出方法的檢索性能。在實驗中,DCA特征向量經過L2歸一化后利用歐式距離進行相似性度量。定量的檢索效果評價指標采用平均準確率(Mean Average Precision, mAP)。

3.2 定性評價

如圖4所示,Oxford-5K數(shù)據集上的原始Pool-5掩碼圖幾乎被全圖覆蓋,而所提出的目標掩碼圖Mask的覆蓋區(qū)域明顯減少。在細節(jié)上,可以看到目標掩碼圖不僅濾掉過原圖像中天空區(qū)域等冗余,而且準確定位出檢索目標所在的區(qū)域。如圖5所示,在Pairs-6K數(shù)據集上,可以觀察到所提出的目標掩碼圖Mask依然可以有效過濾整張圖像中的冗余,并準確地定位出地標建筑所在的目標區(qū)域。

圖4 Oxford-5K和Pairs-6K數(shù)據集上掩碼圖示例

圖5 Pairs-6K數(shù)據集上掩碼圖示例

3.3 定量評價

表1列出了在Oxford-5K和Pairs-6K數(shù)據集上、Pool-5(原始)、文獻[13]中HFCLF方法和DCA(本文)的mAP結果對比。表中粗體數(shù)值表示在Oxford-5K和Pairs-6K數(shù)據集上的最高mAP。從表1可以看到DCA在Oxford-5K和Pairs-6K數(shù)據集上的mAP(%)為59.0和68.8,明顯優(yōu)于Pool-5和HFCLF方法。主要原因在于DCA不僅消減了Pool-5中的冗余,而且聚合不同層增加了特征的表達能力,進而提升了檢索的準確率。

表1 在Oxford-5K和Pairs-6K數(shù)據集上平均準確率對比

4 結束語

本文提出了一種深度卷積聚合特征提取算法。受啟發(fā)于Shannon信息熵理論,提出了利用熵值作為閾值篩選出感興趣的卷積描述子,之后通過洪泛算法將感興趣的卷積描述子聚合為目標掩碼圖,用于卷積特征圖中對應區(qū)域的篩選,最后篩選出的區(qū)域在平均池化后進行串聯(lián)聚合。通過在Oxford-5K和Pairs-6K圖像數(shù)據集上的定性和定量實驗結果對比證明了本文所提算法的優(yōu)越性和有效性。