亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度卷積神經(jīng)網(wǎng)絡(luò)和二進(jìn)制哈希學(xué)習(xí)的圖像檢索方法

        2016-08-30 11:57:39彭天強(qiáng)河南工程學(xué)院計(jì)算機(jī)學(xué)院鄭州451191河南圖像識(shí)別工程技術(shù)中心鄭州450001
        電子與信息學(xué)報(bào) 2016年8期
        關(guān)鍵詞:二進(jìn)制哈希檢索

        彭天強(qiáng) 栗 芳(河南工程學(xué)院計(jì)算機(jī)學(xué)院鄭州451191)(河南圖像識(shí)別工程技術(shù)中心鄭州450001)

        ?

        基于深度卷積神經(jīng)網(wǎng)絡(luò)和二進(jìn)制哈希學(xué)習(xí)的圖像檢索方法

        彭天強(qiáng)*①栗芳②①
        ①(河南工程學(xué)院計(jì)算機(jī)學(xué)院鄭州451191)
        ②(河南圖像識(shí)別工程技術(shù)中心鄭州450001)

        隨著圖像數(shù)據(jù)的迅猛增長(zhǎng),當(dāng)前主流的圖像檢索方法采用的視覺(jué)特征編碼步驟固定,缺少學(xué)習(xí)能力,導(dǎo)致其圖像表達(dá)能力不強(qiáng),而且視覺(jué)特征維數(shù)較高,嚴(yán)重制約了其圖像檢索性能。針對(duì)這些問(wèn)題,該文提出一種基于深度卷積神徑網(wǎng)絡(luò)學(xué)習(xí)二進(jìn)制哈希編碼的方法,用于大規(guī)模的圖像檢索。該文的基本思想是在深度學(xué)習(xí)框架中增加一個(gè)哈希層,同時(shí)學(xué)習(xí)圖像特征和哈希函數(shù),且哈希函數(shù)滿(mǎn)足獨(dú)立性和量化誤差最小的約束。首先,利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力挖掘訓(xùn)練圖像的內(nèi)在隱含關(guān)系,提取圖像深層特征,增強(qiáng)圖像特征的區(qū)分性和表達(dá)能力。然后,將圖像特征輸入到哈希層,學(xué)習(xí)哈希函數(shù)使得哈希層輸出的二進(jìn)制哈希碼分類(lèi)誤差和量化誤差最小,且滿(mǎn)足獨(dú)立性約束。最后,給定輸入圖像通過(guò)該框架的哈希層得到相應(yīng)的哈希碼,從而可以在低維漢明空間中完成對(duì)大規(guī)模圖像數(shù)據(jù)的有效檢索。在3個(gè)常用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,利用所提方法得到哈希碼,其圖像檢索性能優(yōu)于當(dāng)前主流方法。

        圖像檢索;深度卷積神徑網(wǎng)絡(luò);二進(jìn)制哈希;量化誤差;獨(dú)立性

        針對(duì)大規(guī)模數(shù)據(jù)的檢索問(wèn)題,哈希技術(shù)被廣泛用于計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、信息檢索等相關(guān)領(lǐng)域。為了在大規(guī)模圖像集中進(jìn)行快速有效的檢索,哈希技術(shù)將圖像的高維特征保持相似性地映射為緊致的二進(jìn)制哈希碼。由于二進(jìn)制哈希碼在漢明距離計(jì)算上的高效性和存儲(chǔ)空間上的優(yōu)勢(shì),哈希碼在大規(guī)模圖像檢索中非常高效。

        位置敏感哈希[4](Locality Sensitive Hashing,LSH)按照其應(yīng)用可以分為兩類(lèi)[5]:一類(lèi)是以一個(gè)有效的方式對(duì)原始數(shù)據(jù)進(jìn)行排序,以加快搜索速度,這種類(lèi)型的哈希算法稱(chēng)為“original LSH”;另一類(lèi)是將高維數(shù)據(jù)嵌入到Hamm ing空間中,并進(jìn)行按位操作以找到相似的對(duì)象,將這種類(lèi)型的哈希算法稱(chēng)為二進(jìn)制哈希(binary hashing)。二進(jìn)制哈希方法可以分為無(wú)監(jiān)督的哈希算法、半監(jiān)督的哈希算法和監(jiān)督的哈希算法。無(wú)監(jiān)督的哈希方法不考慮數(shù)據(jù)的監(jiān)督信息,包括Isotropic hashing[6]、譜哈希[7](SH)、PCA-ITQ[8]等;半監(jiān)督的哈希方法考慮部分的相似性信息,包括SSH[9];監(jiān)督的哈希方法利用數(shù)據(jù)集的標(biāo)簽信息或者相似性點(diǎn)對(duì)信息作為監(jiān)督信息,包括BRE[10]、監(jiān)督的核哈希[11](KSH)等。這些哈希算法的目標(biāo)均是構(gòu)造出能夠保持?jǐn)?shù)據(jù)在原空間中的相似性且能夠生成緊致二進(jìn)制哈希碼的哈希函數(shù)。在譜哈希[7]中給出了度量哈希函數(shù)好壞的3個(gè)標(biāo)準(zhǔn):(1)將原始數(shù)據(jù)空間中相似的對(duì)象映射為相似的二進(jìn)制編碼;(2)需要較少的位數(shù)來(lái)對(duì)整個(gè)數(shù)據(jù)集進(jìn)行編碼;(3)給定一個(gè)新的輸入易求出相應(yīng)的二進(jìn)制編碼。其中第(2)個(gè)標(biāo)準(zhǔn)的目標(biāo)要求生成緊致的二進(jìn)制碼,即不同哈希函數(shù)之間應(yīng)該是獨(dú)立的。在PCA-ITQ[8]中在哈希函數(shù)構(gòu)造利用量化誤差最小作為優(yōu)化目標(biāo),最后生成了表達(dá)能力很強(qiáng)的二進(jìn)制哈希碼。

        基于深度學(xué)習(xí)的方法[1214]-在圖像分類(lèi)、目標(biāo)檢測(cè)等方面都展現(xiàn)了其優(yōu)越性。從2012年文獻(xiàn)[13]提出的A lexNet模型到2014年文獻(xiàn)[15]提出的NIN(Network In Network)模型和文獻(xiàn)[16]提出的深層VGG模型都成功地驗(yàn)證了基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法在學(xué)習(xí)圖像特征表示上的能力。

        由于深度卷積神經(jīng)網(wǎng)絡(luò)在特征學(xué)習(xí)上的優(yōu)越性以及哈希方法在檢索中計(jì)算速度和存儲(chǔ)空間上的優(yōu)越性,近幾年也出現(xiàn)了深度卷積神經(jīng)網(wǎng)絡(luò)與哈希技術(shù)相結(jié)合的方法。文獻(xiàn)[17]提出了一種CNNs與哈希方法相結(jié)合的算法,該算法分為兩個(gè)步驟,第1步首先利用數(shù)據(jù)的相似性信息構(gòu)建相似性矩陣,然后得到訓(xùn)練樣本的近似哈希編碼;第2步將第1步學(xué)習(xí)得到的哈希碼作為目標(biāo)利用深度卷積網(wǎng)絡(luò)框架學(xué)習(xí)哈希構(gòu)造函數(shù),該論文將哈希編碼的學(xué)習(xí)和特征的提取分為兩個(gè)階段,效果不夠好。文獻(xiàn)[18]提出了一種利用深度卷積網(wǎng)絡(luò)同時(shí)學(xué)習(xí)特征和哈希函數(shù)的算法,它利用圖像三元組作為監(jiān)督信息,優(yōu)化目標(biāo)函數(shù)是在最終的變換空間中相似的圖像對(duì)之間距離比不相似圖像對(duì)的距離近,且有一定的間隔;該論文將三元組作為監(jiān)督信息,三元組對(duì)的挑選質(zhì)量直接影響著檢索的精度且三元組的挑選需要較大的工作量。文獻(xiàn)[19]也提出了一種利用深度卷積網(wǎng)絡(luò)框架同時(shí)學(xué)習(xí)特征和哈希函數(shù)的算法,該論文中采用標(biāo)簽信息作為監(jiān)督信息,避免了需要挑選三元組的工作量,但是它沒(méi)有考慮到將連續(xù)值閾值化為二進(jìn)制碼時(shí)產(chǎn)生的量化誤差以及哈希函數(shù)之間的獨(dú)立性。

        結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)和哈希算法的優(yōu)勢(shì),本文提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)二進(jìn)制哈希函數(shù)的編碼方法,學(xué)習(xí)得到的二進(jìn)制哈希碼可用于大規(guī)模的圖像檢索。本文的基本思想是在CNNs框架中引入哈希層,利用圖像標(biāo)簽信息同時(shí)學(xué)習(xí)圖像特征和哈希函數(shù),且哈希函數(shù)需要滿(mǎn)足獨(dú)立性和量化誤差最小的約束。本文提出的二進(jìn)制哈希函數(shù)學(xué)習(xí)算法,考慮哈希函數(shù)之間的獨(dú)立性和閾值化產(chǎn)生的量化誤差,與其他相關(guān)的方法相比,本文有以下特點(diǎn):

        (1)在原有的CNNs框架中,引入哈希層,將哈希層得到的編碼輸入分類(lèi)器進(jìn)行分類(lèi),將Softmax分類(lèi)損失作為優(yōu)化目標(biāo)之一。

        (2)哈希層中包括兩部分,第1部分包括分片層(slice layer)、全連接層、激活層以及合并層(concat layer),將特征映射為連續(xù)的編碼,用于生成具有獨(dú)立性的哈希函數(shù);第2部分是閾值化層,將連續(xù)編碼二值化,得到二值哈希碼,用于計(jì)算量化誤差。

        (3)在整個(gè)框架模型中考慮量化誤差的影響,將連續(xù)值閾值化為二進(jìn)制哈希碼時(shí)產(chǎn)生的誤差加入到優(yōu)化目標(biāo)中,從而得到表達(dá)能力更強(qiáng)的哈希碼。

        實(shí)驗(yàn)結(jié)果表明,本文提出的二進(jìn)制哈希學(xué)習(xí)方法的檢索性能優(yōu)于現(xiàn)有的方法。

        2 本文方法

        本文方法的框架圖如圖1所示。該模型接受的輸入為圖像及其相應(yīng)的標(biāo)簽信息。該模型主要包括3個(gè)部分:(1)卷積子網(wǎng)絡(luò),用于學(xué)習(xí)圖像的特征表示;(2)哈希層,用于構(gòu)建獨(dú)立的哈希函數(shù)得到相應(yīng)的哈希碼;(3)損失層,包括Softmax分類(lèi)損失和量化誤差損失。首先,輸入圖像通過(guò)卷積子網(wǎng)絡(luò)層得到圖像的特征表示;其次,圖像特征經(jīng)過(guò)哈希層得到哈希碼;最后,哈希碼進(jìn)入損失層,計(jì)算損失函數(shù),并優(yōu)化該損失函數(shù)學(xué)習(xí)得到模型參數(shù)。

        圖1 本文卷積神經(jīng)網(wǎng)絡(luò)的框架圖

        2.1卷積子網(wǎng)絡(luò)

        卷積子網(wǎng)絡(luò)層用于學(xué)習(xí)圖像的特征表示,輸入圖像通過(guò)該卷積子網(wǎng)絡(luò)層可以得到圖像的特征表示。

        本文采用具有深度為16的VGG[16]模型結(jié)構(gòu)作為基本架構(gòu)。卷積子網(wǎng)絡(luò)中包含5個(gè)大卷積層、5個(gè)池化層和兩個(gè)全連接層。前2個(gè)大卷積層中分別包含了兩個(gè)核大小為3×3,步幅為1的卷積層;后3個(gè)大卷積層分別包含了兩個(gè)核大小為3×3,步幅為1的卷積層和一個(gè)核大小為1×1,步幅為1的卷積層。在使用該卷積子網(wǎng)絡(luò)模型時(shí)需要根據(jù)圖像大小,調(diào)整相應(yīng)的卷積層的輸出個(gè)數(shù)。對(duì)于圖像大小為32×32的小圖,本文的卷積子網(wǎng)絡(luò)配置見(jiàn)表1。

        2.2哈希層和優(yōu)化目標(biāo)

        LSH[20]中給出了保持內(nèi)積相似性的哈希函數(shù)的定義:給定特征構(gòu)造q個(gè)m維隨機(jī)向量構(gòu)成矩陣個(gè)哈希函數(shù)產(chǎn)生的哈希碼為

        在本文中,哈希層是由分片層、各子塊的全連接層、各子塊的激活層、合并層和閾值化層組成。其中,分片層、各子塊的全連接層、各子塊的激活層和合并層用于構(gòu)造相互獨(dú)立的哈希函數(shù);閾值化層將連續(xù)值編碼二值化,用于計(jì)算量化誤差。

        從卷積子網(wǎng)絡(luò)的第2個(gè)全連接層得到圖像特征x之后,將它傳入哈希層。首先,進(jìn)入哈希層的分片層,對(duì)圖像特征x進(jìn)行分片,假設(shè)圖像特征x的維數(shù)為m,需要生成哈希碼的長(zhǎng)度為q,則需要將圖像特征分為q片,記為中包含的特征維數(shù)為/m q(這里最好m為q的倍數(shù),可以通過(guò)控制卷積子網(wǎng)絡(luò)第2個(gè)全連接層的輸出單元數(shù)確定圖像特征的維數(shù))。

        表1 小圖的卷積子網(wǎng)絡(luò)配置

        其中,W∈R dim(x(i))×1i為第i個(gè)全連接層的權(quán)重矩陣。

        每個(gè)子塊分別進(jìn)入激活層,激活層使用雙正切激活函數(shù)將每個(gè)子塊輸出的1維數(shù)值映射為值域在[1,1]-之間的數(shù)值,表示為

        然后進(jìn)入合并層,合并層主要是將q個(gè)子塊的1維輸出合并為一個(gè)q維向量,表示為

        合并層的輸出即為哈希函數(shù)輸出值的近似值,為連續(xù)的編碼值。

        最后進(jìn)入閾值化層,閾值化層主要是將合并層得到值域在[1,1]-之間的q維連續(xù)值編碼進(jìn)行量化,量化為1-和1,表示為

        本文中深度卷積神經(jīng)網(wǎng)絡(luò)框架的優(yōu)化目標(biāo)結(jié)構(gòu)圖如圖2所示。損失層函數(shù)包括Softmax分類(lèi)器損失和量化誤差損失。激活層得到的編碼進(jìn)入Softm ax分類(lèi)器進(jìn)行分類(lèi),在這個(gè)過(guò)程中產(chǎn)生Softm ax分類(lèi)誤差損失,記為slL。另一方面,考慮到哈希碼為離散值,需要加入將連續(xù)值二值化為離散值時(shí)帶來(lái)的誤差,在目標(biāo)損失函數(shù)中,加入合并層輸出的連續(xù)值編碼與閾值化層輸出的哈希碼之間的誤差損失,即量化誤差損失,表示為

        圖2 本文卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化目標(biāo)結(jié)構(gòu)圖

        圖3 哈希碼生成流程圖

        結(jié)合Softm ax分類(lèi)器的損失函數(shù)和量化誤差損失,得到該框架的整體損失函數(shù):

        其中,λ為權(quán)重因子,決定著量化損失所占的重要性。

        2.3哈希碼的生成

        在利用本文卷積神經(jīng)網(wǎng)絡(luò)的框架訓(xùn)練之后,給定一張圖像作為輸入,通過(guò)該網(wǎng)絡(luò)框架可以得到q位二進(jìn)制哈希碼。生成流程如圖3所示,給定輸入圖像,首先經(jīng)過(guò)卷積子網(wǎng)絡(luò)層,然后經(jīng)過(guò)哈希層,哈希層中的最后一層為閾值層,直接輸出了二進(jìn)制哈希碼。

        3 實(shí)驗(yàn)設(shè)置與性能評(píng)價(jià)

        3.1實(shí)驗(yàn)設(shè)置

        為驗(yàn)證本文方法的有效性,在以下3個(gè)圖像集上對(duì)本文方法進(jìn)行了評(píng)估。MNIST數(shù)據(jù)集[21],該數(shù)據(jù)集是包括了70000張28×28的灰度圖像,手寫(xiě)數(shù)字從0到9共10個(gè)類(lèi)別。CIFAR-10數(shù)據(jù)集[22],包括了60000張32×32的彩色圖像,其類(lèi)別包括飛機(jī)、卡車(chē)等10類(lèi)。NUS-W IDE數(shù)據(jù)集[23],包括了將近270000張圖像,每張圖像具有一個(gè)或者多個(gè)標(biāo)簽。借鑒文獻(xiàn)[24]的使用方式,僅使用21個(gè)常用類(lèi),常用類(lèi)中每一類(lèi)中至少包括5000張圖像。另外在訓(xùn)練時(shí)我們統(tǒng)一將圖像大小重設(shè)置為256×256。

        將本文的方法的檢索性能與其它的哈希方法做比較,包括非監(jiān)督的哈希方法ITQ[8],監(jiān)督的哈希方法KSH[11],以及深度學(xué)習(xí)與哈希技術(shù)相結(jié)合的哈希方法CNNH[17],改進(jìn)CNNH[18],DCNNH[19]。

        在MNIST和CIFAR-10數(shù)據(jù)集中,每一類(lèi)選擇1000張圖像構(gòu)成包含10000圖像的測(cè)試集。對(duì)于無(wú)監(jiān)督的哈希方法,其余的數(shù)據(jù)作為訓(xùn)練集。對(duì)于監(jiān)督的哈希方法,每類(lèi)選擇出500張,組成包括5000張圖像的訓(xùn)練集。在NUS-W IDE數(shù)據(jù)集中,隨機(jī)從每一類(lèi)中選擇出100張圖像組成2100張圖像的測(cè)試圖像集。對(duì)于無(wú)監(jiān)督的哈希方法,其余的數(shù)據(jù)作為訓(xùn)練集。對(duì)于有監(jiān)督的哈希方法,每類(lèi)選擇出500張,組成包括10500張圖像的訓(xùn)練集。

        對(duì)于深度學(xué)習(xí)與哈希計(jì)算相結(jié)合的算法,直接使用圖像作為輸入。而其余的方法,數(shù)據(jù)集MNIST和CIFAR-10采用512維的Gist特征表示圖像;NUS-W IDE圖像使用500維的bag-of-words向量表示圖像。

        為了評(píng)估圖像檢索性能并與已有方法作比較,本文采用MAP、查準(zhǔn)-查全率(Precision-Recall,P-R)曲線(xiàn)、漢明距離小于2的準(zhǔn)確率曲線(xiàn)以及檢索返回top-k近鄰域的準(zhǔn)確率曲線(xiàn)這4個(gè)參數(shù)進(jìn)行評(píng)估。其中,查準(zhǔn)率是指查詢(xún)結(jié)果中正確結(jié)果所占的比例,查全率是指查詢(xún)結(jié)果中正確結(jié)果占全部正確結(jié)果的比例;P-R曲線(xiàn)是指按照漢明距離從小到大的排序,所有測(cè)試圖像的平均查全率和平均查準(zhǔn)率的曲線(xiàn)圖。MAP是指P-R曲線(xiàn)所包圍的面積。漢明距離小于2的準(zhǔn)確率是指在與查詢(xún)圖像的漢明距離小于2的圖像中正確結(jié)果所占的比例。top-k近鄰域的準(zhǔn)確率是指與查詢(xún)圖像距離最小的k張圖像中正確結(jié)果所占的比例。

        本文的訓(xùn)練過(guò)程基于開(kāi)源Caffe實(shí)現(xiàn)的。在所有實(shí)驗(yàn)中,量化損失的權(quán)重因子λ取值為0.2。

        3.2實(shí)驗(yàn)性能分析

        表2中給出在MNIST數(shù)據(jù)集上,本文方法和已有方法MAP值的比較結(jié)果。從表2中可以看出,本文算法的MAP值遠(yuǎn)遠(yuǎn)高于傳統(tǒng)特征與哈希方法相結(jié)合的算法(KSH,ITQ),因?yàn)楸疚睦蒙疃染矸e網(wǎng)絡(luò)同時(shí)學(xué)習(xí)特征表示和哈希函數(shù),大大提高了圖像的表示能力。與其它的深度卷積網(wǎng)絡(luò)與哈希技術(shù)相結(jié)合的方法相比,本文算法的MAP值最高,與CNNH算法和改進(jìn)CNNH算法相比,本文算法采用了標(biāo)簽信息作為監(jiān)督信息且考慮了量化誤差,得到了表示能力更強(qiáng)的哈希碼;與DCNNH算法相比,本文算法架構(gòu)中考慮了量化誤差和哈希函數(shù)之間的獨(dú)立性,得到了更具有圖像表示能力的哈希碼,使得它在檢索中MAP值較高。

        表3給出在CIFAR-10數(shù)據(jù)集上,本文方法和已有方法MAP值的比較結(jié)果。從表3中可以看出,本文算法的MAP值遠(yuǎn)遠(yuǎn)高于傳統(tǒng)特征與哈希方法相結(jié)合的算法(如KSH),提高了50%;與現(xiàn)有的深度卷積網(wǎng)絡(luò)與哈希技術(shù)相結(jié)合的方法相比,由于本文算法同時(shí)考慮了量化誤差和哈希函數(shù)之間的獨(dú)立性,且采用了標(biāo)簽信息作為監(jiān)督信息,本文算法的MAP值最高。特別地,比改進(jìn)CNNH算法的MAP值提高了27%左右。

        表2 在數(shù)據(jù)集MNIST上按漢明距離排序的MA P值對(duì)比

        表3 在數(shù)據(jù)集CIFAR-10上按漢明距離排序的MAP值對(duì)比

        表4 在數(shù)據(jù)集NUS-W IDE上top-5000近鄰域的MAP值對(duì)比

        表4給出在NUS-W IDE數(shù)據(jù)集上,本文方法和已有方法MAP值的比較結(jié)果。從表4中可以看出。本文算法的MAP值比傳統(tǒng)特征+KSH的MAP值提高了將近20%;與現(xiàn)有的深度卷積網(wǎng)絡(luò)與哈希技術(shù)相結(jié)合的方法相比,本文算法比改進(jìn)CNNH算法的MAP值高了6%左右,比DCNNH算法的MAP值提高了2%左右,主要是因?yàn)楸疚乃惴ㄍ瑫r(shí)加入了量化誤差和哈希函數(shù)的獨(dú)立性的約束,得到了表示能力更強(qiáng)的哈希碼。

        圖4~圖6給出了在3個(gè)數(shù)據(jù)集上,在其它檢索性能(不同位數(shù)下漢明距離小于2的正確率、P-R曲線(xiàn)、不同位數(shù)下top-k的檢索正確率)上的比較結(jié)果。從這3個(gè)圖中可以看出,本文的方法的檢索性能均優(yōu)于現(xiàn)有的其它方法。

        3.3加入獨(dú)立性和量化損失的性能對(duì)比

        為了驗(yàn)證本文提出的框架的有效性,將本文算法與未加入分片層、閾值層和量化損失的算法(即未做任何約束,不考慮哈希函數(shù)間的獨(dú)立性和量化誤差)、以及在本算法的基礎(chǔ)上未加入閾值層和量化損失的算法(即僅考慮哈希函數(shù)間的獨(dú)立性,不考慮量化誤差)分別做比較。不考慮哈希函數(shù)間的獨(dú)立性和量化誤差的算法框架見(jiàn)圖7所示,在給定圖像生成哈希碼時(shí),圖像經(jīng)過(guò)該框架僅得到了值域在[-1,1]之間的編碼,需要對(duì)得到的編碼進(jìn)行二值化生成二進(jìn)制哈希碼,該算法框架類(lèi)似于文獻(xiàn)[19]提出的算法。僅包含獨(dú)立性不包含量化損失的算法框架見(jiàn)圖8所示,在該框架中也需要對(duì)該框架的輸出編碼也需要進(jìn)行二值化生成二進(jìn)制哈希碼,該算法框架類(lèi)似于改進(jìn)CNNH[18]的框架,但在改進(jìn)CNNH[18]中采用圖像三元組損失函數(shù),且不考慮量化損失。

        圖4 在數(shù)據(jù)集MNIST上結(jié)果對(duì)比

        圖5 在數(shù)據(jù)集CIFAR10上結(jié)果對(duì)比

        圖6 在數(shù)據(jù)集NUS-W IDE上結(jié)果對(duì)比

        圖7 未加入分片層、閾值層和量化損失的算法框架

        圖8 僅增加哈希函數(shù)間的獨(dú)立性,未加入量化損失的算法框架

        表5~表7給出了3種算法在3個(gè)數(shù)據(jù)集上的MAP對(duì)比結(jié)果。從這3個(gè)表可以看出:僅加入獨(dú)立性的算法比未做任何約束的算法的檢索MAP值提高了1%~2%;而本文算法包括獨(dú)立性和量化損失約束,比僅有獨(dú)立性約束的算法的MAP值又提高了1%左右。在數(shù)據(jù)集MNIST上,雖然本文算法僅比未閾值化算法的MAP提高0.5%左右,但本文算法24位的哈希碼的檢索MAP值高于未做任何約束算法的48位的哈希碼檢索MAP值,從而在大規(guī)模圖像檢索中可以用更短的哈希碼來(lái)表示圖像但能達(dá)到與較長(zhǎng)哈希碼相當(dāng)?shù)臋z索精度。在數(shù)據(jù)集CIFAR-10上,本文算法24位的哈希碼的檢索精度已經(jīng)超過(guò)了未做任何約束算法的48位哈希碼;在數(shù)據(jù)集NUS-W IDE上,本文算法12位的哈希碼的檢索精度也高于了未做任何約束算法的48位哈希碼。從以上對(duì)比中可以看出,利用本文算法可以用較短的哈希碼表示圖像,且達(dá)到其他算法用較長(zhǎng)的哈希碼的檢索精度。用較短的哈希碼表示圖像,使得在大規(guī)模圖像檢索中圖像集占用的存儲(chǔ)空間更少,距離計(jì)算速度更快,提高了圖像檢索在時(shí)間、空間上的性能,但同時(shí)保持了相應(yīng)的檢索精度。

        表5 數(shù)據(jù)集MNIST上按漢明距離排序的MAP值對(duì)比

        表6 數(shù)據(jù)集CIFAR-10上按漢明距離排序的M AP值對(duì)比

        表7 數(shù)據(jù)集NUS-W IDE上top-5000近鄰域的MAP值對(duì)比

        4 結(jié)束語(yǔ)

        本文提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)二進(jìn)制哈希的方法,適用于大規(guī)模圖像檢索。在本文提出的框架中,采用類(lèi)別信息作為監(jiān)督信息,而不使用三元圖像組作為監(jiān)督信息,大大降低了人工標(biāo)記量。另外,在整個(gè)框架模型中加入哈希函數(shù)獨(dú)立性的限制,并考慮量化誤差的影響,將連續(xù)值閾值化為哈希碼時(shí)產(chǎn)生的誤差加入到損失函數(shù)中,從而構(gòu)造出了更好的哈希函數(shù),得到了更具有圖像表達(dá)能力的哈希碼。與其他現(xiàn)有方法相比,本文算法的檢索精度最優(yōu)。

        [1]LOWE D G.Distinctive image features from scale-invariant keypoints[J].In ternational Journal ofCom puter V ision,2004,60(2):91-110.

        [2]DALAL N and TRIGGSB.Histogram s of oriented gradients for human detection[C].Com puter Vision and Pattern Recognition,San Diego,CA,USA,2005:886-893.

        [3]KRIZHEVSKY A,SUTSKEVER I,and H INTON G E. ImageNet classification w ith deep convolutional neural networks[C].Advances in Neural Information Processing System s,South Lake Tahoe,Nevada,US,2012:1097-1105.

        [4]DATAR M,IMMORLICA N,INDYK P,et al.Locality sensitive hashing schem e based on p-stable distribu tions[C]. Proceedings of the ACM Sym posium on Com putational Geometry,New York,USA,2004:253-262.

        [5]ZHANG Lei,ZHANG Yongdong,ZHANG Dongm ing,et al. Distribution-aware locality sensitive hashing[C].19th International Conference on Multimedia Modeling,Huangshan,China,2013:395-406.

        [6]KONG W eihao and LI W ujun.Isotrop ic hash ing[C]. Advances in Neural Information Processing System s,South Lake Tahoe,Nevada,US,2012:1646-1654.

        [7]WEISS Y,TORRALBA A,and FERGUS R.Spectral hashing[C].Advances in Neural Information Processing System s,Vancouver,Canada,2009:1753-1760.

        [8]GONG Yunchao,LAZEBN IK S,GORDO A,et al.Iterative quantization:a p rocrustean approach to learning binary codes for large-scale image retrieval[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,35(12): 2916-2929.

        [9]WANG Jun,KUM AR S,and CHANG Sh ih fu. Sem i-Supervised hashing for large scale search[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(12):2393-2406.

        [10]KULIS B and DARRELL T.Learning to hash w ith binary reconstructive embeddings[C].Advances in Neural Inform ation Processing System s,Vancouver,Canada,2009: 1042-1052.

        [11]LIUWei,WANG Jun,JIRongrong,etal.Supervised hashing w ith kernels[C].Com puter Vision and Pattern Recognition,Providence,RI,2012:2074-2081.

        [12]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate ob ject detection and semantic segm entation[C].Com puter Vision and Pattern Recogn ition,Ohio,Columbus,2014:580-587.

        [13]OQUAB M,BOTTOU L,LAPTEV I,et al.Learning and transferring m id-level image representations using convolutional neural networks[C].Com puter Vision and Pattern Recogn ition,Ohio,Colum bus,2014:1717-1724.

        [14]RAZAVIAN A,AZIZPOUR H,SULLIVAN J,et al.CNN features off-the-shelf:an astounding baseline for recognition[C].Com puter Vision and Pattern Recognition,Ohio,Colum bus,2014:806-813.

        [15]LIN M in,CHEN Qiang,and YAN Shuicheng.Network in network[OL].http://arxiv.org/abs/1312.4400,2013.

        [16]SIMONYAN K and ZISSERMAN A.Very deep convolutionalnetworks for large-scale image recognition[OL]. http://arxiv.org/abs/1409.1556,2014.

        [17]XIA Rongkai,PAN Yan,LAI Hanjiang,et al.Supervised hashing for image retrieval via image representation learning[C].Proceedings of the AAAI Con ference on Artificial Intelligence,Québec,Canada,2014:2156-2162.

        [18]LAIHanjiang,PAN Yan,LIU Ye,et al.Simultaneous feature learning and hash cod ing w ith deep neural networks[C]. Com puter Vision and Pattern Recognition,Boston,MA,USA,2015:3270-3278.

        [19]LIN K,YANG H F,HSIAO J H,et al.Deep learning of binary hash codes for fast im age retrieval[C].Proceed ings of the IEEE Conference on Computer Vision and Pattern Recognition,Boston,MA,USA,2015:27-35.

        [20]GIONIS A,INDYK P,and MOTWANIR.Sim ilarity search in high dimensions via hashing[C].Proceedings of the International Con ference on Very Large Data Bases,Edinburgh,Scotland,UK,1999:518-529.

        [21]LECUN Y,CORTES C,and BURGES CJC.The MNIST database of handw ritten digits[OL].http://yann.lecun. com/exdb/mn ist,2012.

        [22]KRIZHEVSKY A and H INTON G.Learning mu ltip le layers of features from tiny images[R].Technical Report,University of Toronto,2009.

        [23]CHUA TatSeng,TANG Jinhui,HONG Richang,et al. NUS-W IDE:A real-world W eb im age database from national university of singapore[C].Proceedings of the ACM International Conference on Image and Video Retrieval,Greece,2009:48.

        [24]LIU W ei,WANG Jun,Kumar San jiv,et al.Hashing w ith graphs[C].Proceedings of the 28th International Con ference on Machine Learning,Bellevue,Washington,USA,2011:1-8.

        彭天強(qiáng):男,1978年生,博士,副教授,主要研究方向?yàn)槎嗝襟w信息處理及模式識(shí)別.

        栗芳:女,1986年生,碩士,研究方向?yàn)閳D像檢索與分類(lèi).

        Image Retrieval Based on Deep Convolutional Neural Networks and Binary Hashing Learning

        PENG Tianqiang①LIFang②①(Departm ent ofComputer Science and Engineering,Henan Institute ofEngineering,Zhengzhou 451191,China)
        ②(Henan Image Recognition Engineering Center,Zhengzhou 450001,China)

        W ith the increasing am ount of im age data,the im age retrievalm ethods have several d raw backs,such as the low exp ression ability of visual feature,high dimension of feature,low p recision of image retrievaland so on.To solve these prob lem s,a learningmethod ofbinary hashing based on deep convolutional neuralnetworks isp roposed,which can be used for large-scale image retrieval.The basic idea is to add a hash layer into the deep learning framework and to learn simu ltaneously image features and hash functions should satisfy independence and quantization errorm inim ized.First,convolutional neuralnetwork is emp loyed to learn the intrinsic im plications of training images so as to imp rove the distinguish ability and exp ression ability of visual feature.Second,the visual feature is putted into the hash layer,in which hash functions are learned.And the learned hash functions shou ld satisfy the classification error and quantization errorm inim ized and the independence constraint.Finally,an input image is given,hash codes are generated by the output of the hash layer of the p roposed framework and large scale im age retrieval can be accom p lished in low-dim ensional hamm ing space.Experim ental resu lts on the th ree benchmark datasets show that the binary hash codes generated by the p roposed m ethod has superior perform ance gains over other state-of-the-art hashing methods.

        Image retrieval;Deep convolutional neural networks;Binary hashing;Quantization error;Independence

        1 引言

        隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)圖像資源迅猛增長(zhǎng),如何對(duì)大規(guī)模圖像資源進(jìn)行快速有效的檢索以滿(mǎn)足用戶(hù)需求亟待解決。圖像檢索技術(shù)由早期的基于文本的圖像檢索(Text-Based Im age Retrieval,TBIR)逐漸發(fā)展為基于內(nèi)容的圖像檢索(Content-Based Im age Retrieval,CBIR),CBIR通過(guò)提取圖像視覺(jué)底層特征來(lái)實(shí)現(xiàn)圖像內(nèi)容表達(dá)。視覺(jué)底層特征包括基于梯度的圖像局部特征描述子,如SIFT[1](Scale-Invariant Feature Transform),HOG[2](Histogram of Orientated G radients)等。與人工設(shè)計(jì)的特征相比,深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)更能夠獲得圖像的內(nèi)在特征,且在目標(biāo)檢測(cè)、圖像分類(lèi)和圖像分割等方面都表現(xiàn)出了良好的性能。利用深度CNNs學(xué)習(xí)圖像特征,文獻(xiàn)[3]首先提出了一個(gè)提取圖像特征的框架,且在ImageNet數(shù)據(jù)集上取得了不錯(cuò)的效果。

        The National Natural Science Foundation of China(61301232)

        TP391.4

        A

        1009-5896(2016)08-2068-08

        10.11999/JEIT 151346

        2015-12-01;改回日期:2016-04-29;網(wǎng)絡(luò)出版:2016-06-24

        彭天強(qiáng)p tq_drum boy@163.com

        國(guó)家自然科學(xué)基金(61301232)

        猜你喜歡
        二進(jìn)制哈希檢索
        用二進(jìn)制解一道高中數(shù)學(xué)聯(lián)賽數(shù)論題
        有趣的進(jìn)度
        二進(jìn)制在競(jìng)賽題中的應(yīng)用
        2019年第4-6期便捷檢索目錄
        專(zhuān)利檢索中“語(yǔ)義”的表現(xiàn)
        基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
        基于維度分解的哈希多維快速流分類(lèi)算法
        基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
        一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
        一個(gè)生成組合的新算法
        国产黄色三级一区二区三区四区| 国产成人精品精品欧美| 亚洲性69影视| 美女性色av一区二区三区| 精品国产av一区二区三区四区 | 在线观看在线观看一区二区三区| 久久亚洲日韩精品一区二区三区| 国产精品麻豆欧美日韩ww| 一区二区视频观看在线| 亚洲综合国产精品一区二区| 色窝窝亚洲av网在线观看| 中日韩精品视频在线观看| 久久精品免视看国产盗摄| 白色白色白色在线观看视频| 色综合久久久久综合体桃花网| 日日噜狠狠噜天天噜av| 色欲AV无码久久精品有码| 国产又大大紧一区二区三区| 日韩网红少妇无码视频香港| 日日噜噜夜夜狠狠久久无码区 | 亚洲av综合av国产av| 久久亚洲国产成人精品v| 国产成人精品一区二区三区av| 艳妇臀荡乳欲伦69调教视频| 精品久久久久久无码国产| 美女被射视频在线观看91| 免费看黄片的视频在线观看| 一区二区三区乱码在线 | 欧洲| 美女在线国产| 中文字幕av一区二区三区诱惑| 日本xxxx色视频在线观看| 狠狠色噜噜狠狠狠狠色综合久| 国产在线视频h| 午夜视频一区二区三区播放| 狠狠色综合7777久夜色撩人ⅰ| 欧美性猛交xxxx乱大交蜜桃| 加勒比一本大道大香蕉| 国产精品天天看天天狠| 欧美性猛交内射兽交老熟妇| 2020最新国产激情| 不卡av网站一区二区三区|