亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Hadoop環(huán)境下圖像內(nèi)容檢索方法的研究

        2017-07-19 10:05:52石祥濱鐘劉倍張德園
        關(guān)鍵詞:特征融合分布式計(jì)算云平臺(tái)

        石祥濱,鐘劉倍,張德園

        (1.沈陽航空航天大學(xué) 計(jì)算機(jī)學(xué)院,沈陽 110136;2.遼寧大學(xué) 信息學(xué)院,沈陽 110036)

        信息科學(xué)與工程

        Hadoop環(huán)境下圖像內(nèi)容檢索方法的研究

        石祥濱1,2,鐘劉倍1,張德園1

        (1.沈陽航空航天大學(xué) 計(jì)算機(jī)學(xué)院,沈陽 110136;2.遼寧大學(xué) 信息學(xué)院,沈陽 110036)

        近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,圖像數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),圖像檢索已成為廣泛關(guān)注的熱點(diǎn)問題。提出一種基于Hadoop和ElasticSearch的多特征融合圖像檢索方案。為實(shí)現(xiàn)分布檢索,該方案給出了視覺詞典生成、圖片向量化和多維倒排索引的構(gòu)建方法。為了提高檢索精度,設(shè)計(jì)了RootSIFT、顏色矩、Gabor特征,給出了三種特征融合方法。在Corel-1000標(biāo)準(zhǔn)圖像庫和ILSVRC2015數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方案在分布式平臺(tái)上具有較快的響應(yīng)速度以及較高的檢索精度。關(guān)鍵詞: 云平臺(tái);特征融合;CBIR;分布式計(jì)算

        作為一種常見的、內(nèi)容豐富的數(shù)據(jù)存儲(chǔ)形式,圖像中所蘊(yùn)含的信息往往比文字描述所包含的信息要更豐富直觀。隨著互聯(lián)網(wǎng)和多媒體技術(shù)的不斷發(fā)展,圖像數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)態(tài)勢(shì),圖像檢索技術(shù)[1]已成為大數(shù)據(jù)時(shí)代的重要課題。傳統(tǒng)單一節(jié)點(diǎn)圖像檢索方法的研究對(duì)精度和速度都有所提高,如文獻(xiàn)[2]中結(jié)合了反映局部區(qū)域變化的像素點(diǎn)顏色復(fù)雜度,對(duì)子塊顏色直方圖進(jìn)行加權(quán)處理;文獻(xiàn)[3]中提出一種使用改進(jìn)的倒排索引、相關(guān)性反饋和區(qū)域加權(quán)的基于區(qū)域的圖像表示和比較的框架。但隨著數(shù)據(jù)規(guī)模的爆發(fā)式增長(zhǎng),單節(jié)點(diǎn)架構(gòu)的圖像檢索系統(tǒng)出現(xiàn)并發(fā)性差、速度慢、穩(wěn)定性和實(shí)時(shí)性無法保障等問題[4]。因此,一種能夠?qū)崿F(xiàn)海量圖像中精確而快速檢索的圖像檢索技術(shù)成為研究熱點(diǎn)。

        云計(jì)算的發(fā)展過程一直與大數(shù)據(jù)處理密切相關(guān),因此利用云計(jì)算平臺(tái)來實(shí)現(xiàn)大規(guī)模的圖像檢索技術(shù)是一個(gè)非常有潛力的方向[5]。王梅等人提出一種基于Hadoop的圖像檢索方法,將圖像檢索技術(shù)與MapReduce框架相結(jié)合,圖像特征庫存儲(chǔ)于分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)中,計(jì)算節(jié)點(diǎn)采用基于Hadoop的分布式存儲(chǔ)調(diào)度算法,增強(qiáng)對(duì)多數(shù)據(jù)的并發(fā)處理能力[6]。Raju[7]等基于MapReduce框架實(shí)現(xiàn)了LTrPs(Local Tetra Patterns)算法,提高了檢索效率。但Hadoop強(qiáng)大的分布式計(jì)算能力更加適合離線數(shù)據(jù)的處理,在實(shí)時(shí)檢索方面有所欠缺,文獻(xiàn)[6-7]中都沒有充分發(fā)揮集群分布式的效果,如文獻(xiàn)[6]中當(dāng)數(shù)據(jù)量達(dá)到80萬圖像時(shí),4個(gè)節(jié)點(diǎn)的檢索效率為單節(jié)點(diǎn)的2.21倍,與理論上最高效率4.0倍有不少差距。針對(duì)這個(gè)問題,本文在Hadoop中引入了ElasticSearch,共享HDFS分布式文件系統(tǒng),實(shí)現(xiàn)分布式的實(shí)時(shí)檢索。

        單一特征很難表達(dá)出圖像所包含的豐富信息,如顏色特征對(duì)圖像本身尺寸、方向、視角依賴較小,但是只能描述圖像的顏色分布,忽略了其他信息。綜合利用顏色、紋理、形狀和空間關(guān)系等特征可以有效解決這個(gè)問題。Kong[8]提出的基于顏色直方圖特征和顏色共生矩陣紋理特征的融合算法與Sudhir等[9]提出的基于小波變換組合顏色特征和紋理特征,都是在特征級(jí)進(jìn)行融合,提高了檢索精度。張永庫等[10]提出一種基于底層特征綜合分析算法(CAUC,Comprehensive Analysis based on the Underlying Characteristics)的特征融合算法,在保證較高檢索速度的同時(shí)提高查準(zhǔn)率與查全率。雖然這些特征融合方案提高了檢索效率,但是在融合生成新的特征過程中對(duì)原特征信息有所破壞,對(duì)此本文提出一種基于決策層的圖像特征融合算法,主要研究多特征融合過程中權(quán)值分配的問題。朱為盛[11]等人使用SURF(Speeded Up Robust Features)特征,提出了一種基于傳統(tǒng)視覺詞袋模型和MapReduce計(jì)算模型的大規(guī)模圖像檢索方案,該方案具有優(yōu)良的加速比、擴(kuò)展率以及數(shù)據(jù)伸縮率。史亞東[12]等人使用SIFT(Scale Invariant Feature Transform)特征,實(shí)現(xiàn)了基于Hadoop的并行化圖像檢索方法,相對(duì)于傳統(tǒng)圖像檢索在效率上有所提高。

        綜上,針對(duì)圖像檢索問題,為了在檢索精度較高的情況下提高圖像檢索的效率,本文提出一種基于Hadoop+ElasticSearch云計(jì)算平臺(tái)的多特征融合圖像檢索方案。

        1 系統(tǒng)結(jié)構(gòu)

        本文圖像檢索系統(tǒng)結(jié)構(gòu)如圖1所示,主要分為兩個(gè)部分,分別是MapReduce圖片特征預(yù)處理和ElasticSearch構(gòu)建多維倒排索引實(shí)現(xiàn)檢索。檢索前對(duì)圖片庫中的圖片提取RootSIFT特征、顏色矩特征、Gabor特征;對(duì)提取的特征分別聚類生成各自的視覺詞典并且對(duì)圖片進(jìn)行向量化;然后利用ElasticSearch建立三維倒排索引,每一維對(duì)應(yīng)一種圖像特征,在索引的層次上進(jìn)行特征融合。檢索時(shí),先利用視覺詞典將待檢索圖片向量化,然后通過倒排索引返回相似圖片的結(jié)果。

        圖1 系統(tǒng)結(jié)構(gòu)

        2 特征提取

        特征的質(zhì)量和匹配識(shí)別能力對(duì)圖像檢索的性能有很大的影響,為了提高檢索精度,本文設(shè)計(jì)使用多特征融合的檢索方案,采用RootSIFT特征、顏色矩特征、Gabor小波變換分別表示圖像的梯度、顏色和紋理,在決策層進(jìn)行特征融合。

        2.1 RootSIFT特征

        David G.Lowe提出了一種具有尺度不變性、旋轉(zhuǎn)不變性、亮度不變性的局部圖像特征,即尺度不變特征轉(zhuǎn)換SIFT[13-14]。SIFT特征是一個(gè)比較成熟的圖像局部特征,能夠描述圖像的局部梯度信息分布,在圖像檢索與分類、目標(biāo)跟蹤、圖像拼接等領(lǐng)域都有著出色的表現(xiàn)。

        針對(duì)傳統(tǒng)的SIFT特征,在相似度度量的過程中使用歐氏距離的計(jì)算方式,在圖像檢索時(shí)會(huì)造成一定的匹配偏差和性能損失的問題。Arandjelovic和Zisserman[15]提出了一種SIFT特征的變體,即RootSIFT特征,RootSIFT特征向量在歐氏距離空間內(nèi)的計(jì)算等價(jià)于SIFT特征在Hellinger核空間的巴氏距離計(jì)算,更具魯棒性且具有更優(yōu)的視覺匹配性能。SIFT特征到RootSIFT特征的轉(zhuǎn)換可以簡(jiǎn)單方便地實(shí)現(xiàn),計(jì)算算法如下所示。

        Step 1:計(jì)算SIFT描述符

        Step 2:L1歸一化每個(gè)SIFT特征向量。

        Step 3:取SIFT向量中每個(gè)元素的平方根。

        Step4:L2歸一化所得向量。

        最終得到的RootSIFT特征是一個(gè)128維的向量,其表示形式為TR=(k1,k2,…,k128)。

        本文采用歐式距離作為兩個(gè)RootSIFT特征向量之間的相似性度量。

        2.2 顏色矩特征

        顏色矩[16]是由Stricker和Orengo所提出的一種非常簡(jiǎn)單而有效的顏色特征。其思想是圖片的顏色信息主要集中在低階矩中,故用顏色的一階均值矩、二階方差矩和三階斜度矩表示圖像的顏色分布。三個(gè)顏色矩的數(shù)學(xué)定義如公式(1)~(3)所示。

        (1)

        (2)

        (3)

        其中,pi,j表示彩色圖像第i個(gè)顏色通道分量中灰度為j的像素出現(xiàn)的概率,N表示圖像中的像素個(gè)數(shù)。相對(duì)于其他顏色空間,HSV顏色空間更能表達(dá)出人類肉眼觀察到的主觀色彩信息,本文采用HSV顏色空間下的顏色矩作為顏色特征,三個(gè)顏色分量的三階矩組成的特征形式為Tc=(μ1,σ1,s1,μ2,σ2,s2,μ3,σ3,s3)。本文使用曼哈頓距離進(jìn)行顏色矩相似度度量。

        提取顏色矩特征時(shí),為了解決顏色空間分布較散的問題,本文將圖像分為5*5個(gè)子圖像,然后每個(gè)子圖像分別計(jì)算顏色矩作為局部特征。每一個(gè)子圖像的特征反映了顏色的局部分布信息,而所有塊的空間分布,又反映了圖像內(nèi)容的顏色結(jié)構(gòu),相對(duì)于使用全局的顏色矩特征,分塊顏色矩更能反映出圖像的顏色布局。

        2.3 Gabor小波變換的紋理特征

        對(duì)于圖像紋理內(nèi)容,本文選擇使用頻譜法提取圖像的紋理特征,主要以傅里葉變換、小波變換、Gabor變換等頻域變換為基礎(chǔ),在頻域中使用能量分布相關(guān)屬性形成紋理特征向量,以此來描述圖像的紋理特征。傅里葉變換只能從整體上分析信號(hào)的特征,缺乏對(duì)局部特征的分析能力,而Gabor變換可以很好地獲取圖像時(shí)域信號(hào)的局部特征,也能更好地符合人類的視覺感知,有助于提高圖像檢索的準(zhǔn)確性。

        因此本文使用具有多分辨率分析能力的Gabor濾波器提取紋理特征,用于特征融合以獲取更多的圖像內(nèi)容信息。本文實(shí)驗(yàn)中,考慮了5種不同的尺度和6種不同的方向,最后形成的紋理特征向量為TG=(μ00,σ00,μ01,σ01,…,μ45,σ45)。

        其中,μmn和σmn表示變換系數(shù)能量分布的均值和標(biāo)準(zhǔn)差,m∈[0,M-1],n∈[0,N-1]。本文中,M=5和N=6分別對(duì)應(yīng)5種尺度和6種方向。每張圖像提取Gabor紋理特征時(shí),都先幾何分塊,分為4*4個(gè)子圖像,然后分別進(jìn)行Gabor濾波提取特征作為圖像的局部特征。

        (4)

        3 分布式多特征圖像檢索

        針對(duì)大規(guī)模圖像檢索問題,本文在傳統(tǒng)Hadoop基礎(chǔ)上引入ElasticSearch,實(shí)現(xiàn)基于Hadoop+ElasticSearch的多特征融合系統(tǒng)。

        3.1 視覺詞典生成

        通常圖像特征都是多維的,如RootSIFT特征128維,而每張圖像通常包含成百上千甚至上萬個(gè)局部特征向量,在進(jìn)行相似度度量時(shí),計(jì)算量非常龐大。為了簡(jiǎn)化計(jì)算,提高運(yùn)算效率,通過聚類算法對(duì)特征向量數(shù)據(jù)進(jìn)行聚類,用聚類中的一個(gè)簇表示視覺單詞,所有聚類中心簇的集合表示視覺詞典[17](碼本),然后每一張圖像用一個(gè)碼本矢量來描述。本文采用K-means算法分別對(duì)三個(gè)特征進(jìn)行聚類,生成各自的特征庫。目標(biāo)函數(shù)如公式(5)所示。

        (5)

        其中E表示最小化誤差,E值越小則簇類特征相似度越高。dist(ci,x)表示聚類中心集合中第i個(gè)聚類中心與待聚類點(diǎn)x的距離,實(shí)驗(yàn)中即表現(xiàn)為兩個(gè)特征之間的距離度量。不同的特征之間度量方式不同,具體如第4節(jié)所示。

        算法的流程主要包括,首先隨機(jī)選擇集合中的k個(gè)點(diǎn)作為初始的聚簇中心,再根據(jù)將集合中的每個(gè)點(diǎn)分配到距離它最近的聚簇中,最后根據(jù)每個(gè)聚簇中的數(shù)據(jù)點(diǎn)更新聚簇中心,如此反復(fù)地執(zhí)行后兩個(gè)步驟直到算法收斂。通過調(diào)用MapReduce任務(wù)來實(shí)現(xiàn)重復(fù)的迭代過程,每調(diào)用一次Map/Reduce計(jì)算對(duì)應(yīng)一次迭代。K-means聚類的MapReduce算法如算法1所示:

        算法1K?means聚類的MapReduce算法 輸入:圖片庫中提取的任意一種特征向量集 輸出:圖片包含特征及其特征所屬聚類中心的描述文件a和視覺詞典描述文件b step1:Map每讀取一個(gè)特征向量與所有中心點(diǎn)(初始中心點(diǎn)為隨機(jī)選取的K個(gè)特征向量)對(duì)比,求出該向量對(duì)應(yīng)的中心點(diǎn),輸出; step2:Reduce將Map輸出的相同的cluster_id歸并到一起,求出新的聚類中心,輸出; step3:對(duì)比新的聚類中心和原中心點(diǎn)是否相同,若相同或者達(dá)到最大迭代次數(shù),則結(jié)束迭代; step4:若不相同,清空原中心點(diǎn)數(shù)據(jù),將Reduce的輸出寫到中心點(diǎn)數(shù)據(jù)文件中(文件存于HDFS中)。刪掉Reduce輸出目錄,從step1開始重新下一輪迭代。

        其中cluster_id代表視覺單詞編號(hào),簇中心cluster_vector即代表視覺單詞,所有的cluster_vector合在一起構(gòu)成視覺詞典。

        3.2 圖片的向量化

        圖片的向量化就是將每一張圖片表示成一個(gè)向量,向量的每一個(gè)分量對(duì)應(yīng)視覺詞典中的視覺單詞,分量的值表示該視覺單詞在該圖片中出現(xiàn)的次數(shù)。利用聚類后生成的描述文件通過Map/Reduce實(shí)現(xiàn)不斷的迭代將原始文件中的每個(gè)特征用其所屬的視覺單詞表示,并用類似直方圖統(tǒng)計(jì)的方式用一個(gè)K維的向量表示一張圖片。

        算法2圖片的向量化 輸入:圖片任意一種特征向量集及相應(yīng)描述文件a 輸出:相應(yīng)特征的圖片特征庫 step1:Map讀取圖片向量及算法1中生成的描述文件a,找出該向量對(duì)應(yīng)的視覺單詞; step2:用視覺單詞向量替換原特征向量,輸出; step3:Reduce將相同image_id歸并到一起,計(jì)算所有特征單詞分別出現(xiàn)的次數(shù); step4:用類似直方圖統(tǒng)計(jì)的方式表達(dá)成一個(gè)向量來表示一張圖片,向量每個(gè)分量的值表示其對(duì)應(yīng)的特征單詞在這張圖片中出現(xiàn)的次數(shù),輸出。

        3.3 ES構(gòu)建索引

        ElasticSearch[18-19]用倒排索引的結(jié)構(gòu)來做快速的全文搜索。倒排索引由在文檔中出現(xiàn)的唯一的單詞列表,以及對(duì)于每個(gè)單詞在文檔中的位置組成。

        算法3ES創(chuàng)建索引 輸入:視覺詞典描述文件b和圖片向量化后文件 輸出:索引文件 step1:從HDFS中獲取視覺詞典描述文件b和圖片向量化后文件; step2:對(duì)視覺詞典分詞解析生成Field對(duì)象; step3:對(duì)圖片向量化后文件構(gòu)建Document對(duì)象; step4:IndexWriter使用addDocument方法創(chuàng)建索引。

        索引分片依賴于集群狀態(tài),會(huì)對(duì)查詢效率造成影響。本文設(shè)計(jì)為分片個(gè)數(shù)與集群節(jié)點(diǎn)數(shù)相同,分片均勻分配至各節(jié)點(diǎn)中。索引副本個(gè)數(shù)設(shè)計(jì)為2,保證系統(tǒng)的可靠性、數(shù)據(jù)的安全性??紤]到三個(gè)特征向量需要分別計(jì)算相似度,故采用三維倒排索引,每個(gè)維度對(duì)應(yīng)一種特征的視覺單詞。

        3.4 多特征融合

        本文實(shí)現(xiàn)的是決策級(jí)的圖像特征融合,即在檢索時(shí)對(duì)待檢索的圖像提取三種圖像特征,與特征庫中相應(yīng)的特征向量分別計(jì)算相似度,最后對(duì)三種特征的相似度計(jì)算結(jié)果進(jìn)行加權(quán)整合,得到綜合的相似度。對(duì)于RootSIFT特征、顏色矩特征、Gabor紋理特征,設(shè)待檢索圖片Q和圖像庫中圖片I之間的相似度分別是DistR(Q,I)、DistC(Q,I)、DistG(Q,I)。

        考慮到不同圖像特征所描述的圖像內(nèi)容和物理意義各不相同,因此在特征融合之前需對(duì)DistR(Q,I)、DistC(Q,I)、DistG(Q,I)進(jìn)行歸一化操作,以消除不同特征量綱之間的差異對(duì)檢索結(jié)果所造成的干擾。

        研究結(jié)果表明,單個(gè)特征作用于圖像檢索時(shí),RootSIFT特征的識(shí)別與匹配能力最強(qiáng),顏色矩特征其次,Gabor紋理特征的區(qū)辨能力較弱。為了突出不同種類的圖像特征對(duì)檢索重要程度的差異性,本文在圖像特征融合時(shí)加以權(quán)重,對(duì)應(yīng)于每種特征的重要性,特征的融合權(quán)重越大,說明該特征的匹配能力越強(qiáng),對(duì)于檢索越重要。相似度融合公式如公式(6)所示。

        Dist(Q,I)=w1×DistR(Q,I)×DistC(Q,I)+w2×DistG(Q,I)

        (6)

        其中w1+w2=1。公式(6)中的DistR(Q,I)、DistC(Q,I)采用相乘的方式是為了限制匹配的條件,如果兩個(gè)圖像是相似的,很大程度上必須要求這兩張圖像同時(shí)在RootSIFT特征和顏色矩特征上都是相似的。本文中之所以DistG(Q,I)以相加而不是相乘的方式融合其他兩種特征,是因?yàn)榭紤]到圖像紋理特征的匹配較弱,造成錯(cuò)誤匹配的概率大,同時(shí)圖像中紋理特征信息一般也沒有梯度信息和顏色信息豐富。如果DistG(Q,I)也采用相乘的方式進(jìn)行融合,那么這樣的圖像匹配的條件則過于苛刻,會(huì)導(dǎo)致圖像檢索的召回率過低的問題。

        為了使得檢索精度達(dá)到最大求得合適權(quán)重值,針對(duì)權(quán)重w1進(jìn)行分析,觀察權(quán)重w1取值的變化對(duì)平均檢索精度的影響,由于w1與w2相互約束,w2的取值隨之相應(yīng)變化。本次使用Corel-1000標(biāo)準(zhǔn)圖像庫[20]作為測(cè)試,實(shí)驗(yàn)結(jié)果表明隨著w1的取值從0,0.1,0.2,到1.0的變化,平均檢索精度呈現(xiàn)出先上升后下降的趨勢(shì),求得最合適權(quán)重值即求平均檢索精度最高時(shí)對(duì)應(yīng)的w1。

        從Corel-1000標(biāo)準(zhǔn)圖像庫的10類圖片中,每類圖片隨機(jī)選取30張共300張作為預(yù)處理測(cè)試圖片,設(shè)定初始w1值,通過不斷迭代和反饋,調(diào)整w1值,直至達(dá)到最優(yōu)或者局部最優(yōu)的w1值為止,實(shí)驗(yàn)得權(quán)重分配值w1=0.768,w2=0.232。

        不同的實(shí)驗(yàn)數(shù)據(jù)集采用特征融合公式時(shí)對(duì)應(yīng)不同的權(quán)值分配,對(duì)于不同的數(shù)據(jù)集,應(yīng)采用上面的方法對(duì)其進(jìn)行預(yù)處理,求出相應(yīng)的合適權(quán)值。

        4 實(shí)驗(yàn)與分析

        本文構(gòu)建了基于Hadoop+ElasticSearch的多特征融合檢索原型系統(tǒng)。實(shí)驗(yàn)數(shù)據(jù)集為Corel-1000標(biāo)準(zhǔn)圖像庫和ILSVRC2015數(shù)據(jù)集,分別在查準(zhǔn)率、檢索效率和加速比三個(gè)方面對(duì)原型系統(tǒng)進(jìn)行了分析。

        4.1 實(shí)驗(yàn)環(huán)境

        本實(shí)驗(yàn)硬件配置為兩臺(tái)Intel Xeon CPU、32G內(nèi)存的電腦,為實(shí)現(xiàn)多節(jié)點(diǎn)的分布式環(huán)境,實(shí)驗(yàn)時(shí)在每臺(tái)電腦上安裝兩個(gè)虛擬機(jī),共四個(gè)虛擬節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)都采用64位CentOS系統(tǒng),內(nèi)存設(shè)置為16G,Hadoop版本采用hadoop2.6.2,ElasticSearch版本為elasticsearch1.4.4,JDK為jdk1.7.0_80。

        4.2 查準(zhǔn)率

        在圖像檢索領(lǐng)域,精度(又叫查準(zhǔn)率)是非常重要的檢索性能評(píng)價(jià)指標(biāo)。精度的數(shù)學(xué)表達(dá)形式如公式(7)所示:

        (7)

        其中,TP表示相關(guān)且被正確返回的圖像數(shù),F(xiàn)P表示不相關(guān)但被錯(cuò)誤返回的圖像數(shù)。

        本次實(shí)驗(yàn)采用Corel-1000標(biāo)準(zhǔn)圖像庫,Corel-1000分為人臉、沙灘、建筑等10類,其中每類中各包含100張相似圖像,共1 000張圖片,取數(shù)據(jù)集的30%作為測(cè)試數(shù)據(jù),即每類30張圖片,共300張。然后統(tǒng)計(jì)本類別圖像的平均查準(zhǔn)率作為檢索性能的評(píng)價(jià)指標(biāo),檢索結(jié)果按相似度降序排序,每次檢索時(shí)向用戶返回NR張最相似的圖像作為檢索結(jié)果,本次實(shí)驗(yàn)中NR設(shè)置為20。

        從圖2中觀察可得,單個(gè)特征檢索時(shí),RootSIFT特征在三個(gè)特征中的識(shí)別能力最強(qiáng),顏色矩特征其次,Gabor紋理特征最弱,特征融合后的檢索精度明顯有所提升。本文中設(shè)計(jì)的特征融合方案能夠較好地發(fā)揮各個(gè)特征的特性,在圖像檢索方面性能優(yōu)異。

        圖2 單一特征與多特征融合圖像檢索的查準(zhǔn)率對(duì)比

        4.3 時(shí)間性能

        實(shí)驗(yàn)數(shù)據(jù)來源于ILSVRC2015數(shù)據(jù)集,ILSVRC2015分為1 000類,130萬張訓(xùn)練圖片集,10萬張測(cè)試圖片集。本次實(shí)驗(yàn)分別從中隨機(jī)選取10萬、20萬、40萬、60萬、80萬作為訓(xùn)練數(shù)據(jù)集。根據(jù)不同規(guī)模的圖像庫及節(jié)點(diǎn)數(shù)的情況,圖像檢索消耗的時(shí)間如圖3所示。

        圖3 不同節(jié)點(diǎn)下的檢索時(shí)間對(duì)比

        加速比定義為同一任務(wù)在單個(gè)計(jì)算節(jié)點(diǎn)運(yùn)行時(shí)間與多個(gè)計(jì)算節(jié)點(diǎn)運(yùn)行時(shí)間之比,用來衡量并行系統(tǒng)或程序并行化的性能和效果,即在計(jì)算節(jié)點(diǎn)個(gè)數(shù)相同時(shí),加速比越大表示系統(tǒng)的并行化效率越高。文獻(xiàn)[6]中同樣實(shí)現(xiàn)了在四個(gè)節(jié)點(diǎn)的Hadoop集群上的圖像檢索,表1表示的是文獻(xiàn)[6]中hadoop框架下圖像檢索的加速比和本文中引入ElasticSearch后的分布式檢索算法加速比的比較。

        表1 本文方法與文獻(xiàn)[6]中方法加速比比較

        從圖3觀察可得,隨著數(shù)據(jù)集的增大,分布式計(jì)算平臺(tái)相對(duì)于單節(jié)點(diǎn)計(jì)算的檢索效率優(yōu)勢(shì)越發(fā)明顯。數(shù)據(jù)量為10萬時(shí),四個(gè)節(jié)點(diǎn)檢索消耗的時(shí)間為單節(jié)點(diǎn)消耗時(shí)間的52.17%,隨著數(shù)據(jù)量增長(zhǎng)到80萬,檢索時(shí)間對(duì)比為35.33%,這說明本文設(shè)計(jì)方案能大幅度提升圖像檢索的效率;從表1可觀察出,兩種方法的加速比均隨著數(shù)據(jù)集的增大而有所增加,但是本文中設(shè)計(jì)的方法在各個(gè)大小的數(shù)據(jù)集中均表現(xiàn)出比文獻(xiàn)[6]中的方法加速比更大,即本文中引入ElasticSearch的云計(jì)算平臺(tái)相對(duì)于傳統(tǒng)的hadoop框架在圖像檢索方面更能發(fā)揮集群分布式并行計(jì)算的優(yōu)勢(shì)。

        5 結(jié)束語

        隨著圖像數(shù)據(jù)量的不斷增長(zhǎng),傳統(tǒng)圖像檢索方式在處理海量圖像時(shí)存在效率低、可靠性差等缺陷,基于此提出了基于hadoop+ElasticSearch的多特征融合圖像檢索方法。實(shí)驗(yàn)結(jié)果表明,在Hadoop中引入ElasticSearch實(shí)現(xiàn)分布式的多特征融合算法,提高了檢索效率,獲得較好的加速比且相對(duì)于傳統(tǒng)Hadoop框架下的分布式圖像檢索算法更能發(fā)揮集群的優(yōu)勢(shì)。由于hadoop是為海量數(shù)據(jù)處理做的平臺(tái),使得系統(tǒng)處理海量數(shù)據(jù)成為可能,受實(shí)驗(yàn)條件所限,對(duì)更大規(guī)模的數(shù)據(jù)分析有待于進(jìn)一步研究。未來的工作重點(diǎn)將根據(jù)圖像檢索需求進(jìn)一步優(yōu)化多特征融合算法,提高檢索精度,并從改善集群本身的性能入手,進(jìn)一步提高檢索效率。

        [1]DATTA R,JOSHI D,LI J,et al.Image retrieval:ideas,influences,and trends of the new age[J].ACM Computing Surveys(Csur),2008,40(2):1-6.

        [2]JING F,LI M,ZHANG H J,et al.An efficient and effective region-based image retrieval framework[J].IEEE Transactions on Image Processing,2004,13(5):699-709.

        [3]王向陽,楊紅穎,鄭宏亮,等.基于視覺權(quán)值的分塊顏色直方圖圖像檢索算法[J].自動(dòng)化學(xué)報(bào),2010,36(10):1489-1492.

        [4]WANG F,ERCEGOVAC V,SYEDA-MAHMOOD T,et al.Large-scale multimodal mining for healthcare with mapreduce[C]//Proceedings of the 1st ACM International Health Informatics Symposium.ACM,2010:479-483.

        [5]DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.

        [6]王梅,朱信忠,趙建民,等.基于Hadoop的海量圖像檢索系統(tǒng)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(1):204-208.

        [7]RAJU U S N,GEORGE S,PRANEETH V S,et al.Content based image retrieval on Hadoop framework[C]//Big Data(BigData Congress),2015 IEEE International Congress on.IEEE,2015:661-664.

        [8]KONG F H.Image retrieval using both color and texture features[C]//Machine Learning and Cybernetics,2009 International Conference on.IEEE,2009,4:2228-2232.

        [9]SUDHIR R.An Efficient CBIR Technique with YUV Color Space and Texture Features[J].Computer Engineering & Intelligent Systems,2011,2(6):78-84.

        [10]張永庫,李云峰,孫勁光.基于多特征融合的圖像檢索[J].計(jì)算機(jī)應(yīng)用,2015,35(2):495-498.

        [11]朱為盛,王鵬.基于Hadoop云計(jì)算平臺(tái)的大規(guī)模圖像檢索方案[J].計(jì)算機(jī)應(yīng)用,2014,34(3):695-699.

        [12]史亞東,李勛.基于Hadoop平臺(tái)的圖像檢索方法研究[J].蘭州交通大學(xué)學(xué)報(bào),2016,35(1):30-35.

        [13]LOWE D G.Object recognition from local scale-invariant features[C]//Computer Vision,1999.The proceedings of the seventh IEEE international conference on.IEEE,1999,2:1150-1157.

        [14]LOWE D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

        [16]STRICKER M A,ORENGO M.Similarity of color images[C]//IS&T/SPIE's Symposium on Electronic Imaging:Science & Technology.International Society for Optics and Photonics,1995:381-392.

        [17]ZHENG L,WANG S,ZHOU W,et al.Bayes merging of multiple vocabularies for scalable image retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014:1955-1962.

        [18]GORMLEY C,TONG Z.Elasticsearch:The Definitive Guide[M].Sebastopol:O′Reilly Media,Inc,2015.

        [19]DIVYA M S,GOYAL S K.ElasticSearch:An advanced and quick search technique to handle voluminous data[J].Compusoft,2013,2(6):171.

        [20]LI J,WANG J Z.Automatic linguistic indexing of pictures by a statistical modeling approach[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2003,25(9):1075-1088.

        (責(zé)任編輯:劉劃 英文審校:趙亮)

        Research on the method of retrieval of image content based on Hadoop

        SHI Xiang-bin1,2,ZHONG Liu-bei1,ZHANG De-yuan1

        (1.College of Computer Science,Shenyang Aerospace University,Shenyang 110136,China;2.School of Information,Liaoning University,Shenyang 110036,China)

        In recent years,with the development of internet technology,the image data shows explosive growth while the image retrieval has become hot in research field.In this paper,an image retrieve scheme based on cloud platform and multi-feature fusion was proposed.In order to achieve distributed parallel retrieval,the construct methods such as visual dictionary generation,image vectorization and multi-dimensional inverted index were provided by this scheme.To increase the accuracy of retrieval,we applied the RootSIFT feature,color matrix feature and Gabor feature by using a new method to fuse these three features.The experimental results on the Corel-1000 standard image library and the ILSVRC2015 dataset show that the proposed scheme can provide fast response speed and high retrieval precision on the distributed platform.

        cloud platform;multi-feature fusion;CBIR;distributed computing

        2017-02-20

        國(guó)家自然科學(xué)基金(項(xiàng)目編號(hào):61170185、61602320);遼寧省博士啟動(dòng)基金(項(xiàng)目編號(hào):20121034、201601172);遼寧省教育廳科學(xué)研究一般項(xiàng)目(項(xiàng)目編號(hào):L2014070、L201607)

        石祥濱(1963-),男,遼寧大連人,教授,主要研究方向:分布式虛擬和現(xiàn)實(shí)、圖像與視頻理解、無人機(jī)協(xié)同感知與控制,E-mail:199630824@qq.com。

        2095-1248(2017)03-0063-07

        TP391.9

        A

        10.3969/j.issn.2095-1248.2017.03.009

        猜你喜歡
        特征融合分布式計(jì)算云平臺(tái)
        基于移動(dòng)端的樹木葉片識(shí)別方法的研究
        科技資訊(2017年11期)2017-06-09 18:28:13
        基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
        融合整體與局部特征的車輛型號(hào)識(shí)別方法
        基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
        云計(jì)算中MapReduce分布式并行處理框架的研究與搭建
        高職院校開展基于云平臺(tái)網(wǎng)絡(luò)教學(xué)的探索與思考
        企業(yè)云平臺(tái)建設(shè)研究
        基于云平臺(tái)的微信互聯(lián)式教學(xué)法的探索與實(shí)踐
        面向異構(gòu)分布式計(jì)算環(huán)境的并行任務(wù)調(diào)度優(yōu)化方法
        基于云平臺(tái)的高職院校開放性職業(yè)培訓(xùn)工作體系建設(shè)研究
        真人与拘做受免费视频| 中文字幕影片免费人妻少妇 | 亚洲熟妇无码av在线播放| 国产va在线观看免费| 国产午夜亚洲精品理论片不卡| 国产天堂av手机在线| 成人自拍一二在线观看| 日本高清视频永久网站www | 夫妇交换性三中文字幕| 精品一品国产午夜福利视频| 日本熟妇中文字幕三级| 日本va中文字幕亚洲久伊人| 午夜免费啪视频| 性夜夜春夜夜爽aa片a| 中文字幕精品亚洲二区| 人妖一区二区三区在线| 亚洲妇女自偷自偷图片| 毛片免费在线播放| 男男互吃大丁视频网站| 少妇被粗大进猛进出处故事| av无码人妻中文字幕| 欧美在线成人午夜网站| 成人激情视频一区二区三区| 精品厕所偷拍一区二区视频| 亚洲中文字幕无码爆乳| 色综合久久久久综合999| 青青草免费视频一区二区| 久久精品国产字幕高潮| 玩两个丰满老熟女| 日韩av在线不卡一区二区三区| 久久伊人精品中文字幕有尤物| 精品少妇一区二区三区免费观| 国品精品一区二区在线观看| 一区两区三区视频在线观看| 日本少妇高潮喷水视频| 精品无码国产自产野外拍在线| 日韩免费高清视频网站| 精品极品一区二区三区| 久久久久久无码av成人影院| 一级呦女专区毛片| 91热久久免费频精品99|