肖萬武,向 寧
(1.四川民族學(xué)院,四川 康定 626001;2.樂山職業(yè)技術(shù)學(xué)院,四川 樂山 614000)
Hadoop云計算環(huán)境下海量圖像檢索研究
肖萬武1,向 寧2
(1.四川民族學(xué)院,四川 康定 626001;2.樂山職業(yè)技術(shù)學(xué)院,四川 樂山 614000)
Hadoop實現(xiàn)了云計算模型的一個開源,也就是用Java語言實現(xiàn)的軟件框架,能夠支持MapReduce分布式調(diào)度模型的運作,以實現(xiàn)虛擬管理、調(diào)度并共享資源。文章將用Hadoop云計算平臺實現(xiàn)對海量圖像檢索研究。
Hadoop;云計算;海量圖像檢索
近年來,數(shù)字化影像技術(shù)的高速發(fā)展以及互聯(lián)網(wǎng)在我國的深入普及,數(shù)據(jù)逐漸走向海量化、多媒體化方向,大量的行業(yè)數(shù)據(jù)被存儲在網(wǎng)上,據(jù)統(tǒng)計,全球每年的總數(shù)據(jù)量達到10億TB,相當(dāng)于紐約證券交易所每日交易數(shù)據(jù)的10億倍。如何對海量多媒體信息采取快速的檢索,是研究領(lǐng)域和數(shù)字媒體領(lǐng)域里急需解決的重要問題。本文將用Hadoop云計算平臺,實現(xiàn)對海量圖像檢索研究,及時高效地從浩若煙海計算機互聯(lián)網(wǎng)多媒體資源庫中檢索自己所需的圖像數(shù)據(jù)。
Hadoop實現(xiàn)了云計算模型的一個開源,也就是用JAVA語言實現(xiàn)的軟件框架,利用分布式處理技術(shù)充分利用空閑的計算機資源構(gòu)成Hadoop集群,在由計算機資源構(gòu)成Hadoop集群里運行海量數(shù)據(jù)信息的分布式計算,由Pig,MAPreduce,HIVE,Chukwa,HBASE,ZooKeeper和HDFS等組成。它的處理能力非常強,可以由一臺計算機機器擴充到成千上,甚至上億萬臺機器的集群,集群中的每臺機器都有參與存儲和計算的能力,Hadoop還能夠支持MapReduce分布式調(diào)度模型的運作,以實現(xiàn)虛擬管理、調(diào)度并共享資源。具體方法是運用特定算法提取示例圖像特征,將其存儲在Hadoop分布式文件系統(tǒng)中,然后利用MapReduce并行計算框架,把用戶的多媒體檢索請求分配給Hadoop集群中“空閑”節(jié)點加以處理,再通過Reduce接收計算的結(jié)果,最后依照相似度大小予以順序排列,這樣就可以有效解決多用戶并發(fā)訪問和從海量數(shù)據(jù)庫中檢索目標(biāo)資源帶來的實時性問題。
圖像檢索通常是根據(jù)最開始查詢圖像的視覺特點,在圖像庫里面查尋出和這個圖像相似的。然后通過圖像自身去檢索圖像,這樣可以非常快地提高圖像檢索的性能,但是在圖像檢索環(huán)節(jié)下對CPU的資源消耗也非常大量。尤其是近年來,在計算機科學(xué)技術(shù)與數(shù)字圖像采集技術(shù)的迅速發(fā)展下,還有互聯(lián)網(wǎng)的深入普及,圖片和視頻等從各行各業(yè)不斷大量產(chǎn)生出來,以往的基于單節(jié)點架構(gòu)的圖像檢索系統(tǒng)已經(jīng)無法滿足當(dāng)前的要求了,所以基于Hadoop云計算環(huán)境下海量圖像檢索突破以往在檢索速度慢、并發(fā)性差,實時性與穩(wěn)定性無法保障等方面的問題,可以很好地滿足當(dāng)前用戶對海量圖片檢索的要求。基于Hadoop MapReduce的大量圖像檢索首先是將一定數(shù)量的小圖像存儲到一個較大的圖像庫文件當(dāng)中,而這一系列過程需要改變原始圖片信息的存儲方式,以減小其內(nèi)存需求,提升處理效率,降低存儲管理投入。而該檢索模式在收集圖片時,需要提取其Brushlet域特征和局部二值模式特征,并將提取到的特征數(shù)據(jù)存儲在Hadoop分布式文件系統(tǒng)中。
2.1 Brushlet域復(fù)特征提取
要分析這一步驟,需要理解所謂的Brushlets及其特性,Brushlets亦可稱為楔波,是一種多尺度的幾何分析工具,其重要特征是擁有比較多的可選方向,能處理角分辨問題,也可以說是一種新的圖像方向信息分析工具。Brushlet通過變換,形成特有的幾何分析工具,以處理正交及非過完備的圖像的尺度分辨。研究人員Meyer等人在充分光滑局部周期化技術(shù)的基礎(chǔ)上,構(gòu)建了正半部分局部化基函數(shù),該函數(shù)隸屬于Fourier頻域。然而Brushlet函數(shù)屬于復(fù)值函數(shù),而且有獨立的相角,在Fourier平面上,以局部化的形式存在于峰值附近,并將所處平面拓展成為加窗Fourier 基。二維Brushlets能夠借由其特有的方向結(jié)構(gòu)及震蕩頻度實現(xiàn)重構(gòu),其基函數(shù)的結(jié)構(gòu)越大,分析窗口則越小,反之亦然。由于二維Brushlets所特有的獨立相角能幫助其明示方向,因而圖像的方位信息被準(zhǔn)確反映出來,也正是基于此能對Fourier域進行有效的分解。二維Brushlets對Fourier域的分解是逐層進行的,一層分解對應(yīng)的方向是π/4+kπ/2(k=0,1,2,3)。在此Fourier平面被分為4個象限,相應(yīng)的系數(shù)則分成4個子帶;而二層分解則基于一層分解,將一層中的每個象限再分解成為4個部分,這樣就有16個子帶,其中有4個子帶圍繞中心,其分量是低頻的,而其余沒有環(huán)繞中心的子帶則是高頻分量;接下來的層次分解同樣以此類推。
2.2 局部二值模式特征提取
局部二值模式,簡稱LBP,是一種具有灰度不變性、旋轉(zhuǎn)不變性優(yōu)點的算子,在計算機視覺等領(lǐng)域表現(xiàn)出杰出的優(yōu)良機能,通過勾勒鄰域范圍像素點的灰度對中心點的變化狀況,以提取并描述圖像的局部紋理特征。由于具有簡單、高效的效果,在目標(biāo)檢測、目標(biāo)識別、圖像檢索等不同方面均發(fā)揮了巨大的作用。該模式在對圖像提取過程中,需要將一幅圖像分解成為很多個子區(qū)域,分布提取這些子區(qū)域中每個像素點的LBP特征,在此基礎(chǔ)上建立這些LBP特征的統(tǒng)計直方圖,如此一來,由每個子區(qū)域各自的統(tǒng)計直方圖描述這些子區(qū)域,這些統(tǒng)計直方圖全部組合起來就能描述整幅圖片,直方圖成了圖像的空域特征。
2.3 Hadoop云計算環(huán)境下海量圖像檢索流程
在以往,由于技術(shù)上的局限,只能運用傳統(tǒng)的辦法將圖像放置到Hadoop分布式文件系統(tǒng)中,不但費事且不易檢索。如今,可采用Hadoop MapReduce分布式處理方法,將圖像上傳至Hadoop分布式文件系統(tǒng),并在不同的段中展開不同的步驟。例如Map段時,運用Map函數(shù)讀取圖像,提取圖像的紋理特征及顏色,而在educe段時,將之前提取到的數(shù)據(jù)存儲進Hadoop分布式文件系統(tǒng)。而存儲在該系統(tǒng)中的圖像是以HBase表形式存在的,目的是便于圖像數(shù)據(jù)的分布和存儲,而當(dāng)數(shù)據(jù)聚集到較大數(shù)量時,需要耗費較久的時間進行掃描搜索,運用Hadoop MapReduce計算模型進行檢索、計算,能有效縮短檢索圖像的時間,提升檢索的效率,具體操作可以分為4個步驟。步驟一是收集圖像并提取其相應(yīng)的特征,將提取到的圖像特征存儲到Hadoop分布式文件系統(tǒng)中。步驟二是提取圖像的LBP特征及Brushlet域特征,向系統(tǒng)提交檢索請求。步驟三是分階段進行操作,在Map段進行圖像匹配比對,將待檢索的圖像特征比對HBase里的圖像特征,根據(jù)其相似度情況進行排序并重新劃分,再輸入到Reducer。到了Reduce段時,需收集Map段中的所有〈相似度,圖像ID〉鍵值對,并對收集到的這些鍵值對進行相似度排序,然后將前N個鍵值對寫入到Hadoop分布式文件系統(tǒng)中。步驟四是輸出與待檢索圖像最相似的那些圖像的ID,用戶得到最終的檢索圖片結(jié)果。
[1]張莉艷.基于云計算的鐵路信息共享平臺及關(guān)鍵技術(shù)研究[D].北京:中國鐵道科學(xué)研究院,2013.
[2]ALMEER M H.Cloud Hadoop map reduce for remote sensing image analysis[J].Emerging Trends in Computing and Information Sciences,2012(4):637-644.
[3]張興.基于Hadoop的云存儲平臺的研究與實現(xiàn)[D].成都:電子科技大學(xué),2013.
[4]張功榮.基于云計算的海量圖像處理研究[D].杭州:浙江大學(xué),2015.
Research on Mass Image Retrieval in Hadoop Cloud Computing Environment
Xiao Wanwu1, Xiang Ning2
(1.Sichuan Minzu College,Kangding 626001, China;2.Leshan Vocational and Technical College, Leshan 614000, China)
Hadoop implements an open source of cloud computing model, which is the software framework achieved by JAVA language, it can support the workings of MapReduce distributed scheduling model, in order to realize the virtual management, scheduling and sharing of resources. In this paper, we study the mass image retrieval in Hadoop cloud computing environment.
Hadoop; cloud computing; massive image retrieval
肖萬武(1981— ),男,四川康定,助理研究員;研究方向:計算機應(yīng)用。