楊焯雅
摘 要 隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上的圖像數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),基于內(nèi)容的圖像檢索技術(shù)應(yīng)運(yùn)而生。文章描述了基于內(nèi)容的圖像檢索(CBIR)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。該系統(tǒng)使用顏色矩、旋轉(zhuǎn)不變局部二值模式、Harris角點(diǎn)檢測(cè)分別對(duì)圖像的顏色特征、紋理特征和角點(diǎn)分布情況進(jìn)行描述,采用局部敏感哈希(LSH)實(shí)現(xiàn)相似性檢索??梢愿鶕?jù)用戶輸入的圖像,輸出圖像庫(kù)中的相似圖像。該特征描述方法特征向量維數(shù)小,對(duì)圖像旋轉(zhuǎn)、尺寸變化具有魯棒性,且有較高的識(shí)別率和較短的識(shí)別時(shí)間。
關(guān)鍵詞 圖像識(shí)別;顏色矩;旋轉(zhuǎn)不變LBP;Harris角點(diǎn)檢測(cè);局部敏感哈希
中圖分類號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2018)211-0137-05
圖像具有直觀、生動(dòng)的特點(diǎn),現(xiàn)已成為信息表達(dá)和資源共享的主要形式。Facebook平均每天新增照片3億5 000萬(wàn)張,用戶累計(jì)上傳圖像達(dá)2 500億。如何高效地利用豐富的圖像資源,對(duì)圖像的內(nèi)容進(jìn)行描述、組織和檢索,是未來(lái)的機(jī)遇與挑戰(zhàn)。
傳統(tǒng)的圖像檢索基于文本信息(TBIR),依賴用戶上傳圖像時(shí)設(shè)定的標(biāo)簽或標(biāo)題,或者采取人工的方式對(duì)圖像進(jìn)行標(biāo)注、分類。傳統(tǒng)的TBIR存在以下問題:
1)人工標(biāo)注具有主觀性,且圖像包含的信息豐富,難以用文本全面描述。
2)圖像數(shù)量龐大,人工標(biāo)注效率低、成本高。
3)世界范圍內(nèi)語(yǔ)言種類龐大,同樣的圖像對(duì)應(yīng)若干種不同語(yǔ)言的文本信息,難以統(tǒng)一[ 1 ]。
為了跨越語(yǔ)義的鴻溝,實(shí)現(xiàn)圖像的自動(dòng)分類,基于內(nèi)容的圖像檢索技術(shù)應(yīng)運(yùn)而生并得到迅速發(fā)展。本文所述的CBIR模型用Matlab GUI搭建用戶交互界面,用顏色矩、旋轉(zhuǎn)不變局部二值模式、Harris角點(diǎn)檢測(cè)提取圖像特征,用局部敏感哈希實(shí)現(xiàn)相似性檢索。對(duì)圖像旋轉(zhuǎn)、尺寸變化具有魯棒性,且有較高的識(shí)別率和較短的識(shí)別時(shí)間。
1 數(shù)據(jù)集描述
數(shù)據(jù)集有1 000張圖片,19個(gè)類別,包括建筑、人物、自然、布料、食物等多個(gè)方面。圖片的長(zhǎng)邊像素、寬邊像素在100px~3000px之間不等。部分圖片及數(shù)據(jù)集描述如圖1、表1所示。
2 圖像特征提取
2.1 顏色特征
2.1.1 顏色矩
顏色特征作為最顯著、穩(wěn)定的視覺特征,是人識(shí)別圖像的主要感知方式。與其他特征相比,顏色特征對(duì)圖像的方向、尺寸、視角,依賴性較小,具有較高的魯棒性。常見的顏色特征表示方式有顏色直方圖、顏色矩、顏色熵。其中顏色矩維數(shù)較小,簡(jiǎn)潔高效,可以對(duì)圖像進(jìn)行快速有效地初步篩選。
Stricker和Orengo提出了顏色矩的圖像特征提取方法[ 2 ],利用圖像3個(gè)顏色分量上的一階矩、二階矩、三階矩表示圖像的顏色特征。具體計(jì)算公式如下:
2.2 紋理特征
2.2.1 旋轉(zhuǎn)不變局部二值模式
紋理特征是圖像重要的底層特征,與顏色特征相比,不容易被人感知。圖像的紋理特征通過像素及其周圍鄰域的灰度分布來(lái)表現(xiàn),描述了圖像中反復(fù)出現(xiàn)的局部模式和他們的排列規(guī)律。常見的紋理特征表示方式有灰度共生矩陣(GLCM)、局部二值模式(LBP)、小波變換等。
局部二值模式(LBP)由Ojala等人提出[3],較GLCM計(jì)算復(fù)雜度低,簡(jiǎn)單高效。又可以分為灰度不變LBP(Gray Scale Invariant Pattern)、旋轉(zhuǎn)不變LBP(Rotation Invariant Pattern)、等價(jià)LBP(Uniform Invariant Pattern)。其中旋轉(zhuǎn)不變LBP采用二進(jìn)制循環(huán)移位的原理,將灰度不變LBP的模式由256種減少至36種,同時(shí)增強(qiáng)了LBP算子對(duì)圖像旋轉(zhuǎn)變化的魯棒性,是對(duì)圖像紋理特征的有效描述。旋轉(zhuǎn)不變LBP的計(jì)算方式如下:
以中心像素gc(xc,yc)為圓心R(單位:像素)為半徑作圓。選取圓上均勻分布的P個(gè)像素點(diǎn)。P = 4,R =1.0,P = 8,R =1.0時(shí),如圖2所示。
2.3 角點(diǎn)分布情況
2.3.1 Harris角點(diǎn)檢測(cè)
Harris算子是Harris于1988提出的角點(diǎn)檢測(cè)子[5]。算法基本思想是使用一個(gè)固定窗口在圖像上進(jìn)行任意方向的微小移動(dòng),比較移動(dòng)前后,窗口中像素的灰度變化程度。如果任意方向的移動(dòng),都有較大的灰度變化,那么可以認(rèn)為該窗口中存在角點(diǎn)。
基于內(nèi)容的圖片檢索系統(tǒng)主要分為.mat圖像特征庫(kù)和Matlab GUI兩部分。要實(shí)現(xiàn)基于內(nèi)容的圖片檢索,實(shí)際上就是將輸入圖片的特征向量與數(shù)據(jù)庫(kù)中已有圖片的特征矩陣進(jìn)行相似性匹配。分為以下幾步:
1)建立已有圖像的特征庫(kù)。依據(jù)之前敘述的方法,計(jì)算每張圖片顏色矩特征向量Fcolor(9維)、LBP特征向量Flbp(36維)、Harris特征向量Fharris(25維)。對(duì)圖像庫(kù)中的1000張圖片進(jìn)行預(yù)處理,得到大小為1000×70的特征矩陣。與圖像的其他信息封裝成結(jié)構(gòu)體,存儲(chǔ)在.mat圖像特征庫(kù)中。
2)GUI界面處理用戶的請(qǐng)求,與用戶交互。用戶在GUI界面選擇一張圖片輸入生成該圖片對(duì)應(yīng)的70維特征向量,作為相似性檢索的輸入。
3)進(jìn)行相似性查找。根據(jù)輸入圖像的特征向量,在圖像特征庫(kù)中,利用局部敏感哈希算法進(jìn)行相似性查找,得到相似性最高的前m個(gè)圖像的編號(hào)。
4)將查找到的相似圖片顯示在Matlab GUI上。
5 系統(tǒng)測(cè)試與分析
本文實(shí)驗(yàn)是在Mac PC機(jī)上進(jìn)行的,采用MatlabR2017b作為仿真實(shí)驗(yàn)平臺(tái)。圖像特征庫(kù)包括1 000張圖片,19個(gè)類別,包括建筑、人物、自然、布料、食物等多個(gè)方面。圖片的長(zhǎng)邊像素、寬邊像素在100px—3000px之間不等。系統(tǒng)界面與識(shí)別效果如圖6。
在系統(tǒng)的測(cè)試中,每個(gè)類別隨機(jī)選取5張圖片,依據(jù)Matlab GUI上圖像的顯示情況,計(jì)算每個(gè)類別的識(shí)別準(zhǔn)確率。5次實(shí)驗(yàn)平均準(zhǔn)確率大于70%的類別如表4。表4中2-6列表示五次實(shí)驗(yàn)識(shí)別準(zhǔn)確的圖片數(shù)量。
準(zhǔn)確率較低的類別如表5。
從中可以看出,當(dāng)圖像具有明顯的顏色特征時(shí),如crayfish、Aquatics;或者具有明顯的紋理特征時(shí),如mb,識(shí)別效果較好。ls類圖像雖然色彩各異,但角點(diǎn)分布規(guī)律,以碎花圖案為中心在整幅圖像均勻分布,識(shí)別效果較好。系統(tǒng)對(duì)于人物活動(dòng)類圖像,Running、RidingBike,識(shí)別準(zhǔn)確率較低。人物活動(dòng)類圖像,色彩、紋理和角點(diǎn)分布相似,系統(tǒng)對(duì)于人物動(dòng)作的分析能力有限。
6 結(jié)論
本文描述了基于內(nèi)容的圖像檢索(CBIR)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。該系統(tǒng)使用顏色矩、旋轉(zhuǎn)不變局部二值模式、Harris角點(diǎn)檢測(cè)分別對(duì)圖像的顏色特征、紋理特征和角點(diǎn)分布情況進(jìn)行描述,采用局部敏感哈希(LSH)實(shí)現(xiàn)相似性檢索。對(duì)于具有明顯顏色特征、紋理特征、角點(diǎn)分布特征的圖像,識(shí)別效果較好。特征提取算法對(duì)圖像旋轉(zhuǎn)、尺寸變化具有魯棒性,特征向量維數(shù)較小,簡(jiǎn)潔高效。系統(tǒng)具有較高的識(shí)別率和較短的識(shí)別時(shí)間。
參考文獻(xiàn)
[1]王愛芳.基于內(nèi)容的圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].馬鞍山:安徽工業(yè)大學(xué),2017.
[2]Stricker A M A, Orengo M. Similarity of Color Images[J]. Proc Spie Storage & Retrieval for Image & Video Databases, 1995,2420:381-392.
[3]Ojala T, Pietik?inen M, M?enp?? T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[C]// European Conference on Computer Vision. SpringerVerlag,2000:404-420.
[4]于亞風(fēng).基于局部二值模式的紋理特征研究與應(yīng)用[D].成都:西南交通大學(xué),2017.
[5] Harris C. A combined corner and edge detector[J]. Proc Alvey Vision Conf,1988, 1988(3):147-151.
[6]盧偉家,劉纏牢.一種基于Harris特征點(diǎn)檢測(cè)的改進(jìn)算法[J].儀表技術(shù)與傳感器,2017(12):98-100,104.
[7] Gionis A, Indyk P, Motwani R. Similarity Search in High Dimensions via Hashing[C]// International Conference on Very Large Data Bases. 1999:518-529.