張禎偉, 石朝俠
(南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 南京 210094)
改進(jìn)視覺詞袋模型的快速圖像檢索方法①
張禎偉, 石朝俠
(南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 南京 210094)
視覺詞袋模型在基于內(nèi)容的圖像檢索中已經(jīng)得到了廣泛應(yīng)用, 傳統(tǒng)的視覺詞袋模型一般采用SIFT描述子進(jìn)行特征提取. 針對SIFT描述子的高復(fù)雜度、特征提取時間較長的缺點(diǎn), 本文提出采用更加快速的二進(jìn)制特征描述子ORB來對圖像進(jìn)行特征提取, 建立視覺詞典, 用向量間的距離來比較圖像的相似性, 從而實(shí)現(xiàn)圖像的快速檢索. 實(shí)驗(yàn)結(jié)果表明, 本文提出的方法在保持較高魯棒性的同時, 明顯高了圖像檢索的效率.
視覺詞袋模型; 局部特征; ORB; 圖像檢索
圖像檢索技術(shù)是機(jī)器視覺領(lǐng)域中關(guān)注對大規(guī)模數(shù)字圖像進(jìn)行檢索和匹配的研究分支. 它是圖像拼接、目標(biāo)跟蹤、運(yùn)動分析、對象識別、視覺導(dǎo)航等研究方向的研究基礎(chǔ). 近些年伴隨著嵌入式系統(tǒng)處理能力及存儲容量的 快速提升, 智能終端、機(jī)器人等嵌入式系統(tǒng)對大數(shù)據(jù)量圖像檢索需求日益增加, 從海量數(shù)據(jù)中快速檢索和匹配到所需的信息已具有很大的研究價值.
在基于內(nèi)容的圖像檢索中, 視覺詞袋模型(Bag of Visual Word, BoVW)[1]已經(jīng)成為一種比較常見的方法.詞袋模型(Bag of Words, BoW)最初應(yīng)用于文檔處理領(lǐng)域, 將文檔表示成順序無關(guān)的關(guān)鍵詞的組合, 通過統(tǒng)計(jì)文檔中關(guān)鍵詞出現(xiàn)的頻率來進(jìn)行匹配. 作為一種源自文本檢索的模型, 視覺詞袋模型近年來在計(jì)算機(jī)視覺研究領(lǐng)域表現(xiàn)出良好的適用性, 成為計(jì)算機(jī)視覺研究的通用模型. BoVW首先在視頻檢索的研究中被系統(tǒng)地闡述與應(yīng)用, 近幾年來, 計(jì)算機(jī)視覺領(lǐng)域的研究者們成功地將該模型的思想移植到圖像處理領(lǐng)域, 通過對圖像進(jìn)行特征提取和描述, 得到大量特征進(jìn)行處理, 從而得到用來表示圖像的關(guān)鍵詞, 并在此基礎(chǔ)上構(gòu)建視覺詞典進(jìn)而圖像可以類似于文本的表示方法即統(tǒng)計(jì)基本詞匯出現(xiàn)的頻數(shù), 將圖像表示成一個向量,利用該向量進(jìn)行圖像的檢索. 傳統(tǒng)的詞袋模型一般采用SIFT(Scale-Invariant Feature Transform)特征描述子[2], SIFT算法可以適應(yīng)圖像縮放、旋轉(zhuǎn)、平移等變化, 并且能克服噪聲光照變化的影響. 但是SIFT算法的計(jì)算量比較大, 無法滿足系統(tǒng)實(shí)時性的要求. 針對SIFT描述子的高復(fù)雜度問題本文提出了采用更加快速的二進(jìn)制特征描述子ORB[3]來對圖像進(jìn)行特征抽取, 然后利用BoVW模型進(jìn)行建模, 將每一副圖像用一個二進(jìn)制串來表示, 進(jìn)行圖像的檢索. 實(shí)驗(yàn)表明, 該方法不僅保持了較高的圖像檢索準(zhǔn)確率, 而且大大提高了圖像的檢索速度.
BOW算法起源于基于語義的文本檢索算法, 是一種有效的基于語義特征提取和描述的識別算法. 該算法忽略文本的結(jié)構(gòu)信息和語法信息, 僅僅將其看做是若干個詞匯的集合, 文本內(nèi)的每個詞的出現(xiàn)都是獨(dú)立的, 提取其中的語義特征, 構(gòu)建單詞詞匯表, 根據(jù)每個文本與詞匯表的關(guān)系, 統(tǒng)計(jì)文本中相應(yīng)單詞的出現(xiàn)頻率, 形成一個詞典維度大小的單詞直方圖, 經(jīng)過這樣文本到向量運(yùn)算問題的轉(zhuǎn)化, 最后實(shí)現(xiàn)文本檢索.將對文本處理的詞袋模型過渡到圖像處理領(lǐng)域, 便形成了視覺詞袋模型.
1.1 算法流程
其實(shí)現(xiàn)過程大致分為四個步驟: 首先提取圖像中的特征描述子; 然后通過聚類算法將訓(xùn)練圖片得到特征描述子進(jìn)行相似點(diǎn)聚類, 每個聚類中心代表一個視覺單詞; 將圖像的局部視覺特征映射到視覺單詞表并用一個特征向量表示, 特征向量的每一維對應(yīng)一個視覺單詞的權(quán)重之和. 最后利用圖像生成的向量進(jìn)行圖像檢索. 算法流程如圖1所示.
圖1 視覺詞袋模型流程
根據(jù)圖1, 應(yīng)用詞袋模型進(jìn)行圖像檢索的具體實(shí)現(xiàn)過程可以描述如下:
(1) 特征提取和描述.
視覺詞袋模型往往選取圖像底層的SIFT特征, 該特征具有旋轉(zhuǎn)、尺度、平移等不變性, 同時對仿射變換, 噪聲存在一定的穩(wěn)定性. SIFT特征計(jì)算主要分為圖像特征點(diǎn)的選取和圖像特征區(qū)域的描述兩個部分.圖像特征點(diǎn)的選取步驟如下: 首先對圖像建立一個圖像金字塔模型, 然后對圖像在相鄰尺度空間上做差分,選取尺度空間中的極值點(diǎn), 最后將極值點(diǎn)周圍的一定范圍的區(qū)域作為特征區(qū)域.
(2) 視覺詞典構(gòu)造.
BOW算法通常采用k-means算法對提取的特征進(jìn)行聚類生成視覺詞典. k-means算法是一種經(jīng)典的聚類算法, 是典型的基于原型的目標(biāo)函數(shù)聚類方法的代表, 它是數(shù)據(jù)點(diǎn)到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù), 利用函數(shù)求極值的方法得到迭代運(yùn)算的調(diào)整規(guī)則.
視覺詞典構(gòu)造主要步驟如下:
① 給定待聚類的圖像SIFT描述子數(shù)據(jù)集,隨機(jī)選取K 個對象作為初始聚類中心.
② 求出SIFT描述子數(shù)據(jù)集中的每個數(shù)據(jù)與各個聚類中心的距離, 按照最小化原則將數(shù)據(jù)點(diǎn)劃入最近鄰聚類中心所在的類簇.
③ 重新計(jì)算每個類簇的中心.
④ 重復(fù)步驟2、3, 當(dāng)各個聚類中心不再改變時算法結(jié)束.
(3) 生成視覺直方圖
該過程是將每幅圖像所有的SIFT特征描述子分配到視覺詞典的各個維度上, 生成各自的視覺單詞直方圖. 在分配的過程中, 采用最近鄰算法, 每幅圖像中的每個SIFT特征向量與哪一個視覺詞距離最近,就將該視覺詞對應(yīng)的維度高度加1, 直到將所有的SIFT描述子向量分配完為止, 經(jīng)過這一系列處理后,每一幅圖像都能用一個k維的視覺詞直方圖表示, 將所有圖像的視覺詞直方圖歸一化處理后就可以進(jìn)行下一步的.
1.2 權(quán)值的計(jì)算
在文本信息檢索中, TF-IDF[4]是一種常用的加權(quán)方案. TF-IDF的主要思想是: 如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高, 并且在其他文章中很少出現(xiàn), 則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類. TF表示詞條在文檔d中出現(xiàn)的頻率,如果一個詞條在一個類的文檔中頻繁出現(xiàn), 則說明該詞條能夠很好代表這個類的文本的特征, 這樣的詞條應(yīng)該給它們賦予較高的權(quán)重, 并選來作為該類文本的特征詞以區(qū)別與其它類文檔.
IDF的主要思想是: 如果包含單詞Fi的文檔越少,也就是ni越小, IDF越大, 則說明單詞Fi具有很好的類別區(qū)分能力. 假設(shè)訓(xùn)練集中的圖片總數(shù)為N,ni表示包含單詞Fi的圖片數(shù)目. 類似于文本檢索當(dāng)中的逆文檔頻率idf, 定義為:
即該單詞被賦予的權(quán)值, 它表明了該單詞對于區(qū)分不同圖像時作用的大小.
視覺詞袋模型通常選取圖像底層的SIFT特征, 該特征具有旋轉(zhuǎn)、尺度、平移等不變性, 同時對仿射變換, 噪聲存在一定的穩(wěn)定性. 為了進(jìn)一步提高算法實(shí)時性, 本文采用ORB算法進(jìn)行特征提取. ORB算子基于BRIEF算子提出, 是對BRIEF算子的改進(jìn). 文獻(xiàn)[3]指出, ORB算法的速度比SIFT 要快兩個數(shù)量級, 同時在不考慮圖像尺度變化的情況下, 其匹配性能并不遜色于SIFT.
2.1 圖像特征提取和描述
構(gòu)建視覺詞匯表之前, 首先要從圖像中提取出具有代表性的全局特征或局部特征, 作為對該圖像的“描述”. 這些被提取的特征應(yīng)該具有較強(qiáng)的穩(wěn)定性,能夠抵抗光照、視角尺度等因素帶來的不利影響. BOW通常采用局部特征來生成視覺詞匯表的候選特征, 在圖像識別和物體匹配的過程中, 由于ORB描述子計(jì)算速度上的優(yōu)勢, 本文采用ORB描述子來提取和描述圖像的特征點(diǎn).
2.1.1 特征點(diǎn)提取
ORB(oriented FAST and rotated BRIEF) 是基于FAST[5]特征檢測和BRIEF描述子[6]改良的. 該算法使用FAST角點(diǎn)檢測來提取特征點(diǎn), FAST算法的角點(diǎn)定義為在像素點(diǎn)周圍鄰域內(nèi)有足夠多的像素點(diǎn)與該點(diǎn)處于不同的區(qū)域, 在灰度圖像中, 即為有足夠多的像素點(diǎn)的灰度值與該點(diǎn)灰度值差別夠大. 以候選特征D為中心, 比較中心點(diǎn)D的灰度值與以D點(diǎn)為中心的圓周上所有點(diǎn)灰度值之間的大小, 如果圓周上與D點(diǎn)灰度值相差足夠大的點(diǎn)個數(shù)超過一定數(shù)值, 則認(rèn)為候選點(diǎn)D為特征點(diǎn). FAST角點(diǎn)檢測僅僅比較灰度值大小, 具有計(jì)算簡單、速度較快的優(yōu)點(diǎn), 但其檢測出的特征點(diǎn)既不具備尺度不變性也不具備旋轉(zhuǎn)不變性.
FAST不提供角點(diǎn)的度量, 對邊緣的響應(yīng)較大, 因此ORB采用Harris角點(diǎn)度量的方法按照FAST特征點(diǎn)的Harris角點(diǎn)響應(yīng)值對FAST特征點(diǎn)進(jìn)行排序. 如需要提取N個特征點(diǎn), 首先將閾值設(shè)置的足夠大以得到更多的特征點(diǎn), 然后根據(jù)Harris響應(yīng)值排序, 最后選出響應(yīng)值最大的N個特征點(diǎn).
由于FAST 特征點(diǎn)是不帶有方向性的, ORB的論文中提出了一種利用灰度質(zhì)心法來解決這個問題, 灰度質(zhì)心法假設(shè)角點(diǎn)的灰度與質(zhì)心之間存在一個偏移,這個向量可以用于表示一個方向. 對于任意一個特征點(diǎn)O來說, 我們定義O的鄰域像素的矩為:
其中I(x,y)為點(diǎn)(x,y)處的灰度值. 那么我們可以得到圖像的質(zhì)心為:
為了提高方法的旋轉(zhuǎn)不變性, 需要確保x和y在半徑為r的圓形區(qū)域內(nèi), 即x,y∈[-r,r], r等于鄰域半徑.
2.1.2 特征點(diǎn)描述
ORB中使用BRIEF描述子對檢測到的特征點(diǎn)進(jìn)行描述, 并解決了BRIEF本身不具有旋轉(zhuǎn)不變性的首要缺陷. 在以關(guān)鍵點(diǎn)為中心的圖像塊內(nèi)比較采樣點(diǎn)對的灰度值, 得到一個n 位二進(jìn)制數(shù), 該n 位二進(jìn)制數(shù)即為關(guān)鍵點(diǎn)的特征描述子, n的典型值為256.
ORB采用的是BRIEF描述子, 它的基本思想是是圖像特征點(diǎn)鄰域可以用相對少量的灰度對比來表達(dá),每個圖像塊由一系列二進(jìn)制測試構(gòu)成的位串來表示,其計(jì)算簡單、快速. 考慮一個平滑的圖像塊p, 一個二進(jìn)制測試τ定義為:
其中p(x)是圖像塊p在點(diǎn)x處的灰度值. 特征點(diǎn)被定義為一個由n個二進(jìn)制測試構(gòu)成的向量:
BRIEF中圖像鄰域的準(zhǔn)則僅考慮單個像素, 所以對噪聲敏感. 為了解決這個缺陷, ORB中每個測試點(diǎn)采用的是31×31像素鄰域中的5×5子窗口, 其中子窗口的選擇服從高斯分布, 再采用積分圖像加速計(jì)算.
ORB選擇了BRIEF作為特征描述方法, 但是BRIEF是沒有旋轉(zhuǎn)不變性的, 所以需要給BRIEF加上旋轉(zhuǎn)不變性, 把這種方法稱為“Steered BREIF”. 對于任何一個特征點(diǎn)來說, 它的BRIEF描述子是一個長度為n的二值碼串, 這個二值串是由特征點(diǎn)周圍n個點(diǎn)對(2n個點(diǎn))生成的, 將這n個點(diǎn)對(xi,yi)組成一個矩陣S
使用鄰域方向θ和對應(yīng)的旋轉(zhuǎn)矩陣Rθ, 構(gòu)建S的一個校正版本Sθ
其中
此時Steered BRIEF描述子變?yōu)?
ORB根據(jù)式(8)中求得的方向參數(shù)提取BRIEF描述子. 但是由于環(huán)境的因素和噪聲的引入, 特征點(diǎn)方向會發(fā)生變化, 隨機(jī)像素塊對的相關(guān)性會比較大, 從而降低描述子的判別性. ORB采取貪心算法尋找相關(guān)性較低的隨機(jī)像素塊對, 一般選取256個相關(guān)性最低像素塊對, 構(gòu)成一個256bit的特征描述子.
由于生成的特征點(diǎn)描述子為二進(jìn)制碼串形式, 因此使用Hamming距離對特征點(diǎn)匹配較為簡單. 計(jì)算機(jī)中計(jì)算漢明距離可以簡單地通過異或進(jìn)行計(jì)算. 漢明距離計(jì)算效率非常高.
假設(shè)上節(jié)得到ORB特征256bit二進(jìn)制描述子K1、K2兩個特征點(diǎn)的描述子分別為:
通過漢明距離之間的異或之和表征兩個ORB 特征描述子的相似程度, 用D(K1,K2)表示:D(K1,K2)越小代表相似程度越高, 反之相似程度低.
2.2 生成視覺單詞
在提取到圖像的ORB描述子之后, 需要進(jìn)行視覺詞典的構(gòu)建. 該過程通常分為兩步來完成. 首先將代表圖像局部特征的描述子轉(zhuǎn)換為視覺詞, 一個視覺單詞可以看作圖像中相似的特征點(diǎn)的集中代表, 該過程是通過聚類算法實(shí)現(xiàn)的. 最終得到的聚類中心就是我們所期望的視覺單詞, 聚類中心的個數(shù)就是視覺詞典的大小. 根據(jù)聚類的視覺單詞來建立每張圖像的視覺詞直方圖, 該過程稱為映射.
視覺詞袋模型中單詞數(shù)目的選取出現(xiàn)在特征描述的量化過程中, 常見的量化方法是k-means聚類, 詞匯數(shù)目即對應(yīng)的聚類數(shù)目. 但是由于ORB描述子產(chǎn)生的是二進(jìn)制描述向量, 無法直接采用傳統(tǒng)的基于歐氏距離的k-means方法進(jìn)行聚類, 因此, 本文采用Hamming距離計(jì)算各個特征之間的距離, 使用k-majority算法[7]來求二進(jìn)制描述向量的聚類中心. 具體算法流程如下:
假設(shè)從圖像中提取到的ORB特征描述子集合D.
步驟1. 隨機(jī)生成k個二進(jìn)制聚類中心記為集合C.
步驟2. 計(jì)算D中各描述子到各個聚類中心的距離, 并劃分到個類中.
步驟3. 重新計(jì)算各類的聚類中心.
重復(fù)步驟2、3, 當(dāng)各個聚類中心不再改變時算法結(jié)束.
其中步驟3中聚類中心的計(jì)算方法如下:
假設(shè)某一具有n個特征描述子的集合D
其聚類中心為c=c1c2LcjLc256, 其中
即對于集合中所有特征描述子的每一個bit, 統(tǒng)計(jì)所有特征的對應(yīng)bit上的0、1的數(shù)量, 并取高者作為該bit的值. 這樣得到的聚類中心向量也是二進(jìn)制表示,在進(jìn)行距離計(jì)算時可以利用漢明距離進(jìn)行快速計(jì)算.
通過聚類最終得到的k個聚類中心即為所求的視覺單詞. 圖像特征聚類過程如圖2所示.
圖2 圖像特征聚類
2.3 圖片的向量表示
對于訓(xùn)練集中每一個圖像, 累計(jì)圖片中的特征在單詞表中的每一個單詞Fi(1≤i≤t)當(dāng)中出現(xiàn)的頻率mi, t為視覺單詞總數(shù). 由于在訓(xùn)練階段已得到該單詞的權(quán)值, 即, 同樣根據(jù)TF-IDF的原理, 計(jì)算出該圖像在單詞Fi維度上的值:
最終, 每一副圖像dj都可以用關(guān)于單詞的權(quán)值向量表示:
2.4 圖片間的相似度測量
訓(xùn)練集中圖像dj=(w1,j,w2,j,L ,wt,j), 待查詢圖像也轉(zhuǎn)換為向量q=(w1,w2,L,wt)表示.
定義訓(xùn)練圖像與查詢圖像之間的差異程度為:
這里采用的是2-范數(shù). 比較查詢圖像與訓(xùn)練圖像之間的差異程度S(di,q),(1≤i≤N), 選取差異程度最小的前n個作為查詢結(jié)果返回.
為了驗(yàn)證本文提出的方法的圖像檢索效果, 我們選取標(biāo)準(zhǔn)Corel庫中1000張圖片和Caltech101庫中部分圖片共2400多張圖片作為圖像檢索庫, 圖像大小為384×256像素, 部分樣圖如圖3所示.
圖3 部分訓(xùn)練集圖像
待檢索圖像直接從圖像庫中選取, 隨機(jī)從圖像數(shù)據(jù)庫中選取不同類別的圖像, 每次在查詢結(jié)果中將按相似度排序后前10幅圖像作為檢索結(jié)果. 檢索結(jié)果示例如圖4所示, 每行為一次檢索結(jié)果, 每行10幅圖像均為檢索結(jié)果, 由于待檢索圖像直接從圖像庫中選取,且檢索結(jié)果按相似度排序, 所以檢索結(jié)果中的第一幅圖像就是原待檢索圖像本身, 從左到右按圖片與待檢索圖像的相似度由高到低排序.
圖4 圖像檢索結(jié)果示例
首先對單個圖像分別進(jìn)行SIFT特征跟ORB特征提取, 每種特征分別提取300和500個特征點(diǎn), 由表可以看出, 在特征提取速度方面ORB算法的速度是明顯比SIFT快得多.
表1 特征提取時間對比
為了驗(yàn)證本文算法的檢索效果, 實(shí)驗(yàn)以查準(zhǔn)率作為評價標(biāo)準(zhǔn), 即檢索結(jié)果中用戶滿意的圖像數(shù)目與檢索結(jié)果返回中所有圖像數(shù)目之比. 同時為了準(zhǔn)確衡量本文算法的檢索效率, 分別使用不同數(shù)量的視覺單詞進(jìn)行圖像檢索實(shí)驗(yàn), 最后計(jì)算平均查準(zhǔn)率并計(jì)算平均檢索時間. 實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表2所示. 當(dāng)視覺單詞數(shù)量取值為400時, 按類圖像平均查準(zhǔn)率如表3所示.
表2 圖像檢索實(shí)驗(yàn)結(jié)果
表3 按類別檢索結(jié)果統(tǒng)計(jì)
由表2可以看出, 隨著視覺單詞數(shù)量的增加, 平均查準(zhǔn)率越來越高, 但是平均檢索時間也呈線性增長趨勢. 結(jié)合表1中的實(shí)驗(yàn)結(jié)果數(shù)據(jù)可以看出, 僅僅是SIFT的特性提取階段的耗時已相當(dāng)于本文方法的平均檢索時間. 雖然圖像檢索的查準(zhǔn)率偏低, 但是檢索時間快, 能夠滿足系統(tǒng)實(shí)時性的要求.
本文提出了一種使用ORB特征的視覺詞袋模型的快速圖像檢索的方法, 利用ORB特征替代SIFT對圖像提取局部特征后進(jìn)行聚類, 生成得到一個視覺單詞“字典”, 然后對于每幅圖像, 統(tǒng)計(jì)圖像特征中各個視覺詞匯出現(xiàn)的頻數(shù), 得到一個圖像的描述向量, 并對向量進(jìn)行歸一化處理, 用該一維向量來表示圖像,其維數(shù)為視覺單詞的數(shù)目. 進(jìn)行圖像檢索時, 對待檢索圖像ORB特征, 經(jīng)過視覺詞袋的映射之后, 待檢索圖像也會用一個向量來表示, 通過計(jì)算該向量與圖像庫中的圖像向量的歐式距離, 求取距離最小的圖像,即是與查詢圖像最相似的結(jié)果.
實(shí)驗(yàn)結(jié)果表明, 本文提出的方法在保持了傳統(tǒng)視覺詞袋模型算法的魯棒性的同時, 由于采用了更加快速的二進(jìn)制特征ORB, 因此很大程度地縮短了圖像檢索時間, 提高了圖像檢索效率. 本文只是將ORB特征應(yīng)用到視覺詞袋模型中, 沒有考慮圖像的顏色特征,在未來的工作中可以與圖像的顏色特征相結(jié)合, 進(jìn)一步提高圖像檢索的準(zhǔn)確率.
1 Sivic J. Video Google: A text retrieval approach to object matching in videos. Proc. of the International Conf. on Computer Vision. Nice, France. IEEE Press. 2003.
2 Lowe D. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004: 91–110.
3 Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF. IEEE International Conference on Computer Vision(ICCV), 2011. IEEE. 2011. 2564–2571.
4 David L. Naive(Bayes) at forty: The independence assumption in information retrieval. European Conference on Machine Learning, 1998: 4–15.
5 Rosten E, Drummond T. Machine learning for high-speed corner detection. Computer Vision-ECCV 2006. Springer Berlin Heidelberg, 2006. 430–443.
6 Calonder M, Lepetit V, Strecha C, et al. Brief: Binary robust independent elementary features. Computer Vision-ECCV 2010, 2010: 778–792.
7 Grana C, Borghesani D, Manfredi M, et al. A fast approach for integrating ORB descriptors in the bag of words model. IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2013: 866709–866709-8.
8 Mansoori NS, Nejati M, Razzaghi P, et al. Bag of visual words approach for image retrieval using color information. 2013 21st Iranian Conference on Electrical Engineering (ICEE). IEEE. 2013. 1–6.
9 黃超,劉利強(qiáng),周衛(wèi)東.改進(jìn)的二進(jìn)制特征圖像檢索算法.計(jì)算機(jī)工程與應(yīng)用,2015,14:23–27.
10 霍華,趙剛.基于改進(jìn)視覺詞袋模型的圖像標(biāo)注方法.計(jì)算機(jī)工程,2012,22:276–278,282.
11 Mansoori NS, Nejati M, Razzaghi P, et al. Bag of visual words approach for image retrieval using color information. 2013 21st Iranian Conference on Electrical Engineering (ICEE). IEEE. 2013. 1–6.
12 董坤,王倪傳.基于視覺詞袋模型的人耳識別.計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(12):176–181.
13 Zhu L, Jin H, Zheng R, et al. Weighting scheme for image retrieval based on bag-of-visual-words. Image Processing, IET, 2014, 8(9): 509–518.
Fast Image Retrieval Method Using Improved Bag of Visual Words Model
ZHANG Zhen-Wei, SHI Chao-Xia
(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)
Bag of visual words model based on content-based image retrieval has been widely used, traditional bag of visual words model generally uses the SIFT descriptors for feature extraction. In view of the high complexity of SIFT descriptors and the long time of feature extraction, this paper proposes to use a faster binary feature descriptor ORB for the image feature extraction, creating visual dictionary, using the distance between two vectors to compare the image similarity, so as to achieve fast image retrieval. Experimental results show that the method proposed in this paper can improve the efficiency of image retrieval obviously, while maintains a relatively high robustness.
bag of visual words; local features; ORB; image retrieval
國家自然科學(xué)基金(61371040)
2016-03-14;收到修改稿時間:2016-04-14
10.15888/j.cnki.csa.005464