邊后琴,張皓霖,黃福珍
局部二值描述子的研究進(jìn)展綜述
邊后琴1,張皓霖1,黃福珍2
(1. 上海電力大學(xué)電子與信息工程學(xué)院,上海 200090;2. 上海電力大學(xué)自動(dòng)化工程學(xué)院,上海 200090)
局部二值描述子是局部不變特征中的重要研究對象,廣泛應(yīng)用于計(jì)算機(jī)視覺與模式識別中。近年來,以BRIEF描述子為代表的局部二值描述子相繼出現(xiàn),對十年來局部二值描述子的研究成果與發(fā)展方向進(jìn)行綜述,旨在為初步研究者與工程應(yīng)用人員提供參考。首先,對典型的現(xiàn)代局部二值描述子進(jìn)行概述;其次,對優(yōu)化局部二值描述子方法進(jìn)行分析;最后,對相關(guān)實(shí)驗(yàn)評估準(zhǔn)則進(jìn)行討論,通過總結(jié)現(xiàn)階段存在的問題,給出未來研究的展望。從整體來看,近年來局部二值描述子經(jīng)歷了顯著的發(fā)展與進(jìn)步,許多對于局部二值描述子的研究均在普適性、魯棒性和高效性上取得了成果。針對應(yīng)用場景的不同,部分優(yōu)化后的描述子也具備了應(yīng)對實(shí)際問題的能力。這些研究進(jìn)展為局部二值描述子向高層次發(fā)展、多領(lǐng)域拓寬打下了堅(jiān)實(shí)的基礎(chǔ)并提供了更多的思路。局部二值描述子的成功發(fā)展標(biāo)志著計(jì)算機(jī)視覺技術(shù)的進(jìn)步,但其發(fā)展過程中依然存在一些共性問題與矛盾,有待進(jìn)一步的深入研究與解決。
局部二值描述子;局部不變特征;局部二值描述子的優(yōu)化;局部二值描述子的評估;特征匹配;目標(biāo)識別
計(jì)算機(jī)視覺中一項(xiàng)較為重要的任務(wù)是在不同的觀察場景下不變地反映圖像的信息,其在圖像匹配[1]、圖像配準(zhǔn)與拼接[2]、目標(biāo)識別[3]、SLAM[4]等視覺技術(shù)中是關(guān)鍵步驟。為了實(shí)現(xiàn)該任務(wù),并以類似人眼對于圖像直觀地觀察以確定圖像特征信息的一致性,特征匹配成為了研究熱點(diǎn)。
圖像特征分為全局特征和局部特征,基于全局特征很難保持特征信息的不變性(如當(dāng)目標(biāo)圖像發(fā)生形變和遮擋等情形時(shí))。相較之下,局部特征在識別匹配中具有應(yīng)對各種變換更好的不變性。局部特征描述子一般分為局部向量描述子與局部二值描述子。局部向量描述子[5-9]具有魯棒性強(qiáng)和識別率高的特點(diǎn),在視覺任務(wù)中廣受歡迎。而隨著嵌入式設(shè)備、智能移動(dòng)設(shè)備的興起,針對低存儲、高效率的描述子設(shè)計(jì)成為當(dāng)務(wù)之急,局部二值描述子的出現(xiàn)反映了該需求,其較局部向量描述子不僅保持了可以匹敵的精度,同時(shí),使用二值(0或1)來構(gòu)建描述字符串降低了特征維度,高效簡明的算法提高了計(jì)算速度,依托漢明距離度量能夠達(dá)到實(shí)時(shí)的特征匹配效率。
近年來,在主流的國際會議與權(quán)威期刊上,主要的局部二值描述子有:基于點(diǎn)對強(qiáng)度差的局部二值描述子[10-14],基于補(bǔ)丁塊強(qiáng)度差的局部二值描述子[15-17],基于梯度信息的局部二值描述子[18-20]和基于其他信息的局部二值描述子[21-25]等。各種局部二值描述子設(shè)計(jì)方法不同、適用場景各異。同時(shí),優(yōu)化局部二值描述子性能的技術(shù)也在不斷發(fā)展,雖然該類研究充滿著機(jī)遇與前景,但現(xiàn)階段也存在著很多的矛盾與挑戰(zhàn),本文就近年來局部二值描述子的最新的優(yōu)化方式進(jìn)行綜述,提出存在的問題,給予分析與展望,以供相關(guān)研究者或工程人員參考。
優(yōu)化局部二值描述子,在考慮實(shí)時(shí)應(yīng)用時(shí),算法效率尤為重要。為此,很多研究者針對各類局部二值描述子算法的計(jì)算復(fù)雜度展開了優(yōu)化。早在向量描述子的優(yōu)化中,文獻(xiàn)[26]就在SURF (speeded up robust features)中引入積分圖像算法來簡化構(gòu)建描述子的計(jì)算復(fù)雜度;在局部二值描述子的設(shè)計(jì)中,同樣的方法也被應(yīng)用到ALOHA (aggregated local haar)描述子中,值得一提的是,在ALOHA中還使用了盒裝濾波代替了高斯濾波簡化了預(yù)濾波的運(yùn)算,并且沒有帶來很大的精度丟失。隨著更多對于數(shù)學(xué)應(yīng)用與計(jì)算機(jī)語言算法的研究,高效的算法也將在簡化局部二值描述子的計(jì)算復(fù)雜度中發(fā)揮重要作用,從優(yōu)化算法效率層面上提高局部二值描述子實(shí)時(shí)性功效也是具有意義的研究方向。
優(yōu)化局部二值描述子,尤其是提高描述子的識別精度,最為直接的方式是為描述子增添更多的特征信息,除了常見的強(qiáng)度信息、梯度信息、圖像矩等信息,最新趨勢為局部二值描述子引入顏色信息。如ZHU等[27]將RGB (red green blue) (三通道色彩空間)、NRGB (標(biāo)化R,G通道Normalized)、對立色彩空間等各類色彩空間信息分別結(jié)合在OC-LBP (opposite color local binary patterns)局部二值模式中產(chǎn)生二值描述子,取得了光照魯棒更強(qiáng)的效果。同樣的思路被JAMSHID等[28]應(yīng)用在FREAK (fast retina keypoint)描述子上,通過將點(diǎn)對分別在RGB三通道下的強(qiáng)度差二值化,取得了匹配精度上的提升,并且縮小了描述子的存儲需求,優(yōu)勢體現(xiàn)在具有光照變化的場景中。雖然為特征描述增添信息可以提高描述子的性能,但是如何高效地描述新信息依然有待發(fā)展,以顏色信息與幾何信息為例,目前對2種信息的聯(lián)合描述還停留在較低層次[29],如何對局部區(qū)域的顏色信息和空間信息進(jìn)行高效描述還需要進(jìn)行研究。
為了提高局部特征描述子的普適性,設(shè)計(jì)或改良局部特征信息的采樣模板也是一個(gè)優(yōu)化局部二值描述子的方向,如XU等[30]提出了OSRI (ordinal and spatial information of regional invariants)描述子,與傳統(tǒng)的規(guī)則模板不同,其采樣基于一種通過區(qū)域分割的不規(guī)則的模板并以此提取不同區(qū)域的圖像矩、空間分布和幾何質(zhì)心等信息。劉紅敏等[31]通過降低FREAK采樣模型中的采樣點(diǎn)密度和采樣區(qū)域的重疊度,較FREAK只使用了4層同心圓模板并且在每個(gè)同心圓的邊緣選取4個(gè)點(diǎn)作為輔助點(diǎn)。張欠欠等[32]將特征圓形鄰域劃分為多個(gè)環(huán)域,比較對應(yīng)環(huán)域的灰度均值獲得二值位。袁慶升等[33]提出了RBS描述子,構(gòu)建了更符合視網(wǎng)膜細(xì)胞“低-高-低”的密度分布的采樣模板。李瑩瑩[34]總結(jié)了構(gòu)建二值描述子采樣模板的一些現(xiàn)狀與方法,本文在其基礎(chǔ)上進(jìn)一步總結(jié)了較為典型的局部二值描述子的采樣模板,見表1。近年來的采樣模板設(shè)計(jì)偏向于參考人類視網(wǎng)膜的結(jié)構(gòu)或生物學(xué)機(jī)理,而設(shè)計(jì)高效且合適的采樣模板依然對研究者的專業(yè)知識和素養(yǎng)提出了很高的要求。
除了在局部二值描述子普適性方面的優(yōu)化,部分研究者也對于實(shí)際應(yīng)用場景所遇到的問題有針對性對其進(jìn)行改進(jìn)或設(shè)計(jì)。
一個(gè)典型的研究問題是針對弱紋理目標(biāo)的描述,TOMBARI等[35]提出的BOLD (bunch of lines descriptor)描述子是一個(gè)經(jīng)典的案例,BOLD首先檢測邊緣特征,再用類似SIFT的方式對分割線進(jìn)行描述。而CHAN等[36]提出的BORDER (bounding oriented-rectangle descriptors for enclosed regions)描述子同樣通過線分割檢測邊緣特征,采用一個(gè)旋轉(zhuǎn)的方形模板對特征區(qū)域進(jìn)行描述。但上述描述子均不是二值描述子,因此在存儲和效率上均不適用,因此,在BORDER描述子的基礎(chǔ)上,CHAN等[37]提出了針對弱紋理目標(biāo)的局部二值描述子BIND (binary integrated net descriptor),首先使用BORDER類似的方法檢測邊緣,并以邊緣中點(diǎn)定義為特征點(diǎn),將特征區(qū)域的內(nèi)部同質(zhì)信息和邊緣信息作為描述對象,采用3層×網(wǎng)去編碼每個(gè)網(wǎng)格,每個(gè)特征形成網(wǎng)狀的二值描述,通過相關(guān)邏輯運(yùn)算來度量描述子之間的距離完成效果不錯(cuò)的目標(biāo)檢測或特征匹配,
另一個(gè)典型的研究問題是針對魚眼相機(jī)所拍攝的球體圖像的特征描述與匹配。針對球體圖像,像素點(diǎn)并不是如平面圖像均勻分布而且像素鄰域的結(jié)構(gòu)也并不規(guī)則,所以,球體圖像特征點(diǎn)間的距離取決于測地線距離而不是歐氏距離,并且,將球體表明分割成可以高效索引的分離像素也并不容易。由于這些難點(diǎn),面向平面圖像的局部二值描述子在球體圖像的表現(xiàn)并不好,雖然基于局部投影球狀鄰域能將采樣點(diǎn)投影到間接的平面上,但是在處理上卻極為費(fèi)時(shí)。為此,QIANG等[38]借鑒了測地線網(wǎng)格的方式設(shè)計(jì)了采用六角球形網(wǎng)模板的球體ORB描述子——SPHORB(a fast and robust binary feature on the sphere)描述子。采用六角球形網(wǎng)模板的優(yōu)點(diǎn)在于每個(gè)網(wǎng)格具有相同的分割與角度,其次,相鄰網(wǎng)格的中心具有相似的幾何距離,因此,可以將每個(gè)立體鄰域之間看做平面鄰域來進(jìn)行角點(diǎn)特征檢測與二值描述。雖然SPHORB在球體圖像的特征提取與描述上取得了不錯(cuò)的進(jìn)展,但是URBAN等[39]指出SPHORB的特征提取速度依然不適于實(shí)時(shí)應(yīng)用,因此提出的MDBRIEF (mBRIEF (BOLD) and rBRIEF (ORB (oriented FAST and rotated BRIEF)))描述子依然采用高效的FAST算法來提取角點(diǎn)特征,在描述階段,為了保證描述子的魯棒性,對BRIEF (binary robust independent elementary features)取了離線結(jié)合在線訓(xùn)練的方式,針對魚眼相機(jī)拍攝的球體圖像進(jìn)行訓(xùn)練學(xué)習(xí)以提取類類區(qū)分度高、類間相似度高的采樣點(diǎn)對與反應(yīng)局部特征穩(wěn)健程度的描述子,這也表明有針對性的機(jī)器學(xué)習(xí)訓(xùn)練是一種解決實(shí)際應(yīng)用中所遇問題的有效方法,但GUAN和SMITH[40]指出SPHORB將球形網(wǎng)展開成平面網(wǎng)帶來了圖像形變并且依賴于附加的圖像處理,所提出的BRISKS (binary robust invariant scalable keypoints on the sphere)描述子有效地避免了這一問題,因?yàn)樵摲椒ɑ谇蝮w固有的測地線距離與微分幾何概念來建立特征點(diǎn)的鄰域模板。除了在特征檢測與圖像處理上進(jìn)行改進(jìn)使BRISKS較SPHORB具有特征的尺度不變性,最重要的是在特征描述階段,BRISKS在正切空間的BRISK標(biāo)準(zhǔn)模板上重采樣局部特征鄰域,而不是像SPHORB直接在平面網(wǎng)上進(jìn)行采樣,因此BRISKS可以更好地針對各種像素結(jié)構(gòu)和亞像素化的特征位置。
表1 典型的局部二值描述子的采樣模板
隨著機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺的應(yīng)用越發(fā)廣泛,通過訓(xùn)練學(xué)習(xí)的方式提高局部二值描述子的性能也成為了一些研究者的嘗試方向,典型的案例就是ORB (rBRIEF)描述子中引入了貪婪搜索選取最優(yōu)二值位的離線訓(xùn)練方式,F(xiàn)REAK同樣延續(xù)著ORB的思路,但篩選點(diǎn)對的方法過于依賴訓(xùn)練數(shù)據(jù),在普適性上也表現(xiàn)的不夠出色,為此TRZCINSKI等[41]提出了BinBoost描述子,在向量描述子的每一維運(yùn)用AdaBoost強(qiáng)分類器學(xué)習(xí)一個(gè)哈希函數(shù)并以此提出了一種基于梯度的訓(xùn)練學(xué)習(xí)算法來產(chǎn)生二值位,雖然BinBoost在視角與光照變化上具有很高的普適性與魯棒性,但是描述方式必須基于特征區(qū)域的梯度向量信息,且需要大量的訓(xùn)練數(shù)據(jù),因此與直接進(jìn)行二值測試的描述子相比,效率極低,類似的方法還有BAROFFIO等[42]提出的BAMBOO (binary descriptor based on AsymMetric pairwise BOOsting)描述子。為了簡化BinBoost的訓(xùn)練方式,F(xiàn)AN等[43]提出了RFD (receptive fields selection)描述子,其優(yōu)勢在于只需要使用boosting訓(xùn)練算法中所用數(shù)據(jù)集的1%就可以產(chǎn)生很高的精度,與上述尋找區(qū)分度高的維數(shù)的思路不同,其旨在尋找區(qū)分度高的感受域,感受域的選擇基于一種閾值反饋訓(xùn)練,分別采用方形匯集區(qū)與高斯匯集區(qū)構(gòu)建2種描述子RFD描述字,且通過訓(xùn)練將區(qū)分度得分值低的二值位剔除以達(dá)到緊湊性的描述子。
上述訓(xùn)練方式要么在實(shí)時(shí)性上表現(xiàn)不夠出色,要么不具有場景普適性,為此,BALNTAS等[44-45]提出并完善了BOLD描述子,其是一種基于在線學(xué)習(xí)的描述子,與以往依賴數(shù)據(jù)集的訓(xùn)練學(xué)習(xí)方式不同,BOLD的訓(xùn)練方式依賴于樣本本身,首先通過全局離線訓(xùn)練的模式選擇最優(yōu)的256位BRIEF描述子,然后將原特征區(qū)域旋轉(zhuǎn)20°得到新的描述子,與原描述子結(jié)合獲得反映局部特征穩(wěn)健程度的MASK掩碼。在特征匹配環(huán)節(jié),BOLD沒有采用簡單的漢明距離度量,而是采用了含有局部特征穩(wěn)健程度表達(dá)(MASK掩碼)的距離度量方式以更好的保證局部特征的不變性。在線的學(xué)習(xí)訓(xùn)練方式為描述子的設(shè)計(jì)與優(yōu)化提供了一種新的思路,同時(shí)也印證了人類視覺由粗到細(xì)的觀察方式。
隨著深度學(xué)習(xí)相關(guān)理論的發(fā)展,部分研究者將描述子的構(gòu)建逐漸推向了深度學(xué)習(xí)的領(lǐng)域,如LIN等[46-47]提出的基于無監(jiān)督深度學(xué)習(xí)的DeepBit描述子,該方法采用經(jīng)典的16層VGGNet網(wǎng)絡(luò)對緊湊的二值描述子通過訓(xùn)練完成最小量化損失、平均編碼分布的生成目標(biāo)(圖1),通過輸入旋轉(zhuǎn)的局部特征來強(qiáng)化高魯棒性的特征表達(dá),最終獲得學(xué)習(xí)的參數(shù)組合二值化的表達(dá)。為了優(yōu)化DeepBit在量化損失方面依然存在的缺陷,DUAN等[48-49]提出了DBD-MQ描述子,該方法在深度學(xué)習(xí)框架下應(yīng)用K-AutoEncoders (KAEs)網(wǎng)絡(luò)來聯(lián)合學(xué)習(xí)參數(shù)和二值化函數(shù)。在深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)上,該方法與DeepBit不同,其首先采用一個(gè)預(yù)先通過向量描述子訓(xùn)練好的CNN (convolution neural network)網(wǎng)絡(luò)來完成特征描述任務(wù),再通過細(xì)粒度多量化來獲得更具區(qū)分性的二值描述子,架構(gòu)如圖2所示。
圖1 DeepBit架構(gòu)
圖2 DBD-MQ架構(gòu)
2 局部二值描述子的對比
針對不同階段局部二值描述子的相關(guān)研究,有研究人員對常用的典型局部二值描述子進(jìn)行了綜合評估與性能對比。MIKOLAJCZYK和SCHMID[50]對局部向量描述子展開了性能評估并提出了較為經(jīng)典的依托召回率(recall)與精確率(precision)的評估準(zhǔn)則,通過繪制“Recall/1-Precision”曲線便可以在同指標(biāo)下對不同描述子的識別或匹配效果進(jìn)行對比。另外,經(jīng)實(shí)驗(yàn)及繪制ROC (receiver operating characteristic curve)曲線也是一種綜合對比不同描述子性能的方法,對特征匹配而言,需要根據(jù)實(shí)驗(yàn)結(jié)果計(jì)算TP (true positive)、FN (false negative)、FP (flase positive)與TN (true negative)指標(biāo),進(jìn)而得到TPR (ture positive rate)與FPR (flase positive rate)的結(jié)果并繪制TPR/FPR曲線(即ROC曲線),該評估方法存在的問題是當(dāng)樣本數(shù)據(jù)不統(tǒng)一時(shí),其對比將缺乏一定的代表性。HEINLY等[51]將局部二值描述子BRIEF,ORB和BRISK應(yīng)用于在圖像匹配并展開了綜合評估,其在文獻(xiàn)[50]的基礎(chǔ)上提出了新的依托假定匹配率(putative match ratio)的評估準(zhǔn)則,在結(jié)合特征檢測-特征描述進(jìn)行組合評測時(shí),運(yùn)用熵的相關(guān)理論來計(jì)算特征點(diǎn)在空間分布的隨機(jī)性,實(shí)驗(yàn)證明了特征檢測會對描述產(chǎn)生一定的影響,比如,提取太過聚集分布的特征點(diǎn)會導(dǎo)致描述子的區(qū)分度下降,且識別混亂。因?yàn)楝F(xiàn)有的實(shí)驗(yàn)圖像集和評估準(zhǔn)則并不能全面的反應(yīng)描述子的綜合性能,BALNTAS等[52]提出了更嚴(yán)格的衡量局部描述子優(yōu)劣的評估準(zhǔn)則——平均精度(mAP-mean average precision),同時(shí)擴(kuò)充了更大的實(shí)驗(yàn)圖像集,為局部描述子的評估提供了更多的選擇和方向。
針對局部描述子的評估方式還有很多,但是上述提到的評估準(zhǔn)則在實(shí)驗(yàn)中應(yīng)用最廣且較為主流,具有一定權(quán)威性和認(rèn)可度,同時(shí),局部二值描述子的優(yōu)劣從根本上講是依賴于該描述子不變性、低維性與實(shí)時(shí)性,相關(guān)研究者也需要根據(jù)實(shí)際情況對相關(guān)局部二值描述子進(jìn)行有針對性地調(diào)研。本文對主流局部二值描述子進(jìn)行了定性分類與對比(表2),僅供相關(guān)研究或工程應(yīng)用參考。
表2 主流局部二值描述子的對比 局部二值描述子設(shè)計(jì)思路不變性光照不變性旋轉(zhuǎn)不變性尺度不變性模糊不變性視角描述子維數(shù)(bit)實(shí)時(shí)性 BRIEF[10]手工設(shè)計(jì)較好較差較差一般較差128,256,512高 ORB[11]手工設(shè)計(jì)一般一般一般一般較差256高 BRISK[13]手工設(shè)計(jì)一般一般較好較好一般512高 FREAK[14]手工設(shè)計(jì)一般一般較好較好一般512高 LATCH[17]手工設(shè)計(jì)較好一般較好較好較好256低 BinBoost[17]監(jiān)督學(xué)習(xí)較好較好較好較好較好64低 BOLD[44-45]監(jiān)督學(xué)習(xí)較好較好較好較好較好512,1 024中 DeepBit[46-47]深度學(xué)習(xí)較好較好較好較好較好任意中 DBD-MQ[48-49]深度學(xué)習(xí)較好較好較好較好較好任意中
3 總結(jié)與展望
本文從局部二值描述子的應(yīng)用前景和研究意義出發(fā),對近年來優(yōu)化局部二值描述子性能的方向進(jìn)行歸納,同時(shí)介紹了常見的局部二值描述子的實(shí)驗(yàn)評估準(zhǔn)則與特性對比。雖然對于局部二值描述子的研究在近年來發(fā)展迅速并走向成熟,同時(shí)其應(yīng)用場景隨著研究深入也逐漸拓寬,但是,在快速發(fā)展的進(jìn)程中依然存在了一些共性的問題與亟待解決的矛盾,本文將作以下總結(jié)并提出研究展望與解決方向。
(1) 部分局部二值描述子的設(shè)計(jì)簡化計(jì)算而忽略精度,由于設(shè)計(jì)追求精度而引入過多信息。因此,如何在保留精度的同時(shí)保持實(shí)時(shí)速度依然是研究或應(yīng)用局部二值描述子的矛盾和難點(diǎn)。針對這些問題,相關(guān)研究者可以在研究設(shè)計(jì)中考慮更多的細(xì)節(jié),選擇更貼近人類視覺并高效的信息采樣模板、引入?yún)^(qū)分度更高但操作簡易的特征信息、采取簡化但不丟失精度的數(shù)學(xué)方法等均為研究的方向。
(2) 圖像灰度化、圖像濾波等在局部二值描述子構(gòu)建中的預(yù)處理操作時(shí),特征信息也發(fā)生了不同程度的丟失,是嚴(yán)重影響描述子精度的一大問題。為此,研究者需關(guān)注圖像處理相關(guān)技術(shù)的發(fā)展,采用更為成熟的圖像處理技術(shù)將在未來局部二值描述子的構(gòu)建中發(fā)揮一定的作用。
(3) 在局部二值描述子的設(shè)計(jì)過程中,人們往往只考慮局部二值描述子本身的特性,忽略了計(jì)算機(jī)視覺任務(wù)的整體性,例如,如何使局部二值描述子更好地結(jié)合相關(guān)特征檢測或特征匹配方法,如何減少特征描述在實(shí)際應(yīng)用中不受其他相關(guān)視覺技術(shù)或步驟等因素的影響。針對此類問題,應(yīng)注重實(shí)際應(yīng)用中算法的連貫性與整體性,充分考慮局部二值描述算法與其他算法的相互關(guān)聯(lián)。
(4) 在優(yōu)化局部二值描述子的過程中,離線訓(xùn)練已被廣泛接受,使得設(shè)計(jì)出的局部二值描述子非常依賴于訓(xùn)練數(shù)據(jù)集,不具有普適性,如何構(gòu)建更具有普適性的訓(xùn)練數(shù)據(jù)集或設(shè)計(jì)更具有普適性的訓(xùn)練方法依然有待研究。在線訓(xùn)練方法雖然適應(yīng)場景寬泛,但可能帶來在線計(jì)算與存儲的更大壓力。近年來的深度學(xué)習(xí)算法極大地提升了描述子的魯棒性與不變性,但是其對高性能硬件的要求阻礙了其實(shí)際應(yīng)用的范圍。因此,設(shè)計(jì)更為高效的局部二值描述子訓(xùn)練優(yōu)化方式也十分必要。針對此類問題,相關(guān)研究者可以參考機(jī)器學(xué)習(xí)乃至深度學(xué)習(xí)的相關(guān)技術(shù)方法并結(jié)合理論研究與算法優(yōu)化進(jìn)行綜合考量將可能獲得更多思路與方向。
(5) 針對局部二值描述子的實(shí)驗(yàn)評估準(zhǔn)則各不相同,如何更為客觀地評估局部二值描述子的性能且更為綜合地反映局部二值描述子的特性依然有待考慮。針對該問題,可以通過研究相關(guān)衡量指標(biāo)背后的數(shù)學(xué)原理或針對不同評估準(zhǔn)則對局部二值描述子進(jìn)行大量仿真實(shí)驗(yàn),并結(jié)合局部二值描述子在應(yīng)用中的實(shí)際效果進(jìn)行橫向?qū)Ρ龋筛逦貙ふ腋黝愒u估準(zhǔn)則的缺陷并嘗試引入其他衡量指標(biāo)以提高評估的客觀性與綜合性。
1.4 統(tǒng)計(jì)學(xué)方法 采用SPSS 19.0統(tǒng)計(jì)學(xué)軟件對數(shù)據(jù)進(jìn)行處理。計(jì)量資料以均數(shù)±標(biāo)準(zhǔn)差表示,組間比較采用t檢驗(yàn);計(jì)數(shù)資料以例(百分率)表示,組間比較采用χ2檢驗(yàn)。以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
(6) 如何擴(kuò)展局部二值描述子的應(yīng)用領(lǐng)域也值得關(guān)注,隨著移動(dòng)智能設(shè)備的發(fā)展,局部二值描述子將擁有更廣闊的應(yīng)用前景。雖然目前針對弱紋理、球體圖像等困難場景的研究已取得一定進(jìn)展,但在實(shí)際應(yīng)用過程中遇到的問題越來越多,圖像大畸變、大遮擋或目標(biāo)快速移動(dòng)等困難場景也將為局部二值描述子的發(fā)展帶來機(jī)遇與挑戰(zhàn)。針對此類問題,可以從實(shí)際應(yīng)用出發(fā),有針對性地展開研究工作,尋找解決途徑。
參考文獻(xiàn)
[1] 高永強(qiáng), 喬宇, 黃韡林. 局部二值描述子在圖像匹配中的應(yīng)用[J]. 網(wǎng)絡(luò)新媒體技術(shù), 2014, 3(2): 38-46.
[2] 姜鵬飛. 基于ORB特征的視頻圖像拼接技術(shù)研究[D]. 成都: 電子科技大學(xué), 2016.
[3] 尚俊. 圖像二進(jìn)制描述子及其目標(biāo)識別算法研究[D]. 武漢: 華中科技大學(xué), 2016.
[4] MUR-ARTAL R, MONTIEL J M M, TARDOS J D. ORB-SLAM: a versatile and accurate monocular SLAM system[J]. IEEE Transactions on Robotics, 2015, 31(5): 1147-1163.
[5] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[6] BAY H, ESS A, TUYTELAARS T, et al. Speeded-Up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.
[7] YAN K, SUKTHANKAR R. PCA-SIFT: a more distinctive representation for local image descriptors[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2004: 506-513.
[8] JALILVAND A, BOROUJENI H S, CHARKARI N M. CH-SIFT: a local kernel color histogram SIFT based descriptor[C]//2011 International Conference on Multimedia Technology. New York: IEEE Press, 2011: 6269-6272.
[9] SUN Y, ZHAO L, HUANG S, et al. L2-SIFT: SIFT feature extraction and matching for large images in large-scale aerial photogrammetry[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 91: 1-16.
[10] CALONDER, M, LEPETIT V, STRECHA C, et al. BRIEF: binary robust independent elementary features[C]//European Conference on Computer Vision (ECCV). Heidelberg: Springer. 2010: 778-792.
[11] RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//IEEE International Conference on Computer Vision, ICCV 2011. New York: IEEE Press, 2011: 6-13.
[12] TRZCINSKI T, CHRISTOUDIAS M, FUA P, et al. Boosting binary keypoint descriptors[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 2874-2881.
[13] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: binary robust invariant scalable keypoints[C]// 2011 International Conference on Computer Vision. New York: IEEE Press, 2011: 2548-2555.
[14] ALAHI A, ORTIZ R, VANDERGHEYNST P. FREAK: fast retina keypoints[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 510-517.
[15] SAHA S, DEMOULIN V. ALOHA: an efficient binary descriptor based on haar features[C]//2012 19th IEEE International Conference on Image Processing. New York: IEEE Press, 2012: 2345-2348.
[16] ZHANG S, TIAN Q, HUANG Q, et al. USB: ultrashort binary descriptor for fast visual matching and retrieval[J]. IEEE Transactions on Image Processing, 2014, 23(8): 3671-3683.
[17] LEVI G, HASSNER T. LATCH: learned arrangements of three patch codes[C]//2016 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2016: 1-9.
[18] IWAMOTO K, MASE R, NOMURA T. BRIGHT: a scalable and compact binary descriptor for low-latency and high accuracy object identification[C]//2013 IEEE International Conference on Image Processing. New York: IEEE Press, 2013: 2915-2919.
[19] YANG X, WANG X, CHENG K T T. OGB: a distinctive and efficient feature for mobile augmented reality[C]//International Conference on Multimedia Modeling. Heidelberg: Springer, 2016: 478-492.
[21] YANG X, CHENG K T. LDB: an ultra-fast feature for scalable augmented reality on mobile devices[C]// Proceedings of the 2012 IEEE International Symposium on Mixed and Augmented Reality (ISMAR). New York: IEEE Press, 2012: 49-57.
[22] WANG Z H, FAN B, WU F C. FRIF: fast robust invariant feature[EB/OL]. [2019-05-10]. https://www. researchgate.net/publication/269250430_FRIF_Fast_Robust_Invariant_Feature.
[23] BELLARBI A, OTMANE S, ZENATI N, et al. MOBIL: a moments based local binary descriptor[C]//2014 IEEE International Symposium on Mixed and Augmented Reality (ISMAR). New York: IEEE Press, 2014: 251-252.
[24] CHOI Y, PARK C, LEE J, et al. Robust binary feature using the intensity order[C]//Asian Conference on Computer Vision (ACCV). Heidelberg: Springer, 2014: 569-584.
[25] PARK C, KIM J, KWEON I S. Fast and robust binary descriptor using intensity rank binning[J]. Electronics Letters, 2017, 53(2): 79-81.
[26] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2001: 511-518.
[27] ZHU C, BICHOT C E, CHEN L. Image region description using orthogonal combination of local binary patterns enhanced with color information[J]. Pattern Recognition, 2013, 46(7): 1949-1963.
[28] JAMSHID K, ANEES V M, KUMAR G S. Enhanced fast retina keypoint descriptor[C]//TENCON 2017 IEEE Region 10 Conference. New York: IEEE Press, 2017: 1493-1498.
[29] 許允喜, 陳方. 局部圖像描述符最新研究進(jìn)展[J]. 中國圖象圖形學(xué)報(bào), 2015, 20(9): 1133-1150.
[30] XU X, TIAN L, FENG J, et al. OSRI: a rotationally invariant binary descriptor[J]. IEEE Transactions on Image Processing, 2014, 23(7): 2983-2995.
[31] 劉紅敏, 李璐, 王志衡. 基于采樣點(diǎn)組二值化策略的魯棒二值描述子研究[J]. 計(jì)算機(jī)科學(xué), 2017(12): 298-303, 315.
[32] 張欠欠, 王靜, 劉紅敏. 基于環(huán)采樣的特征組合二值描述子研究[EB/OL]. [2019-04-17]. https://doi.org/10.19678/j.issn.1000-3428.0053030.
[33] 袁慶升, 靳國慶, 張冬明, 等. 仿視網(wǎng)膜采樣的二進(jìn)制描述子[J]. 通信學(xué)報(bào), 2019, 40(1): 15-23.
[34] 李瑩瑩. 圖像局部特征描述子的構(gòu)建研究[D]. 合肥: 合肥工業(yè)大學(xué), 2015.
[35] TOMBARI F, FRANCHI A, DI L. BOLD features to detect texture-less objects[C]//2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 1265-1272.
[36] CHAN J, LEE A, KEMAO Q. BORDER: an oriented rectangles approach to texture-less object recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2855-2863.
[37] CHAN J, LEE J A, KEMAO Q. BIND: binary integrated net descriptors for texture-less object recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 322.
[38] QIANG Z, WEI F, LIANG W, et al. SPHORB: a fast and robust binary feature on the sphere[J]. International Journal of Computer Vision, 2015, 113(2): 143-159.
[39] URBAN S, MARTIN W M, HINZ S. mdBrief - a fast online adaptable, distorted binary descriptor for real-time applications using calibrated wide-angle or fisheye cameras[J]. Computer Vision and Image Understanding, 2016, 162: 71-86.
[40] GUAN H, SMITH W A P. BRISKS: binary features for spherical images on a geodesic grid[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 519.
[41] TRZCINSKI T, CHRISTOUDIAS M, FUA P, et al. Boosting binary keypoint descriptors[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 2874-2881.
[42] BAROFFIO L, CESANA M, REDONDI A, et al. Bamboo: a fast descriptor based on asymmetric pairwise boosting[C]//2014 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2014: 5686-5690.
[43] FAN B, KONG Q, TRZCINSKI T, et al. Receptive fields selection for binary feature description[J]. IEEE Transactions on Image Processing, 2014, 23(6): 2583-2595.
[44] BALNTAS V, TANG L, MIKOLAJCZYK K. BOLD-Binary online learned descriptor for efficient image matching[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 2367-2375.
[45] BALNTAS V, TANG L, MIKOLAJCZYK K. Binary online learned descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(3): 555-567.
[46] LIN K, LU J, CHEN C, et al. Learning compact binary descriptors with unsupervised deep neural networks[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1183-1192.
[47] LIN K, LU J, CHEN C, et al. Unsupervised deep learning of compact binary descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(6): 1501-1514.
[48] DUAN Y, LU J, WANG Z, et al. Learning deep binary descriptor with multi-quantization[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 4857-4866.
[49] DUAN Y, LU J, WANG Z, et al. Learning deep binary descriptor with multi-quantization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1924-1938.
[50] MIKOLAJCZYK K, SCHMID C. A performance evaluation of local descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615-1630.
[51] HEINLY J, DUNN E, FRAHM J M. Comparative evaluation of binary features[C]//European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2012: 759-773.
[52] BALNTAS V, LENC K, VEDALDI A, et al. HPatches: a benchmark and evaluation of handcrafted and learned local descriptors[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 3852-3861.
Review on related studies of local binary descriptors
BIAN Hou-qin1, ZHANG Hao-lin1, HUANG Fu-zhen2
(1. School of Electronics and Information Engineering, Shanghai University of Electric Power, Shanghai 200090, China; 2. School of Automation Engineering, Shanghai University of Electric Power, Shanghai 200090, China)
Abstract: Local binary descriptor is an important research object in local invariant features, which is widely used in computer vision and pattern recognition. Recently, the local binary descriptors represented by BRIEF have been proposed one by one. In this paper, the research results and development of local binary descriptors in the past decade are reviewed and discussed in order to provide implications for related preliminary researchers and application engineers. Firstly, the typical modern local binary descriptors were summarized. Secondly, the methods of improving these descriptors were analyzed. Finally, the relevant experimental evaluation criteria were discussed, and the future research prospects were expounded in view of the existing problems at the present stage. As a whole, local binary descriptors have experienced remarkable development and progress in recent years, and many studies on local binary descriptors have achieved success in increasing descriptors’ universality, robustness and efficiency. Aiming at different application scenarios, some improved descriptors also have ability to deal with practical problems. Such advancement has laid a solid foundation and provided more implications for the further development of local binary descriptors characteristic of higher-level and multi-field expansion. Although the advancement of local binary descriptors marks the progress of computer vision technology, there are still some common problems and contradictions, which needs to be further studied d and solved by related researchers.
Keywords: local binary descriptors; local invariant features; optimization of local binary descriptors; evaluation of local binary descriptors; features matching; target recognition
中圖分類號:TP 391
DOI:10.11996/JG.j.2095-302X.2020020254
文獻(xiàn)標(biāo)識碼:A
文章編號:2095-302X(2020)02-0254-08
DOIN P M, SU S Z, et al. CBDF: compressed binary discriminative feature[J]. Neurocomputing, 2016, 184: 43-54.
收稿日期:2019-07-10;
定稿日期:2019-10-16
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(61107081);上海市地方能力建設(shè)項(xiàng)目(15110500900)
第一作者:邊后琴(1976-),女,湖北仙桃人,副教授,博士。主要研究方向?yàn)橹悄芸刂?、模式識別與計(jì)算機(jī)視覺等。E-mail:houqinbian@163.com