亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖像紋理分類方法研究進(jìn)展和展望

        2018-05-15 01:31:20劉麗趙凌君郭承玉王亮湯俊
        自動(dòng)化學(xué)報(bào) 2018年4期
        關(guān)鍵詞:特征提取紋理濾波器

        劉麗 趙凌君 郭承玉 王亮 湯俊

        作為一種重要的視覺線索,紋理廣泛存在于自然界各種物體的表面,在圖像中則體現(xiàn)為特征值強(qiáng)度的某種局部重復(fù)模式的宏觀表現(xiàn).無論是對(duì)自然圖像、遙感圖像或是醫(yī)學(xué)圖像而言,紋理都是一種非常重要的特征.而對(duì)于紋理特征的研究也成為圖像處理、計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域中一個(gè)難以回避的基礎(chǔ)性難題,一直以來廣受研究者的關(guān)注.在紋理特征分析上所取得的進(jìn)展,不僅對(duì)于人類對(duì)自身視覺機(jī)理的理解和研究具有推動(dòng)作用,而且對(duì)計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的諸多問題起到了重要的支撐作用并得到了廣泛的應(yīng)用,如視覺導(dǎo)航、場(chǎng)景分類、物體識(shí)別、人臉識(shí)別、智能視頻分析、基于內(nèi)容的圖像和視頻檢索、遙感圖像分析、工業(yè)檢測(cè)、醫(yī)學(xué)圖像分析和文本分類等.

        有關(guān)圖像紋理特征分析的研究最早可追溯到1962年Julesz的工作[1].經(jīng)過50多年的持續(xù)研究,各類理論和算法層出不窮.不少研究者對(duì)紋理特征提取方法進(jìn)行了綜述,代表性的工作有:1993年,Tuceryan等[2]對(duì)早期的紋理特征提取方法進(jìn)行總結(jié),將其大致分為5類:基于統(tǒng)計(jì)的特征、基于幾何的特征、基于結(jié)構(gòu)的特征、基于信號(hào)處理的特征和基于模型的特征.同年,Reed等[3]對(duì)自1980年以來的紋理特征和紋理分割方法做了簡要綜述.1999年,Randen等[4]對(duì)基于信號(hào)處理的紋理特征的分類性能做了詳細(xì)的實(shí)驗(yàn)比較綜述.2002年,Zhang等[5]的綜述著重討論了不變性紋理特征提取方法.2007年,Zhang等[6]對(duì)當(dāng)前幾種主要的不變性紋理特征提取方法在紋理分類和物體識(shí)別中的性能進(jìn)行了評(píng)估.2008年,Xie等[7]對(duì)已有的主要紋理特征提取方法進(jìn)行了簡單的介紹,并沒有進(jìn)行歸類.2009年,劉麗等[8]對(duì)已有紋理特征提取方法進(jìn)行了歸類和總結(jié),其總結(jié)的方法多為2005年之前.Pietik?inen 等[9]、宋克臣等[10]、劉麗等[11]分別對(duì)基于局部二值模式(Local binary pattern,LBP)紋理特征及其在紋理分析和人臉識(shí)別以及其他領(lǐng)域中的應(yīng)用進(jìn)行綜述.上述工作中,文獻(xiàn)[2?3]總結(jié)的是較早期方法,文獻(xiàn)[4?6]討論的是某一類型的方法,文獻(xiàn)[7?8]總結(jié)的紋理特征提取方法大多為2000年之前的方法,2000年以后的方法討論的極少,近期綜述[9?11]僅僅總結(jié)了基于LBP的紋理特征.這些文獻(xiàn)對(duì)當(dāng)前紋理特征提取方法的論述很不全面,沒有對(duì)近十幾年以來的紋理特征提取方法進(jìn)行完整清晰的總結(jié).事實(shí)上,近年來對(duì)紋理特征分析的研究催生了一些優(yōu)秀的圖像低層特征表達(dá)學(xué)習(xí)方法,對(duì)物體識(shí)別、場(chǎng)景識(shí)別、人臉識(shí)別和圖像分類等計(jì)算機(jī)視覺領(lǐng)域的其他問題有重要推動(dòng)作用.因此,有必要對(duì)近10年最新的相關(guān)研究成果進(jìn)行全面的綜述和討論.本文系統(tǒng)綜述了紋理特征提取方法的研究進(jìn)展和當(dāng)下亟待解決的問題,以期為進(jìn)一步深入研究紋理特征分析和理解以及拓展其應(yīng)用領(lǐng)域奠定一定的基礎(chǔ).

        本文從紋理分類問題的基本定義出發(fā),首先從實(shí)例、類別兩個(gè)層次對(duì)紋理分類研究中存在的困難與挑戰(zhàn)進(jìn)行了闡述.接下來,對(duì)紋理分類方面的主流數(shù)據(jù)庫進(jìn)行了總結(jié).然后,重點(diǎn)對(duì)近期的紋理特征提取方法進(jìn)行了梳理和歸類總結(jié),詳細(xì)闡述了代表性方法的動(dòng)機(jī)、原理、優(yōu)勢(shì)與不足,揭示了各種方法之間的區(qū)別與聯(lián)系.最后,給出了我們對(duì)紋理分類的發(fā)展方向的一些思考.

        1 紋理分類的難點(diǎn)與挑戰(zhàn)

        紋理圖像分類是視覺研究中的基本問題,也是一個(gè)非常具有挑戰(zhàn)性的問題.紋理圖像分類是指基于待分類圖像或圖像區(qū)域的內(nèi)容為其指定一個(gè)預(yù)先定義的紋理類別.紋理特征描述和分類器是圖像分類的兩個(gè)關(guān)鍵環(huán)節(jié).對(duì)圖像進(jìn)行紋理特征描述是紋理圖像分類的主要研究內(nèi)容,因?yàn)槿绻崛〉募y理特征不好,即便好的分類器也無法完成識(shí)別任務(wù)[4,8].材質(zhì)分類是指根據(jù)圖像內(nèi)容,識(shí)別圖像中物體的所屬材質(zhì)(如木質(zhì)、玻璃、塑料、鋼鐵和纖維等).材質(zhì)分類問題往往當(dāng)成紋理分類問題來研究,因此本文中我們討論的紋理分類問題包括材質(zhì)分類問題.我們將紋理圖像分類的難點(diǎn)與挑戰(zhàn)分為兩個(gè)層次:實(shí)例層次和類別層次.

        1)實(shí)例層次.就單幅紋理圖像而言,通常由于圖像采集過程中光照條件、拍攝視角、拍攝距離和拍攝表面的非剛體形變等,使得紋理表觀特征產(chǎn)生很大的變化,如圖1(a)~(c)所示,給紋理分類算法帶來難度.

        圖1 紋理識(shí)別難點(diǎn)示例(實(shí)例層次:(a)光照變化帶來的影響,圖片來自CUReT數(shù)據(jù)集第30類;(b)視角變化和局部非剛性形變帶來的難點(diǎn),圖片來自UIUC數(shù)據(jù)集第25類;(c)尺度變化帶來的影響,圖片來自KTHTIPS2b數(shù)據(jù)集.類別層次:(d)同一類別的不同實(shí)例圖像帶來很大類內(nèi)差異,圖片來自DTD數(shù)據(jù)集的braided類;(e)材質(zhì)識(shí)別的難點(diǎn),圖片來自FMD數(shù)據(jù)集,正確答案為(從左往右):玻璃,皮質(zhì),塑料,木質(zhì),塑料,金屬,木質(zhì),金屬和塑料)Fig.1 Challenging examples of texture recognition((a)Illumination variations,images are from the 30th category of the CUReT dataset;(b)View point and local non-rigid deformation,images are from the 25th category of the UIUC dataset;(c)Scale variations,images are from the KTHTIPS2b dataset;(d)Different instance appearance variations from the same category,images are from the braided category in the DTD dataset;(e)Material classi fication difficulties,images are from the FMD dataset,the category for these images are as follows(from left to right):glass,cortex,plastic,wood,plastic,metal,wood,metal,and plastic,(a),(b)and(c)belong to instance-level variations;(d)and(e)belong to category-level variations.)

        2)類別層次.困難與挑戰(zhàn)通常來自三個(gè)方面.首先是存在較大的類內(nèi)差異,也即屬于同一類的紋理表觀特征差別比較大,其原因一方面包括前面提到的各種實(shí)例層次的變化,更重要的是由于類內(nèi)不同實(shí)例的差異,如圖1(d)所示;其次是類間模糊性,即不同類別的紋理實(shí)例具有一定的相似性,如圖1(e)所示,即使讓人類正確辨別圖中的材質(zhì)類別也是很有難度的;再次是噪聲的干擾,在實(shí)際場(chǎng)景下,可能出現(xiàn)模糊和隨機(jī)噪聲以及雨霧雪的影響等,這使得識(shí)別問題的難度大大增加.

        除了上述難點(diǎn)與挑戰(zhàn),紋理不存在一個(gè)公認(rèn)的定義也給紋理的建模和描述帶來困難.紋理圖像特征描述要同時(shí)考慮以下三個(gè)相互矛盾的指標(biāo).1)強(qiáng)可區(qū)分能力.自然界紋理圖像的種類繁多,紋理特征描述要能夠表達(dá)豐富的紋理圖像內(nèi)容,可以鑒別不同的紋理圖像類別.2)高魯棒性.紋理特征要對(duì)上述實(shí)例層次和類別層次提到的變化因素具有高魯棒性.紋理特征的特征區(qū)分力和特征魯棒性都受類內(nèi)表觀差異和類間表觀差異影響,大的類內(nèi)表觀差異和小的類間表觀差異通常會(huì)導(dǎo)致紋理特征的可區(qū)分力減弱、魯棒性降低.3)低計(jì)算復(fù)雜度和低存儲(chǔ).要求特征提取能快速實(shí)現(xiàn),并且內(nèi)存和硬盤占用量小,這對(duì)于大規(guī)模分類問題以及資源有限(CPU性能有限、內(nèi)存空間有限、電池電量有限)的移動(dòng)設(shè)備計(jì)算尤其重要.

        2 紋理分類與紋理數(shù)據(jù)集

        數(shù)據(jù)是視覺識(shí)別研究中一個(gè)非常重要的因素,紋理識(shí)別也不例外,紋理數(shù)據(jù)集在紋理識(shí)別研究中起著重要的作用.一方面,標(biāo)準(zhǔn)數(shù)據(jù)集便于讓研究者公平地進(jìn)行算法方面的比較;另一方面,隨著大數(shù)據(jù)時(shí)代的到來,對(duì)數(shù)據(jù)集進(jìn)一步豐富、完備的要求更加迫切.在數(shù)據(jù)足夠多的情況下,可能最簡單的模型、算法都能得到很好地效果.鑒于數(shù)據(jù)對(duì)算法的重要性,我們將在本節(jié)對(duì)紋理分類方面的主流數(shù)據(jù)進(jìn)行概述.目前常用的基準(zhǔn)紋理數(shù)據(jù)集主要有醫(yī)學(xué)圖像、自然紋理圖像、材質(zhì)圖像和動(dòng)態(tài)紋理4個(gè)方面,我們重點(diǎn)介紹自然紋理圖像數(shù)據(jù)集和材質(zhì)紋理圖像數(shù)據(jù)集.在介紹不同數(shù)據(jù)庫時(shí),將主要從數(shù)據(jù)庫圖像數(shù)目、類別數(shù)目、每類樣本數(shù)目、圖像大小、紋理圖像特點(diǎn)和分類難度等方面進(jìn)行闡述,如表1所示.

        Brodatz[12]是出現(xiàn)最早、使用最多、最著名的一個(gè)紋理數(shù)據(jù)庫,經(jīng)常出現(xiàn)在紋理分類、紋理分割和紋理合成的研究工作中.該數(shù)據(jù)庫有112類紋理圖像,每類僅有一幅樣本圖像.盡管有很多紋理分類算法都涉及到該數(shù)據(jù)庫,但是大多數(shù)研究者僅僅采用了該數(shù)據(jù)庫的一個(gè)較小子集進(jìn)行算法性能測(cè)試.近期才有研究者開始用整個(gè)數(shù)據(jù)集測(cè)試分類算法性能.Brodatz包含較多的紋理類別,有利于評(píng)估紋理特征的鑒別能力,但是有些紋理類別非常相似,即使人眼也難以區(qū)分開來.該數(shù)據(jù)集展現(xiàn)的類內(nèi)差異較小,每一類僅有一幅樣本圖像,不存在光照、旋轉(zhuǎn)、視點(diǎn)和尺度變化的影響,因此與實(shí)際應(yīng)用圖像有很大差距.VisTex也是早期比較著名的一個(gè)數(shù)據(jù)庫,由MIT多媒體實(shí)驗(yàn)室的視覺與建模小組構(gòu)建,該數(shù)據(jù)集有167類紋理圖像,每一類只有一幅樣本.該數(shù)據(jù)集不是在可控的實(shí)驗(yàn)室環(huán)境下構(gòu)建,而是在自然光照條件下構(gòu)建,因此比較接近實(shí)際條件,然而和Brodatz一樣,也是不能體現(xiàn)現(xiàn)實(shí)中的類內(nèi)差異.VisTex較多出現(xiàn)在紋理合成或紋理分割的論文中,很少出現(xiàn)在圖像級(jí)的紋理分類中.Brodatz和VisTex更多地是從宏觀上關(guān)注物體表面或者多個(gè)物體排列的紋理圖像,后續(xù)研究者開始關(guān)注材質(zhì)表面的紋理特性以及材質(zhì)在光照、旋轉(zhuǎn)、視點(diǎn)和尺度等成像條件變化時(shí)紋理外觀呈現(xiàn)的差異,因此基于這兩個(gè)數(shù)據(jù)集的紋理分類實(shí)驗(yàn)逐漸減少.

        表1 主流紋理分類數(shù)據(jù)庫,下載地址為:Brodatz[13]、VisTex[14]、CUReT[15]、Outex[16]、KTHTIPS[17]、UIUC[18]、KTHTIPS2a[17]、KTHTIPS2b[17]、UMD[19]、ALOT[20]、FMD[21]、Drexel[22]、OS[23]、DTD[24]、MINC[25]Table 1 Widely used texture datasets and their download link:Brodatz[13],VisTex[14],CUReT[15],Outex[16],KTHTIPS[17],UIUC[18],KTHTIPS2a[17],KTHTIPS2b[17],UMD[19],ALOT[20],FMD[21],Drexel[22],OS[23],DTD[24],MINC[25]

        在材質(zhì)紋理數(shù)據(jù)庫中,最著名、最常用的一個(gè)是CUReT(Columbia-Utrecht re flectance and texture)[26]數(shù)據(jù)集,它有61類紋理,將每個(gè)紋理樣本在可控的實(shí)驗(yàn)室環(huán)境下成像,在205個(gè)不同的視點(diǎn)成像,由于光源位置固定,導(dǎo)致光照變化帶來很大的影響,使得材質(zhì)出現(xiàn)光照反射、陰影等類內(nèi)差異,如圖1(a)所示.Varma等[27]基于該數(shù)據(jù)庫構(gòu)建了一個(gè)子集,用于紋理分類的研究,該子集后來成為用來評(píng)估紋理分類方法的基準(zhǔn)集,后續(xù)研究論文中出現(xiàn)的CUReT大多數(shù)都指該子集.它包含61類紋理圖像,每一類有92幅圖像,每個(gè)圖像大小為200像素×200像素,原始CUReT數(shù)據(jù)庫中其他視點(diǎn)的圖像因無法獲得200像素×200像素大小區(qū)域而被忽略.盡管視點(diǎn)變化,但是該數(shù)據(jù)集中的圖像并沒有呈現(xiàn)明顯的平面內(nèi)圖像旋轉(zhuǎn),且沒有尺度變化.因此,區(qū)分力強(qiáng)的紋理特征(即使沒有旋轉(zhuǎn)不變性)也能在CUReT上獲得高識(shí)別率,但是具有尺度不變性的特征性能反而會(huì)下降.由于CUReT沒有尺度變化,瑞典皇家理工學(xué)院(KTH)構(gòu)建了KTHTIPS(KTH textures under varying illumination,pose and scale,KTHTIPS)[28],該數(shù)據(jù)庫構(gòu)建一個(gè)原因是為了擴(kuò)展CUReT數(shù)據(jù)庫,從中選出10類材質(zhì)類別,每一類成像于3種不同光照、3個(gè)姿態(tài)和9個(gè)尺度,獲得81幅圖像.此外,雖然材質(zhì)類別與CUReT中的相同,但是KTHTIPS中的實(shí)際樣本與CUReT的不同,因此KTHTIPS的另一個(gè)目的是為了識(shí)別來自不同樣本的成像圖片.隨后,瑞典皇家理工學(xué)院的研究團(tuán)隊(duì)又構(gòu)建了KTHTIPS2數(shù)據(jù)庫,包含11類材質(zhì)類別.與之前的數(shù)據(jù)庫不同的是,研究者首次嘗試對(duì)同類材質(zhì)的不同材質(zhì)實(shí)例進(jìn)行成像,每類材質(zhì)選擇4種差異很大的實(shí)例(參見圖2).

        在3種不同姿態(tài)、4種不同光照和9種不同尺度下成像,得到432幅圖像.KTHTIPS2數(shù)據(jù)庫有兩個(gè)版本,KTHTIPS2a和KTHTIPS2b,不同之處在于前者比后者少了144幅圖像.基于這個(gè)數(shù)據(jù)庫的實(shí)驗(yàn),每一類中選擇來自一部分材質(zhì)實(shí)例的成像圖像來識(shí)別剩余材質(zhì)實(shí)例的圖像,這是識(shí)別沒有見過的材質(zhì)實(shí)例,是此數(shù)據(jù)庫的主要難點(diǎn)所在,此外,較大的尺度變化也增加了識(shí)別的難度.盡管有姿態(tài)的變化,但是該數(shù)據(jù)庫的旋轉(zhuǎn)變化很小,因此不具有旋轉(zhuǎn)不變性的紋理特征也可能獲得較好的識(shí)別性能.

        圖2 來自KTHTIPS2的某類圖像的樣本Fig.2 Image examples from one category in KTHTIPS2

        Outex數(shù)據(jù)庫由芬蘭奧盧大學(xué)機(jī)器視覺研究小組構(gòu)建[29],該數(shù)據(jù)集包含320類紋理圖像,每個(gè)紋理樣本成像于3種光照條件和9個(gè)旋轉(zhuǎn)角度,沒有視點(diǎn)變化和尺度變化的影響.在Outex數(shù)據(jù)庫基礎(chǔ)上,構(gòu)建了一系列子集,作為測(cè)試紋理分類和分割算法基準(zhǔn)集,詳見文獻(xiàn)[29].其中,Outex_TC00010和Outex_TC00012[30]兩個(gè)基準(zhǔn)集在紋理分類問題上得到廣泛使用,主要用于測(cè)試紋理特征的旋轉(zhuǎn)不變性和光照不變性.盡管原始Outex數(shù)據(jù)庫包含320類紋理圖像,是類別最多的一個(gè)紋理庫,但是目前還沒有研究者采用整個(gè)數(shù)據(jù)庫進(jìn)行紋理分類,有極少數(shù)研究者采用接近300類的紋理進(jìn)行分類[31].

        UIUC紋理庫[32?33]的構(gòu)建是為了評(píng)估不變性紋理特征的性能,包含25類紋理,每一類40幅樣本圖像,在近期被廣泛使用.該數(shù)據(jù)庫的難點(diǎn)在于,每類樣本圖像不多,但是有很大的類內(nèi)差異,由于很大的視角變化和尺度變化,還存在局部非剛性形變(參見圖1(b)).盡管UIUC的光照變化的影響比CUReT要小很多,但是其他類內(nèi)差異要比CUReT更大且更接近現(xiàn)實(shí)環(huán)境.UIUC每幅圖像大小為640像素×480像素,分辨率比較高,而實(shí)際中圖像紋理區(qū)域多半不是高分辨率的.UMD數(shù)據(jù)庫[34]的大小和引起類內(nèi)差異的因素同UIUC一樣,但是圖像大小為更高分辨率1280像素×960像素.該數(shù)據(jù)庫的高分辨率是為了測(cè)試基于分形的紋理特征的性能.盡管與UIUC類似,但是UMD的分類要更容易,很多方法都可以在該數(shù)據(jù)庫上達(dá)到99%以上的分類率(參見表2).ALOT(Amsterdam library of textures,ALOT)數(shù)據(jù)庫[35]包含250類紋理,每一類100幅圖像,成像于8種不同的光照條件和4個(gè)不同的視角,沒有尺度變化和非剛性形變等影響,該數(shù)據(jù)庫包含的紋理類別較多.該數(shù)據(jù)庫有三種分辨率版本,由高到低分別對(duì)應(yīng)圖像大小為1536像素×1024像素,768像素×512像素和384像素×256像素.ALOT數(shù)據(jù)庫中有些紋理類別很容易區(qū)分,也有一些很難區(qū)分.Drexel數(shù)據(jù)庫是由美國卓克索大學(xué)Oxholm等[36]創(chuàng)建的一個(gè)數(shù)據(jù)庫,包含20種不同紋理,每種紋理有2000幅樣本圖像,在實(shí)驗(yàn)室環(huán)境中,于不同光照條件、成像距離以及多種平面內(nèi)和平面外旋轉(zhuǎn)變化條件下成像獲得.該數(shù)據(jù)庫的構(gòu)建是為了研究紋理幾何(即自相似性和尺度變化)基礎(chǔ)特性,利用其進(jìn)行物體表面法向估計(jì)和幾何紋理分類.目前該數(shù)據(jù)集在紋理分類中受到的關(guān)注較少.

        隨著紋理分類方法的進(jìn)步,很多方法在上述幾個(gè)數(shù)據(jù)庫上所達(dá)到的性能都接近飽和(KTHTIPS2除外),視覺識(shí)別逐漸開始處理更加真實(shí)場(chǎng)景的視覺問題,因而對(duì)數(shù)據(jù)庫的泛化性、規(guī)模等也提出了新的要求和挑戰(zhàn).MIT研究者構(gòu)建了FMD材質(zhì)數(shù)據(jù)集(Flickr material database)[37],從網(wǎng)上搜集了10類材質(zhì)類別,每一類有100個(gè)樣本,每個(gè)樣本來自于不同的材質(zhì)實(shí)例,與以往的實(shí)驗(yàn)室可控環(huán)境下對(duì)同一個(gè)實(shí)例進(jìn)行成像構(gòu)建數(shù)據(jù)庫的方法不同,更為接近真實(shí)場(chǎng)景,一些示例圖片如圖1(e)所示.FMD與之前提到的傳統(tǒng)材質(zhì)紋理數(shù)據(jù)集有很大不同,注重于識(shí)別物體的材質(zhì)如塑料、木質(zhì)、纖維和玻璃等.盡管MIT的研究者指出[38],人類可以快速識(shí)別材質(zhì),但是計(jì)算機(jī)材質(zhì)自動(dòng)識(shí)別問題不同于物體識(shí)別、場(chǎng)景識(shí)別和紋理識(shí)別問題,也許僅僅依靠低層視覺特征并不能解決這個(gè)問題,然而研究者往往用紋理分類的方法來識(shí)別材質(zhì).傳統(tǒng)紋理特征在FMD上的分類性能比較差[37]],采用近期的深度學(xué)習(xí)方法可以獲得較大的提升,但是性能還有很大提升空間[39?40].然而,FMD數(shù)據(jù)集僅僅包含10類材質(zhì),每一類的樣本圖像也較少,而且是人工仔細(xì)挑選的,不足以反映材質(zhì)類別的類內(nèi)差異,不利于特征的自動(dòng)學(xué)習(xí).

        由于近期基于視覺屬性物體識(shí)別獲得廣泛關(guān)注[41?44],而紋理屬性(Texture attributes)在描述物體時(shí)也起著重要作用.為此,牛津大學(xué)的Andrea Vedaldi研究小組[45]收集了47種描述紋理特征的屬性,并基于此構(gòu)建了一個(gè)紋理屬性數(shù)據(jù)庫DTD(Describable textures dataset),每一類屬性包含120幅圖像,全庫共5640幅圖像,全部從網(wǎng)上搜集得到.該數(shù)據(jù)與上文提到的數(shù)據(jù)庫有很大不同,傳統(tǒng)紋理特征在該數(shù)據(jù)庫上識(shí)別率低于50%.最大的挑戰(zhàn)來自于較大的類內(nèi)差異,如圖1(d)所示,其中的紋理圖像均屬于braided類,而傳統(tǒng)意義上講,這些紋理應(yīng)該屬于不同的紋理類別,因此該數(shù)據(jù)庫的識(shí)別很有難度.此外,由于紋理屬性是語義描述類別,存在多義性,即同一幅紋理圖像可以用多個(gè)紋理屬性進(jìn)行描述,相似的紋理圖片可能出現(xiàn)在不同的紋理屬性類別中,導(dǎo)致類間模糊性,增加了識(shí)別難度.DTD數(shù)據(jù)庫的不足之處在于,每一類的圖像數(shù)不多,不足以反映類內(nèi)變化.但總的來說,DTD數(shù)據(jù)集的構(gòu)建是用屬性來描述紋理方面的一個(gè)新的嘗試.

        近期,康奈爾大學(xué)的研究小組Bell等[46]構(gòu)建了一個(gè)大規(guī)模的場(chǎng)景材質(zhì)數(shù)據(jù)庫OS(Open Surfaces).他們認(rèn)為現(xiàn)實(shí)場(chǎng)景中的物體及表面都是由材質(zhì)、紋理、形狀等特征決定(比如一個(gè)廚房,包含花崗巖臺(tái)面、金屬材質(zhì)的鍋、木質(zhì)地板、玻璃燈飾等).前文提到的所有數(shù)據(jù)庫每一幅圖像為一種紋理類別,且紋理填滿圖像區(qū)域,OS數(shù)據(jù)庫的每幅圖像為一個(gè)場(chǎng)景,包含多種材質(zhì)、紋理等;其規(guī)模比以前的紋理數(shù)據(jù)庫顯著增大,共有2萬多幅實(shí)際場(chǎng)景圖像,每幅圖像提供了材質(zhì)、紋理等標(biāo)注信息,以及多個(gè)分割開來的材質(zhì)區(qū)域,總共有10萬多個(gè)單一材質(zhì)區(qū)域,可支持多種應(yīng)用問題.就材質(zhì)分類問題而言,OS存在一些局限性:OS的材質(zhì)類別不平衡,有的類別包含豐富的樣本圖像(如木質(zhì)類有2萬個(gè)樣本圖像),有的類別包含的樣本圖像比較少,才幾十個(gè)(如水),這個(gè)問題是由于標(biāo)注不平衡造成的.

        為了進(jìn)一步推動(dòng)材質(zhì)分類問題的研究,Bell等[47]在OS的基礎(chǔ)上,構(gòu)建了一個(gè)大規(guī)模材質(zhì)數(shù)據(jù)庫MINC(Materials in context database),從436749幅場(chǎng)景圖像中標(biāo)注出2996674幅材質(zhì)圖像片,屬于23種不同材質(zhì),其中類別樣本數(shù)目不均衡,最多的類別包含564891個(gè)圖像片,最少的類別包含14954個(gè)圖像片,前者約為后者的40倍.MINC數(shù)據(jù)庫規(guī)模顯著大于FMD,材質(zhì)類別也增加到23類,MINC中的圖像樣本如圖3所示.

        圖3 來自MINC數(shù)據(jù)庫中的圖像樣本(第一行為食物類別,第二行為foliage類別)Fig.3 Image samples from the MINC database(Example images in the first row are from the food category,while those in the second row are from the foliage category)

        MINC數(shù)據(jù)庫支持圖片級(jí)材質(zhì)分類和場(chǎng)景圖像材質(zhì)分割任務(wù).如圖3所示,MINC中的樣本圖像片包含上下文信息,但是圖像片的中心像素的材質(zhì)類別代表整個(gè)圖像片的材質(zhì)類別,這點(diǎn)與傳統(tǒng)紋理數(shù)據(jù)庫(整個(gè)圖像片均為同一類別)不同.Bell等[47]又從MINC中選擇一部分圖像構(gòu)成了MINC2500數(shù)據(jù)集,共23類材質(zhì),每類包含2500幅圖像.牛津大學(xué)的Cimpoi等[40]也基于OS數(shù)據(jù)庫構(gòu)建數(shù)據(jù)集進(jìn)行了分類和分割實(shí)驗(yàn),并進(jìn)行了部分紋理屬性的標(biāo)注,但是他們構(gòu)建的數(shù)據(jù)集尚未公開.

        我們對(duì)近期紋理分類中常用的紋理數(shù)據(jù)庫進(jìn)行了總結(jié),更多有關(guān)紋理數(shù)據(jù)庫的描述可參見Hossain等的工作[48].我們也可以發(fā)現(xiàn),物體類別越多,導(dǎo)致類間差越小,要求特征具有強(qiáng)可區(qū)分力,類內(nèi)差異越大,對(duì)特征的魯棒性提出更高要求,分類任務(wù)越困難;圖像數(shù)目多少、圖像尺寸的大小,則直接對(duì)算法的可擴(kuò)展性提出了更高的要求.如何在有限時(shí)間內(nèi)高效地處理大規(guī)模數(shù)據(jù)、進(jìn)行準(zhǔn)確的紋理分類以適用于不同的應(yīng)用場(chǎng)景成為當(dāng)前研究的關(guān)注點(diǎn).

        3 紋理特征提取方法研究進(jìn)展

        圖像紋理研究已經(jīng)有50多年的歷史,各類理論和算法層出不窮,本節(jié)中我們對(duì)近期的紋理特征提取方法進(jìn)行了簡單梳理和歸類總結(jié),并著重闡述了其中代表性的工作,揭示不同方法之間的區(qū)別與聯(lián)系.

        紋理分類任務(wù)是指根據(jù)圖像內(nèi)容為其指定一個(gè)預(yù)先定義的紋理類別.對(duì)圖像進(jìn)行紋理特征描述是紋理分類的主要研究內(nèi)容.一般說來,紋理分類算法通過手工特征或者特征學(xué)習(xí)方法對(duì)整個(gè)圖像進(jìn)行全局描述,將原始數(shù)據(jù)變換成一個(gè)合適的特征矢量,使得分類器能夠基于該特征矢量進(jìn)行分類任務(wù).

        早期的紋理特征提取方法種類繁多(可參見綜述[2?4,8]等),大部分基于一個(gè)共同的假定,即紋理圖像是在理想狀態(tài)下獲取的,沒有考慮到現(xiàn)實(shí)世界的紋理圖像的復(fù)雜性(參見前文總結(jié)的紋理分類難點(diǎn)與挑戰(zhàn)).許多早期發(fā)表的方法在Brodatz數(shù)據(jù)庫上進(jìn)行紋理特征分類性能的評(píng)估,而Brodatz數(shù)據(jù)庫的局限性我們已經(jīng)在前文提及.在上個(gè)世紀(jì)90年代中期,Zhang等[5]提倡不變性紋理分類方法的研究.上世紀(jì)末至今,紋理分類方法呈現(xiàn)一個(gè)新的局面,研究者們把Julesz等的Texton理論[49]以一個(gè)新面孔重新搬上了歷史舞臺(tái),提出Bag of textons(BoT)的紋理分類方法.這就是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要模型—詞包模型(Bag of words,BoW).詞包模型最初產(chǎn)生于自然語言處理領(lǐng)域,通過建模文檔中單詞出現(xiàn)的頻率來對(duì)文檔進(jìn)行描述與表達(dá).Csurka等[50]于2004年首次將詞包的概念引入計(jì)算機(jī)視覺領(lǐng)域,由此開始大量的研究工作集中于詞包模型的研究.事實(shí)上,詞包模型方法早已經(jīng)在紋理分類領(lǐng)域出現(xiàn)[30,32,51],即BoT.因此也可以說對(duì)紋理分類的研究催生了計(jì)算機(jī)視覺領(lǐng)域的詞包模型.由此開始,大量的研究工作集中于視覺詞包模型的研究,也多側(cè)重于局部特征描述子的設(shè)計(jì).

        傳統(tǒng)人工設(shè)計(jì)局部特征結(jié)合視覺詞包模型的框架在模式分類問題中主導(dǎo)地位被近幾年出現(xiàn)的深度學(xué)習(xí)技術(shù)[52]所動(dòng)搖.深度學(xué)習(xí)的基本思想是通過有監(jiān)督或者無監(jiān)督的方式學(xué)習(xí)層次化的特征表達(dá),來對(duì)物體表面進(jìn)行從底層到高層的描述.卷積神經(jīng)網(wǎng)絡(luò)[53?54]是深度學(xué)習(xí)的一種,已成為當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更適合于圖像分析,且降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量,可以實(shí)現(xiàn)端到端的學(xué)習(xí)訓(xùn)練與分類任務(wù),避免了傳統(tǒng)識(shí)別算法中復(fù)雜的人工特征提取過程.為此,深度卷積網(wǎng)絡(luò)特征在紋理分類問題中也得到很好地應(yīng)用,代表性的方法還是將訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)特征與傳統(tǒng)的詞包模型相結(jié)合.

        與此同時(shí),值得關(guān)注的也有基于紋理視覺屬性的研究工作,旨在縮小計(jì)算機(jī)視覺中的“語義鴻溝”問題.底層視覺特征則只能被機(jī)器識(shí)別,沒有直接語義含義.視覺屬性是物體的一種屬性,可以直接被人類視覺感知也能被機(jī)器理解的較高層次的描述.這項(xiàng)工作的開展建立在紋理特征的學(xué)習(xí)表達(dá)方法之上.

        3.1 視覺詞包模型

        在計(jì)算機(jī)視覺領(lǐng)域中,BoW最開始起源于紋理分類問題,但后來被廣泛應(yīng)用于物體分類和場(chǎng)景分類等圖像分類問題,并逐漸形成了由局部特征描述、特征編碼、特征匯聚和特征分類4部分組成的標(biāo)準(zhǔn)物體分類框架[55],如圖4所示.

        1)局部紋理特征提取

        局部紋理特征描述是框架中的第一步,可分為兩類:稀疏類方法和稠密類方法.前者是基于興趣點(diǎn)檢測(cè),通過某種準(zhǔn)則選擇具有明確定義的、局部紋理特征比較明顯的像素點(diǎn)、邊緣、角點(diǎn)、重要區(qū)域等,并且通常能夠獲得一定的幾何不變性,從而可以在較小的開銷下得到更有意義的表達(dá),然后采用局部特征描述子對(duì)提取的稀疏分布的興趣點(diǎn)區(qū)域進(jìn)行特征提取,以期獲得更為緊致的特征空間.最常用的興趣點(diǎn)檢測(cè)算子有Harris角點(diǎn)檢測(cè)子、拉普拉斯高斯斑塊等[56?57].用于描述興趣點(diǎn)區(qū)域的常用局部紋理特征描述子有SIFT(Scale invariant feature transform)、RIFT(Rotation invariant feature transform)、SPIN(Spin image)等[58].稀疏類方法的缺點(diǎn)是特征提取過程步驟較多、比較復(fù)雜;對(duì)于某些紋理圖像,可能檢測(cè)不到感興趣區(qū)域或者檢測(cè)到的感興趣區(qū)域很少,缺乏穩(wěn)定性;局部區(qū)域的不變性主要依賴于估計(jì)局部區(qū)域的主導(dǎo)梯度方向,不僅計(jì)算復(fù)雜度高,且估計(jì)得到的主導(dǎo)方向并不可靠.稠密類方法是指從圖像中逐像素或者按固定的步長進(jìn)行局部特征的稠密提取,大量的局部特征描述盡管具有更高的冗余度,但信息更加豐富,其中的冗余信息主要靠后面的特征編碼和特征匯聚得到抽象和簡并,結(jié)合使用詞包模型進(jìn)行有效表達(dá)后通??梢缘玫奖认∈桀惙椒ǜ玫男阅?因此在紋理分類中使用較為廣泛.

        圖4 基于詞包模型的紋理分類示意圖Fig.4 Texture classi fication based on the BoW pipeline

        2)特征編碼

        密集提取的底層特征中包含了大量的冗余與噪聲,為提高特征表達(dá)的魯棒性,需要使用一種特征變換算法對(duì)底層特征進(jìn)行編碼,從而獲得更具區(qū)分性、更加魯棒的特征表達(dá).這一步對(duì)物體識(shí)別的性能具有至關(guān)重要的作用,因而大量的研究工作都集中在尋找更加強(qiáng)大的特征編碼方法,重要的特征編碼算法包括向量量化編碼(如k均值)、稀疏編碼、局部線性約束編碼、顯著性編碼、Fisher vector(FV)編碼等.Huang等[59]對(duì)主要特征編碼方法進(jìn)行了深入分析和比較,特征編碼對(duì)物體檢測(cè)和分類等問題起著更為重要的作用[55],而紋理圖像具有平穩(wěn)性的特征,使用最多的是簡單有效的k均值聚類方法和FV方法[60?61],稀疏編碼方法也在紋理分類中得到研究[62?63],其余方法使用較少.特征編碼方法將不在本文中詳細(xì)討論,有興趣的讀者可參見Huang等[59]的工作.

        3)特征匯聚

        特征編碼后,每一個(gè)局部特征都將在視覺詞典的一個(gè)或多個(gè)視覺單詞上產(chǎn)生表達(dá).對(duì)視覺詞典上的響應(yīng)進(jìn)行特征匯聚和特征集整合操作得到圖像的全局向量表達(dá)1常見的聚匯操作有取最大值和取平均值,分別是指對(duì)所有局部特征在同一個(gè)視覺單詞上產(chǎn)生的響應(yīng)取最大值或取平均值,這樣所有局部特征在整個(gè)視覺詞典上的響應(yīng)就產(chǎn)生一個(gè)向量表達(dá),該向量的維度和視覺單詞的數(shù)量相同.例如在紋理分類中常用的k均值聚類后的視覺詞典,特征編碼后,圖像的每個(gè)局部特征只會(huì)對(duì)一個(gè)視覺單詞產(chǎn)生響應(yīng).那么特征匯聚就是統(tǒng)計(jì)圖像中視覺單詞出現(xiàn)的頻率直方圖,作為圖像的全局表達(dá)..這一步得到的圖像特征表達(dá)也具有一定的不變性,同時(shí)也避免了使用特征集進(jìn)行圖像表達(dá)的高額代價(jià).對(duì)于物體分類和場(chǎng)景分類等問題,圖像通常具有較強(qiáng)的空間結(jié)構(gòu)約束,因此Lazebnik等[64]提出的金字塔匹配(Spatial pyramid matching,SPM)被廣泛采用.SPM提出將圖像均勻分塊,然后每個(gè)區(qū)塊里面單獨(dú)進(jìn)行特征匯聚和整合操作,并將所有子塊的特征向量串聯(lián)起來作為圖像最終的全局特征表達(dá).而紋理圖像更加關(guān)注的是圖像中存在的一些簡單的局部模式,以及這些局部模式的較有規(guī)律的重現(xiàn).紋理圖像的局部區(qū)域和整體具有相似性,紋理特征具有平穩(wěn)性.因此,SPM 模型在紋理分類中較少采用,特征匯聚基于整幅圖像進(jìn)行即可.

        4)特征分類

        使用最近鄰分類器、支撐向量機(jī)(Support vector machine,SVM)等分類器進(jìn)行分類.從圖像提取到特征表達(dá)之后,一張圖像可以使用一個(gè)固定維度的向量進(jìn)行描述,接下來就是學(xué)習(xí)一個(gè)分類器對(duì)圖像進(jìn)行分類.常用的分類器有SVM、最近鄰、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等.SVM是使用最為廣泛的分類器之一,特別是使用了核方法的非線性SVM,在紋理分類中基于開方核的SVM 使用最多,常與傳統(tǒng)BoW的直方圖特征矢量結(jié)合使用.近期基于FV的圖像特征表達(dá)矢量的維數(shù)高達(dá)數(shù)萬甚至數(shù)十萬的量級(jí),導(dǎo)致無法使用非線性SVM進(jìn)行分類,常采用線性SVM.

        綜上所述,BoW模型的核心步驟之一就是局部特征提取,在紋理分類中,局部特征提取起著最為關(guān)鍵的作用,因此得到廣泛研究,下面對(duì)近期出現(xiàn)的局部紋理特征描述子歸類總結(jié).總的來說,一個(gè)優(yōu)秀的局部紋理特征描述子應(yīng)該具備如下性質(zhì):1)可重復(fù)性,同一類型的紋理在不同的成像條件下,兩幅圖像對(duì)應(yīng)的特征越多越好;2)可區(qū)分力強(qiáng),即具有很好地紋理類別區(qū)分能力;3)局部性,易于獲得對(duì)幾何和成像變化的不變性;4)高效性,局部特征提取的計(jì)算效率越高越好,以滿足實(shí)時(shí)性需求;5)數(shù)量性,提取的特征集要足夠多,特征的密集度最好能在一定程度上反映圖像的內(nèi)容;在上述性質(zhì)中最為重要的是可重復(fù)性,其主要依賴于以下兩個(gè)方面的性質(zhì):不變性和魯棒性.前者是指局部特征不隨圖像的變換(如旋轉(zhuǎn)、縮放、仿射變換、投影變換等成像幾何)而改變;后者是指局部特征對(duì)于局部的變形(例如圖像噪聲、光照影響、壓縮噪聲、圖像模糊以及非剛體形變等)不敏感;6)低維性,有利于后續(xù)環(huán)節(jié)處理,提高系統(tǒng)的整體效率;7)多尺度分析,可以從多尺度刻畫局部紋理特征,提供更加充分的描述.

        3.1.1 稀疏類紋理特征描述子

        局部特征提取分兩步進(jìn)行,首先,從圖像中檢測(cè)一些感興趣的區(qū)域;然后,選擇合適的局部特征描述子從感興趣區(qū)域提取特征.此類方法在利用多幅二維圖像進(jìn)行三維重建、圖像匹配等任務(wù)中非常有用,曾經(jīng)是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),出現(xiàn)了一系列感興趣區(qū)域檢測(cè)子和特征描述子,詳見綜述性文章[56?58].研究者將此類方法用于紋理識(shí)別問題,最為代表性的工作是Lazebnik等[32?33]和Zhang等[6]的工作.

        Lazebnik等[32?33]提出采用兩種仿射不變性感興趣區(qū)域檢測(cè)方法,即Harris角點(diǎn)和Laplacian斑塊,從紋理圖像中檢測(cè)一些感興趣區(qū)域,這些區(qū)域通常是橢圓形區(qū)域;然后,通過估計(jì)感興趣橢圓區(qū)域的主導(dǎo)梯度方向和尺度,將其轉(zhuǎn)換成一個(gè)具有仿射不變性的圓形區(qū)域;采用兩個(gè)局部特征描述子從圓形區(qū)域提取特征:RIFT和SPIN.SPIN和RIFT描述子提取的特征分別為32維和100維,其中RIFT與SIFT[65]非常類似,具有旋轉(zhuǎn)不變性,而SPIN計(jì)算的是軟直方圖,需要利用高斯加權(quán),計(jì)算量很大.經(jīng)過上述步驟,對(duì)于每一幅紋理圖像,產(chǎn)生了兩種類型的感興趣區(qū)域和兩種局部特征,得到4個(gè)特征通道.在每幅紋理圖像的每個(gè)通道的特征空間中進(jìn)行k均值聚類,得到局部紋元字典,基于此計(jì)算一個(gè)統(tǒng)計(jì)特征(c1,w1),(c2,w2),···,(ck,wk),其中ci為紋元,wi為圖像中該紋元的權(quán)重(歸類于該紋元的像素?cái)?shù)目占整個(gè)圖像像素的比例).采用測(cè)地距(Earth mover′s distance,EMD)作為距離度量,多通道特征組合,基于最近鄰分類器進(jìn)行分類.

        Zhang等[6]的工作建立在Lazebnik的工作基礎(chǔ)之上,采用相同的感興趣區(qū)域檢測(cè)算子,特征描述子除了SPIN和RIFT之外,還增加了SIFT描述子.他們的結(jié)論指出,具有多種不變性的局部特征區(qū)域檢測(cè)和描述算子不一定是最優(yōu)紋理分類性能的保證,需要具體問題具體分析,因?yàn)閷?shí)際中,不是所有問題都需要各種類型的不變性特征.采用具有互補(bǔ)性的特征描述子可以提高分類的性能.

        在稀疏類方法中,由于紋理特征僅僅是從局部感興趣區(qū)域提取,而這兩種特征點(diǎn)的數(shù)目要比整個(gè)圖像像素?cái)?shù)目小得多,因此特征空間更為緊致.同時(shí),也會(huì)帶來缺陷.1)感興趣區(qū)域的數(shù)量性不能得到保證,因?yàn)橛行┘y理圖像中,能夠檢測(cè)到的感興趣區(qū)域較少,引起不穩(wěn)定性;2)感興趣區(qū)域并不能代表整個(gè)紋理圖像,可能損失一些重要紋理模式和特征;3)感興趣區(qū)域的主導(dǎo)梯度方向和主要尺度的估計(jì),難以準(zhǔn)確;4)特征提取過程復(fù)雜、繁瑣,特征維數(shù)較高,且EMD計(jì)算量較大.

        3.1.2 稠密類紋理特征描述子

        1)LM濾波器組方法

        Leung等[51]率先研究了不同成像視角和光照條件下獲得的紋理圖像的識(shí)別問題.采用的濾波器組如圖5所示,簡稱為LM(Leung-Malik)濾波器組,由簡單的高斯濾波器、拉普拉斯高斯濾波器和高斯濾波器的一階、二階導(dǎo)數(shù)組成,共48個(gè)濾波器.一幅紋理圖像經(jīng)LM濾波器組濾波后,每一個(gè)像素點(diǎn)均產(chǎn)生一個(gè)濾波響應(yīng)特征矢量,根據(jù)定義紋理圖像就是局部結(jié)構(gòu)的重復(fù),因此有理由認(rèn)為存在一些有代表性的濾波特征矢量,而每個(gè)像素上的特征只是這些代表性特征的噪聲變體,可以由它們近似表示.基于此,加之受Julesz[49]的紋元(Texton)理論所啟發(fā),Leung等[51]做出了一個(gè)具有影響力的研究工作:明確地給出了二維紋元(2D Texton)的定義,將其定義為濾波響應(yīng)特征的聚類中心,這個(gè)定義使得二維紋元可計(jì)算,被后續(xù)研究者廣泛采用.

        圖5 LM(Leung-Malik)濾波器組Fig.5 LM(Leung-Malik) filters

        這個(gè)二維紋元也就是后來計(jì)算機(jī)視覺中BoW模型中的視覺單詞.考慮到材質(zhì)紋理在不同成像條件下呈現(xiàn)的三維表觀特征,Leung等將二維紋元定義擴(kuò)展到三維紋元,將三維紋元定義為一些具有代表性成像視角和光照條件下的紋理圖像的濾波響應(yīng)矢量串聯(lián)后的聚類中心.

        基于LM濾波器,Leung等的紋理分類方法分為三個(gè)步驟,其實(shí)驗(yàn)在原始CUReT數(shù)據(jù)庫上進(jìn)行.

        a)三維紋元字典學(xué)習(xí).如圖6所示.對(duì)訓(xùn)練集中的每類紋理圖像,隨機(jī)選取不同視角和光照條件下的20幅圖像,進(jìn)行配準(zhǔn)后,分別采用LM濾波器進(jìn)行濾波,則每幅圖像的每個(gè)像素點(diǎn)可提取一個(gè)48維濾波特征矢量,將20幅圖像對(duì)應(yīng)像素位置特征矢量進(jìn)行串聯(lián),則可獲得960維的3D特征矢量;對(duì)所有像素點(diǎn)的3D特征矢量聚類,聚類中心作為三維紋元;所有訓(xùn)練集的紋理類別學(xué)習(xí)到的三維紋元一起組成全局三維紋元字典,以表示所有紋理類別.

        b)紋理類別模型學(xué)習(xí).對(duì)每一類訓(xùn)練紋理圖像,與三維紋元字典學(xué)習(xí)階段保持一致,選擇同樣視點(diǎn)和光照條件的20幅紋理圖像,經(jīng)配準(zhǔn)后,按照同樣的方法獲得960幅濾波特征圖,將每個(gè)像素點(diǎn)的960維特征按照最近鄰原則進(jìn)行特征編碼,將其編碼到距離最近的三維紋元;采用簡單的直方圖統(tǒng)計(jì)方法進(jìn)行特征匯聚,獲得的直方圖特征矢量作為該類紋理的模型.

        c)紋理圖像分類.在分類階段,對(duì)于訓(xùn)練集中給定的紋理類別,每一類需要重新獲得不同于訓(xùn)練集中、但成像視角和光照條件必須與訓(xùn)練集相同的20幅新的測(cè)試樣本圖像配準(zhǔn)后,按照紋理類別模型學(xué)習(xí)中同樣的方法獲得待分類圖像的直方圖特征矢量,與給定紋理類別的模型進(jìn)行對(duì)比,選擇合適的分類器進(jìn)行分類.

        為了學(xué)習(xí)紋理外觀如何隨著成像條件的變化而改變,LM的方法需要預(yù)先獲得一系列的紋理圖像,以及其光照和成像角度等條件,且需要進(jìn)行圖像配準(zhǔn),這一點(diǎn)在實(shí)際應(yīng)用中往往難以實(shí)現(xiàn),因?yàn)楝F(xiàn)實(shí)世界的紋理圖像的成像條件常常是未知的.這種方法不適合對(duì)未知成像條件的任意單幅紋理樣本圖像進(jìn)行識(shí)別.盡管如此,Leung等給出了紋元的可計(jì)算定義,在紋理分類領(lǐng)域產(chǎn)生深遠(yuǎn)影響.值得注意的是,LM方法其實(shí)就是最原始的計(jì)算機(jī)視覺領(lǐng)域的BoW方法.我們這里將LM方法稱為BoW方法,后續(xù)研究者的方法大多在于局部特征描述方面不同,采用的仍然是BoW 架構(gòu).在Leung等[51]提出的框架基礎(chǔ)上,采用相同的LM濾波器組,Cula等[66]做了改進(jìn),采用2D紋元而不是3D紋元,使得能夠在沒有任何成像環(huán)境的先驗(yàn)知識(shí)的前提下,分類單幅紋理圖像.

        2)MR8方法

        圖6 Leung和Malik提出的三維紋元字典學(xué)習(xí)流程示意圖Fig.6 Illustration for 3D texton dictionary learning with LM filters proposed by Leung and Malik

        注意到Leung等[51]的方法的不足,Varma等[27]嘗試進(jìn)行改進(jìn),探索未知成像條件下無需圖像配準(zhǔn)的單幅紋理樣本圖像的分類方法,提出具有旋轉(zhuǎn)不變性的局部紋理特征提取方法—MR8方法,其特征其實(shí)是基于LM 濾波器設(shè)計(jì)的.不同的是,Varma等[27]的方法不再學(xué)習(xí)三維紋元字典,而是直接學(xué)習(xí)二維紋元字典,而分類過程的其他步驟和Leung等[51]的方法大致相同.與圖6類似,在Varma等[27]提出的方法中,直接提取濾波特征,省去特征串聯(lián)的步驟,取而代之的是將不同紋理圖像的濾波器特征矢量累積,直接進(jìn)行特征聚類,學(xué)習(xí)二維紋元.因此,避開了圖像配準(zhǔn)的步驟,無需事先知道圖像的成像條件,并且可以對(duì)單幅紋理圖像進(jìn)行分類.MR8特征由一組基本濾波器(Base filter set,BFS)導(dǎo)出,BFS由來自LM濾波器組的38個(gè)濾波器組成,保留了LM濾波器組中的兩種各向異性濾波器:邊緣濾波器、柱狀濾波器,以及兩個(gè)各項(xiàng)同性的濾波器:一個(gè)高斯濾波器和拉普拉斯高斯濾波器(參見圖5).為了獲得旋轉(zhuǎn)不變性,同時(shí)降低紋理特征維數(shù),Varma等從BFS濾波特征矢量中推導(dǎo)出8個(gè)濾波特征矢量,并稱之為MR8特征矢量:各項(xiàng)同性濾波器保持不變,各項(xiàng)異性的濾波器中,在同尺度上的不同方向的濾波值中保留最大的濾波響應(yīng).Varma等采用最近鄰分類器,實(shí)驗(yàn)表明MR8的紋理分類性能明顯好于LM 濾波器組和Schmid濾波器組,成為后續(xù)研究者廣泛用于性能比較的一個(gè)基準(zhǔn)方法.隨后,Hayman等[28]的工作指出SVM可以進(jìn)一步提升MR8特征的紋理分類性能.

        3)Patch特征

        濾波方法一直在紋理分析中占有主導(dǎo)性的地位(可參見Randen等[4]的綜述),前面介紹的三種局部紋理特征描述方法也是濾波方法.Varma等[67]挑戰(zhàn)濾波方法在紋理分析中的主導(dǎo)地位,提出一種簡單的Patch特征.在局部特征提取階段,跳過濾波這一步驟,Varma等[67]直接將每個(gè)像素點(diǎn)周圍的Patch表示成一個(gè)特征矢量,輸入和Leung等[51]、Varma等[27]等采用的一樣的BoW 框架進(jìn)行紋理分類.他們的實(shí)驗(yàn)表明,Patch特征的性能優(yōu)于MR8方法,并對(duì)Patch特征為何有效做了詳細(xì)的理論分析.Patch特征本身不具有旋轉(zhuǎn)不變性,這一點(diǎn)限制了其在實(shí)際中的應(yīng)用.Varma等[67]采用估計(jì)局部紋理片主導(dǎo)梯度方向的方法來獲得旋轉(zhuǎn)不變性,然而,且不說主導(dǎo)梯度方向估計(jì)方法本身的魯棒性就差,估計(jì)每個(gè)局部紋理片的主導(dǎo)梯度方向的計(jì)算代價(jià)也是比較昂貴的.Patch方法將紋理建模為局部紋理片矢量的聯(lián)合分布,認(rèn)為紋理圖像的所有信息應(yīng)包含在紋理片矢量特征空間中.而濾波器與圖像進(jìn)行卷積,可以看成從圖像中檢測(cè)和匹配該濾波器的模式.一個(gè)局部紋理片對(duì)這個(gè)濾波器響應(yīng)的強(qiáng)度反映出當(dāng)前紋理片與濾波器相似的程度,越相似則響應(yīng)越強(qiáng).濾波方法等同于將圖像紋理片特征空間投影到濾波器所表示的低維子空間中.如果可以事先知道哪些特征具有較好的紋理類別鑒別力,那么可以有針對(duì)性地設(shè)計(jì)一組濾波器來匹配這些特征,這樣可以得到最佳效果.然而,實(shí)際中這種先驗(yàn)信息并不可知,濾波過程是降維過程,固然導(dǎo)致局部紋理片中紋理信息的丟失,因此這可能是Patch方法優(yōu)于MR8方法的一個(gè)重要原因.此外,濾波方法中用到的濾波器組是固定的,不具有任何學(xué)習(xí)能力,因此其特征描述能力也具有局限性.根據(jù)上述分析,有理由認(rèn)為,最好的特征提取方法應(yīng)該是可以從局部紋理片特征空間中自動(dòng)學(xué)習(xí)鑒別力強(qiáng)的特征表達(dá).事實(shí)上,近年來得到廣泛關(guān)注的深度學(xué)習(xí)理論中一個(gè)重要的觀點(diǎn)就是手工設(shè)計(jì)的底層特征描述子(包括濾波器)作為視覺信息處理的第一步,往往會(huì)過早地丟失有用的信息,直接從圖像像素學(xué)習(xí)到任務(wù)相關(guān)的特征描述是比手工特征更為有效.

        4)LBP方法

        早在1996年,Ojala等[68]就提出了LBP方法,至2002年該方法發(fā)展完善[30],此后,LBP在計(jì)算機(jī)視覺領(lǐng)域獲得廣泛關(guān)注,在紋理分類和人臉識(shí)別領(lǐng)域得到廣泛應(yīng)用和研究,催生了大量LBP變種方法.目前LBP已經(jīng)成為紋理分類和人臉識(shí)別領(lǐng)域主要的特征提取方法之一.如想詳細(xì)了解LBP方法及其各種變種方法,可參見Liu等[11]的綜述.

        LBP方法其實(shí)也是BoW框架下的方法,與前面Varma等[27,67]采用的BoW框架不同之處在于紋元字典學(xué)習(xí)環(huán)節(jié).LBP不需要采用k均值等聚類方法學(xué)習(xí)紋元,而是事先定義好了全局紋元字典,也因此大大降低了特征提取的計(jì)算量.在局部紋理特征提取階段,LBP與Varma等[67]的Patch方法類似,也是對(duì)中心像素及其鄰域系統(tǒng)的聯(lián)合分布進(jìn)行量化以獲得紋元.具體來說,LBP方法考慮中心像素xc及其周圍半徑為r的圓形鄰域上等間隔分布的p個(gè)鄰域像素x0,x1,···,xp?1的聯(lián)合分布g(xc,x0,x1,···,xp?1),將其近似為g(x0?xc,x1?xc,···,xp?1?xc).在 LBP 方法中,不再采用矢量量化方法對(duì)此特征空間進(jìn)行量化,而是采用特殊的、固定的量化方式,即將每一項(xiàng)xi?xc與0進(jìn)行比較,大于等于0則量化為1;否則,量化為0.如此特征空間 (x0?xc,x1?xc,···,xp?1?xc)T被劃分成 2p個(gè)不同的區(qū)域,也即產(chǎn)生了2p不同的紋元,而每個(gè)局部特征矢量 (x0?xc,x1?xc,···,xp?1?xc)T被映射到某一個(gè)紋元,該方法記為LBPr,p.Ojala等[30]將其擴(kuò)展到圓形鄰域系統(tǒng)和多尺度分析,并進(jìn)一步對(duì)2p種不同紋元進(jìn)行聚類,提出旋轉(zhuǎn)不變LBP算子均勻LBP算子以及旋轉(zhuǎn)不變均勻算子特征更加魯棒,鑒別力增強(qiáng),直方圖維數(shù)大大降低.LBP方法存在如下顯著優(yōu)勢(shì):1)計(jì)算復(fù)雜度低;2)灰度尺度不變性;3)易于工程實(shí)現(xiàn);4)紋元字典無需訓(xùn)練學(xué)習(xí).此外,LBP方法可以非常靈活地適應(yīng)計(jì)算機(jī)視覺領(lǐng)域的其他問題.LBP方法的出現(xiàn),給紋理分類等問題注入了新的活力,最近兩年仍然有新的LBP變種方法出現(xiàn),如Liu等[69]提出的MRELBP(Median robust extended local binary pattern)方法,Guo等[70]提出的SSLBP(Scale selective local binary patterns)方法,Sulc等[71]提出的FFirst(Fast features invariant to rotation and scale of texture)方法和Ryu等[72]提出的scLBP(Sorted consecutive local binary pattern)方法等.其中,MRELBP方法具有計(jì)算復(fù)雜度低、特征維數(shù)較低、對(duì)高斯隨機(jī)噪聲、椒鹽噪聲、隨機(jī)像素?fù)p毀和圖像模糊等具有高魯棒性,同時(shí)在現(xiàn)有主流基準(zhǔn)紋理數(shù)據(jù)集上獲得優(yōu)異分類性能.此外,一個(gè)值得一提的工作是,與LBP對(duì)局部差分特征的量化方式不同,Sharma等[73]提出對(duì)每個(gè)局部特征矢量 (x0?xc,x1?xc,···,xp?1?xc)T特征空間采用混合高斯模型進(jìn)行建模,采用Fisher特征矢量進(jìn)行特征匯聚,稱為局部高階統(tǒng)計(jì)方法(Local higher-order statistics,LHS).他們的研究中僅僅考慮了一階鄰域系統(tǒng)(3×3),因此特征描述能力有限.

        5)RP和SRP特征

        為解決傳統(tǒng)方法在紋理特征提取的復(fù)雜度與準(zhǔn)確性之間的矛盾,Liu等[74]將隨機(jī)投影(Random projection,RP)和壓縮感知(Compressive sensing,CS)理論[75?76]引入紋理分析領(lǐng)域,從理論上論證了隨機(jī)投影和壓縮感知在紋理圖像分析領(lǐng)域的可行性,提出一種基于隨機(jī)投影的紋理分類方法(稱為RP方法),直接挖掘反映圖像具有稀疏性的本質(zhì)特性的特征,有效地降低特征提取的時(shí)間和空間復(fù)雜度.該方法在特征提取階段,從原始局部紋理片中提取少數(shù)隨機(jī)投影測(cè)量值作為局部紋理特征,這些非傳統(tǒng)的隨機(jī)特征具有低維、非自適應(yīng)性、信息無損和普適性等顯著特點(diǎn).證明了從隨機(jī)紋理特征中學(xué)習(xí)得到的紋元具有更好的表達(dá)能力.紋元字典和紋理圖像全局模型的學(xué)習(xí)和訓(xùn)練均在低維壓縮域進(jìn)行,避開了計(jì)算耗時(shí)的高維原始紋理數(shù)據(jù)域重構(gòu)過程[62?63],大大地節(jié)省了計(jì)算時(shí)間和數(shù)據(jù)存儲(chǔ).隨機(jī)投影特征相比于傳統(tǒng)降維方法如PCA等,對(duì)動(dòng)態(tài)數(shù)據(jù)更新具有適應(yīng)性、對(duì)海量圖像特征提取具有可擴(kuò)展性.

        在繼承RP特征的優(yōu)勢(shì)前提下,為進(jìn)一步提高RP特征的魯棒性和鑒別力,Liu等[77?78]提出了有序隨機(jī)投影(Sorted random projection,SRP)特征.常用的獲得局部不變性的方案可分為三類.a)增加訓(xùn)練數(shù)據(jù):將每個(gè)局部圖像區(qū)域旋轉(zhuǎn)到各個(gè)角度或者縮放到各個(gè)尺度,加入訓(xùn)練.這增加了對(duì)數(shù)據(jù)的依賴,且給數(shù)據(jù)存儲(chǔ)、特征學(xué)習(xí)和表示以及分類算法增加困難,尤其當(dāng)數(shù)據(jù)規(guī)模過大時(shí),此方法顯然不適合.b)局部區(qū)域規(guī)則化:將區(qū)域映射到一個(gè)固定半徑的圓形區(qū)域從而獲得尺度和仿射不變性.為了保證旋轉(zhuǎn)不變性,估計(jì)局部圖像片的主導(dǎo)方向,主導(dǎo)方向最常用的方法是梯度方向直方圖的最大值對(duì)應(yīng)的方向,主梯度方向的估計(jì)往往是不可靠的,特別是對(duì)于缺乏明顯邊緣特征的平坦區(qū)域或具有多個(gè)主梯度方向的角點(diǎn)區(qū)域;而尺度不變性則需要估計(jì)每個(gè)區(qū)域的尺度,也存在類似的不足.此外,逐像素點(diǎn)計(jì)算每個(gè)局部區(qū)域的主導(dǎo)梯度方向也大大增加了計(jì)算量.c)計(jì)算對(duì)方向不敏感的邊緣分布直方圖,例如計(jì)算距局部區(qū)域中心像素固定距離的鄰域像素的直方圖,然后對(duì)不同距離的直方圖進(jìn)行級(jí)聯(lián)得到多層直方圖,如SPIN描述子,此類方法計(jì)算復(fù)雜度高,且魯棒性較差.因此,設(shè)計(jì)簡單直觀、計(jì)算復(fù)雜度低的有效的具有不變性的局部特征描述子,具有重要價(jià)值.為了避開上述方法的不足,Liu等[77?78]提出幾種具有旋轉(zhuǎn)不變性和灰度尺度不變性的簡單、低維而又有高可區(qū)分力的SRP局部特征表達(dá)方法,如圖7所示.Liu等[77?78]指出多尺度排序策略(圖7(c))優(yōu)于全局排序策略(圖7(a)),提出從圖像局部區(qū)域的中心像素的鄰域系統(tǒng)提取三種類型特征:強(qiáng)度特征、徑向差分和角向差分(分別如圖7(c)~(e)所示),接著對(duì)強(qiáng)度/差分特征進(jìn)行多尺度排序,最后采用隨機(jī)投影進(jìn)行降維.SRP可以有效保持局部區(qū)域的多尺度結(jié)構(gòu)信息,也能充分利用兩兩像素的成對(duì)信息.SRP使得圖像局部片特征空間重新分布,在保持了不同圖像類別之間的鑒別力的同時(shí),產(chǎn)生了更加緊致、對(duì)旋轉(zhuǎn)變化、光照變化和尺度變化不敏感的特征聚類,大大有利于圖像視覺詞典的學(xué)習(xí)以及圖像全局特征表達(dá).Liu等[79]繼續(xù)研究了多種SRP特征的融合方法.

        6)BIF特征

        BIF(Basic image features)方法[80]的主要思想也是將紋理圖像表示成紋元字典的無序直方圖分布,與LBP方法一樣,BIF方法的紋元字典的構(gòu)建也不需要進(jìn)行聚類學(xué)習(xí),而是基于Griffin等[81?82]提出的基礎(chǔ)圖像特征(BIF),因此紋理特征提取過程也存在計(jì)算復(fù)雜度低的優(yōu)點(diǎn).Griffin等[81?82]的研究指出高斯濾波器的一階、二階導(dǎo)數(shù)組成的5個(gè)簡單濾波器(Derivative of Gaussian,DtG)可以有效檢測(cè)圖像局部對(duì)稱性結(jié)構(gòu)特征.圖像對(duì)DtG濾波器的響應(yīng)值,可以大致分為6類,即稱為6種BIF特征.Crosier等[80]基于BIF進(jìn)行有效紋理分類.BIF特征提取過程可總結(jié)為如圖8所示,圖像中的每個(gè)像素經(jīng)過DtG濾波器濾波后,獲得響應(yīng)值sij;接著執(zhí)行圖8中的第三步,每個(gè)像素處可以計(jì)算得到6個(gè)特征值:γ;將該像素點(diǎn)分類為這6個(gè)值中最大值的那一類2比如說這6個(gè)值中最大值為γ,則該像素點(diǎn)用γ的類別標(biāo)簽label6表示..如此,BIF方法用簡單的方式對(duì)濾波響應(yīng)特征空間進(jìn)行了量化.

        圖7 SRP描述子示意圖Fig.7 Illustration of SRP descriptors

        圖8 BIF局部特征提取過程示意圖Fig.8 Illustration of BIF feature extraction

        圖像中的每個(gè)像素點(diǎn)都被分為6個(gè)標(biāo)簽中的一個(gè),對(duì)標(biāo)簽進(jìn)行頻率直方圖統(tǒng)計(jì)則可以得到一個(gè)全局特征矢量,不過該特征矢量維數(shù)僅僅為6.Crosier等[80]注意到這個(gè)6維的特征矢量,表達(dá)能力有限,紋理分類效果很不理想,盡管特征自身具有不變性,但僅僅是單一尺度上的特征提取,而多尺度分析被認(rèn)為在紋理分類中起著重要的作用.為此,Crosier等[80]提取多尺度BIF特征,建議提取4個(gè)不同尺度的BIF特征,并且計(jì)算特征圖的聯(lián)合分布直方圖,可以獲得1296(64)維的全局特征表示.Crosier等[80]實(shí)驗(yàn)表明,多尺度BIF特征具有較強(qiáng)的特征表達(dá)能力,結(jié)合簡單的最近鄰分類器,可以達(dá)到很好地紋理分類準(zhǔn)確率.Timofte等[83]也是基于BIF特征,采用了類似多層金字塔特征匯聚方法和基于稀疏、聯(lián)合表示的分類方法,進(jìn)一步提升了分類性能.

        7)WLD特征

        WLD(Weber law descriptor)局部特征描述方法由Chen等[84]提出,主要受韋伯定律(Weber′s law)所啟發(fā):人類對(duì)光照、聲音等刺激信號(hào)的感知辨別不僅與刺激信號(hào)強(qiáng)度的絕對(duì)變化相關(guān),而且與刺激信號(hào)原來的強(qiáng)度本身有關(guān)系.換言之,人類對(duì)刺激信號(hào)強(qiáng)度變化的辨別能力取決于信號(hào)變化的相對(duì)值,而不是絕對(duì)值.WLD包括兩個(gè)組成部分:刺激變化(Differential excitation)部分和方向部分.前者是基于每個(gè)像素與其鄰域系統(tǒng)像素的強(qiáng)度變化之和與像素本身強(qiáng)度的比值,后者是該像素的梯度方向.基于這兩個(gè)成分構(gòu)建兩個(gè)直方圖特征矢量,作為全局特征表達(dá).WLD與LBP和SIFT均有相似之處.

        具體地,如圖 9所示,刺激變化部分度量的是該像素處鄰域系統(tǒng)像素強(qiáng)度變化的相對(duì)值:

        而方向成分是該像素處的梯度方向:

        圖9 WLD描述子一階鄰域系統(tǒng)示意圖Fig.9 First order neighborhood in WLD

        對(duì)ξ進(jìn)行聚類,將所有的θ量化成T(如T=8)個(gè)方向.這樣,可得到兩個(gè)特征圖.最終統(tǒng)計(jì)這兩種特征的一種二維直方圖作為圖像的全局特征表達(dá).WLD特征支持多分辨分析.WLD直方圖特征矢量在紋理分類和人臉檢測(cè)中進(jìn)行了性能測(cè)試,取得不錯(cuò)的效果,但是其性能與主流紋理特征描述子有些差距,其優(yōu)點(diǎn)是思想直觀簡單,計(jì)算復(fù)雜度低.

        3.1.3 基于分形的紋理特征描述子

        理論上,分形模型是一種很好地處理多尺度問題的數(shù)學(xué)模型.然而,在早期的紋理特征提取方法中,分形維數(shù)并不是一種很好地紋理特征描述子[8].主要原因是:1)自然紋理圖像并不是真正意義上的分形,也即它們不是在任意尺度上都具有相同的結(jié)構(gòu)特征.2)分形維數(shù)是一個(gè)積分度量,它需要根據(jù)圖像多個(gè)尺度上的信息進(jìn)行估計(jì),且分形維數(shù)的估計(jì)依賴于尺度和估計(jì)方法,具有不穩(wěn)定性.3)傳統(tǒng)的基于分形維數(shù)的紋理分類方法沒有利用紋理的全局統(tǒng)計(jì)特性,缺乏有效性.4)分形維數(shù)特征對(duì)重要的紋理基本特征如邊緣、角點(diǎn)和均勻斑塊區(qū)域等缺乏鑒別力.

        近期,受BoW方法的啟發(fā),研究者對(duì)分形方法重新進(jìn)行思考,提出多分形譜(Multi-fractal spectrum,MFS)方法[34,85?86],對(duì)紋理圖像的視點(diǎn)變化、非剛性變化以及局部光照變化等具有不變性.最基本的MFS方法由Xu等[34]提出.MFS首先定義在簡單的圖像特征上,如強(qiáng)度特征、梯度特征和LoG特征,不妨假設(shè)提取了n個(gè)特征.基本思想是,首先,將單個(gè)圖像特征(圖像強(qiáng)度、梯度或LoG濾波特征)利用k均值進(jìn)行聚類,聚類中心(即紋元)數(shù)目假設(shè)為k;然后對(duì)該特征圖進(jìn)行特征編碼,獲得紋元標(biāo)簽圖;接著,將紋元標(biāo)簽圖繼續(xù)分解成k個(gè)二值特征圖:對(duì)每個(gè)紋元類別,把當(dāng)前紋元類別標(biāo)記為1,其余紋元類別標(biāo)記為0,按照此方式做k次可得k個(gè)的二值圖;對(duì)每個(gè)二值圖,進(jìn)行多分辨分析,采用計(jì)盒法估計(jì)分形維數(shù),一共可得k個(gè)分形維數(shù)值,構(gòu)成一個(gè)k維特征矢量,作為基于該特征導(dǎo)出的分形維數(shù)譜特征矢量.由于,基于原始圖像一共提取了n種不同的特征,那么可以獲得n個(gè)k維分形維數(shù)譜特征矢量,將其進(jìn)行串聯(lián),得到的聯(lián)合特征矢量則稱為MFS特征,維數(shù)為nk.Xu等[34]提出的MFS特征僅僅基于最簡單的強(qiáng)度和梯度特征,因此紋理描述能力有限.隨后,基于此框架,Xu等[85?86]做了進(jìn)一步改進(jìn),采用更優(yōu)秀的局部特征描述子如SIFT、小波變換等代替簡單的圖像強(qiáng)度或梯度特征,繼而計(jì)算MFS特征矢量,提出了OTF[85]和WMFS方法[86],紋理特征表達(dá)能力增強(qiáng).近期,Quan等[87]將MFS的思想與LBP方法相結(jié)合.MFS方法較傳統(tǒng)的分形方法紋理分類性能上有了明顯提高,然而還是具有分形方法固有的缺點(diǎn).此外,整個(gè)紋理特征提取過程復(fù)雜繁瑣,而且依賴于紋理圖像類別,需要高分辨率圖像才能獲得穩(wěn)定的MFS特征,對(duì)于低分辨率、小尺寸紋理圖像分類效果不理想.

        3.2 基于深度卷積網(wǎng)絡(luò)的方法

        在過去的幾十年,設(shè)計(jì)一個(gè)模式識(shí)別系統(tǒng)往往需要豐富的領(lǐng)域知識(shí)來設(shè)計(jì)特征提取方法,將原始數(shù)據(jù)變換成一個(gè)合適的特征矢量,使得分類器能夠基于該特征矢量進(jìn)行分類等任務(wù)[88].深度學(xué)習(xí)是近年來出現(xiàn)的一種具有里程碑意義的數(shù)據(jù)表示學(xué)習(xí)技術(shù)[52].與傳統(tǒng)人工設(shè)計(jì)特征的重要區(qū)別在于,深度學(xué)習(xí)的本質(zhì)是通過多層非線性變換從大數(shù)據(jù)中以有監(jiān)督或者無監(jiān)督的方式學(xué)習(xí)層次化的特征表達(dá),對(duì)圖像進(jìn)行從底層到高層的描述.2012年,多倫多大學(xué)欣頓(Hinton)小組采用深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural network,DCNN)贏得了ImageNet圖像分類的比賽[53],且分類準(zhǔn)確率大幅領(lǐng)先.Krizhevsky等[53]采用的DCNN模型與上世紀(jì)90年代初期成功用于數(shù)字手寫識(shí)別的CNN模型[54]結(jié)構(gòu)上基本上是一致的,之所以贏得比賽,這與大規(guī)模數(shù)據(jù)集ImageNet[89]的構(gòu)建以及并行計(jì)算技術(shù)的發(fā)展是分不開的.自此以后,深度學(xué)習(xí)技術(shù)開始引起學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,得到廣泛應(yīng)用和研究.作為深度學(xué)習(xí)的一個(gè)重要類別,短短幾年間,DCNN已經(jīng)在包括物體識(shí)別、圖像分類、語音識(shí)別等諸多領(lǐng)域都取得了飛躍性的進(jìn)展.有關(guān)深度學(xué)習(xí)技術(shù)的綜述性論文很多[55,90?91],本文從紋理分類問題出發(fā),結(jié)合傳統(tǒng)紋理濾波特征提取方法來理解DCNN方法,并總結(jié)近期基于深度卷積網(wǎng)絡(luò)的紋理分類方法.

        傳統(tǒng)的基于濾波的紋理特征提取[4]過程示意圖如圖10所示,通常包括三個(gè)步驟:卷積濾波(Filtering,典型如Gabor濾波器組)、非線性(Nonlinearity,典型如取模、Sigmoid函數(shù)等)和匯聚(Pooling,如取局部平均值或者高斯加權(quán)平均值),得到的特征可以直接用于像素級(jí)紋理分類.DCNN實(shí)際上是重復(fù)應(yīng)用卷積濾波、非線性和匯聚三個(gè)操作算子.在DCNN中,卷積層可以看作濾波器組,其結(jié)構(gòu)隨著網(wǎng)絡(luò)深度的增加而變得更加復(fù)雜;常用的非線性操作算子有Sigmoid、tanh、ReLU等,可以增強(qiáng)整個(gè)網(wǎng)絡(luò)的表達(dá)能力;而其匯聚操作一般是降采樣操作,通過取局部區(qū)域的最大值或平均值來達(dá)到降采樣的目的,這樣一方面可以忽略圖像細(xì)微的細(xì)節(jié)并獲得一定的不變性,另一方面可獲得較宏觀的特征圖以便于進(jìn)一步提取更加整體的特征;在網(wǎng)絡(luò)的最后通常會(huì)增加幾個(gè)全連通層和一個(gè)分類器(如Softmax分類器等).DCNN網(wǎng)絡(luò)中卷積層的濾波器是各個(gè)位置共享的,可以大大降低參數(shù)的規(guī)模,這是符合基于濾波器提取圖像特征的傳統(tǒng)思想的.

        圖10 傳統(tǒng)基于濾波方法的紋理分類流程示意圖Fig.10 Illustration of traditional texture classi fication based on filtering methods

        傳統(tǒng)的基于濾波器的紋理特征提取方法實(shí)際上只包含了一個(gè)卷積層、一個(gè)非線性層和一個(gè)匯聚層,且特征提取過程不具有自動(dòng)學(xué)習(xí)能力;在采用BoW模型時(shí),局部紋理特征提取過程則相當(dāng)于一個(gè)卷積層,對(duì)底層特征進(jìn)行特征編碼則相當(dāng)于非線性層,而特征匯聚操作則等同于匯聚層(或者也可將特征編碼和特征匯聚統(tǒng)稱為匯聚操作).而DCNN中包含多層的由簡單逐漸復(fù)雜的濾波卷積,可以進(jìn)行更為復(fù)雜的特征變換,并且具有學(xué)習(xí)能力,其學(xué)習(xí)過程是有監(jiān)督進(jìn)行的,濾波器權(quán)重可以根據(jù)數(shù)據(jù)與任務(wù)不斷進(jìn)行調(diào)整,從而學(xué)習(xí)到與具體任務(wù)更合適的特征表達(dá).因此,不難理解,DCNN具有更為強(qiáng)大的特征表達(dá)能力,能夠在多種圖像識(shí)別任務(wù)中展現(xiàn)出色性能.

        目前,深度卷積網(wǎng)絡(luò)在紋理分類領(lǐng)域的應(yīng)用研究最有代表性的工作是牛津大學(xué)視覺幾何研究小組Cimpoi等[39,45,49]提出的DCNN特征與傳統(tǒng)特征匯聚方法Fisher vector(FV)相結(jié)合的方法;法國著名數(shù)學(xué)家Stéphane Mallat研究小組提出不變性散射卷積網(wǎng)絡(luò)(Scattering convolutional network,ScatNet)[92?94];Chan等[95]提出的一個(gè)簡單的基于主成分分析的PCANet、基于隨機(jī)投影的RandNet和基于獨(dú)立成分分析的LDANet;Gatys等[96]提出的基于DCNN特征的Gram矩陣、Lin等[97?98]提出的雙線性CNN模型(Bilinear CNN).

        1)基于DCNN特征的FV特征匯聚

        近期不少研究表明,在大規(guī)模圖像數(shù)據(jù)庫如ImageNet[89]和MITPlaces[99]上訓(xùn)練好的DCNN模型可以作為一種通用的圖像特征描述方法,并且在計(jì)算機(jī)視覺的多種應(yīng)用中取得很好的效果[100?102].Cimpoi等[39?40,45]將這個(gè)思想應(yīng)用于紋理識(shí)別與分割問題,做了一系列的研究工作,最后指出DCNN特征與FV相結(jié)合的方法的性能最好.具體地,Cimpoi等[39?40,45]將基于ImageNet數(shù)據(jù)庫訓(xùn)練好的DCNN 模型 (考慮了 AlexNet[53]、VGG-M[103]和VGG-VD[104]三種常用模型)直接在紋理圖像上進(jìn)行特征提取,沒有基于紋理數(shù)據(jù)庫進(jìn)行網(wǎng)絡(luò)微調(diào)訓(xùn)練,沒有重新訓(xùn)練DCNN網(wǎng)絡(luò).他們對(duì)DCNN網(wǎng)絡(luò)中每一個(gè)卷積層提取的局部特征以及最后一個(gè)全連接層提取的特征都做了詳盡實(shí)驗(yàn)分析,結(jié)合BoW模型中的特征編碼和匯聚方法包括傳統(tǒng)BoW(k均值聚類)、LLC、VLAD和FV等進(jìn)行全局紋理圖像特征表示,他們的結(jié)論表明FV優(yōu)于其他編碼方法,在很多紋理和材質(zhì)數(shù)據(jù)集上取得優(yōu)秀的紋理分類結(jié)果;DCNN網(wǎng)絡(luò)層次越深,紋理分類準(zhǔn)確率越高,即最后一個(gè)卷積層的分類準(zhǔn)確率最高,優(yōu)于全連接層的特征;AlexNet[53]、VGG-M[103]和VGG-VD[104]三種常用模型中,VGG-VD性能最好.DCNN特征不足之處在于提取的特征缺乏旋轉(zhuǎn)不變性和光照不變性,特征提取過程計(jì)算和存儲(chǔ)復(fù)雜度均較高,而且全局紋理表示特征矢量維數(shù)極高(高達(dá)65536維),僅適合采用線性SVM進(jìn)行分類.VGG-VD+FV方法在現(xiàn)有很多基準(zhǔn)紋理數(shù)據(jù)集上達(dá)到了最高分類準(zhǔn)確率,在材質(zhì)數(shù)據(jù)集如KTHTIPS2b、FMD、DTD等上優(yōu)勢(shì)更為顯著,并且在物體檢測(cè)、場(chǎng)景分類和圖像微分類等問題上也取得不錯(cuò)的效果,作者還將該方法用于場(chǎng)景材質(zhì)分割問題.

        2)ScatNet

        Bruna等[92?94]提出的ScatNet被很多科學(xué)家(如Yann LeCun等)認(rèn)為是深度學(xué)習(xí)背后的理論分析和數(shù)學(xué)解釋.而ScatNet最成功的一個(gè)應(yīng)用即為紋理分類問題.與DCNN類似的是,ScatNet的基本思想也是重復(fù)應(yīng)用如圖10所示的卷積濾波、非線性和匯聚三個(gè)算子.而ScatNet中的濾波器為Gabor小波或Haar小波,非線性操作為濾波響應(yīng)取模,特征匯聚為取平均值.選擇小波的主要原因是平移不變性和其對(duì)圖像局部非剛性形變的穩(wěn)定性.

        ScatNet計(jì)算示意圖如圖11所示,基本原理是:在第0層,僅對(duì)原始圖像進(jìn)行簡單的高斯加權(quán)平均操作,信息量很有限;在第一層,利用多尺度多方向的Gabor小波進(jìn)行卷積并取模,模值特征圖一方面經(jīng)過高斯特征加權(quán)平均以后作為輸出特征圖,另一方面作為下一層輸入,經(jīng)過Gabor小波再次卷積取模.如此進(jìn)行.深層的小波系數(shù)包含更為豐富的信息.Bruna等[92]指出第三層小波系數(shù)的能量幾乎可以被忽略,因此ScatNet深度往往兩層即可;ψλk+1的頻率要低于ψλk頻率,即沿著頻率下降的方向進(jìn)行小波分解,否則小波系數(shù)的能量是幾乎可忽略不計(jì)的.Bruna等[92]把輸出的每幅特征圖,進(jìn)行全圖求和,多少個(gè)特征圖就形成一個(gè)多少維的特征矢量,作為紋理圖像的最終特征表達(dá),結(jié)合PCA分類器,進(jìn)行分類.Sifre等[93?94]對(duì)ScatNet進(jìn)行了拓展研究,增加了旋轉(zhuǎn)不變性和尺度不變性特征的提取方法,以及Rigid-motion散射方面的研究,在多個(gè)傳統(tǒng)基準(zhǔn)紋理數(shù)據(jù)集(CUReT、UIUC、UMD和KTHTIPS等)上性能優(yōu)異.

        與DCNN不同的是,ScatNet的網(wǎng)絡(luò)深度只有兩層,濾波器隨著網(wǎng)絡(luò)深度的增加保持不變;并且ScatNet是預(yù)先設(shè)計(jì)好的小波,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)沒有學(xué)習(xí)能力,這點(diǎn)和傳統(tǒng)濾波特征提取方法一樣;但是ScatNet更加靈活,可以設(shè)計(jì)提取具有各種不變性(平移不變性、旋轉(zhuǎn)不變性、非局部剛性形變不變性和尺度不變性等)特征.然而,ScatNet的特征提取過程非常耗時(shí),是目前最耗時(shí)的一種紋理特征提取方法,甚至比基于CPU的VGG-VD特征提取還要慢.不過,ScatNet最后的特征維數(shù)比較低,特征分類過程計(jì)算復(fù)雜度很低.ScatNet比較適合于具有平穩(wěn)性特征的傳統(tǒng)紋理分類,不太適合于平穩(wěn)性差的材質(zhì)紋理識(shí)別,如FMD、MINC、DTD等最新的紋理數(shù)據(jù)集.

        圖11 ScatNet計(jì)算示意圖(圖示了三層散射結(jié)構(gòu).x為原始圖像,ψ為多尺度多方向的Gabor小波(例如常用的4個(gè)尺度8個(gè)方向),圖中可以看成僅畫出了4個(gè)尺度的卷積,方向?yàn)V波器的卷積沒有畫出;ψ為隨著層深度變化可改變的高斯低通濾波器,等同于高斯加權(quán)平均特征匯聚的作用,可以獲得局部特征不變性;白色圓點(diǎn)為小波卷積后取模,用于下一層再次進(jìn)行小波卷積并取模操作;黑色圓點(diǎn)是在白色圓點(diǎn)基礎(chǔ)上進(jìn)行局部特征匯聚操作,為最終輸出的特征圖)Fig.11 Illustration of the 3-level scattering structure of ScatNet(x is the original image,and ψ is the multi-scale and multi-directional Gabor wavelet(e.g.,the commonly used five scales and eight orientations).In this figure we only show the convolution in four scales and do not show the convolution in different orientations.ψ is a low-pass Gaussian filter,which changes with the depth of layers,and is equivalent to the feature pooling of the Gaussian weighted average to locally obtain invariance.The white dot is to take modulus after convolution by wavelet,which is then used for the next layer and also take the modulus.The black dot represents feature pooling for the output from the white dot,and then is used as the final feature mapping.)

        3)PCANet、RandNet和 LDANet

        受 ScatNet[92?94]方法的思想所啟發(fā),Chan等[95]提出一種類似的方法,命名為 PCANet.PCANet與ScatNet相比,如圖11所示,ScatNet采用的是事先定義好的小波濾波器如Gabor小波,PCANet的PCA濾波器是從圖像局部Patch特征空間學(xué)習(xí)得到,第k+1層的PCA濾波器基于第k層的局部Patch空間學(xué)習(xí)獲得;ScatNet采用的是小波取模操作,PCANet采用的是PCA濾波器;ScatNet每一層特征圖采用高斯加權(quán)平均進(jìn)行局部特征匯聚(黑色圓點(diǎn)),然后在此基礎(chǔ)上,對(duì)整幅特征圖求和,作為最終特征表達(dá)中的一維,而PCANet每一層的特征圖沒有使用局部特征匯聚操作,對(duì)擁有相同父節(jié)點(diǎn)的子節(jié)點(diǎn)特征圖采用LBP方法進(jìn)行特征匯聚3LBP模式的計(jì)算是基于PCA濾波通道進(jìn)行的,而不是同一幅特征圖的鄰域進(jìn)行的,也即同一幅圖經(jīng)過n個(gè)PCA濾波器分解后,得到n幅特征圖,每個(gè)像素對(duì)應(yīng)一個(gè)n維濾波特征矢量,對(duì)每一個(gè)n維的特征與0進(jìn)行比較,可獲得一個(gè)LBP模式,對(duì)所有像素的LBP模式進(jìn)行統(tǒng)計(jì)可以獲得一個(gè)維數(shù)為2n的直方圖特征矢量.,輸出的是LBP直方圖特征矢量,對(duì)同一層的所有LBP直方圖特征矢量進(jìn)行串聯(lián)作為最終特征表達(dá),輸入分類器.在PCANet框架下,作者還提出了RandNet和LDANet,分別采用的是隨機(jī)濾波器和從局部Patch空間學(xué)習(xí)得到的DCA濾波器.在人臉識(shí)別數(shù)據(jù)集、圖像分類數(shù)據(jù)集、紋理數(shù)據(jù)集和MNIST數(shù)據(jù)集上均進(jìn)行了測(cè)試,結(jié)論表明可以作為一種簡單的Baseline方法.與ScatNet相比,PCANet方法特征提取速度要快很多,盡管PCA濾波器的學(xué)習(xí)過程和濾波過程需要一些時(shí)間,但是后續(xù)的LBP特征匯聚速度很快.根據(jù)我們自己的實(shí)驗(yàn),PCANet方法不具有特征不變性,在很多紋理數(shù)據(jù)集上的分類性能均比較差.

        4)Bilinear CNN

        Lin等[97?98]提出BCNN 的模型框架如圖12所示,利用兩個(gè)DCNN網(wǎng)絡(luò)4僅由卷積層、非線性層和特征匯聚層組成,不包含全連接層.從圖像中進(jìn)行特征提取(不妨假設(shè)兩個(gè)DCNN模型均是VGG-VD模型),在每個(gè)模型的最后一個(gè)卷積層,將會(huì)輸出k=512個(gè)大小為大小的特征圖,即每個(gè)像素點(diǎn)均產(chǎn)生一個(gè)512維的特征矢量,將每個(gè)像素位置對(duì)應(yīng)的兩個(gè)模型輸出的特征矢量做外積,可獲得一個(gè)65536(5122)維的特征矢量,外積捕獲了不同通道特征之間的兩兩互信息,提供了更加充分的表達(dá);對(duì)所有n個(gè)像素處的65536維特征矢量求和,進(jìn)行無序累積以獲得平移不變性,作為最后的特征表達(dá),然后對(duì)其進(jìn)行符號(hào)平方根歸一化處理和l2歸一化處理,最后與分類器相連接.

        BCNN模型中使用的兩種DCNN模型可相同,也可不同,可以直接進(jìn)行端到端的訓(xùn)練,而DCNN+FV方法[39?40,45]則無法執(zhí)行端到端訓(xùn)練;BCNN模型僅使用了卷積層和特征匯聚層,沒有使用全連接層,因此對(duì)輸入圖像大小沒有限制;Lin等[97]還揭示了BCNN方法與BoW、FV和VLAD等方法之間的聯(lián)系,但這種聯(lián)系不是很緊密.BCNN模型在細(xì)微圖像分類、紋理分類和人臉識(shí)別問題中取得比較成功的應(yīng)用,獲得一定關(guān)注.其在紋理分類中的性能與DCNN+FV方法[39?40,45]接近,但是也僅僅是利用已有的在ImageNet上訓(xùn)練好的DCNN模型進(jìn)行特征提取,并沒有基于紋理數(shù)據(jù)庫進(jìn)行端對(duì)端的訓(xùn)練;雙線性特征矢量維數(shù)很高,帶來計(jì)算和存儲(chǔ)挑戰(zhàn).

        圖12 Bilinear CNN模型結(jié)構(gòu)示意圖Fig.12 Illustration of the Bilinear CNN architecture

        5)Gram矩陣

        Gatys等[96]提出基于DCNN的紋理合成方法,用到的模型與Portilla等[105]提出的一個(gè)重要紋理合成模型很類似.Gatys等[96]采用在ImageNet上訓(xùn)練好的DCNN模型作為局部紋理特征分析方法,從源紋理圖像逐層提取所有卷積層的濾波特征,如圖13所示,在網(wǎng)絡(luò)的每一層,計(jì)算不同濾波響應(yīng)通道之間的兩兩相關(guān)特征,即每個(gè)像素點(diǎn)的濾波特征矢量與自身做外積,得到的特征矩陣稱為Gram矩陣.值得注意的是,這里的Gram矩陣與Lin等[97?98]提出的BCNN模型中的雙線性矢量是一樣的.和Lin等[97?98]一樣,將同層所有像素的Gram矩陣求和,獲得無序統(tǒng)計(jì)量.這樣,所有層的Gram矩陣特征組成了源圖像的一個(gè)平穩(wěn)的、充分的特征表達(dá).紋理合成的目的是在圖像空間中搜索一幅新的圖像,使得其與源圖像在每一層上具有相同的Gram矩陣特征表達(dá).如圖13所示,Gl與分別是源圖像和待合成圖像的第l層的Gram矩陣,El是同層的Gram矩陣之間的均方距離度量,那么紋理合成代價(jià)函數(shù)則是所有層的El的加權(quán)和:該方法計(jì)算代價(jià)比較昂貴,然而這是基于DCNN進(jìn)行紋理圖像合成的首次成功嘗試,具有重要的理論意義,有助于理解深度學(xué)習(xí)的層次化特征表達(dá),增強(qiáng)其對(duì)紋理特征的可解釋性,開啟了一個(gè)有意義的研究方向;此外,提出的Gram矩陣作為紋理特征表達(dá),作者建議其可以用于紋理分類和物體識(shí)別等任務(wù),而Lin等[97?98]的工作證實(shí)了這一點(diǎn).

        圖13 基于VGG-VD模型進(jìn)行紋理合成示意Fig.13 Texture synthesis based on VGG-VD model

        3.3 基于紋理視覺屬性的方法

        近期,視覺屬性的研究成為計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的新熱點(diǎn)[41?44].視覺屬性是底層視覺特征的抽象和總結(jié),是連接底層視覺特征與高層語義類別之間的物體一般化高層描述.底層視覺特征則只能被機(jī)器識(shí)別,沒有直接語義含義.視覺屬性是物體的一種屬性,可以直接被人類視覺感知,也能被機(jī)器理解的較高層次的描述,例如帽子的形狀或者球的顏色.基于視覺屬性的目標(biāo)描述比僅僅采用一個(gè)類別標(biāo)簽來表示物體詳細(xì)得多,因此在一些高級(jí)應(yīng)用(如理解語義檢索中的復(fù)雜查詢條件、場(chǎng)景語義理解、自動(dòng)圖像標(biāo)題生成、遷移學(xué)習(xí)和領(lǐng)樣本學(xué)習(xí)等)中起著關(guān)鍵的作用.近期,李菲菲團(tuán)隊(duì)開啟了視覺基因計(jì)劃[106],試圖通過對(duì)圖像進(jìn)行詳盡的視覺屬性等標(biāo)注,推動(dòng)圖像高級(jí)語義理解、圖像認(rèn)知和圖像問答等問題的研究.盡管目前視覺屬性尚屬于初步發(fā)展階段,卻是一個(gè)非常有前景的研究方向.

        紋理視覺屬性在物體和場(chǎng)景描述中起著關(guān)鍵的作用,如圖14所示,豹子是“斑點(diǎn)的”動(dòng)物、斑馬和老虎可以描述為“斑紋的”動(dòng)物等.然而,關(guān)于紋理視覺屬性的研究很少,盡管可以追溯到1981年Julesz關(guān)于紋理感知的研究工作[49],但是后繼研究很少.有研究者提出少數(shù)幾種粗略的紋理屬性如粗細(xì)度和線性等[107]來描述紋理.

        圖14 生活中常見的豐富紋理特征的物體(可以用紋理視覺屬性進(jìn)行描述:網(wǎng)狀的、斑點(diǎn)的、條紋的、點(diǎn)狀的、斑紋的)Fig.14 Objects with rich textures in our daily life(We can use texture attributes to describe them:mesh,spotted,striated,spotted,striped.)

        究竟人們用哪些語義單詞來描述紋理特征圖像?也就是說哪些語義單詞可以表達(dá)高層紋理視覺屬性?這是關(guān)鍵問題,然而相關(guān)研究寥寥無幾.1997年,Bhushan等[108]對(duì)此問題開展了研究,分析了常用的英文單詞與紋理感知屬性之間的關(guān)系,以及紋理屬性與紋理圖像之間的對(duì)應(yīng)關(guān)系,給出了一個(gè)包含98個(gè)單詞的紋理屬性集,稱其可以用來描述大量的紋理模式.Bhushan等[108]從心理學(xué)角度研究這98種紋理屬性,從其字面意義的相似性等進(jìn)行聚類,最后得到11種紋理屬性.Bhushan等[108]的工作近期得到跟蹤研究,Matthews等[31]提出采用Bhushan等[108]給出的11種常用紋理屬性來描述紋理.如果僅對(duì)紋理圖像進(jìn)行紋理屬性的二值標(biāo)注,即判斷是否是這11種屬性中的某種屬性,顯然描述能力不足.Matthews等[31]建議采用一個(gè)量化值來表達(dá)紋理圖像對(duì)某種紋理屬性的歸屬度,例如可以用一個(gè)數(shù)值來表示某紋理圖像中紋理模式規(guī)則的程度.為此,需要估計(jì)紋理圖像對(duì)某種屬性歸屬度的具體方法.一方面,Matthews等[31]提出直接從底層紋理特征估計(jì)紋理屬性歸屬度,考慮的底層特征包括灰度共生矩陣、Gabor小波統(tǒng)計(jì)量和均勻LBP模式;另一方面,基于觀察者的視覺感知估計(jì)紋理屬性歸屬度,用以衡量基于底層特征估計(jì)的方法的準(zhǔn)確性.然而,要讓觀測(cè)者主觀地進(jìn)行紋理屬性歸屬度的絕對(duì)度量是一件困難的事情.為此,Matthews等[31]采用了相對(duì)屬性(Relative attributes)[43?44]來標(biāo)注,通過比較任意兩幅圖像對(duì)同一種紋理屬性的歸屬度大小進(jìn)行標(biāo)注,然后從相對(duì)屬性中學(xué)習(xí)紋理屬性的絕對(duì)歸屬度度量.Matthews等[31]研究中采用的底層特征并不能代表紋理特征發(fā)展的現(xiàn)狀,因此其結(jié)論并沒有得到底層紋理特征與較高層的紋理語義屬性之間存在緊密相關(guān)性,然而這是這個(gè)方向的一個(gè)重要嘗試,值得進(jìn)一步深入研究.此外,Matthews等[31]的實(shí)驗(yàn)表明,紋理屬性歸屬度特征有助于提高紋理圖像檢索的性能.

        在Bhushan等[108]的工作基礎(chǔ)之上,Cimpoi等[40,45]也開展了紋理屬性方面的初探性研究.與Matthews等[31]的研究不同,Cimpoi等[40,45]的目的是想定義一個(gè)通用的、可以描述大多數(shù)紋理特征的紋理屬性集,從紋理圖像可以魯棒地估計(jì)這些紋理屬性,并探索其應(yīng)用.為此,基于Bhushan等[108]確定的98種紋理屬性,從中選擇47種更適合紋理特征的屬性,并建立了一個(gè)紋理數(shù)據(jù)庫DTD(參見前面章節(jié)).基于DTD,Cimpoi等[40,45]對(duì)現(xiàn)有多種紋理特征的分類性能進(jìn)行了實(shí)驗(yàn)比較,并提出了新的紋理特征(DCNN+FV),前文做了介紹,這里不再贅述.

        最后,表2總結(jié)了近期主流紋理分類方法在常用的基準(zhǔn)紋理數(shù)據(jù)集上報(bào)道的分類正確率.表2中總結(jié)的方法在每個(gè)數(shù)據(jù)集上采用了相同的訓(xùn)練/測(cè)試數(shù)據(jù)劃分方式.此外,近期有研究者對(duì)多種LBP類型的紋理特征和近期基于深度卷積網(wǎng)絡(luò)的特征做了比較詳盡的紋理分類性能評(píng)估,感興趣讀者可參見[109].

        4 對(duì)紋理分類的思考

        近期,紋理分類研究在理論和算法上已經(jīng)取得了一系列研究進(jìn)展,例如計(jì)算機(jī)視覺領(lǐng)域最常用的詞包模型、Fisher vector方法、LBP方法、ScatNet方法(被認(rèn)為是深度學(xué)習(xí)方面的數(shù)學(xué)解釋)等,紋理特征描述子和一般的圖像特征描述子的界限逐漸縮小,很多紋理特征描述子在人臉識(shí)別、物體分類和場(chǎng)景分類等問題中也得到較多應(yīng)用,促進(jìn)了相關(guān)領(lǐng)域的發(fā)展.然而,對(duì)于實(shí)際開放環(huán)境中多種多樣的自然圖像紋理分析和理解,仍然需要在理論和算法方面開展創(chuàng)新研究,以更好地學(xué)習(xí)和表達(dá)紋理特征,并且在完善理論分析的同時(shí),推進(jìn)紋理特征提取方法在實(shí)際工程中的廣泛應(yīng)用.其中有待進(jìn)一步研究解決的重要課題包括:

        1)大規(guī)模紋理數(shù)據(jù)庫構(gòu)建問題.在大數(shù)據(jù)時(shí)代,開放環(huán)境下的海量圖像視頻數(shù)據(jù)存在的紛繁復(fù)雜的易變性將給傳統(tǒng)人工設(shè)計(jì)紋理特征帶來巨大挑戰(zhàn),而深度學(xué)習(xí)模型具有強(qiáng)大的數(shù)據(jù)表達(dá)能力,無疑將會(huì)對(duì)大數(shù)據(jù)背景下的整個(gè)視覺的研究產(chǎn)生極大的影響,也必然會(huì)將紋理分類的研究推向新的高度.深度學(xué)習(xí)模型依賴于大規(guī)模數(shù)據(jù)庫.遺憾的是,據(jù)我們所知,目前紋理分類領(lǐng)域尚不存在一個(gè)類似于ImageNet這樣的大規(guī)模紋理數(shù)據(jù)庫,這成為制約紋理分析與理解的一個(gè)瓶頸.如表2所示,很多紋理分類方法在現(xiàn)有的主流紋理數(shù)據(jù)集上的性能已經(jīng)趨于飽和,除了最近的幾個(gè)數(shù)據(jù)庫如FMD和DTD.近期的圖像分類、物體檢測(cè)與識(shí)別、人臉識(shí)別和場(chǎng)景識(shí)別等問題取得的重要進(jìn)展均與相應(yīng)的大規(guī)模數(shù)據(jù)集如ImageNet、LFW 和MITPlaces的構(gòu)建密不可分,因此大規(guī)模紋理數(shù)據(jù)庫的構(gòu)建將使得整個(gè)計(jì)算機(jī)視覺領(lǐng)域受益.盡管基于已有的大規(guī)模圖像數(shù)據(jù)庫訓(xùn)練得到的DCNN網(wǎng)絡(luò)在紋理分類中達(dá)到了State of the art性能,然而,大量研究表明,如果數(shù)據(jù)條件允許,重新訓(xùn)練DCNN網(wǎng)絡(luò)或者微調(diào)DCNN網(wǎng)絡(luò)均可以進(jìn)一步提升性能,有利于學(xué)習(xí)到能夠反映問題本質(zhì)屬性的特征.因此,如何構(gòu)建一個(gè)好的大規(guī)模紋理數(shù)據(jù)庫,將是紋理研究進(jìn)一步發(fā)展的一個(gè)重要問題.

        2)有關(guān)紋理的定義問題.紋理不存在一個(gè)公認(rèn)的定義,這已經(jīng)不是一個(gè)新的問題.然而,要構(gòu)建一個(gè)大規(guī)模的紋理數(shù)據(jù)庫,這個(gè)問題不可回避.傳統(tǒng)意義上來說,紋理是圖像中特征值強(qiáng)度的某種局部模式的重復(fù)以及其宏觀規(guī)律,局部模式重復(fù)和平穩(wěn)性是其主要特點(diǎn).然而,近期材質(zhì)識(shí)別問題也當(dāng)作紋理分類問題來研究,典型的如FMD和MINC數(shù)據(jù)集的構(gòu)建.而MIT研究者Sharan等[38]指出材質(zhì)識(shí)別是不同于物體識(shí)別、場(chǎng)景識(shí)別和紋理識(shí)別的一個(gè)獨(dú)特問題,僅僅依靠紋理特征并不能解決材質(zhì)分類問題.因此,有關(guān)紋理的定義,仍然是一個(gè)值得大家思考的問題,對(duì)于建立一個(gè)好的大規(guī)模紋理數(shù)據(jù)庫也起著關(guān)鍵作用.

        表2 近期主流分類方法報(bào)道的紋理分類性能總結(jié)(數(shù)據(jù)都是原文報(bào)道的結(jié)果,帶*標(biāo)記的數(shù)據(jù)是引自近期綜述性論文[6])Table 2 Performance summary of recent dominant classi fication methods on texture classi fication(All results are quoted directly from original papers,except for those marked with*,which are from a recent review paper[6].)

        3)適合紋理分析與理解的深度卷積神經(jīng)網(wǎng)絡(luò)研究.DCNN已經(jīng)在圖像分類、物體檢測(cè)和識(shí)別等領(lǐng)域取得巨大成功,直觀上來看,DCNN的網(wǎng)絡(luò)結(jié)構(gòu)很好地符合這樣一個(gè)客觀事實(shí):物體是層級(jí)組成的,高級(jí)的特征是通過對(duì)低級(jí)特征的組合來實(shí)現(xiàn)的.具體而言,局部邊緣的組合形成基本圖案,這些圖案形成物體的局部,繼而再形成整個(gè)物體.DCNN學(xué)習(xí)到的特征也很好地反映了這樣一個(gè)事實(shí),其結(jié)構(gòu)其實(shí)較適合于物體分類等問題.但是,這種圖像整體形狀的分析和越來越復(fù)雜的特征未必適合于紋理分析,這仍然要回歸到紋理圖像的本質(zhì)特性問題,紋理分類更加關(guān)注的是圖像中存在的一些簡單的局部模式,以及這些局部模式的較有規(guī)律的重現(xiàn).注意到DCNN提取的卷積層的特征其實(shí)與紋理分析領(lǐng)域常用的濾波方法非常類似,比如第一層提取的邊緣特征,類似于紋理分析中常用的Gabor濾波器.中間層也是類似于濾波方法,只是提取特征復(fù)雜度增加.因此,我們有理由推測(cè)一個(gè)典型的DCNNs網(wǎng)絡(luò),即使不改變其網(wǎng)絡(luò)結(jié)構(gòu),將其直接在一個(gè)紋理大數(shù)據(jù)庫上進(jìn)行訓(xùn)練,可以自動(dòng)地學(xué)習(xí)到一些能夠反映紋理圖像本質(zhì)屬性的特征,也有助于增強(qiáng)DCNN網(wǎng)絡(luò)的可解釋性,通過紋理特征分析、紋理合成和可視化分析等方法深入分析紋理特征在DCNN網(wǎng)絡(luò)中究竟是如何表達(dá)的.我們相信應(yīng)該能夠設(shè)計(jì)出適合紋理分析的DCNN網(wǎng)絡(luò)結(jié)構(gòu),這也是一個(gè)值得探索的研究方向.

        4)紋理圖像的高效分類方法研究.目前常用的紋理分類方法是采用基于ImageNet訓(xùn)練好的DCNN模型作為特征提取,然后利用Fisher矢量將圖像表示成一個(gè)高維特征矢量,通常為幾萬維甚至更高.隨著大數(shù)據(jù)時(shí)代的到來、硬件技術(shù)的發(fā)展,也使得在更大規(guī)模的數(shù)據(jù)庫上進(jìn)行研究和評(píng)測(cè)成為必然.高維度導(dǎo)致高存儲(chǔ)需求和高計(jì)算復(fù)雜度,特別是資源受限的領(lǐng)域(如移動(dòng)設(shè)備上的識(shí)別)中,目前主流的紋理圖像分類方法無法勝任,因此還需要繼續(xù)努力研究面向大規(guī)模紋理圖像分類的高效特征提取方法.在處理大規(guī)模的圖像數(shù)據(jù)庫類似于ImageNet,需要很大的內(nèi)存,則需要并行計(jì)算、云計(jì)算等大規(guī)模計(jì)算平臺(tái),大規(guī)模計(jì)算平臺(tái)成本昂貴.因此,設(shè)計(jì)具有較低維度、但是表示能力和現(xiàn)有方法相似(至少不顯著降低)的紋理特征表示方法,具有重要意義.

        雖然深度學(xué)習(xí)方法讓很多問題取得顯著進(jìn)展,然而目前深度學(xué)習(xí)模型還存在著模型復(fù)雜度高,計(jì)算強(qiáng)度高等問題,基本都需要GPU硬件的額外提速.因此,設(shè)計(jì)簡單有效的DCNN結(jié)構(gòu),也是一個(gè)值得探索的研究方向.可以繼續(xù)對(duì)傳統(tǒng)紋理特征提取方法如LBP和ScatNet等開展深入研究,有可能啟發(fā)我們?cè)O(shè)計(jì)出性能更好的深度模型,例如Courbariaux等[111]小組近期關(guān)于二值化CNN方面的工作.

        5)開放環(huán)境下魯棒紋理分類問題.實(shí)際應(yīng)用中,光照變化、圖像旋轉(zhuǎn)、尺度變化、非剛性形變、局部遮擋、圖像隨機(jī)噪聲(高斯隨機(jī)噪聲、椒鹽噪聲)、圖像模糊等因素,都給紋理分類方法帶來很大挑戰(zhàn),因此增強(qiáng)紋理特征的魯棒性和易用性也是面向?qū)嶋H應(yīng)用必須考慮的一個(gè)問題.現(xiàn)有的紋理分類方法對(duì)圖像噪聲和圖像模糊等因素的影響,考慮還比較少.針對(duì)上面提到的各種環(huán)境干擾因素,也缺乏一個(gè)整體的架構(gòu)把已有的各種方法對(duì)這些因素的魯棒性做一個(gè)全面性的比較和實(shí)驗(yàn)評(píng)估.

        6)紋理圖像語義理解問題.ImageNet項(xiàng)目的創(chuàng)建者李菲菲教授近期已經(jīng)開啟視覺基因項(xiàng)目[106],目的是為了對(duì)圖像進(jìn)行深度語義分析、理解和認(rèn)知,其中圖像視覺屬性方面的研究就起著一個(gè)關(guān)鍵的作用.而紋理作為圖像的一個(gè)基本特征,紋理視覺屬性的研究也具有重要的意義.然而紋理視覺屬性方面的研究目前還處于起步階段,也有許多問題值得思考和解決.首先,在紋理視覺屬性定義方面,哪些是人類常用來描述紋理特征的紋理視覺屬性?是否存在一個(gè)通用的、公認(rèn)的紋理視覺屬性庫?其次,在紋理視覺屬性描述方面,屬性描述與底層特征之間的對(duì)應(yīng)關(guān)系如何?如何結(jié)合底層特征來提高識(shí)別準(zhǔn)確度?如何將屬性集用于描述具體對(duì)象?在小樣本學(xué)習(xí)方面,如何利用現(xiàn)有的屬性特征庫來“擴(kuò)充樣本”,構(gòu)建一個(gè)更為精確的識(shí)別模型?

        5 結(jié)論

        紋理分類是計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域的一個(gè)基礎(chǔ)問題,在計(jì)算機(jī)視覺研究中具有重要的理論意義和實(shí)際應(yīng)用價(jià)值,同時(shí)目前也存在諸多困難與挑戰(zhàn).本文對(duì)紋理分類領(lǐng)域主流數(shù)據(jù)庫進(jìn)行了總結(jié)和評(píng)述,對(duì)近期紋理特征提取方法進(jìn)行了詳細(xì)的梳理和評(píng)述,對(duì)主流方法進(jìn)行了詳盡的闡述,并揭示了其間內(nèi)在聯(lián)系.以此為基礎(chǔ),對(duì)紋理分類未來的發(fā)展方向進(jìn)行了分析與展望.我們有理由相信,紋理分類領(lǐng)域的發(fā)展必然會(huì)促進(jìn)計(jì)算機(jī)視覺領(lǐng)域相關(guān)問題的發(fā)展,乃至整個(gè)計(jì)算機(jī)視覺領(lǐng)域的發(fā)展.

        References

        1 Julesz B.Visual pattern discrimination.IRE Transactions on Information Theory,1962,8(2):84?92

        2 Tuceryan M,Jain A K.Texture analysis.Handbook of Pattern Recognition and Computer Vision.Singapore:World Scienti fic,1993.235?276

        3 Reed T R,Dubuf J M H.A review of recent texture segmentation and feature extraction techniques.CVGIP:Image Understanding,1993,57(3):359?372

        4 Randen T,Husoy J H.Filtering for texture classi fication:a comparative study.IEEE Transactions on Pattern Analysis and Machine Intelligence,1999,21(4):291?310

        5 Zhang J G,Tan T N.Brief review of invariant texture analysis methods.Pattern Recognition,2002,35(3):735?747

        6 Zhang J G,Marszalek M,Lazebnik S,Schmid C.Local features and kernels for classi fication of texture and object categories:a comprehensive study.International Journal of Computer Vision,2007,73(2):213?238

        7 Xie X H,Mirmehdi M.A galaxy of texture features.Handbook of Texture Analysis.London:Imperial College Press,2008.375?406

        8 Liu Li,Kuang Gang-Yao.Overview of image textural feature extraction methods.Journal of Image and Graphics,2009,14(4):622?635(劉麗,匡綱要.圖像紋理特征提取方法綜述.中國圖象圖形學(xué)報(bào),2009,14(4):622?635)

        9 Pietik?inen M,Zhao G Y.Two decades of local binary patterns:a survey.Advances in Independent Component Analysis and Learning Machines.Amsterdam,The Netherlands:Elsevier,2015.

        10 Song Ke-Chen,Yan Yun-Hui,Chen Wen-Hui,Zhang Xu.Research and perspective on local binary pattern.Acta Automatica Sinica,2013,39(6):730?744(宋克臣,顏云輝,陳文輝,張旭.局部二值模式方法研究與展望.自動(dòng)化學(xué)報(bào),2013,39(6):730?744)

        11 Liu L,Fieguth P,Guo Y L,Wang X G,Pietik?inen M.Local binary features for texture classi fication:taxonomy and experimental study.Pattern Recognition,2017,62:135?160

        12 Brodatz P.Textures:A Photographic Album for Artists and Designers.New York:Dover,1966.

        13 Brodatz textures[Online],available:http://www.ux.uis.no/~tranden/brodatz.html,April 18,2018

        14 Vision texture[Online],available:http://vismod.media.mit.edu/vismod/imagery/VisionTexture/,April18,2018

        15 CURRET:columbia-Utrechtre flectance and texture database[Online],available: http://www.cs.columbia.edu/CAVE/software/curet/html/about.php, April18,2018

        16 Outex texture database[Online],available:http://www.outex.oulu.fi/index.php?page=outex_ home,April 18,2018

        17 The KTH-TIPS and KTH-TIPS2:image databases[Online],available:http://www.nada.kth.se/cvap/databases/kth-tips/download.html,April 18,2018

        18 UIUC Database [Online], available: http://wwwcvr.ai.uiuc.edu/ponce_grp/data/,April 18,2018

        19 Viewpoint invariant texture description[Online],available: http://www.cfar.umd.edu/~fer/website-texture/texture.htm,April 18,2018

        20 ALOT Database[Online],available:http://aloi.science.uva.nl/public_alot/,April 18,2018

        21 Flickrmaterialdatabase(FMD)[Online],available:http://people.csail.mit.edu/celiu/CVPR2010/FMD/,April 18,2018

        22 DRexel Database[Online],available: https://www.cs.drexel.edu/~kon/texture/,April 18,2018

        23 Bell S,Upchurch P,Snavely N,Bala K.OpenSurfaces[Online],available:http://opensurfaces.cs.cornell.edu/,April 18,2018

        24 Describable textures dataset(DTD)[Online],available:http://www.robots.ox.ac.uk/~vgg/data/dtd/,April 18,2018

        25 Bell S,Upchurch P,Snavely N,Bala K.Material recognition in the wild with the materials in context database[Online],available:http://opensurfaces.cs.cornell.edu/publications/minc/,April 18,2018

        26 Dana K J,Van Ginneken B,Nayar S K,Koenderink J J.Re flectance and texture of real-world surfaces.ACM Transactions on Graphics,1999,18(1):1?34

        27 Varma M,Zisserman A.A statistical approach to texture classi fication from single images.International Journal of Computer Vision,2005,62(1?2):61?81

        28 Hayman E,Caputo B,Fritz M,Eklundh J O.On the significance of real-world conditions for material classi fication.In:Proceedings of the 8th European Conference on Computer Vision.Prague,Czech:Springer,2004.253?266

        29 Ojala T,M?enp?? T,Pietik?inen M,Viertola J,Kyll?nen J,Huovinen S.Outex-new framework for empirical evaluation of texture analysis algorithms.In:Proceedings of the 16th International Conference on Pattern Recognition.Quebec City,Canada:IEEE,2002.701?706

        30 Ojala T,Pietik?inen M,M?enp?? T.Multiresolution grayscale and rotation invariant texture classi fication with local binary patterns.IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971?987

        31 Matthews T,Nixon M S,Niranjan M.Enriching texture analysis with semantic data.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland,USA:IEEE,2013.1248?1255

        32 Lazebnik S,Schmid C,Ponce J.A sparse texture representation using affine-invariant regions.In:Proceedings of the 2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR).Madison,Wisconsin,USA:IEEE,2003.II-319?II-324

        33 Lazebnik S,Schmid C,Ponce J.A sparse texture representation using local affine regions.IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1265?1278

        34 Xu Y,Ji H,Fermüller C.Viewpoint invariant texture description using fractal analysis.International Journal of Computer Vision,2009,83(1):85?100

        35 Burghouts G J,Geusebroek J M.Material-speci fic adaptation of color invariant features.Pattern Recognition Letters,2009,30(3):306?313

        36 Oxholm G,Bariya P,Nishino K.The scale of geometric texture.In:Proceedings of the 12th European Conference on Computer Vision(ECCV).Florence,Italy:Springer,2012.58?71

        37 Sharan L,Liu C,Rosenholtz R,Adelson E H.Recognizing materials using perceptually inspired features.International Journal of Computer Vision,2013,103(3):348?371

        38 Sharan L,Rosenholtz R,Adelson E H.Accuracy and speed of material categorization in real-world images.Journal of Vision,2014,14(9):Article No.12

        39 Cimpoi M,Maji S,Vedaldi A.Deep filter banks for texture recognition and segmentation.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,Massachusetts,USA:IEEE,2015.3828?3836

        40 Cimpoi M,Maji S,Kokkinos I,Vedaldi A.Deep filter banks for texture recognition,description,and segmentation.International Journal of Computer Vision,2016,118(1):65?94

        41 Farhadi A,Endres I,Hoiem D,Forsyth D.Describing objects by their attributes.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Miami,Florida,USA:IEEE,2009.1778?1785

        42 Patterson G,Xu C,Su H,Hays J.The SUN attribute database: beyond categories for deeper scene understanding.International Journal of Computer Vision,2014,108(1?2):59?81

        43 Parikh D,Grauman K.Relative attributes.In:Proceedings of the 2011 IEEE International Conference on Computer Vision(ICCV).Barcelona,Spain:IEEE,2011.503?510

        44 Kumar N,Berg A,Belhumeur P N,Nayar S.Describable visual attributes for face veri fication and image search.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(10):1962?1977

        45 Cimpoi M,Maji S,Kokkinos I,Mohamed S,Vedaldi A.Describing textures in the wild.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,OH,USA:IEEE,2014.3606?3613

        46 Bell S,Upchurch P,Snavely N,Bala K.Material recognition in the wild with the materials in context database.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,Massachusetts,USA:IEEE,2015.3479?3487

        47 Bell S,Upchurch P,Snavely N,Bala K.OpenSurfaces:a richly annotated catalog of surface appearance.ACM Transactions on Graphics,2013,32(4):Article No.111

        48 Hossain S,Serikawa S.Texture databases—a comprehensive survey.Pattern Recognition Letters,2013,34(15):2007?2022

        49 Julesz B.Textons,the elements of texture perception,and their interactions.Nature,1981,290(5802):91?97

        50 Csurka G,Dance C,Fan L,Willamowski J,Bray C.Visual categorization with bags of keypoints.In:Proceedings of the 2004 Workshop on Statistical Learning in Computer Vision.Prague,Czech:ECCV,2004.1?22

        51 Leung T,Malik J.Representing and recognizing the visual appearance of materials using three-dimensional textons.International Journal of Computer Vision,2001,43(1):29?44

        52 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504?507

        53 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of the 25th International Conference on Neural Information Processing Systems(NIPS).Lake Tahoe,Nevada,USA:ACM,2012.1097?1105

        54 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278?2324

        55 Huang Kai-Qi,Ren Wei-Qiang,Tan Tie-Niu.A review on image object classi fication and detection.Chinese Journal of Computers,2014,36(6):1225?1240(黃凱奇,任偉強(qiáng),譚鐵牛.圖像物體分類與檢測(cè)算法綜述.計(jì)算機(jī)學(xué)報(bào),2014,36(6):1225?1240)

        56 Mikolajczyk K,Tuytelaars T,Schmid C,Zisserman A,Matas J,Schaffalitzky F,et al.A comparison of affine region detectors.International Journal of Computer Vision,2005,65(1?2):43?72

        57 Tuytelaars T,Mikolajczyk K.Local invariant feature detectors:a survey.Foundations and Trends?in Computer Graphics and Vision,2008,3(3):177?280

        58 Mikolajczyk K,Schmid C.A performance evaluation of local descriptors.IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(10):1615?1630

        59 Huang Y Z,Wu Z F,Wang L,Tan T N.Feature coding in image classi fication:a comprehensive study.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(3):493?506

        60 Perronnin F,Larlus D.Fisher vectors meet neural networks:a hybrid classi fication architecture.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,USA:IEEE,2015.3743?3752

        61 Sánchez J,Perronnin F,Mensink T,Verbeek J.Image classi fication with the fisher vector:theory and practice.International Journal of Computer Vision,2013,105(3):222?245

        62 Aharon M,Elad M,Bruckstein A.K-SVD:an algorithm for designing overcomplete dictionaries for sparse representation.IEEE Transactions on Signal Processing,2006,54(11):4311?4322

        63 Mairal J,Bach F,Ponce J,Sapiro G,Zisserman A.Discriminative learned dictionaries for local image analysis.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Anchorage,Alaska,USA:IEEE,2008.1?8

        64 Lazebnik S,Schmid C,Ponce J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories.In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR).New York,USA:IEEE,2006.2169?2178

        65 Lowe D G.Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision,2004,60(2):91?110

        66 Cula O G,Dana K J.3D texture recognition using bidirectional feature histograms.International Journal of Computer Vision,2004,59(1):33?60

        67 Varma M,Zisserman A.A statistical approach to material classi fication using image patch exemplars.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(11):2032?2047

        68 Ojala T,Pietik?inen M,Harwood D.A comparative study of texture measures with classi fication based on featured distributions.Pattern Recognition,1996,29(1):51?59

        69 Liu L,Lao S Y,Fieguth P W,Guo Y L,Wang X G,Pietikainen M.Median robust extended local binary pattern for texture classi fication.IEEE Transactions on Image Processing,2016,25(3):1368?1381

        70 Guo Z H,Wang X Z,Zhou J,You J N.Robust texture image representation by scale selective local binary patterns.IEEE Transactions on Image Processing,2016,25(2):687?699

        71 Sulc M,Matas J.Fast features invariant to rotation and scale of texture.In:Proceedings of the 2014 European Conference on Computer Vision(ECCV).Zurich,Switzerland:Springer,2014.47?62

        72 Ryu J,Hong S,Yang H S.Sorted consecutive local binary pattern for texture classi fication.IEEE Transactions on Image Processing,2015,24(7):2254?2265

        73 Sharma G,Juriea F.Local higher-order statistics(LHS)describing images with statistics of local non-binarized pixel patterns.Computer Vision and Image Understanding,2016,142:13?22

        74 Liu L,Fieguth P.Texture classi fication from random features.IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(3):574?586

        75 Candes E J,Tao T.Near-optimal signal recovery from random projections:universal encoding strategies?IEEE TransactionsonInformationTheory,2006,52(12):5406?5425

        76 Donoho D L.Compressed sensing.IEEE Transactions on Information Theory,2006,52(4):1289?1306

        77 Liu L,Fieguth P,Clausi D,Kuang G Y.Sorted random projections for robust rotation-invariant texture classi fication.Pattern Recognition,2012,45(6):2405?2418

        78 Liu L,Fieguth P,Kuang G Y,Zha H B.Sorted random projections for robust texture classi fication.In:Proceedings of the 2011 IEEE International Conference on Computer Vision(ICCV).Barcelona,Spain:IEEE,2011.391?398

        79 Liu L,Fieguth P W,Hu D W,Wei Y M,Kuang G Y.Fusing sorted random projections for robust texture and material classi fication.IEEE Transactions on Circuits and Systems for Video Technology,2015,25(3):482?496

        80 Crosier M,Griffin L D.Using basic image features for texture classi fication.International Journal of Computer Vision,2010,88(3):447?460

        81 GriffinL D,Lillholm M.Symmetrysensitivitiesof derivative-of-Gaussian filters.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(6):1072?1083

        82 Griffin L D,Lillholm M,Crosier M,Van Sande J.Basic image features(BIFs)arising from approximate symmetry type.In:Proceedings of the 2nd International Conference on Scale Space and Variational Methods in Computer Vision(SSVM).Voss,Norway:Springer,2009.343?355

        83 Timofte R,Van Gool L.A training-free classi fication framework for textures,writers,and materials.In:Proceedings of the 23rd British Machine Vision Conference(BMVC).Surrey,Guildford,UK:BMVA,2012.

        84 Chen J,Shan S G,He C,Zhao G Y,Pietikainen M,Chen X L,et al.WLD:a robust local image descriptor.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1705?1720

        85 Xu Y,Huang S B,Ji H,Fermüller C.Combining powerful local and global statistics for texture description.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Miami,FL,USA:IEEE,2009.573?580

        86 Xu Y,Yang X,Ling H B,Ji H.A new texture descriptor using multifractal analysis in multi-orientation wavelet pyramid.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).San Francisco,California,USA:IEEE,2010.161?168

        87 Quan Y H,Xu Y,Sun Y P,Luo Y.Lacunarity analysis on image patterns for texture classi fication.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,Ohio,USA:IEEE,2014.160?167

        88 Jain A K,Duin R P W,Mao J C.Statistical pattern recognition:a review.IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(1):4?37

        89 Russakovsky O,Deng J,Su H,Krause J,Satheesh S,Ma S A,et al.ImageNet large scale visual recognition challenge.International Journal of Computer Vision,2015,115(3):211?252

        90 Bengio Y,Courville A,Vincent P.Representation learning:a review and new perspectives.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798?1828

        91 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436?444

        92 Bruna J,Mallat S.Invariant scattering convolution networks.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1872?1886

        93 Sifre L,Mallat S.Rotation,scaling and deformation invariant scattering for texture discrimination.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland,Oregon,USA:IEEE,2013.1233?1240

        94 Sifre L,Mallat S.Rigid-motion scattering for texture classi fication.International Journal of Computer Vision,2014.

        95 Chan T H,Jia K,Gao S H,Lu J W,Zeng Z N,Ma Y.PCANet:a simple deep learning baseline for image classi fication?IEEE Transactions on Image Processing,2015,24(12):5017?5032

        96 Gatys L A,Ecker A S,Bethge M.Texture synthesis using convolutional neural networks.In:Proceedings of the 28th International Conference on Neural Information Processing Systems(NIPS).Montreal,Canada:MIT Press,2015.262?270

        97 Lin T Y,RoyChowdhury A,Maji S.Bilinear CNN models for fine-grained visual recognition.In:Proceedings of the 2015 IEEE International Conference on Computer Vision(ICCV).Santiago,Chile:IEEE,2015.1449?1457

        98 Lin T Y,Maji S.Visualizing and understanding deep texture representations.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,USA:IEEE,2016.2791?2799

        99 Zhou B L,Lapedriza A,Xiao J X,Torralba A,Oliva A.Learning deep features for scene recognition using places database.In:Proceedings of the 2014 Advances in Neural Information Processing Systems(NIPS).Montreal,Canada:Neural Information Processing Systems,2014.

        100 Razavian A S,Azizpour H,Sullivan J,Carlsson S.CNN features off-the-shelf:an astounding baseline for recognition.In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPR).Columbus,Ohio,USA:IEEE,2014.512?519

        101 Girshick R,Donahue J,Darrell T,Malik J.Rich feature hierarchies for accurate object detection and semantic segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,Ohio,USA:IEEE,2014.580?587

        102 Sermanet P,Eigen D,Zhang X,Mathieu M,Fergus R,Le-Cun Y.OverFeat:integrated recognition,localization and detection using convolutional networks.In:Proceedings of the 2014 International Conference on Learning Representation(ICLR).Banff,Canada:ICLR,2014.

        103 Chat field K,Simonyan K,Vedaldi A,Zisserman A.Return of the devil in the details:delving deep into convolutional nets.In:Proceedings of the 2014 British Machine Vision Conference(BMVC).Nottingham,UK:BMVA,2014.

        104 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition.In:Proceedings of the 2015 International Conference on Learning Representations(ICLR).San Diego,CA,USA:ICLR,2015.

        105 Portilla J,Simoncelli E P.A parametric texture model based on joint statistics of complex wavelet coefficients.International Journal of Computer Vision,2000,40(1):49?70

        106 Krishna R,Zhu Y K,Groth O,Johnson J,Hata K,Kravitz J,et al.Visual genome:connecting language and vision using crowdsourced dense image annotations.International Journal of Computer Vision,2017,123(1):32?73

        107 Tamura H,Mori S,Yamawaki T.Textural features corresponding to visual perception.IEEE Transactions on Systems,Man,and Cybernetics,1978,8(6):460?473

        108 Bhushan N,Rao A R,Lohse G L.The texture lexicon:understanding the categorization of visual texture terms and their relationship to texture images.Cognitive Science,1997,21(2):219?246

        109 Liu L,Fieguth P,Wang X G,Pietik?inen M,Hu D W.Evaluation of LBP and deep texture descriptors with a new robustness benchmark.In:Proceedings of the 14th European Conference on Computer Vision(ECCV).Amsterdam,The Netherlands:Springer,2016.69?86

        110 Mellor M,Hong B W,Brady M.Locally rotation,contrast,and scale invariant descriptors for texture analysis.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(1):52?61

        111 Hubara I,Courbariaux M,Soudry D,El-Yaniv R,Bengio Y.Binarized neural networks,Advances in neural information processing systems,2016.4107?4115

        猜你喜歡
        特征提取紋理濾波器
        基于無擾濾波器和AED-ADT的無擾切換控制
        基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
        軟件(2020年3期)2020-04-20 01:45:18
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        使用紋理疊加添加藝術(shù)畫特效
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        開關(guān)電源EMI濾波器的應(yīng)用方法探討
        電子制作(2018年16期)2018-09-26 03:26:50
        TEXTURE ON TEXTURE質(zhì)地上的紋理
        Coco薇(2017年8期)2017-08-03 15:23:38
        Bagging RCSP腦電特征提取算法
        消除凹凸紋理有妙招!
        Coco薇(2015年5期)2016-03-29 23:22:15
        基于TMS320C6678的SAR方位向預(yù)濾波器的并行實(shí)現(xiàn)
        亚洲影院丰满少妇中文字幕无码| 国产在线观看免费视频软件| 无码一区二区三区免费视频| 国产一区二区三区四色av| 国产欧美日韩一区二区三区| 国产精品亚洲日韩欧美色窝窝色欲 | 国产精品无码久久综合| 少妇spa推油被扣高潮| 久久99久久99精品免观看女同| 美女被内射很爽的视频网站| 天堂在线资源中文在线8| 亚洲人成无码www久久久| 中文字幕无码免费久久9一区9| 国产av一区二区三区天美| 无码无套少妇毛多18p| 最近中文字幕在线mv视频在线| 久久精品无码一区二区三区不卡| 精品高清一区二区三区人妖| 天天爽夜夜爽人人爽| 久久久久国色av∨免费看| 中文字幕一区二区人妻痴汉电车| 日本超级老熟女影音播放| 亚洲精品无码国产| 日韩高清无码中文字幕综合一二三区| 久久精品亚洲乱码伦伦中文| 亚洲日韩成人无码| av片在线观看免费| 两个人免费视频大全毛片| 亚洲中文字幕日韩综合| 在线 | 一区二区三区四区| 国产午夜无码视频免费网站| 久久精品日韩免费视频| 国产成人无码a区在线观看导航 | 亚洲双色视频在线观看| 亚洲一区二区国产激情| 精品亚洲成在人线av无码| 自拍亚洲一区欧美另类| 日本精品一区二区三区试看| 乱子伦一区二区三区| 亚洲欧美国产日韩字幕| 日韩精品成人一区二区三区 |