何驥鳴, 廖福林, 林遠(yuǎn)長(zhǎng), 高 明, 曾維信
(1.重慶城市管理職業(yè)學(xué)院智能工程學(xué)院,重慶 401331;2.中國(guó)科學(xué)院重慶綠色智能技術(shù)研究院電子信息技術(shù)研究所,重慶 400714)
紋理特征包含了物體表面的結(jié)構(gòu)組織信息,反映了圖像中的同質(zhì)現(xiàn)象,在基于內(nèi)容的圖像檢索中得到了廣泛的應(yīng)用,對(duì)模式識(shí)別和計(jì)算機(jī)視覺等領(lǐng)域有著重要意義。在圖像處理領(lǐng)域提出了多種紋理描述符用于紋理分割、紋理分類和場(chǎng)景識(shí)別,其目標(biāo)是用紋理區(qū)分圖像或物體。但這一目標(biāo)會(huì)受到許多因素的影響,且當(dāng)圖像受到旋轉(zhuǎn)、尺度、光照等干擾時(shí),分類任務(wù)的難度會(huì)顯著加大。
經(jīng)典的局部二值模式(Local Binary Pattern,LBP)[1]是較早提出的基于灰度差分編碼的紋理描述符,為了捕捉更微妙的圖像紋理特征提高圖像分類性能,研究者們基于LBP 提出了更多改進(jìn)的紋理描述符。其中,完整局部二值模式(Completed LBP,CLBP)[2]通過(guò)CLBP-C、CLBP-S、CLBP-M 等3 種描述符,將中心像素與近鄰像素間差分的幅值和符號(hào)分開考慮,獲得了更細(xì)微的紋理特征。完整的局部二值計(jì)數(shù)(Completed Local Binary Count,CLBC)[3]通過(guò)統(tǒng)計(jì)LBP模式中1 的個(gè)數(shù)提取特征,局部三值模式(Local Ternary Pattern,LTP)[4]使用軟閾值將像素局部差分編碼為三值,局部編碼變換特征直方圖(Locally Encoded Transform Feature Histogram,LETRIST)[5]顯式地對(duì)圖像特征空間和尺度空間中的局部結(jié)構(gòu)信息進(jìn)行聯(lián)合編碼,局部空頻模式聯(lián)合編碼(Joint Coding of Local Space-Frequency Pattern,JCLSFP)[6]利用局部量化的空頻模式刻畫紋理,并保留了特征表達(dá)的判別性。
當(dāng)圖像灰度發(fā)生反轉(zhuǎn)時(shí)會(huì)干擾生成的二值碼,導(dǎo)致二值碼部分或全部反轉(zhuǎn),降低圖像分類精度。為此,有研究者提出了一些方法抵消這種變化所導(dǎo)致的分類精度下降,如梯度局部二值模式(Gradient Local Binary Pattern,GLBP)[7]、局部梯度模式(Local gradient Pattern,LGP)[8]利用梯度與差分編碼來(lái)克服灰度反轉(zhuǎn),利用LBP等價(jià)模式克服圖像旋轉(zhuǎn),因此特征本身對(duì)圖像旋轉(zhuǎn)變化不具有魯棒性。非冗余局部二值模式(Nonredundant Local Binary Pattern,NRLBP)[9]使用補(bǔ)碼提取特征,使其具有灰度反轉(zhuǎn)不變性,但沒有考慮旋轉(zhuǎn)不變性。排序的局部梯度模式(Sorted Local Gradient Pattern,SLGP)[10]利用主導(dǎo)強(qiáng)度順序度量和LBP標(biāo)準(zhǔn)模式克服灰度反轉(zhuǎn)與旋轉(zhuǎn),特征本身仍然不具有旋轉(zhuǎn)不變性。局部分組不變序模式(Local grouped invariant order pattern,LGIOP)采用強(qiáng)度和距離順序進(jìn)行編碼,使特征同時(shí)具有反轉(zhuǎn)及旋轉(zhuǎn)不變性。
為了捕捉更微妙的圖像紋理特征,進(jìn)一步提高圖像分類精度,同時(shí)克服圖像發(fā)生灰度反轉(zhuǎn)時(shí)分類性能下降的問(wèn)題,設(shè)計(jì)了一種改進(jìn)的不變性灰度反轉(zhuǎn)和旋轉(zhuǎn)不變直方圖(Grayscale-Inversion and Rotation Invariant Histogram,GIRIH):①捕捉更微妙的圖像紋理特征;②構(gòu)建對(duì)線性灰度反轉(zhuǎn)變化具有魯棒性的多種互補(bǔ)特征;③采用聯(lián)合編碼克服灰度反轉(zhuǎn)變化。以期使提出的GIRIH能夠在提高圖像分類性能的同時(shí),克服灰度反轉(zhuǎn)導(dǎo)致分類精度下降的問(wèn)題。
GIRIH的主要原理是先對(duì)圖像濾波獲得圖像微分最大值和最小值;再基于微分信息構(gòu)建對(duì)線性灰度反轉(zhuǎn)變化具有魯棒性的多種互補(bǔ)特征;最后對(duì)不同的特征進(jìn)行聯(lián)合編碼,進(jìn)一步克服反轉(zhuǎn)時(shí)灰度值的正負(fù)變化,從而具有旋轉(zhuǎn)不變性。與以往的紋理描述符相比,所提的GIRIH特征在編碼過(guò)程中加入了多種互補(bǔ)特征,具有灰度反轉(zhuǎn)和旋轉(zhuǎn)不變性,在聯(lián)合編碼中,每一個(gè)特征都采用了合適的量化閾值。
由于圖像自身含有豐富的結(jié)構(gòu)信息,而各種濾波器能可控地提取圖像局部或全局的結(jié)構(gòu)信息,因此可以利用一階、二階高斯導(dǎo)數(shù)濾波器得到圖像的一階、二階微分結(jié)構(gòu)信息[5]。
假設(shè)給定圖像I,利用高斯一階、二階導(dǎo)數(shù)對(duì)圖像進(jìn)行濾波,得到沿x、y軸的一階、二階圖像導(dǎo)數(shù),即
式中:Gx和Gxx分別為尺度歸一化的沿x軸的一階、二階高斯導(dǎo)數(shù);Gy和Gyy分別為尺度歸一化的沿y軸的一階、二階高斯導(dǎo)數(shù);*為卷積。
圖像I在濾波器所有方向上一階、二階響應(yīng)的極值[4],即一階響應(yīng)的最大值為
二階響應(yīng)的最大值和最小值分別為
這些值經(jīng)過(guò)濾波后得到的微分信息不會(huì)隨圖像的旋轉(zhuǎn)而改變,因而具有旋轉(zhuǎn)不變性。
基于得到的圖像微分最大值和最小值,構(gòu)建了6種對(duì)線性灰度反轉(zhuǎn)變化具有魯棒性的特征。
(1)局部二階曲率的形狀指數(shù)
(2)圖像微分結(jié)構(gòu)信息的混合極值比
(3)一階圖像微分梯度幅值的最大值
(4)二階圖像微分極值的最大最小值差分
(5)Log濾波特征
(6)二階導(dǎo)數(shù)不變量
其中,Log濾波特征log,由式(3)相互加后取絕對(duì)值得到。二階導(dǎo)數(shù)不變量c由式(7)和(8)求平方和推導(dǎo)得到。根據(jù)可控濾波理論[5],基于式(2)、(3)的特征具有旋轉(zhuǎn)不變性,進(jìn)一步對(duì)其進(jìn)行線性和非線性變換或者組合后得到的特征log、c 仍具有旋轉(zhuǎn)不變性。
根據(jù)實(shí)驗(yàn)測(cè)試,以上6 種特征具有互補(bǔ)性,當(dāng)對(duì)其聯(lián)合編碼后,可有效提高圖像在旋轉(zhuǎn)和灰度反轉(zhuǎn)下的分類精度。
在進(jìn)行聯(lián)合編碼之前,采用高斯濾波器σ =1、σ =2 和σ =3 尺度對(duì)圖像進(jìn)行濾波,σ 的不同取值對(duì)圖像進(jìn)行不同程度的平滑,取值越大平滑效果越好。得到6 種帶有圖像微分結(jié)構(gòu)信息的特征后,對(duì)其進(jìn)行基于主導(dǎo)思想的聯(lián)合編碼[10]。
圖像線性灰度變化的數(shù)學(xué)模型為
式中:Y為變換后的圖像灰度矩陣;X為變換前的圖像灰度矩陣;l、h分別為當(dāng)圖像灰度反轉(zhuǎn)時(shí)像素點(diǎn)對(duì)比度及亮度的變化,h可以通過(guò)加減和微分消去,但是l帶來(lái)的變化會(huì)進(jìn)一步保留,并且l的正負(fù)變化會(huì)給編碼帶來(lái)極大干擾。針對(duì)這個(gè)問(wèn)題,采用主導(dǎo)編碼克服l變化所帶來(lái)灰度值的正負(fù)變化。
受SLGP的主導(dǎo)強(qiáng)度順序度量[10]的啟發(fā),在主導(dǎo)編碼中,首先對(duì)整幅圖像求取一個(gè)均值t,再與所有像素點(diǎn)的值進(jìn)行比較。圖像中值大于t的像素點(diǎn)數(shù)量
式中:n為像素點(diǎn)的數(shù)量;pi為像素點(diǎn)的值。則可定義另一個(gè)量m2=n-m1為值小于或等于t的像素點(diǎn)的數(shù)量。定義第i個(gè)像素點(diǎn)的編碼表達(dá)式為:
式中:Pi為第i個(gè)像素;φm1為圖像中值大于t的像素的集合,屬于φm1的像素編碼為1,否則編碼為0。大于t的像素的數(shù)量不會(huì)隨l符號(hào)的改變而改變。因此,主導(dǎo)編碼具有灰度反轉(zhuǎn)不變性。
圖1所示為生成GIRIH方法的主體框架,其利用一種濾波圖像可以得到6 位比特中的一位,編碼方法采用主導(dǎo)思想編碼,得到不變特征GIRIH。
圖1 生成GIRIH的方法主體框架
高斯導(dǎo)數(shù)濾波已用于提取有效的紋理特征,如LETRIST[5],但這些特征本身對(duì)于光照反轉(zhuǎn)通常比較敏感。為此,需要對(duì)具有判別力的特征作進(jìn)一步處理,如取絕對(duì)值,構(gòu)造出新的特征二階導(dǎo)數(shù)不變量,以及基于主導(dǎo)思想的二值量化和聯(lián)合編碼,實(shí)現(xiàn)一種對(duì)光照反轉(zhuǎn)具有魯棒性的特征提取方法。
本文采用Intel i7-7700 和8 GB 內(nèi)存的PC 和Matlab 2019a 作為實(shí)驗(yàn)工具,用Outex[1]、CUReT[12]及KTH-TIPS[13]3 個(gè)基準(zhǔn)數(shù)據(jù)庫(kù)驗(yàn)證GIRIH 特征的有效性。對(duì)比LBP[1]、 LTP[2]、 CLBP[3]、 CLBC[4]、LETRIST[5]、JCLSFP[6]、GLBP[7]、LGP[8]、NRLBP[9]、SLGP[10]、LGIOP[11]共11 種紋理特征提取方法。
對(duì)于Outex數(shù)據(jù)庫(kù),選用TC10 和TC12 兩個(gè)子庫(kù)進(jìn)行實(shí)驗(yàn),使用其自帶的訓(xùn)練集與測(cè)試集文件進(jìn)行實(shí)驗(yàn),TC10 子庫(kù)本身含有旋轉(zhuǎn)變化,用來(lái)測(cè)試旋轉(zhuǎn)不變性,TC12 子庫(kù)含有光照變化,用來(lái)測(cè)試光照不變性。CUReT數(shù)據(jù)庫(kù)包含61 類紋理,每類有92 幅圖像,從每類中隨機(jī)選取46 幅圖像作為訓(xùn)練集,其余的圖像作為測(cè)試集。KTH-TIPS 數(shù)據(jù)庫(kù)包含10 類紋理,每類有81幅圖像,從每類中隨機(jī)選取40 幅圖像作為訓(xùn)練集,其余作為測(cè)試集。CUReT和KTH-TIPS數(shù)據(jù)庫(kù)沒有固定的訓(xùn)練集和測(cè)試集劃分,因此,需要進(jìn)行多次分類實(shí)驗(yàn),計(jì)算平均的分類精度。
實(shí)驗(yàn)中,將所有圖像轉(zhuǎn)換為灰度圖像,并將灰度值限制在[0,255]。對(duì)于線性灰度反轉(zhuǎn)模型,對(duì)待分類的測(cè)試圖像執(zhí)行線性變化I'=-I+255;對(duì)于非線性模型,對(duì)待分類的測(cè)試圖像執(zhí)行非線性變化I'=+255。
采用卡方距離作為圖像分類的標(biāo)準(zhǔn),其表達(dá)式為
式中:A為訓(xùn)練集圖像生產(chǎn)的特征向量;T為測(cè)試集圖像生成的特征向量。取卡方距離最小的類別為測(cè)試圖像所屬的類別。
考慮GIRIH特征具有灰度反轉(zhuǎn)不變性,在對(duì)比其他方法時(shí)對(duì)使用的數(shù)據(jù)集進(jìn)行了灰度反轉(zhuǎn)處理。表1對(duì)比了不同方法在線性灰度反轉(zhuǎn)的數(shù)據(jù)集上的分類精度。LBP等變體描述符的參數(shù)含有半徑,實(shí)驗(yàn)中半徑取值為1、2、3 以及3 種半徑聯(lián)合條件下,對(duì)LBP、LTP、CLBP、LGP、GLBP和NRLBP分別進(jìn)行實(shí)驗(yàn),取這些描述符在4 種條件下性能最好的數(shù)據(jù)與GIRIH 方法的數(shù)據(jù)進(jìn)行對(duì)比。
表1 當(dāng)σ =1、2 和3 時(shí)多尺度GIRIH與其他方法在線性灰度反轉(zhuǎn)下的分類精度%
由表1 可見,灰度的反轉(zhuǎn)變化會(huì)使基于傳統(tǒng)LBP的描述符的分類性能急劇下降。原因在于灰度值的巨大變化會(huì)影響近鄰像素與中心像素間的灰度差分,從而使基于灰度差分生成的二值碼與原圖像的二值碼不再相同。在用直方圖進(jìn)行對(duì)比時(shí),圖像與原本所屬類的距離就會(huì)變大,最終造成圖像分類錯(cuò)誤。NRLBP特征本身沒有旋轉(zhuǎn)不變性方法,分類性能均不理想,LTP、GLBP和SLGP采用LBP標(biāo)準(zhǔn)模式具有旋轉(zhuǎn)不變性,總體分類性能有較大提升。其中GLBP 在含有光照變化的TC12 中效果更佳,SLGP在本身含有旋轉(zhuǎn)變化的TC1O中效果更佳。LGIOP與GIRIH特征本身均具有旋轉(zhuǎn)與反轉(zhuǎn)不變性,綜合分類性能更優(yōu)。所提GIRIH方法在本身含有旋轉(zhuǎn)變化的TC10 數(shù)據(jù)庫(kù)與含有光照變化的TC12 數(shù)據(jù)庫(kù)皆有更高的分類性能,說(shuō)明GIRIH的特征能有效抵抗圖像旋轉(zhuǎn)和光照帶來(lái)的變化。
圖2 所示為幾種典型直方圖比較。本文選擇Outex數(shù)據(jù)庫(kù)TC10 子庫(kù)本身45°旋轉(zhuǎn)圖片做線性反轉(zhuǎn)[見圖2(a)],同與其卡方距離最近的圖片進(jìn)行直方圖對(duì)比。由圖2(b)~(e)可見,LBP直方圖之間距離較大,造成圖像分類錯(cuò)誤,NRLBP 直方圖之間也存在一定距離,分類正確,但卡方距離最近圖片的灰度及紋理不及GLBP 準(zhǔn)確。GLBP、SLGP 直方圖之間距離較小,性能更優(yōu)。由圖2(d)~(f)可見,GIRIH直方圖之間距離比SLGP小,編碼數(shù)量比GLBP 更多,因此包含的紋理信息更加準(zhǔn)確豐富,性能更優(yōu)。
圖2 幾種典型直方圖比較
表2 對(duì)非線性光照變化也進(jìn)行了驗(yàn)證,對(duì)比表1和2 中GIRIH的性能,GIRIH 在各數(shù)據(jù)庫(kù)下性能的下滑并沒有其他方法嚴(yán)重,說(shuō)明GIRIH 對(duì)非線性光照變化也具有一定的魯棒性。
表2 當(dāng)σ =1、2 和3 時(shí)多尺度GIRIH與其他方法在非線性灰度反轉(zhuǎn)下的分類精度%
GIRIH特征在線性和非線性灰度反轉(zhuǎn)條件下都能取得不錯(cuò)的分類性能(見表1 和2),其中GIRIH 的尺度σ取1、2、3 多尺度聯(lián)合。實(shí)驗(yàn)測(cè)試了尺度對(duì)GIRIH性能的影響,可以看到單尺度下σ =2 的性能最好,隨著尺度的變大GIRIH 的性能有所下降,對(duì)于聯(lián)合尺度,聯(lián)合的尺度越多性能越好。但是當(dāng)聯(lián)合到σ =4時(shí),GIRIH的性能提升不大,且在有些數(shù)據(jù)庫(kù)下的性能有所下降。因此,在與其他方法對(duì)比時(shí),采用σ 取1、2、3 的多尺度GIRIH,不同尺度GIRIH 在線性灰度反轉(zhuǎn)下的分類精度如表3 所示。
表3 不同尺度GIRIH在線性灰度反轉(zhuǎn)下的分類精度%
采用了6 種圖像微分特征,為驗(yàn)證每種特征的有效性,對(duì)特征進(jìn)行線性疊加實(shí)驗(yàn),在實(shí)驗(yàn)中,GIRIH 的尺度σ取1 和2 兩種尺度聯(lián)合。當(dāng)σ =1 和2 時(shí),多尺度GIRIH中的多種特征在線性灰度反轉(zhuǎn)下的分類精度如表4 所示。
表4 當(dāng)σ =1 和2 時(shí)多尺度GIRIH中多種特征在線性灰度反轉(zhuǎn)下的分類精度%
由表4 可見,隨著一種新特征的加入,GIRIH在所有數(shù)據(jù)庫(kù)的性能都有所提升,其在GIRIH 性能較低時(shí)尤其明顯。隨著特征達(dá)到5 種以上時(shí),GIRIH 的性能提升不再明顯,且有些數(shù)據(jù)庫(kù)下的性能出現(xiàn)了輕微的下降,說(shuō)明GIRIH 的特征開始出現(xiàn)了冗余。因此,最終選擇了6 種特征作為GIRIH 的底層特征。實(shí)驗(yàn)表明,GIRIH在旋轉(zhuǎn)及光照變化下的分類任務(wù)中表現(xiàn)良好。
針對(duì)所提算法,圖像特征計(jì)算的時(shí)間復(fù)雜度可表示為
式中:w與z表示圖片的長(zhǎng)與寬;常數(shù)C1、C2和C3分別表示用3 種尺度的濾波核計(jì)算一個(gè)像素的時(shí)間;常數(shù)C4表示對(duì)一種特征進(jìn)行主導(dǎo)編碼的時(shí)間;k是特征數(shù);b為計(jì)算6 種特征的時(shí)間。
選擇數(shù)據(jù)庫(kù)Outex TC_10 和KTH_TIPS aluminium各一張圖片如圖3 所示,運(yùn)行不同算法,所需運(yùn)行時(shí)間如表5 所示。
表5 不同方法提取單張圖片所需時(shí)間s
圖3 選擇數(shù)據(jù)庫(kù)的圖片
由表5 可見,LGIOP 運(yùn)行時(shí)間最長(zhǎng),LBP、LTP 和NRLBP運(yùn)行時(shí)間比較短。所提的GIRIH 運(yùn)行時(shí)間中等,而其分類精度整體最好。
針對(duì)傳統(tǒng)局部二值模式及其派生的紋理描述符分類性能明顯下降的問(wèn)題,提出了一種GIRIH 特征表示方法。通過(guò)對(duì)3 個(gè)紋理圖片數(shù)據(jù)庫(kù)進(jìn)行光照反轉(zhuǎn)與旋轉(zhuǎn)分類實(shí)驗(yàn)測(cè)試,結(jié)果表明,所提的GIRIH 方法能有效改善灰度反轉(zhuǎn)問(wèn)題;并對(duì)圖像的旋轉(zhuǎn)變化具有一定的魯棒性。進(jìn)一步,所構(gòu)造的6 種特征還存在冗余的信息,可以進(jìn)一步優(yōu)化;同時(shí),6 種特征并沒有完全利用圖像信息,還可以增加新的特征繼續(xù)進(jìn)行實(shí)驗(yàn)。