宋瑞霞, 王也娜, 孫紅磊, 王小春, 齊東旭
(1. 北方工業(yè)大學理學院,北京 100144;2. 北京林業(yè)大學理學院,北京 100083)
基于V-矩的圖像分類算法
宋瑞霞1, 王也娜1, 孫紅磊1, 王小春2, 齊東旭1
(1. 北方工業(yè)大學理學院,北京 100144;2. 北京林業(yè)大學理學院,北京 100083)
基于一類不僅含有連續(xù)函數(shù),還含有間斷函數(shù)的正交完備函數(shù)系——V-系統(tǒng),提出相應(yīng)的 V-矩函數(shù),并將之應(yīng)用到圖像分類中。V-系統(tǒng)中基函數(shù)的間斷特性,使得V-矩函數(shù)在描述含有多個閉合邊界的形狀時有特別的優(yōu)勢,這種優(yōu)勢表現(xiàn)為對這類復雜形狀的特征提取更加準確。因此用 V-矩可以得到一種圖像分類的有效算法。在幾個通用數(shù)據(jù)庫中的圖像分類實驗表明,本文算法較Zernike矩、不變矩和幾何中心矩有更高的準確率,對噪聲不敏感,特別在含有多個閉合邊界的復雜形狀分類問題中,本文方法優(yōu)勢更為顯著。
圖像分類;V-系統(tǒng);矩函數(shù);V-矩;區(qū)域特征
圖像分類關(guān)鍵是對圖像特征的描述,圖像特征有形狀、紋理、顏色等低層次特征,也有高層次的語義特征。本文研究圖像的形狀特征,研究對象是二值圖像。一般而言,圖像形狀特征的描述有兩種方法:一種是基于邊界的方法;另一種是基于區(qū)域的方法?;谶吔绲姆椒▋H針對圖像的邊界進行特征描述,適合于具有單一閉合邊界的形狀,典型的有Fourier描述子、曲率尺度空間描述子、小波描述子,形狀上下文等[1-4]。而基于區(qū)域的方法是針對圖像的全部區(qū)域,描述區(qū)域像素的統(tǒng)計分布特征,常用于描述紋理和邊界都比較復雜的圖像,使用最普遍的是矩的方法。如Hu不變矩、Zernike矩、Fourier-Mellin矩、Legendre矩、小波矩等廣泛用于復雜形狀的分類與檢索[4-8], 其中Zernike矩被認為性能最佳[4]。
基于邊界的方法優(yōu)勢體現(xiàn)在:僅需要形狀的邊界信息,計算量小,處理起來簡便。對于一個具有單獨閉合邊界的形狀,邊界信息基本上能反映形狀的特征,所以許多新算法(包括多特征融合的方法、度量學習的方法等),針對單獨閉合邊界的圖像取得很高的分類準確率[9-11]。但是當形狀的邊界不是一條閉合曲線,而是多條閉合曲線的組合時,這些方法并不能準確得到形狀的特征。此外所有基于邊界的方法都依賴圖像邊界的提取,邊界提取的質(zhì)量會直接影響圖像的分類結(jié)果。特別是有的圖像很相似但提取的邊界會相差很遠,如圖 1(a)、1(c)是兩個視覺上很相似的圖像,但它們的邊界圖 1(b)、1(d)卻相差很遠。在這種情況下,應(yīng)該把圖像全部區(qū)域考慮進來,用基于區(qū)域的方法更為恰當。
圖1 形狀相似但邊界不同的圖像
圖像矩描述的恰是圖像區(qū)域的整體特征,它和眾多的描述邊界特征的方法有很大的不同,它不需要提取圖像邊界,而是針對圖像全部像素來提取圖像的特征,適于處理復雜邊界的圖像(如商標圖像、字符圖像等)。然而,對于復雜邊界的圖像特征提取,經(jīng)典的矩方法雖是常用手段,但并沒有取得像簡單邊界圖像那樣高的分類準確率,甚至多個特征融合也很難取得高的分類準確率[12-13]。在圖像分類問題中,無論是基于邊界的方法還是基于區(qū)域的方法,描述的都是圖像整體的特征,并不能刻畫圖像局部特征,此外顏色、紋理以及拓撲信息都沒有利用,因此將形狀、顏色、紋理、拓撲結(jié)構(gòu)等多個特征融合是必然的發(fā)展趨勢[14-15]。目前對于復雜圖像的特征提取手段還不夠豐富,能夠準確描述圖像特征的方法還不完善,因此探索新的圖像特征表達方法顯得尤為緊迫。
本文基于一類正交函數(shù)系——V-系統(tǒng),提出一類新的正交矩——V-矩,并將之應(yīng)用到圖像分類問題中。V-矩相對于經(jīng)典的正交矩,具有計算簡單和“間斷”的特性。所謂“間斷”是指V-系統(tǒng)的基函數(shù)中含有間斷函數(shù),這在復雜邊界圖像的分類中有優(yōu)勢。因為復雜圖像一般都由多個分離部分組成,它的邊界不是單個封閉邊界,表現(xiàn)為“間斷”,這時利用 V-矩的“間斷”特性可以比較準確的提取圖像特征,下文的實驗表明了 V-矩對復雜圖像的分類性能。
需要指出的是,Li等[16-17]把V-系統(tǒng)和球面調(diào)和函數(shù)相結(jié)合,得到了V-系統(tǒng)的旋轉(zhuǎn)不變矩,并成功地應(yīng)用到3D模型檢索。本文定義的V-矩函數(shù)與文獻[16-17]定義的V-系統(tǒng)的旋轉(zhuǎn)不變矩是不同的,盡管兩者都是從V-系統(tǒng)出發(fā)。
k次V-系統(tǒng)是一類L2[0,1]空間的完備正交函數(shù)系,它由分段k次多項式組成,其詳細構(gòu)造過程可查閱文獻[18],這里僅給出本文用到的1次V-系統(tǒng)的數(shù)學表達。
1次V-系統(tǒng)的前4個函數(shù)的數(shù)學表達式為:從第5個函數(shù)開始,是由 V21(x),V22(x)經(jīng)壓縮、平移、復制得到的,其一般表達式為:
為下文討論的方便,我們把1次V-系統(tǒng)的基函數(shù)按順序排列為:
本節(jié)基于 V-系統(tǒng)來定義一類新的矩函數(shù)——V-矩。
幾何矩是典型的矩函數(shù)代表,需從幾何矩出發(fā)。熟知區(qū)域G上的函數(shù) (,)fxy的 p+q階幾何矩的數(shù)學表達為:
在幾何矩基礎(chǔ)上建立的Hu不變矩,它的應(yīng)用價值已在多個領(lǐng)域得到證實。值得注意的是,幾何矩是基于函數(shù)系{xi, i= 0,1,2,…}建立的,這個函數(shù)系有兩個不利因素:①它不是正交的,即幾何矩不是正交矩,而正交性是一般信號處理、特別是信號特征提取中的非常重要的性質(zhì),正交性使得在表達信號時有最小的冗余度,并且可以通過逆變換重構(gòu)原信息;②隨著幾何矩階數(shù)的增加,其運算復雜度將急劇增加,這在運算效率上是不利的。
考慮到上述1次V-系統(tǒng)的特性,它有正交性、并且基函數(shù)是分段1次多項式,計算復雜度低,因此如果定義相應(yīng)的V-矩函數(shù),那么可以克服幾何矩的上述兩個缺憾。據(jù)此,可定義 f(x,y)的 p+q階V-矩函數(shù)如下:
其中 Vi(x)表示 V-系統(tǒng)中按順序排列的第 i個基函數(shù),V-矩函數(shù)除具有“正交性”和“計算簡單”兩個特性外,它相對于連續(xù)正交矩函數(shù)(如Legendre矩),還有“間斷性”這個特點,這在表達間斷信號時會帶來優(yōu)勢。
現(xiàn)在將V-矩用于圖像的表達。如果一幅圖像的亮 度 函 數(shù) 為 f(x,y), x = 0,1,… M?1, y= 0,1,… ,N ?1,則它的p+q階V-矩為:
對于一幅給定的數(shù)字圖像,選擇恰當?shù)膒,q,可得到圖像的 V-矩特征向量由于V-系統(tǒng)是分組構(gòu)造的,并且是按組一致收斂的,所以應(yīng)該以組為單位來選擇基函數(shù)構(gòu)成V-矩。據(jù)此,我們稱由前m組基函數(shù)構(gòu)成的 V-矩為 m 階 V-矩,即式(1)中p,q = 0,1,2,… 2m?1。圖像用m階V-矩構(gòu)成的特征向量為這是一個4m維向量。
利用兩個圖像的 V-矩特征向量之間的歐式距離,就可以度量這兩個圖像間的相似度,距離越小表示兩個圖像越相似,并以此進行圖像的分類。本文依最近鄰(nearest neighbor)進行圖像分類,即將查詢圖像歸類到全部比較圖像(不含查詢對象本身)中距離最小的那個圖像的所屬類別。
若要在某個數(shù)據(jù)庫中查詢某個圖像所屬類別,首先要對數(shù)據(jù)庫中每個圖像進行預處理(見下節(jié)),然后計算并預存好數(shù)據(jù)庫中每一個圖像I的V-矩特征向量 βi。則輸入圖像在這個數(shù)據(jù)庫中進行分類查詢的流程為:
(1) 輸入查詢圖像Q;
(2) 按下節(jié)方法進行預處理,得到歸一化二值圖像QA;
(3) 計算QA的V-矩特征向量 αq;
(4) 將 Q與數(shù)據(jù)庫中每一幅圖像進行距離比較,即計算全部的 d(αq,βi);
對于一幅數(shù)字圖像,在進行分類之前,首先對其做預處理,預處理的效果將直接影響分類的效率。預處理包括彩色圖像灰度化、二值化、二值圖像尺度規(guī)范化、主方向歸一化。尺度規(guī)范化包括把圖像的重心平移到原點、把圖像的大小歸一到同一個尺度,主方向歸一化指的是圖像的形狀主軸旋轉(zhuǎn)到同一個坐標軸。圖像灰度化、二值化比較簡單,下面給出尺度規(guī)一化及主方向規(guī)一化過程。
3.1 平移
首先將原圖像區(qū)域擴充到d d× (圖像目標區(qū)域不改變),其中d是原圖像區(qū)域?qū)蔷€的長度。這個過程是為了目標區(qū)域圖像做平移及主方向旋轉(zhuǎn)時不超出圖像區(qū)域。
3.2 主方向歸一化
由圖像的K-L變換可知,具有最大特征值的特征矢量方向θ,可以根據(jù)圖像的中心矩進行計算,即:
則圖像的主軸就旋轉(zhuǎn)到x軸了。
3.3 圖像尺度歸一
在上述步驟完成后,將目標圖像向兩個坐標軸投影,得到圖像的外接矩形,將該外接矩形擴充為正方形(以矩形較長邊為邊長),并保持目標圖像重心仍在原點。把這個正方形區(qū)域提取出來。
當圖像完成上述3個步驟后,圖像區(qū)域是一個正方形區(qū)域,且該正方形至少兩邊外切于目標圖像,圖像中心是坐標原點,形狀主軸就是x軸,最后再把圖像大小規(guī)范到128128× 就完成了全部預處理過程。
圖2示意了一個圖像的預處理全過程。
圖2 圖像預處理過程
本文的實驗數(shù)據(jù)庫為通用數(shù)據(jù)庫 MPEG-7-Shape-CE1-SetB、MPEG-7-Shape-CE2-SetB以及MPEG-7-Shape-CE2-SetA3,以下簡稱 CE1-B和CE2-B,CE2-A3。CE1-B中共包含二值圖像 1400幅,明確分成70類,每類包含視覺上相似的20個形狀,圖3給出了部分圖像例子,這個數(shù)據(jù)庫的特點是圖像的邊界都比較簡單,常用于檢驗基于邊界的算法效率。CE2-B數(shù)據(jù)庫中包含2811個紋理和邊界都比較復雜的二值圖像,這個數(shù)據(jù)庫不像CE1有明確的視覺上相似的分類,它常用來檢驗基于區(qū)域的算法對復雜圖像的分類能力,圖4是CE2-B的圖像舉例。CE2-A3由3101個圖像組成,其中330個圖像分成30類,每類11個,同一類的圖像都是由同一個圖像經(jīng)尺度變換或旋轉(zhuǎn)變換所得,圖5是其中一類。這個數(shù)據(jù)庫用于檢驗算法對尺度和旋轉(zhuǎn)變化的魯棒性。
圖3 實驗數(shù)據(jù)庫CE1-B中的圖像舉例(簡單邊界)
圖4 實驗數(shù)據(jù)庫CE2-B中的圖像舉例(復雜邊界)
圖5 實驗數(shù)據(jù)庫CE2-A3中的一類圖像(尺度和旋轉(zhuǎn)變換)
由于Zernike矩已經(jīng)在模式識別的很多方面表現(xiàn)出突出的性能,且有快速算法,故本文選擇Zernike矩作為算法的比較對象,又因為 V-矩源于幾何中心矩,所以本文方法也和幾何中心矩做比較,Hu不變矩作為最經(jīng)典的矩方法也納入本文的比較對象。通過采用最近鄰指標來評價,即考慮最接近查詢對象的那個圖像(不含查詢對象本身)是否與查詢對象屬同類來計算準確率,同時也給出每個圖像的平均分類時間消耗,即數(shù)據(jù)庫中每一幅圖像從輸入到分類完成所用的平均時間。本文實驗環(huán)境為:Intel(R) Xeon(R) E5620 2.40 GHz 2.39 GHz,內(nèi)存8 G,64位win7操作系統(tǒng),Matlab R2011a編程。
由于V-矩、Zernike矩和幾何中心矩都和階數(shù)相關(guān),采用不同的階數(shù)會得到不同的實驗結(jié)果。為了確定實驗方法中的最優(yōu)階數(shù),可在CE2-B中進行實驗,之所以選擇這個數(shù)據(jù)庫,是因為它是檢驗基于圖像區(qū)域方法的通用數(shù)據(jù)庫。表1給出了不同階數(shù)的 3種矩方法的分類正確率比較(因為不變矩的定義沒有階數(shù)的概念,所以不必參與這樣的比較)。從表1看出,4階V-矩(相應(yīng)的特征向量為256維)、18階Zernike矩(相應(yīng)的特征向量為100維)、6階中心矩(相應(yīng)的特征向量為28維)取得最好的正確率,因此下文的全部試驗,均采用4階 V-矩、18階Zernike矩(用快速算法)和6階中心矩進行比較。
表1 不同階數(shù)的矩方法對數(shù)據(jù)庫CE2-B中的分類結(jié)果比較(%)
4.1 簡單圖像分類實驗
這個實驗的數(shù)據(jù)庫為通用數(shù)據(jù)庫 CE1-B。實驗中,1400個圖像逐個查詢,并依最近鄰算法統(tǒng)計準確率,數(shù)據(jù)庫中1400個圖像的平均分類準確率如表2。
表2 對數(shù)據(jù)庫CE1-B中圖像的分類比較
這個實驗用于檢驗算法對簡單形狀的分類能力。從實驗結(jié)果看,V-矩的準確率最高,比位于第2位的Zernike矩高出近5個百分點。從運行速度上看,不變矩最快,V-矩列第2位。不變矩的特征向量只有7維,所以快捷;雖然V-矩特征向量的維數(shù)比其他幾個方法的維數(shù)都高,但由于V-矩僅涉及線性運算,所以運算速度也較快;而幾何矩隨著階數(shù)的增加,運算復雜度會急劇增加,這里雖然僅用了6階,但速度已經(jīng)受到很大影響;Zernike矩用的是快速算法,所以速度與V-矩相當。
4.2 復雜圖像分類實驗
這個實驗的數(shù)據(jù)庫為通用數(shù)據(jù)庫CE2-B,數(shù)據(jù)庫雖沒有明確的分類,但MPEG-7 (Moving Pictures Experts Group)選了其中的682個圖像,將它們?nèi)斯さ胤殖闪?0類,每類個數(shù)分別為68,248,22,28,17,22,45,145,45,42,圖 6是分類的部分圖像舉例,每類僅列出了4個圖像(每一列的圖像是同一類的)。由于這個數(shù)據(jù)庫中的圖像紋理、形狀都比較復雜,這種人工分類會有很強的主觀性,但很多文獻都依據(jù)這個分類來檢驗自己的算法。本文也根據(jù)這個分類來檢驗本文算法。
圖6 復雜圖像分類實驗中的10類圖像舉例(每一列的圖像是同一類的)
將分好類的682個圖像的每一個分別作為查詢對象,在數(shù)據(jù)庫 CE2-B中逐個查詢,依最近鄰算法統(tǒng)計數(shù)據(jù)庫的平均分類準確率,實驗結(jié)果如表3。由于數(shù)據(jù)庫的圖像非常復雜,分類主觀性又很強,所以幾個算法的實驗結(jié)果都不十分理想,但本文算法相對而言仍取得最好的分類準確率,比位于第2位的Zernike矩高出10個多百分點。運算速度本文算法排在第3位,但與排第2位的Zernike矩不相上下。比較表2和表3,本文算法在復雜邊界的圖像分類中優(yōu)勢更加顯著。
表3 對數(shù)據(jù)庫CE2-B中的圖像分類比較
4.3 旋轉(zhuǎn)和尺度變化的圖像分類實驗
使用通用數(shù)據(jù)庫CE2-A3來檢驗算法對尺度和旋轉(zhuǎn)變化的魯棒性,數(shù)據(jù)庫中共有3101個圖像, 其中含有旋轉(zhuǎn)和尺度變化的330個圖像分成30類,將這 330個圖像分別作為查詢對象在數(shù)據(jù)庫CE2-A3中逐個查詢,其分類結(jié)果見表 4。熟知Zernike矩是具有旋轉(zhuǎn)不變性的,但它對尺度的變化比較敏感,因此在這個實驗中,依然是本文算法取得最好的實驗結(jié)果,這說明本文算法對旋轉(zhuǎn)和尺度的變化均比較魯棒。由于這個庫中的圖像大小不一致,所以V-矩預處理花時間較多,影響了運行速度,僅快于幾何中心矩。
表4 對數(shù)據(jù)庫CE2-A3中的圖像分類比較
4.4 在商標數(shù)據(jù)庫中的分類實驗
為了驗證本文算法在較大數(shù)據(jù)庫中的分類性能,需設(shè)計一個商標分類實驗。這個實驗中的初始實驗數(shù)據(jù)庫含有 10300幅各不相同的真實商標圖像,商標圖像基本上是多邊界的,圖7給出了部分商標例子。另外設(shè)計了450個商標(45類,每類10個相似圖像)加入初始數(shù)據(jù)庫,這樣數(shù)據(jù)庫共有10750個圖像。從10750個圖像中查詢這450個,每個查詢對象都要和10750個圖像一一比較,統(tǒng)計這450個圖像的平均分類準確率,實驗結(jié)果如表5。實驗結(jié)果看出V-矩取得了最高準確率,但速度依然僅快于幾何中心矩。
圖7 商標數(shù)據(jù)庫中的部分圖像
表5 對商標庫中的圖像分類比較
4.5 噪聲圖像分類實驗
在CE2-B的全部圖像中加入不同級別的噪聲,形成新的數(shù)據(jù)庫,采用4.2節(jié)相同的實驗方法,其分類結(jié)果見表6。這里“椒鹽a”指的是密度為a的椒鹽噪聲,“高斯b”指的是均值為0、方差為b的高斯噪聲。從實驗結(jié)果看,本文算法取得了最好的抗噪能力,說明本文算法對噪聲不敏感。
表6 對數(shù)據(jù)庫CE2-B中加噪聲的圖像分類比較
本文采用正交函數(shù)系 V-系統(tǒng)對應(yīng)的 V-矩,對形狀提取區(qū)域特征,得到圖像的分類算法。充分利用V-系統(tǒng)的“間斷”特性,發(fā)揮它對含有分離邊界的圖像的表達優(yōu)勢,通過簡單邊界的通用數(shù)據(jù)庫CE1和復雜邊界的通用數(shù)據(jù)庫 CE2以及較大商標數(shù)據(jù)庫的實驗,說明了用V-矩可以得到比Zernike矩、不變矩以及幾何中心矩更高的分類效率,尤其是對復雜邊界圖像優(yōu)勢更顯著。實驗結(jié)果也表明本文算法對尺度和旋轉(zhuǎn)變換比較魯棒,對噪聲不敏感,具有較強的抗噪能力。從時間效率上來說,由于本文算法僅涉及一次多項式的運算,從實驗結(jié)果看,它與有快速算法的Zernike矩的速度相當。
鑒于目前圖像分類算法的趨勢,后續(xù)研究應(yīng)將V-矩與其它特征(如拓撲結(jié)構(gòu)、顏色紋理特征、局部特征等)相結(jié)合,爭取更好的效率。
需要注意的是,文獻[21]中的V-描述子與本文的V-矩有本質(zhì)的不同,基于V-系統(tǒng)定義的V-描述子,是通過對圖像的邊界作正交V-變換,在頻域得到圖像的邊界特征,特征向量由V-描述子構(gòu)成。而V-矩則是對圖像全部區(qū)域進行特征描述,特征向量由 V-矩函數(shù)構(gòu)成,得到的是圖像區(qū)域的整體特征描述。
[1] Zhang Dengsheng, Lu Guojun. A Comparison of shape retrieval using fourier descriptors and short-time fourier descriptors [C]//Proceedings of 2nd IEEE Pacific Rim Conference on Multimedia, 2001: 855-860.
[2] Abbasi S, Mokhtarian F, Kittler J. Curvature scale space image in shape similarity retrieval [J]. Multimedia Systems, 1999, 7(6): 467-476.
[3] Belongie S, Malik J, Puzicha J. Shape matching and object recognition using shape contexts [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2002, 24(4): 509-522.
[4] Zhang Dengsheng, Lu Guojun. Review of shape representation and description techniques [J]. Pattern Recognition, 2004, 37(1): 1-19.
[5] Hu M K. Visual pattern recognition by moment invariants [J]. IRE Transactions on Information Theory. 1962, 8(2): 179-187.
[6] Kim W Y, Kim Y S. A region-based shape descriptor using Zernike moments [J]. Signal Processing: Image Communication, 2000, 16(1-2): 95-102.
[7] Zhang Hui, Shu Huazhong, Han Guoniu, Coatrieux G, Luo Limin, Coatrieux J L. Blurred image recognition by Legendre moment invariants [J]. IEEE Transactions on Image Processing, 2010, 19(3): 596-611.
[8] Guo Liqiang, Zhu Ming. Quaternion Fourier-Mellin moments for color images [J]. Pattern Ecognition, 2011, 44(2): 187-195.
[9] Bai Xiang, Liu Wenyu, Tu Zhuowen. Integrating contour and skeleton for shape classification [C]//Computer Vision Workshops (ICCV Workshops), 2009 IEEE 12th International Conference on. IEEE, 2009: 360-367.
[10] Direko?lu C, Nixon M S. Shape classification via image-based multiscale description [J]. Pattern Recognition, 2011, 44(9): 2134-2146.
[11] Bai Xiang, Yang Xingwei, Latecki L J, Liu Wenyu, Tu Zhuowen. Learning context-sensitive shape similarity by graph transduction [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(5): 861-874.
[12] Pun C M, Lin Cong. Shape classification using contour simplification and tangent function [J]. International Journal of Circuits, Systems and Signal Processing, 2010, 1(4): 17-24.
[13] Song Jianguo, Lu Xiaoqing, Ling Haibin, Wang Xiao, Tang Zhi. Envelope extraction for composite shapes for shape retrieval [C]//Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012: 1932-1935.
[14] Qi Heng, Li Keqiu, Shen Yanming, Qu Wenyu. An effective solution for trademark image retrieval by combining shape description and feature matching [J]. Pattern Recognition, 2010, (43): 2017-2027.
[15] Bagheri M A, Gao Qigang, Escalera S. Logo recognition based on the Dempster-Shafer fusion of multiple classifiers [M]. Springer Berlin Heidelberg, 2013: 1-12.
[16] Li Zongmin, Men Xiuping, Liu Yujie, Li Hua. 3D model retrieval based on V-system rotation invariant moments [C]//Proceedings of Third International Conference on Natural Computation, 2007: 565-569.
[17] Liu Yujie, Yao Xiaolan, Li Zongmin, Men Xiuping. 3D model retrieval based on the V-system invariant moment [C]//International Conference on Shape Modeling and Applications, 2008: 249-250.
[18] Song Ruixia, Ma Hui, Wang Tianjun, Qi Dongxu. A new class of complete orthogonal V-system and its applications [J]. Communication on Pure and Applied Analysis, 2007, 6(3): 853-871.
[19] Huang Chao, Yang Lihua, Qi Dongxu. A new class of multi-wavelet bases: V-system [J]. Acta Mathematica Sinica, English Series, 2012, 28(1): 105-120.
[20] 齊東旭,宋瑞霞,李 堅. 非連續(xù)正交函數(shù)[M]. 北京:科學出版社, 2011: 144-279.
[21] 宋瑞霞, 陳 曦, 孫紅磊, 姚東星, 薛冠辰. 形狀群組的分類和檢索算法[J]. 計算機輔助設(shè)計與圖形學學報, 2011, 23(12): 1981-1986.
An Image Classification Method Based on V-moments
Song Ruixia1, Wang Yena1, Sun Honglei1, Wang Xiaochun2, Qi Dongxu1
(1. College of Sciences, North China University of Technology, Beijing 100144, China; 2. College of Sciences, Beijing Forestry University, Beijing 100083, China)
The V-system is a complete orthogonal function system which is composed of both continuous function and functions with discontinuities. In this paper, we propose a new kind of V-moment functions based on the V-system, and apply them on image classification. Due to the discontinuity of the basis functions of the V-system, the V-moment functions have distinct advantages in describing the shapes with a plurality of closed boundaries. When they are applied on feature extraction for complex shapes, the extracted features are fairly accurate, thus effective image classification technique can be obtained using the V-moment functions. Experiment of image classification is conducted on several benchmark databases. The results show that the proposed method has higher accuracy than Zernike moments, invariant moments and geometric center moments, and it is not sensitive to noise. Especially, the proposed method presents obvious advantage when it is applied to classify complex shapes with several closed boundaries.
image classification; V-system; moment function; V-moments; regional feature
TP 391
A
2095-302X(2014)05-0747-08
2014-01-09;定稿日期:2014-05-06
國家“973”重點基礎(chǔ)研究發(fā)展規(guī)劃資助項目(2011CB302400);國家自然科學基金資助項目(61272026);北京市自然基金重點資助項目暨北京市教委科技發(fā)展計劃重點資助項目(KZ201210009011)
宋瑞霞(1963–),女,江西南昌人,教授,碩士。主要研究方向為計算機圖形學、模式識別。E-mail:songrx@ncut.edu.cn