長陽土家族自治縣第一高級中學 覃天足
近年來,圖像識別已經成為人工智能和機器學習領域的研究熱點和難點,其中,景物識別是指對場景圖像的各類景物進行識別分類,在許多領域例如無人駕駛、圖像檢索、機器人視覺導航等都得到了很好的應用。圖像的視覺特征有顏色,紋理,形狀等,顏色是用于描述物體表面特性的一種屬性,也是應用最為廣泛的視覺特征,主要原因在于顏色往往和圖像中所包含的物體或場景十分相關;而紋理特征紋理指的是圖像灰度級或顏色的某種變化,是用于描述物體表面結構的一種模式,體現了物體表面共有的內在屬性,包含了物體表面結構組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系,利用這兩種特征可以便于對圖像進行分割、分析和理解。由于室外景物的復雜及可變性,使用單一特征常常難以描述圖像中的各類景物,因此在本文中,將顏色和紋理兩種信息進行結合,用于同時提出圖像的光譜和結構特性,以此表達更多的圖像信息,可以取得更好的分類結果。
同時,神經網絡在解決非線性、以及擁有大數據前提條件下的模式識別問題中具有較好的性能[1]。因此,選取神經網絡作為景物識別的分類器是一種合理的選擇。本文在基于顏色和紋理特征提取的基礎上,采用神經網絡進行景物識別,提高了圖像識別的準確率,具有良好的分類性能。
對于待識別的景物圖像,顏色是其十分重要的視覺特征。因此,利用顏色特征進行圖像分類受到重視,也最早得到實際應用。顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對應的景物的表面性質。進行顏色特征的提取必須選取合適的顏色空間。對于景物識別,常用的顏色空間有RGB空間、HSV空間等。其中,RGB空間模型是迄今應用最廣泛的彩色模型。其具有描述簡單,便于使用標準硬件實現應用等優(yōu)點。本文選取RGB顏色空間,根據RGB三個分量提取待識別圖像的顏色特征[2]。
顏色直方圖直觀的顯示了圖像在色彩空間的分布狀況,其優(yōu)點在于能簡單描述一幅圖像中顏色的全局分布,即不同色彩在整幅圖像中所占的比例,具有良好的尺度和旋轉不變性,特征魯棒性好等特點,特別適用于描述那些難以自動分割的圖像和不需要考慮物體空間位置的圖像。而對于本文選用的以RGB顏色空間表示的圖像。其中,R,G,B所表示的任何一個分量都可以構成對應的直方圖,此直方圖仍然描述了圖像顏色的統(tǒng)計特征。但是一幅圖像的R,G,B 值范圍在[0,255]之間,因此顏色直方圖矢量的維數也會非常多。若直接進行特征計算,運算量將會很大,難以保證算法的快速性。而且人的眼睛對顏色的分辨能力有限,并無必要將這些量全部細分計算。因此在計算特征量之前,可以對RGB 空間進行量化,將0-255范圍內的值映射到0-7區(qū)間內,以減少特征矢量的維數。映射關系表示如下:
紋理特征也是一種全局特征,是指人們觀察到的圖像子區(qū)域的某種灰度變化規(guī)律。它也描述了圖像或圖像區(qū)域所對應景物的表面性質,即在圖像中反復出現的局部模式和它們的排列規(guī)則[3]。作為一種統(tǒng)計特征,紋理特征常具有旋轉不變性,較強的抵抗噪聲能力等優(yōu)點。目前紋理特征的提取主要有4 種方法:統(tǒng)計法、結構法、基于模型的方法以及信號處理的方法?;叶裙采仃囀墙y(tǒng)計法的一個典型代表,是應用效果較好的一種紋理特征分析方法。
灰度共生矩陣是像素距離和角度的矩陣函數,亦即一種通過研究灰度的空間相關特性來描述紋理的方法。由于紋理特征是由灰度分布在空間位置上反復出現而形成的,因而在圖像空間中相隔某距離的兩象素之間會存在一定的灰度關系,即圖像中灰度的空間相關特性?;叶裙采仃囃ㄟ^計算圖像中一定距離和一定方向的兩點灰度之間的相關性,來反映圖像在方向、間隔、變化幅度及快慢上的綜合信息。
圖像上保持某一距離的兩個像素分別具有某灰度,對其進行統(tǒng)計得到灰度共生矩陣?;叶裙采仃嚸枋隽顺蓪ο袼氐幕叶冉M合分布。本文將灰度共生矩用Pδ表示,矩陣元素則用Pδ(i,j)(i,j=0,1,2,…,L-1)表示。式中:i,j分別為兩個像素的灰度;L為圖像的灰度級數;δ為兩個像素間的位置關系,用δ=(Δx,Δy)表示,即兩個像素在x方向和y方向上的距離分別為Δx,Δy。不同的δ決定了兩像素間距離和方向,一般在0°、45°、90°和135°這4個方向上[4]。當兩個像素間位置關系δ選定后,就生成一定δ下的灰度共生矩陣Pδ,即:
共生矩陣中一個元素表示了一種灰度組合下出現的次數.如元素Pδ(1,0)表示了圖像上位置關系為δ的兩像素灰度分別為1和0的情況出現的次數。顯然位置關系不同,元素值就不同[5]。
基于上述的顏色/紋理組合特征,本文針對景物識別問題提出一種基于BP神經網絡的分類器,通過輸入組合特征向量,對分類器進行學習訓練,得到滿足分類精度的BP神經網絡分類結果。BP神經網絡能夠對多層的網絡權值進行修改,是目前應用最廣泛的神經網絡學習算法之一。
BP神經網絡學習訓練的過程,可以分為正向傳播和反向傳播兩個階段。其中正向傳播的思想是將輸入的特征向量從輸入層經過隱含層,逐步進行處理,進行權值計算,最后輸送到輸出層,在每一層的處理中,前一層相當于后一層的輸入層,而當前層的下一層可被視作該層的輸出層。在輸出層中,把實際的輸出信號與期望的輸出信號進行比較,如果誤差為零或小于滿足精度的某個閾值,結束學習訓練過程,否則進入反向傳播過程。在反向傳播過程中,將實際輸出和期望信號計算得到的誤差逐層返回,對每一層的權值進行自動調整,直至某一次的實際輸出信號與期望信號的誤差滿足收斂條件,完成整個學習訓練過程。
在進行BP神經網絡學習訓練的過程中,要確定誤差函數,這里選擇實際輸出與期望輸出的誤差平方和作為誤差函數。表達式如下:
BP神經網絡能夠根據如上所示的誤差函數來逐步調整權值,這需要依靠大量的樣本數據,從而得到更加智能和高精度的分類器。其中輸入為上面得到的組合特征向量,輸出為識別結果,這里,選擇北京市最為著名的10個景點,并用4位的二進制進行編碼,分別為0000-1001,而其余不屬于識別范圍內的景點統(tǒng)一編碼為1010。為了保證BP神經網絡的性能,本文使用標準的3層神經網絡。其中,輸入層可以設置10個節(jié)點,對應量化的輸入特征向量;輸出為表示分類結果的一個編碼向量;隱含層設置15個節(jié)點。
通過將輸入的圖片樣本進行預處理之后,并采用特征提取得到對應的特征向量,選擇500幅圖片作為訓練集,再選擇500幅圖片作為測試集,通過不斷訓練并根據訓練結果的優(yōu)劣調整隱含層節(jié)點數,直到達到預定的訓練次數,或滿足預先設定的收斂閾值,完成訓練過程。最后將訓練學習好后的分類器,使用測試集評價分類器的識別效果。整個學習訓練的流程圖如圖1所示:
圖1 BP神經網絡分類器學習訓練的過程
對于室外景物識別問題,本文提出了顏色紋理特征相結合的特征提取方法。采用顏色直方圖提取顏色特征,采用灰度共生矩陣提取紋理特征,最后將兩種特征組合,解決了采用單一特征不能有效識別的問題。并采用基于BP神經網絡的分類器,能夠有效地進行室外復雜場景的景物識別。該算法具有廣闊的研究價值和應用前景。
[1]邊肇棋,張學工.模式識別[M].北京:清華大學出版社,2000.
[2]雷寶權,楊麗華,等.基于SVM與顏色/紋理組合特征的景物識別算法[J].計算機科學,2009,36(10):274-283.
[3]譚菊,張友鐘.基于灰度共生矩陣的紋理特征景物識別[J].重慶文理學院學報,2009,29(1):66-68.
[4]蘇杰,王丙勤,郭立.數字圖像的紋理特征提取與分類研究[J].電子測量技術,2008,31(5):52-55.
[5]高程程,惠曉威.基于灰度共生矩陣的紋理特征提取[J].計算機系統(tǒng)應用,2010,19(6):195-198.