楊 坤
(西安工程大學 計算機科學學院,西安 710048)
輪廓含有圖像重要的視覺特征,因此,輪廓提取是計算機視覺研究領域重要的研究方向,旨在對圖像主體形狀等中層視覺信息的提取[1],其研究難點在于如何有效地檢測出輪廓信息,提取到主體輪廓的同時盡可能減少背景紋理邊緣信息,減少冗余信息,有效降低圖像分析和處理的時間復雜度,對圖像的后續(xù)處理具有重要意義.
目前,輪廓提取方法大多基于傳統(tǒng)的邊緣提取方法,如基于圖像灰度變化提取圖像輪廓,常用的有基于Canny 算子[2]、Sobel 算子[3]、Prewitt 算子[4]、Roberts 算子[5]等,這類方法實現(xiàn)過程較簡單,針對背景簡單的圖像具有較好的效果,但處理背景較復雜的圖像時,其效果不盡人意,提取出的主體輪廓帶有很多背景邊緣.因此,針對這一問題,研究人員受到生物視覺信息處理機制的啟發(fā),提出了一系列模擬生物視覺感受野機制的輪廓提取方法.如:Rodieck 等人[6]基于高斯差分函數(shù)模擬視網(wǎng)膜神經(jīng)節(jié)細胞的同心圓式感受野,Marcelja 等人[7]采用一維Gabor 濾波器來模擬具有方向選擇特性的非對稱性感受野;Daugman 等人[8,9]使用二維Gabor 濾波器[10]來模擬視皮層簡單細胞的感受野特性.20世紀80年代,李朝義院士發(fā)現(xiàn)了除經(jīng)典感受野外[11],還存在著外周更大的非經(jīng)典感受野來調節(jié)經(jīng)典感受野的結果,隨后,Grigorescu 等人[12]將非經(jīng)典感受野的抑制作用引入輪廓提取任務中,構建了各向異性抑制和各向同性抑制的計算模型;桑農,曾馳[13-15]等人提出了蝶形感受野結構的非經(jīng)典感受野抑制算法,楊開富提出了基于多特征的提取算法(MCI)[16].和基于邊緣檢測的輪廓提取方法相比,基于視覺信息處理機制的方法能夠較好地抑制背景邊緣,有效提取主體輪廓.
本文基于視覺神經(jīng)元信息處理機理,提出了一種基于時空脈沖編碼的圖像主體輪廓提取方法.從視覺系統(tǒng)的感知機理模擬視覺感受野及視覺神經(jīng)元信息編碼機制提取圖像主體輪廓.首先,利用Gabor 函數(shù)模擬視覺神經(jīng)節(jié)細胞感受野對圖像進行多尺度、多方向特征提取;然后,采用各向異性抑制模型來模擬非經(jīng)典感受野對特征進行初步抑制其背景、紋理和邊緣.同時對不同尺度感受野得到的特征進行小尺度細節(jié)特征提取,大尺度主體輪廓提取,進而進行時空脈沖編碼.最后,采用漏積分點火神經(jīng)元計算模型提取圖像主體特征,并使用非極大值抑制和滯后閾值二值化處理提取圖像主體輪廓.
受到視覺神經(jīng)元信息處理機理啟發(fā),本文根據(jù)視覺系統(tǒng)信息處理機制及神經(jīng)元信息傳遞流程,提出了基于時空脈沖編碼的圖像主體輪廓提取方法,其總體框架如圖1所示.
生物視網(wǎng)膜的視覺神經(jīng)節(jié)細胞感受野具有明顯的方向選擇性[17],經(jīng)典感受野可以識別不同方向的邊界信息.二維Gabor 濾波器可以很好地實現(xiàn)經(jīng)典感受野的方向選擇性,所以本文我們使用二維Gabor 濾波器來模擬簡單視覺神經(jīng)節(jié)細胞感受野[9,10],二維Gabor 濾波器核函數(shù)見式(1).
其中,參數(shù) γ為空間縱橫比,它決定了感受野的橢圓度,本文中 γ=0.5.參數(shù) σ為高斯函數(shù)的標準偏差,決定了感受野的大小.參數(shù) λ是余弦因數(shù)的波長,而1 /λ是余弦因數(shù)的空間頻率.比率 σ /λ決定了空間頻率帶寬,它決定了在接收場中可以觀察到的平行的興奮性和抑制性條帶區(qū)域的數(shù)量,在本文中比率的值固定為σ /λ=0.56.角度θ ∈(0,π)它 決定了感受野的朝向.參數(shù) φ,是確定對稱性的相位偏移,本文我們取 φ=0和φ=-π/2來構成奇偶濾波器模擬簡單細胞感受野.
根據(jù)卷積定理,簡單神經(jīng)節(jié)細胞感受野函數(shù)與輸入的圖像f(x,y)的響應r(x,yλ,σ,θ,φ)是二者的卷積,見式(2).
在計算機視覺中使用的簡單視覺神經(jīng)節(jié)細胞奇對稱感受野濾波器、偶對稱感受野濾波器的響應模,即先平方求和后再開方,來捕捉典型復雜視覺神經(jīng)節(jié)細胞的基本特性[18],復雜視覺神經(jīng)節(jié)細胞響應見式(3).
感受野方向的計算見式(4).
非經(jīng)典感受野主要是對經(jīng)典感受野輸出結果做調制,表現(xiàn)為抑制作用或興奮作用.本文使用DOG 函數(shù)來模擬非經(jīng)典感受野,函數(shù)見式(5).
其中,H(x)為一個取正運算函數(shù),當x>0時H(x)=x,當x≤0時H(x)=0.k是中心高斯函數(shù)標準差與外周標準差的比率,它代表非經(jīng)典感受野與經(jīng)典感受野之間的大小關系.因為非經(jīng)典感受野的尺寸一般為經(jīng)典感受野的2-5 倍[18,19],所以本文取k=4.非經(jīng)典感受野模型的距離加權函數(shù)見式(6).
其中,‖·‖表示L1范數(shù).
這里本文使用各向異性抑制非經(jīng)典感受野抑制模型,抑制項是由各個方向的復雜細胞感受野得到的響應與加權函數(shù)卷積得到,見式(7).
利用復雜細胞感受野得到的響應減去抑制項就可以得到各個方向抑制之后的結果,見式(8).
其中,α是非經(jīng)典感受野抑制作用的強度系數(shù),H(x)為一個取正運算函數(shù).
之后從同一個尺度,每一個像素點位置挑選最大的響應方向作為該像素點的響應見式(9).
記錄每一個像素位置最優(yōu)方向,見式(10).
經(jīng)典感受野有固定的最優(yōu)朝向,當圖像局部邊緣朝向與感野朝向相同時,經(jīng)典感受野的響應最大.在實際中,圖像輪廓和紋理在不同尺度上具有不一致性.生物實驗表明視覺系統(tǒng)的感知機制并非建立在單一的感受野尺度上,視覺感受野的適應性與多尺度特征融合有著明確的關系.所以本文使用多尺度多方向的簡單視覺神經(jīng)節(jié)細胞感受野函數(shù)來對圖像進行卷積計算,并計算復雜視覺神經(jīng)節(jié)細胞感受野響應,然后進行非經(jīng)典感受野各向異性抑制,得到不同尺度感受野的提取結果.
生物研究表明,生物視覺感受野具有基于小尺度視覺感受野可以提取到圖像的大多細節(jié)特征,而大尺度感受野下提取會使圖像大部分細節(jié)特征消失只保留一些主體輪廓特征[20].為了驗證這一特性,本文在這里使用了二維Gabor 函數(shù)來模擬生物視覺感受野,通過調整參數(shù) α來改變感受野尺度的大小,然后對自然圖像進行輪廓的提取,結果如圖2所示.
從圖2結果可以驗證上述生物特性,從長條形框的對比可以看出在小尺度下,提取出的細節(jié)特征很豐富,在大尺度感受野下會丟棄一些細節(jié)特征.從方形框的對比可以看出在大尺度感受野下雖然丟棄了一些細節(jié)和背景紋理特征但是有一些主體輪廓特征也被丟棄.所以基于這個特性,本文以大尺度感受野得到的主體輪廓特征為主,以小尺度感受野得到的細節(jié)特征為補充進行融合,在保留主體輪廓特征的同時盡可能地保留細節(jié)特征,抑制背景特征.
圖2 不同尺度感受野對于圖像的提取結果對比
本文根據(jù)各視覺感受野尺度的不同,利用高斯函數(shù)求得不同尺度的權重見式(11),權重越大說明該尺度下輪廓特征越重要,然后利用各權重與各尺度圖像相乘得到結果,見式(12).
其中,k為不同尺度感受野的個數(shù),1為尺度最大的感受野,N為最小尺度的感受野,μ為高斯函數(shù)的中心軸,r為高斯函數(shù)的標準差.本文取 μ=0.9,r=1.
最后將得到的結果各個尺度,相同位置像素點組合起來,編碼為一個時間脈沖序列見圖3.
圖3 脈沖時序編碼與LIF 神經(jīng)網(wǎng)絡
生物研究表明在視覺信息傳遞的過程中,視覺系統(tǒng)會對視覺信息作整合與去冗余處理.所以本文采用LIF 神經(jīng)元組成的神經(jīng)網(wǎng)絡來模擬視覺信息在不同視覺細胞之間的傳遞過程,在信息傳遞的過程中利用LIF 神經(jīng)元脈沖發(fā)放特性,以脈沖發(fā)放頻率對視覺特征進行時空脈沖編碼,減少非主體輪廓特征的冗余,同時充分體現(xiàn)了視覺系統(tǒng)中的神經(jīng)電生理特性,LIF 神經(jīng)元模型見式(13).
其中,v,cmt,gl,vreset,v,vG,vth分別表示神經(jīng)元的膜電壓、膜電容、漏電導、靜態(tài)電勢、脈沖發(fā)放峰值以及脈沖發(fā)放閾值,Iin對應上一級輪廓響應.ref是絕對不應期.當v大于vth時,神經(jīng)元將會發(fā)放脈沖;當v到達vG時,它被瞬間重置為vreset.開始進入絕對不應期,等到ref=0,神經(jīng)元才被重新激活.
建立一個和圖像尺寸相同的脈沖神經(jīng)網(wǎng)絡,將2.4 得到的時空脈沖序列輸入到脈沖神經(jīng)網(wǎng)絡中,得到最終每個神經(jīng)元的脈沖發(fā)放頻率作為最終的結果.截取某個部分的神經(jīng)元的脈沖發(fā)放如圖4所示.
圖4 網(wǎng)絡中一小部分神經(jīng)元的脈沖發(fā)放圖
得到結果以后利用非極大值抑制做細化處理,用滯后閾值法做二值化處理,得到最終的提取結果.
本文使用Gabor 能量[9,10],各向同性抑制[12],各向異性抑制[12],MCI[16]作為對比方法.參數(shù)設置如下:4 個感受野尺度σ={1.2,1.6,2.0,2.4},2 個非經(jīng)典感受野紋理抑制系數(shù)α={1,1.2},5 個滯后閾值百分比p={0.1,0.2,0.3,0.4,0.5}.同時對于本文提出的方法使用5 個脈沖神經(jīng)元閾值vth={0.7,0.9,1,1.2,1.4}.
本文使用RUG40 圖像庫[12]的40 幅512 × 512 像素大小的典型自然場景圖像組合形成實驗測試樣本集.每幅測試圖像都有一張人工繪制的基準輪廓圖(ground truth),主觀上用于評價輪廓提取方法的有效性.EGT為標準的參考輪廓圖,是綜合多次人工勾畫的輪廓而獲得的與原始圖像具有最多認同度的輪廓.BGT為參考圖像的非輪廓區(qū).ED表示算法模型檢測出來的輪廓圖.BD表示算法模型檢測出來的非輪廓區(qū).E為算法模型檢測結果,為ED和參考輪廓圖EGT的重疊部分,即E=ED∩EGT.EFN表示漏檢的輪廓像素點集合,也就是應該是輪廓卻未被檢測出來,即EFN=EGT∩BD.EFP表示錯檢的輪廓像素點集合,也就是不是標準輪廓的像素點被當做輪廓檢測出來,即EFP=ED∩BGT.
客觀評價方面,選取常用的圖像輪廓提取方法客觀評價指標P值[12].其中,準確率P為算法模型檢測出來的正確輪廓E與檢測出來所有的像素之比.所有的像素點有:檢測出來的正確輪廓E的像素點、錯檢的輪廓EFP的像素點和漏檢的輪廓EFN的像素點.準確率見式(14).
card(S)表示一幅圖像的所有像素集合S的元素個數(shù).P值可以定量評價檢測算法的有效性,P值越高表明模型輪廓檢測效果越好,反之則越差.同時像素的錯檢率與漏檢率也可以體現(xiàn)算法的效果,見式(15).
RUG40 數(shù)據(jù)集的主觀評價結果見圖5,客觀評價結果見表1,盒須圖見圖6.
為了對本文方法做更好的驗證,這里使用同樣的對比方法,使用的參數(shù)與第3.2 節(jié)相同,對自己拍攝的生活中的圖片進行主體輪廓的提取.最后對于各方法得到的主觀最優(yōu)結果如圖7所示.
從圖5主觀對比結果可以看出,本文提出的方法可以有效地抑制背景紋理邊緣信息并且很完整突出主體輪廓信息.從goat_3、hyena、golfcart 幾張圖的結果可以看出本文方法對比Gabor 能量、Anisotropic和Isotropic 方法對細節(jié)的提取更加準確完整方法,得到的主體輪廓紋理更加顯著、連續(xù).對比MCI 方法,雖然對圖像主體輪廓有漏檢的部分,但是對大部分的主體檢測的很準確,并且對背景紋理邊緣的抑制效果明顯.對于buffalo 雖然主觀上看對主體輪廓提取的結果不是非常的明顯,但是對比前3 種方法可以明顯地看出對于背景紋理邊緣的抑制效果很明顯.
圖5 主觀提取結果
從表1客觀結果可以看出.本文方法對比其他的主流方法可以很好地同時降低漏檢率和錯檢率,并且控制漏檢率與錯檢率的平衡,有效提高檢測的準確率,有效地使主體輪廓提取結果更加顯著.
表1 圖5中各圖像的客觀評價結果(準確率P、漏檢率eFN、錯檢率eFP)
盒須圖中盒體的長度越短代表方法的魯棒性越好.從圖6中的goat_3、hyena 中的P值對比可以看出本文的P值均值都大于其他方法的最大P值,本文方法的最小P值和其他方法的最大P值基本相同.同時從goat_3、hyena、golfcart 中可以看出本文算法得到的P值盒體短于其他方法得到的盒體結果,這就說明本文的方法相對于其他主流方法魯棒性更好.對于圖buffalo雖然效果不如MCI 方法,但明顯優(yōu)于前3 種方法.
圖6 各圖像輪廓提取方法得到結果的盒須圖
從圖7對于自己拍攝的幾張圖片中各方法的提取結果來看.對于甜點這張圖的提取對比前3 種方法,有效地抑制了桌面的紋理,同時對甜點輪廓的提取非常精確,對比MCI 算法對主體上的紋理有更好的抑制效果.對于人物這張圖雖然對人物面部的細節(jié)提取不如前3 種方法,但是對人物主體輪廓提取很準確,以及人物前面的食物輪廓提取也很準確.對于工具這雖然有些主體邊緣沒有檢測出來,但是大部分的主體輪廓檢測得更加精確,對比其他方法對細節(jié)的提取更加準確完整,對主體的輪廓提取更加準確.
圖7 在自己拍攝的幾張圖片中各方法得到的主觀最優(yōu)結果
本文基于視覺神經(jīng)元信息編碼機制,提出了一種基于時空脈沖編碼的圖像主體輪廓提取方法,模擬生物視覺對于圖像的編碼過程.基于生物視覺感受野小尺度提取細節(jié)特征更多,大尺度提取主體輪廓特征更多的特性對多尺度視覺感受野得到的結果進行權值調整,并利用LIF 神經(jīng)元模擬視覺信息傳遞過程對多尺度視覺感受野提取到的輪廓結果進行融合,實現(xiàn)了主體輪廓的提取和背景紋理邊緣的抑制.通過與Gabor、Anisotropic、Isotropi、MCI 四種主流方法對比,本文方法可以有效地降低漏檢率與錯檢率,同時保持漏檢率與錯檢率的平衡,提高了方法的魯棒性.有效提取主體輪廓,抑制了背景、紋理和邊緣信息.