黃慶坤,陳云華,張 靈,蘭浩鑫
(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州 510006)
動(dòng)態(tài)視覺傳感器(dynamic vision sensors,DVS)[1],在智能機(jī)器人、無人駕駛等領(lǐng)域有著廣闊的應(yīng)用前景.與傳統(tǒng)的視覺傳感器相比,DVS丟棄幀和曝光時(shí)間的概念,通過監(jiān)測(cè)每個(gè)像素點(diǎn)的光強(qiáng)變化輸出事件流,從而解決了傳統(tǒng)視覺傳感器所帶來的數(shù)據(jù)冗余問題.其十分類似于人類視網(wǎng)膜功能,在獲取視覺信息時(shí)具有低功耗、低延遲等卓越特性,因此本質(zhì)上十分適合用于便攜式設(shè)備上的實(shí)時(shí)動(dòng)作識(shí)別任務(wù).
由于DVS是一種基于事件的傳感器,單個(gè)獨(dú)立事件是無意義的.目前大多數(shù)的方法是將事件流分割為多個(gè)片段后,再進(jìn)行特征的提取和分類,因此,如何定位與分割事件流的時(shí)域感興趣區(qū)域(region of interest,ROI),對(duì)特征提取和分類效果的影響至關(guān)重要.目前分割事件流時(shí)域ROI的方法主要分為兩大類,即硬事件分割(hard events segmentation,HES)和軟事件分割(soft events segmentation,SES).
在HES方法中,Anna Baby等人[2]是用一個(gè)固定的時(shí)間窗口,把整個(gè)事件流分割成時(shí)間大小相等的若干虛擬幀.但是由于DVS的工作機(jī)制,移動(dòng)速度越快的物體所產(chǎn)生的激活像素越多,因此在固定的時(shí)間窗口下,所捕獲物體的形狀將取決于它的運(yùn)動(dòng)速度.而Ghosh等人[3]是用一個(gè)事件數(shù)量固定的動(dòng)態(tài)時(shí)間窗口對(duì)事件流進(jìn)行分割,此方法在很大程度上消除運(yùn)動(dòng)速度對(duì)物體形狀的影響.但對(duì)于多種不同物體運(yùn)動(dòng)的場(chǎng)景,存在著不同物體的最佳檢測(cè)閾值差異較大的問題.同時(shí),上述兩種HES方法,認(rèn)為每個(gè)輸出事件(即使其為噪聲事件)都具有同等的重要性,因此抗噪性能較差.
與HES不同的是,SES可根據(jù)事件的輸出特性自適應(yīng)地分割事件流片段.因此,SES比HES更能準(zhǔn)確地對(duì)時(shí)域ROI進(jìn)行定位與分割.Peng等人[4]利用LIF(leaky integrate-and-fire)神經(jīng)元模型[5]的閾值響應(yīng)機(jī)制進(jìn)行運(yùn)動(dòng)符號(hào)檢測(cè)(motion symbol detection,MSD),以實(shí)現(xiàn)SES.由于LIF神經(jīng)元的泄漏機(jī)制以及連續(xù)的增量集成,能夠有效降低噪聲事件的干擾.但由于LIF神經(jīng)元模型采用硬閾值,因此該方法在處理不同物體運(yùn)動(dòng)時(shí),同樣會(huì)存在不同物體的最佳檢測(cè)閾值差異較大的問題.
為了解決上述問題,對(duì)此,本文提出一種基于LIF神經(jīng)元模型和脈沖最大值監(jiān)測(cè)單元的MSD,以實(shí)現(xiàn)對(duì)不同物體運(yùn)動(dòng)所產(chǎn)生的事件流時(shí)域ROI關(guān)鍵時(shí)間點(diǎn)的自適應(yīng)定位,從而解決分割片段受不同物體的最佳檢測(cè)閾值差異較大以及背景噪聲事件影響的問題.
在已有的一些對(duì)事件流進(jìn)行表征的方法中,是直接基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行權(quán)重訓(xùn)練,然后將訓(xùn)練好的CNN轉(zhuǎn)換成脈沖神經(jīng)網(wǎng)絡(luò)(spiking neuron networks,SNN),以實(shí)現(xiàn)對(duì)DVS數(shù)據(jù)的特征表示與識(shí)別[6-11].該類方法需要對(duì)網(wǎng)絡(luò)中的大量參數(shù)進(jìn)行優(yōu)化,才能獲得較高的識(shí)別率.為了保證DVS數(shù)據(jù)處理的低功耗、低延遲性,本文首先基于所提出的MSD進(jìn)行事件流自適應(yīng)定位與分割,然后基于Gabor濾波器進(jìn)行空域特征提取,最后再采用直接訓(xùn)練得到的SNN來實(shí)現(xiàn)DVS數(shù)據(jù)的分類.
在SNN學(xué)習(xí)算法中,Tempotron[12]學(xué)習(xí)算法由于只需標(biāo)記發(fā)放狀態(tài),而不需要標(biāo)記發(fā)放時(shí)間,更適用于真實(shí)環(huán)境刺激下的分類任務(wù).但由于Tempotron學(xué)習(xí)算法在接收到脈沖并使神經(jīng)元突觸后膜電位(postsynaptic potential,PSP)達(dá)到閾值后,突觸后神經(jīng)元只發(fā)放一個(gè)脈沖,之后將會(huì)忽略后續(xù)該神經(jīng)元接收到的所有脈沖,此時(shí)如果脈沖數(shù)據(jù)中存在著噪聲,很容易造成突觸后神經(jīng)元錯(cuò)誤發(fā)放.因此,Tempotron學(xué)習(xí)算法對(duì)于存在噪聲干擾的脈沖數(shù)據(jù),識(shí)別精度并不高.
為此,本文對(duì)Tempotron學(xué)習(xí)算法作如下改進(jìn):在訓(xùn)練過程中對(duì)不同的脈沖輸入模式(P+或P-)使用不同的核函數(shù)調(diào)整神經(jīng)元PSP,使得訓(xùn)練后的神經(jīng)元PSP在輸入脈沖為P+模式時(shí)更容易(P-模式時(shí)更難)達(dá)到脈沖發(fā)放閾值,從而使得輸出神經(jīng)元在受到噪聲干擾時(shí)的響應(yīng)發(fā)生改變,使本來錯(cuò)誤發(fā)放的突觸后神經(jīng)元被調(diào)整為正確的發(fā)放,形成一種多核SNN分類算法MK-Tempotron(multi kernel tempotron),以提高分類算法的抗噪性能.
在MNIST-DVS[13],Poker-DVS[13]和Posture-DVS[14]等常用DVS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與同類方法[4,15]相比,本文所提出方法的識(shí)別精度可獲得高達(dá)14.61%的提升.
本文所采用的DVS數(shù)據(jù)特征提取和分類流程如圖1所示.
2.1.1 MSD精確定位
由于DVS在獲取靜態(tài)場(chǎng)景時(shí),只輸出少量的噪聲事件,為解決DVS數(shù)據(jù)中的背景噪聲事件以及產(chǎn)生時(shí)間久遠(yuǎn)的舊事件影響,本文的MSD將由一個(gè)LIF神經(jīng)元組成,其閾值機(jī)制可以有效實(shí)現(xiàn)對(duì)背景噪聲事件的過濾,而其泄漏機(jī)制可有效降低舊事件對(duì)當(dāng)前片段的干擾.此外,為了解決在多種物體運(yùn)動(dòng)場(chǎng)景中,不同物體的最佳檢測(cè)閾值差異較大的問題,本文的MSD還將引入一個(gè)脈沖最大值監(jiān)測(cè)單元,以實(shí)現(xiàn)針對(duì)不同物體檢測(cè)閾值的自適應(yīng)變化.最終,本文基于LIF神經(jīng)元模型[5]和脈沖最大值監(jiān)測(cè)單元的MSD,實(shí)現(xiàn)了對(duì)不同運(yùn)動(dòng)物體下事件流時(shí)域ROI關(guān)鍵時(shí)間點(diǎn)的自適應(yīng)精確定位.
MSD如圖1左下虛線矩形框所示.每個(gè)輸入的DVS事件都能激活一個(gè)PSP,在ti時(shí)刻接收輸入事件的PSP計(jì)算如式(1)所示:
其中:Vrest為靜息電位,核函數(shù)K的定義如式(2)所示:
其中:τm和τs分別表示膜和突觸電流延遲時(shí)間常數(shù),V0作用是進(jìn)行歸一化.
圖1 DVS特征提取與分類流程Fig.1 DVS feature extraction and classification process
神經(jīng)元總電位由脈沖最大值監(jiān)測(cè)單元連續(xù)監(jiān)測(cè),具體過程為對(duì)于某一特定時(shí)間t0,當(dāng)滿足如式(3)中的條件時(shí),則t0為該時(shí)間窗內(nèi)的最大值.
其中:tk為時(shí)間窗大小,Vthr為預(yù)設(shè)閾值.當(dāng)脈沖最大值監(jiān)測(cè)單元監(jiān)測(cè)到某時(shí)刻為該段時(shí)間窗內(nèi)的最大值并且超過預(yù)設(shè)閾值Vthr時(shí),該定位處時(shí)間窗內(nèi)的事件流才會(huì)被累積起來作為一個(gè)分割片段,并使得圖1中的開路閉合,此時(shí)得到的分割片段才會(huì)被輸入到后續(xù)層中.
由于不同物體的形狀大小不一,DVS的工作機(jī)制會(huì)導(dǎo)致大物體比小物體在運(yùn)動(dòng)時(shí)產(chǎn)生更多的事件,若對(duì)LIF神經(jīng)元僅采用硬閾值響應(yīng)的方式來進(jìn)行定位,將會(huì)使得不同物體的最佳檢測(cè)閾值差異很大,無法達(dá)到對(duì)不同物體的自適應(yīng)定位.而采用脈沖最大值監(jiān)測(cè)單元所監(jiān)測(cè)的最大值可進(jìn)行動(dòng)態(tài)變化,不再受硬閾值的影響,從而對(duì)不同物體運(yùn)動(dòng)具有自適應(yīng)性,解決了不同物體下最佳閾值設(shè)置差異大的問題.此外,當(dāng)DVS在捕獲物體運(yùn)動(dòng)最強(qiáng)烈時(shí),產(chǎn)生的事件流是最活躍的,同時(shí)也是物體運(yùn)動(dòng)特征最為豐富的時(shí)刻,該時(shí)刻輸出的事件流將使得LIF神經(jīng)元膜電位達(dá)到最大值,即對(duì)應(yīng)著該事件流的時(shí)域ROI關(guān)鍵時(shí)間點(diǎn).因此,脈沖最大值監(jiān)測(cè)單元可以持續(xù)監(jiān)測(cè)膜電位并對(duì)其最大值處進(jìn)行定位,該定位處即事件流時(shí)域ROI關(guān)鍵時(shí)間點(diǎn).
2.1.2 DVS事件流空域特征提取
為了減少網(wǎng)絡(luò)中的參數(shù)以及提高生物真實(shí)性,本文采用一種由人類視覺皮層啟發(fā)的預(yù)定義權(quán)值(Gabor濾波器權(quán)值)層次化模型[16]對(duì)DVS事件流中的空域特征進(jìn)行提取.
本文將DVS輸出的每個(gè)地址事件投影到一組4個(gè)不同尺寸(3×3,5×5,7×7,9×9)和4個(gè)不同方向?yàn)?0°,45°,90°,135°)的Gabor濾波器組,Gabor濾波器[17]的定義如式(4)所示:
其中:θ為Gabor核函數(shù)方向,σ為高斯函數(shù)標(biāo)準(zhǔn)差,γ為空間長(zhǎng)寬比,λ為正弦函數(shù)波長(zhǎng),X為卷積核橫坐標(biāo),Y 為卷積核縱坐標(biāo),所使用參數(shù)值如表1所示.
表1 Gabor濾波器參數(shù)值Table 1 Gabor filter parameter values
每個(gè)濾波器對(duì)特定尺寸感受野的神經(jīng)元細(xì)胞進(jìn)行建模,從而對(duì)特定方向的特征作出最佳響應(yīng),最終得到S1層特征圖.由于S1層中的每個(gè)神經(jīng)元的卷積操作都是動(dòng)態(tài)進(jìn)行,為了避免舊的事件對(duì)特征提取造成影響,采用了具有遺忘機(jī)制的動(dòng)態(tài)卷積,即隨著時(shí)間推移,響應(yīng)值將會(huì)緩慢恢復(fù)至初始值.卷積后的神經(jīng)元將對(duì)其特定的特征作出一個(gè)響應(yīng),當(dāng)滿足MSD的條件時(shí),S1層中的神經(jīng)元才會(huì)與其感受野內(nèi)的鄰近神經(jīng)元競(jìng)爭(zhēng),只有當(dāng)它是這個(gè)感受野內(nèi)的響應(yīng)值最大時(shí)(即MAX操作)[16],該神經(jīng)元才能在C1層特征圖中被保留下來.而MAX操作后在C1層中被保留下來的每個(gè)神經(jīng)元將表示特定大小和方向的線段特征.
保留下來的神經(jīng)元接著被輸入到一組TFS(timeto-first spike)神經(jīng)元中,對(duì)特征圖的每個(gè)特征編碼成時(shí)域脈沖[18],然后輸入到MK-Tempotron中進(jìn)行突觸權(quán)重的學(xué)習(xí)并分類.此外,為了使得SNN訓(xùn)練算法更高效,在編碼后每個(gè)特征脈沖都與一個(gè)相對(duì)應(yīng)的地址關(guān)聯(lián),該地址可以用來通過訪問權(quán)重查找表直接獲取其相應(yīng)的突觸權(quán)重,如圖1中的權(quán)重查找表所示.下面將對(duì)本文提出的SNN學(xué)習(xí)算法MKTempotron進(jìn)行介紹.
2.2.1 Tempotron算法
Tempotron學(xué)習(xí)算法[12]以LIF[5]作為神經(jīng)元模型,由全部輸入該神經(jīng)元PSP加權(quán)和得到突觸后神經(jīng)元膜電位,如式(5)所示:
其中:wi為第i個(gè)輸入神經(jīng)元的突觸權(quán)重,為第i個(gè)輸入神經(jīng)元的發(fā)放時(shí)間,Vrest為靜息電位,K為核函數(shù),其表達(dá)式見式(2).
如果膜電位高于閾值,神經(jīng)元會(huì)進(jìn)行發(fā)放,發(fā)放脈沖后神經(jīng)元將會(huì)忽略后續(xù)的脈沖輸入,并讓膜電位恢復(fù)到靜息電位,即在發(fā)放時(shí)間之后到達(dá)的脈沖將不再對(duì)神經(jīng)元的膜電位產(chǎn)生影響.
Tempotron學(xué)習(xí)算法作用是訓(xùn)練突觸權(quán)重,使得突觸后神經(jīng)元能夠根據(jù)樣本標(biāo)簽類別決定其是否發(fā)放.當(dāng)樣本標(biāo)簽類別與實(shí)際發(fā)放情況不符時(shí),將會(huì)對(duì)突觸權(quán)重進(jìn)行修正.修正的最終目的是降低損失函數(shù)L,其定義如式(6)所示:
其中:tmax表示神經(jīng)元膜電位達(dá)到最大值的時(shí)間,?表示發(fā)放閾值,P+和P-分別表示兩種不同的輸入脈沖模式.突觸權(quán)重修正如式(7)所示:
其中β為學(xué)習(xí)率.
2.2.2 MK-Tempotron算法
在Tempotron算法中,噪聲干擾突觸后神經(jīng)元的輸出響應(yīng),主要通過兩種方式:
1)在脈沖模式為P+情況下,存在的噪聲可能令神經(jīng)元膜電位在tmax時(shí)小于發(fā)放閾值,使得突觸后神經(jīng)元本該發(fā)放,實(shí)際卻沒有發(fā)放.
2)在脈沖模式為P-情況下,存在的噪聲可能令神經(jīng)元膜電位在tmax時(shí)大于發(fā)放閾值,使得突觸后神經(jīng)元本不該發(fā)放,實(shí)際卻進(jìn)行發(fā)放.
因此在權(quán)值訓(xùn)練時(shí),在輸入脈沖模式為P+(或P-)情況下,要使得存在噪聲時(shí)也能夠讓突觸后神經(jīng)元發(fā)放(或不發(fā)放),則需要使神經(jīng)元膜電位在tmax時(shí)變得更高(或更低).為此,本文提出MK-Tempotron算法,該算法在訓(xùn)練權(quán)值時(shí),對(duì)兩種不同的輸入模式分別采用不同的核函數(shù)K1和K2來計(jì)算神經(jīng)元膜電位,算法步驟如下:
步驟1初始化權(quán)重并輸入樣本脈沖;
步驟2神經(jīng)元響應(yīng)狀態(tài)與標(biāo)簽響應(yīng)狀態(tài)進(jìn)行比較,判斷應(yīng)選擇K1或K2求膜電位;
步驟3通過選擇相應(yīng)核函數(shù)計(jì)算神經(jīng)元膜電位,得到神經(jīng)元的響應(yīng)狀態(tài);
步驟4響應(yīng)狀態(tài)與標(biāo)簽相符則結(jié)束,否則使用式(7)調(diào)整權(quán)重并跳至步驟2.
其中K1和K2的定義分別如式(8)-(9)所示:
其中:a和b為變化系數(shù),使得在輸入脈沖模式為P+(或P-)時(shí)神經(jīng)元膜電位更低(或更高),其中P+和P-模式時(shí)神經(jīng)元膜電位的計(jì)算分別如下式(10)-(11)所示:
其損失函數(shù)如式(12)所示:
其中:VP+(tmax)是神經(jīng)元在P+時(shí)的最大膜電位,VP-(tmax)是神經(jīng)元在P-時(shí)的最大膜電位.通過此方法進(jìn)行訓(xùn)練的神經(jīng)元突觸權(quán)重最終將會(huì)朝著正確發(fā)放的方向發(fā)生改變.
對(duì)于多類別分類任務(wù),訓(xùn)練時(shí),本文將采用Onehot編碼[19]對(duì)N個(gè)MK-tempotron神經(jīng)元進(jìn)行標(biāo)記.若屬于第1類,那么第1個(gè)MK-tempotron神經(jīng)元的輸出標(biāo)記為1(神經(jīng)元應(yīng)發(fā)放),其他神經(jīng)元的輸出標(biāo)記為0(不應(yīng)發(fā)放).在測(cè)試時(shí),只需觀察哪些神經(jīng)元是否發(fā)放,即可判斷其類別.
本文方法的實(shí)驗(yàn)都在MATLAB(版本為2015a)上進(jìn)行軟件仿真,硬件環(huán)境為CPU i7--6700,顯卡RT--X2--080ti,內(nèi)存32 G的環(huán)境下進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)中DVS數(shù)據(jù)集參數(shù)設(shè)置都嚴(yán)格參照Peng[4]中使用的值.
本文采用了MNIST-DVS[13],Poker-DVS[13],Posture-DVS[14]3個(gè)常用的DVS數(shù)據(jù)集對(duì)MK-Tempoton的抗噪性能與Tempoton進(jìn)行比較,并與同類方法[4,15]進(jìn)行對(duì)比評(píng)估.MNIST-DVS[13]數(shù)據(jù)集中包含了0-9共10類手寫數(shù)字,是由10,000張?jiān)嫉腗NIST[20]手寫數(shù)字圖像,通過放大而得到3個(gè)不同規(guī)格的圖像以緩慢移動(dòng)的方式顯示在顯示器上,使用分辨率為128×128的DVS記錄得到,每個(gè)樣本的記錄時(shí)長(zhǎng)為100 ms,像素分辨率為28×28.由于記錄到的MNIST-DVS數(shù)據(jù)集存在著由動(dòng)態(tài)背景引起的噪聲,其識(shí)別難度比標(biāo)準(zhǔn)MNIST數(shù)據(jù)集更高.Poker-DVS[13]數(shù)據(jù)集包含了分別為梅花、方塊、紅桃和黑桃4種不同花色的撲克牌,其分辨率為32×32.該數(shù)據(jù)集是通過在DVS攝像機(jī)記錄特制的撲克牌組2~4 s,每張卡片可在屏幕上顯示20~30 ms,最終獲得131個(gè)包含著4種花色樣本的DVS數(shù)據(jù)集.Posture-DVS[14]數(shù)據(jù)集包含了分別為彎腰、坐下和站立、行走3種不同的人類活動(dòng)姿態(tài)共484個(gè)樣本,其分辨率為32×32.這些數(shù)據(jù)集均是由DVS記錄得到的,會(huì)造成顏色信息的缺失和受到動(dòng)態(tài)環(huán)境引起的噪聲事件影響,人眼識(shí)別這些樣本也是存在一定的難度.
3.2.1 MK-Tempoton的抗噪性
本部分將使用兩種脈沖輸入模式P+和P-,分別對(duì)Tempotron和MK-Tempotron訓(xùn)練后得到的膜電位進(jìn)行對(duì)比實(shí)驗(yàn),給出其中的兩組實(shí)驗(yàn)結(jié)果如下圖2所示.
兩組不同的輸入脈沖P+和P-模式如下圖2(a)所示,其中:黑色代表P+模式,灰色代表P-模式.對(duì)于P+和P-模式都由10個(gè)輸入神經(jīng)元組成,時(shí)間窗口大小為255 ms,輸入神經(jīng)元將在時(shí)間窗口內(nèi)隨機(jī)地發(fā)放脈沖.
圖2 Tempotron和MK-Tempotron抗噪性實(shí)驗(yàn)的兩組對(duì)比數(shù)據(jù)Fig.2 Comparison of Tempotron and MK-Tempotron in anti-noise perfomance
使用兩組不同的P+和P-模式輸入得到初始權(quán)重時(shí)的神經(jīng)元膜電位分別如圖2(b)的黑色實(shí)線和灰色虛線所示,由圖2(b)可看出,此突觸后神經(jīng)元在接收到P+和P-模式的輸入脈沖時(shí),P+和P-模式的膜電位均沒超過閾值Vthr=1,即突觸后神經(jīng)元在接收到輸入的兩種脈沖模式后均沒有發(fā)放,因此在初始化權(quán)重的情況下無法正確區(qū)分P+和P-模式.
對(duì)此,下面將分別使用Tempotron和MK-Tempotron算法對(duì)突觸權(quán)重進(jìn)行訓(xùn)練,以使得其能在P+模式下發(fā)放,而在P-模式下不發(fā)放.Tempotron算法在兩組P+和P-模式下訓(xùn)練后的神經(jīng)元膜電壓如圖2(c)所示,MK-Tempotron算法在兩組P+和P-模式下訓(xùn)練后的神經(jīng)元膜電壓如圖2(d)所示.
由圖2(c)-2(d)可看出使用Tempotron和MK-Tempotron訓(xùn)練后,突觸后神經(jīng)元都能夠正確分類.在P+模式下使用了MK-Tempotron訓(xùn)練得到的神經(jīng)元膜電壓在最大值處到Vthr=1的距離更遠(yuǎn),在P-模式下得到的神經(jīng)元膜電壓在最大值處到Vthr=1的距離同樣更遠(yuǎn),而使用了Tempotron訓(xùn)練后,在P+和P-模式下得到的神經(jīng)元膜電壓最大值處到Vthr=1的距離非常近.因此,使用MK-Tempotron算法具有更強(qiáng)的抗噪性能,但是在有噪聲存在時(shí),MK-Tempotron 算法更能使輸出神經(jīng)元作出正確的響應(yīng).
3.2.2 MK-Tempotron與Tempotron的比較
使用MK-Tempotron算法和Tempotron算法應(yīng)用于本文的DVS數(shù)據(jù)分類方法,在上述3個(gè)DVS數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),每種方法重復(fù)實(shí)驗(yàn)10次取其平均值,每次實(shí)驗(yàn)將隨機(jī)抽取90%的樣本作為訓(xùn)練集,剩余的10%樣本作為測(cè)試集,結(jié)果如表2所示.
表2 MK-Tempotron與Tempotron實(shí)驗(yàn)比較Table 2 MK-Tempotron and Tempotron experimental
如表2實(shí)驗(yàn)結(jié)果所示,MK-Tempotron算法使用在本文的方法中,在DVS數(shù)據(jù)集MNIST-DVS,Poker-DVS,Posture-DVS上的識(shí)別精度比使用Tempotron 算法的識(shí)別精度分別提高了2.59%,3.33%,4.13%,實(shí)驗(yàn)結(jié)果表明MK-Tempotron算法在存在背景噪聲的DVS數(shù)據(jù)集中也能達(dá)到較好的抗噪性能,從而使識(shí)別精度有所提升.
其中:實(shí)驗(yàn)中各個(gè)數(shù)據(jù)集所使用的膜延遲時(shí)間常數(shù)τm,突觸電流延遲時(shí)間常數(shù)τs,MSD的時(shí)間窗口大小tk,事件流卷積的泄漏率μ,核函數(shù)K1和K2的變化量系數(shù)a和b的值如表3所示.
表3 實(shí)驗(yàn)參數(shù)Table 3 Experimental parameters
為進(jìn)一步驗(yàn)證本文方法(MSD+Gabor+MK-Tempotron)的性能,本文將其與事件包+支持向量機(jī)[4](bag of events+support vector machines,BOE+SVM)和Gabor+Hausdorff[15]方法進(jìn)行識(shí)別精度和分類效率的比較.在BOE+SVM方法中,利用連續(xù)事件的聯(lián)合概率分布對(duì)每個(gè)輸入事件進(jìn)行表征,然后使用SVM對(duì)特征進(jìn)行分類,該基于概率統(tǒng)計(jì)的方法有著良好的識(shí)別精度和分類效率.在Gabor+Hausdorff的方法中,使用Gabor濾波器能夠較好地提取目標(biāo)尺度和位移不變性的線段特征,然后采用結(jié)合動(dòng)態(tài)聚類的改進(jìn)Hausdorff距離分類器進(jìn)行分類,該方法能對(duì)DVS數(shù)據(jù)集有著良好的識(shí)別效果.
本部分仍使用MNIST-DVS,Poker-DVS和Posture-DVS數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),每種方法重復(fù)實(shí)驗(yàn)十次取其平均值,每次實(shí)驗(yàn)將隨機(jī)抽取90%的樣本作為訓(xùn)練集,剩余的10%樣本作為測(cè)試集,實(shí)驗(yàn)中本文方法所使用的參數(shù)值如表3所示.實(shí)驗(yàn)結(jié)果如表4所示.
由表4可知,本文方法在MNIST-DVS數(shù)據(jù)集的識(shí)別精度比Gabor+Hausdorff方法提高了14.61%,相比BOE+SVM方法識(shí)別精度提高了3.29%.由于BOE+SVM方法使用了SVM[21]進(jìn)行分類,不需要訓(xùn)練分類器,因此分類耗時(shí)最短.而本文的方法與Gabor+Hausdorff方法相比較,由于在特征提取過程中使用到MAX操作以及在分類中采用可以直接根據(jù)地址訪問權(quán)重查找表的SNN算法,因此使得分類效率有很大幅度的提升.本文的方法在MNIST-DVS數(shù)據(jù)集上的識(shí)別精度比BOE+SVM和Gabor+Hausdorff方法更高,而且有著很高的分類效率,從而證明了本文所使用的特征提取方法以及MK-Tempotron分類算法是十分有效的.
在Poker-DVS數(shù)據(jù)集中,3種方法的識(shí)別精度非常接近,盡管本文的方法在此數(shù)據(jù)集上的識(shí)別精度沒有超過另外兩種方法,但與識(shí)別精度最高的方法相比僅有1.34%的差距,也能達(dá)到91.66%的高識(shí)別精度水準(zhǔn),其差距在只有131個(gè)樣本的數(shù)據(jù)集中并不大.與此同時(shí),本文的方法與Gabor+Hausdorff方法相比仍然保持著較高的分類效率水準(zhǔn),因此,本文方法在Poker-DVS數(shù)據(jù)集的實(shí)驗(yàn)中與另外兩個(gè)方法一樣能達(dá)到較高的分類性能.而在Posture-DVS數(shù)據(jù)集的實(shí)驗(yàn)中,本文方法的識(shí)別精度最高可達(dá)到100%,經(jīng)過十次實(shí)驗(yàn)取其平均值最終能達(dá)到99.74%的識(shí)別精度,比BOE+SVM和Gabor+Hausdorff方法分別提高了7.86%和1.08%.在分類效率方面,與Gabor+Hausdorff方法相比有著絕對(duì)的優(yōu)勢(shì).如表4所示,實(shí)驗(yàn)結(jié)果表明本文方法,在能達(dá)到理想的識(shí)別精度同時(shí),也能保持著較高的分類效率,從而證明本文方法是有效可行的.
表4 本文方法與同類方法實(shí)驗(yàn)對(duì)比Table 4 Comparison of methods in this paper with similar methodss
本文主要針對(duì)DVS數(shù)據(jù)分類系統(tǒng)中,事件流的時(shí)域ROI定位與分割問題,提出一種精確時(shí)序MSD進(jìn)行事件流時(shí)域ROI的精確定位,解決了現(xiàn)有方法不能根據(jù)不同物體運(yùn)動(dòng)自適應(yīng)地設(shè)定最佳檢測(cè)閾值、無法對(duì)靜態(tài)場(chǎng)景中少量背景噪聲進(jìn)行過濾等問題.此外,針對(duì)已有SNN學(xué)習(xí)算法抗噪性差的問題,提出了一種抗噪性能好的SNN學(xué)習(xí)算法MK-Tempotron,該算法通過在訓(xùn)練過程中對(duì)兩種不同的輸入脈沖模式分別采用兩個(gè)不同的核函數(shù)調(diào)整神經(jīng)元膜電位,使得即使在存在背景噪聲的DVS數(shù)據(jù)中,輸出神經(jīng)元也能作出正確的響應(yīng).本文所提出的方法,與基于事件的BOE+SVM和Gabor+Hausdorff的同類方法相比,識(shí)別率能獲得高達(dá)14.61%的提升.