莫建文,李晉,蔡曉東,陳錦威
(桂林電子科技大學 信息與通信學院,廣西 桂林 541004)
生物特征識別身份的系統(tǒng)非常有吸引力,它們易于使用且安全系數(shù)高,因此研究者們對這些人體固有的生理或行為特征的研究也日益增多.Wang 等[1]提出動態(tài)類池化方法來存儲和更新身份特征,在不犧牲性能的情況下,節(jié)省時間和成本.Zhu 等[2]提出全局-局部交叉注意和成對交叉注意來實現(xiàn)各類圖像間的信息交互,學習到細微特征可以提高行人識別準確率.Ye 等[3]提出一種基于二維卷積神經(jīng)網(wǎng)絡(luò)(two dimensional convolutional neural network, 2D-CNN)和門控循環(huán)單元(gated recurrent unit,GRU) 的深度神經(jīng)網(wǎng)絡(luò) (deep neural network,DNN) 模型,實現(xiàn)說話人的身份識別等.當特征采集器獲取特征出現(xiàn)誤差時,由于現(xiàn)實場景的復雜性,僅僅采用單一生物特征很難維持身份識別的穩(wěn)定性;當單一生物特征無法滿足現(xiàn)實需求時,研究者們便嘗試以多生物特征的豐富性來應(yīng)對現(xiàn)實情況的復雜性.Ye 等[4]使用可見圖像生成輔助灰度模態(tài),挖掘可見圖片特征與對應(yīng)圖片的紅外特征之間的結(jié)構(gòu)關(guān)系,解決白天和夜間因存在光線差異的目標身份識別問題.Qian 等[5]有效地結(jié)合人臉信息和語音信息,顯著地提高個人身份驗證系統(tǒng)的性能.Sarangi 等[6]提出一種基于耳朵和人臉輪廓的多模態(tài)生物識別系統(tǒng),組合2 個有效的局部特征,產(chǎn)生高維特征向量.在頻域和空間域中保留互補信息,彌補了耳朵特征進行身份識別時的缺點,也提高了整體的身份識別準確率.在社區(qū)安全問題中,指紋、語音、人臉、行人等則是需要特定的前端設(shè)備和安裝角度的位置相互配合.現(xiàn)有的監(jiān)控設(shè)備大都不具備這種配合條件,因此在這種場景下動態(tài)的目標識別就變得比較困難.目前尚未發(fā)現(xiàn)有研究通過人臉和行人特征的融合來解決類似的問題,如何組合人臉特征與行人特征并產(chǎn)生魯棒性更強的目標身份特征是亟待解決的問題.
目前常用的多模態(tài)特征融合方法[7]有聯(lián)合表示和協(xié)調(diào)表示等,聯(lián)合表示常用的是Concat 方法直接拼接產(chǎn)生維數(shù)更高的特征或Add 方法將2 個特征向量組合成復合向量,而協(xié)調(diào)表示則是學習協(xié)調(diào)子空間中的每個模態(tài)的分離但約束表示.Concat 方法是簡單拼接的方法,雖然豐富了目標身份特征信息,但是使得冗余信息增加,會對身份判決帶來強干擾.受多生物特征融合[8]的啟發(fā),本研究設(shè)計出門控特征融合網(wǎng)絡(luò)(gated feature fusion network,GFFN),考慮各部分特征的融合程度,在豐富特征信息的同時,也避免冗余信息帶來的誤判.針對本研究的目標多分類問題,交叉熵損失函數(shù)雖然能實現(xiàn)類間區(qū)分,但是類內(nèi)的距離卻沒有進行約束.當不同人的穿著或相貌相似時,類間距離減少;當同一人受拍攝角度或者光線強度等影響時,類內(nèi)距離增大,則會出現(xiàn)類間距離小于類內(nèi)距離的情況.Dickson 等[9]發(fā)現(xiàn)將平方和誤差損失函數(shù)與交叉熵損失函數(shù)混合使用可以提高網(wǎng)絡(luò)性能,結(jié)合現(xiàn)實應(yīng)用與Wen 等[10]的損失函數(shù)融合思想,通過加入中心損失對分類網(wǎng)絡(luò)進行類內(nèi)距離約束,使得提取的特征判別性更強.
由于攝像頭角度、抓拍距離、目標活動及光線明暗程度等現(xiàn)實情況的影響,使得監(jiān)控場景下人臉數(shù)據(jù)的有效性受限,從而導致人臉識別網(wǎng)絡(luò)的準確率急劇下降.受多模態(tài)特征融合的啟發(fā),在實際應(yīng)用中考慮到人臉與行人特征各自的價值以及在不同場景下所受到的技術(shù)約束,對兩者各自的優(yōu)勢進行融合應(yīng)用,采用的門控融合網(wǎng)絡(luò)可以指導神經(jīng)網(wǎng)絡(luò)去綜合考慮人臉和行人特征的貢獻量,有效地緩解因單生物特征信息模糊而導致識別準確率低的現(xiàn)象.GFFN 模型的整體框架如圖1 所示.
GFFN 模型的輸入模塊如圖2 所示,Qf為人臉特征,Qp為行人特征.輸入待識別的圖片,使用Insightface 人臉識別模型[11]和PCB+RPP 行人識別模型[12]進行特征提取.
圖2 GFFN 的輸入模塊Fig.2 Input module for GFFN
將得到的2 個特征送入特征融合模塊進行融合,組合出更加豐富且有效的身份特征.
1.2.1 特征相加融合 如圖3(a)所示,相加融合是指特征值相加,通道數(shù)不變,將2 個特征向量組合成復合向量.
圖3 多種特征融合方法圖Fig.3 Map of multiple feature fusion methods
1.2.2 特征拼接融合 如圖3(b)所示,拼接融合是指將2 個特征進行首尾拼接.當通道數(shù)增加時,[·,·]為向量首尾拼接符.
1.2.3 軟注意力融合 如圖3(c)所示,Shon 等[13]提出一種基于軟注意力的融合方式,在兩兩輸入特征之間進行互補平衡.通過注意力層fatt(·) 得到各生物特征的注意力得分:
式中:ez為加權(quán)融合特征,為Qx經(jīng)過全連接(fully connected,F(xiàn)C)層后的生物特征,Q為最終的組合特征, αf為人臉的加權(quán)融合系數(shù), αp為行人的加權(quán)融合系數(shù).具體計算過程為
1.2.4 門控特征融合 如圖3(d)所示,門控機制是應(yīng)用在GRU 或長短期記憶(long short term memory,LSTM)網(wǎng)絡(luò)等循環(huán)網(wǎng)絡(luò)中的流量控制部件,使用的門控特征融合結(jié)構(gòu)[5].在結(jié)合特征融合優(yōu)勢的同時,重點在決策層面進行優(yōu)化控制.GFFN 設(shè)計的目的是將不同的生物特征數(shù)據(jù)進行組合并找到最優(yōu)表示.每個Qx對應(yīng)于與每個生物特征相關(guān)聯(lián)的特征向量,經(jīng)過雙曲正切函數(shù)的激活,該函數(shù)旨在對特定特征的內(nèi)部進行映射編碼.對于每個激活后的特征Qx,通過一個門控神經(jīng)元(在圖中由sigmoid 函數(shù)輸出表示)控制輸入.當新ID 數(shù)據(jù)被輸入到網(wǎng)絡(luò)時,門控神經(jīng)元接收拼接后的特征向量作為輸入,并使用它們來決定生物特征Qx對整體識別任務(wù)做出的貢獻量,門控學習機制的數(shù)學原理為
式中: tanh 為雙曲正切函數(shù),Ws、Wi為網(wǎng)絡(luò)學習到的權(quán)重參數(shù),S為門控網(wǎng)絡(luò)的權(quán)值分配系數(shù), σ 為sigmoid 函數(shù).
為了不同特征的組合找到最優(yōu)的表示,模型以人臉512 維特征和行人3 072 維特征作為輸入,都經(jīng)過一個FC 層,該層還包括歸一化層(batch normalization,BN)和Drop_out 層.BN 層的加入是為了加快網(wǎng)絡(luò)的訓練和收斂、控制梯度爆炸和防止梯度消失;Drop_out 層則可以防止訓練過擬合,整體是為了得到更加緊湊和區(qū)分性更強的特征.人臉特征和行人特征的輸出維度均為1 024,再用雙曲正切函數(shù)進行激活.最初輸入的人臉特征和行人特征進行首尾拼接后,以及經(jīng)過相同的FC 層操作后,得到1 024 維融合特征,使用式(4)得到分配2 個特征的權(quán)值系數(shù).最后用權(quán)值系數(shù)與人臉特征和行人特征分別進行對應(yīng)元素相乘并相加,得到最終的特征表示,再通過損失層進行ID 預測分類.
在一般的識別任務(wù)中,訓練集和測試集的所有類別都會有對應(yīng)標簽,如著名的Mnist 和ImageNet 數(shù)據(jù)集,里面包含的每個類別是確定的.大多網(wǎng)絡(luò)最終采用Softmax 損失函數(shù)進行監(jiān)督訓練,得到的深度特征都具有良好的類間區(qū)分性.身份識別任務(wù)存在類間復雜及類內(nèi)多樣的問題,預先收集所有測試目標的信息是不切實際的,因此需要網(wǎng)絡(luò)學習到的特征具有較強的判別性.
中心距離損失的設(shè)計主要是為了緩解類間距離小于類內(nèi)距離導致識別有誤的情況,通過尋找每一類特征的中心,以度量學習的形式懲罰所學特征與它類中心的距離即縮小同類樣本之間的距離.Wen 等[10]通過以手寫數(shù)字分類任務(wù)為例(Mnist數(shù)據(jù)集),展示網(wǎng)絡(luò)最終的輸出特征在二維空間的分布.類間距離雖然被區(qū)分,但是仍存在類內(nèi)距離過大的情況,于是提出Center Loss 來約束類內(nèi)距離.本研究借鑒減少類內(nèi)距離的思想,將門控分類與中心損失結(jié)合產(chǎn)生新的損失函數(shù)為
式中:La為門控分類損失;Lb為中心距離損失;M和N分別為小批次中的圖片數(shù)量和類別數(shù);xi為屬于類別yi的第i個特征,xi∈Rd;d為特征的維數(shù);和為網(wǎng)絡(luò)訓練的權(quán)重參數(shù);cy,i為特征的第yi個類中心,cy,i∈Rd; λ 為平衡2 種損失的權(quán)值超參數(shù),經(jīng)實驗效果對比將其設(shè)置為0.2 最佳.門控分類損失與中心距離損失在深度神經(jīng)網(wǎng)絡(luò)中的融合結(jié)構(gòu)如圖4 所示.
圖4 門控分類損失和中心距離損失的連接圖Fig.4 Connection diagram of gated classification loss and center distance loss
為了抓拍到豐富的行人姿態(tài),在某高校人口流動穩(wěn)定的路段安裝了12 臺監(jiān)控抓拍設(shè)備.在若干天的固定時間段下,收集到約 4×106張行人流動圖,利用已開源的行人檢測和人臉檢測技術(shù),裁剪出單個目標行人的整體圖片和對應(yīng)的人臉圖片,經(jīng)過人工數(shù)據(jù)處理和篩選,最終得到ID 數(shù)為1 392 的行人和人臉數(shù)據(jù)集(G-campus1392),如圖5 所示.
圖5 G-campus1 392 數(shù)據(jù)集樣例Fig.5 Dataset of sample G-campus1392
為了驗證實驗的有效性和穩(wěn)定性,將數(shù)據(jù)集以隨機抽取的方式分成3 組(Randomdata1、Randomdata2、Randomdata3),如表1 所示,其中Nu為圖片數(shù)量.類比公開的行人數(shù)據(jù)集Market1501 中訓練集和測試集的ID 數(shù)比例,隨機抽取的各組數(shù)據(jù)集中訓練集和測試集ID 數(shù)均為696 個,并且每個ID 都有5 組行人—人臉庫圖片用于測試環(huán)節(jié)的距離度量.由于人臉圖片是從行人圖片中裁剪得到,以表1 中的圖片數(shù)量來表示行人或人臉圖片數(shù)量.
表1 G-campus1392 數(shù)據(jù)集的圖片數(shù)量Tab.1 Number of images in G-campus1392 dataset
本研究以表征學習的形式來訓練識別模型,最后的全連接層維數(shù)等于類別數(shù).在測試時,需要利用的是訓練網(wǎng)絡(luò)的特征提取能力,并且訓練集和測試集的ID 不能共享,因此會丟棄最后的全連接層.為了保證實驗的合理性,對單行人、單人臉、各種融合方法均采用ID 分類網(wǎng)絡(luò)進行訓練.將所有方法中網(wǎng)絡(luò)的全連接層數(shù)和超參數(shù)進行統(tǒng)一,取全連接層之前的1 024 維特征作為輸出特征,便于后續(xù)的距離度量.
實驗的評價指標是重識別任務(wù)(re-identification, ReID)中常用的識別準確率(accuracy,ACC)和平均準確率(mean average precision,mAP).為了真實刻畫目標識別的合理性與真實性,計算庫中每個ID 的5 張圖片與待測試的圖片之間的歐式距離,采用加和求平均數(shù)的方法得到平均距離.當平均距離最小的庫ID 與待測試圖片ID 相同時,則該測試圖片識別正確,所有測試圖片(總數(shù)記為 AllID)中識別正確的個數(shù)記為 T rueID,則ACC的計算為
ACC 指標則是統(tǒng)計識別正確個數(shù)占總ID 數(shù)的比重.為了能夠更加全面的衡量ReID 算法的性能,采用mAP 指標來反映檢索的人在數(shù)據(jù)庫中所有正確圖片排在序列表前面的程度,其計算式為
式中:E為總查詢次數(shù),m∈(1,E) ;i為查詢中返回的圖片數(shù)量;為第m次查詢中,返回的前i張圖片中識別成功的個數(shù);j為第m次查詢結(jié)束時,識別正確圖片的總個數(shù).
為了驗證所提方法的有效性,實驗部分對比了圖3 中的3 種特征融合方法,也將單一特征的分類識別結(jié)果與各融合方法進行對比.在現(xiàn)實監(jiān)控場景下,人臉和行人的特征融合,能夠彌補單一特征信息丟失的不足.
在試驗中,通過對比單一特征識別結(jié)果、多特征識別結(jié)果以及是否加入中心距離損失來驗證所提方法的有效性.
2.4.1 各識別方法的實驗結(jié)果分析 在控制網(wǎng)絡(luò)層和超參數(shù)的前提下,計算ACC 值和mAP 值,實驗結(jié)果如表2 所示.從表2 可知,人臉識別的準確率最低.在現(xiàn)實情況及非配合情況下,人臉識別準確率確實會受到較大的影響.3 組數(shù)據(jù)的人臉和行人平均識別準確率分別為40.574%、54.818%,行人特征相比于人臉具有較高的魯棒性.在多特征融合方法中,特征相加融合的平均準確率為59.16%,這種求和方式默認2 種特征的貢獻量是相同的,所得平均值容易因質(zhì)量差的特征產(chǎn)生偏差.首尾拼接融合的平均準確率為61%,該方法將2 個特征均放入網(wǎng)絡(luò)中組合訓練,缺點是整體的性能會因損壞的特征數(shù)據(jù)而下降.
表2 多種識別方法的結(jié)果對比Tab.2 Comparison of results of multiple identification methods
以上2 種融合方法都是靜態(tài)的特征融合,而軟注意力融合與本研究的門控特征融合都是動態(tài)的特征融合方式,兩者的平均準確率分別為63.6%、73.0%.從實驗結(jié)果看,多特征的動態(tài)組合不僅能彌補單一特征信息缺失的不足,也能緩解多特征融合存在冗余的問題.兩者雖都為動態(tài)融合,但兩者在動態(tài)程度上存在差別,軟注意力機制會重點關(guān)注某一特征,并且會綜合考慮所有特征,最終所得的權(quán)值系數(shù)很難取到極端值.在現(xiàn)實應(yīng)用場景下,人臉往往模糊到無法獲取有用的特征甚至是干擾的信息.本研究的門控方法采用sigmoid函數(shù)進行權(quán)值分配,由于該函數(shù)的平滑性和取值特征,考慮到的因素更多,更適合現(xiàn)實場景下的應(yīng)用.不難發(fā)現(xiàn),本研究的門控特征融合方法帶來的提升效果是顯著且穩(wěn)定的.
2.4.2 中心距離損失效果分析 對于多分類問題,不可避免的就是類內(nèi)與類間距離的大小問題,所提的融合損失能夠針對該問題進行優(yōu)化.各分類方法在表2 的實驗基礎(chǔ)上,加上中心距離損失重新訓練和測試.ACC 值和mAP 值如下表3、4 所示,其中L1 為分類任務(wù)中常用的交叉熵損失,L2 為所提的融合損失.
表4 分類網(wǎng)絡(luò)增加中心距離損失后的mAP 值Tab.4 mAP value of classification network after increasing center distance loss%
通過觀察表3、4 的實驗結(jié)果可以發(fā)現(xiàn),ACC 值和mAP 值在加入中心距離損失后均有提升,各方法的平均準確率分別提高3.0%、5.6%、7.2%、9.5%、8.1%、2.6%.各方法在加上中心距離損失訓練后,隨著類中心距離在訓練過程中不斷更新調(diào)整,有效緩解樣本由于類間距離小于類內(nèi)距離而導致判決錯誤的情況.6 類方法的平均準確率先上升后下降,當2 個特征進行融合后,融合特征的類內(nèi)距離會隨之增加.為了使得融合后的類內(nèi)特征距離更加緊湊,加入中心距離損失,改善因類內(nèi)距離過大而出現(xiàn)誤判的情況,單特征改善情況則不會那么顯著.本研究的門控方法加入損失后的提升效果雖不如其他方法明顯,是因為特征的有效性已經(jīng)接近上限,同時也反映出本研究特征融合方式是緊湊的.
2.4.3 錯誤樣本分析 以上述實驗結(jié)果中的門控損失和距離loss 實驗結(jié)果為例,整理出4 組錯誤的典型樣本如圖6 所示.每組左邊為測試樣本,右邊為模型識別出的錯誤結(jié)果.從圖6 來看,當人臉模糊或不配合、行人衣服顏色相似時,即使采用融合方式,模型在應(yīng)對2 個特征信息不準的情況下,魯棒性表現(xiàn)的都不夠強,這表明不僅融合算法存在挑戰(zhàn),單行人或人臉識別模型的特征提取也有待改進.數(shù)據(jù)集的豐富性也會影響結(jié)果,當訓練量足夠多時,現(xiàn)實場景下的目標識別率也會進一步提升.
圖6 所提方法的錯誤樣本Fig.6 Error samples of proposed method
由于本研究數(shù)據(jù)集由項目合作方提供,暫時沒有取得公開權(quán)限,讀者可以搜集多個公開數(shù)據(jù)集如Market1501 等.在使用能夠看到人臉和行人的數(shù)據(jù)時,可以與本研究相當?shù)臄?shù)據(jù)量進行重現(xiàn)測試,也可以根據(jù)介紹的數(shù)據(jù)集制作流程,重新制作數(shù)據(jù)集進行復現(xiàn).
本研究提出了一種基于門控多特征融合與中心損失的動態(tài)目標識別方法.以門控的方式將行人特征與人臉特征進行動態(tài)融合,產(chǎn)生更強的類間區(qū)分性特征,可以彌補單一特征在現(xiàn)實場景下由于信息丟失導致識別準確率下降的問題.將中心距離損失與門控分類損失結(jié)合,隨著類中心距離的更新,類內(nèi)距離不斷縮小,使得特征更具判別能力.在自制數(shù)據(jù)集實驗結(jié)果中,監(jiān)控場景下的特征融合方法可以有效降低目標識別的誤判概率.在實際場景下,會出現(xiàn)待識別目標被遮擋、更換衣服或監(jiān)控環(huán)境光強變化等復雜情況,這樣會導致特征融合產(chǎn)生不了更強的特征,反而會組合產(chǎn)生干擾特征,因此進一步的研究可從如何提取強魯棒性的特征或訓練出帶有記憶的識別網(wǎng)絡(luò)2 個方向來展開.