李 洋 許華虎 卞敏捷
1(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院 上海 200444) 2(上海建橋?qū)W院信息技術(shù)學(xué)院 上海 201306)
行人屬性,如性別、頭發(fā)和衣服等,是重要的視覺線索,也是對(duì)人的外表的語義描述。行人屬性作為視頻監(jiān)控中的軟生物學(xué)特征,可應(yīng)用于行人檢測(cè)、行人跟蹤、行人再識(shí)別、行人搜索、行為識(shí)別[1]。屬性作為高級(jí)語義特征,與低級(jí)視覺特征相比,具有許多優(yōu)點(diǎn),如對(duì)圖像條件變化的魯棒性。因此,許多計(jì)算機(jī)視覺任務(wù)將屬性信息集成到其算法中,以獲得更好的性能。然而,從現(xiàn)實(shí)世界的監(jiān)控圖像中自動(dòng)識(shí)別行人屬性非常具有挑戰(zhàn)性,其原因在于:(1) 由于光線、分辨率低、遮擋和模糊等原因,圖像質(zhì)量不夠好;(2) 即使對(duì)于同一行人屬性,由于不同的視角和人體的非剛性,在不同的圖像中可能會(huì)發(fā)生明顯的外觀和位置變化;(3) 由于隱私保護(hù)等原因,較難對(duì)監(jiān)控圖像中的行人屬性數(shù)據(jù)進(jìn)行采集和標(biāo)注,導(dǎo)致可用的數(shù)據(jù)集比較小,數(shù)據(jù)分布也不平衡。這些因素使得行人屬性識(shí)別成為一項(xiàng)具有挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)。
為應(yīng)對(duì)這些挑戰(zhàn),一個(gè)有效的方法是發(fā)掘行人屬性之間的相互依賴性和相關(guān)性,例如,“女性”和“裙子”這兩個(gè)屬性可能同時(shí)出現(xiàn)在一個(gè)人的圖像中,這種相關(guān)性為行人屬性識(shí)別提供了較好的補(bǔ)充推理約束。然而,現(xiàn)有的方法對(duì)行人屬性進(jìn)行分別預(yù)測(cè),忽略了屬性之間的互相關(guān)性和空間關(guān)系等可以提高行人屬性識(shí)別性能的重要信息,導(dǎo)致行人屬性識(shí)別的準(zhǔn)確率不夠理想。
針對(duì)上述存在的問題,本文將行人屬性識(shí)別作為一項(xiàng)時(shí)空序列多標(biāo)簽圖像分類任務(wù),提出一種新的CNN-ATT-ConvLSTM模型。該模型由用于屬性特征提取的卷積神經(jīng)網(wǎng)絡(luò)(CNN)、重新調(diào)整相關(guān)特征響應(yīng)的基于通道的注意力機(jī)制(Channel-wise Attention Mechanism)和挖掘不同屬性之間相關(guān)性和空間信息的卷積長(zhǎng)短期記憶網(wǎng)絡(luò)(ConvLSTM)組成。本文主要貢獻(xiàn)如下:(1) 為了更好地挖掘?qū)傩灾g的空間和語義互相關(guān)性,采用在輸入到狀態(tài)和狀態(tài)到狀態(tài)轉(zhuǎn)換中使用了卷積運(yùn)算的ConvLSTM。通過疊加多個(gè)ConvLSTM,建立一個(gè)端到端可訓(xùn)練模型,從預(yù)測(cè)行人屬性序列中提取時(shí)空相關(guān)信息。(2) 利用通道注意力機(jī)制提取預(yù)測(cè)行人屬性的最相關(guān)、最顯著的視覺特征,據(jù)我們所知,這是首次將通道注意力機(jī)制用于行人屬性識(shí)別。(3) 進(jìn)行了深入的實(shí)驗(yàn)來分析驗(yàn)證本文方法,并在兩個(gè)常用的行人屬性基準(zhǔn)數(shù)據(jù)集PETA[2]和RAP[3]上與其他7個(gè)先進(jìn)的模型進(jìn)行了廣泛深入的對(duì)比。結(jié)果表明,本文提出的CNN-ATT-ConvLSTM模型獲得了更好的性能。
早期的行人屬性識(shí)別方法通常利用手工提取的特征(如紋理和顏色直方圖)開發(fā)具有魯棒性的特征表示[4-5]。屬性間相關(guān)性被認(rèn)為是提高預(yù)測(cè)性能的額外信息,例如基于圖模型的方法,通過使用條件隨機(jī)場(chǎng)或馬爾可夫隨機(jī)場(chǎng)來捕獲屬性的共現(xiàn)可能性[6-7]。然而,這些算法在處理大規(guī)模屬性時(shí)計(jì)算成本很高,而且基于手工特征的識(shí)別能力差。對(duì)大規(guī)模數(shù)據(jù)的評(píng)估報(bào)告表明,這些傳統(tǒng)算法的性能遠(yuǎn)遠(yuǎn)不能滿足實(shí)際應(yīng)用的要求。
近年來,深度學(xué)習(xí)在多層非線性變換的自動(dòng)特征提取方面取得了巨大成功,也被廣泛用于行人屬性識(shí)別中。文獻(xiàn)[8]提出了一個(gè)基于CNN的DeepMAR模型,并開發(fā)了一個(gè)加權(quán)的Sigmoid交叉熵?fù)p失來處理屬性不平衡問題。文獻(xiàn)[9]利用多標(biāo)簽CNN并將行人圖像分成15個(gè)重疊的身體部分,這些部分被獨(dú)立過濾并聚集在代價(jià)函數(shù)中。為了利用屬性之間的關(guān)系,文獻(xiàn)[10]提出了一個(gè)屬性卷積網(wǎng)(ACN)來聯(lián)合訓(xùn)練所有屬性的模型。為了進(jìn)一步探討屬性之間的關(guān)系,文獻(xiàn)[11]首次利用CNN-RNN結(jié)構(gòu)進(jìn)行行人屬性識(shí)別,RNN的使用不僅可以學(xué)習(xí)圖像與屬性之間的復(fù)雜映射關(guān)系,而且可以利用屬性之間的依賴關(guān)系,顯著提高性能。文獻(xiàn)[12]探討了行人屬性識(shí)別中的注意模型,提出了多方向注意力模塊,訓(xùn)練多層次、多尺度的注意力以增強(qiáng)特征。文獻(xiàn)[13]也探討了屬性之間的關(guān)系,并提出了聯(lián)合循環(huán)學(xué)習(xí)(JRL)模型。JRL在一個(gè)統(tǒng)一的框架中學(xué)習(xí)人與人之間的圖像上下文和人與人之間的屬性關(guān)聯(lián)。文獻(xiàn)[14]是第一個(gè)探索利用行人身體結(jié)構(gòu)知識(shí)(即行人姿態(tài))進(jìn)行行人屬性識(shí)別的,他們首先使用預(yù)先訓(xùn)練的姿態(tài)估計(jì)模型來估計(jì)給定人體圖像的關(guān)鍵點(diǎn)。然后,根據(jù)這些關(guān)鍵點(diǎn)提取局部區(qū)域和整個(gè)圖像的深層特征,用于行人屬性識(shí)別。文獻(xiàn)[15]提出一種聯(lián)合注意力模型(JCM)進(jìn)行行人屬性識(shí)別,可以一次預(yù)測(cè)任意長(zhǎng)度的多個(gè)屬性值,避免了屬性在映射表中不同排列的影響。文獻(xiàn)[16]提出了兩種模型,即用于行人屬性識(shí)別的重復(fù)卷積(RC)和重復(fù)注意力(RA)。采用RC模型,利用卷積LSTM模型挖掘不同屬性組之間的相關(guān)性,RA模型利用組內(nèi)空間位置和組間注意力相關(guān)性來提高最終性能。
本文將行人屬性識(shí)別作為一個(gè)時(shí)空序列的多標(biāo)簽分類問題,設(shè)計(jì)一個(gè)CNN-ATT-ConvLSTM模型。圖1展示了該模型的結(jié)構(gòu)。它主要由三個(gè)部分組成,即多標(biāo)簽分類的CNN、基于通道的注意力機(jī)制和ConvLSTM。CNN用于提取給定行人圖像的視覺特征。通道注意力機(jī)制自適應(yīng)地計(jì)算通道注意力權(quán)重并重新調(diào)整視覺特征響應(yīng),以提取預(yù)測(cè)屬性的最相關(guān)和最顯著的視覺特征。ConvLSTM進(jìn)一步利用視覺特征和隱藏狀態(tài)在優(yōu)化的預(yù)測(cè)序列中逐個(gè)預(yù)測(cè)行人屬性標(biāo)簽,通過在內(nèi)部存儲(chǔ)狀態(tài)保持上下文信息,挖掘?qū)傩灾g的相關(guān)性。
圖1 CNN-ATT-ConvLSTM模型結(jié)構(gòu)
行人屬性具有很強(qiáng)的相關(guān)性,例如,在一個(gè)人的圖像中,女人和長(zhǎng)頭發(fā)通常同時(shí)出現(xiàn),而男人和裙子幾乎從不同時(shí)出現(xiàn)。為便于發(fā)掘?qū)傩蚤g的相關(guān)性,本文把行人屬性識(shí)別作為序列任務(wù),對(duì)行人屬性進(jìn)行逐個(gè)識(shí)別并在序列預(yù)測(cè)的過程中逐步充分挖掘?qū)傩蚤g的相關(guān)性。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為一種專門為處理序列數(shù)據(jù)樣本而設(shè)計(jì)的網(wǎng)絡(luò),其每一層不僅輸出到下一層,還輸出一個(gè)隱藏狀態(tài),供當(dāng)前層在處理下一個(gè)樣本時(shí)使用。RNN擅長(zhǎng)挖掘樣本之間的相關(guān)性。
長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[17]是RNN的一個(gè)進(jìn)化版本,它解決了RNN中梯度爆炸和梯度消失的問題。本文利用LSTM挖掘?qū)傩灾g的相關(guān)性,對(duì)屬性進(jìn)行逐一預(yù)測(cè),在預(yù)測(cè)后續(xù)屬性時(shí),LSTM可以參考包含歷史信息的隱藏狀態(tài)。雖然LSTM在序列建模任務(wù)中表現(xiàn)出了強(qiáng)大的能力,但普通的LSTM在處理圖像時(shí)忽略了圖像的空間信息。這是由于普通LSTM通過全連接層對(duì)序列信息進(jìn)行建模,并將輸入圖像展平為一維矢量,這就導(dǎo)致圖像空間信息的丟失,不利于行人屬性識(shí)別性能的提高。為了保持行人屬性的空間結(jié)構(gòu),本文在網(wǎng)絡(luò)模型中使用卷積LSTM(ConvLSTM)[18]代替標(biāo)準(zhǔn)的LSTM。在ConvLSTM中,卷積運(yùn)算用于輸入到狀態(tài)和狀態(tài)到狀態(tài)的轉(zhuǎn)換,它比標(biāo)準(zhǔn)LSTM能夠更好地捕獲屬性的空間信息,從而使得在模型中使用ConvLSTM可以更好地挖掘行人屬性的相關(guān)性,其公式如下:
(1)
式中:下標(biāo)t表示ConvLSTM的第t步;xt表示輸入數(shù)據(jù);ht表示隱藏狀態(tài);ct表示存儲(chǔ)單元的狀態(tài);it、ft和ot分別是ConvLSTM的輸入門、遺忘門和輸出門;W和b是需要學(xué)習(xí)的權(quán)重和偏差;*、°、σ和tanh分別表示卷積運(yùn)算、元素乘法、Sigmoid函數(shù)和tanh函數(shù)。這里的xt、ct、ht、it、ft、ot都是三維張量,并且在狀態(tài)到狀態(tài)轉(zhuǎn)換和輸入到狀態(tài)轉(zhuǎn)換時(shí)采用卷積運(yùn)算,從而得以保留行人屬性特征的空間信息。此外,卷積運(yùn)算實(shí)際上具有隱式空間注意力的效果,因?yàn)榕c目標(biāo)行人屬性相對(duì)應(yīng)的區(qū)域通常具有較高的激活響應(yīng)。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)ConvLSTM能關(guān)注行人屬性標(biāo)簽預(yù)測(cè)的關(guān)鍵區(qū)域,比普通的LSTM獲得更好的結(jié)果。ConvLSTM的內(nèi)部結(jié)構(gòu)如圖2所示。
圖2 ConvLSTM內(nèi)部結(jié)構(gòu)
對(duì)于行人屬性識(shí)別,不同的圖像區(qū)域?qū)Σ煌膶傩灶A(yù)測(cè)具有不同的重要性,比如在預(yù)測(cè)頭發(fā)相關(guān)屬性時(shí),上部分圖像區(qū)域更重要,而對(duì)于鞋子相關(guān)屬性的預(yù)測(cè)時(shí),圖像下部分區(qū)域更重要。有必要對(duì)屬性特征進(jìn)行更深入識(shí)別,并保留相關(guān)的空間信息以提高屬性識(shí)別的準(zhǔn)確率。2.2節(jié)中描述的ConvLSTM具有隱式空間注意力的效果,能關(guān)注行人屬性相關(guān)的關(guān)鍵區(qū)域,能有效提供屬性識(shí)別的準(zhǔn)確率。不同的行人屬性除了在圖像中的區(qū)域不同外,在視覺特征上也有很大不同,比如頭發(fā)和鞋子的特征就有很大的差異。CNN的卷積核具有特征(模式)檢測(cè)的濾波作用,每個(gè)通道的特征其實(shí)就是表示該圖像在不同卷積核(濾波器)上的分量。通道注意力的作用是通過對(duì)特征圖各通道的依賴性進(jìn)行建模以提高網(wǎng)絡(luò)的特征表達(dá)能力,可以看作是語義屬性的選擇過程。通道注意力首先通過通道維度上的全局池化獲取各通道的全局信息,然后自適應(yīng)地建模通道之間的相關(guān)性,并根據(jù)相關(guān)性對(duì)各通道進(jìn)行加權(quán)處理,實(shí)現(xiàn)特征響應(yīng)、重新校準(zhǔn)的目的。這樣網(wǎng)絡(luò)就可以有選擇性地加強(qiáng)包含有用信息的特征并抑制無用或作用不大的特征。本文設(shè)計(jì)采用了基于通道的注意力機(jī)制,利用更多可識(shí)別的相關(guān)特征來執(zhí)行行人屬性識(shí)別任務(wù),把ConvLSTM的空間注意力和通道(特征)注意力相結(jié)合,以進(jìn)一步提高屬性識(shí)別性能。在本文提出的CNN-ATT-ConvLSTM模型中,ConvLSTM每步都將預(yù)測(cè)一個(gè)行人屬性標(biāo)簽,在模型中加入基于通道的注意力,在預(yù)測(cè)不同屬性標(biāo)簽時(shí)自適應(yīng)地調(diào)整不同特征響應(yīng)的權(quán)重。圖3顯示了該注意力機(jī)制的結(jié)構(gòu)。
圖3 模型中的基于通道的注意力機(jī)制
為了計(jì)算每個(gè)特征響應(yīng)通道的注意力權(quán)重,本文采用全局平均池化生成每個(gè)通道對(duì)應(yīng)的視覺特征的統(tǒng)計(jì)信息,作為基于通道的全局空間信息的描述。另外,為了根據(jù)先前預(yù)測(cè)的屬性標(biāo)簽自適應(yīng)地獲得通道注意力權(quán)重,本文也把ConvLSTM的隱藏狀態(tài)考慮到基于通道的統(tǒng)計(jì)信息中。這兩種統(tǒng)計(jì)信息的計(jì)算公式如下:
(2)
(3)
式中:xk和ht-1,k分別表示第k個(gè)通道(k=1,2,…,C)處的視覺特征和ConvLSTM先前的隱藏狀態(tài);fa表示全局平均池化函數(shù);ak和dk表示第k個(gè)通道的視覺特征和隱藏狀態(tài)的統(tǒng)計(jì)信息;W和H代表視覺特征的寬度和高度。在本文中,視覺特征和隱藏狀態(tài)具有相同的維度。
在獲得視覺特征和隱藏狀態(tài)的統(tǒng)計(jì)信息后,通過下式計(jì)算通道注意力權(quán)重:
zk=σ(w2δ(w1[ak,dk]+b1)+b2)
(4)
式中:w1、w2和b1、b2是要學(xué)習(xí)的權(quán)重和偏差;δ表示用于非線性映射的ReLU函數(shù);[-,-]是連接操作;σ表示將注意力權(quán)重標(biāo)準(zhǔn)化為(0,1)之間的Sigmoid函數(shù)。最后,通過對(duì)各通道原始特征和注意力權(quán)重進(jìn)行加權(quán)計(jì)算,得到重新調(diào)整后的特征:
(5)
本文以一種優(yōu)化的順序?qū)π腥藢傩詷?biāo)簽逐一進(jìn)行預(yù)測(cè)。在計(jì)算每一步預(yù)測(cè)的損失時(shí),首先把ConvLSTM的三維隱藏狀態(tài)展平為一維矢量,然后用于行人屬性標(biāo)簽的預(yù)測(cè)。
pt=σ(wpht+bp)
(6)
式中:pt∈[0,1]是第t個(gè)屬性標(biāo)簽的預(yù)測(cè)輸出概率;σ是Sigmoid函數(shù);ht是展平的隱藏狀態(tài);wp和bp是學(xué)習(xí)到的權(quán)重和偏差。
每一步預(yù)測(cè)的損失計(jì)算如下:
(7)
(8)
式中:T表示所有的行人屬性類的數(shù)量。
為了進(jìn)行有效評(píng)估,本文使用兩個(gè)最大的公共行人屬性數(shù)據(jù)集:PETA數(shù)據(jù)集[2]和RAP數(shù)據(jù)集[3]。這兩個(gè)數(shù)據(jù)集中有大量低分辨率、遮擋和雜亂背景的行人圖像,對(duì)行人屬性識(shí)別有很大挑戰(zhàn)。
PETA數(shù)據(jù)集:包括從10個(gè)小規(guī)模行人屬性數(shù)據(jù)集匯集的19 000幅行人圖像。每個(gè)行人有65個(gè)屬性(61個(gè)二值屬性和4個(gè)多值屬性)。本文將整個(gè)數(shù)據(jù)集隨機(jī)分為三個(gè)不重疊的分區(qū):9 500幅圖像用于訓(xùn)練,1 900幅圖像用于驗(yàn)證,7 600幅圖像用于測(cè)試評(píng)估。
RAP數(shù)據(jù)集:共有41 585幅來自26個(gè)室內(nèi)監(jiān)控?cái)z像機(jī)的圖像。每個(gè)行人有72個(gè)屬性(69個(gè)二值屬性和3個(gè)多值屬性)。本文采用其中任意33 268幅圖像進(jìn)行訓(xùn)練,其余8 317幅圖像進(jìn)行測(cè)試。
為了公平比較,本文采用和文獻(xiàn)[3]相同的51個(gè)二值屬性進(jìn)行評(píng)估,并且將兩個(gè)數(shù)據(jù)集的多值屬性都轉(zhuǎn)換為二值屬性。
本文采用兩種方法和四種指標(biāo)來評(píng)估行人屬性識(shí)別的性能。
基于類的評(píng)估:對(duì)于每個(gè)屬性類,分別計(jì)算其正樣本和負(fù)樣本的分類準(zhǔn)確度,取其平均值以獲得該屬性類的平均準(zhǔn)確度,然后再對(duì)所有屬性類的平均準(zhǔn)確度計(jì)算平均值(mAP)作為一項(xiàng)評(píng)價(jià)指標(biāo)[6]。
基于實(shí)例的評(píng)價(jià):上述基于類的評(píng)價(jià)方法獨(dú)立對(duì)待每個(gè)屬性,忽略了多屬性識(shí)別問題中存在的屬性間相關(guān)性。因此,本文還使用基于實(shí)例的評(píng)估方法來衡量每個(gè)實(shí)例(圖像)的屬性預(yù)測(cè)精度和召回率。與假設(shè)屬性間相互獨(dú)立的mAP不同,基于實(shí)例的評(píng)價(jià)方法還考慮屬性間相關(guān)性。本文根據(jù)標(biāo)注好的真實(shí)屬性標(biāo)簽計(jì)算每個(gè)測(cè)試圖像的預(yù)測(cè)屬性的精度和召回率,然后對(duì)所有測(cè)試圖像計(jì)算精度和召回率的平均值,得出平均精度(mPrc)和平均召回率(mRcl)。本文還計(jì)算了基于mPrc和mRcl的F1值[3],用mAP、mPrc、mRcl和F1這四個(gè)指標(biāo)進(jìn)行全面的評(píng)價(jià)。
為了加速收斂,采用兩階段訓(xùn)練策略。第一階段主要是對(duì)CNN進(jìn)行培訓(xùn),本文將CNN轉(zhuǎn)換為多標(biāo)簽分類框架,用T個(gè)神經(jīng)元代替輸出層(T代表行人屬性類的數(shù)量),采用多標(biāo)簽Sigmoid激活函數(shù)和交叉熵?fù)p失函數(shù),基于ImageNet預(yù)訓(xùn)練的CNN模型進(jìn)行微調(diào)和訓(xùn)練。第二階段,移除CNN的全連接層并固定其他參數(shù)。然后基于CNN提取的特征,從零開始訓(xùn)練ConvLSTM和通道注意力模型。
本文采用TensorFlow實(shí)現(xiàn)所提出的模型,CNN使用多標(biāo)簽版本的Inception-v3[19]。兩個(gè)階段都采用Adam優(yōu)化器,第一階段沖量值為0.9,第二階段沖量值為0.999,第二階段采用Xavier初始化。為避免過擬合,兩個(gè)階段都采用隨機(jī)失活(dropout)和L2正則化,隨機(jī)失活率設(shè)置為0.5,L2正則化權(quán)重為0.000 5。學(xué)習(xí)率初始化為0.000 1,損失穩(wěn)定后以10倍衰減。
本節(jié)將本文方法與其他7種當(dāng)時(shí)領(lǐng)先(state-of-the-arts)的方法進(jìn)行比較,包括3種基于CNN的方法和4種基于CNN-RNN聯(lián)合模型的方法。其中DeepMAR[8]、ACN[10]、HP-net[12]、JRL[13]、RA[16]在1.2小節(jié)已有描述,這里不再累述。CTX[20]是一個(gè)基于CNN-RNN的序列預(yù)測(cè)模型,用于編碼場(chǎng)景上下文和行人間的關(guān)系,以便提取圖像中的行人屬性。SR[21]是一個(gè)很好的多標(biāo)簽圖像分類模型,它利用標(biāo)注好的屬性標(biāo)簽進(jìn)行有監(jiān)督的深度學(xué)習(xí)和更豐富的圖像嵌入學(xué)習(xí)。
本文方法與其他方法比較的實(shí)驗(yàn)結(jié)果如表1和表2所示。通過分析結(jié)果可以得出以下結(jié)論:(1) RAP上所有方法的性能都低于PETA,這表明RAP數(shù)據(jù)集更具挑戰(zhàn)性。(2) 本文提出的CNN-ATT-ConvLSTM模型在兩個(gè)數(shù)據(jù)集的mAP、mRcl和F1指標(biāo)上都取得最好的性能,在mPrc指標(biāo)上取得與最好的方法相當(dāng)?shù)男阅???紤]到要在兩個(gè)數(shù)據(jù)集上獲得所有評(píng)價(jià)指標(biāo)都最好是非常困難的,本文方法獲得了非常好的結(jié)果。
表1 在數(shù)據(jù)集PETA上與其他方法的性能對(duì)比 %
表2 在數(shù)據(jù)集RAP上與其他方法的性能對(duì)比 %
實(shí)驗(yàn)結(jié)果清楚地表明本文提出的CNN-ATT-ConvLSTM模型在行人屬性識(shí)別中的優(yōu)勢(shì)。這主要是因?yàn)樵撃P驮陬A(yù)測(cè)不同的屬性標(biāo)簽時(shí),不僅能有效地處理最相關(guān)的屬性特征,而且能保持視覺特征的空間信息,這有利于充分挖掘?qū)傩韵嚓P(guān)性從而提高行人屬性識(shí)別的性能。
為了驗(yàn)證本文模型(CNN-ATT-ConvLSTM)中卷積LSTM和基于通道的注意力機(jī)制的有效性,將其與CNN的多標(biāo)簽版本進(jìn)行比較,并與其他一些基于CNN-RNN框架的方法進(jìn)行比較,包括CNN-LSTM、包含注意力的CNN-ATT-LSTM、沒有注意力的CNN-ConvLSTM、包含基于空間注意力機(jī)制的CNN-SA-ConvLSTM。為了進(jìn)行公平比較,所有CNN-RNN框架都使用與本文模型相同的CNN(即Inception-v3)。
實(shí)驗(yàn)結(jié)果如表3和表4所示,可以看出,本文提出的CNN-ATT-ConvLSTM模型取得了最好的性能。CNN-LSTM在沒有注意力機(jī)制的情況下,性能下降較多,這表明行人屬性識(shí)別任務(wù)中不同區(qū)域?qū)Σ煌瑢傩缘闹匾砸约白⒁饬C(jī)制的有效性。CNN-ConvLSTM與CNN-ATT-LSTM得到了相似的結(jié)果,這表明ConvLSTM在相關(guān)區(qū)域空間信息提取中的有效性。圖4所示熱力圖為ConvLSTM在預(yù)測(cè)行人屬性時(shí)對(duì)該屬性相對(duì)應(yīng)的圖像區(qū)域通常具有較高的激活響應(yīng),表明ConvLSTM的卷積運(yùn)算實(shí)際上具有隱式空間注意力的效果。CNN-SA-ConvLSTM的結(jié)果比不含注意力機(jī)制的CNN-ConvLSTM略好,比本文的含通道注意力的CNN-ATT-ConvLSTM有較大差距,主要原因是基于空間的注意力機(jī)制與ConvLSTM隱含的空間注意能力在作用上有重疊,對(duì)行人屬性識(shí)別的性能提升不大。而通道注意力機(jī)制能基于特征相關(guān)性進(jìn)行加權(quán)調(diào)整和選擇,與ConvLSTM的空間相關(guān)性能力相結(jié)合,能有效提高行人屬性識(shí)別的性能??偟膩碚f,本文方法比其他方法表現(xiàn)得更好,這證明了本文的CNN-ATT-ConvLSTM模型的優(yōu)越性。
圖4 ConvLSTM在預(yù)測(cè)不同區(qū)域行人屬性時(shí)的熱力圖
表3 在數(shù)據(jù)集PETA上ConvLSTM和通道注意力效果分析 %
表4 在數(shù)據(jù)集RAP上ConvLSTM和通道注意力效果分析 %
行人屬性可以分為兩組:一組是全局屬性,如性別、年齡區(qū)間和體型等;另一組是局部屬性,如發(fā)型、服裝樣式和手提物等。預(yù)測(cè)順序是影響行人屬性識(shí)別性能的一個(gè)重要因素,本文提出優(yōu)化的預(yù)測(cè)順序,即先預(yù)測(cè)全局屬性再預(yù)測(cè)局部屬性。全局屬性通常不依賴其他屬性就可以預(yù)測(cè),例如,即使許多其他屬性不清楚,性別和年齡也比較容易被識(shí)別出來。因此應(yīng)盡量在序列的開頭進(jìn)行預(yù)測(cè),由全局視覺特征來確定,以避免被錯(cuò)誤的局部屬性標(biāo)簽所誤導(dǎo)。而先識(shí)別全局屬性對(duì)于預(yù)測(cè)其他相關(guān)的局部屬性非常有幫助。例如如果識(shí)別出一個(gè)行人的性別是女性,那么她留長(zhǎng)頭發(fā)的概率就更大。因此,在識(shí)別出性別屬性后再預(yù)測(cè)頭發(fā)長(zhǎng)度屬性時(shí),該屬性被正確識(shí)別的概率就大些。
本文把從全局屬性到局部屬性的優(yōu)化預(yù)測(cè)順序和隨機(jī)預(yù)測(cè)順序進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5和表6所示。表中所列的實(shí)驗(yàn)結(jié)果證實(shí)了本文的推論,即優(yōu)化順序的性能優(yōu)于隨機(jī)順序。
表5 在數(shù)據(jù)集PETA上優(yōu)化預(yù)測(cè)序列效果分析 %
表6 在數(shù)據(jù)集RAP上優(yōu)化預(yù)測(cè)序列效果分析 %
本文提出一種新的CNN-ATT-ConvLSTM模型,用于挖掘行人屬性的語義相關(guān)性和空間信息以提高行人屬性識(shí)別的性能。在該模型中,CNN與基于通道的注意力機(jī)制相結(jié)合以提取與所預(yù)測(cè)的行人屬性最相關(guān)的視覺特征,利用ConvLSTM挖掘?qū)傩缘南嚓P(guān)性并保存屬性的視覺特征空間信息,并以優(yōu)化的預(yù)測(cè)順序?qū)π腥藢傩詷?biāo)簽進(jìn)行逐個(gè)預(yù)測(cè)。實(shí)驗(yàn)證明該方法比許多現(xiàn)有的方法取得更好的行人屬性識(shí)別效果,體現(xiàn)了該方法的有效性和性能優(yōu)越性。在后續(xù)工作中將嘗試修改ConvLSTM內(nèi)部的門結(jié)構(gòu)并探討注意力機(jī)制與ConvLSTM的不同結(jié)合方式,以便更有效地挖掘行人屬性的相關(guān)性以進(jìn)一步提高行人屬性識(shí)別的效果。另外,我們將嘗試把有較強(qiáng)相關(guān)性或依賴性的屬性放在一起進(jìn)行預(yù)測(cè),增強(qiáng)屬性預(yù)測(cè)的約束,以提高行人屬性識(shí)別性能。