馬路寬
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
行人屬性識(shí)別(Pedestrian Attribute Recognition,PAR),其目的是在給定的行人物圖像中挖掘目標(biāo)人物的屬性。與LBP[1]、HOG[2]等低級(jí)別像素特征不同,行人屬性是更高級(jí)的語(yǔ)義特征,是符合人們?nèi)粘C枋鲆粋€(gè)人外貌特征認(rèn)知思維的詞語(yǔ)。相較于計(jì)算機(jī)視覺(jué)中的其他任務(wù),行人屬性識(shí)別中數(shù)據(jù)集包含許多不同層次的標(biāo)簽。例如,頭發(fā)的長(zhǎng)短、上下衣服的顏色、衣服的款式、是否戴帽子、是否戴眼鏡等被看作是特定的細(xì)顆粒度屬性,這些屬性的關(guān)鍵位置都在圖像的不同的局部區(qū)域,而有些屬性是全局的概念,如行人的性別、年齡等,并不對(duì)應(yīng)于特定的局部區(qū)域,需要綜合的特征分析,這些屬性被認(rèn)為高級(jí)屬性。
隨著行人屬性識(shí)別在計(jì)算機(jī)視覺(jué)領(lǐng)域越來(lái)越多的被學(xué)者研究,越來(lái)越多的數(shù)據(jù)集被公開(kāi)出來(lái),表1 列舉了目前認(rèn)可度較高的數(shù)據(jù)集,其中常用的數(shù)據(jù)集有PETA[3]、Market-1501[4]和Duke-MTMC[4]。
行人屬性識(shí)別常用的評(píng)價(jià)標(biāo)準(zhǔn)主要采用平均準(zhǔn)確度(mean Accuracy,mA)[3]評(píng)價(jià)屬性識(shí)別算法。對(duì)于行人每一個(gè)表情屬性,mA 分別計(jì)算正樣本和負(fù)樣本的分類準(zhǔn)確率,然后取其均值作為該屬性的識(shí)別結(jié)果。最后,計(jì)算所有屬性的平均值得到識(shí)別率。公式如下:
其中L為屬性的數(shù)量。TPi和TNi分別為預(yù)測(cè)正確的正例數(shù)和負(fù)例數(shù),Ti和Ni分別為正例數(shù)和負(fù)例數(shù)。
表1 行人屬性識(shí)別數(shù)據(jù)集
傳統(tǒng)的行人屬性識(shí)別方法通常采用手工提取特征,依賴于強(qiáng)大的分類器最終的目的是得到某一圖像的特征表示。常用的分類模型包括HOG[2]、SIFT[9]、條件隨機(jī)場(chǎng)模型[10],Layne 等人[12]首先使用支持向量模型(SVM)解決屬性識(shí)別問(wèn)題。Deng 等人[3]利用SVM 和馬爾可夫隨機(jī)場(chǎng)進(jìn)行屬性識(shí)別,構(gòu)建了行人屬性數(shù)據(jù)集PETA。然而,這些解決思路對(duì)特征的提取都是使用傳統(tǒng)手工的方法,不能有效地表示圖像,忽略了對(duì)屬性識(shí)別任務(wù)重要的屬性之間的關(guān)系。伴隨著問(wèn)題規(guī)模的擴(kuò)大,和場(chǎng)景復(fù)雜度的提高,這些算法很難勝任一些苛刻的要求,無(wú)法滿足實(shí)際應(yīng)用的要求。而且傳統(tǒng)的算法并沒(méi)有很好的利用屬性之間的關(guān)聯(lián)性。
行人屬性識(shí)別可以視為一個(gè)多標(biāo)簽分類問(wèn)題,如果不考慮標(biāo)簽之間的關(guān)聯(lián)性可以簡(jiǎn)單的視為多個(gè)單獨(dú)的二值分類問(wèn)題進(jìn)行處理[13],但是行人的屬性在一定程度上存在關(guān)聯(lián)性,例如穿著紅色衣服并且長(zhǎng)頭發(fā)其性別屬性在很大程度上傾向于女性,標(biāo)定后的標(biāo)簽排序算法[14],該算法考慮了成對(duì)標(biāo)簽之間的相關(guān)性,將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為標(biāo)簽排序問(wèn)題。
隨機(jī)k-Labelsets 算法[15],它將多標(biāo)簽分類問(wèn)題轉(zhuǎn)化為多個(gè)分類問(wèn)題的集合,每個(gè)集合中的分類任務(wù)是一個(gè)多分類器。多類分類器需要學(xué)習(xí)的類別是所有標(biāo)簽的子集。
多標(biāo)簽行人屬性識(shí)別的常規(guī)流程如圖1 所示。為了提高輸入圖像的質(zhì)量,矯正變形,減少噪聲干擾,增強(qiáng)圖像特征,提高訓(xùn)練模型的魯棒性通常都需要對(duì)圖像進(jìn)行預(yù)處理操作,常用的預(yù)處理方法有歸一化、隨機(jī)裁剪、灰化等。首先將預(yù)處理之后的行人圖像輸入,提取其特征表示(如HOG、SIFT),然后根據(jù)提取的特征訓(xùn)練一個(gè)分類器來(lái)預(yù)測(cè)相應(yīng)的屬性。
圖1 多標(biāo)簽行人屬性識(shí)別的常規(guī)流程
(1)基于全局的方法
全局的方法是考慮圖片的所有信息,將整張圖片輸入給神經(jīng)網(wǎng)絡(luò)處理。
Sudow 等人[16]提出一種針對(duì)所有屬性聯(lián)合訓(xùn)練CNN 識(shí)別模型的方法,針對(duì)所有能夠利用這些依賴關(guān)系的屬性,只考慮圖像作為輸入,而不考慮行人的姿態(tài)、局部信息或環(huán)境信息。并提出了一個(gè)真實(shí)的戶外視頻序列的數(shù)據(jù)集PARSE-27k,這是一個(gè)更大的、排列良好的屬性數(shù)據(jù)集,并使用它來(lái)評(píng)估檢查模型的性能相關(guān)因素。其中包含27000 個(gè)行人,每個(gè)行人標(biāo)注10個(gè)屬性。有創(chuàng)意的是由于遮擋、圖像邊界原因而無(wú)法確定屬性的被標(biāo)記為N/A。
Li 等人[17]提出兩個(gè)基于深度學(xué)習(xí)的模型來(lái)識(shí)別屬性。首先,將每個(gè)屬性視為互相獨(dú)立的,提出了基于深度學(xué)習(xí)的單屬性識(shí)別模型DeepSAR,單獨(dú)地對(duì)每個(gè)屬性進(jìn)行識(shí)別,為了有效地利用屬性間的相關(guān)性,提出了統(tǒng)一的多屬性聯(lián)合學(xué)習(xí)框架DeepMAR 來(lái)同時(shí)識(shí)別多屬性。在DeepMAR 中,一個(gè)屬性可以用于表示其他屬性。
Abdulnabi 等人[18]提出分類器之間共享統(tǒng)計(jì)信息的方法,采樣不足的分類器可以利用來(lái)自其他分類器的共享信息來(lái)提高其性能。具體的做法是,通過(guò)一個(gè)多任務(wù)CNN 模型來(lái)學(xué)習(xí)二元語(yǔ)義屬性,每一個(gè)CNN 預(yù)測(cè)一個(gè)二值屬性。多任務(wù)學(xué)習(xí)允許CNN 模型在不同屬性類別之間同時(shí)共享視覺(jué)知識(shí)。每個(gè)CNN 都會(huì)生成屬性特有的特征表示,然后對(duì)特征進(jìn)行多任務(wù)學(xué)習(xí)來(lái)預(yù)測(cè)它們的屬性。
基于整體的行人屬性識(shí)別算法都是將整個(gè)圖像作為輸入,進(jìn)行多任務(wù)學(xué)習(xí),嘗試學(xué)習(xí)最健壯的特性表征,并且屬性之間的信息可以共享。共享使用特性,端到端的學(xué)習(xí),算法的優(yōu)點(diǎn)是較為直觀、復(fù)雜度低、效率高,但由于缺乏對(duì)局部細(xì)粒度屬性識(shí)別的考慮,這些學(xué)習(xí)模型的性能仍然有待提高。
(2)基于局部特征的方法
局部特征更符合人們判斷他人衣著、外表屬性的思維模式。
為確定圖片中行人的屬性常常需要檢測(cè)一些不顯眼的對(duì)象和特性,Diba 等人[19]提出一種新的卷積神經(jīng)網(wǎng)絡(luò)——Deep Pattern CNN 模型來(lái)解決這一問(wèn)題,該模型可以挖掘中層圖像小塊區(qū)域,能夠有效地利用細(xì)微的局部信息。該模型既利用圖片的上下文信息,又通過(guò)迭代學(xué)習(xí)和局部區(qū)域聚類挖掘中層圖像的紋理來(lái)進(jìn)行人的屬性識(shí)別。
Li 等人[20]提出PGDM 模型,PGDM 首先估計(jì)人的關(guān)鍵點(diǎn),同時(shí)生成局部區(qū)域,然后把這些基于區(qū)域的特征表示綜合起來(lái),用于姿態(tài)引導(dǎo)下的行人屬性識(shí)別。由于在現(xiàn)有的行人屬性數(shù)據(jù)集中沒(méi)有姿態(tài)標(biāo)注,對(duì)現(xiàn)有的行人屬性數(shù)據(jù)集進(jìn)行人體姿態(tài)的標(biāo)注是一件十分耗時(shí)和困難的工作。該模型將位姿知識(shí)應(yīng)用和局部區(qū)域信息關(guān)聯(lián)起來(lái),一起應(yīng)用在屬性識(shí)別中,具體的做法是將人體關(guān)鍵點(diǎn)作為先驗(yàn),在這些關(guān)鍵點(diǎn)附近找到匹配的局部區(qū)域,然后將所有的關(guān)鍵點(diǎn)相關(guān)區(qū)域綜合起來(lái)進(jìn)行行人屬性識(shí)別。
Huang 等人[21]提出在自由環(huán)境下識(shí)別人的屬性的方法。選用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)從所有小波子檢測(cè)中選擇最能描述屬性的人體部分,以行人為中心的上下文通過(guò)在CNN 中共同學(xué)習(xí)到的全局場(chǎng)景分類評(píng)分來(lái)重新為以人為中心的預(yù)測(cè)打分,從而產(chǎn)生最終的場(chǎng)景感知預(yù)測(cè)。使用語(yǔ)義組織的上下文從相關(guān)的人體局部和整個(gè)圖像的上下文。為了防止全局場(chǎng)景上下文在一些不那么相關(guān)的物體對(duì)屬性識(shí)別的干擾,只將全局場(chǎng)景特征作為互補(bǔ)信號(hào),并將它們映射到CNN 的場(chǎng)景分類分?jǐn)?shù)中。
Liu 等人[22]提出一種新的定位引導(dǎo)網(wǎng)絡(luò),可以預(yù)先提取的建議和屬性位置之間的關(guān)聯(lián)性,為局部特征分配特定屬性的權(quán)重。該模型可以自動(dòng)學(xué)習(xí)每個(gè)屬性的局部特征,并通過(guò)與全局特征的交互來(lái)強(qiáng)調(diào)局部特征。在兩個(gè)行人屬性基準(zhǔn)PA-100K 和RAP 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明該模型的識(shí)別效果較好。
本小節(jié)算法都結(jié)合了全局和細(xì)粒度局部特征。相較于只考慮全局信息的算法,局部信息的使用顯著提高了算法的識(shí)別性能。也更符合人類的判斷方法。但基于局部信息的算法同時(shí)也存在著一些缺陷,例如,最終的識(shí)別結(jié)果很大程度上受局部定位準(zhǔn)確度的影響,錯(cuò)誤的局部特征檢測(cè)會(huì)導(dǎo)致錯(cuò)誤的屬性分類等。另外由于考慮到人體部位的信息必然需要更多的訓(xùn)練時(shí)間和代價(jià),在數(shù)據(jù)集上,一些現(xiàn)有的數(shù)據(jù)集并沒(méi)有局部信息的標(biāo)注,需要額外標(biāo)注局部特征屬性標(biāo)簽,這無(wú)疑進(jìn)一步增加了人力成本。
(3)基于注意力機(jī)制的方法
Liu、Zhao 等人[23]提出一種新的基于注意力的深度神經(jīng)網(wǎng)絡(luò),稱為HydraPlus-Net,它可以多方向地將多層次注意力映射輸入到不同的特征層。該模型能夠從低層次到語(yǔ)義層次捕獲多個(gè)關(guān)注,探索了關(guān)注特征的多尺度選擇性,豐富了行人的最終特征表示。對(duì)行人細(xì)粒度屬性,提出了一種基于多方向性注意模塊的多頭聯(lián)立網(wǎng)絡(luò)(HydraPlus Network,HP-Net)。在此基礎(chǔ)上,并且提出了一種新的大規(guī)模行人屬性數(shù)據(jù)集(PA100K dataset),包括最大數(shù)量的行人圖像和實(shí)例。
Sarfraz 等人[24]提出端到端感知視圖屬性預(yù)測(cè)模型,在端到端學(xué)習(xí)框架中確定了屬性依賴的關(guān)系,除了依賴于身體部位、圖像中的屬性空間上下文或一般場(chǎng)景上下文的流行觀點(diǎn)之外,粗糙的身體姿態(tài)信息可以是另一個(gè)簡(jiǎn)單但高度相關(guān)的可靠屬性推斷線索,并提出姿態(tài)視圖敏感屬性推理能夠更好地學(xué)習(xí)屬性預(yù)測(cè)。
Sarafianos[25]提出了一種有效的方法來(lái)提取和聚合不同尺度的視覺(jué)注意力遮罩。通過(guò)引入了一個(gè)損失函數(shù)來(lái)處理類和實(shí)例級(jí)別上的類不平衡,并進(jìn)一步證明帶有高預(yù)測(cè)方差的懲罰注意掩模是導(dǎo)致注意機(jī)制的監(jiān)管不力的原因。算法在PETA 和更大屬性數(shù)據(jù)集中使用簡(jiǎn)單的注意機(jī)制,無(wú)需附加上下文或附加信息,就能獲得很好的識(shí)別率。
Guo 等人[26]提出使用類激活圖網(wǎng)絡(luò)(CAM)來(lái)識(shí)別人的屬性,并通過(guò)細(xì)化注意力熱圖來(lái)進(jìn)一步改進(jìn)識(shí)別,注意力熱圖是CAM 的中間結(jié)果,反映了每個(gè)屬性的相關(guān)圖像區(qū)域。該方法不需要身體部位的檢測(cè)以及身體部位與屬性之間的先驗(yàn)對(duì)應(yīng)關(guān)系。定義一個(gè)新的指數(shù)損失函數(shù)來(lái)度量注意力熱圖的適宜性,根據(jù)原有的分類損失函數(shù)和新的指數(shù)損失函數(shù)對(duì)屬性分類器進(jìn)行進(jìn)一步的訓(xùn)練。該方法是在帶有CAM 的端到端CNN 網(wǎng)絡(luò)上開(kāi)發(fā)的,通過(guò)添加一個(gè)新的組件來(lái)細(xì)化注意力熱圖。
雖然有眾多學(xué)者研究行人屬性識(shí)別領(lǐng)域,并提出很多解決的算法,但是由于問(wèn)題場(chǎng)景的復(fù)雜性,行人屬性識(shí)別仍然存在這很大的挑戰(zhàn),在實(shí)際的監(jiān)控場(chǎng)景中,由于攝像機(jī)的拍攝角度不同會(huì)造成同一個(gè)人的觀察視角不同,對(duì)識(shí)別效果產(chǎn)生的影響較大,使人的屬性識(shí)別變得更為復(fù)雜。另外由于戶外的場(chǎng)景不定性很強(qiáng),行人軌跡可以看作是隨機(jī)的,另外其他車輛、廣告牌等物體可能出現(xiàn)在行人之前,從而遮擋行人,造成行人身體一部分的信息缺失,這顯然增加了屬性識(shí)別的難度甚至?xí)?dǎo)致錯(cuò)誤的分類結(jié)果。由于行人和監(jiān)控?cái)z像頭的距離都比較遠(yuǎn),所以造成圖像的分辨率較低,給一些細(xì)粒度屬性的識(shí)別增加了難度,這也是很難采用人臉識(shí)別的原因之一。另外,室外光線的強(qiáng)度、數(shù)據(jù)分布不均等因素也給行人屬性識(shí)別增加了挑戰(zhàn)。
目前主要的研究還是基于行人圖片的屬性識(shí)別,而現(xiàn)實(shí)場(chǎng)景主要是視頻幀,考慮單張圖片有遮擋、角度問(wèn)題,可以考慮視頻幀之間的連續(xù)性,例如遮擋問(wèn)題,可以進(jìn)行視頻多幀之間的彌補(bǔ),視頻作為圖像的高維信息,如何準(zhǔn)確、高效地利用這些高維度信息來(lái)識(shí)別行人的屬性是一個(gè)值得研究的問(wèn)題。
本文介紹了行人屬性識(shí)別的概念背景以及評(píng)估的方法,另外介紹了部分現(xiàn)有工作,主要闡述了早期基于傳統(tǒng)的識(shí)別算法以及深度學(xué)習(xí)的方法在行人屬性識(shí)別領(lǐng)域的應(yīng)用,包括基于全局的算法和基于局部細(xì)粒度屬性的算法并介紹了基于注意力機(jī)制的算法,并介紹了行人屬性識(shí)別存在的問(wèn)題難點(diǎn),對(duì)未來(lái)的工作做出了展望。