亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習的行人屬性識別綜述

2021-06-18 06:47:54武陽陽

西安郵電大學學報 2021年2期

劉穎,武陽陽,李娜

(1.西安郵電大學通信與信息工程學院，陜西西安 710121；2.西安郵電大學電子信息現(xiàn)場勘驗應用技術公安部重點實驗室，陜西西安 710121;3.西安郵電大學陜西省無線通信與信息處理技術國際聯(lián)合研究中心，陜西西安 710121)

隨著社會對公共安防問題的重視提升，智能視頻分析在安防領域中發(fā)揮著越來越重要的作用。在監(jiān)控視頻中，行人往往是安防事件的主體，若能在海量的監(jiān)控視頻中有效地利用好行人屬性信息，便會提升安防應對能力，減少人力成本。屬性信息是指可以表征行人外觀的特征，包括性別、身高和衣著等信息。對屬性的研究通常分為兩個方向：其一，使用屬性作為中間特征表示層，用于輔助其他任務的實現(xiàn)。例如，通過屬性進行目標檢測[1]或利用屬性識別提升人臉驗證功能[2]，目前屬性多用于行人檢測[3-5]、行人重識別[6-11]和行為識別[12-13]等任務中；其二，是專注于自然場景下攝像頭中行人屬性信息的識別[14-16]。傳統(tǒng)的屬性識別是通過先提取手工標注的特征，如顏色、紋理特征等，再利用支持向量機或馬爾可夫隨機場等分類器，進行屬性分類。隨著深度學習的快速發(fā)展，越來越多的學者把深度學習運用到行人屬性識別的領域，已成為目前該領域的主流研究方法。然而，在復雜的監(jiān)控視頻中有效地識別出屬性的細粒度特征，對于計算機視覺而言是一項極具挑戰(zhàn)性的任務[17-18]。

行人屬性識別方法主要分為基于傳統(tǒng)機器學習和深度學習的兩類方法。傳統(tǒng)方法包括特征提取和分類器兩個重要組成部分。如文獻[19]選取了顏色特征、紋理特征以及方向梯度直方圖(Histogram of Oriented Gradient，HOG)特征，通過機器學習中的K臨近算法(K-Nearest Neighbor,KNN)對特征進行分類。傳統(tǒng)機器學習的主要缺點是在訓練前需要進行特征工程，增加了工作量，也不能保證特征選取的合理性。深度學習網(wǎng)絡可以自動學習圖像的特征，從而進行端到端的分類學習，應對復雜監(jiān)控場景下行人外觀變化，改善傳統(tǒng)機器學習應用于行人屬性識別中存在的問題。將深度學習和傳統(tǒng)機器學習相結合，可在馬爾可夫隨機場下訓練核、帶高斯核的馬爾可夫隨機場以及帶隨機森林的馬爾可夫隨機場進行屬性識別[20]?，F(xiàn)有的基于深度學習的行人屬性識別分法大多采用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network，CNN)，雖然該網(wǎng)絡能更有效地提取出屬性的細粒度特征，但是不能對屬性和行人圖像連續(xù)性建模，因此，識別準確度較高的循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)架構被提出。

通過總結基于深度學習的行人屬性識別領域中已有的研究進展，分析對比不同算法的優(yōu)缺點。介紹常用的行人屬性識別數(shù)據(jù)庫及評價指標，并對行人屬性識別技術的發(fā)展趨勢進行展望，指出該領域的未來研究方向。

1 基于深度學習的行人屬性識別方法

基于深度學習的行人屬性識別方法大致可分為常規(guī)網(wǎng)絡、部件分割、注意力機制和序列檢測等4類。下面介紹4類方法的基本原理。

1.1 基于常規(guī)網(wǎng)絡的方法

基于常規(guī)網(wǎng)絡的方法是行人屬性識別方法中最基礎的方法，該類方法比傳統(tǒng)機器學習方法的識別率明顯提高。常用的卷積神經(jīng)網(wǎng)絡有LeNet[21]、AlexNet[22]、計算機視覺組[23](Visual Geometry Group,VGG)、ResidualNetwork[24]、GoogleNet[25]和Dense Network[26]等。這些網(wǎng)絡有很強的特征表示能力，圖像的不同特征可以由多個不同的卷積核提取出來。圖1為一個簡單的行人屬性識別過程。將監(jiān)控場景中提取的行人樣本輸入端到端的CNN中提取圖像特征，輸出的特征向量長度與需要識別的屬性數(shù)目相同，經(jīng)過交叉熵損失函數(shù)對網(wǎng)絡參數(shù)進行更新與訓練，最后輸出多個行人屬性標簽。

圖1 行人屬性識別過程

DeepSAR和DeepMAR兩個對比網(wǎng)絡均共享主干網(wǎng)絡，包含5個卷積層和3個全連接層[27]。DeepSAR網(wǎng)絡被用于單獨預測每個屬性，DeepMAR網(wǎng)絡則考慮到屬性之間的關聯(lián)性，利用帶有權重的交叉熵損失函數(shù)進行預測，其計算表達式為

(1)

其中：

He[28]等人采用殘差網(wǎng)絡[24]作為共享網(wǎng)絡，使用自適應加權的損失函數(shù)進行所有屬性的預測任務，其計算表達式為

(2)

其中：λj為第j個屬性的權重值；Ii為訓練的第i個圖像；Lij為第i個圖像的第j個屬性的真實標簽；φi(Ii;Θ)為經(jīng)過網(wǎng)絡操作Θ.<·>的每個圖像的屬性預測，Θ為神經(jīng)網(wǎng)絡參數(shù)。每K次迭代更新權重，但關鍵問題是很難衡量哪個任務最重要。損失函數(shù)的改進說明新的損失函數(shù)對于行人屬性識別任務是很有必要的。

上述方法均是采用將整幅圖像輸入到基礎網(wǎng)絡中提取屬性特征，并沒有考慮到圖像中的復雜背景對行人細粒度特征的影響，依然沒有解決根本問題。Zhou等[29]考慮到了這個問題，將弱監(jiān)督目標檢測技術引入到行人屬性識別任務中，該方法不僅可以預測屬性的存在性標簽，還可以對屬性進行定位，為進一步的識別提供位置信息。

1.2 基于部件分割的方法

基于部件分割的方法是將行人分成幾個部位進行識別，從而可以更好地提取顏色和紋理特征[30]。Zhu等[31]將整個行人圖像分成15部分，分別送入到同一個CNN提取特征，采用相應的局部部分進行特征融合，從而判斷是否具有某個屬性。例如，對于頭發(fā)屬性的判斷，只需要選擇肩以上的部分特征融合即可。

該類方法主要是結合局部和全局特征識別屬性的細粒度特征?；诓考指畹男腥藢傩宰R別網(wǎng)絡訓練流程如圖2所示。行人屬性識別的焦點集中在圖像中行人區(qū)域的部分，把行人圖像分割后，輸入到局部特征提取網(wǎng)絡中，再和全局網(wǎng)絡提取的特征融合訓練，以達到抑制嘈雜背景干擾的目的，提高行人屬性識別的準確率。

圖2 基于部件分割的行人屬性識別網(wǎng)絡訓練流程

Zhang等[32]提出了一種用于深度屬性建模的部件對齊網(wǎng)絡，用poslets[33]檢測出可能的行人部位，然后將網(wǎng)絡提取的所有特征疊加起來，為每個屬性訓練一個線性支持向量機(Support Vector Machine,SVM)分類器，一定程度上緩解了遮擋問題。文獻[34]則對人體姿勢進行估計，產生人體關鍵點。根據(jù)人體關鍵點信息，利用卷積神經(jīng)網(wǎng)絡自適應的產生邊界框，將身體全局圖像轉換為部分區(qū)域圖像，全局特征和不同的局部特征相結合可學習到強大的特征表示。端到端的局部和全局的卷積神經(jīng)網(wǎng)絡[35]強調了位置和邊緣信息，此方法的目的主要是讓背景和目標分離，只關注行人，減少背景對行人特征提取的影響。此外，還有將部件和序列檢測結合起來進行行人屬性識別的方法，在幾個常用行人屬性識別數(shù)據(jù)集上實驗，也都取得了不錯的識別效果[36-38]。

1.3 基于注意力機制的方法

基于注意力機制的方法就是關注于感興趣的區(qū)域，選擇一個具有代表性的局部特征進行下一步的跟蹤。

細粒度特征在很多任務中可見，如圖像識別、語義分割等，人們會針對于自己的問題從各個方向尋找解決辦法。文獻[39-41]是從特征融合角度進行改進的方法?，F(xiàn)階段，深度學習已成為特征提取的首選方法。在實際問題中，圖像的細粒度特征分布復雜，劃分的部件不一定適合其他圖像，這樣實現(xiàn)起來的效果肯定會不理想。文獻[42-46]從網(wǎng)絡結構上關注行人的細粒度屬性。如Liu[42]等人為解決圖像多尺度的問題提出HPNet網(wǎng)絡，該網(wǎng)絡能夠捕捉從低級到高層語義級的多個關注點，主要過程是先用主網(wǎng)絡(M-net)提取全局特征，再用多方向注意網(wǎng)絡(AF-net)提取多個分支的不同語義特征，最后進行特征融合。

卷積神經(jīng)網(wǎng)絡雖然在識別性能上有明顯提高，但還是存在一些客觀問題。例如，訓練樣本中數(shù)據(jù)的類別不平衡，將會使網(wǎng)絡模型的效果下降，考慮到這一不可忽視的問題，Sarafianos等[45]使用注意力聚合機制進行行人屬性識別，通過引入網(wǎng)絡對不同層的信息聚合幫助模型學習到更多具有判別性的特征，并且對屬性的不平衡進一步研究，用帶有加權變量的focal損失函數(shù)在處理屬性不平衡上有著更好的性能。還有一些將空間注意、標簽注意和行人注意聯(lián)合起來學習的基于注意力的行人屬性分析[47]也取得了不錯的結果。

1.4 基于序列預測的方法

利用深度學習找到對應位置上的屬性識別方法，是屬于多標簽分類的問題，而多標簽分類問題表現(xiàn)出很強的標簽依賴關系[48]。使用RNN可以顯式地建模標簽依賴關系，利用長短時記憶(Long Short-Term Memory，LSTM)網(wǎng)絡可在一定程度上減輕RNN存在的梯度消失問題。LSTM的結構如圖3所示。LSTM單元接收上一時刻的輸出隱藏狀態(tài)和當前輸入，通過輸入門、遺忘門以及輸出門更新狀態(tài)，并輸出當前結果。其中：遺忘門決定上一時刻的信息是否需要遺忘；輸入門決定當前時刻的信息是否需要保留；輸出門用于控制有多少信息從憶單元傳遞到下一時刻的隱藏狀態(tài)。

圖3 LSTM單元結構

因此,有方法采用基于CNN-LSTM的編碼-解碼框架，建立屬性與LSTM模型之間的相互依賴性和相關性。此方法用于行人屬性識別任務上的過程如圖4所示。

圖4 基于序列預測的行人屬性識別過程

Wang[49]等提出將CNN和LSTM結合，為了充分挖掘屬性上下文信息和屬性之間的關系，采用序列對序列模型處理此問題。首先，把給定的行人分割成m條水平帶，形成區(qū)域序列，然后利用LSTM網(wǎng)絡以順序的方式編碼。此方法在PETA數(shù)據(jù)集上取得了85.67%的識別準確率。Zhao[37]等則是先把屬性按位置分組，比如頭部屬性包括發(fā)長、眼鏡和帽子等，再采用人體關鍵點檢測技術，融合全局和局部特征，利用LSTM對屬性組中的空間和語義相關性進行建模。該混合框架在PETA數(shù)據(jù)集上取得了86.7%的識別率。為了更好地利用屬性的空間相關性，Xin等[46]采用了(Convolutional Long Short-Term Memory ,ConvLSTM)網(wǎng)絡，相比于LSTM，此網(wǎng)絡在建立時空關系上有更好的效果。通過卷積神經(jīng)網(wǎng)絡提取特征圖，再將提取的特征映射逐個組地輸入到ConvLSTM中，并產生基于屬性的注意力映射。基于循環(huán)神經(jīng)網(wǎng)絡的方法能夠很好地利用屬性標簽和時間相關性對行人圖像特征建模，但其識別準確率還有待提高。

2 數(shù)據(jù)集和評價指標

行人屬性識別方法性能的評估，需要在行人屬性數(shù)據(jù)集上分析比較。數(shù)據(jù)集在行人屬性識別中發(fā)揮著重要的作用，常用的行人屬性識別數(shù)據(jù)集有PETA(PEdesTrian Attribute)、RAP、PA-100K和Market-1501。下面介紹以上4個數(shù)據(jù)集以及衡量屬性識別效果的常用評價指標，并對部分方法在PETA和RAP數(shù)據(jù)集中的實驗結果進行分析對比。

2.1 數(shù)據(jù)集的介紹

PETA[19]數(shù)據(jù)集是2014年發(fā)布，由10個公開的小規(guī)模數(shù)據(jù)集構成，數(shù)據(jù)集圖像如圖5(a)所示。整個數(shù)據(jù)集由19 000幅圖像組成，分辨率從17×39到169×365不等，共包含8 705個人，每個行人樣本分為61個二進制和4個多類屬性，其中，訓練集有9 500個圖像，1 900張用于驗證和7 600張用于測試。但是，PETA數(shù)據(jù)集中一個人的樣本僅通過隨機選取注釋一次，共享相同的屬性，導致其他一些屬性被忽略。雖然這種方法在一定程度上是合理的，但并不十分適用于視覺感知檢測。

RAP[50]數(shù)據(jù)集來自真實的室內監(jiān)視場景，數(shù)據(jù)集包含26個攝像頭拍攝的圖像，如圖5(b)所示，其包含41 585個樣本，分辨率范圍從36×92到344×554不等，其中，有33 268幅圖像用于訓練，剩下的用于測試。每個樣本圖像含有69個二進制屬性和3個多類別屬性，共72個細粒度屬性。此數(shù)據(jù)集對不同身體部位進行標注，對屬性的標注比較詳細。

PA-100K[42]數(shù)據(jù)集由598個真實的室外監(jiān)控攝像頭采集到的圖像構成，如圖5(c)所示，其包括100 000幅行人圖像，分辨率從50×100到758×454不等，目前是行人屬性識別的最大數(shù)據(jù)集。整個數(shù)據(jù)集被隨機分成訓練、驗證和測試集，比例為8∶1，由26個屬性組成，標簽為0或1，分別表示是否存在相應的屬性。

Market-1501[51]數(shù)據(jù)集是由清華大學一家超市前的6個攝像頭收集，如圖5(d)所示。在這個數(shù)據(jù)集中有1 501個行人和32 668個帶注釋的邊界框。訓練集有751個人，12 936張圖片，測試集有750人，19 732張圖像，分別對應于12 936和19 732幅圖像。此數(shù)據(jù)集中的每個圖像都帶有27個屬性的注釋。

圖5 4個數(shù)據(jù)集的行人圖像示例

由行人屬性識別的數(shù)據(jù)集可知，來自實真實監(jiān)控攝像頭下的行人圖像的背景是很復雜的，除了圖像的分辨率低等問題，還有姿勢大幅度變化、光線變化、遮擋以及視角變化等復雜環(huán)境中非可控因素，如圖6所示。圖6(a)中行人姿勢變化容易導致屬性漏檢或誤撿。圖6(b)中光線變化導致拍攝過程中視圖顏色對比度差別大，容易錯誤識別屬性。圖6(c)中行人明顯存在部分遮擋的情況，容易混淆目標。圖6(d)由于拍攝視角的變化，行人所在位置不在整個圖像的正中央，行人不是圖像的主體，這就要求行人檢測框能夠靈活、準確地檢測出行人。圖6(e)是攝像機分辨率低，無法提取更多的細粒度特征，這種情況下需要對圖像清晰化處理。

圖6 復雜環(huán)境中的非可控因素

2.2 評估指標

衡量行人屬性識別能力的兩個指標為基于標簽的評價指標[20]和基于樣本的評價指標[53]。基于標簽的評價方式是先分別計算每個屬性正樣本和負樣本識別對的比例，再將二者平均作為每一個屬性的準確度，所有樣本的平均精度作為評價指標。但是，此評價準則獨立地對待每個屬性，忽略了在多屬性識別問題中屬性間的相關性。

基于樣本的評價方式是根據(jù)每個樣本對分對屬性和分錯屬性的關系，分別計算準確率、精確率、召回率和F1-score等4個評價標準。

2.3 行人屬性識別方法特點總結

基于常規(guī)網(wǎng)絡、基于注意力機制、基于部件識別和基于序列檢測等4類行人屬性識別方法的技術和特點，如表1所示。

表1 4類行人屬性識別方法的特點總結

表2對比了文獻[27]、文獻[37]、文獻[44]和文獻[52]等4種方法的各個評價指標。由表2可以看出，文獻[37]方法平均精度值表現(xiàn)最好，該方法將部件分割和序列檢測結合起來，在PETA和RAP這兩個數(shù)據(jù)集上表現(xiàn)較均衡。在所有的評估標準中，4種方法在PETA數(shù)據(jù)集上的識別率比RAP數(shù)據(jù)集上的略高一些。不同場景下的數(shù)據(jù)集，存在明顯差異，因此，需要提出適合于不同場景數(shù)據(jù)集的算法。

表2 典型方法性能對比結果

3 結語

對基于深度學習的行人屬性方法以及近幾年的研究熱點進行了綜述，并分析對比了基于常規(guī)網(wǎng)絡、部件分割、注意力機制以及序列檢測等4類方法的優(yōu)缺點，表明雖然行人屬性識別技術在幾個大規(guī)模的數(shù)據(jù)集上取得了進展，但仍有一些實際性問題需要解決。因此，對行人屬性識別方法未來研究方向展望如下。

1)基于深度學習的行人屬性識別方法的數(shù)據(jù)集標注很重要?，F(xiàn)有的數(shù)據(jù)集標注存在標注不明和標注錯誤的現(xiàn)象，將會影響行人屬性識別技術的發(fā)展。如果在標注中考慮到位置信息，對不同位置的屬性進行詳細標注，利用人體部位信息，設計出更合適的網(wǎng)絡，將會提升識別效果。

2)深度學習模型雖然能使算法精度得到提升，但針對于細粒度屬性的識別，還需要設計特定行人屬性識別網(wǎng)絡架構。無論是基于部件的方法還是注意力方法，都是希望在屬性特定位置上識別出來，這些位置信息將會回傳給屬性識別網(wǎng)絡，怎樣去融合這些結構，需要更多的研究。而加深深度神經(jīng)網(wǎng)絡，雖然性能得到提升，但是計算量的增加和模型參數(shù)更新時的繁瑣問題，勢必影響訓練時的效率，仍需找到高速、有效的算法彌補上述不足。