亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多標(biāo)簽神經(jīng)網(wǎng)絡(luò)的行人屬性識(shí)別

2020-04-09 04:48:53陳桂安王笑梅劉鴻程

計(jì)算技術(shù)與自動(dòng)化 2020年1期

陳桂安　王笑梅　劉鴻程

摘? ?要：在多標(biāo)簽行人屬性識(shí)別的問題中，為了充分利用標(biāo)簽之間的相關(guān)性，解決傳統(tǒng)方法識(shí)別準(zhǔn)確率低和效率慢的問題，提出了一個(gè)多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)在一個(gè)統(tǒng)一的網(wǎng)絡(luò)框架下識(shí)別行人多個(gè)屬性。把行人的多個(gè)屬性看作是一個(gè)序列，然后構(gòu)建了一個(gè)時(shí)序分類模型。提出的方法不僅避免了復(fù)雜的多輸入MLCNN網(wǎng)絡(luò)，也不需要多次訓(xùn)練單標(biāo)簽分類模型。實(shí)驗(yàn)結(jié)果表明，本文方法準(zhǔn)確率均優(yōu)于SIFT+SVM和多輸入的MLCNN模型，平均準(zhǔn)確率達(dá)到了90.41%。

關(guān)鍵詞：多標(biāo)簽分類;神經(jīng)網(wǎng)絡(luò);行人屬性;深度學(xué)習(xí);

中圖分類號(hào)：TP391.41? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A

Pedestrian Attributes Recognition Based on Multi-label Neural Network

CHEN Gui-an？覮，WANG Xiao-mei，LIU Hong-cheng

（Shanghai Normal University，Shanghai 200234，China）

Abstract：In the problem of multi-label pedestrian attributes recognition，in order to make full use of the correlation between labels and solve the problem of low recognition accuracy and low efficiency of traditional methods，a multi-label convolutional neural network is proposed，which is in a network. Identify multiple attributes of pedestrians under a unified network framework. We consider multiple attributes of a pedestrian as a sequence and then construct a time series classification model. The proposed method not only avoids the complicated multi-input MLCNN network，but also does not need to train the single-label classification model multiple times. The experimental results show that the accuracy of the proposed method is better than that of SIFT+SVM and multi-input MLCNN model，and the average accuracy rate is 90.41%.

Key words：multi-label classification;neural network;pedestrian attributes;deep learning

分類任務(wù)是計(jì)算機(jī)視覺、模式識(shí)別和圖像處理領(lǐng)域的一個(gè)基本任務(wù)，而多標(biāo)簽分類任務(wù)作為其中的一種也很有研究價(jià)值。比如，在監(jiān)控場景下，常常會(huì)用行人的性別、年齡、發(fā)色等特征來進(jìn)行人物檢索[1-2]、人物識(shí)別[3-4]、面部驗(yàn)證[5]和人物再識(shí)別[6]等。通常情況下，公共場所的監(jiān)控?cái)z像頭為了覆蓋比較廣的區(qū)域，都會(huì)被安裝在較遠(yuǎn)的位置，因此獲得的行人分辨率比較低。然而這種情況下的行人屬性因其光照不變性和對(duì)比度不變性，仍然有很好的應(yīng)用價(jià)值。

行人屬性分類問題中有三個(gè)主要的挑戰(zhàn)。首先，由于多樣的衣服、復(fù)雜的背景和不同的鏡頭角度，屬性的類內(nèi)變化比較大。其次，不同的屬性位于圖片中不同的位置，比如頭發(fā)通常位于圖片的上方，鞋位于圖片的下方等，造成了提取特征比較困難。第三，這是一個(gè)多標(biāo)簽的問題，不是單純的多分類，且標(biāo)簽之間有一定的相關(guān)性。因此，很多現(xiàn)有的分類算法都不適用，即便是有一些多分類網(wǎng)絡(luò)也有其挑戰(zhàn)性。

多標(biāo)簽識(shí)別問題目前主要是各個(gè)標(biāo)簽分開處理。如：朱旭鋒等[7]提出基于多不變量和多分類器融合的識(shí)別方法;李新德等[8]提出基于 Hu 矩、PNN 和 DSmT 融合的方法;Hussein 等[9]提出轉(zhuǎn)換特征和模糊聚類的飛機(jī)識(shí)別方法;Zhu 等[10]提出基于優(yōu)化的 BoW 模型識(shí)別方法;Li 等[12]提出 PCNN 模型用于飛機(jī)識(shí)別。行人屬性識(shí)別中一個(gè)比較受歡迎的方法是用手工提取特征（sift[12]等）然后用SVM去單獨(dú)的分類各個(gè)屬性[6，13-15]。但這不能很好的解決上述的三個(gè)問題，因?yàn)槭止ぬ崛〉奶卣饔杏邢薜谋磉_(dá)能力而數(shù)據(jù)集類內(nèi)變化太復(fù)雜，也不能夠應(yīng)用內(nèi)間的相關(guān)性信息。Jiangqing Zhu等[16]提出了一個(gè)多輸入的多標(biāo)簽分類網(wǎng)絡(luò)（MLCNN）來進(jìn)行行人屬性識(shí)別。受Xiang Bai等[17]在研究場景文字識(shí)別所使用模型的啟發(fā)，本文使用了一個(gè)時(shí)序模型來實(shí)現(xiàn)行人屬性多標(biāo)簽分類，該網(wǎng)絡(luò)以ResNet50[18]為基礎(chǔ)以及連接時(shí)序分類（CTC）[19]的損失函數(shù)來輸出序列。該網(wǎng)絡(luò)是直接用圖像像素訓(xùn)練而不是手工特征，并且能識(shí)別多個(gè)屬性。通過在PETA[13]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證，取得了良好的識(shí)別效果。

1? ?材料和方法

1.1? ?行人屬性數(shù)據(jù)集

有很多用于監(jiān)控研究的公開行人屬性數(shù)據(jù)集，比如VIPeR，PRID，GRID，APiS，and PETA，PETA是最新的數(shù)據(jù)集，包含65個(gè)屬性標(biāo)簽，一共19000張圖片，分辨率最小為17x39，最大為169x365。19000張圖片中共包含有8705個(gè)行人，每個(gè)行人用61個(gè)二分類屬性標(biāo)簽和4個(gè)多分類屬性標(biāo)簽打標(biāo)，部分示例如圖1所示

1.2? ?ResNet

卷積神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的特征表達(dá)能力和提取能力在圖片分類領(lǐng)域取得了很高的準(zhǔn)確率，如今，它的應(yīng)用延申到了圖像分析的各個(gè)領(lǐng)域，本課題采用深度卷積神經(jīng)網(wǎng)絡(luò)的方法，研究行人屬性多標(biāo)簽分類識(shí)別。

加深網(wǎng)絡(luò)以獲取更高的準(zhǔn)確率的同時(shí)也使得網(wǎng)絡(luò)變得難以優(yōu)化，因?yàn)樗赡芤鹛荻认Щ蛱荻缺ǖ膯栴}，以及越深的網(wǎng)絡(luò)反而效果越差的退化問題。

ResNet[18]解決了這個(gè)問題，并且獲得了2015年ILSVRC第一名。它通過擬合殘差映射而不是原始映射，以及在層之間添加多個(gè)連接。這些新的連接跳過各個(gè)層并執(zhí)行標(biāo)識(shí)，而不增加任何新參數(shù)，或簡單的1×1卷積。特別是，該網(wǎng)絡(luò)是基于對(duì)構(gòu)建塊的重復(fù)使用，網(wǎng)絡(luò)的深度取決于使用的構(gòu)建塊的數(shù)量。該模塊由三個(gè)卷積塊組成，分別是 1×1卷積塊，3×3卷積塊接著又是1×1卷積塊，并且將第一個(gè)卷積的輸入連接到第三個(gè)卷積的輸出，每個(gè)卷積塊包含一層batch normalization層、激活層和卷積層，如圖2所示。對(duì)于我們的問題，我們使用了具有50層的ResNet50。

圖1? ? PETA行人圖片示例

圖2? ? ResNet的基本構(gòu)建單元

1.3? ?標(biāo)簽序列概率

采用Graves等人[19]提出的連接時(shí)序分類（CTC）中定義的條件概率。該概率是在每幀預(yù)測y = y1，…，yT的標(biāo)簽序列l(wèi)上定義的，并且它忽略了每個(gè)標(biāo)簽具體的位置。因此，當(dāng)我們使用這個(gè)概率的負(fù)對(duì)數(shù)似然作為目標(biāo)函數(shù)，我們只需要圖像及其相應(yīng)的標(biāo)簽序列，避免標(biāo)記各個(gè)序列元素的位置。

CTC的公式簡單的描述如下：輸入是序列y = y1，…，yT，T是序列長度。這里每一個(gè)yt∈R[L]，是集合L′ = LU‘—上的一個(gè)可能分布，L包含所有任務(wù)中的所有標(biāo)簽，‘—表示空格。一個(gè)序列到序列的映射函數(shù)B是定義在上π∈L′T的。B通過移除相同的標(biāo)簽和空格將π映射到I，例如B將“-hh-e-ll-oo-”（‘-表示空格）映射為“hello”。然后，一個(gè)條件概率定義為所有被B映射到I的π的和：

p（l | y） = ■? p（π | y）? ? ? ?（1）

π的概率是p（π | y） = ■Tt=1ytπt，ytπt表示在t時(shí)刻有標(biāo)簽πt的概率。由于大量的指數(shù)求和，直接計(jì)公式算式（1）是不可行的，但是可以用[19]中描述的前向-后向算法有效的計(jì)算出來。

1.4? ?網(wǎng)絡(luò)結(jié)構(gòu)

研究網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示：

圖3? ?網(wǎng)絡(luò)結(jié)構(gòu)圖

ResNet_input圖片大小為160 × 80 × 3，經(jīng)過ResNet50卷積提取特征后，ResNet_output大小為5 × 3 × 2048，Reshape輸出大小為30 × 1024，全連接層Dense將Reshape得到的30 × 1024輸出特征進(jìn)行全連接，輸出大小為30 × 53，其中，30是時(shí)間序列的時(shí)刻，53是分類數(shù)。最后，用全連接層的輸出和真實(shí)標(biāo)記通過CTC公式計(jì)算損失并對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。

1.5? ?算法驗(yàn)證

所使用的數(shù)據(jù)集是行人屬性數(shù)據(jù)集PETA。PETA數(shù)據(jù)集是由10個(gè)子集構(gòu)成如：VIPER，PRID，GRID以及CAVIAR4REID等，因此，PETA是一個(gè)包含不同鏡頭角度、光照、分辨率和場景的復(fù)雜數(shù)據(jù)集。

如果相應(yīng)屬性的樣本量過少則會(huì)導(dǎo)致數(shù)據(jù)不平衡，因此我們忽略了及其不平衡的屬性選擇樣本量大于1500的26個(gè)二分類屬性如表1所示。因此每張圖對(duì)應(yīng)26個(gè)標(biāo)簽共53個(gè)分類，其中除了26個(gè)正反類以外還有一類為CTC中的空格‘-。實(shí)驗(yàn)中把圖片大小調(diào)增為180×90，然后用隨機(jī)裁剪，隨機(jī)翻轉(zhuǎn)，隨機(jī)旋轉(zhuǎn)等策略擴(kuò)充數(shù)據(jù)集，隨機(jī)裁剪的大小為160×80，裁剪后的圖片大小與裁剪前的圖片相差不大，一般不會(huì)造成圖片信息的損失。

表1? ?26類屬性識(shí)別精度對(duì)比表，粗體字表示最好的表現(xiàn)

實(shí)驗(yàn)平臺(tái)為i5-6500 CPU，NVIDIA GTX 1070 GPU以及16GB內(nèi)存的服務(wù)器。訓(xùn)練數(shù)據(jù)為11400張圖片，驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)各3800張。訓(xùn)練時(shí)，先用ImageNet參數(shù)初始化ResNet50，再用PETA數(shù)據(jù)去訓(xùn)練。采用隨機(jī)梯度下降法（SGD）優(yōu)化網(wǎng)絡(luò)，初始學(xué)習(xí)率為0.001，momentum為0.9，batch大小為32，訓(xùn)練50個(gè)epoch。

為了驗(yàn)證本文提出方法的有效性，本文使用了兩個(gè)對(duì)比模型。第一個(gè)是ikSVM[20]，使用的特征和[13]中類似，它有2784個(gè)維度，包括8個(gè)顏色通道，如RGB，HSV和YCbCr，以及在亮度通道上使用Gabor和Schmid濾波器獲得的21個(gè)紋理通道。第二個(gè)是MLCNN[16]，用滑動(dòng)窗策略把圖片分割成多個(gè)小圖，然后輸入到多輸入的神經(jīng)網(wǎng)絡(luò)里自動(dòng)提取特征，并用此特征進(jìn)行分類。

2? ?分? ?析

實(shí)驗(yàn)結(jié)果如表1，26個(gè)屬性中有24個(gè)是本文方法的分類準(zhǔn)確率更高。本文方法的平均準(zhǔn)確率為90.41%，高于ikSVM的81.01%和MLCNN的85.83%。這些結(jié)果表明本文的方法在大部分屬性上都優(yōu)于ikSVM和MLCNN。ikSVM是對(duì)每個(gè)屬性單獨(dú)的訓(xùn)練分類器，因此在某些屬性上ikSVM的準(zhǔn)確率要高一點(diǎn)，MLCNN雖然是對(duì)多個(gè)屬性聯(lián)合訓(xùn)練，但是多輸入的網(wǎng)絡(luò)，其復(fù)雜度要高很多，訓(xùn)練參數(shù)也很多，因此訓(xùn)練難度更大。本文把多屬性當(dāng)作是一個(gè)序列結(jié)合CTC loss設(shè)計(jì)了一個(gè)單輸入的時(shí)序網(wǎng)絡(luò)，使用ResNet50充分發(fā)揮深度網(wǎng)絡(luò)特征表達(dá)能力強(qiáng)的優(yōu)勢，使得多標(biāo)簽的分類準(zhǔn)確率很高，用ImageNet預(yù)訓(xùn)練參數(shù)初始化ResNet50，大大提升了訓(xùn)練速度。因此，本文方法在大部分屬性分類中取得了更高的表現(xiàn)。

3? ?結(jié)? ?論

提出了一個(gè)用于行人屬性分類的多標(biāo)簽分類網(wǎng)絡(luò)，該網(wǎng)絡(luò)通過CNN自動(dòng)提取特征，并且能夠預(yù)測多個(gè)屬性。在PETA數(shù)據(jù)集上的實(shí)驗(yàn)表明了該網(wǎng)絡(luò)在行人屬性分類上有很好的效果。未來的研究目標(biāo)，在網(wǎng)絡(luò)中加入多尺度特征融合以應(yīng)對(duì)數(shù)據(jù)集中圖片大小相差比較大的問題，進(jìn)一步提升分類效果。

參考文獻(xiàn)

[1]? ? JAHA E S，NIXON M S. Analysing soft clothing biometrics for retrieval[C]. Biometric Authentication，2014：234—245.

[2]? ? DANTCHEVA A，SINGH A，ELIA P，et al. Search pruning in video surveillance systems：eficiency-reliability tradeoff[C]// IEEE International Conference on Computer Vision Workshops，2012.

[3]? ? JAIN A K，DASS S C，NANDAKUMAR K. Soft biometric traits for personal recognition systems[M]// Biometric Authentication，2004.

[4]? ? DANTCHEVA A，DUGELAY J L，ELIA P. Person recognition using a bag of facial soft biometrics （BoFSB）[C]// IEEE International Workshop on Multimedia Signal Processing，2010.

[5]? ? KUMAR N. Attribute and simile classifiers for face verification[C]// IEEE International Conference on Computer Vision. IEEE，2010.

[6]? LAYNE R，HOSPEDALES T M，GONG S. Towards person identification and re-identification with attributes[C]// European Conference on Computer Vision，2012.

[7]? ? 朱旭鋒，馬彩文.基于多不變量和多分類器融合的飛機(jī)識(shí)別[J].儀器儀表學(xué)報(bào)，2011，32（7）：1621—1627.

[8]? ?LI X D，YANG W D，JEAN D. An Airplane Image Target′s Multi-feature Fusion Recognition Method[J]. 自動(dòng)化學(xué)報(bào)，2012，38（8）：1298—1307.

[9]? ? HUSSEIN G T，REDDY S E. Satellite remote sensing image based aircraft recognition using transform features and detect fuzzy clustering[J].International Journal of Engineering Science and Computing，2016：4590—4594.

[10]? ZHU X，MA B，GUO G，et al. Aircraft type classification based on an optimized bag of words model[C]// Guidance，Navigation & Control Conference，2017.

[11]? LI H，JIN X，YANG N，et al. The recognition of landed aircrafts based on PCNN model and affine moment invariants[J]. Pattern Recognition Letters，2015，51（C）：23-29.

[12] YAN T W，GARCIA-MOLINA H. SIFT：a tool for wide-area information dissemination[C]// Usenix Technical Conference，1995.

[13] DENG Y B，LUO P，CHEN C L，et al. Pedestrian Attribute Recognition At Far Distance[C]// the ACM International Conference. ACM，2014.

[14]? JAHA E S，NIXON M S. Soft biometrics for subject identification using clothing attributes[C]// IEEE International Joint Conference on Biometrics，2014.

[15] AN L，CHEN X，KAFAI M，et al. Improving person re-identification by soft biometrics based reranking[C]// Seventh International Conference on Distributed Smart Cameras，2014.

[16]? ZHU J，LIAO S，LEI Z，et al. Multi-label convolutional neural network based pedestrian attributeclassification[J]. Image & Vision Computing，2017，58（C）：224-229.

[17]? SHI B，BAI X，YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence，2015，39（11）：2298-2304.

[18]? HE K，ZHANG X，REN S，et al. Deep residual learning for image recognition[EB/OL]. https：//arxiv.org/abs/1512.03385，2015.

[19] GRAVES A，SANTIAGO F，GOMEZ F. Connectionist temporal classification：labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning，ACM，2006.

[20]? DENG Y，LUO P，LOY C C，et al. Learning to recognizepedestrian attribute[EB/OL]. https：//arxiv.org/abs/1501.00901，2015