亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多標(biāo)簽神經(jīng)網(wǎng)絡(luò)的行人屬性識(shí)別

        2020-04-09 04:48:53陳桂安王笑梅劉鴻程
        關(guān)鍵詞:深度學(xué)習(xí)

        陳桂安 王笑梅 劉鴻程

        摘? ?要:在多標(biāo)簽行人屬性識(shí)別的問題中,為了充分利用標(biāo)簽之間的相關(guān)性,解決傳統(tǒng)方法識(shí)別準(zhǔn)確率低和效率慢的問題,提出了一個(gè)多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)在一個(gè)統(tǒng)一的網(wǎng)絡(luò)框架下識(shí)別行人多個(gè)屬性。把行人的多個(gè)屬性看作是一個(gè)序列,然后構(gòu)建了一個(gè)時(shí)序分類模型。提出的方法不僅避免了復(fù)雜的多輸入MLCNN網(wǎng)絡(luò),也不需要多次訓(xùn)練單標(biāo)簽分類模型。實(shí)驗(yàn)結(jié)果表明,本文方法準(zhǔn)確率均優(yōu)于SIFT+SVM和多輸入的MLCNN模型,平均準(zhǔn)確率達(dá)到了90.41%。

        關(guān)鍵詞:多標(biāo)簽分類;神經(jīng)網(wǎng)絡(luò);行人屬性;深度學(xué)習(xí);

        中圖分類號(hào):TP391.41? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

        Pedestrian Attributes Recognition Based on Multi-label Neural Network

        CHEN Gui-an?覮,WANG Xiao-mei,LIU Hong-cheng

        (Shanghai Normal University,Shanghai 200234,China)

        Abstract:In the problem of multi-label pedestrian attributes recognition,in order to make full use of the correlation between labels and solve the problem of low recognition accuracy and low efficiency of traditional methods,a multi-label convolutional neural network is proposed,which is in a network. Identify multiple attributes of pedestrians under a unified network framework. We consider multiple attributes of a pedestrian as a sequence and then construct a time series classification model. The proposed method not only avoids the complicated multi-input MLCNN network,but also does not need to train the single-label classification model multiple times. The experimental results show that the accuracy of the proposed method is better than that of SIFT+SVM and multi-input MLCNN model,and the average accuracy rate is 90.41%.

        Key words:multi-label classification;neural network;pedestrian attributes;deep learning

        分類任務(wù)是計(jì)算機(jī)視覺、模式識(shí)別和圖像處理領(lǐng)域的一個(gè)基本任務(wù),而多標(biāo)簽分類任務(wù)作為其中的一種也很有研究價(jià)值。比如,在監(jiān)控場景下,常常會(huì)用行人的性別、年齡、發(fā)色等特征來進(jìn)行人物檢索[1-2]、人物識(shí)別[3-4]、面部驗(yàn)證[5]和人物再識(shí)別[6]等。通常情況下,公共場所的監(jiān)控?cái)z像頭為了覆蓋比較廣的區(qū)域,都會(huì)被安裝在較遠(yuǎn)的位置,因此獲得的行人分辨率比較低。然而這種情況下的行人屬性因其光照不變性和對(duì)比度不變性,仍然有很好的應(yīng)用價(jià)值。

        行人屬性分類問題中有三個(gè)主要的挑戰(zhàn)。首先,由于多樣的衣服、復(fù)雜的背景和不同的鏡頭角度,屬性的類內(nèi)變化比較大。其次,不同的屬性位于圖片中不同的位置,比如頭發(fā)通常位于圖片的上方,鞋位于圖片的下方等,造成了提取特征比較困難。第三,這是一個(gè)多標(biāo)簽的問題,不是單純的多分類,且標(biāo)簽之間有一定的相關(guān)性。因此,很多現(xiàn)有的分類算法都不適用,即便是有一些多分類網(wǎng)絡(luò)也有其挑戰(zhàn)性。

        多標(biāo)簽識(shí)別問題目前主要是各個(gè)標(biāo)簽分開處理。如:朱旭鋒等[7]提出基于多不變量和多分類器融合的識(shí)別方法;李新德等[8]提出基于 Hu 矩、PNN 和 DSmT 融合的方法;Hussein 等[9]提出轉(zhuǎn)換特征和模糊聚類的飛機(jī)識(shí)別方法;Zhu 等[10]提出基于優(yōu)化的 BoW 模型識(shí)別方法;Li 等[12]提出 PCNN 模型用于飛機(jī)識(shí)別。行人屬性識(shí)別中一個(gè)比較受歡迎的方法是用手工提取特征(sift[12]等)然后用SVM去單獨(dú)的分類各個(gè)屬性[6,13-15]。但這不能很好的解決上述的三個(gè)問題,因?yàn)槭止ぬ崛〉奶卣饔杏邢薜谋磉_(dá)能力而數(shù)據(jù)集類內(nèi)變化太復(fù)雜,也不能夠應(yīng)用內(nèi)間的相關(guān)性信息。Jiangqing Zhu等[16]提出了一個(gè)多輸入的多標(biāo)簽分類網(wǎng)絡(luò)(MLCNN)來進(jìn)行行人屬性識(shí)別。受Xiang Bai等[17]在研究場景文字識(shí)別所使用模型的啟發(fā),本文使用了一個(gè)時(shí)序模型來實(shí)現(xiàn)行人屬性多標(biāo)簽分類,該網(wǎng)絡(luò)以ResNet50[18]為基礎(chǔ)以及連接時(shí)序分類(CTC)[19]的損失函數(shù)來輸出序列。該網(wǎng)絡(luò)是直接用圖像像素訓(xùn)練而不是手工特征,并且能識(shí)別多個(gè)屬性。通過在PETA[13]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,取得了良好的識(shí)別效果。

        1? ?材料和方法

        1.1? ?行人屬性數(shù)據(jù)集

        有很多用于監(jiān)控研究的公開行人屬性數(shù)據(jù)集,比如VIPeR,PRID,GRID,APiS,and PETA,PETA是最新的數(shù)據(jù)集,包含65個(gè)屬性標(biāo)簽,一共19000張圖片,分辨率最小為17x39,最大為169x365。19000張圖片中共包含有8705個(gè)行人,每個(gè)行人用61個(gè)二分類屬性標(biāo)簽和4個(gè)多分類屬性標(biāo)簽打標(biāo),部分示例如圖1所示

        1.2? ?ResNet

        卷積神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的特征表達(dá)能力和提取能力在圖片分類領(lǐng)域取得了很高的準(zhǔn)確率,如今,它的應(yīng)用延申到了圖像分析的各個(gè)領(lǐng)域,本課題采用深度卷積神經(jīng)網(wǎng)絡(luò)的方法,研究行人屬性多標(biāo)簽分類識(shí)別。

        加深網(wǎng)絡(luò)以獲取更高的準(zhǔn)確率的同時(shí)也使得網(wǎng)絡(luò)變得難以優(yōu)化,因?yàn)樗赡芤鹛荻认Щ蛱荻缺ǖ膯栴},以及越深的網(wǎng)絡(luò)反而效果越差的退化問題。

        ResNet[18]解決了這個(gè)問題,并且獲得了2015年ILSVRC第一名。它通過擬合殘差映射而不是原始映射,以及在層之間添加多個(gè)連接。這些新的連接跳過各個(gè)層并執(zhí)行標(biāo)識(shí),而不增加任何新參數(shù),或簡單的1×1卷積。特別是,該網(wǎng)絡(luò)是基于對(duì)構(gòu)建塊的重復(fù)使用,網(wǎng)絡(luò)的深度取決于使用的構(gòu)建塊的數(shù)量。該模塊由三個(gè)卷積塊組成,分別是 1×1卷積塊,3×3卷積塊接著又是1×1卷積塊,并且將第一個(gè)卷積的輸入連接到第三個(gè)卷積的輸出,每個(gè)卷積塊包含一層batch normalization層、激活層和卷積層,如圖2所示。對(duì)于我們的問題,我們使用了具有50層的ResNet50。

        圖1? ? PETA行人圖片示例

        圖2? ? ResNet的基本構(gòu)建單元

        1.3? ?標(biāo)簽序列概率

        采用Graves等人[19]提出的連接時(shí)序分類(CTC)中定義的條件概率。該概率是在每幀預(yù)測y = y1,…,yT的標(biāo)簽序列l(wèi)上定義的,并且它忽略了每個(gè)標(biāo)簽具體的位置。因此,當(dāng)我們使用這個(gè)概率的負(fù)對(duì)數(shù)似然作為目標(biāo)函數(shù),我們只需要圖像及其相應(yīng)的標(biāo)簽序列,避免標(biāo)記各個(gè)序列元素的位置。

        CTC的公式簡單的描述如下:輸入是序列y = y1,…,yT,T是序列長度。這里每一個(gè)yt∈R[L],是集合L′ = LU‘—上的一個(gè)可能分布,L包含所有任務(wù)中的所有標(biāo)簽,‘—表示空格。一個(gè)序列到序列的映射函數(shù)B是定義在上π∈L′T的。B通過移除相同的標(biāo)簽和空格將π映射到I,例如B將“-hh-e-ll-oo-”(‘-表示空格)映射為“hello”。然后,一個(gè)條件概率定義為所有被B映射到I的π的和:

        p(l | y) = ■? p(π | y)? ? ? ?(1)

        π的概率是p(π | y) = ■Tt=1ytπt,ytπt表示在t時(shí)刻有標(biāo)簽πt的概率。由于大量的指數(shù)求和,直接計(jì)公式算式(1)是不可行的,但是可以用[19]中描述的前向-后向算法有效的計(jì)算出來。

        1.4? ?網(wǎng)絡(luò)結(jié)構(gòu)

        研究網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示:

        圖3? ?網(wǎng)絡(luò)結(jié)構(gòu)圖

        ResNet_input圖片大小為160 × 80 × 3,經(jīng)過ResNet50卷積提取特征后,ResNet_output大小為5 × 3 × 2048,Reshape輸出大小為30 × 1024,全連接層Dense將Reshape得到的30 × 1024輸出特征進(jìn)行全連接,輸出大小為30 × 53,其中,30是時(shí)間序列的時(shí)刻,53是分類數(shù)。最后,用全連接層的輸出和真實(shí)標(biāo)記通過CTC公式計(jì)算損失并對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。

        1.5? ?算法驗(yàn)證

        所使用的數(shù)據(jù)集是行人屬性數(shù)據(jù)集PETA。PETA數(shù)據(jù)集是由10個(gè)子集構(gòu)成如:VIPER,PRID,GRID以及CAVIAR4REID等,因此,PETA是一個(gè)包含不同鏡頭角度、光照、分辨率和場景的復(fù)雜數(shù)據(jù)集。

        如果相應(yīng)屬性的樣本量過少則會(huì)導(dǎo)致數(shù)據(jù)不平衡,因此我們忽略了及其不平衡的屬性選擇樣本量大于1500的26個(gè)二分類屬性如表1所示。因此每張圖對(duì)應(yīng)26個(gè)標(biāo)簽共53個(gè)分類,其中除了26個(gè)正反類以外還有一類為CTC中的空格‘-。實(shí)驗(yàn)中把圖片大小調(diào)增為180×90,然后用隨機(jī)裁剪,隨機(jī)翻轉(zhuǎn),隨機(jī)旋轉(zhuǎn)等策略擴(kuò)充數(shù)據(jù)集,隨機(jī)裁剪的大小為160×80,裁剪后的圖片大小與裁剪前的圖片相差不大,一般不會(huì)造成圖片信息的損失。

        表1? ?26類屬性識(shí)別精度對(duì)比表,粗體字表示最好的表現(xiàn)

        實(shí)驗(yàn)平臺(tái)為i5-6500 CPU,NVIDIA GTX 1070 GPU以及16GB內(nèi)存的服務(wù)器。訓(xùn)練數(shù)據(jù)為11400張圖片,驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)各3800張。訓(xùn)練時(shí),先用ImageNet參數(shù)初始化ResNet50,再用PETA數(shù)據(jù)去訓(xùn)練。采用隨機(jī)梯度下降法(SGD)優(yōu)化網(wǎng)絡(luò),初始學(xué)習(xí)率為0.001,momentum為0.9,batch大小為32,訓(xùn)練50個(gè)epoch。

        為了驗(yàn)證本文提出方法的有效性,本文使用了兩個(gè)對(duì)比模型。第一個(gè)是ikSVM[20],使用的特征和[13]中類似,它有2784個(gè)維度,包括8個(gè)顏色通道,如RGB,HSV和YCbCr,以及在亮度通道上使用Gabor和Schmid濾波器獲得的21個(gè)紋理通道。第二個(gè)是MLCNN[16],用滑動(dòng)窗策略把圖片分割成多個(gè)小圖,然后輸入到多輸入的神經(jīng)網(wǎng)絡(luò)里自動(dòng)提取特征,并用此特征進(jìn)行分類。

        2? ?分? ?析

        實(shí)驗(yàn)結(jié)果如表1,26個(gè)屬性中有24個(gè)是本文方法的分類準(zhǔn)確率更高。本文方法的平均準(zhǔn)確率為90.41%,高于ikSVM的81.01%和MLCNN的85.83%。這些結(jié)果表明本文的方法在大部分屬性上都優(yōu)于ikSVM和MLCNN。ikSVM是對(duì)每個(gè)屬性單獨(dú)的訓(xùn)練分類器,因此在某些屬性上ikSVM的準(zhǔn)確率要高一點(diǎn),MLCNN雖然是對(duì)多個(gè)屬性聯(lián)合訓(xùn)練,但是多輸入的網(wǎng)絡(luò),其復(fù)雜度要高很多,訓(xùn)練參數(shù)也很多,因此訓(xùn)練難度更大。本文把多屬性當(dāng)作是一個(gè)序列結(jié)合CTC loss設(shè)計(jì)了一個(gè)單輸入的時(shí)序網(wǎng)絡(luò),使用ResNet50充分發(fā)揮深度網(wǎng)絡(luò)特征表達(dá)能力強(qiáng)的優(yōu)勢,使得多標(biāo)簽的分類準(zhǔn)確率很高,用ImageNet預(yù)訓(xùn)練參數(shù)初始化ResNet50,大大提升了訓(xùn)練速度。因此,本文方法在大部分屬性分類中取得了更高的表現(xiàn)。

        3? ?結(jié)? ?論

        提出了一個(gè)用于行人屬性分類的多標(biāo)簽分類網(wǎng)絡(luò),該網(wǎng)絡(luò)通過CNN自動(dòng)提取特征,并且能夠預(yù)測多個(gè)屬性。在PETA數(shù)據(jù)集上的實(shí)驗(yàn)表明了該網(wǎng)絡(luò)在行人屬性分類上有很好的效果。未來的研究目標(biāo),在網(wǎng)絡(luò)中加入多尺度特征融合以應(yīng)對(duì)數(shù)據(jù)集中圖片大小相差比較大的問題,進(jìn)一步提升分類效果。

        參考文獻(xiàn)

        [1]? ? JAHA E S,NIXON M S. Analysing soft clothing biometrics for retrieval[C]. Biometric Authentication,2014:234—245.

        [2]? ? DANTCHEVA A,SINGH A,ELIA P,et al. Search pruning in video surveillance systems:eficiency-reliability tradeoff[C]// IEEE International Conference on Computer Vision Workshops,2012.

        [3]? ? JAIN A K,DASS S C,NANDAKUMAR K. Soft biometric traits for personal recognition systems[M]// Biometric Authentication,2004.

        [4]? ? DANTCHEVA A,DUGELAY J L,ELIA P. Person recognition using a bag of facial soft biometrics (BoFSB)[C]// IEEE International Workshop on Multimedia Signal Processing,2010.

        [5]? ? KUMAR N. Attribute and simile classifiers for face verification[C]// IEEE International Conference on Computer Vision. IEEE,2010.

        [6]? LAYNE R,HOSPEDALES T M,GONG S. Towards person identification and re-identification with attributes[C]// European Conference on Computer Vision,2012.

        [7]? ? 朱旭鋒,馬彩文.基于多不變量和多分類器融合的飛機(jī)識(shí)別[J].儀器儀表學(xué)報(bào),2011,32(7):1621—1627.

        [8]? ?LI X D,YANG W D,JEAN D. An Airplane Image Target′s Multi-feature Fusion Recognition Method[J]. 自動(dòng)化學(xué)報(bào),2012,38(8):1298—1307.

        [9]? ? HUSSEIN G T,REDDY S E. Satellite remote sensing image based aircraft recognition using transform features and detect fuzzy clustering[J].International Journal of Engineering Science and Computing,2016:4590—4594.

        [10]? ZHU X,MA B,GUO G,et al. Aircraft type classification based on an optimized bag of words model[C]// Guidance,Navigation & Control Conference,2017.

        [11]? LI H,JIN X,YANG N,et al. The recognition of landed aircrafts based on PCNN model and affine moment invariants[J]. Pattern Recognition Letters,2015,51(C):23-29.

        [12] YAN T W,GARCIA-MOLINA H. SIFT:a tool for wide-area information dissemination[C]// Usenix Technical Conference,1995.

        [13] DENG Y B,LUO P,CHEN C L,et al. Pedestrian Attribute Recognition At Far Distance[C]// the ACM International Conference. ACM,2014.

        [14]? JAHA E S,NIXON M S. Soft biometrics for subject identification using clothing attributes[C]// IEEE International Joint Conference on Biometrics,2014.

        [15] AN L,CHEN X,KAFAI M,et al. Improving person re-identification by soft biometrics based reranking[C]// Seventh International Conference on Distributed Smart Cameras,2014.

        [16]? ZHU J,LIAO S,LEI Z,et al. Multi-label convolutional neural network based pedestrian attributeclassification[J]. Image & Vision Computing,2017,58(C):224-229.

        [17]? SHI B,BAI X,YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(11):2298-2304.

        [18]? HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition[EB/OL]. https://arxiv.org/abs/1512.03385,2015.

        [19] GRAVES A,SANTIAGO F,GOMEZ F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning,ACM,2006.

        [20]? DENG Y,LUO P,LOY C C,et al. Learning to recognizepedestrian attribute[EB/OL]. https://arxiv.org/abs/1501.00901,2015

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        基于自動(dòng)智能分類器的圖書館亂架圖書檢測
        搭建深度學(xué)習(xí)的三級(jí)階梯
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        亚洲av永久无码精品网站| 91精品91久久久久久| 在线亚洲精品国产成人二区| 久久久亚洲免费视频网| 性按摩xxxx在线观看| 国产成人无码精品午夜福利a| 在线偷窥制服另类| 人妻中文久久人妻蜜桃| 国产精品 亚洲 无码 在线| 日韩av无码成人无码免费| 国产成人精品aaaa视频一区| 久久夜色精品国产噜噜噜亚洲av| 色综合久久中文娱乐网| 国产精品天天狠天天看| 免费人成视频欧美| 91盗摄偷拍一区二区三区| 国内最真实的xxxx人伦| 狠狠躁夜夜躁无码中文字幕| 亚洲最大av免费观看| 日本av天堂一区二区三区| 成年女人免费视频播放体验区 | 中文字幕亚洲乱码熟女在线萌芽| 亚洲无码激情视频在线观看| 国产精品黑丝美腿美臀| 少妇被粗大的猛烈进出69影院一| 国产尤物AV尤物在线看| 国产特黄1区2区3区4区| 亚洲午夜狼人综合影院| 饥渴的熟妇张开腿呻吟视频| 亚洲av日韩av一卡二卡| 成人国产高清av一区二区三区| 高清精品一区二区三区| 五月天综合在线| 一区二区三区少妇熟女高潮| 2021国产精品视频网站| 欧美与黑人午夜性猛交久久久| 无码中文字幕专区一二三| 国产一区二区免费在线视频| 亚洲国产精华液网站w| 中文字幕亚洲综合久久菠萝蜜| av在线资源一区二区|