亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制與空間金字塔池化的行人屬性識別

        2020-07-14 02:00:06
        關(guān)鍵詞:特征方法

        (太原理工大學(xué) a. 機(jī)械與運載工程學(xué)院,b. 大數(shù)據(jù)學(xué)院,山西 太原 030024)

        隨著視頻安全系統(tǒng)以及計算機(jī)技術(shù)的發(fā)展,行人屬性識別已經(jīng)被廣泛地用來進(jìn)行行人重識別[1-2]、面部識別[3]以及視頻監(jiān)控[4]等方面的研究。由于行人是視頻監(jiān)控中主要的監(jiān)控對象,因此對行人屬性進(jìn)行精確的識別格外重要。

        行人屬性識別方法主要分為基于手工設(shè)計特征和基于深度學(xué)習(xí)2種方法,其中,傳統(tǒng)基于手工設(shè)計特征的方法通過顏色和紋理提取方向梯度直方圖(HOG)、局部二值模式(LBP)等特征向量,為每一個屬性訓(xùn)練一個分類器,實現(xiàn)行人的多屬性識別。Cao等[5]提取HOG特征,利用AdaBoost分類器識別行人屬性;Zhu等[6]提取局部二值模式特征和HOG特征訓(xùn)練AdaBoost分類器進(jìn)行屬性識別;Chen等[7]用條件隨機(jī)場或馬爾可夫隨機(jī)場方法,通過行人屬性間的內(nèi)在聯(lián)系進(jìn)一步提高行人屬性識別的精度。這些方法都嘗試訓(xùn)練一個魯棒的行人屬性識別模型,但該類方法手工設(shè)計特征的過程比較復(fù)雜,魯棒性差,并且特征表達(dá)能力不足。

        近幾年來,一些學(xué)者將深度學(xué)習(xí)的方法應(yīng)用于行人屬性識別。Lin等[4]對Alexnet網(wǎng)絡(luò)進(jìn)行改進(jìn),提出一種多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)DeepMar,該網(wǎng)絡(luò)在一個統(tǒng)一的框架下預(yù)測多個屬性,并且提出加權(quán)交叉熵?fù)p失函數(shù)解決數(shù)據(jù)不均衡問題。Liu等[8]提出長短期記憶(LSTM)模型,利用屬性之間的相關(guān)性,將循環(huán)編碼器框架引入行人屬性識別中,提升行人屬性識別精度。

        雖然深度學(xué)習(xí)的方法與傳統(tǒng)屬性識別的方法相比具有較好的自適應(yīng)能力和容錯能力,但是此類方法都只關(guān)注行人的整體特征,而忽略了行人細(xì)粒度特征的識別和局部特征的提取。例如,如果想檢測屬性“打電話”,有效的特征應(yīng)位于頭、肩等小范圍區(qū)域內(nèi),然而,現(xiàn)有的方法僅提取了全局特征[9-11],且對局部區(qū)域的語義特征提取效果較差。

        針對以上問題,本文中提出了一種基于注意力機(jī)制與空間金字塔池化(SPP)[12]的行人屬性識別方法,該方法通過注意力機(jī)制強(qiáng)化不同維度的特征來提升行人整體特征表達(dá),并且加入空間金字塔池化操作,使得任意大小的特征圖都能夠轉(zhuǎn)換成固定大小的特征向量,對輸入的圖像大小不再有所限制,更多地保留了圖像信息。

        1 方法

        1.1 相關(guān)理論

        1.1.1 Inception模型

        Inception V3模型是Szegedy等[13]提出的一個圖像分類網(wǎng)絡(luò)模型。該模型包含3種不同的Inception模塊,分別為Inception 1、Inception 2、Inception 3,模塊結(jié)構(gòu)如圖1所示。每個Inception模型采用不同大小的卷積核進(jìn)行多尺度特征提取,最后將提取到的特征進(jìn)行融合。Inception 1模塊使用2個3×3的卷積代替5×5的卷積;Inception 2模塊使用1×3和3×1的卷積代替3×3的卷積;Inception 3模塊使用1×7和7×1的卷積層代替7×7的卷積層,以減少網(wǎng)絡(luò)參數(shù),同時提升網(wǎng)絡(luò)的特征表達(dá)能力。

        圖1 Inception模型結(jié)構(gòu)

        1.1.2 空間金字塔池化

        空間金字塔池化由3個最大池化層組成,如圖2所示。對于輸入任意大小的特征圖,3個最大池化層分別以大小為4×4、2×2和1×1的網(wǎng)格將特征圖分為16、4、1塊,然后在每個塊上最大池化,提取相應(yīng)特征。第1個池化層提取16維特征向量,第2個池化層提取4維特征向量,第3個池化層提取1維特征向量,最后將3個池化層提取的特征融合,得到16+4+1=21維特征向量,從而使任意大小特征圖都能轉(zhuǎn)化為21維的特征向量,全連接層不再對輸入圖像的大小有所限制。

        在真實的視頻監(jiān)控領(lǐng)域,捕獲到的行人圖像尺寸不同,傳統(tǒng)的方法在進(jìn)行行人圖像屬性識別時,需要對圖像進(jìn)行縮放、裁剪,這樣會導(dǎo)致圖片信息丟失,從而降低了識別準(zhǔn)確率。針對這個問題,本文中在全連接層前添加空間金字塔池化層,將不同大小的輸入圖像轉(zhuǎn)換成固定大小的特征向量,以保留圖像信息,提升模型的識別精度。

        圖2 空間金字塔池化結(jié)構(gòu)

        1.1.3 注意力機(jī)制

        注意力機(jī)制是從圖像特征信息中有選擇地篩選出重要的特征信息,并對特征圖進(jìn)行逐像素點相乘,從而使重要的特征信息得到進(jìn)一步加強(qiáng)。

        注意力機(jī)制模塊由一個卷積層和一個特征加強(qiáng)層組成,如圖3所示。首先通過1×1的卷積對輸入的特征進(jìn)行降維,使其通道數(shù)降為8,篩選出重要特征信息,輸出特征圖αi(i=1,2,3),然后對特征圖αi中每個像素點的值進(jìn)行平方,強(qiáng)化特征圖中的重要特征信息,計算公式為

        γi=αi×αi,

        (1)

        式中γi為得到的特征圖。

        圖3 注意力機(jī)制模塊

        圖4為降維后注意力特征圖。由圖可以看出,降維后的特征圖α3中每個通道包含行人不同屬性的局部特征。雜亂的背景、不同的光照等因素使得行人屬性很難有效地識別,通過降維處理,行人的特征可以被不同的注意力區(qū)域單獨捕捉,然后添加注意力機(jī)制,強(qiáng)化每個通道中的局部特征,從而提升行人整體特征表達(dá)。

        圖4 降維后注意力特征圖αi(i=1,2,3)

        1.2 本文中提出的方法

        針對視頻監(jiān)控領(lǐng)域中行人屬性識別精度較低、細(xì)粒度特征難以識別的問題,本文中提出一種基于注意力機(jī)制與空間金字塔池化的特征提取網(wǎng)絡(luò)結(jié)構(gòu)AMS-NET。AMS-NET首先使用Inception V3模型中Inception 1、Inception 2、Inception 3模塊提取特征,然后,通過注意力機(jī)制,強(qiáng)化特征表達(dá),提高行人屬性的識別精度。為了更多地保留圖像信息,通過在全連接層前添加空間金字塔池化,將不同大小的輸入圖像轉(zhuǎn)換成固定大小的特征向量,從而進(jìn)一步提升網(wǎng)絡(luò)特征表達(dá)能力。

        AMS-NET的結(jié)構(gòu)如圖5所示,整個網(wǎng)絡(luò)分為主網(wǎng)絡(luò)MainNet和3個分支網(wǎng)絡(luò)NET 1、NET 2和NET 3,其中Conv表示卷積層,Maxpooling為最大池化層,F(xiàn)C為全連接層,SPP為空間金字塔池化層。

        主網(wǎng)絡(luò)MainNet包括4個卷積層和2個池化層,Inception 1、Inception 2和Inception 3模塊,SPP層,1個全連接層FC 0。

        MainNet— 主網(wǎng)絡(luò);NET—分支網(wǎng)絡(luò);Conv—卷積層;Maxpooling—最大池化層;FC—全連接層;SPP—空間金字塔池化層。圖5 基于注意力機(jī)制與空間金字塔池化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        4個卷積層和2個池化層對輸入圖像進(jìn)行初步的特征提取,再輸入到Inception 1、Inception 2和Inception 3模塊進(jìn)行下一步特征提取,接著通過SPP層,提取不同維度特征,最后將特征圖輸入全連接層FC 0。

        3個分支網(wǎng)絡(luò)NET 1、NET 2和NET 3將主網(wǎng)絡(luò)中Inception 1、Inception 2和Inception 3模塊的輸出分別作為NET 1、NET 2和NET 3分支網(wǎng)絡(luò)的輸入。

        NET 1分支網(wǎng)絡(luò)中包括一個注意力機(jī)制模塊、1個Inception 2模塊、1個Inception 3模塊和1個SPP層,主要用于進(jìn)一步提取局部細(xì)節(jié)特征(邊緣特征和紋理特征),NET 1的輸出再進(jìn)一步輸入到全連接層FC 1。

        NET 2分支網(wǎng)絡(luò)包括1個注意力機(jī)制模塊、1個Inception 3模塊和1個SPP層,主要用于進(jìn)一步提取全局特征,NET 2的輸出再進(jìn)一步輸入到全連接層FC 2。

        NET 3分支網(wǎng)絡(luò)包括1個注意力機(jī)制模塊和1個SPP層,主要用于進(jìn)一步提取語義特征,NET 3的輸出再進(jìn)一步輸入到全連接層FC 3。

        AMS-NET的結(jié)構(gòu)將主網(wǎng)絡(luò)MainNet輸出的特征與3個分支網(wǎng)絡(luò)NET 1、NET 2和NET 3輸出的特征進(jìn)行融合,再輸入全連接層FC 4。

        最后將全連接層得到的特征通過Sigmod損失函數(shù)進(jìn)行概率計算,得到行人屬性預(yù)測標(biāo)記,進(jìn)行行人屬性識別。

        2 實驗

        2.1 數(shù)據(jù)集

        本文中使用公開的行人屬性數(shù)據(jù)集PETA[14]、PA-100K[15]和CUHK03[16]對提出的方法進(jìn)行驗證。PETA數(shù)據(jù)集中包括19 000幅行人圖像,定義了65個屬性。依照慣例,將數(shù)據(jù)集分為3個部分,其中9 500幅圖像作為訓(xùn)練集,1 900幅圖像作為驗證集,7 600幅圖像作為測試集。PA-100K數(shù)據(jù)集包括10萬幅行人圖像,26個屬性,將數(shù)據(jù)集以8 ∶1 ∶1的比例分為訓(xùn)練集、驗證集和測試集。CUHK03數(shù)據(jù)集包括13 164幅行人圖像,本文中選取其中6 000幅圖像作為訓(xùn)練集,1 500幅圖像為作為測試集,標(biāo)注了12個屬性。

        2.2 評價指標(biāo)

        對于行人屬性識別算法,通常采用Deng等[14]提出的評估方式,將平均精度Am、準(zhǔn)確率A、精確率P、召回率R以及P與R的調(diào)和均值F1共5個指標(biāo)作為行人屬性識別的評價標(biāo)準(zhǔn)。

        2.3 實驗內(nèi)容

        采用Keras框架,用隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò),在訓(xùn)練過程中,考慮到數(shù)據(jù)集中樣本數(shù)量有限,初始學(xué)習(xí)速率不宜設(shè)置過大,通過實驗驗證,將學(xué)習(xí)速率設(shè)置為0.001,學(xué)習(xí)速率每輪下降1/500,權(quán)重衰減設(shè)為0.000 4,可以保證網(wǎng)絡(luò)快速收斂。對于數(shù)據(jù)集樣本不均衡導(dǎo)致模型泛化能力較差的問題,本文中使用Sigmod交叉熵?fù)p失函數(shù)對每個屬性使用不同權(quán)重。模型訓(xùn)練環(huán)境如下:Nvidia Tesla K40、11 GB顯存、Centos 7.0操作系統(tǒng)、24 GB內(nèi)存。在PETA和CUHK03數(shù)據(jù)集中輸入的圖像分辨率為96像素×96像素,在PA-100K數(shù)據(jù)集中輸入的圖像分辨率為60像素×60像素。

        2.4 實驗結(jié)果

        本文中比較AMS-NET網(wǎng)絡(luò)結(jié)構(gòu)屬性識別方法與目前最先進(jìn)的幾種方法在PETA、PA-100K、CUHK03數(shù)據(jù)集上的性能,其中6種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)屬性識別方法,如Hydraplus[15]、M-net[15]、DeepMar[4]、SR[17]、GAPAR[18]、Inception V2[19],3種基于手工設(shè)計特征的方法,如ELF-mm[20]、FC 7-mm[21]和FC 6-mm[21]。

        表1為本文中提出的方法與ELF-mm、FC 7-mm、FC 6-mm以及DeepMar方法在PETA數(shù)據(jù)集上的比較結(jié)果。從表中數(shù)據(jù)可以看出,本文中提出的方法的Am、A、P、R和F1這5個評價指標(biāo)分別達(dá)到了78.31%、72.50%、82.67%、79.66%、81.14%,與性能最優(yōu)的DeepMar方法相比,Am、A、R和F1分別提升了2.59%、1.92%、3.43%、1.08%。由于PETA數(shù)據(jù)集中樣本不均衡,因此本文中提出的方法在精確率方面略低于DeepMar方法。圖6是PETA數(shù)據(jù)集中35個屬性平均精度柱狀圖。

        從圖6可以看出,與DeepMar方法相比,本文中提出的方法在“格子襯衫”“標(biāo)志”和“V領(lǐng)上衣”等細(xì)粒度屬性識別上具有明顯優(yōu)勢。

        表2所示為本文中提出的方法與DeepMar、M-net、HP-net、SR、Inception V2、GAPAR方法在PA-100K數(shù)據(jù)集上的實驗比較結(jié)果。從表中數(shù)據(jù)可看出,本文中提出的方法的Am、A、P、R和F1這5個評價指標(biāo)分別達(dá)到了81.65%、80.12%、90.94%、84.94%、87.83%,與性能最優(yōu)的GAPAR方法相比,Am、A、P、R和F1分別提升6.19%、5.59%、7.78%、2.15%、4.86%。

        表1 不同方法在PETA數(shù)據(jù)集上的實驗結(jié)果 %

        圖6 不同方法在PETA數(shù)據(jù)集上的平均精度柱狀圖

        表2 不同方法在PA-100K數(shù)據(jù)集上的實驗結(jié)果 %

        圖7所示為本文中提出的方法與M-net和DeepMar方法在實際視頻監(jiān)控下識別結(jié)果對比??梢钥闯?,本文中提出的方法可以有效地識別行人多種屬性,識別精度均高于其他2種方法,對于“戴眼鏡”“短袖”和“上衣有標(biāo)志”等細(xì)粒度屬性具有最高的識別精度。

        圖7 不同方法在PA-100K數(shù)據(jù)集上的屬性預(yù)測結(jié)果

        表3所示為本文中提出的方法與Minicnn[22]、M-net和DeepMar方法在CUHK03數(shù)據(jù)集上的實驗比較結(jié)果。從表中數(shù)據(jù)可以看出,本文中提出的方法的Am、A、P、R和F1這5個評價指標(biāo)分別為81.25%、66.36%、66.01%、51.16%、57.65%。本文中提出的方法與Minicnn、M-net、DeepMar方法在CUHK03數(shù)據(jù)集上的平均精度柱狀圖如圖8所示。從圖中可以看出,在12個行人屬性中,本文中提出的方法有9個屬性達(dá)到了最高的識別精度,對于“手提包”“短頭發(fā)”和“單肩包”等細(xì)粒度屬性,本文中提出的方法都具有最高的識別準(zhǔn)確率。

        實驗結(jié)果表明,傳統(tǒng)的基于手工設(shè)計特征的方法特征表達(dá)能力不足,導(dǎo)致行人屬性識別精度較低,而且大多數(shù)深度學(xué)習(xí)方法細(xì)粒度特征的識別能力有限,本文中提出的方法通過注意力機(jī)制強(qiáng)化不同維度的特征,提升了行人整體特征表達(dá)和網(wǎng)絡(luò)的細(xì)粒度特征識別能力,與其他方法相比,具有更高的行人細(xì)粒度特征識別能力和行人屬性識別精度。

        表3 不同方法在CUHK03數(shù)據(jù)集上的實驗結(jié)果 %

        圖8 不同方法在CUHK03數(shù)據(jù)集上的平均精度柱狀圖

        3 結(jié)論

        本文中提出了一種基于注意力機(jī)制與空間金字塔池化的行人屬性識別方法。該方法通過注意力機(jī)制強(qiáng)化不同維度的特征,從而提升行人整體特征表達(dá),同時,加入空間金字塔池化操作,使得任意大小的特征圖都能夠轉(zhuǎn)換成固定大小的特征向量,對輸入的圖像尺寸不再有所限制,更多地保留了圖像信息。相對于其他屬性識別方法,本文中提出的方法可以提取到行人更高層的語義信息,受復(fù)雜環(huán)境的影響較小,具有更高的準(zhǔn)確率。

        本文中的研究較多地注重算法識別精度,而對實際應(yīng)用場景中算法的運行時間沒有過多考慮,因此,提高算法效率,減少算法運行時間是將來的重點研究方向之一。

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        如何表達(dá)“特征”
        不忠誠的四個特征
        學(xué)習(xí)方法
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        av在线播放中文专区| 好爽受不了了要高潮了av| 亚洲av午夜成人片精品| 亚洲第一女优在线观看| 久久久久久人妻无码| 欧美饥渴熟妇高潮喷水水| 精品 无码 国产观看| 亚洲人妻av在线播放| 一本色道久久亚洲综合| 天天躁日日躁狠狠很躁| 免费人成在线观看播放国产| 久久深夜中文字幕高清中文| 蜜桃成熟时在线观看免费视频| 久久超碰97人人做人人爱 | 久久国产热精品波多野结衣av| 一区二区中文字幕蜜桃| 国产精品黄色片在线看| 好屌草这里只有精品| 91精品国产91| 久久九九精品国产不卡一区| 国产熟妇与子伦hd| 1717国产精品久久| 大肥婆老熟女一区二区精品| 成人久久久精品乱码一区二区三区| a级毛片100部免费观看| 成人欧美在线视频| 亚洲福利网站在线一区不卡 | 蜜桃国产精品视频网站| 欧美大片aaaaa免费观看| 久久精品国产亚洲av电影| 情色视频在线观看一区二区三区| 日本人视频国产一区二区三区| 人妻少妇精品视频无码专区| 久久福利青草精品资源| 亚洲第一女优在线观看| 青娱乐极品视觉盛宴国产视频| 91精品福利观看| 久久夜色精品国产亚洲av老牛 | 国产午夜在线观看视频播放| 久久国产精品免费久久久| 加勒比一本heyzo高清视频|