亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于領(lǐng)域自適應的多源多標簽行人屬性識別

        2022-08-24 06:30:00程南江余貞俠陳琳喬賀轍
        計算機應用 2022年8期
        關(guān)鍵詞:行人標簽準確率

        程南江,余貞俠,陳琳,喬賀轍

        (1.成都信息工程大學計算機學院,成都 610225;2.中國科學院重慶綠色智能技術(shù)研究院,重慶 400714)

        0 引言

        行人屬性是人類可搜索的語義描述,可作為視頻監(jiān)控的軟生物識別技術(shù),在人的重識別[1-2]、人臉驗證[3]和人物信息檢索[4-5]等方面有重要應用。行人屬性識別(Perdestion Attribute Recognition,PAR)任務的目的是在給定人物圖像時挖掘目標人物的屬性,預測行人圖像中的多個屬性作為視頻監(jiān)控中的語義描述,如年齡、性別、服裝等,其實質(zhì)是對行人的所有屬性標簽進行二分類的多標簽分類。

        傳統(tǒng)的行人屬性識別方法[6]通常側(cè)重于從低層次特征、強大的分類器或?qū)傩躁P(guān)系等角度開發(fā)魯棒的特征表示,也提出了許多經(jīng)典的方法。然而,大量的評估報告表明,這些傳統(tǒng)方法的性能遠遠不能滿足實際應用的要求。

        與許多視覺任務一樣,深度學習在行人屬性識別方面也取得了顯著進展。近些年來,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)在圖像分類和圖像檢索方面得到了廣泛的應用,許多基于CNN 的PAR 方法被提出。這些方法包括基于全局的[7-9]、基于局部的[10-12]、基于視覺注意的[13-16]等。Deep-Mar[7]直接將整幅圖像作為輸入,并用基于ResNet-50[17]的網(wǎng)絡對所有屬性進行分類。Abdulnabi 等[9]通過三階級聯(lián)CNN 呈現(xiàn)不同類別之間的視覺共享信息,并在多任務學習中利用豐富的先驗信息。基于全局的方法的優(yōu)點是相對直觀、復雜度低、效率高。然而,由于缺乏對局部細粒度屬性識別的考慮,這些方法的性能仍有待提高?;诰植康姆椒ㄍǔP枰~外的身體部件信息來提取特定的屬性特征。Bourdev等[12]將一幅圖像分解為一組圖像塊,根據(jù)給定的視角和部分區(qū)域提取判別特征。Li 等[10]提出了一種聯(lián)合學習CNN 模型,利用人體姿態(tài)輔助PAR,姿態(tài)估計模型可以生成行人關(guān)鍵點,準確定位局部區(qū)域進行屬性識別?;诰植康姆椒ńY(jié)合全局特征和細粒度局部特征顯著提高了識別性能。然而,此方法更多地依賴于定位模塊的準確性,并且大多數(shù)PAR數(shù)據(jù)集的數(shù)據(jù)不足,需要手工標注身體部位區(qū)域。注意力機制在屬性識別中被廣泛應用于對屬性區(qū)域進行弱定位。Liu等[13]提出了一個基于注意力的網(wǎng)絡:HydraPlus-Net,該網(wǎng)絡可以分為兩部分:骨干網(wǎng)絡和注意力網(wǎng)絡。這兩個網(wǎng)絡共享同一個主干CNN 的權(quán)重,其輸出通過全局平均池化(Global Average Pooling,GAP)層進行連接和融合。Wu 等[14]提出了一種分散感知注意力算法,以提高多粒度屬性定位的準確性。Yaghoubi 等[15]擴展了一個多任務學習模型,該模型關(guān)注前景(即人體)特征,并減少了背景區(qū)域的影響。視覺注意力機制通常用于生成注意力掩模,通過匹配識別區(qū)域提取屬性特征。然而,基于注意力的方法只關(guān)注局部區(qū)域或像素的小尺寸,忽略了與屬性相關(guān)的鄰域特征的上下文判別信息。

        雖然各種網(wǎng)絡通過提取更有識別力的特征提高了性能,但現(xiàn)有流行的PAR 數(shù)據(jù)集中,有一個至關(guān)重要的問題經(jīng)常被忽視,即PAR 數(shù)據(jù)集的屬性沒有相關(guān)標準,導致每個數(shù)據(jù)集的屬性有很大差異,如在現(xiàn)有4 個主流的PAR 數(shù)據(jù)集中,PA-100K(Pedestrian Attribute-100K)[13]數(shù)據(jù)集有26 項屬性,PETA(PEdesTrian Attribute)[18]數(shù)據(jù)集有35 項屬性,RAPv1(Richly Annotated Pedestrian v1)[19]和RAPv2[20]的屬性數(shù)則為51 項。這個問題導致了在改進行人屬性識別算法時,通常只能在單一數(shù)據(jù)集上進行比較,無法將多個屬性不同的數(shù)據(jù)集結(jié)合起來。并且在實際應用時,由于各個數(shù)據(jù)集間的屬性差異,通常無法加入現(xiàn)有公開數(shù)據(jù)集直接訓練,為完成任務,只能花費大量時間進行圖片的搜集、裁剪和標注。這種方法不僅耗時,而且需要大量的人力物力。在一些僅有少量樣本的場景上,大多數(shù)算法往往不能得到良好的訓練效果。并且,現(xiàn)有公開數(shù)據(jù)集的采集場景差異也非常大,例如,RAPv1和RAPv2 數(shù)據(jù)集樣本均由室內(nèi)攝像頭采集,光線較為融合,這些圖片也較為清晰,分辨率高;而PATA 數(shù)據(jù)集來自室外攝像頭,其圖片分辨率低且曝光率較高。

        針對上述問題,本文提出了一種基于多源多標簽,以領(lǐng)域自適應為基礎(chǔ),利用特征對齊和標簽對齊提高跨數(shù)據(jù)集行人屬性識別性能的方法。

        1 本文方法

        本文方法的總體結(jié)構(gòu)如圖1 所示,以ResNet-50 為基礎(chǔ),加入了用于行人屬性識別任務的特征及標簽對齊模塊。其中特征對齊模塊(Feature Alignment Module,F(xiàn)AM)使用領(lǐng)域自適應方法,通過學習公共的特征不變表示,使多個數(shù)據(jù)集的樣本在公共特征空間中盡可能有相同的分布,以實現(xiàn)數(shù)據(jù)集間樣本的特征對齊。標簽對齊模塊(Label Alignment Module,LAM)則對數(shù)據(jù)集的標簽進行操作,從多個數(shù)據(jù)集中找出共有屬性,將數(shù)據(jù)集的共有屬性標簽向所選出的源域數(shù)據(jù)集標簽進行對齊,以此增強模型對共有屬性的識別效果。

        圖1 基于領(lǐng)域自適應的多源多標簽行人屬性識別總體結(jié)構(gòu)Fig.1 Overall structure of multi-source and multi-label pedestrian attribute recognition based on domain adaptation

        1.1 特征對齊模塊

        由于數(shù)據(jù)集之間的場景差異,本文采用循環(huán)生成對抗網(wǎng)絡(Cycle-Generative Adversarial Network,Cycle-GAN)[21-22]實現(xiàn)數(shù)據(jù)集間樣本的特征對齊,以完成兩個數(shù)據(jù)集圖片風格的相互轉(zhuǎn)換。以PA-100K 數(shù)據(jù)集和RAPv1 數(shù)據(jù)集為例。特征對齊模塊的目的是得到PA-100K 域P和RAPv1 域R之間的映射關(guān)系,使兩個域之間能夠進行相互映射。域P提供圖片IP,域R提供圖片IR,在給定iR∈IR和iP∈IP的情況下,最終得到兩個最優(yōu)的生成器GP→R和GR→P,前者完成從PA-100K域向RAPv1 域的映射,后者則相反。整個訓練過程引入了循環(huán)一致性損失(Lcycle)來規(guī)范,具體來說,對樣本iR和iP而言,目標之一是iP→GP→R(iP) →GR→P(GP→R(iP)) ≈iP,另一個則是iR的逆過程。循環(huán)一致性損失是周期架構(gòu)中的L1 損失,其定義如下:

        同時,兩個對抗器DR和DP也分別對應判別器GP→R和GP→R。具體來說,DR試圖區(qū)分那些來自IR或GP→R(IP)的圖片,DP則試圖區(qū)分那些來自IP或GR→P(IR)的圖片。以DP為例,訓練目標是得到其對抗損失(Adversarial Loss),公式如下:

        綜上,總的損失函數(shù)定義為:

        1.2 標簽對齊模塊

        圖2 將RAPv1數(shù)據(jù)集的標簽與PA-100K數(shù)據(jù)集的標簽對齊Fig.2 Aligning labels of RAPv1 dataset with those of PA-100K dataset

        1.3 損失計算模塊

        行人屬性識別方法通常采用具有sigmoid 函數(shù)的多個二元分類器,損失通常以如下方式計算:

        其中:rj為數(shù)據(jù)集中第j個屬性的負樣本比率。

        由于上述損失函數(shù)為單一數(shù)據(jù)集的計算方式,而本文中引入了多個數(shù)據(jù)集,因此改進后的多標簽半監(jiān)督損失函數(shù)如下:

        2 實驗與結(jié)果分析

        2.1 數(shù)據(jù)集

        PA-100K 數(shù)據(jù)集[13]是由598 個真實的戶外監(jiān)控攝像頭捕獲到的圖像構(gòu)建而成的,其中包括100 000 張行人圖像,是迄今為止最大的行人屬性識別數(shù)據(jù)集。整個數(shù)據(jù)集按8∶1∶1的比例隨機分為訓練集、驗證集和測試集。

        RAPv1 數(shù)據(jù)集[19]來自真實的室內(nèi)監(jiān)控場景,共選取26臺攝像機來采集圖像,包含41 585 張分辨率范圍為36×92 到344×554 的圖片,其中的33 268 幅圖像用于訓練,剩余部分用于測試。

        RAPv2 數(shù)據(jù)集[20]采集自現(xiàn)實室內(nèi)購物中心的高清監(jiān)控。該數(shù)據(jù)集包含84 928 張圖像,并分為三個部分,其中50 957張用于訓練,16 986 張用于驗證,16 985 張用于測試。

        PETA 數(shù)據(jù)集[18]是由10 個公開的用于行人重識別的小規(guī)模數(shù)據(jù)集構(gòu)建而成。該數(shù)據(jù)集包含19 000 張圖像,隨機選出9 500 張用于訓練,1 900 張用于驗證,7 600 張用于測試。

        2.2 評估標準

        實驗采用了基于標簽和基于實例的標準評價屬性識別算法?;跇撕灥臉藴适紫泉毩⒂嬎忝總€屬性的準確率,以所有屬性的平均準確率(mean Accuracy,mA)作為識別率。mA的計算公式如下:

        其中:L為屬性的個數(shù);TPi和TNi分別為正確預測的正、負樣本個數(shù);Pi和Ni分別為正、負樣本總數(shù);N為樣本總數(shù)。

        基于實例的標準包括準確性Acc、精度Prec、召回率Rec和F1 值四個廣泛使用的指標,定義如下:

        其中:Yi為第i個樣本的真實正標簽;f(xi)為第i個樣本的預測正標簽。

        2.3 實驗結(jié)果

        實驗在2 張NVIDIA GTX1080ti 上使用PyTorch 進行,采用256×192 作為骨干網(wǎng)絡ResNet-50 的輸入圖像大小,該網(wǎng)絡已在ImageNet 上進行了預訓練,通過隨機梯度下降(Stochastic Gradient Descent,SGD)對網(wǎng)絡進行優(yōu)化。圖片通過隨機擦除、隨機裁剪、水平翻轉(zhuǎn)和其他操作進行了簡單的數(shù)據(jù)增強處理。動量大小設(shè)置為0.5,權(quán)重衰減為0.000 5。初始學習率為0.01,批處理大小設(shè)置為64,學習率的衰減因子為0.1,總共訓練30 輪。

        實驗時,將PA-100K 作為目標域,RAPv1、RAPv2 和PETA 分別作為源域,具體步驟如下:分別將RAPv1、RAPv2和PETA 數(shù)據(jù)集的樣本與PA-100K 數(shù)據(jù)集樣本通過領(lǐng)域自適應方法進行特征對齊,再把這三個數(shù)據(jù)集的標簽與PA-100K的標簽對齊;最后分別將對齊后的樣本和標簽與PA-100K 樣本結(jié)合起來組成一個新的訓練集,測試集不變,仍將PA-100K 的測試集用作測試。三種混合數(shù)據(jù)集在表中分別以RAPv1→PA-100K、RAPv2→PA-100K 和 PETA→PA-100K表示。

        為了驗證本文方法的有效性,本文將所提方法與近年來最先進的(State-Of-The-Art,SOTA)方法進行了比較,包括基于局部的方法,如PGDM(Posed Guided Deep Model)[10]、ALM(Attribute Localization Module)[24]、CoCNN(Co-occurrence Convolutional Neural Network)[24];基于注意力的方法如HPNet(Hydra Plus Net)[13]、MT-CAS(Multi-Task learning via Co-Attentive Sharing)[25]、AR-BiFPN(Attribute Recognition-Bidirectional Feature Pyramid Network)[26];以及其他損失函數(shù)改進方法,如StrongBaseline(Strong Baseline model)[27]。表1為在PA-100K 數(shù)據(jù)集上的實驗結(jié)果。

        表1 在PA-100K數(shù)據(jù)集上的不同方法結(jié)果對比 單位:%Tab.1 Result comparison of different methods on PA-100K dataset unit:%

        從表1 可以看出,本文方法在PA-100K 數(shù)據(jù)集上的性能優(yōu)于其他SOTA 方法。相較于StrongBaseline,所提出的方法在mA上分別提升了1.22、1.62 和1.53 個百分點。具體來說,以RAPv1→PA-100K 為例,本文方法在mA和Acc方面分別比AR-BiFPN 提高了0.67 和0.25 個百分點。在RAPv2→PA-100K 上,方法在mA、Acc方面優(yōu)于其他SOTA 方法,并產(chǎn)生最高的F1 值,這是由于Prec和Rec的值更均衡。F1 和mA值的提升表明,本文方法通過結(jié)合多個來自不同域的樣本(RAPv1 和RAPv2 數(shù)據(jù)集由室內(nèi)攝像機采集,而PA-100K 數(shù)據(jù)集則來自室外攝像機)進行跨數(shù)據(jù)集訓練的方法是有效的。

        在兩個數(shù)據(jù)集場景差異最大的PETA→PA-100K 上,如表1 所示,本文方法仍然優(yōu)于其他SOTA 方法:mA相較于第二名提高了0.27 個百分點,Rec值是第三好的結(jié)果。綜上,本文方法明顯優(yōu)于其他基準方法,在將PA-100K 數(shù)據(jù)集作為基準數(shù)據(jù)集時,生成了最高的基于標簽的度量mA。在這些數(shù)據(jù)集上的良好表現(xiàn)展現(xiàn)了行人屬性識別中進行跨數(shù)據(jù)集訓練的優(yōu)越性。

        為研究各個模塊對實驗結(jié)果的影響,使用ResNet-50 作為基準,分別加入特征對齊模塊(FAM)和標簽對齊模塊(LAM),在RAPv1→PA-100K、RAPv2→PA-100K 和PETA→PA-100K 上進行消融實驗,實驗結(jié)果如表2 所示。加入LAM之后,在三個混合數(shù)據(jù)集上的實驗結(jié)果相較于基準方法在各項指標上均有不同程度提升,其中mA分別提升了0.87、1.14 和0.32 個百分點,說明了LAM 可以使方法的識別效果有較大的增益。并且,在同時加入LAM 和FAM 后,相較于只加LAM 時,三組實驗結(jié)果也均有不同提升,其中在RAPv1→PA-100K 上,mA、Acc、Rec和F1 分別提升了0.75、0.33、0.86和0.11 個百分點;在RAPv2→PA-100K 上這四項指標則提升了0.39、1.23、1.33 和0.59 個百分點;在由于場景差異過大而最能反映模塊效果的PETA→PA-100K 上,mA、Rec和F1 這三項指標分別提高0.90、0.15 和0.31 個百分點,這表明即使對一些場景差異較大的數(shù)據(jù)集,本文方法也能有效提升屬性識別精度。

        表2 消融實驗結(jié)果 單位:%Tab.2 Results of Ablation experiments unit:%

        為了分析本文方法對各個屬性的影響,如表3~5 所示,分別展示了在RAPv1→PA-100K、RAPv2→PA-100K 和PETA→PA-100K 上各個共有屬性的識別準確率,并與StrongBaseline[27]對應屬性的識別準確率進行比較(PA-100K與RAPv1 和RAPv2 的共有屬性相同,共有10 個,與PETA 的共有屬性有11 個)。從表3~5 可以看出:對比基準算法StrongBaseline,三個混合數(shù)據(jù)集的絕大部分共有屬性識別準確率均有不同程度的提升,尤其在一些正負樣本分布失衡的屬性上的效果提升非常大,例如屬性Hat 在PA-100K 中的正樣本比例僅為4.21%,而本文方法在這個屬性上的識別準確率相較于StrongBaseline 分別提升10.68、8.47 和7.31個百分點。

        表3 在RAPv1→PA-100K上的共有屬性識別準確率對比Tab.3 Comparison of common attribute recognition accuracy on RAPv1→PA-100K

        表4 在RAPv2→PA-100K上的共有屬性識別準確率對比Tab.4 Comparison of common attribute recognition accuracy on RAPv2→PA-100K

        表5 在PETA→PA-100K上的共有屬性識別準確率對比Tab.5 Comparison of common attribute recognition accuracy on PETA→PA-100K

        3 結(jié)語

        為解決行人屬性識別數(shù)據(jù)集中屬性不一致,導致很難將現(xiàn)有行人屬性識別數(shù)據(jù)集進行實際應用的問題,提出了一種基于領(lǐng)域自適應的多源多標簽行人屬性識別方法。該方法包含兩個模塊,即標簽對齊模塊和特征對齊模塊,其中標簽對齊模塊將來自不同領(lǐng)域的多個數(shù)據(jù)集的標簽對齊;特征對齊模塊用于多個數(shù)據(jù)集間的特征對齊。通過這兩個模塊得到一個新的混合數(shù)據(jù)集重新進行訓練。在PA-100K、PETA、RAPv1 和RAPv2 數(shù)據(jù)集上的實驗結(jié)果(將PA-100K 數(shù)據(jù)集作為基準數(shù)據(jù)集)表明,本文方法的性能優(yōu)于大多數(shù)現(xiàn)有SOTA方法,有很大的應用潛力。不過由于本文方法僅在四個數(shù)據(jù)集上進行實驗,且使用的領(lǐng)域自適應方法沒有考慮到行人屬性識別樣本的特殊性,因此,未來的研究可以圍繞增添數(shù)據(jù)集進行實驗和改進領(lǐng)域自適應方法上展開。

        猜你喜歡
        行人標簽準確率
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
        路不為尋找者而設(shè)
        揚子江(2019年1期)2019-03-08 02:52:34
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        高速公路車牌識別標識站準確率驗證法
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        我是行人
        標簽化傷害了誰
        蜜臀av一区二区| 一区二区三区视频在线观看免费| 97人伦影院a级毛片| 亚洲啪啪综合av一区| 99久久久无码国产精品动漫| 久久精品国产福利亚洲av| 精品人妻少妇av中文字幕| 天天影视性色香欲综合网| 午夜亚洲AV成人无码国产| 区二区三区亚洲精品无| 国产情侣一区二区| 一区二区三区国产亚洲网站| 久久精品国产亚洲一区二区| h视频在线观看视频在线| 国产精品无码一区二区三区在| 丰满老熟妇好大bbbbb| 午夜影院91| h视频在线免费观看视频| 高潮内射双龙视频| 好爽…又高潮了毛片免费看| av天堂吧手机版在线观看| av在线免费高清观看| 亚洲av福利无码无一区二区| 国产中文aⅴ在线| 久久精品国产亚洲av网在| 无码无套少妇毛多18p| 精品久久久无码中文字幕| 亚洲av一区二区国产精品| 一区二区视频中文字幕| 亚洲人午夜射精精品日韩 | 国产精品欧美久久久久久日本一道| 丝袜足控一区二区三区| 一区二区三区四区亚洲综合 | 亚洲精品中文字幕乱码人妻| 亚洲精品粉嫩美女一区| 一本一道av无码中文字幕| 午夜精品久视频在线观看| 国产极品大奶在线视频| 日本老熟妇乱| 亚洲成av人在线观看无堂无码| 看国产亚洲美女黄色一级片|