亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于殘差注意和非對稱損失的行人屬性識別

        2023-04-06 04:38:30胡紅梅張麗紅
        測試技術(shù)學(xué)報 2023年2期
        關(guān)鍵詞:行人類別殘差

        胡紅梅,張麗紅

        (山西大學(xué) 物理電子工程學(xué)院,山西 太原 030006)

        行人屬性識別(Pedestrian Attribute Recognition, PAR)的目的是挖掘給定圖像的目標人物屬性,如性別、年齡和服裝風(fēng)格等。行人屬性可以對行人的外觀特征進行精細表征,被廣泛應(yīng)用于智能監(jiān)控、視頻圖像檢索、行人重識別等諸多領(lǐng)域,具有廣闊的市場應(yīng)用前景[1]。但由于應(yīng)用場景的不確定性,導(dǎo)致屬性復(fù)雜樣本識別精度較低和屬性分布不平衡,行人屬性識別面臨著巨大的技術(shù)挑戰(zhàn)。

        為了應(yīng)對這些挑戰(zhàn),早期通常采用傳統(tǒng)手工提取特征的方法,如支持向量機(Support Vector Machines, SVM)。近年來,基于深度學(xué)習(xí)的行人屬性識別方法被很多學(xué)者深入研究。Liu等[2]提出利用多方向注意力機制模塊的網(wǎng)絡(luò)來定位細粒度的屬性并增強行人圖像的特征表示;Guo等[3]利用同一圖像的不同空間變換之間視覺注意區(qū)域一致性的假設(shè),提出用注意一致性損失來獲得魯棒屬性定位;受特征金字塔網(wǎng)絡(luò)的啟發(fā),Tang等[4]利用擠壓和激發(fā)(Squeeze-and-excitation networks, SE)塊[5]和空間變壓器網(wǎng)絡(luò)(Spatial Transformer Networks, STN)[6]構(gòu)建了屬性定位模塊,以增強屬性定位;另外,還有通過挖掘?qū)傩蚤g關(guān)系的方法,如Wang[7]提出的通過長短期注意力機制將行人屬性識別問題轉(zhuǎn)化成為一個序列預(yù)測問題,期望挖掘出不同屬性間的關(guān)系。最近,Tan等[8]也提出使用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)來關(guān)注屬性關(guān)系,通過擴展神經(jīng)網(wǎng)絡(luò)以使用圖結(jié)構(gòu)來處理數(shù)據(jù),以捕獲屬性關(guān)系的上下文關(guān)系[9]。雖然以上提出的注意力機制或采用GCN的方法提高了屬性識別性能,卻增加了參數(shù)數(shù)量,導(dǎo)致圖像中行人屬性復(fù)雜樣本識別精度較低和屬性目標大小分布不平衡問題并沒有得到很好的解決。

        為解決上述問題,本文提出一種基于殘差注意的行人屬性識別網(wǎng)絡(luò)。該網(wǎng)絡(luò)以Resnet50[10]作為骨干網(wǎng)絡(luò)提取出具有語義信息的行人屬性特征,采用屬性類別殘差注意模塊(Attribute Category Residual Attention Module, ACRAM)加強對屬性所在區(qū)域的識別并挖掘不同屬性之間的內(nèi)部聯(lián)系。同時,對分類器的權(quán)值進行歸一化并引入一種非對稱的損失函數(shù)[11]以降低行人屬性樣本分布不平衡的影響,這種非對稱損失能夠動態(tài)降低權(quán)重和容易分類的負樣本,丟棄可能錯誤標記的樣本,提高屬性識別精度。

        1 網(wǎng)絡(luò)框架

        本文提出的基于殘差注意的行人屬性識別網(wǎng)絡(luò)整體框架如圖1 所示,包括特征提取模塊、屬性類別殘差注意模塊和多頭注意特征融合模塊3部分。首先,特征提取模塊采用基于Resnet50的主干網(wǎng)絡(luò)來提取具有一定語義信息的行人屬性特征,將得到的行人屬性特征通過1×1卷積解耦成多個不同的子特征,提取出具有空間依賴性和語義相關(guān)性的自注意力特征;然后,屬性類別殘差注意模塊可以有效地捕獲來自不同屬性類別的小對象所占據(jù)的不同空間區(qū)域,以關(guān)注行人屬性的關(guān)鍵部分并挖掘不同屬性之間的內(nèi)部聯(lián)系;最后,特征融合模塊將這些多分支的殘差注意特征相融合,同時,將融合后的特征輸入分類器得到最終的屬性預(yù)測。為了更好地加快模型的收斂速度,網(wǎng)絡(luò)中對分類器的權(quán)值進行歸一化(Batch Normalization, BN)并采用非對稱損失函數(shù)來降低行人屬性樣本分布不平衡的影響。

        圖1 基于殘差注意的行人屬性識別網(wǎng)絡(luò)整體框架

        2 屬性類別殘差注意網(wǎng)絡(luò)結(jié)構(gòu)

        屬性類別殘差注意網(wǎng)絡(luò)結(jié)構(gòu)主要是通過空間自注意力機制提取分辨率更高的行人屬性局部特征。該網(wǎng)絡(luò)為行人的每個屬性類別提取最大池化特征,并結(jié)合屬性類別未知的平均池化特征加強對屬性所在區(qū)域的識別和挖掘不同屬性類別之間的內(nèi)部聯(lián)系,對局部細粒度的行人屬性具有更好的識別效果。

        在行人屬性識別網(wǎng)絡(luò)圖1 中,對于給定的行人圖像I,通過一個特征提取骨干網(wǎng)絡(luò)φ獲得特征張量x,其中d,h和w為特征張量x的維數(shù)、高度和寬度。

        x=φ(I;θ),

        (1)

        式中:θ是主干網(wǎng)絡(luò)的超參數(shù)。首先,采用Resnet50作為特征提取骨干網(wǎng)絡(luò)來提取行人的整體特征,輸入圖像的分辨率為224×224,提取得到2 048×14×14維的特征;然后,將提取到的特征通過全連接層(1×1卷積)變成c×h×w維的子特征,c是屬性類別。

        圖2 殘差注意模塊原理框圖

        (2)

        (3)

        (4)

        實驗發(fā)現(xiàn),將g視為主要的特征向量可以取得良好的屬性識別效果,ai視為屬性類i的殘余特征。通過添加這兩個向量得到第i個屬性類別殘差注意特征

        fi=g+λai,

        (5)

        式中:λ是結(jié)合全局平均池化和最大池化分數(shù)的超參數(shù)。以上就是屬性類別殘差注意模塊,它不僅依賴于一個位置的殘余特征,還依賴于所有位置的殘余特征。直觀地說,當(dāng)輸入的行人圖像中有多個來自同一個屬性類別的小對象時,屬性類別殘差注意比單獨的全局平均池化或者全局最大池化具有明顯優(yōu)勢。最后第i個屬性的得分yi定義為

        (6)

        式中:mi∈R2 048是第i類分類器的參數(shù)。

        3 多頭注意力機制

        為了避免對控制得分準確性T調(diào)參,進一步提出多頭注意力機制并將其擴展應(yīng)用于網(wǎng)絡(luò)分支。殘差注意多個分支采用不同的超參數(shù)T,但共享相同λ,注意力分支的數(shù)量用H表示,為避免調(diào)參,當(dāng)選擇固定參數(shù)H=1時即單頭注意力機制。除了使用H=1外,本文還使用H=2,4,6和8,具體如下:

        當(dāng)H=2,T1=1和T2=∞;

        當(dāng)H=4,T1∶3=1,2,4和T4=∞;

        當(dāng)H=6,T1∶5=1,2,3,4,5和T6=∞;

        當(dāng)H=8,T1∶7=1,2,3,4,5,6,7和T8=∞.

        不同的T值可以給分支帶來多樣性從而產(chǎn)生更好的識別效果,簡而言之超參數(shù)T可以不用調(diào)參。將不同注意力分支的特征進行融合再輸入分類器得到最終的屬性識別結(jié)果,此過程分別如式(7)和式(8)

        (7)

        (8)

        式中:Ti是第i個注意力頭的參數(shù),c是屬性數(shù)量。為了在訓(xùn)練過程中加快模型的收斂速度,將分類器的權(quán)值進行歸一化。引入歸一化還可以解決以下兩個問題:① 歸一化操作能夠讓不同屬性識別任務(wù)在同一位置的注意力權(quán)重保持在相同的尺度上;② 歸一化操作得到的注意力權(quán)重可以反映出特征空間對于不同屬性識別任務(wù)的相對重要性。

        4 多標簽非對稱損失函數(shù)

        損失函數(shù)對于多屬性分類通常利用二進制交叉熵損失函數(shù)來估計預(yù)測值和真實值之間的不一致程度[12],定義如下

        log(1-pij),

        (9)

        (10)

        式中:N表示樣本數(shù)量;L表示屬性數(shù)量;yij表示第i個樣本第j個屬性的真實標簽;pij表示第i個樣本第j個屬性的預(yù)測概率;xij表示第i個樣本第j個屬性。雖然所有屬性都被公平地考慮了,但在行人多屬性識別中正負樣本的比例差異較大,訓(xùn)練網(wǎng)絡(luò)對小比例的屬性識別性能較差。因此,Zhu等[13]采用加權(quán)二值交叉熵損失函數(shù)對網(wǎng)絡(luò)模型進行優(yōu)化,即在二值交叉熵損失函數(shù)中引入加權(quán)因子來平衡正負樣本比例。該損失函數(shù)公式為

        (1-yij)·log(1-Pij),

        (11)

        (12)

        式中:w為屬性負樣本占所有樣本的比例;Nj為訓(xùn)練集中屬性的正樣本數(shù);Nall為訓(xùn)練集中訓(xùn)練的屬性樣本數(shù)量。屬性正樣本和負樣本之間的比例不平衡問題雖然被考慮到了,但樣本分類難度被忽略了。在訓(xùn)練后期大部分簡單樣本可以被正確分類,只有少數(shù)復(fù)雜樣本可能被錯誤分類,但是簡單樣本占損失函數(shù)的大部分,且梯度方向受簡單樣本影響較大,而簡單樣本不能提高分類精度。為了解決這一問題,文獻[14]引入簡單屬性和復(fù)雜屬性的權(quán)重,增加損失函數(shù)中復(fù)雜屬性在總體損失函數(shù)中的比例,提出了一種適合于多屬性分類的焦點損失函數(shù)公式如下

        e1-w·(1-yij)·Pijr·log(1-Pij),

        (13)

        式中:r是聚焦參數(shù),其范圍設(shè)置為0到5。為更好地解決行人屬性識別中樣本不平衡問題,本文提出了一種適合多屬性分類的非對稱損失如式(14)。該損失函數(shù)引入了額外的非對稱機制即概率位移轉(zhuǎn)移如式(15),它對非常容易分類的負樣本進行硬閾值化,即當(dāng)負樣本的概率很低時將被完全丟棄。非對稱損失在正負樣本上具有不同操作能夠動態(tài)地降低權(quán)重和容易分類的負樣本,使得優(yōu)化過程更多地關(guān)注正樣本,并且還能夠丟棄錯誤標記的負樣本以更好地提高屬性識別精度。

        (14)

        Pm=max(Pij-m,0),

        (15)

        式中:Pm是概率位移轉(zhuǎn)移,r+和r-分別是正聚焦參數(shù)和負聚焦參數(shù),m(m≥0)是概率邊際可調(diào)超參數(shù),加號前面是正損失部分,加號后面是負損失部分。可以看到,概率位移相當(dāng)于將損失函數(shù)向右移動一個因子m,因此,在Pijr+條件,另外,可以通過調(diào)整概率邊際m進行硬閾值化。

        5 實驗結(jié)果及分析

        5.1 數(shù)據(jù)集

        本文采用公開PETA[15]數(shù)據(jù)集和PA100k數(shù)據(jù)集,部分數(shù)據(jù)集中的行人樣本如圖3 所示。其中,PETA數(shù)據(jù)集的19 000張行人圖像主要從不同的室內(nèi)和室外場景捕獲所得,每個行人有61個二值屬性和4個多類別屬性,包括年齡、性別、發(fā)型、攜帶物、鞋子類型等屬性。實驗選取了35個相對正負比例平衡的屬性進行訓(xùn)練,分辨率范圍17×39 到169×365像素不等。實驗隨機將圖像分為訓(xùn)練集9 500張,驗證集1 900張,測試集7 600張。

        圖3 數(shù)據(jù)集的部分樣本

        PA100K[2]數(shù)據(jù)集通過室外監(jiān)控攝像頭捕獲所得,是行人屬性識別中最大的數(shù)據(jù)集。此數(shù)據(jù)集包括10萬個行人圖像,每張圖像具有26個常用二進制屬性,屬性包括全局屬性和局部屬性,性別、年齡等特征等為全局屬性; 手提包、手機、上裝等特征為局部屬性。圖像分辨率范圍為50×100至758×454像素。整個數(shù)據(jù)集隨機被分為3個數(shù)據(jù)子集進行評估,其中80 000張訓(xùn)練圖像,10 000張驗證圖像和10 000張測試圖像。

        5.2 評估指標

        在實驗評估方面,采用了基于標簽和基于樣本的兩種評估準則來衡量模型性能。

        1)平均精度(mean accuracy, mA)是基于標簽的評估標準,也是屬性識別算法中最常用的性能度量指標[16]。針對多屬性識別中屬性樣本不平衡問題,平均精度可以防止網(wǎng)絡(luò)模型偏向于一些權(quán)重比例較高的正樣本。具體公式為

        (16)

        式中:N表示樣本數(shù)量;L為屬性數(shù)量;Pi和TPi分別表示屬性的正樣本數(shù)量和正確識別的正樣本數(shù)量;Ni和TNi分別表示屬性的負樣本數(shù)量和正確識別的負樣本數(shù)量。它獨立地處理每個屬性,而忽略了屬性之間的相關(guān)性。因此,李等[17]提出了一種基于實例的評價標準,該標準更符合人類對行人屬性的預(yù)測。

        2)準確性(Accuracy, Acc)、精確率(Precision, Prec)、召回率(Recall, Rec)和F1值4種評價指標是基于實例的評價標準。具體定義為

        (17)

        (18)

        (19)

        (20)

        式中:N表示樣本數(shù)量;Yi為第i個實例的真實標簽;f(xi)為第i個實例的預(yù)測標簽;|·|表示集合中的屬性數(shù)?;趯嵗脑u價準則是以每個屬性樣本實例為單位評估,其中F1指標是精確度和召回率的調(diào)和平均,能夠綜合來評價屬性識別能力,在多標簽圖像分類中具有重要作用。

        5.3 實驗對比與分析

        為有效評估所提出方法的可行性,分別在兩個最常用的行人屬性數(shù)據(jù)集PETA和PA100K上進行了實驗,表1 和表2 是分別在PETA 數(shù)據(jù)集和PA100k數(shù)據(jù)集上本文方法與其他8種基于深度學(xué)習(xí)的行人屬性識別方法的實驗結(jié)果對比,并突出顯示了最好的性能。

        表1 本文模型與其他不同模型在PETA數(shù)據(jù)集上得到的屬性識別性能對比結(jié)果

        表2 本文模型與其他不同模型在PA100k數(shù)據(jù)集上得到的屬性識別性能對比結(jié)果

        從表1 看出,本文所提出的方法在PETA數(shù)據(jù)集上的性能優(yōu)于其他方法,具體地說在基于標簽和3個基于樣本的評價指標達到了最高值,識別準確率略低于其他方法,但相對于其他多數(shù)方法仍有明顯優(yōu)勢,該結(jié)果驗證了本文模型在行人屬性識別任務(wù)中的有效性。

        表2 是本文模型與其他不同模型在PA100k數(shù)據(jù)集上得到的屬性識別性能對比結(jié)果,可以看出,本文方法有3個基于樣本的評價指標達到了最高值,其中屬性的識別準確率達到80.95%。

        表3 和表4 分別是本文模型與不同損失函數(shù)結(jié)合在PETA和PA100k數(shù)據(jù)集上的比較結(jié)果,引入本文所提出的非對稱損失函數(shù)后,在各項指標上均有不同程度的提升。這是由于此損失函數(shù)可以動態(tài)降低權(quán)重和容易分類的負樣本,同時丟棄可能錯誤標記的樣本,以提高屬性識別精度。實驗結(jié)果表明,本文所提出的非對稱損失函數(shù)可以有效提升行人屬性識別模型的判別能力。

        表3 本文模型與不同損失函數(shù)結(jié)合在PETA數(shù)據(jù)集上的比較結(jié)果

        表4 本文模型與不同損失函數(shù)結(jié)合在PA100k數(shù)據(jù)集上的比較結(jié)果

        本實驗采用224×224尺寸圖像作為骨干網(wǎng)絡(luò)Resnet50輸入,模型的參數(shù)更新采用隨機梯度下降法(Stochastic Gradient Descent, SGD)實現(xiàn),網(wǎng)絡(luò)訓(xùn)練時設(shè)置的動量(Momentum)和權(quán)值衰減參數(shù)(Weight decay)分別為0.9和0.000 5。通過對圖片進行隨機擦除、隨機裁剪、水平翻轉(zhuǎn)和其他操作的數(shù)據(jù)增強處理,增加各類屬性樣本的數(shù)量以提升網(wǎng)絡(luò)的泛化能力。在訓(xùn)練時輸入圖片的批量大小為64,可訓(xùn)練的迭代次數(shù)為30,學(xué)習(xí)率為0.01。本文方法在PETA數(shù)據(jù)集和PA100k數(shù)據(jù)集上訓(xùn)練的總損失函數(shù)曲線如圖4 所示,從圖中可以看出,隨著迭代次數(shù)增加,模型趨近收斂。由于網(wǎng)絡(luò)對具有不同學(xué)習(xí)難度及收斂速度的屬性賦予不同的權(quán)重,緩解了行人屬性識別任務(wù)的負遷移問題,因此,本文方法在行人屬性識別方法中具有明顯優(yōu)勢。

        圖4 損失函數(shù)曲線

        5.4 屬性識別可視化

        為了進一步驗證本文方法的有效性,從測試數(shù)據(jù)集中選取了不同視角和場景下單個行人樣本進行實驗,屬性識別結(jié)果如圖5 所示,每個行人圖像右側(cè)是其對應(yīng)的屬性預(yù)測結(jié)果,其中橫線下半部分藍色標注的為小目標細粒度屬性識別。從圖5 可以看出,行人正面比背面的屬性信息更為豐富全面,且一些行人小目標屬性也能檢測出來,如圍巾、眼鏡屬性均被檢測出來。綜上所述,本文方法可以有效提高屬性識別準確率。

        圖5 可視化效果

        6 結(jié)束語

        本文提出了一種基于Resnet50和屬性類別的殘差注意力機制相結(jié)合的行人屬性識別方法。該方法為行人的每個屬性類別提取最大池化特征,將其與屬性類別未知的平均池化特征相結(jié)合,能夠關(guān)注屬性存在的關(guān)鍵區(qū)域并挖掘不同屬性類別之間的內(nèi)部聯(lián)系;其次,本文還引入了一種新的非對稱損失,這種損失可以動態(tài)地降低權(quán)重和容易分類的負樣本,同時丟棄可能錯誤標記的樣本,以提高識別精度和收斂速度。屬性類別殘差注意網(wǎng)絡(luò)結(jié)構(gòu)簡單也容易實現(xiàn),并且沒有引入額外的訓(xùn)練數(shù)據(jù),通過實驗,驗證了本文方法的合理性和有效性。在兩個行人屬性數(shù)據(jù)集上,實驗結(jié)果表明,本文的方法較于其他方法具有明顯優(yōu)勢。

        猜你喜歡
        行人類別殘差
        基于雙向GRU與殘差擬合的車輛跟馳建模
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        基于殘差學(xué)習(xí)的自適應(yīng)無人機目標跟蹤算法
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        路不為尋找者而設(shè)
        揚子江(2019年1期)2019-03-08 02:52:34
        我是行人
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        平穩(wěn)自相關(guān)過程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        欧美成人国产精品高潮| 精品人妻一区二区蜜臀av| 99视频一区二区日本| 国产成人无码专区| 白又丰满大屁股bbbbb| 亚洲情a成黄在线观看动漫尤物| 亚洲无av高清一区不卡| 日韩乱码中文字幕在线| 色橹橹欧美在线观看视频高清 | 国产香蕉一区二区三区| 日本午夜精品一区二区三区| 精品欧洲av无码一区二区14| 一本色综合亚洲精品蜜桃冫| 精品久久久久久国产潘金莲| 亚洲精品岛国av一区二区| 疯狂添女人下部视频免费| 午夜无码大尺度福利视频| 蜜桃av噜噜一区二区三区香| 国产偷国产偷亚洲综合av| 色综合视频一区中文字幕| 亚洲AV永久青草无码性色av| 久草视频在线播放免费| 全免费a级毛片免费看无码| 亚洲国产无套无码av电影| 国产在线欧美日韩精品一区二区| 国产自拍av在线观看| 国产精品毛片无遮挡| 美女胸又www又黄的网站 | 色欲av一区二区久久精品| 亚洲精品女优中文字幕| av无码精品一区二区三区| 扒开双腿疯狂进出爽爽爽视频| 亚洲AV无码AV色| 刚出嫁新婚少妇很紧很爽| 日韩精品无码中文字幕电影| 国产91 对白在线播放九色| 日本91一区二区不卡| 在线播放免费人成毛片乱码| 国产精品半夜| 中文字幕中文字幕人妻黑丝| 日本伊人精品一区二区三区|