亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于可解釋注意力部件模型的行人重識(shí)別方法

        2023-10-30 10:13:50王瀚正趙佳琦陳思霖
        自動(dòng)化學(xué)報(bào) 2023年10期
        關(guān)鍵詞:特征實(shí)驗(yàn)模型

        周 勇 王瀚正 趙佳琦 陳 瑩 姚 睿 陳思霖

        行人重識(shí)別(Person re-identification,ReID)旨在通過非重疊視角域多視圖下判斷行人是否為同一目標(biāo),屬于圖像檢索的子問題[1-2].對(duì)于一個(gè)包含目標(biāo)行人的查詢圖像和圖像集,行人重識(shí)別技術(shù)會(huì)根據(jù)與查詢圖像的相似度對(duì)來自圖像集的圖像排名,進(jìn)而找到同一目標(biāo),減少人力、物力在圖像序列中搜索的消耗.行人重識(shí)別技術(shù)可以與行人檢測(cè)、行人跟蹤技術(shù)相結(jié)合,在視頻監(jiān)控、安檢、刑事偵查等方面有著廣泛應(yīng)用[3],因此進(jìn)行行人重識(shí)別研究具有較高的理論意義和實(shí)際價(jià)值.但是,人類可以解釋事物的來龍去脈,行人重識(shí)別任務(wù)用到的深度神經(jīng)網(wǎng)絡(luò)卻不能做到.深度學(xué)習(xí)所用到的架構(gòu)很大程度上依靠大量的經(jīng)驗(yàn)和技巧來設(shè)定,通過梯度下降算法[4]來優(yōu)化模型參數(shù),這一學(xué)習(xí)過程猶如“黑盒子”[5].基于深度學(xué)習(xí)模型的行人重識(shí)別研究存在可解釋性較弱的問題,而且模型預(yù)測(cè)結(jié)果缺乏符合人類邏輯的解釋.

        近年來,很多學(xué)者使用的注意力機(jī)制在圖像顯著特征提取上展現(xiàn)出了強(qiáng)大的能力,可以利用人類視覺機(jī)制對(duì)模型進(jìn)行直觀解釋,在一定程度上增加了行人重識(shí)別模型的可解釋性.其主要方法分為兩個(gè)方面,一方面為基于部件模型的注意力機(jī)制[6-8],用來學(xué)習(xí)身體部件的判別性特征;另一方面為前景注意力機(jī)制[9-12],使用行人掩碼以一種有監(jiān)督的方式驅(qū)使注意力.前者往往對(duì)輸入圖像進(jìn)行分割[7],或使用姿態(tài)評(píng)估作為輔助[13],能夠有效地提取部件的判別性特征,但由于行人的形態(tài)動(dòng)作不一,會(huì)導(dǎo)致部件分割不對(duì)齊現(xiàn)象,影響模型性能,且對(duì)整體圖像分割容易引入復(fù)雜背景噪聲;后者能夠幫助低層網(wǎng)絡(luò)關(guān)注于前景區(qū)域,因此更容易學(xué)習(xí)到判別性的特征表示.但由于輸入圖像的分辨率較低,行人掩碼的質(zhì)量往往較差,容易造成對(duì)底層網(wǎng)絡(luò)的誤導(dǎo)[12].更好的做法是將前景注意力和判別性特征學(xué)習(xí)融合到端到端的網(wǎng)絡(luò),二者可以在訓(xùn)練過程中實(shí)現(xiàn)互補(bǔ).

        上述方法均利用注意力機(jī)制,學(xué)習(xí)行人的顯著性特征,提高行人重識(shí)別模型性能.但現(xiàn)有基于注意力機(jī)制的行人重識(shí)別方法存在兩點(diǎn)不足:首先,注意力機(jī)制僅作為網(wǎng)絡(luò)提取顯著特征的輔助手段,無法體現(xiàn)網(wǎng)絡(luò)自身對(duì)區(qū)域是否顯著的判斷;其次,大多數(shù)方法只是通過可視化注意力掩碼[13-14]和熱值圖[15]來證明其提出的注意力模塊的有效性,缺少行人圖像對(duì)網(wǎng)絡(luò)輸出結(jié)果影響的量化研究.

        本文基于上述兩點(diǎn)不足,提出了一種基于可解釋注意力部件模型(Interpretable attention part model,IAPM)的行人重識(shí)別方法.本方法受到文獻(xiàn)[16]啟發(fā),利用注意力機(jī)制實(shí)現(xiàn)行人部件特征的提取,特別地,可以根據(jù)部件特征的顯著性來生成可解釋權(quán)重,以此作為行人重識(shí)別模型對(duì)于行人部件的顯著性判斷,從而獲取行人部件引起模型注意的程度,提高深度學(xué)習(xí)模型的可解釋性.

        本文的主要貢獻(xiàn)包括以下方面:

        1)提出一種基于可解釋注意力部件模型的行人重識(shí)別方法,該方法可以通過注意力機(jī)制實(shí)現(xiàn)靈活提取人體部件特征,特別地,可以依照部件的顯著性程度生成可解釋權(quán)重,量化人體部件在深度學(xué)習(xí)模型訓(xùn)練過程中的作用,從而提高行人重識(shí)別模型的可解釋性.

        2)提出一種新的可解釋權(quán)重生成模塊(Interpretable weight generation module,IWM),設(shè)計(jì)新的顯著部件三元損失(Salient part triplet loss,SPTL)端到端地自適應(yīng)訓(xùn)練來提高模型表征能力及可解釋性.

        3)在Market-1501、CUHK03 及DukeMTMCReID 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,分別達(dá)到了95.2%、72.6%、88.0%的Rank-1 準(zhǔn)確率,高于基線論文及大多數(shù)現(xiàn)有方法.本文還進(jìn)行了一項(xiàng)人群主觀測(cè)評(píng),將主觀測(cè)評(píng)結(jié)果與生成的可解釋權(quán)重對(duì)比,證明本方法具有良好的可解釋性.

        本文結(jié)構(gòu)安排如下:第1 節(jié)介紹可解釋深度學(xué)習(xí)及行人重識(shí)別的相關(guān)工作;第2 節(jié)介紹本文提出的基于可解釋注意力部件模型的行人重識(shí)別方法;第3 節(jié)給出實(shí)驗(yàn)設(shè)置與實(shí)驗(yàn)結(jié)果分析;第4 節(jié)總結(jié)本文工作并對(duì)未來工作進(jìn)行展望.

        1 相關(guān)工作

        1.1 可解釋深度學(xué)習(xí)

        近年來,深度學(xué)習(xí)高速發(fā)展,但其模型內(nèi)部的運(yùn)行規(guī)律,如隱含層卷積核的特定激活情況、模型做出決策的直接依據(jù)等仍屬未知.盡管如此,人們依靠大量工程經(jīng)驗(yàn),建立模型,初始化參數(shù),并使用大量標(biāo)注數(shù)據(jù),依然可以得到一個(gè)特定場(chǎng)景下表現(xiàn)優(yōu)異的深度學(xué)習(xí)模型,這也促使人們開始探索深度學(xué)習(xí)模型內(nèi)部的運(yùn)作機(jī)制.許多研究人員將深度學(xué)習(xí)模型與人類認(rèn)知相結(jié)合,以找到二者的共通之處.目前針對(duì)深度學(xué)習(xí)可解釋領(lǐng)域的研究主要有以下4個(gè)方面:

        1)可視化卷積神經(jīng)網(wǎng)絡(luò)

        研究人員通過計(jì)算圖像所對(duì)應(yīng)神經(jīng)元的梯度、偏導(dǎo)數(shù)以及輸出熱值圖、類激活映射等方法,可以很好地將神經(jīng)網(wǎng)絡(luò)可視化,將卷積核與人類感知的可視語義概念聯(lián)系起來,直接觀察得到圖像分類的主要依據(jù)區(qū)域,對(duì)模型的輸出進(jìn)行解釋.文獻(xiàn)[17]通過局部重新分配策略將預(yù)測(cè)f(x)反向傳播,直到將相關(guān)得分Ri分配到每一個(gè)輸入變量(如像素).在圖像級(jí)別上,通過這種方法可以得到圖像分類的主要依據(jù)區(qū)域.文獻(xiàn)[18]針對(duì)使用全局均值池化的分類網(wǎng)絡(luò),將最后分類得分對(duì)應(yīng)的全連接層中的權(quán)重取出,計(jì)算全局均值池化之前張量各通道的加權(quán)和,與原圖像進(jìn)行對(duì)照,即可尋找出分類結(jié)果的主要依據(jù).

        2)網(wǎng)絡(luò)結(jié)構(gòu)與語義信息的對(duì)應(yīng)

        Szegedy 等[19]發(fā)現(xiàn)深層次的神經(jīng)網(wǎng)絡(luò)中,語義信息與深層網(wǎng)絡(luò)結(jié)構(gòu)的整體有關(guān).文獻(xiàn)[20]進(jìn)行了網(wǎng)絡(luò)內(nèi)卷積核與可視語義概念對(duì)應(yīng)的研究,使用雙線性插值在每個(gè)卷積單元對(duì)應(yīng)的激活映射進(jìn)行上采樣,挑選出高于閾值的激活區(qū)域,計(jì)算與語義概念注釋之間的交并比,由此得到卷積核與可視語義概念的對(duì)應(yīng).

        3)卷積神經(jīng)網(wǎng)絡(luò)的缺陷及優(yōu)化

        如果一個(gè)深度學(xué)習(xí)模型具有可解釋性,那么所有參數(shù)對(duì)于實(shí)驗(yàn)結(jié)果的影響應(yīng)該是較清晰的,這樣就可以根據(jù)輸出,對(duì)算法及模型內(nèi)部參數(shù)進(jìn)行高效率的改良.因此深度網(wǎng)絡(luò)模型的可解釋性對(duì)于模型的優(yōu)化有著重要意義.文獻(xiàn)[21]中提出了一種視頻字幕生成的可解釋性方法,該方法可以將神經(jīng)元與視頻的主題聯(lián)系起來.在神經(jīng)網(wǎng)絡(luò)輸出字幕丟失了某些主題時(shí),可以直接找到與該主題相關(guān)聯(lián)的神經(jīng)元,增加其對(duì)該主題的平均激活,進(jìn)而對(duì)網(wǎng)絡(luò)微調(diào),保證輸出不再丟失主題.

        4)可解釋性模塊的引入

        與上述方法不同,此方法并不是在預(yù)訓(xùn)練的網(wǎng)絡(luò)中進(jìn)行可解釋的嘗試,而是在網(wǎng)絡(luò)中加入可解釋模塊共同訓(xùn)練,使網(wǎng)絡(luò)的隱含層不再是一個(gè)“黑盒子”.文獻(xiàn)[22]為神經(jīng)網(wǎng)絡(luò)中每個(gè)卷積核增加了損失,使得訓(xùn)練之后的卷積核對(duì)應(yīng)特定的目標(biāo)部件,將卷積核的特征對(duì)應(yīng)加入到“端到端”訓(xùn)練過程中,可以不使用人類標(biāo)記指導(dǎo)來完成可解釋學(xué)習(xí),得到高層卷積核中對(duì)應(yīng)的特定語義概念.

        1.2 行人重識(shí)別

        行人重識(shí)別作為一個(gè)圖像檢索的子問題,旨在預(yù)測(cè)兩幅行人圖像是否屬于同一行人.隨著深度學(xué)習(xí)的發(fā)展,行人重識(shí)別問題的研究達(dá)到了前所未有的高度,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)可以實(shí)現(xiàn)行人特征的自動(dòng)提取,行人重識(shí)別模型性能得到有效提升.

        基于深度學(xué)習(xí)的行人重識(shí)別方法,可以按照學(xué)習(xí)方式分為兩類:基于表征學(xué)習(xí)的方法[23-26]和基于度量學(xué)習(xí)的方法[1,27-28].基于表征學(xué)習(xí)的行人重識(shí)別方法并沒有把比較兩個(gè)行人的相似度作為研究目標(biāo),而是將行人重識(shí)別問題當(dāng)作一個(gè)分類問題來看待,將一幅行人圖像輸入到網(wǎng)絡(luò)中提取特征,將經(jīng)過全局池化的特征向量送入全連接層,最后連接softmax 層,由softmax 激活函數(shù)得到每張圖像的身份預(yù)測(cè),具有相同預(yù)測(cè)結(jié)果的兩個(gè)行人即判定為同一行人.文獻(xiàn)[23-24]將每一個(gè)行人的身份當(dāng)作分類問題的標(biāo)簽,用來對(duì)CNN 進(jìn)行訓(xùn)練.文獻(xiàn)[25]引入行人屬性標(biāo)簽計(jì)算屬性損失,和行人身份損失結(jié)合起來訓(xùn)練,增強(qiáng)網(wǎng)絡(luò)的泛化能力.文獻(xiàn)[26]提出在主干網(wǎng)絡(luò)后增加驗(yàn)證子網(wǎng)絡(luò)和分類子網(wǎng)絡(luò),同時(shí)使用驗(yàn)證損失和分類損失對(duì)整個(gè)模型進(jìn)行訓(xùn)練,得到了較好的結(jié)果.

        基于度量學(xué)習(xí)的行人重識(shí)別方法通過CNN 將行人特征映射到特征空間中,比較特征向量在特征空間中的距離(例如歐氏距離或者余弦距離).在訓(xùn)練過程中,通過優(yōu)化各種度量損失,得到一個(gè)圖像與特征向量的最佳映射關(guān)系,使得在同一個(gè)特征空間中,相同身份的行人特征向量有著盡可能小的距離,不同身份的行人特征向量有著盡可能大的距離.文獻(xiàn)[1]使用了余弦相似度和二項(xiàng)式偏差來進(jìn)行度量學(xué)習(xí).文獻(xiàn)[27]采用一種孿生網(wǎng)絡(luò)結(jié)構(gòu),并使用對(duì)比損失來對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化.文獻(xiàn)[28]對(duì)三元損失進(jìn)行了改進(jìn),提出了批量難三元組損失(Batch hard triplet loss),使用距離最遠(yuǎn)的正例樣本對(duì)和距離最近的負(fù)例樣本對(duì)進(jìn)行模型的優(yōu)化.

        魯棒的特征表示對(duì)于解決行人重識(shí)別問題來說至關(guān)重要,研究者們通常設(shè)計(jì)注意力模塊提取顯著性特征.如前景掩碼廣泛用于引導(dǎo)網(wǎng)絡(luò)注意行人身體的區(qū)域[11-12].文獻(xiàn)[29]設(shè)計(jì)了空間約束網(wǎng)絡(luò)(Spatial transformer network,STN)以提取行人局部特征.文獻(xiàn)[13]通過行人姿勢(shì)信息生成的注意力掩碼提取行人局部特征,并能有效處理遮擋問題.文獻(xiàn)[30]提出了一個(gè)雙線性的注意力網(wǎng)絡(luò),使用雙線性池化來提取逐對(duì)的局部信息.文獻(xiàn)[31]使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short term memory network,LSTM)[32]構(gòu)建了一個(gè)注意力模型,用來提取圖像的顯著特征.

        通過以上方法可以發(fā)現(xiàn),目前研究者們使用的注意力機(jī)制,大多數(shù)作為提取圖像顯著特征的輔助手段,無法體現(xiàn)網(wǎng)絡(luò)自身對(duì)局部區(qū)域是否顯著的判斷.此外,雖然有些方法[13-14]通過可視化注意力掩碼和熱值圖對(duì)注意力模型進(jìn)行直觀解釋,但缺少行人圖像對(duì)網(wǎng)絡(luò)輸出結(jié)果影響的量化研究,存在可解釋性較弱的問題.本文基于以上兩點(diǎn),提出可解釋注意力部件模型IAPM,該模型將人體部件在深度學(xué)習(xí)模型訓(xùn)練過程中的作用量化,以此作為網(wǎng)絡(luò)自身對(duì)特征顯著程度的判斷,提高行人重識(shí)別模型的可解釋性.

        2 基于可解釋注意力部件模型的行人重識(shí)別方法

        本文基于注意力掩碼提取人體部件特征的模型EANet[16],針對(duì)其可解釋性差的問題,設(shè)計(jì)可解釋注意力部件模型IAPM.IAPM 的整體結(jié)構(gòu)如圖1所示.該模型包括注意力部件對(duì)齊池化(Part aligned pool,PAP)模塊和可解釋權(quán)重生成模塊.為了增強(qiáng)部件對(duì)齊池化的規(guī)范性和嚴(yán)整性,增加了一個(gè)局部分割約束(Part segmentation,PS),減少人體部件之間的重疊特征.在本節(jié)中,首先介紹本文基線模型EANet 中的PAP 模塊和PS 模塊,之后介紹本文提出的可解釋性方法.

        圖1 IAPM 整體結(jié)構(gòu)Fig.1 Structure of IAPM

        2.1 PAP 模塊與PS 模塊

        本文使用ResNet50[33]作為主干網(wǎng)絡(luò),將尺寸為384×128 像素的行人圖像x輸入到ResNet50中,得到C×H×W的三維張量T,其中H和W表示張量每個(gè)通道的高和寬,分別為24 和8;C表示張量的通道數(shù),為2 048.

        PAP 模塊主要實(shí)現(xiàn)人體特征的橫向分割,Huang等[16]在COCO (Common object in context)數(shù)據(jù)集上預(yù)訓(xùn)練了一個(gè)關(guān)鍵點(diǎn)檢測(cè)模型,用來預(yù)測(cè)行人圖像中行人身體的17 個(gè)關(guān)鍵點(diǎn),從而定位出9 個(gè)人體部件,包括頭、上軀干、下軀干、大腿、小腿、腳、上半身、下半身、全身.在本文方法中,人體部件個(gè)數(shù)P設(shè)置為7,從上至下依次為頭、上軀干、下軀干、大腿、小腿、腳、全身七個(gè)部件,如圖2 所示.

        圖2 橫向分割示意圖Fig.2 Schematic diagram of horizontal split

        根據(jù)這些部件在ResNet50 輸出張量中的對(duì)應(yīng)位置,生成部件分割注意力掩碼Mi∈RC×H×W,其中i∈[1,P],Mi表示第i個(gè)部件的注意力掩碼.部件對(duì)應(yīng)位置元素設(shè)為1,其他位置設(shè)為0.張量T經(jīng)過PAP 模塊,得到橫向分割的P個(gè)部分的特征向量為

        其中,fi∈RC,i∈[1,P],maxpool代表全局池化操作,?表示逐元素相乘.

        PAP 模塊將張量T橫向分割成P個(gè)部分,經(jīng)過全局池化得到P個(gè)部件的特征向量f1,···,fP.將每一個(gè)特征向量輸入到嵌入層(Embedding layer,EM),使每個(gè)部件特征向量長(zhǎng)度由2 048 降至256.得到的輸出向量為

        其中,ei∈Rd,d表示256,gi表示EM 對(duì)第i個(gè)部件進(jìn)行的全連接操作.

        行人的身份損失LID采用交叉熵?fù)p失.假設(shè)訓(xùn)練集包含K個(gè)行人身份,給定一張標(biāo)簽為y的輸入圖像x,將圖像x第i個(gè)部件的特征向量ei輸入到分類層進(jìn)行一次全連接操作,得到預(yù)測(cè)向量zi=[z1,z2,···,zk]∈RK.經(jīng)過softmax 函數(shù)處理,得到圖像x中行人第i個(gè)部件屬于第k(k∈1,2,3,···,K)個(gè)行人身份的概率,即

        第i個(gè)部件的身份損失為

        各部件的身份損失之和即為該行人的身份損失LID.由于遮擋和攝像頭視角的影響,一些行人只有部分身體呈現(xiàn)在圖像中,因此引入一個(gè)可視度得分vi來表示身體部件是否出現(xiàn)在圖像中:vi=1 表示身體部件i出現(xiàn)在圖像中;vi=0 表示身體部件i不可見.在進(jìn)行部件對(duì)齊池化時(shí),將不可見部件的特征向量設(shè)置為零向量,在計(jì)算身份損失時(shí),僅由可見區(qū)域產(chǎn)生損失.行人身份損失函數(shù)定義為

        其中,vi∈{0,1},表示第i個(gè)部件的可視度,P為人體部件總數(shù).

        在實(shí)驗(yàn)中發(fā)現(xiàn),通過PAP 模塊提取出的相鄰部件之間的相似度較高,即便模型提取到了多個(gè)具有判別性的特征,這對(duì)部件對(duì)齊的效果仍然有影響.為了降低不同部件之間的冗余度,在ResNet50 的conv5 的特征圖,即張量T上增加PS 模塊來強(qiáng)化部件對(duì)齊池化效果.

        PS 模塊由一個(gè)步長(zhǎng)為2 的3×3 的反卷積層及1 個(gè)1×1 的卷積層組成,反卷積層用于上采樣,1×1 卷積層用于逐像素的分類預(yù)測(cè).分類類別包括8 類,即:背景、頭、軀干、前臂、后臂、大腿、小腿、腳.尺寸為C×H×W的張量T經(jīng)過反卷積層之后,得到尺寸為d×2H×2W的中間張量.將中間張量輸入到1×1 的卷積層中,得到尺寸為R×2H×2W的預(yù)測(cè)結(jié)果U,其中,R表示類別總數(shù),設(shè)置為8,8 個(gè)通道代表8 個(gè)類的分類結(jié)果.需要注意的是,PAP 模塊水平提取的人體部件特征,最后用于行人相似度的計(jì)算.而PS 模塊進(jìn)行的部件分類預(yù)測(cè),僅為了增強(qiáng)PAP 模塊提取部件特征的規(guī)范性和嚴(yán)整性,并未實(shí)際進(jìn)行分割,其輸出張量U不作為行人相似度的判斷依據(jù).

        訓(xùn)練PS 模塊使用的監(jiān)督信號(hào),是使用COCO數(shù)據(jù)集預(yù)訓(xùn)練的部件分割模型在行人數(shù)據(jù)集上生成的偽標(biāo)簽.部分偽標(biāo)簽如圖3 所示.

        圖3 PS 模塊使用的偽標(biāo)簽[16]Fig.3 Pseudo-labels used by PS[16]

        張量T經(jīng)過PS 模塊得到預(yù)測(cè)U之后,計(jì)算其交叉熵?fù)p失作為部分分割損失LPS.部分分割損失的計(jì)算式為

        其中,R表示部分的總數(shù)(包括背景),設(shè)置為8,與基線論文相同.表示第r個(gè)部分所有像素點(diǎn)的交叉熵?fù)p失的均值.取均值的原因在于避免某些部分面積過大導(dǎo)致其損失占比過多,忽略頭、腳這些面積小但仍含有判別性信息的部分.

        2.2 IWM 模塊

        基線模型利用注意力機(jī)制靈活提取人體部件特征,解決固定分割部件方法[8]存在的不對(duì)齊問題.但由于深度學(xué)習(xí)網(wǎng)絡(luò)具有“黑盒子”模型特點(diǎn),無法獲取網(wǎng)絡(luò)內(nèi)部對(duì)每個(gè)部件顯著程度的判斷,整個(gè)行人重識(shí)別模型的可解釋性較差.針對(duì)上述問題,設(shè)計(jì)一種可以依照部件顯著性程度來生成可解釋權(quán)重的注意力權(quán)重生成模塊,結(jié)構(gòu)如圖4 所示.

        圖4 注意力權(quán)重生成模塊結(jié)構(gòu)Fig.4 Structure of IWM

        IWM 由兩個(gè)全連接層FC1、FC2 以及一個(gè)softmax 層組成.IWM 將P個(gè)人體部件堆疊之后的特征矩陣作為輸入,最終得到每個(gè)部件的可解釋權(quán)重.

        為了提升網(wǎng)絡(luò)性能,優(yōu)化IWM 的權(quán)重生成能力,本文在批量難三元損失[31]的基礎(chǔ)上,提出一種新的顯著部件三元損失用于IWM 的訓(xùn)練.SPTL改變?cè)信侩y三元損失中正負(fù)樣本對(duì)距離的計(jì)算方式:計(jì)算兩幅圖像相同部件之間的L2距離,與兩部件經(jīng)過IWM 生成的權(quán)重相乘得到部件之間的權(quán)重距離,如式(7)和式(8)所示.

        其中,ea|i,epos|i,eneg|i分別表示錨點(diǎn)圖像、正例圖像以及負(fù)例圖像第i個(gè)部件的特征向量;wa|i,wpos|i,wneg|i分別表示錨點(diǎn)圖像、正例圖像以及負(fù)例圖像第i個(gè)部件經(jīng)過IWM 生成的權(quán)重;da,pos|i和da,neg|i分別表示錨點(diǎn)圖像與正例圖像、錨點(diǎn)圖像與負(fù)例圖像之間的權(quán)重距離.將這個(gè)距離作為難負(fù)樣本挖掘依據(jù).對(duì)每一個(gè)部件進(jìn)行損失的計(jì)算,如式(9)所示.

        其中,α為人為設(shè)定的參數(shù),如果正樣本對(duì)距離與負(fù)樣本對(duì)距離相差小于α,則會(huì)產(chǎn)生損失.

        所有部件損失的和作為最終的顯著部件三元損失LSPTL,如式(10)所示.

        使用SPTL 對(duì)IWM 進(jìn)行自適應(yīng)訓(xùn)練,若某部件對(duì)應(yīng)的三元組內(nèi)正負(fù)樣本對(duì)距離易于改變,即易于優(yōu)化顯著部件三元損失,IWM 將對(duì)該部件生成較大權(quán)重.本文提出的可解釋模型將易于優(yōu)化SPTL的部件作為顯著性部件,通過訓(xùn)練賦予其可解釋性,從而使行人重識(shí)別模型對(duì)行人圖像顯著性的判斷可見,提高深度學(xué)習(xí)模型的可解釋性.

        此外,在三元損失的計(jì)算中,往往考慮的是正負(fù)樣本之間的距離大小,沒有考慮優(yōu)化每個(gè)類別內(nèi)的距離.例如對(duì)于正負(fù)樣本對(duì)距離0.3 和0.5,以及正負(fù)樣本對(duì)距離1.3 和1.5,損失均為0.2,但第2種情況下正樣本對(duì)之間的距離更大,所以對(duì)整個(gè)數(shù)據(jù)集來說無法保證正樣本對(duì)之間的距離盡可能小.因此,本文使用中心損失[34]來同時(shí)學(xué)習(xí)優(yōu)化每個(gè)類別在特征空間中的中心位置以及每個(gè)特征到對(duì)應(yīng)的類別中心位置的距離,從而彌補(bǔ)上述三元損失的不足.具體形式為

        其中,yj表示第j幅圖像的標(biāo)簽,cyj表示標(biāo)簽yj對(duì)應(yīng)的中心,fj表示一個(gè)訓(xùn)練批次中第j幅行人圖像的特征,B為Batchsize,即一次迭代訓(xùn)練使用圖像的數(shù)量.

        基于以上損失函數(shù),可解釋注意力部件模型的總損失函數(shù)可以表示為

        其中,LID代表身份損失,LSPTL代表顯著部件三元損失,LPS代表部分分割損失,LC代表中心損失.LID、LPS的系數(shù)及β均按照文獻(xiàn)[16] 設(shè)置為1 及0.0005,λ根據(jù)實(shí)驗(yàn)結(jié)果設(shè)定為1,實(shí)驗(yàn)細(xì)節(jié)在第3節(jié)具體描述.

        3 實(shí)驗(yàn)設(shè)置及實(shí)驗(yàn)結(jié)果

        本節(jié)首先介紹實(shí)驗(yàn)設(shè)置和數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn);其次將本文提出的方法與本文的基線模型及現(xiàn)有的先進(jìn)方法在性能上進(jìn)行比較實(shí)驗(yàn);然后對(duì)本文提出的方法進(jìn)行多組消融實(shí)驗(yàn);最后將網(wǎng)絡(luò)輸出的可解釋權(quán)重與主觀測(cè)評(píng)結(jié)果進(jìn)行比較.

        3.1 實(shí)驗(yàn)設(shè)置

        本節(jié)實(shí)驗(yàn)使用的軟硬件環(huán)境見表1.

        表1 實(shí)驗(yàn)環(huán)境Table 1 Experimental environment

        本節(jié)實(shí)驗(yàn)的參數(shù)設(shè)置見表2.

        表2 實(shí)驗(yàn)參數(shù)Table 2 Experimental parameters

        網(wǎng)絡(luò)中的ResNet50 初始學(xué)習(xí)率為0.0001,在經(jīng)過10 次迭代后,學(xué)習(xí)率由0.0001 線性增加到0.01,并且在50 以及80 次迭代時(shí),降為原來的1/10.網(wǎng)絡(luò)中的EM 以及IWM 初始學(xué)習(xí)率為0.0002,經(jīng)過10 次迭代后,學(xué)習(xí)率由0.0002 線性增加到0.02,并且在50 以及80 次迭代時(shí),降為原來的1/10.

        3.2 數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)

        Market-1501[35]數(shù)據(jù)集中的圖像包括1 501 個(gè)行人,總共32 668 幅圖像,由6 個(gè)攝像頭采集獲得.751 個(gè)人的12 936 幅圖像用來進(jìn)行訓(xùn)練,平均每人有17.2 幅訓(xùn)練圖像;750 個(gè)人的19 732 幅圖像用來進(jìn)行測(cè)試,平均每人有26.3 幅測(cè)試圖像.

        DukeMTMC-reID[36]提供了一個(gè)由8 個(gè)攝像機(jī)拍攝得到的行人圖像集,包括1 404 個(gè)不同身份的行人,訓(xùn)練集由1 404 中的702 個(gè)人的16 522 幅圖像構(gòu)成,測(cè)試集由另外702 個(gè)人的17 661 幅圖像構(gòu)成.

        CUHK03[37]是在香港中文大學(xué)校園中采集的,數(shù)據(jù)集由1 467 個(gè)行人的14 097 幅圖像構(gòu)成,平均每人9.6 幅訓(xùn)練圖像.

        本節(jié)實(shí)驗(yàn)中,計(jì)算經(jīng)過EM 層之后得到的各部件特征向量之間的歐氏距離之和,作為行人圖像之間的相似度度量.采用的評(píng)價(jià)標(biāo)準(zhǔn)為累積匹配特性曲線(Cumulative match characteristic,CMC)在第一匹配率的值(記為Rank-1)和平均準(zhǔn)確率(Mean average precision,mAP).

        3.3 對(duì)比實(shí)驗(yàn)

        1)與基線模型對(duì)比

        將本文提出的方法與EANet 在上述3 個(gè)主流數(shù)據(jù)集上進(jìn)行性能對(duì)比.主要評(píng)價(jià)指標(biāo)為Rank-1以及mAP.所有實(shí)驗(yàn)結(jié)果均在單查詢樣本及沒有進(jìn)行重新排序的情況得到.實(shí)驗(yàn)結(jié)果如表3 所示(表3 中數(shù)據(jù)為Rank-1 值,括號(hào)內(nèi)數(shù)據(jù)為mAP 值).

        表3 與EANet 的性能對(duì)比(%)Table 3 Performance comparison with EANet (%)

        PAP-6P、PAP 分別指的是EANet 中使用6 個(gè)及9 個(gè)人體部件,且只使用LID訓(xùn)練的單域模型;PAP-S-PS 指的是EANet 使用9 個(gè)部件且使用LID、IAPM-6P 和LPS訓(xùn)練的單域模型;IAPM、IAPM-6P 和IAPM-9P 指的是本文使用7 個(gè)、6 個(gè)和9 個(gè)部件,且使用總損失函數(shù)L訓(xùn)練的模型.

        IAPM 在3 個(gè)主流數(shù)據(jù)集上的Rank-1 較EANet中單域表現(xiàn)最好的模型(PAP-S-PS)分別提升了0.6%,0.5%,0.1%;在mAP 上分別提升了0.6%,1.1%,0.4%.為了與PAP-S-PS 進(jìn)行公平對(duì)比,使用與其相同的9 個(gè)部件進(jìn)行實(shí)驗(yàn).在3 個(gè)主流數(shù)據(jù)集上,使用9 個(gè)部件的模型(IAPM-9P)得到的結(jié)果與PAP-S-PS 相比,Rank-1 分別提升了0.5%,0.4%,0.1%;mAP 分別提升了0.4%,1.0%,0.6%.為了與PAP-6P 進(jìn)行公平對(duì)比,使用與其相同的6個(gè)部件進(jìn)行實(shí)驗(yàn).在3 個(gè)主流數(shù)據(jù)集上,使用6 個(gè)部件的模型(IAPM-6P)得到的結(jié)果與PAP-6P 相比,Rank-1 分別提升了0.7%,1.3%,4.4%;mAP 分別提升了1.0%,1.9%,2.8%.

        2)與其他方法對(duì)比

        為了驗(yàn)證本文提出的可解釋注意力部件模型的性能,在主流數(shù)據(jù)集上與近年來提出的行人重識(shí)別方法進(jìn)行對(duì)比,主要評(píng)價(jià)指標(biāo)為Rank-1 以及mAP.所有實(shí)驗(yàn)結(jié)果均在單查詢樣本及沒有進(jìn)行重新排序的情況得到.實(shí)驗(yàn)結(jié)果如表4 所示(表4 中數(shù)據(jù)為Rank-1 值,括號(hào)內(nèi)數(shù)據(jù)為mAP 值).

        表4 與其他方法的性能對(duì)比 (%)Table 4 Performance comparison with other methods (%)

        本文提出的方法在Market-1501 數(shù)據(jù)集中的Rank-1 達(dá)到95.2%,mAP 達(dá)到86.3%;在Duke-MTMC-reID 數(shù)據(jù)集中的Rank-1 達(dá)到88.0%,mAP 達(dá)到75.7%;在CUHK03 數(shù)據(jù)集中的Rank-1達(dá)到72.6%,mAP 達(dá)到67.2%.可以看出,在Rank-1及mAP 兩項(xiàng)主要評(píng)價(jià)指標(biāo)上,本文方法均高于近年來提出的大多數(shù)行人重識(shí)別方法.

        3.4 消融實(shí)驗(yàn)

        為了驗(yàn)證本文提出的可解釋注意力部件模型各組成部分的有效性,本文在Market-1501 數(shù)據(jù)集上設(shè)計(jì)了多組消融實(shí)驗(yàn),包括驗(yàn)證IWM 與中心損失函數(shù)的有效性,分析部件個(gè)數(shù)對(duì)模型性能的影響,以及分析SPTL 中α及λ對(duì)實(shí)驗(yàn)結(jié)果的影響.

        1)IWM 與中心損失函數(shù)的有效性

        由第3.3 節(jié)實(shí)驗(yàn)結(jié)果可以看到,本文模型在行人重識(shí)別精度上可以達(dá)到較好的效果.為進(jìn)一步驗(yàn)證可解釋權(quán)重生成模塊的有效性,從IAPM 中移除該模塊作為原始模型進(jìn)行實(shí)驗(yàn).僅使用身份損失函數(shù)對(duì)原始模型進(jìn)行訓(xùn)練.之后在此基礎(chǔ)上依次增加IWM、SPTL 和中心損失函數(shù).實(shí)驗(yàn)結(jié)果如表5 所示.

        表5 消融實(shí)驗(yàn)1Table 5 Ablation experiment 1

        由表5 可以看到,使用基線模型進(jìn)行實(shí)驗(yàn),Rank-1和mAP 分別為92.4%和80.5%;增加可解釋權(quán)重生成模塊之后,Rank-1 和mAP 分別增加到了95.0% 和86.1%;在此基礎(chǔ)上增加中心損失后,Rank-1 和mAP 分別增加到了95.2%和86.3%.以上實(shí)驗(yàn)結(jié)果說明,可解釋權(quán)重模塊及中心損失對(duì)模型性能具有提升效果.

        2)人體部件個(gè)數(shù)對(duì)模型性能的影響

        為了探究人體部件的個(gè)數(shù)對(duì)模型性能的影響,在Market-1501 數(shù)據(jù)集上,使用不同的部件個(gè)數(shù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6 所示.

        表6 消融實(shí)驗(yàn)2Table 6 Ablation experiment 2

        人體部件個(gè)數(shù)在本次實(shí)驗(yàn)中分別設(shè)置為6,7,9,其中6 個(gè)身體部件包括頭、上軀干、下軀干、大腿、小腿、腳;7 個(gè)身體部件包括頭、上軀干、下軀干、大腿、小腿、腳、全身;9 個(gè)身體部件包括頭、上軀干、下軀干、大腿、小腿、腳、上半身、下半身、全身.使用6 個(gè)部件進(jìn)行實(shí)驗(yàn)時(shí),Rank-1 和mAP 分別為95.0%及85.3%;使用7 個(gè)部件進(jìn)行實(shí)驗(yàn)時(shí),Rank-1 和mAP 分別為95.2%及86.3%;使用9 個(gè)部件進(jìn)行實(shí)驗(yàn)時(shí),Rank-1 和mAP 分別為95.1% 及86.0%.使用7 個(gè)和9 個(gè)部件得到的實(shí)驗(yàn)結(jié)果,高于使用6 個(gè)部件得到的實(shí)驗(yàn)結(jié)果,說明將全局或較大尺度特征作為局部特征的補(bǔ)充,對(duì)網(wǎng)絡(luò)模型性能的提升有一定的幫助.使用7 個(gè)部件得到的實(shí)驗(yàn)結(jié)果高于使用9 個(gè)部件得到的實(shí)驗(yàn)結(jié)果,說明使用全局特征作為局部特征的補(bǔ)充對(duì)本方法來說已足夠,如果增加較大尺度的特征(上半身或下半身特征),會(huì)造成部件特征的重疊,無法使網(wǎng)絡(luò)模型對(duì)相互獨(dú)立的人體部件做出顯著性判斷.

        3)參數(shù)α對(duì)SPTL 的影響

        三元損失中的α對(duì)模型的性能同樣起到非常重要的作用,因此本節(jié)使用4 個(gè)不同α的顯著部件三元損失,對(duì)7 個(gè)人體部件的IAPM 在Market-1501上進(jìn)行實(shí)驗(yàn),α分別選為0.1,0.5,0.8,1.0,1.2,1.5,2.0,5.0,10.0,實(shí)驗(yàn)結(jié)果如表7 所示.

        表7 消融實(shí)驗(yàn)3Table 7 Ablation experiment 3

        可以看出,α選取1.2 時(shí),得到最高的Rank-1和mAP.當(dāng)α選擇較小時(shí)(α=0.8),會(huì)導(dǎo)致正負(fù)樣本對(duì)的距離無法有效拉大,當(dāng)α選擇較大時(shí)(α=1.5),三元組中正負(fù)樣本對(duì)之間的距離被過度拉大,會(huì)導(dǎo)致不同三元組樣本之間的距離難以控制.容易造成三元組內(nèi)的正負(fù)樣本對(duì)之間距離相差很大,而三元組之間的樣本的距離很近的結(jié)果,這同樣會(huì)導(dǎo)致網(wǎng)絡(luò)模型性能下降.

        為了體現(xiàn)每個(gè)α對(duì)正負(fù)樣本之間距離的優(yōu)化效果,選取α的4 個(gè)取值,繪制正負(fù)樣本對(duì)距離的折線圖,如圖5 和圖6 所示.

        圖5 負(fù)樣本對(duì)距離變化圖Fig.5 Negative sample pair distance graph

        圖6 正樣本對(duì)距離變化圖Fig.6 Positive sample pair distance graph

        由圖5 可以看出,當(dāng)α選取為1.5 時(shí),負(fù)樣本對(duì)之間距離的優(yōu)化過程有較多起伏,說明在α選取較大時(shí),模型需要盡可能將正負(fù)樣本之間的距離進(jìn)一步拉大,這就需要在特征空間中進(jìn)行較多嘗試,最終才能達(dá)到較理想的狀態(tài);同時(shí)也可以看到,隨著α的不斷增大,錨定圖片與負(fù)樣本圖片之間的距離不斷拉大,說明SPTL 有效地進(jìn)行了特征空間中的特征向量之間距離的優(yōu)化.我們還可以發(fā)現(xiàn),50 次迭代之后,負(fù)樣本對(duì)之間的距離基本上不會(huì)有較大變化,所以選擇在50 次迭代后進(jìn)行第1 次學(xué)習(xí)率的衰減,繼續(xù)訓(xùn)練至80 次迭代后進(jìn)行第2 次學(xué)習(xí)率的衰減,然后進(jìn)行最后的20 次迭代.

        由圖6 可以看出,當(dāng)α選擇為1.5 時(shí),正樣本對(duì)距離的優(yōu)化效果較差,當(dāng)選擇其他三種α?xí)r,可以使正樣本對(duì)之間的距離有效縮小.

        除以上實(shí)驗(yàn)外,本節(jié)還將每個(gè)α對(duì)應(yīng)的SPTL損失進(jìn)行對(duì)比,對(duì)比曲線圖如圖7 所示.

        圖7 SPTL 損失曲線圖Fig.7 SPTL loss curve graph

        由圖7 可以看出,當(dāng)α為1.5 時(shí),SPTL 損失的收斂過程相對(duì)不穩(wěn)定,模型需要不斷調(diào)整映射關(guān)系來滿足正負(fù)樣本對(duì)之間的距離要求.當(dāng)α選取較小時(shí),SPTL 損失可以較好地收斂.

        4)λ對(duì)模型性能的影響

        λ旨在平衡LSPTL與其他損失函數(shù)的重要性.為了探究λ對(duì)模型性能的影響,在Market-1501 數(shù)據(jù)集上,使用不同的λ進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表8所示.

        表8 消融實(shí)驗(yàn)4Table 8 Ablation experiment 4

        λ在本次實(shí)驗(yàn)中分別設(shè)置為0.2,0.4,0.6,0.8,1.0.λ設(shè)置較小時(shí),會(huì)減弱LSPTL的影響,降低模型性能.當(dāng)選取為1.0 時(shí),Rank-1 和mAP 分別為95.2%及86.3%,網(wǎng)絡(luò)模型的性能可以達(dá)到最優(yōu).

        3.5 可解釋效果展示

        除了在主流數(shù)據(jù)集上的識(shí)別準(zhǔn)確率的提高外,本文另一貢獻(xiàn)是通過IWM 生成的權(quán)重來反映部件的顯著程度,從而提高模型的可解釋性.通過以下可解釋生成效果的展示以及與人群主觀測(cè)評(píng)結(jié)果的對(duì)比,證明提出的方法是具有可解釋性的.

        1)IWM 權(quán)重生成效果展示

        從Market-1501 和DukeMTMC-reID 兩個(gè)數(shù)據(jù)集中選取5 幅圖像,利用本文提出的可解釋模型得到的權(quán)重結(jié)果展示如圖8 所示.圖8(a)和圖8(b)選自Market-1501 數(shù)據(jù)集,圖8(c)、圖8(d)和圖8(e)選自DukeMTMC-reID 數(shù)據(jù)集.

        圖8 可解釋權(quán)重展示Fig.8 The display of interpretable weights

        圖8中右側(cè)及上側(cè)數(shù)值為顯著性模型生成的7個(gè)部件的可解釋權(quán)重.其中圖像右側(cè)數(shù)值從上至下依次表示頭、上軀干、下軀干、大腿、小腿、腳6 個(gè)部件,圖像上端數(shù)值代表的是全局特征(整幅圖像得到的特征)表示的第7 個(gè)部件的可解釋權(quán)重.數(shù)值越大表示在訓(xùn)練過程中,深度學(xué)習(xí)模型認(rèn)為這一部件的判別力越強(qiáng),通過這一部件可以更有效地將不同身份的行人區(qū)分開來.

        在使用測(cè)試集所有圖像生成的可解釋權(quán)重中,每幅圖像的第7 個(gè)部件(全局特征)權(quán)重大于任意一個(gè)局部人體部件的可解釋權(quán)重,說明網(wǎng)絡(luò)認(rèn)為關(guān)注整體的全局特征與單個(gè)關(guān)注細(xì)節(jié)的人體部件特征相比,判別性更強(qiáng).而第7 個(gè)部件權(quán)重小于其他6個(gè)部件權(quán)重之和,一方面說明局部的身體部件同樣具有判別性較強(qiáng)的特征,使用部件特征處理行人重識(shí)別任務(wù)仍可以獲得較好的效果[34];另一方面說明全局特征可以作為局部特征的有效補(bǔ)充,二者可以組成更加魯棒的特征表示,進(jìn)一步提高行人重識(shí)別精度.

        圖8(a)中,短褲對(duì)應(yīng)的第4 個(gè)部件的可解釋權(quán)重較除整體外的其他5 個(gè)部件高,這與人類直觀的反應(yīng)相一致;圖8(b)中,行人條紋上衣對(duì)應(yīng)的可解釋權(quán)重相對(duì)較高,這也是與人類的直觀反應(yīng)相一致.值得注意的是,Market-1501 這個(gè)數(shù)據(jù)集是2015 年夏天在清華大學(xué)校園內(nèi)采集的,男生和女生身著短褲的居多,而短褲往往顏色鮮明,所以經(jīng)過Market-1501 數(shù)據(jù)集訓(xùn)練的部件可解釋權(quán)重模型,對(duì)于大腿這個(gè)部件尤為敏感,這也是為什么在圖8(b)中,大腿部件同樣會(huì)出現(xiàn)較高權(quán)重的原因.

        在美國(guó)杜克大學(xué)冬天采集的數(shù)據(jù)集中,因?yàn)槎煜律矸b多為深色,判別性不強(qiáng),所以并沒有出現(xiàn)像Market-1501 數(shù)據(jù)集中那樣對(duì)于大腿部件的較高響應(yīng).對(duì)于圖8(c),網(wǎng)絡(luò)將注意力集中在白色帽子對(duì)應(yīng)的第1 個(gè)部件上,注意力權(quán)重較高;對(duì)于圖8(d),網(wǎng)絡(luò)將注意力集中在白色的羽絨服,對(duì)應(yīng)著第2 個(gè)和第3 個(gè)部件;圖8(e)由于該行人的服裝整體顏色較暗,并沒有特征顯著的區(qū)域,因此除全身以外的6 個(gè)部件的特征所占權(quán)重幾乎相同.

        2)人群主觀測(cè)評(píng)結(jié)果

        為了體現(xiàn)本文可解釋模型生成權(quán)重的相對(duì)大小與人類直觀判斷的一致性,本部分進(jìn)行了一項(xiàng)問卷調(diào)查,作為主觀評(píng)測(cè)依據(jù).測(cè)評(píng)樣本采用與前面實(shí)驗(yàn)相同的5 幅圖像,邀請(qǐng)50 位在校大學(xué)生進(jìn)行問卷調(diào)查,對(duì)5 幅圖像中的6 個(gè)行人部件(頭、上軀干、下軀干、大腿、小腿、腳)進(jìn)行選擇打分.打分等級(jí)分別為:很明顯、較明顯、一般、較不明顯、不明顯,分別對(duì)應(yīng)5 分、4 分、3 分、2 分、1 分,用來表示測(cè)試者對(duì)行人部件顯著性的判斷.如果測(cè)試者認(rèn)為頭部更能引起測(cè)試者的注意,那么他會(huì)在頭部對(duì)應(yīng)的選項(xiàng)中選擇“很明顯”,對(duì)應(yīng)的顯著得分為5 分.

        將每幅行人圖像同一部件的顯著投票得分(5個(gè)選項(xiàng)的得分之和)累加并除以投票總?cè)藬?shù)來計(jì)算該部件平均得分,并用該部件平均得分除以總分(5 × 6=30),從而得到人類主觀顯著性判斷相對(duì)得分(以下簡(jiǎn)述為相對(duì)得分),表示該部件相對(duì)于該圖像其他部件的顯著程度,得分較高的部件表示受到了測(cè)試者較多的注意,即對(duì)應(yīng)著顯著性較高的人體部分.本文之所以使用投票平均得分除以總分來計(jì)算相對(duì)得分,而不是使用投票平均得分除以6 個(gè)部件的投票總得分,是因?yàn)榍罢邔?duì)所有圖像都除以固定的總分(30 分),不僅可以體現(xiàn)出某部件相對(duì)于同一行人其他部件的顯著性(進(jìn)行同一行人部件之間相對(duì)得分的比較),還可以直接通過相對(duì)得分,比較不同行人部件之間的顯著性.主觀測(cè)評(píng)階段的相對(duì)得分展示如圖9 所示(行人圖像左側(cè)為投票平均得分,右側(cè)為相對(duì)得分).

        圖9 主觀測(cè)評(píng)結(jié)果Fig.9 The display of subjective evaluation results

        圖9(a)中,測(cè)試者大多數(shù)認(rèn)為第4 個(gè)部件(大腿)容易引起注意,因此得到了最高的投票得分,平均分為4.06,相對(duì)得分為0.14,在所有部件中得分最高.圖9(b)中,該行人的條紋上衣吸引了最多的測(cè)試者的注意.其條紋上衣對(duì)應(yīng)的第2 個(gè)和第3 個(gè)部件的平均得分分別為3.88 和3.92,相對(duì)得分都為最高的0.13.后3 幅圖像選擇于DukeMTMC-re-ID 數(shù)據(jù)集,圖9(c)中,測(cè)試者認(rèn)為行人白色的帽子最具有判別性,在參與測(cè)試的50 個(gè)測(cè)試者中,有28 個(gè)測(cè)試者對(duì)于頭部這個(gè)部件選擇了“很明顯”,有15 個(gè)測(cè)試者選擇了“較明顯”,平均得分為4.31,相對(duì)得分為最高的0.15.圖9(d)中,測(cè)試者認(rèn)為行人頭發(fā)的顏色以及白色的羽絨服最具有判別性,第1 個(gè)部件對(duì)應(yīng)著頭部,有22 位測(cè)試者選擇“很明顯”,有18 位測(cè)試者選擇“較明顯”,平均得分為4.16,相對(duì)得分為0.14;第2 個(gè)和第3 個(gè)部件對(duì)應(yīng)的是白色的羽絨服,分別有23 位及18 位測(cè)試者選擇“很明顯”,平均得分為4.16 及3.96,相對(duì)得分分別為0.14 及0.13.圖9(e)中,由于該行人的服裝整體顏色較暗,并沒有特征顯著的區(qū)域,測(cè)試者的結(jié)果也顯示,大多數(shù)測(cè)試者對(duì)于每個(gè)部件選擇“一般”或者“較不明顯”,部件整體的平均得分相比于其他行人較低.

        3)可解釋權(quán)重與主觀測(cè)評(píng)結(jié)果對(duì)比

        由于全局部件權(quán)重比任何一個(gè)局部部件的可解釋權(quán)重大的特殊性,以及在下文人群主觀測(cè)評(píng)中額外加入完整圖像對(duì)人的主觀判斷造成的影響(完整圖像與局部部件的顯著性不便于直觀比較),所以下文進(jìn)行的可解釋權(quán)重生成和主觀測(cè)評(píng)結(jié)果的對(duì)照僅考慮前6 個(gè)部件,這樣可以通過權(quán)重與測(cè)評(píng)結(jié)果部件之間的相對(duì)大小,得出顯著性模型可解釋權(quán)重與人群主觀評(píng)價(jià)的一致性.比較結(jié)果如圖10 所示,左側(cè)數(shù)值為可解釋注意力部件模型生成的可解釋權(quán)重,右側(cè)數(shù)值為主觀測(cè)評(píng)得到的相對(duì)得分.

        圖10 可解釋權(quán)重與主觀測(cè)評(píng)結(jié)果對(duì)比Fig.10 Comparison of interpretable weights and subjective evaluation results

        可以看到,通過本文顯著性模型生成的可解釋權(quán)重與人群主觀評(píng)測(cè)結(jié)果基本一致.圖10(a)中模型與測(cè)試者的注意力均集中在腰部至大腿之間,也就是第4 個(gè)部件;圖10(b)中模型與測(cè)試者的注意力均集中在上衣,對(duì)應(yīng)著第2 個(gè)和第3 個(gè)部件,唯一不同的是,因?yàn)榍迦A大學(xué)數(shù)據(jù)集中行人大腿部分裸露較多及短褲顏色鮮艷等自身數(shù)據(jù)集的特點(diǎn),會(huì)使模型對(duì)腰部至大腿這一部件有較高的響應(yīng).圖10(c)中模型與測(cè)試者的注意力均集中在白色的帽子,模型輸出的第1 個(gè)部件的權(quán)重最高,與人群主觀測(cè)試結(jié)果一致.圖10(d)中模型與測(cè)試者的注意力均集中在上半身,對(duì)應(yīng)著該行人的金色的頭發(fā)以及白色的羽絨服.圖10(e)中的行人因?yàn)橐路w顏色較暗,無明顯的高判別性的特征,因此人群主觀測(cè)評(píng)結(jié)果顯示,人們認(rèn)為各部件之間顯著程度相似且顯著得分較低,同時(shí)網(wǎng)絡(luò)模型輸出的可解釋權(quán)重之間相差無幾,表示模型認(rèn)為行人中沒有具有高判別性的部件,與人群主觀測(cè)評(píng)結(jié)果基本一致.由此證明本文提出的部件顯著性模型輸出的可解釋權(quán)重與人類對(duì)于顯著性的認(rèn)知基本相同,賦予了深度學(xué)習(xí)網(wǎng)絡(luò)在訓(xùn)練過程中的可解釋性,幫助我們更好地理解網(wǎng)絡(luò)模型對(duì)于行人圖像的認(rèn)知和判斷.

        4 結(jié)束語

        本文詳細(xì)介紹了一種基于可解釋注意力部件模型的行人重識(shí)別方法,該方法可以根據(jù)部件特征的顯著性程度生成可解釋權(quán)重,獲得行人重識(shí)別模型對(duì)行人圖像顯著性的判斷,提高深度學(xué)習(xí)模型的可解釋性.實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性.在未來的工作中嘗試使用孿生網(wǎng)絡(luò)來獲取屬于同一行人身份的特征區(qū)域依據(jù),進(jìn)一步提高行人重識(shí)別模型的可解釋性.

        猜你喜歡
        特征實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        极品少妇被后入内射视| 久久水蜜桃亚洲av无码精品麻豆| 亚洲精品久久久无码av片软件| 国产精品久久久久孕妇| 射死你天天日| 蜜臀av一区二区| 精品国产国产AV一区二区| 在线成人tv天堂中文字幕| 国产剧情亚洲一区二区三区| 美女露出自己的性感大胸一尤内衣| 黑人巨茎大战俄罗斯美女| 国产精品jizz在线观看老狼| 亚洲狼人社区av在线观看| 日韩成精品视频在线观看| 人妻中文字幕在线中文字幕| 久久精品国产色蜜蜜麻豆| 99在线播放视频| 欧美亚洲尤物久久综合精品| 日本一区二区三区四区在线视频| 观看在线人视频| 久久精品久久久久观看99水蜜桃 | 亚洲国产精品成人无码区| 天天干夜夜躁| 隔壁的日本人妻bd高清中字| 久久综合狠狠综合久久综合88| 撕开奶罩揉吮奶头视频| 免费毛片性天堂| 国产亚洲精品综合在线网站| 摸丰满大乳奶水www免费| 一边吃奶一边摸做爽视频| 五十路熟妇亲子交尾| 国产人妖一区二区在线| 伊人青青草综合在线视频免费播放| 男女后进式猛烈xx00动态图片| 国产小受呻吟gv视频在线观看| 亚洲亚洲亚洲亚洲亚洲天堂| 久久免费精品日本久久中文字幕| 国产v片在线播放免费无码| 成年在线观看免费视频| 天堂69亚洲精品中文字幕| 国产精品久久婷婷免费观看|