亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合注意力機制與權重聚類學習的行人再識別

        2022-10-17 11:05:12楊有龍車金星
        計算機工程與應用 2022年20期
        關鍵詞:全局行人注意力

        孫 姣,楊有龍,車金星

        1.西安電子科技大學 數(shù)學與統(tǒng)計學院,西安 710126

        2.南昌工程學院 理學院,南昌 330099

        行人再識別指的是跨越多個非重疊的攝像頭檢索一個感興趣行人的任務。簡單的講,由多個指定的攝像頭捕捉到的行人圖像組成了一個大底庫,給定一張檢索圖像(感興趣的行人),找到與檢索圖像屬于同一身份的所有行人圖像,這就是行人再識別的目標[1-2]。行人再識別在計算機視覺應用領域得到了越來越多的關注,比如智能安防、智能交通和智慧城市等,同時也得到了飛速的發(fā)展并取得了巨大的進步。

        然而,指定攝像機的覆蓋范圍彼此沒有重疊,導致了連貫信息的缺失;行人的姿勢、行為甚至外觀在不同的圖像中會有很大的變化;在不同時間、不同場景中光線、背景和遮擋物不同;各個攝像機的分辨率不盡相同;經(jīng)常會有其他相同身材、相同顏色的行人作為干擾。以上這些原因都使得行人再識別仍然是一個有挑戰(zhàn)性的問題[3]。

        為了解決以上挑戰(zhàn),研究者們提出了很多解決方法,可以分為基于手工設計的方法和基于深度學習的方法。根據(jù)定義,行人再識別可以用數(shù)學語言描述[2]:給定G是由N張圖像組成的一個底庫(gallery),記為G=它們屬于N個不同的身份1,2,…,N。給定一個檢測(query)圖像q,其身份定義為其中i*是q的身份,sim(·,·)是某種相似度函數(shù)。因此,圖像的特征表示學習和距離度量學習是行人再識別系統(tǒng)的兩個必要組件。傳統(tǒng)的基于手工設計方法中的特征表示學習主要是根據(jù)行人外觀設計出具有辨別力且魯棒性強的行人特征[4-6]。Gray和Tao[4]在亮度通道上使用8個顏色通道和21個紋理濾波器,并將行人分割成水平條紋設計了局部特征集合;Li等人[5]提取顏色描述符并使用分層高斯化進行聚合;Liao等人[6]提出包含顏色和SILTP直方圖的局部最大出現(xiàn)率(local maximal occurrence,LOMO)描述符。手工設計方法中的距離度量學習的出發(fā)點是將屬于同一行人的特征拉近,屬于不同行人的特征推遠[4,7-9]。Weinberger等人[8]提出了大范圍最近鄰學習(large margin nearest neighbor learning,LMNN)方法,該方法為目標匹配對設置一個周長,并懲罰該周長的入侵者;K?stinger等人[7]改進了常用的Mahalanobis(馬氏)距離,提出從等價約束中學習距離度量的KISSME方法。

        隨著深度學習[10]在計算機視覺領域的興起,基于深度學習的行人再識別方法在這一領域逐漸占據(jù)主導地位。其中特征表示學習可以分為基于全局特征的方法[11-15]和基于局部特征的方法。全局特征表示學習是對每張行人圖像提取一個全局特征向量,Wu等人[11]使用小尺寸濾波器設計了一個“PersonNet”來捕捉行人圖像全局特征中的細粒度信息;Zheng等人[13]提出一個身份辨別嵌入(ID-discriminative embedding,IDE)模型,將訓練過程看作多類分類,每個身份為不同的類,被廣泛應用。局部特征表示學習通常是學習部分/區(qū)域的聚合特征,這些身體部件要么是由人體姿態(tài)估計器估計要么是水平條紋,Su等人[16]提出一種姿態(tài)引導的深度卷積(pose-driven deep convolutional,PDC)模型來利用人體部件線索進行魯棒性表征學習;Sun等人[17]設計了一個強大的基于部件卷積基線(part-based convolutional baseline,PCB)來使用多個分類器學習部件特征,將圖片分為局部區(qū)域,這對于嚴重的遮擋和背景雜亂是敏感的。

        不管是手工設計系統(tǒng)還是深度學習系統(tǒng),魯棒性特征表示學習都是一個非常重要的組件。在實際應用中,行人圖像總是由某種檢測器在復雜的環(huán)境(背景雜亂、遮擋、光線、視角變化等)下捕捉到。這些行人圖像在被提取特征之前是以矩形檢測框[18-19]的形式存在的,這些矩形框不僅包含了行人身體,還包含了一些不相關的信息。基于深度學習的方法通常的步驟是將這些行人圖像輸送到卷積神經(jīng)網(wǎng)絡中來自動提取深度特征表示,在此過程中,這些不相關信息不可避免地會對魯棒性特征的學習造成影響,從而降低行人再識別的性能。因此,減少干擾信息(背景、遮擋物)對模型的干擾是努力的方向。

        研究者們?yōu)榱颂幚磉@些挑戰(zhàn)已經(jīng)做出了很多努力,注意力機制[20]作為一種有效的策略被引入到行人再識別領域來增強特征,主要來捕捉行人身體(或者某些身體部件)的辨別性外觀,將注意力模塊插入到卷積神經(jīng)網(wǎng)絡中已經(jīng)被證明可以有效地增強卷積神經(jīng)網(wǎng)絡豐富的表示能力[21]。多種注意力方法[21-28]已經(jīng)被提出來增強行人特征表示的辨別力,這些注意力方法根據(jù)作用的維度可以被分為通道注意力(channel-wise attention)和空間注意力(spatial-wise attention)。通道注意力[23,28]主要是探索不同通道之間的特征映射關系,每個通道的特征映射本身就是一個特征檢測器,通過這個通道注意力模塊來告訴模型應該注意特征的哪一部分;空間注意力[21,24-25]是另一種形式的視覺注意力,給出模型應該注意的區(qū)域。具體地,空間注意力指的是將空間中的每個位置看作特征節(jié)點,將有限的資源引導到信息豐富的區(qū)域,使CNN能夠有選擇地處理視野中某個區(qū)域的視覺信息。

        在深度學習中,注意力模塊[29]通常通過對特征映射重新賦權值來得到注意力特征(具有辨別力的特征被賦予較高的權重,無關/干擾特征被賦予較低的權重)。因此,一組可信的注意力權重有助于提高注意力機制的性能。眾所周知,經(jīng)過全局比較得到的權重分布將更可信,但很多注意力模塊都是通過只有有限感受野的局部卷積操作[23,28,30]實現(xiàn)的,這不利于得到更多的全局信息。許多注意力工作嘗試通過增加網(wǎng)絡的深度[31]或者使用更大尺寸的濾波器[21]來挖掘豐富的全局結構信息。然而,Luo等人[32]已經(jīng)證明了卷積神經(jīng)網(wǎng)絡中的有效感受野只是理論感受野的一部分,這些方法仍然不能充分地捕獲豐富的全局結構知識。聚類是一種典型的機器學習算法,用來探索和發(fā)現(xiàn)一定的結構模式,注意到聚類算法中聚類中心的選擇過程與注意力模塊中信息最豐富特征的選擇過程具有相似之處,所以本文利用聚類算法優(yōu)秀的全局結構挖掘能力來對全局注意力進行捕捉。

        本文提出一種新穎的基于聚類的全局注意力模塊來有效地學習辨別力特征進行行人再識別。這種注意力設計顯式地從全局的角度捕捉了特征節(jié)點之間的成對相關性[29],從而推斷出類聚類的全局結構信息。具體來說,對每個節(jié)點與其他所有節(jié)點的成對相關性進行建模,進而計算各節(jié)點的密度、重要分數(shù),從而得到一組基于密度的有說服力的注意力權重,提高Re-ID任務的性能。本文的主要貢獻如下:

        (1)對于注意力機制中學習到的注意力權重可信度低的問題,提出了一種基于聚類的全局注意力模塊CGAM來充分利用行人特征之間的相關性來挖掘信息豐富的全局結構,從而得到一組可信度高的注意力權重;(2)將CGAM嵌入到resnet-50基礎框架中,并結合預熱學習率、隨機擦除增強等數(shù)據(jù)增強策略構建了一個注意力網(wǎng)絡CGAN,僅使用全局特征,取得了有競爭力的效果,網(wǎng)絡具有簡單高效的優(yōu)點;(3)在Market-1501和DukeMTMC-reID兩個流行數(shù)據(jù)集上的實驗驗證了本文方法對于行人再識別任務的有效性。

        1 相關工作

        在本文中,設計了一個新穎的基于聚類的注意力模塊來得到高辨別力的行人描述符。換句話說,擁有杰出的挖掘結構信息能力的聚類算法被用來探索中間特征映射的最值得注意的區(qū)域。據(jù)本文所知,這是第一次使用聚類算法來計算注意力權重。將簡短地回顧一些現(xiàn)有的注意力方法和聚類算法的應用。

        1.1 基于注意力的行人再識別方法

        基于注意力的行人再識別方法在行人再識別領域一直非常具有吸引力,這是因為注意力機制可以增強有辨別力的部分并忽略造成干擾的部分從而使學習到的特征更具魯棒性,因此注意力機制被許多研究者用來克服行人圖像中背景雜亂和相互遮擋等問題。Li等人[33]提出了部分對齊卷積神經(jīng)網(wǎng)絡來實現(xiàn)硬注意力(區(qū)域級注意力),并利用這些注意力建議輸出作為行人特征表示進行行人再識別;為了緩解硬注意力可能忽略細粒度信息的問題,Xu等人[34]提出使用基本的反向傳播訓練的軟注意力(像素級注意力)方法和使用強化學習訓練的硬注意力方法來自動學習描述圖片內(nèi)容;Li等人[23]提出HA-CNN(harmonious attention CNN)模型聯(lián)合學習軟注意力和硬注意力,通過整個注意力機制定位出最具辨識性的像素和區(qū)域,本文的方法屬于軟注意力,這有助于關注到更詳細的信息;Wang等人[30]設計了FAB(fully attentional block)來調(diào)整通道級特征響應,該模塊可以無縫銜接到不同的CNN架構中提高特征辨別力;Shen等人[35]利用一個KPM(Kronecker product matching)模塊以端到端可訓練的方式將特征映射與軟變形框架對齊,采用多尺度特征學習和自殘差注意來提高性能;Song等人[36]提出了MGCAM(mask-guided contrastive attention model)來消除背景雜亂的影響。

        一種卷積塊注意力模塊(convolutional block attention module,CBAM)[21]通過依次應用通道注意力和空間注意力模塊來推導出注意力映射,然后將得到的注意力映射與輸入特征映射相乘,自適應地對特征進行細化,然而,該方法僅使用7×7的卷積核來選出值得注意的位置,缺乏對全局情況的把握。全局結構信息的挖掘,是注意力機制表現(xiàn)良好的關鍵。特別地,對于特征映射的每個位置節(jié)點,其與其他所有位置節(jié)點的成對相關性包含了豐富的、可挖掘的全局信息。Wang等人[29]提出非局部神經(jīng)網(wǎng)絡(non-local neural network)致力于學習全局結構信息,通過學習特征節(jié)點之間的成對相關性作為注意力權重來增強信息豐富的特征,這種簡單的融合方法沒有充分利用這些相互關系,這對于全局結構信息的挖掘是次優(yōu)的。因此,本文提出一種新穎的基于密度的全局注意力挖掘模塊來充分利用特征位置節(jié)點之間的成對關系,通過聚類過程很好地挖掘全局信息,使學習到的注意力權重更加可靠。

        1.2 基于聚類的行人再識別方法

        聚類分析,也稱為無監(jiān)督分類,是數(shù)據(jù)挖掘研究中的一個活躍領域,其主要思想是根據(jù)樣本之間的相似度將所有樣本劃分為不同的簇。換句話說,屬于同一個簇的樣本之間有較高的相似度,屬于不同簇的樣本之間相似度較低,被選為聚類中心的點具有較高的重要性[37]。經(jīng)典的聚類算法包括K-means[38]、K-medoids[39]、DBSCAN[40]等。Rodriguez等人[41]提出了一種新穎的基于密度和距離的密度峰值聚類算法(DPC),該算法的優(yōu)點是簡單、高效,并且它能夠快速找到高密度峰值點。由于這些優(yōu)點,該算法被廣泛應用于文本挖掘[42]、圖像識別[36]等領域,通過聚類過程,可以捕捉到圖像的內(nèi)部結構。

        此外,很多基于聚類的算法已經(jīng)成功地應用到行人再識別任務中。Luo等人[32]考慮不同身份之間的差異性和相同身份之間的相似性,提出了一種自底向上的聚類方法來聯(lián)合優(yōu)化卷積神經(jīng)網(wǎng)絡和身份樣本之間的關系;Fayyaz等人[43]首先提取出三個手工特征,并應用特征融合和選擇機制得到優(yōu)化的特征,然后通過基于特征的聚類將整個底庫(gallery)劃分為k個一致的簇,從而優(yōu)化底庫搜索。發(fā)現(xiàn)大多數(shù)現(xiàn)有的基于聚類的行人再識別方法要么是對行人圖像進行聚類,要么是對行人特征進行聚類,很少有方法將聚類思想應用到注意力模塊的設計中。思考以下兩個過程:(1)利用聚類算法在全部樣本中尋找聚類中心;(2)在卷積神經(jīng)網(wǎng)絡輸出的特征映射中找信息最豐富的特征節(jié)點??梢园l(fā)現(xiàn)這兩個過程具有驚人的相似性。因此,本文采用聚類方法設計了一個新穎的注意力模塊,本文的工作首次應用聚類算法來進行注意力權重的計算。

        2 注意力網(wǎng)絡介紹

        2.1 網(wǎng)絡整體框架介紹

        本文提出的注意力網(wǎng)絡(cluster-based global attention network,CGAN)是專門針對大多數(shù)現(xiàn)有深度行人再識別模型學習到的特征表示很少能捕捉全局結構信息的缺點而設計的。包含三個主要組件:(1)骨干網(wǎng)絡,用于學習初級特征映射;(2)注意力模塊,通過一個聚類的過程得到可信的注意力權重從而學習一個高辨別性的行人特征表示;(3)全局分支用來更多的關注全局信息。CGAN的整體框架如圖1所示。

        圖1 CGAN網(wǎng)絡結構Fig.1 CGAN network structure

        首先,將行人圖像輸送到骨干網(wǎng)絡來得到初級特征映射,這里應用在ImageNet數(shù)據(jù)集上預訓練的ResNet-50[44]模型作為基礎框架,因為該框架在很多行人再識別方法中已經(jīng)取得了良好的效果。對該框架進行輕微的改進,去掉最后的空間下采樣操作、平均池化層和全連接層,從而得到更大的特征圖。第二,將初級特征映射輸入到CGAM中來增強行人圖像最具辨別力的部分,從而得到注意力特征。另外,在CGAN中只應用了全局分支,使得計算量和參數(shù)開銷更少。不失一般性,通過在注意力特征映射后嵌入一個全局平均池化層和全連接層來提取全局表示進行行人身份標簽的分類。

        2.2 CGAM

        為了得到辨別力更強的行人特征表示,本文提出了一種新穎的基于聚類的全局注意力模塊(CGAM),將密度聚類算法應用于注意力模塊的設計有助于充分利用特征節(jié)點之間的成對相關性信息從而挖掘全局結構信息。在這一部分,對本文注意力模塊的結構進行詳細介紹。

        通常情況下,通過注意力機制對卷積神經(jīng)網(wǎng)絡某一層輸出的特征映射重新賦權,以此來增強重要的部分、抑制不相關部分的信息。所以是否能夠得到一個好的注意力權重將直接影響注意力機制的性能。本文創(chuàng)新性地利用聚類算法的打分規(guī)則來得到注意力權重,這是因為聚類算法中分數(shù)越高的數(shù)據(jù)點越重要,越有可能被選為聚類中心。CGAM的作用如圖2所示,具體地,將骨干網(wǎng)絡ResNet-50輸出的特征映射X∈RC×H×W作為注意力模塊的輸入,其中C、H、W分別是特征映射的通道數(shù)、高和寬,經(jīng)過CGAM得到一組可信的注意力權重,最后將得到的這組注意力權重乘以原始的特征映射X得到注意力特征Y。

        圖2 CGAM結構Fig.2 CGAM structure

        首先,將每個空間位置看作一個特征節(jié)點xi∈RC(i=1,2,…,n)(n=H×W),在這里使用像素級注意力,因此一共有H×W個特征節(jié)點,每個特征節(jié)點是一個維數(shù)為C的向量,特征節(jié)點xi和特征節(jié)點xj之間的成對相關性rij定義如下:

        對于函數(shù)f,Wang等人[29]提出將其表示為嵌入空間中的點積相似度,本文也采用這一表示方法,其中θ和φ是兩個嵌入函數(shù),在實驗中通過空間中的1×1卷積層接著批次歸一化層(BN)和ReLU激活函數(shù)來實現(xiàn)。如上所述,根據(jù)聚類算法的打分規(guī)則得到注意力權重,本文應用了DPC算法[41](基于快速搜索和密度峰值查找的聚類),選擇該算法的原因,相比于K-means等算法通過首先指定聚類中心并以迭代方式更新聚類中心的聚類方法,對于特征圖來說指定初始類中心是不容易的,DPC不需要初始的聚類中心,假設聚類中心的密度大于其周圍的點,通過計算特征節(jié)點的密度來選擇對全局重要的點,這與注意力機制的思想一致。該算法基于局部密度ρi和與最近的大密度點δi的距離來實現(xiàn),局部密度ρi定義如下:

        其中,dij在DPC中是指數(shù)據(jù)點i和數(shù)據(jù)點j之間的歐氏距離,但是在本文中,使用點積相似度rij代替歐式距離dij,這是因為點積相似度在深度學習框架中更容易實現(xiàn)。另一個重要的項是截斷距離dc,在本文方法中被替換為截斷相似度rc,定義如下:

        其中p屬于[0,1],決定截斷相似度在最大相似度中的占比,因此公式(2)可以重新定義為:

        于是,特征節(jié)點xi的密度ρi與特征節(jié)點數(shù)量(特指與該節(jié)點的相似度至少為rc的節(jié)點)是正相關的。根據(jù)聚類算法的思想,δi定義為特征節(jié)點xi與任何比其密度大的點的最小相似度:

        很明顯,公式(5)并不適用于密度最大的點。因此,對于密度最大的特征節(jié)點,其δi通常定義為:

        然后,進一步計算了每個特征節(jié)點的重要分數(shù)ai(根據(jù)其ρi和δi),重要分數(shù)ai定義如下:

        至此,得到了重要分數(shù)矩陣a(x)∈RH×W,其元素為ai(i=1,2,…,n),然后執(zhí)行sigmoid函數(shù)得到每一個空間位置的注意力權重:

        由于A(x)是一個二維向量,進一步將這個空間掩碼A沿通道維度重復C次,就可以得到定義在X∈RC×H×W上的注意力映射A(X),將其與初級特征X中的對應元素相乘(element-wise),可以得到注意力模塊CGAM的輸出:

        其中⊙是Hadamard乘積(對應元素的乘積)。

        和大多數(shù)行人再識別深度模型相似,本文通過在注意力特征Y之后插入一個全局平均池化層和一個全連接層來提取行人特征表示用于行人身份的分類,將全連接層的維數(shù)改為數(shù)據(jù)集的身份個數(shù)。確定注意力模塊后,為了確定CGAM在骨干網(wǎng)絡中的嵌入位置,在DukeMTMC-reID數(shù)據(jù)集上做了將CGAM嵌入在不同位置的對比實驗(如表1所示),分別將resnet-50的layer1、layer2、layer3、layer4(遵循pytorch中的定義)的輸出特征映射作為CGAM的輸入,另外為了驗證CGAM的有效性,也將所提出的CGAN與不包含注意力模塊的網(wǎng)絡(其他配置均與本文設置相同)進行了對比。

        表1 CGAM放置位置的選擇Table 1 Choice of placement of CGAM 單位:%

        由表1可知,與基準網(wǎng)絡相比,在骨干網(wǎng)絡的任意位置加入注意力模塊在mAP和Rank-1指標上均有提高,可以看到將layer1輸出的特征映射作為注意力輸入效果不明顯,推測可能是該階段的特征映射學習到的是低級特征包含干擾信息過多所致,相比而言,將layer4的輸出作為注意力模塊的輸入效果更好。此外,由公式(3)知,截斷相似度rc是由參數(shù)p和最大相似度決定的,并且rc決定了每個特征節(jié)點的密度,因此,選擇一個合適的參數(shù)p對于提高性能是非常重要的。由于深度網(wǎng)絡模型訓練時間過長,在[0,1]區(qū)間內(nèi)取多個值進行實現(xiàn)耗時過大,為了說明p值對于模型的影響,選取不同p值在DukeMTMC-reID和Market-1501數(shù)據(jù)集上做了七組對比實驗,實驗結果如圖3~6所示。

        圖3 不同p值下DukeMTMC-reID數(shù)據(jù)集rank-1變化情況Fig.3 Change of rank-1 of DukeMTMC-reID dataset under different p

        圖4 不同p值下DukeMTMC-reID數(shù)據(jù)集mAP變化情況Fig.4 Change of mAP of DukeMTMC-reID dataset under different p

        圖5 不同p值下Market-1501數(shù)據(jù)集rank-1變化情況Fig.5 Change of rank-1 of Market-1501 dataset under different p

        圖6 不同p值下Market-1501數(shù)據(jù)集mAP變化情況Fig.6 Change of mAP of Market-1501 dataset under different p

        總的來看,在這兩個數(shù)據(jù)集上,rank-1和mAP準確率隨著p值變化的情況都沒有呈現(xiàn)出特別明顯的規(guī)律性,Rodriguez等人[41]提出在數(shù)據(jù)量特別大的情況下,使得大密度點的鄰居數(shù)是所有節(jié)點的1%或2%的p值效果最好,但在數(shù)據(jù)量不是很多的情況下,需要實驗來選取合適的p值。綜合rank-1和mAP的變化來看,對于DukeMTMC-reID數(shù)據(jù)集,當p=0.4時效果最好;對于Market-1501數(shù)據(jù)集,當p=0.8時效果最好。

        2.3 損失函數(shù)

        大多數(shù)現(xiàn)有的工作[2]將行人再識別看作是一個多類分類任務,其中將每個身份視為一個單獨的類,這些深度模型通常使用一個softmax函數(shù)基于學習到的行人特征表示來預測每張圖像的身份。本文也使用了基于softmax的識別損失。

        行人再識別的目標是將檢測圖像與圖庫中的一張或多張圖片相匹配,相互匹配的一組圖像屬于同一個人,但是分類任務沒有顯式地學習一個相似性度量,而這在測試階段對底庫圖像進行排序時是需要的。本文通過改進的三元組損失[45]顯式地學習了相似性度量,定義如下:

        3 實驗結果及分析

        3.1 數(shù)據(jù)集和評價標準

        為了評估本文提出的方法,選擇了兩個廣泛使用的大規(guī)模行人再識別基準數(shù)據(jù)集Market-1501[18]和DukeMTMC-reID[19]。Market-1501數(shù)據(jù)集包含了由超市前的6個攝像頭拍攝的1 501個行人的32 668張照片,將所有照片分為訓練集和測試集,其中751個人的12 936張圖像作為訓練集,剩下的750個人的19 732張圖像作為測試集,待查詢圖像為測試集中的750個人在6個攝像頭下隨機挑選出的3 368張圖像;DukeMTMC-reID包含了由8個高分辨率攝像頭拍攝的1 812個行人的36 411張圖像,在1 812個身份中,有1 404個身份出現(xiàn)在兩個以上的攝像頭中,其他408個身份被視為干擾身份。該數(shù)據(jù)集中的1 404個身份分為702個身份的16 522張圖像作為訓練集和其他702個行人的2 228張待查詢圖像和17 661張底庫圖像作為測試集。

        為了評估CGAN模型的性能,遵循通用的評價標準,利用rank-1和mAP(mean average precision)在Market-1501和DukeMTMC-reID數(shù)據(jù)集上進行性能評價。所有實驗在單查詢設置下進行。

        3.2 實現(xiàn)細節(jié)

        本文模型是基于PyTorch框架實現(xiàn)的,實驗硬件配置是NVIDIA TITAN RTX GPU(顯存24 GB)。

        在訓練階段,首先將所有訓練圖像的尺寸調(diào)整為256×128,然后通過隨機裁剪、隨機水平翻轉(zhuǎn)和歸一化來進行數(shù)據(jù)增強,另外采用一種數(shù)據(jù)增強方法—隨機擦除增強(REA)[46]:給定一個小批次中的圖像I,其被隨機擦除的概率為Pe,保持不變的概率為1-Pe,若圖像I被選中隨機擦除,則在整張圖像中選擇一個大小為(We,He)的矩形區(qū)域Ie,用隨機值擦除其像素。具體地,REA在圖像I中隨機選擇一個點P=(xe,ye),如果xe+We≤W且ye+He≤H(W和H是圖像I的寬和高),則選擇Ie=(xe,ye,xe+We,ye+He)作為隨機擦除區(qū)域且Ie的縱橫比在r1和r2之間隨機初始化,對該區(qū)域的每個像素分別用圖像I的均值填充。在本文中,設置Pe=0.5,r1=0.3,r2=0.33,采用REA方法有利于解決行人圖像可能被其他物體遮擋的問題并提高模型的泛化能力。

        在測試階段,簡單的將圖像的大小調(diào)整為256×128,公式(10)中的間隔m設置為0.5;公式(3)中的參數(shù)p設置為0.8;為了優(yōu)化模型,將小批次P×K設置為128;使用Adam[47]優(yōu)化器訓練模型160個epoch;采用一種預熱策略[48-49]對學習率進行設置,前10epoch學習率從3×10-5線性增加到3×10-4,然后在第40個epoch和第70個epoch處學習率分別衰減為3×10-5和3×10-6。

        3.3 與相關方法比較

        為了進一步驗證CGAN在行人再識別任務中的有效性,在本節(jié),將本文方法與一些效果顯著的相關方法在Market-1501和DukeMTMC-reID數(shù)據(jù)集上進行了比較。

        如表2所示,在Market-1501數(shù)據(jù)集上,本文的CGAN模型實現(xiàn)了85.2%的mAP和94.1%的Rank-1精度,相比于使用部分對齊卷積神經(jīng)網(wǎng)絡和硬注意力并同時學習基于全身和基于部分的特征表示的MSCAN[33]方法,本文方法僅使用全局分支提高了27.7%(mAP)和13.8%(Rank-1),節(jié)省了大量的時間和空間成本。與AACN[25](姿態(tài)引導的部分注意力)和HA-CNN[23](同時使用軟注意力和硬注意力)等方法相比,也有顯著的提高,并且在使用重排名技巧的情況下,得到了95.2%的rank-1精度和94.1%的mAP精度。對于DukeMTMC-reID數(shù)據(jù)集,由于該數(shù)據(jù)集具有更廣泛的攝像機視角和更復雜的背景,因此對于行人重識別任務有更大的挑戰(zhàn)性,CGAN在只使用全局分支的情況下仍然實現(xiàn)了87.3%的rank-1精度和76.4%的mAP精度,加上重排名技巧,實現(xiàn)了90.4%的rank-1精度和88.9%的mAP精度。綜上,本文的注意力方法在行人再識別問題中效果顯著。

        表2 實驗結果對比Table 2 Comparison of experimental results單位:%

        4 總結

        針對現(xiàn)有基于注意力機制的行人再識別方法中獲取注意力權重的方式簡單且確定、沒有充分利用行人特征映射各節(jié)點之間的相關性,從而缺乏對全局信息的把握的問題,本文提出了一種新穎的基于聚類的全局注意力挖掘模塊,通過聚類算法得到一組可信度更高的注意力權重,從而獲得更加魯棒的行人特征表示。另外,基于提出的注意力模塊CGAM、利用改進的resnet-50作為骨干網(wǎng)絡,結合預熱學習率、隨機擦除增強、組合損失函數(shù)等方法構建了一個簡單高效的注意力網(wǎng)絡CGAN,通過在Market-1501和DukeMTMC-reID兩個流行數(shù)據(jù)集上的實驗結果,驗證了本文方法的有效性。本文注意力網(wǎng)絡僅僅使用全局分支取得了有競爭力的性能,作為展望,將進一步應用一些更細粒度的特征表示(例如,基于局部的特征)來進一步提高行人再識別模型的性能。

        猜你喜歡
        全局行人注意力
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        讓注意力“飛”回來
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        路不為尋找者而設
        揚子江(2019年1期)2019-03-08 02:52:34
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        我是行人
        A Beautiful Way Of Looking At Things
        新思路:牽一發(fā)動全局
        亚洲成AV人久久| 大桥未久亚洲无av码在线| 乱子伦视频在线看| 99久久这里只精品国产免费| 在线久草视频免费播放| 国产人妻高清国产拍精品| 激情综合一区二区三区| 97精品国产91久久久久久久| 亚洲av高清一区三区三区| 亚洲精品无码永久中文字幕| 国产精品无码a∨精品影院| 国产在亚洲线视频观看| 熟女高潮av一区二区| 搡女人真爽免费视频大全| 韩国精品一区二区三区无码视频| 无码超乳爆乳中文字幕| 国产美女高潮流白浆视频| 日本少妇春药特殊按摩3| 抽插丰满内射高潮视频| 黄片在线观看大全免费视频| 日韩人妻免费视频一专区| 东北老女人高潮大喊舒服死了| 国产精品亚洲一区二区无码国产| 日韩精品av在线一区二区| 国产成人91久久麻豆视频| 国产乱xxⅹxx国语对白| 日韩在线视精品在亚洲| 丰满人妻被持续侵犯中出在线| 国产卡一卡二卡3卡4乱码| 天天做天天爱天天综合网| 国产女主播强伦视频网站 | 中文字幕人妻饥渴浪妇| 亚洲色大成网站www久久九| 91亚洲精品福利在线播放 | 超级碰碰人妻中文字幕| 国内偷拍国内精品多白86| 韩日午夜在线资源一区二区| 国产女高清在线看免费观看 | 尤物蜜桃视频一区二区三区| 樱桃视频影院在线播放| 天天爽夜夜爽人人爽曰喷水|