龐遵毅 李丹
摘 ?要:一般人流量密度大的場所容易發(fā)生行人走失的情況,如:車站、游樂園、廣場。針對(duì)此類人流量大的密集場所中發(fā)生的行人走失情況,提出一種基于TransReID的智能尋人系統(tǒng),結(jié)合跨鏡技術(shù)在場所內(nèi)對(duì)行人目標(biāo)進(jìn)行檢測搜尋。TransReID在Transformer的基礎(chǔ)上做了網(wǎng)絡(luò)結(jié)構(gòu)層的改進(jìn),提高了魯棒特征提取效率。對(duì)比CNN網(wǎng)絡(luò)結(jié)構(gòu)有了很大的提升,TransReID在對(duì)行人目標(biāo)重識(shí)別上也有著更好的綜合性能。
關(guān)鍵詞:目標(biāo)檢測;重識(shí)別;行人;TransReID
中圖分類號(hào):TP391.4 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)14-0083-03
Abstract: Lost pedestrians are easy to happen in places with high pedestrian flow density, such as: station, amusement and square. In view of the lost pedestrians situation in such places with high pedestrian flow density, the intelligent human search system based on TransReID is proposed, it combined the cross-mirror technology to search pedestrians targets in the sites. TransReID has improved the network structure layer and the robust feature extraction efficiency on the basis of Transformer. Compared with CNN, the network structure has been greatly improved, TransReID also has better comprehensive performance in re-recognition of pedestrian targets.
Keywords: target detection; re-indentification; pedestrians; TransReID
0 ?引 ?言
隨著近年來人工智能的異軍突起,AI技術(shù)在計(jì)算機(jī)行業(yè)快速發(fā)展,以前在科幻電影中才能見到的目標(biāo)檢測技術(shù),現(xiàn)在也已經(jīng)廣泛應(yīng)用在人們的日常生活之中。目標(biāo)檢測中非常重要的一環(huán)應(yīng)用就是目標(biāo)重識(shí)別的應(yīng)用,而行人目標(biāo)重識(shí)別也是目標(biāo)重識(shí)別研究較多的領(lǐng)域。
目標(biāo)重識(shí)別技術(shù)一直以來都被CNN神經(jīng)網(wǎng)絡(luò)方法所主導(dǎo),CNN神經(jīng)網(wǎng)絡(luò)方法在目標(biāo)重識(shí)別領(lǐng)域已經(jīng)取得了巨大的成功,但依然有方法實(shí)現(xiàn)上的不足。CNN神經(jīng)網(wǎng)絡(luò)方法在處理目標(biāo)圖像時(shí),由于一次只能處理一個(gè)局部領(lǐng)域,并且還會(huì)受到卷積和降采樣操作在細(xì)節(jié)上造成信息損失的影響,TransReID方法由此被提出,成為實(shí)現(xiàn)更高精度和更高效率的目標(biāo)重識(shí)別方法,這也是首個(gè)基于純Transformer技術(shù)的目標(biāo)重識(shí)別方法,也是Transformer方法在目標(biāo)重識(shí)別領(lǐng)域上的首次應(yīng)用。
TransReID將ViT應(yīng)用到目標(biāo)重識(shí)別任務(wù)上,并且以ViT為骨干構(gòu)建了一個(gè)強(qiáng)大的基線ViT-BOT,其在目標(biāo)重識(shí)別的幾個(gè)基準(zhǔn)上,其結(jié)果完全可以與CNN神經(jīng)網(wǎng)絡(luò)的框架相比。除此之外,因?yàn)榭紤]到ReID數(shù)據(jù)的特殊性,TransReID網(wǎng)絡(luò)結(jié)構(gòu)還設(shè)計(jì)了兩個(gè)用于數(shù)據(jù)處理的模塊,分別是JPM和SIE模塊。JPM模塊提高了網(wǎng)絡(luò)的識(shí)別能力和更多樣化的覆蓋,SIE則是處理圖像的非視覺信息以此減少特征對(duì)攝像機(jī)或者視圖的偏差。以此設(shè)計(jì)的TransReID架構(gòu)在實(shí)驗(yàn)結(jié)果上,在對(duì)行人目標(biāo)重識(shí)別上,其性能對(duì)比CNN神經(jīng)網(wǎng)絡(luò)有顯著的提升,這也是在行人目標(biāo)重識(shí)別任務(wù)上一次突破性的探索,打破了一直被CNN神經(jīng)網(wǎng)絡(luò)架構(gòu)所主導(dǎo)的局面。
1 ?TransReID概述
TransReID網(wǎng)絡(luò)架構(gòu)是由阿里巴巴與浙江大學(xué)在Transformer與ReID上的一次突破性探索,也將ReID提升到了新的高度。在自然語言處理領(lǐng)域,為了處理序列數(shù)據(jù)提出了Transformer模型,許多研究顯示了它在計(jì)算機(jī)視覺中的有效性。Transfomer模型最初用于處理由CNN模型為視頻提取的序列特征。有研究者使用一種Transformer架構(gòu)的變體來聚合視頻中與特定人物相關(guān)的上下文線索[1]。目前Pure Transformer模型越來越受歡迎,ViT是最近提出的一種將Pure Transformer直接應(yīng)用于圖像序列配準(zhǔn)的方法。然而,ViT需要一個(gè)大規(guī)模的數(shù)據(jù)集來進(jìn)行預(yù)訓(xùn)練。為了克服這一缺點(diǎn),Touvron等人進(jìn)行了一系列的研究并提出了一個(gè)名為DeiT的框架,該框架引入了一種針對(duì)Transformer的teacher-student策略,以加速ViT訓(xùn)練,而不需要大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)。而TransReID則是將ViT做了一些調(diào)整過后擴(kuò)展到ReID任務(wù)中,并證明了它的有效性。盡管ViT-BOT在ReID任務(wù)中可以實(shí)現(xiàn)比較好的性能,但是為了利用ReID數(shù)據(jù)中的特性,更好地挖掘side信息和fine-grained部分,TransReID的整體網(wǎng)絡(luò)結(jié)構(gòu)中還加入了JPM和SIE模塊,以此來實(shí)現(xiàn)更高的ReID準(zhǔn)確率。
1.1 ?ViT-BOT
ViT-BOT的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其遵循一般的強(qiáng)管道對(duì)象ReID,并且做了一定程度上的調(diào)整[2]。第一步作為預(yù)處理步驟,ViT將圖像分割成N個(gè)不重疊的塊,但是這就會(huì)導(dǎo)致塊的局部近鄰結(jié)構(gòu)信息無法較好的保持;相反,如果采用滑動(dòng)窗口形式生成重疊塊,假設(shè)滑動(dòng)窗口的步長為S像素,每個(gè)塊的尺寸P=16,那么重疊部分的形狀為(P-S)× P。如果輸入圖像的尺寸為H×W,那么所得到的圖像塊數(shù)量將如公式所示:。從公式可以看出,重疊區(qū)域越大,所提圖像塊數(shù)量越多,能帶來更好的性能,但同時(shí)也會(huì)增加計(jì)算量。第二步進(jìn)行位置信息的編碼,利用ρi對(duì)第i個(gè)塊的位置信息進(jìn)行編碼,它有助于Transformer的編碼器編碼空間信息,在對(duì)位置進(jìn)行編碼的同時(shí),引入雙線性插值,以幫助ViT-BOT處理任何給定的輸入和大小形狀[3]。第三步進(jìn)行特征的學(xué)習(xí),將圖像分割成一系列的塊,再將一個(gè)可學(xué)習(xí)的特征嵌入到上述塊中,最后一個(gè)編碼層的類標(biāo)志作為圖像的全局特征表示,假設(shè)最終的類標(biāo)志表示為F,其他輸出表示為P0={P1,P2,…PN},則其損失函數(shù)可表示為:LT=log[1=exp(‖F(xiàn)a-Fp‖22-‖F(xiàn)a-Fn‖22)]。
1.1.1 ?TransReID框架
盡管上述ViT-BOT網(wǎng)絡(luò)結(jié)構(gòu)可以在ReID任務(wù)上取得較好的結(jié)果,但是它并未充分利用ReID數(shù)據(jù)的特性,所以提出將SIE和JPM模塊融合到ViT-BOT網(wǎng)絡(luò)結(jié)構(gòu)之中,構(gòu)成了最終的TransReID框架,其結(jié)構(gòu)圖如圖2所示。
1.1.2 ?SIE模塊
在目標(biāo)重識(shí)別領(lǐng)域,一個(gè)極具挑戰(zhàn)的問題就是:不同相機(jī)、視覺及其他因素導(dǎo)致的視覺偏差。Transformer則非常善于融合這類邊界信息,因?yàn)轭愃朴谖恢们度?,它可以采用可學(xué)習(xí)層來編碼這些邊界信息。具體來說,如果一幅圖像的攝像頭記為C,則其攝像頭Embedding可以記為S(C)。不同于Position Embedding在各patch之間的變化,攝像機(jī)EmbeddingS(C)對(duì)于一幅圖像的所有patch都是相同的。另外,如果物體的視點(diǎn)是可用的,無論是通過視點(diǎn)估計(jì)算法還是人工標(biāo)注,都可以將視點(diǎn)標(biāo)簽V編碼為S(V),然后用于圖像的所有patch。將攝像頭ID和視角標(biāo)簽同時(shí)編碼為S(C,V)。也就是說對(duì)于CN個(gè)攝像機(jī)IDs和VN個(gè)視角標(biāo)簽,S(C,V)總共有CN×VN個(gè)不同的值。最后,第i個(gè)patch的輸入Embedding將遵循公式Ei=F(pi)+pi+λS(C,V)。
1.1.3 ?JPM模塊
由于將強(qiáng)基線ViT-BOT的最后一層調(diào)整為并行分支結(jié)構(gòu),采用兩個(gè)獨(dú)立的Transformer層學(xué)習(xí)局部特征和全局特征[4]。假設(shè)倒數(shù)第二層的輸出為:Zl-1=[Z0l-1,…Z1l-1,Z2l-1…ZNl-1]。局分支采用標(biāo)準(zhǔn)的transformer,得到Zl=[fg,…Z11,Z21…ZN1]。token embedding往往取決于其靠近的token,因此一組相近的patch進(jìn)行embedding會(huì)把信息局限在有限的區(qū)域。JPM模塊,其本質(zhì)是隨機(jī)分組,具體為:把前m個(gè)patch挪到后面,再進(jìn)行patch打亂劃分。這里的k組patch會(huì)輸入到同一個(gè)transformer結(jié)構(gòu)中,分別提取出一個(gè)局部特征。(并不是把一組的patch級(jí)聯(lián),形成k個(gè)大patch,輸入一次transformer;而是每組輸入一次transformer。)由此得到局部特征{f1l,f2l,…fkl}。。最后的損失函數(shù)計(jì)算為:L=LID(fg)+LT(fg)+∑(LID(fil)+LT(fil))。最后將全局特征和局部特征級(jí)聯(lián),得到最終的特征表示。
2 ?實(shí)驗(yàn)及結(jié)果
2.1 ?數(shù)據(jù)集
本文使用的原始數(shù)據(jù)集是Market-1501數(shù)據(jù)集,它包含了1 501個(gè)行人對(duì)象,由6個(gè)不同的攝像頭捕捉,每個(gè)行人對(duì)象在每個(gè)視點(diǎn)平均有3.6張圖像。其中750個(gè)行人對(duì)象用于訓(xùn)練集,751個(gè)行人對(duì)象用于測試集。
2.2 ?模型訓(xùn)練
本文算法基于Cglab平臺(tái)實(shí)施,迭代次數(shù)為120,GPU為TeslaT4。在訓(xùn)練模型時(shí),將所有圖片大小調(diào)整為256×256。訓(xùn)練圖像通過隨機(jī)水平翻轉(zhuǎn)、填充、隨機(jī)裁剪、隨機(jī)擦除進(jìn)行圖像增強(qiáng)。Batch=8,采用SGD優(yōu)化算法,動(dòng)量為0.9,權(quán)值衰減為1e-4。學(xué)習(xí)率初始化為0.008。如圖3所示。
3 ?智能尋人系統(tǒng)
隨著科技的發(fā)展,電子設(shè)備通信成為人與人溝通的主要方式,但如果脫離了電子設(shè)備,尤其是在一些人口密集的場所,單純依靠人力尋找目標(biāo)如同大海撈針[5]?,F(xiàn)在的科技尋人方式,基本還停留在依靠人力去查閱監(jiān)控視頻、尋找行人軌跡的方式,進(jìn)而再組織尋找,這樣的方式需要耗費(fèi)大量人力,但是ReID技術(shù)就能很好地應(yīng)用并解決這一問題,只需要輸入一張目標(biāo)人物的照片進(jìn)入ReID的系統(tǒng),實(shí)時(shí)地在場所內(nèi)所有監(jiān)控?cái)z像頭尋找目標(biāo)任務(wù),通過ReID的跨鏡技術(shù),實(shí)現(xiàn)區(qū)域內(nèi)監(jiān)控設(shè)備的多鏡結(jié)合查找,并且ReID技術(shù)在針對(duì)目標(biāo)圖像不同姿態(tài)、不同角度、不同分辨率時(shí),通過多粒度網(wǎng)絡(luò)結(jié)構(gòu)與邊信息融合處理,結(jié)果上都有很好地識(shí)別效果,進(jìn)一步提升人臉識(shí)別的精準(zhǔn)度,尤其是在針對(duì)視頻質(zhì)量低、部分遮擋等復(fù)雜場景時(shí),通過視頻連續(xù)幀的處理,延長行人在攝像頭連續(xù)跟蹤的時(shí)空延續(xù)性,可以快速反應(yīng)并且找到目標(biāo)的最近落腳點(diǎn),實(shí)現(xiàn)真正的監(jiān)控技術(shù)智能化,結(jié)合現(xiàn)在城市發(fā)達(dá)的監(jiān)控網(wǎng)絡(luò),就能高效實(shí)現(xiàn)在人口密集場所尋人的功能。圖4所示。
4 ?結(jié) ?論
本文所實(shí)現(xiàn)的是利用監(jiān)控網(wǎng)絡(luò),在人口密集場所利用ReID的跨攝像頭技術(shù)進(jìn)行尋人的功能,從而幫助人們?cè)谧呤r(shí)能夠快速團(tuán)聚。TransReID以Transformer技術(shù)為基礎(chǔ),通過構(gòu)建其ViT-BOT強(qiáng)基線與其SIE和JPM模塊的結(jié)合,在ReID性能上對(duì)比CNN網(wǎng)絡(luò)有著更高效率的表現(xiàn),并且通過其對(duì)圖像邊信息的處理,能夠進(jìn)一步降低不同相機(jī)的視點(diǎn)引起的負(fù)面偏差,彌補(bǔ)CNN網(wǎng)絡(luò)在這方面的不足,在ReID幾個(gè)主流基準(zhǔn)上達(dá)到更高的準(zhǔn)確率。將其應(yīng)用于智能尋人系統(tǒng),只要在監(jiān)控網(wǎng)絡(luò)覆蓋范圍內(nèi),都必將實(shí)現(xiàn)更高的查找效率,對(duì)于日后社會(huì)的和諧,民生的安康都有著非常巨大的幫助。
參考文獻(xiàn):
[1] BEAL J,KIM E,TZENG E,et al. Toward Transformer-Based Object Detection [J/OL].arXiv:2012.09958 [cs.CV].(2020-12-17).https://arxiv.org/abs/2012.09958v1.
[2] HE S T,LUO H,WANG P C,et al. TransReID:Transformer-based Object Re-Identification [J/OL].arXiv:2102.04378 [cs.CV].(2021-02-08). https://arxiv.org/abs/2102.04378v1.
[3] MENG D C,LI L,LIU X J,et al. Parsing-Based View-Aware Embedding Network for Vehicle Re-Identification [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Seattle:IEEE,2020:7101-7110.
[4] LUO H,GU Y Z,LIAO X Y,et al. Bag of tricks and a strong baseline for deep person re-identifification [J/OL].arXiv:1903.07071 [cs.CV].(2019-05-19).https://arxiv.org/abs/1903.07071v3.
[5] 郝翠翠.基于人臉識(shí)別的尋人系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].大連:大連理工大學(xué),2015.
作者簡介:龐遵毅(2000.02—),男,漢族,四川內(nèi)江人,本科在讀,研究方向:人工智能。