亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合語(yǔ)義分割與注意力機(jī)制的行人再識(shí)別模型

        2022-02-24 05:06:42周東明張燦龍唐艷平李志欣
        計(jì)算機(jī)工程 2022年2期
        關(guān)鍵詞:語(yǔ)義特征模型

        周東明,張燦龍,唐艷平,李志欣

        (1.廣西師范大學(xué) 廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004;2.桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,廣西桂林 541006)

        0 概述

        行人再識(shí)別是指判斷不同攝像頭下出現(xiàn)的行人是否屬于同一行人,屬于圖像檢索的子問(wèn)題,廣泛應(yīng)用于智能視頻監(jiān)控、安保、刑偵等領(lǐng)域[1-2]。由于行人圖像的分辨率變化大、拍攝角度不統(tǒng)一、光照條件差、環(huán)境變化大、行人姿態(tài)不斷變化等原因,使得行人再識(shí)別成為目前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)和難點(diǎn)問(wèn)題。

        傳統(tǒng)的行人再識(shí)別方法側(cè)重于顏色、形狀等低級(jí)特征。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,以端到端的方式學(xué)習(xí)圖像特征,然后進(jìn)行三元組損失、對(duì)比損失、改進(jìn)的三元組損失等[3-4]的度量與計(jì)算。該方式能夠很好地學(xué)習(xí)圖像的全局特征,但是并沒(méi)有考慮圖像的局部特征和空間結(jié)構(gòu)。行人在不同的攝像頭下由于低分辨率、光照條件、部分遮擋、姿態(tài)變化等諸多因素使得視覺(jué)外觀發(fā)生顯著變化,主要表現(xiàn)為行人部分特征被遮擋導(dǎo)致不相關(guān)上下文被學(xué)習(xí)到特征圖中,姿態(tài)變化或者非剛性變換使得度量學(xué)習(xí)[5]變得困難,高相似度的外貌特征在基于全局特征學(xué)習(xí)的模型中不能得到有效識(shí)別,區(qū)域推薦網(wǎng)絡(luò)所產(chǎn)生的不精確的檢測(cè)框會(huì)影響特征學(xué)習(xí)等方面。為解決上述問(wèn)題,研究人員開(kāi)始關(guān)注圖像的局部特征,通過(guò)圖像的局部差異性分辨不同的行人。對(duì)于行人的局部特征進(jìn)行提取,主要是通過(guò)手工的方式將圖像分成若干塊。文獻(xiàn)[6]提出對(duì)圖像進(jìn)行分塊,將行人圖像平均分成6 份大小相同的區(qū)域,對(duì)每個(gè)區(qū)域施加標(biāo)簽約束,然后分別提取圖像的局部特征進(jìn)行學(xué)習(xí)。文獻(xiàn)[7]在全局特征的辨識(shí)模型中引入局部特征損失來(lái)影響全局特征表達(dá),在局部網(wǎng)絡(luò)中使用無(wú)監(jiān)督訓(xùn)練自動(dòng)檢測(cè)局部人體部件,增加了模型對(duì)于未見(jiàn)過(guò)的行人圖像的判別能力。但是,已有研究主要將注意力集中在人體的局部特征學(xué)習(xí)上,忽略了非人體部件的上下文線索對(duì)整體辨識(shí)的重要影響,因此模型在不同數(shù)據(jù)集中的魯棒性較差。本文使用行人語(yǔ)義分割代替手工設(shè)計(jì)的分塊框,快速提取圖像的局部特征。首先訓(xùn)練一個(gè)行人語(yǔ)義分割模型,該模型通過(guò)學(xué)習(xí)將行人分成多個(gè)語(yǔ)義區(qū)域,將非人體部分作為背景。然后通過(guò)局部語(yǔ)義區(qū)域進(jìn)行分塊,分塊后再進(jìn)行辨識(shí)比對(duì)。在此基礎(chǔ)上提出一種局部注意力機(jī)制,計(jì)算非人體部分潛在部件的相似度,依據(jù)輸入圖像和查詢圖像像素之間的差異來(lái)辨識(shí)是否屬于同一行人,以解決非人體部分潛在的原始信息辨識(shí)問(wèn)題。

        1 行人再識(shí)別模型

        本文提出一種基于局部對(duì)齊網(wǎng)絡(luò)(Partial Alignment Network,PAN)的行人再識(shí)別模型,通過(guò)行人解析模型對(duì)齊人體部分特征以及使用局部注意力機(jī)制對(duì)齊非人體部分的上下文線索[8]。局部對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,通過(guò)將分塊后的行人語(yǔ)義特征與注意力特征相融合得到最終的辨識(shí)特征,其中:Lpar表示人體語(yǔ)義解析網(wǎng)絡(luò)分支;Latt表示局部注意力網(wǎng)絡(luò)分支,先學(xué)習(xí)捕獲基于不同像素之間的部分差異,再計(jì)算潛在的局部對(duì)齊表示。

        圖1 局部對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of partial alignment network

        1.1 行人語(yǔ)義分割模型

        輸入一張行人圖片I,經(jīng)過(guò)殘差網(wǎng)絡(luò)的特征提取得到特征圖V,將行人與分割后的標(biāo)簽映射進(jìn)行縮放[9],使其特征映射和V維度相同。第i個(gè)像素的表征為ri,本質(zhì)上是V的it,h行。像素i經(jīng)過(guò)縮放后行人部分類別的標(biāo)簽可表示為δi,δi有N個(gè)人體部件的值和1 個(gè)背景類別。將得到的人體特征標(biāo)記的置信度圖記為fk,每一個(gè)人體部件類別和背景均與局部特征置信度圖相關(guān)[10]。當(dāng)預(yù)測(cè)i個(gè)行人部件標(biāo)簽時(shí):

        在得到第i個(gè)像素的標(biāo)簽圖fk,i后,本文使用L1正則化對(duì)每個(gè)行人標(biāo)簽的置信度圖進(jìn)行歸一化處理[11],L1 正則化可表示如下:

        其中:λ∈[0,+∞]是用來(lái)平衡系數(shù)的稀疏性和經(jīng)驗(yàn)損失的超參數(shù),λ越大系數(shù)的稀疏性越好,但經(jīng)驗(yàn)損失就越大;ri是輸入的第i個(gè)像素特征;y是圖像的標(biāo)簽;w是在訓(xùn)練中學(xué)習(xí)的超參數(shù);Lemp()是目標(biāo)函數(shù)。對(duì)式(2)中的w求導(dǎo),使得偏置值?w J(w;ri,y)目標(biāo)函數(shù)取得最小值以產(chǎn)生稀疏模型,防止過(guò)擬合現(xiàn)象[12]。此時(shí),行人部分的特征hi可以表示如下:

        其中:hi表示的是第i個(gè)像素的行人部件特征,通過(guò)指示函數(shù)[δi≡N]即可得到人體部分的特征圖Lpar。Lpar可以表示如下:

        其中:Lpar本質(zhì)上是圖片中行人預(yù)定義標(biāo)簽的語(yǔ)義表示。在本文模型中,行人語(yǔ)義主干網(wǎng)絡(luò)每次激活輸出一個(gè)帶標(biāo)簽的置信度圖,而不是使用全局平均池化[13]輸出置信度圖。與全局平均池化[14]相比,置信度圖的激活發(fā)生在空間區(qū)域。

        1.2 局部注意力網(wǎng)絡(luò)

        將ResNet50 提取到的特征圖V輸入局部注意力網(wǎng)絡(luò)中[15],局部注意力網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)K個(gè)非行人標(biāo)簽置信度圖Q1,Q2,…,QK。局部注意力網(wǎng)絡(luò)中的置信度圖學(xué)習(xí)與行人解析網(wǎng)絡(luò)中第i個(gè)像素有關(guān)的潛在知識(shí),第i個(gè)像素的注意力編碼向量可表示如下:

        其中:Ti是第i個(gè)像素的特征編碼長(zhǎng)度;WP是在訓(xùn)練中學(xué)習(xí)的超參數(shù);tanh()是雙曲正切函數(shù),在得到注意力編碼向量的特征表示后,計(jì)算注意力網(wǎng)絡(luò)中i個(gè)像素特征 圖的權(quán)重ai,j。ai,j可以表示如下:

        其中:ai,j是Qi的第jt,h行的置信度圖權(quán)重;s表示輸入序列的位置;σ表示局部注意力關(guān)注區(qū)域和標(biāo)簽之間的方差。本文在計(jì)算特征圖權(quán)重時(shí),添加高斯分布使得對(duì)齊權(quán)重在第i個(gè)像素對(duì)靠近pi的標(biāo)注時(shí)予以更多的影響力。遵循局部注意力機(jī)制,首先正則化align(Qj,Qi),然后計(jì)算輸入和查詢圖像之間關(guān)于像素i相似性的總和。局部注意力網(wǎng)絡(luò)中的兩個(gè)變換函數(shù)是為了更好地學(xué)習(xí)相似性,其實(shí)現(xiàn)使用的是1×1的卷積核,能更好地對(duì)小目標(biāo)予以檢測(cè)和關(guān)注。

        潛在的局部注意力特征圖可表示如下:

        其中:ψ(·)是用來(lái)學(xué)習(xí)更好表征的函數(shù)。在實(shí)現(xiàn)細(xì)節(jié)上,使用的是1×3 的卷積核和批量歸一化以及Sigmoid 激活函數(shù)[16]。

        將潛在的局部注意力網(wǎng)絡(luò)對(duì)齊表示和人體語(yǔ)義解析網(wǎng)絡(luò)對(duì)齊表示進(jìn)行融合,得到最終的辨識(shí)特征X:

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        使用3 個(gè)公開(kāi)的大規(guī)模行人再識(shí)別領(lǐng)域的Market-1501[17]、DukeMTMC-reID[18]和CUHK03[19]數(shù)據(jù)集評(píng)估本文模型的性能。Market-1501 數(shù)據(jù)集有1 501 個(gè)行人,共32 688 張圖片。DukeMTMCreID 數(shù)據(jù)集有1 404 個(gè)行人,共36 411 張圖片。CUHK03 數(shù)據(jù)集有1 467 個(gè)行人,共14 096 張圖片。這些圖片由5 個(gè)高分辨率的攝像頭和1 個(gè)低分辨率的攝像頭拍攝,且每個(gè)行人至少出現(xiàn)在2 個(gè)不同的攝像頭中。CUHK03 數(shù)據(jù)集的數(shù)據(jù)格式和另外兩種數(shù)據(jù)集格式稍有不同,提供了兩種類型的數(shù)據(jù),包括手工注釋的標(biāo)簽(Labeled)和DPM 檢測(cè)的邊界框(Detected)[20],其中第二種類型的數(shù)據(jù)檢測(cè)更困難,因?yàn)镈MP 檢測(cè)的邊界框存在比例失調(diào)、雜亂背景等現(xiàn)象的發(fā)生。利用累計(jì)匹配特征(Cumulated Matching Characteristic,CMC)和平均精度均值(mean Average Presicion,mAP)兩種評(píng)價(jià)指標(biāo)來(lái)評(píng)估PAN 模型。所有實(shí)驗(yàn)均使用單查詢?cè)O(shè)置。

        2.2 參數(shù)設(shè)置

        模型基于PyTorch 框架,在開(kāi)始訓(xùn)練前將數(shù)據(jù)集中圖片大小調(diào)整至384 像素×128 像素,通過(guò)隨機(jī)遮擋進(jìn)行數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)中使用的3 個(gè)數(shù)據(jù)集預(yù)先使用CE2P 模型進(jìn)行人體語(yǔ)義解析[21],每張圖片定義20 個(gè)語(yǔ)義類別,其中,19 個(gè)行人類別,1 個(gè)背景類別。實(shí)驗(yàn)共訓(xùn)練100 個(gè)批次,每個(gè)批次的大小設(shè)置為128。初始學(xué)習(xí)率設(shè)置為0.02,在經(jīng)過(guò)60 個(gè)批次后學(xué)習(xí)率降為0.002。

        2.3 定量比較與分析

        將PAN 模型與基于注意力的行人再識(shí)別模型(RGA[22]、HOA[23])、基于行人語(yǔ)義解析的行人再識(shí)別模型(SSM[24])和基于局部對(duì)齊方法的行人再識(shí)別模型(SCSN[25]、GSRW[26]和DSA[27])進(jìn)行性能評(píng)價(jià)測(cè)試與對(duì)比,對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果如表1 所示,其中,在Market-1501 和DukeMTMC 數(shù)據(jù)集中分別測(cè)試了Rank-1、Rank-5、Rank-10 和mAP 評(píng)價(jià)指標(biāo),在CUHK03 數(shù)據(jù)集中測(cè)試了Rank-1 和mAP 評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明:PAN 模型在3 個(gè)數(shù)據(jù)集中均取得較好的結(jié)果,通過(guò)觀察可以發(fā)現(xiàn),本文構(gòu)建的人體語(yǔ)義解析網(wǎng)絡(luò)有效地解決了分塊后特征不對(duì)齊導(dǎo)致的匹配失敗問(wèn)題;將PAN 模型與HOA 模型在沒(méi)有使用多分類Softmax 損失函數(shù)[28]的條件下進(jìn)行比較,可以發(fā)現(xiàn)PAN 模型的Rank-1 和mAP 評(píng)價(jià)指標(biāo)上有明顯提升,分別提高了5.4 和6.8 個(gè)百分點(diǎn)。

        表1 在單查詢?cè)O(shè)置下PAN 模型和其他模型在Market-1501、DukeMTMC 和CUHK03 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results of PAN model and other models on Market-1501,DukeMTMC and CUHK03 datasets under the single query setting %

        2.4 定性評(píng)估

        本文探究了不同的行人部件分割數(shù)量N對(duì)PAN 模型的影響,實(shí)驗(yàn)結(jié)果如圖2 所示。由圖2 可以看出,當(dāng)N=5 時(shí),行人部件被分為頭部、上部分、下部分、腳部、背景等5 個(gè)部分,整個(gè)模型的再識(shí)別成功率最高,這表明精細(xì)的行人部件分割有效地克服了行人姿態(tài)變化的差異性問(wèn)題,通過(guò)上下文信息對(duì)行人再識(shí)別產(chǎn)生了重要影響。考慮到計(jì)算時(shí)間開(kāi)銷和硬件支持[29],本文默認(rèn)將N設(shè)置為5,即每張圖片的行人部分分割為5 個(gè)小區(qū)域。

        圖2 PAN 模型選取不同行人部件分割數(shù)量時(shí)的實(shí)驗(yàn)結(jié)果對(duì)比Fig.2 Comparison of experimental results when the PAN model selects different number of pedestrian components

        在使用三元組損失的基礎(chǔ)上[30],通過(guò)消融實(shí)驗(yàn)來(lái)深入研究PAN 模型中各分支的貢獻(xiàn),其中:Baseline 表示基線模型,在此基礎(chǔ)上進(jìn)行改進(jìn);PAN/Lpar表示僅使用人體語(yǔ)義解析網(wǎng)絡(luò)分支的模型;PAN/Latt表示僅使用局部注意力網(wǎng)絡(luò)分支的模型;PAN/Lpar+Latt代表同時(shí)使用局部注意力網(wǎng)絡(luò)和人體語(yǔ)義解析網(wǎng)絡(luò)分支的模型。實(shí)驗(yàn)結(jié)果如表2 所示:聯(lián)合人體語(yǔ)義解析和局部注意力網(wǎng)絡(luò)可以提升3 個(gè)主流數(shù)據(jù)集的整體性能;PAN/Lpar和Baseline 模型相比可以發(fā)現(xiàn),Baseline 模型只是將圖像進(jìn)行分塊提取特征,當(dāng)出現(xiàn)姿態(tài)變化過(guò)大和高相似度外貌特征時(shí)并不能取得良好的實(shí)驗(yàn)結(jié)果;PAN/Latt和Baseline 模型相比可以發(fā)現(xiàn),局部注意力網(wǎng)絡(luò)在出現(xiàn)遮擋情況時(shí),顯示出了非行人部件上下文線索的重要性。

        表2 行人再識(shí)別模型消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiment for pedestrian re-identification models%

        3 結(jié)束語(yǔ)

        本文提出一種基于行人語(yǔ)義分割和局部注意力機(jī)制的行人再識(shí)別模型。使用行人語(yǔ)義分割模型對(duì)行人的局部特征進(jìn)行更精細(xì)的分割,避免了對(duì)圖像進(jìn)行分塊后局部特征不匹配現(xiàn)象的產(chǎn)生。利用局部注意力機(jī)制,解決了行人語(yǔ)義分割模型將非人體部件識(shí)別為圖像背景的問(wèn)題。通過(guò)行人部件信息和背景遮擋信息的互補(bǔ),增強(qiáng)了模型的可遷移性。實(shí)驗(yàn)結(jié)果表明,該模型能充分利用行人部件信息和局部視覺(jué)線索中隱藏的語(yǔ)義信息,有效解決了行人姿態(tài)變化過(guò)大、特征分塊后不對(duì)齊等問(wèn)題。后續(xù)將研究PAN 模型在基于視頻序列的行人再識(shí)別中的應(yīng)用,通過(guò)將視頻中的每一幀圖像進(jìn)行分割得到行人部件特征,根據(jù)行人部件特征之間的比對(duì)增加識(shí)別粒度,并設(shè)計(jì)圖卷積網(wǎng)絡(luò)挖掘視頻序列中行人潛在的語(yǔ)義信息,進(jìn)一步提高識(shí)別精度。

        猜你喜歡
        語(yǔ)義特征模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        国产网红主播无码精品| 亚洲综合日韩中文字幕| 国产艳妇av在线出轨| 国内视频一区| 强d乱码中文字幕熟女1000部 | 精品无码中文字幕在线| 亚洲中文字幕无码永久在线| 一本久道久久综合婷婷五月| 亚洲AV成人无码久久精品四虎| 日本人妖一区二区三区| 手机看片自拍偷拍福利| 日韩日韩日韩日韩日韩日韩| 西西大胆午夜人体视频| 亚洲精品无码不卡av| 午夜成人理论无码电影在线播放 | 国产免费三级三级三级| av在线高清观看亚洲| 色狠狠一区二区三区中文| 一色桃子中文字幕人妻熟女作品| 内射爽无广熟女亚洲| 无码国产亚洲日韩国精品视频一区二区三区 | 日韩成人极品在线内射3p蜜臀| 91久久青青草原线免费| av网站影片在线观看| 19款日产奇骏车怎么样| 国产爆乳美女娇喘呻吟| 天堂8在线天堂资源bt| 国产黄三级三·级三级| 丰满人妻一区二区三区免费| 日本道免费一区二区三区日韩精品| 99精品欧美一区二区三区| 国产女人18毛片水真多| 日本一区二区啪啪视频| 日本少妇又色又紧又爽又刺激 | 公厕偷拍一区二区三区四区五区| 亚洲亚洲人成综合网络| 色综合久久久久久久久五月| 白丝美女被狂躁免费视频网站| 久久亚洲av午夜福利精品西区| 久久久国产精品无码免费专区| 中文无码一区二区三区在线观看|