亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        行人重識別研究綜述

        2022-10-12 12:35:48王素玉
        關(guān)鍵詞:監(jiān)督特征方法

        王素玉,肖 塞

        (北京工業(yè)大學(xué)信息學(xué)部, 北京 100124)

        行人重識別也稱行人再識別,是圖像檢索任務(wù)中的一個子問題[1].它的主要目標(biāo)是確定一個特定的人是否出現(xiàn)在由不同攝像機拍攝到的視頻中.查詢線索可以是圖像、視頻序列,甚至是文本描述[2].旨在彌補固定的攝像頭的視覺局限,并可與行人檢測/行人跟蹤技術(shù)相結(jié)合,廣泛應(yīng)用于智能視頻監(jiān)控、智能安保等領(lǐng)域.隨著智慧城市的建設(shè),安防需求與日俱增,智能化監(jiān)控系統(tǒng)迎來重大發(fā)展機遇.作為其中不可或缺的一環(huán),行人重識別成為學(xué)術(shù)界、工業(yè)界的熱點研究方向.

        簡單來說,行人重識別任務(wù)可分解為特征提取和特征匹配2個過程.由于攝像頭存在拍攝點位不同[3]、分辨率不同[4]、光照變化[5]、姿態(tài)變化[6]、遮擋[7]和異構(gòu)[8]等問題,使得行人重識別面臨挑戰(zhàn).

        因此,如何更好地提取更具判別性的特征表示和設(shè)計更優(yōu)秀的度量學(xué)習(xí)損失函數(shù)成為行人重識別任務(wù)的關(guān)鍵.早期行人重識別的研究工作主要集中在基于手工特征[9-10]和距離度量[11]的方法.由于行人重識別面臨跨設(shè)備拍攝圖像存在較大差異的問題,傳統(tǒng)方法難以取得較好效果.文獻(xiàn)[1]對深度學(xué)習(xí)時代之前的行人重識別算法進行了全面的綜述.

        隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的行人重識別算法取得一系列優(yōu)秀的成果.根據(jù)使用的數(shù)據(jù)和訓(xùn)練策略的不同,行人重識別算法可分為基于監(jiān)督學(xué)習(xí)和基于弱監(jiān)督學(xué)習(xí)2類方法.目前,大部分的工作集中在監(jiān)督學(xué)習(xí)方面.早期的工作將行人重識別看作一個多分類問題,只利用了全局特征.后來,又有學(xué)者提出使用全局特征和局部特征相結(jié)合的方法解決遮擋問題,提取更加具有判別性的特征表示.隨著生成對抗網(wǎng)絡(luò)和注意力機制的提出,行人圖像的特征提取方法也得到很大改進,提高了模型的魯棒性和泛化能力.與此同時,對于特征度量學(xué)習(xí)算法的改進也在進行,通過設(shè)計更好的度量損失函數(shù)使行人重識別算法更準(zhǔn)確地識別相同的人并區(qū)分不同的人.

        最新的基于監(jiān)督學(xué)習(xí)的方法在一些常用的基準(zhǔn)上已經(jīng)超過了人類水平,但是研究場景和實際應(yīng)用之間仍存在很大的差距.為了更貼合真實場景,也有一些學(xué)者使用基于弱監(jiān)督學(xué)習(xí)的方法并取得了較好效果.

        基于弱監(jiān)督學(xué)習(xí)方法的行人重識別算法主要分為半監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法.在真實場景中,行人重識別任務(wù)的數(shù)據(jù)標(biāo)注成本十分昂貴.同時,基于監(jiān)督學(xué)習(xí)的方法泛化能力較差.因此,使用少量標(biāo)記數(shù)據(jù)的半監(jiān)督學(xué)習(xí)行人重識別和無監(jiān)督學(xué)習(xí)行人重識別具有重大的研究意義和價值.對于無監(jiān)督學(xué)習(xí)的方法,主流的策略是采用標(biāo)簽估計.對于半監(jiān)督學(xué)習(xí)方法,根據(jù)數(shù)據(jù)構(gòu)成的差異可分為少量的樣本有標(biāo)簽和每個樣本有少量標(biāo)簽2類.

        以下,將根據(jù)行人重識別算法的特點,分別進行總結(jié)和分析.

        1 監(jiān)督學(xué)習(xí)

        在深度學(xué)習(xí)框架下, 基于監(jiān)督學(xué)習(xí)的行人重識別算法通常包含特征提取、特征度量和排序優(yōu)化3個組件.相關(guān)的研究主要集中在各個環(huán)節(jié)的優(yōu)化設(shè)計方面.特征表示學(xué)習(xí)的研究集中于更加有效的特征提取網(wǎng)絡(luò);深度度量學(xué)習(xí)的研究集中于度量損失函數(shù)的設(shè)計;排名優(yōu)化的研究通過對結(jié)果序列的優(yōu)化提高準(zhǔn)確率.

        1.1 特征表示學(xué)習(xí)

        對于行人重識別任務(wù),特征表示學(xué)習(xí)的主要任務(wù)是如何從行人圖像中提取更具判別性的特征表示.根據(jù)特征提取策略的不同,可將行人重識別算法模型分為分類模型和驗證模型.

        分類模型一般是將實例損失[12]作為損失函數(shù).驗證模型每次輸入2張圖像,使用孿生網(wǎng)絡(luò)提取特征表示[13]并進行特征融合,然后計算二分類損失,但是這種方法的計算開銷較大,也可以將2種模型結(jié)合使用以增強圖像特征表示的魯棒性[14].

        根據(jù)提取特征的不同,現(xiàn)有方法主要分為全局特征表示學(xué)習(xí)、局部特征表示學(xué)習(xí)和序列特征表示學(xué)習(xí).近年來,基于輔助特征表示學(xué)習(xí)和使用注意力機制的方法得到廣泛關(guān)注,其中一些方法取得較好效果.

        1.1.1 全局特征表示學(xué)習(xí)

        全局特征表示學(xué)習(xí)為每個行人圖像提取一個全局的特征表示,如圖1所示.由于早期的研究都是將行人重識別看作圖像分類問題,因此,早期的方法大多都使用全局特征表示學(xué)習(xí)方法.

        圖1 表示學(xué)習(xí)的3種特征Fig.1 Three types of feature representation learning

        文獻(xiàn)[12]提出了一個判別性身份嵌入方法,將行人重識別視為一個多分類問題,每個行人作為一個單獨的類別.文獻(xiàn)[13]提出了一種同時學(xué)習(xí)全局特征和相似性度量的方法,計算一對圖像的相似度.為了在全局特征學(xué)習(xí)中提取細(xì)粒度特征進行學(xué)習(xí),文獻(xiàn)[15]使用小型卷積核進行特征提取,提取行人圖像中細(xì)粒度的特征.文獻(xiàn)[16]提出了一種多尺度深度特征表示學(xué)習(xí)模型.該模型能夠?qū)W習(xí)不同尺度下的全局特征表示,并自適應(yīng)地進行匹配.文獻(xiàn)[17]設(shè)計了一個輕量級網(wǎng)絡(luò)進行全尺度特征學(xué)習(xí),使用深度可分離卷積減少網(wǎng)絡(luò)的參數(shù)量[18-20],加速網(wǎng)絡(luò)訓(xùn)練.

        1.1.2 局部特征表示學(xué)習(xí)

        在真實場景中,攝像頭拍攝的行人圖像存在遮擋、角度變化、背景變化等問題,見圖2.因此,這些噪聲區(qū)域會對全局特征造成極大的干擾.同時,由于行人姿態(tài)變化,在多個攝像頭下檢測到的圖像幀姿態(tài)不一致的問題也會使全局特征無法匹配.目前,主流的趨勢都是將全局特征與局部特征相結(jié)合使用以期實現(xiàn)更好的效果.

        圖2 不同攝像頭拍攝的數(shù)據(jù)存在較大差異Fig.2 Differences in data taken by different cameras

        通過人體姿態(tài)估計或粗略水平分割方法劃分行人身體部位,然后從行人圖像中該區(qū)域或人體部件提取局部特征,再與行人全局特征相融合,對遮擋、姿態(tài)變化具有魯棒性[21].

        對于局部特征表示學(xué)習(xí)方法的研究,圖像劃分方式主要分為2類:水平分割[21-22]和姿態(tài)估計[23].

        文獻(xiàn)[21]提出了基于部件的卷積基線(part-based convolutional baseline,PCB)模型.該模型采用統(tǒng)一的分割策略,將所有行人圖像固定平均分割為6個部分并提取局部特征.同時,為了解決不同圖像同一圖像塊不能良好對齊的問題,設(shè)計了精細(xì)局部池化(refined part pooling,RPP)模塊進行對齊,增強了塊內(nèi)的一致性,進一步提高了性能.

        文獻(xiàn)[23]提出了一個姿態(tài)驅(qū)動的深度卷積(pose-driven deep convolution,PDC)模型,通過采用人體姿態(tài)估計的方法進行圖像分割以解決行人姿態(tài)變化的問題.首先,對行人圖像的14個關(guān)鍵點進行檢測并定位,再基于關(guān)鍵點信息進行局部特征提??;然后,用仿射變換使得相同的關(guān)鍵點對齊.

        人體姿態(tài)估計方法提供了良好的局部特征,但是行人重識別任務(wù)的數(shù)據(jù)集和人體姿態(tài)估計任務(wù)的數(shù)據(jù)集存在較大差異.因此,使用人體姿態(tài)估計數(shù)據(jù)集訓(xùn)練的姿態(tài)檢測器進行關(guān)鍵點檢測時,很容易出現(xiàn)錯檢,產(chǎn)生噪聲數(shù)據(jù),對識別結(jié)果存在很大影響.雖然水平分割方法實現(xiàn)靈活,但是當(dāng)遮擋區(qū)域較大或背景噪聲較大時,效果并不理想.

        1.1.3 序列特征表示學(xué)習(xí)

        基于視頻的行人重識別也是行人重識別領(lǐng)域的熱點研究方向.通常,在視頻行人重識別數(shù)據(jù)集中, 每個行人通過多個視頻序列表示,每個視頻序列由多幀圖像構(gòu)成.基于視頻序列的方法與基于圖像的方法最主要的不同點就是這類方法不僅考慮了圖像的內(nèi)容信息,還考慮了幀與幀圖像之間的運動信息和時序信息,例如步態(tài)特征[24]等,并且基于視頻的行人重識別任務(wù)更接近真實場景的應(yīng)用.

        文獻(xiàn)[25]提出了在無約束的跟蹤序列中時序信息是不可靠的.如圖3所示,為了自動地、準(zhǔn)確地提取時序特征,針對基于視頻的行人重識別設(shè)計了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的模型[26].

        文獻(xiàn)[27]提出了一種對空間信息和時序信息加權(quán)的孿生CNN結(jié)構(gòu).文獻(xiàn)[28]設(shè)計了一種循環(huán)特征聚合網(wǎng)絡(luò),聚合視頻幀級行人特征表示,并通過長短期記憶(long short-term memory,LSTM)人工神經(jīng)網(wǎng)絡(luò),融合時序信息生成特征表示[29].該網(wǎng)絡(luò)將多個視頻幀的行人特征和時空信息結(jié)合在一起,增強了視頻的特征表示學(xué)習(xí).最終的特征融合了單幀圖像的內(nèi)容特征和幀與幀之間的運動特征,而這個特征用于代替前面單幀方法的圖像特征來訓(xùn)練網(wǎng)絡(luò).

        圖3 基于RNN的針對視頻數(shù)據(jù)的行人重識別系統(tǒng)[26]Fig.3 Person ReID system for video data based on RNN[26]

        文獻(xiàn)[30]中提出了一個基于區(qū)域的適應(yīng)性質(zhì)量估計網(wǎng)絡(luò) (adaptive region-based quality estimation network,RQEN).文中指出當(dāng)單幀圖像遇到遮擋等情況的時候,可以用多幀的圖像信息彌補,直接誘導(dǎo)網(wǎng)絡(luò)對圖像幀進行質(zhì)量判斷,降低質(zhì)量差的圖像幀的權(quán)重.如圖4所示,可以看出通過降低被遮擋圖像的權(quán)重,得到的特征圖擁有更完整的行人信息.

        圖4 不同融合方法的熱圖[30]Fig.4 Heat maps of different fusion methods[30]

        文獻(xiàn)[31]提出了使用時空注意力(spatial-temporal attention, STA)方法,將每幀圖像水平分割為4個局部區(qū)域,得到每幀圖像的每個局部區(qū)域的二維得分矩陣.首先,通過最大得分得到更具判別性的特征圖;然后,通過使用得分矩陣進行加權(quán)融合得到全局特征圖;最后,通過使用全局平均池化將2個特征圖融合,得到擁有更魯棒的視頻級特征的特征圖.

        文獻(xiàn)[32]提出了一個時空圖卷積網(wǎng)絡(luò)(spatial-temporal graph convolutional network,STGCN).將行人的結(jié)構(gòu)信息,也就是圖像塊信息,作為圖節(jié)點信息.該網(wǎng)絡(luò)包含2個圖卷積分支:空間分支用來提取人體的結(jié)構(gòu)信息;時間分支是從相鄰幀中挖掘判別線索.通過聯(lián)合優(yōu)化2個分支,模型提取了與外觀信息互補的魯棒時空信息.

        文獻(xiàn)[33]提出了一個基于圖的網(wǎng)絡(luò)框架多粒度超圖(multi-granular hypergraph, MGH)模型,通過在多個粒度對時空依賴性進行建模,提高提取視頻表征的能力.

        文獻(xiàn)[34]提出了一個全局引導(dǎo)互惠學(xué)習(xí)(global-guided reciprocal learning, GRL)框架,解決大多數(shù)基于序列特征的重識別算法過度關(guān)注每幀圖像中的顯著區(qū)域而忽略了細(xì)粒度特征的問題.

        1.1.4 輔助特征表示學(xué)習(xí)

        輔助特征表示學(xué)習(xí)通過提取行人圖像中的語義信息增強重識別效果或通過生成對抗網(wǎng)絡(luò)方法來增強特征表示學(xué)習(xí).

        文獻(xiàn)[35]提出了一個聯(lián)合學(xué)習(xí)行人身份信息和屬性信息的框架.文獻(xiàn)[36]利用對每張圖像全局的自然語言描述,以及對圖像局部描述的短語信息分別進行句子與短語和圖像與圖像塊之間關(guān)系的學(xué)習(xí),挖掘全局和局部圖像-語言之間的關(guān)聯(lián),加強特征表示學(xué)習(xí)能力,提高識別準(zhǔn)確率.

        隨著生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[37]的提出,其在行人重識別領(lǐng)域也得到了廣泛關(guān)注.在行人重識別任務(wù)中時常會面臨訓(xùn)練數(shù)據(jù)不夠用、數(shù)據(jù)存在偏差的問題.數(shù)據(jù)不夠用的問題主要集中在采集困難、標(biāo)注成本昂貴和難樣本數(shù)據(jù)量極少等.數(shù)據(jù)存在偏差的問題主要是:同一個身份的不同圖像,姿態(tài)存在偏差;跨攝像機之間的圖像,風(fēng)格存在偏差;不同地域之間存在偏差等.基于生成對抗網(wǎng)絡(luò)的方法,可以緩解上述這些問題,比如:生成行人圖像,增加數(shù)據(jù)量,或者對行人圖像進行風(fēng)格轉(zhuǎn)換,減少數(shù)據(jù)偏差.

        文獻(xiàn)[38]提出了異常標(biāo)簽正則化(label smoothing regularization for outliers,LSRO)方法,首次將生成方法應(yīng)用于行人重識別任務(wù).通過生成對抗網(wǎng)絡(luò)生成圖像,改進了特征表示學(xué)習(xí).文獻(xiàn)[39]提出的Posetransfer方法通過加入從MARS[25]數(shù)據(jù)集中提取的行人姿態(tài)對生成對抗網(wǎng)絡(luò)進行約束,提高了生成行人圖像的質(zhì)量,并生成了具有新的姿態(tài)的行人圖像.為了解決行人圖像數(shù)據(jù)采集時行人正對、側(cè)對和背對攝像頭造成的數(shù)據(jù)差異,文獻(xiàn)[40]設(shè)計了一種姿態(tài)歸一化生成對抗網(wǎng)絡(luò)(pose-normalized GAN,PN-GAN),生成額外的不同姿態(tài)的行人圖像,增強了特征提取模型對姿態(tài)變化的魯棒性.

        為了解決攝像機間圖像風(fēng)格偏差的問題,文獻(xiàn)[41]提出了相機風(fēng)格自適應(yīng)方法,通過CycleGAN[42]增強數(shù)據(jù)集,但是CycleGAN生成的圖像存在圖像偽影、噪聲以及對不同風(fēng)格要分別匹配的問題.文獻(xiàn)[43]提出了一種均一化風(fēng)格生成的方法UnityGAN,將所有相機風(fēng)格遷移至相近的區(qū)域,取得了較好效果.

        與降低圖像序列中被遮擋圖像幀的融合權(quán)重的方法不同,文獻(xiàn)[44]使用生成對抗網(wǎng)絡(luò)補全被遮擋的人體部件,再進行重識別任務(wù).

        1.1.5 注意力機制在行人重識別任務(wù)中的使用

        近年來,注意力機制因為其良好的效果被廣泛用于增強特征表示學(xué)習(xí).文獻(xiàn)[45]提出了和諧注意力卷積神經(jīng)網(wǎng)絡(luò)(harmonious attention CNN, HA-CNN),聯(lián)合學(xué)習(xí)“軟”像素注意力和“硬”區(qū)域注意力,并用于學(xué)習(xí)全局特征和局部特征,最后將二者相結(jié)合,提高了識別的準(zhǔn)確率.軟注意力機制可以通過通道注意力、空間域注意力和混合域模型(將空間域和通道注意力混合)3種方式實現(xiàn).

        壓縮和激勵網(wǎng)絡(luò)(squeeze-and-excitation networks, SENet)[46]是一種典型的通道注意力網(wǎng)絡(luò).針對行人重識別問題,文獻(xiàn)[47]設(shè)計了一個完全注意力模塊.完全注意力模塊解決了SENet會丟失空間結(jié)構(gòu)特征信息的問題,并且與SENet一樣,可以用于不同的骨干網(wǎng)絡(luò),提高識別能力.文獻(xiàn)[48]提出了一種屬性注意力網(wǎng)絡(luò)(attribute attention network, AANet).如圖5所示,AANet重點關(guān)注行人局部區(qū)域的人體屬性信息,將人體屬性與行人全局特征相結(jié)合,得到行人屬性注意力.

        圖5 AANet提取的屬性注意力熱圖[48]Fig.5 Attribute attention heat map of AANet[48]

        圖6 在行人重識別中3種廣泛使用的損失函數(shù)Fig.6 Three kinds of widely used loss functions in the person ReID

        為了更好地利用全局結(jié)構(gòu)信息,文獻(xiàn)[49]提出了一個有效關(guān)系感知全局注意力(relation-aware global attention,RGA)模塊,可以使網(wǎng)絡(luò)提取更具判別性的特征信息.文獻(xiàn)[50]提出了一種混合高階注意力網(wǎng)絡(luò)(mixed high-order attention network,MHN).空間域和通道注意力是一階注意力,提取的特征信息較為粗糙,高階注意力可以提取特征圖之間細(xì)微的差別,提高模型提取高階表征的能力,從而提高識別準(zhǔn)確率.同樣,該模塊可以與任何行人重識別網(wǎng)絡(luò)結(jié)合使用.

        在行人重識別任務(wù)中,注意力機制使模型傾向于關(guān)注更高相關(guān)性、冗余的細(xì)節(jié)特征信息,而忽略了低相關(guān)性的特征,導(dǎo)致模型不夠魯棒.為了解決這個問題,文獻(xiàn)[51]提出了一種多樣性正則化/頻譜值差分正交正則化機制,包括特征空間正交正則化和權(quán)重正交正則化兩部分.特征空間正交正則化有助于減少直接學(xué)習(xí)到的特征的相關(guān)度.權(quán)重正交正則化能夠增加濾波器的多樣性以增強學(xué)習(xí)能力和泛化能力.

        1.2 深度度量學(xué)習(xí)

        度量學(xué)習(xí)旨在使用一個通過從數(shù)據(jù)中學(xué)習(xí)獲得的最優(yōu)距離度量方程,度量樣本之間的相似性[52].深度度量學(xué)習(xí)是度量學(xué)習(xí)的一種方法,目標(biāo)是學(xué)習(xí)一個從原始特征到嵌入空間的映射,使同類別對象在嵌入空間中的距離較近,不同類別之間的距離較遠(yuǎn).距離計算方程一般使用歐氏距離和余弦距離.在基于深度學(xué)習(xí)方法的行人重識別任務(wù)中,損失函數(shù)代替了傳統(tǒng)度量學(xué)習(xí)的作用來指導(dǎo)特征表示學(xué)習(xí).

        在行人重識別任務(wù)中廣泛使用的損失函數(shù)主要分為:實例損失、驗證損失和三元組損失.同時,近年提出的在線匹配實例損失和圓損失也取得不錯的效果.

        1.2.1 實例損失和驗證損失

        如圖6(a)所示,實例損失是將行人重識別任務(wù)當(dāng)作一個圖像分類問題[12],把每個行人當(dāng)作一個單獨的類別.測試時,對于輸入圖像xi和標(biāo)簽yi,預(yù)測概率p(yi|xi)通過SoftMax函數(shù)歸一化編碼,然后使用交叉熵函數(shù)

        (1)

        計算實例損失.式中n代表每批訓(xùn)練樣本的數(shù)量.

        如圖6(b)所示,在行人重識別任務(wù)中,驗證損失對一對行人圖像計算對比損失[53]或二分類損失[54].對比損失的公式為

        (2)

        式中:dij表示2個輸入樣本xi和xj;δij為一個二進制標(biāo)簽標(biāo)識(如果xi和xj是同一個類別,則δij=1,反之δij=0).

        二分類驗證損失區(qū)分每個圖像對中的正類和負(fù)類.通常差分特征fij=(fi-fj)2,其中fi和fj分別為xi和xj的嵌入特征.

        驗證模型將差分特征分為正類和負(fù)類,使用p(δij|fij)代表xi和xj,被認(rèn)為是δij的概率,并使用交叉熵函數(shù)計算,公式為

        Lval(i,j)=-δijlg(p(δij|fij))-

        (1-δij)lg(1-p(δij|fij))

        (3)

        通常,為了提高識別準(zhǔn)確率,身份損失和驗證損失會結(jié)合使用[52].

        1.2.2 三元組損失

        三元組損失將行人重識別模型的訓(xùn)練過程視為一個檢索排序問題.三元組損失的基本思想是:正樣本對之間的特征距離與負(fù)樣本對之間的特征距離的差小于預(yù)先定義的閾值[55].如圖6(c)所示,通常一個三元組損失包括一個錨點樣本xa,一個來自同一個類別的正樣本xp和一個來自其他類別的負(fù)樣本xn.樣本之間的距離d使用歐氏距離函數(shù)計算.三元組損失的公式為

        Ltriplet(xa,xp,xn)=max(ρ+dap-dan,0)

        (4)

        為了解決三元組損失存在正樣本之間距離無法控制和簡單三元組過多導(dǎo)致判別性差的問題,基本的思路是選擇難樣本進行計算三元組損失[55-56].

        基于序列特征的行人重識別算法在計算三元組損失時大多基于序列特征,序列特征由多幀圖像特征融合生成.文獻(xiàn)[57]提出了一個新的集合-感知三元組損失,將序列特征建模為一個集合,通過三元組損失優(yōu)化集合之間的距離.

        1.2.3 在線實例匹配損失

        為了解決端到端的行人重識別任務(wù)只有少量樣本存在少量標(biāo)簽分類損失無法訓(xùn)練的問題,在文獻(xiàn)[58]中提出了一種使用記憶存儲機制的在線實例匹配損失.記憶存儲庫{vk,k=1,2,…,c}存儲實例的特征,其中c是類號.在線實例匹配損失的公式為

        (5)

        1.2.4 圓損失(circle loss)

        針對三元組損失優(yōu)化缺乏靈活性和收斂狀態(tài)不明確的問題,文獻(xiàn)[60]提出了一種圓損失函數(shù).三元組損失的目標(biāo)是最大化類內(nèi)相似度sp和最小化類間相似度sn,也就是減小正樣本之間距離,增大負(fù)樣本之間距離,即減小(sn-sp).在圓損失中使用2個自適應(yīng)權(quán)重進行調(diào)整,其公式為

        (6)

        1.3 排序優(yōu)化

        排序優(yōu)化主要對檢索到的圖像序列進行優(yōu)化.一般來說,在行人重識別任務(wù)的測試階段,對于每張查詢圖像,會對行人圖像候選集中所有圖像進行相似度排名,然后選擇前10名作為檢索結(jié)果.排序優(yōu)化對提高模型的檢索性能起到至關(guān)重要的作用.給定一個初始的查詢排序列表,可以通過自動挖掘候選集之間的相似度[61]或者人工交互[62]優(yōu)化排名順序,使正樣本的排名更高.

        重排序的基本思想是利用查詢結(jié)果之間的相似度對初始排序列表進行優(yōu)化.在文獻(xiàn)[61]中提出了一種使用k個相互近鄰編碼(k-reciprocal)的方法挖掘相似度信息的重排序方法,初始排序列表.由于其實現(xiàn)簡單和效果明顯,被廣泛用于當(dāng)前先進的方法,但是,它的計算開銷較大,并不適用于實際應(yīng)用.

        2 弱監(jiān)督學(xué)習(xí)

        行人重識別任務(wù)的數(shù)據(jù)集規(guī)模越來越大,數(shù)據(jù)的標(biāo)注成本隨之升高,在現(xiàn)實應(yīng)用中數(shù)據(jù)難以擴展.基于弱監(jiān)督學(xué)習(xí)方法的行人重識別算法可以很好地緩解這個問題.弱監(jiān)督學(xué)習(xí)方法可分為基于無監(jiān)督學(xué)習(xí)和基于半監(jiān)督學(xué)習(xí)2類.目前,先進的基于有監(jiān)督學(xué)習(xí)方法在單一數(shù)據(jù)集上的識別能力已經(jīng)超越了人類,然而,并不能很好地泛化到其他數(shù)據(jù)集,并且基于弱監(jiān)督學(xué)習(xí)的方法更貼合實際的應(yīng)用場景,得到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.

        2.1 無監(jiān)督學(xué)習(xí)

        無監(jiān)督學(xué)習(xí)可以通過未標(biāo)注的數(shù)據(jù)解決行人重識別任務(wù).在無監(jiān)督學(xué)習(xí)方法中,標(biāo)簽估計方法十分流行[63-64].

        文獻(xiàn)[63]中提出了動態(tài)圖匹配(dynamic graph matching, DGM)方法,采用迭代的方式,每次迭代生成一個二部圖,估計標(biāo)簽并學(xué)習(xí)區(qū)分矩陣.如圖7所示,通過不斷迭代,標(biāo)簽準(zhǔn)確率提高,矩陣區(qū)分度更顯著.

        圖7 動態(tài)圖匹配[63]Fig.7 Dynamic graph matching[63]

        對于端到端的無監(jiān)督學(xué)習(xí)行人重識別,文獻(xiàn)[64]采用自步學(xué)習(xí)(self-paced learning)方法,逐步地挖掘可靠標(biāo)簽.首先,使用其他有標(biāo)記的數(shù)據(jù)集進行預(yù)訓(xùn)練,再對無標(biāo)簽數(shù)據(jù)集提取特征后使用K-means算法聚類計算中心特征;然后,將每類距離中心特征小于閾值的樣本選出來,設(shè)置為偽標(biāo)簽,再使用有偽標(biāo)簽的數(shù)據(jù)對模型進行訓(xùn)練.文獻(xiàn)[65]提出了一種軟多標(biāo)簽學(xué)習(xí)方法來為未標(biāo)注數(shù)據(jù)集生成偽標(biāo)注,再進行行人重識別訓(xùn)練.

        文獻(xiàn)[66]提出了一個用于異構(gòu)多任務(wù)無監(jiān)督行人重識別的可遷移聯(lián)合屬性-身份深度學(xué)習(xí)(transferable joint attribute-identity deep learning,TJ-AIDL)模型.與其他基于無監(jiān)督的方法為行人生成身份偽標(biāo)注不同, TJ-AIDL模型增加了語義屬性標(biāo)簽,將行人屬性特征學(xué)習(xí)和身份識別的分支網(wǎng)絡(luò)結(jié)合訓(xùn)練.

        文獻(xiàn)[67]提出一個基于圖像塊的無監(jiān)督學(xué)習(xí)方法.相比整張行人圖像,圖像塊的特征更容易挖掘標(biāo)簽信息,因此,可通過挖掘圖像塊相似度來學(xué)習(xí)更具鑒別性的圖像塊特征.

        大多數(shù)無監(jiān)督學(xué)習(xí)算法通過測量特征相似度生成偽標(biāo)簽,而沒有考慮不同攝像機之間的分布差異,導(dǎo)致不同攝像機之間的標(biāo)簽計算精度下降.為了解決這一問題,文獻(xiàn)[68]提出新的攝像機內(nèi)相似度偽標(biāo)記生成方法,將樣本相似度計算分解為相機內(nèi)和相機間的2個階段.

        2.2 半監(jiān)督學(xué)習(xí)

        半監(jiān)督學(xué)習(xí)通過利用一部分較少的標(biāo)注數(shù)據(jù)和另一部分未標(biāo)注數(shù)據(jù)進行訓(xùn)練.根據(jù)場景的不同可以分為:每個行人存在較少標(biāo)注和少量行人存在標(biāo)注.

        針對每個行人存在較少標(biāo)注的問題,文獻(xiàn)[69]提出了一種逐步一次性學(xué)習(xí)(exploit the unknown gradually, EUG)方法.從未標(biāo)記的視頻跟蹤片段中逐步選擇少量候選樣本來擴充已標(biāo)注的跟蹤片段數(shù)據(jù)集.

        對于只有少量行人存在標(biāo)注的問題,文獻(xiàn)[70]提出了一種迭代的學(xué)習(xí)方法,先使用少量有標(biāo)注數(shù)據(jù)訓(xùn)練模型,再通過多視角聚類方法對無標(biāo)注數(shù)據(jù)進行聚類生成偽標(biāo)簽.之后,使用有標(biāo)注數(shù)據(jù)和帶有偽標(biāo)簽的無標(biāo)注數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),更新網(wǎng)絡(luò)參數(shù).整個過程迭代交替進行.

        近年來,基于弱監(jiān)督方法的行人重識別算法性能得到了顯著提高,但相較基于有監(jiān)督學(xué)習(xí)的方法仍有較大差距.目前,學(xué)術(shù)界對弱監(jiān)督行人重識別算法的研究相對較少,發(fā)展還不夠完善.如何通過領(lǐng)域自適應(yīng)的方法,將從有標(biāo)簽源數(shù)據(jù)集上學(xué)習(xí)到的知識轉(zhuǎn)移到無標(biāo)簽?zāi)繕?biāo)數(shù)據(jù)集上,實現(xiàn)更高性能的弱監(jiān)督算法,將是相關(guān)研究的重點所在.

        3 數(shù)據(jù)集和評估方法

        3.1 數(shù)據(jù)集

        目前,在行人重識別領(lǐng)域已經(jīng)有大量的公共數(shù)據(jù)集發(fā)布,并且存在人數(shù)增多、數(shù)據(jù)規(guī)模增大、圖像分辨率增大的趨勢.新的基準(zhǔn)更具挑戰(zhàn)性,這將促進行人重識別領(lǐng)域的發(fā)展.

        在行人重識別任務(wù)中數(shù)據(jù)集分為圖像數(shù)據(jù)集和視頻數(shù)據(jù)集2類.廣泛使用的圖像數(shù)據(jù)集包括:VIPeR[71]、iLIDS[72]、GRID[73]、PRID-2011[74]、CUHK-03[54]、Market-1501[75]、Duke-MTMC[38]、Airport[76]、MSMT-17[77].視頻數(shù)據(jù)集包括:PRID-2011[74]、iLIDS-VID[78]、MARS[25]、Duke-Video[69]、Duke-Tracklet[79]、LPW[30]、LS-VID[80].詳細(xì)數(shù)據(jù)如表1和表2所示.

        考慮到數(shù)據(jù)規(guī)模和挑戰(zhàn)難度等因素,大多數(shù)相關(guān)工作使用Market-1501、Duke-MTMC和MSMT-17數(shù)據(jù)集作為測試基準(zhǔn).其中,MSMT-17數(shù)據(jù)集數(shù)據(jù)擁有更復(fù)雜的場景和背景且規(guī)模龐大, 因而更具挑戰(zhàn)性.

        表1 圖像數(shù)據(jù)集

        表2 視頻數(shù)據(jù)集

        Market-1501數(shù)據(jù)集是行人重識別領(lǐng)域的經(jīng)典數(shù)據(jù)集,在清華大學(xué)校園中采集,夏天拍攝,在2015年構(gòu)建并公開.它包括由6個攝像頭(其中5個高清攝像頭和1個低清攝像頭)拍攝到的1 501個行人、32 668個檢測到的行人矩形框.每個行人至少由2個攝像頭捕獲到,并且在一個攝像頭中可能具有多張圖像.訓(xùn)練集有751人,包含12 936張圖像,平均每個人有17.2張訓(xùn)練數(shù)據(jù);測試集有750人,包含19 732張圖像,平均每個人有26.3張測試數(shù)據(jù).3 368張查詢圖像的行人檢測矩形框是人工繪制的,而測試集中的行人檢測矩形框則是使用行人檢測器檢測得到的.手工標(biāo)記的檢測框非常完美,然而在實際的行人重識別系統(tǒng)中使用目標(biāo)檢測算法得到行人標(biāo)記框;因此,Market-1501的測試集更貼合實際應(yīng)用.在CVPR2018會議上,提出了一個新的更接近真實場景、涵蓋了多場景多時段的大型數(shù)據(jù)集MSMT-17.該數(shù)據(jù)集是目前行人重識別任務(wù)中較為困難的數(shù)據(jù)集.相比以往發(fā)布的數(shù)據(jù)集,MSMT-17包含更多的行人、圖像數(shù)(檢測框)、攝像頭數(shù),見表1.

        MSMT-17的圖像擁有復(fù)雜的場景和背景,由高達(dá)15個放置在不同位置的攝像頭拍攝.以往的數(shù)據(jù)集大多由戶外攝像頭采集,而MSMT-17包含12個戶外攝像頭和3個室內(nèi)攝像頭采集的圖像.MSMT-17數(shù)據(jù)集的圖像擁有復(fù)雜的光照變化,采集人員在1個月里選擇了具有不同天氣條件的4 d.每天采集3 h的視頻,涵蓋了早上、中午、下午3個時間段,比以前的數(shù)據(jù)集能更好地模擬真實場景,但帶來了嚴(yán)重的照明變化.MSMT-17數(shù)據(jù)集使用了更可靠的行人檢測算法,與手工標(biāo)注和傳統(tǒng)行人檢測器相比,速度更快,準(zhǔn)確度更高且更容易實現(xiàn).由于復(fù)雜的背景和場景變化、光照變化,使得MSMT-17更具挑戰(zhàn)性.目前,最先進的行人重識別算法在MSMT-17數(shù)據(jù)集上仍有很大的進步空間.MARS數(shù)據(jù)集包含1 261個行人和大約20 000個跟蹤片段,與基于圖像的數(shù)據(jù)集相比,它提供了豐富的視覺信息.

        3.2 評估方法

        行人重識別任務(wù)常用的評價指標(biāo)是累計匹配曲線(cumulative matching characteristics,CMC)和平均準(zhǔn)確率(mean average precision, mAP).

        CMC-k表示在Rank-k的檢索結(jié)果中出現(xiàn)正確匹配的概率(k為人為選取的值,一般來說k=1,5,10).然而CMC-k僅在候選集中存在1個正確匹配時是準(zhǔn)確的,因為它在評價過程中只考慮第1個匹配.然而,在行人重識別任務(wù)中,行人圖像由多個相機拍攝得到,因此,累計匹配曲線并不能反映模型在多攝像頭網(wǎng)絡(luò)中的識別能力.

        mAP最初被廣泛用于圖像檢索問題.mAP用多個真值標(biāo)簽來衡量模型的平均檢索能力,可以很好地反映模型對于難樣本的識別能力.

        隨著嵌入式人工智能思想的提出,考慮到模型的效率和復(fù)雜性,網(wǎng)絡(luò)參數(shù)大小和每秒浮點運算次數(shù)(floating-point operatings per second, FLOPs)也被作為評價指標(biāo)[17,81].

        3.3 實驗結(jié)果

        對于圖像數(shù)據(jù)集,在Market-1501、Duke-MTMC和MSMT-17數(shù)據(jù)集上的最新進展見表3.對于視頻數(shù)據(jù)集,在MARS和Duke-Video數(shù)據(jù)集上的最新進展見表4.

        從表3中可以看出,基于有監(jiān)督學(xué)習(xí)方法的行人重識別模型在圖像數(shù)據(jù)集上已經(jīng)取得較好結(jié)果.在Market-1501數(shù)據(jù)集上已經(jīng)超過了人類水平.其中效果最好的UnityStyle的Rank-1已經(jīng)達(dá)到98.5%.

        PersonNet是最早使用深度學(xué)習(xí)方法的行人重識別模型,但早期的深度學(xué)習(xí)模型提取特征的能力較差.PDC和PCB模型都是采用全局特征與局部特征相結(jié)合的方法,可以看出采用水平分割方法提取局部特征的PCB模型的效果較好.LSRO方法首次將生成對抗網(wǎng)絡(luò)應(yīng)用于行人重識別任務(wù)中.Posetransfer和PN-GAN采用生成對抗網(wǎng)絡(luò)解決行人姿態(tài)變化的問題,取得較好效果.UnityStyle采用生成對抗網(wǎng)絡(luò)解決攝像機間圖像風(fēng)格偏差的問題.HA-CNN、AANet、MHN、ABDNet和RGA-SC使用了注意力機制的行人重識別算法,從結(jié)果可以看出,普遍取得了較好效果.OSNet設(shè)計了一個輕量級網(wǎng)絡(luò)進行全尺度特征學(xué)習(xí),采用深度可分離卷積加速網(wǎng)絡(luò)訓(xùn)練,在減小網(wǎng)絡(luò)參數(shù)量的同時,也得到了很好的效果.圓損失通過改進網(wǎng)絡(luò)的度量方法,取得較好效果.其中,FastReID[83]是一個開源的行人重識別算法庫,采用模塊化設(shè)計,集成了大量的行人重識別算法,如圖8所示.

        表3 Market-1501、 Duke-MTMC、 MSMT-17數(shù)據(jù)集結(jié)果

        表4 MARS、 Duke-Video數(shù)據(jù)集結(jié)果

        圖8 FastReID庫的流水線[83]Fig.8 Pipeline of FastReID library[83]

        與基于圖像數(shù)據(jù)集的模型相比,基于視頻的行人重識別模型較少.隨著深度學(xué)習(xí)技術(shù)不斷進步,有監(jiān)督學(xué)習(xí)在視頻數(shù)據(jù)上的識別準(zhǔn)確度不斷提高.其次,空間和時間建模是提升視頻表示特征學(xué)習(xí)的關(guān)鍵.在STA網(wǎng)絡(luò)[31]、STGCN[32]和全局-局部時間表征(global-local temporal representations, GLTR)[80]網(wǎng)絡(luò)中都使用了時空聚合策略來提升基于視頻行人重識別算法的性能.

        綜合圖像和視頻數(shù)據(jù)集上的最新進展,發(fā)現(xiàn)在小規(guī)模的數(shù)據(jù)上,性能已經(jīng)達(dá)到飽和,但是,在大規(guī)模數(shù)據(jù)集(例如MSMT-17和LS-VID)上仍存在很大的改進空間.

        4 總結(jié)與展望

        隨著智慧城市的發(fā)展,行人重識別得到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.目前,行人重識別算法在小規(guī)模數(shù)據(jù)集下的應(yīng)用取得突破性的進展,但仍存在以下問題值得進一步研究.

        1) 多域通用.不同數(shù)據(jù)集之間存在很大的域間隙,模型的泛化能力較差.現(xiàn)有的方法大多采用領(lǐng)域適應(yīng)的方法進行跨數(shù)據(jù)集訓(xùn)練,效果不太理想.另外,行人重識別任務(wù)還存在異構(gòu)數(shù)據(jù)的問題.在實際場景中,行人圖像可能從多種異構(gòu)模式中獲取.例如:圖像分辨率差異較大;查詢圖和圖庫包含多模態(tài)數(shù)據(jù)(可見光、熱力圖、深度圖、文本描述).一個好的行人重識別系統(tǒng)應(yīng)該能夠自動處理上述問題.未來在這個方向的工作能夠促進行人重識別算法在現(xiàn)實場景的適用性.

        2) 快速重識別和模型輕量化.為了在龐大的圖庫中更快地實現(xiàn)檢索,采用哈希的方法被廣泛研究.另外,設(shè)計一個輕量級模型也是研究重點.目前,主要的策略是模型剪枝和知識蒸餾.

        3) 少量人為標(biāo)注.隨著數(shù)據(jù)集規(guī)模的增大,標(biāo)注成本也隨之升高,因此,使用少量人為標(biāo)注數(shù)據(jù)的行人重識別算法也是未來研究的重點.除了弱監(jiān)督學(xué)習(xí)方法,自動標(biāo)注的方法也可以是未來的重點.

        猜你喜歡
        監(jiān)督特征方法
        突出“四個注重” 預(yù)算監(jiān)督顯實效
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        監(jiān)督見成效 舊貌換新顏
        夯實監(jiān)督之基
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        精品乱人伦一区二区三区| 精品亚亚洲成av人片在线观看| 精品国产日韩亚洲一区在线| 无码免费无线观看在线视| 欧美天天综合色影久久精品| 国产真人无遮挡免费视频| 亚洲国产精品午夜一区| 国产精品女同一区二区免费站| 欧美性受xxxx狂喷水| 亚洲精品不卡电影| 一区二区亚洲 av免费| 最好看的亚洲中文字幕| 国产成人亚洲精品青草天美| 99国产免费热播视频| 久久九九av久精品日产一区免费 | 国产午夜无码片在线观看影院| 欧美日韩色| 大香视频伊人精品75| 亚洲国产日韩精品综合| 亚洲精品久久区二区三区蜜桃臀| 欧美真人性野外做爰| 婷婷成人亚洲| 日韩人妻av不卡一区二区三区| 日本在线精品一区二区三区| 幻女bbwxxxx在线视频| 久久一区二区三区四区| 成人影院羞羞的视频免费观看| 亚洲爆乳无码专区www| 国产精品久久久av久久久| 亚洲国产一区二区三区在观看| 亚洲天堂av一区二区| 精品国产一二三产品区别在哪| 欧美伊人网| 亚洲综合av一区在线| 国产 精品 自在 线免费| 三上悠亚av影院在线看| 精品人妻av一区二区三区不卡| 中文有码人妻字幕在线| 亚洲精品无码永久在线观看| 国产成人综合久久精品免费| 日本精品久久性大片日本|