亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        弱監(jiān)督場景下的行人重識(shí)別研究綜述?

        2020-11-03 12:26:12于沛澤
        軟件學(xué)報(bào) 2020年9期
        關(guān)鍵詞:監(jiān)督方法

        祁 磊, 于沛澤, 高 陽

        (計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)),江蘇 南京 210023)

        近年來,隨著社會(huì)安防意識(shí)增強(qiáng)和科學(xué)技術(shù)的進(jìn)步,城市中監(jiān)控?cái)z像頭的數(shù)量越來越多.這些監(jiān)控系統(tǒng)往往部署在寫字樓、校園、商場、大大小小的街道和社區(qū)等各種各樣的場所,在安防領(lǐng)域起到了重要的作用.例如:當(dāng)某地發(fā)生偷竊事件時(shí),公安機(jī)關(guān)或安保部門可以通過監(jiān)控記錄來獲取偷竊者出現(xiàn)的時(shí)間及行蹤軌跡等重要信息.不過對(duì)于監(jiān)控中記錄的視頻數(shù)據(jù),當(dāng)前大多數(shù)情況都是通過人工的方式來進(jìn)行查看、分析,工作量非常大且效率非常低.換句話說,通過人工的方式對(duì)多個(gè)攝像頭中的內(nèi)容進(jìn)行關(guān)聯(lián),是一項(xiàng)非常耗時(shí)的工作.

        隨著人工智能技術(shù)的發(fā)展,許多曾經(jīng)需要人來執(zhí)行的任務(wù)都可以通過人工智能技術(shù)來實(shí)現(xiàn),甚至在某些任務(wù)上機(jī)器比人完成得更加精確.例如在大規(guī)模圖像數(shù)據(jù)集ImageNet[1]上,機(jī)器對(duì)于圖像的分類任務(wù)遠(yuǎn)遠(yuǎn)比人更精確,并且識(shí)別速度比人更快速.計(jì)算機(jī)視覺技術(shù)能夠幫助我們有效地利用現(xiàn)有的大規(guī)模圖像或視頻數(shù)據(jù),并進(jìn)行分析和理解.對(duì)于監(jiān)控視頻數(shù)據(jù)而言,行人是其主要的目標(biāo)對(duì)象之一.目前,行人檢測技術(shù)、行人跟蹤技術(shù)和行人重識(shí)別技術(shù)(person re-identification,簡稱Re-ID)已經(jīng)在學(xué)術(shù)界和工業(yè)界受到了廣泛的關(guān)注.相對(duì)于行人檢測技術(shù)和行人跟蹤技術(shù),行人重識(shí)別技術(shù)起步較晚,近些年才逐漸得以關(guān)注.傳統(tǒng)的檢測和跟蹤技術(shù)只關(guān)注在一個(gè)視頻中的行人目標(biāo),而行人重識(shí)別技術(shù)則關(guān)注多個(gè)視頻中的行人之間的關(guān)聯(lián)性,即旨在將多個(gè)不同的攝像頭下的同一個(gè)行人目標(biāo)進(jìn)行關(guān)聯(lián).如圖1 所示,實(shí)現(xiàn)一個(gè)完整的行人重識(shí)別系統(tǒng),應(yīng)當(dāng)包括行人檢測[2-4]、行人跟蹤[5]和行人重識(shí)別[6,7]技術(shù)這3 個(gè)模塊.

        1 相關(guān)背景

        從技術(shù)層面來講,行人重識(shí)別是用某個(gè)查詢圖像(query image)在一個(gè)大的圖像數(shù)據(jù)庫(gallery set)中檢索和匹配相關(guān)圖像的任務(wù),也可以看作是一種只針對(duì)行人圖像的圖像檢索(image retrieval)任務(wù),如圖2 所示,其目標(biāo)是希望獲得具有判別性的特征來區(qū)分相同身份和不同身份的行人圖像.因此,在行人重識(shí)別問題中,絕大部分工作都是關(guān)注在怎樣獲取具有判別性的特征上.由于行人圖像來自多個(gè)不同的攝像頭,因此該問題的研究在現(xiàn)實(shí)應(yīng)用中面臨著許多挑戰(zhàn),包括不同攝像頭下圖像的光照條件、分辨率、視角以及行人姿態(tài)等各方面差異.

        當(dāng)前,該領(lǐng)域的大部分工作都關(guān)注在有監(jiān)督場景下的行人重識(shí)別問題.然而在現(xiàn)實(shí)中,行人重識(shí)別的數(shù)據(jù)標(biāo)注工作往往需要花費(fèi)大量的人力和財(cái)力,特別是對(duì)跨攝像頭間的行人數(shù)據(jù)進(jìn)行關(guān)聯(lián)的這一步驟.并且在當(dāng)前深度學(xué)習(xí)時(shí)代,大部分方法都是依賴大規(guī)模的有標(biāo)記數(shù)據(jù)來訓(xùn)練一個(gè)深度模型.而數(shù)據(jù)標(biāo)注的高成本使得有監(jiān)督的方法難以擴(kuò)展到現(xiàn)實(shí)應(yīng)用中,這也是阻礙行人重識(shí)別技術(shù)能夠真正落地的一大因素.另一方面,在現(xiàn)實(shí)中我們能夠輕松獲得大量無標(biāo)記的行人數(shù)據(jù).因此在行人重識(shí)別問題的研究中,如何使用少標(biāo)記的大規(guī)模圖像數(shù)據(jù)來訓(xùn)練得到魯棒的模型,具有重大的研究價(jià)值和意義.

        目前,大部分行人重識(shí)別領(lǐng)域的工作主要集中在有監(jiān)督場景下相關(guān)算法的研究.早些年,一些研究者主要致力于提取魯棒的特征來強(qiáng)化行人特征的判別性[8-12],也有一些研究者主要關(guān)注在學(xué)習(xí)方法上,例如設(shè)計(jì)更好的度量方法,以使其更容易地識(shí)別相同的人并區(qū)分不同的人[13-16],或者通過學(xué)習(xí)公共的子空間或字典來消除不同攝像頭視角之間的差異[17-19].近些年,深度學(xué)習(xí)技術(shù)不斷發(fā)展,特別是其在機(jī)器視覺應(yīng)用領(lǐng)域取得了巨大成功,新提出的行人重識(shí)別方法基本上都是基于深度學(xué)習(xí)的.其中,一些研究工作使用注意力機(jī)制的方式來提高行人重識(shí)別模型的泛化能力[20-28],也有一些研究工作通過設(shè)計(jì)損失函數(shù)來提升行人重識(shí)別模型的性能[29-31].最近也出現(xiàn)了一些基于局部的學(xué)習(xí)方法[32-35],該類方法雖然簡單,但是可以獲得更具有判別性的特征,在行人重識(shí)別任務(wù)上取得了較優(yōu)的性能.雖然在有監(jiān)督場景下行人重識(shí)別問題已經(jīng)有了突破性的進(jìn)展,但是有監(jiān)督場景下的學(xué)習(xí)不利于行人重識(shí)別模型很好地泛化到其他場景下,因此考慮在深度學(xué)習(xí)需要大量的有標(biāo)記數(shù)據(jù)參與訓(xùn)練的背景下,研究弱監(jiān)督場景下的少標(biāo)記學(xué)習(xí),在行人重識(shí)別任務(wù)中具有重大的意義與價(jià)值.

        考慮到計(jì)算機(jī)視覺任務(wù)的相關(guān)應(yīng)用在現(xiàn)實(shí)場景的落地需求,少標(biāo)記學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界漸漸受到關(guān)注.基于行人重識(shí)別任務(wù),本文將少標(biāo)記學(xué)習(xí)問題分為無監(jiān)督的場景和半監(jiān)督的場景,其更具體的場景分類如圖3所示.

        以下主要對(duì)當(dāng)前存在的弱監(jiān)督場景下的行人重識(shí)別方法進(jìn)行總結(jié)、分類和對(duì)其性能進(jìn)行分析.

        2 無監(jiān)督場景下的行人重識(shí)別問題

        在深度學(xué)習(xí)時(shí)代之前,絕大部分無監(jiān)督的方法主要借助傳統(tǒng)的領(lǐng)域自適應(yīng)方法來學(xué)習(xí)共享的模型參數(shù)[36]、公共的子空間[37]或字典[38].這些方法沿用了傳統(tǒng)的領(lǐng)域自適應(yīng)方法的數(shù)據(jù)設(shè)定,即在訓(xùn)練中可以使用有標(biāo)記的源域數(shù)據(jù)(source domain)和無標(biāo)記的目標(biāo)域數(shù)據(jù)(target domain)來進(jìn)行模型參數(shù)的學(xué)習(xí).除了該設(shè)定之外,也有一些方法只使用無標(biāo)記的數(shù)據(jù).例如一些研究者使用無監(jiān)督的方式訓(xùn)練并學(xué)習(xí)一個(gè)字典[39,40],也有一些研究者通過無監(jiān)督的方式學(xué)習(xí)一些具有判別性的特征[41,42].

        隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,近年來也出現(xiàn)了一些基于深度學(xué)習(xí)的無監(jiān)督行人重識(shí)別方法.本文將這些方法劃分為5 類:基于偽標(biāo)記的方法、基于圖像生成的方法、基于實(shí)例分類的方法、基于領(lǐng)域自適應(yīng)的方法和一些其他方法.在大部分無監(jiān)督深度行人重識(shí)別方法中,一般會(huì)使用有標(biāo)記的源域樣本和無標(biāo)記的目標(biāo)域樣本進(jìn)行訓(xùn)練模型,其中:基于偽標(biāo)記的方法和基于實(shí)例分類的方法一般使用有標(biāo)記的源域的數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練,然后使用無標(biāo)記的目標(biāo)域數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí);基于圖像生成的方法一般通過將源域中的圖像轉(zhuǎn)化成目標(biāo)域風(fēng)格的圖像,然后再使用這些圖像來訓(xùn)練模型;基于領(lǐng)域自適應(yīng)的方法旨在減少領(lǐng)域間數(shù)據(jù)分布的差異,通過特征的層級(jí)來對(duì)齊源域和目標(biāo)域的數(shù)據(jù)分布,以將源域中的判別性信息遷移到無標(biāo)記的目標(biāo)域中.

        2.1 基于偽標(biāo)記的方法

        偽標(biāo)記方法在無監(jiān)督學(xué)習(xí)中有著廣泛的應(yīng)用,其主要思想是為無標(biāo)記的數(shù)據(jù)產(chǎn)生高質(zhì)量的偽標(biāo)記來訓(xùn)練和更新神經(jīng)網(wǎng)絡(luò),如圖4 所示.Yu 等人[43]提出了一種基于軟的多標(biāo)記學(xué)習(xí)的方法來解決無監(jiān)督行人重識(shí)別問題,該方法通過借助有標(biāo)記的輔助數(shù)據(jù)集來生成代理標(biāo)簽.具體地,通過在輔助數(shù)據(jù)集上為每一個(gè)類別產(chǎn)生一個(gè)代理(可以將其視為聚類中心),然后針對(duì)每個(gè)無標(biāo)記的樣本計(jì)算它們與這些代理的相似性并生成一個(gè)相似性向量(即軟的多標(biāo)記),進(jìn)而判斷兩個(gè)無標(biāo)記樣本的相似性.例如:如果兩個(gè)無標(biāo)記數(shù)據(jù)生成的軟的多標(biāo)記相似,則它們大概率屬于相同的行人.另外,根據(jù)無標(biāo)記數(shù)據(jù)原始特征的相似性,該方法挖掘了難的負(fù)樣本對(duì)(即屬于不同的人但外表比較相似的樣本對(duì)).該方法最終由以下3 種損失同時(shí)優(yōu)化:(1) 軟的多標(biāo)記學(xué)習(xí)旨在將無標(biāo)記數(shù)據(jù)中潛在相同的人盡可能拉近,難的負(fù)樣本對(duì)盡可能推遠(yuǎn);(2) 軟標(biāo)記分布的一致性學(xué)習(xí)旨在將不同視角下的軟標(biāo)記分布盡可能變成相同的分布;(3) 代理樣本的學(xué)習(xí)旨在找出合適的代理,以對(duì)有標(biāo)記的輔助數(shù)據(jù)集中的每一個(gè)類別(即每一個(gè)人)進(jìn)行表示.

        Yang 等人[44]提出了基于分塊的判別性特征學(xué)習(xí)方法,該方法由以下兩個(gè)模塊構(gòu)成:(1) 基于塊的特征學(xué)習(xí),該模塊基于分塊網(wǎng)絡(luò)將得到的相似圖像塊拉近,不相似的圖像塊推遠(yuǎn);(2) 圖像層級(jí)的塊的特征學(xué)習(xí),該模塊將原始圖像通過隨機(jī)圖像轉(zhuǎn)化的方法[45]對(duì)其風(fēng)格進(jìn)行一定程度的轉(zhuǎn)化,然后得到對(duì)應(yīng)的正樣本對(duì),而對(duì)于負(fù)樣本的選擇則采用循環(huán)排序的方法挖掘困難的負(fù)樣本(即對(duì)于一個(gè)查詢樣本得到的排序結(jié)果,將這些結(jié)果中的圖像依次作為查詢圖像重新得到一個(gè)排序列表,然后根據(jù)列表中圖像的重疊度來判斷該查詢圖像和排序列表中的圖像是否屬于一個(gè)人),最后,基于生成的正負(fù)樣本對(duì)進(jìn)行塊的三元組損失的計(jì)算和優(yōu)化.Wang 等人[46]在有標(biāo)記的源域上引入屬性語義信息和身份判別信息分別訓(xùn)練兩個(gè)不同的分支網(wǎng)絡(luò),并使用一個(gè)自編碼網(wǎng)絡(luò)將身份信息從身份分支遷移到屬性分支.而對(duì)無標(biāo)記的目標(biāo)域數(shù)據(jù),采用在有標(biāo)記的源域上訓(xùn)練好的屬性分支來生成屬性的偽標(biāo)記信息,再使用這些帶有偽標(biāo)記信息的目標(biāo)域數(shù)據(jù)來更新網(wǎng)絡(luò).在測試階段中,作者使用屬性分支的特征作為最終的特征.Lv 等人[47]提出使用攝像頭的時(shí)空信息來提升生成正確的正樣本對(duì)的概率,然后基于這些融合時(shí)空信息的正負(fù)樣本對(duì)進(jìn)行模型的訓(xùn)練和更新.在框架中,作者提出了一種基于貝葉斯推斷的融合模型,該模型能夠有效地將時(shí)空信息融入到樣本的相似性度量中.

        近年來,許多工作也將傳統(tǒng)的聚類方法引入到無監(jiān)督的行人重識(shí)別任務(wù)中,用來產(chǎn)生偽標(biāo)記的信息.

        Fu 等人[48]利用DBSCAN 聚類算法[49],基于在源域上預(yù)訓(xùn)練的模型提取特征來對(duì)無標(biāo)記的數(shù)據(jù)進(jìn)行聚類,然后基于聚類的結(jié)果構(gòu)造三元組,并使用三元組損失(triplet loss)[29]來進(jìn)行訓(xùn)練.在每一輪訓(xùn)練之后,利用得到的神經(jīng)網(wǎng)絡(luò)再次提取特征并進(jìn)行聚類,重新得到更新的標(biāo)記信息進(jìn)行訓(xùn)練.聚類和網(wǎng)絡(luò)的訓(xùn)練是迭代的過程,這樣能夠不斷地獲得更優(yōu)的標(biāo)記信息和更魯棒的特征表示.Zhang 等人[50]提出了一種自訓(xùn)練的漸進(jìn)式增強(qiáng)框架,主要分為保守訓(xùn)練和提升訓(xùn)練兩個(gè)步驟,并在訓(xùn)練過程中使用HDBSCAN 聚類方法[51]產(chǎn)生偽標(biāo)記.保守訓(xùn)練過程中使用傳統(tǒng)的三元組損失和基于排序的三元組損失聯(lián)合訓(xùn)練網(wǎng)絡(luò),提升訓(xùn)練過程中,使用交叉熵?fù)p失進(jìn)一步提升網(wǎng)絡(luò)的泛化性能.在整個(gè)訓(xùn)練過程中,保守訓(xùn)練和提升訓(xùn)練也是基于迭代的方式來優(yōu)化網(wǎng)絡(luò).Lin 等人[52]提出了一種自底向上的聚類策略來不斷地融合相似的樣本,該方法起初將每一個(gè)樣本視為一個(gè)類,并將每一類的特征存儲(chǔ)在一個(gè)空間中,在訓(xùn)練過程中不斷地更新融合不同的類,并且更新每一個(gè)類的新的表示特征.作者還在文中提出了一種多樣性的歸一化方法,以避免每一類中的圖像數(shù)量差別過大.

        Tang 等人[53]利用神經(jīng)網(wǎng)絡(luò)的最后兩層(在殘差網(wǎng)絡(luò)中,即全局平均池化層和全連接層)的輸出分別作為特征,并通過DBSCAN[49]進(jìn)行聚類,然后基于聚類的結(jié)果產(chǎn)生標(biāo)記信息,在網(wǎng)絡(luò)的最后兩層上都采用三元組損失函數(shù)同時(shí)進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,并且也使用交替學(xué)習(xí)的方式更新網(wǎng)絡(luò)以及獲得新的標(biāo)記信息.Yang 等人[54]考慮到通過聚類產(chǎn)生偽標(biāo)記的方法往往會(huì)帶來許多噪聲信息,因此提出了一種能夠在聚類之后對(duì)樣本進(jìn)行過濾的方法.作者認(rèn)為在學(xué)習(xí)過程中所有的樣本都是重要的,因此該方法根據(jù)DBSCAN 聚類[49]將樣本劃分為正常樣本(在聚類過程被劃分到某個(gè)類別)和異常樣本(在聚類過程中沒有被劃分到某個(gè)類別),而在一些其他基于聚類的方法中一般會(huì)忽略這些異常樣本.同時(shí),該方法使用主模型和協(xié)作模型兩種模型來相互促進(jìn)學(xué)習(xí),其中,主模型利用正常樣本和異常樣本來訓(xùn)練,而協(xié)作模型只使用正常樣本來訓(xùn)練.特別地,對(duì)于用來訓(xùn)練主模型的異常樣本,需要通過協(xié)作模型來選擇其中一些置信度高的偽標(biāo)記樣本進(jìn)行訓(xùn)練;而對(duì)于用來訓(xùn)練協(xié)作模型的正樣本,需要使用主模型對(duì)已分配標(biāo)記的樣本再次進(jìn)行過濾,以確保選擇的樣本都是純凈的,即保證這些樣本的偽標(biāo)記具有較好的可靠性.整個(gè)學(xué)習(xí)過程通過迭代的方式,不斷地提升兩種網(wǎng)絡(luò)的性能.Ding 等人[55]提出一種基于分散度的聚類方法來對(duì)無標(biāo)記的樣本進(jìn)行聚類,該聚類方法不僅僅考慮了類別間的差異性信息,而且也考慮到了類別內(nèi)的緊湊程度.相比于其他的聚類方法,該方法能夠更廣地考慮到多個(gè)樣本間的關(guān)系,并且能夠有效處理不平衡的數(shù)據(jù)分布所帶來的問題.

        目前,在無監(jiān)督行人重識(shí)別領(lǐng)域中,為無標(biāo)記樣本數(shù)據(jù)生成偽標(biāo)記的方法已經(jīng)成為主流的技術(shù)路線.該類方法具有思路簡單清晰、性能良好的優(yōu)點(diǎn),特別是一些基于聚類的偽標(biāo)記生成方法,可以展現(xiàn)出與有監(jiān)督學(xué)習(xí)方法相接近的性能.然而,該類方法在偽標(biāo)記生成的準(zhǔn)確度以及如何有效利用生成的偽標(biāo)記等方面仍然存在進(jìn)一步提升的空間.

        2.2 基于圖像生成的方法

        近些年,生成對(duì)抗網(wǎng)絡(luò)已經(jīng)取得了很大的進(jìn)展.在無監(jiān)督行人重識(shí)別領(lǐng)域,一些研究者基于該技術(shù)從圖像層級(jí)角度來解決領(lǐng)域遷移的問題,如圖5 所示.Huang 等人[56]考慮到不同領(lǐng)域圖像背景的差異較大,且現(xiàn)有的圖像分割方法并不能很好地將行人圖像的前景和背景分開,因此提出了SBSGAN 通過產(chǎn)生軟掩模的方法來移除圖像的背景區(qū)域,該方法能夠有效地抑制圖像分割方法帶來的錯(cuò)誤.考慮到當(dāng)前許多基于GAN 的方法只能產(chǎn)生單一風(fēng)格的圖像,Chen 等人[57]提出了一種對(duì)偶條件圖像生成器以生成不同風(fēng)格的行人圖像數(shù)據(jù),該方法能夠?qū)⒁粡垐D像遷移到多個(gè)風(fēng)格下.Liu 等人[58]認(rèn)為領(lǐng)域間的差異信息由多種因素造成,如光照、分辨率、攝像頭視角等,因此作者采用分而治之的方法將風(fēng)格遷移網(wǎng)絡(luò)分成多個(gè)子網(wǎng)絡(luò),分別針對(duì)不同的領(lǐng)域差異因素進(jìn)行遷移,如光照遷移網(wǎng)絡(luò)、分辨率遷移網(wǎng)絡(luò)和視角遷移網(wǎng)絡(luò)等.每個(gè)子網(wǎng)絡(luò)首先進(jìn)行預(yù)訓(xùn)練,最終通過一個(gè)選擇網(wǎng)絡(luò)來產(chǎn)生每個(gè)子網(wǎng)絡(luò)的權(quán)重信息,并融合所有子網(wǎng)絡(luò)中的信息生成最終的風(fēng)格遷移圖像.

        Zhong 等人[59]利用StarGAN[60]對(duì)目標(biāo)域中不同攝像頭風(fēng)格下的圖像進(jìn)行轉(zhuǎn)化,訓(xùn)練過程中的正樣本對(duì)來自于同一個(gè)攝像頭風(fēng)格下,結(jié)合原始目標(biāo)域圖像、源域圖像和這些轉(zhuǎn)化的圖像一起生成三元組來訓(xùn)練更新神經(jīng)網(wǎng)絡(luò).特別地,對(duì)于三元組,如果一個(gè)anchor 樣本可以容易地在有標(biāo)記的源域中得到它對(duì)應(yīng)的正樣本,同樣也能從目標(biāo)域中得到它的負(fù)樣本,這樣的三元組能夠減小源域和目標(biāo)域之間的差異.Bak 等人[61]認(rèn)為,劇烈變化的光照條件是跨領(lǐng)域行人重識(shí)別問題的一個(gè)巨大挑戰(zhàn),然而對(duì)于當(dāng)前單一數(shù)據(jù)集來說,光照情況相對(duì)比較單一.因此作者提出了一個(gè)合成的行人重識(shí)別數(shù)據(jù)集(synthetic person Re-Identification,簡稱SyRI),其包含在140 種不同的光照條件下的100 個(gè)虛擬的行人.該方法首先訓(xùn)練一個(gè)140 類的光照推斷模型,用來推斷一個(gè)目標(biāo)域與哪種光照情況下的源域數(shù)據(jù)接近,然后利用CycleGAN[62]將該源域的數(shù)據(jù)轉(zhuǎn)化成目標(biāo)域風(fēng)格的圖像,再用來訓(xùn)練特征提取網(wǎng)絡(luò).Deng 等人[63]在CycleGAN 的基礎(chǔ)上引入兩個(gè)重要的跨域行人重識(shí)別特性來保證圖像風(fēng)格遷移的質(zhì)量:其一,每張風(fēng)格遷移后的圖像應(yīng)該與轉(zhuǎn)換前的圖像保持身份信息的一致性;其二,任何圖像從源域遷移到目標(biāo)域后都應(yīng)與目標(biāo)域中所有圖像的身份信息不同.為了在原始的CycleGAN 上引入這兩個(gè)特性,作者利用對(duì)比損失[64]的子網(wǎng)絡(luò)來約束原始的CycleGAN 的訓(xùn)練.Wei 等人[65]提出了PTGAN(person transfer GAN)來對(duì)圖像進(jìn)行從源域到目標(biāo)域的遷移,該方法在CycleGAN[62]的基礎(chǔ)上引入行人前景分割圖像來保證行人區(qū)域遷移前后的一致性.

        這類方法的思想是:從圖像層面進(jìn)行風(fēng)格遷移,其很大程度上依賴于生成對(duì)抗網(wǎng)絡(luò)所生成圖像的質(zhì)量.與其他場景的不同點(diǎn)在于:從監(jiān)控?cái)z像頭獲取的行人圖像往往質(zhì)量較低并且存在一些噪聲,導(dǎo)致風(fēng)格轉(zhuǎn)換后圖像的質(zhì)量并不高.因此,該類方法在無監(jiān)督場景下的性能提升并不是很理想,需要進(jìn)一步研究更加適合于行人場景的生成對(duì)抗網(wǎng)絡(luò)來解決該類問題.

        2.3 基于實(shí)例分類的方法

        在傳統(tǒng)的圖像分類問題中,無監(jiān)督學(xué)習(xí)已經(jīng)取得很大的研究進(jìn)展.受非參數(shù)化實(shí)例分類的方法[66]的啟發(fā),近期也有一些研究者將其引入到無監(jiān)督行人重識(shí)別任務(wù)中來.非參數(shù)化實(shí)例分類的方法考慮到在分類任務(wù)中,外表相似的類別與外表相似性較小的類別相比有一個(gè)更大的預(yù)測概率值,這說明這些相似的類別在特征學(xué)習(xí)網(wǎng)絡(luò)中存在潛在的相關(guān)性,因此該方法將所有獨(dú)立的樣本當(dāng)作一個(gè)單獨(dú)的類別來訓(xùn)練網(wǎng)絡(luò).假設(shè)我們有年n張圖像x1,x2,…,xn,它們的特征分別為v1,v2,…,vn,對(duì)于一個(gè)圖像x,其對(duì)應(yīng)的特征為v,屬于第i個(gè)樣本(類別)的概率為

        其中,每個(gè)樣本的特征vj被存儲(chǔ)在內(nèi)存銀行(memory bank)M中.特別地,M在每一個(gè)epoch 之后會(huì)被更新.τ是一個(gè)超參數(shù),用來調(diào)節(jié)特征向量在單位球體上的集中程度[67].基于公式(1),對(duì)于樣本x,其對(duì)應(yīng)的特征為v,我們得到基于實(shí)例的損失函數(shù)為

        其中,rj∈{0,1}n表示圖像x對(duì)應(yīng)的指示值.即:如果x和xj被判定為鄰近的樣本則為1,否則為0.

        該類方法旨在關(guān)注如何得到更好的鄰近關(guān)系r來學(xué)習(xí)模型,如圖6 所示.Zhong 等人[68]沿用了非參數(shù)化實(shí)例分類的框架,并且對(duì)于每一個(gè)獨(dú)立的樣本(即每一個(gè)類),通過對(duì)抗生成網(wǎng)絡(luò)StarGAN[60]生成一些其他攝像頭風(fēng)格的圖像來增加每一個(gè)類的樣本數(shù)量,即類似于一種數(shù)據(jù)增廣的方式,并且在訓(xùn)練過程中考慮拉近一些鄰近樣本間的距離來強(qiáng)化類別之間的關(guān)聯(lián).對(duì)于鄰近樣本的選擇,Zhong 等人[69]進(jìn)一步提出了一種基于圖的預(yù)測方式來判別兩個(gè)樣本是否是真實(shí)的鄰近樣本,該方法主要考慮了所有樣本間的關(guān)系進(jìn)一步確保選擇的真正同類樣本的正確性.Ding 等人[70]通過設(shè)置一個(gè)距離閾值來選擇每一個(gè)實(shí)例的鄰近樣本,并且考慮到每個(gè)實(shí)例的鄰近樣本的不均衡性會(huì)導(dǎo)致偏向于學(xué)習(xí)某些樣本,在損失函數(shù)中融入了一種平衡機(jī)制來抑制該問題.

        基于實(shí)例分類的方法雖然在性能方面展現(xiàn)出了優(yōu)越性,然而其對(duì)于樣本之間的關(guān)聯(lián)問題仍然需要進(jìn)一步研究,即考慮如何采用有效的算法更加精確地進(jìn)行樣本關(guān)聯(lián)度匹配.

        2.4 基于領(lǐng)域自適應(yīng)的方法

        在深度學(xué)習(xí)的無監(jiān)督行人重識(shí)別方法中,許多研究工作沿用了傳統(tǒng)的領(lǐng)域自適應(yīng)的架構(gòu),即考慮消除或減少領(lǐng)域間的差異來將判別性的信息從源域遷移到目標(biāo)域中,如圖7 所示.

        Lin 等人[71]提出了一種多任務(wù)中間層的特征對(duì)齊方法(multi-task mid-level feature alignment,簡稱MMFA)來解決無監(jiān)督跨域行人重識(shí)別問題,該方法聯(lián)合身份學(xué)習(xí)和屬性學(xué)習(xí)一起來訓(xùn)練更新網(wǎng)絡(luò),對(duì)無標(biāo)記的目標(biāo)域采用基于源域訓(xùn)練的模型生成的偽屬性標(biāo)記來進(jìn)行模型的訓(xùn)練,并通過MMD(maximum mean discrepancy)[72]的方法減少源域和目標(biāo)域之間的差異.考慮到跨域行人重識(shí)別問題中數(shù)據(jù)分布的差異不僅僅存在于領(lǐng)域之間,也存在于同一領(lǐng)域下的不同攝像頭之間(不同攝像頭下光照、分辨率、背景和視角等方面也存在差異),Delorme等人[73]和Qi 等人[74]都針對(duì)性地提出了基于攝像頭的對(duì)抗網(wǎng)絡(luò)來解決在跨域行人重識(shí)別任務(wù)中的數(shù)據(jù)分布差異問題.其中,Delorme 等人[73]在源域和目標(biāo)域中所有的攝像頭之間做等價(jià)的對(duì)抗,并且對(duì)無標(biāo)記的目標(biāo)域中的數(shù)據(jù)采用標(biāo)記平滑的方式[32]分配到源域的類別中進(jìn)行訓(xùn)練.Qi 等人[74]提出了源域和目標(biāo)域中攝像頭交互式的對(duì)抗,并在理論上證明了該對(duì)抗方式能夠?qū)⒃从蚝湍繕?biāo)域所有的攝像頭下的數(shù)據(jù)映射到同一空間中;另外,還利用時(shí)序信息從無標(biāo)記的目標(biāo)域中挖掘一些判別性的信息來訓(xùn)練更新網(wǎng)絡(luò).同時(shí),作者在文中也提到:對(duì)于在行人重識(shí)別任務(wù)中使用的這種傳統(tǒng)領(lǐng)域自適應(yīng)框架,挖掘無標(biāo)記的判別性信息是非常重要的,這是因?yàn)閱我坏販p少數(shù)據(jù)分布差異可能會(huì)破壞目標(biāo)域中的原始樣本間的關(guān)系.因此引入目標(biāo)域中的一些信息,能夠一定程度地保證這種信息不會(huì)被破壞.

        由于從數(shù)據(jù)分布的視角來解決無監(jiān)督行人重識(shí)別問題是一種間接的處理方法,因此該類方法與基于偽標(biāo)記的方法和基于實(shí)例分類的方法相比,在性能方面稍有些不足.但是與基于圖像生成的方法相比,該類方法的性能更好.因此,這說明了在行人重識(shí)別問題中,從特征層級(jí)的遷移效果要比從圖像層級(jí)的遷移效果更好.

        2.5 其他方法

        除上述的幾大類方法之外,還有少量從其他角度設(shè)計(jì)的方法.Wu 等人[75]觀察到攝像頭內(nèi)樣本的相似性分布和攝像頭間樣本的相似性分布不一致,提出了攝像頭一致性的學(xué)習(xí)方式,以使得攝像頭內(nèi)的數(shù)據(jù)分布和攝像頭間的樣本相似性分布趨于一致,并且在學(xué)習(xí)過程中保持?jǐn)z像頭內(nèi)樣本間的相似性分布與其在預(yù)訓(xùn)練上的模型一致.也有少部分的研究者關(guān)注在基于領(lǐng)域泛化的行人重識(shí)別任務(wù)上,在該任務(wù)的訓(xùn)練過程中,只存在有標(biāo)記的源域樣本,對(duì)于目標(biāo)域沒有任何可用的數(shù)據(jù).Kumar 等人[76]探索了只簡單地結(jié)合多個(gè)源域來訓(xùn)練一個(gè)模型的方式,在目標(biāo)域上也具有良好的泛化性能.Jia 等人[77]考慮到領(lǐng)域間的差異性主要是由不同領(lǐng)域間的風(fēng)格信息的差異引起的,受風(fēng)格遷移學(xué)習(xí)的啟發(fā),作者提出在神經(jīng)網(wǎng)絡(luò)的低層使用實(shí)例歸一化來減少不同領(lǐng)域的風(fēng)格的影響;同時(shí),在高層使用特征歸一化進(jìn)一步地減少領(lǐng)域間風(fēng)格信息的影響.Song 等人[78]提出領(lǐng)域不變性的映射網(wǎng)絡(luò)來解決行人重識(shí)別任務(wù)在未見領(lǐng)域上的泛化問題,該方法專注于在一張行人圖像和身份分類器的權(quán)重之間學(xué)習(xí)一種映射.具體地,對(duì)于每一個(gè)來自于候選集合中的圖像,可以生成一個(gè)分類器的權(quán)重向量.為了獲得領(lǐng)域間的不變性,作者使用了元學(xué)習(xí)(meta-learning)中的插曲訓(xùn)練機(jī)制(episodic training)來更新網(wǎng)絡(luò)的參數(shù).在測試過程中,對(duì)于一張來自查詢集合的圖像和一張來自候選集合的圖像,利用查詢分支中提取的特征向量和候選分支中提取的權(quán)重向量進(jìn)行點(diǎn)乘的值作為這兩張圖像的相似性.

        3 半監(jiān)督場景下的行人重識(shí)別問題

        近年來,一些研究者也開始關(guān)注如何利用較少的標(biāo)記信息來訓(xùn)練一個(gè)較優(yōu)的模型.特別地,不同于無監(jiān)督學(xué)習(xí)的定義,半監(jiān)督學(xué)習(xí)在行人重識(shí)別中的有許多不同的設(shè)定.對(duì)于現(xiàn)有的方法,本文將其劃分成如下幾個(gè)場景.

        (1) 少量的人有標(biāo)記

        Liu 等人[79]提出利用半監(jiān)督的對(duì)偶字典學(xué)習(xí)來解決少標(biāo)記的行人重識(shí)別問題,該方法利用少量的標(biāo)記數(shù)據(jù)來學(xué)習(xí)在不同攝像頭之間的特征關(guān)系,而大量的未標(biāo)記數(shù)據(jù)用來獲得魯棒的稀疏表示.Wu 等人[80]假定了只有少量的行人標(biāo)記樣本的情況,通過在其他有標(biāo)記的數(shù)據(jù)集上訓(xùn)練好的多個(gè)不同模型來遷移信息,這些模型可以被視為多個(gè)教師模型.該方法使用教師學(xué)生網(wǎng)絡(luò)訓(xùn)練機(jī)制來進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,通過使用大量的無標(biāo)記數(shù)據(jù)訓(xùn)練更新學(xué)生網(wǎng)絡(luò),并通過少量有標(biāo)記樣本來判斷每個(gè)在源域上訓(xùn)練的模型的權(quán)重(即對(duì)于不同的樣本,不同教師模型貢獻(xiàn)程度不同).Xin 等人[81]使用少量的有標(biāo)記數(shù)據(jù)訓(xùn)練模型,然后通過多視角聚類方法對(duì)無標(biāo)記的數(shù)據(jù)進(jìn)行聚類,再聯(lián)合有標(biāo)記數(shù)據(jù)和帶有偽標(biāo)記的無標(biāo)記數(shù)據(jù)更新網(wǎng)絡(luò),并繼續(xù)基于新的網(wǎng)絡(luò)再次執(zhí)行聚類算法,整個(gè)過程是迭代交替的.

        (2) 每一個(gè)人有少量標(biāo)記

        Wu 等人[82]提出了一種漸進(jìn)式的學(xué)習(xí)方法來解決該問題:首先,根據(jù)每個(gè)人的少量標(biāo)記數(shù)據(jù)訓(xùn)練初始模型;然后對(duì)大量無標(biāo)記數(shù)據(jù)中置信度較高的數(shù)據(jù)分配偽標(biāo)記,其余置信度較低的數(shù)據(jù)暫不分配標(biāo)記信息.在訓(xùn)練過程中,結(jié)合有標(biāo)記和偽標(biāo)記的數(shù)據(jù)一起使用傳統(tǒng)的交叉熵?fù)p失更新訓(xùn)練網(wǎng)絡(luò).對(duì)于暫未分配標(biāo)記的數(shù)據(jù),接下來采用實(shí)例分類的方法,將每一個(gè)獨(dú)立的樣本當(dāng)作一個(gè)類別并在網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,然后基于訓(xùn)練好的網(wǎng)絡(luò)再次重新分配偽標(biāo)記.該方法的學(xué)習(xí)過程也是采用迭代更新的方式.然而該場景存在一定的局限性,其很難拓展到實(shí)際應(yīng)用中.這是因?yàn)樵谠撛O(shè)定下,通常很難獲得整個(gè)數(shù)據(jù)集上所有行人的數(shù)量,除非對(duì)整個(gè)數(shù)據(jù)集進(jìn)行標(biāo)記,這將耗費(fèi)大量的人工成本,與半監(jiān)督設(shè)定的初衷相悖.因此,采用該設(shè)定的研究工作較少.

        (3) 基于tracklet 的學(xué)習(xí)

        Li 等人[83]把行人重識(shí)別任務(wù)劃分為攝像頭內(nèi)的學(xué)習(xí)和攝像頭間的學(xué)習(xí).對(duì)于攝像頭內(nèi)的學(xué)習(xí),作者假設(shè)攝像頭內(nèi)經(jīng)過跟蹤算法已得到若干tracklet,并提出了一種基于時(shí)序的稀疏采樣方法以獲得攝像頭內(nèi)不重復(fù)的tracklet(即這些tracklet 盡可能屬于不同的人),然后使用交叉熵?fù)p失來學(xué)習(xí)這些有標(biāo)記的樣本.對(duì)于攝像頭間的學(xué)習(xí),作者提出一種損失函數(shù)以使得相近的跨攝像頭的tracklet 盡可能相似.在此基礎(chǔ)上,Li 等人[84]進(jìn)一步對(duì)攝像頭內(nèi)的學(xué)習(xí)做出改進(jìn),不再需要選擇一些不重復(fù)的tracklet,即可以使用全部的tracket,同時(shí)提出了一種軟分類學(xué)習(xí)的方式來自動(dòng)探索攝像頭內(nèi)tracklet 的關(guān)系.在這兩個(gè)研究工作的實(shí)驗(yàn)過程中,作者給定了圖像數(shù)據(jù)集中攝像頭內(nèi)的標(biāo)記信息.Wu 等人[75]沿用了文獻(xiàn)[83]中tracklet 的選擇方式,該方法主要提出了基于圖的關(guān)聯(lián)方式來建立跨攝像頭tracklet 之間的關(guān)聯(lián).特別地,基于視頻的方法致力于使用給定的tracklet 來探索時(shí)序信息,以便于將其融入到特征表示中.然而,上述半監(jiān)督方法主要是使用tracklet 信息作為部分的標(biāo)記信息來執(zhí)行學(xué)習(xí)任務(wù).

        (4) 攝像頭內(nèi)有標(biāo)記,攝像頭間無標(biāo)記

        受基于無監(jiān)督的tracklet 的學(xué)習(xí)的啟發(fā),Qi 等人[85]定義了一種新的半監(jiān)督行人重識(shí)別設(shè)定,并且分別從數(shù)據(jù)分布的角度和偽標(biāo)記學(xué)習(xí)的角度提出了兩種不同的解決方案[85,86].在該設(shè)定下,每一個(gè)攝像頭內(nèi)均給定標(biāo)記信息,而攝像頭間是沒有標(biāo)記信息的.由于在行人重識(shí)別問題中,標(biāo)記攝像頭間的信息需要花費(fèi)大量的成本,而攝像頭內(nèi)的標(biāo)記信息可以借助于跟蹤算法和少量的人工標(biāo)記即可完成,因此這種半監(jiān)督行人重識(shí)別的設(shè)定在實(shí)際應(yīng)用中有較大的意義.在文獻(xiàn)[85]中,作者考慮到不同攝像頭間數(shù)據(jù)分布的差異性(由背景、光照、視角等因素帶來的影響),提出了一種基于攝像頭對(duì)齊的對(duì)抗學(xué)習(xí)網(wǎng)絡(luò),以將不同攝像頭的數(shù)據(jù)映射到同一空間中.在文獻(xiàn)[86]中,作者通過在跨攝像頭間生成漸進(jìn)式的軟標(biāo)記來探索跨攝像頭間樣本之間的關(guān)系.同時(shí),Zhu 等人[87]提出了類似的問題,即:對(duì)某一個(gè)攝像頭中的數(shù)據(jù),分別在其他每個(gè)攝像頭下找到最相似的人.然而這樣的方式存在一個(gè)問題,即:當(dāng)一個(gè)人在某個(gè)攝像頭中沒有出現(xiàn)的時(shí)候,該方法會(huì)強(qiáng)制性選擇一個(gè)錯(cuò)誤的樣本進(jìn)行關(guān)聯(lián).

        4 數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)

        為了評(píng)估行人重識(shí)別的相關(guān)算法,我們往往需要在一些公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并通過統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)來評(píng)估所提出方法的性能.本節(jié),我們對(duì)行人重識(shí)別的相關(guān)數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行了總結(jié).

        4.1 數(shù)據(jù)集

        近年來,行人重識(shí)別問題在科研中的關(guān)注逐漸得到提高,因此也出現(xiàn)了越來越多的更大規(guī)模的數(shù)據(jù)集.這些數(shù)據(jù)集主要分為兩類,即基于圖像的數(shù)據(jù)集和基于視頻的數(shù)據(jù)集.我們將選取部分常用的數(shù)據(jù)集分別進(jìn)行介紹.

        (1) 圖像數(shù)據(jù)集

        常用的圖像數(shù)據(jù)集主要包括Market1501[88],DukeMTMC-reID[32],MSMT17[65]和CUHK03[89],這些數(shù)據(jù)集既可以用于無監(jiān)督任務(wù),也可以用于半監(jiān)督任務(wù).其基本信息概括在表1 中.

        Table 1 Information of some image-based person re-identification datasets表1 部分行人重識(shí)別圖像數(shù)據(jù)集信息

        Market-1501[88]是在大學(xué)校園內(nèi)一個(gè)超市前面采集的,由6 個(gè)攝像頭拍攝得到.該數(shù)據(jù)集包含1 501 個(gè)行人的32 668 張圖像(標(biāo)注框),且每個(gè)行人都至少在兩個(gè)攝像頭中出現(xiàn).訓(xùn)練集包括751 個(gè)行人的12 936 張圖像,查詢集包括750 個(gè)行人的3 368 張圖像,測試集包括750 個(gè)行人的16 384 張圖像.該數(shù)據(jù)集采用DPM 檢測器[90]來檢測行人標(biāo)注框,而非采用人工裁剪的方式來獲得,這樣更加貼近現(xiàn)實(shí)應(yīng)用,即可以考慮到行人檢測的標(biāo)注框會(huì)存在偏移與不對(duì)齊的情況.DukeMTMC-reID[32]是基于多攝像頭多目標(biāo)行人跟蹤數(shù)據(jù)集DukeMTMC[91]構(gòu)建而成的,由8 個(gè)攝像頭拍攝得到.該數(shù)據(jù)集包含1 404 個(gè)行人的36 411 張圖像(標(biāo)注框),且該1 404 個(gè)行人中,每個(gè)行人都至少在兩個(gè)攝像頭中出現(xiàn).訓(xùn)練集包含702 個(gè)行人的16 522 張圖像,查詢集包括702 個(gè)行人的2 228 張圖像,測試集包括702 個(gè)行人的17 661 張圖像.該數(shù)據(jù)集通過人工剪裁的方式來獲得行人標(biāo)注框.MSMT17[65]是從校園中部署的15 個(gè)攝像頭中拍攝得到的,包含4 101 個(gè)行人的126 441 張圖像.訓(xùn)練集包含1 041 個(gè)行人的32 621 張圖像(其中包括驗(yàn)證集的2 373 張圖像),查詢集包含3 060 個(gè)行人的11 659 張圖像,測試集包含3 060個(gè)行人的82 161 張圖像.該數(shù)據(jù)集采用Faster RCNN 檢測器[92]來檢測行人標(biāo)注框.CUHK03[89]由5 組攝像頭拍攝得到,每組攝像頭包含兩個(gè)攝像頭,且采用人工裁剪(labeled)和DPM 檢測器(detected)[90]兩種方式來檢測行人標(biāo)注框.該數(shù)據(jù)集存在兩種測試協(xié)議,本文僅介紹新的一種協(xié)議,以下稱為 CUHK03-NP[93].在 CUHK03-NP(labeled)中,訓(xùn)練集包含767 個(gè)行人的7 368 張圖像,查詢集包含700 個(gè)行人的1 400 張圖像,測試集包含700 個(gè)行人的5 328 張圖像;在CUHK03-NP(detected)中,訓(xùn)練集包含767 個(gè)行人的7 365 張圖像,查詢集包含700 個(gè)行人的1 400 張圖像,測試集包含700 個(gè)行人的5 332 張圖像.圖8 展示了部分?jǐn)?shù)據(jù)集的實(shí)例圖像,其中左圖來自Market-1501[88],右圖來自DukeMTMC-reID[32],上下兩行分別代表不同攝像頭下的行人圖像.

        (2) 視頻數(shù)據(jù)集

        常用的視頻數(shù)據(jù)集除了較早出現(xiàn)的PRID2011[94]和iLIDS-VID[95]以外,主要包括MARS[96],DukeMTMC-SITracklet[84]和DukeMTMC-VideoReID[97],這些數(shù)據(jù)集常用于半監(jiān)督任務(wù).其基本信息概括在表2 中.

        Table 2 Information of some video-based person re-identification datasets表2 部分行人重識(shí)別視頻數(shù)據(jù)集信息

        MARS[96]是在大學(xué)校園中的6 個(gè)攝像頭采集得到的,包含1 261 個(gè)行人的20 478 個(gè)tracklet 共計(jì)1 191 003張圖片,分別將626 和635 個(gè)行人作為訓(xùn)練集和測試集,其所有的軌跡片段都是由DPM 檢測器[90]和GMMCP跟蹤器[98]自動(dòng)生成的.DukeMTMC-SI-Tracklet[84]和DukeMTMC-VideoReID[97]均來自來自DukeMTMC[91],由8個(gè)攝像頭進(jìn)行拍攝,人工裁剪得到標(biāo)注框.DukeMTMC-SI-Tracklet 由1 788 個(gè)行人的19 135 個(gè)tracklet 共計(jì)833 984 張圖片組成,并分別將702 個(gè)和1 086 個(gè)行人作為訓(xùn)練集和測試集;DukeMTMC-VideoReID 由1 812 個(gè)行人的4 832 個(gè)tracklet 共計(jì)815 420 張圖片組成,并分別將702 個(gè)、702 個(gè)和408 個(gè)行人作為訓(xùn)練集、測試集和干擾項(xiàng).圖9 展示了部分?jǐn)?shù)據(jù)集的實(shí)例圖像,均來自MARS[96],其中上下兩行分別代表不同的tracklet.

        4.2 評(píng)價(jià)標(biāo)準(zhǔn)

        對(duì)于行人重識(shí)別算法的性能,通常使用累積匹配特性(cumulative match characteristic,簡稱CMC)曲線和平均精度均值(mean average precision,簡稱mAP)來進(jìn)行評(píng)估.

        CMC 曲線能夠綜合反映分類器的性能,可以表示匹配目標(biāo)出現(xiàn)在大小為k的候選列表中的概率.直觀上,CMC 曲線可以通過Rank-k準(zhǔn)確率的形式給出,即目標(biāo)的正確匹配出現(xiàn)在匹配列表前k位的概率.在行人重識(shí)別問題中,通常關(guān)注k={1,5,10,20}時(shí)的性能,即匹配目標(biāo)的k={1,5,10,20}準(zhǔn)確率.例如Rank-1 準(zhǔn)確率表示正確匹配出現(xiàn)在匹配列表第1 位的概率,即查找1 次即可返回正確匹配的概率.通常,最后的Rank-k準(zhǔn)確率是指對(duì)所有檢索目標(biāo)進(jìn)行查詢后取結(jié)果的平均值.

        然而,當(dāng)測試集中存在多個(gè)正確匹配時(shí),Rank-k準(zhǔn)確率不能完整地對(duì)算法進(jìn)行評(píng)估.Zheng 等人[88]考慮到行人重識(shí)別的目標(biāo)應(yīng)將所有的正確匹配都檢索出來,即在考慮查準(zhǔn)率的同時(shí),應(yīng)當(dāng)同時(shí)考慮查全率,因此建議采用mAP 來將算法的檢索召回能力考慮進(jìn)去.具體地,mAP 的計(jì)算過程需遍歷所有檢索目標(biāo),對(duì)于每個(gè)檢索目標(biāo)分別計(jì)算AP(average precision)并取平均,而AP 的計(jì)算過程即為求PR(precision-recall)曲線下的面積的過程,即考慮了目標(biāo)在某些閾值下的查準(zhǔn)率和查全率.因此在后續(xù)工作中,通常將mAP 與Rank-k準(zhǔn)確率結(jié)合在一起作為行人重識(shí)別問題的評(píng)價(jià)指標(biāo),這樣能夠達(dá)到對(duì)算法性能進(jìn)行全面評(píng)價(jià)的目標(biāo).

        5 現(xiàn)有方法的性能及分析

        本節(jié)將對(duì)現(xiàn)有弱監(jiān)督場景下行人重識(shí)別算法的實(shí)驗(yàn)結(jié)果進(jìn)行總結(jié),并給出了分析和比較.

        5.1 無監(jiān)督方法

        對(duì)于現(xiàn)有的無監(jiān)督方法,我們總結(jié)了當(dāng)前基于深度學(xué)習(xí)的方法在3 個(gè)大規(guī)模數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,即Market1501[88],DukeMTMC-reID[32]和MSMT17[65].其中包括基于偽標(biāo)記的方法,如TJ-AIDL[46],TFusion-uns[47],DC[55],HCR[99],BUC[52],PAUL[44],MAR[43],PCB-R-PAST[50],SSG[48],ISSDA[53]和ACT[54];基于圖像生成的方法,如HHL[59],SyRI[61],PTGAN[65],SPGAN[63],ATNet[58],DA-2S[56]和CR-GAN[57];基于實(shí)例分類的方法,如ECN[68],AE[70]和LAIM[69];基于領(lǐng)域自適應(yīng)的方法,如MMFA[71],CAT[73]和UCDA[74].實(shí)驗(yàn)結(jié)果總結(jié)在表3~表5 中.

        表3 展示了現(xiàn)有無監(jiān)督的方法在Market-1501 數(shù)據(jù)集上的結(jié)果,其中,*表示沒有使用有標(biāo)記的源域數(shù)據(jù)進(jìn)行模型的預(yù)訓(xùn)練(即直接使用ImageNet 預(yù)訓(xùn)練的模型),?表示使用除DukeMTMC-reID,MSMT17 和CUHK03 之外的行人重識(shí)別數(shù)據(jù)集進(jìn)行模型的預(yù)訓(xùn)練,-表示沒有對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果,DukeMTMC-reID/MSMT17/CUHK03 表示分別使用這3 個(gè)數(shù)據(jù)集作為源域的實(shí)驗(yàn)結(jié)果.

        表4 展示了現(xiàn)有無監(jiān)督的方法在DukeMTMC-reID 數(shù)據(jù)集上的結(jié)果,其中,*表示沒有使用有標(biāo)記的源域數(shù)據(jù)進(jìn)行模型的預(yù)訓(xùn)練(即直接使用ImageNet 預(yù)訓(xùn)練的模型),-表示沒有對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果,Market-1501/MSMT17/CUHK03 表示分別使用這3 個(gè)數(shù)據(jù)集作為源域的實(shí)驗(yàn)結(jié)果.

        Table 3 Results of existing unsupervised methods on Market-1501表3 現(xiàn)有無監(jiān)督的方法在Market-1501 數(shù)據(jù)集上的結(jié)果

        Table 4 Results of existing unsupervised methods on DukeMTMC-reID表4 現(xiàn)有無監(jiān)督的方法在DukeMTMC-reID 數(shù)據(jù)集上的結(jié)果

        表5 展示了現(xiàn)有無監(jiān)督的方法在MSMT17 數(shù)據(jù)集上的結(jié)果,其中,*表示沒有使用有標(biāo)記的源域數(shù)據(jù)進(jìn)行模型的預(yù)訓(xùn)練(即直接使用ImageNet 預(yù)訓(xùn)練的模型),-表示沒有對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果,Market-1501/DukeMTMC-reID/CUHK03 表示分別使用這3 個(gè)數(shù)據(jù)集作為源域的實(shí)驗(yàn)結(jié)果.

        Table 5 Results of existing unsupervised methods on MSMT17表5 現(xiàn)有無監(jiān)督的方法在MSMT17 數(shù)據(jù)集上的結(jié)果

        對(duì)于基于偽標(biāo)記的方法,TJ-AIDL[46]是通過結(jié)合屬性學(xué)習(xí)并對(duì)目標(biāo)域中的數(shù)據(jù)生成偽屬性的方法來進(jìn)行學(xué)習(xí)的;TFusion-uns[47]利用時(shí)序信息產(chǎn)生更可靠的偽標(biāo)記信息;PAUL[44]和MAR[43]以有標(biāo)記的源域數(shù)據(jù)為基準(zhǔn),生成無標(biāo)記目標(biāo)域的偽標(biāo)記信息;DC[55],HCR[99],BUC[52],PCB-R-PAST[50],SSG[48],ISSDA[53]和ACT[54]都是基于聚類的算法,其中,ACT 對(duì)聚類后的結(jié)果進(jìn)行了進(jìn)一步處理,以便于找出確定性的偽標(biāo)記信息和非確定性的偽標(biāo)記信息,因此相對(duì)于其他方法,該方法能夠得到相對(duì)更好的結(jié)果.另外,從表3 和表4 中可以發(fā)現(xiàn),基于聚類的偽標(biāo)記方法相對(duì)于其他偽標(biāo)記的方法有更好的性能.

        對(duì)于基于圖像生成的方法,當(dāng)前CR-GAN[57]的性能最優(yōu).不同于其他從領(lǐng)域?qū)蛹?jí)或攝像頭層級(jí)的風(fēng)格遷移,如PTGAN[65],SPGAN[63]和ATNet[58]等,CR-GAN 是基于圖像層級(jí)的風(fēng)格轉(zhuǎn)化,即根據(jù)一張?zhí)囟▓D像的風(fēng)格對(duì)一張目標(biāo)的圖像進(jìn)行圖像風(fēng)格的遷移.因此,該方法相對(duì)于其他方法有更好的性能.此外,在所有這些基于圖像生成的方法中,HHL[59]只使用了圖像生成網(wǎng)絡(luò)對(duì)目標(biāo)域內(nèi)的不同攝像頭間的圖像進(jìn)行轉(zhuǎn)化,以產(chǎn)生不同攝像頭風(fēng)格的正樣本對(duì).

        對(duì)于基于實(shí)例分類的方法,當(dāng)前方法基本都是關(guān)注在如何建立樣本間的關(guān)系上,其中,LAIM[69]引入了圖的關(guān)系來增強(qiáng)找出相同實(shí)例的可靠性,因此,該方法目前在此類型的方法中具有較好的表現(xiàn).

        對(duì)于基于領(lǐng)域自適應(yīng)的方法,MMFA[71]使用傳統(tǒng)的MMD 方法來減少領(lǐng)域間差異.在行人重識(shí)別問題中,數(shù)據(jù)分布的差異不僅存在于領(lǐng)域間,也存在于相同領(lǐng)域的不同攝像頭間,而CAT[73]和UCDA[74]都考慮到了這一方面,提出了基于攝像頭感知的領(lǐng)域?qū)箤W(xué)習(xí).對(duì)比于CAT,UCDA 提出了一種跨領(lǐng)域等視角的對(duì)抗學(xué)習(xí)方法來減少所有攝像頭視角層級(jí)的數(shù)據(jù)分布的差異,并且利用了時(shí)序信息在無標(biāo)記的目標(biāo)域中挖掘判別性信息,以保證在減少數(shù)據(jù)分布差異的過程中目標(biāo)域數(shù)據(jù)內(nèi)部結(jié)構(gòu)的不變性.因此在該類方法中,UCDA 目前具有最好的性能.

        對(duì)比這幾大類方法,基于圖像生成的方法和基于領(lǐng)域自適應(yīng)的方法相較于基于偽標(biāo)記的方法和基于實(shí)例分類的方法表現(xiàn)性能相對(duì)較弱.主要原因可能是基于圖像生成或領(lǐng)域自適應(yīng)的方法可以看作是從數(shù)據(jù)分布的層級(jí)來解決無標(biāo)記的學(xué)習(xí)問題,其中,基于圖像生成的方法旨在縮小源域和目標(biāo)域圖像分布間的差異,而基于領(lǐng)域自適應(yīng)的方法是從特征表示的層級(jí)來縮小領(lǐng)域間的差異.這些方法屬于隱式地解決無標(biāo)記的問題,而基于偽標(biāo)記或?qū)嵗诸惖姆椒ㄊ秋@式地通過對(duì)無標(biāo)記的數(shù)據(jù)直接產(chǎn)生偽標(biāo)記或者是建立這些樣本間的關(guān)聯(lián)來進(jìn)行學(xué)習(xí).因此,基于偽標(biāo)記和實(shí)例分類的方法相比較于其他方法能夠更加直接地解決無標(biāo)記行人重識(shí)別問題.

        5.2 半監(jiān)督方法

        在本節(jié),我們總結(jié)了當(dāng)前基于深度學(xué)習(xí)的半監(jiān)督行人重識(shí)別算法在3 個(gè)大規(guī)模圖像數(shù)據(jù)集Market1501[88],DukeMTMC-reID[32]和 MSMT17[65]以及 3 個(gè)大規(guī)模視頻數(shù)據(jù)集 MARS[96],DukeMTMC-VideoReID[84]和DukeMTMC-SI-Tracklet[97]上的實(shí)驗(yàn)結(jié)果.特別地,當(dāng)前在行人重識(shí)別問題半監(jiān)督的定義有很多種,本節(jié)總結(jié)的方法包括:(1) 少部分人有標(biāo)記的場景,如Distilled-ReID[80]和MVC[81];(2) 每一個(gè)人有少量標(biāo)記的場景,如One-Example[82];(3) 基于tracklet 的場景,例如TAUDL[83],UTAL[84],TSSL[100],TASTR[101]和UGA[75];(4) 攝像頭內(nèi)有標(biāo)記但攝像頭間無標(biāo)記的場景,如ACAN[85],MTML[87]和PCSL[86].所有方法的實(shí)驗(yàn)結(jié)果總結(jié)在表6 和表7 中.表6展示了現(xiàn)有的半監(jiān)督方法在圖像數(shù)據(jù)集Market1501,DukeMTMC-ReID 和MSMT17 上的結(jié)果,其中,-表示沒有對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果;表7 展示了現(xiàn)有的半監(jiān)督方法在視頻數(shù)據(jù)集MARS,DukeMTMC-VideoReID 和DukeMTMCSI-Tracklet 上的結(jié)果,其中,-表示沒有對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果.特別地,與大部分無監(jiān)督方法會(huì)涉及到源域和目標(biāo)域的數(shù)據(jù)集不同的是,半監(jiān)督的方法中只有目標(biāo)域的數(shù)據(jù)集.

        Table 6 Results of existing semi-supervised methods on image-based datasets表6 現(xiàn)有的半監(jiān)督方法在圖像數(shù)據(jù)集上的結(jié)果

        Table 7 Results of existing semi-supervised methods on video-based datasets表7 現(xiàn)有的半監(jiān)督方法在視頻數(shù)據(jù)集上的結(jié)果

        對(duì)于少量的人有標(biāo)記的場景,MVC[81]和Distilled-ReID[80]的設(shè)定并不相同,因此它們并不具有可比較性.對(duì)于每一個(gè)人有少量標(biāo)記的場景,在現(xiàn)實(shí)應(yīng)用中,該方法并不是可行的.這是因?yàn)槿绻枰勒麄€(gè)數(shù)據(jù)集行人的數(shù)量,就必須要對(duì)整個(gè)數(shù)據(jù)集進(jìn)行標(biāo)注,即這種設(shè)定不具有現(xiàn)實(shí)應(yīng)用價(jià)值,因此針對(duì)該類場景的研究方法較少.對(duì)于基于tracklet 的場景,本文中我們將其歸類為半監(jiān)督的方法,因?yàn)閠racklet 中的每個(gè)圖像默認(rèn)為同一個(gè)標(biāo)記.特別地,一些方法在基于圖像的行人重識(shí)別數(shù)據(jù)集中,假定每個(gè)攝像頭內(nèi)的人的所有圖像在一個(gè)traklet 內(nèi),即對(duì)于這些數(shù)據(jù)集已經(jīng)給定了攝像頭內(nèi)的標(biāo)記信息.這類方法在近年來得到了較多的關(guān)注,一些研究工作主要關(guān)注在如何在攝像頭內(nèi)獲得不重復(fù)的tracklet 上,例如使用時(shí)序信息來緩解該問題;除此之外,如何建立跨攝像頭間的聯(lián)系也是該類方法需重點(diǎn)解決的問題.由于這類方法采用了基于tracklet 的標(biāo)記信息,因此該類方法相對(duì)于無監(jiān)督的行人重識(shí)別別方法,整體來看具有更好的性能.進(jìn)一步,Qi 等人[85]基于tracklet 的場景定義了一種新的半監(jiān)督場景的學(xué)習(xí)方式,即攝像頭內(nèi)有標(biāo)記而攝像頭間無標(biāo)記的場景.相對(duì)于基于tracklet 學(xué)習(xí)方法,該方法在基于視頻的圖像數(shù)據(jù)集上具有更好的性能.主要原因在于:基于tracklet 的方法通過采樣的方法,并未完全使用攝像頭的數(shù)據(jù);而基于攝像頭內(nèi)給定標(biāo)記的場景能夠有效地利用所有的數(shù)據(jù),并且攝像頭內(nèi)的標(biāo)記并不需要大量的人工成本.因此,該類方法在現(xiàn)實(shí)中具有重要的研究意義.另外,ACAN[85]基于數(shù)據(jù)分布的視角來解決跨攝像頭間無標(biāo)記的問題,而MTML[87]和PCSL[86]直接采用關(guān)聯(lián)的方法來建立跨攝像頭樣本間的關(guān)聯(lián)性.從實(shí)驗(yàn)結(jié)果來看,直接建立樣本間的關(guān)聯(lián)性,相較于從數(shù)據(jù)分布的視角解決跨攝像頭間無標(biāo)記的問題,具有更好的性能.

        6 總結(jié)

        本文主要總結(jié)了弱監(jiān)督場景下的行人重識(shí)別算法,包括無監(jiān)督場景和半監(jiān)督場景,并且對(duì)近年的方法進(jìn)行了分類和描述.對(duì)于無監(jiān)督的行人重識(shí)別算法,我們根據(jù)其技術(shù)類型劃分為5 類,分別為基于偽標(biāo)記的方法、基于圖像生成的方法、基于實(shí)例分類的方法、基于領(lǐng)域自適應(yīng)的方法和其他類型的方法.對(duì)于半監(jiān)督的行人重識(shí)別方法,根據(jù)其場景類型劃分為4 類,分別為少量的人有標(biāo)記的場景、每一個(gè)人有少量標(biāo)記的場景、基于tracklet學(xué)習(xí)的場景和攝像頭內(nèi)有標(biāo)記但攝像頭間無標(biāo)記的場景.最后,我們對(duì)當(dāng)前行人重識(shí)別的相關(guān)數(shù)據(jù)集進(jìn)行總結(jié),并對(duì)現(xiàn)有的弱監(jiān)督方法的實(shí)驗(yàn)結(jié)果進(jìn)行總結(jié)與分析.

        研究弱監(jiān)督場景下的行人重識(shí)別問題,能夠幫助行人重識(shí)別技術(shù)更好地拓展到現(xiàn)實(shí)應(yīng)用中.而基于弱監(jiān)督場景下的行人重識(shí)別算法,其著重研究利用無標(biāo)記或少量標(biāo)記的數(shù)據(jù)來學(xué)習(xí)具有更好泛化性能的模型.對(duì)該領(lǐng)域的探索不僅具有理論價(jià)值,還有很高的應(yīng)用價(jià)值.該領(lǐng)域雖然在近年來得到了一定的關(guān)注,但目前仍然不能完全達(dá)到有監(jiān)督場景下的性能.該領(lǐng)域仍然有一些研究問題亟待解決.

        (1) 實(shí)例間的關(guān)系評(píng)估

        基于實(shí)例分類的無監(jiān)督方法在近年來得到了廣泛的關(guān)注,但其主要的挑戰(zhàn)集中在如何有效地挖掘每個(gè)樣本之間的實(shí)際關(guān)系,即:以一對(duì)樣本而言,觀察它們是否屬于相同的類別.如果所有樣本之間的關(guān)系能夠被很好地評(píng)估,那么這一類方法的性能將等價(jià)于有監(jiān)督場景下的行人重識(shí)別任務(wù)的性能.

        (2) 領(lǐng)域泛化問題

        雖然弱監(jiān)督場景下的行人重識(shí)別算法相比于傳統(tǒng)的有監(jiān)督場景更能夠有利于應(yīng)用到現(xiàn)實(shí)當(dāng)中,然而這些方法仍然需要收集無標(biāo)記的樣本來學(xué)習(xí).在將來,通用性的行人重識(shí)別算法也許是該領(lǐng)域能夠真正落地的一大發(fā)展趨勢,即:只通過在現(xiàn)有的數(shù)據(jù)進(jìn)行訓(xùn)練,就能夠很好地泛化到其他未見場景中.這也是實(shí)現(xiàn)通用人工智能技術(shù)的必要的一條路.我們首先需要解決單一任務(wù)上的通用型,才能進(jìn)一步去探索在不同任務(wù)上的通用性.這一類問題結(jié)合風(fēng)格遷移和元學(xué)習(xí)的相關(guān)方法或許將在未來的研究中展現(xiàn)出很大的前景.

        猜你喜歡
        監(jiān)督方法
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        學(xué)習(xí)方法
        監(jiān)督見成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        績效監(jiān)督:從“管住”到“管好”
        浙江人大(2014年5期)2014-03-20 16:20:28
        超清精品丝袜国产自在线拍| 国产高清黄色在线观看91| 粉嫩小泬无遮挡久久久久久| 亚洲中文字幕永久网站| 亚洲精品天堂日本亚洲精品| 国产免费在线观看不卡| 野花香社区在线视频观看播放 | 人妻少妇久久久久久97人妻| 欧美黑人性暴力猛交喷水| 亚洲欧洲偷自拍图片区| 亚洲国产成人91| 亚洲女同系列高清在线观看| 久久久精品人妻一区二区三区免费| 国产高潮迭起久久av| 就爱射视频在线视频在线| 极品av一区二区三区| 一区二区三区免费看日本| 国产成人av一区二区三区在线观看 | 特级毛片a级毛片在线播放www| 国产一级毛片卡| 国产av区亚洲av毛片| 蜜桃视频网址在线观看| 青青草手机在线观看视频在线观看| 国产偷国产偷亚洲综合av| 精品无码av无码专区| 人妻精品久久久久中文字幕69| 日韩精品无码一区二区| 中文字幕在线亚洲日韩6页| 人妻无码一区二区三区四区| 精品十八禁免费观看| 亚洲无AV码一区二区三区| 用力草我小逼视频在线播放| 成人男性视频在线观看| 精品厕所偷拍一区二区视频| 国精品人妻无码一区二区三区性色| 国产xxxxx在线观看| 中文字幕无线码中文字幕| 国产精品亚洲午夜不卡| 人妻少妇喷水意淫诱惑| 在线观看二区视频网站二区| 亚洲精品av一区二区|