亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自監(jiān)督學(xué)習(xí)的文本行人檢索

        2023-02-15 01:25:10胡峻華丁學(xué)文李晟嘉
        關(guān)鍵詞:監(jiān)督文本信息

        冀?中,胡峻華,丁學(xué)文,李晟嘉

        基于自監(jiān)督學(xué)習(xí)的文本行人檢索

        冀?中1,胡峻華1,丁學(xué)文2,李晟嘉3

        (1. 天津大學(xué)電氣自動化與信息工程學(xué)院,天津 300072;2. 天津職業(yè)技術(shù)師范大學(xué)電子工程學(xué)院,天津 300222;3. 中國運(yùn)載火箭技術(shù)研究院研究發(fā)展部,北京 100076)

        基于文本的行人檢索任務(wù)旨在以文本為查詢在大規(guī)模數(shù)據(jù)庫中檢索出目標(biāo)行人的圖像,在處理社會公共安全問題中具有較高的實用價值.不同于常規(guī)的跨模態(tài)檢索任務(wù),該任務(wù)中所有的類別都是行人,不同行人之間的外觀差異較小,難以辨別;此外由于拍攝條件的限制圖像質(zhì)量通常較差,因此如何有效地提取更魯棒、更具有判別性的視覺特征是該任務(wù)的一項重要挑戰(zhàn).為了應(yīng)對這一挑戰(zhàn),設(shè)計了一種基于自監(jiān)督學(xué)習(xí)的文本行人檢索算法,以多任務(wù)學(xué)習(xí)的形式將自監(jiān)督學(xué)習(xí)與基于文本的行人檢索任務(wù)相結(jié)合,對兩種任務(wù)同時進(jìn)行訓(xùn)練,共享模型參數(shù).其中,自監(jiān)督任務(wù)作為輔助任務(wù),旨在為行人檢索任務(wù)學(xué)習(xí)到更魯棒、更具有判別性的視覺特征.具體來說,首先提取視覺和文本特征,并以圖像修復(fù)作為自監(jiān)督任務(wù),旨在學(xué)習(xí)更豐富的語義信息,且對遮擋數(shù)據(jù)具有更好的魯棒性;基于行人圖像的特殊性,進(jìn)一步設(shè)計了一種鏡像翻轉(zhuǎn)預(yù)測任務(wù),通過訓(xùn)練網(wǎng)絡(luò)預(yù)測圖像是否經(jīng)過了鏡像翻轉(zhuǎn)學(xué)習(xí)具有判別性的細(xì)節(jié)信息,以幫助行人檢索任務(wù)更好地區(qū)分難分樣本.在公開數(shù)據(jù)集上進(jìn)行的大量實驗證明了該算法的先進(jìn)性和有效性,將行人檢索的Top-1準(zhǔn)確率提升了2.77%,并且實驗結(jié)果顯示兩種自監(jiān)督任務(wù)存在一定的互補(bǔ)性,同時使用可以實現(xiàn)更好的檢索性能.

        行人檢索;跨模態(tài)分析;自監(jiān)督學(xué)習(xí);多任務(wù)學(xué)習(xí)

        隨著經(jīng)濟(jì)社會的迅速發(fā)展,人們對于公共安全問題愈發(fā)重視,監(jiān)控攝像頭逐漸遍布大街小巷,尋找走失的兒童、追蹤犯罪嫌疑人等都離不開監(jiān)控設(shè)備的輔助.但是與此同時,海量的監(jiān)控設(shè)備也產(chǎn)生了海量的數(shù)據(jù),想要從如此龐大的數(shù)據(jù)庫中找到目標(biāo)往往需要耗費巨大的人力資源.近年來,深度學(xué)習(xí)技術(shù)在處理大數(shù)據(jù)問題中發(fā)揮了重要的作用[1],在這種背景下,基于文本查詢的行人檢索(text-based person search,TBPS)技術(shù)應(yīng)運(yùn)而生,該技術(shù)運(yùn)用深度學(xué)習(xí)技術(shù),旨在以自然語言作為查詢,快速、準(zhǔn)確地從海量的監(jiān)控數(shù)據(jù)中檢索到目標(biāo)人物[2].TBPS可以利用目擊者的口頭描述,口頭描述相比目標(biāo)人物的圖像更加容易獲得[3],其行人屬性更加靈活、自由[4],具有更強(qiáng)的描述能力.因此TBPS更加符合現(xiàn)實應(yīng)用場景,具有更高的實用價值.

        由于文本和圖像數(shù)據(jù)屬于不同的模態(tài),因此TBPS屬于一種跨模態(tài)任務(wù).與常規(guī)跨模態(tài)任務(wù)不同,該任務(wù)中所有的類別都是行人,他們具有大致相似的外觀特征,更加難以辨別.此外,由于現(xiàn)實中很多圖像是從相當(dāng)遠(yuǎn)的距離拍攝的,并且可能存在遮擋、光線不足等問題,因此該任務(wù)中的圖像質(zhì)量較差.基于以上困難,為了更好地區(qū)分相似的目標(biāo),需要模型學(xué)習(xí)到足夠多的細(xì)節(jié)信息,并具有較強(qiáng)的魯棒性.在現(xiàn)有的研究中,大多數(shù)方法更關(guān)注如何對齊視覺和文本兩個模態(tài)的數(shù)據(jù)[5-7],對于如何提取更魯棒、更具有判別性的特征則關(guān)注較少.

        自監(jiān)督學(xué)習(xí)是一種不依賴人工標(biāo)注而是從數(shù)據(jù)本身學(xué)習(xí)表征的方法.事實上,相比于標(biāo)注信息,數(shù)據(jù)本身包含著更豐富的信息,通過設(shè)計不同的自監(jiān)督任務(wù)可以從數(shù)據(jù)中挖掘到不同的內(nèi)容表征.目前已有很多研究使用自監(jiān)督學(xué)習(xí)方法來學(xué)習(xí)視覺表征[8-9],并取得了很好的效果.

        為了在TBPS中學(xué)習(xí)到更加魯棒、更具有判別性的視覺特征,本文以多任務(wù)學(xué)習(xí)的形式將TBPS與自監(jiān)督任務(wù)相結(jié)合,以行人檢索作為主任務(wù),自監(jiān)督學(xué)習(xí)作為輔助任務(wù),通過完成自監(jiān)督任務(wù)學(xué)習(xí)到對行人檢索有幫助的特征信息.這主要有兩個挑戰(zhàn).第一,需要根據(jù)目標(biāo)任務(wù)選擇與其相適配的自監(jiān)督學(xué)習(xí)方法.因為一些在其他視覺任務(wù)上有良好表現(xiàn)的方法并不一定也適合行人檢索任務(wù).例如圖像旋轉(zhuǎn)角度預(yù)測任務(wù)[10],由于所有行人都是站立狀態(tài),且身體部位的相對位置固定,所以很難通過判斷旋轉(zhuǎn)角度這一任務(wù)學(xué)習(xí)到有用的信息.第二,需要合理地控制自監(jiān)督任務(wù)的難度.盡管采用多任務(wù)學(xué)習(xí)的形式,但是本文主要關(guān)注行人檢索任務(wù)的性能,并不關(guān)注自監(jiān)督任務(wù)的性能.作為輔助任務(wù),自監(jiān)督任務(wù)的意義只在于在完成它的過程中學(xué)習(xí)對主任務(wù)有幫助的信息.當(dāng)自監(jiān)督任務(wù)難度過高時,一方面可能難以完成,自然也就無法學(xué)習(xí)到有價值的信息;另一方面,即便能夠順利完成,也可能使網(wǎng)絡(luò)過多地關(guān)注了自監(jiān)督任務(wù),學(xué)習(xí)到更多與自監(jiān)督任務(wù)相關(guān)但與行人檢索任務(wù)無關(guān)的信息,從而對行人檢索任務(wù)造成干擾.反之,網(wǎng)絡(luò)不需要學(xué)習(xí)過多的信息就可以輕松完成任務(wù),該任務(wù)的存在也就失去了意義.因此需要控制自監(jiān)督任務(wù)的難度,以達(dá)到在不干擾行人檢索任務(wù)的情況下學(xué)習(xí)到對行人檢索任務(wù)有幫助的信息.

        本文的貢獻(xiàn)主要體現(xiàn)在如下兩個方面.首先,以Transformer模型作為視覺和文本特征提取網(wǎng)絡(luò),提出一種基于自監(jiān)督學(xué)習(xí)的多任務(wù)學(xué)習(xí)框架.其中,選取自監(jiān)督學(xué)習(xí)中的圖像修復(fù)作為輔助任務(wù),與行人檢索任務(wù)同時訓(xùn)練,共享模型參數(shù),旨在學(xué)習(xí)更豐富的語義信息,且針對遮擋數(shù)據(jù)具有更好的魯棒性.其次,進(jìn)一步設(shè)計了一種與行人檢索任務(wù)相契合的鏡像翻轉(zhuǎn)預(yù)測作為自監(jiān)督輔助任務(wù),通過訓(xùn)練網(wǎng)絡(luò)判斷圖像是否經(jīng)過了鏡像翻轉(zhuǎn)學(xué)習(xí)具有判別性的細(xì)節(jié)信息.通過在公開數(shù)據(jù)集上設(shè)計的大量實驗驗證了所提方法的有效性,并且實驗結(jié)果進(jìn)一步顯示這兩種自監(jiān)督任務(wù)存在一定的互補(bǔ)性.

        1?相關(guān)領(lǐng)域研究現(xiàn)狀

        1.1?基于文本的行人檢索

        基于文本的行人檢索任務(wù)自提出以來已經(jīng)吸引眾多研究者的關(guān)注[5-7].對于這一細(xì)粒度跨模態(tài)檢索任務(wù),大多數(shù)方法[2,5-6,11-12]使用通用的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)分別提取視覺特征和文本特征.例如,Li等[2]以VGG-16和長短時記憶網(wǎng)絡(luò)作為特征提取器設(shè)計了一個帶有門控神經(jīng)注意機(jī)制的模型;Gao等[13]基于ResNet-50和BERT設(shè)計了一種自適應(yīng)全尺度對齊模型;在近期的一項工作中,Li等[14]提出了一種基于Transformer的多粒度對齊模型.總體而言,隨著通用網(wǎng)絡(luò)模型的不斷改進(jìn),這一任務(wù)的整體性能也在不斷提升,但是行人檢索任務(wù)由于細(xì)粒度問題和圖像質(zhì)量問題對于視覺特征提取的要求較高,仍需要進(jìn)一步地針對該任務(wù)設(shè)計更好的視覺特征提取網(wǎng)絡(luò).為此,本文針對行人數(shù)據(jù)的特點設(shè)計了一種基于自監(jiān)督學(xué)習(xí)的視覺特征提取網(wǎng)絡(luò),旨在獲得更魯棒、更具有判別性的視覺特征.

        1.2?自監(jiān)督學(xué)習(xí)

        自監(jiān)督學(xué)習(xí)是一種不依賴于人工標(biāo)注的學(xué)習(xí)方式,旨在通過設(shè)計特定的任務(wù)以從數(shù)據(jù)本身學(xué)習(xí)到相應(yīng)的知識[8,10].目前已經(jīng)有多種自監(jiān)督學(xué)習(xí)方法在視覺表征方面取得了出色的效果.例如,Komodakis等[10]通過訓(xùn)練網(wǎng)絡(luò)預(yù)測圖像的旋轉(zhuǎn)角度迫使網(wǎng)絡(luò)理解圖像內(nèi)容;Noroozi等[15]設(shè)計了一種拼圖游戲,將圖像劃分成若干個小塊并標(biāo)記序號,按照某些特定的順序?qū)⑵浯騺y后再訓(xùn)練網(wǎng)絡(luò)預(yù)測當(dāng)前輸入的是哪一個序列,要完成好這一任務(wù),需要網(wǎng)絡(luò)學(xué)習(xí)到圖像的結(jié)構(gòu)信息.此外,常見的自監(jiān)督任務(wù)還包括圖像修復(fù)[16]、圖像上色[17]、超分辨率[18]等.這些自監(jiān)督任務(wù)通常作為輔助任務(wù),旨在訓(xùn)練得到一個特征提取網(wǎng)絡(luò)進(jìn)而用于目標(biāo)任務(wù).對于不同的目標(biāo)任務(wù)需要選擇與之契合的自監(jiān)督任務(wù),因此本文基于行人數(shù)據(jù)的特殊性設(shè)計了一種鏡像翻轉(zhuǎn)預(yù)測任務(wù),旨在從圖像中學(xué)習(xí)區(qū)分性的細(xì)節(jié)信息.

        2?基于自監(jiān)督學(xué)習(xí)的文本行人檢索算法

        為了在基于文本的行人檢索任務(wù)中獲得更魯棒、更具有判別性的視覺特征,本文設(shè)計了一種基于自監(jiān)督學(xué)習(xí)的文本行人檢索算法(self-supervised learning approach for text-based person search,SSL-TBPS).由于TBPS是一個細(xì)粒度檢索任務(wù),并且該任務(wù)中的圖像質(zhì)量通常較差,句子結(jié)構(gòu)復(fù)雜,因此對于網(wǎng)絡(luò)的特征提取能力要求較高.本文使用具有較強(qiáng)特征提取能力的Swin Transformer[19]和BERT[20]分別作為基本的視覺和文本特征提取網(wǎng)絡(luò),并設(shè)計了一種多任務(wù)學(xué)習(xí)模型,將自監(jiān)督學(xué)習(xí)中的圖像修復(fù)任務(wù)與行人檢索任務(wù)相結(jié)合,進(jìn)一步地設(shè)計了一種更適合行人檢索任務(wù)的輔助任務(wù),即鏡像翻轉(zhuǎn)預(yù)測任務(wù).

        2.1?特征提取

        1) 視覺特征提取

        2) 文本特征提取

        2.2?基于圖像修復(fù)任務(wù)的文本行人檢索

        在基于文本的行人檢索任務(wù)的實際應(yīng)用中,經(jīng)常會存在行人被遮擋的情況,為了在學(xué)習(xí)語義信息的同時更好地應(yīng)對遮擋情況,本文首先選擇圖像修復(fù)作為自監(jiān)督任務(wù),將其與TBPS相結(jié)合.具體來說,受MAE模型啟發(fā)[16],本文首先選取一定比例的圖像塊進(jìn)行隨機(jī)掩蔽,然后將掩蔽后剩余的可見部分重新輸入到網(wǎng)絡(luò)中,提取視覺特征,最后再由解碼器根據(jù)視覺特征和掩碼標(biāo)記恢復(fù)出被掩蔽的部分.

        基于圖像修復(fù)任務(wù)的文本行人檢索算法(記為SSL-TBPS-I)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由基于文本的行人檢索和自監(jiān)督學(xué)習(xí)兩部分組成.在基于文本的行人檢索部分,使用Swin Transformer和BERT分別提取圖像嵌入和文本嵌入,其中Swin Transformer包括4個階段的網(wǎng)絡(luò)[19].然后使用跨模態(tài)投影分類損失(記為CMPC)和跨模態(tài)投影匹配損失(記為CMPM)[5]對齊兩種模態(tài).在自監(jiān)督學(xué)習(xí)部分,對基于文本的行人檢索部分中Swin Transformer第1階段網(wǎng)絡(luò)輸出的28×28個圖像塊進(jìn)行隨機(jī)掩蔽,并經(jīng)過編碼器和解碼器恢復(fù)出被掩蔽的部分.如前文所述,該算法需要較好地控制自監(jiān)督任務(wù)的難度,直接對Swin Transformer輸入的56×56個圖像塊進(jìn)行隨機(jī)掩蔽會使任務(wù)難度較高,且計算復(fù)雜.由于Swin Transformer會隨著網(wǎng)絡(luò)的加深不斷地合并相鄰的圖像塊,即在每個階段的網(wǎng)絡(luò)之間將相鄰的4個圖像塊合并為一個,因此筆者選擇對第1階段網(wǎng)絡(luò)之后的28×28個圖像塊進(jìn)行隨機(jī)掩蔽.具體來說,隨機(jī)掩蔽這些圖像塊的75%,這將使剩余的14×14個圖像塊在數(shù)目上剛好滿足第3階段的網(wǎng)絡(luò),因此將剩余的可見部分重新輸入到第3階段的網(wǎng)絡(luò)中,以第3階段和第4階段的網(wǎng)絡(luò)作為編碼器.解碼器使用了包含4個Transformer Block的輕量級網(wǎng)絡(luò),并在最后加入一層線性投影,其輸出通道數(shù)等于每個掩蔽圖像塊的像素值數(shù),通過預(yù)測每個掩蔽圖像塊的像素值來重建輸入.均方差損失(mean squared error,MSE)用來度量重建結(jié)果與原始輸入間的誤差,即

        式中:表示原始輸入值;表示重建預(yù)測值;表示被掩蔽的圖像塊數(shù)目.

        2.3?基于鏡像翻轉(zhuǎn)預(yù)測任務(wù)的文本行人檢索

        本文進(jìn)一步設(shè)計了一種新的自監(jiān)督任務(wù),通過預(yù)測圖像是否經(jīng)過鏡像翻轉(zhuǎn)來學(xué)習(xí)圖像中的細(xì)節(jié)信息.其動機(jī)是筆者注意到行人圖像是近似左右對稱的,這使得經(jīng)過水平鏡像翻轉(zhuǎn)后的圖像與原始圖像的差異并不大,因此需要學(xué)習(xí)到一些細(xì)節(jié)的位置信息才能準(zhǔn)確地判斷圖像是否經(jīng)過了鏡像翻轉(zhuǎn).例如,經(jīng)過翻轉(zhuǎn)之后手提包從圖像的左側(cè)到了圖像的右側(cè),只有網(wǎng)絡(luò)學(xué)習(xí)到了這種類似的細(xì)節(jié)信息才可以準(zhǔn)確地分辨這種細(xì)微差異.而這種細(xì)節(jié)的位置信息,對于行人檢索任務(wù)有較大的幫助.例如文本描述提到“左手拎著一個手提包”,如果網(wǎng)絡(luò)中沒有學(xué)習(xí)到這種細(xì)節(jié)位置信息,而數(shù)據(jù)集中恰好存在一個右手拎著手提包的人,就很可能發(fā)生錯誤地匹配,檢索出一個很相似但是錯誤的結(jié)果.

        如圖2所示,基于鏡像翻轉(zhuǎn)預(yù)測任務(wù)的文本行人檢索算法(記為SSL-TBPS-M)的網(wǎng)絡(luò)結(jié)構(gòu)分為兩部分:第1部分是基于文本的行人檢索任務(wù),通過Swin Transformer和BERT提取視覺嵌入和文本嵌入,然后通過優(yōu)化損失函數(shù)對兩種模態(tài)的嵌入進(jìn)行對齊;第2部分是本文設(shè)計的鏡像翻轉(zhuǎn)預(yù)測任務(wù),通過對原始圖像進(jìn)行鏡像翻轉(zhuǎn)得到新的圖像,然后將原始圖像和翻轉(zhuǎn)后的圖像都輸入特征提取網(wǎng)絡(luò),通過分類器預(yù)測輸入的圖像是否經(jīng)過了鏡像翻轉(zhuǎn).這兩部分共享視覺特征提取網(wǎng)絡(luò)的參數(shù).

        圖2  基于鏡像翻轉(zhuǎn)預(yù)測任務(wù)的文本行人檢索網(wǎng)絡(luò)結(jié)構(gòu)

        2.4?目標(biāo)函數(shù)

        本文以多任務(wù)學(xué)習(xí)的形式同時優(yōu)化行人檢索與自監(jiān)督任務(wù)的目標(biāo)函數(shù),但是由于本文的主要目的是實現(xiàn)更好的檢索性能而并不關(guān)注自監(jiān)督任務(wù)的完成情況,因此需要通過目標(biāo)函數(shù)來調(diào)節(jié)不同任務(wù)的權(quán)重,其公式為

        式中、、分別表示3種損失函數(shù)的權(quán)重系數(shù).

        3?實?驗

        3.1?數(shù)據(jù)集和評價指標(biāo)

        CUHK-PEDES是基于文本的行人檢索領(lǐng)域目前唯一的大型公共數(shù)據(jù)集[2],本文在該數(shù)據(jù)集上對提出的算法進(jìn)行評估.CUHK-PEDES數(shù)據(jù)集共包括13003個行人的40206張圖像,每張圖像對應(yīng)兩句文本描述,即共有80412個句子.相比一般的跨模態(tài)檢索數(shù)據(jù)集,CUHK-PEDES中所有的類別都是行人,且圖像質(zhì)量更差,包含很多低分辨率和弱光線的圖像,且平均每個句子含23.5個單詞,也遠(yuǎn)多于一般跨模態(tài)檢索數(shù)據(jù)集,這使得提取有區(qū)分性的視覺和文本特征更加具有挑戰(zhàn)性.

        為了保證實驗的公平性,本文中對CUHK-PEDES數(shù)據(jù)集采用通用的劃分方式[2].即將數(shù)據(jù)集劃分成訓(xùn)練集、驗證集和測試集,其中訓(xùn)練集包含11003個行人的34054張圖像和68108個句子,驗證集包含1000個行人的3078張圖像和6156個句子,測試集包含1000個行人的3074張圖像和6148個句子.

        本文選擇Top-準(zhǔn)確率作為檢索結(jié)果的評價指標(biāo).即在測試階段中,給定一個查詢文本,測試集中的所有圖像根據(jù)與查詢文本的相似度進(jìn)行排序,如果排序后的前個結(jié)果中包含了目標(biāo)圖像則視為檢索成功,檢索成功次數(shù)與總檢索次數(shù)的比值即為Top-準(zhǔn)確率.

        3.2?實驗設(shè)置

        Swin Transformer的4個階段網(wǎng)絡(luò)分別包括2、2、6和2個Transformer Block,將輸入圖像劃分成尺寸為4×4的圖像塊,4個階段網(wǎng)絡(luò)中圖像分別被劃分為56×56、28×28、14×14、7×7個圖像塊.本文所使用的Swin Transformer預(yù)訓(xùn)練模型是由Liu等[19]在ImageNet-1K數(shù)據(jù)集(包含1000個類,128×104張圖像)上訓(xùn)練300個epoch得到的.文本特征提取器選擇在CUHK-PEDES數(shù)據(jù)集上訓(xùn)練過的BERT并凍結(jié)網(wǎng)絡(luò)參數(shù)[13].視覺特征和文本特征的維度都設(shè)置為768.對于所有實驗,都使用AdamW優(yōu)化器[21]訓(xùn)練30個周期.初始學(xué)習(xí)率設(shè)置為8×10–5,最小學(xué)習(xí)率為8×10–7,并使用余弦退火學(xué)習(xí)率衰減策略和5個周期的熱啟動,根據(jù)經(jīng)驗設(shè)置為4.

        3.3?性能評價與分析

        筆者選取了11種較為先進(jìn)且具有代表性的基于文本的行人檢索方法與本文方法進(jìn)行了性能對比,如表1所示.

        表1?算法性能對比

        Tab.1?Algorithm performance comparison %

        按照所用視覺特征提取器的不同將這些方法分成3類,即基于VGG-16的方法、基于ResNet-50的方法和基于Transformer的方法.觀察實驗結(jié)果發(fā)現(xiàn)基于VGG-16的方法在性能上相對落后,這是由于VGG-16的特征提取能力有限,不能很好地從質(zhì)量較差的行人圖像中提取到判別性信息.基于ResNet-50的方法在性能上則要明顯優(yōu)于VGG-16,目前大部分方法仍是使用ResNet-50作為視覺特征提取器.由于Transformer在視覺領(lǐng)域的應(yīng)用從近兩年才剛剛興起,因此基于Transformer的文本行人檢索方法目前較少,但是已經(jīng)展現(xiàn)了出色的性能.與上述方法相比,本文方法在各項指標(biāo)上都實現(xiàn)了最佳的檢索性能,將Top-1、Top-5、Top-10和總計指標(biāo)分別提升了2.77%、0.88%、0.05%和3.99%.Top-1準(zhǔn)確率的明顯提升表明本文方法對于難分樣本具有更好的區(qū)分效果,可以從多個相似的樣本中檢索出正確結(jié)果.

        1)基于圖像修復(fù)與鏡像翻轉(zhuǎn)預(yù)測任務(wù)的文本行人檢索

        本文進(jìn)一步探究了使用不同的自監(jiān)督任務(wù)對于行人檢索性能的影響,如表2所示,當(dāng)=0且=0時表示不使用自監(jiān)督任務(wù),即基線方法;僅=0時表示僅使用圖像修復(fù)任務(wù),記為SSL-TBPS-I;僅=0時表示僅使用鏡像翻轉(zhuǎn)預(yù)測任務(wù),記為SSL-TBPS-M;二者均不為0時表示同時使用兩種自監(jiān)督任務(wù),記為SSL-TBPS.

        表2?自監(jiān)督任務(wù)對性能的影響

        Tab.2  Impacts of different self-supervised tasks on the performance?%

        觀察表2實驗結(jié)果,當(dāng)同時使用兩種自監(jiān)督任務(wù)時,各項指標(biāo)都達(dá)到了最佳,這表明圖像修復(fù)任務(wù)與鏡像翻轉(zhuǎn)預(yù)測任務(wù)之間存在一定的互補(bǔ)性.即圖像修復(fù)任務(wù)可以學(xué)習(xí)到更豐富的語義信息,鏡像翻轉(zhuǎn)預(yù)測任務(wù)可以學(xué)習(xí)到具有判別性的細(xì)節(jié)信息從而幫助區(qū)分難分樣本.

        進(jìn)一步觀察表2發(fā)現(xiàn),在每組實驗中和的具體取值都對實驗性能有著明顯的影響,即調(diào)節(jié)主任務(wù)與輔助任務(wù)之間的權(quán)重配比會影響主任務(wù)的性能.這是由于主任務(wù)與輔助任務(wù)既存在著相關(guān)信息也包含無關(guān)信息,所提方法在本質(zhì)上就是要學(xué)習(xí)到更多對完成主任務(wù)有幫助的相關(guān)信息,盡可能少地學(xué)習(xí)到無關(guān)信息.當(dāng)輔助任務(wù)權(quán)重過低時,輔助任務(wù)難以完成,自然無法學(xué)習(xí)到足夠多的相關(guān)信息;而權(quán)重過高時模型就會傾注更多的“精力”去完成輔助任務(wù),導(dǎo)致學(xué)習(xí)到更多的無關(guān)信息,對主任務(wù)造成干擾.

        2)基于圖像修復(fù)任務(wù)的文本行人檢索

        當(dāng)使用圖像修復(fù)任務(wù)時,相對于不使用任何自監(jiān)督學(xué)習(xí)方法,總性能可以提升3.79%,這證明了自監(jiān)督方法的有效性.

        本文進(jìn)一步探究了當(dāng)面對遮擋數(shù)據(jù)時,基于圖像修復(fù)任務(wù)的算法有何表現(xiàn).通過對數(shù)據(jù)集的觀察,筆者發(fā)現(xiàn)其中的遮擋數(shù)據(jù)相對較少,但是在實際的行人檢索任務(wù)中遮擋情況卻不可避免.因此為了更好地探究算法在面對遮擋數(shù)據(jù)時的表現(xiàn),需要對測試集的數(shù)據(jù)進(jìn)行一定的處理.具體來說,本文對測試集的圖像進(jìn)行隨機(jī)擦除,擦除的概率為50%,擦除部分的面積為2%~30%的隨機(jī)值,長寬比為0.3~3.3的隨機(jī)值.筆者選取了兩種具有代表性的開源算法[5]同本文基于圖像修復(fù)任務(wù)的方法一起分別在原始測試集和處理后的測試集上進(jìn)行測試,比較面對正常數(shù)據(jù)與遮擋數(shù)據(jù)時的性能差值.為了使對比更加直觀,僅比較Top-1準(zhǔn)確率,結(jié)果顯示在表3中(此處對比算法的性能為筆者復(fù)現(xiàn)性能).

        通過表3中的結(jié)果發(fā)現(xiàn),對測試集進(jìn)行一定程度的遮擋處理后,基于圖像修復(fù)任務(wù)的方法性能下降4.34%,要明顯低于NAFS的下降幅度.CMPM+CMPC方法盡管性能下降的絕對幅度不大,但是由于其初始性能較低,從比例來考慮其下降幅度也遠(yuǎn)大于基于圖像修復(fù)任務(wù)的方法.由此可見,基于圖像修復(fù)任務(wù)的方法對于處理行人檢索任務(wù)中的遮擋情況具有一定的優(yōu)勢.

        筆者還探究了選擇不同階段的圖像塊進(jìn)行隨機(jī)掩蔽對行人檢索性能的影響,包括Swin Transformer原始輸入的56×56個圖像塊,第1階段網(wǎng)絡(luò)輸出的28×28個圖像塊以及第2階段網(wǎng)絡(luò)輸出的14×14個圖像塊,如表4所示.當(dāng)選擇對56×56個圖像塊進(jìn)行隨機(jī)掩蔽時,實驗耗時較長,模型體積較大,且性能不佳,這是由于此時圖像修復(fù)任務(wù)過于復(fù)雜,使得網(wǎng)絡(luò)過多地關(guān)注了圖像修復(fù)任務(wù),反而降低了行人檢索的準(zhǔn)確率;當(dāng)選擇對14×14個圖像塊進(jìn)行隨機(jī)掩蔽時,行人檢索性能有較小提升,這是由于此時圖像修復(fù)任務(wù)較為簡單,在完成該任務(wù)的過程中學(xué)習(xí)到的知識也相對較少,因此對于行人檢索任務(wù)的提升有限;當(dāng)選擇對28×28個圖像塊進(jìn)行隨機(jī)掩蔽時,相比另外兩種設(shè)置取得了更好的效果,此時圖像修復(fù)任務(wù)的難度較為合適,可以在完成該任務(wù)的過程中學(xué)習(xí)到更多與行人檢索任務(wù)相關(guān)的信息.

        表3?不同算法面對遮擋數(shù)據(jù)的魯棒性對比

        Tab.3  Robustness comparison of different algorithms against occlusion data?%

        表4?掩蔽不同圖像對檢索性能的影響

        Tab.4  Impacts of masking different images on the re-trieval performance?%

        3)基于鏡像翻轉(zhuǎn)預(yù)測任務(wù)的文本行人檢索

        從表2中進(jìn)一步觀察可知,當(dāng)使用鏡像翻轉(zhuǎn)預(yù)測任務(wù)時,相比于不使用任何自監(jiān)督學(xué)習(xí)方法,Top-1準(zhǔn)確率可以提升1.92%,證明這一簡單的任務(wù)同樣有很好的效果.進(jìn)一步地對比基于鏡像翻轉(zhuǎn)預(yù)測的方法與基于圖像修復(fù)的方法,可發(fā)現(xiàn)基于圖像修復(fù)的方法在Top-5和Top-10兩項指標(biāo)上要優(yōu)于基于鏡像翻轉(zhuǎn)預(yù)測的方法,而基于鏡像翻轉(zhuǎn)預(yù)測的方法在Top-1準(zhǔn)確率上則更有優(yōu)勢.這一結(jié)果表明,圖像修復(fù)任務(wù)可以學(xué)習(xí)到更豐富的語義信息,而鏡像翻轉(zhuǎn)預(yù)測任務(wù)可以更好地學(xué)習(xí)到具有判別性的細(xì)節(jié)信息,更有助于區(qū)分行人檢索中的難分樣本.

        表5展示了基于鏡像翻轉(zhuǎn)預(yù)測任務(wù)的文本行人檢索算法中在Swin Transformer網(wǎng)絡(luò)的不同位置接入分類器對行人檢索性能的影響.結(jié)果表明,在第3階段的網(wǎng)絡(luò)之后連接分類器會取得更好的檢索性能.筆者分析這是由于深層的網(wǎng)絡(luò)會學(xué)習(xí)到具體的語義信息,即針對不同的任務(wù)學(xué)習(xí)到的信息差異較大.因此若分類器連接在深層網(wǎng)絡(luò)會使得整個網(wǎng)絡(luò)對于輔助任務(wù)和主任務(wù)無法兼顧,導(dǎo)致輔助任務(wù)無法完成或是主任務(wù)被干擾.而稍淺層的網(wǎng)絡(luò)學(xué)習(xí)到的特征會更為通用,包含著不同任務(wù)所共同需要的信息,具有更好的泛化性能.

        表5?分類器位置對檢索性能的影響

        Tab.5  Impacts of the classifier position on the retrieval performance? %

        4)基于其他自監(jiān)督任務(wù)的文本行人檢索

        除圖像修復(fù)任務(wù)與鏡像翻轉(zhuǎn)預(yù)測任務(wù)外,本文探索了另外兩種自監(jiān)督任務(wù)與行人檢索任務(wù)相結(jié)合的效果,即圖像旋轉(zhuǎn)角度預(yù)測任務(wù)[10]與拼圖任務(wù)[15],實驗結(jié)果展示在表6中.結(jié)果顯示,這兩種自監(jiān)督任務(wù)并未帶來行人檢索性能的提升,這可能是由于它們與行人檢索任務(wù)的相關(guān)性較弱,因此同時訓(xùn)練反而使得模型學(xué)習(xí)到了較多的無關(guān)知識,不能專注于行人檢索任務(wù).由此可見,設(shè)計自監(jiān)督任務(wù)時需要結(jié)合行人檢索任務(wù)的特點,充分考慮自監(jiān)督任務(wù)與行人檢索任務(wù)的相關(guān)性.

        表6?不同自監(jiān)督任務(wù)對檢索性能的影響

        Tab.6  Impacts of different self-supervised tasks on re-trieval performance?%

        4?結(jié)?語

        為了在基于文本的行人檢索任務(wù)中提取更魯棒、更具有判別性的視覺表示,本文設(shè)計了一種基于自監(jiān)督學(xué)習(xí)的算法,以自監(jiān)督任務(wù)作為輔助任務(wù)從而學(xué)習(xí)對于行人檢索任務(wù)有幫助的信息.本文首先以圖像修復(fù)作為輔助任務(wù),學(xué)習(xí)到了更豐富的語義信息,且面對遮擋數(shù)據(jù)展現(xiàn)了較好的魯棒性.然后進(jìn)一步設(shè)計了一種鏡像翻轉(zhuǎn)預(yù)測任務(wù),為行人檢索任務(wù)學(xué)習(xí)更具有判別性的細(xì)節(jié)信息.在公共數(shù)據(jù)集CUHK-PEDES上進(jìn)行的大量實驗證明了這兩種任務(wù)的有效性,并且兩種任務(wù)展示了一定的互補(bǔ)性,同時使用時實現(xiàn)了更好的檢索效果.

        [1] 龐彥偉,尚楚博,何宇清. 基于尺度不變特征和位置先驗的行人檢測算法[J]. 天津大學(xué)學(xué)報(自然科學(xué)與工程技術(shù)版),2017,50(9):946-952.

        Pang Yanwei,Shang Chubo,He Yuqing. Pedestrian detection algorithm based on scale invariant features and prior position information[J]. Journal of Tianjin University(Science and Technology),2017,50(9):946-952(in Chinese).

        [2] Li S,Xiao T,Li H S,et al. Person search with natural language description[C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,2017:5187-5196.

        [3] Wu L,Hong R C,Wang Y,et al. Cross-entropy adversarial view adaptation for person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology,2019,30(7):2081-2092.

        [4] Ji Z,He E L,Wang H R,et al. Image-attribute reciprocally guided attention network for pedestrian attribute recognition[J]. Pattern Recognition Letters,2019,120:89-95.

        [5] Zhang Y,Lu H C. Deep cross-modal projection learning for image-text matching[C]// European Conference on Computer Vision. Munich,Germany,2018:707-723.

        [6] Jing Y,Si C Y,Wang J B,et al. Pose-guided multi-granularity attention network for text-based person search [C]// AAAI Conference on Artificial Intelligence. New York,USA,2020:11189-11196.

        [7] Niu K,Huang Y,Ouyang W L,et al. Improving description-based person re-identification by multi-granularity image-text alignments[J]. IEEE Transactions on Image Processing,2020,29:5542-5556.

        [8] Chen T,Kornblith S,Norouzi M,et al. A simple framework for contrastive learning of visual representations[C]// International Conference on Machine Learning. Addis Ababa,Ethiopia,2020:1597-1607.

        [9] Su J C,Maji S,Hariharan B. When does self-supervision improve few-shot learning?[C]// European Conference on Computer Vision. Glasgow,UK,2020:645-666.

        [10] Komodakis N,Gidaris S. Unsupervised representation learning by predicting image rotations[C]// International Conference on Learning Representations. Vancouver,Canada,2018:1-16.

        [11] Ji Z,Li S J,Pang Y W. Fusion-attention network for person search with free-form natural language[J]. Pattern Recognition Letters,2018,116:205-211.

        [12] Ji Z,Li S J. Multimodal alignment and attention-based person search via natural language description[J]. IEEE Internet of Things Journal,2020,7(11):11147-11156.

        [13] Gao C Y,Cai G Y,Jiang X Y,et al. Contextual non-local alignment over full-scale representation for text-based person search[EB/OL]. http://arxiv.org/abs/2101. 03036,2021-01-21.

        [14] Li H,Xiao J M,Sun M J,et al. Transformer based language-person search with multiple region slicing[J]. IEEE Transactions on Circuits and Systems for Video Technology,2021,32(3):1624-1633.

        [15] Noroozi M,F(xiàn)avaro P. Unsupervised learning of visual representations by solving jigsaw puzzles[C]// European Conference on Computer Vision. Amsterdam,The Netherlands,2016:69-84.

        [16] He K M,Chen X L,Xie S N,et al. Masked autoencoders are scalable vision learners[EB/OL]. http://arxiv. org/abs/2111. 06377,2021-11-11.

        [17] Zhang R,Isola P,Efros A A. Colorful image colorization[C]//European Conference on Computer Vision. Amsterdam,the Netherlands,2016:649-666.

        [18] Ledig C,Theis L,Huszár F,et al. Photo-realistic single image super-resolution using a generative adversarial network[C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,2017:4681-4690.

        [19] Liu Z,Lin Y T,Cao Y,et al. Swin transformer:Hierarchical vision transformer using shifted windows[C]// IEEE International Conference on Computer Vision. Montreal,Canada,2021:9992-10002.

        [20] Devlin J,Chang M W,Lee K,et al. Bert:Pre-training of deep bidirectional transformers for language understanding[C]// North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Minneapolis,USA,2019:4171-4186.

        [21] Kingma D P,Ba J. Adam:A method for stochastic optimization[C]// International Conference on Learning Representations. San Diego,USA,2015:1-15.

        [22] Chen T L,Xu C L,Luo J B. Improving text-based person search by spatial matching and adaptive threshold[C]// IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe,USA,2018:1879-1887.

        [23] Chen Y C,Huang R,Chang H,et al. Cross-modal knowledge adaptation for language-based person search [J]. IEEE Transactions on Image Processing,2021,30:4057-4069.

        [24] Zhu A C,Wang Z J,Li Y F,et al. DSSL:Deep surroundings-person separation learning for text-based person retrieval[C]// ACM International Conference on Multimedia. Chengdu,China,2021:209-217.

        [25] Wang C J,Luo Z M,Lin Y J,et al. Text-based person search via multi-granularity embedding learning[C]// International Joint Conference on Artificial Intelligence. Montreal,Canada,2021:1068-1074.

        A Self-Supervised Learning Approach for Text-Based Person Search

        Ji Zhong1,Hu Junhua1,Ding Xuewen2,Li Shengjia3

        (1. School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China;2. School of Electronic Engineering,Tianjin University of Technology and Education,Tianjin 300222,China;3. R&D Department,China Academy of Launch Vehicle Technology,Beijing 100076,China)

        The text-based person search task aims at retrieving images of target pedestrians in a large-scale database with text as a query,which is highly practical in social and public safety. In contrast with the conventional crossmodal retrieval task,all categories in this task are pedestrians. However,the slight appearance difference among different pedestrians makes it difficult to discriminate,and poor shooting conditions cause the production of bad image quality. Therefore,the effective extraction of robust and discriminative visual features is an important challenge to this task. In response,a text-based person search algorithm based on self-supervised learning was designed,which formulated the self-supervised learning and text-based person search task in the form of multitask learning. Both tasks were trained at the same time and shared similar model parameters. As an auxiliary task,the self-supervised task aims to learn more robust and discriminative visual features for the person search task. Specifically,visual and textual features were first extracted,and the image inpainting was applied as a self-supervised task,aiming to learn richer semantic information and become more robust to occlusion data. Based on the particularity of the person image,a mirror flip prediction task was further designed to learn discriminative details by training the network to predict whether the image was mirror-flipped or not. This was applied to enable the person search task to distinguish difficult samples. Extensive experiments on the public dataset have demonstrated the superiority and effectiveness of the proposed approach,thereby improving the Top-1 accuracy of person search by 2.77%. Experimental results also show that the two self-supervised tasks are complementary,and better retrieval performance can be achieved using them at the same time.

        person search;crossmodal analysis;self-supervised learning;multitask learning

        10.11784/tdxbz202202003

        TP37

        A

        0493-2137(2023)02-0169-08

        2022-02-07;

        2022-05-09.

        冀?中(1979—??),男,博士,教授.

        冀?中,jizhong@tju.edu.cn.

        天津市自然科學(xué)基金資助項目(19JCYBJC16000);國家自然科學(xué)基金資助項目(62176178);天津市科委科技特派員資助項目(20YDTPJC01110);中國航天科技集團(tuán)公司錢學(xué)森青年創(chuàng)新基金資助項目.

        Supported by the Natural Science Foundation of Tianjin,China(No. 19JCYBJC16000),the National Natural Science Foundation of China (No. 62176178),Tianjin Science and Technology Commissioner Project(No. 20YDTPJC01110),China Aerospace Science and Technology Corporation Qian Xuesen Youth Innovation Fund.

        (責(zé)任編輯:孫立華)

        猜你喜歡
        監(jiān)督文本信息
        突出“四個注重” 預(yù)算監(jiān)督顯實效
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        監(jiān)督見成效 舊貌換新顏
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        夯實監(jiān)督之基
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        監(jiān)督宜“補(bǔ)”不宜“比”
        浙江人大(2014年4期)2014-03-20 16:20:16
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        久久精品国产亚洲av麻| 亚洲乱码一区二区av高潮偷拍的| 四虎永久在线精品免费一区二区 | 色综合久久无码五十路人妻| 亚洲高潮喷水无码av电影| 欧美成人免费看片一区| 蜜桃在线观看视频在线观看| 可免费观看的av毛片中日美韩| 中文无码精品a∨在线观看不卡| 国产98在线 | 免费| 中文字幕五月久久婷热| 蜜臀av一区二区三区久久| 欧美video性欧美熟妇| 91精品一区国产高清在线gif| 日韩人妻无码精品二专区| 青青草手机免费播放视频| 国产激情无码一区二区三区| 风流少妇又紧又爽又丰满| 亚洲一道一本快点视频| 亚洲午夜精品一区二区麻豆av | 18禁美女裸身无遮挡免费网站| 亚洲av成人在线网站| 亚洲永久免费中文字幕| 亚洲av成人片在线观看| 久久婷婷色综合一区二区| 亚洲美女性生活一级片| 国产区女主播一区在线| 狠狠色噜噜狠狠狠狠7777米奇| 国产内射XXXXX在线| 亚洲一区二区三区18| 久久久久亚洲av综合波多野结衣| 国产亚洲视频在线观看网址| 亚洲在线一区二区三区四区| 亚洲不卡高清av网站| 亚洲人午夜射精精品日韩 | 日日爽日日操| 蜜桃国产精品视频网站| 人妻夜夜爽天天爽三区麻豆av网站| 欧美日韩国产成人高清视| 亚洲一区二区三区一站| 久久成人国产精品一区二区|