摘 要:深度學(xué)習(xí)在行人再識(shí)別任務(wù)上的應(yīng)用已經(jīng)取得了較大進(jìn)步。然而,由于深度神經(jīng)網(wǎng)絡(luò)的魯棒性容易受到對(duì)抗樣本的攻擊,深度學(xué)習(xí)在行人再識(shí)別模型應(yīng)用中暴露出來一些安全問題。針對(duì)該問題,提出一種無感噪聲攻擊的防御方法DSN。首先,利用RGB圖像的灰度補(bǔ)丁圖像,使其在訓(xùn)練過程中增強(qiáng)數(shù)據(jù),從而提升行人再識(shí)別模型的識(shí)別能力。其次,采用模型內(nèi)外結(jié)合的防御結(jié)構(gòu),并采用一種新的降噪網(wǎng)絡(luò),對(duì)輸入的噪聲圖像進(jìn)行降噪處理,從而使得行人再識(shí)別模型有更高的識(shí)別精度和防御無感噪聲攻擊的能力。在market1501數(shù)據(jù)集上模擬無感噪聲攻擊與防御,實(shí)驗(yàn)結(jié)果顯示,該方法將mAP識(shí)別精度從2.6%提高到82.6%,rank-1精度從0.8%提高到83.5%。另外,通過消融實(shí)驗(yàn)表明了該方法中每個(gè)模塊防御無感噪聲攻擊的有效性。
關(guān)鍵詞:行人再識(shí)別;無感噪聲;對(duì)抗樣本;對(duì)抗防御;對(duì)抗攻擊
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2022)07-041-2172-06
doi:10.19734/j.issn.1001-3695.2021.11.0659
基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(62002179)
作者簡介:王進(jìn)(1981-),男(通信作者),江蘇南通人,副教授,碩導(dǎo),博士,主要研究方向?yàn)槿斯ぶ悄埽╳j@ntu.edu.cn);張榮(1998-),女,山西運(yùn)城人,碩士,主要研究方向?yàn)橛?jì)算機(jī)視覺.
Defense method for senseless noise attack in pedestrian re-identification system
Wang Jin1,2?,Zhang Rong2
(1.School of Computer amp; Information Engineering,Nantong Institute of Technology,Nantong Jiangsu 226000,China;2.School of Information Science amp; Technology,Nantong University,Nantong Jiangsu 226000,China)
Abstract:The application of deep learning to the task of pedestrian re-identification has made great progress.However,deep learning has exposed some security issues in pedestrian re-identification model applications due to the robustness of deep neural networks that are vulnerable to attacks by adversarial samples.To address this problem,this paper proposed a defense method DSN for senseless noise attacks.First,it used grayscale patch images of RGB images to enhance the data during the training process,so as to improve the recognition ability of the pedestrian re-identification model.Secondly,it adopted a defense structure combining the inside and outside of the model and used a new noise reduction network to de-noise the input noisy images,so that the pedestrian re-identification model had higher recognition accuracy and defense against senseless noise attacks.Simulating the senseless noise attack and defense on the market1501 dataset,the experimental results show that the method improves the mAP identification accuracy from 2.6% to 82.6% and rank-1 accuracy from 0.8% to 83.5%.In addition,the effectiveness of each module in the method to defend against the senseless noise attack is demonstrated by ablation experiments.
Key words:pedestrian re-identification(Re-ID);senseless noise;adversarial samples;adversarial defense;adversarial attack
0 引言
行人再識(shí)別(Re-ID)是計(jì)算機(jī)視覺方向的一個(gè)任務(wù),是指在非重疊的攝像機(jī)中識(shí)別出感興趣的行人?;谏疃葘W(xué)習(xí)的行人再識(shí)別方法已經(jīng)取得了顯著的進(jìn)展[1~5]。盡管如此,由于當(dāng)前深度神經(jīng)網(wǎng)絡(luò)面對(duì)對(duì)抗樣本的脆弱性[6~10],基于深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用容易受到各類攻擊。文獻(xiàn)[11,12]發(fā)現(xiàn),在圖像上添加一些微小的擾動(dòng),就會(huì)使得模型被欺騙,輸出完全相反的結(jié)果?,F(xiàn)實(shí)生活中,在自動(dòng)駕駛領(lǐng)域[13,14],對(duì)手可以通過在路標(biāo)上添加對(duì)抗性貼片誤導(dǎo)自動(dòng)駕駛系統(tǒng)作出錯(cuò)誤的判斷,造成交通事故。在行人再識(shí)別領(lǐng)域,基于深度神經(jīng)網(wǎng)絡(luò)的Re-ID模型也被發(fā)現(xiàn)容易受到對(duì)抗樣本的攻擊[15~17]。如圖1所示,通過添加人類視覺無法感知的噪聲,不同相機(jī)中同一行人的圖像相似度急劇下降,從82.9%下降到10.5%,不同行人的圖像相似度反而從12.0%上升到82.3%,這個(gè)結(jié)果表明了現(xiàn)有Re-ID模型具有較大的安全隱患,這可能會(huì)造成巨大損失。例如犯罪分子可能會(huì)利用這種對(duì)抗攻擊來逃脫或誤導(dǎo)監(jiān)控系統(tǒng)的搜索,這將會(huì)給社會(huì)帶來很大危險(xiǎn)。因此,研究Re-ID模型中無感噪聲攻擊的防御方法是目前面臨的一項(xiàng)重要任務(wù)。
近年來,Re-ID系統(tǒng)中有多種對(duì)抗攻擊方法被提出。文獻(xiàn)[18,19]提出了物理對(duì)抗攻擊,通過在行人T恤上生成對(duì)抗圖案來使Re-ID模型無法正確匹配到該行人;文獻(xiàn)[17]提出了兩種度量攻擊,自度量攻擊和反向度量攻擊,都是通過距離度量形成的對(duì)抗攻擊方法;Ding等人[16]提出了一種不需要確定圖像以及模型的通用對(duì)抗擾動(dòng),通過生成對(duì)抗樣本來擾亂Re-ID系統(tǒng)最后輸出的排序等。這些攻擊方法都說明了Re-ID模型存在安全隱患?,F(xiàn)有研究大多集中在Re-ID模型的攻擊方法,而Re-ID防御方法的研究較少。Bai等人[20]提出了一種針對(duì)距離對(duì)抗攻擊的防御協(xié)議,通過訓(xùn)練一個(gè)保持度量的模型來防御度量攻擊,在原始訓(xùn)練集和對(duì)抗訓(xùn)練集上對(duì)防御模型進(jìn)行訓(xùn)練。這種防御方法僅僅是針對(duì)對(duì)抗度量攻擊的防御方法,無法防御無感噪聲攻擊。
無感噪聲攻擊是指微小的、可轉(zhuǎn)移的、人類視覺無法感知的對(duì)抗攻擊,本文提出了一種針對(duì)無感噪聲攻擊的防御方法DSN。通過采用灰度補(bǔ)丁對(duì)原始數(shù)據(jù)進(jìn)行灰度化來增強(qiáng)模型的識(shí)別能力,并采用一種忙降噪的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)對(duì)抗圖像進(jìn)行降噪處理,采用模型內(nèi)外結(jié)合的防御結(jié)構(gòu),從而提高Re-ID模型抵御對(duì)抗攻擊的能力,增強(qiáng)Re-ID模型安全性。
1 相關(guān)工作
1.1 行人再識(shí)別
隨著深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用到各個(gè)領(lǐng)域。由于深度神經(jīng)網(wǎng)絡(luò)較強(qiáng)的特征表示能力,現(xiàn)有的行人再識(shí)別方法大多數(shù)都采用了深度神經(jīng)網(wǎng)絡(luò)。
早期的一些行人再識(shí)別方法是通過構(gòu)建不同的深度模型及構(gòu)造不同的損失函數(shù)來提高識(shí)別精度。Chen等人[21]提出的四聯(lián)體損失是通過在原三聯(lián)體損失的基礎(chǔ)上構(gòu)建新的損失函數(shù)提高識(shí)別精度;Cheng等人[22]提出了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的多通道模型,通過改進(jìn)的三聯(lián)體損失進(jìn)行訓(xùn)練;羅浩等人[23]介紹了早期傳統(tǒng)方法的局限性,并舉例對(duì)比了部分算法的性能。
近期的一些行人再識(shí)別方法逐漸轉(zhuǎn)向基于身體部位,利用人體各部位局部特征及注意力來提高識(shí)別精度。Fu等人[24]提出一種水平金字塔匹配方法,利用人體各個(gè)部位信息提高識(shí)別精度,使得即使缺少行人的部分信息也可以準(zhǔn)確識(shí)別出該行人;Sun等人[2]提出一個(gè)卷積基線網(wǎng)絡(luò)模型,將人體部位手動(dòng)切分為六部分,通過切分的部位特征進(jìn)行識(shí)別匹配,提高識(shí)別精度;Luo 等人[3]提出了一個(gè)動(dòng)態(tài)匹配行人特征的方法,加入了特征對(duì)齊的思想,在行人識(shí)別過程中先進(jìn)行人體部位特征對(duì)齊再進(jìn)行特征匹配,更進(jìn)一步提高了識(shí)別精度。
盡管這些方法實(shí)現(xiàn)了高性能的識(shí)別精度,但都是在理想假設(shè)下的實(shí)驗(yàn)。如果在現(xiàn)實(shí)場景中,這些方法面臨各種攻擊,很容易造成性能急劇下降。
1.2 對(duì)抗攻擊
從文獻(xiàn)[25]首次提出神經(jīng)網(wǎng)絡(luò)容易受到對(duì)抗攻擊后,研究者們開始了對(duì)抗攻擊方面的探索,在圖像分類領(lǐng)域[26]和人臉識(shí)別領(lǐng)域[27,28]都進(jìn)行了深入研究。對(duì)抗攻擊在行人再識(shí)別方面的研究在近兩年才開始展開,分為物理對(duì)抗攻擊與電子對(duì)抗攻擊。
物理對(duì)抗攻擊是在真實(shí)的物體上附著對(duì)抗補(bǔ)丁來欺騙Re-ID模型,例如行人穿著帶有對(duì)抗攻擊圖案的衣服或飾品,使得拍攝到的行人圖像無法被Re-ID模型正確匹配,從而達(dá)到攻擊的目的。Wang等人[18]提出了一種物理攻擊算法advPattern,通過該算法生成兩種對(duì)抗圖案,將該對(duì)抗圖案打印出來貼在行人衣服上,從而使得拍攝到的圖像在進(jìn)行Re-ID模型匹配時(shí)無法檢測到該行人或者識(shí)別匹配出錯(cuò)誤的行人。Xu等人[19]也提出了一種物理對(duì)抗例子,通過對(duì)抗T恤來進(jìn)行攻擊,與物理攻擊算法advPattern不同的是,行人在行走過程中,會(huì)因?yàn)閯?dòng)態(tài)變化使得拍攝到的行人圖像上對(duì)抗圖案存在遮擋及變形的問題,對(duì)抗T恤解決了這些問題,達(dá)到了更好的攻擊效果。
電子對(duì)抗攻擊是在Re-ID模型進(jìn)行識(shí)別匹配時(shí)攻擊,對(duì)拍攝到的數(shù)據(jù)進(jìn)行處理,使得同一行人圖像相似度降低,不同行人圖像相似度升高。
a)其中一類電子對(duì)抗攻擊是基于距離度量的攻擊方法。Bai等人[20]提出了一種對(duì)抗度量攻擊,為Re-ID模型生成對(duì)抗示例,破壞圖像之間的成對(duì)距離,從而導(dǎo)致Re-ID系統(tǒng)的識(shí)別精度下降;文獻(xiàn)[17]提出了
自度量攻擊方法和最遠(yuǎn)負(fù)度量攻擊方法兩種度量攻擊方法,不同點(diǎn)是攻擊期間是否有別的可用圖像,相同點(diǎn)都是通過輸出對(duì)抗圖像例子來減小不同身份圖像特征之間的距離,增加相同身份圖像特征之間的距離,從而降低識(shí)別精度。
b)另一類電子對(duì)抗攻擊是通過在圖像上添加一些人類視覺無法感知的噪聲擾動(dòng)來影響系統(tǒng)輸出的結(jié)果,即無感噪聲攻擊。特別是2020年CVPR會(huì)議上Wang等人[29]提出的一種可轉(zhuǎn)移的、可控制的以及不明顯的Mis-Rank對(duì)抗攻擊,采用一種新的錯(cuò)誤排序公式,為每個(gè)圖像產(chǎn)生相對(duì)應(yīng)的無感噪聲,通過添加這種無感噪聲使得Re-ID系統(tǒng)輸出錯(cuò)誤的排序結(jié)果,性能較好的Re-ID模型在被攻擊后的識(shí)別精度從91.8%急劇下降到1.4%,這類攻擊對(duì)Re-ID系統(tǒng)構(gòu)成嚴(yán)重威脅。
1.3 防御方法
隨著對(duì)抗攻擊方法的不斷提出,防御方法也被進(jìn)一步研究。在圖像分類任務(wù)中,防御方法主要是通過模糊梯度及對(duì)抗訓(xùn)練來防止對(duì)抗性例子的錯(cuò)誤分類。Liao等人[30]提出了一種高層次表征引導(dǎo)去噪器,通過去噪圖像與常規(guī)圖像之間的損失差異作為損失函數(shù)來減小圖像錯(cuò)誤分類的結(jié)果。對(duì)抗訓(xùn)練則是通過對(duì)抗樣本訓(xùn)練模型,該方法在訓(xùn)練期間需要每個(gè)圖像的對(duì)抗樣本,且需要多個(gè)模型生成對(duì)抗樣本,該方法是在圖像分類任務(wù)中抵御對(duì)抗攻擊的一種有效的方法。
由于行人再識(shí)別問題一般被認(rèn)為是圖像檢索的子問題,是一種排序類問題,不屬于圖像分類問題,所以圖像分類任務(wù)中的防御方法并不適用于行人再識(shí)別領(lǐng)域。對(duì)于行人再識(shí)別領(lǐng)域的防御方法研究才剛剛開始,針對(duì)度量攻擊的防御方法目前僅見兩篇文獻(xiàn):a)Bai等人[20]提出的防御協(xié)議,通過訓(xùn)練一個(gè)度量保持模型來防御度量攻擊,采用訓(xùn)練集以及訓(xùn)練集的對(duì)抗性數(shù)據(jù)集對(duì)防御模型進(jìn)行訓(xùn)練,達(dá)到防御度量攻擊的目的;b)文獻(xiàn)[17]提出了一種適用于度量學(xué)習(xí)的對(duì)抗訓(xùn)練協(xié)議擴(kuò)展,與文獻(xiàn)[20]的離線對(duì)抗防御協(xié)議不同的是,它通過在線對(duì)抗訓(xùn)練,使用不同的攻擊方法生成新的對(duì)抗例子,從而達(dá)到更好的針對(duì)度量攻擊的防御效果。這兩種是針對(duì)度量攻擊的防御方法,而對(duì)于Re-ID系統(tǒng)中的另一類添加人類視覺無法感知的無感噪聲攻擊的防御方法目前還未發(fā)現(xiàn)相關(guān)研究。
2 方法
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示,傳統(tǒng)方法僅使用常規(guī)數(shù)據(jù)集及將常規(guī)數(shù)據(jù)集隨機(jī)翻轉(zhuǎn)后的數(shù)據(jù)集進(jìn)行Re-ID模型訓(xùn)練,未考慮到行人圖像色彩不均勻造成的訓(xùn)練后模型容易受到攻擊的問題。本文采用了一種新的數(shù)據(jù)增強(qiáng)方法,加入全局灰度替換模塊增強(qiáng)數(shù)據(jù)(圖2),在數(shù)據(jù)處理階段對(duì)數(shù)據(jù)集中的部分常規(guī)圖像灰度化,利用灰度化后的圖像與常規(guī)圖像一起訓(xùn)練模型,增強(qiáng)Re-ID模型的識(shí)別精度以及防御對(duì)抗攻擊的能力。
防御結(jié)構(gòu)如圖3所示。首先,對(duì)攻擊后的對(duì)抗圖像I1進(jìn)行尺寸調(diào)整,調(diào)整為64×128,然后對(duì)調(diào)整后的對(duì)抗圖像I2經(jīng)過內(nèi)外結(jié)合防御模塊,再經(jīng)過一個(gè)降噪網(wǎng)絡(luò)進(jìn)行降噪處理,最后將得到的降噪圖像I3通過訓(xùn)練好的模型M,以此測試模型的防御能力。具體過程如算法1所示。
算法1 防御結(jié)構(gòu)算法
輸入:無感噪聲攻擊圖像I1;訓(xùn)練好的Re-ID模型M;
輸出:降噪圖像I3;模擬防御結(jié)果。
a)I1 128×256尺寸重置得到I2 64×128;
b)將I2通過降噪網(wǎng)絡(luò)得到降噪圖像I3;
c)訓(xùn)練時(shí)重置I3為50×100;
d)推理階段恢復(fù)I3尺寸為384×128;
e)輸入到Re-ID模型M;
f)得到防御結(jié)果。
2.2 全局灰度替換模塊
全局灰度替換模塊如圖2所示,全局灰度替換即為將RGB圖像轉(zhuǎn)換為灰度圖像。在訓(xùn)練過程中,將部分?jǐn)?shù)據(jù)的RGB圖像替換為灰度圖像,以此來提升Re-ID模型的識(shí)別精度,并且提高模型抵御對(duì)抗攻擊的能力。在行人再識(shí)別領(lǐng)域中,由于真實(shí)場景中拍攝的行人圖像存在光照不均勻的情況,所以需要考慮到拍攝的行人圖像可能會(huì)有色彩不均勻的問題,或者是在光照較暗的地方以及陰雨天氣拍攝到的行人圖像較暗的問題。但是,目前在行人再識(shí)別研究中發(fā)現(xiàn)這類情況并未被考慮到,因此本文提出了這種灰度替換的模塊,將原始圖像灰度化,解決了現(xiàn)實(shí)場景中拍攝圖片偏暗的問題,從而使得模型的識(shí)別精度更高并且不易被攻擊。算法流程如算法2所示。
算法2 全局灰度替換增強(qiáng)Re-ID模型算法
輸入:待訓(xùn)練的圖像集W;灰度化函數(shù)convert();隨機(jī)灰度化圖像的概率p;Re-ID基線模型。
輸出:訓(xùn)練好的Re-ID模型M。
a)輸入探測集圖像V和訓(xùn)練集圖像W;
b)采用灰度化函數(shù)covert()將5%的訓(xùn)練數(shù)據(jù)灰度化,增強(qiáng)數(shù)據(jù);
c)增加損失函數(shù)訓(xùn)練參數(shù)為Θ的特征提取器F;
d)分別提取探測集圖像V和訓(xùn)練集圖像W的視覺特征F(V,Θ)和F(W,Θ);
e)計(jì)算F(V,Θ)和F(W,Θ)之間的成對(duì)距離用于索引和排序;
f)輸出排序結(jié)果;
g)得到訓(xùn)練好的Re-ID模型M。
在模型訓(xùn)練過程中需要估計(jì)隨機(jī)灰度化圖像概率p這個(gè)超參數(shù),在對(duì)隨機(jī)灰度化圖像的概率p這個(gè)參數(shù)取值時(shí),取了0.01、0.03、0.05、0.07、0.09這幾個(gè)值進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果對(duì)比如圖4所示。使用market1501數(shù)據(jù)集在模型Alignedreid++上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)發(fā)現(xiàn),在概率p取0.05時(shí)rank-1的精度最高,因此在以下實(shí)驗(yàn)中將隨機(jī)灰度化概率p取值為0.05。
2.3 重置圖像尺寸模塊
重置圖像尺寸模塊在本文方法中的應(yīng)用如圖3所示。Re-ID模型實(shí)驗(yàn)時(shí)使用的數(shù)據(jù)集中,常規(guī)行人圖像的尺寸都為64×128,因此在對(duì)抗防御時(shí)首先對(duì)對(duì)抗數(shù)據(jù)集尺寸進(jìn)行縮放,與常規(guī)數(shù)據(jù)集圖像尺寸保持一致,這在很大程度上可以抵御部分對(duì)抗攻擊由于改動(dòng)了數(shù)據(jù)集尺寸而造成的識(shí)別精度下降的問題。在本文方法中,使用mis-rank攻擊后,如圖5所示,查詢集圖像的尺寸被修改為128×256,本文方法在防御實(shí)驗(yàn)時(shí)將mis-rank攻擊后的查詢集行人圖像尺寸縮放到原始圖像的大小64×128。
由于Re-ID模型在使用market1501數(shù)據(jù)集訓(xùn)練過程中都會(huì)對(duì)訓(xùn)練圖像的尺寸大小進(jìn)行調(diào)整,然后將調(diào)整后的行人圖像輸入模型進(jìn)行訓(xùn)練。因此在本文的防御結(jié)構(gòu)中,測試時(shí)先將market1501數(shù)據(jù)集中的查詢集圖像尺寸大小縮放為50×100,再將縮放后的圖像尺寸大小在推理階段調(diào)整為原尺寸,如圖6所示,這個(gè)過程從模型的外部破壞了對(duì)抗樣本的圖像結(jié)構(gòu),但不會(huì)顯著破壞模型的性能,然后再用該方法將縮放為原尺寸的圖像輸入到模型,達(dá)到保護(hù)模型內(nèi)部結(jié)構(gòu)的目的。
2.4 降噪模塊
本文方法采用一種新的降噪網(wǎng)絡(luò)結(jié)構(gòu),如圖7所示,輸入是添加無感噪聲的行人圖像,輸出是降噪后的行人圖像,降噪網(wǎng)絡(luò)由主干網(wǎng)絡(luò)與條件編碼器兩部分組成。
條件編碼器部分是由簡單的兩層1×1的卷積層組成,條件編碼器是通過接受輸入條件來輸出合適參數(shù),在主干網(wǎng)絡(luò)中則是利用這些參數(shù)來適當(dāng)調(diào)整特征值。如圖7中的α、β表示條件編碼器的輸出參數(shù)。
主干網(wǎng)絡(luò)是用3×3的卷積層,采用多個(gè)條件變換塊級(jí)聯(lián)的方式構(gòu)成,并且有效地結(jié)合條件信息,利用條件編碼器輸出的參數(shù)α、β調(diào)整特征值。在每個(gè)條件變換塊中都包含有多個(gè)殘差塊,對(duì)于這些殘差塊采用殘差學(xué)習(xí)的方法,即學(xué)習(xí)添加了無感噪聲后的行人圖像而不是常規(guī)的行人圖像。這里假設(shè)經(jīng)過多個(gè)殘差塊級(jí)聯(lián),然后在經(jīng)過條件參數(shù)變換前的特征為Fi,經(jīng)過條件參數(shù)變換后的特征為Fo,那么變換后的輸出特征為Fo=αFi+β,其中表示按照元素進(jìn)行的乘法操作。主干網(wǎng)絡(luò)級(jí)聯(lián)了多個(gè)這樣的條件變換塊,采用條件編碼器的輸出參數(shù)對(duì)最后一層卷積層的輸出特征進(jìn)行調(diào)整并與其他條件變換塊共享?xiàng)l件編碼參數(shù),從而對(duì)整個(gè)網(wǎng)絡(luò)最后輸出特征進(jìn)行調(diào)整。
3 實(shí)驗(yàn)
本文選用本領(lǐng)域具有代表性的Re-ID模型ReID-strong-baseline[31]和Aligned ReID++[3]進(jìn)行實(shí)驗(yàn)。ReID-strong-baseline是一個(gè)添加了多個(gè)識(shí)別技巧的Re-ID基線模型。Aligned ReID++是一個(gè)采用局部特征及特征對(duì)齊的Re-ID模型。它們在market1501數(shù)據(jù)集上都有較高的識(shí)別精度,是被多數(shù)人認(rèn)可的Re-ID模型,因此實(shí)驗(yàn)是在這兩個(gè)Re-ID模型上進(jìn)行。首先,準(zhǔn)備好常規(guī)圖像數(shù)據(jù)集market1501;然后采用由Wang等人[29]在2020年CVPR會(huì)議上提出來的mis-rank攻擊方法對(duì)該常規(guī)圖像I進(jìn)行無感噪聲模擬攻擊,生成對(duì)抗樣本I1,如圖3模擬攻擊模塊所示;最后,在該對(duì)抗樣本上采用本文方法進(jìn)行防御實(shí)驗(yàn)。
由于前人所提方法中部分模型一些細(xì)節(jié)不明確[32~34],在實(shí)驗(yàn)時(shí)未能復(fù)現(xiàn)其模型進(jìn)行模擬攻擊,因此實(shí)驗(yàn)部分僅采用了兩種模型驗(yàn)證本文防御方法。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)時(shí)常規(guī)圖像數(shù)據(jù)集使用的是market1501數(shù)據(jù)集。market1501數(shù)據(jù)集是由六個(gè)攝像機(jī)在清華大學(xué)校園所拍攝,該數(shù)據(jù)集包含1 501個(gè)不同的行人,共有32 668張行人圖像。其中訓(xùn)練集包含751個(gè)不同的行人,共有12 936張圖像;畫廊集中包含750個(gè)不同的行人,共有19 732張行人圖像;查詢集中共有3 368張行人圖像。對(duì)抗圖像使用mis-rank攻擊方法模擬攻擊后的圖像,由于mis-rank攻擊后改變了market1501數(shù)據(jù)集中的查詢集,所以在對(duì)抗防御實(shí)驗(yàn)時(shí),使用對(duì)抗攻擊后的查詢集替換原market1501數(shù)據(jù)集中的查詢集。
3.2 評(píng)價(jià)指標(biāo)
評(píng)價(jià)指標(biāo)使用的是行人再識(shí)別領(lǐng)域常用的主流評(píng)價(jià)指標(biāo)rank-n以及mAP。rank-n表示匹配的結(jié)果中最靠前的n張圖像中有正確結(jié)果的概率,例如rank-1為90%表示的是使用Re-ID模型對(duì)數(shù)據(jù)集進(jìn)行匹配時(shí)返回結(jié)果中第一張圖像是該行人的概率為90%。在本文中對(duì)比了rank-1、rank-5及rank-10這三個(gè)值。mAP表示的是平均精度,是指由精準(zhǔn)率和召回率所畫的PR曲線下方的面積。rank-n及mAP值越高,說明匹配的結(jié)果越高,即該Re-ID模型性能越好。
3.3 實(shí)驗(yàn)設(shè)置
由mis-rank攻擊方法生成的對(duì)抗圖像命名為一個(gè)獨(dú)立的數(shù)據(jù)集,用該數(shù)據(jù)集替換market1501數(shù)據(jù)集中的查詢集,使用訓(xùn)練好的Re-ID模型進(jìn)行測試得到攻擊后的結(jié)果。防御測試時(shí)先將獨(dú)立的對(duì)抗圖像數(shù)據(jù)集里所有圖像尺寸縮放為64×128,再用縮放后的對(duì)抗圖像數(shù)據(jù)集替換market1501數(shù)據(jù)集中的查詢集。防御測試時(shí)使用的Re-ID模型是添加了本文提出的灰度補(bǔ)丁替換模塊后的模型,將灰度補(bǔ)丁替換模塊分別添加到模型ReID-strong-baseline和Aligned ReID++上,然后經(jīng)過訓(xùn)練,將訓(xùn)練完成后的模型用于防御實(shí)驗(yàn)。
3.4 實(shí)驗(yàn)分析
在模型ReID-strong-baseline上的實(shí)驗(yàn)結(jié)果如表1所示。原模型在market1501數(shù)據(jù)集上mAP的精度為94.2%,rank-1的精度為95.4%,然而在經(jīng)過mis-rank攻擊后,mAP的精度下降為2.6%,rank-1精度下降為0.8%。在ReID-stromg-baseline模型上加入本文提出的灰度補(bǔ)丁替換模塊后,在market1501數(shù)據(jù)集上的mAP精度為94.6%,比不添加該模塊的原模型升高0.4%,rank-1精度為95.7%,比原模型升高0.3%。在經(jīng)過mis-rank攻擊后,采用本文防御方法進(jìn)行對(duì)抗防御后,mAP精度為82.6%,rank-1精度為83.5%,比原模型被攻擊后的mAP精度提升80.0%,rank-1精度提升82.7%,即在采用本文方法進(jìn)行防御后mAP精度提升了約31倍,rank-1精度提升了約104倍。將本文方法與data defense[35]方法相比,mAP的精度提升了6.8%,rank-1精度提升了6.1%。
在模型Aligned ReID++模型上的實(shí)驗(yàn)結(jié)果如表2所示。原模型在market1501數(shù)據(jù)集上的mAP精度為88.5%,rank-1精度為92.0%,然而在經(jīng)過mis-rank攻擊后,mAP的精度下降為1.8%,rank-1的精度下降為1.0%。在aligned ReID++模型上加入本文提出的全局灰度補(bǔ)丁替換模塊后,在market1501數(shù)據(jù)集上的mAP精度為89.9%,比原模型提升了1.4%,rank-1精度為93.1%,比原模型提升了1.1%。在經(jīng)過mis-rank攻擊后,采用本文防御方法進(jìn)行對(duì)抗防御后,mAP精度為68.0%,rank-1精度為66.7%,比原模型被攻擊后的mAP精度提升66.2%,rank-1精度提升65.75%,即在采用本文防御方法后mAP精度提升了約37倍,rank-1精度提升了約66倍。
綜上,在模型ReID-strong-baseline和模型aligned ReID++上的實(shí)驗(yàn)表明了本文防御方法的有效性,經(jīng)過分析認(rèn)為,該模型具有防御效果的原因有:a)采用全局灰度替換的數(shù)據(jù)增強(qiáng)方式,在訓(xùn)練模型時(shí)對(duì)數(shù)據(jù)的灰度化處理,使得模型可以防御由于色彩變化造成識(shí)別率下降的問題;b)對(duì)攻擊圖像的尺寸處理,在輸入時(shí)先進(jìn)行了尺寸的縮放,又在推理階段恢復(fù)了統(tǒng)一的圖像尺寸,這個(gè)過程不僅保護(hù)了模型的內(nèi)部結(jié)構(gòu),而且破壞了對(duì)抗圖像的攻擊結(jié)構(gòu),使得模型有了更好的識(shí)別能力;c)采用一種新型的盲降噪網(wǎng)絡(luò)結(jié)構(gòu),可以有效去除攻擊圖像上的噪聲干擾,使得模型可以防御無感噪聲的攻擊。
3.5 消融實(shí)驗(yàn)
為了驗(yàn)證本文防御方法中每個(gè)模塊的有效性,在本節(jié)中設(shè)置了不同的消融實(shí)驗(yàn)進(jìn)行對(duì)比分析。采用由mis-rank攻擊生成的對(duì)抗數(shù)據(jù)集分別在ReID-strong-baseline和aligned ReID++這兩個(gè)模型上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如表3、4所示。防御實(shí)驗(yàn)測試所用模型是在原模型上添加了全局灰度補(bǔ)丁模塊進(jìn)行訓(xùn)練后的模型。如表3、4所示,mis-rank attack表示的是由該攻擊方法在原模型上進(jìn)行攻擊后的實(shí)驗(yàn)結(jié)果;+resize 64×128表示的是測試前對(duì)被攻擊的數(shù)據(jù)尺寸進(jìn)行縮放,縮放為攻擊前尺寸大小模塊后的實(shí)驗(yàn)結(jié)果;+resize([100,50])表示添加內(nèi)外結(jié)合的防御結(jié)構(gòu)模塊后的實(shí)驗(yàn)結(jié)果;+DB表示添加降噪網(wǎng)絡(luò)模塊后的實(shí)驗(yàn)結(jié)果。
在模型ReID-strong-baseline上的消融實(shí)驗(yàn)結(jié)果如表3所示,可以看到在不添加任何防御模塊時(shí),被攻擊后模型的mAP精度為2.6%,rank-1精度為0.8%,rank-5精度為3.1%,rank-10精度為5.2%。a)在添加縮放尺寸模塊后,識(shí)別精度都有明顯提高,mAP精度為56.8%,比之前提高了54.2%,rank-1精度為57.0%,比之前提高了56.2%,rank-5精度為73.0%,比之前提高了69.9%,rank-10精度為79.7%,比之前提高了74.5%,這說明了添加該防御模塊的有效性;b)在添加了內(nèi)外相結(jié)合的防御結(jié)構(gòu)后,模型的識(shí)別精度又進(jìn)一步提高,mAP精度為81.3%,比不加該模塊時(shí)提高了24.5%,rank-1精度為82.1%,比不加該模塊時(shí)提高了25.1%,rank-5精度為91.1%,比不加該模塊之前提高了18.1%,rank-10精度為93.6%,比不加該模塊之前提高了14.5%,這又進(jìn)一步說明了本文提出的內(nèi)外相結(jié)合的防御機(jī)構(gòu)模塊的有效性;c)在添加降噪模塊后的實(shí)驗(yàn)結(jié)果中可以看到,添加該模塊后mAP精度、rank-1精度、 rank-5精度、rank-10精度也都有所提升,從而說明了添加降噪網(wǎng)絡(luò)模塊的有效性。
為了增加各個(gè)防御模塊的說服力以及驗(yàn)證其通用性,本文又在模型aligned ReID++上做了消融實(shí)驗(yàn),與模型ReID-strong-baseline上的消融實(shí)驗(yàn)做法類似,依次添加各個(gè)模塊來驗(yàn)證其有效性。如表4所示,在不添加任何防御模塊時(shí),模型aligned ReID++被mis-rank攻擊后mAP精度為1.8%,rank-1精度為1.0%,rank-5精度為3.1%,rank-10精度為5.2%。a)在添加本文提出的縮放模塊進(jìn)行防御后,mAP精度為52.2%,提升了50.4%,rank-1精度為48.3%,提升了47.3%,rank-5精度為66.1%,提升了63.0%,rank-10精度為73.0%,提升了67.8%,說明了添加縮放模塊的有效性;b)在添加縮放尺寸模塊的基礎(chǔ)上再添加內(nèi)外結(jié)合的防御結(jié)構(gòu)后,mAP精度上升為67.3%,比之前提升了15.1%,rank-1精度上升為65.7%,比之前提升了17.4%,rank-5精度為78.8%,比之前提升了17.7%,rank-10精度為84.0%,比之前提升了11.0%,這進(jìn)一步說明了內(nèi)外結(jié)合的防御結(jié)構(gòu)的有效性;c)在添加降噪網(wǎng)絡(luò)模塊后,模型的mAP精度、rank-1精度等也都有一定程度的提高,這說明了添加降噪網(wǎng)絡(luò)模塊的有效性。
綜上所述,在模型ReID-strong-baseline和aligned ReID++上的消融實(shí)驗(yàn)表明了本文方法中各個(gè)防御模塊的有效性以及通用性。
4 結(jié)束語
本文提出了一種針對(duì)無感噪聲攻擊的防御方法。由于這種攻擊不僅對(duì)人類視覺所免疫,不易察覺,而且具有可遷移性,在多種Re-ID模型上都具有強(qiáng)大的攻擊效果,產(chǎn)生很大的危害。本文防御方法利用尺寸縮放模塊及內(nèi)外結(jié)合的防御結(jié)構(gòu),從模型外部破壞了這種噪聲圖像結(jié)構(gòu),但又不會(huì)對(duì)模型內(nèi)部圖像產(chǎn)生很大影響,并且采用降噪網(wǎng)絡(luò)對(duì)攻擊后的行人圖像進(jìn)行降噪處理,從而對(duì)這類無感噪聲攻擊進(jìn)行了有效的防御。本文還采用了灰度補(bǔ)丁替換模塊來增強(qiáng)數(shù)據(jù),使得Re-ID模型有更好的識(shí)別能力和防御效果。實(shí)驗(yàn)結(jié)果表明了本文防御方法的有效性。
參考文獻(xiàn):
[1]Chen Haoran,Wang Yaowei,Shi Yemin,et al.Deep transfer learning for person re-identification[C]//Proc of IEEE Fourth International Conference on Multimedia Big Data.Piscataway,NJ:IEEE Press,2018:1-5.
[2]Sun Yifan,Zheng Liang,Yang Yi,et al.Beyond part models:person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proc of European Conference on Computer Vision.Berlin:Springer:501-518.
[3]Luo Hao,Jiang Wei,Zhang Xuan,et al.AlignedReID++:dynamically matching local information for person re-identification[J].Pattern Recognition,2019,94:53-61.
[4]Ren Chuanxian,Liang Bohua,Ge Pengfei,et al.Domain adaptive person re-identification via camera style generation and label propagation[J].IEEE Trans on Information Forensics and Security,2020,15:1290-1302.
[5]Chen Xuesong,F(xiàn)u Canmiao,Zhao Yong,et al.Salience-guided cascaded suppression network for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:3297-3307.
[6]Su J,Vargas D V,Sakurai K.One pixel attack for fooling deep neural networks[J].IEEE Trans on Evolutionary Computation,2019,23(5):828-841.
[7]Duan Ranjie,Ma Xingjun,Wang Yisen,et al.Adversarial camouflage:hiding physical-world attacks with natural styles[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2020:997-1005.
[8]Wang Yisen,Zou Difan,Yi Jinfeng,et al.Improving adversarial robustness requires revisiting misclassified examples[C]//Proc of International Conference on Learning Representations.2020:1-14.
[9]Wang Yisen,Ma Xingjun,Bailey J,et al.On the convergence and robustness of adversarial training[C]//Proc of the 36th International Conference on Machine Learning.2019:6586-6595.
[10]Duan Ranjie,Mao Xiaofeng,Qin A K,et al.Adversarial laser beam:effective physical-world attack to DNNs in a blink[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:16057-16066.
[11]Zeng Xiaohui,Liu Chenxi,Wang Y S,et al.Adversarial attacks beyond the image space[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4297-4306.
[12]Zhao Zhengyu,Liu Zhuoran,Larson M.Towards large yet impercep-tible adversarial image perturbations with perceptual color distance[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1036-1045.
[13]Kong Zelun,Guo Junfeng,Li Ang,et al.PhysGAN:generating physical-world-resilient adversarial examples for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2020:14242-14251.
[14]陳晉音,陳治清,鄭海斌,等.基于PSO的路牌識(shí)別模型黑盒對(duì)抗攻擊方法[J].軟件學(xué)報(bào),2020,31(9):2785-2801.(Chen Jinyin,Chen Zhiqing,Zheng Haibin,et al.Black-box physical attack against road sign recognition model via PSO[J].Journal of Software,2020,31(9):2785-2801.)
[15]Wang Guangcong,Lai J H,Liang Wenqi,et al.Smoothing adversarial domain attack and p-memory reconsolidation for cross-domain person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10565-10574.
[16]Ding Wenjie,Wei Xing,Ji Rongrong,et al.Beyond universal person re-identification attack[J].IEEE Trans on Information Forensics and Security,2021,16:3442-3455.
[17]Bouniot Q,Audigier R,Loesch A.Vulnerability of person re-identification models to metric adversarial attacks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2020:3450-3459.
[18]Wang Zhibo,Zheng Siyan,Song Mengkai,et al.Advpattern:physical-world attacks on deep person re-identification via adversarially transformable patterns[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8340-8349.
[19]Xu Kaidi,Zhang Gaoyuan,Liu Sijia,et al.Adversarial T-shirt! Evading person detectors in a physical world[C]//Proc of European Confe-rence on Computer Vision.Berlin:Springer,2020:665-681.
[20]Bai Song,Li Yingwei,Zhou Yuyin,et al.Adversarial metric attack and defense for person re-identification[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,43(6):2119-2126.
[21]Chen Weihua,Chen Xiaotang,Zhang J,et al.Beyond triplet loss:a deep quadruplet network for person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:1320-1329.
[22]Cheng De,Gong Yihong,Zhou Sanping,et al.Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2016:1335-1344.
[23]羅浩,姜偉,范星,等.基于深度學(xué)習(xí)的行人重識(shí)別研究進(jìn)展[J].自動(dòng)化學(xué)報(bào),2019,45(11):2032-2049.(Luo Hao,Jiang Wei,F(xiàn)an Xing,et al.A survey on deep learning based person re-identification[J].Acta Automatica Sinica,2019,45(11):2032-2049.)
[24]Fu Yang,Wei Yunchao,Zhou Yuqian,et al.Horizontal pyramid ma-tching for person re-identification[C]//Proc of the 33rd AAAI Confe-rence on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8295-8302.
[25]Szegedy C,Zaremba W,Sutskever I,et al.Intriguing properties of neural networks[EB/OL].(2014-02-19).http://doi.org/10.48550/arxiv.1312.6199.
[26]Moosavi-Dezfooli S M,F(xiàn)awzi A,F(xiàn)rossard P.DeepFool:a simple and accurate method to fool deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2574-2582.
[27]Dong Yinpeng,Su Hang,Wu Baoyuan,et al.Efficient decision-based black-box adversarial attacks on face recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:7706-7714.
[28]Sharif M,Bhagavatula S,Bauer L,et al.Accessorize to a crime:real and stealthy attacks on state-of-the-art face recognition[C]//Proc of ACM SIGSAC Conference on Computer and Communications Security.New York:ACM Press,2016:1528-1540.
[29]Wang Hongjun,Wang Guangrun,Li Ya,et al.Transferable,controll-able,and inconspicuous adversarial attacks on person re-identification with deep mis-ranking[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:339-348.
[30]Liao Fangzhou,Liang Ming,Dong Yinpeng,et al.Defense against adversarial attacks using high-level representation guided denoiser[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1778-1787.
[31]Luo Hao,Gu Youzhi,Liao Xingyu,et al.Bag of tricks and a strong baseline for deep person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2019:1487-1495.
[32]Li Wei,Zhu Xiatian,Gong Shaogang.Harmonious attention network for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2285-2294.
[33]Deng Weijian,Zheng Liang,Ye Qixiang,et al.Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:994-1003.
[34]Qian Xuelin,F(xiàn)u Yanwei,Jiang Y G,et al.Multi-scale deep learning architectures for person re-identification[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5409-5418.
[35]Gong Yunpeng,Zeng Zhiyong,Chen Liwen,et al.A person re-identification data augmentation method with adversarial defense effect[EB/OL].(2021-04-07).http://doi.org/10.48550/arxiv.2101.08783.