朱 利 林 欣 徐亦飛 劉 真 馬 英
1(西安交通大學(xué)電信學(xué)部軟件學(xué)院 西安 710049)
2(北京交通大學(xué)計算機(jī)科學(xué)與信息學(xué)院 北京 100091)
3(國家信息中心 北京 100038)
行人重識別(Person Re-identification,Re-ID)是一個特殊的人員檢索問題,近年來受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。Person Re-ID 的目的是在不同的時間、攝像機(jī)或場景中匹配一個特定的人,稱為“查詢?nèi)恕?。由于從圖像、視頻和文本描述中提取有鑒別性特征的方式不同,Person Re-ID 十分具有挑戰(zhàn)性。此外,不同視角、背景雜波、姿勢多樣性和遮擋的存在為 Person Re-ID任務(wù)帶來了變化和不確定性。
隨著公眾安全的迫切需求和城市中監(jiān)控攝像機(jī)數(shù)量的不斷增加,在復(fù)雜城市環(huán)境中,如何匹配識別特定人物給智慧城市帶來了嚴(yán)峻的挑戰(zhàn)。在研究與實(shí)驗中,傳統(tǒng)行人重識別數(shù)據(jù)集的樣本數(shù)量有限、風(fēng)格單一,且 Re-ID 任務(wù)只是查詢圖像在圖庫中進(jìn)行相似匹配。而在現(xiàn)實(shí)的行人重識別任務(wù)中,通過多種渠道收集的行人圖像數(shù)量龐大、風(fēng)格迥異、相似匹配難度大。因此,單一的行人重識別技術(shù)難以應(yīng)對復(fù)雜的識別需求。為提高行人重識別技術(shù)的實(shí)用性,本文提出將行人重識別技術(shù)與多級城市信息單元深度融合,形成相似的層次結(jié)構(gòu),可以將任務(wù)的數(shù)據(jù)規(guī)??刂圃谝欢ǚ秶鷥?nèi)。該融合便于構(gòu)建解決實(shí)際問題的概念模型,可將復(fù)雜的現(xiàn)實(shí)識別需求分解為多級城市信息單元框架下的多個明確的行人重識別子問題,從而使行人重識別技術(shù)滿足智慧城市場景下的多層次行人重識別任務(wù)需要。
近年來,大量研究集中于利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行行人重識別,識別效果良好[1-3]。相關(guān)學(xué)者還針對其訓(xùn)練技巧和性能提升進(jìn)行了研究[4],嘗試將行人重識別技術(shù)與注意力機(jī)制相結(jié)合,以增強(qiáng)深度特征的辨別性,并抑制無用特征[5-9]。大多數(shù)注意力由有限感受野的全連接層或卷積層進(jìn)行學(xué)習(xí),但它們僅使用了單個圖像信息。
現(xiàn)有的深度特征學(xué)習(xí)模型和注意力機(jī)制只關(guān)注深度特征與其對應(yīng)樣本數(shù)據(jù)之間的關(guān)系,而忽略了不同特征對之間的差異。實(shí)際上,通過深度特征學(xué)習(xí)方法解決行人重識別問題的核心是將檢索問題轉(zhuǎn)化為深度特征的相似匹配任務(wù)。然而,目前基于距離函數(shù)的深層網(wǎng)絡(luò)一般都局限于特定的數(shù)據(jù)集或特定的識別任務(wù)。
本文設(shè)計了差異注意力模塊解決特征相似性匹配任務(wù),實(shí)現(xiàn)了基于深度特征向量對差異的注意力機(jī)制。為使差異注意力模塊能夠匹配多樣的深度特征模型,且保證提取特征的多樣性,本文提出了差異注意力框架。此外,還設(shè)計了兩種不同的訓(xùn)練策略用于訓(xùn)練差異注意力模塊和整個框架。
本文主要工作如下:
(1)將行人重識別技術(shù)與多級城市信息單元深度融合,形成相似的層次結(jié)構(gòu),使行人重識別技術(shù)能夠滿足智慧城市場景下的多層次行人重識別任務(wù)需求。
(2)指出基于深度特征表示的行人重識別問題的核心是特征向量之間的差異,提出差異注意力的思想,通過差異注意力選擇更具有辨別力的特征。
(3)設(shè)計了差異注意力模塊,用于實(shí)現(xiàn)基于深度特征差異的差異注意力機(jī)制。設(shè)計了差異注意力框架和兩種不同的訓(xùn)練策略(聯(lián)合訓(xùn)練和單獨(dú)訓(xùn)練)以匹配不同的深度模型并對其進(jìn)行訓(xùn)練。在 Market-1501、CUHK03 和 MSMT17 等行人重識別數(shù)據(jù)集上,與其他行人重識別特征表示方法相比,差異注意力的效果更好。
在計算機(jī)視覺中,行人重識別是一項具有挑戰(zhàn)性且十分復(fù)雜的任務(wù)。本節(jié)將討論城市信息單元、與行人重識別相關(guān)的特征表示學(xué)習(xí)和面向有監(jiān)督的行人重識別的注意力機(jī)制。
根據(jù)城市行政區(qū)劃,城市信息單元[10]在地理上分為網(wǎng)格、區(qū)域、街道和市轄區(qū)。每個城市信息單元包含基本的政府?dāng)?shù)據(jù)和社會傳感器數(shù)據(jù)。其中,政府?dāng)?shù)據(jù)包括人口普查結(jié)果、社會經(jīng)濟(jì)指標(biāo)、地圖、街道等信息;社會傳感器數(shù)據(jù)包括天氣、溫度、水質(zhì)、交通流量、人流等信息。
一座城市包含一個或多個市政區(qū),每個市政區(qū)包含一條或多條街道,街道又包含社區(qū)、小學(xué)、購物中心、公園等區(qū)域。根據(jù)緯度和經(jīng)度,城市在地理上可被劃分為多個網(wǎng)格。因此,城市信息單元有類似的層次結(jié)構(gòu):每個市政區(qū)級城市信息單元包含一個或多個街道級城市信息單元,每個街道級城市信息單元包含一個或多個區(qū)域級城市信息單元,每個區(qū)域級城市信息單元包含一個或多個網(wǎng)格級城市信息單元,網(wǎng)格級城市信息單元是最基礎(chǔ)的城市信息單元層級。
特征表示學(xué)習(xí)是從具有良好識別能力的行人重識別數(shù)據(jù)集中提取樣本圖像的特征向量。目前,主要有 4 種特征學(xué)習(xí)策略:全局特征、局部特征、輔助特征和視頻特征[11-12]。其中,全局特征是從每個人物圖像中提取全局的特征表示向量[1];局部特征聚合了不同的零件級局部特征,便于為每個人物圖像組合出一個新的更精確的特征表示[13-14];輔助特征使用其他輔助信息(如語義屬性)學(xué)習(xí)與表示特征[15];視頻特征是從多個圖像幀中學(xué)習(xí)視頻的特征表示,用于視頻中的行人重識別[16]。
全局特征指學(xué)習(xí)每個圖像的全局特征,其僅利用整個圖像進(jìn)行特征提取。隨著深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于行人重識別,基于深度學(xué)習(xí)的全局特征學(xué)習(xí)已成為提取特征向量的主要策略[17]。為提取更有用的全局特征向量,身份判別嵌入模型(IDdiscriminative Embedding,IDE)[1]將行人重識別視為一個多類分類問題,每個身份被視為一個不同的類。近年來,研究者們?yōu)樾腥酥刈R別設(shè)計了多種用于全局特征表示的深度網(wǎng)絡(luò),以達(dá)到更優(yōu)的行人重識別性能[2-3,18]。
本文將利用差異注意力信息增強(qiáng)全局特征向量的表示效果和識別能力。差異注意力不局限于全局特征表示方法,它適用于任何類型的行人重識別特征表示學(xué)習(xí)模型。
注意力方法通過關(guān)注特征向量中的重要特征抑制不相關(guān)特征,使注意力可適應(yīng)復(fù)雜的任務(wù)需求。Wang 等[5]和 Yang等[6]在注意力模塊中設(shè)置卷積層以獲得更大的感受野。卷積塊注意力模塊[7]在空間特征和通道特征上利用卷積層和一個共享的多層感知機(jī)(Multilayer Perceptron,MLP)學(xué)習(xí)空間和通道注意圖。其他相關(guān)工作將人類語義的外部線索視為注意力,或?qū)⑵渥鳛檩o助信息來指導(dǎo)注意力的學(xué)習(xí)[8-9,19-20]。
然而,上述方法僅利用了單個圖像的特征生成相應(yīng)的注意力信息。為進(jìn)一步使用兩個不同圖像特征向量之間的差異信息,本文設(shè)計了差異注意力模塊生成差異注意力信息,為距離函數(shù)提供更具區(qū)分度的注意力,以獲得更好的行人重識別性能。
本節(jié)將介紹基于城市信息單元和差異注意力的多層行人重識別技術(shù)。第 3.1 小節(jié)討論行人重識別技術(shù)與城市信息單元的深度融合;在回顧廣泛使用的有監(jiān)督的行人重識別框架后,第 3.2 小節(jié)提出差異注意力模式;第 3.3 小節(jié)詳細(xì)描述差異注意力模塊;第 3.4 小節(jié)介紹整個差異注意力框架以及兩種不同的訓(xùn)練策略。
在智慧城市系統(tǒng)中,行人重識別任務(wù)具有重要的實(shí)踐意義與應(yīng)用價值。然而,在解決具體的實(shí)踐問題上,單純的行人重識別技術(shù)還存在盲點(diǎn)。為提高行人重識別技術(shù)的實(shí)用性,本文將行人重識別技術(shù)與多級城市信息單元深度融合,形成相似的層次結(jié)構(gòu),構(gòu)建解決實(shí)際問題的概念模型,使得行人重識別技術(shù)能夠滿足智慧城市場景下的多層次行人重識別任務(wù)需求。
行人重識別任務(wù)可被看作安全領(lǐng)域的一項多層次的復(fù)雜任務(wù),不同的行人重識別任務(wù)之間,可通過共同/不同的查詢子集/圖庫子集形成行人重識別任務(wù)的層級關(guān)系。城市信息單元的層次結(jié)構(gòu)類似。圖 1 展示了城市信息單元與多級行人重識別相似的層次結(jié)構(gòu),從下到上依次為網(wǎng)格、區(qū)域、街道、行政區(qū)域和城市,上級城市信息單元包含下級城市信息單元,同一級別的城市信息單元相互獨(dú)立。同樣地,同級城市信息單元需要執(zhí)行的人員識別任務(wù)也是獨(dú)立的,高級的城市信息單元對應(yīng)的行人重識別任務(wù)包括其所有的下級城市信息單元的行人重識別任務(wù),而最低級的城市信息單元對應(yīng)的任務(wù)也是最基礎(chǔ)的任務(wù)。
圖1 行人重識別任務(wù)與城市信息單元的層次結(jié)構(gòu)Fig. 1 The hierarchical architecture of Person Re-ID tasks and urban information units
基于上述層次結(jié)構(gòu),城市信息單元可作為解決實(shí)際問題的概念模型。選擇不同層級的城市信息單元,根據(jù)其包含的政府?dāng)?shù)據(jù)和社會傳感器數(shù)據(jù),即可確定具體需要執(zhí)行行人重識別任務(wù)的查詢圖集和圖庫圖集,從而明確地執(zhí)行具體的行人重識別任務(wù),生成查詢結(jié)果以組成最終的任務(wù)輸出。
將行人重識別技術(shù)與城市信息單元深度融合,可明確行人重識別任務(wù)在智慧城市等實(shí)際應(yīng)用場景中的概念模型,滿足多樣的多級行人重識別任務(wù)需求。此外,基于城市信息單元的多級行人重識別,還可更進(jìn)一步解決行人跟蹤等其他與行人重識別相關(guān)的問題。
行人重識別旨在從預(yù)定義的圖庫中查找與給定的查詢圖像最相似的圖像。一般地,通過深度學(xué)習(xí)方法進(jìn)行有監(jiān)督的行人重識別包括 3 個步驟:(1)提取訓(xùn)練數(shù)據(jù)集(通?;?ResNet-50 骨干網(wǎng)絡(luò)[17])的圖像特征向量,并訓(xùn)練深度模型;(2)使用(1)中訓(xùn)練的模型提取查詢圖像和圖庫中所有圖像的特征向量;(3)計算查詢圖像特征向量與圖庫圖像特征向量之間的距離(或相似性),并對距離矩陣進(jìn)行排序,以生成行人重識別查詢結(jié)果。
在許多情況下,提取魯棒的圖像特征是行人重識別任務(wù)中最重要的部分。由實(shí)驗結(jié)果可知,不同類型的圖像特征在不同的任務(wù)和數(shù)據(jù)集上可能具有最佳性能。當(dāng)深度網(wǎng)絡(luò)模型的參數(shù)固定時,圖像特征將失去針對不同任務(wù)的靈活性和魯棒性。因此,本文在解決行人重識別任務(wù)時,需要提供能夠提取各種特征的深度網(wǎng)絡(luò),當(dāng)計算不同行人重識別任務(wù)中圖像特征之間的距離時,選擇合適的特征就變得尤為重要。使用上述差異注意力模式,根據(jù)特征向量的差異注意力對特征進(jìn)行加權(quán),距離函數(shù)只需計算兩個特征向量之間的有用特征差異,就可計算出更具辨別力的距離矩陣。
差異注意力模塊是差異注意力框架中的核心組件,其結(jié)構(gòu)如圖 2 所示,差異注意力模塊包括輸入變換、聚合卷積、多層感知機(jī)和輸出變換等組件。
圖2 差異注意力模塊的結(jié)構(gòu)Fig. 2 The structure of our diff attention module
為最終實(shí)現(xiàn)差異注意力,本文設(shè)計了用于行人重識別的差異注意力框架,結(jié)構(gòu)如圖 3 所示,其主要結(jié)構(gòu)包括骨干網(wǎng)絡(luò)(BagTricks 或 AGW)、差異注意力模塊及距離函數(shù)。
首先,利用骨干網(wǎng)絡(luò)提取圖像的深度特征向量。然后,差異注意力框架中的特征向量將被成對地發(fā)送到差異注意力模塊,以生成每對圖像之間的差異注意力圖,再將差異注意力與原始的特征向量相乘。在訓(xùn)練階段,訓(xùn)練批次中每個圖像的特征向量與同一批次中的所有其他向量互相配對,以計算差異注意力圖;在推理階段,查詢圖像的特征向量和圖庫圖像的特征向量自然配對。最后,可以通過距離函數(shù)計算圖像對之間的距離,以計算損失,從而訓(xùn)練深度模型或得到行人重識別結(jié)果。
為了使差異注意力框架適用于多種經(jīng)過訓(xùn)練的深度模型,本文還提出了聯(lián)合訓(xùn)練和單獨(dú)訓(xùn)練兩種訓(xùn)練策略。聯(lián)合訓(xùn)練通常用于訓(xùn)練新的深度網(wǎng)絡(luò),單獨(dú)訓(xùn)練則更適用于微調(diào)已經(jīng)訓(xùn)練過的深度模型。
聯(lián)合訓(xùn)練指一起訓(xùn)練所有的模型,即同時訓(xùn)練骨干模型和差異注意力模塊。該訓(xùn)練策略有助于訓(xùn)練適應(yīng)差異注意力的骨干網(wǎng)絡(luò)。在聯(lián)合訓(xùn)練開始前,通常利用 ImageNet 數(shù)據(jù)集預(yù)訓(xùn)練骨干模型,并且隨機(jī)初始化差異注意力模塊。聯(lián)合訓(xùn)練中涉及的訓(xùn)練超參數(shù)與僅訓(xùn)練骨干模型的參數(shù)相同,并采用骨干模型 BagTricks[4]和 AGW[21]論文中所使用的損失函數(shù),損失函數(shù)及其參數(shù)保持不變。聯(lián)合訓(xùn)練使用 ID 損失LID和標(biāo)簽平滑技術(shù)[22]、三元組損失LBHTriplet[23]和中心損失LCenter[24]來訓(xùn)練所有的模型。對于 AGW 骨干模型,將使用其加權(quán)正則化三元組損失[21]。
聯(lián)合訓(xùn)練的損失函數(shù)公式如下:
單獨(dú)訓(xùn)練指微調(diào)現(xiàn)有的訓(xùn)練過的骨干模型。訓(xùn)練模型的超參數(shù)可能與僅訓(xùn)練骨干模型時使用的參數(shù)不同。該訓(xùn)練策略可以大大縮短訓(xùn)練時間和訓(xùn)練成本,有助于快速找到差異注意力框架的最佳超參數(shù)。由于不再訓(xùn)練骨干模型,聯(lián)合訓(xùn)練使用的損失函數(shù)中只有三元組損失具有意義,ID損失與中心損失不再發(fā)生改變。因此,單獨(dú)訓(xùn)練可僅使用三元組損失訓(xùn)練差異注意力模塊。
單獨(dú)訓(xùn)練的損失函數(shù)公式如下:
為增強(qiáng)三元組損失的效果,在計算三元組損失時,使用 softplus 函數(shù)而非 hinge 函數(shù),這被稱為 soft-margin 方法[23]。
本節(jié)將評估差異注意力框架的行人重識別性能。第 4.1 小節(jié)將介紹實(shí)驗中使用的數(shù)據(jù)集;第 4.2 小節(jié)將列出所有的實(shí)現(xiàn)細(xì)節(jié);第 4.3 小節(jié)將驗證差異注意力模塊的效果;第 4.4 小節(jié)將對差異注意力框架所涉及的超參數(shù)進(jìn)行討論;第4.5 小節(jié)將差異注意力框架與其他最先進(jìn)的有監(jiān)督的行人重識別方法進(jìn)行對比;第 4.6 小節(jié)主要介紹基于城市信息單元的安防監(jiān)控識別系統(tǒng)的具體應(yīng)用。
本實(shí)驗使用了 3 個著名的基于圖像的行人重識別數(shù)據(jù)集:Market-1501[25]、CUHK03[26]和MSMT17[27]。其中,Market-1501 包括 32 668 個有標(biāo)簽的行人邊界框,每個邊界框由 DPM 模型[28]檢測而來,每個身份至少由 2 個攝像頭捕捉,數(shù)據(jù)集包含 6 個攝像機(jī)捕捉到的 1 501 個身份;CUHK03 包含 1 360 名行人的 13 164 張圖片,數(shù)據(jù)集由 6 個攝像頭捕獲,每個身份由2 個不相交的攝像頭進(jìn)行觀察;MSMT17 是一個新的多場景多時間的行人重識別數(shù)據(jù)集,盡可能地模擬了真實(shí)場景,其數(shù)據(jù)由部署在校園內(nèi)的 15 個攝像頭網(wǎng)絡(luò)進(jìn)行收集,該數(shù)據(jù)集包括4 101 名行人的 126 441 個邊界框。
差異注意力框架的骨干模型是 AGW 基線網(wǎng)絡(luò)[21]和 BagTricks 強(qiáng)基線[4],它們均使用經(jīng)ImageNet 預(yù)訓(xùn)練后的 ResNet-50[17]作為骨干網(wǎng)絡(luò)。
本實(shí)驗中所有的模型訓(xùn)練硬件為 NVIDIA GeForce RTX 3080 Ti。所有圖像的尺寸被調(diào)整為256×128,每張圖像填充 10 個像素并被隨機(jī)裁剪。此外,本模型還使用了一些被廣泛使用的圖像增強(qiáng)方法:隨機(jī)水平翻轉(zhuǎn)和隨機(jī)擦除增強(qiáng)[29],翻轉(zhuǎn)概率p=0.5。
為計算 ID 損失,本實(shí)驗在骨干模型后添加了一個無偏差的全連接層。該層的輸出維度設(shè)置為訓(xùn)練集中的身份數(shù)。由于 GPU 顯存容量的限制,批次大小被限制為 64,并設(shè)置P=16,K=4。優(yōu)化中心損失的中心參數(shù)的算法是 SGD。
訓(xùn)練使用的優(yōu)化模型算法是 Adam,權(quán)重衰減為 5×10-4。聯(lián)合訓(xùn)練共設(shè)置 120 個訓(xùn)練回合,初始學(xué)習(xí)率為 3.5×10-4,在前 10 個回合預(yù)熱學(xué)習(xí)率[30],在第 40 個和第 70 個回合學(xué)習(xí)率降低為原來的 1/10。對于單獨(dú)訓(xùn)練,只訓(xùn)練 60 個回合,初始學(xué)習(xí)率設(shè)置為 0.05,每 20 個回合降低一次學(xué)習(xí)率。
對于差異注意力模塊,輸入變換是帶絕對值的減法。當(dāng)骨干模型為 AGW 時,MLP 比率設(shè)置為 4,當(dāng)骨干模型為 BagTricks 時,MLP 比率設(shè)置為 512。
本文使用累積匹配特性、平均準(zhǔn)確率和平均逆負(fù)懲罰 3 個評估指標(biāo)評估差異注意力框架的性能。值得注意的是,本實(shí)驗未使用重排序技術(shù)[31]。
本節(jié)將展示兩種不同訓(xùn)練策略下的差異注意力框架的實(shí)驗結(jié)果。本實(shí)驗使用單獨(dú)訓(xùn)練的策略,以尋求差異注意力模塊的最佳參數(shù)。
如表 1 和圖 4 所示,在 CUHK03 數(shù)據(jù)集上,差異注意力框架與聯(lián)合訓(xùn)練分別獲得了64.6% 和 70.3% 的 Rank-1 準(zhǔn)確度、62.5% 和69.2% 的 mAP、50.2% 和 58.7% 的 mINP;單獨(dú)訓(xùn)練也獲得了良好的結(jié)果:66.6% 和 70.6% 的Rank-1 準(zhǔn)確度、63.7% 和 67.9% 的 mAP、51.0%和 56.7% 的 mINP。在 Market-1501 數(shù)據(jù)集上,本實(shí)驗使用 AGW 主干模型的框架取得了 95.2%的 Rank-1 準(zhǔn)確度、88.6% 的 mAP 和 66.8% 的mINP,高于原始 AGW 基線模型的性能。在MSMT17 數(shù)據(jù)集上,使用 AGW 模型的訓(xùn)練結(jié)果為 68.2% 的 Rank-1 準(zhǔn)確度、50.0% 的 mAP 和15.3% 的 mINP。
表1 差異注意力框架的性能Table 1 The performance of our diff attention framework
圖4 差異注意力框架的性能Fig. 4 The performance of our diff attention framework
本節(jié)將通過實(shí)驗對差異注意力模塊中的超參數(shù)進(jìn)行討論——在所有的消融實(shí)驗中,將BagTricks 和 AGW 作為骨干網(wǎng)絡(luò),使用單獨(dú)訓(xùn)練的策略,分別對不同的超參數(shù)進(jìn)行實(shí)驗,確定模型超參數(shù)的最優(yōu)值。
4.4.1 輸入變換
本文比較了 3 種輸入變換方法(減法、減法后平方和減法后絕對值)的影響。在這些輸入變換的消融實(shí)驗中,當(dāng) AGW 作為主干模型時,MLP 比率固定為 4;當(dāng) BagTricks 作為主干模型時,MLP 比率固定為 512。
表 2 和圖 5 的輸入變換實(shí)驗結(jié)果顯示了不同輸入變換對模型性能的影響。由此可知,依次進(jìn)行減法運(yùn)算和取絕對值運(yùn)算的輸入變換取得了最好的性能,其在 AGW 模型或 CUHK03 數(shù)據(jù)集上均實(shí)現(xiàn)了最佳性能。與其他兩種輸入變換相比,僅進(jìn)行減法運(yùn)算的性能較差。
表2 不同輸入變換的影響Table 2 The impact of different input transforms
圖5 不同輸入變換的影響Fig. 5 The impact of different input transforms
4.4.2 MLP 比率
MLP 比率是差異注意力模塊的核心超參數(shù),本節(jié)通過實(shí)驗比較了不同的 MLP 比率對模型性能的影響?;诘?4.4.1 小節(jié)的實(shí)驗結(jié)果,在測試時將輸入變換固定為帶絕對值的減法。圖 6 為不同 MLP 比率的影響,當(dāng)使用 AGW 作為主干模型時,將 MLP 比率設(shè)置為 4,通常可實(shí)現(xiàn)最佳性能;若使用 BagTricks,那么就將比率設(shè)置為512。
圖6 不同 MLP 比率的影響Fig. 6 The impact of different MLP ratios
本文將其他先進(jìn)方法分為全局特征和其他兩種不同的類型,并與差異注意力框架進(jìn)行比較,結(jié)果如表 3~5 所示。由表 3~5 可知,差異注意力方法的 mAP 和 Rank-1 準(zhǔn)確度均較為優(yōu)異。
表3 在 Market-1501 上與其他最先進(jìn)方法的比較結(jié)果Table 3 Comparison results with other state-of-the-art methods on Market-1501
本文將行人重識別技術(shù)與城市信息單元深度融合,基于自建數(shù)據(jù)集,實(shí)現(xiàn)了基于城市信息單元的安防監(jiān)控識別系統(tǒng),如圖 7 所示。用戶上傳待查詢的行人圖像到該系統(tǒng)后,系統(tǒng)對行人圖像進(jìn)行圖像增強(qiáng),并利用行人重識別深度模型進(jìn)行特征提取。識別系統(tǒng)將依次對提取的行人圖像特征與選定的城市信息單元中對應(yīng)的圖庫圖像特征進(jìn)行相似度計算,并根據(jù)相似度排序生成識別結(jié)果序列。識別系統(tǒng)還能綜合行人重識別結(jié)果與城市信息單元中的位置數(shù)據(jù),利用地圖組件生成待查詢行人的軌跡。實(shí)驗結(jié)果表明,本文基于城市信息單元的安防監(jiān)控識別系統(tǒng)識別精度高,生成識別結(jié)果速度較快,軌跡展示效果直觀明顯。
圖7 基于城市信息單元的安防監(jiān)控識別系統(tǒng)Fig. 7 The identification system based on urban information unit
表4 在 CUHK03 上與其他最先進(jìn)方法的比較結(jié)果Table 4 Comparison results with other state-of-the-art methods on CUHK03
表5 在 MSMT17 上與其他最先進(jìn)方法的比較結(jié)果Table 5 Comparison results with other state-of-the-art methods on MSMT17
為提高行人重識別技術(shù)在智慧城市等現(xiàn)實(shí)場景中的應(yīng)用能力,本文提出將行人重識別技術(shù)與城市信息單元進(jìn)行多層次深度融合。在行人重識別的過程中,特征差異具有重要作用。因此,本文提出了差異注意力的概念,主張利用差異注意力模塊實(shí)現(xiàn)深度特征的差異注意力機(jī)制;并提出了差異注意力框架,使得差異注意力模塊適用于多種深度特征模型。此外,本文還提出兩種不同的訓(xùn)練策略(聯(lián)合訓(xùn)練和單獨(dú)訓(xùn)練),以訓(xùn)練差異注意力框架,快速找到能夠獲得最佳性能的參數(shù)。在 Market-1501、CUHK03 和 MSMT17 上,與其他先進(jìn)的行人重識別方法相比,差異注意力框架行人重識別性能較為優(yōu)異。最后,期望本研究能為行人重識別技術(shù)在現(xiàn)實(shí)場景中的廣泛應(yīng)用做出貢獻(xiàn)。