亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于注意力機制的行人重識別研究

2020-11-27 03:24:02羅心怡鄒清淼李文卓

科學技術創(chuàng)新 2020年33期

關鍵詞：機制特征信息

羅心怡鄒清淼李文卓余楨

（江西財經(jīng)大學，江西南昌330000）

1 行人重識別研究現(xiàn)狀

1.1 行人重識別的應用方向

1.1.1 智能安防。在破案的過程中，監(jiān)控視頻是現(xiàn)代科技有了很大進步后用于破案的關鍵證據(jù)，然而監(jiān)控視頻數(shù)量大，時間跨度長，單純依靠人力查找信息難免效率低下，而且還很容易出現(xiàn)疏漏。行人重識別技術可以快速從海量的視頻數(shù)據(jù)中篩選出與目標人物相似度極高的軌跡片段，將在一定程度上減輕警察人員的工作量，提高破案的效率，促進智能安防的快速發(fā)展。

1.1.2 智能尋人系統(tǒng)。當公共場所發(fā)生人員失蹤情況時，尋人系統(tǒng)可以借助行人重識別技術，通過導入提供的失蹤人員照片信息，在已存儲的監(jiān)控視頻數(shù)據(jù)下尋找與照片上的人相似度較高的人，再將這些人像信息與實際失蹤人員的圖片一一比較，從而快速發(fā)現(xiàn)該失蹤人員的足跡。

1.1.3 智能超市?？梢酝ㄟ^行人重識別技術捕捉不同顧客在超市的足跡，再對顧客的足跡進行數(shù)據(jù)化分析后生成顧客的個人喜好信息，從而幫助超市的管理人員優(yōu)化顧客在超市的體驗。

1.2 行人重識別的一般實現(xiàn)思路

1.2.1 從目標圖像數(shù)據(jù)中抽取特征圖像為檢索圖。

1.2.2 將視頻數(shù)據(jù)中獲取到的所有圖片均抽取相應特征為底庫圖。

1.2.3 基于檢索圖，用行人重識別技術計算檢索圖與底庫圖的特征距離。

1.2.4 按照特征距離升序排列底庫圖，排在越前面的相似度越高。

1.3 常用的度量函數(shù)

1.3.1 歐氏距離：歐氏距離也稱為L2 距離,表示兩個向量在歐氏空間中的距離。它的公式如下。

1.3.2 馬氏距離：又稱為數(shù)據(jù)的協(xié)方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與標準化歐氏距離不同的是它考慮到各種特性之間的聯(lián)系。它的公式如下:

由歐氏距離和馬氏距離公式對比可知,若協(xié)方差矩陣是單位矩陣,則馬氏距離可被簡化為歐氏距離;若協(xié)方差矩陣是對角陣,它也可以被看做正規(guī)化的馬氏距離。

1.3.3 余弦距離:余弦距離衡量的是空間向量的夾角,更加體現(xiàn)在方向上的差異,而不是位置。公式表示為:

1.4 行人重識別面臨的問題

1.4.1 監(jiān)控視頻下捕捉到的行人圖像大多分辨率低，不能像人臉識別技術那樣處理清晰的人臉信息，只能通過捕捉行人的外形、動作等特征進行分析，而這些信息往往容易出現(xiàn)相似的情況。

1.4.2 行人重識別因為涉及到需要跨不同的攝像頭捕捉信息，而不同的攝像頭可能會出現(xiàn)同一個人卻外形有較大出入，而不同的人外形卻十分相似的情況。這就意味著極有可能兩個實際上截然不同的人因為在不同攝像頭下被鋪捉到，而被誤以為是同一個人。

1.4.3 攝像頭捕捉的是場景下的信息，所以容易受到周圍環(huán)境的影響，例如光線、人流量大、行人被遮擋等問題。

2 基于注意力機制的行人重識別研究

2.1 注意力機制的原理

注意力機制其實就是通過深度網(wǎng)絡學習一種權重分布,再拿權重分布施加到原來的特征之上。權重的操作包括對圖像數(shù)據(jù)（部分分量和所有分量）進行加權操作、根據(jù)某種策略篩選出部分特征圖像、對圖像進行裁剪操作等，目的都是為了將圖像的特征凸顯出來。

2.2 注意力機制的本質

計算機視覺所運用的注意力機制其實類似于人類視覺的注意力機制，本質都是迅速從大量信息中過濾無關信息而關注重要信息。例如，在網(wǎng)絡上瀏覽信息時，如果沒有注意力機制，神經(jīng)網(wǎng)絡在處理該任務時，將對所有內容進行等價處理，也就是所謂的“一視同仁”，這就意味著需要仔細閱讀每一篇博客，對所有的信息都進行特征標記。而如果運用注意力機制，神經(jīng)網(wǎng)絡則著重關注具有某一關鍵詞的內容，弱化其他不想關的內容，也就意味著可以有目的性地過濾掉無關的內容，只需閱讀自己需要的內容，這樣就大大提高了我們捕捉以及匹配特征的效率。

2.3 基于注意力機制的行人重識別

2.3.1 注意力機制的具體應用過程

早期的注意力機制研究是基于大腦成像機制的角度進行分析,采用winner-take-all 的機制來研究如何對注意力進行建模。隨著深度學習取得一定的發(fā)展后,深度學習與視覺注意力機制結合成為一種新的趨勢。研究學者普遍采用的是生成掩碼來表示注意力機制,這種方式即為學習一層新的權重后將圖像信息中的特征體現(xiàn)出來。這種思想發(fā)展成兩種不同類型的注意力機制:軟注意力和強注意力。軟注意力更加關注空間區(qū)域或者通道,而且是可以被微分的，也就意味著可以通過神經(jīng)網(wǎng)絡學習進行求導來獲得權重。強注意力更加關注圖像上的每一個點,是一個隨機過程,認為每個點都可能延伸出注意力。強注意力不可被微分,需要通過增強學習來實現(xiàn)。

2.3.2 基于注意力機制研究的優(yōu)點

a.傳統(tǒng)的行人重識別多直接提取全局特征，由于缺少了行人的細節(jié)特征，最終造成難以準確區(qū)分行人的問題。而基于注意力機制的行人重識別技術能夠對若干提取到的特征進行相似度權重估計，將權重賦給網(wǎng)絡提取的全局特征，進而提高識別的準確率。

b.環(huán)境因素的影響是不可控的，而應用注意力機制有利于弱化環(huán)境因素對圖像造成的影響，突出那些能夠幫助識別的部分圖像信息，從而解決環(huán)境因素如不同的攝像頭、背景復雜、被遮擋等的影響。

2.3.3 基于注意力機制研究的缺點

a. 基于單一的注意力機制極有可能造成對相似之處給予過多關注的現(xiàn)象，例如行人穿著的衣服十分相似，所占權重非常大，而忽略了衣服顏色并不相同這一能夠直接判斷的要素，最終造成顯而易見的錯誤。

b.運用注意力機制能夠過濾掉大部分的背景信息，使得識別的重點集中于行人區(qū)域上，而在一些特殊情況下，我們仍然需要一定的背景信息來進行輔助判斷，被過濾掉的背景信息可能會降低識別的準確率。

3 常用數(shù)據(jù)集

3.1 VIPeR 數(shù)據(jù)集

該數(shù)據(jù)集采集自戶外的攝像頭a 和攝像頭b，包括632 個行人的1264 張圖像，每張圖像的分辨率都調整為128*48。該數(shù)據(jù)集的特點是視角、光照、分辨率和姿態(tài)多樣化，所以能夠很好地模擬真實場景下攝像頭鋪捉到的圖像。同時，因其多樣性大處理難度也隨之增加，許多研究學者把該數(shù)據(jù)集作為行人重識別領域的基準測試集。

3.2 ETHZ數(shù)據(jù)集

該數(shù)據(jù)集采集自移動的攝像機，原始樣本中圖像的分辨率均為64*32，實際應用中一般會根據(jù)實驗需求進行調整。該數(shù)據(jù)集包含三個視頻序列圖像：序列1 包含83 個行人的4857 張圖像；序列2 包含35 個行人的1936 張圖像；序列3 包含28 個行人的1762 張圖像。

3.3 Market-1501 數(shù)據(jù)集

該數(shù)據(jù)集是由清華大學研究團隊采集并構建，采集自5 個高清攝像頭和1 個低清攝像頭，包含1501 個行人和32668 個檢測到的行人矩形框。該數(shù)據(jù)集的規(guī)模遠大于其他常用數(shù)據(jù)集，能夠確保每個行人至少被兩個攝像頭鋪捉到，并且在一個攝像頭下具有多張圖像。

4 評測指標

4.1 評測指標CMC

累計匹配特性曲線（Cumulative Matching Characteristics，簡稱為CMC）是模式識別系統(tǒng)如人臉、虹膜、指紋等的重要評測指標，主要用于閉集測試。該曲線的橫坐標為rank，縱坐標為識別率百分比。rank n 表示識別結果相似性降序排列中前n 個結果包含目標。識別率是rank n 的數(shù)目#(rank n)占總的query樣本數(shù)的比例。圖1是CMC曲線的一個實例。

圖1

圖2

4.2 評測指標mAP

平均精度均值（mean Average Precision，簡稱為mAP）是目標檢測領域常用的評測指標，首先在一個類別內求平均精度，再對所有類別的平均精度求平均。當?shù)讕熘写嬖诙鄠€與檢索圖相匹配的圖像時，mAP 能夠將所有的匹配圖返回，因此相比于CMC,mAP 的召回能力要高一些，鑒別的效率也更高。圖2 是P-R 曲線的一個實例，曲線圍成的面積就是AP 的值。

5 行人重識別研究的展望

基于注意力機制能夠使識別過程更加關注行人有用的特征，此外還可以結合屬性識別，對行人的性別、衣服、褲子、鞋子等屬性進行分類，并對這些屬性所提供的信息進行整合，結合注意力機制將能夠進一步提高行人重識別的效率。還可以運用如今趨于成熟的生成對抗網(wǎng)絡來輔助訓練，利用生成對抗網(wǎng)絡捕捉到更多不同視角下行人動作的變化，從而實現(xiàn)更加細致地對行人姿態(tài)、動作進行比對，進一步提高行人重識別的準確率。