亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多屬性融合網(wǎng)絡的行人重識別方法

        2020-03-19 10:46:12徐思敏胡士強
        計算機工程與應用 2020年6期
        關鍵詞:識別率行人標簽

        徐思敏,胡士強

        上海交通大學 航空航天學院,上海200240

        1 引言

        行人重識別是指給定行人的圖像或一段視頻序列,在另一個無重疊區(qū)域且視角不同的攝像機拍攝的行人數(shù)據(jù)庫中識別出目標行人[1]。由于不同攝像頭下同一行人的圖像受到背景變化、光照變化、姿態(tài)變化以及遮擋等問題帶來的影響,目前行人重識別的識別率還難以達到實際應用的效果。

        目前行人重識別的研究主要圍繞兩個方面展開:(1)特征提取[2-6]:基于行人外觀,尋找一個不受到光照和視角變化等影響的魯棒可靠的特征來描述不同的行人;(2)度量學習[7-11]:獲得一個新的度量空間來計算行人之間的相似度,從而區(qū)分出不同行人。在特征提取方面,根據(jù)不同的提取方法可以將其分成人工設計特征與深度網(wǎng)絡提取特征兩個階段。隨著大規(guī)模數(shù)據(jù)集的不斷增加,基于卷積神經(jīng)網(wǎng)絡模型自動學習的深度特征在行人重識別上取得了良好的性能,大量的研究工作開始致力于設計一個有效的網(wǎng)絡結構來提高行人重識別的準確率[12]。

        現(xiàn)有的研究在基于單幀圖像的行人重識別方面已經(jīng)有了巨大的突破,而在基于視頻方面,由于大規(guī)模視頻數(shù)據(jù)集的缺乏,仍然面臨許多挑戰(zhàn)。目前基于視頻的行人重識別方法主要采取最大/平均池化層來將圖像序列整合成一個全局特征向量[13-14],也有不少研究者受到行為識別領域的啟發(fā),嘗試采用時空特征來進行重識別[15]。盡管行人視頻序列中可利用的信息更多,同時產(chǎn)生干擾的冗余信息也會隨之增加。在為行人構建特征表達模型時,如何整合多幀圖像從中提取出關鍵部分是這類問題中的難點。Karanam 等[16]直接對單一行人的每張圖像提取特征后,對所有圖像特征進行平均池化,但該方法易受到遮擋等問題的干擾,獲得的行人特征中包含較多的噪聲。為了解決部分幀圖像中存在的遮擋,Liu 等[17]提出了一種質量評估網(wǎng)絡,它根據(jù)每張圖像的質量為其分配權重,從而整合出行人的最終特征表達。通過網(wǎng)絡的學習與評估過程可以判斷出圖像中是否存在遮擋,但忽略了其中的遮擋是由哪一部分造成的。因此Song 等[18]在該網(wǎng)絡的基礎上進行了改進,將行人圖像分成上、中、下三個部分,并分別將每部分輸入到網(wǎng)絡中進行評估和權重分配。通過突出行人每張圖像中未被遮擋部分的重要性,削弱遮擋部分的信息,獲得的行人特征表達在數(shù)據(jù)集上取得了顯著的結果。由于在處理圖像的過程中對其進行了分段處理,所以此方法對于數(shù)據(jù)集中每個行人在邊界框中位置的對齊程度有一定的要求。在實際應用中,拍攝到的行人圖像角度參差不齊,當不同行人的相同身體部位位于整張圖像中的不同位置時,上述方法的性能將大大下降。本文在數(shù)據(jù)集中選取了一小部分行人,將他們的圖像裁去底部(28 個像素)后再重新調(diào)整為原大小(128×64)。實驗表明文獻[18]中的方法在數(shù)據(jù)集iLIDS-VID 和PRID 2011 上的rank1的重識別率分別下降了22.4%和6.2%。

        由此,現(xiàn)有的針對行人視頻序列的處理方法仍舊存在待改進之處。一方面,根據(jù)行人身份標簽訓練深度神經(jīng)網(wǎng)絡提取的特征主要反映的是行人的整體外貌,在解決行人的相似細節(jié)特征和視角變化帶來的干擾上,存在一定的局限性。另一方面,盡管現(xiàn)有的方法能在一定程度上解決圖像部分遮擋的問題,但是當行人圖像之間對齊程度較低時,便無法準確地檢測出遮擋部位。

        針對上述問題,本文提出了一種結合行人屬性標簽的方法,作為深度全局特征的補充信息來提高重識別的準確率。由于卷積神經(jīng)網(wǎng)絡中包含多個卷積層,每進行一次卷積操作都能學習到圖像的某一局部特征。隨著層數(shù)的增加,通過逐層傳遞整合學習到的特征表達能力也得到增強,因此具有較好的光照不變性與旋轉不變性。本文中采用改進后的GoogleNet 網(wǎng)絡,通過增加網(wǎng)絡的寬度提取到更具有魯棒性的特征,同時引入批量規(guī)范化層(batch normalization)在網(wǎng)絡隱藏層中對每一塊輸入數(shù)據(jù)進行歸一化處理,從而提升了網(wǎng)絡的訓練速度。近年來,屬性識別(如年齡、性別等)在視頻監(jiān)控中的應用逐漸廣泛起來。由神經(jīng)網(wǎng)絡訓練得到的深度特征主要表征的是行人的整體特征,易忽略不同行人之間的相似細節(jié)。當兩個行人的外在特征十分相近時,僅僅采用深度特征進行相似度比對無法有效的區(qū)分不同行人。而屬性特征卻能通過局部特征,如是否佩戴眼鏡或書包等語義信息,作為整體信息的補充特征。即使當圖像部分被遮擋,或底部存在缺失而導致的圖像不對齊問題出現(xiàn)時,由于行人的顯著屬性不會受到影響,依舊能得到魯棒可靠的特征。因此本文設計了一個多任務同時識別的網(wǎng)絡,在原有的分段質量評估神經(jīng)網(wǎng)絡的基礎上加入屬性識別模塊,有效結合了深度特征和屬性特征。

        為了驗證本文所提方法的有效性,首先在視頻數(shù)據(jù)集iLIDS-VID、PRID 2011 和MARS 上進行了人工屬性標簽的制作,實驗結果表明本文所提方法在處理過后不對齊的數(shù)據(jù)集上取得更好的結果。

        2 結合屬性識別的網(wǎng)絡模型

        2.1 數(shù)據(jù)集的預處理

        在實際應用中,大型公共場所安裝的監(jiān)控視頻系統(tǒng)捕捉的行人畫面因為視角不同而存在不同行人的身體部位不對齊的情況,如有的圖像中未能拍攝到行人的腿部等。而現(xiàn)有研究通常直接采用標準數(shù)據(jù)集來驗證方法的有效性,因此在對圖像進行分割處理時直接按照身體比例來對整張圖片進行分割就能達到較好的效果??紤]到當兩個行人的相同身體部位在畫面框中的位置存在差異時,采用統(tǒng)一分割標準則可能降低重識別的準確率,現(xiàn)有方法將無法較好地應用到實際中。因此本文嘗試通過預處理的方法在標準數(shù)據(jù)集的基礎上構建一個更貼合實際的數(shù)據(jù)集,對數(shù)據(jù)集中的部分行人圖像進行裁剪,以增加樣本之間的差異性和行人重識別的難度。

        如圖1 所示,第一行是裁剪之前標準數(shù)據(jù)集中的行人圖像,第二行是經(jīng)過與處理之后的行人圖像。處理前圖像大小為128×64 像素,在實驗前首先隨機挑選數(shù)據(jù)集中1/3 的行人,裁去選中行人所有圖像的底部28 個像素,裁剪后的圖像大小為100×64。由于在對圖像通過卷積神經(jīng)網(wǎng)絡提取特征時需要保持所有圖像大小一致,因此將裁減后的圖像再次縮放為原大小。

        經(jīng)過該預處理步驟所得到的數(shù)據(jù)集更好地模擬了實際的監(jiān)控視頻中存在的不對齊問題,實驗表明,文獻[18]中所提的分段式局部質量評估方法在以數(shù)據(jù)集iLIDS-VID 和PRID 2011 為基礎構建的新數(shù)據(jù)集上的rank1的重識別率分別下降了22.4%和6.2%。

        為了提高在這個挑戰(zhàn)性更強的數(shù)據(jù)集上的重識別效果,本文提出將屬性特征融合到網(wǎng)絡中來。盡管通過預處理后行人畫面中存在部分身體部位的缺失,但行人的關鍵屬性特征依舊存在。

        2.2 網(wǎng)絡結構

        本文采用的網(wǎng)絡的結構如圖2 所示,該網(wǎng)絡包含分段特征提取和身份屬性預測兩個部分。在訓練的過程中,采用三元組損失來約束相同行人與不同行人之間的距離,使得相同行人之間的距離小于不同行人。首先將目標行人在不同攝像機下的圖像序列及另一行人在任一攝像機下的圖像序列輸入到網(wǎng)絡中,這三組圖像將被分別輸入到兩個不同的完整卷積神經(jīng)網(wǎng)絡中進行訓練。其中采用改進后的GoogleNet網(wǎng)絡來對所有圖像提取特征,采用另一個簡單的兩層卷積加兩層池化的神經(jīng)網(wǎng)絡來訓練,由全連接層輸出得到圖像的質量得分。通過計算每個行人所有圖像特征向量與質量分數(shù)的加權總和,可以得到該行人的特征表示。接著網(wǎng)絡將利用M+1個全連接層來同時預測該行人的身份標簽和屬性標簽,其中M 是標注的屬性種類數(shù)量。在測試階段,采用pool5層提取的特征進行相似度比對。

        該網(wǎng)絡的總損失包括行人身份標簽預測的損失、屬性預測損失及三元組損失三個部分。將整個網(wǎng)絡的輸入定義為一個三元組,其中表示給定行人(anchor)在某一攝像機下的一組圖像;表示該行人在另一攝像機下的一組圖像,即正樣本(positive);表示另一個行人在其中一個攝像機下的一組圖像,即負樣本(negative)。三元組損失可由下式計算得到:

        假設數(shù)據(jù)集中包含K 個行人,每個行人含有n張圖像,采用M 個屬性對其進行描述。令xi表示行人的第i張圖像的特征向量,di和分別表示該行人的身份標簽和第j種屬性的標簽[19]。

        圖1 預處理前后圖像對比

        圖2 網(wǎng)絡結構圖

        當給定目標行人x 時,y 為目標行人的真實身份標簽,k 為網(wǎng)絡預測的身份標簽,p(k)為該行人預測出屬于標簽k 的概率,其中k ∈1,2,…,K,則行人的身份標簽分類損失可由下式計算:

        其中,當k ≠y時,q(y)=1且q(k)=0。

        本文所提方法在網(wǎng)絡中引入M 個全連接層來預測屬性標簽,并采用與身份預測相似的方法計算softmax損失。令ym表示行人的真實屬性標簽,j表示網(wǎng)絡預測的屬性標簽,p(j)為該行人預測出屬于標簽j的概率,則行人的屬性標簽分類損失可表示為:

        其中m 表示為某一特定屬性的類別數(shù)目,當j ≠ym時,q(ym)=1且q(j)=0。

        因此整個網(wǎng)絡的總損失可以計算如下[18]:

        其中Lt表示三元組損失,LID和Latt分別表示身份標簽和屬性標簽分類損失。λ是用于平衡身份標簽損失與屬性標簽損失所占權重的參數(shù),該參數(shù)的確定將在第3 章進行討論。

        2.3 質量評估模塊

        本文采用和文獻[18]中相同的方法來評估行人每幀圖像的質量。根據(jù)行人身體的關鍵部位,將每個行人圖像按高度比例3∶2∶2 進行分割,如圖3 所示。所有的圖像輸入到兩個不同的模塊中,其中一個模塊是用來輸出圖像特征表示向量的完整的神經(jīng)網(wǎng)絡,另一個模塊則用來為分割后圖像的每一部分進行質量評估。輸入的圖像經(jīng)過這兩個模塊后,得到的特征向量和評估后的分數(shù)均按照圖像分割時的比例分成上、中、下三個部分。令S={I1,I2,…,In}表示給定行人的所有圖像序列,fu(Ii)、fm(Ii)、fl(Ii)則分別表示該行人第i幀圖像上、中、下三個部分的特征表示向量,μu(Ii),μm(Ii),μl(Ii)表示每個部分相應的質量評估分數(shù),該分數(shù)按比例縮放至范圍0到1之間。由此可以得到目標行人的最終特征表示如下[18]:

        圖3 行人圖像按高度比3∶2∶2分割示意圖

        2.4 屬性標注

        本文引入屬性標簽來進一步約束行人間的距離,從而增強整個網(wǎng)絡的靈活性。屬性預測在人臉識別領域的應用相對來說較為廣泛,因此近年來研究者們也開始將這一思路運用到行人重識別上來。Layne 等[20]采用SVM 訓練出屬性檢測器來預測行人的15 種屬性,如頭發(fā)顏色、背包類型等。Li等[21]提出了一種深度學習框架可以同時識別多種行人屬性。本文的主要思想受到文獻[19]中網(wǎng)絡結構的啟發(fā),采用CNN模型來同時學習行人的身份分類損失和屬性分類損失。

        為了使實驗結果與文獻[18]中的結果進行對比,本文采用數(shù)據(jù)集iLIDS-VID 和PRID 2011 進行測試,并為其進行屬性標注。在屬性標注的工作中均采用能夠代表行人身份的長時間特征,而非僅在短時間內(nèi)出現(xiàn)的特征(如打電話等)。在一定程度上,如果兩張圖像中包含同一行人,他們的屬性特征應該是相互匹配的。

        對于數(shù)據(jù)集iLIDS-VID,本文為其標注了26 種屬性:性別(男/女)、年齡(兒童/青少年/成年/老年)、頭發(fā)長度(長/短)、袖子長度(長/短)、下身衣服長度(長/短)、下身衣服類型(褲子/裙子)、是否佩戴帽子、是否拎包、是否攜帶書包、8 種上身衣服顏色(黑/白/紅/黃/灰/藍/綠/棕),以及9 種下身衣服顏色(黑/白/紫/黃/灰/藍/綠/棕/紅)。圖4 為數(shù)據(jù)集iLIDS-VID 中一個行人的部分屬性標簽示例。

        圖4 數(shù)據(jù)集iLIDS-VID上的屬性標簽示例

        對于數(shù)據(jù)集PRID 2011,本文為其標注了32 種屬性:除了同數(shù)據(jù)集iLIDS-VID相同的前9種屬性外,還增加了以下屬性:是否攜帶手提包、是否攜帶衣物、是否佩戴墨鏡、頭發(fā)顏色深淺、11 種上身衣服顏色(白/黑/藍/棕/綠/紅/灰/粉/綠/橙/紫),以及8 種下身衣服顏色(黑/藍/棕/灰/白/紅/黃/橙)。

        對于數(shù)據(jù)集MARS,本文為其標注了27 種屬性:除了同數(shù)據(jù)集iLIDS-VID 相同的前9 種屬性外,還增加了以下屬性:是否攜帶手提包、8 種上身衣服顏色(黑/白/紅/紫/黃/灰/藍/綠)、9 種下身衣服顏色(黑/白/紅/紫/黃/灰/藍/綠/棕)。

        3 實驗結果

        3.1 數(shù)據(jù)集與評估標準

        PRID 2011[22]數(shù)據(jù)集中包含200 個行人,每個行人在不同的兩個攝像機下各包含一段視頻序列,其中每段視頻的長度范圍為5至675幀。本文實驗中僅采用幀數(shù)大于27 的視頻序列。由于該數(shù)據(jù)集在較為空曠的室外區(qū)域拍攝,畫面背景干凈,存在的遮擋情況相對較少。

        iLIDS-VID[23]數(shù)據(jù)集中包含300 個行人的600 段視頻序列,每段視頻的長度范圍為23至192幀。該數(shù)據(jù)集拍攝于機場航站樓的兩個視角不同的攝像機,背景雜亂,存在較為嚴重的遮擋。

        MARS 數(shù)據(jù)集[13]是基于圖像的數(shù)據(jù)集Market-1501的擴展數(shù)據(jù)集,其中包括1 261個行人,每個行人分別被大學校園內(nèi)的6 個無重疊視域的攝像頭拍攝到。在采用該數(shù)據(jù)集進行實驗室,采用文獻[13]中相同的處理方法隨機挑選其中兩個攝像頭下的視頻序列,選擇其中一個攝像頭作為參考集,另一個作為測試集。

        評估標準:本文采取和文獻[18]中相同的設置從而便于結果的比較。在數(shù)據(jù)集的分配上,選取一半的行人圖像用來進行網(wǎng)絡的訓練,另一半行人用于結果的測試??紤]到兩個數(shù)據(jù)集的規(guī)模相對較小,實驗將重復進行10 次并取其平均結果。在行人重識別的任務中,采用CMC曲線來表示重識別的準確率。

        3.2 參數(shù)與屬性分析

        參數(shù)確定:第2 章中提到λ是用于平衡身份分類損失和屬性分類損失的參數(shù),λ的值越小,代表整個網(wǎng)絡的訓練過程中行人的身份分類損失占的比例越小。實驗過程中,隨機選取10 次實驗中的一次進行驗證,令λ的值從3 取到15 來比較不同的λ下重識別的準確率大小。實驗結果表明當λ=10時,準確率最高。圖5 中展示了不同λ取值下的結果。

        圖5 不同λ值下行人重識別rank1的識別率

        屬性分析:網(wǎng)絡訓練開始前,首先要驗證選取的屬性特征是否具有代表性,能夠有效區(qū)分出不同行人。假設每個行人的屬性均能完全預測正確,并且僅依靠屬性來進行重識別的情況下(即λ=0),得到的CMC 曲線如圖6 所示。另外,實驗中還測試了隨機選取10 個或20個屬性時的重識別率。圖中結果表明:(1)進行重識別時利用的屬性種類越多,得到的準確率越高;(2)當標注的所有屬性均用于重識別時,在兩個數(shù)據(jù)集上能夠分別取得65.33%和81%的識別率,證實了標注的屬性的可靠性。

        圖6 屬性預測準確時的結果

        3.3 相關方法比較

        本文所提方法旨在經(jīng)過處理后的數(shù)據(jù)集上提升行人重識別的準確率。為了驗證網(wǎng)絡的有效性,所得實驗結果將與兩種基本網(wǎng)絡下的訓練結果進行對比。網(wǎng)絡1(Baseline 1,B1)在訓練好的GoogLeNet[24]上進行微調(diào),將最后一層全連接層的神經(jīng)元個數(shù)設定為被用于訓練的行人數(shù)。測試過程中為參考集和測試集中每張圖片提取由pool5層得到的1 024維的特征向量,再計算向量間的歐式距離。網(wǎng)絡2(Baseline 2,B2)則直接采用文獻[18]中僅對圖片進行分段質量評估的方法。

        表1 和表2 為在數(shù)據(jù)集iLIDS-VID 和PRID 2011 上的實驗評估的結果。數(shù)據(jù)集中的部分圖像經(jīng)過底部裁剪處理后增加了行人重識別的難度,因此三種方法相比直接在標準數(shù)據(jù)集上應用的結果都有所下降。但是本文所提方法受到的影響較小,比另外兩種方法的準確率高。在數(shù)據(jù)集iLIDS-VID 上,B1 在rank1 上的準確率為50.7%,B2 由于增加了質量評估模塊,比B1 的結果增高了4%。文中所提方法結合了屬性局部特征,在rank1上的準確率能夠達到63.3%,比B1 和B2 的結果分別增加了12.6%和8.6%。另外,在數(shù)據(jù)集PRID 2011 上,對比實驗結果表明本文所提方法比B1 和B2 的準確率分別增加了10.0%和4.4%。

        表1 數(shù)據(jù)集iLIDS-VID上相關方法的識別率%

        表2 數(shù)據(jù)集PRID 2011上相關方法的識別率%

        由于文獻[18]中未采用數(shù)據(jù)集MARS 進行實驗,因此本文僅對所提方法在該數(shù)據(jù)集上得到的結果與現(xiàn)有其他方法所得結果進行了對比。由表中行人重識別的準確率可以看出,盡管本文對數(shù)據(jù)集進行了預處理工作,裁剪掉了部分行人的底部,增大了行人重識別的難度,本文所提方法依舊比其他方法的識別率高。表3 表明,在數(shù)據(jù)集MARS上,本文所提方法在rank1的準確率上比現(xiàn)有方法提高了4.8%。表4 和表5 表明,在數(shù)據(jù)集iLIDS-VID 上rank 1的準確率提高了5.3%,而在數(shù)據(jù)集PRID2011上準確率提高了9.6%。該結果表明了加入屬性特征可以有效提高行人重識別的效果。

        4 結束語

        本文提出了一種將基于圖像的局部區(qū)域質量評估和屬性識別相結合的網(wǎng)絡結構,能夠同時學習圖像的全局特征和局部特征。該方法在部分數(shù)據(jù)集圖像由于缺失而造成的不對齊問題上依舊具有可靠性,可以解決僅利用分段評估網(wǎng)絡進行行人重識別時的局限性。為了證實本文所提方法的有效性,分別對三個視頻數(shù)據(jù)集中的行人進行標注。實驗結果表明,引入屬性特征后的網(wǎng)絡能夠提升行人重識別的準確率。在利用屬性特征進行重識別的方法中,仍然存在許多可繼續(xù)改進的地方,如選擇更具有代表性的屬性,在網(wǎng)絡訓練時為其分配較大的權重等,對此將后續(xù)再展開研究。

        表4 數(shù)據(jù)集iLIDS-VID上現(xiàn)有方法的識別率%

        表5 數(shù)據(jù)集PRID2011上現(xiàn)有方法的識別率 %

        猜你喜歡
        識別率行人標簽
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        計算機工程(2020年3期)2020-03-19 12:24:50
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關系
        路不為尋找者而設
        揚子江(2019年1期)2019-03-08 02:52:34
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        提升高速公路MTC二次抓拍車牌識別率方案研究
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        我是行人
        高速公路機電日常維護中車牌識別率分析系統(tǒng)的應用
        標簽化傷害了誰
        国产精品亚洲一区二区三区在线 | 国产三级三级精品久久| 亚洲一区亚洲二区视频在线| 精品人妻av区乱码| 亚洲 高清 成人 动漫| 人妻无码人妻有码不卡| 丰满人妻被持续侵犯中出在线| 特黄 做受又硬又粗又大视频| 无码精品人妻一区二区三区影院 | 熟妇人妻精品一区二区视频免费的| 亚洲av日韩av永久无码下载| 免费观看又污又黄的网站| 久久久精品免费国产四虎| av毛片亚洲高清一区二区 | 国产中文欧美日韩在线| 四虎成人精品无码永久在线| 国产精品一区二区三区女同| 日本强伦姧人妻一区二区| 一二三四在线观看免费视频| 欧美日本免费一区二| 国产午夜精品综合久久久| 日日麻批免费40分钟无码| 少妇白浆高潮无码免费区| 无码a级毛片免费视频内谢| 黄色精品一区二区三区| 国产精品三级av及在线观看| 欧美一片二片午夜福利在线快 | 色丁香在线观看| 亚洲黄片av在线免费观看 | 亚欧美日韩香蕉在线播放视频| 欧美日本亚洲国产一区二区| 亚洲一区二区三区综合网| 久久久精品人妻一区二区三区四区| 免费特级毛片| 亚洲欧美日韩高清一区二区三区 | 中文字幕专区一区二区| 久久久久久久亚洲av无码| 97精品伊人久久大香线蕉| 亚洲专区在线观看第三页| 极品粉嫩小仙女高潮喷水网站| 亚洲精品字幕|