■文/重慶中科云從科技有限公司 李夏風
關(guān)鍵字:時空連續(xù) 多粒度網(wǎng)絡(luò) 跨鏡追蹤系統(tǒng) 深度學習
跨鏡追蹤(Person Re-Identification,簡稱 ReID)技術(shù)是現(xiàn)在計算機視覺研究的熱門方向,主要解決跨攝像頭跨場景下行人的識別與檢索。該技術(shù)能夠根據(jù)行人的穿著、體態(tài)、發(fā)型等信息認知行人,與人臉識別結(jié)合能夠適用于更多新的應(yīng)用場景,將人工智能的感知能力由“認臉”提升到“識人”,這也是人臉識別之后比較重要的研究方向之一。
以下歸納總結(jié)了跨鏡追蹤熱門內(nèi)容。
(1)行人檢測。任務(wù)是在給定圖片中檢測出行人位置的矩形框,這個跟之前的人臉檢測、汽車檢測比較類似,是較為基礎(chǔ)的技術(shù),也是很多行人技術(shù)的前置技術(shù)。
(2)行人分割以及背景替換。行人分割比行人檢測更精準,預(yù)估每個行人在圖片里的像素概率,把像素分割出人或是背景,這時用到很多 P 圖的場景,比如背景替換。
(3)骨架關(guān)鍵點檢測及姿態(tài)識別。一般識別出人體的幾個關(guān)鍵點,比如頭部、肩部、手掌和腳掌用到行人姿態(tài)識別的任務(wù)中。這些技術(shù)可以應(yīng)用在互動娛樂的場景中,類似于 Kinnect人機互動方面,具有一定的應(yīng)用價值。
(4)行人跟蹤“ MOT ”的技術(shù)。主要研究人在單個攝像頭里行進的軌跡,每個人后面拖了一根線,這根線表示人在攝像頭里行進的軌跡,和 ReID技術(shù)結(jié)合在一起可以形成跨鏡頭的細粒度軌跡跟蹤。
(5)動作識別。動作識別是基于視頻內(nèi)容的理解,技術(shù)更加復(fù)雜,但與人類的認知更接近,應(yīng)用場景更多,比如公共場合突發(fā)事件的智能認知,攝像頭識別出偷竊、聚眾斗毆等行為后可以采取自動報警等智能措施,但這個技術(shù)目前并不成熟。
(6)行人屬性結(jié)構(gòu)化。把行人的屬性提煉出來,比如衣服顏色、褲子類型和背包顏色等。
(7)跨鏡追蹤及行人再識別 ReID技術(shù)。
ReID--“跨鏡追蹤技術(shù)”是現(xiàn)在計算機視覺研究的熱門方向。主要解決跨攝像頭跨場景下行人的識別與檢索。該技術(shù)可以作為人臉識別技術(shù)的重要補充,對無法獲取清晰拍攝人臉的行人進行跨攝像頭連續(xù)跟蹤,增強數(shù)據(jù)的時空連續(xù)性。
圖1 RelD定義
如圖1所示,由四張圖片構(gòu)成,黃衣男子是目標人,出現(xiàn)在多個攝像頭里,現(xiàn)在研判時需要人工去檢索視頻里該男子出現(xiàn)的視頻段。如果在此場景下應(yīng)用ReID,根據(jù)行人的穿著、體貌,在各個攝像頭中檢索,把目標人在不同攝像頭出現(xiàn)的視頻段關(guān)聯(lián)起來,然后形成軌跡,對分析研判將有一定幫助。
ReID有很多技術(shù)難點。比如 ReID在實際應(yīng)用場景下的數(shù)據(jù)非常復(fù)雜,會受到各種客觀因素的影響,必須要嘗試解決。
圖2 RelD技術(shù)難點示意圖
第一組圖,無正臉照。最大的問題是完全看不到正臉,左圖是背面照,右圖戴帽子,沒有正面照。
第二組圖,姿態(tài)。左圖中綠衣男子在走路,右圖中綠衣男子在騎車且戴了口罩。
第三組圖,配飾。左圖是正面照,只能看到兩個肩帶,右圖是背面照且有大背包,可以提供很多背包信息。
第四組圖,遮擋。左圖白衣女子使用遮陽傘,遮擋了把肩部以上的全部部位。
圖中只列舉了四種情況,還有更多因素,如相機拍攝角度差異大、監(jiān)控圖片模糊不清、室內(nèi)室外環(huán)境變化、行人更換服裝配飾、季節(jié)性穿衣風格和日夜光線差異等。
ReID學術(shù)界最常用的三個公開數(shù)據(jù)集如圖3所示。
第一是Market1501。這個數(shù)據(jù)集用得比較多,拍攝地點是清華大學,圖片數(shù)量有 32000 張左右,行人數(shù)量是 1500 個,相當于每個人差不多有 20 張照片,用 6 個攝像頭拍攝完成。
圖3 常用數(shù)據(jù)集
第二是DukeMTMC-reID。拍攝地點是Duke 大學,圖片數(shù)量有36000 張,行人數(shù)量是1800 個,用8 個攝像頭拍攝完成。
第三是CUHK03。拍攝地點是香港中文大學,圖片數(shù)量有13000 張照片,行人數(shù)量是1467 個,用10個攝像頭拍攝完成。
圖4是 Market1501數(shù)據(jù)集,紫色衣服的人有部分照片檢測得并不好,像第二張照片的人只占圖片的五分之三左右,并不完整。還有些照片只檢測到局部,這是目前數(shù)據(jù)集存在的比較現(xiàn)實的情況。
圖4 Market1501 的數(shù)據(jù)集
ReID數(shù)據(jù)采集的特點包括:必須跨攝像頭采集,給數(shù)據(jù)采集研發(fā)團隊和公司提出了比較高的要求;公開數(shù)據(jù)集的數(shù)據(jù)規(guī)模非常??;影響因素復(fù)雜多樣;數(shù)據(jù)一般都是視頻的連續(xù)截圖;同一個人最好有多張全身照片;互聯(lián)網(wǎng)提供的照片基本無法用在 ReID;監(jiān)控大規(guī)模搜集涉及數(shù)據(jù)和用戶隱私問題。
就常用評價指標而言,第一是 Rank1,第二是mAPReID。Rank 是排序命中率核心指標。Rank1 是首位命中率,就是排在第一位的圖有沒有命中他本人,Rank5是 1-5 張圖有沒有至少一張命中他本人。mAP平均精度均值則是能全面評價ReID技術(shù)的指標。
圖5中左側(cè)三張圖是多粒度網(wǎng)絡(luò)(MGN)產(chǎn)生的檢索結(jié)果。第一組圖10張,從左到右是第1張到第10 張,全是本人圖片。第二組圖在第9張圖片模型判斷錯了,不是同一個人。第三組圖,第 1 張到第 6 張圖是對的,后面 4 張圖檢索錯了,不是模型檢索錯了,是這個人在底庫中總共就 6 張圖,把前 6 張檢索出來了,其實第三個人是百分之百檢索對的。
圖5 多粒度網(wǎng)絡(luò)(MGN)產(chǎn)生的檢索結(jié)果
Rank1 只要第一張命中就可以,有一系列偶然因素在里面,模型訓練或者測試時會存在波動。而mAP衡量ReID更加全面,要求被檢索人在底庫中所有的圖片都排在最前面,這時候 mAP的指標才會高。
圖6 mAP評價指標
ReID完整的過程分為三個步驟:第一步,從攝像頭的監(jiān)控視頻獲得原始圖片;第二步,基于這些原始圖片把行人的位置檢測出來;第三步,基于檢測出來的行人圖片,用 ReID技術(shù)計算圖片的距離?,F(xiàn)在基于常用數(shù)據(jù)集可以完成圖像采集和行人檢測兩步,目前的研究主要關(guān)注第三步。
常用的算法實現(xiàn)包括表征學習、度量學習和局部特征學習。其中,局部特征學習包括基于局部區(qū)域調(diào)整的ReID解決方案、基于姿態(tài)估計局部特征調(diào)整和PCB。
首先是全局特征,把整張圖片輸入,提取它的特征,用這種特征比較 Loss 或比較圖片距離。但這時會發(fā)現(xiàn)有一些不顯著的細節(jié),出現(xiàn)頻率比較低的特征會被忽略。比如衣服上的LOGO,不是所有人的衣服上都有 LOGO,只有部分人的衣服上有。全局特征會做特征均勻化,LOGO的細節(jié)被忽略掉了。
圖7 多粒度網(wǎng)絡(luò)(MGN)設(shè)計思路
圖8 為多粒度網(wǎng)絡(luò)(MGN)的網(wǎng)絡(luò)架構(gòu)完整圖,其網(wǎng)絡(luò)邏輯從結(jié)構(gòu)上較直觀,且有一定效果和普適性,特別是關(guān)注細粒度特征時,可以理解為“易遷移”。
圖8 多粒度網(wǎng)絡(luò)(MGN)網(wǎng)絡(luò)結(jié)構(gòu)
整個模型用兩種Loss設(shè)計,是機器學習里最常見的,一個是 SoftmaxLoss,一個是 TripletLoss。但因為分支比較多,而且在各個分支的Loss設(shè)計上不是完全均等的,所以比較復(fù)雜?,F(xiàn)在基于Loss設(shè)計的方案,從實踐上證明是比較好的,而且比較容易理解。
人臉識別技術(shù)已比較成熟,但是人臉識別技術(shù)有一個明顯的要求,就是必須看到相對清晰的人臉照,如果是一個背面照,完全沒有人臉的情況下,人臉識別技術(shù)是失效的。但 ReID技術(shù)可以做為人臉識別的補充,當能看到人臉的時候用人臉的技術(shù)去識別,當看不到人臉的時候用ReID技術(shù)去識別,可以延長行人在攝像頭連續(xù)跟蹤的時空延續(xù)性。在此基礎(chǔ)上,加上AI大數(shù)據(jù)分析技術(shù),一系列公安實戰(zhàn)大數(shù)據(jù)系統(tǒng)應(yīng)運而生。
融合人臉識別、大數(shù)據(jù)分析和跨鏡追蹤(ReID)等人工智能感知與認知技術(shù)實現(xiàn)的跨鏡追蹤系統(tǒng),可根據(jù)人體特征進行快速檢索,確定人員身份信息、追蹤人員軌跡,提供視頻預(yù)覽、視頻研判、檢索應(yīng)用、以人搜視頻、電子地圖、軌跡回放和特征檢索等基本功能。視頻預(yù)覽可直觀查看抓拍人員的人臉屬性、人體特征,如性別、年齡、頭巾、拎包、長短袖、衣服顏色等;視頻研判即將視頻化整為零,形成一幀幀圖片,提升視頻偵查的效率,提高視頻搜索穩(wěn)定性;檢索可根據(jù)上傳圖片,確認目標人員身份信息以及出現(xiàn)前后的視頻;對已知特征進行搜索,高效精準的搜索特定行人;軌跡回放則可查看目標人員一段時間內(nèi)的活動規(guī)律,輔助斷案。具體應(yīng)用包括:
(1)智能尋人。大型公共場所(例如公園、大型超市、火車站、展覽館等)中如遇走失事件,在跨鏡追蹤系統(tǒng)中通過攝像頭快速捕捉行走路線,定位確切位置。常規(guī)攝像頭由于架設(shè)高度、角度的限制,很難拍攝到正臉照片,ReID技術(shù)可彌補這一缺陷。
(2)目標鎖定。夜間銀行、辦公大樓等重要場所已停止進出,有人員或戴帽子或帶口罩,遮擋面部頻繁徘徊,通過跨鏡追蹤系統(tǒng)特征檢索、軌跡追蹤,可排查此類異常行為者,預(yù)防夜黑風高、殺人放火、偷盜搶劫等犯罪。
(3)案件視頻研判。調(diào)取案件周邊監(jiān)控視頻,經(jīng)過跨鏡追蹤系統(tǒng)預(yù)處理,得到結(jié)構(gòu)化的視頻信息。通過檢索特征信息,快速定位嫌疑人,獲取確切作案時間、作案手法,大幅提高查閱監(jiān)控視頻的效率。
(1)無監(jiān)督學習與對抗式生成網(wǎng)絡(luò)。ReID的數(shù)據(jù)比較難獲取,如果應(yīng)用無監(jiān)督學習與對抗式生成網(wǎng)絡(luò)(GAN)去提高 ReID效果,可以降低數(shù)據(jù)采集的依賴性,這也是一個研究方向,GAN生成數(shù)據(jù)可以幫助 ReID數(shù)據(jù)增強,現(xiàn)在也是一個很大的分支。
(2)基于視頻的 ReID。因為數(shù)據(jù)集是基于對視頻切好的單個圖片,但實際應(yīng)用場景中還存在著視頻的連續(xù)幀,連續(xù)幀可以獲取更多信息,跟實際應(yīng)用更貼近,很多研究者也在進行基于視頻 ReID的技術(shù)。
(3)跨模態(tài)的 ReID。黑夜時可以用紅外攝像頭拍出來的視頻跟白天攝像頭拍攝的視頻做融合匹配。
(4)跨場景的遷移學習。研究在一個場景比如Market1501 上學到的 ReID,如何在 Duke數(shù)據(jù)集上提高效果。
(5)應(yīng)用系統(tǒng)設(shè)計。研究ReID技術(shù)應(yīng)用到行人檢索等技術(shù)的應(yīng)用系統(tǒng)設(shè)計。