亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ReID2.0:從行人再識(shí)別走向人像態(tài)勢(shì)計(jì)算

        2023-05-20 07:36:10王生進(jìn)豆朝鵬樊懿軒李亞利
        關(guān)鍵詞:行人部件特征

        王生進(jìn),豆朝鵬,樊懿軒,李亞利

        1.清華大學(xué)電子工程系,北京 100084;2.北京信息科學(xué)與技術(shù)國(guó)家研究中心,北京 100084

        0 引 言

        行人再識(shí)別研究從技術(shù)上可分成行人檢測(cè)和行人檢索兩個(gè)主要部分。當(dāng)給定原始視頻序列后,首先提取出視頻幀,接著對(duì)每一幀圖像進(jìn)行行人檢測(cè),所有檢測(cè)到的行人便構(gòu)成了一個(gè)行人檢索庫(kù)(gallery)。然后,當(dāng)輸入一個(gè)待查詢對(duì)象(query)時(shí),將其送入檢索庫(kù)進(jìn)行特征匹配,最終返回查詢結(jié)果。其中,行人檢測(cè)是一個(gè)獨(dú)立的研究方向。因此,通常所指的行人再識(shí)別一般只包括行人檢索部分。即給定一幅行人圖像,從檢索庫(kù)中返回所有包含這一行人目標(biāo)圖像的過程,而不包含行人檢測(cè)的過程。因此,行人再識(shí)別問題可以看做是圖像檢索的一個(gè)子問題,但在實(shí)際應(yīng)用中包含視頻圖像的行人檢測(cè)部分。

        在實(shí)際應(yīng)用方面,行人再識(shí)別最大的應(yīng)用需求來自于公共安防領(lǐng)域和新型商業(yè)領(lǐng)域,同時(shí)在人機(jī)交互領(lǐng)域也有該技術(shù)的位置。在公共安防領(lǐng)域,人臉識(shí)別是公共安防領(lǐng)域確定目標(biāo)身份的最有力的技術(shù)手段之一。然而,人臉識(shí)別有著一項(xiàng)無(wú)法克服的障礙,即傳統(tǒng)人臉識(shí)別要求被采集對(duì)象需要以要求的角度、距離配合相機(jī)成像,即采取所謂的合作方式;隨著技術(shù)發(fā)展,半合作條件下的人臉識(shí)別也逐漸具備了技術(shù)可行性。盡管如此,在實(shí)際公共安防應(yīng)用中,存在大量的非合作場(chǎng)景,被監(jiān)視對(duì)象不會(huì)配合相機(jī)成像,可能不會(huì)察覺自己處于被拍攝狀態(tài),在一些極端情況下,甚至可能刻意遮擋臉部等關(guān)鍵生物特征。因此,公共安防領(lǐng)域迫切需要一種能夠克服該困難的技術(shù)——行人再識(shí)別,以提供新的技術(shù)支持,在較大空間范圍和較長(zhǎng)時(shí)間跨度上追蹤到目標(biāo)人。以行人再識(shí)別技術(shù)為支撐,使得從背影找到人臉、并由此識(shí)別人臉成為可能。此外,在商業(yè)新零售領(lǐng)域,行人再識(shí)別技術(shù)也具有良好的應(yīng)用前景。商業(yè)實(shí)體零售大數(shù)據(jù)中,需要分析客戶的行走路徑,對(duì)某些商品的關(guān)注程度,由此獲取客戶對(duì)商品的感興趣度,建立不同商品之間的興趣關(guān)聯(lián)。行人再識(shí)別能夠通過成像及分析,在較大空間范圍和較長(zhǎng)時(shí)間跨度上,將客戶對(duì)不同商品的關(guān)注行為聯(lián)系起來,具有很高的商業(yè)應(yīng)用價(jià)值。

        除了有很強(qiáng)的實(shí)際應(yīng)用價(jià)值外,行人再識(shí)別任務(wù)也有很大的理論研究?jī)r(jià)值。與目前較為成熟的人臉識(shí)別問題相比,行人再識(shí)別任務(wù)的不同在于,識(shí)別對(duì)象為非合作目標(biāo),即獲取行人視頻圖像時(shí),只能通過預(yù)先架設(shè)的攝像頭在一個(gè)開放環(huán)境中捕捉行人目標(biāo),無(wú)法要求行人主動(dòng)配合相機(jī)成像。這給行人再識(shí)別任務(wù)帶來了許多新的難點(diǎn)。盡管2006 年就提出了行人再識(shí)別的概念,但因?yàn)榧夹g(shù)不成熟,產(chǎn)業(yè)界很少問津,鮮有應(yīng)用場(chǎng)景,直到2015 年后,開始有企業(yè)試圖涉足行人再識(shí)別技術(shù)應(yīng)用。究其原因,正是因?yàn)樾腥嗽僮R(shí)別面臨著非常大的技術(shù)挑戰(zhàn)。核心問題及關(guān)鍵技術(shù)是如何從時(shí)變表觀圖像中學(xué)習(xí)有效圖像特征表達(dá)、學(xué)習(xí)如何從元圖像數(shù)據(jù)空間映射到具有鑒別性的特征空間??傮w而言,行人再識(shí)別中,行人成像存在顯著的姿態(tài)、視角、光照以及成像質(zhì)量等變化,還經(jīng)常面臨一定范圍遮擋等困難。這些問題通常難以在成像環(huán)節(jié)進(jìn)行控制或避免。主要表現(xiàn)如下:1)視角變化大。與人臉識(shí)別任務(wù)相比,雖然捕捉到的人臉也存在一定的視角變化,但基本能保證人臉方向大致正對(duì)相機(jī)。而行人再識(shí)別問題中得到的圖像,行人可能以各種角度面對(duì)相機(jī),在水平方向上行人可能以側(cè)面甚至背面朝向攝像頭。2)嚴(yán)重的遮擋。在開放式環(huán)境中,行人所在空間往往有許多物體對(duì)行人造成遮擋,如來往的車輛、行人之間的相互遮擋等。遮擋的行人對(duì)行人再識(shí)別造成了極大難度。3)姿態(tài)多變。在人臉識(shí)別問題中,人臉對(duì)齊是一個(gè)不可缺少的環(huán)節(jié),然而,在行人再識(shí)別問題中,行人在行走過程中身體姿態(tài)變化極大,且人體關(guān)節(jié)遠(yuǎn)多于面部關(guān)鍵點(diǎn),使得行人對(duì)齊難以實(shí)現(xiàn),行人對(duì)齊準(zhǔn)確率遠(yuǎn)低于人臉對(duì)齊。4)光照變化大。行人圖像可能是在一天的不同時(shí)段獲得的,光照強(qiáng)度的差別十分大。白天與夜晚拍攝得到的同一行人圖像,行人表觀差異巨大,即便是人為觀察也很難識(shí)別。

        另外,相比人臉識(shí)別任務(wù),行人再識(shí)別任務(wù)中所用的數(shù)據(jù)采集難度更大,標(biāo)注更困難,學(xué)術(shù)界已有的數(shù)據(jù)集規(guī)模遠(yuǎn)小于人臉識(shí)別數(shù)據(jù)集。在已有數(shù)據(jù)集上得到的特征提取器往往存在較嚴(yán)重的過擬合現(xiàn)象。如將某一數(shù)據(jù)集上得到的模型直接用于另一數(shù)據(jù)集,性能會(huì)急劇下降。為了更適應(yīng)實(shí)際需求,行人再識(shí)別中的跨域問題有很大的研究意義,并且挑戰(zhàn)巨大。因此,從過去近10 年至今,學(xué)術(shù)界特別是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域的研究者對(duì)此投入了極大的關(guān)注,行人再識(shí)別研究成為熱點(diǎn),歷屆國(guó)際本領(lǐng)域幾大頂會(huì)和著名期刊均有諸多行人再識(shí)別論文發(fā)表。

        本文整體安排如圖1 所示。首先,從任務(wù)、應(yīng)用需求、技術(shù)挑戰(zhàn)、關(guān)鍵技術(shù)、數(shù)據(jù)集以及評(píng)價(jià)指標(biāo)等方面介紹行人再識(shí)別任務(wù)。其次,針對(duì)提到的技術(shù)挑戰(zhàn),介紹了對(duì)應(yīng)的解決方案。然后,探討了行人再識(shí)別存在的問題,進(jìn)一步提出了人像態(tài)勢(shì)計(jì)算任務(wù),并對(duì)相應(yīng)的概念進(jìn)行了探討。最后,介紹本文構(gòu)建的對(duì)于人像態(tài)勢(shì)計(jì)算的基準(zhǔn)數(shù)據(jù)集,并進(jìn)行分析討論,給出了評(píng)測(cè)指標(biāo)的建議,以促進(jìn)人像態(tài)勢(shì)計(jì)算任務(wù)的發(fā)展。

        圖1 本文整體結(jié)構(gòu)Fig.1 Overall structure of this paper

        1 行人再識(shí)別

        1.1 行人再識(shí)別研究特點(diǎn)與主要關(guān)鍵技術(shù)

        考慮到行人再識(shí)別任務(wù)的應(yīng)用價(jià)值和理論挑戰(zhàn),在充分了解和分析的基礎(chǔ)上可以發(fā)現(xiàn),面向行人再識(shí)別任務(wù)普遍采用的深度學(xué)習(xí)方法中,最重要的是需要解決行人特征學(xué)習(xí)問題,即行人深度特征學(xué)習(xí)。

        如圖2 所示,行人再識(shí)別完整流程分為行人檢測(cè)和行人檢索兩部分。給定原始圖像或視頻,先對(duì)齊進(jìn)行行人檢測(cè),并將所有檢測(cè)結(jié)果以限制框形式(bounding box)匯聚在一起,形成圖像庫(kù)(gallery)。再識(shí)別時(shí),給定查詢圖像(query),在圖像庫(kù)中檢索與其同身份的行人。具體過程是:對(duì)查詢圖像和庫(kù)圖像分別提取特征,并逐一比較查詢圖像特征與庫(kù)圖像特征的相似性(例如以歐氏距離為相似性度量)。最后,按照相似性由大至小排序的方式,返回查詢結(jié)果。返回結(jié)果形式與圖像檢索相似,故行人再識(shí)別也稱為行人檢索。在上述流程中,通常將行人檢測(cè)作為一項(xiàng)獨(dú)立任務(wù)進(jìn)行研究。而行人再識(shí)別更多地強(qiáng)調(diào)給定查詢圖像、提取特征以及返回正確查詢結(jié)果的過程。毫無(wú)疑問,特征是否具有足夠強(qiáng)的表達(dá)、鑒別能力,是決定查詢結(jié)果好壞的最關(guān)鍵因素。實(shí)際上,絕大部分視覺任務(wù)都與特征表達(dá)能力有極強(qiáng)的聯(lián)系。在行人再識(shí)別這一計(jì)算機(jī)視覺新興的細(xì)分領(lǐng)域,特征學(xué)習(xí)也自然而然地成為至關(guān)重要的一個(gè)環(huán)節(jié)。

        圖2 行人再識(shí)別任務(wù)的完整流程Fig.2 The complete process of person re-identification ((a)pedestrian detection;(b)person re-identification)

        在行人再識(shí)別任務(wù)的深度學(xué)習(xí)方法中,深度度量學(xué)習(xí)是關(guān)鍵技術(shù)之一。深度度量學(xué)習(xí)采用非常直接的學(xué)習(xí)目標(biāo),即判斷兩幅圖像是否屬于同一個(gè)行人。該學(xué)習(xí)目標(biāo)與行人再識(shí)別的初衷完全一致。具體來講,度量學(xué)習(xí)將圖像以樣本對(duì)的形式輸入到深度網(wǎng)絡(luò)中,當(dāng)樣本對(duì)中的兩幅圖像來自于同一個(gè)行人時(shí),標(biāo)識(shí)為正樣對(duì);反之,兩幅圖像來自于不同行人,則標(biāo)識(shí)為負(fù)樣對(duì)。訓(xùn)練時(shí),網(wǎng)絡(luò)通過學(xué)習(xí)鑒別正負(fù)樣本對(duì),獲得對(duì)行人的鑒別能力。值得指出的是,盡管度量學(xué)習(xí)有時(shí)被認(rèn)為與特征學(xué)習(xí)屬于不同的研究范疇,但實(shí)際上度量學(xué)習(xí)提供了一種有效的特征學(xué)習(xí)方式,通過深度度量學(xué)習(xí)可以獲得一個(gè)具有鑒別力的深度特征空間,在這個(gè)空間中,來自同一身份的所有樣本(圖像特征)彼此相似,而來自不同身份的樣本彼此相遠(yuǎn)。

        早期行人再識(shí)別訓(xùn)練樣本較少,而這種“組隊(duì)”產(chǎn)生樣本的訓(xùn)練方式,能夠獲取相對(duì)較多的直接訓(xùn)練樣本。然而,這種方式也有明顯的缺點(diǎn),它將ID(identity)級(jí)別的行人身份標(biāo)注信息退化為二值化的樣本對(duì)標(biāo)簽,無(wú)法利用ID 級(jí)標(biāo)注這種更強(qiáng)的監(jiān)督信息。在Market-1501 等大規(guī)模數(shù)據(jù)集出現(xiàn)后,越來越多的研究發(fā)現(xiàn),采用深度分類學(xué)習(xí)通常能夠獲得更好的效果。在采用Siamese 網(wǎng)絡(luò)結(jié)構(gòu)的方法(Varior等,2016;Ahmed等,2015;Cheng等,2016;Shi等,2016)中,Varior等人(2016)提出的Gated Siamese聯(lián)合長(zhǎng)短注意力機(jī)制(long short-term memory)來學(xué)習(xí)不同分割部件之間的關(guān)聯(lián)。

        深度分類學(xué)習(xí)采用圖像分類的方式訓(xùn)練深度模型,即訓(xùn)練深度模型鑒別訓(xùn)練集上每幅圖像所屬的行人ID。當(dāng)一個(gè)模型能夠在訓(xùn)練集上很好地識(shí)別行人身份時(shí),該模型往往嵌入了具有鑒別能力的特征空間。這種模型通常稱為IDE(identity discrminative embedding)模式。相比于深度度量學(xué)習(xí),這種方式充分利用了標(biāo)簽中含有的強(qiáng)監(jiān)督信息。Geng等 人(2016)、Zheng 等 人(2019a)、Xiao 等 人(2016)、Ustinova 等人(2017)、Zheng 等人(2021)和Dou 等人(2022)都采用了這種方法。在大規(guī)模數(shù)據(jù)集上,這種方式通常取得比深度度量學(xué)習(xí)更好的鑒別能力。然而,兩種方式本身是相互相容的,與在相近的人臉識(shí)別任務(wù)上取得的經(jīng)驗(yàn)一致,將兩種方式聯(lián)合起來能夠互相強(qiáng)化,取得更好的特征學(xué)習(xí)效果。

        除以上兩類方法外,不同方法還根據(jù)不同場(chǎng)景進(jìn)行針對(duì)性設(shè)計(jì)來提升行人再識(shí)別的性能。史維東等人(2020)提出一種融合形變與遮擋機(jī)制的行人再識(shí)別算法,提高了網(wǎng)絡(luò)應(yīng)對(duì)行人姿態(tài)改變以及遮擋問題的能力。鄭鑫等人(2020)提出了基于注意力機(jī)制和多屬性分類的行人再識(shí)別方法,采用全局分支和局部分支相結(jié)合的方法,關(guān)注具有顯著性特征的行人部件,忽略帶有干擾信息的其他部件,學(xué)習(xí)到了行人的顯著性特征,有效解決了行人遮擋和不對(duì)齊的問題。沈慶等人(2020)通過交錯(cuò)卷積構(gòu)建4 個(gè)分支來提取多分辨率的行人特征,既對(duì)行人不同粒度特征進(jìn)行抽取,也對(duì)不同分支特征進(jìn)行交互,對(duì)行人進(jìn)行了高效的特征表示。

        1.2 主要數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        目前,行人再識(shí)別廣泛采用兩種評(píng)價(jià)指標(biāo),分別是累積匹配特征曲線(cumulative matching characteristic,CMC)和平均準(zhǔn)確率均值(mean average precision,mAP)。

        CMC 是圖像檢索中常用的一個(gè)評(píng)價(jià)指標(biāo),關(guān)注的是給定查詢圖像,在排序結(jié)果最相似的前N個(gè)結(jié)果中存在正確匹配這一事件的發(fā)生概率,簡(jiǎn)稱前N選正確率(Rank-N正確率),或縮寫為R-N正確率(如R-1 正確率、R-5 正確率等)。對(duì)于同一個(gè)方法,CMC將返回一個(gè)隨N單調(diào)遞增的概率值。行人再識(shí)別采用排序方式返回查詢結(jié)果,可以看成一個(gè)檢索排序問題,因此采用CMC作為評(píng)價(jià)指標(biāo)。

        一般來講,mAP 指標(biāo)關(guān)注召回率與準(zhǔn)確率二者的兼顧能力。考慮mAP 的原因是,給定一個(gè)查詢圖像,當(dāng)圖像庫(kù)中存在一幅以上的正確匹配時(shí),CMC指標(biāo)不足以完全反映方法在召回率方面的性能。例如,假設(shè)某幅查詢圖像能夠在首次檢索時(shí)就得到一個(gè)正確的匹配結(jié)果,但剩余的若干正確匹配卻難以召回,導(dǎo)致CMC 指標(biāo)很高,卻并不能反映方法的綜合性能。而mAP 指標(biāo)綜合考慮了準(zhǔn)確率和召回率,是在準(zhǔn)確率—召回率(precision-recall,PR)曲線基礎(chǔ)上計(jì)算得到,是PR 曲線下的面積值。

        為了推進(jìn)行人再識(shí)別問題的研究,研究人員構(gòu)建了若干行人再識(shí)別數(shù)據(jù)集。常用的有Gray 等人(2007)提 出 的VIPeR,Li 等 人(2014)提 出 的CUHK03,Zheng 等人(2015a)提出的Market-1501,Ristani等人(2016)提出的DukeMTMC-reID和Wei等人(2018)提出的MSMT17等。

        VIPeR 數(shù)據(jù)集含有632 個(gè)行人,共1 264 幅圖像。每個(gè)行人有兩幅圖像,分別采集自兩個(gè)不同攝像頭。視頻圖像中行人框的標(biāo)注完全依靠手工完成。該數(shù)據(jù)集的測(cè)試方法隨機(jī)將632 對(duì)行人圖像進(jìn)行分組,一半用于訓(xùn)練,一半用于測(cè)試,重復(fù)10 次,得到平均結(jié)果。

        CUHK03 數(shù)據(jù)圖像采集于香港中文大學(xué),由6個(gè)攝像頭采集得到,共13 164 幅圖像,包含1 467 個(gè)行人,數(shù)據(jù)量遠(yuǎn)大于此前公開的行人再識(shí)別數(shù)據(jù)集,是第1 個(gè)足以進(jìn)行深度學(xué)習(xí)的大規(guī)模行人重識(shí)別數(shù)據(jù)集。除了數(shù)據(jù)規(guī)模外,還有以下特點(diǎn):1)除了人工標(biāo)注行人框外,提供了由行人檢測(cè)器DPM(deformable part model)獲得的行人框,使得到的圖像數(shù)據(jù)更接近真實(shí)場(chǎng)景。由于行人檢測(cè)器不準(zhǔn)確,會(huì)導(dǎo)致得到的行人圖像存在偏移、遮擋、身體部位缺失等。2)數(shù)據(jù)采集自多個(gè)攝像頭。這意味著同一個(gè)行人出現(xiàn)在多個(gè)不同攝像頭下,采集到的圖像有更豐富的角度變換,使得識(shí)別難度增大。3)圖像采集時(shí)間持續(xù)數(shù)月。從而使得由于天氣變換引起的光照等因素變化更加豐富。該數(shù)據(jù)集的測(cè)試方法有兩種。一是隨機(jī)選出100 個(gè)行人作為測(cè)試集,1 160 個(gè)行人作為訓(xùn)練集,100 個(gè)行人作為驗(yàn)證集,重復(fù)20次。二是類似Market-1501的測(cè)試方法,將數(shù)據(jù)集分為包含767 個(gè)行人的訓(xùn)練集和700 個(gè)行人的測(cè)試集,測(cè)試時(shí)隨機(jī)選擇一幅作為query,剩下作為gallery。

        Market-1501 數(shù)據(jù)集是在清華大學(xué)校園中采集的視頻圖像。采集圖像時(shí),架設(shè)了6 個(gè)攝像頭,包括5 個(gè)高清攝像頭和1 個(gè)低清攝像頭。數(shù)據(jù)集規(guī)模大于CUHK03 數(shù)據(jù)集,共拍攝到1 501 個(gè)行人,得到32 668 個(gè)行人矩形框。每個(gè)行人至少有2個(gè)攝像頭捕捉到,并且在同一攝像頭下可能采集多幅同一行人圖像。訓(xùn)練集有751 人,包含12 936 幅圖像,平均每人17.2 幅圖像;測(cè)試集有750 人,包含19 732 幅圖像,平均每人26.3 幅圖像。數(shù)據(jù)集中,查詢圖像有3 368 幅,檢測(cè)矩形框由人工標(biāo)注完成,而查詢庫(kù)中的行人矩形框由行人檢測(cè)器檢測(cè)得到,使用的行人檢測(cè)器也是DPM。

        DukeMTMC-reID 是行人跟蹤數(shù)據(jù)集DukeMTMC 的一個(gè)子集。DukeMTMC 是行人跟蹤數(shù)據(jù)集,使用了8 臺(tái)攝像機(jī)獲取高清視頻數(shù)據(jù),錄制了7 000多個(gè)行人軌跡,包含2 700 多個(gè)行人。DukeMTMCreID 中包含1 404 個(gè)出現(xiàn)在多攝像頭下的行人和408 個(gè)只出現(xiàn)在一個(gè)攝像頭下的行人,數(shù)據(jù)集共提供36 411個(gè)行人框。數(shù)據(jù)集中702個(gè)行人的16 522 幅圖像用于訓(xùn)練,另702 人的2 228 幅圖像作為測(cè)試時(shí)的query 圖,17 661幅圖作為gallery。

        MSMT17 是一個(gè)涵蓋多場(chǎng)景多時(shí)段且更接近真實(shí)場(chǎng)景的大型行人再識(shí)別數(shù)據(jù)集,使用了15 個(gè)攝像頭在校園內(nèi)采集圖像,包括12 個(gè)室外攝像頭和3 個(gè)室內(nèi)攝像頭。監(jiān)控視頻選擇1 個(gè)月內(nèi)不同天氣的4 天,每天采集3 小時(shí),包含早上、中午、下午3 個(gè)時(shí)段。數(shù)據(jù)集使用了更先進(jìn)的行人檢測(cè)器Faster RCNN(regions with convolutional neural network),最終得到4 101 個(gè)行人的126 441 個(gè)行人框。與其他數(shù)據(jù)集相比有以下優(yōu)勢(shì):1)包含更多行人ID、行人檢測(cè)框和攝像頭;2)更復(fù)雜的場(chǎng)景和背景內(nèi)容,包含室內(nèi)室外場(chǎng)景;3)多時(shí)段拍攝,光照變化劇烈;4)使用了更可靠的行人檢測(cè)器。

        縱觀行人再識(shí)別數(shù)據(jù)集的發(fā)展可以看到,早期的數(shù)據(jù)集規(guī)模相對(duì)較小,隨著深度學(xué)習(xí)方法的出現(xiàn),對(duì)數(shù)據(jù)集規(guī)模要求越來越高,出現(xiàn)了CUHK03,Market-1501,DukeMTMC-reID 等更大規(guī)模的數(shù)據(jù)集,滿足深度學(xué)習(xí)模型訓(xùn)練的要求。另外,數(shù)據(jù)集的采集使用更多的攝像頭,并且覆蓋更豐富的場(chǎng)景,更接近實(shí)際應(yīng)用場(chǎng)景。

        2 行人再識(shí)別問題研究進(jìn)展

        本文針對(duì)ReID 的幾個(gè)關(guān)鍵問題開展研究,包括特征優(yōu)化問題、特征配準(zhǔn)問題和部分遮擋問題。

        2.1 基于深度網(wǎng)絡(luò)特征空間正交優(yōu)化的行人再識(shí)別

        2.1.1 權(quán)向量相關(guān)性及其影響

        在物體識(shí)別研究和應(yīng)用中,通用做法是采用基于深度網(wǎng)絡(luò)的深度模型特征作為物體特征描述。通過理論上深入研究,發(fā)現(xiàn)雖然深度特征的鑒別性能有了提升,但是深度特征仍然存在冗余,而存在的冗余會(huì)影響特征的鑒別力。針對(duì)這個(gè)問題,本文提出基于深度網(wǎng)絡(luò)的特征空間正交優(yōu)化理論以及深度特征學(xué)習(xí)方法SVDNet(singular vector decomposition network)。通過對(duì)特征空間對(duì)應(yīng)的權(quán)矩陣施加正交約束,可實(shí)現(xiàn)在深度特征學(xué)習(xí)中進(jìn)一步降低特征冗余,提高特征鑒別力。在其他模式識(shí)別問題上也獲得了良好的效果,具有一般性科學(xué)意義。實(shí)驗(yàn)結(jié)果表明,所提出的方法有效降低了投影向量之間的相關(guān)性,生成了更具鑒別性的全連接層(fully connnected,F(xiàn)C)描述子,顯著提高了行人再識(shí)別的準(zhǔn)確性。

        特征空間正交優(yōu)化的深度特征學(xué)習(xí)方法SVDNet 解決的問題點(diǎn)如圖3 所示。這些權(quán)向量位于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的最后全連接層,例如CaffeNet 的FC8 或者ResNet-50(residual network)的FC 層。本文使用DukeMTMCreID數(shù)據(jù)集中的3個(gè)訓(xùn)練ID 進(jìn)行示例,分別是紅色、粉色和藍(lán)色著裝的女性行人。圖中綠色和黑色帶箭頭虛線所示的向量分別是兩個(gè)不同ID 的測(cè)試圖像在最終全連接層之前的特征。在一個(gè)基線CNN 模型中,紅色和粉色權(quán)向量高度相關(guān),并對(duì)特征表達(dá)引入了有害的冗余。

        圖3 權(quán)向量空間相關(guān)性及其負(fù)面影響的示例說明Fig.3 Illustration of weight vector spatial correlation and its negative effects

        2.1.2 SVDNet的網(wǎng)絡(luò)模型

        SVDNet 的網(wǎng)絡(luò)模型如圖4 所示。在最終FC 層之前,SVDNet 使用一個(gè)權(quán)向量互相正交的本征層(eigenlayer)作為特征表達(dá)層。在測(cè)試階段,本征層的輸入或輸出都可以用于特征表達(dá)。給定兩幅待比較的圖像xi和xj,本文用hi和hj表示它們?cè)贓igen-Layer 之前的特征,用fi和fj表示經(jīng)EigenLayer 投影后的特征,并通過歐氏距離比較這兩幅圖像特征,具體為

        圖4 特征空間正交優(yōu)化方法SVDNet的網(wǎng)絡(luò)模型Fig.4 Structure of the feature space orthogonal optimization method SVDNet

        式中,U,S,V的定義在W=USVT中給出。由于V是一個(gè)單位正交陣,式(1)等效為

        式(2)說明,使用W=USVT時(shí),任意兩幅圖像特征之間的距離Dij保持不變。因此,在張弛迭代的步驟中,模型的鑒別力是100%保留的。

        深度學(xué)習(xí)中的網(wǎng)絡(luò)模型龐大、參數(shù)冗余,在行人再識(shí)別任務(wù)中,由于訓(xùn)練集規(guī)模相對(duì)較小,容易出現(xiàn)過擬合風(fēng)險(xiǎn)。通過分析特征表達(dá)層,發(fā)現(xiàn)這種參數(shù)冗余不僅不必要,甚至還會(huì)嚴(yán)重降低特征鑒別力。因此,采用特征表達(dá)層的權(quán)矩陣正交優(yōu)化方法,將特征表達(dá)層權(quán)矩陣解讀為特征空間一組模板,通過奇異值(singular value decomposition,SVD)分解,將模板正交化,降低特征之間的相關(guān)性;同時(shí),設(shè)計(jì)了一種特殊的訓(xùn)練方法——張弛迭代法,通過循環(huán)迭代“SVD 分解”、“保持正交微調(diào)”和“放棄正交微調(diào)”,不斷提高特征鑒別能力,取得了顯著的性能提升。SVDNet 方法與最高性能(state-of-the-art,SOTA)(截止2017 年5 月)的對(duì)比結(jié)果如表1 所示。模板可視化的結(jié)果如圖5 所示。將W視為輸入特征空間的模板,可以看到,在第1、2行的Baseline 模型中,隱含了一些不相關(guān)模板,但也隱含了大量相似的模板。第3 行的SVDNet 結(jié)果顯示,減少了冗余、豐富了模板,優(yōu)化了特征表達(dá)。同時(shí),證明了該方法在圖像分類任務(wù)中具有一定的提升效果。

        圖5 模板可視化結(jié)果Fig.5 Visualization of the templates((a)example A and four highly-correlated examples;(b)example A and four uncorrelated examples;(c)examples after our method)

        提出的基于SVDNet的行人檢索方法,緩解了由于全連接層描述子間的相關(guān)性所導(dǎo)致的影響基于歐氏距離的檢索性能降低的問題。表1 的實(shí)驗(yàn)結(jié)果表明,本文方法有效降低了投影向量之間的相關(guān)性,生成了更具鑒別性的全連接層描述子,顯著提高了行人再識(shí)別的準(zhǔn)確性。CaffeNet 模型在Market-1501數(shù)據(jù)集上的Rank-1 準(zhǔn)確度從55.3%提高到80.5%,ResNet-50的準(zhǔn)確度從73.8%提高到82.3%(Sun等,2017)。

        表1 SVDNet與最高性能的對(duì)比結(jié)果Table 1 Comparisons with state-of-the-art methods%

        2.2 基于語(yǔ)義部件學(xué)習(xí)的行人再識(shí)別

        在行人再識(shí)別研究中,非剛體行人的特征配準(zhǔn)對(duì)識(shí)別性能具有較大影響,是一個(gè)急需解決的瓶頸問題。為解決該關(guān)鍵技術(shù)問題,提出一種基于廣義部件的行人部件特征學(xué)習(xí)方法,包括部件特征學(xué)習(xí)結(jié)構(gòu)(part-based convolutional baseline,PCB)和部件提純方法(refined part pooling,RPP),有效解決了行人再識(shí)別中準(zhǔn)確定位、對(duì)齊各個(gè)部件的問題,可以減小部件檢測(cè)誤差,提高部件特征鑒別力,進(jìn)而提高了行人再識(shí)別方法的性能。很多學(xué)術(shù)研究機(jī)構(gòu)和公司將PCB 方法作為 baseline(Sun 等,2018)。

        提出的使用部件級(jí)特征作為細(xì)粒度信息可用于行人圖像描述的方法。所提方法不使用姿態(tài)估計(jì)這樣的外部資源,而是考慮每個(gè)部件內(nèi)部的內(nèi)容一致性,實(shí)現(xiàn)了特征圖上的每個(gè)像素到部件特征的精確定位。實(shí)驗(yàn)證明,所提方法可以使基線性能獲得提升。在Market-1501 數(shù)據(jù)集上,mAP 和Rank-1 的精度分別為(77.4 + 4.2)%和(92.3 + 1.5)%,較大程度超過了當(dāng)時(shí)的最先進(jìn)性能水平。

        2.2.1 行人語(yǔ)義部件特征學(xué)習(xí)

        為了挖掘行人身體結(jié)構(gòu)信息、提高特征鑒別力,較為直觀的一種做法是針對(duì)各個(gè)語(yǔ)義部件提取特征。一般的做法是借助于額外的模型來定位人體的語(yǔ)義部件,如行人分割、關(guān)鍵點(diǎn)檢測(cè)等。然而這種做法對(duì)語(yǔ)義部件誤差非常敏感。為此,提出了利用非局部相似性(supervised non-local similarity,SNS)學(xué)習(xí)提高語(yǔ)義部件特征學(xué)習(xí)的方法,減輕背景的影響,學(xué)習(xí)更具鑒別力的部件特征。圖6 是設(shè)計(jì)的基于語(yǔ)義部件的行人部件特征學(xué)習(xí)模型。其中,具體創(chuàng)新包括:1)舍棄了直接利用噪聲較大的姿態(tài)估計(jì)或行人分解結(jié)果作為語(yǔ)義部件的方式,提出利用語(yǔ)義部件的中心點(diǎn)作為相對(duì)可靠的線索,搜尋更魯棒的語(yǔ)義部件。2)以每個(gè)語(yǔ)義部件的中心點(diǎn)為錨點(diǎn),通過非局部相似性吸收其周圍特征并最終形成部件特征。3)在非局部相似性學(xué)習(xí)過程中,施加不同部件錨點(diǎn)互斥約束,使學(xué)到的部件特征同時(shí)在全局感受和局部感受中取得較好平衡,進(jìn)一步提高特征鑒別力。在4 種常見語(yǔ)義部件檢測(cè)方法基礎(chǔ)上,均提高了re-ID 準(zhǔn)確度,取得了有競(jìng)爭(zhēng)力的re-ID 性能。表2是利用4 種不同精度方法檢測(cè)語(yǔ)義部件的結(jié)果。可以看出,本文方法能穩(wěn)定提高re-ID 準(zhǔn)確率,且對(duì)檢測(cè)噪聲更為魯棒。

        表2 利用 4 種不同精度方法檢測(cè)語(yǔ)義部件的結(jié)果Table 2 Results about 4 methods regarding different accuracy/%

        圖6 基于語(yǔ)義部件的行人部件特征學(xué)習(xí)模型Fig.6 A semantic part-based feature learning model for pedestrian parts

        2.2.2 行人廣義部件特征學(xué)習(xí)

        進(jìn)一步研究發(fā)現(xiàn),可以舍棄語(yǔ)義部件這一直觀做法,以更高視角考慮學(xué)習(xí)部件特征的重要前提,即當(dāng)同一個(gè)部件在不同圖像中總能很好地對(duì)齊,就可以成為很好的部件,而并不需要依賴人對(duì)“部件”的直觀理解?;谶@樣的認(rèn)識(shí),通過研究行人廣義部件特征學(xué)習(xí),提出兩種解決方案。

        1)提出一種用于廣義部件特征學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型PCB(part-based convolutional baseline)。PCB 具有良好的通用性,能夠使用各種部件提取策略學(xué)習(xí)廣義部件特征,并最終顯著提高行人再識(shí)別準(zhǔn)確率。尤其是采用均勻分割時(shí),模型結(jié)構(gòu)簡(jiǎn)潔,準(zhǔn)確率相對(duì)于其他分割策略更高,刷新了國(guó)際領(lǐng)先水平。除此之外,PCB 結(jié)構(gòu)簡(jiǎn)單、在跨數(shù)據(jù)集場(chǎng)景下具有良好的泛化能力,能夠與多種損失函數(shù)相容,這些優(yōu)點(diǎn)保證了PCB能夠用做一個(gè)很好的行人部件特征學(xué)習(xí)基線方法。

        2)提出一種弱監(jiān)督的部件提純池化RPP(refined part pooling)方法,通過提純初始部件進(jìn)一步提高PCB 性能。提純之后,卷積特征上相似的列向量被歸納到同一個(gè)部件中,使每個(gè)部件內(nèi)部更加一致。給定各種不同的部件提取策略,RPP 都能夠有效提純初始部件并提高所學(xué)部件特征的鑒別能力。RPP在PCB基礎(chǔ)上進(jìn)一步提高了性能。

        在 PCB 模型中,輸入圖像經(jīng)過主干網(wǎng)絡(luò)的卷積層換成一個(gè)3D 的張量T。PCB 在T上提取p個(gè)部件并將各個(gè)部件中的列向量取平均,產(chǎn)生相應(yīng)個(gè)數(shù)的列向量g。隨后,通過一個(gè)尺寸為 1 × 1 的卷積層將列向量g降維成列向量h。最后,列向量h被輸入到一個(gè)ID 分類器中。ID 分類器由一個(gè)全連接層及一個(gè)串聯(lián)其后的 Softmax 函數(shù)構(gòu)成。在測(cè)試階段,將p個(gè)部件的特征串聯(lián)起來,形成輸入圖像的最終描述子。提出的PCB 模型如圖7 所示。圖8 是部件特征的卷積基線和部件提純池化方法結(jié)合后的部分結(jié)果示例。表3 給出了PCB 和RPP 在3 個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。在Market-1501 數(shù)據(jù)集上,PCB&RPP 在baseline 的基礎(chǔ)上將R-1 指標(biāo)提高了7.0%。在DukeMTMC-reID 數(shù)據(jù)集上,PCB&RPP 將baseline 的R-1 指標(biāo)提高了4.0%,刷新了SOTA(state of the art)。PCB 能夠與各種部件提取特征合作,并且,均勻分割高效且準(zhǔn)確。RPP能夠提純各種粗部件并提高re-ID 準(zhǔn)確率。PCB&RPP 方法簡(jiǎn)單有效,在實(shí)際場(chǎng)景中已經(jīng)得到應(yīng)用,且有多個(gè)學(xué)術(shù)研究采用為baseline,在3 個(gè)大規(guī)模reID 數(shù)據(jù)集上刷新(2018年上半年)SOTA。

        表3 部件特征的卷積基線和部件提純池化方法結(jié)合后的數(shù)值實(shí)驗(yàn)結(jié)果Table 3 Experimental results of combining part-based convolutional baseline and refined part pooling/%

        圖7 基于部件特征的卷積基線模型Fig.7 Part-based convolutional baseline (PCB)model

        圖8 部件特征的卷積基線和部件提純池化方法結(jié)合后的部分結(jié)果示例Fig.8 Results of combining part-based convolutional baseline and refined part pooling

        2.3 遮擋等信息不完全條件下的行人部件學(xué)習(xí)

        針對(duì)實(shí)際行人再識(shí)別系統(tǒng)中大量行人被部分成像(部分圖像缺失)問題,Sun 等人(2019)提出了感知區(qū)域可見性的部件特征學(xué)習(xí)方法。這種思路對(duì)應(yīng)的方法稱為感知可見性的部件特征模型(visibilityaware part model,VPM)。該方法創(chuàng)新及特色主要有3 點(diǎn):1)將部件特征學(xué)習(xí)引入到部分成像行人再識(shí)別問題,使該問題也受益于細(xì)粒度特征;2)提出感知區(qū)域可見性的部件特征學(xué)習(xí),在提取部件特征的同時(shí),預(yù)測(cè)部件可見性,從而能夠在比較兩幅圖像時(shí)聚焦在它們共同的區(qū)域;3)區(qū)域可見性能力的學(xué)習(xí)采用自監(jiān)督,特征學(xué)習(xí)過程也受到自監(jiān)督輔助。該方法不僅刷新了部分成像條件下的行人再識(shí)別國(guó)際領(lǐng)先水平,還具有計(jì)算高效的特點(diǎn)。在多個(gè)partial re-ID 數(shù)據(jù)集上刷新SOTA。研究成果在CVPR2019 發(fā)表。圖9 是本文設(shè)計(jì)的VPM 網(wǎng)絡(luò)模型。首先,在完整行人圖像上定義p=m×n個(gè)緊密排列的矩形區(qū)域(圖中以p= 3 × 1 作為示例)。訓(xùn)練時(shí),VPM 將一個(gè)部分行人圖像縮放到固定尺寸,并將其輸入到層疊的卷積層中以生成 一個(gè)3D 張量T。再通過一個(gè)區(qū)域定位器進(jìn)行像素級(jí)別的區(qū)域分類。具體地,區(qū)域定位器預(yù)測(cè)每個(gè)像素g屬于各個(gè)區(qū)域的概率,從而產(chǎn)生p個(gè)概率分布圖。得到概率分布圖之后,VPM 在張量T上使用帶權(quán)平均操作,為每個(gè)區(qū)域提取區(qū)域特征,并將各個(gè)概率分布圖通過求和產(chǎn)生相應(yīng)的區(qū)域可見性得分。測(cè)試時(shí),VPM 作為一個(gè)整體,輸出p個(gè)區(qū)域特征以及同等數(shù)量的可見性得分。表4給出了VPM在兩個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。在Partial-REID數(shù)據(jù)集上,本文方法在R-1 指標(biāo)上超過了SFR(spatial feature reconstruction)10.8%。

        表4 可見性感知模型VPM 的數(shù)值實(shí)驗(yàn)結(jié)果Table 4 Results of visibility-aware part model/%

        圖9 可見性感知模型Fig.9 Visibility-aware part model

        經(jīng)過更進(jìn)一步研究,針對(duì)深度神經(jīng)網(wǎng)絡(luò)提取特征的主流框架,提出一種基于特征對(duì)齊的深度表達(dá)方法,在特征圖層實(shí)現(xiàn)配準(zhǔn)(feature alignment layer,F(xiàn)AL),初步解決了行人再識(shí)別中的特征配準(zhǔn)問題。

        針對(duì)行人再識(shí)別問題中存在的兩個(gè)問題在方法上進(jìn)行創(chuàng)新和改進(jìn)。1)輸入圖像中不可避免存在背景噪聲,影響行人特征提取;2)由于行人檢測(cè)器不準(zhǔn)確,導(dǎo)致圖像中行人位置存在偏移,無(wú)法位于圖像正中央。相應(yīng)地,主要做了3 個(gè)工作,分別為:結(jié)合分割的行人再識(shí)別方法、基于特征校正層的行人再識(shí)別方法和基于自監(jiān)督特征校正層的行人再識(shí)別方法。前一個(gè)方法很直接地引入了額外的分割信息作為輔助,后兩個(gè)方法是基于注意力機(jī)制的方法,使網(wǎng)絡(luò)關(guān)注圖中更有鑒別力的區(qū)域,取得性能上的提升。

        結(jié)合分割的行人再識(shí)別方法主要是針對(duì)消除背景噪聲提出的,設(shè)計(jì)了一個(gè)兩路神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于提取行人特征。網(wǎng)絡(luò)的兩路分別用于提取原圖特征和分割后的圖中前景(行人)部分特征,最后將兩路特征進(jìn)行融合,作為最終的特征表達(dá)。這樣得到的特征既包含整幅圖的特征,又包含專門針對(duì)前景部分的特征。整幅圖的特征能彌補(bǔ)由于分割丟失的部分細(xì)節(jié)信息,前景特征能夠抑制背景引入的噪聲。另外,為了得到分割結(jié)果,在自行構(gòu)建的行人分割數(shù)據(jù)集上訓(xùn)練了一個(gè)行人分割網(wǎng)絡(luò)。實(shí)驗(yàn)證明,結(jié)合分割的行人再識(shí)別方法能有效提高行人再識(shí)別準(zhǔn)確率。但是,該方法依賴額外的分割結(jié)果,并且兩路網(wǎng)絡(luò)使訓(xùn)練和測(cè)試的計(jì)算代價(jià)增大。

        基于特征校正層的行人再識(shí)別方法能夠同時(shí)解決背景噪聲和行人位置偏移的問題,該方法是一種基于注意力機(jī)制的方法。如圖10 所示,本文提出了一個(gè)特征校正層,該層能主動(dòng)關(guān)注到特征圖中感興趣區(qū)域。

        圖10 基于特征層對(duì)齊的深度表達(dá)方法在特征圖層實(shí)現(xiàn)框架Fig.10 Framework for the feature alignment layer

        通過對(duì)特征圖進(jìn)行像素級(jí)重排列將感興趣區(qū)域校正到特征圖中心,同時(shí)對(duì)感興趣區(qū)域進(jìn)行拉伸,使其盡可能充滿整幅特征圖,抑制背景部分特征。特征校正層能插入到已有的卷積神經(jīng)網(wǎng)絡(luò)中,且網(wǎng)絡(luò)依然能完成端到端訓(xùn)練。實(shí)驗(yàn)證明,與結(jié)合分割的方法相比,基于特征校正層的方法的識(shí)別效果更優(yōu),且不會(huì)引入太多的額外計(jì)算開銷。另外,與已有的其他行人再識(shí)別方法進(jìn)行比較,該方法的性能與其他最好方法的性能相當(dāng)。

        基于自監(jiān)督特征校正層的行人再識(shí)別方法是在特征校正層基礎(chǔ)上進(jìn)一步改進(jìn)。特征校正層是基于注意力機(jī)制的方法,與以往其他基于注意力機(jī)制的方法一樣,完全依賴網(wǎng)絡(luò)自主去學(xué)習(xí)和關(guān)注到圖中重要的區(qū)域。提出的自監(jiān)督特征校正層,則通過自監(jiān)督的方式指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)過程,從而使網(wǎng)絡(luò)能更好地關(guān)注到特征圖中有鑒別力的區(qū)域。具體做法是從原始圖象中隨機(jī)裁剪出若干幅圖像作為網(wǎng)絡(luò)輸入圖,根據(jù)這些輸入圖在原圖中的位置信息和特征校正層輸出的目標(biāo)位置圖得到注意力損失函數(shù),從而監(jiān)督和指導(dǎo)特征校正層的訓(xùn)練。最終實(shí)驗(yàn)結(jié)果表明,引入自監(jiān)督機(jī)制后,特征校正層能更準(zhǔn)確地關(guān)注到感興趣區(qū)域,從而進(jìn)一步提升識(shí)別準(zhǔn)確率。

        提出的特征對(duì)齊層方法,實(shí)現(xiàn)了能同時(shí)緩解目標(biāo)的不對(duì)齊和背景噪聲所造成的性能影響。在實(shí)驗(yàn)中,本 文 方 法 在Market-1501、DukeMTMC-reID 和CUHK03 三個(gè)行人再識(shí)別數(shù)據(jù)集上,與最先進(jìn)的方法相比,產(chǎn)生了具有競(jìng)爭(zhēng)力的結(jié)果。同時(shí),該方法提高了CUB-200-2011 上具有競(jìng)爭(zhēng)力的細(xì)粒度識(shí)別基線(Xu等,2018)。

        2.4 小結(jié)

        針對(duì)行人再識(shí)別中存在的幾個(gè)關(guān)鍵問題,本文提出了相應(yīng)的解決方案。1)針對(duì)在學(xué)習(xí)過程中,深度特征存在的冗余問題,提出了基于深度網(wǎng)絡(luò)的特征空間正交優(yōu)化理論。通過對(duì)特征空間的權(quán)矩陣施加正交約束,降低了特征冗余,提高了特征鑒別力。2)針對(duì)行人再識(shí)別中存在的特征粒度大,無(wú)法對(duì)行人進(jìn)行精細(xì)的描述以及非剛體行人造成的特征配準(zhǔn)問題,提出了基于語(yǔ)義部件學(xué)習(xí)的再識(shí)別方法。該方法能夠?qū)W習(xí)到細(xì)粒度的部件特征。此外,提出了非局部相似性學(xué)習(xí)來提純部件特征,提高特征的鑒別力。在檢索時(shí),通過計(jì)算對(duì)應(yīng)部件之間的相似性,實(shí)現(xiàn)了特征的配準(zhǔn)。3)針對(duì)圖像中行人信息不完全問題(遮擋和部分成像),提出了感知區(qū)域可見性的部件特征學(xué)習(xí)方法。該方法在提取部件特征的同時(shí)預(yù)測(cè)部件的可見性,從而能夠在比較兩幅圖象時(shí),聚焦在它們共同的區(qū)域,減小了遮擋和部分成像問題帶來的影響。同時(shí),提出了基于特征對(duì)齊的深度表達(dá)方法,解決了行人再識(shí)別中的特征配準(zhǔn)問題。

        3 人像態(tài)勢(shì)計(jì)算(ReID2.0)

        盡管針對(duì)行人再識(shí)別的幾個(gè)關(guān)鍵問題提出了相應(yīng)的解決方法,并取得了一定的效果,但在復(fù)雜的現(xiàn)實(shí)場(chǎng)景中,再識(shí)別性能仍然不佳。原因在于,目前的行人再識(shí)別技術(shù)主要依賴行人的服裝信息,未能從多視角表觀信息對(duì)行人形成綜合性的觀測(cè)描述。同時(shí),對(duì)行人的綜合感知能力也是類人智能體的需求之一。由此,本文提出人像態(tài)勢(shì)計(jì)算的新思路。

        3.1 理念與初衷:行人再識(shí)別走向ReID2.0

        雖然行人再識(shí)別研究取得了一定進(jìn)展,但也開始遇到瓶頸。除了前面提及的特征優(yōu)化、部件對(duì)齊和遮擋問題之外,不同ID 的行人穿著相似或相同服裝的情況和同一個(gè)ID 的行人穿著不同服裝的情況對(duì)現(xiàn)有的行人再識(shí)別技術(shù)來說是一個(gè)難以攻克的技術(shù)壁壘。人類具有綜合感知能力,可以從多視角表觀信息中對(duì)目標(biāo)物形成觀測(cè)描述。想象一下,在街上遇到一位即使看不清面孔的熟悉朋友,會(huì)下意識(shí)地立即完成感知:這位朋友是誰(shuí)誰(shuí)誰(shuí)。進(jìn)一步泛化推廣,看到一位行人,除了服裝信息之外,還會(huì)感知更加全面的信息,男士還是女士?年齡有多大?體型如何?也能注意到其狀態(tài),例如姿勢(shì);并且通過面部表情還可以感知其心理狀態(tài)。盡管以往的ReID方法利用單一任務(wù)模型中可能包含了隱式的觀測(cè)信息,但現(xiàn)階段特征的解耦是一道無(wú)法跨越的難題。因此,以往的ReID方法無(wú)法解決上述問題。

        自深度學(xué)習(xí)出現(xiàn)突破以來,計(jì)算機(jī)處理許多特定任務(wù)的能力已超過人類。例如,面部識(shí)別系統(tǒng)可以從數(shù)億人臉中找到目標(biāo)人。另一方面,這些能力與開發(fā)類人智能體所需的能力并不完全吻合。朝著通用人工智能的目標(biāo),許多嘗試也在進(jìn)行中。在總結(jié)了行人再識(shí)別的發(fā)展后,本文提出了人像態(tài)勢(shì)計(jì)算這一新課題,專注于如何實(shí)現(xiàn)綜合感知能力,試圖將人類“在街上遇到朋友”時(shí)表現(xiàn)出的感知能力賦能到機(jī)器上。又如在圖像分割領(lǐng)域,基于綜合感知思想的任務(wù)包括全景分割,它結(jié)合了語(yǔ)義和實(shí)例分割。而在計(jì)算機(jī)視覺和自然語(yǔ)言處理的交叉領(lǐng)域,視覺問答具有相似的特點(diǎn)。從“遇到朋友”的實(shí)例中,發(fā)現(xiàn)與該過程相關(guān)的現(xiàn)有任務(wù)包括行人屬性識(shí)別和行人再識(shí)別。那么新問題是:應(yīng)該以什么方式組合這些任務(wù)?通過引入人像態(tài)勢(shì)計(jì)算,機(jī)器智能提供了一個(gè)多視角的觀測(cè)和描述。人像態(tài)勢(shì)計(jì)算是基于人類對(duì)人的整體觀測(cè)、感知和描述。為了構(gòu)建計(jì)算模型,將其定義為像態(tài)、形態(tài)、神態(tài)和意態(tài)4 個(gè)要素。為支撐人像態(tài)勢(shì)計(jì)算的研究,進(jìn)一步推進(jìn)行人再識(shí)別研究的進(jìn)展,本文構(gòu)建了數(shù)據(jù)集Portrait250K,用于人像態(tài)勢(shì)計(jì)算研究。在Portrait250K 數(shù)據(jù)集中,重點(diǎn)標(biāo)注了像態(tài)、形態(tài)和神態(tài)要素。每個(gè)要素都包含若干子任務(wù),包括各種屬性識(shí)別任務(wù)。由于現(xiàn)有的行人再識(shí)別屬于對(duì)像態(tài)的感知,故也將人像態(tài)勢(shì)計(jì)算稱為ReID2.0。

        3.2 相關(guān)研究

        以人為中心的研究是計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn),近幾年在人機(jī)交互、智能安防和醫(yī)學(xué)健康等領(lǐng)域獲得了重要進(jìn)展和諸多應(yīng)用。引入人像態(tài)勢(shì)計(jì)算這一任務(wù),意圖在于以行人再識(shí)別研究為基礎(chǔ)實(shí)現(xiàn)對(duì)人的全面觀測(cè)和描述。

        3.2.1 與人像相關(guān)的任務(wù)

        一個(gè)與人像態(tài)勢(shì)計(jì)算相關(guān)的任務(wù)是行人屬性識(shí)別(pedestrian attribute recognition,PAR),其目的是預(yù)測(cè)目標(biāo)人物的屬性。PAR 的現(xiàn)有方法包括Jia 等人(2021)為代表提出的視覺注意力機(jī)制,Bourdev 等人(2011)設(shè)計(jì)的身體部件劃分方法和以 Wang 等人(2016)為代表設(shè)計(jì)的屬性關(guān)系挖掘方法等。雖然這個(gè)任務(wù)已經(jīng)得到了一定的研究和討論,但在存在視角變化、可變光照、低分辨率、遮擋和模糊等情況下仍然是困難的。人像態(tài)勢(shì)計(jì)算與PAR 的核心區(qū)別在于,前者是從多個(gè)相對(duì)獨(dú)立的方面來分析人像。近10 年來,提出了許多用于PAR 的數(shù)據(jù)集,但都不能滿足人像態(tài)勢(shì)計(jì)算的需要。

        除了與屬性識(shí)別相關(guān)的任務(wù)外,行人再識(shí)別(ReID)也是人像態(tài)勢(shì)計(jì)算的子任務(wù)之一。行人再識(shí)別的典型基線方法通過測(cè)量查詢圖像和圖庫(kù)圖像的特征向量(在復(fù)雜模型中可能不止一個(gè))之間的距離來進(jìn)行檢索。與許多其他視覺任務(wù)一樣,好的ReID 模型的關(guān)鍵是學(xué)習(xí)良好的表征。顯然,如果模型能夠獲得更多的監(jiān)督來幫助學(xué)習(xí)更好的表征,例如人像的各種屬性,將有助于提高性能。

        3.2.2 多任務(wù)學(xué)習(xí)

        現(xiàn)實(shí)世界中的任務(wù)在很多情況下是相互關(guān)聯(lián)的,多任務(wù)學(xué)習(xí)(multi-task learning,MTL)試圖同時(shí)解決多個(gè)任務(wù)以獲得更好的泛化性能。此外,任務(wù)之間不相關(guān)的信息也有助于減少過擬合。人像態(tài)勢(shì)計(jì)算關(guān)注各種側(cè)面的態(tài)勢(shì)和其子任務(wù)之間的關(guān)聯(lián)關(guān)系。MTL的研究主要集中在結(jié)構(gòu)設(shè)計(jì)和優(yōu)化方法兩個(gè)子問題上。為MTL 設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的本質(zhì)是使不同任務(wù)之間共享子網(wǎng)和參數(shù),主流策略大致可以分為兩類,即硬共享(如 Hu 和Singh(2021)設(shè)計(jì)的方案)和軟共享(如 Gao 等人(2019)設(shè)計(jì)的方案)。硬共享方法將整個(gè)模型分為兩部分,靠近輸入的子網(wǎng)由所有任務(wù)共享,然后為每個(gè)任務(wù)獨(dú)立分支出模塊。軟共享方法通常對(duì)于每個(gè)任務(wù)都有端到端的獨(dú)立模塊,而這些模塊可以在網(wǎng)絡(luò)的不同階段進(jìn)行交互。對(duì)于多任務(wù)產(chǎn)生的多個(gè)損失,獲得總損失的最簡(jiǎn)單方法是手動(dòng)為其分配權(quán)重。一種更靈活有效的方法是根據(jù)任務(wù)的不確定性來計(jì)算權(quán)重。

        3.3 人像態(tài)勢(shì)概念探討

        行人再識(shí)別研究經(jīng)歷了約10 年的高速發(fā)展,學(xué)術(shù)上取得了初步成果,少數(shù)應(yīng)用落地。但仍然存在尚未解決的一些問題,促使對(duì)ReID 問題進(jìn)行進(jìn)一步的思考。場(chǎng)景中,同一ID 不同服裝的ReID 如何解決?不同ID 同一服裝的ReID 如何解決?此外,隨著ReID 的發(fā)展,如何實(shí)現(xiàn)深度人像描述?在以人為中心的理念指導(dǎo)下如何觀測(cè)和感知人的全面狀態(tài)表征?這些都是需要研究的課題。

        人像態(tài)勢(shì)是構(gòu)建深度人像描述的一個(gè)途徑,包含人的像態(tài)、形態(tài)、神態(tài)和意態(tài)。像態(tài)表征人臉和生物特征的表觀信息;形態(tài)表征人體的靜止和序貫體型體態(tài)信息;神態(tài)表征人臉的面部表情和情緒信息;意態(tài)表征行為過程和意圖預(yù)測(cè)。按照這個(gè)范式定義,構(gòu)成人像態(tài)勢(shì)計(jì)算的內(nèi)涵。在人機(jī)交互和智能安防中,人是核心關(guān)鍵的要素。

        像態(tài)感知兩個(gè)維度,一是對(duì)感知對(duì)象的物理特征進(jìn)行精準(zhǔn)認(rèn)知,以表達(dá)顏色、尺寸等;二是對(duì)這些特征組合的表象進(jìn)行屬性描述,以表達(dá)是什么,如人臉、行人及其屬性。像態(tài)包含人臉、性別、年齡以及行人外表等表觀特征。

        形態(tài)感知兩個(gè)維度,一是對(duì)感知對(duì)象的靜止肢體特征進(jìn)行認(rèn)知,以表達(dá)動(dòng)作、姿態(tài)等;二是對(duì)感知對(duì)象的肢體變化特征進(jìn)行描述,以表達(dá)做什么,如步態(tài)、奔跑和逆行等。形態(tài)包含多種人體肢體特征,如姿態(tài)、體形、體態(tài)和步態(tài)等。

        神態(tài)感知人的表情、微表情和情緒。一是對(duì)感知對(duì)象的面部表情特征進(jìn)行認(rèn)知,以表達(dá)如喜怒哀樂;二是對(duì)感知對(duì)象的面部神色特征進(jìn)行描述,以表達(dá)其內(nèi)心的波動(dòng)、思想的意識(shí)和精神的狀態(tài),通常不為人的意志所控制。神態(tài)主要用于表達(dá)人的內(nèi)心狀態(tài),如神態(tài)自若、神色慌張和精神恍惚等。

        意態(tài)體現(xiàn)人的行為動(dòng)作和意圖,主要體現(xiàn)在基于前三態(tài)識(shí)別的邏輯推理而進(jìn)行計(jì)算,且與相關(guān)信息有關(guān)聯(lián)。對(duì)感知對(duì)象行為意圖、目標(biāo)和后果的顯性特征進(jìn)行認(rèn)知;對(duì)行為的意圖、目標(biāo)和后果背后的隱性特征進(jìn)行認(rèn)知,以預(yù)測(cè)趨勢(shì),進(jìn)而判斷與其他事件的關(guān)聯(lián)、影響及可能后果。意態(tài)的顯性特征認(rèn)知較為容易實(shí)現(xiàn),意態(tài)的隱性特征認(rèn)知難度較大,但在實(shí)際的事件預(yù)測(cè)中是不可缺少的。

        綜上所述,基于行人再識(shí)別和人像屬性識(shí)別,本文提出了人像態(tài)勢(shì)分析,并為觀察人像設(shè)計(jì)了4 個(gè)層次,希望達(dá)成機(jī)器視覺對(duì)人像高層次的、全面的分析和理解。

        4 基準(zhǔn)數(shù)據(jù)集

        4.1 Portrait250K 基準(zhǔn)數(shù)據(jù)集構(gòu)建

        目前由于人像態(tài)勢(shì)識(shí)別的難度大,完全按照上述四態(tài)構(gòu)建數(shù)據(jù)集條件尚不成熟。為此,本文構(gòu)建了一個(gè)人像態(tài)勢(shì)計(jì)算基準(zhǔn)數(shù)據(jù)集。收集了來自各國(guó)的51 部電影和電視劇的250 000 幅人像,并手工標(biāo)記了8種標(biāo)簽,對(duì)應(yīng)8個(gè)子任務(wù)。圖像和標(biāo)簽的分布表現(xiàn)出現(xiàn)實(shí)世界中自然存在的許多特征,包括但不限于長(zhǎng)尾分布或不平衡分布、多樣的遮擋、截?cái)?、光照變化以及服裝、妝容和背景環(huán)境的變化。為了獲得人像邊界框,使用了多目標(biāo)跟蹤技術(shù)。多目標(biāo)跟蹤旨在連續(xù)地估計(jì)視頻中對(duì)象的邊界框和身份。Wang 等 人(2020)提 出 的 JDE(jointly learns the detector and embedding model)模型聯(lián)合輸出檢測(cè)結(jié)果和相應(yīng)的表征,是一個(gè)簡(jiǎn)潔快速的系統(tǒng)。提取JDE 模型每隔一些幀輸出的邊界框,最終獲得250 000幅分辨率為256 × 128 像素的圖像。這些圖像需要標(biāo)記身份、性別、年齡、體型、身高、表情以及全身和手臂姿勢(shì)的標(biāo)簽。十幾位專業(yè)的標(biāo)注員完成了對(duì)這些圖像的8 個(gè)標(biāo)簽的人工標(biāo)注。為了減少不同標(biāo)注員主觀判斷的影響,每個(gè)標(biāo)注員只標(biāo)注一個(gè)屬性,因此每個(gè)屬性只有一個(gè)或兩個(gè)標(biāo)注員標(biāo)注。圖11 展示了數(shù)據(jù)集中的部分圖像以及對(duì)應(yīng)標(biāo)簽。

        4.2 數(shù)據(jù)集特征和統(tǒng)計(jì)信息

        1)半監(jiān)督的ID。訓(xùn)練集和庫(kù)集中沒有ID 標(biāo)簽的圖像分別有86 516 和57 724 幅,占總數(shù)的60%以上。其中,大多數(shù)不是無(wú)法識(shí)別而是不屬于重要角色,標(biāo)注員沒有提供ID標(biāo)簽。

        2)多標(biāo)簽表情分類。由于面部表情的復(fù)雜性,本文給少量的圖像賦予了多個(gè)表情標(biāo)簽,使得這里的表情分類任務(wù)成為一個(gè)多標(biāo)簽問題。

        3)長(zhǎng)尾、不平衡分布。每個(gè)ID 擁有的圖像數(shù)量呈現(xiàn)出顯著的長(zhǎng)尾分布,并且其他屬性的每個(gè)標(biāo)簽之間的樣本分布也嚴(yán)重不平衡。其他工作可能使用不平衡因子,即最大類中的樣本數(shù)除以最小類的樣本數(shù)來表示長(zhǎng)尾分布的嚴(yán)重程度。而在Portrait250K 中,長(zhǎng)尾分布是自然形成而非人為構(gòu)建的,上述不平衡因子會(huì)忽略除極端情況外的其他類別,因此沒有參考價(jià)值。經(jīng)濟(jì)學(xué)中使用基尼系數(shù)來判斷收入的公平性,但無(wú)法更詳細(xì)地描述分配情況。本文設(shè)計(jì)了LTSk(long tail score)(k比例的長(zhǎng)尾分?jǐn)?shù))指標(biāo)來衡量長(zhǎng)尾分布的嚴(yán)重程度。具體為

        式中,x是長(zhǎng)度為N的布爾向量,y記錄了每個(gè)標(biāo)簽對(duì)應(yīng)的樣本數(shù)。N是標(biāo)簽的數(shù)量,1-范數(shù)代表元素和。LTSk表示頭部樣本占所有樣本的比例為k時(shí),頭部樣本的富集程度。值越接近0 表示富集越嚴(yán)重。本文計(jì)算了再識(shí)別領(lǐng)域的基準(zhǔn)數(shù)據(jù)集Market-1501 和本文的Portrait250K 關(guān)于LTS0.2的數(shù)值,結(jié)果如表5 所示。很明顯,Portrait250K 有更嚴(yán)重的長(zhǎng)尾分布。對(duì)于其他再識(shí)別數(shù)據(jù)集也是如此,因?yàn)樗鼈兌际且灶愃频姆绞绞占摹?/p>

        表5 人像態(tài)勢(shì)數(shù)據(jù)集的長(zhǎng)尾分布(LTS0.2指標(biāo))Table 5 Long-tail distribution of our dataset

        4.3 評(píng)測(cè)指標(biāo)的建議

        為了衡量模型的性能,實(shí)現(xiàn)評(píng)估和比較,并突出人像態(tài)勢(shì)計(jì)算研究的初衷,本文為每個(gè)子任務(wù)設(shè)計(jì)了指標(biāo),并提出一個(gè)統(tǒng)一的度量標(biāo)準(zhǔn),將所有8 項(xiàng)任務(wù)的評(píng)測(cè)指標(biāo)整合在一起來評(píng)估模型的整體性能,稱為態(tài)勢(shì)分析質(zhì)量(portrait interpretation quality,PIQ)。PIQ 反映了本文的系統(tǒng)性視角,為每個(gè)子任務(wù)合理分配權(quán)重。此外,本文在多任務(wù)學(xué)習(xí)的范式下設(shè)計(jì)了一個(gè)基線方法,并專注于多任務(wù)表示學(xué)習(xí),提出了特征空間分離方案以及一個(gè)簡(jiǎn)單的度量學(xué)習(xí)損失。最后,通過實(shí)驗(yàn)證明了人像態(tài)勢(shì)計(jì)算研究的可行性和優(yōu)越性。

        接下來,首先介紹每個(gè)子任務(wù)的度量標(biāo)準(zhǔn),然后描述基于每個(gè)子任務(wù)的度量標(biāo)準(zhǔn)的 PIQ 計(jì)算。

        1)再識(shí)別人物評(píng)測(cè)指標(biāo)。再識(shí)別任務(wù)常用的評(píng)估指標(biāo)是 CMC曲線和mAP,二者都是通過對(duì)查詢集中所有樣本的性能進(jìn)行平均來計(jì)算的。當(dāng)查詢集中的樣本幾乎均勻分布在每個(gè)ID 中時(shí),這是相當(dāng)合理的,這也是Market-1501等常用再識(shí)別數(shù)據(jù)集的實(shí)際情況。但在包括Portrait250K 在內(nèi)的更一般情況下,在大規(guī)模查詢集中不同ID 上的樣本分布不平衡時(shí),上述指標(biāo)會(huì)增加頭部ID 的權(quán)重。如果查詢圖像在ID之間均勻采樣,查詢集的大小將受到尾部 ID大小的限制,從而導(dǎo)致測(cè)試集不夠充分。針對(duì)這個(gè)問題,本文提出了Macro CMC 和Macro mAP。與CMC 曲線和mAP 的不同之處在于,Macro CMC 和Macro mAP會(huì)先計(jì)算查詢集中每個(gè)ID 的平均性能,然后在所有ID之間取平均值。

        再識(shí)別任務(wù)旨在執(zhí)行跨域目標(biāo)檢索。但是,由于電影拍攝中常用的固定鏡頭技術(shù),即使在連續(xù)的幾幀中只選擇一幀,也會(huì)有很多相似的幀。類似的幀對(duì)除ReID 以外的任務(wù)沒有太大影響。與去除它們相比,保留這些相似的幀在某種程度上相當(dāng)于數(shù)據(jù)增強(qiáng)。但是對(duì)于再識(shí)別任務(wù),如果在圖庫(kù)集中存在任何查詢圖像的相似幀,則該查詢將成為一個(gè)簡(jiǎn)單的樣本,因?yàn)槟P椭恍枰獙⑾嗨茍D像映射到嵌入空間的鄰近點(diǎn),這會(huì)影響評(píng)估的有效性。其他再識(shí)別數(shù)據(jù)集不存在這個(gè)問題,因?yàn)槠錅y(cè)試集是由不同相機(jī)拍攝的圖像組成的。

        為了解決這個(gè)問題,需標(biāo)記出相似的圖像。這里,本文使用了感知哈希算法,它可以為每幅圖像生成一個(gè)哈希值,通過計(jì)算它們對(duì)應(yīng)的哈希值的漢明距離可以衡量?jī)煞鶊D像的相似度。本文將相似度超過閾值的圖像標(biāo)記為一組,并且在測(cè)試期間不考慮與查詢?cè)谕唤M中的圖庫(kù)圖像。

        2)分類任務(wù)評(píng)測(cè)指標(biāo)。對(duì)于分類任務(wù),由于樣本在不同標(biāo)簽上的分布不平衡,通常使用 F1-score,即精確率和召回率的調(diào)和平均值進(jìn)行評(píng)估。與Macro CMC 和Macro mAP 類似,本文使用 Macro F1-score。

        3)PIQ 指標(biāo)。性別、年齡、體型和身高分類是關(guān)于像態(tài)的任務(wù),身體和手臂動(dòng)作分類是關(guān)于形態(tài)的任務(wù)。統(tǒng)一的度量指標(biāo) PIQ 平等地考慮態(tài)勢(shì)分析的3 個(gè)方面,即給每個(gè)方面分配相同的權(quán)重。不過需要注意的是,再識(shí)別任務(wù)雖然屬于像態(tài)感知,但相對(duì)獨(dú)立且重要,所以將其獨(dú)立出來。PIQ 的計(jì)算式為

        式中,ReID表示再識(shí)別任務(wù)的指標(biāo),采用Macro Rank-1 和Macro mAP 的平均值。App表示像態(tài)分析的度量指標(biāo),采用性別,年齡,體型和身高的F1-score 的平均值。Pos表示形態(tài)分析的度量指標(biāo),采用上肢動(dòng)作和身體動(dòng)作的F1-score 的平均值。Emo表示神態(tài)分析的度量指標(biāo),采用表情分類的F1-score。

        4.4 基線方法

        本文為人像態(tài)勢(shì)分析任務(wù)設(shè)計(jì)了一種基線方法FSS(feature space split),如圖12 所示。提出的框架使用HRNet-W32(high-resolution network)作為統(tǒng)一的特征提取器,將得到的特征向量按照3 種態(tài)勢(shì)進(jìn)行劃分,為每個(gè)任務(wù)對(duì)應(yīng)的分類器提供不同的特征向量。同時(shí),使用帶有度量學(xué)習(xí)損失的BNNecks(batch normalization neck)來改善類別之間的區(qū)分。

        圖12 人像態(tài)勢(shì)分析的基準(zhǔn)方法Fig.12 Baseline method for portrait interpretation

        本文認(rèn)為各個(gè)態(tài)勢(shì)的表示是自然獨(dú)立的,因此將特征空間劃分為3個(gè)子空間,分別存儲(chǔ)來自3個(gè)態(tài)勢(shì)的信息。這種說法很容易成立,因?yàn)橄駪B(tài)相同的人(同一個(gè)人)可以做出不同的姿勢(shì)或有不同的情緒,反之亦然。在實(shí)踐中,本文直接將主干網(wǎng)絡(luò)輸出的特征向量分為3 部分。對(duì)于每一個(gè)子任務(wù),性別、年齡、體型和身高的分類都屬于像態(tài)感知,但它們之間并不相關(guān),所以它們會(huì)對(duì)應(yīng)像態(tài)特征向量中不相交的部分。再識(shí)別任務(wù)只關(guān)注與身份相關(guān)的信息,也就是與像態(tài)相關(guān)的信息。所以它使用的特征向量就是分配給像態(tài)的特征向量,包括相關(guān)子任務(wù)的維度和一些沒有分配給任何子任務(wù)的維度。通過引入有關(guān)各種屬性的信息,可以通過更多的監(jiān)督來指導(dǎo)再識(shí)別任務(wù),從而提高性能。對(duì)于形態(tài),身體和手臂動(dòng)作分類是相對(duì)相關(guān)的任務(wù),所以本文讓這兩個(gè)任務(wù)共享一些維度,而每個(gè)任務(wù)都有自己獨(dú)立的維度。神態(tài)感知只有一個(gè)子任務(wù),因此無(wú)需進(jìn)一步劃分。

        對(duì)于一個(gè)分類任務(wù),更多的標(biāo)簽通常需要更復(fù)雜的特征空間來使其可區(qū)分,所以本文讓每個(gè)任務(wù)對(duì)應(yīng)的特征向量的維數(shù)與相關(guān)標(biāo)簽的數(shù)量成正比。

        度量學(xué)習(xí)可以幫助模型學(xué)習(xí)到更好的表示,在細(xì)粒度圖像分類、人臉識(shí)別和再識(shí)別等領(lǐng)域有很多應(yīng)用。利用度量學(xué)習(xí)損失,同一類別的樣本在特征空間被拉近,否則被推開。本文對(duì)特征向量計(jì)算各種度量學(xué)習(xí)損失以提高類間區(qū)分性能。

        使用上述基線方法,本文最終獲得的PIQ 性能為0.495。其中,ReID 任務(wù)的Rank-1 和mAP 分別為0.351 和0.536,性別、年齡、體型、身高、全身姿勢(shì)、手臂姿勢(shì)和表情分類任務(wù)分別為0.823,0.685,0.444,0.650,0.561,0.530,0.340。具體結(jié)果見表6??梢钥闯?,相對(duì)于單任務(wù)基線和簡(jiǎn)單多任務(wù)基線,本文的方法獲得了更好的結(jié)果,證明了人像態(tài)勢(shì)分析任務(wù)的可行性和優(yōu)越性。實(shí)驗(yàn)結(jié)果也體現(xiàn)了本文提出的數(shù)據(jù)集的難度。

        表6 人像態(tài)勢(shì)數(shù)據(jù)集基線方法數(shù)值實(shí)驗(yàn)結(jié)果Table 6 Experimental results of the baseline method of portrait interpretation

        5 結(jié) 語(yǔ)

        行人再識(shí)別是計(jì)算機(jī)視覺研究領(lǐng)域當(dāng)前公認(rèn)的挑戰(zhàn)性前沿課題,具有重要的理論研究和應(yīng)用價(jià)值。針對(duì)行人再識(shí)別中的理論和關(guān)鍵技術(shù)已經(jīng)開展了近10 年的研究,取得了一定的研究成果。行人再識(shí)別技術(shù)的突破,初步解決了跨視域攝像機(jī)行人目標(biāo)跟蹤的瓶頸問題,推動(dòng)了智能視頻安防應(yīng)用。

        非剛體非合作目標(biāo)同時(shí)產(chǎn)生時(shí)變與形變,大類內(nèi)方差,小訓(xùn)練樣本,要求高泛化能力,視角變化大,光照影響嚴(yán)重。針對(duì)上述問題,本文重點(diǎn)在特征表達(dá)理論上開展創(chuàng)新研究,對(duì)行人的鑒別性特征進(jìn)行深入研究。針對(duì)目前物體識(shí)別中普遍采用的深度網(wǎng)絡(luò)特征仍然存在冗余進(jìn)而影響特征鑒別力的問題,提出了基于深度網(wǎng)絡(luò)的特征空間正交優(yōu)化理論。針對(duì)非剛體行人的特征配準(zhǔn)這一瓶頸問題,提出了一種基于廣義部件的行人部件特征學(xué)習(xí)方法,并提出一種特征圖層配準(zhǔn)方法,有效解決了非剛體行人再識(shí)別中的特征配準(zhǔn)問題。

        現(xiàn)有的關(guān)于人像的研究在行人屬性識(shí)別和行人再識(shí)別等問題上取得了一定成果,但總體而言仍存在不足。1)缺乏挖掘各種任務(wù)之間的相互關(guān)系及其可能帶來的好處;2)針對(duì)每個(gè)任務(wù)專門設(shè)計(jì)深度模型,效率偏低;3)無(wú)法應(yīng)對(duì)實(shí)際場(chǎng)景中統(tǒng)一模型和全面綜合感知的需求。對(duì)此,在前期行人再識(shí)別研究的基礎(chǔ)上,本文對(duì)人像態(tài)勢(shì)計(jì)算ReID2.0進(jìn)行研究,并構(gòu)建Portrait250K 基準(zhǔn)數(shù)據(jù)集。人像態(tài)勢(shì)計(jì)算從一個(gè)新的系統(tǒng)性角度詮釋了針對(duì)人像的多視角觀測(cè)和感知?;诙嗳蝿?wù)學(xué)習(xí)的框架,人像態(tài)勢(shì)計(jì)算對(duì)人像的靜態(tài)屬性和動(dòng)態(tài)狀態(tài)進(jìn)行綜合觀測(cè)和描述。本文構(gòu)建的Portrait250K 數(shù)據(jù)集包含250 000 幅標(biāo)記了身份、性別、年齡、體型、身高、表情以及全身和手臂姿勢(shì)的圖像。此外,本文為這項(xiàng)任務(wù)提出了評(píng)價(jià)指標(biāo)PIQ,為人像態(tài)勢(shì)計(jì)算的進(jìn)一步研究提供了參考。

        猜你喜歡
        行人部件特征
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        路不為尋找者而設(shè)
        基于Siemens NX和Sinumerik的銑頭部件再制造
        抓住特征巧觀察
        部件拆分與對(duì)外漢字部件教學(xué)
        我是行人
        水輪機(jī)過流部件改造與節(jié)能增效
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        制服丝袜视频国产一区| 欧美xxxx做受欧美88| 又大又粗又爽18禁免费看| 国产思思99re99在线观看| 色悠久久久久综合欧美99| 妺妺窝人体色www聚色窝韩国| 人妻少妇激情久久综合| 亚洲免费观看视频| 无码区a∨视频体验区30秒| 亚洲av色先锋资源电影网站| 国产亚洲成年网址在线观看| 国产激情一区二区三区不卡av | 亚洲精品美女自拍偷拍| 日本在线一区二区三区观看| 国产亚洲精品90在线视频| 少妇被粗大的猛烈进出免费视频| 国产人成精品综合欧美成人| 一区二区久久不射av| 91久久大香伊蕉在人线国产| 国产猛男猛女超爽免费视频| 久久久精品国产sm调教网站 | 国产精品一区二区三区不卡| 视频在线亚洲视频在线| 亚洲国产国语在线对白观看| 女人喷潮完整视频| 久久狠狠高潮亚洲精品暴力打| 开心激情网,开心五月天| 亚洲人成人无码www| 越南女子杂交内射bbwbbw| 欧美一区二区午夜福利在线yw| 青青手机在线视频观看| 蕾丝女同一区二区三区| 日本无码欧美一区精品久久| 日韩一级特黄毛片在线看| 亚洲中文有码一区二区| 老女老肥熟女一区二区| 日本高清色倩视频在线观看| 国产免费AV片在线看| 亚洲av网一区天堂福利| 男女射黄视频网站在线免费观看 | 国产亚洲精品性爱视频|