亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多視角跨模態(tài)的電力現(xiàn)場作業(yè)行人重識別網(wǎng)絡(luò)架構(gòu)技術(shù)研究

2021-01-06 03:32:14劉錦隆尚趙偉

四川電力技術(shù) 2020年6期

張森，張頡，王堯，劉錦隆，閆斌，尚趙偉

(1.重慶大學(xué)計(jì)算機(jī)學(xué)院, 重慶 400000；2.國網(wǎng)四川省電力公司，四川成都 610041；3.國網(wǎng)四川省電力公司涼山供電公司，四川西昌 615000；4.電子科技大學(xué)自動化學(xué)院，四川成都 611731)

0 引言

電力是經(jīng)濟(jì)發(fā)展的能源基礎(chǔ)，電力信息化對于中國的能源安全而言無疑是一個(gè)有效的保障。近幾年，視頻作為安全管理和風(fēng)險(xiǎn)控制的重要技術(shù)手段，在電力各個(gè)業(yè)務(wù)板塊得到廣泛應(yīng)用。行人重識別(person re-identification，ReID)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向，要求根據(jù)某個(gè)攝像頭捕捉到的行人圖像在其他攝像頭捕捉的圖像中進(jìn)行檢索，以找出相同身份的行人[1]，能夠根據(jù)行人的穿著、體態(tài)、發(fā)型等信息認(rèn)知行人，實(shí)現(xiàn)對無法獲取清晰拍攝人臉的行人進(jìn)行跨攝像頭連續(xù)跟蹤，增強(qiáng)數(shù)據(jù)的時(shí)空連續(xù)性。隨著新基建的建設(shè)快速推進(jìn)，在電力行業(yè)的智慧工地、變電站監(jiān)控、作業(yè)施工管控等場景中，作為人臉識別技術(shù)在身份確認(rèn)方面的重要補(bǔ)充技術(shù)手段，行人重識別有著重要的應(yīng)用價(jià)值。

在視頻監(jiān)控網(wǎng)絡(luò)中，行人因受到視角、姿態(tài)變化、背景、光照、攝像頭設(shè)置等多種因素影響，會導(dǎo)致同一個(gè)人在同一攝像機(jī)的不同時(shí)刻，或不同攝像機(jī)在同時(shí)刻捕捉的圖像存在很大差異，造成行人識別精度低，特別是在白天和夜晚環(huán)境下，攝像機(jī)在可見光和紅外光不同模式下成像的差異更大，給跨模態(tài)(cross modal)行人重識別問題(即在可見光圖像庫中如何準(zhǔn)確檢索出與給定紅外圖像相同身份的行人)帶來相當(dāng)大的困難?，F(xiàn)有研究主要集中于使用共享參數(shù)的多層卷積網(wǎng)絡(luò)直接提取兩種模態(tài)數(shù)據(jù)中的共享信息。但數(shù)據(jù)本身跨模態(tài)差異大，這些方法均仍未達(dá)到實(shí)用效果。為此提出一種新的網(wǎng)絡(luò)結(jié)構(gòu)，實(shí)驗(yàn)表明，可有效提取出兩種模態(tài)中的共享信息，提高行人重識別精度。

1 跨模態(tài)行人重識別相關(guān)的研究

針對可見光與紅外光的跨模態(tài)圖像行人重識別問題，文獻(xiàn)[2]在國際計(jì)算機(jī)視覺大會上首次發(fā)布大規(guī)?？梢姽?紅外跨模態(tài)行人重識別數(shù)據(jù)集SYSU-MM01,并提出深度零值填充(deep zero padding)的網(wǎng)絡(luò)模型，開啟了可見光-紅外行人重識別問題的先河。文獻(xiàn)[3]在國際人工智能聯(lián)合會議上引入生成對抗網(wǎng)絡(luò)的思想訓(xùn)練一個(gè)跨模態(tài)生成對抗網(wǎng)絡(luò)模型(cmGAN), 使用可見光和紅外光兩種模態(tài)圖像進(jìn)行互相生成以降低模態(tài)間差異。文獻(xiàn)[4]在國際人工智能聯(lián)合會議上提出一個(gè)雙流網(wǎng)絡(luò)結(jié)構(gòu)分別提取兩個(gè)模態(tài)的特定特征，隨后通過權(quán)重共享提取兩個(gè)模態(tài)的共享特征，并于2020年[5]使用新的基準(zhǔn)模型對其進(jìn)行改進(jìn)實(shí)現(xiàn)了較大的精度提升。文獻(xiàn)[6]針對跨模態(tài)問題設(shè)計(jì)了五元組損失函數(shù)，在提高同一模態(tài)類間差異的同時(shí)降低跨模態(tài)類內(nèi)差異。文獻(xiàn)[7]在國際計(jì)算機(jī)視覺與模式識別會議上使用生成對抗的思想將兩種模態(tài)圖像進(jìn)行互相生成，但訓(xùn)練不穩(wěn)定且效果一般。文獻(xiàn)[8]在美國人工智能協(xié)會2020大會上通過引入一個(gè)輔助的x模態(tài)將雙模態(tài)重識別轉(zhuǎn)化為可見光、紅外光、x模態(tài)的三模態(tài)重識別問題，實(shí)現(xiàn)了較好的效果。以上研究盡管取得了一定的成就，但存在以下問題：

1)直接使用共享參數(shù)提取與模態(tài)無關(guān)的身份信息，忽視了不同模態(tài)數(shù)據(jù)本身的差異?？梢姽鈭D像為紅綠藍(lán)三通道數(shù)據(jù)，包含了豐富的色彩信息，而紅外圖像為單通道，其灰度值反映了目標(biāo)的紅外輻射量，成像機(jī)理完全不同導(dǎo)致跨模態(tài)行人重識別領(lǐng)域相關(guān)研究效果較差。

2)僅考慮了圖片整體特征或僅考慮局部特征，對圖像信息的利用不充分。

為解決以上兩個(gè)不足，下面提出的網(wǎng)絡(luò)結(jié)構(gòu)可有效提取出兩種模態(tài)中的共享信息，提高跨模態(tài)行人重識別模型精度：

1)基于注意力機(jī)制設(shè)計(jì)了輕量化的模態(tài)遷移模塊，可有效地在特征嵌入網(wǎng)絡(luò)的輸入級縮小跨模態(tài)差異，并且額外參數(shù)量可忽略不計(jì)。

2)設(shè)計(jì)了基于分塊的多粒度特征分解模塊。同時(shí)考慮輸入圖像的整體信息和豐富的局部信息，提高了有效信息的利用率。

3)整個(gè)模型可以端到端進(jìn)行訓(xùn)練，并且兩種模塊可以獨(dú)立使用，也可以與其他相關(guān)研究進(jìn)行組合。

2 網(wǎng)絡(luò)模塊設(shè)計(jì)

2.1 整體網(wǎng)絡(luò)架構(gòu)

目前基于深度學(xué)習(xí)的跨模態(tài)行人重識別，多采用使用共享參數(shù)的多層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取[4-8]，將可見光圖像特征和紅外光圖像特征嵌入同一個(gè)特征空間用于后續(xù)分類(或相似度度量)。這里也采用此類網(wǎng)絡(luò)架構(gòu)，其總體框架如圖1所示。對于可見光圖像，首先輸入到模態(tài)遷移模塊，利用通道間的注意力機(jī)制將RGB 3個(gè)通道進(jìn)行非線性加權(quán)，減弱可見光圖像特有的顏色信息，模擬紅外光的紅外輻射信息，實(shí)現(xiàn)輸入級模態(tài)間差異的削減；接著模態(tài)遷移模塊的輸出和原始紅外圖像一起，通過共享參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)來提取特征。文獻(xiàn)[9]中已有實(shí)驗(yàn)論證，將ResNet50的最后一層下采樣層(down sampling layer)的池化步長(stride)從2修改為1，可有效避免尺寸減小帶來的信息損失，提高特征提取性能，因此在行人重識別的多項(xiàng)工作[6-8]中都將其作為特征提取的基準(zhǔn)分類模型。為了證明所提方法的有效性，同樣選擇該微改的ResNet50(下面簡稱為ResNet50)作為基礎(chǔ)模型進(jìn)行對比。另外，在去掉最后ImageNet的全連接層基礎(chǔ)上，使用ImageNet大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重參數(shù)，進(jìn)行遷移學(xué)習(xí)后所提取的特征經(jīng)過多粒度特征分解模塊，通過水平分塊將特征分為兩級細(xì)粒度特征。再將全局特征和細(xì)粒度特征分別進(jìn)行三元組損失函數(shù)計(jì)算，經(jīng)過全連接層進(jìn)行交叉熵?fù)p失函數(shù)計(jì)算，完成整個(gè)網(wǎng)絡(luò)的端到端的訓(xùn)練。

圖1 網(wǎng)絡(luò)整體結(jié)構(gòu)

2.2 模態(tài)遷移模塊

由于不同模態(tài)圖像灰度值反映的信息語義不同，且兩種模態(tài)信息并沒有已知的對應(yīng)關(guān)系，因此，為了模擬行人圖像的跨模態(tài)遷移減小圖片級模態(tài)差異，使用注意力機(jī)制中的通道注意力，期望通過反向傳播讓模型擬合可見光模態(tài)到紅外模態(tài)的通道級轉(zhuǎn)換。具體結(jié)構(gòu)如圖2所示。

圖2 模態(tài)遷移模塊結(jié)構(gòu)

可見光圖像首先經(jīng)過最大池化和平均池化得到兩個(gè)長度為3的一維向量特征表示，再經(jīng)過1×1卷積和非線性的relu激活層再次疊加1×1卷積層用于擬合模態(tài)遷移變換。將兩條路徑得到的輸入進(jìn)行像素級疊加；再經(jīng)過sigmoid激活函數(shù)提高非線性，得到不同通道的注意力權(quán)值；再與原始圖像進(jìn)行通道級相乘，得到注意力加權(quán)后的三通道圖像，用于后續(xù)特征提取。

2.3 特征分解模塊

同一個(gè)行人在不同光照條件、視角差異、姿態(tài)變化等情況下攝像頭所捕獲到的圖像有較大差異。若僅觀察整體特征不利于行人身份的準(zhǔn)確識別，如2個(gè)不同行人若身體姿態(tài)相似，則極易被誤判為同一人，因此考慮行人圖像的局部細(xì)粒度特征在一定程度上可提高模型魯棒性。根據(jù)特征大小不同應(yīng)當(dāng)考慮不同粒度，如面部佩戴的眼鏡、帽子等應(yīng)該使用較細(xì)的粒度，褲子外觀應(yīng)該使用較粗粒度。據(jù)此設(shè)計(jì)了多粒度特征分解模塊，如圖3所示。前級特征提取得到了深層網(wǎng)絡(luò)多維特征，分別經(jīng)過3個(gè)不同分支，包括全局特征分支、粗粒度特征分支和細(xì)粒度特征分支。其中全局特征分支提取原始的圖像整體特征，粗粒度特征分支將原特征進(jìn)行水平分塊為3組，細(xì)粒度特征分支將原特征水平分塊為6組，總共得到10組特征，之后每組特征都經(jīng)過全局平均池化層化為特征向量，再經(jīng)過1×1卷積層進(jìn)行降維，最后接批量歸一化層(batch normalization，BN層)將各組的特征實(shí)現(xiàn)通道級拼接得到一個(gè)總體多粒度特征，將其作為該輸入圖像的特征表示，用于后續(xù)損失函數(shù)計(jì)算和預(yù)測階段的特征匹配。其中全局特征分支降維為512通道，粗粒度特征分支降維為256通道，細(xì)粒度特征分支降維為128通道。

圖3 多粒度特征分解網(wǎng)絡(luò)結(jié)構(gòu)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集及評價(jià)指標(biāo)

所選擇的數(shù)據(jù)集為可見光-紅外光跨模態(tài)行人重識別領(lǐng)域使用最廣泛的公開數(shù)據(jù)集SYSU-MM01，共包含287 628張可見光行人圖片和15 792張紅外光行人圖像，來自于6個(gè)攝像頭，包括室內(nèi)場景和室外場景。整個(gè)數(shù)據(jù)集共包含491個(gè)不同身份的行人，每個(gè)行人都至少有一張可見光圖像和一張紅外光圖像。SYSU-MM01數(shù)據(jù)集已經(jīng)預(yù)先劃分了訓(xùn)練集、測試集和驗(yàn)證集，其中訓(xùn)練集共296個(gè)ID的行人，測試集共96個(gè)，驗(yàn)證集共99個(gè)。目前普遍使用的處理方式是將原始的訓(xùn)練集和驗(yàn)證集合并到一起訓(xùn)練。測試集中的紅外圖像樣本稱為query集，也叫查詢集，可見光圖像樣本稱為gallery集，也叫待查集。測試模式包括全部場景(all)和室內(nèi)(indoor)場景以及單發(fā)(single shot)和多發(fā)(multi-shot)兩種情況互相組合。

評價(jià)指標(biāo)使用累計(jì)匹配特性(cumulative matching characteristics，CMC)和平均精確度(mean average precision，mAP)兩項(xiàng)指標(biāo)，其中mAP指標(biāo)在目標(biāo)檢測領(lǐng)域早已廣泛使用，而CMC指標(biāo)一般只在圖像檢索、重識別等問題中使用。模型在測試時(shí)將query集和gallery集全部樣本輸入網(wǎng)絡(luò)提取各自的特征向量計(jì)算相似度，從而對于query集每個(gè)樣本都能得到gallery集全部樣本的相似度降序排列。對于CMC指標(biāo)一般使用rank-k命中率進(jìn)行計(jì)算。將query集中全部樣本的rank-k計(jì)算平均值即可得到最終的rank-k結(jié)果。一般最常選擇的k值為1、10和20。

3.2 結(jié)果分析

實(shí)驗(yàn)采用的數(shù)據(jù)增強(qiáng)包括隨機(jī)圖像剪切(crop)、水平翻轉(zhuǎn)和隨機(jī)擦除，最后圖像大小為288×144像素，網(wǎng)絡(luò)使用Adam優(yōu)化器，權(quán)重衰減系數(shù)為5×10-4，初始學(xué)習(xí)率為0.01，并且學(xué)習(xí)率衰減使用warm-up策略，即前10個(gè)epoch(1個(gè)epoch為將所有訓(xùn)練樣本訓(xùn)練1次)學(xué)習(xí)率從0.001線性增長到0.01，10到30個(gè)epoch學(xué)習(xí)率保持0.01，30到60個(gè)epoch學(xué)習(xí)率為0.001，60到80個(gè)epoch學(xué)習(xí)率為0.000 1。一共訓(xùn)練80個(gè)epoch。ResNet50由于使用了預(yù)訓(xùn)練參數(shù)，因此其學(xué)習(xí)率設(shè)置為模型學(xué)習(xí)率的0.1倍。使用P×K的采樣策略，即每次迭代選擇P個(gè)ID，每個(gè)ID選K張可見光圖像和K張紅外光圖像，實(shí)驗(yàn)設(shè)置P為6，K為4。因此每次訓(xùn)練的batch大小為48張圖片。模型在SYSU-MM01數(shù)據(jù)集的4種模式下進(jìn)行測試，結(jié)果如表1所示。

表1 SYSU-MM01數(shù)據(jù)集不同方法結(jié)果對比

根據(jù)表1可知，在全場景模式下，單發(fā)和多發(fā)兩種情況下所提方法指標(biāo)都高于現(xiàn)有方法，其中單發(fā)的rank-1高于當(dāng)前最佳方法6.53%，mAP也高出最佳方法2.79%，多發(fā)模式下也有相同結(jié)果；并且室內(nèi)場景下由于難度有所下降，各項(xiàng)指標(biāo)都有所提高，但仍然優(yōu)于現(xiàn)有其他方法：證明了所提方法的有效性。

3.3 對比實(shí)驗(yàn)

為進(jìn)一步證明所設(shè)計(jì)的兩種模塊各自的有效性，對比實(shí)驗(yàn)設(shè)計(jì)包括不同網(wǎng)絡(luò)架構(gòu)的對比和不同不同基礎(chǔ)模型的對比。對于跨模態(tài)行人重識別問題，基于深度學(xué)習(xí)的方法其模型可歸類為3種網(wǎng)絡(luò)架構(gòu)：單流架構(gòu)、雙流架構(gòu)、半雙流架構(gòu)，如圖4所示。將3種網(wǎng)絡(luò)架構(gòu)和所提方法一起進(jìn)行對比，為了控制變量，本部分實(shí)驗(yàn)都不采用所提出的特征分解模塊，并且4種架構(gòu)的基礎(chǔ)模型均采用前面所述的ResNet50，其中半雙流架構(gòu)的共享卷積層使用ResNet50的layer1-4。在全場景單發(fā)模式下實(shí)驗(yàn)結(jié)果證明了使用所提的注意力模塊后的網(wǎng)絡(luò)架構(gòu)的有效性，如表2所示。

圖4 不同網(wǎng)絡(luò)架構(gòu)對比

表2 不同網(wǎng)絡(luò)架構(gòu)對比

為了對比所提出的特征分解模塊的有效性，分別使用4種不同的經(jīng)典預(yù)訓(xùn)練模型作為特征提取的基礎(chǔ)模型，分別為ResNet50、ResNet18、SqueezeNet、DenseNet121，每種基礎(chǔ)模型都進(jìn)行是否使用特征分解模塊的對比。在全場景單發(fā)模式下實(shí)驗(yàn)結(jié)果如表3所示。

表3 不同基礎(chǔ)模型對比

從表3結(jié)果可看出，不同的預(yù)訓(xùn)練模型效果有差別，但使用所提特征分解模塊后各項(xiàng)指標(biāo)均有所提高，證明所提特征分解模塊的有效性。

4 結(jié) 語

針對可見光和紅外光跨模態(tài)行人重識別問題，提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)，包括基于注意力的模態(tài)遷移模塊用于緩解巨大的跨模態(tài)差異以及基于圖像分塊的多粒度特征分解模塊用于提取圖像全局和局部的多粒度特征。在SYSU-MM01公開數(shù)據(jù)集上進(jìn)行的測試表明，所提兩種模塊能有效提高行人重識別模型精度，與現(xiàn)有多種方法比較達(dá)到了目前更好的效果。但與可見光單模態(tài)行人重識別相比，跨模態(tài)行人重識別模型效果仍然有很大的提升空間?？紤]到深度學(xué)習(xí)中注意力機(jī)制有多種實(shí)現(xiàn)方式，接下來將進(jìn)一步改進(jìn)模態(tài)遷移模塊，探究可見光和紅外光之間更有效的特征變換結(jié)構(gòu)，進(jìn)一步減小跨模態(tài)差異，提高算法性能。