亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于膠囊網(wǎng)絡(luò)在復(fù)雜場景下的行人識別

        2021-03-08 00:24:46程換新劉文翰郭占廣張志浩
        計算機技術(shù)與發(fā)展 2021年2期
        關(guān)鍵詞:特征模型

        程換新,劉文翰,郭占廣,張志浩

        (青島科技大學(xué) 自動化與電子工程學(xué)院,山東 青島 266061)

        0 引 言

        隨著國家的各項城市工程建設(shè),視頻監(jiān)控攝像頭的數(shù)量也在不斷增長,隨之帶來的就是視頻信息的大數(shù)據(jù)化。因此,現(xiàn)如今開發(fā)視頻數(shù)據(jù)中的重要價值越來越受到人們的重視。比如公安部門可以通過視頻信息實現(xiàn)對目標(biāo)人物的跟蹤、搜尋,亦可用來分析行人的種種行為是否存在異常[1],這無疑是保障社會安全的又一有力手段。

        “深度學(xué)習(xí)”這一概念是在2006年被提出的,在這短短的十幾年間已經(jīng)發(fā)展出了大量算法,但是將深度學(xué)習(xí)這一技術(shù)實際應(yīng)用于圖片分析依然以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為主。然而因為卷積神經(jīng)網(wǎng)絡(luò)的一些結(jié)構(gòu)缺陷,例如無法充分地表明下層各對象之間的空間關(guān)系,而且在池化的過程中會將一些位置信息丟失[2],這使得卷積神經(jīng)網(wǎng)絡(luò)在某些場景下的圖片識別并不能達到令人滿意的效果。

        膠囊(capsule)[3]的概念是由Sabour S等人首次提出的,他們在文中創(chuàng)建了一個結(jié)構(gòu)簡單的三層膠囊網(wǎng)絡(luò)(capsule network),并且利用該網(wǎng)絡(luò)實現(xiàn)對Mnist手寫數(shù)字識別,識別的準(zhǔn)確率達到了97.5%,直接超越了LeNet-5模型[4]。Hinton等人在2018年發(fā)表的論文中對膠囊網(wǎng)絡(luò)中的動態(tài)路由迭代算法進行了介紹,并提出了一種新的EM路由算法,對膠囊網(wǎng)絡(luò)核心路由算法進行改進[5]。改進的膠囊網(wǎng)絡(luò)通過使用動態(tài)路由算法替代了CNN的池化操作[6-7],從而使得特征損失有所減小,能夠在一定程度上提高圖像識別的準(zhǔn)確率。但是在目前復(fù)雜環(huán)境的應(yīng)用場景下的識別研究還是少數(shù)。該文在原有Hinton提出的膠囊網(wǎng)絡(luò)的基礎(chǔ)上,對網(wǎng)絡(luò)的結(jié)構(gòu)進行一定的改進,提出了基于改進膠囊網(wǎng)絡(luò)的行人識別算法PRM-ICN。并使用三個公開通用的數(shù)據(jù)集CUHK01[8]、CUHK03[9]和Market-1501[10]對該模型進行訓(xùn)練及驗證。

        1 改進膠囊網(wǎng)絡(luò)模型

        經(jīng)過改進后的膠囊網(wǎng)絡(luò)模型如圖1所示,共包含三層卷積層,一層多維Primary Capsule Layer,一層Intermediate Capsule Layer以及一層Advanced Capsule Layer。

        圖1 改進的膠囊網(wǎng)絡(luò)模型結(jié)構(gòu)

        1.1 增加卷積層

        在復(fù)雜場景下的圖片所包含的信息量是巨大的,然而在圖片中存在著過多的干擾信息。為了能夠減少無用信息的干擾,充分聯(lián)系圖片中各特征的關(guān)系,并且可以在進入Primary Capsule Layer之前過濾一部分噪聲。該網(wǎng)絡(luò)在Conv 1層之后又額外增加了兩層卷積層Conv 2和Conv 3,從而可以減少復(fù)雜背景中多余信息對網(wǎng)絡(luò)產(chǎn)生的干擾。

        1.2 膠囊維度擴展

        經(jīng)過三層的卷積網(wǎng)絡(luò)后,輸入圖片的大量有用特征被提取,經(jīng)過Primary Capsule Layer和Intermediate Capsule Layer對信息進行處理后將其壓縮至膠囊中。該網(wǎng)絡(luò)中的典型結(jié)構(gòu)是膠囊結(jié)構(gòu),膠囊是存儲信息的單元,膠囊結(jié)構(gòu)的維度越大,就有充足的存儲單元對網(wǎng)絡(luò)中的有效信息進行保存。因此,在該網(wǎng)絡(luò)將其維度擴展至16D。

        1.3 Intermediate Capsule Layer

        在膠囊層的內(nèi)部,底層的特征膠囊利用姿態(tài)關(guān)系來對高層特征進行預(yù)測,之后利用動態(tài)路由算法以及篩分決策機制對高層膠囊進行選擇性的激活,這就等同于篩選出了部分低層膠囊網(wǎng)絡(luò)的預(yù)測結(jié)果,并且使高層膠囊選擇性激活。

        經(jīng)過上述的改動之后,該網(wǎng)絡(luò)的運行情況如下:

        Conv 1:先將輸入的彩色圖片用256個5×5大小的卷積核進行卷積操作,其卷積步長為1。并且在卷積操作過程中使用ReLu激活函數(shù)。

        Conv 2:對Conv 1經(jīng)過卷積得到的初步特征使用512個5×5的卷積核進行卷積操作,其卷積步長為1,進而得到Conv 2層的輸出結(jié)果。

        Conv 3:進一步地將Conv 2層卷積得到的特征進行卷積操作,使用512個5×5大小的卷積核。

        Primary Capsule Layer:對Conv 3層的輸出結(jié)果進行向量化操作。采用16組不同的卷積核,而每一組卷積核中又包含64個不同的15×15的卷積核,卷積的步長設(shè)置為1,該卷積操作的激活函數(shù)使用ReLu。經(jīng)過該步操作后,得到低級特征Ui,該特征為1×16的向量。其過程如圖2所示。

        圖2 Primary Capsule Layer結(jié)構(gòu)

        Intermediate Capsule Layer:通過上一層得所到的低級特征Ui以及各膠囊層之間的姿態(tài)關(guān)系Wij來對高級特征Uj|i進行預(yù)測。即Uj|i=Ui·Wij。

        Advanced Capsule Layer:利用得到的底層特征對高層特征進行預(yù)測,并利用動態(tài)路由算法以及篩分決策機制對高層特征膠囊進行選擇性激活,最終實現(xiàn)分類功能。

        2 關(guān)鍵算法

        2.1 向量神經(jīng)元

        在膠囊網(wǎng)絡(luò)中,每個膠囊包含著眾多神經(jīng)元,每一個神經(jīng)元存儲了從圖片中獲取的特征。與CNN不同,在膠囊網(wǎng)絡(luò)中采用向量神經(jīng)元而非標(biāo)量神經(jīng)元,這就使得神經(jīng)元可以表達的信息更豐富,從而能夠提高網(wǎng)絡(luò)的識別率。每一個向量神經(jīng)元都有其自身的屬性,各種各樣的實例化參數(shù)都可以包含于其屬性當(dāng)中,比如姿態(tài)、變形、速度等。除此之外,膠囊還存在一個特殊屬性,該屬性描述的是圖像中某一類別實例的存在與否。該屬性的值為概率,其大小又取決于該向量神經(jīng)元的模長,模長越大則概率越大,反之亦然。向量神經(jīng)元通過Squash()函數(shù)進行激活,該函數(shù)能夠?qū)υ撓蛄康拈L度進行放大或縮小,而向量的長度又代表某一時間發(fā)生的可能性。經(jīng)過該函數(shù)的激活后,能夠?qū)⑻卣黠@著的向量進行放大,將特征不夠明顯的向量進行縮小,從而提高識別率。

        2.2 姿態(tài)關(guān)系轉(zhuǎn)換

        膠囊層中物體各部分之間的分層姿態(tài)關(guān)系通過姿態(tài)矩陣表現(xiàn)出來[11-12]。為了正確地識別物體,首先應(yīng)當(dāng)保持分層姿態(tài)關(guān)系。而姿態(tài)無非包括旋轉(zhuǎn)(rotation)、平移(translation)和縮放(scale)三種。若將某個物體姿態(tài)先逆時針旋轉(zhuǎn)60°,再將其向右平移3個單位,之后再縮放至原來的50%,那么可以通過以下矩陣連乘的方式得到。其中等式右邊前三個矩陣分別為R、T、S,而該三個矩陣相乘即為姿態(tài)矩陣M。

        2.3 動態(tài)路由迭代算法

        圖3 動態(tài)路由迭代算法

        2.4 Squash函數(shù)

        該函數(shù)能夠?qū)υ撓蛄康拈L度進行放大或縮小,并且保證每個膠囊的長度都介于0到1之間。因此,每個事件發(fā)生的概率大小都可以使用每個膠囊的長度所替代,這就能提高大概率事件的可能性,而降低小概率事件的發(fā)生幾率,從而提高識別的準(zhǔn)確度。該函數(shù)的表達式為:

        其中,Vi是該函數(shù)的輸出,也就是長度在0到1之間的一個向量;Sj是輸入該函數(shù)的一個膠囊,而該膠囊是經(jīng)過前述三層卷積運算后的結(jié)果。對于等式右邊的第一項,該項的作用僅為放縮膠囊的長度,使得長度大的膠囊更長、長度小的膠囊進一步縮小。對于等式右邊的第二項,該項的作用是保持原有的膠囊方向不變,也就是保持事件除概率外的各項特征不發(fā)生變化。

        3 實驗與分析

        為了驗證提出的基于膠囊網(wǎng)絡(luò)的復(fù)雜場景下行人識別模型(PRM-ICN)的性能,在三個流行的公開數(shù)據(jù)集CUHK01、CUHK03和Market-1501上進行了實驗,實驗的結(jié)果及分析見下文。

        3.1 實驗設(shè)置

        在本次實驗中,整個網(wǎng)絡(luò)的實現(xiàn)是在TensorFlow框架下完成的,編程語言使用的是Python,GPU型號為GTX 1080Ti。對于實驗結(jié)果的評價,采用常用的兩個指標(biāo),即累計匹配曲線(cumulative match curve,CMC)和平均精度均值(Mmean average precision,MAP)。在行人識別領(lǐng)域中,一個必不可少的對模型的重要評價指標(biāo)就是CMC曲線,該指標(biāo)能夠充分反映分類器的性能。MAP曲線即為平均AP值,是對多次查詢結(jié)果求平均AP值。

        此外,為了驗證本網(wǎng)絡(luò)的有效性,還與另外兩個在該領(lǐng)域性能不錯的模型進行了對比,這兩個模型分別為基于AlexNet的行人識別方法(PRM-AlexNet)[14]和基于VGG-16的行人識別方法(PRM-VGG-16)[15]。其中AlexNet包含5個激活函數(shù)為ReLu的卷積層和3層全連接層。VGG-16網(wǎng)絡(luò)包含13個激活函數(shù)為ReLu的卷積層和3層全連接層。

        3.2 數(shù)據(jù)集

        本實驗采用了三個公開通用的數(shù)據(jù)集CUHK01、CUHK03和Market-1501對該模型進行訓(xùn)練及驗證。數(shù)據(jù)集CUHK01中包括971人,其中每人都有包含正面、背面以及兩側(cè)的四張圖片,在實驗中選取前750人作為訓(xùn)練集,剩余作為測試集;數(shù)據(jù)集CUHK03包含13 164張行人圖片,涵蓋了1 360個人,在實驗中選取前1 100人作為訓(xùn)練集,剩余作為測試集;數(shù)據(jù)集Market-1501包括1 501個行人共32 668張圖片,在本次實驗中選取前1 300個人的圖片作為訓(xùn)練集,剩余作為測試集。數(shù)據(jù)集中的部分圖片如圖4所示。

        圖4 數(shù)據(jù)集中的部分圖片

        3.3 實驗結(jié)果分析

        在三個數(shù)據(jù)集上的實驗結(jié)果如表1所示。從表中可以看出,因為CUHK01中的圖片數(shù)據(jù)相對較少,而PRM-AlexNet和PRM-VGG-16網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜超參數(shù)也較多,使得在訓(xùn)練過程中極容易發(fā)生過擬合的現(xiàn)象,很難利用到其深層網(wǎng)絡(luò)的作用,從而導(dǎo)致兩者的CMC較低。在三個數(shù)據(jù)集上,提出的基于膠囊網(wǎng)絡(luò)的行人識別模型的CMC曲線值均高于上述兩種方法。

        表1 不同方法的CMC比較

        該文創(chuàng)建的模型PRM-ICN在三個數(shù)據(jù)集上的MAP值如圖5所示。從圖中可以看出,在三個數(shù)據(jù)集下,所提模型在MAP值上的表現(xiàn)都優(yōu)于其他兩種網(wǎng)絡(luò)。在CUHK01數(shù)據(jù)集上,所提模型較其他兩種方法的MAP值分別提高了0.18和0.16;在CUHK03數(shù)據(jù)集上,所提模型較其他兩種方法的MAP值分別提高了0.22和0.20;在Market-1501數(shù)據(jù)集上,所提模型較其他兩種方法的MAP值分別提高了0.17和0.10。

        圖5 不同模型的MAP值

        通過上述實驗表明,提出的基于膠囊網(wǎng)絡(luò)的復(fù)雜場景下行人識別模型的性能較好。因為其在對不同姿態(tài)和空間關(guān)系的識別對象進行處理時,可以通過姿態(tài)轉(zhuǎn)換來對圖像進行變換,提高了識別準(zhǔn)確率。

        4 結(jié)束語

        針對復(fù)雜場景下行人識別難度大的問題,為了讓膠囊網(wǎng)絡(luò)能夠在復(fù)雜場景下對行人圖像進行更高準(zhǔn)確度的識別,在原始的膠囊網(wǎng)絡(luò)基礎(chǔ)之上對網(wǎng)絡(luò)結(jié)構(gòu)進行了優(yōu)化,使之提高了在處理復(fù)雜場景中消除無用信息的能力,提出了基于改進膠囊網(wǎng)絡(luò)的行人識別模型,并與在該領(lǐng)域識別效果不錯的模型PRM-AlexNet和PRM-VGG-16進行了對比。所提出的模型在CMC曲線及MAP值上都優(yōu)于前兩者。但是該模型的識別率還未達到預(yù)期,并且還存在一定的局限性,比如并未詳細考量光線變化較大的情況。未來會將更多的環(huán)境因素考慮在內(nèi),不斷地修改網(wǎng)絡(luò)結(jié)構(gòu)、完善模型,使之識別準(zhǔn)確率進一步提高。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        AV有码在线免费看| 极品少妇被猛的白浆直喷白浆| 中文字幕亚洲情99在线| 九九99国产精品视频| 亚洲无人区乱码中文字幕| 人妻少妇偷人精品久久性色av| 亚洲av永久精品爱情岛论坛| 久久国产精品二区99| 亚洲第一页综合av免费在线观看| 国产精品无套一区二区久久| 国产精品久久久久9999小说| 高清无码一区二区在线观看吞精| av毛片一区二区少妇颜射| 久久婷婷综合激情五月| 亚洲avav天堂av在线网毛片| 日韩精品国产自在久久现线拍| 一区二区三区国产偷拍| 色婷婷久久亚洲综合看片| 成人国内精品久久久久一区| 国产女高清在线看免费观看| 中文字幕久久人妻av| 亚洲精品乱码久久久久久| 福利体验试看120秒| 人妻中出精品久久久一区二 | 一区二区三区最新中文字幕| 国产成人精品综合在线观看| 久久无码高潮喷水免费看| 在线观看中文字幕不卡二区| 亚洲精品久久激情国产片| 伊人色综合九久久天天蜜桃| 成人国产在线播放自拍| 99精品国产一区二区三区| 卡一卡二卡三无人区| 亚洲五月激情综合图片区| 国产愉拍91九色国产愉拍| 女人色熟女乱| 91高清国产经典在线观看| 亚洲中文字幕亚洲中文| (无码视频)在线观看| 亚洲av成本人无码网站| 最新国产av网址大全|