亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于鐵路客站視頻多視角特征圖投影融合的人群密度估計(jì)模型

        2022-06-09 03:53:54代明睿馬小寧李國(guó)華
        中國(guó)鐵道科學(xué) 2022年3期
        關(guān)鍵詞:特征融合模型

        李 瑞,李 平,代明睿,馬小寧,李國(guó)華

        (1.中國(guó)鐵道科學(xué)研究院 研究生部,北京 100081;2.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 科技和信息化部,北京 100081;3.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081)

        作為集旅客購(gòu)票、安檢、候車(chē)和換乘于一體的大型公共服務(wù)空間,鐵路客站內(nèi)人群聚集效應(yīng)明顯,特別是在周末、小長(zhǎng)假和春節(jié)等節(jié)假日以及部分突發(fā)情況下,站內(nèi)人流量會(huì)在短時(shí)間內(nèi)急劇攀升,形成高密度人群聚集區(qū)。如果此時(shí)人群中出現(xiàn)異向客流,很容易在短時(shí)間內(nèi)發(fā)展形成高密度對(duì)沖,這不僅會(huì)造成站內(nèi)擁擠,使旅客候車(chē)乘車(chē)的效率和站內(nèi)服務(wù)體驗(yàn)大打折扣,甚至還有可能引發(fā)踩踏事件等安全風(fēng)險(xiǎn)。因此,旅客高密度人群聚集對(duì)站內(nèi)運(yùn)營(yíng)組織管理和服務(wù)管理提出極大考驗(yàn)。

        目前應(yīng)對(duì)站內(nèi)旅客高密度聚集問(wèn)題時(shí),較為常見(jiàn)的做法是由管理人員現(xiàn)場(chǎng)巡邏監(jiān)督,一旦觀察到旅客人群有高密度聚集趨勢(shì),便會(huì)通過(guò)設(shè)置柵欄限行、分流等措施進(jìn)行疏導(dǎo),但這種做法本來(lái)就存在現(xiàn)場(chǎng)管理難度較大、效率較低等問(wèn)題,時(shí)常會(huì)因旅客聚集發(fā)現(xiàn)不及時(shí)而導(dǎo)致人群疏導(dǎo)工作滯后。而在新型冠狀病毒肺炎疫情常態(tài)化防控工作中,政府部門(mén)對(duì)人群密度管理又提出了更為嚴(yán)格的要求。在這種形勢(shì)下,在人流頻繁聚集的鐵路客站開(kāi)展站內(nèi)人群密度研究,精準(zhǔn)掌握站內(nèi)人群密度數(shù)據(jù)信息,不僅有助于站內(nèi)旅客服務(wù)組織的科學(xué)化管理,更有利于站內(nèi)疫情常態(tài)化防控管理。

        近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)在特征提取、識(shí)別分類(lèi)等方面學(xué)習(xí)能力的不斷提升,以深度神經(jīng)網(wǎng)絡(luò)模型作為構(gòu)建基礎(chǔ)的人群密度估計(jì)算法逐步發(fā)展起來(lái)并取得了優(yōu)異的表現(xiàn)[1]。文獻(xiàn)[2]創(chuàng)新性地提出多列卷積的神經(jīng)網(wǎng)絡(luò)模型(MCNN),實(shí)現(xiàn)了同一視角下不同尺度目標(biāo)的估計(jì),但由于計(jì)算參數(shù)太大,難以滿(mǎn)足當(dāng)時(shí)應(yīng)用需求。文獻(xiàn)[3]在MCNN的基礎(chǔ)上增加了卷積神經(jīng)網(wǎng)絡(luò)最優(yōu)化選擇器,進(jìn)一步提升了人群密度估計(jì)的準(zhǔn)確性。文獻(xiàn)[4]使用塊狀金字塔作為輸入來(lái)提取多尺寸的特征圖,提升了密度估計(jì)網(wǎng)絡(luò)的泛化能力,同時(shí)實(shí)現(xiàn)了對(duì)車(chē)流和人流的密度估計(jì)。文獻(xiàn)[5—6]以MCNN為骨干網(wǎng)絡(luò),在人群計(jì)數(shù)框架中融合圖像的全局和局部?jī)?nèi)容信息,提出了基于圖像上下文的金字塔卷積網(wǎng)絡(luò)CP-CNN,通過(guò)生成高質(zhì)量的密度圖提升人群密度估計(jì)的準(zhǔn)確率,特別是在千人以上的超高密度人群估計(jì)中有很好的表現(xiàn)。文獻(xiàn)[7—8]對(duì)多尺度特征提取模型進(jìn)一步創(chuàng)新,通過(guò)引入注意力機(jī)制,提高了模型的自適應(yīng)性以及人群密度可視化的性能。文獻(xiàn)[9—10]主要以目標(biāo)檢測(cè)方式對(duì)人群圖像中不同尺寸的頭部進(jìn)行識(shí)別定位,并通過(guò)計(jì)數(shù)的方式估計(jì)整體人群數(shù)量。文獻(xiàn)[11]為獲取更多全局信息,采用空洞卷積層來(lái)擴(kuò)大感受野,不僅減少了訓(xùn)練參數(shù),還在保證準(zhǔn)確率的情況下提升了訓(xùn)練效率。文獻(xiàn)[12]提出一種網(wǎng)格化的編解碼網(wǎng)絡(luò)架構(gòu),通過(guò)對(duì)不同網(wǎng)絡(luò)層特征圖的編碼、解碼工作,學(xué)習(xí)特征圖與不同人群密度間的映射關(guān)系,實(shí)現(xiàn)對(duì)高密度人群的估計(jì)。上述方法雖然都實(shí)現(xiàn)了對(duì)人群密度的估計(jì),并且模型準(zhǔn)確率和效率也都在不斷提升,但都是基于單個(gè)視覺(jué)場(chǎng)景的實(shí)現(xiàn)。

        單個(gè)視覺(jué)場(chǎng)景下,多數(shù)人群密度估計(jì)模型無(wú)法覆蓋整個(gè)場(chǎng)景,例如一般很難在寬闊的站房空間內(nèi)或狹長(zhǎng)的列車(chē)站臺(tái)上,利用單個(gè)視覺(jué)場(chǎng)景獲得準(zhǔn)確的全局信息。為解決這種寬廣區(qū)域下的人群密度估計(jì)問(wèn)題,需要同時(shí)配置多路攝像頭,通過(guò)視野上的重疊即采用多視角融合的方法,盡量減少由環(huán)境遮擋造成的估計(jì)誤差,實(shí)現(xiàn)對(duì)整個(gè)目標(biāo)場(chǎng)景的覆蓋。在這一研究領(lǐng)域,文獻(xiàn)[13]在對(duì)多視角目標(biāo)人群特征圖提取的基礎(chǔ)上,采用貝葉斯估計(jì)的方法對(duì)行人進(jìn)行計(jì)數(shù),該方法對(duì)于稀疏場(chǎng)景(即圖像中的行人圖像獨(dú)立完整、無(wú)遮擋)有較好的效果,但沒(méi)有解決行人間遮擋嚴(yán)重情況下的人群計(jì)數(shù)問(wèn)題。文獻(xiàn)[14]采用特征圖投影方法解決人群遮擋問(wèn)題,在城市十字路口下通過(guò)對(duì)位于人行道的多路視頻圖像進(jìn)行投影融合,實(shí)現(xiàn)對(duì)整個(gè)路口的人群密度估計(jì),但該應(yīng)用場(chǎng)景下的行人數(shù)量較少,尚不知對(duì)于高密度人群的密度估計(jì)效果。

        基于上述各類(lèi)人群密度研究方法的優(yōu)點(diǎn)和目前在超大視覺(jué)場(chǎng)景下人群密度估計(jì)的局限性,本文在歸納鐵路客站內(nèi)人群密度特點(diǎn)的基礎(chǔ)上,提出1種多視角特征圖投影融合的人群密度估計(jì)模型,主要包括多視角特征圖提取處理和多視角特征圖投影融合處理2個(gè)部分。首先,通過(guò)特征金字塔網(wǎng)絡(luò)實(shí)現(xiàn)旅客圖像的多尺度特征圖提取,并引入注意力機(jī)制進(jìn)一步豐富旅客人群特征信息;其次,將二維的多視角旅客人群特征圖投影到三維地面坐標(biāo)系,并進(jìn)行投影融合,實(shí)現(xiàn)鐵路客站大視野、復(fù)雜場(chǎng)景下旅客人群密度的估計(jì);最后,通過(guò)訓(xùn)練選定的公開(kāi)數(shù)據(jù)集和自行構(gòu)建的數(shù)據(jù)集,完成本文模型與當(dāng)前同類(lèi)先進(jìn)模型在性能上的對(duì)比。

        1 鐵路客站內(nèi)旅客人群視頻圖像特點(diǎn)

        鐵路客站特別是新建的高鐵客站普遍具有站房結(jié)構(gòu)龐大、站內(nèi)場(chǎng)景布置復(fù)雜多樣的特點(diǎn),站房?jī)?nèi)部除了主要的安檢區(qū)、檢票區(qū)和候車(chē)區(qū),還分布有大量的商鋪、巨型廣告牌、站內(nèi)引導(dǎo)牌、列車(chē)時(shí)刻表大屏等設(shè)施設(shè)備。由此,實(shí)踐發(fā)現(xiàn)站內(nèi)旅客人群視頻圖像處理中存在如下5個(gè)特點(diǎn),這些特點(diǎn)進(jìn)一步放大了站內(nèi)旅客的目標(biāo)識(shí)別難度,從技術(shù)可行性、模型有效性等方面給人群密度估計(jì)工作的開(kāi)展帶來(lái)挑戰(zhàn)。

        (1)旅客人群分布不均。站內(nèi)旅客人群聚集在時(shí)間上的分布是不均勻的,并且人群聚集密度會(huì)隨著不同檢票口發(fā)車(chē)時(shí)刻信息的變化而動(dòng)態(tài)變化[15]。例如,發(fā)車(chē)前30 min內(nèi)旅客會(huì)在檢票口附近區(qū)域高度聚集,而其他未檢票的候車(chē)區(qū)域,旅客的人群密度則相對(duì)稀疏,如圖1所示。

        圖1 站內(nèi)旅客不均勻分布場(chǎng)景

        (2)旅客人群遮擋明顯。視頻圖像中,旅客人群在站內(nèi)明顯會(huì)受到各種類(lèi)型的遮擋,這種遮擋又可進(jìn)一步分為靜態(tài)遮擋和動(dòng)態(tài)遮擋2類(lèi)。靜態(tài)遮擋主要指站內(nèi)設(shè)施設(shè)備對(duì)旅客的遮擋,以及旅客因坐、臥等靜態(tài)姿態(tài)造成的相互遮擋;動(dòng)態(tài)遮擋指旅客進(jìn)站、排隊(duì)檢票和站內(nèi)購(gòu)物等過(guò)程中,短時(shí)間內(nèi)旅客被站內(nèi)設(shè)施設(shè)備遮擋,以及因走動(dòng)造成的相互遮擋[16]。典型的站內(nèi)旅客人群遮擋場(chǎng)景如圖2所示。

        圖2 站內(nèi)旅客人群遮擋場(chǎng)景

        (3)圖像中旅客尺寸差異大。攝像頭視角下,由于不同旅客與視頻監(jiān)控?cái)z像機(jī)的距離遠(yuǎn)近不一,以及不同旅客的站內(nèi)行為姿態(tài)不一,會(huì)造成視頻圖像獲得的旅客尺寸大小相差較大,特別是在利用圖像估計(jì)人群密度時(shí),長(zhǎng)寬均小于50個(gè)像素單位的小尺寸旅客往往難以被識(shí)別檢測(cè),如果不對(duì)圖像進(jìn)行處理就直接開(kāi)展人群密度估計(jì),準(zhǔn)確率會(huì)受到較大影響。

        (4)圖像背景復(fù)雜。對(duì)視頻圖像進(jìn)行處理時(shí),通常需根據(jù)識(shí)別任務(wù)目的對(duì)圖像進(jìn)行背景與前景人像分離。針對(duì)旅客進(jìn)行人群密度估計(jì)時(shí),以站內(nèi)旅客為前景、以站內(nèi)容易形成遮擋的設(shè)施設(shè)備為背景,很容易看出圖像背景環(huán)境復(fù)雜多樣,既有立柱等站房自身結(jié)構(gòu),又有座椅、閘機(jī)等固定物,還有廣告牌、商鋪等可能不定期更換位置的設(shè)施,這些遮擋物會(huì)在一定程度上影響人群特征提取的準(zhǔn)確性,對(duì)圖像背景識(shí)別過(guò)程中的泛化能力提出了較高要求。

        (5)站內(nèi)光線影響識(shí)別。鐵路客站一般站房寬敞宏大,為保證室內(nèi)采光充足,通常會(huì)通過(guò)寬大的落地窗和天窗引入自然光。自然光線的變化會(huì)導(dǎo)致部分?jǐn)z像頭有時(shí)處于逆光狀態(tài),有時(shí)局部光線過(guò)強(qiáng)甚至導(dǎo)致視頻圖像過(guò)曝或死黑,無(wú)法進(jìn)行圖像細(xì)節(jié)的分析與識(shí)別。此外,光滑地面產(chǎn)生的反射也會(huì)造成類(lèi)似影響。

        2 模型構(gòu)建

        針對(duì)上述鐵路客站內(nèi)旅客人群密度場(chǎng)景圖像的特點(diǎn),構(gòu)建多視角特征圖投影融合的人群密度估計(jì)模型(以下簡(jiǎn)稱(chēng)為“MVPFCC模型”),主要包括多視角特征圖提取處理和多視角特征圖投影融合處理2個(gè)部分。在多視角特征圖提取處理時(shí),設(shè)計(jì)圖像特征提取器,對(duì)多路視頻圖像分別進(jìn)行多尺度特征提??;在得到不同尺寸旅客圖像信息的基礎(chǔ)上,通過(guò)特征對(duì)齊、融合及注意力機(jī)制(Attention)處理后得到注意力密度特征圖。在多視角特征圖投影融合處理時(shí),先將多路視頻圖像的注意力密度特征圖通過(guò)空間投影變化,使其從二維平面特征圖轉(zhuǎn)化為三維地面坐標(biāo)系下的投影特征圖,然后再對(duì)多路投影特征圖進(jìn)行融合,得到投影融合特征圖并在此基礎(chǔ)上完成人群密度估計(jì)。

        2.1 多視角特征圖提取處理

        2.1.1 旅客視頻圖像多尺度特征提取

        由旅客人群視頻圖像的特點(diǎn)可知,站內(nèi)的復(fù)雜背景特征對(duì)小尺寸的旅客特征提取影響較大。為確保不同尺寸的旅客特征盡可能都被提取到,構(gòu)建模型時(shí)考慮采用多尺度特征提取特性較好的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[17]作為預(yù)訓(xùn)練網(wǎng)絡(luò),這樣能夠在特征提取時(shí)確保對(duì)站內(nèi)攝像頭視角下不同位置旅客,特別是鏡頭遠(yuǎn)端小尺寸旅客圖像信息的有效提取,在此基礎(chǔ)上,通過(guò)對(duì)融合特征圖進(jìn)行注意力機(jī)制[18]處理,實(shí)現(xiàn)對(duì)旅客特征的重定位。

        以站內(nèi)3個(gè)不同位置攝像頭的多視角視頻圖像特征提取為例,其具體提取過(guò)程如圖3所示。首先利用特征金字塔預(yù)訓(xùn)練網(wǎng)絡(luò),按照256×256,128×128,64×64,32×32,16×16等不同尺寸,對(duì)原始圖像進(jìn)行旅客圖像特征提取[19];接著通過(guò)最鄰近上采樣操作,將不同尺寸特征圖均按照最大尺寸(即256×256)進(jìn)行上采樣特征對(duì)齊;然后將對(duì)齊后的特征圖進(jìn)行相加得到融合特征圖,同時(shí)采用3×3大小的卷積核進(jìn)行處理,消除多層特征融合中帶來(lái)的重疊效應(yīng);最后為提高旅客人群識(shí)別效果,對(duì)融合特征圖進(jìn)行注意力機(jī)制處理,實(shí)現(xiàn)基于背景圖像和前景人像的語(yǔ)義分割,得到注意力密度特征圖(Attention Map,AM)[20]。

        圖3 多視角特征圖提取處理過(guò)程

        2.1.2 特征圖注意力機(jī)制處理

        為減少圖像特征提取時(shí)因站內(nèi)復(fù)雜背景帶來(lái)的信息干擾,使模型更專(zhuān)注于旅客人群信息的獲取,多尺度特征圖提取過(guò)程中引入了注意力機(jī)制處理模塊,將融合特征圖處理為注意力密度特征圖,實(shí)現(xiàn)了融合特征中背景環(huán)境信息和旅客特征信息的自動(dòng)分類(lèi)過(guò)濾[21]。在特征金字塔網(wǎng)絡(luò)預(yù)訓(xùn)練過(guò)程中,模型學(xué)習(xí)不同尺寸特征圖對(duì)應(yīng)的權(quán)重,在后續(xù)的站內(nèi)背景目標(biāo)和旅客人群目標(biāo)分類(lèi)時(shí)據(jù)此對(duì)各局部特征圖做出分類(lèi)判斷,并將結(jié)果表現(xiàn)為隱藏非重點(diǎn)信息(即環(huán)境特征信息)、只顯示關(guān)鍵目標(biāo)特征信息(即前文旅客人群信息)的形式,從而達(dá)到對(duì)關(guān)鍵信息形成注意力的效果,進(jìn)一步提高模型準(zhǔn)確率[22]。

        在對(duì)站內(nèi)旅客人群特征圖引入注意力機(jī)制的處理時(shí),由于只需對(duì)背景和人群特征信息進(jìn)行提取分離,可通過(guò)分類(lèi)激活函數(shù)將其歸納為二分類(lèi)問(wèn)題,具體處理流程如圖4所示。圖中:Fb和Fc分別為用于提取背景和人群的特征層;Wb和Wc分別為特征圖在經(jīng)過(guò)全局平均池化后得到對(duì)應(yīng)背景特征圖和人群特征層的平均權(quán)重矩陣;Pb和Pc分別為Wb和Wc在經(jīng)過(guò)分類(lèi)激活函數(shù)處理后得到的背景和人群的置信度,表示當(dāng)前該像素點(diǎn)被判別為背景圖像或旅客圖像的概率大小,Pb,Pc∈[0,1],當(dāng)Pb取0時(shí)表示像素點(diǎn)被判定為背景圖像,當(dāng)Pc取1時(shí)表示像素點(diǎn)被判定為旅客圖像;⊙和⊕分別為矩陣的乘法和加法運(yùn)算;藍(lán)色箭頭表示背景特征分類(lèi)分支,由Fc與其置信度Pc相乘得到,同理黃色箭頭為人群特征分類(lèi)分支。在分別完成背景、人群特征提取分離后,2個(gè)通道特征層相加得到新的特征圖層,即注意力密度特征圖。

        圖4 特征圖注意力機(jī)制處理流程示意圖

        2.2 多視角特征圖投影融合處理

        常見(jiàn)的多視角圖像投影融合處理方式可分為以下3種:①無(wú)特征提取,直接對(duì)原始圖像先投影再融合;②原始圖像進(jìn)行特征提取后,對(duì)特征圖先投影再融合;③原始圖像進(jìn)行特征提取后,對(duì)特征圖先融合再投影。實(shí)驗(yàn)表明:采用第1種方式會(huì)損失大量的圖像信息,對(duì)后期的人群密度估計(jì)會(huì)有很大的影響;采用第3種方式會(huì)在融合過(guò)程中損失較多特征信息。本文采用能夠保留大多數(shù)特征信息,對(duì)后期的密度估計(jì)影響較小[14,23]的第2種方式。經(jīng)過(guò)圖3中多視角特征圖提取處理后,對(duì)得到的特征圖源(注意力密度特征圖)進(jìn)行特征圖投影融合,具體過(guò)程如圖5所示。

        圖5 多視角特征圖投影融合過(guò)程

        1)多視角特征圖空間投影

        特征圖的投影過(guò)程是將二維的注意力密度特征圖投影到三維空間的地面坐標(biāo)系中。由于視覺(jué)投影中的參考坐標(biāo)系發(fā)生變化,在投影變化前,要對(duì)各個(gè)攝像頭進(jìn)行內(nèi)參和外參的標(biāo)定,以此確定二維圖像坐標(biāo)與三維地面坐標(biāo)系的映射關(guān)系。本文采用張氏標(biāo)定法[24]實(shí)現(xiàn)對(duì)多個(gè)攝像頭的內(nèi)參和外參標(biāo)定,具體的計(jì)算過(guò)程略,直接使用標(biāo)定后的參數(shù)。

        視覺(jué)投影變化過(guò)程基于像素點(diǎn)在三維坐標(biāo)(x,y,z)和二維圖像的像素坐標(biāo)點(diǎn)(u,v)之間進(jìn)行的仿射變換,通過(guò)矩陣的增廣運(yùn)算實(shí)現(xiàn)不同維度下的坐標(biāo)轉(zhuǎn)換[25],即二維坐標(biāo)向量和三維坐標(biāo)向量中均增加1行行向量,并全部填充為1。

        式中:ε為實(shí)數(shù)比例因子;Pθ為大小為3×4的視角變化參數(shù)矩陣;A為3×3的內(nèi)參矩陣;R為旋轉(zhuǎn)變換矩陣參數(shù);t為平移變換矩陣參數(shù);[R|t]為3×4大小的旋轉(zhuǎn)平移變換矩陣(外參矩陣)。

        將旅客人群密度特征圖從二維坐標(biāo)投影到三維地面坐標(biāo)系的過(guò)程中,為最大程度減小因遮擋造成的人群密度估計(jì)誤差,考慮將坐標(biāo)系下所有坐標(biāo)點(diǎn)的z值設(shè)為零,即將所有像素投影坐標(biāo)點(diǎn)變?yōu)?x,y,0),得到特征圖的投影特征圖。具體變化過(guò)程由式 (1) 中矩陣Pθ與空間向量(x,y,0,1)通過(guò)矩陣乘法運(yùn)算得到,即

        式中:Pθ,0為二維圖像投影到地面坐標(biāo)系下尺寸為3×3大小的視覺(jué)變換矩陣。

        2)多視角投影特征圖融合

        投影融合過(guò)程比較簡(jiǎn)單,將不同投影特征圖通過(guò)矩陣加法運(yùn)算得到即可。由于在特征圖投影過(guò)程中,二維坐標(biāo)下的部分特征圖會(huì)發(fā)生形變,在特征圖投影融合后進(jìn)行密度圖估計(jì)時(shí)會(huì)造成一定誤差損失,因此融合后的特征圖通過(guò)大卷積核的空洞卷積減小這一誤差,使最后的特征圖盡量與標(biāo)注值接近[23,26],同時(shí),大卷積核處理還可最大限度地保持多視角融合過(guò)程中空間信息。

        2.3 多視角特征圖投影融合密度估算

        在模型訓(xùn)練學(xué)習(xí)時(shí),需要大量的訓(xùn)練數(shù)據(jù)集樣本圖像及對(duì)應(yīng)的人群標(biāo)注信息。訓(xùn)練數(shù)據(jù)集的原始圖像標(biāo)注文件包含了人群目標(biāo)個(gè)體的位置像素坐標(biāo),在標(biāo)注過(guò)程中,多以目標(biāo)旅客頭部的1個(gè)點(diǎn)作為對(duì)應(yīng)的1個(gè)標(biāo)注目標(biāo)。在實(shí)際模型訓(xùn)練開(kāi)始前,首先根據(jù)訓(xùn)練數(shù)據(jù)集中的標(biāo)注文件信息,將樣本圖像轉(zhuǎn)化為單視角標(biāo)注密度圖,之后才能參與模型的學(xué)習(xí)訓(xùn)練過(guò)程,然后經(jīng)過(guò)特征提取、注意力密度圖生成、多視角的特征圖投影以及投影融合等一系列操作,生成最終的投影融合密度估計(jì)圖。

        1)單視角標(biāo)注密度圖生成

        對(duì)于訓(xùn)練數(shù)據(jù)集中的樣本圖像,其對(duì)應(yīng)的標(biāo)注文件由圖像中的旅客頭部標(biāo)注信息構(gòu)成,其中每條標(biāo)注信息均由1個(gè)稀疏矩陣表示。通過(guò)高斯核函數(shù)將該稀疏矩陣轉(zhuǎn)換為二維密度圖,估計(jì)過(guò)程為

        式中:DGT為標(biāo)注圖像生成的人群密度特征圖;xi為標(biāo)注圖像中第i個(gè)旅客的頭部坐標(biāo)點(diǎn);δ(x?xi)為表示xi位置的沖擊函數(shù),通過(guò)自由變量x條件變換確定標(biāo)注對(duì)象是否存在;o為標(biāo)注圖像中人頭數(shù);Gμ,ρ2(x)為高斯核函數(shù);μ為確定頭部大小的參數(shù);ρ為標(biāo)準(zhǔn)差值。

        2)注意力密度特征圖生成

        完成多尺度特征提取之后會(huì)得到多尺度融合特征圖,經(jīng)過(guò)注意力機(jī)制處理,實(shí)現(xiàn)站內(nèi)背景和人群特征信息的分離,式(4)即為2類(lèi)特征層二分類(lèi)實(shí)現(xiàn)過(guò)程的主要函數(shù)。

        式中:Matt為注意力密度特征圖;Sigmoid(·)為激活函數(shù),輸出值范圍[0,1];W和b分別為注意力模塊處理過(guò)程中的網(wǎng)絡(luò)權(quán)重和偏差值;fu為多攝像頭特征提取后的融合特征圖;?為卷積過(guò)程。

        3)多視角特征圖投影融合特征圖生成

        根據(jù)式(4)得到不同視角圖像的注意力密度特征圖,在此基礎(chǔ)上分別進(jìn)行特征圖投影變化,即

        在完成投影后進(jìn)行投影特征融合,得到最終的投影融合特征圖Rf為

        式中:R(·)為最終的投影特征圖融合函數(shù)。

        2.4 模型損失函數(shù)設(shè)計(jì)

        在關(guān)于人群密度估計(jì)模型的諸多研究中,最常見(jiàn)的是采用歐氏距離損失函數(shù)作為訓(xùn)練收斂目標(biāo)的網(wǎng)絡(luò)訓(xùn)練優(yōu)化過(guò)程。本文在這一傳統(tǒng)損失函數(shù)的基礎(chǔ)上作了進(jìn)一步優(yōu)化。

        首先,利用歐式距離進(jìn)行誤差反向傳播的損失函數(shù)設(shè)計(jì),即

        式中:Lden為歐式距離損失目標(biāo)函數(shù);Q為樣本圖像個(gè)數(shù);F(Xd;Θ)為第d個(gè)輸入圖像通過(guò)模型生成的密度估計(jì)特征圖;Xd為輸入的第d個(gè)樣本圖像矩陣;Θ為網(wǎng)絡(luò)中需要學(xué)習(xí)的參數(shù)集合;為對(duì)應(yīng)樣本圖像的標(biāo)注圖像的人群密度特征圖。

        其次,在Lden的基礎(chǔ)上考慮到在對(duì)特征圖進(jìn)行注意力機(jī)制處理時(shí),實(shí)際上進(jìn)行的是背景與人像的像素級(jí)語(yǔ)義分割過(guò)程,因此用Latt表示該步操作對(duì)真實(shí)的密度圖產(chǎn)生的誤差損失,這一損失過(guò)程可以通過(guò)二分類(lèi)的交叉熵進(jìn)行表示,即

        最終,損失目標(biāo)函數(shù)Lcon可由2個(gè)損失函數(shù)共同決定,其整體即為模型的誤差反向傳播損失函數(shù)

        在迭代次數(shù)有限的模型訓(xùn)練過(guò)程中,當(dāng)Lcon達(dá)到最小值時(shí),模型表現(xiàn)為局部最優(yōu)。

        3 實(shí)驗(yàn)與驗(yàn)證

        完成模型的算法框架設(shè)計(jì)后,需要進(jìn)一步對(duì)其效果進(jìn)行驗(yàn)證。先通過(guò)訓(xùn)練選定的公開(kāi)數(shù)據(jù)集和自建數(shù)據(jù)集,對(duì)比MVPFCC模型與當(dāng)前同類(lèi)先進(jìn)模型在均值絕對(duì)誤差上的性能差異,并驗(yàn)證模型中注意力機(jī)制模塊的應(yīng)用效果;再通過(guò)平均損失值這一指標(biāo),考察MVPFCC模型的收斂效果,驗(yàn)證梯度策略設(shè)置的合理性;最后依托實(shí)際的京張高鐵清河站應(yīng)用場(chǎng)景,驗(yàn)證模型對(duì)人群密度估計(jì)的有效性。

        3.1 數(shù)據(jù)集

        模型訓(xùn)練采用了2個(gè)不同數(shù)據(jù)集,其中1個(gè)是公開(kāi)發(fā)布的用于多視角融合密度估計(jì)的城市街道數(shù)據(jù)集[14](CityStreet);考慮到公開(kāi)的多視角數(shù)據(jù)集較少,同時(shí)也為驗(yàn)證模型對(duì)實(shí)際應(yīng)用場(chǎng)景的支持程度,還自行構(gòu)建了基于客站多攝像頭的清河站數(shù)據(jù)集(QingheStation)。2個(gè)數(shù)據(jù)集的視頻圖像數(shù)據(jù)均滿(mǎn)足多個(gè)視角交叉且能覆蓋監(jiān)控區(qū)域的場(chǎng)景要求,同時(shí)每個(gè)數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集都按照7∶1∶2的比例從各數(shù)據(jù)集全樣本中隨機(jī)抽取生成。

        1)城市街道數(shù)據(jù)集

        該數(shù)據(jù)集由香港城市大學(xué)計(jì)算機(jī)視覺(jué)團(tuán)隊(duì)研究多攝像頭行人密度時(shí)制作發(fā)布,數(shù)據(jù)來(lái)自位于香港市中心某十字街道附近的5個(gè)同步攝像頭,主要用于對(duì)過(guò)往的道路和行人狀態(tài)進(jìn)行監(jiān)控。

        數(shù)據(jù)采集時(shí)選取其中3個(gè)有視野交集的攝像頭,在同一時(shí)間點(diǎn)進(jìn)行圖像的同步采樣,得到各攝像頭下的視頻圖像500幀,分辨率為2 704像素×1 520像素,每幀圖像中的人群規(guī)模在20~50人左右。為便于后續(xù)實(shí)驗(yàn)開(kāi)展,對(duì)同一時(shí)刻下不同視角圖像中的相同目標(biāo)進(jìn)行旅客位置和序號(hào)標(biāo)注,以保證同一時(shí)刻出現(xiàn)在3個(gè)視頻中的同一旅客具有相同的序號(hào)。

        2)清河站數(shù)據(jù)集

        該數(shù)據(jù)集來(lái)自站房結(jié)構(gòu)寬敞高大、站內(nèi)布設(shè)上百個(gè)攝像頭的清河站,先選取視野有交集的9個(gè)攝像頭進(jìn)行同步采樣,再篩選出視野交集較多且各路視野恰好可合成1個(gè)更大感受野的3個(gè)攝像頭,以同步采集得到的數(shù)據(jù)作為樣本源。

        數(shù)據(jù)采集時(shí)同步截取各攝像頭在不同時(shí)間段的視頻圖像500幀,分辨率為1 080像素×1 920像素,每幀圖像中的人群規(guī)模在20~100人之間。各攝像頭下的圖像同樣進(jìn)行旅客位置和序號(hào)的唯一性標(biāo)注。

        3.2 訓(xùn)練細(xì)節(jié)

        考慮到內(nèi)存限制要求和數(shù)據(jù)集的圖像分辨率,先對(duì)原始圖像(1 080像素×1 920像素)進(jìn)行下采樣,將得到的圖像按照720像素×1 280像素大小作為輸入圖像。在特征提取過(guò)程中,采用以殘差網(wǎng)絡(luò)ResNet50為骨干的特征金字塔網(wǎng)絡(luò),得到特征提取的通道數(shù)λ=512;運(yùn)用空洞卷積代替步長(zhǎng)卷積,通過(guò)720像素×1 280像素大小的輸入圖像得到8倍下采樣率的特征圖。

        多視角投影融合過(guò)程中,在投影前對(duì)多視角注意力密度特征圖采用線性插值方法,將其特征圖大小調(diào)整為270像素×480像素大小。待完成特征圖投影融合后,采用卷積核大小為3×3的3個(gè)卷積層(空洞卷積率分別為1,2,3),分別對(duì)2個(gè)數(shù)據(jù)集生成基于3個(gè)攝像頭的多視角特征投影融合密度圖。模型的總體網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。圖中:J1—J5均為原始圖像經(jīng)過(guò)特征提取器卷積操作后得到不同的卷積層;S2—S5均為對(duì)應(yīng)的卷積層經(jīng)過(guò)上采樣得到的特征層;箭頭表示神經(jīng)網(wǎng)絡(luò)參數(shù)前向傳輸過(guò)程。

        圖6 多視角特征圖投影融合的人群密度估計(jì)(MVPFCC)模型網(wǎng)絡(luò)結(jié)構(gòu)

        模型訓(xùn)練時(shí),采用的實(shí)驗(yàn)硬件環(huán)境為1臺(tái)GPU服務(wù)器,配有4塊型號(hào)為GTX-1080TI的GPU加速卡,服務(wù)器系統(tǒng)環(huán)境為L(zhǎng)inux Ubuntu 18.04,深度學(xué)習(xí)模型框架版本為pytorch 1.4和CUDA 10.1,編譯器編譯運(yùn)行環(huán)境版本為python 3.7。

        考到訓(xùn)練時(shí)可能會(huì)在隨機(jī)梯度下降(Stochas?tic Gradient Descent,SGD)的優(yōu)化過(guò)程中出現(xiàn)對(duì)局部最優(yōu)的限制,模型采用Adam優(yōu)化器,根據(jù)一般神經(jīng)網(wǎng)絡(luò)訓(xùn)練中梯度下降經(jīng)驗(yàn),設(shè)動(dòng)量值為0.5,L2正則為5×10?4;考慮模型訓(xùn)練中樣本批處理數(shù)量會(huì)受內(nèi)存的限制,設(shè)最大學(xué)習(xí)率為0.1,單次迭代的樣本量為4,訓(xùn)練迭代循環(huán)共900次。

        模型訓(xùn)練完成后,采用均值絕對(duì)誤差Smae和均方差Smse對(duì)模型在測(cè)試數(shù)據(jù)集上進(jìn)行具體評(píng)估[22]。Smae通過(guò)對(duì)樣本的預(yù)測(cè)值與標(biāo)注值差異的平均值反應(yīng)預(yù)測(cè)結(jié)果的準(zhǔn)確性,Smse通過(guò)樣本預(yù)測(cè)值與標(biāo)注值的差異的波動(dòng)程度反應(yīng)模型的魯棒性,兩者的具體定義為

        式中:N為測(cè)試數(shù)據(jù)集中的樣本圖像數(shù)量,個(gè);MGTr為第r個(gè)樣本圖像經(jīng)過(guò)標(biāo)注數(shù)據(jù)計(jì)算而成的人群密度標(biāo)注值,人;Mr為第r個(gè)樣本經(jīng)過(guò)模型輸出的特征圖所計(jì)算生成的人群密度估計(jì)值,人。

        3.3 結(jié)果驗(yàn)證

        3.3.1 模型效果對(duì)比

        實(shí)驗(yàn)時(shí),為進(jìn)一步體現(xiàn)本文MVPFCC模型中注意力機(jī)制模塊的應(yīng)用效果,先將其分為2種版本進(jìn)行對(duì)比,分別是帶有注意力機(jī)制模塊的MVPF?CC(標(biāo)準(zhǔn))模型,以及去掉注意力機(jī)制模塊后的MVPFCC(no Attention)模型;再將2種MVPF?CC模型與香港城市大學(xué)在發(fā)布CityStreet數(shù)據(jù)集時(shí)提出的多視角融合密度估計(jì)模型[14](MVMS模型)進(jìn)行對(duì)比。以均值絕對(duì)誤差Smae和均方差Smse作為對(duì)比指標(biāo),3個(gè)模型經(jīng)過(guò)CityStreet和Qingh?eStation這2個(gè)數(shù)據(jù)集訓(xùn)練后的結(jié)果對(duì)比見(jiàn)表1。需要注意的是,因視角融合的數(shù)量維度差異,驗(yàn)證MVMS模型性能時(shí)僅在CityStreet數(shù)據(jù)集使用了Smae這1項(xiàng)指標(biāo)評(píng)估樣本預(yù)測(cè)值與標(biāo)注值的誤差結(jié)果。

        表1 3個(gè)模型經(jīng)過(guò)不同數(shù)據(jù)集訓(xùn)練后的指標(biāo)對(duì)比

        由表1可知:經(jīng)過(guò)CityStreet數(shù)據(jù)集訓(xùn)練后,3個(gè)模型在Smae指標(biāo)下的對(duì)比結(jié)果為MVPFCC(標(biāo)準(zhǔn))模型最優(yōu)、MVMS模型次之、MVPFCC(no At?tention)模型最后,2種MVPFCC模型在Smse指標(biāo)下的對(duì)比結(jié)果為MVPFCC(標(biāo)準(zhǔn))模型優(yōu)于MVPFCC(no Attention)模型;經(jīng)過(guò)QingheSta?tion數(shù)據(jù)集訓(xùn)練后,MVPFCC(標(biāo)準(zhǔn))模型總體優(yōu)于MVPFCC(no Attention)模型;對(duì)比結(jié)果表明在多視角融合的人群密度估計(jì)模型設(shè)計(jì)中,引入注意力機(jī)制是有效的。

        經(jīng)過(guò)QingheStation數(shù)據(jù)集訓(xùn)練后,2種MVPF?CC模型的Smae和Smse指標(biāo)隨迭代次數(shù)變化的曲線分別如圖7和圖8所示。由圖7和圖8可知:經(jīng)過(guò)900次迭代訓(xùn)練后,MVPFCC(標(biāo)準(zhǔn))模型在2種指標(biāo)下的曲線收斂情況均優(yōu)于MVPFCC(no At?tention)模型,進(jìn)一步佐證了注意力機(jī)制對(duì)模型的優(yōu)化作用。

        圖7 2種MVPFCC模型的訓(xùn)練結(jié)果均值絕對(duì)誤差Smae對(duì)比

        圖8 2種MVPFCC模型的訓(xùn)練結(jié)果均方差Smse對(duì)比

        模型在訓(xùn)練過(guò)程中,通常還會(huì)用到平均損失值這一指標(biāo)來(lái)反映模型的整體收斂情況。MVPFCC(標(biāo)準(zhǔn))模型平均損失值隨迭代次數(shù)變化的曲線如圖9所示。由圖9可知:經(jīng)過(guò)QingheStation數(shù)據(jù)集訓(xùn)練后,MVPFCC(標(biāo)準(zhǔn))模型平均損失值隨迭代次數(shù)的增加整體呈收斂趨勢(shì);迭代最初,平均損失值梯度迅速下降,迭代200次左右梯度下降逐步穩(wěn)定,趨于平緩,說(shuō)明損失函數(shù)、學(xué)習(xí)率、動(dòng)量參數(shù)等梯度策略設(shè)置合理,模型收斂效果較好。

        圖9 MVPFCC(標(biāo)準(zhǔn))模型經(jīng)過(guò)QingheStation數(shù)據(jù)集訓(xùn)練后的平均損失曲線

        3.3.2 實(shí)際應(yīng)用場(chǎng)景下的模型有效性驗(yàn)證

        MVPFCC(標(biāo)準(zhǔn))模型經(jīng)過(guò)QingheStation數(shù)據(jù)集訓(xùn)練后會(huì)生成新的網(wǎng)絡(luò)模型權(quán)重,在此基礎(chǔ)上,通過(guò)測(cè)試數(shù)據(jù)集樣本圖像進(jìn)行密度估計(jì)可以驗(yàn)證模型在實(shí)際應(yīng)用場(chǎng)景下的性能效果,驗(yàn)證過(guò)程中該模型基于3個(gè)不同視角視頻圖像準(zhǔn)確估計(jì)人群密度。具體估計(jì)過(guò)程如圖10所示。圖中:B1?B3為各輸入樣本標(biāo)注值,由DGT通過(guò)積分計(jì)算得到;E1?E3分別為單個(gè)注意力密度圖的估計(jì)值,由Matt通過(guò)積分計(jì)算得到;T為多視角特征圖融合后得到的區(qū)域內(nèi)人群密度估計(jì)值,由Rf通過(guò)積分計(jì)算得到。由圖10可知:輸入3個(gè)不同視角下的視頻樣本圖像后,經(jīng)過(guò)樣本標(biāo)注數(shù)據(jù)的可視化處理,可得到對(duì)應(yīng)的樣本標(biāo)注密度圖,樣本再經(jīng)過(guò)多尺度特征提取以及注意力機(jī)制處理后,形成對(duì)應(yīng)的注意力密度特征圖,3個(gè)注意力密度特征圖經(jīng)過(guò)投影融合,最終生成多視角投影融合密度圖;對(duì)單視角樣本特征經(jīng)過(guò)注意力機(jī)制處理后,得到的注意力密度估計(jì)值與對(duì)應(yīng)樣本的標(biāo)注值基本接近。多視角特征圖投影融合密度圖估計(jì)值準(zhǔn)確地反映了3個(gè)不同視角下的視頻樣本圖像標(biāo)注值總和,驗(yàn)證了多視角特征圖投影融合密度估計(jì)模型的有效性。

        圖10 MVPFCC(標(biāo)準(zhǔn))模型對(duì)多視角融合的旅客人群密度估計(jì)過(guò)程

        4 結(jié)語(yǔ)

        本文根據(jù)歸納得到的實(shí)踐中鐵路客站內(nèi)旅客人群視頻圖像特點(diǎn),基于特征金字塔網(wǎng)絡(luò)預(yù)訓(xùn)練模型,結(jié)合計(jì)算機(jī)視覺(jué)領(lǐng)域中的注意力機(jī)制、圖像特征投影和圖像特征融合思想,提出了1種多視角特征圖投影融合的人群密度估計(jì)模型,可用于鐵路客站內(nèi)旅客的目標(biāo)識(shí)別。該模型能夠?qū)φ緝?nèi)多路有視覺(jué)交叉的旅客視頻監(jiān)控圖像進(jìn)行多尺度特征提取和特征投影融合處理,將多視角下的旅客特征圖融合成1個(gè)整體特征圖并進(jìn)行密度估計(jì),實(shí)現(xiàn)站內(nèi)更大視野范圍內(nèi)的人群密度感知。通過(guò)某公開(kāi)數(shù)據(jù)集和基于清河站的自建數(shù)據(jù)集訓(xùn)練模型,證實(shí)模型引入的注意力機(jī)制模塊是有效的,模型梯度策略設(shè)置合理,收斂效果較好,能夠在清河站實(shí)際應(yīng)用場(chǎng)景下,基于3個(gè)不同視角視頻圖像準(zhǔn)確估計(jì)人群密度。然而,模型在多視角投影融合過(guò)程中,只考慮了采用大尺度卷積核減少融合誤差,沒(méi)有對(duì)具體的誤差損失進(jìn)行定量分析,下一步,考慮以投影融合誤差估計(jì)為改進(jìn)方向,重新設(shè)計(jì)優(yōu)化損失函數(shù),在誤差損失的反向傳播過(guò)程中,增加投影融合過(guò)程中旅客人群圖像特征信息損失計(jì)算方法,從而在大量的學(xué)習(xí)訓(xùn)練過(guò)程中,以不斷降低整體損失為目標(biāo),縮小模型預(yù)測(cè)值與真實(shí)值之間的差距,從而實(shí)現(xiàn)模型預(yù)測(cè)準(zhǔn)確性的提升。此外,可以對(duì)自建數(shù)據(jù)集樣本進(jìn)一步豐富,擴(kuò)大樣本容量和標(biāo)注數(shù)據(jù),在此基礎(chǔ)上不斷學(xué)習(xí)有助于模型泛化能力的提升。

        本文模型不僅適用于鐵路客站,還可用于其他視頻監(jiān)控有視覺(jué)交叉的超大視野場(chǎng)景下的人群密度估計(jì),如機(jī)場(chǎng)候機(jī)大廳、地鐵站臺(tái)等大型公共場(chǎng)所。

        猜你喜歡
        特征融合模型
        一半模型
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        重要模型『一線三等角』
        《融合》
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        精品人妻中文av一区二区三区| 国产农村熟妇videos| 中文字幕熟女激情50路| 国产区一区二区三区性色| 一区二区三区日韩精品视频| 美女被男人插得高潮的网站| 亚洲国产精品无码一线岛国| 久久不见久久见免费视频6| 日本一二三区视频在线| 曰韩亚洲av人人夜夜澡人人爽| 亚洲日韩av无码中文字幕美国| 亚洲国产av导航第一福利网| 欧美成人精品第一区二区三区| 午夜福利电影| 天天综合久久| 亚洲中文久久久久无码| 亚洲愉拍自拍视频一区| 精品在线亚洲一区二区三区| 国产精品一区二区夜色不卡| 日本国产亚洲一区二区| а√天堂8资源中文在线| 色噜噜av亚洲色一区二区| 天躁夜夜躁狼狠躁| 91精品视品在线播放| 日韩精品视频在线观看免费| 91在线视频视频在线| 日本少妇又色又紧又爽又刺激| 老熟女富婆激情刺激对白| 国产精品天干天干综合网| 国产精品成人久久电影| 欧洲-级毛片内射| 久久免费精品国产72精品剧情| 亚洲粉嫩av一区二区黑人| 美女狂喷白浆网站视频在线观看| 亚洲综合在线观看一区二区三区 | 成人精品国产亚洲欧洲| 中文字幕一区二区三区在线看一区| 亚洲成人精品在线一区二区| 国产大屁股喷水视频在线观看| 忘忧草社区www日本高清| 久久综合给合久久狠狠狠97色69 |