韓 萍,劉占鋒,賈云飛,牛勇鋼
(中國民航大學(xué)電子信息與自動化學(xué)院,天津 300300)
中國民用航空局公布數(shù)據(jù)顯示,2009—2019年近10年內(nèi)中國民航運(yùn)輸機(jī)場旅客吞吐量增長到2.78倍,達(dá)到了13.5 億人次[1]。機(jī)場旅客吞吐量逐年增加,航站樓旅客大密度聚集現(xiàn)象頻現(xiàn),若遭遇一些特殊情況,如航班大面積延誤,容易發(fā)生擁擠踩踏等突發(fā)事件。如果能對高密度人群提前預(yù)警,采取預(yù)防措施并安放必要的警示標(biāo)志,可減少類似事件的發(fā)生。但在復(fù)雜的人群環(huán)境下,存在人群圖像分辨率低、遮擋嚴(yán)重和多尺度等問題,給人群計(jì)數(shù)帶來了巨大挑戰(zhàn)。
傳統(tǒng)的人群計(jì)數(shù)法主要包括檢測和回歸兩類。檢測法主要是檢測人的特殊部位,如頭、肩等[2-4],此類方法可檢測出人體的位置信息,稀疏場景下,該類方法準(zhǔn)確率較高,但不適合高密度人群。回歸法則是建立人群特征和人群人數(shù)的映射關(guān)系,基本思想是提取圖像的一些特征信息,如紋理信息、關(guān)鍵點(diǎn)特征[5]、人群像素點(diǎn)區(qū)域[6]、人群密度直方圖[7]等,然后通過回歸模型,建立人群特征和人群人數(shù)的映射關(guān)系,該類方法對特定環(huán)境有效,如拍攝角度固定、背景環(huán)境相同或人群稀疏,但對于復(fù)雜的人群環(huán)境并不適用。最近許多學(xué)者將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用到人群計(jì)數(shù)中[8-10],將人群圖像映射成人群密度圖的形式進(jìn)行人群計(jì)數(shù)。常用的人工神經(jīng)網(wǎng)絡(luò)算法較以往算法在人數(shù)估計(jì)準(zhǔn)確率上有所提高,但仍存在特征提取困難和特征融合不完全等問題。
針對以上方法的不足,提出多級特征融合的對抗神經(jīng)網(wǎng)絡(luò)人群計(jì)數(shù)方法,其特點(diǎn)是利用對抗損失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,且給出了多級特征融合的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行多尺度人群特征提取和融合。最后,通過實(shí)際數(shù)據(jù)進(jìn)行驗(yàn)證,證明了該方法的有效性。
人群密度圖[11]是表示人所在位置和大小的圖像,也是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的人群圖像標(biāo)簽。在人群數(shù)據(jù)集中標(biāo)注的是人頭的坐標(biāo)位置,前期處理時需要把坐標(biāo)位置轉(zhuǎn)換成人群密度圖。通常使用一個高斯分布的人頭大小矩陣代替人頭位置,表示原始圖像的人頭,該區(qū)域數(shù)值和為1。
若(mi,ni)表示第i 個人頭的坐標(biāo)位置,則用脈沖函數(shù)δ(m-mi,n-ni)表示人頭的位置信息,δ(m-mi,n-ni)與高斯核函數(shù)Gσi(m,n)相乘表示一個人的位置和大小信息。擁有M 個人的人群密度圖可表示為
式中:σi表示高斯核的大小,采用自適應(yīng)方法確定。首先,計(jì)算第i 個人與周圍最近r 個人的距離{d1,d2,…,dr},然后求取平均距離,最后與超參數(shù)k 相乘來表示σi的大小,即
通過大量實(shí)驗(yàn)表明,當(dāng)r=8,k=0.3 時人群密度圖最接近真實(shí)的人群分布。圖1(a)為人群密度圖對應(yīng)的人群圖像,圖1(b)為采用該方法生成的人群密度圖。
圖1 人群圖像及其密度圖Fig.1 Crowd image and and its density map
對抗神經(jīng)網(wǎng)絡(luò)自2014年被Goodfellow 等[12]提出后,在計(jì)算機(jī)視覺、人機(jī)交互、自然語言處理等領(lǐng)域都有廣泛應(yīng)用。對抗神經(jīng)網(wǎng)絡(luò)屬于一種生成網(wǎng)絡(luò)模型,其思想來源于博弈論中的零和博弈問題,網(wǎng)絡(luò)包含生成器網(wǎng)絡(luò)G 和判別器網(wǎng)絡(luò)D 兩部分,如圖2所示。
圖2 對抗神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Adversarial neural network structure
生成器網(wǎng)絡(luò)G 根據(jù)輸入的數(shù)據(jù)生成固定分布的文字、語音、圖像、視頻等數(shù)據(jù),且根據(jù)判別器網(wǎng)絡(luò)對生成器網(wǎng)絡(luò)的輸出評價更新參數(shù)。判別器網(wǎng)絡(luò)相當(dāng)于一個二分類器,把真實(shí)數(shù)據(jù)標(biāo)簽和生成器網(wǎng)絡(luò)生成的數(shù)據(jù)分別輸入到判別器網(wǎng)絡(luò),判別器網(wǎng)絡(luò)根據(jù)輸入的信息輸出一個[0,1]之間的實(shí)數(shù),表示數(shù)據(jù)來自真實(shí)數(shù)據(jù)的概率。生成器網(wǎng)絡(luò)盡力提高生成數(shù)據(jù)經(jīng)過判別器網(wǎng)絡(luò)的概率,判別器網(wǎng)絡(luò)則相反。
生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)的共同損失函數(shù)為
式中:x 為對抗神經(jīng)網(wǎng)絡(luò)需要生成的真實(shí)數(shù)據(jù)標(biāo)簽,服從Pg分布;z 為服從Pr分布的隨機(jī)數(shù)據(jù);D(x)表示數(shù)據(jù)標(biāo)簽x 通過判別器網(wǎng)絡(luò)輸出的概率;D(G(z))表示利用z 通過生成器網(wǎng)絡(luò)后生成的數(shù)據(jù)通過判別器網(wǎng)絡(luò)后輸出的概率;E[]表示分布函數(shù)的數(shù)學(xué)期望。
根據(jù)V1(D,G)優(yōu)化時,通常是將生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)交替進(jìn)行迭代,即在一段時間內(nèi)固定生成器網(wǎng)絡(luò)的參數(shù)去優(yōu)化判別器網(wǎng)絡(luò)的參數(shù),另一段時間固定判別器網(wǎng)絡(luò)的參數(shù)去優(yōu)化生成器網(wǎng)絡(luò)的參數(shù)。但由于傳統(tǒng)的對抗神經(jīng)網(wǎng)絡(luò)訓(xùn)練時不穩(wěn)定,文獻(xiàn)[13]提出了條件對抗損失函數(shù),引入生成數(shù)據(jù)的樣本y 作為生成器網(wǎng)絡(luò)G 和判別器網(wǎng)絡(luò)D 的約束條件,y 服從Pd分布,條件對抗損失函數(shù)為V2(D,G),即
式中:D(x,y)表示利用數(shù)據(jù)x 和樣本y 一同輸入判別器網(wǎng)絡(luò)后輸出的概率;D(G(y),y)表示樣本y 通過生成器網(wǎng)絡(luò)生成的數(shù)據(jù)和樣本y 一同輸入到判別器網(wǎng)絡(luò)后輸出的概率。文中所使用的x 為人群密度圖,而y 為人群密度圖相對應(yīng)的人群圖像。
由于圖像成像過程中存在透視變化,人群在圖像中呈現(xiàn)近大遠(yuǎn)小的特點(diǎn)。對于該問題通常用多列卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)解決[14-15],如三列神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。人群圖像輸入到網(wǎng)絡(luò)后會分別送到三列網(wǎng)絡(luò)中進(jìn)行運(yùn)算,每列網(wǎng)絡(luò)都具有不同大小的卷積核,大的卷積核感受野大,可提取大目標(biāo)人群,而小的卷積核可提取小目標(biāo)人群,最后將不同網(wǎng)絡(luò)提取的人群特征進(jìn)行融合,融合后的結(jié)果相比單列神經(jīng)網(wǎng)絡(luò)效果有所提升,但每列網(wǎng)絡(luò)僅對特定尺度人群敏感,而融合后的結(jié)果相對于人群敏感的那列人群估計(jì)效果會有所降低[16]。多列神經(jīng)網(wǎng)絡(luò)雖然相比單列網(wǎng)絡(luò)有所提升,但并不是最佳選擇。
為了解決人群的多尺度問題,參考了多列卷積神經(jīng)網(wǎng)絡(luò)不同大小卷積核提取不同尺度目標(biāo)的思想,但與多列卷積神經(jīng)網(wǎng)絡(luò)不同的是在一層卷積神經(jīng)網(wǎng)絡(luò)上完成。借鑒GoogLeNet 的Inception 結(jié)構(gòu)思想,對于網(wǎng)絡(luò)前一層輸出的數(shù)據(jù),通過一個并行排列大小不同的卷積核同時進(jìn)行卷積,然后將卷積結(jié)果輸入到下一層中,同時還添加了一個最大池化層對前層數(shù)據(jù)進(jìn)行篩選,如圖3所示。
圖3 人群特征提取結(jié)構(gòu)Fig.3 Crowd feature extraction structure
基于這種結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)可在卷積過程中對人群特征進(jìn)行多尺度提取和融合,增加了網(wǎng)絡(luò)表達(dá)能力。
在卷積神經(jīng)網(wǎng)絡(luò)中每層網(wǎng)絡(luò)都是對上一層特征的提取或處理。隨著神經(jīng)網(wǎng)絡(luò)的加深,提取的特征越加抽象,也會隨著網(wǎng)絡(luò)的加深丟失一些淺層信息。在人群計(jì)數(shù)中,淺層網(wǎng)絡(luò)主要包括圖像的淺層特征,其中包括直線、邊緣、位置等信息,而深層網(wǎng)絡(luò)提取的特征更多是一些潛在的語義特征,通過使用殘差連接結(jié)構(gòu)將不同層次人群特征融合,如圖4所示。
圖4 殘差連接結(jié)構(gòu)Fig.4 Residual connection structure
殘差連接是一種層級間連接的結(jié)構(gòu),使下一層的輸入包含前一層信息和淺層信息,通過疊加不同層之間的輸出,達(dá)到各層之間信息的融合。殘差連接結(jié)構(gòu)可利用g(e)+ e 來表示,其中:e 表示淺層網(wǎng)絡(luò)的信息,g(e)表示淺層信息e 經(jīng)過一個或多個卷積層后的輸出結(jié)果。殘差連接將不同深淺的人群特征融合后輸入到下一層,提高網(wǎng)絡(luò)對于人群特征的提取能力。
圖5為所提出的多尺度特征融合的對抗神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中包含生成器和判別器兩個子網(wǎng)絡(luò)。生成器網(wǎng)絡(luò)為多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu),可將輸入的人群圖像映射成一張人群的密度圖,判別器網(wǎng)絡(luò)判別生成的密度圖為真實(shí)密度圖的概率。測試時,利用生成器網(wǎng)絡(luò)生成的密度圖求和,與真實(shí)人數(shù)對比來計(jì)算人群計(jì)數(shù)的準(zhǔn)確率和魯棒性。
圖5 網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.5 Overall network structure
生成器網(wǎng)絡(luò)結(jié)構(gòu)圖如圖6所示,該網(wǎng)絡(luò)具有7個特征提取層和7 個反卷積層,輸入為人群圖像,輸出為生成的人群密度圖。特征提取層采用人群特征提取結(jié)構(gòu)對輸入的圖像進(jìn)行卷積,每次卷積后生成輸入特征圖1/4 大小的64 維的特征圖。除去反卷積層1 和2外,其余特征提取層的輸出與對應(yīng)卷積層的輸出通過殘差連接輸出到對應(yīng)的反卷積層網(wǎng)絡(luò),反卷積層將輸入特征圖大小擴(kuò)大4 倍,反卷積層1 輸出維度為1 維。所有特征提取層和反卷積層后面都有批量歸一化(BN,batch normalization)層和ReLU 函數(shù),最后通過Sigmoid 函數(shù)映射成人群密度,生成人群密度圖。
圖6 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Generator network structure
生成器網(wǎng)絡(luò)首先通過人群特征提取結(jié)構(gòu)對人群圖像進(jìn)行多尺度人群特征的提取和融合,隨著網(wǎng)絡(luò)深度增加人群特征越加抽象,然后利用反卷積層將高度壓縮的人群特征進(jìn)行放大,且通過層級間人群特征融合結(jié)構(gòu)和對應(yīng)特征提取層的淺層人群特征融合,最終實(shí)現(xiàn)不同尺度、不同層次的人群特征融合,使人群密度圖包含更多的人群特征信息。此外,生成器網(wǎng)絡(luò)每個特征提取層和反卷積層后面都有BN 層。由于人群數(shù)據(jù)復(fù)雜多變,且人群分布不規(guī)律,神經(jīng)網(wǎng)絡(luò)需要不斷調(diào)整參數(shù)去適應(yīng)規(guī)律,導(dǎo)致收斂過慢。使用BN 層對數(shù)據(jù)進(jìn)行歸一化處理,每次傳入的數(shù)據(jù)分布規(guī)律一致,從而可設(shè)置更高的學(xué)習(xí)率,提高模型的收斂速度。
判別器網(wǎng)絡(luò)的輸入是真實(shí)的人群密度圖和相對應(yīng)的人群圖像,輸出是人群密度圖為真實(shí)密度圖的概率,主要是對生成器網(wǎng)絡(luò)輸出的人群密度圖是否為真實(shí)密度圖進(jìn)行判斷。判別器的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示,判別器網(wǎng)絡(luò)共有5 個卷積層和1 個全連接層,與生成網(wǎng)絡(luò)相同,在每個卷積層后都有BN 層和ReLU 函數(shù),卷積層采用下采樣方式,最終生成一個原圖1/16×1/16大小的特征圖,然后通過全連接層和Sigmoid 函數(shù),輸出一個[0,1]之間的實(shí)數(shù),表示人群密度圖是真實(shí)密度圖的概率。
圖7 判別器網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Discriminator network structure
判別器網(wǎng)絡(luò)和生成器網(wǎng)絡(luò)根據(jù)輸出概率作為網(wǎng)絡(luò)更新參數(shù)的依據(jù)。利用條件對抗損失函數(shù)(式4)可使不同尺度的人群特征更加有效融合,但在訓(xùn)練過程中容易出現(xiàn)生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)訓(xùn)練速率不一致的情況,造成網(wǎng)絡(luò)訓(xùn)練結(jié)果較差。文獻(xiàn)[17]使用對抗損失函數(shù)和傳統(tǒng)歐氏距離損失函數(shù)相結(jié)合的方式更易達(dá)到網(wǎng)絡(luò)訓(xùn)練的目標(biāo),使生成器網(wǎng)絡(luò)生成的密度圖不僅要欺騙判別器網(wǎng)絡(luò),且要在歐氏距離上接近真實(shí)的人群密度圖。歐氏距離損失函數(shù)表示為
式中:xi,j表示真實(shí)密度圖的像素值;G(y)i,j表示生成器網(wǎng)絡(luò)生成的密度圖的像素值。最終損失函數(shù)表示為
式中,λ 為超參數(shù)[18],設(shè)置為150。
在兩個典型的數(shù)據(jù)集上進(jìn)行驗(yàn)證,下面是數(shù)據(jù)集的具體介紹。
1)ShanghaiTech 數(shù)據(jù)集分為Part A 和Part B 兩部分,由1 198 個帶標(biāo)注的圖像組成。其中:Part A 是互聯(lián)網(wǎng)上下載的高密度人群圖像,分為測試集182 張和訓(xùn)練集300 張;Part B 是來自上海街道上較稀疏的圖像,分為測試集400 張和訓(xùn)練集316 張。本數(shù)據(jù)集包含不同場景類型和不同人群密度的人群樣本。
2)UCF_CC_50 數(shù)據(jù)集由互聯(lián)網(wǎng)上搜集的50 張人群圖像組成,人數(shù)在94 ~4 543 不等,人數(shù)數(shù)量和場景變化很大,平均人數(shù)達(dá)到了1 279 人。
表1為所選用的公共人群數(shù)據(jù)集上的具體參數(shù),其中:ShanghaiTech 數(shù)據(jù)集標(biāo)記人數(shù)最多;UCF_CC_50數(shù)據(jù)集的人數(shù)變化范圍最大,平均人數(shù)最多。
表1 人群數(shù)據(jù)集具體參數(shù)Tab.1 Specific parameters of crowd dataset
1)根據(jù)數(shù)據(jù)集標(biāo)注的人頭坐標(biāo)信息,通過1.1 節(jié)的方法生成人群密度圖;
2)在訓(xùn)練集中順序抽取樣本,網(wǎng)絡(luò)讀取時對樣本進(jìn)行隨機(jī)處理,以增加樣本數(shù)量,其中包括人群圖像旋轉(zhuǎn)、鏡像,最后把處理后的樣本輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練;
3)固定判別器網(wǎng)絡(luò)的所有參數(shù)訓(xùn)練生成器網(wǎng)絡(luò),固定生成器網(wǎng)絡(luò)的所有參數(shù)訓(xùn)練判別器網(wǎng)絡(luò),交替訓(xùn)練兩個網(wǎng)絡(luò),直到兩個網(wǎng)絡(luò)達(dá)到納什均衡;
4)由于人群圖像背景復(fù)雜,存在個別人群圖像人數(shù)估計(jì)誤差較大,在下次訓(xùn)練過程中增加1 倍訓(xùn)練頻次,以增加網(wǎng)絡(luò)對于復(fù)雜環(huán)境人群的適應(yīng)能力。
使用平均絕對誤差(MAE,mean absolute error)和均方誤差(MSE,mean squared error)對生成的人群密度圖進(jìn)行評價,即
式中:N 為測試集數(shù)量;X′(i)為模型對第i 張人群圖像人數(shù)的預(yù)測結(jié)果;X(i)為第i 張人群圖像的真實(shí)人數(shù);eMAE和eMSE分別表示人群人數(shù)計(jì)數(shù)的準(zhǔn)確性和魯棒性。
為了驗(yàn)證多尺度特征融合的對抗神經(jīng)網(wǎng)絡(luò)在人群計(jì)數(shù)上的有效性,與僅使用歐氏距離作為損失函數(shù)和利用三列卷積神經(jīng)網(wǎng)絡(luò)作為生成器網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn)。
實(shí)驗(yàn)1生成器網(wǎng)絡(luò)僅使用歐氏距離作為損失函數(shù);
實(shí)驗(yàn)2利用三列卷積神經(jīng)網(wǎng)絡(luò)作為生成網(wǎng)絡(luò),其中,卷積核大小分別為3×3、5×5、7×7;
實(shí)驗(yàn)3使用多尺度特征融合的對抗神經(jīng)網(wǎng)絡(luò)。
將3 個網(wǎng)絡(luò)分別在ShanghaiTech 數(shù)據(jù)集的Part A和Part B 上進(jìn)行測試,結(jié)果如表2所示。
表2 試驗(yàn)結(jié)果Tab.2 Test result
相比三列卷積神經(jīng)網(wǎng)絡(luò),多尺度特征融合網(wǎng)絡(luò)不僅可利用人群特征提取結(jié)構(gòu)提取多尺度人群特征,且通過層級間人群特征融合結(jié)構(gòu)將不同層次的特征進(jìn)行融合。因此,實(shí)驗(yàn)3 與實(shí)驗(yàn)2 相比,在Part A 和Part B 上準(zhǔn)確性和魯棒性都有大幅度提升。通過實(shí)驗(yàn)1 和實(shí)驗(yàn)3 對比可發(fā)現(xiàn),使用最終的對抗損失函數(shù)可使生成網(wǎng)絡(luò)模型調(diào)整到更優(yōu)。
為進(jìn)一步的驗(yàn)證本網(wǎng)絡(luò)的有效性,引入了圖像結(jié)構(gòu)相似性(SSIM,structural similarity index)來衡量生成密度圖質(zhì)量的好壞。SSIM 是從亮度、對比度和結(jié)構(gòu)3 個不同因素組合來定義密度圖像結(jié)構(gòu)相似度,結(jié)構(gòu)相似性的范圍在[0,1]之間,兩張圖越相似,值越接近1。兩張圖像的亮度、對比度和結(jié)構(gòu)3 個要素分別表示如下
式中:U(t1)、U(t2)分別表示圖像t1和t2的均值;S(t1)、S(t2)分別表示圖像t1和t2的標(biāo)準(zhǔn)差;W(t1,t2)則表示圖像t1和圖像t2的協(xié)方差;c1、c2、c3為防止分母為0 的固定值[19],通常分別取6.5、58.5和29.3。圖像結(jié)構(gòu)相似性可表示為
在ShanghaiTech 數(shù)據(jù)集上每幅圖像生成的密度圖與對應(yīng)的標(biāo)準(zhǔn)密度圖計(jì)算的rSSIM均值,結(jié)果如表3所示。
表3 rSSIM 均值對比表Tab.3 Comparison of rSSIM mean value
從表3看出,實(shí)驗(yàn)3 在結(jié)構(gòu)相似性上優(yōu)于其他兩個實(shí)驗(yàn),在生成的密度圖上更加接近于真實(shí)密度圖,更加能反映出人群的分布情況。說明了該方法相比實(shí)驗(yàn)1 和實(shí)驗(yàn)2 更能學(xué)習(xí)到人群的真實(shí)分布信息,3 個實(shí)驗(yàn)在ShanghaiTech 數(shù)據(jù)集上訓(xùn)練得出的人群密度圖,如圖8所示。
圖8 實(shí)驗(yàn)結(jié)果Fig.8 Experimental result
為了驗(yàn)證方法的有效性,選取相關(guān)文獻(xiàn)所用的方法進(jìn)行對比,包括:層級間特融合法FPN[8],WACV[9];人群圖像分塊或放縮后輸入到網(wǎng)絡(luò)訓(xùn)練,與完整圖像訓(xùn)練結(jié)果進(jìn)行特征融合的方法ACSCP[10],MMT[15];多列神經(jīng)網(wǎng)絡(luò)改進(jìn)方法MMCNN[14],SCNN[16]。從表4可看出:改進(jìn)方法在ShanghaiTech 數(shù)據(jù)集和UCF_CC_50數(shù)據(jù)集上比以上算法的eMAE低;在eMSE上,除了比ACSCP 方法在ShanghaiTech 數(shù)據(jù)集Part A 部分高2.8外,比其他算法都低。結(jié)果表明,利用多尺度特征提取結(jié)構(gòu)和層級間特征融合結(jié)構(gòu)能夠高效地提取人群特征,且通過對抗方式進(jìn)行訓(xùn)練可使人群密度圖不僅在歐氏距離上與真實(shí)密度圖接近,且在對抗損失上與真實(shí)密度圖接近,使生成器生成的人群密度圖更加準(zhǔn)確地反映人群人數(shù)。在UCF_CC_50 數(shù)據(jù)集的優(yōu)異表現(xiàn),可看出改進(jìn)方法對于高密度人群估計(jì)仍然有效。
表4 不同方法在數(shù)據(jù)集上的結(jié)果對比Tab.4 Result comparison on data sets with different methods
基于多尺度特征融合的對抗網(wǎng)絡(luò)人群計(jì)數(shù)算法,首先,通過人群特征提取結(jié)構(gòu)提取不同尺度的淺層次人群特征;其次,低層次人群特征和高層次人群特征通過層級間人群融合結(jié)構(gòu)進(jìn)行融合;最后,利用對抗損失和歐式距離的組合作為損失函數(shù)訓(xùn)練模型。通過實(shí)驗(yàn)驗(yàn)證,該方法在人數(shù)估計(jì)方面準(zhǔn)確率和魯棒性均有較大提高。該方法雖相比前面的方法有所改善或提升,但也存在著模型訓(xùn)練過程復(fù)雜、需要不斷實(shí)驗(yàn)等問題。此外,網(wǎng)絡(luò)層數(shù)的設(shè)計(jì)上,較難估計(jì)是否達(dá)到最優(yōu)。對此,后續(xù)研究中需不斷優(yōu)化網(wǎng)絡(luò),去除冗余部分,提高模型的訓(xùn)練效率,以通過最少的訓(xùn)練次數(shù)得到最優(yōu)的結(jié)果。