陳薪羽,劉明哲*,任 俊,湯 影
(1.地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護國家重點實驗室(成都理工大學(xué)),成都 610059;2.四川輕化工大學(xué)人工智能學(xué)院(自動化與信息工程學(xué)院),四川自貢 644000;3.成都理工大學(xué)計算機與網(wǎng)絡(luò)安全學(xué)院(牛津布魯克斯學(xué)院),成都 610059)
人群計數(shù)技術(shù)旨在自動估計圖像中出現(xiàn)的人數(shù)[1]。隨著城市的發(fā)展和人口的增加,人群活動逐漸增多。近年來,為了實現(xiàn)人流控制和保障公共安全,從靜態(tài)圖像或視頻中更加準確地估計或預(yù)測人群數(shù)量已經(jīng)變得越來越重要,相關(guān)部門為了加強公共安全,也實施了相應(yīng)政策,表示將開展視頻監(jiān)控的全面聯(lián)網(wǎng),提升公共安全保障能力[2]。人群計數(shù)算法也有可能應(yīng)用于其他領(lǐng)域,如物體計數(shù)、細胞計數(shù)、高分辨率圖像細菌計數(shù)或交通堵塞預(yù)測等。
人群計數(shù)研究中會受到實際環(huán)境、光照、氣候、拍攝角度、背景干擾等的影響。現(xiàn)有的人群計數(shù)算法通常采用從每個像素中提取圖像特征的思想,通過神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練來學(xué)習(xí)像素特征與密度分布圖之間的映射關(guān)系,最后用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型生成目標(biāo)密度圖[3]?;谏疃葘W(xué)習(xí)的密度估計算法主要分為基本網(wǎng)絡(luò)模型、規(guī)模自適應(yīng)模型、上下文感知模型和多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)模型。
為了提取圖像尺度不變特征,研究了多列卷積組成的卷積神經(jīng)網(wǎng)絡(luò)模型。Zhang 等[4]提出了一種多列卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(Multi-column Convolutional Neural Network,MCNN),它能應(yīng)用在具有任意人群密度和透視變化的圖像上,該算法通過構(gòu)造多列的網(wǎng)絡(luò)對圖像不同尺度特征進行提取,適應(yīng)較大的尺度變化。另外,他們從高密度圖中發(fā)現(xiàn),人頭部大小與相鄰兩個人的中心之間的距離有關(guān),并拓寬訓(xùn)練數(shù)據(jù),建立了一個新的上??萍紨?shù)據(jù)集(ShanghaiTech Dataset)。此外Cheng 等[5]提出了一個多列多任務(wù)學(xué)習(xí)(Multi-column Multitask Learning,McML)算法,采用兩列結(jié)構(gòu)和多任務(wù)學(xué)習(xí)方式學(xué)到更多網(wǎng)絡(luò)參數(shù)信息。Boominathan 等[6]提出了一個雙列卷積神經(jīng)網(wǎng)絡(luò)模型,通過融合底層特征來估計人數(shù)。
Ranjan 等[7]使用了一種新的訓(xùn)練算法,通過增加不同分辨率的圖像來提升模型整體性能;文獻[8-9]中設(shè)計了尺度不變的卷積層或者池化層,提及的BSA-CNN(Body Structure Aware Convolutional Neural Network)具有相同大小卷積核,使得提取的特征具有尺度不變性;Sam 等[10]深入研究了尺度自適應(yīng)網(wǎng)絡(luò)用于更精準地估計人群數(shù)目。雖然這些算法都在一定程度上改善了圖像尺度變換大的問題,但忽略了從原始圖像中學(xué)習(xí)特征的每一列卷積神經(jīng)網(wǎng)絡(luò)之間的關(guān)系,導(dǎo)致網(wǎng)絡(luò)參數(shù)大量冗余甚至模型過擬合,影響檢測計數(shù)準確性及效率。
為此,本文提出了一種基于多列卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)異步更新算法A-MCNN(Asynchronous MCNN)。該算法與MCNN 相比,最大不同在于每兩列間加入了交互信息(Mutual information)列學(xué)習(xí)每列特征圖的關(guān)聯(lián)性,并且每列的權(quán)重參數(shù)采用交替更新的方式,通過交替更新各列卷積神經(jīng)網(wǎng)絡(luò)參數(shù),減輕網(wǎng)絡(luò)學(xué)習(xí)壓力,同時用交互信息學(xué)習(xí)各列卷積神經(jīng)網(wǎng)絡(luò)之間的內(nèi)在關(guān)系,使得每一列都可以從輸入圖像中提取更多的判別特征,減少整個模型的冗余參數(shù),防止過度擬合,更加適應(yīng)檢測圖像目標(biāo)大尺度變換。
人群計數(shù)的最新研究將人群計數(shù)問題視為密度回歸任務(wù)[11]。具體而言,若數(shù)據(jù)集包括R幅圖像,則這R幅圖像可以表示為X=[x1,x2,…,xR],每幅圖像xi都標(biāo)注了Ci個行人頭部中心點,表示為。具體地,圖像xi的真實密度圖yi為:
其中:p為圖像xi中的像素,對應(yīng)圖中人頭部中心點P1,P2,…,;像素的密度表示為高斯核函數(shù)Ngt;σ為標(biāo)準偏差;μ為方差。輸入圖像xi的總?cè)藬?shù)Ci等于圖像xi中所有像素的密度之和,表示為:
利用訓(xùn)練數(shù)據(jù)集,人群計數(shù)模型旨在學(xué)習(xí)具有參數(shù)α的回歸模型G,以最小化估計密度圖Gα(xi)和真實密度圖yi之間的差異。歐幾里得距離是一種廣泛使用的損失函數(shù),用于衡量訓(xùn)練模型的質(zhì)量,并獲得近似解,L2損失函數(shù)表示為:
由于輸入圖像的分辨率變化,式(3)損失函數(shù)方程通常應(yīng)根據(jù)輸入圖像的分辨率大小進行歸一化處理。
如圖1 所示,A-MCNN 由三列卷積異步更新結(jié)構(gòu)、列之間的交互信息、動態(tài)卡爾曼濾波(dynamic Kalman filter)組成。首先輸入單幀視頻圖像,經(jīng)過三列卷積結(jié)構(gòu)分別提取不同尺度特征,通過列之間的交互信息使得各列更多學(xué)習(xí)不同尺度特征,并根據(jù)交互信息依次單獨循環(huán)更新每列參數(shù);整個模型收斂后,采用動態(tài)卡爾曼濾波將各列采用1×1 卷積層輸出的預(yù)測密度圖進行圖像深度融合,得到最終的密度估計圖;利用式(2)對密度圖中所有像素求和,得到估計的圖像總?cè)藬?shù)。
圖1 A-MCNN算法整體結(jié)構(gòu)Fig.1 Overall structure of A-MCNN algorithm
整個模型集成了多列之間的聚合模塊(Aggregation module)結(jié)構(gòu),由空間金字塔池化SPP 256(Spatial Pyramid Pooling 256)、全連接層FC-128(Full Connection Layer-128)和FC-1 組成,以自動評估列之間的相互信息。聚合模塊的結(jié)構(gòu)本質(zhì)上是一個分類器,可以對列之間的相同信息和不同信息進行分類。列之間的所有特征都被輸入到分類器中,分類器輸出列之間的交互信息。使用交互信息的目的是顯示不同列之間的尺度相關(guān)性。也就是說,交互信息越少意味著列之間的特征關(guān)聯(lián)越少。因此,通過減少列之間的交互信息,A-MCNN 算法可以引導(dǎo)每列更多地關(guān)注圖像中包含的不同尺度信息。與以前的多列算法不同,A-MCNN 算法交替更新和優(yōu)化每列的參數(shù),直到整個網(wǎng)絡(luò)聚合。在學(xué)習(xí)每一列的特征時,首先將列之間的交互信息作為指導(dǎo)參數(shù)更新的先驗條件;接下來,借助于列之間提供的相互信息,整個模型可以交替地引導(dǎo)每列學(xué)習(xí)不同的尺度特征和不同分辨率的圖像。
具體來說,A-MCNN 算法中,有三列卷積結(jié)構(gòu)用于異步更新參數(shù)。從交互信息中學(xué)習(xí)圖像共同的特征和差異后,交互信息將返回到每列,使得每列能夠?qū)W習(xí)更多不同的圖像信息,在這種情況下,它將減少冗余參數(shù)并避免過度擬合。如圖2 所示,網(wǎng)絡(luò)參數(shù)異步更新時各列的更新順序不同,第一列的更新是基于都與第一列有關(guān)的不同的交互信息,然后交互信息通過聚合模塊分類后返回到第一列,使得第一列可以學(xué)習(xí)自身與其他列的區(qū)別,并根據(jù)損失函數(shù)和交互信息更新該列。第一列更新時,其他列都保持不更新狀態(tài),在第一列完成更新后,第二列開始參數(shù)更新;由于第一列進行了參數(shù)更新,所以第一列和第二列之間的交互信息發(fā)生改變;由于第二列和第三列還沒有進行參數(shù)更新,所以第二列和第三列之間的交互信息暫時保持不變。然后第二列在學(xué)習(xí)自己和其他列的相互信息后更新參數(shù)。同樣地,在第二列更新參數(shù)時,其他列保持不更新狀態(tài)。在第二列更新完成后,第三列開始遵循相同的模式更新,此時的第一列和第二列都已經(jīng)更新過,所以第三列與第一列以及與第二列之間的交互信息都發(fā)生了改變,根據(jù)更新的交互信息進行該列網(wǎng)絡(luò)參數(shù)更新,直到三列網(wǎng)絡(luò)參數(shù)都實現(xiàn)最優(yōu)化時,結(jié)束網(wǎng)絡(luò)參數(shù)異步更新流程,輸出每列CNN 預(yù)估密度圖,再根據(jù)動態(tài)卡爾曼濾波實現(xiàn)圖像融合,得到最終估計密度圖。
圖2 網(wǎng)絡(luò)參數(shù)異步更新流程Fig.2 Asynchronous updating process of network parameters
在整個模型訓(xùn)練中,參數(shù)分別為K1、K2和K3的三列交替訓(xùn)練,其中每列由三個損失函數(shù)聯(lián)合訓(xùn)練,分別表示為:
其中:L2損失函數(shù)用于減少人群計數(shù)的誤差值;交互信息的值由聚合模塊Gd計算,參數(shù)用于縮小列之間的交互信息;?是平衡三個損失函數(shù)的權(quán)重參數(shù);是來自三列的不同卷積層的卷積特征,用于交互信息評估;表示K1和K2兩列的最后一個卷積層上的特征要素串聯(lián);表示K2和K3兩列的最后一個卷積層上的特征要素串聯(lián)。
交互信息是變量之間相關(guān)性的基本度量。在A-MCNN算法中,三列結(jié)構(gòu)被用作不同的變量特征,因此,交互信息可以反映不同列之間特征的相關(guān)程度,如圖1 中,ColumnK1、ColumnK2、ColumnK3為三列卷積的主體結(jié)構(gòu),每兩列主體結(jié)構(gòu)之間的“Mutual information”列則為交互信息列,用于學(xué)習(xí)每兩列主體結(jié)構(gòu)特征圖提取特征的關(guān)聯(lián)性?;谇叭斯ぷ鞯某晒涂尚行裕?2],使用交互信息來表示不同列的冗余參數(shù)的程度,目的是為了使每一列學(xué)習(xí)更多不同尺度的信息,使用計算交互信息的方式來降低每一列的相關(guān)性,使得每一列學(xué)習(xí)圖像的不同特征和分辨率。具體來說,本文將特征之間的交互信息分為之間、之間、之間的交互信息。以之間的交互信息為例,特征和之間的交互信息表示為:
其中:H是香農(nóng)熵(the Shannon entropy);表示給定的不確定性。根據(jù)前人工作有效性證明[13],使用庫爾巴克-萊布勒(Kullback-Leibler)散度計算交互信息,表示為:
其中:Gd是具有參數(shù)d的聚合模塊。為了計算下限,本文隨機選擇h張圖像進行訓(xùn)練:首先,可以從K1和K2列中得到h對特征作為公共分布;然后,隨機對在中的順序進行置亂,得到h對特征作為計算邊緣分布的結(jié)果;接著,將這些特性輸入到聚合模塊Gd中,通過式(9)得到交互信息估計的下限。使用移動平均法得到式(9)的梯度,通過最大化下限;接下來,更新聚合網(wǎng)絡(luò)參數(shù)d←d+,近似地得到真實的交互信息。此外聚合模塊也可以廣泛應(yīng)用于各種多列結(jié)構(gòu),作為一個分類器,它可以為多列結(jié)構(gòu)識別不同尺度和分辨率的圖像提供幫助,具有泛化性。
本文實驗使用顯卡為NVIDIA GeForce GTX 1060 6 GB,內(nèi)存為8 GB RAM,操作系統(tǒng)為Ubuntu16.04,編程環(huán)境為Python3.6 和Matlab2016a,配置為CUDA8.0 和CUDNN6.0,使用開源計算機視覺庫Opencv2.0、深度學(xué)習(xí)框架選用Facebook 開源的動態(tài)神經(jīng)網(wǎng)絡(luò)框架Pytorch。
實驗數(shù)據(jù)集為三個基準數(shù)據(jù)集ShanghaiTech[4]、UCF_CC_50(University of Central Florida Crowd Counting)[15]和UCSD(University of California San Diego)[16]。具體來說,ShanghaiTech(上海理工大學(xué))數(shù)據(jù)集由Part_A 和Part_B 兩部分組成。Part_A 是從互聯(lián)網(wǎng)上收集的數(shù)據(jù),有較高的人群密度;Part_B 是從繁華街道收集的數(shù)據(jù),人群密度相對稀疏。UCF_CC_50 數(shù)據(jù)集主要包含較高密集人群的圖像,背景噪聲較大。UCSD 數(shù)據(jù)集是從真實的監(jiān)控攝像頭中采集的數(shù)據(jù),具有低分辨率和稀疏的人群密度。
將高斯分布的初始平均值設(shè)置為0,標(biāo)準差設(shè)置為0.02。采用Adam 優(yōu)化器對三列網(wǎng)絡(luò)進行訓(xùn)練和優(yōu)化,利用梯度的一階矩估計和二階矩估計,動態(tài)調(diào)整各參數(shù)的學(xué)習(xí)速率,學(xué)習(xí)率初始化為10-5。同時,將隨機樣本數(shù)h設(shè)為80,將動量設(shè)為0.9。采用ELU(Exponential Linear Units)激活函數(shù)更新各列參數(shù),當(dāng)輸入信息小于0 時,為防止神經(jīng)元壞死,通過斜率α的線性方程計算結(jié)果,α設(shè)置為0.95。
依據(jù)前期工作[17-18],使用平均絕對誤差(Mean Absolute Error,MAE)和均方誤差(Mean Square Error,MSE)評估模型性能,分別表示為:
其中:H是測試樣本的總數(shù);Zi是第i幅圖像的真實值;是第i幅圖像的估計值。MAE越小表示估計的準確性越高,MSE越小表示估計的魯棒性越強。
2.4.1 UCSD數(shù)據(jù)集實驗
如表1 所示,將本文算法與UCSD 數(shù)據(jù)集上的其他12 種先進算法進行了比較。其中CP-CNN(Contextual Pyramid Convolution Neural Network)和ic-CNN+McML(iterative crowd counting Convolution Neural Network Multi-column Multi-task Learning)較其他10 種算法有相對較好的效果,由此主要討論它們的對比結(jié)果,CP-CNN 雖然比ic-CNN+McML 的MAE值高,即準確性能上相對較弱,但其MSE值比ic-CNN+McML低,說明其魯棒性能更強,兩種算法相比較各有優(yōu)勢。對比以上算法,本文算法在MAE值上與最優(yōu)MAE表現(xiàn)的ic-CNN+McML 比較,減小了1.1%,優(yōu)勢不明顯,但在MSE值上,本文算法相比ic-CNN+McML 有明顯優(yōu)勢,相較于最優(yōu)MSE表現(xiàn)的CP-CNN 減小了4.3%,也有一定優(yōu)勢。
表1 UCSD數(shù)據(jù)集上的實驗結(jié)果對比Tab.1 Comparison of experimental results on UCSD dataset
2.4.2 ShanghaiTech數(shù)據(jù)集實驗
在ShanghaiTech 的兩個子數(shù)據(jù)集ShanghaiTech Part_A 和ShanghaiTech Part_B 上測試本文算法。如表2 所示,將本文算法與ShanghaiTech 數(shù)據(jù)集上的其他12 種先進算法進行了比較。其中CSRNet 和ic-CNN+McML 整體相對其他10 種算法,在ShanghaiTech Part_A 和ShanghaiTech Part_B 上 的MAE和MSE值相對都較低且比較接近,更近一步比較這兩種算法,ic-CNN+McML 在兩個子數(shù)據(jù)集上的MAE和MSE值都略微比CSRNet 更小,但在ShanghaiTech Part_B 上的準確性幾乎達到一致。此外,注意到ACSCP(Adversarial Cross-Scale Consistency Pursuit)在ShanghaiTech Part_A 上的MSE達到所有12 種算法的最優(yōu)值,但其他數(shù)據(jù)都沒有取得較好效果。對比以上先進算法,本文算法在ShanghaiTech Part_A 和ShanghaiTech Part_B 上都具有更低的MAE和MSE值,且與以上12 種算法中表現(xiàn)最好的ic-CNN+McML 比較,在ShanghaiTech Part_A 數(shù)據(jù)集上的MAE 比ic-CNN+McML 減小1.7%,MSE 比ACSCP 減小了3.2%,優(yōu)勢不明顯;但在ShanghaiTech Part_B 數(shù)據(jù)集上的MAE和MSE分別比ic-CNN+McML 減小了18.3%、35.2%,具有明顯準確性和魯棒性優(yōu)勢。
表2 上海理工大學(xué)數(shù)據(jù)集上的實驗結(jié)果對比Tab.2 Comparison of experimental results on ShanghaiTech datasets
2.4.3 UCF_CC_50數(shù)據(jù)集實驗
在UCF_CC_50 數(shù)據(jù)集上測試本文算法。如表3 所示,將本文算法與UCF_CC_50 數(shù)據(jù)集上的其他9 種先進算法進行了比較。如表3 所示,除了CCNN 和SwitchCNN 有稍大的差異,其余各算法在該數(shù)據(jù)集上的性能差異不大,這與該數(shù)據(jù)集僅有50 張圖像有一定關(guān)系。
表3 UCF_CC_50數(shù)據(jù)集上的實驗結(jié)果對比Tab.3 Comparison of experimental results on UCF_CC_50 dataset
更近一步比較各算法,CSRNet+McML 和ic-CNN+McML的MAE值較低,與此同時ic-CNN+McML 的MSE值也較低,這說明ic-CNN+McML 在該數(shù)據(jù)集上的整體性能效果相對其他所有算法更好。而本文算法A-MCNN 與ic-CNN+McML 的MAE值相比,比ic-CNN+McML 減小了1.9%,優(yōu)勢不明顯,但A-MCNN 的MSE值卻比ic-CNN+McML 減小了9.8%,魯棒性能更強,優(yōu)勢更明顯,A-MCNN 整體表現(xiàn)性能優(yōu)于ic-CNN+McML。
從實驗結(jié)果可知,A-MCNN 在各大基準數(shù)據(jù)集實驗中,與對應(yīng)數(shù)據(jù)集上其他先進的算法作比較,MAE值都有一定程度的減小,特別在MSE值上減小更明顯,驗證了該算法在提升準確性的同時,能夠較大提升整個模型的泛化能力,更好適用于現(xiàn)實生活中各種復(fù)雜場景。
如圖3 所示,從公共基準數(shù)據(jù)集中選取5 張具有代表性的圖像。第一張圖,人口分布較均勻;第二和第三張圖含有人群背景干擾,對人群計數(shù)準確性造成影響;第四、第五張圖具有較大尺度變化,對人群計數(shù)是個很大的挑戰(zhàn)。下面進一步從可視化角度分析輸出單張估計密度圖上的差異。如圖3 所示,密度圖為不同算法下對應(yīng)左側(cè)原圖的預(yù)估密度圖,各預(yù)估密度圖中左上方數(shù)字代表對應(yīng)原圖的預(yù)估人數(shù)。
由圖3 可看出,在ic-CNN+McML 和A-MCNN 對應(yīng)的兩列預(yù)估密度圖中(圖中方框標(biāo)出),各個原圖對應(yīng)的兩種算法下的預(yù)估人數(shù)較接近,也能近一步印證ic-CNN+McML 和A-MCNN 在準確性上的效果差異不明顯,但通過定性實驗發(fā)現(xiàn)A-MCNN 的準確性略微高于ic-CNN+McML,結(jié)合兩個算法對應(yīng)的預(yù)估密度圖(黃色代表次高度密集,紅色代表最高度密集),對比圖中黃色和紅色部分的深淺,A-MCNN 對應(yīng)高度密集區(qū)域顏色更深,說明A-MCNN 在高度密集區(qū)域具有較高的敏感度和注意力。
圖3 不同算法預(yù)估密度圖的可視化Fig.3 Visualization of density maps predicted by different algorithms
為了擴展人群圖像特點的可視化效果,進行了人群像素值的分析。選擇基準數(shù)據(jù)集中具有代表性的兩幅圖像進行實驗,如圖4 所示:一幅具有較規(guī)則的人口分布,另一幅具有明顯的背景干擾和一定程度的尺度變化。使用Matlab2016a繪制兩幅原圖的像素值圖,像素值圖中x-y坐標(biāo)代表圖像長寬像素,圖中像素柱對應(yīng)原圖有人區(qū)域,像素柱的高低代表該像素點處的像素值,人群越密集像素柱的值越高,如圖4(d)中圈出區(qū)域。由于圖4(a)中人口分布大體較均勻,對應(yīng)的像素柱值的高度也大體較一致;由于圖4(c)中右下角為背景區(qū)域,在像素圖中相應(yīng)位置無像素柱值,而原圖左上角出現(xiàn)極度擁擠區(qū)域,相應(yīng)地在像素值圖中像素柱值越高。
圖4 圖像像素值的可視化Fig.4 Visualization of pixel values of images
使用目標(biāo)檢測中經(jīng)典算法Faster RCNN(Region Convolutional Neural Network)與本文算法進行實例對比實驗。原圖為成都理工大學(xué)下課擁擠畫面抓拍圖,分別在Faster RCNN 模型和本文算法上進行實驗。
如圖5(b)所示,F(xiàn)aster RCNN 目標(biāo)檢測時能對出現(xiàn)的完整個體或大部分完整個體標(biāo)定識別,但針對圖中方框中出現(xiàn)的高度密集人群幾乎無法識別,檢測效果不佳,可見Faster RCNN 更適合用于檢測稀疏個體。如圖5(c)為A-MCNN 檢測結(jié)果,圖最上方數(shù)字為預(yù)估人數(shù),針對圖5(a)中方框框出的高密度區(qū)域,能夠通過密度圖的高度密集反映,可見針對高度密集人群的檢測,A-MCNN 比流行的目標(biāo)檢測算法Faster RCNN 更有優(yōu)勢。
圖5 不同算法檢測人群的結(jié)果Fig.5 Results of different algorithms to detect crowd
選擇在成都理工大學(xué)校園抓拍的三幅典型情況為例進行實驗,如圖6 所示:圖(a)存在區(qū)域極度擁擠和雨傘遮擋情況,圖(b)具有較大背景干擾,圖(c)遠近具有較大尺度變化。應(yīng)用A-MCNN 算法得到預(yù)估密度圖,最上方數(shù)字代表預(yù)估圖像總?cè)藬?shù)。
圖6 A-MCNN應(yīng)用實例Fig.6 Examples of A-MCNN application
針對現(xiàn)有基于深度學(xué)習(xí)的人群計數(shù)網(wǎng)絡(luò)中存在的大量冗余參數(shù)甚至過擬合導(dǎo)致輸出精度下降的問題,提出基于多列卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)異步更新算法A-MCNN,將其應(yīng)用于尺度變化大及人群高度擁擠的復(fù)雜場景,對公共安全及疫情防控具有重要意義。實驗結(jié)果表明,本文算法在不同數(shù)據(jù)集上應(yīng)對場景突變、尺度變化、雜亂背景、光照影響、物體遮擋等影響檢測精度的情況下,均能在準確性和魯棒性能上獲得較好的效果,為深度學(xué)習(xí)在人群計數(shù)上的應(yīng)用提供了新方向。但是本文算法離實際應(yīng)用場景實時性的需要還有差距,本文算法對于人群的檢測采用的是每幀靜態(tài)圖像輸入的方式,但實際場景需要做到實時視頻檢測,還需考慮視頻前后幀的時序信息和處理視頻數(shù)據(jù)的速度,提升算法實時性,同時未來應(yīng)重視整個模型前后端處理以更加輕量化整體模型、改善物體遮擋問題將也是主要研究方向。