陳美云,王必勝,曹 國,梁永博
(南京理工大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,南京 210094)
人群計數(shù)[1]旨在統(tǒng)計擁擠場景中的人數(shù),通常存在遮擋、分辨率低、人員分布不均勻、場景復(fù)雜等干擾因素,是非常值得探究的一個方向。目前,城市的人口數(shù)量隨著城市化的發(fā)展急劇增長,人口暴增導(dǎo)致各類人群活動顯著增加,如演唱會、路演、競技賽等。為了更好地保障社會治安,對這些場景進(jìn)行準(zhǔn)確的人群計數(shù)是非常必要的一項工作[2]。卓越的人群計數(shù)工作對構(gòu)建高層次認(rèn)知能力有極大的作用,例如分析道路擁塞[3-4]、檢測異常狀況[5]、檢測特定事件[6]等。除此以外,優(yōu)秀的人群計數(shù)方法還可以推廣到車輛計數(shù)[7]、野生動物密度估計[8]和計量顯微圖像中的細(xì)胞[9]等多個領(lǐng)域。
在深度學(xué)習(xí)方法盛行之前,人群計數(shù)的方法主要以檢測和回歸為主。
以檢測為主的人群計數(shù)算法先訓(xùn)練檢測器用以識別輸入圖中的個體,繼而將識別個體進(jìn)行累加得出總?cè)巳簲?shù)。過去采用檢測的人群計數(shù)算法是根據(jù)某些特征如方向梯度直方圖(Histogram of Oriented Gradients, HOG)[10]、Haar小波[11]等來訓(xùn)練檢測器,從而將人體檢測出來。不過,當(dāng)這種方式用來計數(shù)高密度人群時,就會受到遮擋、重疊等因素的嚴(yán)重干擾,而且這種方式在計算時間和計算資源方面占用比較大,性能不夠優(yōu)異。
針對高密度場景,有研究人員提出了回歸人群數(shù)目和人群特征兩者間映射關(guān)系的方法。回歸算法先進(jìn)行底層特征提取,然后進(jìn)行模型回歸。其中,底層特征由場景的紋理特征(如LBP(Local Binary Pattern))[12-13]、局部特征(如邊緣特征)、全局特征得來;然而,回歸算法在進(jìn)行模型回歸時會丟失掉部分關(guān)鍵的空間信息。
如今,科技的進(jìn)步使得圖形處理器(Graphics Processing Unit, GPU)極大地提升了計算能力,時間的推移使得大型數(shù)據(jù)庫更多地涌現(xiàn),而這兩者的發(fā)展則使得深度學(xué)習(xí)[14]在提取特征和泛化模型方面性能優(yōu)越,甚至在許多方面已經(jīng)完全超越了傳統(tǒng)算法。
鑒于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)顯著提升了目標(biāo)識別、圖像分類[14-15]等多個計算機(jī)視覺領(lǐng)域的準(zhǔn)確度,人群計數(shù)的研究人員也開始嘗試采用卷積神經(jīng)網(wǎng)絡(luò)來探索人群密度與人群圖像兩者的非線性關(guān)系。實驗證明卷積神經(jīng)網(wǎng)絡(luò)在人群計數(shù)準(zhǔn)確性方面相比前兩種傳統(tǒng)方法提升顯著。
其實,采用卷積神經(jīng)網(wǎng)絡(luò)方式進(jìn)行人群計數(shù)也屬于回歸算法的一種。卷積神經(jīng)網(wǎng)絡(luò)先提取輸入圖片中的人群特征,然后通過回歸方式計算出人群總數(shù)?;貧w方式分為兩種:一種是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入圖片與人數(shù)間的映射關(guān)系,然后直接回歸計算出人群總數(shù);另一種是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入圖片和人群密度圖的映射關(guān)系,然后對密度圖進(jìn)行積分得出人群總數(shù)。
Zhang等[16]是第一個采用CNN來解決人群計數(shù)問題的,不過,該方法回歸結(jié)果并非人群總數(shù)而是人群的密度等級。此后,Zhang等[17]針對提升跨場景計數(shù)性能不佳問題,提出了一種先訓(xùn)練一些場景圖片,測試時從訓(xùn)練集中找到相似場景圖來微調(diào)網(wǎng)絡(luò)。雖然該算法提升了跨場景人群計數(shù)的準(zhǔn)確性,但占用的資源過多。Sindagi等[18]提出了一種輸入為整幅原始圖片的卷積神經(jīng)網(wǎng)絡(luò),這是因為圖片切塊存在重疊部分,會造成計算重復(fù)。Zhang等[19]提出了一種包含三列卷積核尺寸各異的多列卷積神經(jīng)網(wǎng)絡(luò),各列子網(wǎng)絡(luò)對應(yīng)處理不同尺度的人群。該算法還考慮到了圖片拍攝角度的問題,因此使用自適應(yīng)卷積核來生成密度圖。
可見針對人群計數(shù)這一課題,研究者們已經(jīng)提出了許多以卷積神經(jīng)網(wǎng)絡(luò)[14,20-21]為基礎(chǔ)的算法[16,18-19,22-23],雖然識別效果不錯,但仍然有一些基本問題沒有得到很好解決。
由于人頭在不同地方的分布存在很大的差異,許多人群計數(shù)算法會將人群圖像劃分為不同人群密度等級的圖像塊[18,22];然而由于真實密度圖是基于像素的,所以這種基于圖像塊圖像的分類方法無法與真實密度圖完美匹配,使得最終估計的密度圖中會造成模糊。針對這一問題,本文采用了一種新的不同于傳統(tǒng)注意力機(jī)制的像素級注意力機(jī)制。這種新方法不再對圖像塊進(jìn)行分類,而是生成像素級的像素掩碼,從而指導(dǎo)密度估計網(wǎng)絡(luò)獲得更精確的密度值。
綜上所述,本文提出了相應(yīng)的改進(jìn)方法,采用了一種基于像素的注意力機(jī)制來處理人群非均勻分布的問題。設(shè)計了一種新的以更少的學(xué)習(xí)參數(shù)學(xué)習(xí)到更多代表性特征的單列網(wǎng)絡(luò),可以得到高效的人群計數(shù)結(jié)果。
本章將介紹本文的整體算法結(jié)構(gòu)。如圖1所示,本文算法結(jié)構(gòu)主要包括兩個部分:像素級注意力機(jī)制(Pixel-level Attention Mechanism, PAM)和人群密度估計網(wǎng)絡(luò)。
圖1 整體網(wǎng)絡(luò)架構(gòu)Fig. 1 Overall network architecture
人群圖像的標(biāo)注是在人頭部中心作的點標(biāo)注。圖2(a)采用一個3×3大小的方格來代表人群圖像的局部區(qū)域,像素點值為1表示人,值為0則表示背景。
在圖像中假設(shè)每個人頭大小都是3×3像素,圖2(b)就是圖2(a)對應(yīng)的使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人群計數(shù)的標(biāo)簽密度圖,各個人頭區(qū)域的概率之和為1,得到完整的人群圖像密度圖后,對其進(jìn)行積分(求和)就是人群數(shù)目。
圖2 標(biāo)簽密度圖的生成Fig. 2 Generation of label density map
為了保存更多的空間信息,本文實際使用歸一化高斯核將每個頭部標(biāo)注模糊,估計圖像中每個人頭的大小并轉(zhuǎn)換為密度圖。步驟如下:
xi表示人頭中心坐標(biāo)位置,用函數(shù)δ(x-xi)表示,對于一幅有N個人頭標(biāo)注的人群圖像來說,可以表示為H(x)函數(shù):
(1)
將式(1)與高斯核進(jìn)行卷積,轉(zhuǎn)化為連續(xù)密度函數(shù),如式(2)所示:
(2)
圖3 原圖和對應(yīng)生成的標(biāo)簽密度圖Fig. 3 Original image and corresponding generated label density map
人群計數(shù)的一些方法[22]將整幅圖像上的小塊分割成不同的密度類,然后利用分類結(jié)果提高局部密度估計的精度。這種圖像小塊級的注意力機(jī)制并不能很好地與真實值相匹配,因為真實值反映的是每個特定像素的密度信息,因此,本文提出了一種像素級注意力機(jī)制來定量模擬圖像的局部密度信息。
生成的標(biāo)簽密度圖的每個像素都表示一個密度值。根據(jù)這些像素的密度值設(shè)定閾值,分成不同密度程度的類別,以反映人群的多樣性。舉例來說,類別標(biāo)號為{0,1,2,3,4},其中,{0}表示背景,{1,2,3,4}表示4種不同密集程度的人群。需要注意的是,針對不同的數(shù)據(jù)集,設(shè)置的密度等級會有所不同。至于設(shè)置多少類別以及密度等級閾值大小可根據(jù)實驗確定。本文根據(jù)局部區(qū)域的人頭大小通過實驗設(shè)置了閾值,而類別數(shù)量則由實驗對比決定。具體實驗結(jié)果見第2.2節(jié)。
將每個像素劃分到特定類別是一個像素對像素的語義分割問題,因此本文使用了表現(xiàn)性能優(yōu)異的全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)[24]來解決像素劃分問題。
直觀來看,用卷積層替換卷積神經(jīng)網(wǎng)絡(luò)的全連接層就得到了全卷積神經(jīng)網(wǎng)絡(luò)。全卷積神經(jīng)網(wǎng)絡(luò)的輸出是一幅已經(jīng)完成標(biāo)記的圖。
全卷積神經(jīng)網(wǎng)絡(luò)的輸入是大小為h*w的原圖,原圖經(jīng)過第1次卷積、池化以后縮小為原來的1/2;然后繼續(xù)進(jìn)行第2次卷積、池化,圖像變?yōu)樵瓉淼?/4;第3次卷積、池化后輸出圖像是原始圖像的1/8,保留本次池化后的特征圖(featureMap);然后經(jīng)歷第4次卷積、池化,輸出圖像是原始圖像的1/16,同樣保留本次池化后的特征圖(featureMap);繼續(xù)進(jìn)行第5次卷積、池化,輸出圖像是原始圖像的1/32;接著進(jìn)行第6次卷積、第7次卷積操作,此時,輸出的圖像依然是原始圖像的1/32大小,但是featureMap數(shù)量改變了,此時的圖像稱作熱圖(heatMap)。
上述保留的熱圖通過上采樣來還原圖片,但是得到的只是第5次卷積操作的卷積核特征,精度還不夠高,所以需要繼續(xù)向前迭代,具體的操作是先使用第4次卷積中的卷積核來反卷積上一個上采樣還原圖,其實就是作差值的過程,然后用第3次卷積中的卷積核來反卷積剛剛的上采樣還原圖,實現(xiàn)圖像的整體還原,其中兩次反卷積都是為了補(bǔ)充細(xì)節(jié)。
PAM的網(wǎng)絡(luò)如圖4所示,使用了全卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),輸入為任意尺寸的自然圖,輸出則是與輸入圖大小相同的分類圖。采用反卷積操作對相應(yīng)卷積層特征圖上采樣,在保留原始圖空間信息的同時還能夠預(yù)測每個像素,實現(xiàn)逐個像素的分類。采用歸一化指數(shù)函數(shù)(Softmax函數(shù))來計算每個像素的損失,等同于一個訓(xùn)練樣本對應(yīng)一個像素。針對不同數(shù)據(jù)集,PAM網(wǎng)絡(luò)對FCN模型分別進(jìn)行微調(diào),只需要重新定義網(wǎng)絡(luò)的輸出類別數(shù)(保證輸出的類別數(shù)與數(shù)據(jù)集對應(yīng)的密度級別種類數(shù)一致),從而輸出對應(yīng)的分類圖。
圖4 PAM網(wǎng)絡(luò)(基于FCN結(jié)構(gòu)的像素級注意掩碼生成網(wǎng)絡(luò))Fig. 4 PAM network (pixel level attention mask generation network based on FCN structure)
人群密度估計[18,25]網(wǎng)絡(luò)的作用是將輸入圖像轉(zhuǎn)換成密度圖。由于圖像中不同位置的人頭尺度存在很大差異,現(xiàn)有的方法多是采用不同卷積核大小的多列網(wǎng)絡(luò)來求解;然而,多列網(wǎng)絡(luò)往往需要更多的時間,而且難以收斂。通過實驗發(fā)現(xiàn),設(shè)計合理的單列網(wǎng)絡(luò)不僅同樣可以得到良好的計算結(jié)果,而且還降低了計算復(fù)雜度。本文設(shè)計的單列人群密度估計網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 人群密度估計網(wǎng)絡(luò)Fig. 5 Crowd density estimation network
本文進(jìn)行了大量的實驗來分析不同因素對最終結(jié)果的影響,這些因素包括深度、卷積核大小、卷積核大小順序和不同層的連接。為了與基準(zhǔn)方法進(jìn)行比較,本部分只使用原始RGB圖像作為輸入。通常,頭部較大的密度圖需要使用具有較大感受野的濾波器來提取特征,頭部較小的密度圖則應(yīng)使用感受野較小的濾波器提取特征,而一般來說,合理的深層次網(wǎng)絡(luò)效果要優(yōu)于淺層網(wǎng)絡(luò)。
本文的人群密度估計網(wǎng)絡(luò)屬于卷積神經(jīng)網(wǎng)絡(luò),設(shè)計思想來源于Zhang等[19]發(fā)表的多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN),本文設(shè)計的網(wǎng)絡(luò)如圖5所示,將MCNN并行的3列融合成單列,借鑒其卷積核大小將本文網(wǎng)絡(luò)參數(shù)設(shè)定如下:7層網(wǎng)絡(luò)并且進(jìn)行PAM處理,卷積核分別為3×3、5×5、5×5、7×7、7×7、7×7、3×3(融合第3、5、6層輸出作為第7層輸入)。
每層卷積層的激活函數(shù)均采用修正線性單元(Rectified Linear Unit, ReLU):
(3)
由于池化操作會丟失細(xì)節(jié)信息,所以僅在第一層和第三層卷積后設(shè)置了步長為2(stride=2)的最大池化操作;融合第3、5、6層輸出作為第7層輸入的設(shè)置,將合并的特征輸出到卷積核大小為3×3的第7層,在保證了網(wǎng)絡(luò)可以收斂的同時提高了網(wǎng)絡(luò)效果。把第3、5、6層提取的特征合并后輸出到卷積核大小為3×3的第7層卷積層,使用3×3卷積核替代1×1卷積核,可以估計出密度圖。該網(wǎng)絡(luò)有3個特點:
1)更深層次的單列架構(gòu)。內(nèi)核的大小和深度對于CNN來說是至關(guān)重要的。
2)不同層次的拼接。受文獻(xiàn)[14,26-27]的啟發(fā),將低層和高層連接在一起,學(xué)習(xí)底層信息(如形狀、顏色、紋理)和語義信息。
3)卷積核大小的逆序。在本文的網(wǎng)絡(luò)中,小卷積核在較低的層中選擇,而大卷積核在較高的層中選擇。這種策略的優(yōu)點有兩個:首先,使用反序的卷積核大小具有更大的感受野,可以獲得更多的上下文信息;其次,在合并相鄰層時,起到組合淺層和高層不同類型信息的作用,提高預(yù)測準(zhǔn)確性。這是一個與現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)完全不同的考慮。
通過這些設(shè)計,本文的網(wǎng)絡(luò)與MCNN[17]和Sindagi[18]相比具有更少的參數(shù),但得到了更好的結(jié)果。
(4)
對于人群密度估計網(wǎng)絡(luò)模塊,采用歐幾里德?lián)p失層來測量真實值與估計密度圖之間的差異。損失函數(shù)定義如下:
(5)
其中:θ表示網(wǎng)絡(luò)中的可學(xué)習(xí)參數(shù),Xi是輸入圖像,F(xiàn)(Xi;θ)和Fi分別為預(yù)測密度圖和真實值。
在4個公開的具有不同挑戰(zhàn)性的數(shù)據(jù)集上,將本文方法與上下文金字塔神經(jīng)網(wǎng)絡(luò)(Contextual Pyramid Convolutional Neural Network, CP-CNN)、多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)、交換卷積神經(jīng)網(wǎng)絡(luò)(Switching Convolutional Neural Network, Switch-CNN)[22]、擁塞場景識別網(wǎng)絡(luò)(Network for Congested Scene Recognition, CSRNet)[28]、檢測和密度估計網(wǎng)絡(luò)(Detection and Density Estimation Network, DecideNet)[29]等方法進(jìn)行了比較。這4個數(shù)據(jù)集分別是Shanghaitech數(shù)據(jù)集(包括part_A和part_B兩部分)、UCF_CC_50數(shù)據(jù)集以及WorldExpo_2010(Expo’10)數(shù)據(jù)集。有關(guān)這些數(shù)據(jù)集的數(shù)據(jù)信息詳見表1。
表1 各數(shù)據(jù)集相關(guān)信息 Tab. 1 Information about each dataset
根據(jù)現(xiàn)有的人群統(tǒng)計工作[19,22,28],本文采用較為通用的兩個評價指標(biāo)——平均絕對誤差(Mean Absolute Error, MAE)和均方誤差(Mean Squared Error, MSE),來對本文方法與現(xiàn)有方法的性能進(jìn)行比較。MAE和MSE定義如下:
(6)
(7)
正如在2.2節(jié)中分析的那樣,對于不同的數(shù)據(jù)集需要人為地定義合適的PAM閾值和類數(shù),以優(yōu)化性能。本文通過觀察對比根據(jù)真實值(Ground Truth)生成的密度圖對應(yīng)原圖的人群密集程度,從而劃分出人群密度等級以及閾值。結(jié)果劃分如表2。圖6(a)~(d)左圖為各數(shù)據(jù)集中選取的一幅原始圖片,圖6(a)~(d)右圖為對應(yīng)原始圖片經(jīng)PAM分割后得到的分類圖。
表2 PAM模塊閾值劃分 Tab. 2 PAM module threshold division
圖6 各數(shù)據(jù)集經(jīng)PAM所得分類圖Fig. 6 Classification map of each dataset obtained by PAM
2.3.1 參數(shù)設(shè)置
本文模型是在配置為i7- 6700K CPU、NVIDIA GTX 1080 GPU(顯卡內(nèi)存為8 GB)的臺式機(jī)的Ubuntu系統(tǒng)下的Caffe框架下運行的。訓(xùn)練過程采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD),訓(xùn)練階段的batchsize設(shè)置為1,為了提高模型的擬合速度,沖量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.000 5來控制模型的過擬合。具體的模型參數(shù)設(shè)置見表3,其中base_lr為學(xué)習(xí)率,max_iter為最大迭代次數(shù),lr_policy為學(xué)習(xí)策略。
表3 訓(xùn)練參數(shù)設(shè)置 Tab. 3 Training parameter setting
2.3.2 訓(xùn)練步驟
1)根據(jù)數(shù)據(jù)集的真實標(biāo)注Ground Truth采用歸一化高斯核生成標(biāo)簽密度圖density_map;
2)根據(jù)設(shè)定的閾值參數(shù)將density_map轉(zhuǎn)變?yōu)閯澐至讼袼氐燃壍难诖a標(biāo)簽圖gt,采用FCN對原圖和掩碼標(biāo)簽圖gt進(jìn)行訓(xùn)練;
3)使用訓(xùn)練的FCN獲取圖像n通道標(biāo)簽圖(n為該數(shù)據(jù)集劃分的密度級別數(shù)),然后與原圖(3通道)融合為n+3通道圖,作為人群密度估計網(wǎng)絡(luò)的輸入;
4)訓(xùn)練人群密度估計網(wǎng)絡(luò),使用訓(xùn)練的模型來估計圖片的人群密度,采用回歸計算得到人群總數(shù)。
算法偽代碼:
Train(){
初始化network的權(quán)和閾值;
while 終止條件不滿足{
for samples中的每個訓(xùn)練樣本X{
向前傳播輸入;
for 隱藏或輸出層每個單元j{
相對于前一層i,計算單元j的凈輸入;
計算單元j的輸出;
}
反向傳播誤差;
for 輸出層每個單元j{
計算誤差,選擇ReLU函數(shù)作為激活函數(shù);
}
for network中每個權(quán)重ωij{
權(quán)重增值;
權(quán)重更新;
}
for network中每個偏差Qj{
偏差增值;
偏差更新;
}
}
}
MCNN[19]中首次建立Shanghaitech數(shù)據(jù)集,數(shù)據(jù)集分為part_A和part_B兩部分:part_A的圖片總共482幅,是從互聯(lián)網(wǎng)上隨機(jī)收集的;而part_B的圖片總共716幅,是上海市區(qū)繁華的街道圖片。此外,part_B圖片中的人群分布相比part_A圖片中的人群分布更為稀疏。
該數(shù)據(jù)集總共有1 198幅標(biāo)記圖片:part_A部分300幅用于訓(xùn)練,182幅用于測試;part_B部分400幅用于訓(xùn)練,316幅用于測試。具體的信息可以在MCNN[19]中找到。表4是本文方法與其他方法在Shanghaitech數(shù)據(jù)集上的結(jié)果對比。
表4 Shanghaitech數(shù)據(jù)集上不同方法結(jié)果對比 Tab. 4 Comparison of results of different methods on Shanghaitech dataset
UCF_CC_50數(shù)據(jù)集包含來自互聯(lián)網(wǎng)的50幅圖像。這是一個非常具有挑戰(zhàn)性的數(shù)據(jù)集,因為它不僅圖像數(shù)量非常有限,而且圖像的人群數(shù)量也變化巨大。人頭計數(shù)范圍在94~4 543,每幅圖像平均有1 280人。作者總共為這50幅圖像提供了63 974條標(biāo)注。
本文將這50幅圖像以7∶3的比例分成訓(xùn)練集和測試集。表5是本文方法與其他方法在UCF_CC_50數(shù)據(jù)集上的結(jié)果對比。
表5 UCF_CC_50數(shù)據(jù)集上不同方法的結(jié)果對比 Tab. 5 Comparison of results of different methods on UCF_CC_50 dataset
WorldExpo’10 數(shù)據(jù)集是由Zhang等提出的[16]。該數(shù)據(jù)集包含1 132個帶注釋的視頻序列,由108個監(jiān)視槍攝像機(jī)拍攝,來自于2010年舉辦的上海世界博覽會。此數(shù)據(jù)集提供了3 980幀圖像,共計199 923個行人頭部中心標(biāo)注。其中3 380幀為訓(xùn)練集,另外600幀為測試集,測試數(shù)據(jù)集包含5個不同場景,每個場景有120個標(biāo)記幀。測試場景提供了5個不同的感興趣區(qū)域(Regions Of Interest, ROI),因此人群計數(shù)只在ROI部分進(jìn)行。與其他數(shù)據(jù)集相比,該數(shù)據(jù)集人群數(shù)量相對較小,平均每個圖像有50人。表6是本文方法與其他方法在WorldExpo’10數(shù)據(jù)集上的結(jié)果對比。
表6 Expo’10數(shù)據(jù)集上不同方法的MAE比較結(jié)果 Tab. 6 MAE comparison of different methods on Expo ’10
人群計數(shù)的任務(wù)是準(zhǔn)確估計出圖像中人群的總?cè)藬?shù),同時給出人群密度的分布情況。人群計數(shù)可以用于事故預(yù)防、空間規(guī)劃、消費習(xí)慣分析和交通調(diào)度等多個領(lǐng)域。除此之外,圖像人群計數(shù)算法還可以應(yīng)用到一些其他的計數(shù)領(lǐng)域,例如野生動物計數(shù)、車輛計數(shù)、細(xì)胞計數(shù)等領(lǐng)域,因此,人群計數(shù)的研究具有十分重要的意義。
本文提出了一種由兩個模塊生成高質(zhì)量人群密度圖,達(dá)到精確的人群計數(shù)效果的新體系結(jié)構(gòu)。首先,與現(xiàn)有的采用分塊注意機(jī)制方法相比,生成像素級掩碼并與原圖結(jié)合,能夠更精確地估計局部密度。此外,本文所采用的單列網(wǎng)絡(luò)與其他估計器相比,該網(wǎng)絡(luò)可以用更少的參數(shù)得到相似甚至更好的結(jié)果。最后,在三個高挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了實驗,通過對比表明本文方法具有更好的性能。