亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于弱監(jiān)督的改進(jìn)Transformer在人群定位中的應(yīng)用

        2023-10-10 10:38:26鄧淼磊趙文君陳法權(quán)張德賢
        關(guān)鍵詞:特征方法

        高 輝,鄧淼磊,趙文君,陳法權(quán),張德賢

        1.河南工業(yè)大學(xué) 機(jī)電工程學(xué)院,鄭州 450001

        2.河南省糧食信息處理國(guó)際聯(lián)合實(shí)驗(yàn)室,鄭州 450001

        3.河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,鄭州 450001

        人群定位旨在預(yù)測(cè)頭部,獲得視頻圖像中每個(gè)目標(biāo)的位置,是人群分析的一項(xiàng)重要研究?jī)?nèi)容。主流人群定位方法大致可分為基于檢測(cè)、基于回歸和基于密度圖的方法?;跈z測(cè)的方法[1-3]主要遵循Faster RCNN[4]的路線,利用最近鄰頭部距離來(lái)初始化偽真值(ground truth,GT)邊界框。它們通常遵循兩步探測(cè)原則,頭部位置等于預(yù)測(cè)邊界框的中心。然而,偽GT 值并不能精確表示頭部尺寸,導(dǎo)致檢測(cè)性能差。此外,手動(dòng)設(shè)計(jì)的非最大抑制(non-maximum suppression,NMS)算子可以消除負(fù)面預(yù)測(cè)。Ⅰdress等[5]和Gao等[6]利用了小型高斯核密度圖,頭部位置等于密度圖的最大值。盡管使用小內(nèi)核可以生成清晰的密度圖,但在極度密集的區(qū)域仍然存在重疊,使得頭部位置無(wú)法區(qū)分。因?yàn)槲恢脠D需要經(jīng)過(guò)精心設(shè)計(jì),從而基于密度圖的方法具有相對(duì)較高的定位精度,所以大多數(shù)人群定位方法是基于密度圖的,如距離標(biāo)簽圖[7]、焦點(diǎn)反變換圖(focal inverse distance transform map,F(xiàn)ⅠDTM)[8]和獨(dú)立實(shí)例圖(independent instance map,ⅠⅠM)[9]。然而,基于密度圖的方法需要復(fù)雜且不可微分的后處理來(lái)提取頭部位置,例如“查找最大值”。

        此外,基于密度圖的方法依靠高分辨率表示生成清晰的地圖,以便更好地找到局部最大值,這意味著需要多尺度特征映射。相比之下,基于回歸的方法比基于檢測(cè)和基于密度圖的方法更簡(jiǎn)單,原因可以概括為兩個(gè)方面:(1)訓(xùn)練簡(jiǎn)單,既不需要預(yù)處理,如生成偽GT框或本地化地圖,也無(wú)須進(jìn)行后處理,如NMS 或“查找最大值”。(2)不依賴(lài)于高分辨率表示,如復(fù)雜的多尺度融合或上采樣機(jī)制。Song 等[10]是通過(guò)對(duì)大量提案定義替代回歸來(lái)實(shí)現(xiàn)的,該模型依賴(lài)于預(yù)處理,例如生成8×W×H點(diǎn)提案。

        隨著深度學(xué)習(xí)的發(fā)展,Transformer在計(jì)算機(jī)視覺(jué)中迅速傳播開(kāi)來(lái)[11-16]。具體而言,Carion 等[11]提出一種沒(méi)有NMS 的端到端可訓(xùn)練檢測(cè)器detector Transformer(DETR),利用Transformer解碼器在端到端管道中對(duì)目標(biāo)檢測(cè)進(jìn)行建模,并僅使用一個(gè)單級(jí)特征映射成功地消除了后處理的需要,實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的性能。然而,DETR主要依賴(lài)帶有類(lèi)置信度的L1距離,即在沒(méi)有上下文的情況下為每個(gè)GT 分配每個(gè)獨(dú)立匹配可能導(dǎo)致錯(cuò)誤,且與目標(biāo)檢測(cè)不同的是人群圖像只包含人頭一個(gè)類(lèi)別,而密集的人頭的紋理都相似,所以預(yù)測(cè)的可信度很高,從而造成大大降低算法的定位效果。在DETR的基礎(chǔ)上,Meng 等[12]提出一種用于快速DETR 訓(xùn)練的條件交叉注意機(jī)制,加速了DETR 的收斂。在人群分析中,Liang 等[15]提出了TransCrowd,它從基于ViT 的序列計(jì)數(shù)的角度重新表述了弱監(jiān)督人群計(jì)數(shù)問(wèn)題。TransCrowd能夠利用ViT 的自注意力機(jī)制有效地提取語(yǔ)義人群信息。此外,這是研究人員首次采用ViT進(jìn)行人群計(jì)數(shù)研究,并且取得顯著效果。Sun 等[17]展示了點(diǎn)監(jiān)督人群計(jì)數(shù)設(shè)置中Transformer的功效。但他們都只關(guān)注人群計(jì)數(shù)任務(wù),而不是人群定位任務(wù)。

        只有少數(shù)方法專(zhuān)注于計(jì)數(shù),缺乏標(biāo)記數(shù)據(jù)。傳統(tǒng)方法[18]依賴(lài)于手工制作的特征,如GLCM 和邊緣方向,對(duì)于這種弱監(jiān)督的計(jì)數(shù)任務(wù),這些特征是次優(yōu)的。Lei等[19]從少量的點(diǎn)級(jí)注釋?zhuān)ㄍ耆O(jiān)督)和大量的計(jì)數(shù)級(jí)注釋?zhuān)ㄈ醣O(jiān)督)學(xué)習(xí)模型。Borstel 等[20]提出了一種基于高斯過(guò)程的弱監(jiān)督解,用于人群密度估計(jì)。類(lèi)似地,Yang等[21]提出了一種軟標(biāo)簽排序網(wǎng)絡(luò),可以直接回歸人群數(shù)量,而無(wú)須任何位置監(jiān)控。然而,這些計(jì)數(shù)級(jí)弱監(jiān)督計(jì)數(shù)方法的計(jì)數(shù)性能仍然沒(méi)有達(dá)到與完全監(jiān)督計(jì)數(shù)方法相當(dāng)?shù)慕Y(jié)果,存在大量退化,限制了弱監(jiān)督方法在現(xiàn)實(shí)世界中的應(yīng)用。因此,基于ViT的架構(gòu)采用了弱監(jiān)督方法。其中,Tian等[22]借鑒了Chu等[23]提出的Twins SVT,包括骨干網(wǎng)絡(luò)和一個(gè)復(fù)雜的解碼器,它既可以執(zhí)行完全監(jiān)督的人群計(jì)數(shù),也可以執(zhí)行弱監(jiān)督的人群計(jì)數(shù)。在密集場(chǎng)景中,由于對(duì)每個(gè)頭部標(biāo)注邊界框既費(fèi)時(shí)又費(fèi)力,因此一般用頭部的中心點(diǎn)表示目標(biāo)的位置,而且當(dāng)前大多數(shù)數(shù)據(jù)集僅提供點(diǎn)級(jí)標(biāo)注。因此,設(shè)計(jì)一種準(zhǔn)確的人群定位算法可以提高人群跟蹤和人群計(jì)數(shù)性能。

        1 改進(jìn)的人群定位網(wǎng)絡(luò)

        本文旨在探索將純Transformer 模型用于人群定位,建立一個(gè)基于弱監(jiān)督的改進(jìn)Transformer框架Local-Former,如圖1所示。該方法無(wú)須額外的預(yù)處理和后處理即可直接預(yù)測(cè)所有實(shí)例子,包含特征提取網(wǎng)絡(luò)Backbone、編碼器-解碼器網(wǎng)絡(luò)與預(yù)測(cè)器。具體來(lái)說(shuō),該方法首先使用預(yù)先訓(xùn)練的Transformer骨干網(wǎng)絡(luò)從輸入圖像中提取多尺度特征,并將來(lái)自不同階段的特征通過(guò)全局最大池化(global max pooling,GMP)操作后,再經(jīng)過(guò)聚合模塊得到組合特征F。其次,在編碼器-解碼器網(wǎng)絡(luò)中,將組合特征進(jìn)行位置嵌入后的特征Fp輸入編碼器,輸出編碼特征Fe,再將Fe輸入解碼器,且每個(gè)解碼器層采用一組可訓(xùn)練嵌入作為查詢(xún),并將編碼器最后一層的視覺(jué)特征作為鍵和值,輸出解碼特征Fd用于預(yù)測(cè)置信度得分。最后,將Fd和置信度得分送入二值化模塊自適應(yīng)優(yōu)化閾值學(xué)習(xí)器,精確地二值化置信度圖,從而得到人頭中心位置。

        圖1 LocalFormer網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure diagram of LocalFormer

        1.1 Transformer骨干網(wǎng)絡(luò)

        本文提出的LocalFormer 使用金字塔vision Transformer 作為特征提取骨干網(wǎng)絡(luò),在此參考PVTv2[24]的“PVTv2 B5”版本,如表1 所示。它有4 個(gè)階段,每個(gè)階段生成不同比例的特征圖。每個(gè)階段的架構(gòu)包括重疊的補(bǔ)丁嵌入層和變壓器編碼器層的Li數(shù),即第i階段的Li編碼器層。PVTv2 利用重疊的補(bǔ)丁嵌入來(lái)標(biāo)記圖像。生成補(bǔ)丁時(shí),相鄰窗口的重疊面積為其面積的一半。重疊補(bǔ)丁嵌入是通過(guò)應(yīng)用零填充卷積和適當(dāng)?shù)牟介L(zhǎng)來(lái)實(shí)現(xiàn)的。具體來(lái)說(shuō),對(duì)于大小為W×H×C的輸入,卷積層的內(nèi)核大小為2S-1,零填充為S-1,步長(zhǎng)S,內(nèi)核數(shù)C被用于生成一個(gè)尺寸為×C的輸出。第一階段生成補(bǔ)丁的卷積步長(zhǎng)為S=4 ,其余階段為S=2。因此,從第i階段獲得一組特征圖,與輸入圖像的大小相比,尺寸縮小了2(i+1)。

        表1 LocalFormer骨干網(wǎng)絡(luò)參數(shù)配置Table 1 Parameters setting of LocalFormer backbone network

        標(biāo)準(zhǔn)Transformer 層由multi-head attention 和MLP塊組成,同時(shí)采用了層歸一化(layer norm,LN)和殘差連接,如圖2 所示。在第一階段開(kāi)始時(shí),輸入被均勻地劃分為大小相等的重疊補(bǔ)丁,每個(gè)補(bǔ)丁被展平并投影到Ci 維嵌入中。第1、2、3 和4 階段嵌入維度分別為64、128、320 和512,這些補(bǔ)丁嵌入然后通過(guò)Transformer 編碼器。每個(gè)編碼器由一個(gè)自我注意機(jī)制和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)組成,位置編碼在前饋神經(jīng)網(wǎng)絡(luò)中完成。在LocalFormer中,輸入圖像大小為384×384×3像素,第一階段的補(bǔ)丁大小為7×7×3 和3×3×Ci,其中Ci是第i階段的嵌入維度。如前所述,C2=64、C3=128 和C4=320。因此,得到的輸出特征的尺寸分別為96×96×64、48×48×128、24×24×320和12×12×512。

        圖2 標(biāo)準(zhǔn)Transformer層Fig.2 Standard Transformer layer

        通過(guò)實(shí)驗(yàn),在Transformer 骨干網(wǎng)絡(luò)前三階段使用全局最大池化銳化提取特征,去除無(wú)效信息。在第四階段使用全局平均池化(global avg pooling,GAP)來(lái)獲取全局上下文信息,找到所有的目標(biāo)可區(qū)分區(qū)域。因此,從每個(gè)階段獲取特征映射,執(zhí)行全局池化操作以獲得64、128、320和512維的一維序列,并將這些序列中的每一個(gè)投影到長(zhǎng)度為6 912的一維序列中。

        1.2 Transformer編碼器-解碼器

        1.2.1 編碼器

        由于Transformer 編碼器采用1D 序列作為輸入,本文在Transformer 骨干網(wǎng)絡(luò)提取的特征Fp可以直接送入Transformer 編碼器層,以生成編碼特征Fe。這里,編碼器包含許多編碼器層,每一層包括一個(gè)自注意力(self-attention,SA)層和一個(gè)前饋(feed-forward,F(xiàn)F)層。SA由3個(gè)輸入組成,包括查詢(xún)(query,Q)、鍵(key,K)和值(value,V),定義如下:

        其中,Q、K和V從相同的輸入Z獲得(例如,Q=ZWQ)。特別是,使用多頭自注意力(multi self-attention,MSA)來(lái)建模復(fù)雜的特征關(guān)系,這是多個(gè)獨(dú)立SA模塊的擴(kuò)展:MSA=[SA1,SA2,…,SAm]W,其中W是重投影矩陣,m是設(shè)置為8的注意頭數(shù)。

        1.2.2 解碼器

        Transformer解碼器由多個(gè)解碼器層組成,每一層由3 個(gè)子層組成:(1)一個(gè)自我注意力(SA)層。(2)交叉注意(cross attention,CA)層。(3)前饋(FF)層。SA和FF與編碼器相同。CA模塊將兩個(gè)不同的嵌入作為輸入,而不是SA中的相同輸入。將兩個(gè)嵌入表示為X和Y,CA可以寫(xiě)為CA=SA(Q=XWQ,K=YWK,V=YWV)。

        本文中,每個(gè)解碼器采用一組可訓(xùn)練嵌入作為查詢(xún)query,最后一個(gè)編碼器層的視覺(jué)特征作為鍵和值。解碼器輸出解碼后的特征Fd,用于預(yù)測(cè)人頭的點(diǎn)坐標(biāo)(point coordinate)及其置信度得分(confidence score),從而得出場(chǎng)景中的人數(shù)和人群定位。

        1.3 二值化模塊

        許多主流方法利用熱圖進(jìn)行目標(biāo)定位,通常設(shè)置閾值以從預(yù)測(cè)的熱圖中過(guò)濾位置信息。大多數(shù)啟發(fā)式人群定位方法[2-3,8,25]在數(shù)據(jù)集上用單個(gè)閾值提取頭部點(diǎn)。顯然,這不是最佳選擇,因?yàn)榈椭眯哦群透咧眯哦戎g的置信度響應(yīng)不同。為了緩解這個(gè)問(wèn)題,ⅠⅠM提出學(xué)習(xí)一個(gè)像素級(jí)閾值圖來(lái)分割置信度圖[9],這可以有效提升捕獲更多較低響應(yīng)頭并消除相鄰頭中的重疊。但也存在兩個(gè)問(wèn)題:(1)閾值學(xué)習(xí)器在訓(xùn)練過(guò)程中可能會(huì)誘發(fā)NaN(not a number)現(xiàn)象。(2)預(yù)測(cè)的閾值圖相對(duì)粗糙。因此,考慮重新設(shè)計(jì)二值化模塊來(lái)解決這兩個(gè)問(wèn)題。

        如圖3 所示,置信度預(yù)測(cè)值被饋送到閾值學(xué)習(xí)器中,用于解碼像素級(jí)閾值映射。這里,進(jìn)行像素級(jí)的注意過(guò)濾器操作,而不是直接傳遞特征映射Fd。注意過(guò)濾器是解碼特征Fd和置信度預(yù)測(cè)C之間的點(diǎn)積操作,其可表示為:

        圖3 二值化模塊流程圖Fig.3 Flowchart of binarization module

        二值化模塊的核心組件是閾值學(xué)習(xí)器和二值化層。前者從過(guò)濾器學(xué)習(xí)像素級(jí)閾值映射T,后者將置信度映射C二值化為二值映射B。其中,閾值學(xué)習(xí)器由5個(gè)卷積層組成:前三層以3×3的內(nèi)核大小逐步減少特征通道,每一層后面都有一個(gè)批量歸一化和ReLU激活函數(shù)。最后兩層的內(nèi)核大小分別為3×3 和1×1,然后是批處理規(guī)范化、ReLU 和平均池層。添加窗口大小為9×9的平均池層來(lái)平滑閾值圖。最后,引入了一個(gè)定制的激活函數(shù)來(lái)解決NaN現(xiàn)象,其定義如下:

        等式(3)將Ti,j的范圍限制為[0.25,0.90]。與壓縮的Sigmoid激活函數(shù)相比,它不會(huì)強(qiáng)制最后一層輸出±∞等無(wú)意義值,因此,它增加了數(shù)值計(jì)算的穩(wěn)定性。為了確保在訓(xùn)練過(guò)程中適當(dāng)優(yōu)化閾值,規(guī)定了公式(4)的推導(dǎo)規(guī)則。

        閾值學(xué)習(xí)器定義為δ,參數(shù)θt,其輸出閾值映射如公式(5)所示:

        現(xiàn)在,通過(guò)將置信度映射C和閾值映射T轉(zhuǎn)發(fā)到可微二值化層,得到了具有函數(shù)?(C,T)的二值映射B,其公式如下:

        1.4 損失函數(shù)

        在獲得一對(duì)一匹配結(jié)果后,需要計(jì)算反向傳播的損失。由于不同圖像的人群數(shù)量差異很大,而且L1損失[23]對(duì)異常值非常敏感,所以使用平滑的Ls損失,而不是L1損失。平滑Ls損失定義如下:

        公式(7)可以看出,當(dāng) |Prei-Gti|>β時(shí),平滑Ls損失作為L(zhǎng)1損失。|Prei-Gti|≤β時(shí),平滑Ls損失作為L(zhǎng)2損失。β是一個(gè)超參數(shù),Prei和Gti分別代表給定圖像中的預(yù)測(cè)人數(shù)和真實(shí)人數(shù)。

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)集

        在3個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上評(píng)估本文方法,每個(gè)數(shù)據(jù)集詳細(xì)情況如下:

        ShanghaiTech[26]是前幾年最大的大規(guī)模人群統(tǒng)計(jì)數(shù)據(jù)集之一,由1 198幅圖像和330 165條注釋組成。根據(jù)密度分布的不同,將數(shù)據(jù)集分為兩部分:A 部分和B 部分。A 部分由300 張訓(xùn)練圖像和182 張測(cè)試圖像組成。B部分包括400張訓(xùn)練圖像和316張測(cè)試圖像。A 部分是從互聯(lián)網(wǎng)上隨機(jī)選取的圖片,B部分是從上海一個(gè)大都市的繁忙街道上拍攝的圖片。A 部分中的密度比B部分中的密度大得多。該數(shù)據(jù)集所呈現(xiàn)的規(guī)模變化和視角扭曲為許多基于CNN的網(wǎng)絡(luò)的設(shè)計(jì)提供了新的挑戰(zhàn)和機(jī)遇。

        UCF-QNRF[5]是一個(gè)密集的數(shù)據(jù)集,包含1 535幅圖像(1 201 幅用于訓(xùn)練,334 幅用于測(cè)試)和1 251 642 個(gè)注釋。每幅圖像的平均行人數(shù)量為815人,最大人數(shù)達(dá)到了12 865人。此數(shù)據(jù)集中的圖像具有更廣泛的場(chǎng)景,并包含最多樣化的視點(diǎn)集、密度和照明變化。

        NWPU-Crowd[27]是從各種場(chǎng)景收集的大規(guī)模數(shù)據(jù)集,共包含5 109 幅圖像,總共包含2 133 238 個(gè)帶注釋的實(shí)例。這些圖像隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別包含3 109、500 和1 500 幅圖像。與現(xiàn)實(shí)世界中以前的數(shù)據(jù)集相比,除了數(shù)據(jù)量之外,還有一些其他優(yōu)點(diǎn),包括負(fù)樣本、公平評(píng)估、更高的分辨率和較大的外觀變化。此數(shù)據(jù)集提供點(diǎn)級(jí)和框級(jí)注釋。

        2.2 訓(xùn)練環(huán)境

        對(duì)于上述數(shù)據(jù)集,使用原始大小的圖像隨機(jī)水平翻轉(zhuǎn)、縮放(0.8~1.2 倍)和裁剪(768×1 024)來(lái)增加訓(xùn)練數(shù)據(jù)。批處理大小為8,二值化模塊學(xué)習(xí)率設(shè)置為1E-5,其余可學(xué)習(xí)模塊的學(xué)習(xí)率初始化為1E-6。在訓(xùn)練期間,通過(guò)衰減策略更新學(xué)習(xí)率,衰減率為0.9,Adam[28]算法用于優(yōu)化框架,選擇驗(yàn)證集中性能最好的模型來(lái)進(jìn)行測(cè)試和評(píng)估本文模型,將10%的訓(xùn)練數(shù)據(jù)集劃分為一個(gè)驗(yàn)證集。在測(cè)試階段,在驗(yàn)證集上選擇性能最好的模型來(lái)評(píng)估測(cè)試集上的性能,執(zhí)行端到端預(yù)測(cè),無(wú)須多尺度預(yù)測(cè)融合和參數(shù)搜索。

        2.3 評(píng)估指標(biāo)

        在這項(xiàng)工作中,使用精度(precision,Pre)、召回率(recall,Rec)和F1 值(F1-measure,F(xiàn)1)作為人群定位的評(píng)估指標(biāo),具體計(jì)算如下所示:

        其中,TP表示預(yù)測(cè)為1,實(shí)際為1,預(yù)測(cè)正確;FP表示預(yù)測(cè)為1,實(shí)際為0,預(yù)測(cè)錯(cuò)誤;FN表示預(yù)測(cè)為0,實(shí)際為1,預(yù)測(cè)錯(cuò)誤。

        預(yù)測(cè)點(diǎn)和ground truth遵循一對(duì)一匹配。如果匹配對(duì)中的距離小于距離閾值σ,則相應(yīng)的預(yù)測(cè)點(diǎn)被視為人頭中心點(diǎn)的位置。對(duì)于ShanghaiTech數(shù)據(jù)集,使用兩個(gè)固定閾值,包括σ=4 和σ=8。對(duì)于UCF-QNRF,使用[1,2,…,100]中的各種閾值范圍,類(lèi)似于CL[5]。對(duì)于提供框級(jí)注釋的NWPU群組數(shù)據(jù)集,σ設(shè)置為/2,其中w和h分別是每個(gè)頭部的寬度和高度。

        2.4 消融實(shí)驗(yàn)

        2.4.1 全局池化影響

        首先研究GMP和GAP的影響。當(dāng)刪除GMP時(shí),觀察到人群定位的性能顯著下降,精度從74.9%降至72.6%。而刪除GAP 時(shí),精度從74.9%降至73.2%。全局池化對(duì)算法的消融實(shí)驗(yàn),結(jié)果如表2所示。

        表2 全局池化消融實(shí)驗(yàn)結(jié)果Table 2 Results of global pooling ablation experiment單位:%

        2.4.2 Transformer大小消融

        接下來(lái),研究了改變Transformer 大小的影響,包括編碼器/解碼器層的數(shù)量和可訓(xùn)練的實(shí)例查詢(xún)。如表3所示,當(dāng)層和查詢(xún)數(shù)設(shè)置為6 和500 時(shí),LocalFormer 實(shí)現(xiàn)了最佳性能。當(dāng)查詢(xún)數(shù)為300時(shí),所提出的方法的精度降至74.5%。當(dāng)查詢(xún)數(shù)更改為700 時(shí),所提出方法的精度降至74.3%。因此,查詢(xún)數(shù)量過(guò)多或者過(guò)少都會(huì)影響所提出算法的性能。

        表3 Transformer 尺寸的影響Table 3 Effect of Transformer size

        3 結(jié)果及討論

        首先使用一些最先進(jìn)的本地化方法來(lái)評(píng)估本地化性能。對(duì)于NWPU人群,如表4所示,一個(gè)大型數(shù)據(jù)集,本文提出的LocalFormer 在驗(yàn)證集上的F1 值優(yōu)于Auto-Scale[7],為4.0個(gè)百分點(diǎn)。值得注意的是,該數(shù)據(jù)集提供了精確的框級(jí)注釋。盡管本文方法只是基于點(diǎn)注釋?zhuān)@是一種更弱的標(biāo)記機(jī)制,但它仍然可以在NWPU-Crowd測(cè)試集上實(shí)現(xiàn)有優(yōu)勢(shì)的競(jìng)爭(zhēng)性能。對(duì)于密集數(shù)據(jù)集UCF-QNRF(見(jiàn)表5),本文方法實(shí)現(xiàn)了最佳的召回率和F1 值。對(duì)于ShanghaiTech PartA(見(jiàn)表6),一個(gè)稀疏的數(shù)據(jù)集,本文的LocalFormer將最先進(jìn)的方法TopoCount的F1 值改進(jìn)了1.1 個(gè)百分點(diǎn),用于嚴(yán)格的設(shè)置(σ=4),并且在不太嚴(yán)格的設(shè)置(σ=8)中仍然領(lǐng)先。這些結(jié)果表明,該方法可以處理各種場(chǎng)景,包括大規(guī)模、密集和稀疏場(chǎng)景。

        表4 NWPU-Crowd數(shù)據(jù)集的人群定位性能Table 4 Crowd localization performance on NWPU-Crowd dataset 單位:%

        表5 UCF-QNRF數(shù)據(jù)集的人群定位性能Table 5 Crowd localization performance on UCF-QNRF dataset 單位:%

        本文方法的人群定位結(jié)果可視化如圖4所示,第一行為3 個(gè)數(shù)據(jù)集上的4 張人群樣本圖,第二行為人群定位效果圖。其中,圖4(a)和4(b)分別來(lái)自ShanghaiTech數(shù)據(jù)集PartA 和PartB,圖4(c)來(lái)自NWPU-Crowd 數(shù)據(jù)集,圖4(d)來(lái)自UCF_QNRF數(shù)據(jù)集。

        圖4 人群定位可視化結(jié)果Fig.4 Visualization results of crowd localization

        4 結(jié)論

        本文提出一種基于視覺(jué)Transformer 的人群定位算法LocalFormer,實(shí)現(xiàn)了在密集場(chǎng)景下人群定位。該算法基于弱監(jiān)督學(xué)習(xí),將純Transformer 網(wǎng)絡(luò)用于人群定位,并進(jìn)行了改進(jìn)。通過(guò)在Transformer 每一層之后加入全局最大池化操作提高骨干網(wǎng)絡(luò)的特征提取能力。在編碼器-解碼器層,將聚合特征嵌入位置信息,并通過(guò)二值化模塊自適應(yīng)優(yōu)化閾值學(xué)習(xí)器,大幅提升了人群定位模型性能。在三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上的實(shí)驗(yàn)證明本文方法簡(jiǎn)單而有效。下一步,將結(jié)合目標(biāo)檢測(cè)等,探索輕量化的人群定位模型,提高人群分析效率。

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        學(xué)習(xí)方法
        抓住特征巧觀察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        成人aaa片一区国产精品| 亚洲国产美女精品久久久久| 欧美日韩精品乱国产| 人妻少妇av中文字幕乱码免费| 久久久亚洲av成人乱码| 久久综合狠狠综合久久综合88| 99国产精品自在自在久久| 97人妻熟女成人免费视频| 久久se精品一区二区国产| 日本一区二区三区精品免费| 无码av中文一区二区三区桃花岛| 国产av人人夜夜澡人人爽| 亚洲欧美日韩国产精品网| 日本免费三片在线视频| 国产在线无码精品无码| 国产情侣久久久久aⅴ免费| 久久频这里精品99香蕉| 成a人片亚洲日本久久| 大肉大捧一进一出好爽视频动漫| 中日韩精品视频在线观看| 日本少妇按摩高潮玩弄| 中文字幕成人精品久久不卡91| 亚洲伊人av天堂有码在线| 婷婷久久香蕉五月综合加勒比| 人妻在卧室被老板疯狂进入国产 | 成年人视频在线播放麻豆| 国产精品亚洲av三区亚洲| 全部孕妇毛片丰满孕妇孕交| 国产91对白在线观看| 日本国产一区二区在线观看| 免费看黄色亚洲一区久久| 又大又粗又爽的少妇免费视频| 无码之国产精品网址蜜芽| 久久精品伊人久久精品伊人| 欧美大屁股xxxx高潮喷水| av无码精品一区二区三区四区| 秋霞国产av一区二区三区| 97精品一区二区三区| 无码人妻精品一区二区三区不卡| 亚洲国产精品久久久性色av| 国产精品一区二区韩国av|