于永輝,蔡佳航,劉斌,虞海江,楊文武*
(1.浙江工商大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,杭州 310018;2.南昌大學(xué)信息工程學(xué)院,南昌 330031;3.中科院軟件所,北京 100190)
二維人體目標(biāo)檢測(cè)(2D Human Object Detection)在諸多應(yīng)用領(lǐng)域中扮演著關(guān)鍵角色,例如人體姿態(tài)識(shí)別和視頻監(jiān)控等[1-2]。傳統(tǒng)的二維人體目標(biāo)檢測(cè)算法主要基于手工設(shè)計(jì)特征,例如使用HOG、SURF 等算法提取圖像中的局部特征進(jìn)行人體目標(biāo)識(shí)別[3-4]。傳統(tǒng)方法的主要弊端是需要大量的專業(yè)知識(shí)和經(jīng)驗(yàn)來(lái)設(shè)計(jì)特征,并且手工設(shè)計(jì)的特征其表示質(zhì)量和泛化能力存在局限性,最終限制了目標(biāo)檢測(cè)算法在實(shí)際應(yīng)用環(huán)境中的性能。與傳統(tǒng)方法不同,基于深度學(xué)習(xí)技術(shù)的二維人體目標(biāo)檢測(cè)方法自動(dòng)從大量數(shù)據(jù)中學(xué)習(xí)到特征表示,從而能夠生成更加高效的目標(biāo)檢測(cè)特征[5-6]。近年來(lái),基于深度卷積神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)檢測(cè)算法研究取得了突破性進(jìn)展[7-9],在富有挑戰(zhàn)性的公開(kāi)數(shù)據(jù)集上顯著提升了二維人體目標(biāo)檢測(cè)性能[10-12]。公開(kāi)數(shù)據(jù)集中的圖片主要對(duì)應(yīng)著日常的室內(nèi)外白熾光照環(huán)境,但在一些特殊環(huán)境中,例如現(xiàn)場(chǎng)的舞臺(tái)演出環(huán)境,場(chǎng)景中的燈光五顏六色、忽明忽暗且變化劇烈,現(xiàn)有的二維人體目標(biāo)檢測(cè)算法在這些燈光劇烈變化場(chǎng)景中的檢測(cè)性能和魯棒性均會(huì)發(fā)生明顯下降,如圖1所示。
圖2 StageHuman數(shù)據(jù)集中的部分二維人體標(biāo)注結(jié)果
圖3 三種不同風(fēng)格遷移算法對(duì)劇烈燈光變化風(fēng)格的遷移效果
針對(duì)上述問(wèn)題,本文提出了一種燈光劇烈變化環(huán)境自適應(yīng)的二維人體目標(biāo)檢測(cè)方法。首先,為了驗(yàn)證當(dāng)前二維人體目標(biāo)檢測(cè)算法在具有劇烈燈光變化環(huán)境中表現(xiàn)不足,同時(shí)為了設(shè)計(jì)和測(cè)試新算法,本文采集并構(gòu)建了一個(gè)包含各種燈光顏色和劇烈燈光變化的人體圖片基準(zhǔn)數(shù)據(jù)集(命名為“StageHuman”)。StageHuman 數(shù)據(jù)集中的圖片采自于浙江橫店影視城景區(qū)內(nèi)的現(xiàn)場(chǎng)舞臺(tái)演出環(huán)境,對(duì)應(yīng)著多個(gè)風(fēng)格迥異的舞臺(tái)演出場(chǎng)景,場(chǎng)景中燈光復(fù)雜且變化劇烈,包含著各種顏色和明暗不均的舞臺(tái)燈光,并且可編程電腦燈還會(huì)發(fā)生各種閃爍以及朝向變化。此外,舞臺(tái)上的演員個(gè)數(shù)一直動(dòng)態(tài)變化,少到僅1 個(gè)人,多到二三十人,并且演員服裝和姿態(tài)各異,此外演員之間以及演員與表演道具之間常常發(fā)生相互遮擋。因此,StageHuman數(shù)據(jù)集不僅具有劇烈燈光變化的特點(diǎn),并且包含了豐富的人體與環(huán)境多樣性。
基于StageHuman 數(shù)據(jù)集,本文進(jìn)一步提出一種基于風(fēng)格遷移的數(shù)據(jù)增強(qiáng)策略,以提升深度神經(jīng)網(wǎng)絡(luò)模型在燈光劇烈變化環(huán)境下進(jìn)行二維人體目標(biāo)檢測(cè)的魯棒性和精度。該數(shù)據(jù)增強(qiáng)策略利用圖片風(fēng)格遷移算法,將StageHuman 數(shù)據(jù)集圖片中蘊(yùn)含的劇烈燈光變化風(fēng)格遷移到大規(guī)模公開(kāi)數(shù)據(jù)集的圖片中,例如COCO 數(shù)據(jù)集,從而自動(dòng)獲得具有特定燈光變化風(fēng)格的大規(guī)模標(biāo)注數(shù)據(jù)?;陲L(fēng)格遷移后獲得的具有特定燈光變化風(fēng)格的大規(guī)模標(biāo)注數(shù)據(jù),本文訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型使其學(xué)習(xí)到圖片中蘊(yùn)含的劇烈燈光變化風(fēng)格,從而提升模型在劇烈燈光變化環(huán)境下的二維人體檢測(cè)性能。以StageHuman 數(shù)據(jù)集作為測(cè)試驗(yàn)證數(shù)據(jù)集,通過(guò)大量的實(shí)驗(yàn)對(duì)比與分析,驗(yàn)證了上述方法能夠有效提升深度神經(jīng)網(wǎng)絡(luò)模型在劇烈燈光變化環(huán)境下的魯棒性和檢測(cè)精度,并且該有效性不依賴于具體的風(fēng)格遷移算法,而主要取決于所遷移的燈光變化風(fēng)格的多樣性和完整性。
本文貢獻(xiàn)可以歸納為以下三方面:
(1)采集并構(gòu)建了一個(gè)名為StageHuman的二維人體目標(biāo)檢測(cè)基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集中的圖片蘊(yùn)含了各種燈光顏色以及明暗不均的劇烈燈光變化。根據(jù)我們目前的調(diào)研結(jié)果,StageHuman 數(shù)據(jù)集是國(guó)內(nèi)外首個(gè)面向燈光劇烈變化環(huán)境的二維人體目標(biāo)檢測(cè)數(shù)據(jù)集。
(2)提出一種燈光劇烈變化環(huán)境自適應(yīng)的二維人體目標(biāo)檢測(cè)方法,其核心是一個(gè)基于風(fēng)格遷移的數(shù)據(jù)增強(qiáng)策略,它利用已有的大規(guī)模公開(kāi)數(shù)據(jù)集,自動(dòng)獲得具有特定燈光變化風(fēng)格的大規(guī)模標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,最終實(shí)現(xiàn)燈光劇烈變化環(huán)境自適應(yīng)的二維人體目標(biāo)檢測(cè)。
(3)基于StageHuman數(shù)據(jù)集,通過(guò)大量實(shí)驗(yàn),充分驗(yàn)證了本文所提出算法在劇烈燈光變化環(huán)境下的有效性和魯棒性。
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)基本任務(wù),其目標(biāo)是從圖像或視頻中識(shí)別并定位出多個(gè)物體的類別和位置。相較于圖像分類任務(wù)只需輸出物體的類別,目標(biāo)檢測(cè)則還需要準(zhǔn)確地定位物體的空間位置信息。二維人體目標(biāo)檢測(cè)是目標(biāo)檢測(cè)的一個(gè)特定領(lǐng)域,與一般的目標(biāo)檢測(cè)相比,二維人體目標(biāo)檢測(cè)更加專注于人體目標(biāo)的檢測(cè)和定位。由于人體的形狀、姿態(tài)和變化范圍廣泛,人體目標(biāo)檢測(cè)在許多應(yīng)用中具有重要意義,如視頻監(jiān)控、人機(jī)交互、人臉識(shí)別、行為分析等。
Girshick 等人[6]提出了經(jīng)典的R-CNN 算法,它是一種基于錨框的兩階段檢測(cè)算法。相比于傳統(tǒng)的滑動(dòng)窗口(Sliding Window)方法,R-CNN 將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)化為候選框的分類和回歸問(wèn)題,大大減少了計(jì)算量,并提高了檢測(cè)性能。在R-CNN 算法中,重疊框特征的冗余計(jì)算使得整個(gè)網(wǎng)絡(luò)的檢測(cè)效率較低。為了減少大量重疊框帶來(lái)的冗余計(jì)算,K. He 等人[13]提出了一種空間金字塔池化層(Spatial Pyramid Pooling Layer, SPP),主要思路是對(duì)于一副圖像分成若干尺度的圖像塊,然后對(duì)每一塊提取的特征融合在一起,從而兼顧多個(gè)尺度的特征。進(jìn)一步,R. Girshick 等人[7]提出了Fast RCNN,該網(wǎng)絡(luò)使得我們可以在相同的網(wǎng)絡(luò)配置下同時(shí)訓(xùn)練一個(gè)檢測(cè)器和邊框回歸器,其改進(jìn)版本Faster RCNN則是第一個(gè)端到端的深度學(xué)習(xí)檢測(cè)算法,極大提升了檢測(cè)框的生成速度。
兩階段目標(biāo)檢測(cè)雖然在目標(biāo)檢測(cè)領(lǐng)域取得了很好的成果,但是它的計(jì)算復(fù)雜度比較高,且需要多個(gè)階段的計(jì)算。為了解決這些問(wèn)題,研究人員開(kāi)始探索單階段目標(biāo)檢測(cè)算法。在最新的單階段目標(biāo)檢測(cè)算法中,一些算法的性能已經(jīng)超過(guò)了兩階段目標(biāo)檢測(cè)算法,同時(shí)計(jì)算復(fù)雜度也得到了很大的優(yōu)化。YOLO[9]作為一種較為流行的單階段目標(biāo)檢測(cè)算法,其核心思想是將目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為一個(gè)回歸問(wèn)題。YOLO結(jié)合了兩階段算法的優(yōu)點(diǎn),使用單個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)檢測(cè)到的對(duì)象執(zhí)行邊界框的分類和預(yù)測(cè)。此外,它針對(duì)檢測(cè)器進(jìn)行了大量?jī)?yōu)化,從而大幅提升了目標(biāo)檢測(cè)任務(wù)的處理速度,實(shí)現(xiàn)了實(shí)時(shí)的目標(biāo)檢測(cè)。最終,YOLO算法在準(zhǔn)確性和速度上取得了很好的平衡。YOLO算法自提出以來(lái)一直在更新迭代,目前已經(jīng)產(chǎn)生了從YOLOv1到Y(jié)OLOv8的一系列目標(biāo)檢測(cè)算法。
隨著大規(guī)模人體圖片標(biāo)注數(shù)據(jù)集的可公開(kāi)獲得,上述基于深度學(xué)習(xí)的二維人體目標(biāo)檢測(cè)方法均取得了明顯的性能提升,已經(jīng)成為該方向的主流技術(shù)。但是,不同于人類視覺(jué)能夠適應(yīng)各種燈光變化環(huán)境,現(xiàn)有的二維人體目標(biāo)檢測(cè)算法在劇烈燈光變化場(chǎng)景中其檢測(cè)性能會(huì)明顯下降,使得這些算法不能直接應(yīng)用于具有劇烈燈光變化的復(fù)雜場(chǎng)景環(huán)境中。
風(fēng)格遷移(Style Transfer)是指將一種圖像的藝術(shù)風(fēng)格應(yīng)用到另一幅圖像上,從而生成一幅新的圖像,使得新圖像既保留原圖像中的主體內(nèi)容,同時(shí)又帶有另一幅圖像的藝術(shù)風(fēng)格。利用深度學(xué)習(xí)方法進(jìn)行風(fēng)格遷移是圖像領(lǐng)域研究的熱點(diǎn)之一。當(dāng)前主流的基于深度學(xué)習(xí)的圖像風(fēng)格遷移方法可以劃分為兩類:基于圖像迭代的圖像風(fēng)格遷移方法以及基于模型迭代的圖像風(fēng)格遷移方法。
Leon A. Gatys 等人[14]首次提出一種基于圖像迭代的圖像風(fēng)格遷移方法。論文作者發(fā)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)(CNN)中內(nèi)容和樣式的表示是可分離的,因此可以獨(dú)立地操縱這兩種表示以產(chǎn)生新的、具有感知意義的圖像。其主要思路是使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,然后紋理合成,計(jì)算內(nèi)容損失和風(fēng)格損失,使用梯度下降優(yōu)化總損失,然后不斷迭代圖像以得到藝術(shù)圖像。然而,由于迭代次數(shù)過(guò)多、迭代時(shí)間較長(zhǎng),這種基于圖像迭代的方法效率較低,隨之出現(xiàn)了快速風(fēng)格遷移方法。Justin Johnson 等人[15]中提出了一種基于模型迭代的實(shí)時(shí)圖像風(fēng)格遷移方法。該方法使用前饋卷積神經(jīng)網(wǎng)絡(luò)對(duì)感知損失進(jìn)行優(yōu)化并生成圖片,圖像不是由隨機(jī)噪聲產(chǎn)生,而是通過(guò)輸入圖像的變換得到。因此,該方法被稱為快速風(fēng)格遷移方法,而圖像風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)也被稱為快速風(fēng)格化網(wǎng)絡(luò)。
在最新的研究中,Domain[16]提出了一種基于域感知的風(fēng)格傳輸網(wǎng)絡(luò),不僅能夠傳輸模版圖片的樣式,還能同時(shí)傳遞域的屬性,同時(shí)針對(duì)不同的圖像領(lǐng)域,自適應(yīng)的調(diào)整風(fēng)格轉(zhuǎn)換參數(shù),從而獲得更好的結(jié)果。FastPhoto[17]網(wǎng)絡(luò)主要由樣式化以及平滑步驟兩部分組成,樣式化會(huì)將模版圖片中的樣式轉(zhuǎn)移到待遷移圖片中,平滑化則確保兩者空間上的樣式一致性。由于使用了封閉的函數(shù)來(lái)實(shí)現(xiàn)風(fēng)格化,該方法遷移速度遠(yuǎn)高于傳統(tǒng)算法。StyleNas[18]是一種基于神經(jīng)網(wǎng)絡(luò)搜索架構(gòu)的方法,它不需要進(jìn)行后處理就能得到遷移后的圖片,并且網(wǎng)絡(luò)還使用了自動(dòng)剪枝框架,能在保持風(fēng)格化不變的情況下,提升風(fēng)格遷移轉(zhuǎn)換效率。
為了驗(yàn)證并提升基于深度網(wǎng)絡(luò)模型的二維人體目標(biāo)檢測(cè)算法在劇烈燈光變化場(chǎng)景中的性能,在真實(shí)的復(fù)雜演出環(huán)境中采集并構(gòu)建了一個(gè)專門的二維人體目標(biāo)檢測(cè)基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集中的圖片蘊(yùn)含了各種燈光顏色以及明暗不均的劇烈燈光變化。把該數(shù)據(jù)集命名為StageHuman,并且根據(jù)目前的調(diào)研結(jié)果,StageHuman 數(shù)據(jù)集是國(guó)內(nèi)外首個(gè)面向燈光劇烈變化環(huán)境的二維人體目標(biāo)檢測(cè)數(shù)據(jù)集。
StageHuman 數(shù)據(jù)集的創(chuàng)建分為三個(gè)階段:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)集標(biāo)注。在數(shù)據(jù)獲取階段,為了保證數(shù)據(jù)的多樣性和真實(shí)性,選取了6 個(gè)不同的真實(shí)舞臺(tái)演出場(chǎng)景,各個(gè)場(chǎng)景都對(duì)應(yīng)不同的舞臺(tái)燈光變化情況,并且演出人物、服飾和動(dòng)作都各有特色。在數(shù)據(jù)采集過(guò)程中,使用松下GH5S 單反相機(jī),以1080p的分辨率和50fps 的拍攝幀率,從舞臺(tái)前方的三個(gè)不同視角對(duì)正在進(jìn)行的舞臺(tái)表演進(jìn)行拍攝,從而獲取到覆蓋了整個(gè)舞臺(tái)表演的清晰視頻圖像。在數(shù)據(jù)預(yù)處理階段,為了消除冗余數(shù)據(jù),以20 幀為步長(zhǎng)對(duì)視頻數(shù)據(jù)進(jìn)行均勻采樣,得到單張圖像。在采樣得到的所有圖像中,以前70%作為訓(xùn)練集圖像,后30%作為測(cè)試集圖像。最后,在數(shù)據(jù)集標(biāo)注階段,采用開(kāi)源標(biāo)注軟件Labelme,對(duì)訓(xùn)練集和測(cè)試集圖像標(biāo)注其中的二維人體檢測(cè)框。采用交叉標(biāo)注的方式,保證每張圖像都至少經(jīng)過(guò)兩名標(biāo)注人員的標(biāo)注和檢查。在兩名標(biāo)注人員標(biāo)注情況下,整個(gè)標(biāo)注過(guò)程由兩名標(biāo)注人員共耗時(shí)約1 個(gè)月完成。最終,StageHuman 數(shù)據(jù)集共包含30,346 張單人檢測(cè)數(shù)據(jù),其中的21,242 張為訓(xùn)練集,另外的9,104 張為測(cè)試集。圖 2 給出了數(shù)據(jù)集中的部分二維人體標(biāo)注結(jié)果。
為了提升現(xiàn)有的基于深度網(wǎng)絡(luò)模型的二維人體目標(biāo)檢測(cè)算法在燈光劇烈變化環(huán)境中的檢測(cè)性能,一種直接的方法是使用StageHuman 數(shù)據(jù)集對(duì)已有的二維人體目標(biāo)檢測(cè)深度網(wǎng)絡(luò)模型進(jìn)行微調(diào),以使其適應(yīng)具有劇烈燈光變化的復(fù)雜環(huán)境。但是由于StageHuman 數(shù)據(jù)集主要采集于舞臺(tái)表演場(chǎng)景,并且數(shù)據(jù)集規(guī)模有限,容易造成深度網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中過(guò)擬合,并且難以泛化到更多的場(chǎng)景和環(huán)境。針對(duì)這一問(wèn)題,我們提出了一種基于風(fēng)格遷移的數(shù)據(jù)增強(qiáng)策略,將StageHuman 數(shù)據(jù)集圖片所對(duì)應(yīng)場(chǎng)景中的劇烈燈光變化風(fēng)格遷移到大規(guī)模公開(kāi)數(shù)據(jù)集COCO 的人體圖片中,再利用風(fēng)格遷移后的大規(guī)模數(shù)據(jù)集來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,從而提升模型在劇烈燈光變化環(huán)境下的二維人體檢測(cè)性能,并保持模型在各種場(chǎng)景和環(huán)境中的泛化能力。
為了實(shí)現(xiàn)StageHuman 數(shù)據(jù)集場(chǎng)景中劇烈燈光變化風(fēng)格的遷移,我們考慮了三種主流的風(fēng)格遷移算法:Domain[16]、FastPhoto[17]、StyleNas[18]。這三種風(fēng)格遷移算法的遷移效果如圖 3所示,其中Reference指待遷移風(fēng)格圖片,也稱為“遷移模板”??梢钥闯?,這三種遷移算法的遷移效果各有不同,但是它們均較好地把StageHuman 數(shù)據(jù)集圖片中所包含的燈光變化風(fēng)格遷移到了COCO 數(shù)據(jù)集的人體圖片中。在后面的實(shí)驗(yàn)部分,我們將通過(guò)對(duì)比實(shí)驗(yàn),來(lái)驗(yàn)證不同遷移算法對(duì)最終的二維人體目標(biāo)檢測(cè)結(jié)果的影響。
在本文提出的基于風(fēng)格遷移的數(shù)據(jù)增強(qiáng)策略中,利用上述三種風(fēng)格遷移算法,將StageHuman 數(shù)據(jù)集圖片中所蘊(yùn)含的燈光變化風(fēng)格遷移到大規(guī)模公開(kāi)數(shù)據(jù)集COCO 的人體圖片中,從而實(shí)現(xiàn)COCO 訓(xùn)練數(shù)據(jù)集的增強(qiáng)。為了遷移StageHuman 數(shù)據(jù)集圖片中所蘊(yùn)含的燈光變化風(fēng)格,需要從該數(shù)據(jù)集中選取一組待遷移風(fēng)格的圖片,這些圖片被稱為“風(fēng)格遷移模板”。在實(shí)驗(yàn)中,根據(jù)所選用的風(fēng)格遷移算法以及風(fēng)格遷移模塊,本文制定了不同的數(shù)據(jù)增強(qiáng)策略。為了驗(yàn)證不同遷移算法對(duì)二維人體目標(biāo)檢測(cè)結(jié)果的影響,可以使用單個(gè)遷移算法、兩個(gè)遷移算法或三個(gè)遷移算法的不同組合來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)。同時(shí),為了驗(yàn)證風(fēng)格遷移模板的數(shù)量對(duì)二維人體目標(biāo)檢測(cè)結(jié)果的影響,可以使用單張遷移模板或多張遷移模板來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)。
基于遷移算法和遷移模板數(shù)量的不同組合,最終可以得到11種不同的數(shù)據(jù)增強(qiáng)策略,如表 1所示。在這些增強(qiáng)策略中,“單張模版”表示的是人工挑選了StageHuman訓(xùn)練集中燈光顏色變化具有代表性的某張圖片,而“多張模版”表示的是人工挑選了StageHuman訓(xùn)練集中燈光顏色變化具有代表性的一組圖片。在實(shí)驗(yàn)中,“多張模版”包含了10張代表性圖片。根據(jù)所選用的遷移算法以及模版數(shù)量,為每種增強(qiáng)策略進(jìn)行了命名。其中,YOLO表示將選用YOLOv5訓(xùn)練二維人體目標(biāo)檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)模型;D、F 和S 分別表示使用Domain[16],F(xiàn)ast-Photo[17]或StyleNas[18]算法進(jìn)行風(fēng)絡(luò)遷移;SGL和MUL分別表示使用了“單張模版”或“多張模版”。
在YOLOv5 模型的訓(xùn)練過(guò)程中,對(duì)于每種數(shù)據(jù)增強(qiáng)策略,本文采用如下方法進(jìn)行數(shù)據(jù)增強(qiáng):對(duì)于COCO 數(shù)據(jù)集中的每個(gè)訓(xùn)練樣本,首先根據(jù)該策略確定遷移算法,如果該策略包含兩個(gè)及以上的遷移算法,隨機(jī)選擇其中的一個(gè)遷移算法;然后根據(jù)該策略確定遷移模板,如果該策略包含多個(gè)遷移模板,隨機(jī)選擇其中的一個(gè)作為遷移模板;最后,根據(jù)確定的遷移算法和遷移模板,把該模板中的風(fēng)格遷移到上述的COCO的數(shù)據(jù)集中的訓(xùn)練樣本中。
表1 遷移算法與遷移模版的不同組合所形成的數(shù)據(jù)增強(qiáng)策略
根據(jù)上節(jié)介紹的數(shù)據(jù)增強(qiáng)策略,本文利用大規(guī)模公開(kāi)數(shù)據(jù)集MS COCO 中的人體圖片,來(lái)訓(xùn)練二維人體檢測(cè)深度神經(jīng)網(wǎng)絡(luò)模型YOLOv5。根據(jù)不同數(shù)據(jù)增強(qiáng)策略所訓(xùn)練得到的二維人體檢測(cè)深度神經(jīng)網(wǎng)絡(luò)模型,我們分別在COCO 數(shù)據(jù)集的驗(yàn)證集以及Stage-Human 數(shù)據(jù)集的測(cè)試集上對(duì)其進(jìn)行性能評(píng)估。我們分別使用了AP、AR 和F1 Score 三個(gè)指標(biāo)進(jìn)行了二維人體檢測(cè)性能的評(píng)估。
AP 指標(biāo):是一種用來(lái)衡量物體檢測(cè)模型的精度評(píng)價(jià)指標(biāo),反映了檢測(cè)器對(duì)每個(gè)類別的識(shí)別準(zhǔn)確程度。AP值越高,說(shuō)明模型的檢測(cè)性能越好。
AR 指標(biāo):是一種用來(lái)衡量物體檢測(cè)模型在不同召回率下的準(zhǔn)確度評(píng)價(jià)指標(biāo),AR 指的是平均召回率(Average Recall,AR),也就是在不同的召回率閾值下,模型檢測(cè)出的正確目標(biāo)數(shù)的平均值。AR 值越高,說(shuō)明模型的檢測(cè)性能越好。
F1 Score 指標(biāo):是綜合考慮Precision 和Recall 兩個(gè)指標(biāo)的評(píng)價(jià)指標(biāo),其計(jì)算方法是精確率與召回率的調(diào)和均值,即公式(1)所示:
F1 Score值越高,說(shuō)明模型的分類性能越好。
表2給出了單一遷移算法和單張模板組合下的數(shù)據(jù)增強(qiáng)策略所訓(xùn)練得到的二維人體檢測(cè)深度神經(jīng)網(wǎng)絡(luò)模型的性能結(jié)果。其中,YOLOv5s表示在COCO數(shù)據(jù)集上訓(xùn)練而沒(méi)有使用數(shù)據(jù)增強(qiáng)得到的深度模型。該實(shí)驗(yàn)主要用于驗(yàn)證不同遷移算法對(duì)最終檢測(cè)結(jié)果的影響。由表可見(jiàn),與未進(jìn)行數(shù)據(jù)增強(qiáng)的YOLOv5s模型相比,三種數(shù)據(jù)增強(qiáng)策略訓(xùn)練后得到的模型在StageHuman數(shù)據(jù)集上的AP和AR精度不僅沒(méi)有提升反而都出現(xiàn)了下降,這表明了使用單張模版的策略未能提升模型在劇烈燈光變化環(huán)境下的二維人體檢測(cè)性能。此外,我們注意到,三種數(shù)據(jù)增強(qiáng)策略訓(xùn)練后得到的模型在COCO 數(shù)據(jù)集的AP精度僅出現(xiàn)了較小幅度的下降(-1% ~ -1.5%)以及AR 指標(biāo)的略微上升(+0.6 %~+1.4%),這表明三種不同的風(fēng)格遷移算法并未對(duì)COCO 數(shù)據(jù)集中的圖片本質(zhì)內(nèi)容產(chǎn)生較大影響,只是改變了數(shù)據(jù)集中圖片的風(fēng)格,并能夠保持在COCO 數(shù)據(jù)集所對(duì)應(yīng)的各種不同環(huán)境中的泛化能力,進(jìn)而驗(yàn)證了使用風(fēng)格遷移算法進(jìn)行數(shù)據(jù)增強(qiáng)策略的可行性。
表2 單張模版+單一算法策略下進(jìn)行數(shù)據(jù)增強(qiáng)的二維人體檢測(cè)結(jié)果
表3給出了在單張模板下,不同遷移算法組合的數(shù)據(jù)增強(qiáng)策略所訓(xùn)練得到的二維人體檢測(cè)深度神經(jīng)網(wǎng)絡(luò)模型的性能結(jié)果。其中,YOLOv5s表示在COCO數(shù)據(jù)集上訓(xùn)練而沒(méi)有使用數(shù)據(jù)增強(qiáng)得到的深度模型。該實(shí)驗(yàn)主要用于驗(yàn)證通過(guò)組合風(fēng)格遷移算法是否可以提升燈光變化風(fēng)格的遷移能力。由表可見(jiàn),與未進(jìn)行數(shù)據(jù)增強(qiáng)的YOLOv5s模型相比,四種數(shù)據(jù)增強(qiáng)策略訓(xùn)練后得到的模型在StageHuman數(shù)據(jù)集上的AP和AR精度不僅沒(méi)有提升反而都出現(xiàn)了下降。并且,從表 2和表 3可以看出,在相同的單張模版策略下,使用單一遷移算法與使用不同遷移算法的組合在最終的二維人體檢測(cè)結(jié)果上性能較接近。這進(jìn)一步驗(yàn)證了通過(guò)表 2結(jié)果得出的結(jié)論:使用單張模版的策略不能提升模型在劇烈燈光變化環(huán)境下的二維人體檢測(cè)性能。
表4 多張模版+單一算法策略下進(jìn)行數(shù)據(jù)增強(qiáng)的二維人體檢測(cè)結(jié)果
表 4 給出了單一遷移算法和多張模板組合下的數(shù)據(jù)增強(qiáng)策略所訓(xùn)練得到的二維人體檢測(cè)深度神經(jīng)網(wǎng)絡(luò)模型的性能結(jié)果。其中,YOLOv5s表示在COCO數(shù)據(jù)集上訓(xùn)練而沒(méi)有使用數(shù)據(jù)增強(qiáng)得到的深度模型。該實(shí)驗(yàn)主要用于驗(yàn)證模版圖片樣本多樣性對(duì)最終檢測(cè)結(jié)果的影響。由表可見(jiàn),與未進(jìn)行數(shù)據(jù)增強(qiáng)的YOLOv5s 模型相比,三種數(shù)據(jù)增強(qiáng)策略訓(xùn)練后得到的模型在StageHuman 數(shù)據(jù)集上的AP 精度均有提升,提升幅度分別為0.7%、4.6%、0.4%,以及在AR 指標(biāo)下精度也有著不同程度的提升。該結(jié)果表明,在使用多張模版策略進(jìn)行數(shù)據(jù)增強(qiáng)時(shí),三種不同的風(fēng)格遷移算法都能將StageHuman 數(shù)據(jù)集圖片中的燈光變化風(fēng)格遷移到COCO 數(shù)據(jù)集中,從而提升訓(xùn)練模型在劇烈燈光變化環(huán)境下的二維人體檢測(cè)性能。其中,F(xiàn)astPhoto風(fēng)格遷移算法取得了4.6%的AP精度提升以及6.1%的AR精度提升,明顯更優(yōu)于Domain 與 StyleNas 算法。綜合上述分析,可以得出結(jié)論:1)相比于單張模版策略,多張模版策略能夠充分提取出復(fù)雜環(huán)境中的劇烈燈光變化風(fēng)格;2)不同的遷移算法具有不同的燈光變化風(fēng)格遷移能力。
表5給出了三個(gè)遷移算法和多張模板組合下的數(shù)據(jù)增強(qiáng)策略所訓(xùn)練得到的二維人體檢測(cè)深度神經(jīng)網(wǎng)絡(luò)模型的性能結(jié)果。其中,YOLOv5s表示在COCO數(shù)據(jù)集上訓(xùn)練而沒(méi)有使用數(shù)據(jù)增強(qiáng)得到的深度模型。該實(shí)驗(yàn)主要用于驗(yàn)證模版多樣性與遷移算法多樣性對(duì)最終檢測(cè)結(jié)果的影響。由表可見(jiàn),與未進(jìn)行數(shù)據(jù)增強(qiáng)的YOLOv5s 模型相比,該數(shù)據(jù)增強(qiáng)策略訓(xùn)練后得到的模型在StageHuman 數(shù)據(jù)集上的AP 精度提升了1.9%以及AR 精度提升了5.5%。進(jìn)一步對(duì)比表 3 和表 4,可以看出,在多張模板情況下,采用三個(gè)遷移算法的組合與單一遷移算法取得的檢測(cè)精度提升相差較小。我們可以得出結(jié)論:相比于不同遷移算法對(duì)燈光變化風(fēng)格遷移能力的影響,多張模版策略對(duì)燈光變化風(fēng)格遷移能力具有更大的影響。
表5 多張模版+混合三種算法策略下進(jìn)行數(shù)據(jù)增強(qiáng)的二維人體檢測(cè)結(jié)果
本文提出了一種燈光劇烈變化環(huán)境自適應(yīng)的二維人體目標(biāo)檢測(cè)方法。首先,為了驗(yàn)證并提升基于深度網(wǎng)絡(luò)模型的二維人體目標(biāo)檢測(cè)算法在劇烈燈光變化場(chǎng)景中的性能,本文在真實(shí)的復(fù)雜演出環(huán)境中采集并構(gòu)建了一個(gè)專門的二維人體目標(biāo)檢測(cè)基準(zhǔn)數(shù)據(jù)集StageHuman。然后,通過(guò)組合不同的風(fēng)格遷移算法以及遷移模板數(shù)量,制定了多種的數(shù)據(jù)增強(qiáng)策略。最后,根據(jù)每種數(shù)據(jù)增強(qiáng)策略,將StageHuman 數(shù)據(jù)集圖片中的劇烈燈光變化風(fēng)格遷移到大規(guī)模公開(kāi)數(shù)據(jù)集COCO 的人體圖片中,再利用風(fēng)格遷移后的大規(guī)模數(shù)據(jù)集訓(xùn)練得到二維人體檢測(cè)深度神經(jīng)網(wǎng)絡(luò)模型。通過(guò)對(duì)每種數(shù)據(jù)增強(qiáng)策略下訓(xùn)練得到的模型進(jìn)行對(duì)比分析,發(fā)現(xiàn)本文提出的基于數(shù)據(jù)增強(qiáng)的復(fù)雜燈光環(huán)境下二維人體目標(biāo)檢測(cè)方法能夠有效提升深度神經(jīng)網(wǎng)絡(luò)模型在劇烈燈光變化環(huán)境下的檢測(cè)精度,并且該有效性不依賴于具體的風(fēng)格遷移算法,而主要取決于所遷移的燈光變化風(fēng)格的多樣性和完整性。