亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于多尺度的目標(biāo)檢測錨點(diǎn)構(gòu)造方法

2024-02-29 14:38:10邵延華黃琦夢梅艷瑩張曉強(qiáng)楚紅雨吳亞東

紅外技術(shù) 2024年2期

邵延華，黃琦夢，梅艷瑩，張曉強(qiáng)，楚紅雨，吳亞東

（1.西南科技大學(xué) 信息工程學(xué)院，四川綿陽 621010；2.四川輕化工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，四川自貢 643000）

0 引言

目標(biāo)檢測是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)，其中目標(biāo)尺度多變是最具挑戰(zhàn)性的問題之一[1-2]。針對上述問題，國內(nèi)外學(xué)者提出多尺度檢測方法[3]，利用檢測器構(gòu)建特征金字塔和多尺度特征輸出獲取更優(yōu)的預(yù)測結(jié)果。為實(shí)現(xiàn)多尺度輸出，錨點(diǎn)（anchor）被著名的Faster-RCNN[3]首次引入目標(biāo)檢測：即對圖像中的目標(biāo)進(jìn)行分類檢測之前，預(yù)先放置一批已知長寬的候選框，以便網(wǎng)絡(luò)進(jìn)行分類和識(shí)別。從此，基于錨點(diǎn)的檢測算法成為目標(biāo)檢測領(lǐng)域的一個(gè)重要分支[1]。

YOLO（you only look once）除YOLO v1 與YOLOX 外，均為典型的單階段基于錨點(diǎn)的檢測模型[4]。YOLO v1 使用全連接層直接預(yù)測邊界框，由于空間信息丟失較多，導(dǎo)致定位不準(zhǔn)。YOLO v2 受Faster-RCNN 啟發(fā)，通過引入大量錨點(diǎn)來代替v1 的全連接層進(jìn)行邊界框預(yù)測，并使用交并比（intersection over Union,IoU）[5]值最高的錨點(diǎn)結(jié)合預(yù)測偏移量得到預(yù)測框，提高了檢測精度。由于原版YOLO 模型的錨點(diǎn)是通過聚類MS-COCO[6]數(shù)據(jù)集得到的，對于特定場景數(shù)據(jù)集來說，部分錨點(diǎn)取值可能并不合理。因此，為避免上述問題，部分研究者提出了無錨點(diǎn)的檢測模型，但該類方法由于圖像金字塔或特征金字塔層數(shù)較多，導(dǎo)致檢測速度有所降低[7-8]。另有研究者在訓(xùn)練基于錨點(diǎn)的目標(biāo)檢測模型前使用基于歐式距離的K-means 聚類方法自動(dòng)找到較為合適的先驗(yàn)框。但出現(xiàn)第二個(gè)問題：K-means 的初始值對其結(jié)果影響較大，導(dǎo)致結(jié)果僅為局部最優(yōu)[8]。同時(shí)，通過聚類產(chǎn)生的錨點(diǎn)與數(shù)據(jù)集密切相關(guān)，當(dāng)場景數(shù)據(jù)集類別單一或目標(biāo)尺寸較集中時(shí)，聚類產(chǎn)生的錨點(diǎn)差異較小，無法體現(xiàn)YOLO 多尺度輸出的優(yōu)勢[4]。

研究發(fā)現(xiàn)，不同場景的數(shù)據(jù)集具有不同的特點(diǎn)[5]，也影響錨點(diǎn)的取值。相較于可見光數(shù)據(jù)集（如MSCOCO），紅外數(shù)據(jù)集多具有小樣本、目標(biāo)少等特點(diǎn)，更容易導(dǎo)致聚類產(chǎn)生的錨點(diǎn)尺寸相似、缺乏多樣性的問題。此外，熱紅外圖像對比度低且紋理特征弱，會(huì)影響檢測精度。故提升紅外數(shù)據(jù)的檢測精度是當(dāng)前目標(biāo)檢測領(lǐng)域的熱點(diǎn)之一。

針對人工設(shè)置錨點(diǎn)尺寸固定，泛化性差的問題，本文對錨點(diǎn)的優(yōu)化進(jìn)行深入討論，提出一種多尺度的目標(biāo)檢測錨點(diǎn)構(gòu)造方法（multi-scale-anchor,MSA）。該方法產(chǎn)生的錨點(diǎn)可根據(jù)數(shù)據(jù)集本身的特性進(jìn)行線性尺度的縮放和拉伸，既保證模型多尺度的優(yōu)勢又體現(xiàn)不同數(shù)據(jù)集的特點(diǎn)。通過在YOLO 系列的多個(gè)典型網(wǎng)絡(luò)上進(jìn)行測試，并分別使用中國空氣動(dòng)力研究與發(fā)展中心的渦核（Vox）檢測[9]和南京航空航天大學(xué)的ComNet 紅外人車航拍檢測[10]等4 種不同場景的數(shù)據(jù)集驗(yàn)證了該方法的有效性。

1 錨點(diǎn)的研究進(jìn)展

深度學(xué)習(xí)已成為目標(biāo)檢測任務(wù)的主流方法，基于錨點(diǎn)的目標(biāo)檢測器也廣泛應(yīng)用于各個(gè)領(lǐng)域[1]。本章根據(jù)基于錨點(diǎn)模型的發(fā)展現(xiàn)狀，進(jìn)一步總結(jié)錨點(diǎn)機(jī)制的優(yōu)缺點(diǎn)，并列舉分析近幾年改進(jìn)的基于錨點(diǎn)檢測器典型范式。

1.1 錨點(diǎn)機(jī)制的優(yōu)勢與局限

在目標(biāo)檢測中，可能出現(xiàn)極小、極大或者極端形狀（如高窄型、寬扁型等）的物體，導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)對目標(biāo)的識(shí)別和定位較困難[11]。將多尺度的錨點(diǎn)應(yīng)用于檢測模型中，被證明是解決網(wǎng)絡(luò)尺度問題的有效方法，但基于錨點(diǎn)系列模型存在以下3 方面的問題[1]：

①錨點(diǎn)策略存在尺寸固定、模型魯棒性差等問題。錨點(diǎn)的相關(guān)超參數(shù)（尺寸大小、縱橫比、IoU[11]閾值）對預(yù)測結(jié)果的魯棒性影響較為明顯。由于超參數(shù)的設(shè)置與場景數(shù)據(jù)集密切相關(guān)，預(yù)置錨點(diǎn)的大小、比例在檢測尺寸差異較大的物體時(shí)泛化能力弱。

②大量的錨點(diǎn)會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)增多，運(yùn)算復(fù)雜度增大。由于基于錨點(diǎn)檢測方法本質(zhì)上是對圖像進(jìn)行密集采樣，故導(dǎo)致產(chǎn)生冗余錨點(diǎn)。例如DSSD（deconvolutional single shot detector）[12]中錨點(diǎn)的設(shè)置超過4 萬個(gè)，RetinaNet[13]超過10 萬。

郝關(guān)排閘布置1孔，孔深15m。閘基高程3.8～7.8m為第②層壤土，具中等壓縮性，微弱透水性，強(qiáng)度較高，構(gòu)成地基主要持力層；高程3.8m以下為第③壤土，含大量腐殖質(zhì)和貝殼、螺殼碎屑，局部呈淤泥質(zhì)，工程性質(zhì)相對較差。

③基于錨點(diǎn)的檢測模型中只有少部分錨點(diǎn)會(huì)與真實(shí)目標(biāo)重合，多數(shù)錨點(diǎn)為僅包含背景信息的負(fù)樣本。這種情況會(huì)導(dǎo)致訓(xùn)練時(shí)正樣本與負(fù)樣本的比例失衡，易使模型的分類能力受負(fù)樣本影響。

1.2 錨點(diǎn)的相關(guān)優(yōu)化

針對當(dāng)前錨點(diǎn)機(jī)制存在的問題，一些研究人員從尺度、數(shù)量等方面改進(jìn)錨點(diǎn)，達(dá)到優(yōu)化目的。在尺度方面，Cai 等[14]在不同的特征層中設(shè)計(jì)不同尺度的檢測器，低層的卷積網(wǎng)絡(luò)用于檢測包含小目標(biāo)，高層的卷積網(wǎng)絡(luò)用于檢測大目標(biāo)。Zhu 等[15]提出一種基于步長縮減方法生成錨點(diǎn)的新策略，在檢測包含小目標(biāo)的高分辨特征圖時(shí)防止漏檢。在數(shù)量方面，Ke 等[16]提出一種多錨點(diǎn)學(xué)習(xí)方法，基于交并比篩選部分優(yōu)質(zhì)的錨點(diǎn)，并構(gòu)造屬于固定目標(biāo)的錨點(diǎn)袋，再結(jié)合分類評估錨點(diǎn)袋中正樣本的訓(xùn)練損失。

對基于錨點(diǎn)機(jī)制的檢測模型來說，無論是多尺度還是大數(shù)量，都會(huì)增加計(jì)算復(fù)雜度以及內(nèi)存的消耗。故部分研究人員提出無錨點(diǎn)機(jī)制，其中典型的工作為Law 等[7]提出的基于關(guān)鍵點(diǎn)的無錨點(diǎn)檢測模型CornerNet，使用特定點(diǎn)配對構(gòu)造的預(yù)測框檢測目標(biāo)，但使用特定點(diǎn)進(jìn)行預(yù)測導(dǎo)致缺乏物體內(nèi)部信息，檢測的準(zhǔn)確性有待提升。

隨著基于錨點(diǎn)檢測和無錨點(diǎn)檢測兩種不同思路的發(fā)展，Zhang 等[5]探究了二者之間產(chǎn)生差異的根本原因是標(biāo)簽分配策略，該策略可進(jìn)一步提升目標(biāo)檢測器的精度。故相較于無錨點(diǎn)檢測模型，針對基于錨點(diǎn)檢測模型進(jìn)行再優(yōu)化的思想更為合理。

2 多尺度錨點(diǎn)（MSA）

在基于錨點(diǎn)的檢測模型中，錨點(diǎn)的取值尤為重要，檢測之前要預(yù)設(shè)錨點(diǎn)的尺寸和比例，檢測時(shí)根據(jù)預(yù)設(shè)的錨點(diǎn)進(jìn)行回歸。最終得到預(yù)測框，錨點(diǎn)的取值關(guān)乎檢測模型的精度。

2.1 錨點(diǎn)的取值及作用

錨點(diǎn)為一批具有預(yù)定義位置、比例和長寬比的框?；阱^點(diǎn)的檢測模型通常需要大量的錨點(diǎn)，以確保與真值框（ground truth）有足夠高的交并比。交并比是目標(biāo)檢測中的重要指標(biāo)之一，通過預(yù)測框和Ground truth 間的交集與并集的比例進(jìn)行計(jì)算，常用于評價(jià)預(yù)測框的優(yōu)劣，其定義如下[11]：

式中：Bgt為Ground truth 的面積；B為預(yù)測框的面積。在訓(xùn)練過程中，當(dāng)錨點(diǎn)與Ground truth 有足夠高的IoU 時(shí)，該錨點(diǎn)結(jié)合偏移后作為最終的預(yù)測框。該方法搜索范圍小、易收斂且降低了訓(xùn)練難度。

2.2 MSA 錨點(diǎn)優(yōu)化

研究可知，數(shù)據(jù)集目標(biāo)尺寸過于單一時(shí)，聚類方法產(chǎn)生新的錨點(diǎn)尺寸差異亦較小。故本文將聚類所產(chǎn)生的錨點(diǎn)再次根據(jù)數(shù)據(jù)集本身的特性進(jìn)行線性尺度的縮放和拉伸來優(yōu)化錨點(diǎn)的取值。渦核（Vox）數(shù)據(jù)集作為典型的工業(yè)現(xiàn)場數(shù)據(jù)集[10]，來源于中國空氣動(dòng)力研究與發(fā)展中心進(jìn)行的直升機(jī)旋翼流場測量試驗(yàn)。該數(shù)據(jù)集類別較為單一且目標(biāo)尺寸較集中，Ground truth 縱橫比約為1，優(yōu)化實(shí)例如圖1所示。

圖1 Vox 數(shù)據(jù)集上不同錨點(diǎn)與Ground truth 對比Fig.1 Comparison between Ground truth and different anchors on Vox data sets

圖1(a)是由MS-COCO 數(shù)據(jù)集聚類而得到的錨點(diǎn)，其值與Vox 數(shù)據(jù)集的目標(biāo)相差較大，導(dǎo)致面向特定目標(biāo)時(shí)，交并比幾乎只由少數(shù)幾個(gè)錨點(diǎn)來決定，其余取值并不合理。圖1(b)是由K-means 聚類所產(chǎn)生的錨點(diǎn)，該方法產(chǎn)生的錨點(diǎn)受初始值影響較大且對噪音和異常點(diǎn)比較的敏感，導(dǎo)致大多數(shù)Ground truth 比得到的錨點(diǎn)尺寸略大，在訓(xùn)練時(shí)對模型要求更高。圖1(c)為本文所提出的MSA 方法產(chǎn)生的錨點(diǎn)，既結(jié)合數(shù)據(jù)集的特性也保留了模型多尺度輸出的優(yōu)勢，提高了聚類對噪音和異常點(diǎn)的泛化能力。

由圖1 可知，對于YOLOv3-tiny 等錨點(diǎn)較少的輕量級模型來說，錨點(diǎn)個(gè)數(shù)較少，聚類后的錨點(diǎn)更無法體現(xiàn)多尺度的優(yōu)點(diǎn)。因此，本文引入多尺度優(yōu)化，具體來講將最大的錨點(diǎn)再擴(kuò)大相應(yīng)的倍數(shù)，將最小的錨點(diǎn)再縮小相應(yīng)的倍數(shù)。具體如式(2)所示：

式中：xs和ys為最小錨點(diǎn)的長和寬；xm和ym為最大錨點(diǎn)的長和寬；xs′、ys′、xm′、ym′為縮放后的錨點(diǎn)長寬值；α為縮小倍數(shù)，β為放大倍數(shù)，實(shí)驗(yàn)觀察二者基本滿足α≈2－β，其值對不同類型的數(shù)據(jù)集可進(jìn)行微調(diào)。建議當(dāng)數(shù)據(jù)集目標(biāo)尺寸較單一時(shí)α和β取差異較大的值，如0.4 與1.6；若數(shù)據(jù)集目標(biāo)尺寸的尺度仍有變化，則α和β可取差異較大的數(shù)值，如0.9 與1.1?？傊?，依本文方法，可進(jìn)一步結(jié)合傳統(tǒng)的網(wǎng)格尋優(yōu)技術(shù)自動(dòng)獲取更有效的錨點(diǎn)值。

當(dāng)錨點(diǎn)與Ground truth 有足夠高的交并比時(shí)，該錨點(diǎn)結(jié)合偏移即可更有效地得到預(yù)測框。不同錨點(diǎn)中，IoU 值最大的錨點(diǎn)與數(shù)據(jù)集的Ground truth 對比如圖2所示。

圖2 IoU 值最大的錨點(diǎn)與Ground truth 的對比示例Fig.2 Example of comparison between the anchor point with the maximum IoU value and ground truth

由圖1 和2 可知，當(dāng)數(shù)據(jù)集中的目標(biāo)尺寸較集中或異常點(diǎn)個(gè)數(shù)較多時(shí)，部分目標(biāo)的Ground truth 比聚類得到的錨點(diǎn)尺寸略大，導(dǎo)致訓(xùn)練時(shí)對模型要求較高。因此將縮放后的值進(jìn)行線性尺度的拉伸，可改善此問題，其計(jì)算公式如式(3)所示。

式中：xi與yi為變化前的錨點(diǎn)值；xi′與yi′為變化后的錨點(diǎn)。通過式(2)和式(3)可將聚類后尺度變化不顯著的錨點(diǎn)進(jìn)行優(yōu)化，從而既體現(xiàn)YOLO 算法多尺度輸出的優(yōu)勢，又保留了對應(yīng)場景數(shù)據(jù)集的特點(diǎn)。

3 數(shù)據(jù)集

數(shù)據(jù)集是衡量算法性能的基礎(chǔ)，不同數(shù)據(jù)集會(huì)帶來不同的挑戰(zhàn)[18]。紅外圖像對比度低、紋理特征不足，使檢測面臨更大的挑戰(zhàn)。同時(shí)，紅外現(xiàn)場實(shí)驗(yàn)不易，數(shù)據(jù)集難以獲得，故大部分的紅外數(shù)據(jù)集具有小樣本、目標(biāo)少等特點(diǎn)。為使訓(xùn)練得到的網(wǎng)絡(luò)更加具有魯棒性，且驗(yàn)證MSA 優(yōu)化方法對于不同特性的目標(biāo)具有較強(qiáng)的泛化能力，選擇4 種不同場景的數(shù)據(jù)集進(jìn)行多次測試。數(shù)據(jù)集的部分示例圖像如圖3所示。

圖3 四類數(shù)據(jù)集的部分示例圖像Fig.3 Partial sample images of four types of datasets

3.1 南航ComNet 紅外人車檢測數(shù)據(jù)集

ComNet 數(shù)據(jù)集來自南京航空航天大學(xué)Minglei Li[9]等所拍攝標(biāo)注的紅外人車檢測圖像數(shù)據(jù)集，由搭載在大疆M600Pro 無人機(jī)上的紅外Vue Pro 熱成像相機(jī)采集。數(shù)據(jù)集分別在白天和晚上捕獲了包括校園和街道的各種常規(guī)交通場景，使用Labelme 對這些圖像進(jìn)行手工標(biāo)注，生成所需的訓(xùn)練數(shù)據(jù)和評估數(shù)據(jù)。ComNet 數(shù)據(jù)集包含2975 張熱紅外圖像，包括4768個(gè)行人實(shí)例和3856 個(gè)車輛實(shí)例，即包括非剛體目標(biāo)和剛體目標(biāo)，圖片大小為640×512。該數(shù)據(jù)集的部分示例圖像如圖3(a)所示。

3.2 Roboflow TDP 數(shù)據(jù)集

Roboflow TDP（thermal dogs and people dataset）數(shù)據(jù)集，包括人和狗在不同距離上的203 張熱紅外圖像，由Seek Compact XR Extra Range 紅外相機(jī)拍攝。數(shù)據(jù)集中既有縱向又有橫向目標(biāo)，且保留一些不含目標(biāo)的負(fù)樣本圖像。基于紅外成像的人體和動(dòng)物目標(biāo)檢測在安全、野生動(dòng)物探測、狩獵和戶外娛樂方面都具有廣泛應(yīng)用。其部分示例圖像如圖3(b)所示。

3.3 Roboflow 口罩（Roboflow-mask）數(shù)據(jù)集

近期全球新型冠狀病毒肆虐，在大型的公共場所對各種人員進(jìn)行口罩檢測能夠減少人員之間交叉感染的風(fēng)險(xiǎn)。Roboflow-mask 口罩?jǐn)?shù)據(jù)集包括149 張戴口罩的人和未戴口罩的人。其部分示例圖像如圖3(c)所示。

3.4 渦核（Vox）數(shù)據(jù)集

Vox 數(shù)據(jù)集[10]是具有專業(yè)背景的渦核檢測數(shù)據(jù)集，該數(shù)據(jù)集來源于中國空氣動(dòng)力研究與發(fā)展中心進(jìn)行的直升機(jī)旋翼流場測量試驗(yàn)。Vox 數(shù)據(jù)集的訓(xùn)練集包括500 張渦核樣本圖像；測試集包括106 張渦核樣本圖像。數(shù)據(jù)集類別較為單一且目標(biāo)尺寸較集中，其Ground truth 縱橫比約為1。其部分示例圖像如圖3(d)所示。

4 實(shí)驗(yàn)與分析

本文實(shí)現(xiàn)和測試算法使用計(jì)算機(jī)硬件配置為i7-9700K，GPU 版本為NVIDIA GeForce RTX 2080Ti；計(jì)算機(jī)軟件配置為 CUDA10.2，PyTorch1.10，Python3.8。

4.1 精度測試

基于IoU 閾值為0.5 的檢測平均精度均值（mean average precision,mAP）已成為多年來目標(biāo)檢測問題最重要的實(shí)際度量標(biāo)準(zhǔn)之一[19]。本文使用YOLOv3-tiny 網(wǎng)絡(luò)在4 種不同的數(shù)據(jù)集上進(jìn)行測試，mAP@0.5結(jié)果如表1所示。其中Vox 數(shù)據(jù)集和ComNet 數(shù)據(jù)集由實(shí)驗(yàn)得出放大倍數(shù)α＝1.5，縮小倍數(shù)β＝0.5 時(shí)所得結(jié)果較為理想。TDP 數(shù)據(jù)集部分Ground truth 的縱橫比差距較大，本文針對縮放倍數(shù)進(jìn)行多次實(shí)驗(yàn)尋優(yōu)并微調(diào)，具體見圖4。Roboflow-mask 數(shù)據(jù)集圖片較少且目標(biāo)尺寸變化較為顯著，故微調(diào)放大倍數(shù)α＝1.2，縮小倍數(shù)β＝0.5 時(shí)所得精度有所提高。

表1 不同Anchor 在四類數(shù)據(jù)集上的對比結(jié)果Table 1 Comparison results of different anchors on four data sets

圖4 TDP 數(shù)據(jù)集中錨點(diǎn)縮放的消融測試Fig.4 Ablative test of anchor point scaling on TDP dataset

由表1 可知，改進(jìn)后的錨點(diǎn)在4 個(gè)數(shù)據(jù)集上的測試結(jié)果mAP@0.5 指標(biāo)均有所提升，針對不同特點(diǎn)的數(shù)據(jù)集縮放倍數(shù)只需微調(diào)即可有效提升目標(biāo)檢測的精度。其中，Roboflow-mask 數(shù)據(jù)集樣本較少且兩個(gè)類別的Ground truth 數(shù)量差異較大，故mAP@0.5相對較低，但使用改進(jìn)錨點(diǎn)后檢測精度仍有提高。若數(shù)據(jù)集中未正確檢測樣本難例較多，例如模糊目標(biāo)、較暗目標(biāo)等難例，可通過對難例適當(dāng)引入旋轉(zhuǎn)、裁剪、縮放等數(shù)據(jù)增強(qiáng)[20]方法進(jìn)一步挖掘錨點(diǎn)的多尺度信息，再利用本方法進(jìn)行優(yōu)化。

4.2 消融實(shí)驗(yàn)

為了驗(yàn)證不同取值的α和β對精度所產(chǎn)生的影響，本文在TDP 數(shù)據(jù)集上針對α和β的取值進(jìn)行了消融實(shí)驗(yàn)，結(jié)果如圖4所示。

由圖4 可知，對于TDP 數(shù)據(jù)集，放大倍數(shù)α＝1.9，縮小倍數(shù)β＝0.3 時(shí)mAP@0.5 較高，可能由于該數(shù)據(jù)集的部分Ground truth 的縱橫比差距較大所造成。但對于大多數(shù)數(shù)據(jù)集來說放大倍數(shù)α＝1.5，縮小倍數(shù)β＝0.5 所得結(jié)果較為理想。此外，基于3 種典型輕量級網(wǎng)絡(luò)YOLOv3-tiny，YOLOv4-tiny 和YOLOv5s以及大型網(wǎng)絡(luò)YOLOv3 在Vox 數(shù)據(jù)集上測試驗(yàn)證了該方法的有效性。利用相同的錨點(diǎn)在同一網(wǎng)絡(luò)上分別進(jìn)行了3 次測試并取mAP@0.5 平均值，其結(jié)果如表2所示。

表2 Vox 數(shù)據(jù)集在不同網(wǎng)絡(luò)的表現(xiàn)Table 2 Performance of different networks on Vox datasets

由表2 可知，所提出的多尺度優(yōu)化錨值MSA 方法適配多種網(wǎng)絡(luò)結(jié)構(gòu)，mAP@0.5 指標(biāo)都有提升，但隨著網(wǎng)絡(luò)結(jié)構(gòu)變得復(fù)雜，精度的提升也有所減少，一個(gè)可能的原因是在網(wǎng)絡(luò)變得復(fù)雜時(shí)，模型表達(dá)能力提升，此時(shí)錨點(diǎn)對網(wǎng)絡(luò)的影響有所降低。其中，YOLO v3-tiny 和YOLO v4-tiny 需6 個(gè)錨點(diǎn)，而YOLO v3和YOLO v5s 需9 個(gè)錨點(diǎn)。同時(shí)，YOLO v5 作為YOLO 家族的最新代表，其亮點(diǎn)之一是模型訓(xùn)練過程中可動(dòng)態(tài)學(xué)習(xí)優(yōu)化錨點(diǎn)值，可在一定程度上加速模型收斂。YOLO v5s-Aut 為YOLO v5 模型在Vox 數(shù)據(jù)集上開啟自動(dòng)學(xué)習(xí)優(yōu)化錨點(diǎn)值的測試結(jié)果。相比而言，本文提出的尺度變化的錨值優(yōu)化方法更適用于YOLO v3-tiny 和YOLO v4-tiny 等錨點(diǎn)較少的典型輕量級檢測網(wǎng)絡(luò)。

5 結(jié)語

本文提出一種基于多尺度優(yōu)化的目標(biāo)檢測錨點(diǎn)構(gòu)造方法，針對場景數(shù)據(jù)集的特性將生成的錨點(diǎn)進(jìn)行線性縮放和拉伸，解決了聚類產(chǎn)生的錨點(diǎn)大小差異不顯著且泛化能力差與無法體現(xiàn)YOLO 多尺度輸出優(yōu)勢的問題。利用該方法在多個(gè)典型YOLO 模型和多個(gè)場景數(shù)據(jù)集上進(jìn)行了測試。數(shù)據(jù)難以獲得、數(shù)據(jù)獲取成本高、紅外數(shù)據(jù)集樣本小、目標(biāo)少，該方法針對此類數(shù)據(jù)的優(yōu)化效果明顯，可顯著提高檢測精度。另外，本方法應(yīng)用在訓(xùn)練的預(yù)處理階段，不增加模型推理時(shí)間。