亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于Labelimg 的輔助標(biāo)注方法

2023-10-18 13:32:46王景鑫

科技創(chuàng)新與應(yīng)用 2023年29期

王景鑫，潘欣*

（1.吉林化工學(xué)院信息與控制工程學(xué)院，吉林吉林 132000；2.長(zhǎng)春工程學(xué)院計(jì)算機(jī)技術(shù)與工程學(xué)院，長(zhǎng)春 130012）

自2016 年YOLO 神經(jīng)網(wǎng)絡(luò)被提出后，因其具有識(shí)別速度快、網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單等優(yōu)點(diǎn)迅速火遍了整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域。目前YOLO 的應(yīng)用范圍十分廣泛，大到國(guó)防軍事，小到家庭門(mén)禁，可以說(shuō)只要是有目標(biāo)檢測(cè)的地方就有YOLO。而YOLO 能否應(yīng)用于某一實(shí)際問(wèn)題上的決定性因素便是其網(wǎng)絡(luò)模型，而網(wǎng)絡(luò)模型又是需要該領(lǐng)域大量的樣本數(shù)據(jù)進(jìn)行樣本訓(xùn)練得到。雖然YOLO 作者在每一代YOLO 發(fā)布之后都會(huì)給出幾個(gè)相對(duì)應(yīng)的預(yù)訓(xùn)練模型，這種預(yù)訓(xùn)練模型的識(shí)別目標(biāo)類(lèi)別非常多，因此，使用這種預(yù)訓(xùn)練模型應(yīng)用于實(shí)際問(wèn)題并不具有針對(duì)性。而開(kāi)源的一些樣本數(shù)據(jù)集像COCO 數(shù)據(jù)集、OpenImages 樣本集，大部分包含的目標(biāo)對(duì)象也是上百種并沒(méi)有針對(duì)某一領(lǐng)域的樣本數(shù)據(jù)集。因此，最好的解決方式即為通過(guò)拍攝某一領(lǐng)域內(nèi)的樣本數(shù)據(jù)自行制作樣本數(shù)據(jù)集，用于該領(lǐng)域網(wǎng)絡(luò)模型的訓(xùn)練，通過(guò)這種方式訓(xùn)練得到的網(wǎng)絡(luò)模型應(yīng)用于此領(lǐng)域的識(shí)別效果更佳，例如自制的蘋(píng)果花樣本集[1]、生姜樣本集[2]、甘蔗樣本集[3]、番茄樣本集[4]和茶葉樣本集[5]可以分別在蘋(píng)果區(qū)分工作、姜芽和生姜的識(shí)別研究、甘蔗莖節(jié)的識(shí)別研究、番茄識(shí)別和茶葉嫩芽的識(shí)別工作上訓(xùn)練具有針對(duì)性的網(wǎng)絡(luò)模型，且檢測(cè)效果極佳。因此，如需在特定領(lǐng)域發(fā)揮YOLO 的目標(biāo)識(shí)別能力就必須使用含有該區(qū)域的特定目標(biāo)類(lèi)別的數(shù)據(jù)進(jìn)行訓(xùn)練。

1 方法描述

1.1 傳統(tǒng)樣本數(shù)據(jù)集的制作過(guò)程

YOLO 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本數(shù)據(jù)集格式為yolo 格式，該格式的文件結(jié)構(gòu)的層級(jí)結(jié)構(gòu)如圖1 所示。

圖1 YOLO 樣本集結(jié)構(gòu)圖

如圖1 所示，YOLO 樣本集包括2 部分。

1）圖像集部分：在圖像集文件夾中存放YOLO 樣本集的圖像樣本，這些圖像樣本又被分為訓(xùn)練圖像樣本和驗(yàn)證圖像樣本。

2）標(biāo)簽集部分：在標(biāo)簽集文件夾中存放YOLO 樣本集的標(biāo)簽樣本，這些標(biāo)簽樣本又被分為訓(xùn)練標(biāo)簽樣本和驗(yàn)證標(biāo)簽樣本。這些標(biāo)簽樣本文件存儲(chǔ)格式為txt 格式，內(nèi)容包含5 個(gè)數(shù)據(jù)，分別為、、、和。

對(duì)于該類(lèi)型描述文件，目前領(lǐng)域內(nèi)經(jīng)常使用圖像標(biāo)注工具（labelimg）或近似的軟件工具進(jìn)行標(biāo)記。如圖2 所示。

圖2 人工標(biāo)記圖

如圖2（a）所示，可以利用labelimg 工具快捷地進(jìn)行人工對(duì)象標(biāo)記。然而，在進(jìn)行人工標(biāo)記的時(shí)候不同人、同一人的不同時(shí)間所標(biāo)記的內(nèi)容可能存在細(xì)微差別，如圖2（b）所示。

標(biāo)記框邊界的差距：圖中標(biāo)記對(duì)象為一棵樹(shù)，在圖2（b）中①處的標(biāo)記框緊緊貼合標(biāo)記對(duì)象，②處的標(biāo)記框邊界和標(biāo)記對(duì)象之間還留有大片背景。

標(biāo)記框尺寸的差距：在圖2（b）中③處的標(biāo)記框長(zhǎng)度比④處的標(biāo)記框長(zhǎng)度短。

總結(jié)，在采用人工對(duì)樣本集進(jìn)行標(biāo)注時(shí)，即使是同一人對(duì)同一圖像進(jìn)行標(biāo)記，所生成的標(biāo)注框也是有所差別的。

針對(duì)模型的評(píng)價(jià)指標(biāo)包括交并比（IoU）、精確率（Precision）、召回率（Recall）等。其中，IoU（Intersection over Union）[6]是計(jì)算目標(biāo)檢測(cè)算法中對(duì)象預(yù)測(cè)框的精度，是目標(biāo)檢測(cè)的預(yù)測(cè)框和真實(shí)框之間的重疊面積與這兩框面積之和的比值。公式如下

式中：Ao是真實(shí)框與預(yù)測(cè)框的交集（Area of Overlap），表示的是預(yù)測(cè)框與真實(shí)框的交集；Au是預(yù)測(cè)框與真實(shí)框的并集（Area of Union），表示的是預(yù)測(cè)框與真實(shí)框的并集。經(jīng)過(guò)多次迭代，目前IoU 指標(biāo)已經(jīng)更新為CIoU[7]，該損失函數(shù)即為YOLOv5 中使用的損失函數(shù)，其公式為

式中：αv為長(zhǎng)寬比；w、h和wgt、hgt分別表示預(yù)測(cè)框的高寬和標(biāo)注框的高寬。

從以上目標(biāo)檢測(cè)技術(shù)的評(píng)估指標(biāo)來(lái)看，無(wú)論IoU如何更新迭代，其評(píng)價(jià)標(biāo)準(zhǔn)都與真實(shí)框有關(guān)，真實(shí)框是否理想決定了評(píng)估指標(biāo)的精度，從而影響整個(gè)訓(xùn)練模型的精準(zhǔn)程度，但是想要人工標(biāo)注幾千張樣本集并保證標(biāo)記框與理想的真實(shí)框完全符合，無(wú)論從數(shù)量上還是在質(zhì)量上都難以達(dá)到要求。因此，本文引入了基于SAM 輔助標(biāo)記的方法來(lái)解決這個(gè)問(wèn)題。

1.2 SAM 模型的原理

分割一切圖像模型（Segment Anything Model，SAM）是Alexander Kirillov 等在2023 年提出的一種基于深度學(xué)習(xí)的端到端圖像分割模型。在SAM 模型的設(shè)計(jì)中，Alexander Kirillov 等提到SAM 模型設(shè)計(jì)滿(mǎn)足了3 個(gè)約束條件：一個(gè)能力強(qiáng)大的圖片編碼器（encoder）用來(lái)計(jì)算圖片嵌入，一個(gè)提示（prompt）編碼器用來(lái)嵌入提示，然后將這2 種信息源組合在一個(gè)輕量級(jí)的解碼器（decoder）用來(lái)預(yù)測(cè)分割掩碼（segmentation masks）。如圖3 所示。

圖3 SAM 網(wǎng)絡(luò)結(jié)構(gòu)圖

如圖3 所示，SAM 模型包括以下3 個(gè)關(guān)鍵的組成部分。

1）圖片編碼器。該部分的主要功能是在可擴(kuò)展性和強(qiáng)大的預(yù)訓(xùn)練模型的激勵(lì)下，使用MAE 預(yù)訓(xùn)練的視覺(jué)轉(zhuǎn)換器（Vision Transformer，ViT），可以最小化地處理高分辨率輸入。該圖像編碼器每運(yùn)行一次，可以在提示模型之前應(yīng)用。

2）提示編碼器。該部分的主要作用是通過(guò)位置編碼來(lái)表示points 和boxes，并將每一個(gè)提示類(lèi)型的學(xué)習(xí)嵌入和自由形式的text 與CLIP 中的現(xiàn)成文本編碼相加。dense 的提示使用卷積進(jìn)行嵌入，并通過(guò)圖像嵌入對(duì)元素進(jìn)行求和。

3）掩碼解碼器。該部分的主要作用是將圖片嵌入。提示嵌入和輸出標(biāo)記（token）映射到掩碼（mask）上，使用自注意力機(jī)制（self-attention）和跨注意力機(jī)制（cross-attention）在提示圖片（prompt-to-image）和反之亦然（vice-versa）2 個(gè)方向上更新所有的嵌入。

1.3 自動(dòng)化可交互對(duì)象樣本標(biāo)記方法描述

如何將不規(guī)則的mask 轉(zhuǎn)換成為規(guī)則的標(biāo)注框是本文的難點(diǎn)之一。設(shè)計(jì)由mask 轉(zhuǎn)換標(biāo)注框思路如圖4所示。

圖4 mask 轉(zhuǎn)變標(biāo)注框思路圖

圖4 為使用SAM 模型分割的一棵植被，假設(shè)以橫坐標(biāo)軸為X軸，縱坐標(biāo)軸為Y軸，原點(diǎn)（0,0）建立坐標(biāo)系，根據(jù)SAM 分割的mask，取最上邊界點(diǎn)為（x1，y1），最下邊界點(diǎn)為（x3，y3），最左邊界點(diǎn)為（x2，y2），最右側(cè)邊界點(diǎn)為（x4，y4）。那么標(biāo)注框的x、y、w、h就可以表示為

式中：（x，y）表示標(biāo)注框的中心點(diǎn)坐標(biāo)；w為標(biāo)注框的寬；h為標(biāo)注框的高，這樣得到的標(biāo)注框可以非常貼合對(duì)象目標(biāo)，是理想的標(biāo)注框。在經(jīng)典的標(biāo)注工具中，比如在labelimg 工具中，標(biāo)注框的信息是通過(guò)標(biāo)注框計(jì)算得來(lái)，這里使用逆反思維，通過(guò)x、y、w、h確定標(biāo)注框的大小和位置。這說(shuō)明引進(jìn)無(wú)監(jiān)督自動(dòng)分割輔助進(jìn)行標(biāo)記是十分可能的。

在圖5 中，將含有目標(biāo)對(duì)象的圖像首先經(jīng)過(guò)SAM模型，這里得到的是圖像中所有對(duì)象的mask 圖，通過(guò)鼠標(biāo)點(diǎn)擊的方式選取目標(biāo)對(duì)象的mask，通過(guò)計(jì)算獲得標(biāo)注框的x、y、w、h4 個(gè)標(biāo)注信息，利用標(biāo)注信息在原圖像中畫(huà)出標(biāo)注框，再根據(jù)對(duì)象目標(biāo)的類(lèi)別確定標(biāo)注框的文本信息。

圖5 SAM 人工標(biāo)記結(jié)構(gòu)圖

1.4 本文標(biāo)注方法與傳統(tǒng)標(biāo)注方法對(duì)比

利用SAM 模型標(biāo)注方法與傳統(tǒng)的人工方法作對(duì)比，本章中使用的人工標(biāo)注工具為labelimg 標(biāo)注工具，選取的被標(biāo)注圖片中被標(biāo)注目標(biāo)為一棵植物，因其形狀不規(guī)則更能檢驗(yàn)標(biāo)注的效果。效果對(duì)比如圖6 所示。

圖6 標(biāo)注效果對(duì)比圖

圖6 （a）為使用labelimg 工具人工標(biāo)注的標(biāo)注框，圖6（b）為SAM 模型輔助標(biāo)注的標(biāo)注框，對(duì)比可以看出圖6（b）框貼合目標(biāo)對(duì)象的邊緣區(qū)域，而圖6（a）框中存在著一些背景，目標(biāo)對(duì)象的一小部分也沒(méi)有框選在內(nèi)?？傮w上，SAM 模型輔助標(biāo)注的效果更好。

通過(guò)使用這2 種標(biāo)注方法制作樣本數(shù)據(jù)集進(jìn)行訓(xùn)練，觀察其模型識(shí)別性能，如圖7 所示。

圖7 檢測(cè)結(jié)果對(duì)比圖

為了更好地檢測(cè)效果，選取了將目標(biāo)堆疊的圖片，觀察模型是否能檢測(cè)到被遮擋的目標(biāo)。首先在檢測(cè)數(shù)量上進(jìn)行對(duì)比。圖7（a）的檢測(cè)數(shù)量為17 個(gè)，其中檢測(cè)到被遮擋的目標(biāo)數(shù)量為4 個(gè)。圖7（b）的檢測(cè)數(shù)量為15個(gè)，其中檢測(cè)到被遮擋的目標(biāo)數(shù)量為2 個(gè)。通過(guò)對(duì)比可以看出，由SAM 輔助標(biāo)注方法制作的樣本數(shù)據(jù)集訓(xùn)練得到的模型性能強(qiáng)于傳統(tǒng)labelimg 標(biāo)注方法制作的樣本數(shù)據(jù)集訓(xùn)練得到的模型性能。

2 結(jié)束語(yǔ)

在使用YOLO 神經(jīng)網(wǎng)絡(luò)進(jìn)行個(gè)性化目標(biāo)識(shí)別時(shí)，通常需要自行制作相應(yīng)的樣本數(shù)據(jù)集用于模型訓(xùn)練，而傳統(tǒng)制作樣本數(shù)據(jù)集的方法繁瑣且訓(xùn)練得到的模型效果一般。因此，本文提出了一個(gè)基于Labelimg 的SAM 輔助標(biāo)注方法，將SAM 模型應(yīng)用在Labelimg 圖像標(biāo)注工具中，使得樣本數(shù)據(jù)只通過(guò)點(diǎn)擊即可完成制作，使用該方法生成的標(biāo)注框與目標(biāo)的真實(shí)框的重疊度也得到了提升。通過(guò)實(shí)驗(yàn)證明，使用該方法制作的樣本數(shù)據(jù)集訓(xùn)練得到的識(shí)別模型在識(shí)別數(shù)量和識(shí)別能力上都有所提升。