基于PP-PicoDet技術(shù)的智能垃圾分類

2023-10-28 10:49:24倪吳廣汪朵拉

計(jì)算機(jī)測(cè)量與控制 2023年10期

倪吳廣，汪朵拉，張卓

(河海大學(xué) 物聯(lián)網(wǎng)工程學(xué)院，江蘇常州 213002)

0 引言

不正確的垃圾分類不僅會(huì)增加垃圾處理的成本和工作量，還會(huì)導(dǎo)致可回收資源的浪費(fèi)，影響資源的回收利用，甚至帶來環(huán)境污染等問題。如何引導(dǎo)人們正確地進(jìn)行垃圾分類，從源頭上減輕垃圾分類的工作負(fù)擔(dān)，提高垃圾分類的智能化程度，是解決垃圾分類問題的關(guān)鍵。

近年來，隨著深度學(xué)習(xí)技術(shù)的高速發(fā)展，相關(guān)技術(shù)被應(yīng)用到了垃圾分類領(lǐng)域中，如文獻(xiàn)[1]設(shè)計(jì)了一種基于視覺感知的智能掃地機(jī)器人，通過YOLOv2目標(biāo)檢測(cè)算法，引導(dǎo)掃地機(jī)器人對(duì)垃圾進(jìn)行自動(dòng)識(shí)別與按類處理；文獻(xiàn)[2]設(shè)計(jì)了一種基于深度學(xué)習(xí)的智能垃圾桶，通過語音識(shí)別技術(shù)與圖像識(shí)別技術(shù)，幫助用戶正確分類垃圾；文獻(xiàn)[3]設(shè)計(jì)了一種可回收垃圾的視覺檢測(cè)系統(tǒng)，采用YOLOv5目標(biāo)檢測(cè)算法，檢測(cè)和識(shí)別垃圾的類別。這些應(yīng)用不僅提高了垃圾分類的智能化程度，同時(shí)也表明深度學(xué)習(xí)技術(shù)在垃圾分類任務(wù)中是一種有效的方法[4]。

目前深度學(xué)習(xí)技術(shù)應(yīng)用在垃圾分類領(lǐng)域，主要有圖像分類與目標(biāo)檢測(cè)技術(shù)。PP-PicoDet是百度飛槳提出的一種輕量級(jí)目標(biāo)檢測(cè)技術(shù)[5]，本文主要研究基于PP-PicoDet技術(shù)的智能垃圾分類算法。該目標(biāo)檢測(cè)算法模型相對(duì)于其他深度學(xué)習(xí)網(wǎng)絡(luò)，不僅計(jì)算量小、延遲低、精度高，同時(shí)支持多種硬件環(huán)境部署，在垃圾智能分類中有著較強(qiáng)的實(shí)用性。

1 目標(biāo)檢測(cè)在垃圾分類上的研究現(xiàn)狀

作為計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要研究方向，目標(biāo)檢測(cè)又叫目標(biāo)提取，就是將待處理圖片或視頻中所需要識(shí)別的對(duì)象有效地提取分割出來，得出目標(biāo)的類別、位置、匹配率等相關(guān)信息[6]。近年來，隨著計(jì)算機(jī)性能的不斷提升，深度學(xué)習(xí)技術(shù)高速發(fā)展，新的目標(biāo)檢測(cè)算法層出不窮。按照完成目標(biāo)檢測(cè)任務(wù)的步驟劃分，主流的目標(biāo)檢測(cè)算法可以大致分為兩個(gè)類別：Two-stage與One-stage[7]。

Two-stage目標(biāo)檢測(cè)算法可以簡單地理解為兩步走算法：首先需要找出候選區(qū)域，然后對(duì)其進(jìn)行調(diào)整分類。代表算法為R-CNN系列算法，包括Mask R-CNN、Fast R-CNN等。

One-stage目標(biāo)檢測(cè)算法則無需先生成候選區(qū)域，而是直接在網(wǎng)絡(luò)中提取相關(guān)特征來預(yù)測(cè)目標(biāo)的類別和位置。代表算法為YOLO系列算法，如：YOLOv4、YOLOv5、YOLOX、YOLOv6等。

目前在垃圾目標(biāo)檢測(cè)實(shí)際應(yīng)用中，大多采用了YOLO系列算法，如文獻(xiàn)[1]設(shè)計(jì)了一種基于YOLOv2的智能掃地機(jī)器人；如文獻(xiàn)[8]設(shè)計(jì)了一種基于YOLOv3的地面垃圾檢測(cè)與清潔度評(píng)定方法；如文獻(xiàn)[9]設(shè)計(jì)了基于YOLOv5s網(wǎng)絡(luò)的垃圾分類和檢測(cè)模型。

文獻(xiàn)[10]對(duì)幾種YOLO系列算法的數(shù)據(jù)對(duì)比，如表1所示。

表1 幾種YOLO系列算法的數(shù)據(jù)對(duì)比

表1中所有模型均在COCO 2017數(shù)據(jù)集上進(jìn)行訓(xùn)練與測(cè)試，采用的GPU均為Tesla T4，并且所有的模型都沒有經(jīng)過預(yù)訓(xùn)練，都在數(shù)據(jù)集上訓(xùn)練了300個(gè)epoch。

從表1中可以看出，如果要滿足較高的精度值，就需要較多的參數(shù)，從而使得模型的推理速度變慢。因此，模型在實(shí)際應(yīng)用中往往精度可以達(dá)到需求，但推理速度較慢，難以實(shí)際應(yīng)用。

文獻(xiàn)[11-12]對(duì)人工智能在垃圾分類中實(shí)際的應(yīng)用展開了相關(guān)研究，結(jié)果表明：大多數(shù)智能垃圾分類硬件設(shè)備，存在著技術(shù)研發(fā)階段投入資金多，實(shí)際應(yīng)用與后期維護(hù)時(shí)成本高等問題。因此，大多數(shù)居民區(qū)難以對(duì)這些智能化設(shè)備進(jìn)行采購和使用，導(dǎo)致垃圾分類硬件設(shè)施的智能化程度較難在短時(shí)間內(nèi)提升。

智能手機(jī)的普及，使得在移動(dòng)端部署智能垃圾分類算法模型，擁有以下優(yōu)點(diǎn)：

1)技術(shù)研發(fā)成本相對(duì)較低，投入應(yīng)用后便于管理；

2)便于推廣和宣傳垃圾分類相關(guān)知識(shí)，提高居民垃圾分類的自主意識(shí)；

3)便于溯源不文明投放垃圾行為，實(shí)施相關(guān)處罰；

4)易于根據(jù)居民正確投放垃圾的數(shù)量給與居民相應(yīng)的獎(jiǎng)勵(lì)；

5)可以在短時(shí)間內(nèi)大面積使用，提升正確垃圾分類的效率。

從這些優(yōu)點(diǎn)可以看出，推進(jìn)移動(dòng)端智能垃圾分類應(yīng)用的部署有著重要的意義。

常見的YOLOv5系列算法在移動(dòng)端實(shí)際部署時(shí)的推理結(jié)果幀率較低，較難滿足用戶對(duì)低時(shí)延的需求，所以在移動(dòng)端部署方面仍面臨較大困難。

在移動(dòng)端部署目標(biāo)檢測(cè)相關(guān)模型，面臨輕量化、速度高、精度高等需求。百度飛槳設(shè)計(jì)的輕量級(jí)目標(biāo)檢測(cè)算法PP-PicoDet[5]，對(duì)模型的速度、精度、部署友好性進(jìn)行了優(yōu)化，可以較好地解決這些問題。百度飛槳在Github上給出的部分測(cè)試數(shù)據(jù)如表2所示。

表2 部分PP-PicoDet算法的測(cè)試數(shù)據(jù)

表2中時(shí)延測(cè)試環(huán)境：英特爾酷睿i7 10750H CPU(4線程，F(xiàn)P16預(yù)測(cè)，采用OpenVINO)。PP-PicoDet模型是在COCO train2017上訓(xùn)練，并且在COCO val2017上進(jìn)行驗(yàn)證。

上述數(shù)據(jù)中，PP-PicoDet在較少參數(shù)量的情況下可以實(shí)現(xiàn)較高精度和較高速度，基本可以滿足在移動(dòng)端部署的需求。

本文研究了基于PP-PicoDet模型的智能垃圾分類，并將其與常用的YOLOv5算法做一個(gè)詳細(xì)的對(duì)比測(cè)試。

2 算法結(jié)構(gòu)

2.1 YOLOv5整體網(wǎng)絡(luò)結(jié)構(gòu)

如圖1所示，以YOLOv5s為例，講解YOLOv5的整體網(wǎng)絡(luò)結(jié)構(gòu)。YOLOv5是在YOLOv4[13]提出后一個(gè)多月內(nèi)就提出的，所以模型的網(wǎng)絡(luò)結(jié)構(gòu)上與YOLOv4十分相似，仍分為4個(gè)部分，分別為input、Backbone、Neck和Prediction。

圖1 YOLOv5s整體網(wǎng)絡(luò)結(jié)構(gòu)圖

2.1.1 Input

Input端由Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)圖片縮放、自適應(yīng)錨框計(jì)算3部分組成。

將4張圖片隨機(jī)排布、隨機(jī)裁剪、隨機(jī)縮放進(jìn)行拼接，得到新的圖片，實(shí)現(xiàn)Mosaic數(shù)據(jù)增強(qiáng)。通過數(shù)據(jù)增強(qiáng)，不僅可以對(duì)原有的數(shù)據(jù)集進(jìn)行擴(kuò)充，還能提高對(duì)小目標(biāo)的檢測(cè)能力，使得該模型的魯棒性得到提高。

自適應(yīng)圖片縮放是指通過計(jì)算得出圖片所需要添加最少的黑邊。因?yàn)椴煌笮〉膱D片統(tǒng)一到規(guī)定的尺寸后，將會(huì)出現(xiàn)需要增加黑框的情況，如果增加的黑邊較多則會(huì)增加信息的冗余，增加所需要的推理時(shí)間，所以要通過自適應(yīng)計(jì)算的方式以獲得最少的黑邊添加量。

自適應(yīng)錨框是指在網(wǎng)絡(luò)訓(xùn)練過程中通過計(jì)算輸出的預(yù)測(cè)框與初始給定的錨框之間的距離，進(jìn)而反向更新初始錨框，優(yōu)化調(diào)整網(wǎng)絡(luò)模型的參數(shù)。

2.1.2 Backbone

YOLOv5s的Backbone部分由兩個(gè)部分組成，分別是Focus結(jié)構(gòu)和CSP結(jié)構(gòu)。首先是Focus結(jié)構(gòu)，F(xiàn)ocus結(jié)構(gòu)在YOLOv5中被首次提出，其中最為重要的部分為切片操作，即將特征圖劃分為不同區(qū)域，進(jìn)行分割，然后將相同的區(qū)域重新拼接，就可以得到新的特征圖。然后是CSP結(jié)構(gòu)，YOLOv5在Backbone和Neck模塊上分別設(shè)計(jì)了一種CSP結(jié)構(gòu)，應(yīng)用在Backbone上的是CSP1_X結(jié)構(gòu)，應(yīng)用在Neck部分上的是CSP2_X結(jié)構(gòu)。

2.1.3 Neck

YOLOv5剛出來時(shí)，Neck部分僅有FPN結(jié)構(gòu)[14]，在后面又增加了PAN結(jié)構(gòu)，其中FPN采用的方式是自上而下的上采樣以實(shí)現(xiàn)特征信息的傳遞融合，PAN采用的方式是自下往上的下采樣以形成特征金字塔。FPN+PAN結(jié)構(gòu)如圖2所示。

圖2 FPN+PAN結(jié)構(gòu)示意圖

2.1.4 Prediction

Prediction部分，一般由非極大值的抑制操作NMS和Bounding box損失函數(shù)所構(gòu)成。關(guān)于邊界框無法重合的情況，YOLOv5建議選用GIOU_Loss作為損失函數(shù)的解決方案。NMS操作實(shí)現(xiàn)了局部極大值的搜索，與此同時(shí)抑制了非極大值元素，從而消除冗余邊界框，保留最優(yōu)目標(biāo)框，并檢測(cè)出較多的目標(biāo)。

2.2 PP-Picodet整體網(wǎng)絡(luò)結(jié)構(gòu)圖

如圖3所示，PP-PicoDet算法模型整體上可分為：基干網(wǎng)絡(luò)模塊、特征融合模塊、網(wǎng)絡(luò)輸出模塊。

圖3 PP-Picodet整體網(wǎng)絡(luò)結(jié)構(gòu)圖

2.2.1 基干網(wǎng)絡(luò)模塊

PP-PicoDet的基于網(wǎng)絡(luò)模塊，是在原SHuffleNetV2[15]的基礎(chǔ)上，在MobileNetV3添加的SE功能塊，該模塊內(nèi)包含了ReLU和H-Sigmoid兩層激活函數(shù)，經(jīng)過改進(jìn)后所產(chǎn)生的一種對(duì)移動(dòng)端友好的羽量級(jí)的ESnet。

ESnet的兩個(gè)基本模塊如圖4所示，由基礎(chǔ)的深度可分離卷積(pw conv，dw conv)、Ghost block、SE block和channel shuffle模塊組成[5]。

圖4 PP-Picodet基干網(wǎng)絡(luò)結(jié)構(gòu)圖

2.2.2 特征融合模塊

為從總體上大幅度減少神經(jīng)網(wǎng)絡(luò)的參量，并增加可觀性能，PP-PicoDet改變了一直被廣泛應(yīng)用的CSP-PAN[5]，進(jìn)行了自上而下和自下而上二路特征的整合，通過采用1×1卷積的方法統(tǒng)一每層的寬度、增加特征尺度，提高了在大目標(biāo)情況下系統(tǒng)的檢測(cè)能力。

2.2.3 網(wǎng)絡(luò)輸出模塊

PP-PicoDet將CSP-PAN層的輸出進(jìn)行兩次DW-PW卷積，再將結(jié)果進(jìn)行分類。在標(biāo)簽分配時(shí)，沒有采用在全局訓(xùn)練過程中是不可改變的固定標(biāo)簽分配策略，而是采用了隨著訓(xùn)練過程不斷變化的標(biāo)簽分配策略SimOTA[16]。同時(shí)，為了與SimOTA中的代價(jià)矩陣和目標(biāo)函數(shù)一致，采用了Varifocal Loss(VFL)[17]和GIoU loss[18]的加權(quán)和作為代價(jià)矩陣，公式如下：

cost=lossvfl+λ·lossgiou

2.2.4 PP-PicoDet輕量化網(wǎng)絡(luò)的創(chuàng)新點(diǎn)與優(yōu)勢(shì)

1)采用CSP結(jié)構(gòu)構(gòu)建CSP-PAN作為特征融合模塊。CSP-PAN將所有分支的輸入通道數(shù)統(tǒng)一為1×1卷積，顯著提高了特征提取能力，降低了網(wǎng)絡(luò)參數(shù)。將3×3深度可分離卷積擴(kuò)大到3×3深度可分離卷積來擴(kuò)展感受野。

2)采用SimOTA動(dòng)態(tài)標(biāo)簽分配策略，并對(duì)一些計(jì)算細(xì)節(jié)優(yōu)化。用Varifocal Loss(VFL)和GIoU loss的加權(quán)和作為代價(jià)矩陣，在不損害效率的情況下提高精度。

3)進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)結(jié)構(gòu)，并提出了一種新的主干網(wǎng)，即增強(qiáng)ShuffleNet(ESNet)，它的性能優(yōu)于ShuffleNetV2。

4)改進(jìn)了NAS模型，可以自動(dòng)查找最佳體系結(jié)構(gòu)以進(jìn)行對(duì)象檢測(cè)，實(shí)現(xiàn)了更好的效率和準(zhǔn)確性的權(quán)衡。

3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

3.1.1 實(shí)驗(yàn)數(shù)據(jù)

通過搜集網(wǎng)上各種垃圾分類公開數(shù)據(jù)集，以及采用網(wǎng)絡(luò)爬蟲等技術(shù)爬取圖片，再結(jié)合相關(guān)程序與人工對(duì)獲得的數(shù)據(jù)進(jìn)行高質(zhì)量清洗和篩選，最終得到本次實(shí)驗(yàn)所用的數(shù)據(jù)集。該數(shù)據(jù)集共14 964張圖片，包含44種類別垃圾，完全覆蓋可回收垃圾、廚余垃圾、有害垃圾、其他垃圾這四種常見的垃圾分類類別。在數(shù)據(jù)集劃分上，采用8：1：1隨機(jī)劃分的方式，即：訓(xùn)練集11 972張，測(cè)試集1 496張，驗(yàn)證集1 496張。

數(shù)據(jù)集標(biāo)注方法為：先使用LabelImg工具對(duì)數(shù)據(jù)集圖像進(jìn)行目標(biāo)位置及類別標(biāo)注，以PASCAL VOC格式保存為XML文件，然后通過自主設(shè)計(jì)的相關(guān)程序?qū)⑵滢D(zhuǎn)換成COCO數(shù)據(jù)集格式以及YOLO數(shù)據(jù)集格式。標(biāo)注文件中包含了最小外接矩形框的長和寬、垃圾中心坐標(biāo)及其所屬類別等相關(guān)信息。

數(shù)據(jù)集中的部分內(nèi)容如表3所示，部分圖片如圖5所示。

圖5 部分?jǐn)?shù)據(jù)圖片展示

表3 實(shí)驗(yàn)數(shù)據(jù)集部分內(nèi)容展示

3.1.2 對(duì)比算法

YOLOv5系列算法中，YOLOv5s是目前被用在垃圾分類方面較多的模型，而YOLOv5l在目標(biāo)檢測(cè)任務(wù)中具有更高的精度和更強(qiáng)的魯棒性，因此本次實(shí)驗(yàn)選擇YOLOv5_s_640和YOLOv5_l_640這兩種具有代表性的YOLOv5系列算法與PP-PicoDet系列算法進(jìn)行對(duì)比分析。具體的算法介紹如下：

1)YOLOv5_s_640：其主要特點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)比較輕量級(jí)，適合在計(jì)算資源有限的情況下進(jìn)行目標(biāo)檢測(cè)任務(wù)。該模型使用了一系列卷積層、池化層、上采樣層等基本的神經(jīng)網(wǎng)絡(luò)組件，并且采用了PaddleYOLO在COCO train2017訓(xùn)練集上訓(xùn)練得到的YOLOv5_s_640模型作為網(wǎng)絡(luò)預(yù)訓(xùn)練模型，能夠高效地實(shí)現(xiàn)對(duì)圖片或視頻中的物體進(jìn)行實(shí)時(shí)檢測(cè)和識(shí)別。其中，640表示輸入圖片的大小為640×640像素。

2)YOLOv5_l_640：采用了PaddleYOLO在COCO train2017訓(xùn)練集上訓(xùn)練得到的YOLOv5_l_640模型作為網(wǎng)絡(luò)預(yù)訓(xùn)練模型。和YOLOv5_s_640相比，YOLOv5_l_640模型的網(wǎng)絡(luò)結(jié)構(gòu)更加深層，擁有更多的卷積層和更大的感受野，因此在目標(biāo)檢測(cè)任務(wù)中具有更高的精度和更強(qiáng)的魯棒性。YOLOv5_l_640需要更多的計(jì)算資源，但是在一些對(duì)精度要求比較高的場(chǎng)景下，YOLOv5_l_640能夠取得更好的檢測(cè)效果。其中，640表示輸入圖片的大小為640 640像素。

3)PP-PicoDet_s_320：該模型基于anchor-free的目標(biāo)檢測(cè)算法，使用了十分輕量的基干網(wǎng)絡(luò)預(yù)訓(xùn)練模型PPLCNet_x0_75_pretrained，利用了一系列輕量級(jí)的卷積層和池化層等基本神經(jīng)網(wǎng)絡(luò)組件來實(shí)現(xiàn)目標(biāo)檢測(cè)和識(shí)別任務(wù)。其中，320表示輸入圖片的大小為320 320像素。與YOLOv5_s_640相比，PP-PicoDet_s_320模型的網(wǎng)絡(luò)結(jié)構(gòu)更加輕量級(jí)，但是在一些對(duì)計(jì)算資源要求比較苛刻的場(chǎng)景下，PP-PicoDet_s_320能夠取得更好的檢測(cè)效果。

4)PP-PicoDet_m_320：和PP-PicoDet_s_320相比，PP-PicoDet_m_320模型網(wǎng)絡(luò)結(jié)構(gòu)更加深層，并且擁有更多的卷積層和更大的感受野，因此在目標(biāo)檢測(cè)任務(wù)中具有更高的精度和更強(qiáng)的魯棒性。該模型同樣基于anchor-free的目標(biāo)檢測(cè)算法，網(wǎng)絡(luò)預(yù)訓(xùn)練模型為PaddleDetection官方發(fā)布的預(yù)訓(xùn)練模型PP-PicoDet_m_320_coco_lcnet[19]，采用了一系列卷積層、池化層等基本的神經(jīng)網(wǎng)絡(luò)組件來實(shí)現(xiàn)目標(biāo)檢測(cè)和識(shí)別任務(wù)。其中，320表示輸入圖片的大小為320 320像素。PP-PicoDet_m_320相比PP-PicoDet_s_320需要更多的計(jì)算資源，但是在一些對(duì)精度要求比較高的場(chǎng)景下，PP-PicoDet_m_320能夠取得更好的檢測(cè)效果。

5)PP-PicoDet_m_416：網(wǎng)絡(luò)預(yù)訓(xùn)練模型為PaddleDetection官方發(fā)布的預(yù)訓(xùn)練模型PP-PicoDet_m_416_coco_lcnet[19]。和PP-PicoDet_m_320相比，PP-PicoDet_m_416模型的輸入圖片大小更大，為416416像素。這意味著該模型能夠檢測(cè)到更多的細(xì)節(jié)和目標(biāo)，從而在一些對(duì)檢測(cè)精度要求較高的任務(wù)中表現(xiàn)更好。PP-PicoDet_m_416模型采用了一系列卷積層、池化層等基本的神經(jīng)網(wǎng)絡(luò)組件，并且基于anchor-free的目標(biāo)檢測(cè)算法，能夠快速、準(zhǔn)確地檢測(cè)和識(shí)別圖片或視頻中的目標(biāo)物體。相比較PP-PicoDet_m_320，PP-PicoDet_m_416模型需要更多的計(jì)算資源，但是能夠取得更好的檢測(cè)效果。

6)PP-PicoDet_l_640：使用了較大的基干網(wǎng)絡(luò)預(yù)訓(xùn)練模型PPLCNet_x2_0_pretrained。相比于PP-PicoDet_m_416，PP-PicoDet_l_640模型的輸入圖片大小更大，為640 640像素。這意味著該模型能夠檢測(cè)到更多的細(xì)節(jié)和目標(biāo)，從而在一些對(duì)檢測(cè)精度要求較高的任務(wù)中表現(xiàn)更好。PP-PicoDet_l_640模型采用了一系列卷積層、池化層等基本的神經(jīng)網(wǎng)絡(luò)組件，并且基于anchor-free的目標(biāo)檢測(cè)算法，能夠快速、準(zhǔn)確地檢測(cè)和識(shí)別圖片或視頻中的目標(biāo)物體。相比較PP-PicoDet_m_416，PP-PicoDet_l_640模型需要更多的計(jì)算資源，但是能夠取得更好的檢測(cè)效果。PP-PicoDet_l_640還擁有更深的網(wǎng)絡(luò)結(jié)構(gòu)和更大的感受野，因此在一些復(fù)雜場(chǎng)景下，會(huì)具有更強(qiáng)的魯棒性和精度。

通過采用相同的數(shù)據(jù)集、訓(xùn)練環(huán)境、訓(xùn)練方式與評(píng)估指標(biāo)，比較以上這些算法，最終篩選出最適合用于移動(dòng)端部署垃圾目標(biāo)檢測(cè)的算法模型。

3.1.3 部署環(huán)境

實(shí)驗(yàn)訓(xùn)練的環(huán)境為遠(yuǎn)程連接云計(jì)算服務(wù)器搭建。服務(wù)器配置：CPU處理器為16核Intel(R)Xeon(R)Platinum 8350C CPU @ 2.60 GHz，顯卡為NVIDIA RTX 3090，顯卡內(nèi)存為24 GB，操作系統(tǒng)為Ubuntu18.04，CUDA版本為11.2，Python版本為3.8，PaddlePaddle版本為2.2。

3.1.4 評(píng)估指標(biāo)

本次算法實(shí)驗(yàn)使用訓(xùn)練過程中的loss和全部目標(biāo)的mAP作為評(píng)估指標(biāo)。

訓(xùn)練時(shí)loss值的計(jì)算公式如下：

loss=lossbbox+lossdfl+lossvfl

loss值計(jì)算公式中，lossbbox為預(yù)測(cè)值與檢測(cè)目標(biāo)真實(shí)位置之間的損失，其中l(wèi)ossvfl為Varifocal Loss，lossdfl為Focal Loss。

在對(duì)目標(biāo)檢測(cè)算法的性能進(jìn)行評(píng)估過程中，有如下相關(guān)概念：True Positive(TP)是IoU超過預(yù)先給定的閾值的檢測(cè)框數(shù)量(同一個(gè)真實(shí)框只統(tǒng)計(jì)一次)；False Positive(FP)是IoU小于等于預(yù)先給定的閾值的檢測(cè)框總量，簡單點(diǎn)說就是檢測(cè)到對(duì)于同一個(gè)真實(shí)框的剩余檢查框的總的數(shù)量；False Negative(FN)是指檢測(cè)過程中無法檢查到的真實(shí)框的總量。于是有：

式中，all detctions和all ground truths，分別表示了全部預(yù)測(cè)框和全部真實(shí)框的總量。而PR曲線一般指的是用Precision和Recall繪制的曲線。在特定類別目標(biāo)的PR曲線上，該類別的AP值得計(jì)算公式如下：

上述計(jì)算公式中，r1，…，rn是按升序進(jìn)行排列的Precison插值段的第一個(gè)插值處對(duì)應(yīng)的Recall值，在本次實(shí)驗(yàn)中，我們所選取的是0，0.1，…，1這44個(gè)Recall值。各類別AP的平均數(shù)就是mAP：

式中，k為目標(biāo)類別數(shù)[20]。

3.2 實(shí)驗(yàn)過程

將各模型依次在劃分好的數(shù)據(jù)集上進(jìn)行訓(xùn)練，分析模型訓(xùn)練過程中相關(guān)參數(shù)的變化情況，并綜合比較各模型訓(xùn)練效果、導(dǎo)出模型的性能。

在模型訓(xùn)練策略方面，所有算法都訓(xùn)練100個(gè)epoch，每5個(gè)epoch進(jìn)行一次驗(yàn)證，訓(xùn)練時(shí)小模型設(shè)置batch_size為32，大模型設(shè)置batch_size為16，驗(yàn)證時(shí)batch_size為8；測(cè)試時(shí)batch_size為1；初始LearningRate設(shè)置為0.002，在steps為300時(shí)達(dá)到最大值0.08，然后隨著訓(xùn)練步數(shù)增加慢慢遞減至趨于0。訓(xùn)練完成后保存在驗(yàn)證集上表現(xiàn)最好的模型，并在測(cè)試集上進(jìn)行最終評(píng)估。

3.3 實(shí)驗(yàn)結(jié)果

3.3.1 訓(xùn)練過程曲線圖對(duì)比

各模型訓(xùn)練完成后的mAP曲線對(duì)比如圖6所示。從圖中可以看出，各個(gè)模型訓(xùn)練過程中，在驗(yàn)證集上的mAP(0.5：0.95)值變化曲線未出現(xiàn)明顯的過擬合現(xiàn)象。

圖6 各模型mAP曲線對(duì)比圖

總體上來看，在相同訓(xùn)練輪數(shù)的情況下，PP-PicoDet系列算法的mAP(0.5：0.95)值遠(yuǎn)高于YOLOv5系列算法。其中，較小的模型PP-PicoDet_s_320和較大的模型PP-PicoDet_l_640的驗(yàn)證結(jié)果雖然相對(duì)較低，但也都接近0.5，而PP-PicoDet_m_320和PP-PicoDet_m_416得出的結(jié)果大致相同，且表現(xiàn)較好。

各個(gè)算法模型在訓(xùn)練過程中的loss曲線如圖7所示。

圖7 各模型loss曲線對(duì)比圖

從圖中可以看出，模型PP-PicoDet_s_320和模型PP-PicoDet_m_320訓(xùn)練時(shí)收斂速度相對(duì)較快，而較大的模型PP-PicoDet_l_640和YOLOv5系列模型在訓(xùn)練過程中收斂速度較慢，且最終計(jì)算出的loss值的效果較差。在所有模型中，PP-PicoDet_m_416的loss值下降的最低，并且訓(xùn)練時(shí)間也相對(duì)較快，是綜合表現(xiàn)較好的模型。

3.3.2 模型評(píng)估效果對(duì)比

我們對(duì)上述各個(gè)算法在100個(gè)epoch訓(xùn)練過程中保存下來的最好的模型，在驗(yàn)證集上進(jìn)行評(píng)估，評(píng)估結(jié)果如表4所示。

表4 模型訓(xùn)練結(jié)果評(píng)估

從評(píng)估表格中可以看出，除了模型PP-PicoDet_l_640之外，其他模型的訓(xùn)練時(shí)間都較快，并且預(yù)測(cè)速度達(dá)到了100 FPS以上，相比于同類型的其他算法，其檢測(cè)速度和精度均顯著提升。相比之下，YOLOv5系列算法在精度和速度上都處于明顯的劣勢(shì)。因此，可以看出在訓(xùn)練相同輪數(shù)的情況下，PP-PicoDet系列算法可以更快地達(dá)到較高的精度，而且訓(xùn)練的速度較快，能夠節(jié)約計(jì)算成本，更加適合移動(dòng)端應(yīng)用的部署。

3.3.3 模型測(cè)試

與模型評(píng)估相同，在測(cè)試集上進(jìn)行測(cè)試，測(cè)試結(jié)果如表5所示。

表5 模型訓(xùn)練結(jié)果測(cè)試

從測(cè)試表格中可以看出，YOLOv5系列算法的推理速度較慢，并且準(zhǔn)確率也相對(duì)較低。相比之下，PP-PicoDet系列各個(gè)模型的泛化性較好、準(zhǔn)確率較高，測(cè)試效果都和驗(yàn)證集上的驗(yàn)證效果相差不多。其中，模型PP-PicoDet_m_416的mAP(0.5：0.95)值和mAP(0.5)都到了0.6以上，屬于較高水平，并且在檢測(cè)速度上達(dá)到了111 FPS，在總體上和PP-PicoDet_m_320表現(xiàn)的都較好。

3.3.4 實(shí)驗(yàn)結(jié)果分析

經(jīng)過實(shí)驗(yàn)驗(yàn)證，可以看出相比于目前常見的用于垃圾分類目標(biāo)檢測(cè)的YOLOv5系列算法，基于PP-PicoDet的垃圾分類目標(biāo)檢測(cè)算法能夠在較少參數(shù)量的情況下實(shí)現(xiàn)較高的檢測(cè)速度和檢測(cè)精度，并且減少了訓(xùn)練時(shí)間?？傮w上基本能夠滿足在移動(dòng)端部署垃圾分類目標(biāo)檢測(cè)算法模型的需求，對(duì)于提高垃圾分類目標(biāo)檢測(cè)的智能化程度有較大的幫助。

4 軟件測(cè)試

4.1 軟件系統(tǒng)設(shè)計(jì)框圖

如圖8所示，軟件系統(tǒng)主要由四大部分組成：MySQL數(shù)據(jù)庫、目標(biāo)檢測(cè)算法、Python Flask框架、前端頁面。其中，MySQL數(shù)據(jù)庫采用的是MySQL8.0版本，目標(biāo)檢測(cè)算法由上述實(shí)驗(yàn)訓(xùn)練所得，F(xiàn)lask框架是Python中一種常用的小型后端框架，前端頁面采用HTML、CSS、JavaScript三種網(wǎng)頁設(shè)計(jì)基本語言進(jìn)行設(shè)計(jì)，并使用了開源的前端UI組件庫Layui。

圖8 軟件系統(tǒng)設(shè)計(jì)框圖

4.2 前后端框架介紹

首先是前端框架，由HTML、CSS、JavaScript三種網(wǎng)頁基本語言、開源的前端UI組件庫Layui組成。其中，HTML語言用于創(chuàng)建網(wǎng)頁的結(jié)構(gòu)和內(nèi)容，是網(wǎng)頁制作的基礎(chǔ)。CSS語言用于表示組件的樣式，通過CSS語言可以美化網(wǎng)頁，增加用戶的體驗(yàn)感。JavaScript語言為控制語言，語法上富有邏輯性，通過JavaScript語言可以在網(wǎng)頁中添加控制行為，增強(qiáng)網(wǎng)頁的動(dòng)態(tài)性和交互性。Layui組件庫是一個(gè)基于瀏覽器端原生態(tài)模式，面向全層次的前后端開發(fā)者，易上手且開源免費(fèi)的Web界面組件庫，里面有許多常用的Web組件，基本滿足簡單的Web開放需求。

其次是后端框架，采用的是Python中的Flask框架，一種輕巧方便的小型后端框架。它的WSGI工具箱選用的是Werkzeug，模板引擎選用的是Jinja2。Werkzeug庫十分強(qiáng)大，其功能相對(duì)完備，不僅支持對(duì)URL路由請(qǐng)求的集成，而且還支持Cookie、會(huì)話管理、交互式Javascript調(diào)試等服務(wù)。Jinja2庫不僅可以較好地防御外部黑客的腳本攻擊，還可以提高系統(tǒng)的運(yùn)行速度。相較于其他同類型框架而言，F(xiàn)lask框架能夠較好地結(jié)合MVC開發(fā)模式，更加輕便、快捷、安全且易于掌握。使用Flask框架能夠在短時(shí)間內(nèi)實(shí)現(xiàn)功能豐富的Web系統(tǒng)設(shè)計(jì)。

Flask框架工作原理如圖9所示。

圖9 Flask框架工作原理圖

設(shè)計(jì)出的算法測(cè)試軟件系統(tǒng)運(yùn)行頁面，如圖10所示。

4.3 垃圾分類目標(biāo)檢測(cè)算法測(cè)試

通過選擇100張圖片對(duì)各個(gè)訓(xùn)練出的算法模型進(jìn)行測(cè)試，平均速度測(cè)試結(jié)果如表6所示。

表6 模型訓(xùn)練結(jié)果測(cè)試

通過對(duì)軟件系統(tǒng)的多次測(cè)試，可以大致發(fā)現(xiàn)，在僅使用4核Intel(R)Core(TM)i5-10300H CPU @ 2.50 GHz 2.50 GHz處理器的情況下，PP-PicoDet系列算法的速度遠(yuǎn)高于YOLOv5系列，最快的PP-PicoDet_s_320的速度幾乎是YOLOv5s的8倍，表現(xiàn)較好的PP-PicoDet_m_416也大約是YOLOv5s的5倍，速度提升較為明顯。測(cè)試結(jié)果表明，PP-PicoDet系列目標(biāo)檢測(cè)算法在實(shí)際應(yīng)用場(chǎng)景下，具有較高的實(shí)用性，有助于推動(dòng)垃圾分類向智能化方向發(fā)展。

5 結(jié)束語

通過實(shí)驗(yàn)對(duì)比PP-PicoDet目標(biāo)檢測(cè)算法和YOLOv5系列目標(biāo)檢測(cè)算法的性能，并測(cè)試PP-PicoDet目標(biāo)檢測(cè)算法在垃圾分類目標(biāo)檢測(cè)上的具體應(yīng)用，根據(jù)實(shí)驗(yàn)結(jié)果可以看出基于PP-PicoDet技術(shù)的智能垃圾分類，相比于目前常用的同類型算法，具有以下優(yōu)點(diǎn)：

1)模型參數(shù)量小，訓(xùn)練速度較快，且泛化能力較強(qiáng)；

2)在相同參數(shù)量情況下可以實(shí)現(xiàn)較高的檢測(cè)精度和檢測(cè)速度；

3)具有較強(qiáng)的實(shí)際應(yīng)用意義，能夠助力提高我國垃圾分類智能化程度，改善垃圾處理效率。

通過人工智能技術(shù)，能夠給人們帶來一定的便利，但也會(huì)讓人們逐漸淡化對(duì)垃圾分類的主動(dòng)意識(shí)。如何建立健全垃圾分類智能化管理機(jī)制，對(duì)正確分類給予獎(jiǎng)勵(lì)，對(duì)錯(cuò)誤投放能夠做到溯源，并進(jìn)行合理懲罰，還是需要不斷地去研究和完善，這樣才能夠真正地解決垃圾處理難題[21]。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放