亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLO神經(jīng)網(wǎng)絡(luò)的垃圾檢測與分類

        2022-10-15 03:47:14李清都
        電子科技 2022年10期
        關(guān)鍵詞:注意力卷積垃圾

        張 偉,劉 娜,江 洋,李清都

        (1.上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093; 2.上海理工大學(xué) 醫(yī)療器械與食品學(xué)院,上海 200093; 3.重慶市互聯(lián)網(wǎng)信息辦公室,重慶 401120)

        隨著經(jīng)濟的迅速發(fā)展,我國城鎮(zhèn)人口數(shù)量急劇增加,城市生活垃圾也日益增多,而垃圾分類則是處理垃圾公害的最佳解決方案[1]。當下的關(guān)注熱點在于將垃圾進行無害化、資源化處理,因此合理有效地對垃圾進行回收利用具有一定的意義。對垃圾進行有效地分類是處理垃圾回收問題的前提[2]。目前,針對人工分揀垃圾環(huán)境差、分揀效率低等問題,研究人員提出建立垃圾識別與分揀智能化和自動化系統(tǒng),通過利用深度學(xué)習(xí)技術(shù)來降低人工分類成本,節(jié)約人力資源[3]。

        垃圾檢測屬于計算機視覺領(lǐng)域的目標檢測任務(wù)。傳統(tǒng)的檢測方法以HOG(Histogram of Gridie) 檢測器[4]、基于滑動窗口的VJ(Viola-Jones)檢測器和DPM(Deformable Part Model)檢測器[5]為代表。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)架構(gòu)于2012年被首次提出,并逐漸成為了熱門研究方向。經(jīng)過多年發(fā)展,深度學(xué)習(xí)領(lǐng)域已涌現(xiàn)出VGGNet、GoogLeNet、ResNet等多種神經(jīng)網(wǎng)絡(luò)算法。最先被用于目標檢測的卷積神經(jīng)網(wǎng)絡(luò)是R-CNN[6](Region-CNN)算法。該算法使用卷積神經(jīng)網(wǎng)絡(luò)進行特征提取,使用Bounding Box Regression修正目標邊界框。不過R-CNN算法也有其弊端,串行式CNN前向傳播耗時長,且CNN特征提取、SVM(Support Vector Machines)分類和邊框修正3個模塊是分開訓(xùn)練的,對于存儲空間的消耗較大。為了克服R-CNN的耗時問題,F(xiàn)ast R-CNN算法直接采用一個CNN提取全圖特征,減少了對存儲空間的占用。R-CNN和Fast R-CNN算法存在相同的缺陷,即存在耗時的Selectice Search,因此這兩種算法無法實現(xiàn)端到端的物體檢測。為了解決這個問題,文獻[7]提出了一種區(qū)域提議網(wǎng)絡(luò)(Region Proposal Network, RPN),該網(wǎng)絡(luò)可以直接連接到Fast R-CNN 網(wǎng)絡(luò)的后一個卷積層,以得到對應(yīng)的檢測對象框和分數(shù)信息,該網(wǎng)絡(luò)也被稱作為 Faster R-CNN。上述目標檢測算法都是二階段算法,針對二階段目標檢測算法普遍存在運算速度慢的缺點,研究人員提出了YOLO(You Only Look Once)[6]算法,該算法可在一個步驟中完成對物體的分類和定位。YOLO和SSD[8](Single Shot MultiBox Detector)這類一階段算法僅使用一個CNN網(wǎng)絡(luò)就能直接預(yù)測不同目標的類別與位置。SSD的網(wǎng)絡(luò)結(jié)構(gòu)基于VGG16構(gòu)造,其檢測速度較快。YOLO的網(wǎng)絡(luò)結(jié)構(gòu)類似于GoogLeNet,其先將圖片尺寸放縮到固定尺寸,然后將圖片傳入CNN網(wǎng)絡(luò)進行處理,用非極大值抑制進行邊界框[9]的冗余裁剪,從而處理掉大批冗余,得到最后的預(yù)測結(jié)果。YOLO將物體檢測作為一個回歸問題進行求解,僅一次求解便可以得到圖像中所有物體的位置、類別以及相應(yīng)的置信概率。

        本文探討了CNN的精細特征對垃圾分類任務(wù)的適用性,針對不同實驗場景,制作了特定的垃圾數(shù)據(jù)集。本文提出采用基于YOLO的神經(jīng)網(wǎng)絡(luò)模型來進行垃圾檢測與分類,可有效解決垃圾分類的人工預(yù)處理問題。

        1 垃圾分類檢測流程

        本文提出的垃圾檢測與分類方法設(shè)計包括數(shù)據(jù)集制作以及模型調(diào)整兩部分。垃圾檢測與分類的方法設(shè)計整體流程如圖1所示。

        圖1 設(shè)計流程圖

        本文實驗使用的數(shù)據(jù)來源于相機拍攝,數(shù)據(jù)集共計20 000張圖片。垃圾樣本共計9類,分別是易拉罐、煙盒、煙頭、果皮、包裝袋、紙、塑料瓶、瓜子殼、樹葉。YOLO模型相較于R-CNN等兩階段算法擁有一定的速度優(yōu)勢。相較于YOLO模型早期版本,YOLOv4模型的識別精度更高,且有利于邊緣計算,對于項目落地有較強的可行性,因此本文選用YOLOv4模型進行研究。

        2 垃圾分類檢測方法設(shè)計

        2.1 數(shù)據(jù)集的獲取

        由于項目機器人作業(yè)地點為鄭州東站,故在鄭州東站進行數(shù)據(jù)采集,采集時間為夏季,天氣以晴天為主,少量雨天。因鄭州東站環(huán)境較復(fù)雜,所以數(shù)據(jù)采集的背景選擇非常重要。本實驗數(shù)據(jù)采集的背景選擇了30余處,基本覆蓋所有場景,確保了實驗數(shù)據(jù)的完整性和準確性。通過D435雙目相機獲取視頻,視頻分辨率為1 920×1 080,每秒傳遞幀數(shù)為30幀。為了獲得最佳的訓(xùn)練數(shù)據(jù),本文充分考慮了垃圾的各種形態(tài),選擇多角度環(huán)繞拍攝,避免垃圾之間產(chǎn)生重疊。對拍攝完的視頻進行解析,每秒提取2張圖片,格式為JPEG。為了保證圖像的質(zhì)量和清晰度,對解析后的圖片進行人工篩選,然后對篩選后的圖片使用labellmg工具進行標注。標注時,為了保證數(shù)據(jù)的準確性,需確保目標框為垃圾樣本的最大外接矩形。對標注后的數(shù)據(jù),進行人工驗收,防止出現(xiàn)漏標誤標。后期則根據(jù)模型測試的效果,對易誤檢的目標或背景再進行樣本補充,提高識別的準確率。采集的垃圾樣本如圖2所示。

        圖2 垃圾樣本

        2.2 數(shù)據(jù)集的劃分

        對所有圖片進行命名排序,根據(jù)標注產(chǎn)生的txt格式文件編寫相應(yīng)的代碼使其生成訓(xùn)練集、驗證集和測試集。

        訓(xùn)練集是模型訓(xùn)練過程中使用的圖像數(shù)據(jù)[10]。模型效果與訓(xùn)練集的選擇有直接關(guān)系。訓(xùn)練集對初始模型擬合與參數(shù)優(yōu)化有重要作用。本文的訓(xùn)練集分為單類垃圾數(shù)據(jù)和多類垃圾數(shù)據(jù)。

        驗證集被用于在每個Epoch完成之后進行模型狀態(tài)和收斂情況的檢驗,它不參與梯度下降的過程,僅負責(zé)調(diào)整迭代次數(shù)和學(xué)習(xí)率等超參數(shù)。此過程不參與學(xué)習(xí)參數(shù)的確定。

        測試集用于對訓(xùn)練完成的最終模型進行測試,通過測試來確定該模型檢測與分類的準確率,確保該模型在未來實際應(yīng)用中的正確性和有效性。

        2.3 垃圾識別分類方法

        本文探討的垃圾檢測與分類方法使用基于YOLOv4的網(wǎng)絡(luò)作為實驗訓(xùn)練模型,并將其用于全局和局部的特征提取。首先,YOLOv4網(wǎng)絡(luò)主體結(jié)構(gòu)如圖3所示,主要分為3部分:主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)、頭部網(wǎng)絡(luò)。主干網(wǎng)絡(luò)采用CSPDarknet53,頸部網(wǎng)絡(luò)是SPP(Spatial Pyramid Pooling)模塊+PANet(Path Aggregation Network),頭部網(wǎng)絡(luò)則采用YOLOv3。

        圖3 YOLOv4網(wǎng)絡(luò)主體結(jié)構(gòu)

        圖3中,CBM和CBL模塊是融合了批量歸一化并使用Mish和Leaky ReLU激活函數(shù)的卷積層;CSP模塊由多個殘差塊疊加而成;SPP模塊中的Concat操作則是將大小相同的特征圖進行通道拼接。

        為了在不增加訓(xùn)練成本的基礎(chǔ)上增加模型的準確率,本文采用了數(shù)據(jù)增強和邊界框回歸損失函數(shù)。數(shù)據(jù)增強能增加輸入圖片的多樣性,從而增強復(fù)雜環(huán)境下模型的魯棒性[11]。傳統(tǒng)的目標檢測方法使用的是均方誤差(Mean Squared Error,MSE),與檢測框評測指標IOU(Intersection over Union)存在誤差,故引入了 LossIou,其定義如式(1)所示。

        LossIou=1-IoU

        (1)

        注意力機制模塊可以根據(jù)全局圖像,從大量信息中篩選有用信息,抑制其它無用信息,增強特征圖中重要的空間和通道特征,使網(wǎng)絡(luò)在訓(xùn)練過程中可抓住目標特征重點學(xué)習(xí)。本文選用卷積注意力機制模塊(Convolutional Block Attention Module,CBAM),并將其嵌入到Y(jié)OLOv4模型中。如圖4所示,本文選擇在每個檢測頭前嵌入一個CBAM模塊。

        圖4 CBAM嵌入示意圖

        在CBAM模塊中[6],對于一個中間層的特征圖F∈RC×H×W,C表示特征圖的通道,H表示特征圖的高度,W表示特征圖寬度。一維的通道注意力特征圖MC∈RC×1×1,二維的空間注意力特征圖MS∈R1×H×W,整個過程為

        F1=MC(F)?F,F(xiàn)2=MS(F1)?F1

        (2)

        式中,?表示逐元素相乘。先將通道注意力特征圖與輸入的特征圖相乘得到F1;然后計算F1的空間注意力特征圖;再將兩者相乘得到輸出F2。

        通道注意力模塊以及空間注意力模塊的計算過程如下文所述。CBAM通道注意力模塊使用最大池化和平均池化對特征圖進行空間維度上的壓縮,得到兩個不同的通道背景描述,即Fmax和Favg。再通過由多層感知器(Multilayer Percep-tron,MLP)組成的共享網(wǎng)絡(luò)對Fmax和Favg進行計算[12],得到通道注意力特征圖 ,如式(3)所示。

        MC(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=

        σ(W1(W0(Favg))+W1(W0(Favg)))∈RC×1×1

        (3)

        式中,σ表示Sigmoid激活函數(shù);MLP表示共享全連接層[12];W0表示共享全連接層的第1層;W1表示共享全連接層的第2層;輸出向量長度為C。

        通道注意力模塊(Channel Attention Module)如圖5所示。

        圖5 CBAM通道注意力模塊

        CBAM空間注意力模塊先在通道維度上進行最大池化和平均池化,得到兩個不同的空間背景描述,再使用卷積操作[13]生成空間注意力特征圖

        MS(F)=σ(f7×7([AvgPool(F);MaxPool(F)])) =

        σ(f7×7([Favg;Fmax]))∈RH×W

        (4)

        式中,f7×7表示7×7的卷積層。

        圖6所示為空間注意力模塊示意圖(Spatial Attention Module)。

        圖6 CBAM空間注意力模塊

        相比于FPN(Feature Pyramid Networks),PANet的效果更好,但計算量也更大。本文中YOLOv4特征集成采用PANet,故需先將PANet進行簡化,將PANet的addition改成concatenation。PANet主要包含F(xiàn)PN、Bottom-up path augmentation、Adaptive feature pooling、Fully-connected fusion共4個部分[14]。FPN通過融合高低層特征來提升目標檢測的效果,其對小尺寸目標檢測效果的提升更為顯著。淺層特征一般是邊緣形狀等特征,考慮到網(wǎng)絡(luò)淺層特征信息對于實例分割較為重要,故引入Bottom-up path augmentation。Adaptive feature pooling用每個感興趣區(qū)域提取不同層的特征來做融合。Fully-connected fusion則向原有分割支路引入一個前背景二分類的全連接支路[15],通過融合這兩條支路的輸出來得到更精確的分割結(jié)果。

        本文選用Mish函數(shù)作為激活函數(shù),如圖7所示,其正值無上界的特點避免了由于封頂而導(dǎo)致的飽和。另外,Mish函數(shù)保證了每一點的平滑性,從而獲得了較好的梯度下降效果[16]。

        圖7 Mish函數(shù)示意圖

        Mish(x)=x×tanh(In(1+ex))

        (5)

        2.4 數(shù)據(jù)集訓(xùn)練部分

        本次實驗平臺基于Ubuntu16.04系統(tǒng),顯卡為TITAN RTX 2080Ti,內(nèi)存為32 GB。訓(xùn)練部分基于YOLOv4-custom.cfg對數(shù)據(jù)集進行模型訓(xùn)練,其中batch值為64,subdivision值為16。因本實驗數(shù)據(jù)集共有9類,所以max_batches值被設(shè)置為18 000次。Steps=xxx,本文將xxx設(shè)置成max_batches的80%和90%。YOLOv4有3個YOLO層,將每個層里面的classes值設(shè)為數(shù)據(jù)集類型數(shù)目9。數(shù)據(jù)集按照二八原則進行劃分,即20%為驗證集,剩余80%作為訓(xùn)練集,并編寫Python腳本文件來分離訓(xùn)練集和測試集,在Main中生成train.txt和val.txt文件。訓(xùn)練時打開Trainning的batch和subdivisions,將Testing部分注釋掉。本實驗基于YOLO預(yù)訓(xùn)練模型開始訓(xùn)練,當訓(xùn)練的loss趨于平穩(wěn)時,停止訓(xùn)練。使用訓(xùn)練得到的模型對垃圾進行檢測,對易誤檢的垃圾進行數(shù)據(jù)補充,從而繼續(xù)提升模型精度。

        3 實驗結(jié)果與分析

        針對本文提出的模型調(diào)整與算法改進措施,分別進行對比實驗來檢測性能。目前平均精度(Average Precision,AP)是多類別目標檢測及其分類中最重要的評價指標,因此本次實驗采用AP作為垃圾檢測與分類的評價指標[17]。各類別垃圾在YOLOv4以及改進的模型上的精確度表現(xiàn)如表1所示。

        表1 不同垃圾類別的AP比較

        由表1可知,采用本文提出的算法模型后,有8類垃圾的檢測精確度高于YOLOv4的精確度,其中對PlasticBottle的檢測精確度提升最高,提升了6.36%;識別效果最好的類別則為Cans,識別精度可達94.56%。本實驗還對比了CSPResNEXt50和CSPDarknet53在垃圾檢測與分類方面的表現(xiàn),具體結(jié)果如表2所示。

        表2 CSPResNEXt53與CSPDarket53的參數(shù)對比

        由表2可知,CSPResNeXt50僅包含16個卷積層,其感受野為425×425,包含20.6 MB參數(shù); CSPDarkNet53包含29個卷積層,725×725的感受野,共有27.6 MB參數(shù)。因此,雖然CSPResNEXt50在分類方面的表現(xiàn)優(yōu)于CSPDarkNet53,但其在檢測方面的表現(xiàn)則不如CSPDarkNet53[18]。

        此外,本實驗還對比了使用K-means聚類算法優(yōu)化Anchor box后和未經(jīng)優(yōu)化的YOLOv4以及本文引入注意力機制和K-means的YOLOv4模型在本文數(shù)據(jù)集上進行訓(xùn)練后的性能變化,具體結(jié)果如表3所示。

        表3 不同模型的效能評估

        由表3可知,當IOU閾值設(shè)置為0.5時,相較于原始YOLOv4,使用K-means聚類算法的YOLOv4-1的map提升了1.08%,使用K-means聚類算法并引入注意力模塊的模型的map提升最為明顯,提升了2.81%。改進YOLO模型對垃圾的識別結(jié)果如圖8所示。

        圖8 改進后的算法識別效果

        4 結(jié)束語

        本文針對現(xiàn)實生活中人工分揀垃圾效率低、任務(wù)重且環(huán)境差等問題,基于卷積神經(jīng)網(wǎng)絡(luò)的模型進行改進,提出了進行垃圾分類與檢測的新方法。該方法能夠在一定程度上改善垃圾分類耗時耗力的問題,并準確檢測垃圾,完成分類。本文在YOLO模型中融入了K-means聚類算法,并向該模型中加入CBAM注意力機制,研究了注意力機制對垃圾檢測算法性能的影響,并選擇經(jīng)過優(yōu)化的網(wǎng)絡(luò)架構(gòu)來完成垃圾檢測與分類任務(wù)。下一步將對模型進行壓縮,嘗試構(gòu)造更好的輕量級網(wǎng)絡(luò)結(jié)構(gòu)并將其用于模型訓(xùn)練,從而提升網(wǎng)絡(luò)模型的實時性。

        猜你喜歡
        注意力卷積垃圾
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        垃圾去哪了
        那一雙“分揀垃圾”的手
        當代陜西(2019年24期)2020-01-18 09:14:46
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        倒垃圾
        基于傅里葉域卷積表示的目標跟蹤算法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        倒垃圾
        A Beautiful Way Of Looking At Things
        冲田杏梨av天堂一区二区三区| 久久精品日本美女视频| 精品日韩欧美一区二区在线播放| 强d乱码中文字幕熟女免费| 亚洲视频中文字幕更新| 国产午夜福利精品| 国产suv精品一区二区6| 国精产品一区一区二区三区mba| 长腿丝袜在线观看国产| 日本女优中文字幕看片| 国产在线精品一区二区三区不卡| 人妻少妇乱子伦无码视频专区| 男女啪啪啪的高清视频| 全部免费国产潢色一级| 国产男女猛烈视频在线观看| 精品无码国产自产在线观看水浒传 | 午夜婷婷国产麻豆精品| 国产丝袜在线精品丝袜不卡| 天天躁日日躁狠狠很躁 | 久久国产乱子伦精品免费强| 女人被男人躁得好爽免费视频| 中文字幕成人乱码熟女精品国50| 一级午夜理论片日本中文在线| 亚洲va欧美va| 内谢少妇xxxxx8老少交| 亚洲大尺度无码无码专区| 五月激情在线观看视频| 在线观看亚洲精品国产| 国产一区二区不卡老阿姨 | 私人vps一夜爽毛片免费| 亚洲综合小综合中文字幕| 亚洲一区区| 在线观看免费a∨网站| 日本怡春院一区二区三区| 国产高清成人在线观看视频| 亚洲激情视频在线观看a五月| 毛片一级精油按摩无码| 国产精品公开免费视频| 欧美日韩精品| 韩国三级大全久久网站| 精品国产a一区二区三区v|