亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于GINet的垃圾分類檢測網(wǎng)絡

2021-07-11 19:13:29呂澤正祁翔

智能計算機與應用 2021年1期

呂澤正祁翔

摘?要：為了更好地服務于城市垃圾分類，提高垃圾分類前端收集的工作效率，本文提出了一種基于GINet的智能分類垃圾網(wǎng)絡。首先在Kaggle數(shù)據(jù)集和華為垃圾分類公開數(shù)據(jù)集的基礎上進行了人工標注，并建立了垃圾分類的訓練數(shù)據(jù)集。其次，為了提高模型的泛化能力，擴充訓練樣本，設計了一種具有針對性的多背景圖像增強方法。最后，為了解決垃圾分類數(shù)據(jù)集中某些同類垃圾之間的尺寸、顏色差異巨大，以VGG-16為主干特征提取網(wǎng)絡，構建了一個融合多特征提取與注意力機制的垃圾識別網(wǎng)絡（Garbage Identification Net，GINet）。仿真實驗表明，該算法在復雜環(huán)境下?lián)碛辛己玫聂敯粜院头€(wěn)定性，檢測準確率可達到945%，很好地滿足了工業(yè)場景下垃圾檢測的準確性。

關鍵詞：垃圾分類;深度學習;GINet

文章編號： 2095-2163（2021）01-0152-05 中圖分類號：TP391 文獻標志碼：A

【Abstract】In order to better serve the classification of urban garbage and improve the efficiency of front-end collection of garbage classification， this paper proposes an intelligent garbage classification network based on GINet. Firstly， manual annotation is carried out on the basis of Kaggle and Huawei's public garbage classification data set， and a training data set for garbage classification is established. Second， in order to improve the generalization ability of the model and expand the training samples， a targeted multi-background image enhancement method is designed. Finally， in order to solve the huge difference in size and color between some similar garbage in the garbage classification data set， VGG-16 is used as the main feature extraction network， and a garbage identification network that combines multi-feature extraction and attention mechanisms is constructed named Garbage Identification Net （GINet）. The simulation experiment shows that the algorithm has good robustness and stability in complex environments， the detection time is only 20 ms， and the accuracy can reach 94.5%， which satisfies the high efficiency detection of garbage targets in industrial scenarios.

【Key words】garbage classification; deep learning; GINet

0 引?言

近年來，中國國內城市垃圾產(chǎn)生量每年都在不斷增長，因此，垃圾的科學分類與處理就顯得尤為重要。一般情況下，垃圾處理主要是通過焚燒與填埋方式，但是這種做法卻會導致土壤、空氣和水資源受到嚴重污染，存在很大的弊端。據(jù)統(tǒng)計可知，城市生活垃圾主要分為干垃圾、濕垃圾、可回收垃圾和有毒有害垃圾[1]。就目前來說，國內關于垃圾回收大多采用了人工流水線處理，但在處理過程中則暴露出效率低、成本高且對工人身體健康影響較大的問題與不足。隨著工業(yè)機器人技術的快速發(fā)展，機器人代替人工作業(yè)已在多個領域開始落地實施，因此基于機器人的垃圾分類回收作業(yè)已經(jīng)成為該行業(yè)的未來發(fā)展趨勢。

當前，垃圾分類的檢測研究相對較少，許多高效實用的檢測方法也仍處于研發(fā)階段，并且普遍存在著檢測速度慢、精準率低、適應性差等諸多問題。Diya等人[2]研發(fā)了一種垃圾分類系統(tǒng)。系統(tǒng)中包含了感應功能、電壓調控、紅外傳感功能，與此同時卻又發(fā)現(xiàn)該系統(tǒng)的垃圾檢測量較小且抗干擾性極差。吳健等人[3]提出一種基于顏色分割的垃圾識別系統(tǒng)。但是，由于垃圾的背景、尺寸、質量皆不相同，依賴人工提取相應數(shù)據(jù)不同的特征的傳統(tǒng)算法，魯棒性較差，處理方式十分復雜，所需時間很長，因而無法滿足實時性。

近年來，隨著深度學習的飛速發(fā)展，基于卷積神經(jīng)網(wǎng)絡的垃圾分類方法顯示出了鮮明的優(yōu)越性[4-6]。其中，Abeywickrama等人[4]將垃圾分類視為圖像分類，通過支持向量機和卷積神經(jīng)網(wǎng)絡對6類垃圾進行了識別分類，并取得了識別準確率為83%的識別結果。Mittal等人[5]制作了由2 561張垃圾圖片構成的數(shù)據(jù)集，并設計了準確率高達87.69% 的GarbNet模型。Seredkin等人[6]通過融合Faster- RCNN[7]網(wǎng)絡進行垃圾分類，其準確度較高，較為有效地實現(xiàn)了垃圾的識別，但由于某些同類垃圾之間的尺寸、顏色差異巨大，導致垃圾識別的效果卻仍未臻至理想。

綜上所述，本文設計研發(fā)了一種基于多尺度特征提取與注意力機制融合的垃圾識別算法（Garbage Identification Net，GINet）。在網(wǎng)絡構架中加入了多背景圖像增強方法，豐富了垃圾識別種類，增強了模型泛化能力;為了提高模型在垃圾分類任務上的準確性，算法引入了注意力機制與多特征融合模塊。

1 算法設計

1.1 多背景圖像增強

圖像增強技術是提高模型泛化能力的重要途徑，主要可分為空域法和頻域法。其中，空域法是直接進行圖像處理;頻域法是在變換域內修正圖像系數(shù)，得到增強的結果。合理運用圖像增強技術，既可以提升視覺效果，增強清晰度，也可以針對給定圖像的技術需求，在突出感興趣特征的同時，抑制不感興趣特征。

本次研究提出了一種有針對性的多背景圖像增強方法。該方法主要是在訓練的各個周期過程中，每4張圖片就保存一次最大激活特征圖，再上采樣至原圖大小，繼而進行選擇性裁剪，并加以隨機組合，將組合后的圖像另行輸入至CNN中重新進行訓練。研究得到的算法偽代碼見如下。

for 每次迭代 do

輸入，目標值=get_minibatch（數(shù)據(jù)集）

if 模式 == 訓練 then

新輸入值，新目標值=shuffle.miniback（輸入值，目標值）

lambda= Unif（0，1）

r_x = Unif（0，W）

r_y = Unif（0，H）

r_w = Sqrt（i - lambda）

r_h = Sqrt（i - lambda）

x1 = Round（Clip（r_x - r_w/2，min=0））

x2 = Round（Clip（r_x + r_w/2，max=W））

y1 = Round（Clip（r_y - r_h/2，min=0））

y2 = Round（Clip（r_y + r_h/2，max=H））

輸入值[ ：，：，x1 ： x2，y1： y2 ] = 新輸入值[ ：，：，x1 ： x2，y1： y2 ]

lambda = 1 - （x2 - x1） * （y2 - y1）/（W * H）

新目標值?= lambda *目標值 + （1 - lambda） * 新目標值

end if

輸出值?= model_forward（輸入值）

loss值 = compute_loss（輸出值，目標值）

end for

算法通過將隨機的4張樣本圖片按比例混合，產(chǎn)生更加豐富的背景，從而提高模型局部視圖識別能力。與此同時，在裁剪區(qū)域中添加其他樣本的信息，能夠進一步增強模型定位能力，使其準確性和魯棒性都變得更好。多背景圖像的增強效果如圖1所示。

1.2 模型結構

當前有著不錯性能表現(xiàn)的目標檢測框架都廣泛使用了特征金字塔，從而緩解對象實例由于不同比例大小變化而帶來的差異性問題。因此，本項目中提出了多層次特征金字塔網(wǎng)絡模塊來構建更有效的特征金字塔，用于檢測不同尺度的對象。首先，將原始圖像輸入VGG-16，使用前13層卷積提取基本特征，然后，將由淺到深的基本特征分別送入3組交替連接的TUM模塊進行特征融合，并利用每個TUM模塊的解碼器層作為檢測對象的特征。隨后使用SFAM模塊將TUM模塊提取的有效特征聚合起來。最后，根據(jù)學習的特征生成密集的邊界框和類別分數(shù)，并運用非極大值抑制算法（NMS）生成最終預測結果。整體框架如圖2所示。

1.3 多特征提取TUM模塊

垃圾分類數(shù)據(jù)集中某些同類垃圾之間的尺寸、顏色差異巨大，這會導致模型的識別性能變差。針對這一問題，常用的方法是通過多個池化操作，擴大特征提取層的感受野，提高識別性能，但這也會導致模型的訓練難以收斂。

因此，本文構建了一個多尺度的特征融合模塊（TUM模塊）。模塊中采用了簡化的U形結構，如圖3所示。其中，編碼器是一系列3×3，步長為2的卷積層，并且解碼器將這些層的輸出作為其參考特征，解碼器分支的上采樣層后添加1×1卷積層和按元素求和的操作，以增強學習能力并保持特征的平滑性。每個TUM的解碼器中的輸出都將會產(chǎn)生當前級別的多尺度特征。TUM的輸出分為3層，具體就是：前TUM主要提供淺層特征，中間TUM提供中等特征，后TUM提供深層特征。

1.4 注意力機制SFAM模塊

由于相同類別垃圾的特征表征差異性可能較大，不利于其正確識別，這就要求準確地關注圖像中的顯著區(qū)域。由此，本文構建了注意力機制模塊（SFAM），使網(wǎng)絡模型重點關注有利于分類的特征區(qū)域，以實現(xiàn)更好的特征提取功能。

SFAM旨在將由TUM生成的多級多尺度特征聚合成多級特征金字塔，如圖4所示。SFAM的第一階段是沿著信道維度將等效尺度的特征連接在一起。聚合金字塔中的每個比例都包含來自多級深度的特征。同時，引入通道注意力機制促使特征集中在最有益的通道，如圖5所示。研究中，將不同比例的特征進行上采樣，然后聚合在一起。在SE模塊[8]之后，則使用全局平均池化壓縮通道來生成統(tǒng)計值z∈RC。為了完全獲取通道的依賴性，算法通過2個全連接層學習注意力機制，其數(shù)學原理公式可寫為：

其中，σ表示ReLU激活函數(shù);δ表示sigmoid函數(shù);W1∈RC'×C，W2∈RC×C'，而C'表示壓縮后的通道數(shù)。

最終，模型通過VGG-16融合TUM特征提取模塊和SFAM聚合模塊，得出了豐富的特征信息，然后根據(jù)學習到的特征生成密集的邊界框和類別分數(shù)，最后對邊界框采用非極大值抑制算法（NMS）產(chǎn)生最終結果。

2 實驗結果與分析

2.1 實驗平臺

本實驗的操作系統(tǒng)為Ubuntu18.04，主要是利用 Python 語言和Tensorflow深度學習框架。本次實驗中的硬件環(huán)境為Intel（R）Core（TM）i-9750H CPU@2.60GHz 2.59GHz，內存大小為32GB，顯卡為NVIDIA GeForce RTX 2080Ti，顯存為8G。

2.2 數(shù)據(jù)采集

數(shù)據(jù)集是對象描述的集合，能夠精確地反映出對象的特征性質與信息表現(xiàn)能力。本文中的垃圾分類數(shù)據(jù)主要來源于Kaggle和華為垃圾分類公開數(shù)據(jù)集，數(shù)據(jù)集中共包含20種物體、共91 024張圖片，結合垃圾分類的要求，將所有圖片分為4大類，即干垃圾、濕垃圾、可回收垃圾和有毒有害垃圾。具體分類及每種垃圾數(shù)量見表1。其中，訓練集樣本占75%，有68 268張;驗證集樣本占15%，有13 653張;測試集樣本占10%，有9 103張。

此外，為了減少數(shù)據(jù)集中數(shù)據(jù)噪聲與異常值帶來的影響，系統(tǒng)對樣本圖片進行了數(shù)據(jù)清洗。處理流程如圖5所示。由圖5可知，處理中的2種主要情況分別是數(shù)據(jù)噪聲清洗與數(shù)據(jù)異常值清洗。對此可展開剖析分述如下。

（1）數(shù)據(jù)噪聲清洗：采用噪聲刪除原則，對噪聲數(shù)據(jù)進行權值排序，刪除其中權重較小的數(shù)據(jù)，并采用同概率分布的均值數(shù)據(jù)進行自動填充。

（2）數(shù)據(jù)異常值清洗：提取所有異常值，對其進行K-means聚類，此后進行向量化建模，去除非隨機因素產(chǎn)生的異常值，并重新對數(shù)據(jù)集填充同概率分布的均值數(shù)據(jù)。

2.3 實驗設置

本實驗的訓練設置主要為：選用SGD優(yōu)化算法訓練模型，其動量系數(shù)設置為0.98，一共設置100個迭代周期，批次batch size設置為16，最大訓練次數(shù)為205，初始學習率0.001，在第600次和第900次時降低學習率，同時在訓練過程中保存效果最好的loss值和最后一次的模型參數(shù)。

2.4 結果分析

衡量模型訓練效果通常采用2個指標，即：精確度（accuracy）和損失值（loss）。其中，精確度是算法做出正確分類的樣本數(shù)占樣本總數(shù)的比例，損失值是實際預測輸出與樣本真實輸出間的差異。

圖6給出了本文研發(fā)算法實際的GINet和當前優(yōu)秀的幾種分類檢測網(wǎng)絡在Kaggle數(shù)據(jù)集與華為垃圾分類公開數(shù)據(jù)集上進行205次迭代訓練后的精確度（accuracy）結果對比曲線，包括YOLOv3、RetinaNet、M2-det等。圖7給出了本文算法實際的GINet和當前優(yōu)秀的幾種分類檢測網(wǎng)絡在Kaggle數(shù)據(jù)集和華為垃圾分類公開數(shù)據(jù)集上進行205次迭代訓練后的損失值（loss）結果對比曲線。

從圖6、圖7中可以得出，GINet的準確率比YOLOv3、RetinaNet、M2-det高，損失值則要低于其他三者。當?shù)?0 000次左右時，GINet的精度已然達到了94.5%，由此可見TUM特征融合模塊和SFAM注意力機制模塊均能夠顯著提高模型的準確率。通過精確度和損失值的量化對比，即可得出GINet性能優(yōu)異且分類準確度很高的結論。

在與主流方法進行了對比驗證后，圖8則展示了GINet在測試集上的部分可視化結果。由此對照分析后發(fā)現(xiàn)，GINet在各個類別的樣例檢測中，都取得了很好的結果。

3 結束語

本文針對垃圾圖像分類問題，構建了一種基于GINet的智能分類垃圾網(wǎng)絡。該網(wǎng)絡有針對性地設計了一種多背景圖像增強方法，提高了模型的泛化能力，擴充了訓練樣本量，提升了算法的魯棒性。同時，添加的TUM多特征融合和SFAM注意力機制模塊，能夠有效地提取圖像特征、減少類別差異性的影響，使模型在數(shù)據(jù)測試集上取得了高達94.5% 的準確率，相較于現(xiàn)有的分類算法有了顯著提升，同時也滿足了應用需求，并且有著廣闊的應用前景。未來的研究將進一步增加垃圾分類的種類，同時也將致力提高垃圾分類的準確率。

參考文獻

[1]廖如珺，黃建忠，楊丹蓉.中國城市生活垃圾分類處理現(xiàn)狀與對策[J].職業(yè)衛(wèi)生與病傷，2012，27（1）：30-34.

[2]DIYA S Z， PROMA R A， lSLAM M N， et al. Developing an intelligent waste sorting system with robotic arm：A step towards green environment [C]// International Conference on Innovation in Engineering and Technology （ICIET 2018）. Dhaka，Bangladesh：IEEE， 2018： 1-6.

[3]吳健，陳豪，方武. 基于計算機視覺的廢物垃圾分析與識別研究[J]. 信息技術與信息化， 2016 （10）： 81-83.

[4]ABEYWICKRAMA T， CHEEMA M A， TANIAR D. K-nearest neighbours on road network： A journey in experimentation and in-memory implementation[J]. Proceedings of the VLDB Endowment， 2016， 9（6）： 492-503.

[5]MITTAL G， YANGIK K B， GARG M， et al. SpotGarbage： Smartphone app to detect garbage using deep learning[C]// Proceedings of the 2016 ACM International Joint Conference on Pervasive and Ubiquitous Computing. Heidelberg， Germany：ACM， 2016： 940-945.

[6]SEREDKIN A V， TOKAREV M P， PLOHIH I A， et al. Development of a method detection and classification of waste objects on a conveyor for a robotic sorting system[J]. Journal of Physics Conference Series， 2019， 1359：012127.

[7]GIRSHICK R. Fast R-CNN[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision.Washington DC： IEEE， 2015：1440-1448.

[8]HU J， SHEN L， SUN G. Squeeze-and-excitation networks[J]. arXiv preprint arXiv：1709.01507，2017.