徐傳運(yùn),王 影,王文敏,李 剛,鄭 宇,張 晴
(1.重慶理工大學(xué) 人工智能學(xué)院, 重慶 401135;2.重慶師范大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院, 重慶 401331;3.澳門科技大學(xué) 下一代互聯(lián)網(wǎng)國(guó)際研究院, 澳門 519020)
據(jù)“2020年全國(guó)大、中城市固體廢物污染環(huán)境防治年報(bào)”[1]統(tǒng)計(jì),2017—2019年全國(guó)城市生活垃圾產(chǎn)量分別為20 194.4、21 147.3、23 560.2萬t,呈逐年上漲的趨勢(shì)。不斷上漲的城市生活垃圾使生態(tài)環(huán)境污染情況變得更嚴(yán)重,也給人類的生命健康帶來了威脅。生活垃圾分類旨在將城市生活垃圾進(jìn)行分類處理,提高垃圾的資源價(jià)值和經(jīng)濟(jì)價(jià)值,減少生活垃圾所帶來的生態(tài)環(huán)境污染。如何將生活垃圾進(jìn)行正確分類已經(jīng)成為當(dāng)下最熱的研究課題。1996年,北京市率先在西城區(qū)大乘巷開展垃圾分類試點(diǎn),成為全國(guó)第一個(gè)進(jìn)行垃圾分類試點(diǎn)的城市[2]。2019年,上海市正式實(shí)施《上海市生活垃圾管理?xiàng)l例》[3],開始強(qiáng)制垃圾分類,隨后多個(gè)城市陸續(xù)展開行動(dòng)。傳統(tǒng)的垃圾分類操作主要依靠環(huán)衛(wèi)工人手動(dòng)進(jìn)行,分揀環(huán)境惡劣、工作量大、成本高、效率低。隨著人工智能的飛速發(fā)展,采用深度學(xué)習(xí)等人工智能技術(shù)對(duì)圖像進(jìn)行自動(dòng)識(shí)別、分類已逐漸成為可能,基于圖像的生活垃圾分類成為深度學(xué)習(xí)領(lǐng)域所關(guān)注的一個(gè)具體問題,得到國(guó)內(nèi)外的廣泛關(guān)注。
隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)的層數(shù)越來越多,網(wǎng)絡(luò)結(jié)構(gòu)也越來越復(fù)雜。針對(duì)卷積神經(jīng)網(wǎng)絡(luò)中每一層學(xué)習(xí)的圖像特征信息,文獻(xiàn)[4]通過特征可視化可知,在提取特征信息的過程中淺層學(xué)習(xí)到的主要是顏色、邊緣特征,中層學(xué)習(xí)到的主要是紋理特征,深層學(xué)習(xí)到的主要是具有辨別性的關(guān)鍵信息。在深度網(wǎng)絡(luò)中,不同層次的特征能編碼不同類型的信息:淺層的特征信息分辨率更高,包含更多的位置、邊緣和細(xì)節(jié)信息;經(jīng)過多次卷積操作,得到的深層特征信息能很好地表示圖像語義信息,但對(duì)于圖像細(xì)節(jié)感知能力較弱[5]。在圖像分類任務(wù)中,不同層次的特征信息對(duì)分類的貢獻(xiàn)不同,不同層次的特征信息互相補(bǔ)充,才能獲得更多所需的信息,進(jìn)而獲得更好的效果[6]。如何將不同層次的特征進(jìn)行有效融合,成為了當(dāng)前研究的熱點(diǎn)。
本文的主要貢獻(xiàn)如下:1)針對(duì)目前垃圾分類準(zhǔn)確率低的問題,提出一種面向生活垃圾圖像分類的多級(jí)特征加權(quán)融合算法,該算法在華為生活垃圾圖像數(shù)據(jù)集上的分類準(zhǔn)確率優(yōu)于已有的其他方法。2)針對(duì)特征提取過程中不同層次的特征信息,設(shè)計(jì)了基于膨脹卷積的多分支網(wǎng)絡(luò)結(jié)構(gòu),通過不同膨脹率的膨脹卷積對(duì)不同層次的特征信息進(jìn)行處理。3)為了使不同層次的特征信息能更好地融合,分析自適應(yīng)權(quán)重系數(shù)和固定權(quán)重系數(shù)對(duì)圖像特征融合效果的影響,進(jìn)而選取最優(yōu)的權(quán)重賦值方式,獲取更豐富的生活垃圾圖像特征信息。
垃圾圖像分類研究可劃分為2個(gè)階段。
第一階段是采用傳統(tǒng)的圖像分類技術(shù)對(duì)垃圾圖像進(jìn)行分類,通過手工提取圖像的特征信息,針對(duì)不同的問題需要采取不同的特征提取方法。如文獻(xiàn)[7]采用傳統(tǒng)計(jì)算機(jī)視覺方法,手工提取顏色和紋理特征,實(shí)現(xiàn)了實(shí)驗(yàn)室場(chǎng)景下垃圾與背景的分離,初步完成了對(duì)垃圾的識(shí)別。由于生活垃圾的數(shù)量、種類日益增多,傳統(tǒng)垃圾圖像分類技術(shù)已經(jīng)無法滿足現(xiàn)有垃圾分類的要求。
第二階段是隨著人工智能技術(shù)的飛速發(fā)展,采用深度學(xué)習(xí)等技術(shù)對(duì)垃圾圖像進(jìn)行自動(dòng)識(shí)別、分類已逐漸成為研究的主流。2012年,AlexNet[8]在ImageNet圖像分類競(jìng)賽中展現(xiàn)出了深度學(xué)習(xí)在圖像分類任務(wù)上的優(yōu)越性。隨后GooleNet[9]、VGG[10]、ResNet[11]等分類模型進(jìn)一步提升了圖像分類的精度。文獻(xiàn)[12]建立了第一個(gè)公開的垃圾圖像數(shù)據(jù)集Trash Dataset。文獻(xiàn)[13]提出了一種深度神經(jīng)網(wǎng)絡(luò)分類模型RecycleNet,對(duì)可回收材料進(jìn)行分類。文獻(xiàn)[14]采用DenseNet121架構(gòu)為基準(zhǔn)網(wǎng)絡(luò),改變密集區(qū)塊內(nèi)跳躍連接的連接方式以獲得更快的預(yù)測(cè)時(shí)間。文獻(xiàn)[15]收集了4種類型(可堆肥廢物、可回收廢物、危險(xiǎn)廢物和其他廢物)的9 200張垃圾圖像,采用4種常用的基于深度學(xué)習(xí)的方法對(duì)垃圾進(jìn)行分類,包括VGG16、ResNet50、MobileNet[16]和Dense-Net121,利用ResNet50分類器進(jìn)行垃圾分類,準(zhǔn)確率最高達(dá)94.86%。2019年9月華為首次舉辦了垃圾圖像分類競(jìng)賽,推動(dòng)了垃圾圖像分類在國(guó)內(nèi)的發(fā)展。在公開的華為生活垃圾圖像數(shù)據(jù)集上,文獻(xiàn)[17]以ResNet101作為主干網(wǎng)絡(luò),采用特征融合機(jī)制和注意力機(jī)制,取得了96.73%的分類精度。文獻(xiàn)[18]利用深度遷移學(xué)習(xí)的優(yōu)勢(shì),以EfficientNet-B5[19]為主干網(wǎng)絡(luò),加入新型空間注意力機(jī)制,取得了96.17%的分類精度。文獻(xiàn)[20]同樣利用了遷移學(xué)習(xí),以ResNext101[21]為主干網(wǎng)絡(luò),重新為主干網(wǎng)絡(luò)定制網(wǎng)絡(luò)頭,在分類精度和運(yùn)行效率之間進(jìn)行了權(quán)衡,并取得了95.62%的分類精度。
深度網(wǎng)絡(luò)中,不同層次的特征信息具有不同的特點(diǎn),對(duì)于圖像分類任務(wù)的貢獻(xiàn)也不同,將不同層次之間的特征信息進(jìn)行互相補(bǔ)充,能獲取更多的信息,進(jìn)而取得更好的分類效果。文獻(xiàn)[22-23]融合網(wǎng)絡(luò)中不同層次的特征,并在融合后的特征上訓(xùn)練預(yù)測(cè)器。文獻(xiàn)[24]通過橫向連接從主干網(wǎng)絡(luò)中提取特征信息,經(jīng)過自上而下的下采樣將深層特征信息和淺層特征信息融合,并將每一個(gè)層次的特征圖獨(dú)立輸出預(yù)測(cè)。文獻(xiàn)[25]通過不同膨脹率的膨脹卷積對(duì)特征圖進(jìn)行操作,融合多尺度的特征,進(jìn)而獲得更豐富的特征信息。
為了加強(qiáng)特征信息的融合效果,在特征融合過程中,為不同層次的特征信息賦予不同的權(quán)重系數(shù),使每個(gè)層次的特征信息得到充分利用。文獻(xiàn)[26]為不同的特征信息賦予不同的權(quán)重系數(shù),并且層數(shù)越深其權(quán)重系數(shù)越大,每一層的權(quán)重系數(shù)的計(jì)算方式均是將之前層數(shù)的權(quán)重系數(shù)進(jìn)行疊加并除以所有層數(shù)的權(quán)重系數(shù)之和。文獻(xiàn)[27]通過手動(dòng)對(duì)不同層次的特征信息賦值權(quán)重系數(shù),在融合的過程中采用和激活函數(shù)相關(guān)的特定融合公式。文獻(xiàn)[28]采用梯度下降的方式,根據(jù)相似性評(píng)分和設(shè)定的閾值計(jì)算均方根誤差,作為損失函數(shù),通過不斷地訓(xùn)練迭代出最優(yōu)的參數(shù)組合。
為了更好地融合不同層次的特征信息,充分利用各層次信息的優(yōu)點(diǎn),進(jìn)而取得更優(yōu)的圖像分類性能,本文提出一種面向生活垃圾圖像分類的多級(jí)特征加權(quán)融合算法,構(gòu)建基于ResNet的特征提取網(wǎng)絡(luò),通過多分支網(wǎng)絡(luò)結(jié)構(gòu)提取并處理圖像不同層次的特征信息,在特征融合過程中分析自適應(yīng)權(quán)重融合和固定權(quán)重融合對(duì)圖像分類性能的影響,選取更優(yōu)的加權(quán)融合方法對(duì)多級(jí)特征進(jìn)行融合,從而獲取更豐富的生活垃圾圖像特征信息,其整體結(jié)構(gòu)如圖1所示。
圖1 算法網(wǎng)絡(luò)結(jié)構(gòu)
算法主要包括多分支網(wǎng)絡(luò)結(jié)構(gòu)和特征融合結(jié)構(gòu)兩部分。多分支網(wǎng)絡(luò)結(jié)構(gòu)用于提取主干網(wǎng)絡(luò)不同層次的特征信息,不同膨脹率的膨脹卷積對(duì)提取的特征信息進(jìn)行處理,進(jìn)而提高對(duì)圖像空間信息的利用率,獲取更多的語義信息和定位信息;特征融合結(jié)構(gòu)通過自適應(yīng)權(quán)重和固定權(quán)重2種賦值方式為處理的特征信息賦予不同權(quán)重系數(shù),融合得到更豐富的特征信息。
本文算法采用ResNet18作為主干網(wǎng)絡(luò),包含5個(gè)卷積塊Block1~5。ResNet網(wǎng)絡(luò)的殘差學(xué)習(xí)方式解決了網(wǎng)絡(luò)層數(shù)加深而造成分類準(zhǔn)確率降低的問題。本文多分支網(wǎng)絡(luò)結(jié)構(gòu)的4個(gè)分支分別選取主干網(wǎng)絡(luò)中Block2~5產(chǎn)生的特征信息作為輸入,包括膨脹卷積(dilated convolution),批量歸一化(batch normalization),線性整流激活函數(shù)(rectified linear unit)和自適應(yīng)平均池化(adaptive average pooling)。
假設(shè)輸入圖像尺寸W×W,輸出圖像尺寸N×N,卷積核尺寸F×F,步幅Stride,填充Padding,膨脹率L,膨脹卷積(也稱為空洞卷積)定義為:
(1)
膨脹卷積保持原有卷積核的大小,通過膨脹率L的改變來進(jìn)行稀疏采樣,擴(kuò)大感受野的范圍,既不會(huì)降低圖像的分辨率,也不會(huì)丟失過多的空間信息。針對(duì)不同層次的特征信息設(shè)置不同的膨脹率,感受野會(huì)不同,進(jìn)而能獲得多尺度的特征信息。實(shí)驗(yàn)過程中,根據(jù)特征提取網(wǎng)絡(luò)提取特征圖的大小,設(shè)置不同的膨脹率,針對(duì)Block2~5提取的特征信息設(shè)置膨脹率分別為12、8、4、1。不同層次的特征信息通過特征融合結(jié)構(gòu)進(jìn)行融合,從而避免丟失圖像信息,提升對(duì)圖像信息的利用率。文獻(xiàn)[29]研究了多尺度膨脹卷積在圖像分類中的應(yīng)用,通過實(shí)驗(yàn)證明了膨脹卷積在圖像分類任務(wù)中的有效性。
針對(duì)不同層次的特征信息,本文提出基于膨脹卷積的多分支網(wǎng)絡(luò)結(jié)構(gòu),采用不同膨脹率的膨脹卷積處理不同層次的特征信息,進(jìn)而提高對(duì)圖像空間信息的利用率,也能獲取更多的語義信息和定位信息。
傳統(tǒng)的特征融合方式一般采用add和concatenate 2種。add方式是特征信息之間的相互疊加,在維度不變的情況下增加每一維度的信息量;concatenate方式是特征信息之間的聯(lián)合,增加特征信息的維度,但是每一維度的信息量保持不變。網(wǎng)絡(luò)中的不同層次的特征信息有著不同的特點(diǎn),為了更充分地利用圖像的特征信息,本文提出基于權(quán)重系數(shù)的特征融合結(jié)構(gòu),為:
Y=α×F1+β×F2+γ×F3+δ×F4
(2)
式中:Y表示融合后形成的新特征張量;Fi(i=1,2,3,4)表示Block2~5產(chǎn)生的特征信息經(jīng)過多分支網(wǎng)絡(luò)結(jié)構(gòu)后輸出的特征張量,α、β、γ、δ是4個(gè)不同層次特征張量的權(quán)重系數(shù),統(tǒng)稱為權(quán)重系數(shù)組合,且滿足式(3)—(4):
α,β,γ,δ∈[0,1]
(3)
α+β+γ+δ=1
(4)
權(quán)重系數(shù)有自適應(yīng)權(quán)重和固定權(quán)重2種賦值方式:自適應(yīng)權(quán)重系數(shù)由網(wǎng)絡(luò)模型通過學(xué)習(xí)獲得;固定權(quán)重系數(shù)通過分析網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)得到的全部權(quán)重系數(shù)后,手動(dòng)賦值。
本文實(shí)驗(yàn)主要包括權(quán)重系數(shù)分析、消融、對(duì)比3部分。下面從實(shí)驗(yàn)環(huán)境和3部分的實(shí)驗(yàn)內(nèi)容分別進(jìn)行介紹。
實(shí)驗(yàn)數(shù)據(jù)集采用“華為云人工智能大賽——垃圾分類挑戰(zhàn)杯賽”所公布的生活垃圾圖像數(shù)據(jù)集(下文簡(jiǎn)稱“華為生活垃圾圖像數(shù)據(jù)集”),該數(shù)據(jù)集的分類標(biāo)準(zhǔn)為深圳市垃圾分類標(biāo)準(zhǔn)[30],其中共包含14 000余張生活垃圾圖像,分為4大類40小類,數(shù)據(jù)集部分圖像如圖2所示。和國(guó)外開源的垃圾數(shù)據(jù)集TrashNet數(shù)據(jù)集[12]、GINI數(shù)據(jù)集[31]等相比,華為生活垃圾圖像數(shù)據(jù)集包含的類別更多,且更貼近現(xiàn)實(shí)生活。同時(shí),由于類別多樣性高,導(dǎo)致不同類別的生活垃圾可能有著相似的外觀,如調(diào)料瓶和飲料瓶,從而增加了分類難度。實(shí)驗(yàn)之前,隨機(jī)互斥將數(shù)據(jù)集中80%的圖像劃為訓(xùn)練集,20%劃為測(cè)試集,在實(shí)驗(yàn)過程中數(shù)據(jù)集的分布保持不變。
圖2 數(shù)據(jù)集部分圖像
實(shí)驗(yàn)采用ResNet18作為算法的主干網(wǎng)絡(luò),包括多分支網(wǎng)絡(luò)結(jié)構(gòu)和特征融合結(jié)構(gòu)。算法以SGD為優(yōu)化器,動(dòng)量系數(shù)0.9,初始學(xué)習(xí)率0.01、100個(gè)迭代周期,每隔30個(gè)迭代周期學(xué)習(xí)率衰減0.1倍。同時(shí),選用交叉熵?fù)p失函數(shù)來訓(xùn)練和優(yōu)化網(wǎng)絡(luò)模型。實(shí)驗(yàn)在Win10系統(tǒng)下,利用Python語言,運(yùn)用PyCharm編譯軟件和PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)。硬件環(huán)境為Intel i7-9750H,16 GB,Nvidia GeForce RTX 2080 SUPER。
本文采用準(zhǔn)確率(Accuracy,Acc)作為評(píng)價(jià)指標(biāo)對(duì)網(wǎng)絡(luò)模型進(jìn)行評(píng)估,準(zhǔn)確率是模型預(yù)測(cè)正確的圖像數(shù)量在測(cè)試集中所占百分比,滿足:
(5)
式中:VALpred表示測(cè)試集中通過模型預(yù)測(cè)得到的圖像分類結(jié)果;VALtrue表示測(cè)試集中圖像原有的標(biāo)注類別;num(VALpred=VALtrue)表示前述2類相同的數(shù)量,即模型判斷正確的數(shù)量;num(VAL)表示測(cè)試集中的圖像總數(shù)量。本文實(shí)驗(yàn)結(jié)果中的準(zhǔn)確率均為實(shí)驗(yàn)過程中最高的分類精度。
深度網(wǎng)絡(luò)中不同層次特征對(duì)圖像分類性能貢獻(xiàn)不同,本文通過設(shè)置多分支網(wǎng)絡(luò)結(jié)構(gòu)輸出不同特征的權(quán)重系數(shù)來體現(xiàn)。為了探索不同權(quán)重系數(shù)組合對(duì)圖像分類性能的影響,本文設(shè)計(jì)了自適應(yīng)權(quán)重融合和固定權(quán)重融合2種實(shí)驗(yàn)方案。
3.2.1自適應(yīng)權(quán)重融合實(shí)驗(yàn)
自適應(yīng)權(quán)重融合實(shí)驗(yàn)探索通過網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)的權(quán)重系數(shù)是否能使特征信息更好地融合,從而提升網(wǎng)絡(luò)的分類效果。實(shí)驗(yàn)設(shè)計(jì)有2個(gè):1) 基準(zhǔn)實(shí)驗(yàn)(benchmark),采用基準(zhǔn)網(wǎng)絡(luò)ResNet18;2) 自適應(yīng)實(shí)驗(yàn)(adaptive experiment),采用圖3所示特征融合網(wǎng)絡(luò)結(jié)構(gòu)。
圖3 自適應(yīng)權(quán)重融合實(shí)驗(yàn)網(wǎng)絡(luò)結(jié)構(gòu)圖
特征融合網(wǎng)絡(luò)結(jié)構(gòu)采用網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)權(quán)重的權(quán)重賦值方法,即:1) 在ResNet18主干網(wǎng)絡(luò)中加入多分支網(wǎng)絡(luò)結(jié)構(gòu)和特征融合結(jié)構(gòu),提取網(wǎng)絡(luò)訓(xùn)練過程中圖像在不同層次輸出的特征信息;2) 單獨(dú)提取主干網(wǎng)絡(luò)中最后一個(gè)層次輸出的特征信息,通過其產(chǎn)生權(quán)重系數(shù)α、β、γ、δ,權(quán)重系數(shù)在訓(xùn)練過程中自適應(yīng)修改;3) 將不同層次的特征信息通過權(quán)重系數(shù)進(jìn)行融合,得到新的特征信息,再對(duì)新生成的特征信息進(jìn)行分類。自適應(yīng)實(shí)驗(yàn)過程中產(chǎn)生的權(quán)重系數(shù)分析如表1,基準(zhǔn)實(shí)驗(yàn)和自適應(yīng)實(shí)驗(yàn)在華為生活垃圾圖像數(shù)據(jù)集上的分類精度如表2和圖4所示。
表1 自適應(yīng)權(quán)重融合實(shí)驗(yàn)權(quán)重分析
表2 自適應(yīng)權(quán)重融合實(shí)驗(yàn)準(zhǔn)確率
圖4 自適應(yīng)權(quán)重融合實(shí)驗(yàn)收斂曲線
由表1可知,自適應(yīng)權(quán)重融合實(shí)驗(yàn)的權(quán)重系數(shù)組合α、β、γ、δ的平均值(average)中γ的數(shù)值遠(yuǎn)大于其他權(quán)重系數(shù)的數(shù)值。權(quán)重系數(shù)α、β、γ、δ的標(biāo)準(zhǔn)差(standard deviation)和方差(variance)的數(shù)值都很小,表明權(quán)重系數(shù)在網(wǎng)絡(luò)學(xué)習(xí)過程中比較穩(wěn)定。由表2可知,自適應(yīng)權(quán)重融合實(shí)驗(yàn)的網(wǎng)絡(luò)模型參數(shù)量大于基準(zhǔn)實(shí)驗(yàn),但分類準(zhǔn)確率優(yōu)于基準(zhǔn)實(shí)驗(yàn);由圖4可知,在收斂過程中,自適應(yīng)權(quán)重融合實(shí)驗(yàn)的收斂速度慢于基準(zhǔn)實(shí)驗(yàn)的收斂速度,且收斂曲線波動(dòng)幅度較大,但是精度高于基準(zhǔn)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在特征融合過程中,通過網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)得到的權(quán)重系數(shù)能夠使圖像特征信息更好地融合,進(jìn)而使得網(wǎng)絡(luò)的分類效果有一定程度的提升。
3.2.2固定權(quán)重融合實(shí)驗(yàn)
上述自適應(yīng)權(quán)重融合實(shí)驗(yàn)的學(xué)習(xí)過程中,權(quán)重系數(shù)是變化的,因此特征信息的融合過程不穩(wěn)定,波動(dòng)幅度較大;但在網(wǎng)絡(luò)收斂時(shí),權(quán)重系數(shù)趨于穩(wěn)定。固定權(quán)重融合實(shí)驗(yàn)探索在特征融合之前對(duì)權(quán)重系數(shù)賦以固定值,是否提升特征融合過程的穩(wěn)定性,進(jìn)而提升網(wǎng)絡(luò)分類效果。
通過分析自適應(yīng)權(quán)重融合實(shí)驗(yàn),得到權(quán)重系數(shù)α、β、γ、δ的9種組合:1) 全部平均系數(shù)(total average),對(duì)網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)過程中產(chǎn)生的所有權(quán)重系數(shù)取平均值;2) 部分平均系數(shù)(partial average),對(duì)網(wǎng)絡(luò)模型收斂之后產(chǎn)生的權(quán)重系數(shù)取平均值;3) 平滑系數(shù)(smoothing),對(duì)全部平均系數(shù)進(jìn)行平滑操作,進(jìn)而得到在同一量級(jí)的權(quán)重系數(shù);4)δ=0的平滑系數(shù)(δ=0 smoothing),在平滑系數(shù)的基礎(chǔ)上將δ賦值為0;5) 相似平滑系數(shù)(similarity smoothness),在平滑系數(shù)的基礎(chǔ)上保持相似分布得到的權(quán)重系數(shù);6)α-γ交換的全部平均系數(shù)(α-γtotal average),在全部平均系數(shù)的基礎(chǔ)上交換α和γ的數(shù)值;7)β-γ交換的全部平均系數(shù)(β-γtotal average),在全部平均系數(shù)的基礎(chǔ)上交換β和γ的數(shù)值;8)δ-γ交換的全部平均系數(shù)(δ-γtotal average),在全部平均系數(shù)的基礎(chǔ)上交換δ和γ的數(shù)值;9) 只有γ系數(shù)(onlyγ)。在華為生活垃圾圖像數(shù)據(jù)集上的分類效果如表3和圖5所示。
表3是每一組權(quán)重系數(shù)的具體數(shù)值及其網(wǎng)絡(luò)模型的分類準(zhǔn)確率,分析可知:
1) 全部平均系數(shù)和部分平均系數(shù)有著同樣的分布規(guī)律,即權(quán)重系數(shù)γ值遠(yuǎn)大于α、β、δ值,但部分平均系數(shù)中的γ值大于全部平均系數(shù)中的γ值。對(duì)比可見,全部平均系數(shù)的準(zhǔn)確率高于部分平均系數(shù)的準(zhǔn)確率。
2) 平滑系數(shù)、相似平滑系數(shù)均是在全部平均系數(shù)的基礎(chǔ)上經(jīng)過平滑操作且保持相似分布得到的,權(quán)重系數(shù)組均在同一個(gè)數(shù)量級(jí)。觀察2組系數(shù)可知,平滑系數(shù)的γ值大于相似平滑系數(shù)的γ值。對(duì)比可見,平滑系數(shù)的準(zhǔn)確率大于相似平滑系數(shù)的準(zhǔn)確率。
表3 固定權(quán)重融合實(shí)驗(yàn)準(zhǔn)確率
圖5 固定權(quán)重融合實(shí)驗(yàn)收斂曲線
3)α-γ交換的全部平均系數(shù)、β-γ交換的全部平均系數(shù)和δ-γ交換的全部平均系數(shù)均是在全部平均系數(shù)上進(jìn)行系數(shù)間的交換。對(duì)比4組實(shí)驗(yàn)結(jié)果可知,γ值最大的全部平均系數(shù)的準(zhǔn)確率大于系數(shù)交換后的3組系數(shù)的準(zhǔn)確率。
4)δ=0的平滑系數(shù)是在平滑系數(shù)的基礎(chǔ)上將δ賦值為0,即將第四層次的權(quán)重系數(shù)賦值為0。對(duì)比可知,δ=0的平滑系數(shù)的準(zhǔn)確率低于平滑系數(shù)的準(zhǔn)確率,但差值較小。
5) 只有γ系數(shù)是將α、β、δ系數(shù)均設(shè)置為0。對(duì)比可知,只有γ系數(shù)的準(zhǔn)確率低于全部平均系數(shù)、部分平均系數(shù)、平滑系數(shù)和相似平滑系數(shù)的準(zhǔn)確率。
圖5對(duì)比了不同權(quán)重系數(shù)的收斂曲線,從圖5(a)可見網(wǎng)絡(luò)模型都在迭代周期為40之前達(dá)到了收斂狀態(tài),圖5(b)為迭代周期在0~40范圍內(nèi)的準(zhǔn)確率曲線。圖中可見,α-γ交換的全部平均系數(shù)、β-γ交換的全部平均系數(shù)和δ-γ交換的全部平均系數(shù)波動(dòng)較大,且精度低于全部平均系數(shù)。平滑系數(shù)的波動(dòng)幅度最小,且精度最高。
3.2.3自適應(yīng)權(quán)重融合實(shí)驗(yàn)和固定權(quán)重實(shí)驗(yàn)對(duì)比分析
1) 通過對(duì)表2、表3分析可知,固定權(quán)重融合實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果(表3中平滑系數(shù)的實(shí)驗(yàn)結(jié)果)優(yōu)于自適應(yīng)權(quán)重融合實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果(表2中自適應(yīng)實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果)。自適應(yīng)權(quán)重融合實(shí)驗(yàn)通過網(wǎng)絡(luò)自適應(yīng)產(chǎn)生權(quán)重系數(shù),雖然效果比基準(zhǔn)網(wǎng)絡(luò)好,但是在特征融合過程中需要通過學(xué)習(xí)來確定最適合特征融合的系數(shù),因此特征融合過程不穩(wěn)定。而固定權(quán)重融合實(shí)驗(yàn)中的權(quán)重系數(shù)是直接手動(dòng)賦值,在訓(xùn)練過程中固定權(quán)重系數(shù),從而特征融合過程也更穩(wěn)定。
2) 對(duì)表3分析可知,γ值最大的全部平均系數(shù)的準(zhǔn)確率大于系數(shù)交換后的3組系數(shù)的準(zhǔn)確率,說明在華為生活垃圾圖像分類任務(wù)中,第三層次產(chǎn)生的特征信息更有用。過于增大γ的值來強(qiáng)調(diào)第三層的特征信息而忽視其他層次的特征信息,反而會(huì)對(duì)分類準(zhǔn)確率產(chǎn)生抑制。將全部平均系數(shù)進(jìn)行平滑操作后得到的平滑系數(shù)的分類準(zhǔn)確率大于全部平均系數(shù)的分類準(zhǔn)確率,說明權(quán)重系數(shù)滿足相似的分布,且不過于增大γ的值,網(wǎng)絡(luò)模型的分類準(zhǔn)確率就能達(dá)到較好的效果。
3)δ=0的平滑系數(shù)將第四層次,即最深層次的權(quán)重系數(shù)賦值為0,由表3可知,其分類準(zhǔn)確率低于平滑系數(shù)的分類準(zhǔn)確率,但是差值較小,說明在華為生活垃圾圖像數(shù)據(jù)集中第四層次的特征信息對(duì)圖像分類任務(wù)的貢獻(xiàn)較小。
4) 只有γ系數(shù)是將α、β、δ系數(shù)均設(shè)置為0,在特征融合過程中只有γ系數(shù),即只采用第三層次的特征信息。通過對(duì)比表2可知,其分類準(zhǔn)確率高于基準(zhǔn)實(shí)驗(yàn)的分類準(zhǔn)確率;由表3可知,其分類準(zhǔn)確率低于全部平均系數(shù)、部分平均系數(shù)、平滑系數(shù)和相似平滑系數(shù)的準(zhǔn)確率,說明在華為生活垃圾圖像數(shù)據(jù)集中,只采用第三層次的特征信息優(yōu)于基準(zhǔn)實(shí)驗(yàn)的分類準(zhǔn)確率,但是較差于采用全部層次特征信息進(jìn)行特征融合后的分類準(zhǔn)確率。
本文提出的算法包含2個(gè)消融因素,即多分支網(wǎng)絡(luò)結(jié)構(gòu)(multi-branch network architecture)和特征融合結(jié)構(gòu)(feature fusion structure)。為了驗(yàn)證本文算法的有效性,消融實(shí)驗(yàn)在華為生活垃圾圖像數(shù)據(jù)集上構(gòu)建了4個(gè)網(wǎng)絡(luò)模型:1) 不含有多分支網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重特征融合結(jié)構(gòu)的基準(zhǔn)結(jié)構(gòu)(Benchmark),即基準(zhǔn)網(wǎng)絡(luò)ResNet18;2) 只含有多分支網(wǎng)絡(luò)結(jié)構(gòu)的多分支結(jié)構(gòu)(only multi-branch);3)只含有特征融合結(jié)構(gòu)的加權(quán)融合結(jié)構(gòu)(only weighted fusion),權(quán)重的賦值方式采用網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)權(quán)重系數(shù);4)含有多分支網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重特征融合結(jié)構(gòu)的多級(jí)特征加權(quán)融合結(jié)構(gòu)(multi-stage feature weighted fusion structure),權(quán)重特征融合結(jié)構(gòu)中權(quán)重系數(shù)采用固定權(quán)重融合實(shí)驗(yàn)中分類準(zhǔn)確率最高的平滑系數(shù)。4個(gè)模型在華為生活垃圾圖像數(shù)據(jù)集上的圖像分類實(shí)驗(yàn)結(jié)果如表4所示。
表4 消融實(shí)驗(yàn)結(jié)果
從表4可知,多級(jí)特征加權(quán)融合結(jié)構(gòu)取得了97.53%的最優(yōu)準(zhǔn)確率。分析可知,將網(wǎng)絡(luò)訓(xùn)練過程中不同層次的特征信息進(jìn)行提取處理,分類準(zhǔn)確度會(huì)有所提升,但沒有達(dá)到最優(yōu)的效果。提取不同層次的特征信息,但不對(duì)其進(jìn)行處理,加權(quán)融合后的分類準(zhǔn)確度不升反降。只有對(duì)不同層次的特征信息進(jìn)行處理和加權(quán)融合的多級(jí)特征加權(quán)融合結(jié)構(gòu)分類精度明顯超過基準(zhǔn)網(wǎng)絡(luò),且達(dá)到了最優(yōu)精度??梢?,本文算法中的多分支網(wǎng)絡(luò)結(jié)構(gòu)和特征融合結(jié)構(gòu)單獨(dú)使用,均不能達(dá)到最優(yōu)分類效果,只有將兩者相結(jié)合在華為生活垃圾圖像數(shù)據(jù)集上的分類精度才能達(dá)到最優(yōu)效果。
為了進(jìn)一步驗(yàn)證本文提出算法的有效性,將算法與其他最近的相關(guān)研究進(jìn)行對(duì)比。在最近針對(duì)生活垃圾圖像分類的工作中,GCNet[17]、GANet[18]、Lin[20]均完全采用華為生活垃圾圖像數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,為保持?jǐn)?shù)據(jù)集的一致性,更好地體現(xiàn)本文算法的有效性,故選擇GCNet[17]、GANet[18]、Lin[20]作為參照進(jìn)行對(duì)比實(shí)驗(yàn)。同時(shí),為了更好地體現(xiàn)本文提出算法的優(yōu)勢(shì),也與當(dāng)前常用的圖像分類算法DenseNet-169[14]、EfficientNet-B5[19]、ResNeXt-101[21]進(jìn)行對(duì)比實(shí)驗(yàn)。為保證對(duì)比實(shí)驗(yàn)的公平性和準(zhǔn)確性,所有網(wǎng)絡(luò)均采用華為生活垃圾圖像數(shù)據(jù)集為實(shí)驗(yàn)數(shù)據(jù)集,且將各網(wǎng)絡(luò)中的超參數(shù)設(shè)置為相同值:初始學(xué)習(xí)率0.01,100個(gè)迭代周期,每30個(gè)迭代周期學(xué)習(xí)率衰減0.1倍。實(shí)驗(yàn)準(zhǔn)確率對(duì)比如表5所示。
表5 對(duì)比實(shí)驗(yàn)結(jié)果 %
從表5可見,GCNet、GANet、Lin的網(wǎng)絡(luò)模型和當(dāng)前常用的圖像分類算法DenseNet-169、EfficientNet-B5、ResNeXt-101與本文提出的算法在相同數(shù)據(jù)集上的分類準(zhǔn)確率對(duì)比。分析可知,本文算法在華為生活垃圾圖像數(shù)據(jù)集上的分類精度高于其他最近相關(guān)研究的分類精度,具有較好的性能,證明本文提出算法的有效性。
針對(duì)垃圾圖像分類復(fù)雜且精度低的問題,提出了一種面向生活垃圾圖像分類的多級(jí)特征加權(quán)融合算法,該算法基于ResNet網(wǎng)絡(luò)的特征提取框架,通過多分支網(wǎng)絡(luò)結(jié)構(gòu)提取圖像不同層次的特征信息,并將多級(jí)特征進(jìn)行加權(quán)融合。在特征融合過程中,綜合考慮自適應(yīng)權(quán)重融合和固定權(quán)重融合對(duì)圖像分類性能的影響,選取更優(yōu)的加權(quán)融合算法對(duì)多級(jí)特征進(jìn)行融合,獲取更豐富的生活垃圾圖像特征信息,提高垃圾分類準(zhǔn)確率。
本文進(jìn)行了權(quán)重系數(shù)分析實(shí)驗(yàn)、消融實(shí)驗(yàn)和對(duì)比試驗(yàn),得出以下結(jié)論:
1) 固定權(quán)重融合實(shí)驗(yàn)的分類準(zhǔn)確率高于自適應(yīng)權(quán)重融合實(shí)驗(yàn)的分類準(zhǔn)確率。在特征融合前設(shè)定權(quán)重系數(shù)可以使圖像特征信息融合的效果更好,更有利于圖像分類。
2) 在針對(duì)不同數(shù)據(jù)集的深度網(wǎng)絡(luò)學(xué)習(xí)過程中,每個(gè)層次的特征信息對(duì)圖像分類任務(wù)貢獻(xiàn)不同,最深層次的特征信息不一定是最重要的。在華為生活垃圾圖像數(shù)據(jù)集的分類任務(wù)中,網(wǎng)絡(luò)的第三層次的特征信息貢獻(xiàn)最大,過于強(qiáng)調(diào)第三層的特征信息而忽視其他層次的特征信息會(huì)對(duì)分類效果產(chǎn)生抑制作用。
3) 本文提出的算法在華為生活垃圾圖像數(shù)據(jù)集上達(dá)到了97.53%的準(zhǔn)確率,超越了最近在該數(shù)據(jù)集上的相關(guān)研究。
本文提出的算法在華為生活垃圾圖像數(shù)據(jù)集上具有較好的分類性能,且通過實(shí)驗(yàn)驗(yàn)證了不同層次的特征信息對(duì)圖像分類性能的影響不同,對(duì)后續(xù)研究具有指導(dǎo)意義。當(dāng)前國(guó)內(nèi)公開的、在垃圾分類領(lǐng)域的數(shù)據(jù)集較少,本文只在華為生活垃圾圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析,今后將搜集更多的生活垃圾圖像數(shù)據(jù),以便進(jìn)一步驗(yàn)證本文算法的有效性。