張文杰,焦安然,田 靜,王曉娟,王 斌,徐曉軒
(1.南開大學(xué) 物理科學(xué)學(xué)院 弱光非線性光子學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,天津 300071;2.江蘇大學(xué) 食品與生物工程學(xué)院,江蘇 鎮(zhèn)江 212013;3.寧波海關(guān)技術(shù)中心,浙江 寧波 315048)
塑料自發(fā)明以來(lái)為人類生產(chǎn)生活提供了便利,得到了應(yīng)用廣泛。但由于大多塑料制品化學(xué)性質(zhì)穩(wěn)定、不可降解,導(dǎo)致產(chǎn)生了大量塑料廢棄物。2018年環(huán)境規(guī)劃署發(fā)布的數(shù)據(jù)表明全世界塑料廢棄物年產(chǎn)量約3億噸。我國(guó)是世界上十大塑料制品生產(chǎn)和消費(fèi)國(guó)之一,塑料廢棄物的分類回收再利用十分重要,否則不僅會(huì)污染環(huán)境,還會(huì)造成資源浪費(fèi)。根據(jù)歐洲塑料加工協(xié)會(huì)的一項(xiàng)調(diào)查結(jié)果,超過(guò)76%的歐洲塑料加工商認(rèn)為改善塑料廢棄物的收集和分類是提高再生塑料質(zhì)量的最佳方式[1]。傳統(tǒng)的塑料分類方式如人工分類法、光學(xué)分選法、浮選法[2-5]等耗時(shí)耗力,為節(jié)約勞動(dòng)力成本,并精確、高效地進(jìn)行塑料分類,人們研究了塑料的智能分類算法。如,激光誘導(dǎo)擊穿光譜(LIBS)技術(shù)和主成分分析(PCA)已成功用于鑒定聚對(duì)苯二甲酸乙二醇酯(PET)、高密度聚乙烯(PE)、聚丙烯(PP)和聚苯乙烯(PS)[6]。LIBS技術(shù)也可以識(shí)別具有相同聚合物基體但添加劑不同的塑料/聚合物樣品[7]。X射線吸收光譜(XAS)結(jié)合PCA和反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)被用于識(shí)別15種不同塑料[8]。拉曼光譜和K近鄰算法(KNN)、循環(huán)子空間回歸(CSR)、庫(kù)搜索被用于塑料分類[9]。衰減全反射傅里葉變換紅外光譜結(jié)合主成分分析及系統(tǒng)聚類分析(HCA)被用于對(duì)7類廢舊塑料進(jìn)行分類鑒別,通過(guò)選擇余弦和平均距離法作為樣品間以及類間距離函數(shù)對(duì)數(shù)據(jù)進(jìn)行聚類,最終得到100%的分類準(zhǔn)確率[10]。而分類和回歸模型(CART)可以從近紅外光譜數(shù)據(jù)中找到直接和簡(jiǎn)單的分類條件[11]。研究者們正不斷探索系統(tǒng)使用近紅外光譜分析技術(shù)進(jìn)行塑料分類的方法。
近紅外光譜主要由含氫基團(tuán)振動(dòng)的合頻、倍頻組成[12],包含吸收峰的強(qiáng)度和位置差異等豐富信息,因快速、無(wú)損的特點(diǎn)得到了廣泛應(yīng)用。由于大多數(shù)塑料聚合物分子在近紅外光譜區(qū)域可以提供特征信息[13],因此近紅外光譜分析技術(shù)結(jié)合傳統(tǒng)的機(jī)器學(xué)習(xí)算法如KNN、PCA、CART等可用于塑料的檢測(cè)。塑料分類還可使用支持向量機(jī)(Support vector machines,SVM)和深度學(xué)習(xí)的分類算法。SVM是典型的有監(jiān)督分類算法之一,在1993年由Corinna Cortes和Vapnik提出[14],可以根據(jù)給定類別的數(shù)據(jù)點(diǎn)確定一個(gè)超平面,將新的數(shù)據(jù)點(diǎn)劃分在不同類別。而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)作為深度學(xué)習(xí)的熱門之一,在圖像分類等方面有出色的性能。全連接的人工神經(jīng)網(wǎng)絡(luò)方法需要訓(xùn)練的參數(shù)太多,時(shí)間成本大。而CNN的神經(jīng)元只感知局部信息,同一層中使用的卷積核參數(shù)共享,使得需要訓(xùn)練的參數(shù)數(shù)量大大減少。近紅外光譜數(shù)據(jù)在空間上有關(guān)聯(lián)形成特征,且每個(gè)空間上采樣原理一致,適合用CNN學(xué)習(xí)[15-18]。
PP(聚丙烯)和PE(聚乙烯)是常用的塑料材料,可用于生產(chǎn)生活中的薄膜類制品、注塑制品、管材類制品、絲類制品等。通常塑料廢棄物中PP塑料和PE塑料的比例在70∶30(汽車廢料)~25∶75(包裝廢料)之間變化,不適合直接生產(chǎn)高質(zhì)量的產(chǎn)品(高質(zhì)量產(chǎn)品的生產(chǎn)應(yīng)滿足兩種塑料的純度達(dá)到97%[19])。PP、PE塑料都包含―CH2和―CH3官能團(tuán),有相似的化學(xué)結(jié)構(gòu),因而高效區(qū)分PP和PE塑料對(duì)其回收再利用有重要價(jià)值[20]。本文基于100組4種塑料樣本(PP新生料、PP再生料、PE新生料、PE再生料)的近紅外光譜數(shù)據(jù),建立了一維卷積神經(jīng)網(wǎng)絡(luò)(1D CNN)模型,將其用于小數(shù)據(jù)集的預(yù)測(cè),并與支持向量機(jī)模型進(jìn)行比較,開發(fā)了快速準(zhǔn)確的塑料分類方法。
塑料樣品由寧波市檢驗(yàn)檢疫局提供,包括PP和PE兩種塑料共100個(gè)。其中PE再生料(PE recycled material,簡(jiǎn)寫為PEr)32個(gè),PE新生料(PE new raw material,簡(jiǎn)寫為PEn)36個(gè),PP再生料(PP recycled material,簡(jiǎn)寫為PPr)15個(gè),PP新生料(PP new raw material,簡(jiǎn)寫為PPn)17個(gè),類別分別標(biāo)記為0、1、2、3。
塑料的近紅外光譜數(shù)據(jù)由江蘇大學(xué)食品與生物工程學(xué)院提供,使用棱光技術(shù)S450近紅外光譜分析儀采集。設(shè)置波長(zhǎng)范圍為900~2 500 nm,在室溫(25℃)下將裝有塑料樣品的樣品杯置于采集窗口進(jìn)行光譜采集,每個(gè)塑料樣品掃描3次,取其平均光譜數(shù)據(jù)。
采集的100個(gè)樣品的光譜圖如圖1A所示。根據(jù)光譜圖比對(duì)數(shù)據(jù),剔除掉PP再生料中2個(gè)異常樣本的數(shù)據(jù),得到的光譜圖如圖1B。
圖1 塑料樣品的原始光譜圖(A)與剔除異常值后的光譜圖(B)Fig.1 Raw spectra of plastic samples(A)and spectra after data cleaning(B)
4類塑料樣品均采用隨機(jī)選擇法(RS),按照訓(xùn)練集與驗(yàn)證集近似3∶1的比例進(jìn)行樣品集劃分。最終將98個(gè)有效樣本分為訓(xùn)練集樣品72個(gè),驗(yàn)證集樣品26個(gè)。具體信息如表1所示。
表1 塑料樣品信息統(tǒng)計(jì)表Table 1 Statistical table of 98 plastic samples
為了減少光譜中背景噪聲以及樣品散射對(duì)模型的影響,在建模之前,分別采用一階導(dǎo)數(shù)法(The first derivative,1st Der)、二階導(dǎo)數(shù)法(The second derivative,2nd Der)、中心化(Centralization)、標(biāo)準(zhǔn)化(Standardization)、Savitzky-Golay平滑法(Savitzky-Golay smoothing method,SG)、多元散射處理(Multiplicative scatter correction,MSC)、標(biāo)準(zhǔn)正態(tài)變換法(Standard normal variate,SNV)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。在建立支持向量機(jī)模型之后,根據(jù)實(shí)驗(yàn)結(jié)果,選擇最合適的數(shù)據(jù)預(yù)處理方法。
支持向量機(jī)一般被用來(lái)解決二分類問(wèn)題,現(xiàn)在也可以處理多分類問(wèn)題??梢允褂靡粚?duì)多(Oneversus-all,OVA)或一對(duì)一(One-versus-one,OVO)方式將多分類問(wèn)題轉(zhuǎn)化為二分類問(wèn)題[21]。其基本原理是尋找一個(gè)超平面ωTx+b=0,使訓(xùn)練集中不同類別的點(diǎn)落在超平面的兩側(cè),同時(shí)使超平面兩側(cè)的空白區(qū)域達(dá)到最大[22]。使用不同的核函數(shù)可以將樣本映射到高維空間找到超平面,因而支持向量機(jī)可進(jìn)行線性分類和非線性分類。
對(duì)于線性可分的數(shù)據(jù)集,目標(biāo)函數(shù)為:
服從約束條件:
對(duì)于公式(1)~(4),n為樣本數(shù)量,ω和b分別是超平面ωT x+b=0的權(quán)重和偏置參數(shù),x i和y i表示第i個(gè)輸入的向量和第i個(gè)因變量值。使用拉格朗日乘子法可以求解上述極值。
支持向量機(jī)近年來(lái)被引入化學(xué)計(jì)量學(xué)領(lǐng)域,并且成功應(yīng)用于中紅外和近紅外光譜分類任務(wù)[23]。建模后,進(jìn)行4折交叉驗(yàn)證,通過(guò)比較不同數(shù)據(jù)預(yù)處理方法的準(zhǔn)確率,選擇準(zhǔn)確率最高的模型。選擇使模型效果最好的參數(shù):使用OVO方法,即在每?jī)蓚€(gè)類之間都構(gòu)造一個(gè)二分類SVM模型;懲罰因子C的值設(shè)為256,核函數(shù)為線性核函數(shù)。輸入塑料的近紅外光譜數(shù)據(jù)和相應(yīng)的類別標(biāo)簽(0、1、2、3),按照表1的比例隨機(jī)選取10個(gè)驗(yàn)證集進(jìn)行10次實(shí)驗(yàn)。模型輸出包括預(yù)測(cè)得到的標(biāo)簽、訓(xùn)練集準(zhǔn)確率和驗(yàn)證集準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)作為一種非線性模型,可以有效提取光譜中的局部信息,學(xué)習(xí)能力強(qiáng)。
典型的卷積神經(jīng)網(wǎng)絡(luò)模型包含輸入層、卷積層、池化層、全連接層、輸出層。對(duì)于光譜數(shù)據(jù),輸入層輸入一維光譜數(shù)據(jù)比二維光譜矩陣更加高效[17]。輸入數(shù)據(jù)和標(biāo)簽后,卷積層使用多個(gè)設(shè)定好大小和步長(zhǎng)的一維卷積核經(jīng)卷積運(yùn)算后得到特征圖。池化層通常在卷積層之后用來(lái)提取數(shù)據(jù)的局部特征。經(jīng)過(guò)一個(gè)或者多個(gè)全連接層,可將特征映射到樣本空間進(jìn)行分類。激活函數(shù)使用ReLU函數(shù)可以避免梯度消失問(wèn)題;而在分類問(wèn)題中,神經(jīng)網(wǎng)絡(luò)的最后一層通常使用Softmax函數(shù),將輸入映射為0到1之間,作為對(duì)應(yīng)類別的概率。模型訓(xùn)練時(shí),首先初始化權(quán)值,輸入塑料樣本訓(xùn)練集近紅外光譜數(shù)據(jù)及類別標(biāo)簽,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)各層得到最終輸出結(jié)果。計(jì)算模型損失函數(shù)值,通過(guò)反向傳播將損失函數(shù)值從最末層傳至網(wǎng)絡(luò)各層,按照最小化損失函數(shù)值的方向更新權(quán)值,繼續(xù)訓(xùn)練。
本實(shí)驗(yàn)構(gòu)建了一個(gè)6層一維CNN(1D CNN)用于塑料分類,包括輸入層-卷積層C1-池化層S2-全連接層F3-全連接層F4-輸出層,如圖2。將訓(xùn)練集表示塑料類別的標(biāo)簽值“0、1、2、3”轉(zhuǎn)化為one-h(huán)ot向量輸入,每個(gè)樣本光譜數(shù)據(jù)輸入維度為1 501×1。為了盡可能避免過(guò)擬合現(xiàn)象,在神經(jīng)網(wǎng)絡(luò)中添加了正則項(xiàng)和隨機(jī)失活(Dropout)。為降低模型復(fù)雜性,僅使用一層卷積層,8個(gè)卷積核,大小為3×1,步長(zhǎng)為1。池化層使用最大池化法,核的大小為2×1,步長(zhǎng)為2。模型最后一層全連接層使用Softmax激活函數(shù),優(yōu)化器為AdamOptimizer,學(xué)習(xí)率為0.000 1,卷積核個(gè)數(shù)為3,全連接層神經(jīng)元個(gè)數(shù)為60,迭代次數(shù)為5 000。模型訓(xùn)練基于TensorFlow框架GPU版本。
圖2 一維CNN模型各層結(jié)構(gòu)示意圖Fig.2 Representation of one-dimensional convolutional neural network(1D CNN)architecture
使用與MSC-SVM模型相同的10組驗(yàn)證集進(jìn)行實(shí)驗(yàn),得到預(yù)測(cè)類別和預(yù)測(cè)準(zhǔn)確率。
將訓(xùn)練集和測(cè)試集的分類準(zhǔn)確率作為模型評(píng)價(jià)指標(biāo)。準(zhǔn)確率P為分類正確的樣本數(shù)Nc占總樣本數(shù)Nr的比例,由式(5)得到:
在建立SVM模型時(shí),比較了不進(jìn)行數(shù)據(jù)預(yù)處理以及不同數(shù)據(jù)預(yù)處理方法建模后的交叉驗(yàn)證實(shí)驗(yàn)結(jié)果,如表2所示。
表2 不同數(shù)據(jù)預(yù)處理的SVM模型準(zhǔn)確率Table 2 Comparison of validation accuracy using different SVM models
可見采用MSC后模型準(zhǔn)確率最高。選擇分類性能最好的MSC-SVM模型進(jìn)行10次隨機(jī)實(shí)驗(yàn),98個(gè)樣本共得到結(jié)果980次,其中訓(xùn)練集720次,驗(yàn)證集260次。將這980次結(jié)果進(jìn)行統(tǒng)計(jì),記錄不同塑料種類的分類結(jié)果,將其真實(shí)值和預(yù)測(cè)值在表格中體現(xiàn),得到混淆矩陣,如表3所示。類似的,記錄1D CNN模型10次隨機(jī)實(shí)驗(yàn)共980次分類結(jié)果的混淆矩陣,如表4所示(每次隨機(jī)實(shí)驗(yàn)驗(yàn)證集與MSC-SVM模型使用的對(duì)應(yīng)驗(yàn)證集相同)?;煜仃囍袑?duì)角線元素表示被正確分類的樣品,訓(xùn)練集、驗(yàn)證集實(shí)驗(yàn)結(jié)果若在表格中呈對(duì)角線分布,則說(shuō)明模型分類準(zhǔn)確率高。
表3 MSC-SVM模型980次分類結(jié)果混淆矩陣Table 3 Confusion matrixes of 980 plastic type labels using MSC-SVM model
表4 1D CNN模型980次分類結(jié)果混淆矩陣Table 4 Confusion matrixes of 980 plastic type labels using 1D CNN model
由表3可知,MSC-SVM模型的訓(xùn)練集結(jié)果均分布在對(duì)角線上,表明在此實(shí)驗(yàn)中分類完全準(zhǔn)確;而其驗(yàn)證集除PE新生料外其他3種塑料都有分類錯(cuò)誤的結(jié)果。表4數(shù)據(jù)未全部分布在對(duì)角線,表明1D CNN模型訓(xùn)練集、驗(yàn)證集分類結(jié)果都存在少數(shù)錯(cuò)誤結(jié)果。綜合來(lái)看,對(duì)于PP新生料的類別預(yù)測(cè),1D CNN模型效果更好,MSC-SVM模型會(huì)較大概率將其誤判為PP再生料。兩種模型中,PE再生料都有一定概率被誤判為PE新生料。而PE新生料幾乎都可以被正確分類。
將MSC-SVM模型和1D CNN模型10次隨機(jī)實(shí)驗(yàn)結(jié)果進(jìn)行綜合比較,得到表5。
表5 MSC-SVM模型和1D CNN模型準(zhǔn)確率對(duì)比Table 5 Comparison of accuracies using MSC-SVM and 1D CNN models
由表5可知,MSC-SVM模型在訓(xùn)練集上表現(xiàn)很好,準(zhǔn)確率為100%。在驗(yàn)證集上,1D CNN模型準(zhǔn)確率為91.5%,略優(yōu)于MSC-SVM模型。對(duì)于不同類別的塑料,PE再生料和PP再生料兩種模型預(yù)測(cè)效果近似,PP再生料的判定準(zhǔn)確率都不高;PE新生料的判定準(zhǔn)確率在驗(yàn)證集上都達(dá)到100%;PP新生料使用1D CNN模型進(jìn)行分類的準(zhǔn)確率達(dá)100%。單次實(shí)驗(yàn)訓(xùn)練所需的平均程序執(zhí)行時(shí)間,MSC-SVM模型為2.84 s,而1D CNN模型為24.55 s??梢娫跀?shù)據(jù)量較小的情況下,MSC-SVM模型相比1D CNN模型更快速。CNN一般在數(shù)據(jù)量大的情況下有顯著優(yōu)勢(shì),而在小數(shù)據(jù)集上容易發(fā)生過(guò)擬合現(xiàn)象。但本實(shí)驗(yàn)證明,只要卷積層數(shù)合理,一維卷積核的參數(shù)設(shè)置合適,加之采用一些避免過(guò)擬合的方法,也可以達(dá)到較好的準(zhǔn)確率。而且CNN對(duì)數(shù)據(jù)預(yù)處理的要求較低,有些情況甚至無(wú)需數(shù)據(jù)預(yù)處理,亦無(wú)需考慮樣本數(shù)據(jù)的特性,是一種普適方法,在近紅外光譜數(shù)據(jù)分析上具有很大的應(yīng)用潛力。
本文基于近紅外光譜分析技術(shù)建立了塑料分類的MSC-SVM模型和1D CNN模型。在建立SVM模型時(shí),比較了多種數(shù)據(jù)預(yù)處理方法對(duì)模型的影響。MSC-SVM模型在驗(yàn)證集上的準(zhǔn)確率為90.8%,1D CNN模型在驗(yàn)證集上的準(zhǔn)確率為91.5%,略好于MSC-SVM模型。PE新生料在驗(yàn)證集上的分類準(zhǔn)確率均為100%;使用1D CNN模型判別PP新生料在驗(yàn)證集的準(zhǔn)確率達(dá)100%。在本實(shí)驗(yàn)的小數(shù)據(jù)集上,MSC-SVM建模快速準(zhǔn)確,而1D CNN則具有高度自學(xué)習(xí)、提取特征的能力,說(shuō)明以1D CNN模型結(jié)合近紅外光譜技術(shù)進(jìn)行自動(dòng)塑料分類可行,并可推廣到其它領(lǐng)域的光譜分析中。