方 圓, 何張平, 朱世超, 梁顯榮, 晉 剛
華南理工大學(xué)聚合物新型成型裝備國家工程研究中心, 廣東省高分子先進制造技術(shù)及裝備 重點實驗室, 華南理工大學(xué)聚合物加工工程教育部重點實驗室, 廣東 廣州 510640
化工企業(yè)通常根據(jù)用途不同會為同種塑料開發(fā)多種牌號, 不同牌號的塑料其性能和加工參數(shù)存在較大差異[1]。 在實際加工過程中, 同一生產(chǎn)線上混用不同牌號的原材料, 會影響產(chǎn)品性能, 降低產(chǎn)品合格率。 目前常用的塑料牌號識別方法是測量材料的熔融指數(shù)、 流變性能, 這些方法耗時長且具有滯后性。 因此, 尋求一種快速、 實時、 準確的塑料牌號識別方法是有必要的。
近紅外光譜技術(shù)(near-infrared spectroscopy,NIR)通過測量不同基團的吸收波長與強度來測量樣品組成與含量[2], 該方法測定速度快, 適用范圍廣, 操作簡便, 在物質(zhì)定性和定量分析中應(yīng)用廣泛[3-5]。 化學(xué)計量學(xué)的發(fā)展進一步促進了近紅外光譜技術(shù)的應(yīng)用, 解決了近紅外光譜譜峰重疊嚴重、 指紋性差的問題。 多篇文獻報道了利用近紅外光譜和化學(xué)計量學(xué)方法實現(xiàn)塑料分類的研究工作。 Mikio等[6]以近紅外光譜數(shù)據(jù)為基礎(chǔ), 利用決策樹中的分類與回歸樹(classification and regression trees,CART)算法實現(xiàn)了18種塑料的準確分類識別。 郝勇等[7]結(jié)合近紅外光譜和偏最小二乘判別分析(partial least squares-discriminant analysis,PLS-DA)實現(xiàn)了對6類食品接觸塑料的精準識別。 這些工作主要進行塑料種類的識別, 目前關(guān)于塑料牌號的識別還鮮有研究。 在本課題組前期工作中[8], 利用近紅外光譜結(jié)合化學(xué)計量學(xué), 實現(xiàn)了3種聚乳酸牌號的離線識別, 但是離線測量存在延時性問題。
為了實現(xiàn)塑料牌號的實時識別, 自主開發(fā)了在線近紅外光譜測量系統(tǒng), 在擠出機狹縫模具上安裝近紅外光譜傳感器, 實現(xiàn)對通用聚苯乙烯(general purpose polystyrene,GPPS)熔體的實時測量。 通過譜圖分析和K均值聚類(K-means)算法驗證了不同牌號在線光譜數(shù)據(jù)的可分性, 為GPPS牌號的在線識別提供了依據(jù)。 利用PLS-DA和隨機森林(random forest,RF)分別建立牌號識別模型并進行對比, 實現(xiàn)了對GPPS牌號的準確識別, 提供了一種在生產(chǎn)線上利用近紅外光譜在線識別GPPS牌號的方法。
實驗采用的5種GPPS牌號為: 158K, 5250, 525, PG-33, GP-150。 對應(yīng)的熔融指數(shù)分別為7.3, 7.4, 8.5, 10.0, 10.2 g·(10 min)-1。
在線近紅外光譜測量系統(tǒng)的原理如圖1所示, 鹵素光源(LS-3000,廣州標旗有限公司)通過光纖和探頭(QR400-7-VIS-NIR,Ocean Optics Inc,USA), 將入射光照射到單螺桿擠出機(RESM-20/25,普同實驗分析儀器有限公司)狹縫模具中的熔融物料上, 攜帶樣品信息的反射光由探頭(QR400-7-VIS-NIR,Ocean Optics Inc,USA)收集, 并經(jīng)光纖傳輸至近紅外光譜儀(NIRQUEST 512,Ocean Optics Inc,USA), 通過USB接口將光譜數(shù)據(jù)傳輸至計算機, 在光譜采集軟件中實時顯示。
圖1 在線近紅外光譜測量系統(tǒng)原理圖Fig.1 Schematic diagram of in-line near-infrared spectralmeasurement system
料筒各段溫度: 180, 190, 200和210 ℃, 螺桿轉(zhuǎn)速: 80 r·min-1。 按照熔融指數(shù)由低到高的順序, 連續(xù)擠出不同牌號的GPPS。 光譜波長范圍為900~1 700 nm, 分辨率為3.1 nm, 積分時間設(shè)置為500 ms, 積分次數(shù)設(shè)置為3。 共采集到1 730條在線近紅外光譜, 每種牌號選取100條光譜, 共500條光譜作為訓(xùn)練集, 在訓(xùn)練集之外, 每種牌號選取50條光譜, 共250條光譜作為驗證集。
近紅外光譜按測量方式分為透射光譜和漫反射光譜, 由于擠出過程中的熔融GPPS料層較厚, 導(dǎo)致其透射光的強度較弱, 而漫反射光強度高、 易于分析, 因此采用近紅外漫反射光譜進行分析。 首先采用基線校正、 最大最小歸一化、 7點移動平均平滑3種光譜預(yù)處理方法對1 730條原始在線近紅外光譜進行預(yù)處理, 以消除光譜的平移、 漂移、 無關(guān)信息和噪聲。 然后采用主成分分析(principal component analysis,PCA)對預(yù)處理后的光譜數(shù)據(jù)進行降維, 提取光譜數(shù)據(jù)的主要特征分量, 以簡化建模過程。 利用K-means聚類算法對降維后的光譜數(shù)據(jù)進行聚類分析, 驗證不同牌號在線的近紅外光譜可分性, 為GPPS牌號的在線識別提供依據(jù)。 最后利用PLS-DA和RF分別對降維后的不同牌號在線近紅外光譜數(shù)據(jù)進行分類識別, 并對比兩種模型的牌號識別準確率。 上述過程均利用Python scikit-learn機器學(xué)習(xí)庫來實現(xiàn)。
圖2(a)是經(jīng)過預(yù)處理后的在線近紅外光譜圖, 每種牌號各選取了5條光譜, 共25條光譜。 可以看到, GPPS在1 143, 1 207, 1 388, 1 407和1 429 nm處存在特征峰。 其中1 143 nm屬于芳烴C—H伸縮振動的二級倍頻, 1 207 nm屬于亞甲基C—H伸縮振動的二級倍頻, 1 388, 1 407和1 429 nm屬于亞甲基C—H對稱和反對稱伸縮與彎曲振動的組合頻[9]。 由圖2(a)可以發(fā)現(xiàn)1 143 nm處的特征峰峰強較弱, 且特征峰幾乎沒有差異, 但1 207, 1 388, 1 407和1 429 nm處的特征峰存在細微差異, 因此將后四處的特征峰峰強在圖2(b)中按照光譜采集順序?qū)︻A(yù)處理后的1 730條在線近紅外光譜進行分析, 其中158K, 5250, 525, PG-33和GP-150對應(yīng)的光譜數(shù)約為0~300, 350~600, 650~900, 1 000~1 300和1 400~1 730, 其余光譜為共混過程光譜。 由圖2(b)可以發(fā)現(xiàn), 除前兩個牌號GPPS的特征峰峰強變化較小外, 后續(xù)特征峰峰強均隨著牌號的變化出現(xiàn)明顯階梯狀改變, 初步可以判定在線近紅外光譜對不同牌號GPPS具有一定的區(qū)分度。
圖2 (a) 不同牌號GPPS的在線近紅外光譜圖, (b)在線近紅外光譜特征峰的峰強變化Fig.2 (a) In-line NIR spectra of different grades of GPPS,(b) Changes in characteristic peaks ofin-line NIR spectra of different grades of GPPS
訓(xùn)練集經(jīng)PCA降維得到的主成分解釋變量累計貢獻率如圖3所示, PC3及之后的累計貢獻率均大于98.67%, 足以代表全部光譜特征。 對降至3維的訓(xùn)練集進行聚類分析, K-means[10]聚類結(jié)果如圖4所示, 錯誤聚類共60例, 參與聚類的光譜共500條, 因此, 聚類總正確率為88%, 表明不同牌號在線近紅外光譜的可分性, 這是利用近紅外光譜在線識別5種牌號GPPS的前提和基礎(chǔ)。
圖3 在線近紅外光譜主成分累計解釋變量圖Fig.3 Explained variance contribution of principalcomponents of in-line NIR spectra
圖4 不同牌號在線近紅外光譜的K-means聚類結(jié)果圖Fig.4 K-means clustering result of in-line NIRspectra of different grades of GPPS
采用預(yù)處理后的訓(xùn)練集和驗證集進行建模和預(yù)測。 為達到最佳識別效果, 通過5折交叉驗證[11]對主因子數(shù)尋優(yōu)。 圖5為交叉驗證得到的預(yù)測殘差平方和(prediction residual error sum of squares,PRESS)與主因子數(shù)的關(guān)系圖, 由圖5可以發(fā)現(xiàn), PRESS值下降到不再發(fā)生顯著變化時, 對應(yīng)的主因子數(shù)為3, 此時的PRESS值為26.644, 決定系數(shù)R2為0.973。 因此采用最佳主因子數(shù)為3建立PLS-DA模型, 得到訓(xùn)練集和驗證集的分類正確率分別為92.0%和90.4%。 驗證集的識別結(jié)果如圖6(a)所示, 詳細結(jié)果見表1。
圖5 PRESS值與主因子數(shù)的關(guān)系圖Fig.5 Relationship between PRESS and the numberof principal components
圖6 GPPS牌號識別模型的驗證集判別結(jié)果(a): PLS-DA模型; (b): RF模型Fig.6 Identification results for differentgrades of GPPS in validation set(a): PLS-DA model; (b): RF model
表1 基于PLS-DA判定的不同牌號GPPS識別結(jié)果Table 1 Identification results of different gradesof GPPS based on the PLS-DA algorithm
RF算法是通過在CART[12]中引入集成學(xué)習(xí)裝袋方法(Bagging)[13]進行多次隨機抽樣而構(gòu)建的[14], 可以有效地避免模型過擬合。 采用PCA將預(yù)處理后的訓(xùn)練集和驗證集降至5維, 在訓(xùn)練集樣本中, 每次隨機選取100個樣本作為子模型, 共建立500個子模型來訓(xùn)練RF模型, 并對RF的基學(xué)習(xí)器CART的最大深度進行尋優(yōu), 以達到最佳的識別效果。 圖7為CART最大深度與訓(xùn)練集、 驗證集的分類正確率關(guān)系圖, 當(dāng)CART最大深度為7時, 對應(yīng)的驗證集分類正確率最高, 此時訓(xùn)練集的分類正確率為99.8%, 驗證集的分類正確率為95.6%。 驗證集的識別結(jié)果如圖6(b)所示, 詳細結(jié)果見表2。
表2 基于隨機森林判定的不同牌號GPPS識別結(jié)果Table 2 Identification results of different gradesof GPPS based on the RF algorithm
圖7 CART最大深度與不同牌號GPPS的分類正確率關(guān)系圖Fig.7 Relationship between maximum depth of CART and classification accuracy of different grades of GPPS
與PLS-DA模型相比, RF模型的牌號識別正確率更高。 這是因為: ①光譜與牌號的對應(yīng)關(guān)系并非完全線性, 而PLS-DA是一種基于線性回歸的判別算法[15], 不具備RF算法的非線性數(shù)據(jù)處理能力; ② 集成學(xué)習(xí)方法可以提高單一弱分類器的準確率, 在復(fù)雜樣本中表現(xiàn)更加優(yōu)異[16]。
利用自主開發(fā)的在線近紅外光譜測量系統(tǒng)實時采集了5種不同牌號GPPS熔體的近紅外光譜數(shù)據(jù), 通過譜圖分析和K-means聚類分析方法驗證了不同牌號GPPS在線近紅外光譜數(shù)據(jù)的可分性, 建立的PLS-DA和RF模型均實現(xiàn)了對不同牌號在線近紅外光譜的準確識別, 其中RF模型的識別準確率更高。 因此, 近紅外光譜是一種在線測量牌號的有效手段。