張育剛
(國營四達(dá)機(jī)械制造公司,咸陽 712100)
近年來我國對鋁合金的需求日益增多,隨著大量鋁合金投入使用,也隨之產(chǎn)生了大量的廢舊鋁合金[1,2]。鋁的生產(chǎn)方式主要是電解[3,4],新生產(chǎn)鋁合金會消耗大量能源,而且會對環(huán)境造成污染,因此回收再利用廢舊鋁合金有十分重要的意義。由于廢舊鋁合金種類繁多、成分混雜[5,6],我們必須找到高效的分類方法對廢舊鋁合金進(jìn)行分類回收。
通過合金樣品成分的檢測開展分類研究是目前較常見的手段。對于合金材料成分常用的檢測方法主要有:X 射線熒光光譜法[7,8](X-ray Fluorescence analysis,XRF)、原子吸收光譜法[9,10](Rtomic Absorption Spectroscopy,AAS)和電感耦合等離子體原子發(fā)射光譜法[11,12](Inductively Coupled Plasma Atomic Emission Spectroscopy,ICP-AES)。其中,XRF 難以用作絕對分析,對輕元素的靈敏度相對較低,易受到相互元素干擾和疊加峰影響;AAS 對難熔元素、非金屬單質(zhì)檢測比較困難,難以實(shí)現(xiàn)對多種元素同時檢測,有許多元素的檢測靈敏度也不高;ICP-AES 的設(shè)備和操作費(fèi)用較高,對部分元素的檢測不明顯。
激光誘導(dǎo)擊穿光譜(Laser-induced breakdown spectroscopy,LIBS)技術(shù)[13]作為一種新興的表面成分檢測技術(shù),具有快速實(shí)時檢測分析、樣品需求少、對樣品破壞性小、具有遙測能力、全元素分析等優(yōu)點(diǎn),正是LIBS 技術(shù)所擁有的這些傳統(tǒng)方法不曾擁有的優(yōu)勢,使其在分類分析領(lǐng)域成為研究熱點(diǎn),并得到了國內(nèi)外各個行業(yè)領(lǐng)域的廣泛推崇。P Inakollu 等人使用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)預(yù)測鋁合金的元素濃度,預(yù)測效果明顯好于傳統(tǒng)方法[14];Campanella B 等人使用LIBS結(jié)合“模糊化”的ANN,模擬工業(yè)環(huán)境的條件,實(shí)現(xiàn)對鋁合金的分類[15];周中寒等人將LIBS 技術(shù)與主成分分析(Principal Component Analysis,PCA)和支持向量機(jī)(Support Vector Machine,SVM)相結(jié)合,對2 000 個鋁合金樣品LIBS 脈沖信號分類,分類準(zhǔn)確度為99.83%[16];Liang L 等人使用LIBS 技術(shù),結(jié)合改進(jìn)的SVM 算法,對不同牌號鋼材的快速識別,避免了冗余信息對識別的干擾,提高了識別正確率[17];Aberkane 等人通過ANN、KNN、以及SVM 算法實(shí)現(xiàn)了對不同鋅合金的分類,結(jié)果表明SVM 對鋅合金LIBS 光譜有較好的分類結(jié)果[18];Dastjerdi 等將LIBS 技術(shù)與SVM 相結(jié)合,將聚氯乙烯與其他聚合物分離開,識別率達(dá)90.5%[19];劉可等將LIBS技術(shù)與偏最小二乘(Partial Least Squares,PLS)法相結(jié)合,對11 種塑料樣品采集了20 個LIBS 脈沖信號并進(jìn)行分類,分類準(zhǔn)確度為100%[20]。
上述研究表明LIBS 技術(shù)結(jié)合不同算法可對各種表面成分進(jìn)行檢測,并實(shí)時分類。本研究結(jié)合RF、ANN 和ELMAN 三種算法與LIBS 技術(shù)對鋁合金樣品的光譜進(jìn)行識別分類,實(shí)現(xiàn)了鋁合金的快速分類。
ELMAN 神經(jīng)網(wǎng)絡(luò)[21,22]是一種反饋型神經(jīng)網(wǎng)絡(luò)模型,它與BP 網(wǎng)絡(luò)相似,但比BP 多了一個承接層,可根據(jù)結(jié)果對網(wǎng)絡(luò)進(jìn)行反饋,根據(jù)反饋的結(jié)果選擇一個最佳的隱含層數(shù),作為當(dāng)前訓(xùn)練的隱含層個數(shù),其結(jié)構(gòu)如圖1 所示,其中,x(t)、y(t)和u(t-1)分別為中間層向量、輸出向量和輸入向量,xC(t)為反饋狀態(tài)向量,ω1、ω2和ω3分別為承接層到中間層連接權(quán)值、輸入層到中間層連接權(quán)值以及中間層到輸出層連接權(quán)值。這樣的反饋結(jié)構(gòu)使得網(wǎng)絡(luò)具有更好的靈活性,并且使用者不需要逐個對隱含層數(shù)進(jìn)行試驗(yàn),操作起來簡單便捷,且準(zhǔn)確率較高,可以快速尋找到最優(yōu)隱含層數(shù)。
圖1 ELMAN 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 ELMAN neural network structure diagram
圖1 中網(wǎng)絡(luò)所蘊(yùn)含的表達(dá)式關(guān)系如公式(1)~公式(3)所示。
式中:f()——中間層神經(jīng)元傳遞函數(shù);g()——輸出神經(jīng)元傳遞函數(shù)。
ELMAN 模型網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)h按公式(4)計(jì)算。
式中:inputnum——輸入層節(jié)點(diǎn)數(shù);outputnum——輸出層節(jié)點(diǎn)數(shù);fix()——取整函數(shù)。
使用for 循環(huán),遍歷h:h+9,通過ELMAN 神經(jīng)網(wǎng)絡(luò)模型依次求出10 次不同隱含層節(jié)點(diǎn)數(shù)的訓(xùn)練集準(zhǔn)確率存放到承接層,根據(jù)訓(xùn)練集準(zhǔn)確率對網(wǎng)絡(luò)進(jìn)行反饋,根據(jù)反饋結(jié)果選擇一個最佳隱含層節(jié)點(diǎn)數(shù)作為當(dāng)前訓(xùn)練的隱含層節(jié)點(diǎn)數(shù)。
ELMAN 神經(jīng)網(wǎng)絡(luò)的特點(diǎn)即是隱含層的輸出通過承接層的延遲與存儲自聯(lián)到隱含層的輸入[23]。這種自聯(lián)方式使其對歷史狀態(tài)的數(shù)據(jù)具有敏感性,通過內(nèi)部反饋網(wǎng)絡(luò)的加入來增強(qiáng)網(wǎng)絡(luò)本身處理信息的能力,從而達(dá)到更準(zhǔn)確的建模。本研究通過ELMAN 神經(jīng)網(wǎng)絡(luò)中承接層的延遲與存儲功能,以記憶LIBS 數(shù)據(jù)歷史狀態(tài)信息,達(dá)到快速、準(zhǔn)確建模的目的。
人工神經(jīng)網(wǎng)絡(luò)(ANN)[24,25],即采用模擬人腦的神經(jīng)元的結(jié)構(gòu),并合成節(jié)點(diǎn),對數(shù)據(jù)進(jìn)行分析。神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的結(jié)點(diǎn)及結(jié)點(diǎn)間的聯(lián)系所構(gòu)成,除輸入結(jié)點(diǎn)外,各個結(jié)點(diǎn)都代表一個輸出函數(shù),也叫做激勵函數(shù)。節(jié)點(diǎn)之間的鏈接,代表一個對于通過該鏈接信號的加權(quán)數(shù)值,即權(quán)重,等同于對人工神經(jīng)網(wǎng)絡(luò)的記憶。該網(wǎng)絡(luò)內(nèi)所有定量或定性的信息都等勢分布貯存于網(wǎng)絡(luò)內(nèi)的各神經(jīng)元,每個神經(jīng)元及其連線只能表示一部分信息,因此即使有節(jié)點(diǎn)斷裂也不影響總體運(yùn)行效果,具有很強(qiáng)的魯棒性和容錯能力[26]。
ANN 具有自適應(yīng)、自組織和實(shí)時學(xué)習(xí)的特點(diǎn),本研究通過提供一批相互對應(yīng)的輸入和輸出LIBS數(shù)據(jù),分析掌握兩者之間潛在的規(guī)律,最終根據(jù)這些規(guī)律,用新的輸入數(shù)據(jù)來推算輸出結(jié)果。
隨機(jī)森林(Random Forest,RF)[27,28]就是通過集成學(xué)習(xí)的思想將多棵決策樹集成的一種算法,決策樹是它的基本單元。RF 可拆分為兩個關(guān)鍵詞,“隨機(jī)”和“森林”?!吧帧本褪怯啥鄠€決策樹所組成的;“隨機(jī)”就是從所有數(shù)據(jù)中隨機(jī)選擇一部分?jǐn)?shù)據(jù)以及特征標(biāo)簽,以保證每棵樹使用的數(shù)據(jù)和特征標(biāo)簽均不同,訓(xùn)練產(chǎn)生的結(jié)果也不盡相同。由于數(shù)據(jù)集和決策樹節(jié)點(diǎn)分裂特征的隨機(jī)性,RF 模型可以在保證識別精度的同時提高抗干擾能力[29]。RF 的特點(diǎn)是可以在不降維的情況下,處理大量特征數(shù)據(jù),訓(xùn)練速度快,可以實(shí)現(xiàn)并行化訓(xùn)練數(shù)據(jù)。RF 還有一個重要優(yōu)點(diǎn),即沒有必要對它進(jìn)行交叉驗(yàn)證或者用一個獨(dú)立的測試集來獲得誤差的一個無偏估計(jì),它可以在內(nèi)部進(jìn)行評估,即在生成的過程中就可以對誤差建立一個無偏估計(jì)[30]。最終RF 將所有樹的訓(xùn)練結(jié)果中最優(yōu)的確定為分類結(jié)果。
本研究的LIBS 數(shù)據(jù)具有4 096 個特征,利用RF 可以處理大量的特征數(shù)據(jù)和訓(xùn)練速度快的優(yōu)勢,對4 096 個特征信息進(jìn)行建模,實(shí)現(xiàn)對鋁合金樣品系列和牌號的分類。
本研究采用自主搭建的LIBS 系統(tǒng),如圖2 所示。本試驗(yàn)激發(fā)源采用燈泵浦電調(diào)Q 緊湊納秒激光器(Beamtech China,Dawa-200),波長為1 064 nm,脈沖能量為70 mJ,頻率為1 Hz。激光器發(fā)出激光脈沖,激光經(jīng)過反射鏡和凸透鏡聚焦到鋁合金樣品表面,對鋁合金表面進(jìn)行灼燒,產(chǎn)生高溫等離子體。等離子體演化生成線狀光譜,探測器收集具有原子特性的線狀光譜,并通過光纖傳遞至光譜儀(Avantes,AvaSpec-ULS2048-2-USB2),光譜儀中的CCD 將獲得的光譜數(shù)據(jù)轉(zhuǎn)換為電信號傳遞至計(jì)算機(jī),使用者即可對計(jì)算機(jī)獲得的信息使用各種算法進(jìn)行處理分析。光譜儀的光譜響應(yīng)范圍為198~424 nm,設(shè)置積分時間為1.05 ms。
圖2 LIBS 系統(tǒng)示意圖Fig.2 LIBS system diagram
本試驗(yàn)采用的鋁合金樣品為上海亨美金屬集團(tuán)以及上海鋁征金屬材料的6 個系列11 種鋁合金樣品,長、寬、高分別為50 mm、50 mm、10 mm;鋁合金系列分別為:1、2、3、5、6、7 系列;鋁合金牌號分別為:1050、2A12、2024、3A21、3003、5A06、5052、5083、6061、6082、7075。
為了減少激光的不穩(wěn)定性、激光在樣品聚焦位置深度、基體效應(yīng)以及環(huán)境等因素的干擾,本試驗(yàn)對每個樣品每測試3 次取平均值作為一次數(shù)據(jù),采集這樣的50 組數(shù)據(jù),即每個樣品各用激光采集150次數(shù)據(jù)。最終11 塊樣品共獲得550 組數(shù)據(jù)。
通過LIBS 系統(tǒng)獲得的光譜全譜數(shù)據(jù)相對較大,計(jì)算機(jī)進(jìn)行處理分析時需要耗費(fèi)較多的時間,因此選擇有效的特征譜線可降低對計(jì)算機(jī)設(shè)備的性能要求,減少數(shù)據(jù)分析的時間。以牌號5083 鋁合金為例的光譜圖如圖3 所示,從圖中可以清晰地看出峰值,通過查詢NIST 標(biāo)準(zhǔn)數(shù)據(jù)庫中元素的波長,確定峰值元素,將其作為特征元素。
圖3 鋁合金樣品光譜圖Fig.3 Spectrogram of aluminum alloy sample
數(shù)據(jù)集中共有550 條數(shù)據(jù),選擇385 條數(shù)據(jù)作為訓(xùn)練集,165 條作為測試集。
在鋁合金樣品系列分類中,標(biāo)簽數(shù)字分別代表1 ∶1 系鋁合金,2 ∶2 系鋁合金,3 ∶3 系鋁合金,4 ∶4系鋁合金,5 ∶5 系鋁合金,6 ∶6 系鋁合金。
表1 按系列分類的模型預(yù)測性能的結(jié)果Tab.1 Results of model prediction performance by series classification
RF 模型設(shè)置樹的數(shù)量ntree為500,變量數(shù)量mtry為29。ANN 模型網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)通過輸入的數(shù)據(jù)集自動獲取,隱含層的節(jié)點(diǎn)數(shù)經(jīng)過嘗試,基于全譜數(shù)據(jù)節(jié)點(diǎn)數(shù)設(shè)置為24 和65 時,分類效果最好,為了提高分類效率,減少分類次數(shù),選擇將隱含層節(jié)點(diǎn)數(shù)設(shè)置為24,基于特征元素譜線數(shù)據(jù)節(jié)點(diǎn)數(shù)設(shè)置為12時,分類效果最好;輸出層節(jié)點(diǎn)數(shù)設(shè)置為6。其中ANN 網(wǎng)絡(luò)的訓(xùn)練參數(shù)設(shè)置為20,訓(xùn)練次數(shù)設(shè)置為3 000,該訓(xùn)練次數(shù)既保證了訓(xùn)練的充分性和效率,又不會因訓(xùn)練次數(shù)過多或訓(xùn)練過擬合而導(dǎo)致正確率下降。按系數(shù)分類的模型預(yù)測性能結(jié)果如表1 所示。
由表1 可以看出,按系列分類時,全譜輸入的ANN 相較于ELMAN 正確率高2.43%,RF 相較于ANN 正確率又高8.44%;基于特征元素譜線數(shù)據(jù)分類時,ANN 相較于ELMAN 正確率高0.6%,RF 相較于ANN 正確率又高1.21%。對于ELMAN,對特征元素譜線數(shù)據(jù)分類相較于全譜數(shù)據(jù),正確率提升13.95%,AUC值提升0.257 16,時間減少11.43 s;對于ANN,對特征元素譜線數(shù)據(jù)分類相較于全譜數(shù)據(jù),正確率提升12.12%,AUC值提升0.255 56,時間減少16.43 s;對于RF,對特征元素譜線數(shù)據(jù)分類相較于全譜數(shù)據(jù),正確率提升4.89%,AUC值提升0.041 09,時間減少76.28 s。
三種模型對鋁合金按系列分類的混淆矩陣如圖4 所示,ROC 曲線如圖5 所示。
圖5 鋁合金系列分類ROC 曲線Fig.5 ROC curve of aluminum alloy series classification
根據(jù)以上評價指標(biāo)可以得出,在對鋁合金按系列分類時,三種模型基于特征譜線數(shù)據(jù)的分類準(zhǔn)確率均高于全譜譜線,并且基于特征譜線數(shù)據(jù)的分類建模的平均時間均少于全譜譜線,三種模型的分類效果從高到低依次是RF、ANN、ELMAN神經(jīng)網(wǎng)絡(luò)。
在鋁合金樣品牌號分類中,標(biāo)簽數(shù)字分別代表11 個鋁合金牌號,即1 ∶2A12,2 ∶3A21,3 ∶5A06,4 ∶1050,5 ∶2024,6 ∶3003,7 ∶5083,8 ∶5052,9 ∶6061,10 ∶6082,11 ∶7075。
按牌號分類的模型預(yù)測性能結(jié)果如表2 所示,ANN 模型網(wǎng)絡(luò)的隱含層,基于全譜數(shù)據(jù)節(jié)點(diǎn)數(shù)設(shè)置為65 時,分類效果最好,基于特征元素譜線數(shù)據(jù)節(jié)點(diǎn)數(shù)設(shè)置為16 時,分類效果最好;輸出層節(jié)點(diǎn)數(shù)設(shè)置為11。
表2 按牌號分類的模型預(yù)測性能的結(jié)果Tab.2 Results of the model prediction performance by brand classification
由表2 可以看出,按牌號分類時,全譜輸入的ANN 相較于ELMAN 正確率高1.77%,RF 相較于ANN 正確率又高27.92%;基于特征元素譜線數(shù)據(jù)分類時,ANN 相較于ELMAN 正確率高2.98%,RF相較于ANN 正確率又高6.66%。對于ELMAN,對特征元素譜線數(shù)據(jù)分類相較于全譜數(shù)據(jù),正確率提升24.91%,AUC值提升0.074 89,時間減少31.48 s;對于ANN,對特征元素譜線數(shù)據(jù)分類相較于全譜數(shù)據(jù),正確率提升26.12%,AUC值提升0.060 67,時間減少44.22 s;對于RF,對特征元素譜線數(shù)據(jù)分類相較于全譜數(shù)據(jù),正確率提升4.86%,時間減少100.04 s。
三種模型對鋁合金按牌號分類的混淆矩陣如圖6 所示,ROC 曲線如圖7 所示。
圖6 鋁合金牌號分類混淆矩陣Fig.6 Aluminum alloy grade classification confusion matrix
圖7 鋁合金牌號分類ROC 曲線Fig.7 ROC curve of aluminum alloy grade classification
根據(jù)以上評價指標(biāo)可以得出,在對鋁合金按牌號分類時,三種模型基于特征譜線數(shù)據(jù)的分類準(zhǔn)確率均高于全譜譜線,并且基于特征譜線數(shù)據(jù)的分類建模的平均時間均少于全譜譜線,三種模型的分類效果從高到低依次是隨機(jī)森林、ANN 人工神經(jīng)網(wǎng)絡(luò)、ELMAN 神經(jīng)網(wǎng)絡(luò),但按牌號分類的分類效果略差于系列分類。
所有模型預(yù)測結(jié)果如表1、2 所示。為了更直觀的觀察本研究的試驗(yàn)效果,將本研究的準(zhǔn)確率與已有報道對比。許鋮通過采用LIBS 技術(shù)結(jié)合K 最鄰近值算法實(shí)現(xiàn)對同牌號鈦合金的LIBS 快速精準(zhǔn)分類,試驗(yàn)結(jié)果表明:訓(xùn)練集交叉驗(yàn)證準(zhǔn)確率從81.40% 提高至98.64%,測試集分類準(zhǔn)確度從84.20%提高至99.14%,評價模型優(yōu)劣的AUC值從0.964 3 提高至0.999 1[31];李晨陽等人基于LIBS技術(shù)結(jié)合XGBoost 算法將LIBS 數(shù)據(jù)進(jìn)行自動分類及排序,將處理后的光譜數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測試集進(jìn)行建模,最終準(zhǔn)確率達(dá)到96.67%[32];Harefa 等人利用LIBS 技術(shù)結(jié)合SVM 模型對五種不同類型的鋁合金進(jìn)行快速、無創(chuàng)分類,分類準(zhǔn)確率為96.67%[33]。由此可見,分類正確率均在90%以上,本研究中對于分類要求較高的鋁合金牌號分類,RF 模型性能最佳,無論是基于全譜數(shù)據(jù)還是特征譜線數(shù)據(jù),分類正確率均在90%以上;對于分類要求較為寬松的鋁合金系列分類,三種模型在基于特征譜線數(shù)據(jù)進(jìn)行分類時,準(zhǔn)確率都在97%以上。因此,本研究達(dá)到較好的分類效果,并且在一些情況下有效提高了分類性能。
綜上所述,RF 模型的準(zhǔn)確度和預(yù)測能力更好,更適用于鋁合金的分類識別。
通過對6 個系列和11 個牌號的鋁合金使用LIBS 技術(shù)采集光譜數(shù)據(jù),選擇9 種特征元素的29條譜線作為特征譜線,結(jié)合RF、ANN、ELMAN 神經(jīng)網(wǎng)絡(luò)三種模型分別對全譜光譜數(shù)據(jù)矩陣和特征元素光譜數(shù)據(jù)矩陣按系列分類和按牌號分類。對于鋁合金系列分類:ELMAN、ANN、RF 三種模型對全譜數(shù)據(jù)分類的準(zhǔn)確率分別為:83.63%、86.06%、94.5%,AUC的 值 分 別 為0.672 72、0.678 02、0.927 16,建模時間分別為14.72 s、19.59 s、77.65 s;對特征譜線數(shù)據(jù)分類的準(zhǔn)確率分別為:97.58%、98.18%、99.39%,AUC的值分別為0.929 88、0.933 58、0.968 25,建模時間分別為3.29 s、3.16 s、1.38 s。對于鋁合金牌號分類:三種模型對全譜數(shù)據(jù)分類的準(zhǔn)確率分別為:61.81%、63.58%、91.5%,AUC的值分別為0.918 44、0.939 33、1,建模時間分別為40.48 s、48.13 s、101.58 s;對特征譜線數(shù)據(jù)分類的準(zhǔn)確率分別為:86.72%、89.7%、96.36%,AUC的值分別為0.993 33、1、1,建模時間分別為9.32 s、3.91 s、1.54 s。試驗(yàn)結(jié)果表明:基于表面成分檢測技術(shù)-LIBS 結(jié)合RF 模型,能夠快速準(zhǔn)確的對6 個系列和11 個牌號的鋁合金進(jìn)行分類,該結(jié)果為廢舊鋁合金系列和牌號精準(zhǔn)分類提供了參考方法。