劉 倩, 秦曄瓊, 劉 曙*, 李 晨, 朱志秀, 閔 紅, 邢彥軍
1. 東華大學化學化工與生物工程學院生態(tài)紡織教育部重點實驗室, 上海 201620 2. 上海海關工業(yè)品與原材料檢測技術中心, 上海 200135
銅精礦是低品位含銅原礦石經(jīng)過選礦工藝處理達到一定質量指標的精礦, 是冶煉銅及其合金的基礎工業(yè)原料。 全球銅礦資源主要分布于北美, 拉丁美洲和中非三地。 按國家分布主要集中在智利、 秘魯、 美國、 菲律賓等國家。 不同產(chǎn)地來源的銅精礦由于地質成因差異, 主次元素含量存在著一定的區(qū)域特征。 中國是全球最大的銅精礦進口國, 2018年進口量為1 972萬噸, 同比增長13.7%。 進口銅精礦偽報、 摻雜、 有害元素超標案件多發(fā), 已危害到了國家經(jīng)濟安全。 基于歷年銅精礦的口岸檢測數(shù)據(jù), 建立入境銅精礦產(chǎn)地識別方法, 將有助于風險分級、 預警, 對保障入境銅精礦的安全, 具有重要意義。
梅燕熊[1]等根據(jù)全球銅礦資源地質構造背景與成礦特征, 劃分了4大成礦域以及21個巨型成礦區(qū)帶。 其中位于安第斯成礦帶的智利和秘魯, 東亞成礦帶的菲律賓屬于環(huán)太平洋成礦域, 地中海成礦帶的西班牙和阿爾巴尼亞、 中南半島成礦帶的馬來西亞及西亞成礦帶的伊朗屬于亞特提斯成礦域。 環(huán)太平洋成礦域和亞特提斯成礦域的成礦地質構造背景主要是顯生宙造山帶, 其次是新生代風化殼。 位于非洲-阿拉伯成礦區(qū)的納米比亞屬于岡瓦納成礦域, 其成礦地質構造背景主要以前寒武紀地塊及疊加其上的顯生宙沉積盆地和構造帶, 其次是新生代風化殼。 由于礦床的成因極其復雜, 導致了礦床的地理位置的不同在銅礦樣品的產(chǎn)地識別中具有較大的難度, 以至于到目前為止, 還未見進口銅精礦產(chǎn)地識別的相關報道。
神經(jīng)網(wǎng)絡是一種有監(jiān)督的模式識別方法, 在光譜分析應用領域方面日益廣泛。 Giulio Binetti[2]等應用近紅外光譜和核磁共振光譜與人工神經(jīng)網(wǎng)絡相結合的方法對不同品種的特級初榨橄欖油進行品種和產(chǎn)地鑒定。 Moncayo[3]等應用激光誘導擊穿光譜與人工神經(jīng)網(wǎng)絡相結合建立一種對紅酒原產(chǎn)地保護分級的方法。 孟海東[4]等利用不同礦產(chǎn)品的礦物形態(tài), 物理化學性質不同的特點與BP神經(jīng)網(wǎng)絡結合對銅礦石和鐵礦石進行分類識別。 人工神經(jīng)網(wǎng)絡作為一種具有高度非線性映射能力的計算模型, 能進行全局優(yōu)化, 提高資源預測的準確率[5]。 陰江寧[6]等應用神經(jīng)網(wǎng)絡對化探數(shù)據(jù)進行金礦床規(guī)模和銅礦床類型的分類。 Navid Khajehzadeh[7]等應用X射線熒光光譜結合神經(jīng)網(wǎng)絡對赤鐵礦、 磁鐵礦、 石英和鐵礬礦進行識別。 目前, 尚未發(fā)現(xiàn)光譜分析結合神經(jīng)網(wǎng)絡, 應用于銅精礦產(chǎn)地識別的報道。
本課題組應用判別分析對X射線熒光光譜檢測的鐵礦石進行產(chǎn)地及品牌識別, 其模型對建模樣品, 交叉驗證和預測樣品的識別準確率分別為97.4%, 95.3%, 95.5%和100%, 97%, 100%, 顯示出XRF結合化學計量學在礦產(chǎn)品識別上的可行性, 但Fieher判別分析對于線性不可分的情況無法確定分類。 因此本文引入了一種反向傳播人工神經(jīng)網(wǎng)絡的機器學習算法, 可看作是Fisher線性判別的一種非線性多維推廣。 通過采集來自全國主要銅精礦進出口口岸的智利、 秘魯、 菲律賓、 西班牙、 納米比亞、 伊朗、 馬來西亞和阿爾巴尼亞8個國家280批進口銅精礦代表性樣品(見表1), 應用波長色散-X射線熒光光譜無標樣分析法共計檢出53種元素, 選擇17種元素含量用于判別分析與BP神經(jīng)網(wǎng)絡建模, 對比了這兩種方法對銅精礦產(chǎn)地識別的適用性, 討論不同國別銅精礦的化學成分差異, 通過建模樣品驗證、 交叉驗證以及預測樣品驗證, 可確證模型的準確性和適用性。
根據(jù)SN/T 4111—2015《進口銅礦石取樣和制樣方法》, 從我國主要的銅精礦進口口岸采集并制備來自8個國家的進口銅精礦化學分析樣品, 共280批次樣品。 采集的樣品容量大, 分布地域廣, 具有一定的獨立性和代表性, 包含了我國進口銅精礦主要來源國。 樣品信息如表1所示, 所在地理位置如圖1所示。
表1 銅精礦樣品信息
圖1 銅精礦國別分布圖
將樣品分裝到干燥瓶中于105 ℃下烘干4 h。 采用壓片機對烘干樣品進行壓片, 壓片前用乙醇清洗模具, 使用聚乙烯環(huán)將粉末樣品聚攏, 壓制樣品在30 t壓力下維持30 s。 檢查壓制樣品表面均勻且無裂紋、 脫落現(xiàn)象, 測量前用洗耳球吹凈樣品表面。
使用德國布魯克公司S8 Tiger波長色散-X射線熒光光譜儀中的無標樣分析方法檢測銅精礦中的元素含量。 無標樣分析也稱半定量分析, WDXRF譜儀半定量分析方法最大的特點是快速。 檢測中使用銠靶光管、 三個分析儀晶體(XS-55, PET, LiF200)、 流氣計數(shù)器(FC)、 閃爍計數(shù)器(SC)等元件。
1.3.1 逐步判別-費歇爾判別分析
逐步判別分析屬于有監(jiān)督的分類方式, 先對已知的樣品進行分類來建立模型, 再對未知樣品進行預測分類。 在逐步判別分析中通過費歇爾分數(shù)(F-score)算法[9]進行變量評估和特征選擇, 其本質是選取類內(nèi)差異小, 類間差異大的特征。 具體描述如給定訓練樣本集Xk∈Rm,K=1, 2, …,n, 其中正類和負類的樣本數(shù)分別為n+和n-, 則訓練樣本第i個特征的F-score值定義為
(1)
Fisher判別分析的基本原理是投影, 將高維數(shù)據(jù)投影到某個方向, 使組與組之間區(qū)別最大, 組內(nèi)區(qū)別最小, 采用方差分析的思想建立判別函數(shù), 因此只要計算出每個樣品在典型變量維度上的具體坐標位置, 再比較它們分別離各類中心的距離, 就可得知它們的分類結果[11]。
本文分析來自我國主要銅精礦進口口岸的8個國別280個銅精礦樣品, 應用SPSS 23.0軟件建立判別分析模型, 建模過程中選取226個樣品作為訓練集, 54個預測樣品用于檢驗模型的準確性。 訓練樣品及預測樣品的選取如表1所示。 建立銅精礦產(chǎn)地溯源模型, 首先采用逐步判別分析對O, Mg, Al, Si, P, S, K, Ca, Ti, Fe, Cu, Zn, Mn, As, Mo, Ag和Pb共17個元素進行變量篩選, 變量能否進入模型主要取決于協(xié)方差的F檢驗的顯著性水平, 當F-score大于指定值時保留該變量, 而F-score小于指定值時, 該變量從模型中剔除。 選取合適的F-score可用最少的變量達到最佳判別效果。 本文選取的F-score為3.84, 經(jīng)過逐步判別分析, O, Mg, Al, Si, P, S, K, Ca, Cu, Zn, Mo, Ag, Pb共13個元素留在模型中用于建立判別函數(shù), Ti, Fe, Mn, As因未通過F檢驗(F值<3.84)而從模型中剔除, 因此可用13個元素建立Fisher判別分析模型。
1.3.2 反向傳播人工神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡簡稱神經(jīng)網(wǎng)絡, 是一種基于連接學說構造的智能仿生模型, 由大量神經(jīng)元組成的非線性大規(guī)模自適應動力系統(tǒng)[12]。 目前, 應用最廣泛的是反向傳播人工神經(jīng)網(wǎng)絡(back propagation artificial neutal networks, BP-ANN), 屬于有監(jiān)督的學習方式, 包括了輸入層, 隱含層和輸出層[13]。 神經(jīng)網(wǎng)絡拓撲圖如圖2所示。
圖2 神經(jīng)網(wǎng)絡拓撲圖
利用MATLAB R2018a軟件平臺中的神經(jīng)網(wǎng)絡模式識別工具箱對銅精礦進行分類分析, 在神經(jīng)網(wǎng)絡模式識別進行數(shù)據(jù)分析前, 將8個國家共280份樣品按8: 2的比例分為兩部分: 226個建模集和54個預測集。 在建模的過程中, 為確保模型的隨機性, 226個樣品由計算機按比例自動隨機抽取訓練集, 校正集與驗證集分別為: 70%(138個樣品)、 15%(34個樣品)、 15%(34個樣品), 建立模型, 再利用建立的模型對54份預測樣品進行識別。
將X射線熒光光譜測得的O, Mg, Al, Si, P, S, K, Ca, Ti, Fe, Cu, Zn, Mn, As, Mo, Ag和Pb共17種元素含量建立銅精礦識別模型。 由于神經(jīng)網(wǎng)絡模型中的輸入層對輸出層的結果起決定性作用, 因此考慮將通過逐步判別分析F值篩選的O, Mg, Al, Si, P, S, K, Ca, Cu, Zn, Mo, Ag和Pb共13種元素含量作為輸入層建立另一個銅精礦識別模型。 8個不同國別作為輸出層, 建立了兩個具有10個隱藏層的三層人工神經(jīng)網(wǎng)絡, 即輸入層-隱藏層-輸出層分別為: 17-10-8, 13-10-8。
全球銅礦山主要集中分布在北美科迪勒拉銅礦帶、 南美安第斯銅礦帶、 地中海銅礦帶、 岡底斯銅礦帶、 西亞銅礦成礦帶等銅礦帶上。 世界銅礦類型較多, 主要有斑巖型, 砂頁巖型、 矽卡巖型、 火山成因塊狀硫化物(VMS)等[8]。
斑巖型銅礦是一類與淺成, 超淺成中酸性侵入體(斑巖)有關的規(guī)模大, 品位低的銅礦床。 集中于環(huán)太平洋成礦域、 古特提斯成礦域和古亞洲成礦域。 斑巖型銅礦是目前世界上最主要的銅礦類型, 占世界銅礦資源和產(chǎn)量的一半以上, 如智利(33-42Ma)、 秘魯(10-20Ma)和菲律賓等國的80%~90%的銅資源來自斑巖型銅礦。 大型的矽卡巖型銅礦通常與斑巖銅礦伴生, 如秘魯?shù)陌菜准{是主要的矽卡巖型銅礦, 與斑巖侵入系統(tǒng)伴生。 火山成因塊狀硫化物型銅礦礦床(VMS)是指與海底火山作用有一定聯(lián)系的含大量黃鐵礦和一定數(shù)量銅, 鉛, 鋅的礦床。 如西班牙的里奧延托(銅450×104t, 銅品位0.9%)。 因此位于同一成礦域不同產(chǎn)地的銅精礦具有相同的成礦類型, 使不同產(chǎn)地的銅精礦識別難度增加。
本文收集8個國別的銅精礦樣品中除西班牙成礦類型為VMS型, 其余7個國別的銅精礦的成礦類型均含有斑巖型銅礦, 建立識別模型有一定的難度。
采用波長色散-X射線熒光光譜無標樣分析方法對收集的280份已知產(chǎn)地國的銅精礦樣品進行檢測, 結果表明, 收集銅精礦樣品共計能檢出53種元素。 這些元素在280個樣品中的檢出情況為: 100%檢出的元素有O, Al, Si, S, Fe和Cu, 檢出數(shù)量大于85%以上的元素有Mg, Ca, K, Mn, Zn, Ti, Mo, Pb, As和P, 檢出比例分別為: 99.29%, 99.29%, 98.93%, 98.57%, 98.57%, 96.07%, 95.36%, 92.50%, 87.50%和87.14%, 檢出數(shù)量比例低于85%的元素有Ni, Sr, Ag, Se, Er, Cr, Zr, Na, Cl, Bi, V, Sb, Ba, Rb, Cd, Gd, W, Co, Ho, Ce, Sn, Hf, F, Hg, Br, Ga, Nb, Rh, Ir, La, Tl, Sc, Ge, Lu, Te, Eu和Y, 檢出比例分別為: 79.64%, 77.86%, 77.50%, 76.43%, 76.43%, 68.57%, 64.29%, 60.71%, 60.71%, 39.29%, 31.79%, 26.43%, 24.64%, 23.57%, 14.29%, 13.57%, 9.64%, 7.86%, 7.14%, 7.14%, 4.29%, 2.50%, 2.14%, 1.43%, 1.07%, 1.07%, 1.07%, 0.71%, 0.71%, 0.71%, 0.36%, 0.36%, 0.36%, 0.36%, 0.36%, 0.36%和0.36%。 建立銅精礦產(chǎn)地識別模型, 考慮到實際應用, 應選擇銅精礦樣品中檢出比例盡量高的元素, 因此選擇280個銅精礦樣品中檢出比例大于85%以上的O, Mg, Al, Si, P, S, K, Ca, Ti, Fe, Cu, Zn, Mn, As, Mo和Pb共16種元素含量作為特征變量, Ag雖檢出比例為77.50%, 但確是銅精礦檢測合同規(guī)格中的必檢元素之一, 因此也一并提取, 以上17種元素含量, 如涉及到未檢出, 均用檢出限含量進行代替。
圖3 銅精礦樣本的元素均值含量條形圖
由圖3中17種元素8個國別銅精礦含量的均值對比分析表明: 阿爾巴尼亞中的Fe和S含量分別比伊朗的高了約3倍和5.3倍。 菲律賓中的O和Si含量分別比納米比亞的高了約4倍和13倍, 菲律賓As含量高于其余7個國家, Ti含量僅次于伊朗。 馬來西亞中的Cu含量僅次于納米比亞, Mg和Ca含量均高于其余7個國別。 馬來西亞的K和Ti含量均低于伊朗。 秘魯中的Mo含量比其余7個國別的含量要高出10~100個百分點。 納米比亞Fe, Cu和S含量均高于其他7個國家的含量, O, Si, Al, Zn, K和As相對其他國家含量偏低。 西班牙Zn和Pb, 含量均比其余國家的含量高出100~1 000的百分點。 伊朗O, Al, K, Mo, P和Ti, 含量均比其余國家要高, 且O和Al在納米比亞中相對于其他國別而言含量最低。
綜合以上元素分析, 阿爾巴尼亞中的Fe和S含量較高, Cu和Ca含量較低; 菲律賓中的O, Si, As和Ti, 含量較高, Cu含量較低; 馬來西亞中的Cu, Mg和Ca含量較高; 納米比亞中的Fe, Cu, S和Al含量較高, O, Si, Zn, K和As, 含量較低; 西班牙中的Zn和Pb, 秘魯中的Mo, 均高于其余7個國別, 智利銅精礦檢測的含量用肉眼很難與其他國家進行比較。 不同國別間的元素含量不同, 對判別分析模型的貢獻度不同, 因此后文對這17種元素采用了費歇爾分數(shù)對變量進行篩選。
針對不同進口國別銅精礦建立產(chǎn)地溯源模型, 用O, Mg, Al, Si, P, S, K, Ca, Cu, Zn, Mo, Ag和Pb共13個元素建立Fisher判別分析模型, 得到7個判別函數(shù)和相應的組質心處的函數(shù)。 取前兩個判別函數(shù)和組質心處的函數(shù)作圖如圖4所示。
F1=0.069X1+0.251X2-0.213X3-0.045X4-18.201X5+0.033X6-1.529X7-0.033X8+0.138X9+0.001X10+4.499X11-13.889 5X12+2.686X13-3.625
F2=-0.047X1+0.536X2-0.327X3-0.045X4-6.618X5-0.1X6+1.494X7+0.011X8+0.16X9+0.464X10+2.196X11+73.322X12-3.636X13-4.144
F3=0.105X1+0.205X2-0.509X3-0.273X4+13.51X5-0.063X6+3.058X7+0.011X8+0.154X9+0.371X10-0.513X11-40.253X12+2.393X13-4.342
F4=0.056X1-0.012X2+0.111X3+0.14X4-1.643X5-0.096X6-1.048X7-0.161X8-0.03X9+0.626X10+4.268X11+9.56X12+0.659X13-0.668
F5=-0.203X1+0.289X2+0.165X3+0.095X4+4.196X5-0.018X6+0.412X7-0.156X8-0.059X9+0.417X10+4.484X11-25.523X12-0.261X13+3.121
F6=0.237X1-0.117X2-0.736X3-0.255X4+2.821X5+0.144X6+1.591X7+0.139X8-0.131X9+0.364X10+1.444X11+12.061X12-1.055X13-1.539
F7=-0.155X1+0.243X2-0.174X3+0.25X4+28.721X5-0.008X6-1.632X7-0.004X8+0.24X9+0.148X10-2.185X11-15.951X12+0.203X13+0.338
式中,X1—X13分別代表O, Mg, Al, Si, S, P, K, Ca, Cu, Zn, Mo, Ag和Pb含量。
用判別函數(shù)1和判別函數(shù)2的判別得分作散點圖(圖4), 判別函數(shù)1得分為橫坐標, 判別函數(shù)2得分為縱坐標, 可以看出模型中的伊朗, 西班牙, 菲律賓, 阿爾巴尼亞質心間的距離較遠, 馬來西亞和秘魯, 智利和納米比亞質心間的距離較近, 在對智利的銅精礦識別中有少數(shù)樣品落在離納米比亞, 馬來西亞和秘魯質心更接近的位置。 其原因可能是由于此次分析的樣品均為斑巖型銅礦, 成礦類型較為相似, 且智利銅礦的元素特征較不明顯, 故被判到其他國別的可能性增加。 用于建模樣品的準確率達94.2%, 交叉驗證準確率達92.8%, 預測樣品準確率達96.7%。 說明此模型可以對銅精礦有較好的識別, 具體的分類結果如表2所示。
圖4 判別函數(shù)散點圖
表2 銅精礦建模的分類結果
利用神經(jīng)網(wǎng)絡模式識別建立銅精礦產(chǎn)地識別模型, 模型結構為17-10-8和模型結構為13-10-8的226份樣品的訓練集, 校正集, 驗證集以及建模樣品識別準確率分別為100%, 97.1%, 94.1%, 98.2%與100%, 97.1%, 100%, 99.6%, 且兩個模型均對54份預測樣品100%識別正確; 具體的分類結果如表2所示。
從兩次神經(jīng)網(wǎng)絡模式識別的具體分類結果來看, 輸入層為17時, 校正集中一個為智利的樣品被識別為秘魯, 驗證集中有一個智利的樣本被識別為西班牙。 在地理位置上智利和秘魯接壤, 且均位于南美洲的南美安第斯斑巖銅礦成礦帶, 本次檢測的樣品可能是來自同一礦脈下的樣品, 礦石元素含量相近, 所以出現(xiàn)識別錯誤的情況。 輸入層為13時, 校正集中一個為菲律賓的樣品被識別為智利。 菲律賓位于環(huán)太平洋的東亞成礦帶, 智利位于南美安第斯成礦帶, 兩者雖在礦帶之間沒有聯(lián)系, 但本次檢測的樣品可能均為斑巖型銅礦, 礦石成因相似, 元素含量相近, 因此識別錯誤。
對比3次建模的結果如表2, 3次建模的結果均高于90%以上, 可知對這8個國別的銅精礦樣品的識別效果很好。 對比神經(jīng)網(wǎng)絡模式識別與Fisher-判別分析, 發(fā)現(xiàn)神經(jīng)網(wǎng)絡模式識別比Fisher-判別分析具有更高的識別準確度, 其原因在于神經(jīng)網(wǎng)絡可以逼近任何連續(xù)的非線性曲線, 具有自適應性, 自組織性, 容錯性的優(yōu)點, 相比Fisher-判別分析體現(xiàn)出更佳的識別率。 比較兩個輸入變量不同的神經(jīng)網(wǎng)絡模型的結果可知, 經(jīng)過F值篩選元素后的準確率更高一些, 其原因可能是因為F值的篩選能減少特征變量個數(shù), 選擇差異大的信號特征, 從而提高識別率。
利用波長色散-X射線熒光光譜無標樣分析法測定8個國家280份銅精礦樣品的元素含量, 選擇226個樣品作為訓練樣本, 54個樣品作為預測樣本, 建立不同國別的分類模型。 比較三次模型的結果, 兩次神經(jīng)網(wǎng)絡模式識別的結果都要優(yōu)于逐步-Fisher判別分析的結果, 從算法上來看, 機器學習神經(jīng)網(wǎng)絡的非線性判別要優(yōu)于Fisher的線性判別。 兩次神經(jīng)網(wǎng)絡模式識別的結果都很好, 由于逐步分析具有特征提取的作用, 因此建議采用F-score篩選出O, Mg, Al, Si, P, S, K, Ca, Cu, Zn, Mo, Ag和Pb共13種元素含量作為特征變量, 減少變量個數(shù), 建立對銅精礦國別的產(chǎn)地溯源模型。 該模型為不同國別銅精礦元素含量提供了基礎數(shù)據(jù)與理論依據(jù), 通過X射線熒光光譜無標樣分析測定銅精礦樣品的13種元素含量建立神經(jīng)網(wǎng)絡模式識別模型, 可以快速識別銅精礦國別。 模型識別準確率與模型樣品的產(chǎn)地及建模樣品數(shù)量存在很大關系, 隨著后續(xù)收集樣品數(shù)量增加, 模型的穩(wěn)定性將得到進一步的提升。 當然, 無標樣分析方法畢竟是一種半定量分析方法, 定量分析方法的應用必將進一步提升產(chǎn)地識別模型的普適性。