鮑珮瑾,陳全莉, 3*,趙安迪,任躍男
1.中國地質(zhì)大學(xué)(武漢)珠寶學(xué)院,湖北 武漢 430074 2.國檢珠寶培訓(xùn)中心,北京 102627 3.滇西應(yīng)用技術(shù)大學(xué)珠寶學(xué)院,云南 大理 671000
近年來寶石產(chǎn)地溯源的研究越來越重要,由于價(jià)格和市場需求的影響,越來越多的方法被運(yùn)用在寶石的產(chǎn)地溯源上。軟玉中目前價(jià)值相對較高的是產(chǎn)自于新疆昆侖山和阿爾金山地區(qū)的軟玉,該產(chǎn)地所產(chǎn)的軟玉結(jié)構(gòu)細(xì)膩、質(zhì)地溫潤、質(zhì)量較高,而由于產(chǎn)地效應(yīng)而在價(jià)格上略占優(yōu)勢的哥倫比亞祖母綠、緬甸紅寶石、克什米爾藍(lán)寶石等都是主要的受益者。所以軟玉也具有產(chǎn)地效應(yīng),在此情況下,對軟玉進(jìn)行產(chǎn)地溯源就顯得尤為重要。
目前寶石的產(chǎn)地溯源所使用的方法大致可分為以下幾種:(1)從內(nèi)外部特征上區(qū)分。例如緬甸紅寶石的“鴿血紅”、“糖漿狀”顏色特點(diǎn),克什米爾藍(lán)寶石的“矢車菊”濃重藍(lán)色、哥倫比亞祖母綠的三相包體等[1];(2)從特殊光學(xué)效應(yīng)上區(qū)分,這個(gè)適用于那些具有特殊光學(xué)效應(yīng)的寶石,如變石。不同產(chǎn)地變石的變色效應(yīng)有差別,如斯里蘭卡變石在日光下偏黃綠色,在燭光下顯棕或橙色調(diào),而巴西變石在日光下偏藍(lán)綠色,在燭光下為偏紫的紅色[2];(3)從化學(xué)元素上區(qū)分,不同產(chǎn)地的寶石因其形成原因不同,所含有的化學(xué)元素種類和含量也有一定差別。一般來說,由于是同種寶石,所以主要化學(xué)元素上差別不大,若要進(jìn)行產(chǎn)地區(qū)分,從元素和同位素上入手可有較好效果[3-4]。
隨著計(jì)算機(jī)和多元統(tǒng)計(jì)方法的發(fā)展,數(shù)理模型越來越多地被應(yīng)用在更廣泛的學(xué)科上。傳統(tǒng)的利用元素含量進(jìn)行寶石產(chǎn)地溯源的方法是二維或三維投點(diǎn)圖[3-5],但所用的微量元素往往傾向于高維,若進(jìn)行降維,可能會(huì)損失很多必要的分類信息。人工神經(jīng)網(wǎng)絡(luò)又稱為深度學(xué)習(xí),它能夠使計(jì)算機(jī)通過層次概念來學(xué)習(xí)經(jīng)驗(yàn)和理解世界。屬于機(jī)器學(xué)習(xí)的一種[6]。
本研究旨在利用激光誘導(dǎo)擊穿光譜儀結(jié)合人工神經(jīng)網(wǎng)絡(luò)技術(shù),通過自主學(xué)習(xí)的模型達(dá)到利用數(shù)據(jù)中盡可能多的信息來對青白色軟玉進(jìn)行產(chǎn)地鑒別,也是光譜技術(shù)結(jié)合人工神經(jīng)網(wǎng)絡(luò)在寶石溯源方面的一次嘗試。
選取以下六個(gè)產(chǎn)地——新疆、廣西大化、江蘇小梅嶺、青海、韓國和俄羅斯的樣品。其中新疆樣品18塊、廣西大化7塊、青海20塊、韓國9塊、俄羅斯15塊、江蘇小梅嶺1塊,每個(gè)樣品的表面為輕微拋光的平面,之后選擇相對均勻干凈的區(qū)域測試五個(gè)點(diǎn),因江蘇小梅山的樣品太少,為使得不同產(chǎn)地間數(shù)據(jù)樣本大致相同,在其上測試五十個(gè)點(diǎn)。綜上,新疆樣品采集的光譜數(shù)據(jù)共90個(gè),廣西大化樣品共35個(gè),江蘇小梅嶺樣品共50個(gè),青海樣品共100個(gè),韓國樣品共45個(gè),俄羅斯樣品共采集75個(gè)光譜數(shù)據(jù)。
圖1 軟玉樣品
所選用的儀器為中國地質(zhì)大學(xué)(武漢)珠寶學(xué)院自制的激光誘導(dǎo)擊穿光譜儀,主要由樣品臺(tái)、激光器、光譜儀和計(jì)算機(jī)四部分組成,分為激光光源、等離子體信號(hào)采集系統(tǒng)、分光系統(tǒng)和光電探測系統(tǒng)。波長為1 064 nm的Nd∶YAG脈沖激光器,脈沖寬度為20 ns,激光重復(fù)頻率1~20 Hz;4CCD光纖光譜儀(AvaSpec-2048FT-4-DT), 內(nèi)置延遲系統(tǒng),光譜分辨率為0.1 nm。儀器參數(shù)如表1所示。激光累積次數(shù)為20次、激光能量為70 mJ、采集延時(shí)為1.1 μs。
表1 LIBS儀器參數(shù)表
為消除基底效應(yīng)、激發(fā)光能量、收集效率等測量誤差和參數(shù)對實(shí)驗(yàn)數(shù)據(jù)的影響,一般需要對光譜進(jìn)行歸一化預(yù)處理。強(qiáng)度歸一化與面積歸一化都可以增強(qiáng)值的穩(wěn)定性,在此選用較為便捷的強(qiáng)度歸一化的處理方式。軟玉為硅酸鹽礦物,其中Si元素在樣品中穩(wěn)定出現(xiàn)且含量都為56%左右,可以此進(jìn)行峰值歸一化,選擇強(qiáng)度最大的Si的波長作為歸一化的數(shù)據(jù)。
圖2 軟玉LIBS光譜圖
軟玉樣品屬于硅酸鹽礦物,主要成分是透閃石-陽起石類質(zhì)同象系列礦物。其中鎂、鐵可呈完全類質(zhì)同象替代。在激光誘導(dǎo)擊穿光譜實(shí)驗(yàn)中,由于光譜儀的分辨率限制,有些相鄰譜線靠的太近無法分辨,測得的譜線很可能是很多譜線疊加在一起。根據(jù)王亞軍的選線原則,不同元素的選擇譜線分立、信噪比高、發(fā)射強(qiáng)度大、譜線輪廓清晰對稱的譜線;同種元素的則選擇強(qiáng)度大的譜線。
不同產(chǎn)地的樣品中不同元素的含量不同,有些元素幾乎在每一個(gè)產(chǎn)地的每一個(gè)樣品上都能都檢測到,但有些元素只有在少數(shù)幾個(gè)樣品上能夠檢測到,這對于數(shù)據(jù)分析非常不利。因此為了后期的數(shù)據(jù)分析,選擇相對穩(wěn)定的元素,即相同產(chǎn)地的每個(gè)樣品上幾乎都有的元素,剔除掉那些不確定因素,以排除干擾。本工作的樣品中出現(xiàn)的元素種類有稀土元素、過渡元素、造巖元素以及鐵族元素等,根據(jù)各類元素特點(diǎn)以及樣品所能檢測到的最終數(shù)據(jù)對元素進(jìn)行篩選。
在剔除掉過于少量的元素、不穩(wěn)定元素及非金屬元素之后,留下所需要的金屬元素種類,通過篩選最終選擇CeⅡ 413.80 nm,ErⅠ400.80 nm,HfⅡ 273.92 nm,MnⅡ 259.31 nm,NaⅠ 589.08 nm,TiⅡ 334.98 nm作為最終使用的數(shù)據(jù)樣本,部分?jǐn)?shù)據(jù)如表2所示。
表2 不同產(chǎn)地的軟玉LIBS數(shù)據(jù)
建立人工神經(jīng)網(wǎng)絡(luò)模型需要及其龐大的數(shù)據(jù),數(shù)據(jù)量越大,得出的效果就越好[6]。為了能對現(xiàn)有的少量數(shù)據(jù)進(jìn)行隨機(jī)排列組合以增加數(shù)據(jù)量,利用因子分析和線性回歸分析判斷不同元素之間是否存在相關(guān)性。
利用因子分析可得如下KMO和巴特利特檢驗(yàn)表。其中KMO值為0.514,小于0.6,表明變量間的相關(guān)性較低,因此可看做相互獨(dú)立的變量[7-9]。
表3 KMO和巴特利特檢驗(yàn)
以產(chǎn)地為因變量,利用線性回歸分析可得表4,每個(gè)變量的VIF值都小于5,表明這些變量之間不存在嚴(yán)格的多重共線性,與因子分析結(jié)論相符合,因此變量之間的信息幾乎不重疊[7-9]。
表4 線性回歸分析結(jié)果
在進(jìn)行深度學(xué)習(xí)的數(shù)據(jù)分析前,一般會(huì)進(jìn)行可視化,用以對數(shù)據(jù)進(jìn)行直觀了解。當(dāng)我們想要對高維數(shù)據(jù)進(jìn)行分類但是又不確定數(shù)據(jù)是否可分時(shí),先對數(shù)據(jù)進(jìn)行降維,把數(shù)據(jù)投到二維或三維空間中觀察,若在低維空間中是可分的,則數(shù)據(jù)可分。目前來說t-SNE是效果最好的數(shù)據(jù)降維和可視化方法,因?yàn)樗玫臄?shù)據(jù)有六個(gè)產(chǎn)地并且每個(gè)產(chǎn)地都有六個(gè)元素特征因此屬于高維數(shù)據(jù),僅用肉眼并不能觀察出數(shù)據(jù)是否可分,因此用t-SNE對所用數(shù)據(jù)進(jìn)行降維和可視化處理,得到圖3。
圖3 軟玉t-SNE圖
圖3顯示,經(jīng)過降維和可視化處理后的數(shù)據(jù)全都堆疊在一起,表明此數(shù)據(jù)進(jìn)行簡單聚類和相關(guān)分析是無法區(qū)分產(chǎn)地的。
鑒于以上結(jié)論,需要對數(shù)據(jù)進(jìn)行深度學(xué)習(xí)訓(xùn)練。由于這些數(shù)據(jù)均可做為相互獨(dú)立的數(shù)據(jù),所以可把每個(gè)產(chǎn)地的數(shù)據(jù)進(jìn)行排列組合,得到大化產(chǎn)地軟玉有166個(gè)數(shù)據(jù)組、新疆產(chǎn)地軟玉有406個(gè)數(shù)據(jù)組、江蘇小梅嶺產(chǎn)地軟玉有126個(gè)數(shù)據(jù)組、青海產(chǎn)地軟玉有276個(gè)數(shù)據(jù)組、俄羅斯產(chǎn)地軟玉有186個(gè)數(shù)據(jù)組,韓國有96個(gè)數(shù)據(jù)組。
為簡化訓(xùn)練過程,每個(gè)產(chǎn)地僅產(chǎn)生十萬個(gè)數(shù)據(jù)點(diǎn),然后隨機(jī)選取五分之四的數(shù)據(jù)作為訓(xùn)練集,剩下五分之一作為測試集。
把訓(xùn)練集的數(shù)據(jù)組輸入Keras模型中讓其進(jìn)行自主學(xué)習(xí)和結(jié)果收斂,如圖4所示構(gòu)建了一個(gè)三層的神經(jīng)網(wǎng)絡(luò)模型(輸入層一般不算一層神經(jīng)網(wǎng)絡(luò),圖中中間層就是隱含層,為兩個(gè)隱含層的神經(jīng)網(wǎng)絡(luò))。
圖4 三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
神經(jīng)網(wǎng)絡(luò)具體的參數(shù)為;第一層有128個(gè)神經(jīng)元,選取“relu”激活方式,dropout的比率為0.5,第二層也有128個(gè)神經(jīng)元,同樣選取“relu”激活方式,dropout的比率為0.5,第三層有6個(gè)神經(jīng)元(因?yàn)槭?個(gè)產(chǎn)地),采用“softmax”激活方式。
從六十萬個(gè)數(shù)據(jù)中隨機(jī)抽取五分之四作為訓(xùn)練集供神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),在經(jīng)過不停的迭代學(xué)習(xí)后,可以得到一個(gè)成型的神經(jīng)網(wǎng)絡(luò)模型。然后輸入測試集中的數(shù)據(jù)對模型進(jìn)行測試,所得到的結(jié)果為模型的正確率是93.84%,錯(cuò)誤率僅為0.198。此時(shí)的各個(gè)參數(shù)所對應(yīng)的模型為我們所需要的模型。
抽取預(yù)測集中六個(gè)產(chǎn)地的數(shù)據(jù)進(jìn)行測試,如表5所示,發(fā)現(xiàn)韓國的軟玉正確率最高,高達(dá)99%,而青海的最低只為80%。對此結(jié)果進(jìn)行分析,初步推斷對于測試的6個(gè)微量元素來說,青海的軟玉所含的微量元素含量與其他產(chǎn)地相比差別最小,而韓國與其他產(chǎn)地差別較大,因此分辨正確率較高。
表5 神經(jīng)網(wǎng)絡(luò)結(jié)論表
寶石的產(chǎn)地溯源是近些年來寶石行業(yè)及市場和消費(fèi)者最為關(guān)心的問題,傳統(tǒng)的鑒別方法不僅需要鑒定者多年的積累、無法普及而且耗時(shí)長、準(zhǔn)確性低。由于不同產(chǎn)地的同種寶石因?yàn)榈刭|(zhì)礦床的不同而具有不同的微量元素成分和含量,近些年有些學(xué)者利用不同元素的含量進(jìn)行二維或者三維投點(diǎn)圖的繪制,以期劃分出不同產(chǎn)地元素含量范圍。然而微量元素屬于高維數(shù)據(jù),降維勢必會(huì)造成數(shù)據(jù)信息的損失,人工神經(jīng)網(wǎng)絡(luò)能夠充分利用高維數(shù)據(jù)中的信息,建立自主學(xué)習(xí)的網(wǎng)絡(luò)模型,對未知產(chǎn)地的數(shù)據(jù)進(jìn)行產(chǎn)地的判別。本研究顯示,利用人工神經(jīng)網(wǎng)絡(luò)結(jié)合激光誘導(dǎo)擊穿光譜儀測試得到的元素?cái)?shù)據(jù)進(jìn)行青白色軟玉的產(chǎn)地溯源,正確率可以達(dá)到93.84%,錯(cuò)誤率僅為0.198,表明此方法在寶石產(chǎn)地溯源方面具有很大的潛力。