許 娜,黃 斌,李 強,朱 偉,王志瑋,汪 茹
(中國礦業(yè)大學(北京) 地球科學與測繪工程學院,北京 100083)
研究煤中元素的賦存狀態(tài)有助于準確評價有害元素對環(huán)境的影響,推斷煤中元素的賦存狀態(tài),為從煤和煤灰中回收關鍵金屬元素提供技術指導,從而提高煤的高效加工和利用效率;同時,可以幫助理解泥炭沉積和煤化作用過程,對煤中礦物質的富集成因解釋也有重要意義。然而,煤的物質組成來源和成煤過程復雜,導致煤中元素賦存狀態(tài)多樣,給賦存狀態(tài)的精準確定造成很大困難。
研究煤中元素賦存狀態(tài)的方法可分為直接方法和間接方法,直接方法主要包括光學顯微鏡、各種顯微探針方法(電子、離子和X射線探針)、掃描電鏡+能譜、透射電鏡+能譜、穆斯堡爾譜(價態(tài))、同步輻射X射線熒光和譜學方法(如X射線吸收精細結構譜方法)等;間接方法包括數(shù)理統(tǒng)計方法、浮沉試驗方法和化學方法(如逐級化學提取試驗方法)。常用的統(tǒng)計學方法有相關分析、聚類分析、因子分析和多元判別分析等,其中相關分析是基于灰分、常量元素質量分數(shù)與微量元素質量分數(shù)的相關性來判斷元素的賦存狀態(tài)(如計算煤的灰分與煤中元素質量分數(shù)之間的相關系數(shù)),但是該方法在判別煤中元素賦存狀態(tài)時有諸多問題,例如不同基準下(全煤基和灰基)煤中元素之間相關性有時表現(xiàn)不一致,據(jù)此推斷的賦存狀態(tài)有較大差異。由于煤中元素的質量分數(shù)是成分數(shù)據(jù),屬于非歐式空間,常用的數(shù)據(jù)轉換算法有非對稱對數(shù)比轉換方法、對稱對數(shù)比轉換方法、等距對數(shù)比轉換方法、樞軸坐標方法和加權對稱的樞軸坐標方法;數(shù)據(jù)點間距離的計算方法有歐式距離和皮爾遜相關系數(shù);層次聚類常用的算法有平均鏈接、全鏈接、單鏈接和質心鏈接,不同的層次聚類算法在判別煤中元素的賦存狀態(tài)時也會有諸多問題,例如不同的層次聚類算法可能會導致煤中元素賦存狀態(tài)的結果不同。一些學者也指出了上述存在的述問題,但是尚未找到根本的解決方法。隨著人工智能的出現(xiàn),尤其是機器學習的發(fā)展為上述問題的解決提供了可能。筆者討論上述問題存在的原因、機器學習解決上述的方案;同時,機器學習在煤中關鍵金屬和有害元素地球化學中研究中也表現(xiàn)出了良好的應用前景,筆者以機器學習算法預測了在運用四級桿電感耦合等離子體質譜方法測試煤中微量元素過程中鋇(Ba)對關鍵金屬元素銪(Eu)干擾的臨界值,以及確定了基于CART算法確定煤中放射性核素鈾對環(huán)境和人體健康輻射危害的安全閾值為例。
煤中元素質量分數(shù)的表達方法有2種基準,灰基(ash basis)和全煤基(whole coal basis)。灰基指高溫灰的基準(如815 ℃)。煤中元素的質量分數(shù)可以在全煤基和灰基之間實現(xiàn)互相轉換:[]=([]×灰分)。雖然煤中元素質量分數(shù)在2種基準下能夠實現(xiàn)互相轉換,但是當質譜分析并非通過煤的高溫灰化進行,2種不同基準下元素與灰分的相關系數(shù)可能會不一致,例如,內(nèi)蒙古大青山煤田阿刀亥煤中AlO質量分數(shù)和灰分的相關系數(shù)在全煤基準下為0.89,但在灰分基準下為-0.3。這2種基準下的相關性分析,雖然已經(jīng)被眾多煤地質學家所采用,然而2種基準下元素之間、元素和灰分之間的相關性不一致的問題給煤中元素賦存狀態(tài)和富集成因的解釋帶來困擾,甚至會得出錯誤的解釋。雖然之前的很多研究都對此問題進行了闡述,但尚未得到很好的解決。為了解決該問題,提出改進的非對稱對數(shù)比轉換方法。由于煤中元素含量是成分數(shù)據(jù),屬于非歐式空間,導致了不同基準(全煤基和灰基)下的煤中元素相關性不一致。
為解決不一致性的問題,需將成分數(shù)據(jù)從非歐式空間轉換至歐式空間,其中應用最廣泛的成分數(shù)據(jù)轉換方法有非對稱對數(shù)比轉換方法(alr)、對稱對數(shù)比轉換方法(clr)和等距對數(shù)比轉換方法(ilr)。
(1)非對稱對數(shù)比轉換方法(alr)的表達式為
(1)
其中,為一個樣本中元素的數(shù)量;為第個元素的質量分數(shù);為任意元素的質量分數(shù),其中的選擇具有很強的主觀性,需要根據(jù)實際情況選擇。為了消除這種主觀性,對稱對數(shù)比轉換方法和等距對數(shù)比轉換方法被提出。
(2)對稱對數(shù)比轉換方法(clr)是在alr轉換方法的基礎上提出的,其分母用幾何平均值來表示,表達式為
(2)
(3)等距對數(shù)比轉換方法(ilr)是根據(jù)成分數(shù)據(jù)的幾何結構提出的轉換方法,其核心是用標準正交基定義新數(shù)據(jù),表達式為
(3)
筆者提出改進的非對稱對數(shù)比轉換方法(ialr)是將alr轉換方法中的用比其他元素更加穩(wěn)定的常量元素Al和微量元素Zr替代,煤中常量元素的轉換表達式為
(4)
煤中微量元素的轉換表達式為
(5)
以內(nèi)蒙古大青山煤田大炭豪煤礦和阿刀亥煤礦晚古生代主采煤層的樣品(共106個)為例,對該算法進行了性能驗證,結果如圖1,2所示。
改進的非對稱對數(shù)比變換模型比常用的非對稱對數(shù)比變換、中心化對數(shù)比變換、等距對數(shù)比變換以及穩(wěn)定性在煤中元素賦存狀態(tài)的預測結果方面更為準確,尤其是在稀土元素(REE)、常量元素(Ca,Mg,Mn和Fe)、微量元素(Sr和Ba,Nb和Ta)、Cd和Zn元素的聚合性能更好,有效解決了煤和煤灰不同基準下元素之間、元素和灰分之間相關性不一致的問題。
運用傳統(tǒng)的數(shù)理統(tǒng)計方法(如計算煤灰分與煤中元素質量分數(shù)之間的相關性)所推斷煤中元素賦存狀態(tài),幾乎都是采用全部樣本一并進行統(tǒng)計,從而得出單個相關系數(shù)。但是,煤中灰分變化范圍寬(1%~50%),很多元素在不同灰分的煤中的賦存狀態(tài)變化很大,其賦存載體不一,因此眾多樣本一并統(tǒng)計,可能會出現(xiàn)賦存狀態(tài)推斷的偏差。同時,不同灰分的煤中元素特定的賦存狀態(tài),可能指示其物質來源或保存環(huán)境。因此,根據(jù)煤中灰分的動態(tài)變化來推斷元素的賦存狀態(tài),可以避免因為灰分變化范圍大而造成賦存狀態(tài)推斷的偏差,同時還可以提供元素來源和富集保存的有用信息。
(6)
圖1 大炭豪煤礦煤炭元素的聚類分析Fig.1 Cluster analysis for coal element data from the Datanhao Mine
圖2 阿刀亥煤礦煤炭元素的聚類分析Fig.2 Cluster analysis for coal element data from the Adaohai Mine
(7)
以內(nèi)蒙古哈爾烏素露天礦晚古生代主采煤層為例,應用兩段式聚類算法判別出煤中元素不同來源的臨界點為9%,如圖3所示。其中,該樣本組被選擇的原因是:① 煤中含有相對簡單的礦物組合,以高嶺石和勃姆石為主,含有少量的方解石、黃鐵礦和石英;相對簡單的礦物組合為精準確定煤中元素的賦存狀態(tài)提供了可能;② 礦物來源單一,主要礦物高嶺石和勃姆石主要以碎屑或溶液形式來源于蝕源區(qū);③ 通過直接方法,如X射線衍射分析、帶能譜儀的掃描電子顯微鏡和光學顯微鏡對礦物進行賦存狀態(tài)研究并進行了交叉驗證,確定了煤中大部分元素的賦存狀態(tài);④ 用X射線熒光光譜和電感耦合等離子體質譜測定了煤中常量元素和微量元素的含量,其結果與礦物學結果一致,表明了地球化學分析和礦物學分析的可靠性;⑤ 該煤的灰分范圍大(3.66%~46.56%),為不同灰分下的煤中元素賦存狀態(tài)的漸變分析提供了可能。
圖3 部分元素與灰分相關系數(shù)[25]Fig.3 Correlation coefficient of some elements and ash yield[25]
通過研究分析發(fā)現(xiàn):① 以煤灰分9%為臨界點劃分的高灰分和低灰分煤中元素的賦存狀態(tài)差異明顯;低灰分煤中大部分元素以有機態(tài)為主,高灰分煤中相應的元素以礦物態(tài)為主。② 以煤灰分9%為臨界點,低灰分煤中的元素主要來源是成煤植物本身和沉積環(huán)境,高灰分煤中元素的主要來源為蝕源區(qū)(陰山古陸以及盆地北緣隆起的風化殼鋁土礦)。
層次聚類算法是機器學習最常用的方法之一,應用不同的層次聚類算法會顯示不同的煤中元素的組合。為分析不同層次聚類算法的有效性,筆者對煤中元素的層次聚類算法的有效性進行了對比分析。
轉換算法有樞軸坐標(Pivot Coordinates,PC)和加權對稱的樞軸坐標(Weighted Symmetric Pivot Coordinates,WSPC)。4種常見的層次聚類算法有平均鏈接(Average-Linkage)、全鏈接(Complete-Linkage)、單鏈接(Single-Linkage)和質心鏈接(Centroid-Linkage)。數(shù)據(jù)點間距離計算方法有歐式距離(Euclidean distance)和基于皮爾遜相關系數(shù)的距離。根據(jù)轉換算法、簇間距離和數(shù)據(jù)點之間距離計算方法的不同,可以組合得出不同的層次聚類算法(表1)。
等距對數(shù)比坐標(isometric log-ratio coordinates,olr)可以將數(shù)據(jù)從單純形空間映射到歐幾里德空間。對olr坐標的一種特殊的基準選擇產(chǎn)生了樞軸坐標(PC),其定義如下:
(8)
式中,含義同,表示枚舉;為的范圍上限。
表1 不同組合的層次聚類算法
(9)
(10)
以研究程度較高的內(nèi)蒙古大青山煤田大炭豪礦和阿刀亥礦的晚石炭世煤中元素為例,驗證不同的層次聚類算法對元素進行聚類并由此進行賦存狀態(tài)分析。可以得出:
(1)在對原始數(shù)據(jù)、樞軸坐標轉換后的數(shù)據(jù)和加權對稱樞軸坐標轉換后的數(shù)據(jù)的層次聚類分析中,相關性距離都要比歐氏距離好,如圖4,5所示。
(2)對于使用相關性距離的層次聚類結果,加權對稱的樞軸坐標轉換比樞軸坐標轉換略好,且比原始數(shù)據(jù)轉換要好,如圖5~7所示。
圖4 使用歐式距離對阿刀亥礦數(shù)據(jù)(樞軸坐標)的聚類結果Fig.4 Clustering result of Adaohai data (pivot coordinates)with Euclidean distance
圖5 使用Pearson相關對阿刀亥礦數(shù)據(jù)(樞軸坐標)進行聚類Fig.5 Clustering result of Adaohai data (pivot coordinates) with Pearson correlation
圖6 用Pearson相關對阿刀亥礦數(shù)據(jù)(加權對稱坐標) 進行聚類Fig.6 Clustering result of Adaohai data (WSPC) with Pearson correlation
(3)單鏈接、全鏈接、平均鏈接和質心鏈接的4種常見的分層聚類算法具有相近的聚類性能,但是平均鏈接算法的效果相對要好,因為它可以更好地揭示元素的地球化學特征,如圖4~7所示。結果表明,在基于原始數(shù)據(jù)和轉換后數(shù)據(jù)的聚類分析中,基于皮爾遜相關系數(shù)的距離度量都要比歐幾里德距離好。一般來說,基于樞軸坐標進行轉換后的數(shù)據(jù)優(yōu)于原始數(shù)據(jù),而加權對稱的樞軸坐標又優(yōu)于樞軸坐標。
機器學習在解決上述傳統(tǒng)數(shù)理統(tǒng)計方法展現(xiàn)出了明顯的優(yōu)勢,同時,機器學習在煤中關鍵金屬和有害元素地球化學中研究中也表現(xiàn)出了良好的應用前景,以煤中稀土元素的檢測和煤中鈾的危害為例進行討論。
Eu測定過程中Ba的干擾
Eu是煤中最重要的稀土元素之一,不僅經(jīng)濟價值高,而且根據(jù)煤中Eu的異常,可以判定煤中礦物質的來源和煤層所經(jīng)受的地質作用,由此可以提供區(qū)域地質歷史演化的煤地球化學方面的信息。檢測煤和煤燃燒產(chǎn)物中的稀土元素(包括Eu)的試驗方法包括X射線熒光光譜、儀器中子活化分析、電感耦合等離子體質譜和激光誘導擊穿光譜。在這些試驗方法中,四級桿電感耦合等離子體質譜(ICP-MS)已經(jīng)被廣泛用于煤中稀土元素和其他微量元素的測試。然而,四級桿ICP-MS測定煤和煤灰樣品中稀土元素Eu的質量分數(shù)經(jīng)常受到Ba的氧化物和氫氧化物等干擾,導致Eu的測定結果可能偏高,進而會導致煤中稀土元素開發(fā)利用評估以及煤中礦物質來源推斷的偏差。判斷ICP-MS檢測過程中Eu質量分數(shù)是否受到Ba的干擾以及干擾程度是困擾煤地球化學家的難題之一,而實驗室內(nèi)去除Ba從而避免Ba對Eu干擾的方法復雜、耗時長,因此Ba對Eu干擾閾值對精準評估煤中稀土元素的質量分數(shù),以及根據(jù)Eu的異常判定煤中元素的來源具有重要的理論和現(xiàn)實意義。YAN等提出利用陽離子交換樹脂方法分離Ba和Eu,從而避免Ba對煤、煤燃燒產(chǎn)物和沉積巖中的Eu的干擾。YAN等和LOGES等在進行Ba和Eu質量分數(shù)、Ba/Eu質量分數(shù)比、Ba對Eu干擾的試驗數(shù)據(jù)分析基礎上,發(fā)現(xiàn)當樣品中的Ba/Eu質量分數(shù)比大于1 000時,如果不進行Ba和Eu的分離,樣品中的Ba會對Eu的測試結果造成影響,從而會導致樣品中Eu的測試結果出現(xiàn)錯誤。
圖7 用Pearson相關對阿刀亥礦數(shù)據(jù)進行聚類Fig.7 Clustering result of Adaohai data with Pearson correlation
機器學習算法預測Ba對關鍵金屬元素Eu干擾的臨界值
由于Ba對Eu干擾的臨界值1 000是根據(jù)經(jīng)驗得出的估計值,為了準確實現(xiàn)Ba對Eu干擾的臨界值,XU等應用機器學習算法預測Ba對Eu干擾的臨界值。通過分析Ba,Eu,Ba/Eu和目標變量Ba對Eu的干擾,筆者發(fā)現(xiàn)它們之間的關系是復雜且非線性的,應用線性回歸的方法構建預測模型會有困難,因此采用樹回歸的方法構建預測模型。Ba對Eu干擾臨界值的預測模型構建過程如下:
(1)構建Ba,Eu,Ba/Eu和Ba對Eu的干擾臨界值的訓練數(shù)據(jù)集,并分析特征。
(11)
式中,為一個算法運算過程中計算得到的量,且隨著算法的進行會更新;,為被劃分出來的相關量的數(shù)量。
(3)性能分析。128個煤樣品(包括內(nèi)蒙古、云南臨滄、云南鎮(zhèn)雄縣熱水河)被用于驗證該閾值的準確性并進行比較,發(fā)現(xiàn)預測閾值363比Ba對Eu的干擾經(jīng)驗閾值1 000更為準確。
煤炭中的放射性核素在燃燒后會在煤灰中發(fā)生富集。當含有放射性核素鈾(U)、釷(Th)及其衰變子元素的煤在燃燒后產(chǎn)生的煤灰被用于建筑材料中時,會對人體產(chǎn)生危害。根據(jù)聯(lián)合國原子輻射效應科學委員會報告,評價室內(nèi)放射性核素對人體的影響的指標是鐳當量濃度(Ra)。
(Ra)=(Ra)+143(Th)+0077(K)
(12)
其中,(Ra),(Th),(K)為對應的3種放射性核素的放射性活度,Bq/kg。當Ra當量濃度超過370 Bq/kg時,建筑材料中所含有的U和Th及其衰變產(chǎn)生的放射性核素所散發(fā)出的伽馬射線會對室內(nèi)的居民產(chǎn)生潛在的健康風險。
在評估對人體危害程度的研究中,LAUER等收集了中國的8個富鈾煤礦的相關煤樣數(shù)據(jù),計算得出當原煤中鈾的質量分數(shù)超過10 mg/kg時,其燃燒產(chǎn)生的煤灰被用作建筑材料時會對居民身體健康產(chǎn)生影響,但是由于其研究所用煤樣本少,得出的結果精確度不高,不具有代表性。
獲得U在原煤中的質量分數(shù)閾值后,經(jīng)分析得出東北地區(qū),只有內(nèi)蒙古自治區(qū)烏蘭圖加煤田的U質量分數(shù)超過閾值。西藏滇西地區(qū)臨滄煤田的U平均質量分數(shù)為59.01 mg/kg,西藏滇西地區(qū)祿勸煤田的U平均質量分數(shù)為34.05 mg/kg。北部地區(qū)的煤中平均U質量分數(shù)為5.68~27.50 mg/kg,遠低于南部地區(qū)。與北部地區(qū)相比,南部地區(qū)煤中的U質量分數(shù)顯著增加。南部地區(qū)U平均質量分數(shù)為7.50~303.04 mg/kg。該區(qū)U質量分數(shù)超標的煤主要分布在重慶、貴州、廣西和云南東部。在所有這些煤田中,有3個煤田的U平均質量分數(shù)超過100 mg/kg。重慶磨心坡煤田煤中的U質量分數(shù)最高,約為303.4 mg/kg。
(1)非對稱對數(shù)比轉換方法,有效解決了煤和煤炭不同基準下元素之間、元素和灰分之間相關性不一致的問題。
(2)在4種常見的分層聚類算法中,平均鏈接算法的效果相對要好,在基于原始數(shù)據(jù)和轉換后數(shù)據(jù)的聚類分析中,基于皮爾遜相關系數(shù)的距離度量都要比歐幾里德距離好, 基于樞軸坐標進行轉換后的數(shù)據(jù)優(yōu)于原始數(shù)據(jù),而加權對稱的樞軸坐標又優(yōu)于樞軸坐標。
(3)經(jīng)分析,Ba對關鍵金屬元素Eu影響的閾值為363,128個煤樣品(包括內(nèi)蒙古、云南臨滄、云南鎮(zhèn)雄縣熱水河)被用于驗證該閾值的準確性,并與干擾經(jīng)驗閾值1 000進行比較,發(fā)現(xiàn)預測閾值363比干擾經(jīng)驗閾值1 000更為準確。
(4)經(jīng)分析得出在灰分小于20%,Ra當量濃度超過370 Bq/kg時,U在原煤中的質量分數(shù)閾值為5.28 mg/kg。在灰分大于20%,Ra的值超過370 Bq/kg時,U在原煤中的質量分數(shù)閾值為7.98 mg/kg。