張欣躍 趙玉國? 劉 峰 曾 榮 高 鴻 林 卡 張甘霖
(1土壤與農(nóng)業(yè)可持續(xù)發(fā)展國家重點實驗室(中國科學(xué)院南京土壤研究所),南京 210008)
(2 中國科學(xué)院大學(xué),北京 100049)
(3 南京信息工程大學(xué)地理科學(xué)學(xué)院,南京 210044)
(4 南京師范大學(xué)地理科學(xué)學(xué)院 南京師范大學(xué)虛擬地理環(huán)境教育部重點實驗室,南京 210023)
土壤受發(fā)生環(huán)境的影響,存在高度空間異質(zhì)性[1-2]。直接表現(xiàn)為土壤化學(xué)屬性的區(qū)域差異。這種土壤化學(xué)性質(zhì)的差異已被應(yīng)用于法庭土壤學(xué)中。一百多年前,Georg Popp作為第一個向法庭提交土壤地質(zhì)材料的科學(xué)家來幫助刑事案件偵查,隨后法庭地質(zhì)學(xué)逐漸在理論和實踐中取得了較大進(jìn)展[3]。土壤的成分組成可以用來預(yù)測土壤的來源位置[4],Menchaca等[5]利用土壤的顏色、粒度等屬性開發(fā)了南加州的表土變異性取證數(shù)據(jù)庫,從而確定土壤樣本證據(jù)的來源位置。利用土壤的基本化學(xué)屬性數(shù)據(jù)進(jìn)行土壤物證材料的空間溯源是法庭物證領(lǐng)域的重要方向[6-7]。
但在實際案例中,土壤物證材料往往是痕量、微量存在,不易獲得上述應(yīng)用中所需的化學(xué)分析指標(biāo),而土壤光譜能夠綜合反映部分土壤化學(xué)屬性,且測量快速、便捷、所需樣品量少,且無損[8]?,F(xiàn)今,土壤光譜已經(jīng)廣泛地應(yīng)用于土壤屬性的預(yù)測、制圖等方面,特別是在土壤有機(jī)質(zhì)、全氮、Fe、水分、部分黏土礦物等具有光譜響應(yīng)的屬性上獲得較高的預(yù)測精度[8-11]。研究表明土壤光譜用于分類很有前景[11,9],Bellinaso等[11]建立了巴西幾個農(nóng)業(yè)區(qū)的光譜庫,利用光譜主成分及每個剖面的光譜曲線圖,來指示不同的土壤類型及剖面分類。土壤光譜也被用來指示土壤所在區(qū)域。吳豪翔和王人潮[12]均通過對南方山地丘陵的幾種土壤光譜進(jìn)行研究,選出10個特定波段的光譜來指示相應(yīng)地區(qū)的土壤。徐彬彬等[13]通過對全國土壤光譜反射特性的研究,找出了我國土壤的分布規(guī)律,建立了土壤光譜與時空特征間的相關(guān)關(guān)系。但是,土壤光譜應(yīng)用于物證溯源的研究尚少,基于土壤發(fā)生學(xué)的理解和土壤空間變異規(guī)律,借助土壤光譜這一綜合性指標(biāo)來指示土壤物證材料的來源地在法庭物證領(lǐng)域是否具有應(yīng)用前景,以及土壤光譜的物證溯源能夠達(dá)到怎樣的空間精度,是一個具有實際價值的挑戰(zhàn)性工作[14]。
本研究的目標(biāo)是,基于土壤可見-近紅外光譜與土壤化學(xué)屬性數(shù)據(jù),采用隨機(jī)森林方法,分別從省域間尺度與省域內(nèi)尺度上對土壤的來源地進(jìn)行判別,判別未知土壤樣點的來源,并探討不同的判別因子對結(jié)果的影響。
本研究選取黑龍江、安徽和江蘇三個省份以及安徽省的定遠(yuǎn)、宣城與蒙城三個縣作為研究區(qū)。黑龍江省介于121°11′~135°05′E,43°26′~53°33′N之間,屬溫帶大陸性季風(fēng)氣候,主要土壤類型為黑土、白漿土、草甸土、沼澤土等。安徽省介于114°54′~119°37′E,29°41′~34°38′N之間,屬暖溫帶與亞熱帶的過渡地區(qū),主要土壤類型有水稻土、紅壤、砂姜黑土等。江蘇省地跨116°18′~121°57′E,30°45′~35°20′N,同屬于溫帶向亞熱帶的過渡性氣候,主要土壤類型有:水稻土、潮土、棕壤、黃棕壤等。選擇土壤類型相似的安徽省與江蘇省,以及土壤差異較大的黑龍江省,比對模型方法在土壤類型相似與差異較大的省域間的應(yīng)用精度。
為了盡可能避免樣品數(shù)量對建模結(jié)果的影響,三省采集數(shù)量相當(dāng)?shù)臉狱c:安徽100個,黑龍江98個,江蘇89個(利用部分樣點(77個)化學(xué)數(shù)據(jù)進(jìn)行建模),樣點分布如圖1a,其位置的確定均采用綜合地理單元法。按照中國土壤系統(tǒng)分類標(biāo)準(zhǔn)中土綱級別,對采集的樣點分類,樣點土壤類型見表1。為探索不同尺度下樣點判別精度,本研究還選取了安徽的定遠(yuǎn)、宣城與蒙城三地各23、22、21個點,來進(jìn)一步探究省域內(nèi)樣點的判別情況,樣點分布如圖1b,對應(yīng)土壤類型見表2。在法庭土壤學(xué)中,獲取的土壤物證多為表層土壤,本研究選取表層(依據(jù)土壤發(fā)生劃分層次標(biāo)準(zhǔn))土壤進(jìn)行研究。
本研究中使用的土壤化學(xué)數(shù)據(jù)主要有:pH、有機(jī)質(zhì)、全磷、全鉀、速效磷、CEC。測定方法分別為:pH由水浸提法測定、有機(jī)質(zhì)由重鉻酸鉀-硫酸消化法測定、全磷采用酸溶-鉬銻抗比色法測定、全鉀采用酸溶-火焰光度法測定、速效磷的測定根據(jù)不同的土壤性質(zhì)選擇不同的方法測定(中性和石灰性土壤采用碳酸氫鈉浸提-鉬銻抗比色法,酸性土壤采用氟化銨、鹽酸浸提-鉬銻抗比色法)、CEC采用乙酸銨-EDTA交換法測定[15]。
光譜測定在室內(nèi)完成,將采集的表層土樣經(jīng)室內(nèi)風(fēng)干、去雜、研磨過60目篩,然后將過篩后的土樣置于烘箱中,45℃條件下烘24 h。采集光譜前,將烘好的土樣置于干燥器中待測。測量時取適量土樣(約1.2~1.5g)于樣品池,利用Cary 5000分光光度計采集光譜數(shù)據(jù),采集的波段范圍為350~2 500 nm。在可見光波段(350~700 nm)和近紅外波段(700~2 500 nm)的光譜分辨率分別為<0.048 nm和<0.2 nm,光譜的重采樣間隔為1 nm,共采集2 151個波段。
圖1 研究區(qū)位置和土壤樣點分布圖Fig.1 Study area and distribution of soil sampling sites
表1 黑龍江、安徽和江蘇三省樣點土壤類型Table 1 Soil types of the samples collected in Heilongjiang, Anhui and Jiangsu Provinces
表2 定遠(yuǎn)、宣城和蒙城三縣市樣點土壤類型Table 2 Soil type of the soil samples collected in Dingyuan, Xuancheng and Mengcheng Counties
光譜數(shù)據(jù)的處理主要是吸收峰與主成分的提取。吸收峰特征參數(shù)是光譜經(jīng)連續(xù)統(tǒng)去除后提取的,能反映對應(yīng)波段相應(yīng)物質(zhì)含量,比如,Viscarra和Behrens[16]在2 300 nm附近存在一個與有機(jī)質(zhì)相關(guān)的C-H的特征峰,F(xiàn)abrizzi等[17]發(fā)現(xiàn)700~800 nm區(qū)域與土壤腐殖質(zhì)以及色素密切相關(guān)。本研究提取連續(xù)統(tǒng)去除后的光譜吸收峰的部分相關(guān)特征參數(shù)來進(jìn)行研究。具體步驟如下:(1)在The Unscrambler中對所有樣點的光譜進(jìn)行異常值剔除;(2)對光譜進(jìn)行連續(xù)統(tǒng)去除,來提取分析土壤光譜吸收峰。連續(xù)統(tǒng)是一個逐點直線連接光譜上局部光譜反射極值點的凸殼,連續(xù)統(tǒng)去除法處理后的反射率等于在光譜吸收特征處的每個波段的反射率值除以連續(xù)統(tǒng)直線上相對應(yīng)波段處的反射均值[18]。(3)計算連續(xù)統(tǒng)去除后前十個吸收峰(按深度排序)的部分特征參數(shù):吸收峰的起始位置波長、終止位置波長、深度、寬度、面積、偏度、吸收峰最深處對應(yīng)的波長共七個參數(shù)。
獲取光譜主成分,以10 nm為采樣間隔,對所有樣點350 ~ 2 500 nm波段的光譜進(jìn)行重采樣,然后提取主成分。在提取出的主成分中,前7個主成分方差累計貢獻(xiàn)率達(dá)99.9%,故取前七個主成分用于建模分析。土壤光譜數(shù)據(jù)的處理均在R語言計算環(huán)境中實現(xiàn)。
本研究選擇了隨機(jī)森林方法來對土壤樣點進(jìn)行區(qū)分,從省域間(黑龍江、安徽與江蘇)和省域內(nèi)(安徽的定遠(yuǎn)、宣城與蒙城)兩個尺度展開研究,分別利用化學(xué)數(shù)據(jù)、光譜數(shù)據(jù)作為判別因子,來判別未知樣點的來源地。
判別因子從化學(xué)數(shù)據(jù)、光譜數(shù)據(jù)、化學(xué)與光譜組合三種數(shù)據(jù)組合中獲取,其中光譜數(shù)據(jù)包括350~2 500 nm波段全波段的光譜反射率(下文簡稱全波段)、吸收峰的7個特征參數(shù)(下面簡稱吸收峰)、光譜的前7個主成分(下文簡稱主成分)、吸收峰與主成分的組合(下文簡稱吸收峰與主成分)。化學(xué)與光譜組合包括化學(xué)數(shù)據(jù)與全波段(下文簡稱化學(xué)與全波段)、化學(xué)數(shù)據(jù)與吸收峰(下文簡稱化學(xué)與吸收峰)、化學(xué)數(shù)據(jù)與主成分(下文簡稱化學(xué)與主成分)以及化學(xué)數(shù)據(jù)與吸收峰及主成分(下文簡稱化學(xué)、吸收峰與主成分)。通過不同數(shù)據(jù)的組合,探究最佳的模型判別因子。
分類器選擇隨機(jī)森林方法,隨機(jī)森林模型(Random forest model)是一種對于大多數(shù)問題均有效的通用模型,可以處理分類和連續(xù)的特征[19]。RF利用bootsrap重抽樣方法從原始樣本中抽取多個樣本,對每個bootsrap樣本進(jìn)行決策樹建模,然后對多棵決策樹的預(yù)測進(jìn)行投票,得出最終預(yù)測結(jié)果,RF可以處理大量的數(shù)據(jù),運(yùn)算速度快,且不容易過擬合[20]。
對判別結(jié)果選擇留一驗證法進(jìn)行驗證,利用平衡精度(Balanced Accuracy)來衡量每一類別的判別精度,平衡精度是類別靈敏度(Sensitivity)與特效度(Specificity)的平均值,靈敏度衡量了分類器對正例的識別能力,例如安徽省判別正確樣點占安徽總樣點的比率;特效度衡量了分類器對負(fù)例的識別能力,例如,判別正確的非安徽樣點占所有非安徽樣點的比率。平衡精度則綜合了正例與負(fù)例的判別精度。對于模型總精度根據(jù)精度以及Kappa 系數(shù)來衡量,其中精度為正確判別樣點數(shù)占總樣點數(shù)的比例,精度值越大說明樣點判別結(jié)果越好。Kappa系數(shù)代表一致性的強(qiáng)弱程度,當(dāng)Kappa系數(shù)小于0時,一致性程度極差;0~0.2之間一致性程度微弱;0.21~0.4之間一致性弱;0.41~0.6之間一致性中度;0.61~0.8之間一致性顯著(或一致性高);0.81~1.0之間一致性極佳[21-22]。
利用土壤光譜建模,對未知土壤樣點的來源地進(jìn)行判別。首先,比較三省可見-近紅外波段光譜(圖2),可以看出,三省光譜存在一定差異。以全波段、吸收峰、主成分、吸收峰與主成分四種判別因子數(shù)據(jù)方案分別建立隨機(jī)森林模型,判別結(jié)果的混淆矩陣詳見表3。
全波段、吸收峰、主成分三種不同光譜處理方法中,吸收峰建模整體精度最高,為0.81, Kappa系數(shù)為0.72,表現(xiàn)出較好的一致性,而且三省精度差別相對較小,安徽與江蘇的判別精度也最高,利用吸收峰的相關(guān)參數(shù)能夠?qū)θ狱c做出精度相對均一的判別。結(jié)合主成分與吸收峰兩種數(shù)據(jù)方案,安徽與江蘇的錯判點有所降低,各省判別精度均有所提升,且整體精度達(dá)到了0.82,Kappa系數(shù)為0.72,說明主成分與吸收峰能夠反映土壤不同的信息,結(jié)合建模能達(dá)到更好的判別結(jié)果。
圖2 黑龍江、安徽和江蘇三省可見-近紅外光譜Fig.2 Vis-NIR spectrum of Heilongjiang, Anhui and Jiangsu Provinces
表3 光譜數(shù)據(jù)建模判別結(jié)果混淆矩陣Table 3 Confusion matrix of the performances of the spectral data based model
三省中黑龍江的判別結(jié)果相對較好,錯判點均少于10個,其中利用主成分判別結(jié)果最佳,錯判點為4個,精度達(dá)到0.95。黑龍江省土壤類型主要是黑土、草甸土等,有機(jī)質(zhì)含量高,而江蘇、安徽省多為水稻土、紅壤等富含鐵元素,這說明,光譜主成分可以很好地代表不同類型土壤的光譜信息,從而對土壤來源地進(jìn)行判別,這與Zeng等[23]的研究吻合,光譜主成分可以用于輔助土壤分類。所以利用光譜主成分來對三省樣點進(jìn)行判別,與安徽、江蘇土壤類型相差較大的黑龍江省的樣點得到了很好的判別,而安徽省與江蘇省則相對較差。
通過計算基尼值平均降低量(Mean Decrease Gini,MDG),對判別因子的重要性進(jìn)行分析。MDG通過基尼(Gini)指數(shù)計算每個變量對分類樹每個節(jié)點上觀測值的異質(zhì)性的影響,從而比較變量的重要性,該值越大表示該變量的重要性越大[24]。模型判別因子的MDG(前10位)統(tǒng)計如表4所示。
根據(jù)表4,統(tǒng)計重要性高的吸收峰特征參數(shù)對應(yīng)的波段,發(fā)現(xiàn)主要集中在500~800 nm、800~1 300 nm以及2 200~2 495 nm附近的波段。有研究表明大部分有機(jī)質(zhì)光譜響應(yīng)波段均集中在600~800 nm波段[18];鐵元素決定了760~1 300 nm波段內(nèi)的光譜特性[18];2 200 nm波段附近存在Al-OH黏土礦物的吸收帶。黑龍江省多黑土、草甸土等富含有機(jī)質(zhì),而安徽省、江蘇省多為水稻土、紅壤等,土壤中鐵元素含量較多。從而導(dǎo)致電磁波特性的差異,影響模型的判別,對土壤樣點的來源地判別起到了主要作用。
表4 光譜判別因子基尼值平均降低量(MDG)統(tǒng)計Table 4 Discriminant MDG statistics of spectral factors
以上分析可見,利用土壤可見-近紅外光譜基本上可以對土壤樣點來源地做出有效的判別。當(dāng)土樣化學(xué)數(shù)據(jù)難以獲取時,可以通過光譜手段對其進(jìn)行判別。
土壤光譜對樣點來源地進(jìn)行判別能夠達(dá)到較好的結(jié)果,當(dāng)土壤樣品量足夠,可以獲取其化學(xué)數(shù)據(jù)時,可以利用土壤的部分化學(xué)數(shù)據(jù)來輔助土壤樣點的來源地判別。利用土壤化學(xué)屬性建立隨機(jī)森林模型,得到判別結(jié)果混淆矩陣(表5)。模型判別因子的MDG(前10位)統(tǒng)計如圖3。
表5 化學(xué)數(shù)據(jù)建模判別結(jié)果混淆矩陣Table 5 Confusion matrix of the predictions of the soil chemical property data-based model
圖3 化學(xué)判別因子基尼值平均降低量(MDG)統(tǒng)計Fig.3 Discriminant MDG statistics of chemical factors
表5判別結(jié)果顯示,利用土壤化學(xué)數(shù)據(jù)對土壤樣品來源地判別整體精度可達(dá)0.87,Kappa系數(shù)為0.81,其中黑龍江的驗證結(jié)果最好,為0.93。在影響判別結(jié)果的因子中,全鉀和全磷的重要性最大(圖3),計算原始化學(xué)數(shù)據(jù)的均值、標(biāo)準(zhǔn)差等繪制正態(tài)分布圖(圖4),圖中顯示安徽的全鉀與黑龍江省和江蘇省的差異較大,而江蘇省的全磷與安徽省和黑龍江省的也有較大差異,同樣黑龍江省有機(jī)質(zhì)含量與其他兩省也存在一定差異。因而,在模型判別中,全鉀、全磷、有機(jī)質(zhì)重要性顯著,與重要性計算結(jié)果一致。
將化學(xué)數(shù)據(jù)與光譜數(shù)據(jù)組合建模進(jìn)行來源地判別。分別利用化學(xué)與吸收峰、化學(xué)與主成分,以及三者組合建立隨機(jī)森林模型,樣點判別結(jié)果混淆矩陣詳見表6。
圖4 三省化學(xué)數(shù)據(jù)正態(tài)分布圖Fig.4 Normal distribution of soil chemical property data in three provinces
表6 化學(xué)與光譜數(shù)據(jù)建模判別結(jié)果混淆矩陣Table 6 Confusion matrix of the performances of chemical property and spectral data based models
表6混淆矩陣顯示,利用化學(xué)與主成分相結(jié)合建模,黑龍江的錯判樣點只有1個,安徽與江蘇錯判點分別為7個與13個,兩省間互判錯誤的點分別為5個與9個。三省各自的精度與三省整體精度均達(dá)到了0.9以上,整體精度為0.92,Kappa系數(shù)為0.88,表現(xiàn)出極佳的一致性。較之前單獨(dú)利用化學(xué)數(shù)據(jù)、光譜數(shù)據(jù)判別結(jié)果有了進(jìn)一步提升。綜合三者建模后,判別精度變化不大。統(tǒng)計判別因子重要性(前十)見表7。
表7 判別因子MDG統(tǒng)計Table 7 MDG statistics of discriminant factors
重要的判別因子(表7)主要有全磷、全鉀、光譜的第一主成分,其次還有光譜第一個與第二個吸收峰的相關(guān)參數(shù)、有機(jī)質(zhì)等,其中吸收峰對應(yīng)的為350~600 nm與1 800~2 200 nm附近的波段,有研究表明,氧化鐵在300~580 nm可見光區(qū)可形成很強(qiáng)的鐵譜帶[18],1 800~2 200 nm則受AL-OH黏土礦物吸收帶的影響?;瘜W(xué)與主成分判別結(jié)果較吸收峰與主成分要好,可能是因為吸收峰對應(yīng)的礦物、鐵元素等屬性較化學(xué)數(shù)據(jù)判別效果差,使得結(jié)合化學(xué)與主成分的判別精度更佳。
基于以上分析,利用光譜前七個主成分與化學(xué)數(shù)據(jù)相結(jié)合對安徽省、黑龍江省與江蘇省樣點進(jìn)行判別,驗證精度能夠達(dá)到0.92,說明在省域間大范圍內(nèi)可以對樣點的來源地做出很好地判別。
在省級尺度可以對土壤來源進(jìn)行很好地區(qū)分,省內(nèi)縣級尺度間的土壤變異更小,本研究嘗試是否可以溯源到具體的縣。在省內(nèi)尺度對安徽省三個縣的樣本進(jìn)行了來源地判別。判別結(jié)果的混淆矩陣及精度見表8。
表8 模型判別結(jié)果Table 8 Performances of the Models
由表8的混淆矩陣可以看出,在省域內(nèi)建模,化學(xué)數(shù)據(jù)建模結(jié)果并未優(yōu)于光譜數(shù)據(jù),而且利用化學(xué)與主成分和利用主成分與吸收峰建模的判別精度只有0.1之差,說明在安徽省域范圍內(nèi),可以利用光譜來取代化學(xué)數(shù)據(jù)建模。計算二者建模判別因子的MDG,在只用光譜數(shù)據(jù)的模型中,光譜第七主成分與第一個吸收峰特征參數(shù)重要性較高,第七主成分對應(yīng)光譜的600 nm附近、1 900 nm附近與2 100 nm附近波段,吸收峰主要對應(yīng)350~600 nm附近與1 800~2 100 nm附近波段,即受鐵譜帶、黏土礦物吸收帶的影響;化學(xué)數(shù)據(jù)與主成分建模中,重要性較高的為光譜第七主成分與土壤全磷。
同樣,利用原始化學(xué)數(shù)據(jù)均值、標(biāo)準(zhǔn)差等繪制化學(xué)屬性正態(tài)分布圖(圖5),圖中顯示宣城與蒙城的全磷含量有差異,蒙城、定遠(yuǎn)和宣城的pH也存在明顯差異,所以在省內(nèi)判別時,全磷與pH的重要性比較大,與MDG計算結(jié)果一致。
圖5 三縣化學(xué)數(shù)據(jù)正態(tài)分布圖Fig.5 Normal distribution of soil chemical property data of three counties
基于土壤化學(xué)數(shù)據(jù)與可見光-近紅外光譜數(shù)據(jù),采用隨機(jī)森林方法,對土壤來源地進(jìn)行了判別與分析,主要結(jié)論如下:利用土壤可見-近紅外光譜與化學(xué)數(shù)據(jù)可以對跨省及省內(nèi)兩種尺度下的土壤樣本來源地進(jìn)行有效判別。其中,跨省尺度下,光譜主成分和化學(xué)數(shù)據(jù)結(jié)合建模判別精度最佳,當(dāng)土壤物證材料量少,化學(xué)數(shù)據(jù)難以獲取時,可以結(jié)合利用光譜主成分和吸收峰建模;省內(nèi)尺度下可以利用光譜來替代化學(xué)數(shù)據(jù)進(jìn)行建模判別。兩種尺度下判別因子有差異,可以根據(jù)尺度差異選取不同的判別因子進(jìn)行建模。受本研究所采用的數(shù)據(jù)集所限,雖然跨省與省內(nèi)尺度下土壤樣本可以得到有效判別,但是能夠反映土壤屬性的指標(biāo)還有很多,還需探究更多的判別因子,尋求模型在判別精度上的進(jìn)一步提高。本研究是基于跨省和省內(nèi)較大尺度展開的研究,關(guān)于對更進(jìn)一步的局地土壤樣本來源地的判別,值得進(jìn)一步研究。