張佘淑,趙 軍
(西北師范大學(xué)地理與環(huán)境科學(xué)學(xué)院, 甘肅 蘭州 730070)
土壤鹽漬化又稱土壤鹽堿化,是世界范圍內(nèi)正面臨的主要生態(tài)環(huán)境問題之一,也是世界各地土壤退化的主要原因之一[1],嚴(yán)重威脅著糧食安全和生態(tài)系統(tǒng)的功能,需要通過監(jiān)測和管理予以充分的關(guān)注[2]。鹽漬化土壤復(fù)雜時(shí)空特性的及時(shí)有效監(jiān)測是遙感技術(shù)長處所在[3],在過去十多年間,已經(jīng)快速發(fā)展成為監(jiān)測土壤鹽漬化程度及分布的重要工具[4]。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)重要發(fā)展方向。機(jī)器學(xué)習(xí)的基本原理是尋找某種函數(shù),能從數(shù)據(jù)與類別之間得到正確或最佳的映射[5]。土壤是具有高度變異的時(shí)空連續(xù)體,在發(fā)育成土過程中成土因子對其的作用是非線性的,在較大區(qū)域中對土壤屬性的非線性作用更加明顯,與傳統(tǒng)的統(tǒng)計(jì)回歸模型相比,機(jī)器學(xué)習(xí)模型能夠更有效表達(dá)土壤鹽分與遙感數(shù)據(jù)之間的復(fù)雜非線性關(guān)系[6]。除此以外,機(jī)器學(xué)習(xí)算法不需要假設(shè)數(shù)據(jù)分布,更加簡化了實(shí)測樣點(diǎn)的篩選工作。因此,機(jī)器學(xué)習(xí)可以提供比傳統(tǒng)方法(如簡單或多重線性回歸)更強(qiáng)大的性能和更高的準(zhǔn)確性[7]。近年來,基于機(jī)器學(xué)習(xí)算法的土壤鹽漬化遙感研究成果日益豐富,已有學(xué)者從不同視角對該領(lǐng)域進(jìn)行了回顧與展望[4,8-12],目前使用文獻(xiàn)計(jì)量法開展機(jī)器學(xué)習(xí)算法在土壤鹽漬化研究應(yīng)用中的可視化分析比較少見。文獻(xiàn)計(jì)量分析通過分析已發(fā)表的科學(xué)文獻(xiàn)來評估特定研究領(lǐng)域的發(fā)展趨勢,以幫助研究人員快速掌握一個(gè)研究領(lǐng)域隨時(shí)間的演變特征,不僅極大提高了科學(xué)計(jì)量學(xué)研究的效率,而且可以指導(dǎo)后續(xù)的研究[13]。
本文運(yùn)用CiteSpace 文獻(xiàn)計(jì)量分析工具[14],以WOS (Web of Science)核心合集數(shù)據(jù)庫為數(shù)據(jù)源,以“[ALL= (salinization) OR ALL = (ssc) OR ALL=(soil salt content) OR ALL=(saline soil) OR ALL=(soil salinity) OR ALL=(salt affected soil) OR ALL=(soil electrical conductivity)) AND (ALL = (machine learning)OR ALL = (deep learning) OR ALL = (algorithm)OR ALL=(regression) OR ALL=(classification)) AND(ALL=(remote sensing) OR ALL = (satellite imagery)]”
為檢索式進(jìn)行文獻(xiàn)檢索,時(shí)間范圍為2012 年1 月至2022 年12 月,共檢索到205 篇文獻(xiàn),通過科學(xué)知識圖譜可視化分析機(jī)器學(xué)習(xí)算法在土壤鹽漬化遙感研究領(lǐng)域應(yīng)用的進(jìn)展和熱點(diǎn),探討土壤鹽漬化遙感模型構(gòu)建過程中的局限性與未來發(fā)展趨勢。
發(fā)表文獻(xiàn)數(shù)量的年際變化可以衡量一個(gè)領(lǐng)域的發(fā)展過程,還反映著該研究方向的熱度[15]。2018 年之前在利用機(jī)器學(xué)習(xí)算法進(jìn)行土壤鹽分遙感反演領(lǐng)域發(fā)表的期刊論文數(shù)量很少,之后開始較快增長(圖1),表明隨著人工智能技術(shù)和遙感探測技術(shù)的快速發(fā)展,越來越多學(xué)者選擇使用機(jī)器學(xué)習(xí)工具,尋找和建立模型特征變量之間的關(guān)系來實(shí)現(xiàn)土壤鹽分估算[16]。
圖1 相關(guān)研究文獻(xiàn)年際分布Figure 1 Interannual distribution of national and international research literature
圖2 是文獻(xiàn)作者所屬國或者地區(qū)的分析圖譜,圖中節(jié)點(diǎn)大小表示發(fā)文數(shù)量,其中中國、美國、伊朗、澳大利亞、德國發(fā)文量居前5 位,連線表示兩者之間的合作關(guān)系,連線顏色表示發(fā)文時(shí)間,隨時(shí)間變化不同國家或地區(qū)學(xué)者之間的合作越來越緊密。近年來,與我國研究者合作最多的研究機(jī)構(gòu)來自澳大利亞、加拿大、德國和伊朗,這些也是2012 年以來發(fā)文量排在前列的國家。
圖2 基于Web of Science (WOS)數(shù)據(jù)的發(fā)文國家或地區(qū)共現(xiàn)圖譜Figure 2 Co-occurrence mapping of issuing countries based on WOS data
剔除中介中心性為0 和屬于檢索主題詞的高頻關(guān)鍵詞后,利用CiteSpace 對WOS 數(shù)據(jù)合并同類關(guān)鍵詞,進(jìn)行關(guān)鍵詞共現(xiàn)分析,其中前15 位關(guān)鍵詞如表1 所列。在關(guān)鍵詞共現(xiàn)分析基礎(chǔ)上,采用LLR(Log-Likelihood Ratio)算法對WOS 數(shù)據(jù)關(guān)鍵詞共現(xiàn)數(shù)據(jù)進(jìn)行聚類分析,揭示研究熱點(diǎn)之間的關(guān)系(圖3)。本文在自動劃分的20 個(gè)聚類中篩選出前10 位節(jié)點(diǎn)最多、輪廓值較高的聚類進(jìn)行分析。
表1 Web of Science (WOS)數(shù)據(jù)高頻關(guān)鍵詞統(tǒng)計(jì)Table 1 National and international high-frequency keyword statistics
圖3 Web of Science (WOS)數(shù)據(jù)關(guān)鍵詞聚類圖譜Figure 3 Keyword cluster mapping based on WOS data
根據(jù)表1 中關(guān)鍵詞共現(xiàn)頻次與中介中心性,所有重要關(guān)鍵詞節(jié)點(diǎn)可以大致分為機(jī)器學(xué)習(xí)建模、研究區(qū)域、數(shù)據(jù)源3 個(gè)方面,包括“vegetation”“region”“reflectance spectroscopy ” “machine learning ”“model”等。綜合聚類分析結(jié)果與高頻關(guān)鍵詞,可以將基于機(jī)器學(xué)習(xí)算法的土壤鹽漬化遙感研究主題歸納如下:
1)機(jī)器學(xué)習(xí)算法及其精度研究,內(nèi)容包括機(jī)器學(xué)習(xí)、隨機(jī)森林算法和偏最小二乘法。
2)機(jī)器學(xué)習(xí)建模特征變量選擇研究,內(nèi)容包括特征選擇、鹽分指數(shù)。
3)遙感數(shù)據(jù)源選擇對機(jī)器學(xué)習(xí)模型的影響研究,內(nèi)容包括高光譜數(shù)據(jù)、土壤電導(dǎo)率。
4)土壤鹽漬化研究區(qū)域選擇,主要內(nèi)容是農(nóng)業(yè)用地。
5)基于機(jī)器學(xué)習(xí)的土壤鹽漬化數(shù)字制圖應(yīng)用研究,內(nèi)容包括數(shù)字土壤制圖、多光譜遙感監(jiān)測。
對WOS 檢索得到的文獻(xiàn)數(shù)據(jù)進(jìn)行突發(fā)性探測,得到文獻(xiàn)爆發(fā)式引用強(qiáng)度和持續(xù)時(shí)間。從文獻(xiàn)爆發(fā)引用開始時(shí)間來看,2017 年后出現(xiàn)了更多爆發(fā)式高引用文章;從爆發(fā)強(qiáng)度來看,Sidike 等[18]研究的強(qiáng)度值最大,其發(fā)表時(shí)間為2014 年,爆發(fā)引用時(shí)間為2017—2019 年。該文使用實(shí)測土壤高光譜數(shù)據(jù)與QuickBird 高分辨率數(shù)據(jù),分析了實(shí)測光譜獲得的土壤鹽度敏感帶與光學(xué)傳感器的光譜覆蓋范圍之間的關(guān)系,在考慮了土壤光譜特性基礎(chǔ)上加入根據(jù)遙感圖像得出的光譜指數(shù),采用偏最小二乘回歸(PLSR)預(yù)測模型估算了中國平洛縣土壤鹽度,分析了植被指數(shù)對估計(jì)精度的貢獻(xiàn)[18]。其余爆發(fā)引用持續(xù)時(shí)間在2017—2019 年的文獻(xiàn)中,Nawar 等[19]基于實(shí)測的土壤電導(dǎo)率和實(shí)驗(yàn)室測量的土壤反射光譜,經(jīng)重采樣到Landsat 影像分辨率后構(gòu)建了PLSR和MARS 預(yù)測模型。Fan 等[20]通過實(shí)測光譜和土壤鹽度數(shù)據(jù)探究土壤鹽度檢索的最佳光譜波段,應(yīng)用PLSR 模型構(gòu)建了土壤鹽度與ALI 傳感器光譜的關(guān)系,Taghizadeh-mehrjardi 等[21]在使用Landsat5 TM影像時(shí)還使用了土壤表觀電導(dǎo)率以及地貌參數(shù)作為輔助變量參與模型構(gòu)建。
由WOS 爆發(fā)引用強(qiáng)度和持續(xù)時(shí)間(表2)可知,近年來與機(jī)器學(xué)習(xí)相關(guān)的土壤鹽漬化遙感研究的熱點(diǎn)主要有在機(jī)器學(xué)習(xí)模型構(gòu)建過程中加入輔助變量作為特征變量、實(shí)測光譜數(shù)據(jù)與多源遙感光譜數(shù)據(jù)結(jié)合、最佳機(jī)器學(xué)習(xí)算法選擇。
表2 Web of Science (WOS)爆發(fā)引用文獻(xiàn)統(tǒng)計(jì)Table 2 Outbreak citation literature statistics based on WOS data
在WOS 數(shù)據(jù)關(guān)鍵詞聚類圖譜中,與機(jī)器學(xué)習(xí)算法相關(guān)的聚類有人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林回歸和深度機(jī)器學(xué)習(xí)。根據(jù)上述3 種聚類的子聚類和聚類中與算法有關(guān)的關(guān)鍵詞和高頻、高中心性關(guān)鍵詞對應(yīng)的相關(guān)文獻(xiàn)發(fā)現(xiàn),主流的機(jī)器學(xué)習(xí)算法是隨機(jī)森林、偏最小二乘回歸、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等[33-35]。
通過對關(guān)鍵詞共現(xiàn)結(jié)果進(jìn)行突發(fā)性探測(表3),發(fā)現(xiàn)最早爆發(fā)出現(xiàn)的機(jī)器學(xué)習(xí)算法屬于無監(jiān)督學(xué)習(xí)的聚類分析。2019 年前,土壤鹽漬化識別遙感建模的熱門算法是偏最小二乘回歸,也是爆發(fā)出現(xiàn)持續(xù)時(shí)間最長的一種建模算法,直到2019 年以后,各種神經(jīng)網(wǎng)絡(luò)算法和隨機(jī)森林算法開始被大量使用,出現(xiàn)各種新的機(jī)器學(xué)習(xí)模型。
表3 Web of Science (WOS)文獻(xiàn)關(guān)鍵詞突發(fā)性探測表Table 3 Keyword burst table of national and international literature
建模特征變量主要包括實(shí)測土壤數(shù)據(jù)、光譜指數(shù)及數(shù)學(xué)變換后的光譜數(shù)據(jù)、環(huán)境協(xié)變量和遙感影像數(shù)據(jù)等。
實(shí)測土壤數(shù)據(jù)是遙感模型建立的基礎(chǔ),也是進(jìn)行變量選擇和模型精度驗(yàn)證的依據(jù)[4]。一般使用多點(diǎn)采樣法進(jìn)行土壤表層采樣,同時(shí)使用GNSS 儀記錄樣本位置信息,最后將野外采集的土壤樣本帶回實(shí)驗(yàn)室通過測量飽和土壤提取溶液中的電導(dǎo)率測定鹽分含量[36-38]。由于不同土壤深度的鹽分含量不一樣,越來越多的學(xué)者選擇采集多種深度的土壤樣本測定相應(yīng)的含鹽量,進(jìn)行不同深度的土壤鹽分反演[39-40]。除此以外,也有學(xué)者使用電磁感應(yīng)(EM)儀器測定土壤表觀電導(dǎo)率,與傳統(tǒng)的方法相比,更加快速且具有非侵入性[41-42]。還有部分學(xué)者通過土壤的介電常數(shù)與土壤含鹽量之間的關(guān)系進(jìn)行鹽分反演[35, 43]。
在自然條件下,受土壤濕度、植被覆蓋度和數(shù)據(jù)采集時(shí)間等其他因素的干擾,單一波段獲得的鹽漬土光譜信息有限。因此,在模型構(gòu)建時(shí)選擇不同波段光譜反射率進(jìn)行不同波段之間的組合運(yùn)算,建立光譜數(shù)據(jù)與土壤鹽分含量之間的相關(guān)性,作為預(yù)測和估算土壤鹽度的間接指標(biāo)。通過使用各種波段組合生成最佳光譜指數(shù),可以檢測更多的特征波長,并進(jìn)一步增強(qiáng)目標(biāo)的特定屬性與光譜特征之間的相關(guān)性。為了提高光譜反射率與土壤鹽分含量的相關(guān)性,可以對原光譜數(shù)據(jù)進(jìn)行不同形式的光譜變換處理,其主要形式包括對原波段反射率R 進(jìn)行倒數(shù)(1/R)、對數(shù)(lnR)、指數(shù)(eR)、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)等[44-46]。
鹽漬化土壤的形成與發(fā)展受到其所處環(huán)境的多種因素的影響,如氣候、生物、地形、土壤理化性質(zhì)等。因此,引入這些環(huán)境因素進(jìn)行建模是提高模型質(zhì)量的重要途徑[47]。氣候因子多選擇氣溫、降水、潛在蒸散發(fā)、實(shí)際蒸散發(fā)等;反映土壤理化性質(zhì)的因子包括土壤質(zhì)地、地表溫度、地下埋水深、土壤濕度等;地形因子主要包括DEM、坡度、坡向、海拔、地表粗糙度等;植物因子主要以一系列植被指數(shù)、植被類型和植被根系深度表征[18,48-49]。
隨著遙感傳感器技術(shù)的發(fā)展,數(shù)據(jù)源越來越多樣化,除了主流的Landsat8 影像和Sentinel-2 影像以外,各種高光譜、雷達(dá)以及無人機(jī)遙感數(shù)據(jù)被應(yīng)用于土壤鹽漬化反演[50-52]。雷達(dá)的后向散射系數(shù)與土壤介電常數(shù)虛部有較好的擬合,為雷達(dá)遙感反演土壤鹽漬化提供了可能,也解決了遙感數(shù)據(jù)源有限的問題[53]。無人機(jī)遙感具有成本低、數(shù)據(jù)獲取速度快、地面分辨率高等優(yōu)勢,利用無人機(jī)高光譜數(shù)據(jù)進(jìn)行土壤鹽漬化反演的研究有明顯增多的趨勢,在精準(zhǔn)遙感監(jiān)測領(lǐng)域具有較大的應(yīng)用潛力[54-55]。
基于機(jī)器學(xué)習(xí)算法的土壤鹽漬化遙感研究在近十年可以大致分為兩個(gè)階段:
起步階段(2018 年之前),主要關(guān)注使用機(jī)器學(xué)習(xí)算法進(jìn)行土壤鹽分識別、反演和制圖,以及方法的可行性和有效性,探究最佳光譜指數(shù)進(jìn)行土壤鹽分的反演和識別,先后建立了數(shù)十種鹽分指數(shù)[27]。
高速發(fā)展階段(2019 年至今),以高光譜遙感影像、實(shí)測高光譜數(shù)據(jù)、雷達(dá)影像和無人機(jī)遙感與多光譜數(shù)據(jù)結(jié)合的多源遙感方法為新的研究熱點(diǎn);以深度學(xué)習(xí)理論和神經(jīng)網(wǎng)絡(luò)算法為代表的機(jī)器學(xué)習(xí)新方法迅速受到土壤鹽漬化遙感研究的重視,而輔助特征變量選擇和模型參數(shù)優(yōu)化也成為了提高模型精度研究的重點(diǎn)。
隨著模型參數(shù)優(yōu)化以及變量篩選等建模技術(shù)的發(fā)展,越來越多的機(jī)器學(xué)習(xí)模型將會被運(yùn)用到土壤鹽漬化遙感研究領(lǐng)域中,模型的精度將會不斷提高。云計(jì)算技術(shù)的發(fā)展和專業(yè)遙感軟件的不斷升級,將會給模型的建立提供新的平臺,如Google Earth Engine (GEE)平臺的發(fā)展使得長時(shí)序的遙感數(shù)據(jù)分析更加容易實(shí)現(xiàn)[56],由此可見基于云計(jì)算平臺和機(jī)器學(xué)習(xí)算法的大尺度長時(shí)序的土壤鹽漬化遙感監(jiān)測將成為未來發(fā)展的重要方向之一。
1)從研究區(qū)域來看,大部分文獻(xiàn)為小尺度研究,研究區(qū)鹽漬土的理化性質(zhì)和環(huán)境氣候?qū)е聵?gòu)建的模型不具有普適性,實(shí)用性也存在較大問題。未來需要建立普適性較高的模型來應(yīng)用于不同研究區(qū)、更大尺度乃至全球以及不同時(shí)序的土壤鹽漬化變化監(jiān)測。
2)模型研究主要聚焦于對土壤鹽分的反演,應(yīng)用于解決土壤鹽漬化問題還遠(yuǎn)遠(yuǎn)不夠。利用土壤鹽漬化遙感反演和專題制圖成果分析土壤鹽漬化的時(shí)空變異特征,對鹽漬化的形成和調(diào)控提供科學(xué)數(shù)據(jù)支持,將是今后研究的重點(diǎn)。
3)機(jī)器學(xué)習(xí)所獲得的知識難以被轉(zhuǎn)化成規(guī)則型知識,也難以直觀衡量土壤與環(huán)境因子之間的定量關(guān)系[6],在考慮機(jī)器學(xué)習(xí)模型表現(xiàn)的同時(shí),今后還應(yīng)關(guān)注模型的可解釋性。
總的來看,機(jī)器學(xué)習(xí)算法以其高于普通線性回歸方法的精度優(yōu)勢在土壤鹽漬化遙感研究中展現(xiàn)出很好的應(yīng)用前景。隨著對模型精度需求的提高以及研究尺度、研究目的的轉(zhuǎn)變,多源遙感數(shù)據(jù)融合應(yīng)用、多種輔助特征變量的優(yōu)選和機(jī)器學(xué)習(xí)算法的改進(jìn),將會成為未來該研究領(lǐng)域關(guān)注的重點(diǎn)。
本文僅以WOS 數(shù)據(jù)庫為數(shù)據(jù)源,機(jī)器學(xué)習(xí)算法也是近年來才在土壤鹽漬化遙感領(lǐng)域得到較為廣泛的應(yīng)用。由于不同文獻(xiàn)中使用的土壤鹽漬化相關(guān)專業(yè)名詞表述不一,進(jìn)行文獻(xiàn)檢索時(shí)可能出現(xiàn)遺漏的情況,導(dǎo)致對檢索結(jié)果進(jìn)行數(shù)據(jù)清洗后得到的文獻(xiàn)數(shù)量較少,在進(jìn)行突發(fā)性檢測或共現(xiàn)分析時(shí),2018 年以前的結(jié)果準(zhǔn)確性較低。但與傳統(tǒng)的文獻(xiàn)綜述方法相比,使用文獻(xiàn)可視化方法的觀點(diǎn)結(jié)論更準(zhǔn)確可靠,也更直觀。