鄭文博
(安徽理工大學空間信息與測繪工程學院,安徽 淮南232001)
有機質含量是衡量土壤肥沃度的重要指標。它是指存在于土壤里面的各種含碳有機化合物的總稱。傳統(tǒng)的獲取土壤信息的方法是實地格網采樣,這種方法雖然被廣泛應用,但是在很多方面仍然存在短板。遙感技術的發(fā)展給有機質預測提供有效的途徑,土壤有機質含量與對應的影像光譜反射率之間有著緊密的聯(lián)系。Landsat5TM 影像具有可免費獲取、重復觀測周期短等優(yōu)勢。光譜信息與地表有機質含量之間的關系較為復雜,一般情況下線性模型是很難去進行較好的解釋。機器學習作為非線性學習的代表,在處理復雜問題的表現(xiàn)一直不錯。故本文考慮使用Landsat5TM 影像和機器學習中的一些方法去探究多光譜影像預測有機質含量的可行性。
本文研究區(qū)是位于江西省北部的樂安河及其支流的沿岸平原區(qū)域,28.7°N~29.3°N,116.5°E~117.9°E 之間。研究區(qū)內的土壤類型以紅壤為主,河流流經沿岸的地區(qū)主要分布著潮土和水稻土。樣本數(shù)據(jù)的采集時間是2009 年10 月28 號到11月2 號,野外采樣點的位置主要為沿著樂安河及其支流的沿岸平均10m 左右位置進行采集的,本研究的采樣點共50 個,其具體數(shù)據(jù)來自文獻[1]。選用2009 年10 月10 號和10 月3 號的LandsatTM5 遙感衛(wèi)星影像的波譜信息做為實驗數(shù)據(jù)。(因為樣本點呈縱向分布,一張影像無法覆蓋所有樣本點,故采用兩種影像拼接后做為單影像) 研究主要考慮地形因子中的坡度、坡向、高程、平面曲率和剖面曲率與土壤間有機質含量的關系。地形因子的數(shù)據(jù)來自于地理空間數(shù)據(jù)云的ASTER GDEM 30M 分辨率數(shù)字高程數(shù)據(jù)。
本文采用的反演模型是SVR[2]和BP[3]及對其參數(shù)尋優(yōu)都GA[4]和ADAFSA[5]。上述方法都是常用的,ADAFSA 是在AFSA(人工魚群算法)上的改進。
人工魚群算法全局搜索能力較強,局部搜索能力較弱,非線性規(guī)劃函數(shù)局部搜索能力較強,它能完美彌補人工魚群算法的不足。本文采用在魚群計算過程中當?shù)螖?shù)達到10 的倍數(shù)時,將此時狀態(tài)的魚群代入到(非線性規(guī)劃)函數(shù)中,去尋找局部最優(yōu)食物濃度,然后將得到的局部最優(yōu)解作為新的魚群個體代入到原魚群中繼續(xù)計算。
對影像的6 個波段、歸一化植被指數(shù)NDVI=(B4-B3)/(B4+B3)、比值植被指數(shù)RVI=B4/B3、結構不敏感色素指數(shù)SIPI=(B4-B1)/(B4+B3)進行相關性分析,得到B1 相關性為-0.337**、B2 為-0.348**、B3 為-0.312**、NDVI 為0.269*,B1、B2、B3、NDVI 通過了顯著性檢驗,以它們?yōu)檩斎胩卣?。再根?jù)Rand-KS算法進行樣本劃分,訓練集40 個,驗證集7 個。
以波段和波段指數(shù)為輸入, 建立SVR、GA-SVR、ADAFSA-SVR。預測值誤差如圖1,從圖中得到1 號點在三種尋優(yōu)方法下建立的SVR 模型得到的相對誤差都很小基本不超過10%,三個模型中2 號點和7 號點的相對誤差均較大。7 號點的有機質含量是最低的,誤差較大的點其有機質含量偏低,這可能是因為波譜信息對有機質含量低的土壤敏感性差的原因。建立BP、GA-BP、ADAFSA-BP,得到1 號點在3 個模型里面的平均預測效果最好,誤差波動不大,相對誤差都不超過20%。其次就是4 號點的平均預測效果最好,相對誤差在20%左右,在ADAFSA-BP 模型中還不超過10%。其余點號的相對誤差在三種模型中均超過了20%,尤其是7 號點的相對誤差,在三種模型中都是最高的。
圖1 模型預測值誤差
表1 預測模型精度分析
從表1 中可以看出,優(yōu)化后的兩種機器學習模型相比普通的模型在預測精度上有提升。從有機質預測含量的相對誤差情況看,可能是因為波譜信息對有機質含量低的土壤的敏感性低。訓練集除了其中的兩個模型出現(xiàn)了R2超過0.6 的情況,別的模型訓練集決定系數(shù)都低于0.5??梢缘贸瞿P偷木鹊褪且驗檩斎胩卣鬏^少,建立的模型可解釋性低造成。
將高程和Arcgis 提取的坡度、坡向、平面曲率、剖面曲率做相關性分析,高程相關性為-0.217* 、坡度為0.298*、平面曲率-0.277**、坡向為-0.121、剖面曲率為0.302*,得到除了坡向外剩余的地形因子均通過了顯著性檢驗。這說明了地形因子與有機質之間確實存在著一定的聯(lián)系。接下來將地形因子同波信息一起作為輸入特征,來探究是否可以提升模型的精度。
圖2 加入地形因子后模型預測值誤差
以波段、波段指數(shù)和地形因子為模型輸入特征,建立SVR、GA-SVR、ADAFSA-SVR、BP、GA-BP、ADAFSA-BP。預測值誤差如圖2,從圖中可以看出,雖然1 號點受地形輸入特征的影響,相對之前的三種SVR 預測精度降低了,但是在7 號點上的預測精度均有很大的提升,別的點號對應的相對誤差對比之前的SVR 有不同幅度的變化。說明引入地形因子對不同含量的有機質預測精度影響是不一致的,有的呈正相關性,有的呈負相關性。對于波段信息敏感性不高的低有機質含量土壤,地形因子具有非常高的正相關性。
表2 加入地形因子后預測模型精度分析
從表2 中可以看出,引入地形因子后模型的預測效果均有很明顯的提升。從訓練集上同樣可以看出,加入地形因子增加了六種模型對訓練集的解釋能力。ADAFSA-BP 相比GA-BP 和BP;ADAFSA-SVR 相比GA-SVR 和SVR 不管是再訓練集和測試集上面表現(xiàn)的都更加優(yōu)秀。說明改進魚群算法在優(yōu)化支持向量機超參數(shù)和神經網絡初始權值和閾值上,相比遺傳算法、網格搜索法和隨機生成發(fā)都具有一定的優(yōu)勢。
以為指標,對R2超過0.45 的模型進行計算得到GA-SVR為1.37;ADAFSA-SVR 為1.48;GA-BP 為1.39;ADAFSA-BP 為1.54。以大于1.5 為標準,可以得出以加入地形因子后的ADAFSA-BP 和ADAFSA-SVR 算法進行建模得到的模型對研究區(qū)土壤有機質含量的預測是具有一定可靠性的。
以波段和波段指數(shù)為輸入特征的6 個模型中,7 號點的預測誤差均是最高的,說明在本研究區(qū)波段信息對低有機質含量的土壤敏感性較低。加入地形因子做為輸入特征后,雖然別的預測點誤差出現(xiàn)了不同幅度的波動,但是7 號點的預測精度提升非常明顯,各個模型的訓練集和預測集精度均有較明顯的提升,這說明地形因子對于提升有機質含量反演具有較好的正相關作用。以波段信息和地形因子為輸入特征建立的ADAFSA-SVR 模型、ADAFSA-BP 模型可對研究區(qū)的有機質含量進行有效反演其R2分別為0.54、0.57,RPD 分別為1.48、1.54。