王廷超 王國偉 安宇
摘? 要: 針對傳統(tǒng)預(yù)測模型預(yù)測土壤養(yǎng)分含量精度低的問題,設(shè)計基于大數(shù)據(jù)統(tǒng)計的土壤養(yǎng)分含量預(yù)測模型。使用光譜采集儀采集土壤養(yǎng)分含量數(shù)據(jù),對數(shù)據(jù)進行平滑、標準化和正交化處理,消除影響預(yù)測精的數(shù)據(jù)。對處理后的光譜圖進行分析,總結(jié)土壤養(yǎng)分大數(shù)據(jù)規(guī)律,明確在反射曲線突變處的不同波段對應(yīng)不同含量的土壤養(yǎng)分。重復(fù)多次后,完成對模型精度的校驗,實現(xiàn)基于大數(shù)據(jù)統(tǒng)計的土壤養(yǎng)分含量預(yù)測模型的設(shè)計。通過與傳統(tǒng)模型的對比實驗,驗證設(shè)計的模型能夠提高大約3倍的預(yù)測精度,更適用于對土壤養(yǎng)分含量進行預(yù)測。
關(guān)鍵詞: 預(yù)測模型; 土壤養(yǎng)分含量; 大數(shù)據(jù)統(tǒng)計; 模型設(shè)計; 光譜分析; 模型測試
中圖分類號: TN911.34?34; TP273? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)08?0012?03
Design of soil nutrient content prediction model based on big data statistics
WANG Tingchao, WANG Guowei, AN Yu
(College of Information and Technology Science, Jilin Agricultural University, Changchun 130118, China)
Abstract: A soil nutrient content prediction model based on big data statistics is designed to improve the low accuracy of traditional prediction model in predicting soil nutrient content. The data of soil nutrient content is collected with the spectral acquisition instrument, and the data is smoothed, standardized and normalized to eliminate the influence of prediction precision. The processed spectrogram is analyzed to summarize the rule of big data of soil nutrients, and it is clear that different bands at the abrupt change of reflection curve correspond to different contents of soil nutrients. The checking of model precision is completed after repeated for many times, and the design of soil nutrient content prediction model based on big data statistics is realized. The experimental results verify that, in comparison with the traditional model, the designed model can increase the prediction accuracy by about 3 times, and is more suitable for the prediction of soil nutrient content.
Keywords: prediction model; soil nutrient content; big data statistics; model design; spectrum analysis; model measurement
0? 引? 言
土壤養(yǎng)分含量影響當?shù)刂脖弧⒆魑锏纳L態(tài)勢,進而影響土壤所在地的水土條件。充分了解土壤養(yǎng)分含量,對于農(nóng)業(yè)發(fā)展意義重大。土壤養(yǎng)分含量決定土地生產(chǎn)力,通過對其的預(yù)測,可以更科學(xué)地決策土地使用方式,選擇適宜技術(shù)手段對土壤養(yǎng)分含量進行調(diào)整[1]。隨著現(xiàn)代科學(xué)技術(shù)快速發(fā)展,遙感、地統(tǒng)計學(xué)等方法手段,亦可實現(xiàn)對土壤養(yǎng)分含量的預(yù)測。傳統(tǒng)土壤養(yǎng)分含量預(yù)測模型,由于使用實驗室分析數(shù)據(jù),不僅在數(shù)據(jù)采集階段耗費時間長、成本高,而且因為預(yù)測模型預(yù)測依據(jù)數(shù)據(jù)不具有實時性,導(dǎo)致預(yù)測精度低、預(yù)測周期長。
大數(shù)據(jù)統(tǒng)計是海量數(shù)據(jù)分析數(shù)據(jù)間規(guī)律的基礎(chǔ)。大數(shù)據(jù)出現(xiàn)使得土壤養(yǎng)分含量預(yù)測能夠有更為強大的數(shù)據(jù)分析基礎(chǔ)[2]。本文設(shè)計的土壤養(yǎng)分含量預(yù)測模型基于大數(shù)據(jù)統(tǒng)計進行設(shè)計。
1? 模型設(shè)計
如圖1所示,本文設(shè)計的土壤養(yǎng)分含量預(yù)測模型為實現(xiàn)對土壤養(yǎng)分含量的高精度預(yù)測,使用采集到的土壤養(yǎng)分含量數(shù)據(jù)為樣本數(shù)據(jù),通過對樣本數(shù)據(jù)的一系列處理,得到處理結(jié)果并根據(jù)處理結(jié)果反演出土壤養(yǎng)分含量,實現(xiàn)對土壤養(yǎng)分含量的預(yù)測,完成土壤養(yǎng)分預(yù)測模型的設(shè)計。
1.1? 土壤養(yǎng)分含量數(shù)據(jù)采集
本文采集土壤養(yǎng)分數(shù)據(jù)使用光譜采集儀,利用土壤中不同養(yǎng)分含量對光譜儀檢測光的折射、反射后的光譜不同,得到土壤的光譜。使用采集儀自帶軟件,得到土壤光譜數(shù)據(jù)[3]。將目標區(qū)域根據(jù)土壤上植被、作物、水含量等不同條件進行高密度劃分。采集時,將光譜采集儀的光纖探頭固定在三腳架上,將土壤整平,探頭水平距土壤約5 cm,與水平夾角大約為45°,將采集目標中心點與光源中心點重合[4]。定期使用標準板對探頭進行定標,完成土壤養(yǎng)分含量數(shù)據(jù)采集。盡管在采集過程中盡可能減弱外界因素干擾,土壤本身會存在一定影響預(yù)測精度的因素,采集的土壤養(yǎng)分含量數(shù)據(jù)需進行數(shù)據(jù)處理。
1.2? 土壤養(yǎng)分含量數(shù)據(jù)處理
針對光譜測量土壤養(yǎng)分含量數(shù)據(jù)中一部分由于無關(guān)因素干擾導(dǎo)致的數(shù)據(jù)偏差,使用平滑方法去除噪聲;對數(shù)據(jù)進行標準化處理來降低誤差;利用多遠散射校正和求導(dǎo)提取光譜有效信息[5]。
使用卷積平滑方法,利用最小二乘擬合系數(shù)作為數(shù)字濾波函數(shù)的各項參數(shù),對原光譜進行卷積平滑處理。通過卷積平滑后的光譜數(shù)據(jù)消除了光譜中的高頻隨機誤差,經(jīng)過擬合后的信號信噪比提升,完成了光譜數(shù)據(jù)噪聲處理[6]。平滑處理后的土壤養(yǎng)分含量數(shù)據(jù),通過二次微分,消除隱藏譜帶特征,去除譜帶中的重疊,二次微分公式如下:
式中:g為微分寬度即查分度;x為在進行微分前的光譜吸光度;X為微分后的光譜吸光度。按照式(1),分別對數(shù)據(jù)進行一階和二階微分。由于光的干涉性,采集的土壤養(yǎng)分含量光譜數(shù)據(jù)微分后,會縮短微分光譜峰值的寬度,進而在較窄的峰值處更強調(diào)光譜吸收效果[7]。光譜數(shù)據(jù)中的光漂移去除,凸顯出包含信息的光譜數(shù)據(jù)源。
兩次微分后數(shù)據(jù)需通過數(shù)據(jù)標準化,對因光的散射現(xiàn)象產(chǎn)生的誤差進行校正。根據(jù)SNV校正理論,在同一光譜中,不同波長點的吸光度數(shù)值應(yīng)滿足正態(tài)分布[8]。因此,按照式(2)對土壤養(yǎng)分含量數(shù)據(jù)做標準正態(tài)化處理:
式中:s為正態(tài)標準化后的數(shù)據(jù);x為未處理數(shù)據(jù);[μ]為光譜平均值;[σ]為光譜數(shù)據(jù)標準偏差。正態(tài)標準化后,數(shù)據(jù)均值為0,標準差為1。消除了因線性平移產(chǎn)生顆粒度和附加散射影響[9]。
測量土壤養(yǎng)分含量時,數(shù)據(jù)采集難免會受到溫度、空氣濕度、土壤含水量等干擾因素影響。通過使用EPO算法,將不需要的干擾量投射到正交空間,從而實現(xiàn)濾除干擾的目的[10]。假設(shè)n條測量光譜組成二維空間S,則光譜表現(xiàn)形式為:
式中:C為土壤養(yǎng)分物質(zhì)產(chǎn)生的光譜效應(yīng),即需預(yù)測的數(shù)據(jù);G為外界無法根除的變量因素引起光譜效應(yīng),且C與G相互獨立,G為需要消除的干擾;R為獨立冗余部分,不對最終預(yù)測結(jié)果產(chǎn)生影響[11]。用采集儀獲取土壤養(yǎng)分含量數(shù)據(jù)時,只外部干擾參數(shù)變化,需檢測的養(yǎng)分物質(zhì)不變,影響變量正交處理后,映射到二維空間,一維空間數(shù)據(jù)為只包含土壤養(yǎng)分含量信息數(shù)據(jù)。對經(jīng)過一系列處理后的數(shù)據(jù)進行分析,實現(xiàn)對土壤養(yǎng)分含量預(yù)測。
1.3? 土壤養(yǎng)分含量數(shù)據(jù)分析
圖2? 光譜反射曲線
從圖2可以看出,光譜波段在350~780 nm時,光譜反射率的增長速度較快,波段在520~600 nm的綠色光增長最為明顯,其次是波段為450~520 nm的藍綠波段和640~700 nm的紅色波段。由于提供土壤養(yǎng)分的有機物質(zhì)對可見光波段有明顯影響,因此對光譜曲線做包絡(luò)線消除處理。處理后的反射光譜,能夠更清晰地顯示土壤反射光譜的吸收特征[12]。
分析包絡(luò)線消除處理后的曲線,出現(xiàn)明顯吸收峰的波長值,對應(yīng)不同土壤養(yǎng)分含量反射光譜波段[13]。從光譜反射曲線,反射率突變位置為特征位置。選取突變位置的光譜反射率,兩點間反射率差值與波長差值的比值,為特征光譜波段的趨勢斜率[14]。校驗預(yù)測結(jié)果精度,計算真實值與預(yù)測值之間的差值,經(jīng)過多次計算取平均值,得到預(yù)測土壤養(yǎng)分含量的相對誤差區(qū)間[15]。實際最終預(yù)測值為光譜預(yù)測值在相對誤差區(qū)間的上下取值。至此,完成基于大數(shù)據(jù)分析的土壤養(yǎng)分含量預(yù)測模型設(shè)計。
2? 模型測試
為驗證本文模型的精度,設(shè)計對比實驗。本文設(shè)計的模型為實驗組,傳統(tǒng)模型為對照組,實驗變量為不同土壤養(yǎng)分含量,控制實驗變量唯一。
2.1? 測試內(nèi)容
實驗對象為野外采集土壤表層至10 cm以內(nèi)的40份土壤樣本。剔除樣本內(nèi)的石子、植物根系等雜質(zhì)。從40份樣本中分取一部分送入實驗室,經(jīng)過溶液萃取等方法,獲取上清液,從而得到實際土壤樣本養(yǎng)分含量數(shù)據(jù)。將分取后的40份土壤樣本平均分為兩份,在如表1所示的實驗環(huán)境下,使用實驗組和對照組兩個預(yù)測模型進行預(yù)測,得到實驗結(jié)果。
2.2? 測試步驟
為簡化實驗步驟,從野外采集土壤樣品,在實驗室完成實驗。將實驗用地根據(jù)植被、土壤類型等分區(qū),按照50 cm×50 cm的規(guī)格對土壤進行劃分。使用干凈無菌的取樣器材,取表層至深度10 cm的土壤樣品,放入無菌密封袋中。設(shè)定土壤養(yǎng)分為有機類物質(zhì),使用烘干機對土壤樣品進行烘干,并過篩。將每份土壤樣品留取一部分,送入化學(xué)實驗室,使用檢測儀器精準確定各土壤樣品的養(yǎng)分含量。按照養(yǎng)分含量高低降次排序編號,為保證養(yǎng)分含量真實值為線性,人工向樣本中添加化學(xué)物質(zhì)進行養(yǎng)分含量糾正。將剩余土壤樣品均分為兩份,實驗組和對照組模型同時完成土壤養(yǎng)分含量預(yù)測。使用Matlab軟件處理實驗組和對照組模型的預(yù)測結(jié)果與真實值離散度,并繪制結(jié)果圖。
2.3? 測試結(jié)果
以實驗室驗出養(yǎng)分含量實測值為基線,實驗組和對照組預(yù)測值為離散數(shù)據(jù)點,結(jié)果如圖3所示。分析圖3可知,相比對照組數(shù)據(jù)點,實驗組數(shù)據(jù)點更靠近真實值曲線,離散情況要好于對照組數(shù)據(jù)點,數(shù)據(jù)相對誤差小。計算兩組數(shù)據(jù)點與真實曲線擬合度,實驗組為0.125 7,對照組為0.378 2,說明實驗組的預(yù)測精度約為對照組的3倍。綜上所述,本文設(shè)計基于大數(shù)據(jù)分析的土壤養(yǎng)分含量預(yù)測模型能夠提高傳統(tǒng)預(yù)測模型精度近3倍,更具有優(yōu)越性。
3? 結(jié)? 語
土壤養(yǎng)分含量是決定土地生產(chǎn)力的關(guān)鍵因素,使用科學(xué)技術(shù)手段來提高土壤養(yǎng)分含量的預(yù)測精度,一直是研究人員重要目標。大數(shù)據(jù)為提高土壤養(yǎng)分含量提供了新的支撐。針對傳統(tǒng)預(yù)測模型精度低的問題,本文設(shè)計了基于大數(shù)據(jù)的土壤養(yǎng)分含量預(yù)測模型,通過對比實驗驗證了本文設(shè)計的預(yù)測模型能夠有效提高近3倍的預(yù)測精度,更具有優(yōu)越性。
參考文獻
[1] 王永祥,王鵬.基于大數(shù)據(jù)的Web入侵風險預(yù)測[J].現(xiàn)代電子技術(shù),2017,40(18):158?160.
[2] 時元寧.基于大數(shù)據(jù)分析的消費額度估計模型[J].現(xiàn)代電子技術(shù),2018,41(24):156?158.
[3] 史金梅,夏偉.基于大數(shù)據(jù)分析的學(xué)生最優(yōu)選課方案模型的設(shè)計與實現(xiàn)[J].現(xiàn)代電子技術(shù),2017,40(14):30?32.
[4] 朱佳佳,胡登利,洪秀琴,等.基于時空大數(shù)據(jù)的甲型肝炎發(fā)病率分布特征分析及預(yù)測模型[J].中華疾病控制雜志,2018,22(11):62?65.
[5] 趙丹.基于大數(shù)據(jù)分析的運動損傷估計模型設(shè)計[J].現(xiàn)代電子技術(shù),2017,40(17):101?104.
[6] 焦志倫,金紅,劉秉鐮,等.大數(shù)據(jù)驅(qū)動下的共享單車短期需求預(yù)測:基于機器學(xué)習(xí)模型的比較分析[J].商業(yè)經(jīng)濟與管理,2018(8):16?25.
[7] 李俊穎,李新舉,吳克寧,等.濟寧引黃復(fù)墾區(qū)不同年限土壤養(yǎng)分變化預(yù)測[J].土壤學(xué)報,2018,55(6):1358?1366.
[8] 楊煜岑,楊聯(lián)安,王晶,等.基于多元線性回歸模型的土壤養(yǎng)分空間預(yù)測:以陜西省藍田縣農(nóng)耕區(qū)為例[J].土壤通報,2017,48(5):1102?1113.
[9] 冷喜武,陳國平,蔣宇,等.智能電網(wǎng)監(jiān)控運行大數(shù)據(jù)應(yīng)用模型構(gòu)建方法[J].電力系統(tǒng)自動化,2018,42(20):115?122.
[10] 姜小剛,王海陽,郝勇,等.基于ArcGIS和Vis?NIR臍橙園土壤養(yǎng)分含量分布圖預(yù)測研究[J].光譜學(xué)與光譜分析,2016(z1):128?129.
[11] 蔣燁林,王讓會,李焱,等.艾比湖流域不同土地覆蓋類型土壤養(yǎng)分高光譜反演模型研究[J].中國生態(tài)農(nóng)業(yè)學(xué)報,2016,24(11):1555?1564.
[12] 祁亞琴,張顯峰,張立福,等.基于高光譜數(shù)據(jù)的農(nóng)田土壤養(yǎng)分含量估測模型研究[J].新疆農(nóng)業(yè)科學(xué),2018,55(3):47?51.
[13] 王苗苗,陳洪松,付同剛,等.典型喀斯特小流域不同植被類型間土壤養(yǎng)分的差異性及其空間預(yù)測方法[J].應(yīng)用生態(tài)學(xué)報,2016,27(6):1759?1766.
[14] 張楚天,楊勇,賀立源,等.基于環(huán)境因子和聯(lián)合概率方法的土壤有機質(zhì)空間預(yù)測[J].土壤學(xué)報, 2014(3):666?673.
[15] 石媛媛,鄧明軍,唐健,等.基于空間分析的森林土壤養(yǎng)分分級方法[J].草業(yè)科學(xué),2016,33(6):1112?1117.