亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        土壤屬性數(shù)據(jù)pH缺失的插補(bǔ)方法①

        2021-01-22 05:43:56張逸飛
        關(guān)鍵詞:屬性數(shù)據(jù)補(bǔ)法神經(jīng)網(wǎng)絡(luò)

        張逸飛,曹 佳

        1(北京林業(yè)大學(xué) 信息學(xué)院,北京 100083)

        2(國家林業(yè)草原林業(yè)智能信息處理工程技術(shù)研究中心,北京 100083)

        1 引言

        土壤是農(nóng)業(yè)生產(chǎn)和人類活動中最重要的物質(zhì)基礎(chǔ),土壤屬性數(shù)據(jù)是分析土壤理化性質(zhì)和指導(dǎo)農(nóng)作物種植的重要參考[1].土壤pH 是土壤屬性數(shù)據(jù)中的重要部分,土壤酸堿化會影響土壤性質(zhì)及微量元素的有效性,直接或間接改變土壤肥力,對植物生長發(fā)育造成影響[2].然而由于各種原因,在土壤普查的過程中存在土壤pH 缺失的情況.本文將基于數(shù)據(jù)分析的方法,研究土壤數(shù)據(jù)集的pH 缺失值的填充方法.

        對于土壤屬性數(shù)據(jù)缺失的處理,國際應(yīng)用系統(tǒng)分析協(xié)會(IIASA)的和諧世界土壤數(shù)據(jù)庫(HWSD)中采用擁有相同土壤類型的最適合的鄰居單元的土壤屬性數(shù)據(jù)來替代缺失值[3].韓光中等人運(yùn)用了傳統(tǒng)的土壤屬性推繹模型,通過逐步回歸方法對土壤屬性建立土壤傳遞函數(shù),插補(bǔ)了容重、速效養(yǎng)分、CEC 和氧化鐵的缺失值[4].沈漢靈運(yùn)用灰色關(guān)聯(lián)系數(shù)法,挖掘土壤屬性之間的關(guān)聯(lián)關(guān)系,構(gòu)建經(jīng)驗(yàn)公式來插補(bǔ)土壤鹽基飽和度[5].Gargiulo 等人使用基于條件分布模型的多元回歸方法,歸納土壤屬性數(shù)據(jù)之間的經(jīng)驗(yàn)公式,預(yù)測土壤屬性數(shù)據(jù)的缺失值.該方法考慮變量之間的相關(guān)性問題,在預(yù)測土壤質(zhì)地、容重等屬性時表現(xiàn)很好,但不能很好插補(bǔ)pH 數(shù)據(jù)[6].專門針對土壤屬性數(shù)據(jù)pH 缺失值插補(bǔ)的具體研究較少.

        數(shù)據(jù)缺失問題是一個常見的計(jì)算問題,常用的缺失數(shù)據(jù)處理方法是插補(bǔ)法,即采用一個替代值填補(bǔ)樣本中的缺失數(shù)據(jù),使填補(bǔ)后的數(shù)據(jù)與已有數(shù)據(jù)集的分布一致.多元回歸插補(bǔ)法運(yùn)用數(shù)據(jù)自變量與因變量之間的關(guān)系進(jìn)行插補(bǔ),線性插補(bǔ)法比均值填補(bǔ)法在環(huán)境數(shù)據(jù)集上填補(bǔ)缺失值有更優(yōu)的表現(xiàn)[7].Schafer 在的EM(Expectation Maximization)算法的基礎(chǔ)上,研究了多重插補(bǔ)法的應(yīng)用[8].隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,運(yùn)用機(jī)器學(xué)習(xí)方法處理缺失數(shù)據(jù)近幾年引起了研究者們的廣泛關(guān)注.Jerez 等運(yùn)用乳腺癌的真實(shí)數(shù)據(jù),比較了機(jī)器學(xué)習(xí)插補(bǔ)法和統(tǒng)計(jì)學(xué)插補(bǔ)法,認(rèn)為機(jī)器學(xué)習(xí)插補(bǔ)法在處理高維數(shù)據(jù)時有顯著的優(yōu)勢[9].KNN 及其改進(jìn)算法運(yùn)用本身的K個具有完整值的最近鄰居實(shí)現(xiàn)對缺失數(shù)據(jù)的插補(bǔ),由于操作簡單被廣泛運(yùn)用[10].徐凱等將隨機(jī)森林回歸預(yù)測算法運(yùn)用在地震插值中,結(jié)果表明隨機(jī)森林插補(bǔ)方法能夠很好補(bǔ)全缺失信息,而且數(shù)據(jù)差異性較小[11].吳郁等比較了Logistic 回歸、Probit 回歸、樸素貝葉斯和隨機(jī)森林方法在船舶交通事故數(shù)據(jù)集上的應(yīng)用,并證明了隨機(jī)森林方法插補(bǔ)缺失值的精度更優(yōu)[12].朱夢成等將SVM 算法應(yīng)用于處理醫(yī)療數(shù)據(jù)和社會調(diào)查數(shù)據(jù)中,處理分類數(shù)據(jù)和連續(xù)型數(shù)據(jù)的缺失值[13].謝曉凱等運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)建立空間結(jié)構(gòu)中測點(diǎn)應(yīng)力間、溫度與應(yīng)力間的相關(guān)關(guān)系模型,并對其進(jìn)行了適用性分析[14].

        本文針對土壤屬性數(shù)據(jù)pH 的缺失問題,將對比多元回歸、KNN、隨機(jī)森林、SVM 和神經(jīng)網(wǎng)絡(luò)5 個插補(bǔ)方法,從而選取插補(bǔ)正確率最高的方法.

        2 研究方法

        由于土壤屬性數(shù)據(jù)中全是數(shù)值型連續(xù)變量,以下介紹多元回歸、K 最近鄰、隨機(jī)森林、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)共五種方法插補(bǔ)數(shù)值型連續(xù)變量的原理,以及缺失值插補(bǔ)方法的評價方法.

        2.1 多元回歸插補(bǔ)法

        多元回歸插補(bǔ)法(Multiple Regression,MR)考慮到變量之間的線性相關(guān)性,運(yùn)用回歸模型預(yù)測缺失值.插補(bǔ)缺失數(shù)據(jù)時,引入隨機(jī)殘差項(xiàng)與插補(bǔ)值相加,作為最終插補(bǔ)結(jié)果,使多元回歸插補(bǔ)法插補(bǔ)的缺失數(shù)據(jù)不會扭曲樣本的分布.

        2.2 K 最近鄰插補(bǔ)法

        K 最近鄰插補(bǔ)法(K-Nearest Neighbor,KNN)運(yùn)用數(shù)據(jù)集中每條樣本的完整屬性,計(jì)算缺失數(shù)據(jù)樣本與完整數(shù)據(jù)樣本之間的距離.在所有完整數(shù)據(jù)樣本中,選擇與目標(biāo)缺失數(shù)據(jù)樣本最小的K個數(shù)據(jù)樣本作為目標(biāo)缺失樣本的最近鄰.最后利用這K個數(shù)據(jù)樣本的缺失屬性的平均值來插補(bǔ)目標(biāo)缺失樣本中的缺失值.

        2.3 隨機(jī)森林插補(bǔ)法

        隨機(jī)森林的思想是通過Bootstrap 抽樣技術(shù),有放回的在原始訓(xùn)練集上獲得N個子訓(xùn)練集,然后在這N個子訓(xùn)練集的基礎(chǔ)上分別構(gòu)建回歸樹,組合得到隨機(jī)森林模型.當(dāng)輸出是連續(xù)型變量時,其基礎(chǔ)是CART 回歸樹算法.CART 算法使用Gini 指數(shù)來度量隨機(jī)變量的不確定度的大小,以此選擇劃分屬性.

        2.4 支持向量機(jī)插補(bǔ)法

        采用SVM 回歸模型插補(bǔ)連續(xù)型數(shù)據(jù).SVM 回歸模型的優(yōu)化問題是構(gòu)造精度高、復(fù)雜性低的模擬函數(shù)來擬合真實(shí)樣本數(shù)據(jù).模型引入損失函數(shù)來量化模型的預(yù)測值和樣本的真實(shí)值的差距,懲罰參數(shù)判斷預(yù)測模型擬合的好壞.

        2.5 神經(jīng)網(wǎng)絡(luò)插補(bǔ)法

        神經(jīng)網(wǎng)絡(luò)(neural networks)在系統(tǒng)建模與非線性映射方面具有很強(qiáng)的適用性,因此可以認(rèn)為是缺失數(shù)據(jù)插補(bǔ)的有效手段.在眾多的神經(jīng)網(wǎng)絡(luò)當(dāng)中,反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)由于其較高的穩(wěn)定性和精度被廣泛運(yùn)用.BP 神經(jīng)網(wǎng)絡(luò)通過誤差反饋傳播算法,建立輸入與相應(yīng)輸出之間的映射關(guān)系,從而建立缺失數(shù)據(jù)的預(yù)測模型

        2.6 缺失數(shù)據(jù)插補(bǔ)方法的評價方法

        在進(jìn)行插補(bǔ)方法的評價時,為了避免計(jì)算出的插補(bǔ)數(shù)據(jù)沒有參照,選取土壤完整屬性數(shù)據(jù)樣本中的數(shù)據(jù),按照一定缺失比例使屬性數(shù)據(jù)pH 缺失,生成對應(yīng)的缺失屬性數(shù)據(jù)樣本.其中,生成的缺失屬性數(shù)據(jù)樣本數(shù)量為N,yi表示第i條屬性數(shù)據(jù)pH 的真實(shí)值,y?i表示其插補(bǔ)值.

        (1)擬合優(yōu)度

        采用決定系數(shù)R2(coefficient of determination)用于判斷真實(shí)值和插補(bǔ)值的擬合優(yōu)度,其取值范圍是[0,1].其值越接近于1 代表變量之間有更好的擬合.決定系數(shù)的計(jì)算公式如下:

        其中,SSR(Regression Sum of Squares)稱為回歸平方和,SST(Total Sum of Squares)稱為總平方和.對于簡單線性回歸而言,決定系數(shù)為樣本相關(guān)系數(shù)的平方[15],即有:

        其中,σy和分別是pH 真實(shí)值和插補(bǔ)值的標(biāo)準(zhǔn)差.

        (2)插補(bǔ)誤差

        本文采用平均絕對誤差(Mean Absolute Error,MAE)與均方根誤差(Root Mean Square Error,RMSE)來反映了真實(shí)值與插補(bǔ)值之間的誤差,它們的值越小,代表插補(bǔ)值與真實(shí)值越接近,插補(bǔ)方法對數(shù)據(jù)集的插補(bǔ)效果越好.

        3 結(jié)果與分析

        3.1 數(shù)據(jù)說明

        在一條土壤屬性數(shù)據(jù)樣本中,如果一條樣本中包含所有監(jiān)測的土壤屬性,稱為完整屬性數(shù)據(jù)樣本,否則稱為缺失屬性數(shù)據(jù)樣本.本文數(shù)據(jù)來自于中國科學(xué)院南京土壤研究所“中國主要農(nóng)田生態(tài)系統(tǒng)土壤養(yǎng)分?jǐn)?shù)據(jù)庫(1990-2006)”[16].本文采用該數(shù)據(jù)庫中砂粒含量、粉粒含量、容重平均值、容重標(biāo)準(zhǔn)差、有機(jī)質(zhì)、全氮、全磷、全鉀和pH 共9 個屬性為分析對象,選取458 條土壤數(shù)據(jù)樣本,其中完整屬性數(shù)據(jù)樣本148 條,僅缺失pH 屬性數(shù)據(jù)樣本310 條.

        本文采用交叉驗(yàn)證法對土壤數(shù)據(jù)缺失數(shù)據(jù)的插補(bǔ)結(jié)果進(jìn)行評估.在148 條土壤的完整屬性數(shù)據(jù)樣本中,通過隨機(jī)剔除屬性數(shù)據(jù)pH 的方法,以不同的比例分別構(gòu)造訓(xùn)練集和驗(yàn)證集.例如,在完整屬性數(shù)據(jù)樣本中隨機(jī)剔除10%的屬性數(shù)據(jù)pH 產(chǎn)生缺失屬性數(shù)據(jù)樣本作為驗(yàn)證集,其余完整屬性數(shù)據(jù)樣本為訓(xùn)練集;以此再以20%,30%,40%,50%,60%和70%的比例分別構(gòu)造6 對訓(xùn)練集和驗(yàn)證集.插補(bǔ)方法運(yùn)用各訓(xùn)練集來建立對應(yīng)的缺失數(shù)據(jù)的插補(bǔ)模型,驗(yàn)證集用來調(diào)節(jié)各方法的參數(shù),選擇具有最小泛化誤差的模型作為最終模型.我們將310 條pH 有缺失的數(shù)據(jù)構(gòu)成測試集,用來最終評估模型對缺失數(shù)據(jù)的插補(bǔ)效果.

        3.2 各方法的最佳參數(shù)的設(shè)置

        采用不同的插補(bǔ)方法,在訓(xùn)練集樣本分別建立不同的缺失值插補(bǔ)模型,運(yùn)用對應(yīng)的驗(yàn)證集對方法的參數(shù)進(jìn)行最優(yōu)化調(diào)參.本文分別選取各方法的部分主要參數(shù)進(jìn)行調(diào)節(jié),采用網(wǎng)格搜索算法選出各方法的最優(yōu)參數(shù).經(jīng)過調(diào)研,在KNN 方法中,調(diào)節(jié)待插補(bǔ)樣本的最近鄰居數(shù)量K值[17];在隨機(jī)森林方法中,調(diào)節(jié)控制生成一棵決策樹所隨機(jī)選取的屬性特征數(shù)量和最終生成的決策樹數(shù)[18];在SVM 方法中,采用RBF 核函數(shù),調(diào)節(jié)核參數(shù)和誤差懲罰因子[19];在BP 神經(jīng)網(wǎng)絡(luò)方法中,調(diào)節(jié)網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)量、學(xué)習(xí)速率、優(yōu)化算法、最大訓(xùn)練次數(shù)、dropout 比例、期望誤差和各層神經(jīng)元的激活函數(shù)[20].通過在上述驗(yàn)證集上訓(xùn)練進(jìn)行調(diào)參,得到不同方法在中國主要農(nóng)田生態(tài)系統(tǒng)土壤養(yǎng)分?jǐn)?shù)據(jù)庫上建立插補(bǔ)模型插補(bǔ)土壤屬性數(shù)據(jù)pH 時的最佳參數(shù)如表1.

        3.3 插補(bǔ)方法對比

        針對中國主要農(nóng)田生態(tài)系統(tǒng)土壤養(yǎng)分?jǐn)?shù)據(jù)庫中屬性屬性pH 缺失的問題,在對應(yīng)缺失率的驗(yàn)證集上,5 個具有最優(yōu)化參數(shù)的方法構(gòu)造的模型所得的插補(bǔ)結(jié)果的平均絕對誤差MAE、均方根誤差RMSE和決定系數(shù)R2如圖1所示.

        表1 不同插補(bǔ)方法的最優(yōu)參數(shù)選擇

        圖1 不同插補(bǔ)方法的實(shí)驗(yàn)結(jié)果對比

        由圖1可知,隨著缺失率的增加,KNN、隨機(jī)森林和支持向量機(jī)的插補(bǔ)效果均呈下降趨勢.其中,KNN和隨機(jī)森林的插補(bǔ)效果波動性較小.在缺失率10%~20%時,KNN 方法表現(xiàn)更好,在缺失率40%時,隨機(jī)森林方法表現(xiàn)更好,其他情況下兩方法的評價指標(biāo)均較為接近.SVM 方法插補(bǔ)效果受缺失率影響較大,隨著缺失率的增加,該方法的插補(bǔ)效果越來越差.多元回歸方法插補(bǔ)缺失數(shù)據(jù)在缺失為40%時插補(bǔ)效果最優(yōu).該方法插補(bǔ)缺失值的表現(xiàn)隨著缺失率的增加,先增加后下降,此結(jié)論與文獻(xiàn)[7]一致.神經(jīng)網(wǎng)絡(luò)插補(bǔ)效果的波動性較大,在缺失率為20%時插補(bǔ)效果較好.

        由評價指標(biāo)可知,在任何缺失率下,多元回歸、SVM和神經(jīng)網(wǎng)絡(luò)插補(bǔ)屬性數(shù)據(jù)pH 時,插補(bǔ)能力均較弱.KNN和隨機(jī)森林方法的MAE和RMSE值都是最小,R2值都更接近于1,因此二者的插補(bǔ)效果都是最好的.為了進(jìn)一步對比KNN 和隨機(jī)森林方法,我們對中國主要農(nóng)田生態(tài)系統(tǒng)土壤養(yǎng)分?jǐn)?shù)據(jù)庫中310 條pH 有缺失的測試集進(jìn)行插補(bǔ)操作,并且將插補(bǔ)后的數(shù)據(jù)特征與148 條完整數(shù)據(jù)樣本進(jìn)行對比,結(jié)果如表2所示.從表可見,KNN 所得插補(bǔ)后的均值、最大值和最小值更接近完整數(shù)據(jù)樣本更接近完整數(shù)據(jù)樣本,因此KNN 可以更靈活地插補(bǔ)pH 數(shù)據(jù)的最值.

        表2 測試集和完整數(shù)據(jù)樣本的pH 數(shù)據(jù)特征

        4 結(jié)束語

        針對土壤屬性數(shù)據(jù)pH 缺失這個在土壤調(diào)查研究中的常見問題,本文從真實(shí)值和插補(bǔ)值的擬合優(yōu)度和插補(bǔ)誤差兩個方面比較了5 種缺失數(shù)據(jù)插補(bǔ)方法在不同pH 缺失率情況下插補(bǔ)效果.實(shí)驗(yàn)結(jié)果表明,多元回歸、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)方法不適合用于插補(bǔ)pH數(shù)據(jù).KNN 算法和隨機(jī)森林方法所受數(shù)據(jù)集和缺失率的影響較小,建立的模型表現(xiàn)穩(wěn)定,兩者均適合用于土壤屬性數(shù)據(jù)pH 值的插補(bǔ).

        猜你喜歡
        屬性數(shù)據(jù)補(bǔ)法神經(jīng)網(wǎng)絡(luò)
        基于絡(luò)病理論探討絡(luò)虛通補(bǔ)法在氣虛血瘀型椎動脈型頸椎病中的應(yīng)用
        基于少數(shù)類過采樣的傾向得分匹配插補(bǔ)法
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        基于GIS的房產(chǎn)測繪管理信息系統(tǒng)架構(gòu)研究
        科技資訊(2019年18期)2019-09-17 11:03:28
        無源多傳感器綜合數(shù)據(jù)關(guān)聯(lián)算法研究
        屬性數(shù)據(jù)分析教學(xué)改革初探
        響應(yīng)傾向得分匹配插補(bǔ)法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        国产精品久久久久影院| 国产精品乱码人妻一区二区三区| 久久99精品国产麻豆不卡| 丰满少妇人妻无码专区| 欧美一级鲁丝片免费一区| 加勒比久久综合久久伊人爱| 免费国产a国产片高清网站 | 国产亚洲成av人片在线观看| 制服丝袜人妻中文字幕在线| 亚洲欧洲日产国码久在线| 中文字幕一区乱码在线观看| 深夜福利啪啪片| 精品综合久久久久久97超人| 中文字幕高清无码不卡在线| 日本最新视频一区二区| 香港三级日本三级a视频| 国产免费资源高清小视频在线观看| 久草国产手机视频在线观看| 亚洲毛片在线免费视频| 国产精品亚洲欧美大片在线看| 国产成人AV无码精品无毒 | 国产精品理论片| 国产视频毛片| 国产亚洲激情av一区二区| 人妻少妇偷人精品久久性色av| 黑人巨大av在线播放无码| 国产乱人伦真实精品视频| 日本a级片一区二区三区| 无码国内精品久久人妻| 91spa国产无码| 亚洲黄色一插一抽动态图在线看| 亚洲一区毛片在线观看| 成人性做爰aaa片免费看| 日韩激情网| 精品久久综合日本久久综合网| 亚洲中文字幕久久无码精品| 亚洲自拍另类欧美综合| 中文字幕精品久久一区二区三区| 亚洲爆乳精品无码一区二区三区| 最新亚洲人成无码网站| 在线观看黄片在线播放视频|