亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林的溫瑞塘河總氮模擬與預測

        2017-08-16 05:18:22王學東王振峰
        浙江農業(yè)科學 2017年7期
        關鍵詞:重要性模型

        王學東,黃 宏,梅 琨,商 栩,夏 芳,王振峰*

        (1.溫州醫(yī)科大學 浙南水科學研究院,浙江 溫州 325035; 2.浙江省流域水環(huán)境與健康風險研究重點實驗室,浙江 溫州 325035)

        ?

        基于隨機森林的溫瑞塘河總氮模擬與預測

        王學東1,2,黃 宏1,2,梅 琨1,2,商 栩1,2,夏 芳1,2,王振峰1,2*

        (1.溫州醫(yī)科大學 浙南水科學研究院,浙江 溫州 325035; 2.浙江省流域水環(huán)境與健康風險研究重點實驗室,浙江 溫州 325035)

        為快速獲得水體中總氮含量,采用隨機森林方法建立總氮預測回歸模型。結果顯示,較少的數據異常值仍會造成隨機森林模型較大的誤差,去除4.6%的異常值后,模型均方根誤差(MSE)降低了42.4%。隨機森林模型可對自變量的相對重要性做出評估,對總氮而言,最重要的變量是氨氮,模型2個主要參數隨機樹數量(ntree)和隨機分割變量數(mtry)的值分別為400和2。在選擇合適的參數值時,隨機森林模型不易出現過擬合顯示,建立的隨機森林模型可以快速預測水體中總氮的含量。

        隨機森林; 回歸模型; 溫瑞塘河; 總氮

        溫瑞塘河是溫州重要的河網水系,位于甌江以南、飛云江以北的溫瑞平原,屬于典型的城市平原河網。其水源主要來自瞿溪、雄溪、郭溪(通稱三溪)以及大羅山和集云山的山澗溪流,流域面積740 km2,水域面積22 km2,主河道33.85 km,大小河流共1 178 km,正常蓄水量6 500萬m3。從20世紀80年代起,由于經濟過度發(fā)展、人口急劇增加和環(huán)境基礎設施不完善,溫瑞塘河水環(huán)境逐漸惡化,水體污染,河床淤積,多數河段水質長期處于劣V類。目前,溫瑞塘河主要污染源為城市生活污水,主要超標指標為氨氮和總磷。自2013年以來,溫州市全面實施“五水共治”,建設浙南美麗水鄉(xiāng)專項整治行動,水環(huán)境明顯改善。但是,由于地表水環(huán)境標準中未對河流總氮規(guī)定限值,一般地,總氮并未被納入城市河流治理過程中。根據溫州市2017年最新行動計劃,在2017年底前將全面消除市控以上斷面的劣V類水。2016年最新監(jiān)測數據顯示,即使在氨氮指標優(yōu)于V類水的站位,其水體總氮含量仍在2.15~8.83 mg·L-1,富營養(yǎng)化程度仍然很高。因此,在城市河道治理中,對總氮指標也應給予足夠的重視。

        在以生活污水為主要污染源的城市河流中,氨氮是主要污染指標之一,且總氮往往與氨氮有較強的相關性[1-2]。隨著傳感器技術的發(fā)展,部分水質指標已可通過YSI等便攜式儀器現場獲得,如溶解氧、氨氮、溫度等,但仍有許多指標需要在實驗室檢測獲得,如硝氮、總氮、總磷等。在總氮檢測過程中,由于水樣處理及硝化等多個環(huán)節(jié)可能存在問題,導致經常出現總氮檢測值小于無機氮之和的現象[3-4]。部分研究利用水質模型和統(tǒng)計方法建立起總氮預測模型,取得了較好的結果,如模糊線性回歸模型[5]、馬爾可夫鏈[6]、神經網絡[7]、多元回歸模型[8]等。本研究通過對溫瑞塘河現場監(jiān)測獲得的各項水質指標數據,建立總氮預測模型,旨在為現場快速計算總氮濃度提供方法參考。

        1 材料與方法

        1.1 數據獲取

        從2008年開始,在溫瑞塘河溫州市區(qū)段布設40個監(jiān)測點,每月監(jiān)測1次。監(jiān)測站點如圖1所示。本研究所用的數據是2008年6月至2010年12月以及2015年12月至2016年12月的監(jiān)測數據。監(jiān)測范圍僅限于溫瑞塘河溫州市區(qū)范圍。在2008—2010年,共設置監(jiān)測點40個;2015—2016年,在上述40個點中僅選取布設了17個監(jiān)測點。除水體總氮和濁度指標在實驗室檢測獲得外,其他指標均由YSI現場測得。

        其中,總氮采用堿性過硫酸鉀消解—紫外分光光度法分析,濁度采用分光光度法分析。

        圖1 水質監(jiān)測點的分布

        1.2 模型建立

        隨機森林是較常用的一種機器學習方法,由Breiman于2001年正式提出[9],并給出了完整原理和證明。其本質是由多棵分類與回歸樹(classification and regression tree,CART)構成的一種集成算法,能夠同時處理分類和回歸問題。隨機森林無須考慮變量假設條件,可同時接受分類變量和數值變量,可評估變量重要性,對變量的統(tǒng)計分布也不敏感,不會過擬合,不需交叉驗證,模型參數少。這使其成為較受歡迎的分類模型之一。隨機森林算法已在許多常用統(tǒng)計軟件或數據挖掘軟件中實現,如R、Matlab、Weka等。本研究選擇R軟件中常用的randomForest包作為平臺。

        建立隨機森林回歸模型時,模型默認評價變量為均方根誤差(mean of squared residuals,MSE)和R2,其計算公式分別為:

        建立隨機森林模型的過程為:1)確定自變量和因變量;2)建立初始模型;3)分析并處理異常值;4)重建模型;5)優(yōu)化模型變量和參數;6)模型誤差分析與評價。

        因隨機森林模型結果具有不確定性,為獲取確定結果,所有模型運行100次,分別取MSE和R2的平均值為模型最終結果。

        2 結果與分析

        2.1 水質指標數據概況

        經過處理,去除無效數據及空值數據后,剩余有效記錄1 178條。數據共包含7個水質指標,各指標信息概況如表1所示。

        1.平時加強公豬心肌能力和后肢能力的鍛煉及相關營養(yǎng)元素(尤其是維生素A、D、E的補充,建議用“高燒多維微(威能全營養(yǎng)素復合維生素粉)”拌料。

        2.2 初始模型構建

        RandomForest包提供的隨機森林模型主要包含2個參數,隨機樹的數量ntree和隨機樹分割變量數mtry,在本研究中其默認值分別為500和2。由此,利用所有數據以及所有變量建立總氮的基本隨機森林模型,模型參數及結果如表2所示。

        2.3 異常值

        如圖2所示,總氮中包含許多異常值,且主要位于高值一側。使用R軟件的boxplot.stats方法統(tǒng)計總氮,獲得異常值54個,約占總記錄的4.6%。在模型參數不變時,去除這些異常值記錄后,模型M1性能有較大改善,MSE值由3.21降至1.85,下降了約42.4%,R2由91.2%微降至87.0%。

        表1 水質指標的信息

        表2 總氮基本隨機森林模型

        圖2 總氮含量分布

        Breiman[9]認為,當數據樣本中異常值少于5%時,對隨機森林性能影響不大;但本研究結果顯示,即使不多于5%的異常值,對隨機森林模型的性能仍有較大影響,特別是對誤差值的影響較大。這可能是因為前項結論針對的是分類問題,而非回歸模型。為獲得合理的模型精度,本研究后續(xù)模型使用的數據均排除異常值。

        2.4 變量重要性

        隨機森林可以評估各個變量對模型的相對重要性。圖3為模型M1顯示的變量重要性。在隨機森林模型中,去除任何一個自變量,模型整體誤差MSE的值增加百分比(%IncMSE)越大,即模型精度下降越快,說明該變量越重要??梢钥闯觯P蚆1中自變量的重要性從高到低依次為nh4>ec>temp>ph>do>turb。氨氮重要性最高,即模型中自變量氨氮對因變量總氮的預測最重要,主要原因是溫瑞塘河中總氮的主要組成部分是氨氮,且樣本中二者相關性最高,約為0.92。

        圖3 變量的重要性

        隨機森林評估的變量重要性結果只代表相對重要性。若要為模型選擇合適的自變量,仍需要按照變量重要性依次建立模型,并對各個模型性能進行評估。為便于選擇不同自變量時比較模型的性能,將所有模型參數設定為ntree=500,mtry=1,表3為按變量重要性依次選擇不同自變量組合的隨機模型模擬結果,最佳組合為nh4+ec+temp+ph,即模型M24。

        2.5 模型參數設定

        隨機森林中主要的控制參數為ntree和mtry,分別表示隨機森林中樹的數量和變量分割數。ntree的目的主要是讓森林中的樹足夠多,以便模型能夠穩(wěn)定或收斂,mtry是分割時隨機選擇變量的個數,主要影響模型的性能;因此,可以先選擇一個足夠大的ntree使模型穩(wěn)定,將mtry參數調整好后,再調整ntree。在randomForest中,ntree默認值為500,在本研究中,該默認值足以使模型快速收斂(圖4),mtry在回歸模型中的默認值計算方法為n/3,其中,n為自變量總數。

        表3 變量選擇及模型性能

        圖4 模型M24隨機樹總數對模型誤差的影響

        對mtry取值1、2、3、4分別建模,模型運行結果如表4所示。當mtry=2,其他參數不變時,模型性能最好。根據randomForest提供的計算規(guī)則,當變量個數為4時,mtry默認值為1,但模型運行結果顯示,默認值并非最優(yōu)選擇。

        表4 mtry取值對模型的影響

        過大的ntree在模型穩(wěn)定后雖然不影響模型性能,但會影響模型運行時間。本研究使用的樣本數和變量數均較小,模型運行時間影響不大。表5顯示了ntree參數對模型的影響,隨著隨機ntree值的增大,模型運行時間有較大的增加。當ntree=400時,模型性能不再提升。至此,在樣本數為1 124時,最優(yōu)隨機森林模型為M37=randomForest(tn~nh4+ec+temp+ph, ntree=400, mtry=2),此時模型誤差MSE=1.79,R2=87.3%。

        表5 ntree取值對模型的影響

        2.6 模型預測

        按照上述建模過程,將去除異常值后的樣本數據隨機抽取70%用于建模,30%用于預測。建立的最優(yōu)模型M41及預測結果如表6和圖5所示。預測精度與模擬精度相當,說明該模型未出現明顯過擬合現象。且模型模擬和預測的平均相對誤差分別為14.8%和18.4%,均在可接受范圍內。

        表6 隨機森林模型模擬與預測

        線條函數為y=x圖5 模型M41的預測結果

        Breiman[9]曾證明,當隨機森林產生的樹無窮多時,根據大數定律,隨機森林模型訓練誤差與測試誤差趨于相同。由此可知,在選擇合適的ntree值時,隨機森林模型不易過擬合。

        3 小結

        本研究顯示,隨機森林回歸模型可用于水質數據模擬與預測,且誤差在可接受范圍內。數據異常值對隨機森林模型影響較大,本研究中去除不超過5%的異常值后,模型均方根誤差(MSE)下降40%以上。隨機森林模型可用于變量選擇,其評估結果給出了變量的相對重要性:氨氮濃度>電導率>溫度>酸堿度>溶解氧濃度>濁度。隨機森林模型默認參數值并非模型最優(yōu)參數,需要對不同的參數值進行測試分析,才能獲得模型的最優(yōu)參數值。隨機森林模型有較好的穩(wěn)定性,不易出現過擬合現象。利用隨機森林模型,通過實時監(jiān)測的方式快速預測總氮濃度值是可行的。

        [1] 李文杰, 王冰. 地表水中氨氮和總氮的相關性分析[J]. 環(huán)境保護科學, 2012, 38(3):79-81.

        [2] 張濤, 胡冠九, 范清華, 等. 太湖入湖河流總氮與氨氮相關性特征分析研究[J]. 環(huán)境科學與管理, 2015, 40(2):21-23.

        [3] 黃慧坤. 環(huán)境樣品監(jiān)測中總氮低于氨氮的原因[J]. 環(huán)境科學導刊, 2004, 23(增刊):219-220.

        [4] 趙楠, 李建坡, 丁致英, 等. 地表水檢測中氨氮高于總氮的原因探討[J]. 中國給水排水, 2006, 22(22):89-91.

        [5] 周九州, 劉強, 榮湘民, 等. 模糊線性回歸模型在河流水體總氮濃度預測中的應用[J]. 生態(tài)學雜志, 2009, 28(12):2628-2632.

        [6] 趙繼東, 胡婷, 杜慶治. 馬爾科夫鏈在彌苴河總氮量預測中的應用[J]. 環(huán)境科學導刊, 2015, 34(4):18-20.

        [7] RAJAEE T, SHAHABI A. Evaluation of wavelet-GEP and wavelet-ANN hybrid models for prediction of total nitrogen concentration in coastal marine waters[J]. Arabian Journal of Geosciences, 2016, 9(3):176.

        [8] DIMBERG P H, BRYHN A C. Predicting total nitrogen, total phosphorus, total organic carbon, dissolved oxygen and iron in deep waters of Swedish lakes[J]. Environmental Modeling & Assessment, 2015, 20(5):411-423.

        [9] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1):5-32.

        (責任編輯:高 峻)

        2017-03-01

        溫州市水體污染控制與治理科技創(chuàng)新項目(S20140041,S20140040,S20140039,S20140038,S20140037)

        王學東(1967—),男,河南淮陽人,研究員,博士,研究方向為環(huán)境化學,E-mail:zjuwxd@163.com。

        王振峰(1983—),男,湖北荊州人,助理研究員,博士,研究方向為水環(huán)境保護,E-mail: wangzf@iwaterlab.com。

        10.16178/j.issn.0528-9017.20170756

        X832

        A

        0528-9017(2017)07-1269-04

        文獻著錄格式:王學東,黃宏,梅琨,等. 基于隨機森林的溫瑞塘河總氮模擬與預測[J].浙江農業(yè)科學,2017,58(7):1269-1272,1276.

        猜你喜歡
        重要性模型
        一半模型
        土木工程中建筑節(jié)能的重要性簡述
        “0”的重要性
        論七分飽之重要性
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        幼兒教育中閱讀的重要性
        甘肅教育(2020年21期)2020-04-13 08:09:24
        論七分飽之重要性
        3D打印中的模型分割與打包
        讀《邊疆的重要性》有感
        唐山文學(2016年11期)2016-03-20 15:26:04
        亚洲av色先锋资源电影网站| 青青草视频在线播放观看| 青青草在线免费观看在线| 91久久国产香蕉视频| 日韩精品无码熟人妻视频| 国产一区二区三区四区五区加勒比 | 香蕉蜜桃av一区二区三区| 谷原希美中文字幕在线| 免费午夜爽爽爽www视频十八禁 | 亚洲中文字幕无码一久久区| 亚洲综合色自拍一区| 日韩国产精品一区二区Hd| 亚洲高清视频在线播放| 国产精品三级自产拍av| 99久久国产免费观看精品| 久久久久99人妻一区二区三区| 亚洲国产av无码专区亚洲av| 国产成人亚洲精品无码h在线| 成人国产精品一区二区网站| 超清无码AV丝袜片在线观看| 日本高清在线一区二区三区| 国产精品一区av在线| 欧洲女人与公拘交酡视频| 性欧美videofree高清精品| 国产成+人+综合+亚洲 欧美| 91热国内精品永久免费观看| 亚洲一区二区三区一区| 亚洲一区二区三区地址| 又黄又爽又无遮挡免费的网站| 骚小妹影院| 日韩欧美中文字幕公布| 91亚洲色图在线观看| 国产精品女同一区二区软件| 国产无遮挡aaa片爽爽| 乌克兰少妇xxxx做受野外| 国产视频毛片| 国产精品一区二区三区不卡| 精品私密av一区二区三区| 999国产精品999久久久久久| 人妻丝袜无码国产一区| 午夜亚洲国产理论片亚洲2020|