亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹模型在水環(huán)境監(jiān)測網(wǎng)絡(luò)中選取代表性樣點的應(yīng)用

        2014-04-26 01:31:42薛冬梅王中良
        中國環(huán)境監(jiān)測 2014年1期
        關(guān)鍵詞:樣點硝酸鹽決策樹

        薛冬梅,王中良

        1.天津師范大學,天津市水資源與水環(huán)境重點實驗室,天津 300387

        2.比利時根特大學同位素生物科學實驗室(ISOFYS),Ghent B-9000

        3.中國科學院地球化學研究所,環(huán)境地球化學國家重點實驗室,貴州 貴陽 550002

        水體中硝酸鹽的污染在全球范圍內(nèi)日益嚴重。各國亦建立相關(guān)水體監(jiān)測網(wǎng)絡(luò)對水質(zhì)進行長期監(jiān)測,但隨之而來的是大量監(jiān)測數(shù)據(jù)的累積,給后續(xù)的科研工作帶來不便。尤其是在龐大的監(jiān)測網(wǎng)絡(luò)中如何選取有代表性樣點的研究已成為急需解決的問題之一。

        科學的統(tǒng)計方法對于龐大的數(shù)據(jù)處理很有意義。多元統(tǒng)計方法(Multivariatestatistical methods)能夠區(qū)分眾多變量之間的復(fù)雜關(guān)系,對于源類識別問題很有意義[1-3]。Alley[2]對多元統(tǒng)計方法進行了較為詳細的綜述,該法包括聚類分析(cluster analysis)、主成分分析(PCA)、判別分析(discriminant analysis)、決策樹模型(decision tree)和因子分析(factor analysis)等。對于源類的分類問題,我們可以應(yīng)用判別分析和決策樹模型[4]。判別分析是多元回歸以尋找最佳線性方程組來分離樣本,但是此種方法很難進行合理解釋。決策樹模型的基本理論是根據(jù)一個已知分類的數(shù)據(jù)集以自上而下的遞歸方式構(gòu)造決策樹,并以此樣本為基礎(chǔ)進行歸納學習,而其表現(xiàn)形式就是一個類似于流程圖的樹形結(jié)構(gòu)。決策樹模型分類準確性較高、計算過程簡單,輸出結(jié)果具有圖形化易理解等優(yōu)點[5-7]。國內(nèi)也有一些學者應(yīng)用決策樹模型研究如何評價耕地[8]、分類海岸帶[9]、分類濕地[10-11]以及探討黃河干流缺水[12]問題等。但目前還沒有應(yīng)用這類模型對于較大水體監(jiān)測網(wǎng)絡(luò)所收集的時間序列數(shù)據(jù)進行信息抽取挖掘的相關(guān)研究。

        該研究以比利時弗拉芒地區(qū)的水環(huán)境監(jiān)測網(wǎng)絡(luò)為例,利用決策樹模型分析評估原有監(jiān)測點位的污染源專家分類和模型輸出的可匹配率,為進一步選取代表性樣點進行污染源判斷的深入研究提供理論依據(jù)。

        1 決策樹模型的建立

        1.1 采樣點概況

        專家從環(huán)境監(jiān)測網(wǎng)絡(luò)選取了47個采樣點(圖1),并且根據(jù)硝酸鹽來源劃分為5類:溫室大棚區(qū)(G,11個點位)、農(nóng)作物區(qū)(A,7個點位)、有地下水補給的農(nóng)作物區(qū)(AGC,15個點位)、居民區(qū)(H,8個點位)以及農(nóng)作物和園藝混合區(qū)(AH,6個點位)。

        圖1 地表水采樣點的分布

        1.2 數(shù)據(jù)集合

        根據(jù)采樣點在監(jiān)測網(wǎng)絡(luò)中的編碼、采樣時間,監(jiān)測的地表水水體的10個物理化學參數(shù)(水溫T,EC20,pH,DO,O2,Cl-,NH4+-N,NO2-,NO3-、PO)以及硝酸鹽來源分類等指標創(chuàng)建了數(shù)據(jù)集合,實例總數(shù)為3 928。其中,數(shù)據(jù)集合中缺失的數(shù)據(jù)根據(jù)多重插補(Multiple Imputation)法進行插補。

        分類AH以及G中的地表水站點在2002—2009年都具有較高的平均硝酸鹽濃度范圍,質(zhì)量濃度分別為13.5~29.8 mg/L和6.9~44.4 mg/L;分類A以及AGC中的地表水站點的NO3-平均濃度次之,質(zhì)量濃度分別為2~14 mg/L和1~22.4 mg/L;而分類H則為最低,NO3-平均質(zhì)量濃度為0.4~3.6 mg/L(以N計)變化。

        1.3 決策樹模型

        決策樹模型的基本算法是貪心算法,其生成則是自上而下的遞歸過程通過不斷將樣本分割成子集來構(gòu)造決策樹。算法的核心問題就是屬性選擇和剪枝策略。采用C4.5算法來建立決策樹模型[13]。C4.5對屬性的選擇基于信息理論(information theory)[14],通過計算信息增益來確定節(jié)點的分裂屬性,每個節(jié)點均選擇具有最大信息增益的屬性。這樣能夠使得樣本在依據(jù)該屬性進行分類時所需要的信息最小,可以有效減少分類所需的分裂次數(shù)。假設(shè)一個集合M,具有s個類別,其中個類在M中出現(xiàn)的比例為p(ci),那么M的信息熵為

        選擇屬性X(在本研究中是指水的物理化學參數(shù))分裂后的信息增益可表達為

        式中info(M|X)代表X的信息熵,V(X)代表屬性X的可能值的數(shù)量,Mj代表集合M的子集中屬性X的可能值的數(shù)量為j。最優(yōu)屬性則是信息增益gain(X)的最大值。

        C4.5對決策樹的剪枝是自下而上,從樹最底層的節(jié)點,將符合修剪規(guī)則的剪掉,直到?jīng)]有節(jié)點滿足修剪規(guī)則為止。決策樹建立后,根據(jù)10次交叉檢驗法進行準確性評估。

        2 結(jié)果與討論

        2.1 模型輸出與專家分類對比

        利用47個地表水樣點的10個物理化學參數(shù)數(shù)據(jù)建立了決策樹模型,共有247個節(jié)點,樹形規(guī)模較大。實例數(shù)量為3 928個,其中3 142個實例與專家知識的分類情況一致,剩余的786個實例則被分為不同的類別。所以,此決策樹模型的輸出與專家分類的匹配率為80%。決策樹模型中每一硝酸鹽源類實例的分類情況見圖2。

        圖2 決策樹模型中每一硝酸鹽源類實例的分類情況

        從圖2可見,分類A、AGC、G和H具有較高的匹配率(大于80%),表明使用建模的物理化學參數(shù)數(shù)據(jù)具有較高的可重構(gòu)性。分類AH則具有較低的匹配率(50%),表明了這一類樣點的物理化學參數(shù)數(shù)據(jù)具有較低的可重構(gòu)性,但是引起這一現(xiàn)象的原因目前不詳,需要結(jié)合后續(xù)的氮氧同位素方法進行深入研究。此外,每一硝酸鹽源的模型輸出與專家分類的匹配率都不是100%,說明部分實例與專家分類不相同。所以,了解決策樹模型中每一類實例的分類情況是比較有意義的。

        從圖2中可以看出分類A、AGC、G和H具有較高的匹配率(大于80%),因而這些分類中相應(yīng)的實例被劃分為其他分類的百分比則相對較低。相反地,分類AH因具有較低的匹配率而導(dǎo)致其相當部分實例(大于40%)被決策樹模型重新分到A以及G這2個類別中。其原因可能是分類AH本身就是農(nóng)作物和園藝混合區(qū),此類中地表水樣點所構(gòu)成實例不排除具有其他類別實例的特征。

        另外,47個采樣點的平均決策樹模型的輸出與專家分類的匹配率為43% ~95%,有近3/4的樣點大于80%。研究中還發(fā)現(xiàn),分類AH中的采樣點均顯示了較低的數(shù)值,平均匹配率為43% ~60%。此類中的采樣點數(shù)據(jù)重構(gòu)性較差,需選擇另外一種相對獨立的方法進行分析研究,進而對采樣點分類提供更合理的證據(jù),并非只是單單從不同土地利用類型和專家知識而進行的分類檢索。

        2.2 依據(jù)決策樹模型選擇代表性樣點

        如前所述,決策樹模型所評估的47個采樣點中,部分樣點數(shù)據(jù)重構(gòu)性較差導(dǎo)致決策樹模型的輸出與專家分類的匹配率較低,需要其它方法進行校正。氮氧同位素方法已經(jīng)廣泛應(yīng)用于對硝酸鹽污染源判斷以及硝酸鹽遷移轉(zhuǎn)化過程的研究。所以,在47個樣點中選擇了30個具有代表性的樣點作為后續(xù)研究。另將30個優(yōu)化后點位的數(shù)據(jù)集再次帶入模型中,該決策樹模型的輸出與專家分類的匹配率達到84%,優(yōu)于前47個點位的模型輸出。然而分類AH中的采樣點仍顯示較低的匹配率(48% ~63%)。根據(jù)此決策樹模型,縮減了工作量,選擇的樣點更具有代表性。其目的是通過后續(xù)方法更準確地對選擇的樣點進行分類,建立輸出結(jié)果更為精確的決策樹模型進而對監(jiān)測網(wǎng)絡(luò)中其它未知源的樣點進行硝酸鹽來源的預(yù)測。

        3 結(jié)論

        建立的決策樹模型成功地從47個采樣點的物理化學數(shù)據(jù)所組成的數(shù)據(jù)集中挖掘了未知的、有價值的信息。此決策樹模型評估了約有80%的樣點分類與專家知識分類相吻合,然而部分樣點則顯示了較低的匹配率,數(shù)據(jù)的可重構(gòu)性較低。決策樹模型的輸出結(jié)果為選擇有代表性樣點進行后續(xù)研究提供了可靠的數(shù)據(jù)保證。

        [1]Hem J A.Study and interpretation of natural water[M].Water Supply Paper 2254.Reston,VA:United States Geol.Survey,1985.

        [2]Alley W M.Regional ground-water quality[M].Van Nostrand Rheinhold.New York:Wiley,1993.

        [3]Spruill T B,Showers W J,Howe S S.Application of classification-tree methods to identify nitrate sources in ground water[J].J Environ Qual,2002,31:1 538-1 549.

        [4]Wilkinson L.Classification and regression trees[M].Chicago:SPSS Inc,2000.

        [5]Breiman L J,F(xiàn)riedman J H,Olshen R A et al.Classification and regression trees[M].New York:Chapman and Hall/CRC,1984.

        [6]Han J W,Kamber M.Data mining:Concepts and techniques[M].San Francisco:Morgan Kaufmann Publisher,2001.

        [7]StatSoft. Electronic statistics textbook [EB/OL].(2001)[2013-10-24]http:∥www.statsoft.com/.

        [8]田劍,胡月明,劉建敏,等.聚類支持下決策樹模型在耕地評價中的應(yīng)用[J].農(nóng)業(yè)工程學報,2007,23(12):58-62.

        [9]何厚軍,王文,劉學工.基于決策樹模型的海岸帶分類方法研究[J].地理與地理信息科學,2008,24(5):25-28.

        [10]李慧,余明.基于決策樹模型的濕地信息挖掘與結(jié)果分析[J].地球信息科學,2007,9(2):60-64.

        [11]黃穎,周云軒,吳穩(wěn),等.基于決策樹模型的上海城市濕地遙感提取與分類[J].吉林大學學報:地球科學版,2009,39(6):1156-1162.

        [12]吳新,鄧曉青.黃河干流缺水決策樹模型研究[J].人民黃河,2007,29(6):25-27.

        [13]Quinlan J R.C4.5:Programs for Machine Learning[M]. San Mateo, CA:Morgan Kaufmann Publishers,1993.

        [14]Shannon C.A mathematical theory of communication[J].The Bell Systems Technical Journal,1948,27:379-423.

        猜你喜歡
        樣點硝酸鹽決策樹
        硝酸鹽并不致癌還或有益處
        中老年保健(2022年3期)2022-11-21 09:40:36
        小麥條銹病田間為害損失的初步分析
        湖北植保(2022年4期)2022-08-23 10:51:52
        基于空間模擬退火算法的最優(yōu)土壤采樣尺度選擇研究①
        土壤(2021年1期)2021-03-23 07:29:06
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于分融策略的土壤采樣設(shè)計方法*
        土壤學報(2017年5期)2017-11-01 09:21:27
        基于決策樹的出租車乘客出行目的識別
        家畜硝酸鹽和亞硝酸鹽中毒的診斷、鑒別和防治
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        短期水分脅迫影響巴旦杏植株對硝酸鹽的吸收
        国产九色AV刺激露脸对白 | 少妇高潮尖叫黑人激情在线| 99国产精品人妻噜啊噜| 欧美国产一区二区三区激情无套 | 黄色大片一区二区中文字幕| 国产一区二区三区探花| 国产一区二区三区 在线观看| 人妻中文字幕日韩av| 成 人色 网 站 欧美大片在线观看| 中文字幕乱码高清完整版| 中文字幕无线码| 少妇人妻真实偷人精品视频| 国产3p视频| 在线精品日韩一区二区三区| 亚洲图文一区二区三区四区| 一区二区三区视频亚洲| 亚洲乱码一区二区三区在线观看| 在线看片免费人成视频电影| 麻豆乱码国产一区二区三区| 亚洲色成人网一二三区| 中文字幕人妻丝袜成熟乱| 综合久久加勒比天然素人| 国产欧美日韩精品丝袜高跟鞋| 少妇被爽到高潮动态图| 久久久久久亚洲AV成人无码国产| 区三区久久精品水蜜桃av| 人妻少妇精品专区性色anvn| 国产精品www夜色视频| 国产精品天天在线午夜更新| 亚洲三级黄色| 亚洲成人免费久久av| 久久久天堂国产精品女人| 亚洲无线一二三四区手机| 男女啪啪无遮挡免费网站| 在线看片无码永久免费aⅴ| 国产一线视频在线观看高清| 国内偷拍第一视频第一视频区| 精品国产sm最大网站| 99精品国产一区二区三区| 亚洲国产精品嫩草影院久久| 97人妻蜜臀中文字幕|