亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CART算法的空氣質(zhì)量指數(shù)回歸預(yù)測模型的學(xué)習(xí)

        2016-12-30 02:18:58
        上饒師范學(xué)院學(xué)報 2016年6期
        關(guān)鍵詞:模型

        陳 峰

        (浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004)

        基于CART算法的空氣質(zhì)量指數(shù)回歸預(yù)測模型的學(xué)習(xí)

        陳 峰

        (浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004)

        采用了CART算法結(jié)合廣義交叉驗證(GCV),對空氣質(zhì)量指數(shù)(AQI)預(yù)測建立了模型。結(jié)果顯示,采用廣義交叉驗證選出的最優(yōu)回歸樹能有效的預(yù)測空氣質(zhì)量指數(shù)。與多元回歸方法相比,回歸樹預(yù)測的準(zhǔn)確率較高。

        CART;空氣質(zhì)量指數(shù);GCV;多元線性回歸

        分類回歸樹算法也稱為CART(Classificationand Regression tree)算法,由L.Breiman等人于1984年提出,是決策樹算法中一種專用于分類與回歸的方法,是在給定的輸入隨機(jī)變量X條件下輸出隨機(jī)變量Y的條件概率分布的學(xué)習(xí)方法。CART假設(shè)決策樹是二叉樹,每一個內(nèi)部節(jié)點特征的取值為“是”和“否”。在每一個子節(jié)點上,在左邊的分支是取值為“是”的分支,在右邊的分支是取值為“否”的分支,這樣的決策等價于遞歸地二分每個特征,將輸入空間即特征空間劃分成有限個單元,并在這些單元上確定預(yù)測的概率分布,也就是給定的輸入空間下,輸出的條件概率分布。CART算法分兩部分組成:(1)決策樹生成:基于訓(xùn)練數(shù)據(jù)集生成決策樹;(2)決策樹的剪枝:通過驗證數(shù)據(jù)集對已生成的決策樹進(jìn)行修剪,選出最優(yōu)的子樹,修剪的標(biāo)準(zhǔn)是使得損失函數(shù)最小。與CART算法相似的還有ID3、C4.5、C5.0等算法。ID3中根據(jù)屬性值分割數(shù)據(jù),之后該特征不會再起作用,這種快速切割的方式會影響算法的準(zhǔn)確率。相比ID3和C4.5算法,CART算法應(yīng)用要多一些,既可以用于分類也可以用于回歸,回歸時用平方誤差(或均方誤差)作為損失函數(shù),以平方誤差(或均方誤差)最小化為準(zhǔn)則[1]。

        近年來空氣污染嚴(yán)重,因此空氣質(zhì)量問題[2-4]成為了人們關(guān)注的焦點。本文根據(jù)國家統(tǒng)計局發(fā)布的主要污染物(PM2.5、PM10、SO2、NO2、CO、O3)的指標(biāo)值,采用CART結(jié)合廣義交叉驗證對空氣質(zhì)量指數(shù)進(jìn)行了預(yù)測,并與多元線性回歸方法進(jìn)行了比較,結(jié)果表明,CART比多元回歸線性模型更能有效的預(yù)測空氣質(zhì)量指數(shù)。

        CART被廣泛應(yīng)用在遙感影像分類、區(qū)域洪澇災(zāi)害損失評估及預(yù)測、上市公司財務(wù)風(fēng)險預(yù)測等問題研究上[5-9]。但CART在空氣質(zhì)量指數(shù)預(yù)測學(xué)習(xí)中的研究較少。目前在對空氣質(zhì)量的相關(guān)問題研究中,采用的方法有支持向量機(jī)法;計量經(jīng)濟(jì)學(xué)分析方法;決策樹中的C4.5算法等。本文選取對影響空氣質(zhì)量指數(shù)的主要六個指標(biāo),采用CART對空氣質(zhì)量指數(shù)進(jìn)行的預(yù)測建模,通過廣義交叉驗證選出最佳懲罰參數(shù),從而選出最優(yōu)的回歸樹模型。經(jīng)實例驗證表明,CART能較準(zhǔn)確的預(yù)測出空氣質(zhì)量指數(shù)。

        1 CART算法原理

        1.1 CART的生成

        假設(shè)X與Y分別為輸入和輸出變量,且Y為連續(xù)變量,給定訓(xùn)練數(shù)據(jù)集

        D={(x1,y1),(x2,y2),…(xN,yN)}

        一個回歸樹對應(yīng)著輸入空間的一個劃分以及在劃分的單元格上輸出的值。這里采用啟發(fā)式的劃分方法,選擇第j個變量x(j)和他的取值s,作為切分變量和切分點,并定義兩個區(qū)域:

        α1(j,s)={x|x(j)s} 和 α2(j,s)={x|x(j)>s}

        將輸入空間劃分成L個單元α1,α2,…αL,并且在每個單元αl上有一個固定的輸出值βl,因此回歸樹模型可表示為:

        (1.1)

        (1.2)

        現(xiàn)在的目標(biāo)是找到最優(yōu)切分變量j和最優(yōu)切分點s。具體求解如下:

        (1.3)

        對固定的出入變量j可以找到最優(yōu)的切分點s。

        搜索所有輸入變量,找到最優(yōu)的切分點就j,就構(gòu)成一個對(j,s),根據(jù)這個步驟可以將輸入空間劃分為兩個區(qū)域,然后再對每個區(qū)域重復(fù)上述劃分步驟,直到停止。具體的生成算法[10]

        [1]如下:

        輸入:訓(xùn)練數(shù)據(jù)集D;

        輸出:回歸樹f(x)。

        在訓(xùn)練數(shù)據(jù)集所有的輸入空間中,遞歸地將每個區(qū)域劃分成兩個子區(qū)域并決定每個子區(qū)上的輸出值,構(gòu)建二叉樹:

        (1)選擇最優(yōu)切分變量j與切分點s,求解

        (1.4)

        搜索變量j,對固定的切分變量j掃描切分點s,選擇是的上式最小值對(j,s)

        (2)用選定的對(j,s)劃分區(qū)域并決定相應(yīng)的輸出值:

        α1(j,s)={x|x(j)s} 和 α2(j,s)={x|x(j)>s}

        (3)繼續(xù)對兩個子區(qū)域選用步驟(1),(2)直到滿足停止條件。

        (4)將輸入空間劃分為L個區(qū)域α1,α2,…αL,生成決策樹:

        (1.5)

        1.2 CART剪枝

        CART算法[10]是從樹的底端即葉節(jié)點自上而下的剪去一些子樹,使決策樹變小,可以防止過擬合,使得對未來的數(shù)據(jù)有更準(zhǔn)確的預(yù)測。CART算法有兩部分組成:首先從決策樹T0的底端開始剪枝,直到T0的根節(jié)點,形成一個子樹序列{T0,T1,…Tn};然后通過廣義交叉驗證法在驗證數(shù)據(jù)集上對子樹序列進(jìn)行測試,從中選擇最優(yōu)子樹。

        在剪枝的過程中,子樹的損失函數(shù)為:

        (1.6)

        輸入:CART算法生成的決策樹T0

        輸出:最優(yōu)決策樹Tr

        (1)設(shè)k=0,T=T0。

        (1.7)

        (4)自上而下的訪問內(nèi)部節(jié)點t,假如有g(shù)(t)=r,則進(jìn)行剪枝,并且對葉節(jié)點t 以多數(shù)表決法決定其類,得到樹T。

        (5)設(shè)k=k+1,rk=r,Tk=T。

        (6)如果T不是由根節(jié)點單獨構(gòu)成的樹,則回到步驟(4)。

        (7)采用廣義交叉驗證法在子樹序列{T0,T1,…Tn}中選取最優(yōu)指數(shù)Tr。

        2 模型建立

        2.1 數(shù)據(jù)處理

        本文數(shù)據(jù)來源于2012—2014年武漢環(huán)境監(jiān)測站,以SO2、NO2、PM10、CO、O3、PM2.5為自變量,空氣質(zhì)量指數(shù)(AQI)為因變量建立決策樹回歸模型。為了消除量綱的影響,將數(shù)據(jù)歸一化處理,使數(shù)據(jù)在[0,1]內(nèi)變動。歸一化的公式如下:

        xk=(xk-xmin)/(xmax-xmin)

        (2.1)

        式中,xmin為數(shù)據(jù)序列中的最小值;xmax為數(shù)據(jù)序列中的最大值。

        對數(shù)據(jù)進(jìn)行相關(guān)性分析,結(jié)果見附表。

        附表 相關(guān)系數(shù)表

        為了更夠更加直觀的分析數(shù)據(jù),這里將數(shù)據(jù)可視化如圖1所示:

        散 點 圖

        圖1 多元散點圖

        根據(jù)圖1可知,除了O3與各個變量間的相關(guān)性較弱外,其它各個變量間都有比較高的相關(guān)性,特別是PM2.5與CO之間相關(guān)性很大。

        2.2 多元線性回歸模型的建立

        經(jīng)對各個變量之間的相關(guān)性分析,結(jié)果顯示,各自變量間相關(guān)程度普遍偏高。

        多元線性回歸進(jìn)行建模得到回歸模型為:

        (2.2)

        2.3 回歸樹建立

        選定訓(xùn)練數(shù)據(jù):先將樣本數(shù)據(jù)隨機(jī)排序,再把數(shù)據(jù)集分成訓(xùn)練集和測試集兩個互不相交的子集,這里選取75%的數(shù)據(jù)用作訓(xùn)練集,另外25%的數(shù)據(jù)作為預(yù)測集。由于是分成兩個互不相交的子集,故避免了訓(xùn)練子集用在測試集里而導(dǎo)致的誤差。因本文采用的是廣義交叉驗證,故還需對訓(xùn)練集和測試集多次重復(fù)上述過程的選取,從而使模型達(dá)到最佳的估計。這樣選取出來的訓(xùn)練集和測試集重復(fù)的幾率很小,可以忽略不計。

        根據(jù)CART算法結(jié)合廣義交叉驗證可得出回歸樹模型,結(jié)果如圖2所示:

        由圖3可以看出數(shù)據(jù)預(yù)測與實際值的預(yù)測精度較高。

        圖2 回歸樹圖

        圖3 CART算法的預(yù)測值與實際值比較曲線圖

        3 結(jié)論

        基于CART算法對空氣質(zhì)量預(yù)測,采用了廣義交叉驗證法,選取使得誤差達(dá)到最小的最優(yōu)回歸樹,從而實現(xiàn)了模型的最優(yōu)化。結(jié)果表明,用CART算法對結(jié)合廣義交叉驗證對空氣質(zhì)量指數(shù)能有效的預(yù)測,而且在最高點和最低點都有較高的預(yù)測精度,這體現(xiàn)了CART的在預(yù)測時的優(yōu)勢,能給人們帶來一定的實用價值。

        [1] ROBERT T,JEROME F.統(tǒng)計學(xué)習(xí)基礎(chǔ)——數(shù)據(jù)挖掘、推理與預(yù)測 [M] 范明,等譯 .北京:電子工業(yè)出版社,2004:40-44.

        [2] VARDOULAKIS S,F(xiàn)ISHER B,PERICLEOUS K,et al.Modelling air quality in street canyons:a review[J]. Atmospheric Environment,2003,37(2):155-182.

        [3] 張麗,李靜,葛汝冰.全國主要城市空氣質(zhì)量級別的分類預(yù)測——基于支持向量機(jī)的視角[J].管理工程師,2013,2(26):57-64.

        [4] 李茜,宋金平,張建輝,等.中國城市化對環(huán)境空氣質(zhì)量影響的演化規(guī)律研究[J].環(huán)境科學(xué)學(xué)報,2013,9(6):15-22.

        [5] BREIMAN L,F(xiàn)RIEDMAN J,OLSHEN R,et al. Classification and regression trees[M]. New York:Chapman & Hall, 1949:146-169.

        [6] 董連英,邢立新.高光譜圖像植被類型的CART決策樹分類[J].吉林大學(xué)學(xué)報,2103,31(1):83-89.

        [7] 吉中會,李寧.區(qū)域洪澇災(zāi)害損失評估及預(yù)測的CART模型研究——以湖南省為例[J].地域研究與開發(fā),2012,31(6):106-110.

        [8] 王喆,陸楠,周春光.基于決策樹歸納的聚類方法與實現(xiàn)[J]. 吉林大學(xué)學(xué)報(信息科學(xué)版), 2003(2):39-46.

        [9] 陳輝林,夏道勛.基于CART決策樹數(shù)據(jù)挖掘算法的應(yīng)用研究[J]. 煤炭技術(shù), 2011(10):82-89.

        [10] 李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:67-73.

        Learning of Index of Air Quality Prediction Model Based On CART

        CHEN Feng

        (College of Mathematics,Physics and Information Engineering, Zhejiang Normal University,Jinhua Zhejiang 321004,China)

        In this paper , CART arithmetic and GCV are combined to establish AQI forecasting model. Experimental results show that the regression tree optimized by GCV can forecast AQI effectively. The regression tree has the best forecasting accuracy, compared with Multiple Linear Regression (MLR).

        CART; AQI; GCV; MLR

        2016-06-23

        陳峰(1991-),男,江西上饒人,碩士研究生,研究方向:機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘。E-mail:657306203@qq.com

        TP301.6

        A

        1004-2237(2016)06-0016-06

        10.3969/j.issn.1004-2237.2016.06.004

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        国产精品视频一区二区噜噜| 国产激情在线观看免费视频| 国产激情久久久久久熟女老人| 最近免费mv在线观看动漫| 欧美中文字幕在线| 国产熟女av一区二区三区四季| 亚洲中文字幕人成乱码在线| 国产乱码卡二卡三卡老狼| 人人妻人人爽人人做夜欢视频九色 | 久久久久99人妻一区二区三区| 亚洲精品无码久久久久久| 免费一本色道久久一区| 97久久久一区二区少妇| 国产精品久久久福利| 国产精品嫩草影院av| 亚洲色偷拍一区二区三区| 国产一区二区在线中文字幕| 婷婷成人丁香五月综合激情| www插插插无码免费视频网站| caoporon国产超碰公开| 久久亚洲春色中文字幕久久| 日韩一区国产二区欧美三区| 99在线播放视频| 久久精品中文字幕免费| 91成人自拍国语对白| 日本亚洲色大成网站www久久| 婷婷色国产精品视频一区| 日本女优久久精品久久| 国产精品毛片无遮挡| 亚洲网站地址一地址二| 日本中文字幕一区二区视频| 日本不卡在线视频二区三区| 国产亚洲精品aaaa片小说| 无码人妻精品一区二区三区下载| 亚洲白嫩少妇在线喷水 | 亚洲中文字幕精品久久久| 久久亚洲色一区二区三区| 四虎影院在线观看| 亚洲精品一区二区三区av| 国产精品一区二区三区专区| 天堂а√在线中文在线新版|