任國榮 張 哲 李英男
(天津大學(xué) 理學(xué)院,天津 300072)
大氣環(huán)境指標(biāo)的二元極值分析
任國榮 張 哲 李英男
(天津大學(xué) 理學(xué)院,天津 300072)
文中給出了利用多元閾值模型求解隨機(jī)變量尾部聯(lián)合分布的方法,并將其應(yīng)用于大氣環(huán)境指標(biāo)中進(jìn)行實(shí)證分析.通過選取合適的閾值和Copula函數(shù),得到了上海市近十年的二氧化硫和二氧化氮的API指數(shù)的尾部聯(lián)合分布以及條件尾部分布.利用這些尾部分布函數(shù)可以預(yù)測污染指標(biāo)的變化趨勢,從而為氣象部門提供天氣預(yù)報(bào)的科學(xué)依據(jù).
相關(guān)結(jié)構(gòu)函數(shù);閾值;二氧化硫;二氧化氮
一直以來,大氣環(huán)境質(zhì)量是環(huán)境工作者十分關(guān)心的一個(gè)問題.檢測一個(gè)城市的大氣環(huán)境質(zhì)量,需要監(jiān)測點(diǎn)同時(shí)檢測多個(gè)指標(biāo),如二氧化硫、二氧化氮、總懸浮顆粒物、一氧化碳等指標(biāo)的濃度水平.目前針對大氣環(huán)境的研究主要集中在分析單個(gè)污染因子或市區(qū)總體空氣污染的變化特征及趨勢[1,2],而對監(jiān)測指標(biāo)之間相關(guān)關(guān)系研究較少[3].郭建輝等人[4]利用主成分分析對上海大氣環(huán)境的多個(gè)指標(biāo)進(jìn)行了研究.在實(shí)際生活中,一般的空氣污染不會對人類和自然界造成危害,因而也不會引起人們的關(guān)注,但如果這些污染指標(biāo)急劇變化達(dá)到一個(gè)很高的極端的水平,則會導(dǎo)致大氣污染災(zāi)害,很容易引發(fā)各種疾病甚至威脅到我們的生命,例如20世紀(jì)美國的光化學(xué)煙霧事件.因此,同時(shí)對大氣環(huán)境中的多個(gè)指標(biāo)進(jìn)行極值建模顯得非常重要.本文同時(shí)研究二氧化硫和二氧化氮兩個(gè)指標(biāo)的極值,利用二元閾值方法,給出了兩個(gè)指標(biāo)的尾部聯(lián)合分布.這為環(huán)保部門分析這些指標(biāo)濃度未來的變化趨勢提供了一些有效的依據(jù),可以更好地預(yù)測這種極端事件在未來發(fā)生的可能性.例如,通過聯(lián)合分布可以計(jì)算得到兩個(gè)指標(biāo)同時(shí)變化到一個(gè)極端水平的概率或者只有一個(gè)指標(biāo)急劇變化的概率等,并且可以計(jì)算出每隔多少年出現(xiàn)一次大氣污染災(zāi)害的概率.這樣就為我們更好地防范大氣環(huán)境劇變引發(fā)的環(huán)境災(zāi)害提供初步理論依據(jù).
極值統(tǒng)計(jì)是專門研究很少發(fā)生,然而一旦發(fā)生卻有巨大影響的隨機(jī)變量極端變異性的建模及統(tǒng)計(jì)分析方法.二元閾值方法是一元閾值方法的拓展,比一元方法更實(shí)用[5,6].在實(shí)際問題中,兩個(gè)變量常常具有一定的相關(guān)性,這時(shí)就不能用一元方法建立閾值模型.我們除了考慮單個(gè)變量的極值變化,還需要考慮它們之間的相關(guān)結(jié)構(gòu).不同的相關(guān)結(jié)構(gòu)對應(yīng)不同的聯(lián)合分布,從而具有不同的分布性質(zhì).相關(guān)結(jié)構(gòu)與邊緣分布的關(guān)系如下:
Sklar定理[7,8]設(shè)F是隨機(jī)向量(X,Y)的聯(lián)合分布函數(shù),邊緣分布函數(shù)分別為Fx(x),F(xiàn)y(y),則存在一個(gè)相關(guān)結(jié)構(gòu)函數(shù)C,使得
成立.如果F x(x)和F y(y)是連續(xù)分布函數(shù),則C是唯一的;否則,C在Ran(F x)×Ran(F y)上唯一確定.反之,如果C是一個(gè)相關(guān)結(jié)構(gòu)函數(shù),F(xiàn) x,F(xiàn)y為一元分布函數(shù),則由式(1)定義的函數(shù)是一個(gè)邊緣分布分別為Fx,F(xiàn)y的二元聯(lián)合分布函數(shù).
由這個(gè)定理可知,當(dāng)我們確定了兩個(gè)變量的邊緣分布和選定一個(gè)合適的Copula函數(shù)后,就很容易計(jì)算出這兩個(gè)變量的聯(lián)合分布.這就為我們構(gòu)造二元極值聯(lián)合分布提供了一種方法.這也是Copula函數(shù)在實(shí)際應(yīng)用研究的優(yōu)勢所在.兩個(gè)變量聯(lián)合分布的確定也不再是難題.對于任意的隨機(jī)向量(X,Y)~F(x,y),在連續(xù)條件下,由于分布可以唯一表示為F(x,y)=C(Fx(x),F(xiàn)y(y)),所以我們只需要考慮邊緣分布和合適的Copula函數(shù).對于邊緣分布,由于只是一維的問題,已經(jīng)有很多方法可以解決,對于Copula的選擇則需要具體問題具體分析,并結(jié)合一些評判準(zhǔn)則來確定.
根據(jù)一元極值理論,我們可以得到邊緣分布.通常有區(qū)組模型和超閾值模型,區(qū)組模型的原理是對所得數(shù)據(jù)進(jìn)行分塊,選取一定時(shí)間或一定范圍內(nèi)的最大值,而在實(shí)踐中不只是數(shù)據(jù)的最大值才是極值,有時(shí)兩個(gè)或兩個(gè)以上的大值同處于一個(gè)區(qū)間內(nèi),這樣使用區(qū)組法就會造成對數(shù)據(jù)的浪費(fèi).超閾值模型避免了這種情況,它的原理是選取一個(gè)較大的閾值,把超過這個(gè)閾值的數(shù)據(jù)都看做極值用來建模,這樣就提高了數(shù)據(jù)的利用率.本文將采用這種方法.
定理[6,7]設(shè)Xi,i=1,2,…,n是獨(dú)立同分布的隨機(jī)變量,分布函數(shù)為F(x),對自然數(shù)n,令Mn=max{X1,X2,…,X n},如果存在常數(shù)列{an>0}和{bn},使得
μ,ξ∈R,σ>0分別是位置、形狀和尺度參數(shù),H(x)稱為廣義極值分布,則對于足夠大的閾值u,在X>u的條件下,超出量X-u的分布近似為廣義Pareto分布
由此可知,如果最大值Mn近似服從廣義極值分布,則超出量X-u近似服從廣義Pareto分布,分布函數(shù)G(y)上面已經(jīng)給出,經(jīng)過推導(dǎo),可以得到超出閾值數(shù)據(jù)X的分布為
參數(shù)δ反映了X,Y之間的相關(guān)程度,當(dāng)δ=1時(shí),X與Y相互獨(dú)立,δ越大,X與Y之間的相關(guān)性越強(qiáng),當(dāng)δ→+∞時(shí),X,Y完全正相關(guān).若令α=1/δ,則C(u,v,δ)=exp{-((-logu)-1/α+(-logv)-1/α)α},0≤α≤1,有時(shí)用α表示模型的相關(guān)參數(shù),其中α的估計(jì)值可以通過極大似然方法得到,于是聯(lián)合分布的估計(jì)為:F(x,y)=Cα(Fx(x),F(xiàn)y(y)),x>ux,y>u y.
我們選取上海市2000年1月1日到2010年1月1日的二氧化硫和二氧化氮的API指數(shù)兩個(gè)指標(biāo)為原始數(shù)據(jù),樣本容量為3 456個(gè),以下計(jì)算均采用R軟件完成.
首先這些數(shù)據(jù)的基本描述統(tǒng)計(jì)量如表3.1所示.
其次,分析兩個(gè)指標(biāo)之間的相關(guān)關(guān)系.通過計(jì)算得到它們線性相關(guān)系數(shù)是0.531 263 4,Kendall相關(guān)系數(shù)是0.442 742 1,Spearman相關(guān)系數(shù)是0.610 434 9,所以研究它們之間的極值相關(guān)有意義.
表1 基本描述統(tǒng)計(jì)量
第三,選擇一元閾值模型分別對每個(gè)分量進(jìn)行研究.根據(jù)平均剩余壽命圖,如圖1和2,可得到二氧化硫,二氧化氮的閾值可以分別選取65和65,由極大似然估計(jì)可以得出兩個(gè)變量的參數(shù)估計(jì)值(ξ,σ,ζ)分別為(-0.153,12.96,0.119)和(0.018,25.99,0.111),模型診斷圖說明,該模型的選取是合理的.
圖1 二氧化硫的平均剩余壽命圖
圖2 二氧化氮的平均剩余壽命圖
通過計(jì)算和比較,在眾多的Copula函數(shù)中,最終采取logistic模型,通過極大似然估計(jì)我們得到了參數(shù)的估計(jì)值和標(biāo)準(zhǔn)誤,如表2所示.模型診斷圖表明模型擬合的比較好.
根據(jù)前面的分析,我們可以得到兩個(gè)指標(biāo)的尾部聯(lián)合分布為
由(1)~(4)我們通過計(jì)算可以得到一個(gè)發(fā)生概率接近于1的高分位數(shù),即我們可以得到二氧化硫的API指數(shù)滿足條件F(x p)=1-p的高分位數(shù)x p,同理也可以求得二氧化氮API指數(shù)的高分位數(shù)y p,當(dāng)p取不同的值時(shí),就可以得到二氧化硫和二氧化氮API指數(shù)的高分位數(shù)估計(jì)值x p和y p,如表3所示.以二氧化硫?yàn)槔?,?dāng)p=0.05時(shí),得到x p的估計(jì)值為75.98,它表示二氧化硫API指數(shù)超過75.98的概率為5%,也就是說平均100天有5天會超過75.98,那么一年365天大約有13天二氧化硫的API指數(shù)可以超過75.98,這與實(shí)際的統(tǒng)計(jì)結(jié)果非常吻合,同理,根據(jù)聯(lián)合分布我們也可以計(jì)算當(dāng)一個(gè)指標(biāo)取極值時(shí),另一個(gè)指標(biāo)的高分位數(shù).
表3 高分位數(shù)x p和y p的估計(jì)值
另外,我們根據(jù)兩個(gè)指標(biāo)的尾部聯(lián)合分布可以對兩個(gè)指標(biāo)未來的走勢做一些簡要的預(yù)測分析.例如,我們可以計(jì)算得到二氧化硫API指數(shù)超過120的概率為P(X>120)=0.008 3,二氧化氮的API指數(shù)超過120的概率為P(Y>120)=0.015,當(dāng)一個(gè)指標(biāo)API指數(shù)超過120時(shí),另一個(gè)指標(biāo)的API指數(shù)也超過120的概率分別為P(X>120|Y>120)=0.34,P(Y>120|X>120)=0.61,由此我們可以看出兩個(gè)指標(biāo)的極值有較強(qiáng)的相關(guān)性.另外,我們還可以計(jì)算得到,兩個(gè)指標(biāo)的API指數(shù)同時(shí)上升超過120的概率為P(X>120,Y>120)=0.005,由此可知,每經(jīng)過1/0.005=200天就會出現(xiàn)二氧化硫和二氧化氮API指數(shù)同時(shí)超過120,據(jù)此判斷,一年中基本會有2天兩個(gè)指標(biāo)同時(shí)超過120.
在許多和極值模型相聯(lián)系的實(shí)際問題中,觀測指標(biāo)之間都具有相關(guān)性,在這種情況下,要想對這兩個(gè)分量的尾部關(guān)系有更深入的認(rèn)識,就必須考慮尾部聯(lián)合分布.具體求解過程就可以利用本文給出的方法,先利用極值模型去擬合它們的邊緣分布,然后選取合適的相關(guān)結(jié)構(gòu)函數(shù),根據(jù)相關(guān)結(jié)構(gòu)函數(shù)中邊緣分布與聯(lián)合分布的關(guān)系就可得到多指標(biāo)的聯(lián)合分布.文中通過計(jì)算得到了二氧化硫和二氧化氮API指數(shù)的尾部聯(lián)合分布,并且根據(jù)聯(lián)合分布預(yù)測了這兩種大氣環(huán)境指標(biāo)在未來的趨勢,在一定程度上可以為環(huán)保部門提供一些有效的參考.
[1]楊書申,邵龍義,李鳳菊,等.鄭州市大氣可吸入顆粒物單顆粒污染特征分析[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,27(5):774-777
[2]侯亞明.鄭州市城區(qū)環(huán)境空氣污染特征分析[J].河南科學(xué),2004,22(2):273-276
[3]張?zhí)m真,王建英,趙乾杰,等.鄭州市區(qū)環(huán)境空氣污染趨勢分析[J].河南氣象,2006(2):52-54
[4]郭建輝,楊 磊,程新寶.上海市環(huán)境空氣質(zhì)量影響參數(shù)主成分分析[J].中國科技信息,2005,15:36-41
[5]尹 劍,陳芬菲.介紹一種二元閾值方法在股票指數(shù)上的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2002,21(2):26-29
[6]Coles S G.An introdution to statistical modeling of extreme value[M].London:Springer,2001
[7]史道濟(jì).實(shí)用極值統(tǒng)計(jì)方法[D].天津:天津科學(xué)技術(shù)出版社,2006
[8]梁馮珍.極值統(tǒng)計(jì)的理論及其在風(fēng)險(xiǎn)管理中的應(yīng)用[D].天津大學(xué),2006
[9]于秀林.多元統(tǒng)計(jì)分析及程序[M].北京:中國統(tǒng)計(jì)出版社,1993
Atmospheric Environment Analysis of Bivariate Extreme Value Index
Ren Guorong Zhang Zhe Li Yingnan
(College of Science,Tianjin University,Tianjin 300072,China)
We offer a multivariate threshold excess model to get the joint distribution of two indicators and study the applications in atmospheric environment indicators.Ultimately,this paper gains the joint distribution of API of sulfur dioxide and nitrogen dioxide in shanghai in recent 10 years through selecting appropriate threshold and Copula.
relevant structure function;threshold;sulfur dioxide;nitrogen dioxide
王映苗】
1672-2027(2011)03-0030-04
O212.1
A
2011-04-11
任國榮(1988-),女,山西忻州人,天津大學(xué)理學(xué)院在讀碩士研究生,主要從事極值統(tǒng)計(jì),數(shù)據(jù)挖掘研究.