萬 麗 ,王慶飛 ,邵任翔
(1.廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣州 510006;2.中國地質(zhì)大學(xué) 地質(zhì)過程與礦產(chǎn)資源國家重點實驗室,北京 100083)
傳統(tǒng)的統(tǒng)計計算和檢驗方式均基于高斯分布假設(shè),然而,許多情況下,試驗數(shù)據(jù)常常是非高斯分布的,如Pareto發(fā)現(xiàn),占97%的個人收入分布接近對數(shù)正態(tài)分布,但剩下的3%收入迅速增加,且服從逆冪規(guī)律,從而產(chǎn)生厚尾特征。這說明存在中心極限定理并不適用的分布。大多數(shù)物理試驗數(shù)據(jù)的變化存在很明顯的尖峰現(xiàn)象,即相對高斯分布而言,在均值附近的數(shù)據(jù)點特別多,同時取極端值(過大或過小的數(shù)據(jù)點)的數(shù)據(jù)點也特別多[1,2],在統(tǒng)計分析中常將這些“異常值”去掉,Mandelbrot B認(rèn)為這樣做是不可取的,因為“異常值”的出現(xiàn)并不是一種偶然現(xiàn)象,并對包含這些“異常值”的經(jīng)驗數(shù)據(jù)集進行了研究,提出穩(wěn)定分布模型[3]。
穩(wěn)定分布是一類滿足廣義中心極限定理的分布,即無限多個可能方差無限大的獨立同分布的隨機變量之和,其極限分布是穩(wěn)定分布。該分布具有4個參數(shù),參數(shù)的不同取值對應(yīng)著不同的分布,如高斯(Gaussian)分布、柯西(Cauchy)分布和列維(Levy)分布均是穩(wěn)定分布的特殊分布,因此穩(wěn)定分布模型描述實際中的高斯或非高斯噪聲均具有適用性。
定義[4]稱隨機變量X服從穩(wěn)定分布,如果存在參數(shù)0<α≤2,-1≤β≤1,及實數(shù)σ>0和μ,使得X的特征函數(shù)滿足
這里sing(x)是符號函數(shù),α稱為穩(wěn)定指數(shù)(index of stable),β 稱為偏斜指數(shù) (index of skewness),σ 是尺度指數(shù)(scale parameter),μ 是位置指數(shù)(local parameter)。
由隨機變量X的概率密度函數(shù)是特征函數(shù)的傅里葉變換,得穩(wěn)定分布的概率密度函數(shù)為
其中,穩(wěn)定指數(shù),α∈(0,2]描述尖峰厚尾的程度,α越小,尾部越厚、峰部越尖;偏斜指數(shù),β∈[-1,1]描述偏態(tài)特征,β=0則分布對稱,β>0則分布右偏,β<0則分布左偏;尺度參數(shù)σ>0表示隨機變量尺度的變化;位置參數(shù)μ∈R表示均值的位置。 通常將穩(wěn)定分布隨機變量記為 X~Sα(β,σ,μ)。
特別地
當(dāng) α=2,且 β=0 時,X~S2(0,σ,μ)=N(μ,σ2),即服從高斯(Gaussian)分布;其特征函數(shù)為
Ψ(θ)=exp(iμθ-σ2θ2)
當(dāng) α=1,且 β=0 時,X~S1(0,σ,μ),概率服從柯西(Cauchy)分布,其特征函數(shù)為
Ψ(θ)=exp(iμθ-σ|θ|)
當(dāng) α=1/2,且 β=1 時,X~S1/2(1,σ,μ),概率服從列維(Levy)分布,其特征函數(shù)為
Ψ(θ)=exp{-|σθ|1/2[1+isign(θ)]+iμθ}
當(dāng) α∈(0,2),且 β ≠0時,X服從非高斯(Non-Gaussian)穩(wěn)定分布,其特點為概率分布的尾部較高斯分布厚、峰部較高斯分布尖,表現(xiàn)出尖峰厚尾的分布特征。
需要說明的是,在大多數(shù)統(tǒng)計問題中,一階矩(均值)E(X)和二階矩(方差)Var(X)常被用來描述統(tǒng)計分布。然而,對于厚尾分布來說,這些不是普遍有用,因為當(dāng)0<α<2時,對于任意0<q<α,E(|X|q)是有限的,但對 q≥α,E(|X|q)=+∞,由此可得,當(dāng)1<α<2 時,一階矩(總體均值)存在,而二階矩(總體方差)無限大或不存在;當(dāng)1<α≤1時,一階矩(總體均值)和二階矩(總體方差)均為無限大或不存在。
定義 若分布具有自相似性,即標(biāo)度不變性,故其概率滿足
式中δ是變換常系數(shù);G(δ)與x無關(guān),只是與δ有關(guān)的函數(shù),可以證明,滿足上式的只可能是冪函數(shù)。考慮到0≤p(x)≤1,所以冪指數(shù)取負號即P(x)∝x-D,D>0。 因此,分布的自相似性實際是概率函數(shù)與隨機變量呈冪律關(guān)系,也稱其具有標(biāo)度不變性。
對穩(wěn)定分布重點考慮分布的尾部分布特征。
當(dāng)α=2,λ→∞時,高斯分布尾部的概率密度函數(shù)為
在這里符號“~”表示兩邊之比的極限為1。此時即隨機變量服從均值為μ,方差為2σ2的高斯分布。
當(dāng)α<2時,在穩(wěn)定分布尾部特征指數(shù)α依概率服從冪律,即
此時,概率分布的尾部服從負冪律分布。
特別,當(dāng) 0<α<2,β=1 時,即 X~Sα(1,σ,0),由公式(1)及Laplace變換得
而當(dāng)β=-1時,由分布的對稱性
X~Sα(1,σ,0)?-X~Sα(-1,σ,0)
從而有 P(-X>λ)~σ2Cαλ-α
即 P(X>-λ)~σ2Cαλ-α
對于-1≤β≤1可用性質(zhì)得到類似結(jié)果[4]。
由此可得當(dāng)0<α<2時,隨機變量的概率分布服從冪律,即對于對稱的穩(wěn)定分布|λ|大的地方具有冪型拖尾;對于非對稱的穩(wěn)定分布,長的一端服從冪型拖尾,而短的一方迅速減小,即長尾具有自相似分形特征,α實質(zhì)上就是分維[5]。
穩(wěn)定分布是一種允許偏斜和厚尾的概率分布族。穩(wěn)定分布模型不僅能描述實驗數(shù)據(jù)的高斯分布特征,而且還能描述實驗數(shù)據(jù)中大量的非高斯分布,即具有既能描述數(shù)據(jù)集的正常值、也能刻畫其異常值的優(yōu)點。同時,由于模型蘊含著自相似性,因此還可刻畫數(shù)據(jù)集的分形特征。理論上,穩(wěn)定分布模型是比傳統(tǒng)單一模型更系統(tǒng)和全面地刻畫隨機變量概率分布的有效模型之一。
[1]Hippolyte F,Johnp N.Tail Behavior,Modes and Other Characteristics of Stable Distributions[J].Extremes,1999,2(1).
[2]Kolokoltsov V,Korolev V,Uchaikin V.Fractional Stable Distribution[J].Journal of Mathematical Sciences,2001,105(6).
[3]Mandelbort B.B.The Fractals Geometry of Nature[M].New York:Freeman,1982.
[4]Gennady Samorodnitsky,Murad S.Taqqu.Stable Non-Gaussian Random Precesses[M].New York:Chapman&Hall/CRC,1994.
[5]董連科.分形動力學(xué)[M].沈陽:遼寧科學(xué)技術(shù)出版社,1994.