摘 要:數(shù)理統(tǒng)計在當(dāng)前社會多個領(lǐng)域中都起著很大作用,尤其是Pearson-X2距離,重要性日益突出。但有關(guān)研究較少,在此主要對其進(jìn)行介紹分析,并比較了它與其他幾個距離之間的關(guān)系。
關(guān)鍵詞:Pearson-X2距離;數(shù)理統(tǒng)計;密度函數(shù)
數(shù)理統(tǒng)計是以概率論為理論基礎(chǔ)對隨機現(xiàn)象加以研究,結(jié)合所得資料選擇相適應(yīng)的數(shù)學(xué)模型,并分析該模型是否合適,最終通過觀察隨機現(xiàn)象內(nèi)在規(guī)律,為判斷和預(yù)估工作提供必要依據(jù)的一個過程。在當(dāng)前諸多領(lǐng)域都有應(yīng)用,如人文社科、工程管理等。密度函數(shù)之間具有差異性,為更好地比較這種差異,往往會將Pearson-X2距離、全變差距離等應(yīng)用于數(shù)理統(tǒng)計工作中。如今,極值分布大樣本以及密度函數(shù)模擬樣本的收斂性備受關(guān)注,成了研究熱點,Pearson-X2距離的應(yīng)用更多。
一、關(guān)于Pearson-X2距離的分析
假設(shè)存在兩個概率密度函數(shù),分別為f(x)和g(x),且f(x)>0, ■■dx<+∞,那么■■dx-1可表示為d2(f,g),指的是g(x)到f(x)的距離。Pearson-X2距離雖然與一般的距離定義有很大不同,但也有相通之處,主要體現(xiàn)為以下幾點:
1.定理1
Pearson-X2距離的特點主要有:①d2(f,g)≥0;②當(dāng)且僅當(dāng)兩個密度函數(shù)相同時,距離才為零,二者呈充要條件關(guān)系;③d2[f,(f+g)/2]=■d2(f,g)+■。
在證明過程中,主要是利用隨機變量方差,可得出結(jié)果①和②。由此可知,Pearson-X2距離雖然不符合距離公里的對稱性,但也能夠用來表示兩個密度函數(shù)的差異。
證明③時,d2[f,(f+g)/2]=■■■dx=■[■■dx+■f(x)dx+2■g(x)dx]=■d2(f,g)+■。
另外須注意的是,若密度函數(shù)f(x)和g(x)表示的均是離散隨機變量的概率密度,則要使用相應(yīng)的求和記號代替該定理中的積分。
2.定理2
引理:若密度函數(shù)f(x)和g(x)的任意完全分割[A],恒有d2(f,g)≥d2(f,g|[A])。因為d2(f,g)=■■dx-1,結(jié)合條件期望定義及其Jensen不等式可證明這一引理的正確性。
那么可推斷出定理2:即對于R關(guān)于密度函數(shù)f(x)和g(x)的任意完全分割[A],都有d2(f,g)=■(f,g丨[A])。從前面的引理可以得出d2(f,g)≥■(f,g丨[A])。另外,密度函數(shù)f(x)和g(x)較為簡單時,通??捎洖椋篺(x)=■aiIAi,g(x)=■biIBi。
Eij=Ai∩Bj,則[E]={Eij,i,j=1,2,…n,m]構(gòu)成R的分割,通過積分計算可直接得出:d2(f,g)=d2(f,g丨[E])。對于普通的函數(shù)來說,利用簡單函數(shù)逼近,并借助Fatou引理求得:?坌?蘚>0,那么必然存在有分割[A]使得d2(f,g)≤■(f,g丨[A])+?蘚,所以結(jié)論成立。
3.定理3
假設(shè)有兩個密度函數(shù)f(x)和g(x),若A為函數(shù)f(x)的可能事件集,則d(f,g)≥2■丨F(A)-G(A)丨。
因為A是可能事件集,所以根據(jù)上一引理可得:d2(f,g)≥■+■-1,進(jìn)一步計算可得:d2(f,g)≥4[F(A)-G(A)]2,再根據(jù)A的任意性,最終可證明這一定理成立。
二、幾個距離間的關(guān)系分析
假設(shè)有兩個密度函數(shù)f(x)和g(x),往往將■■dx-1看做是f(x)到g(x)的Pearson-X2距離;將■{log■}f(x)dx看做是g(x)到f(x)的Kublback-Leibler距離;將■f(x)-g(x)dx看做是f(x)到g(x)的L1距離;將■F(A)-G(A)看做是f(x)與g(x)的全變差距離。這幾種關(guān)系間存在有一定的關(guān)系:
假如以下討論的距離都存在,那么:①f-g2L1≤d2(f,g),f-g2L1=(f(x)-g(x)dx)2;
②若f(x)>g(x),則d2K-L(f,g)≤d2(g,f),d2K-L(f,g)=■{log■}f(x)dx;
③V2(f,g)≤d(f,g)。
總之,Pearson-X2距離在數(shù)理統(tǒng)計學(xué)中發(fā)揮著重要作用,應(yīng)當(dāng)引起重視。從上面的分析中可知,若存在有兩個密度函數(shù)f(x)和g(x),其二者間的Pearson-X2距離充分小,那么諸如全變差距離等也是如此。而使用Pearson-X2距離更加方便,所以在當(dāng)前備受重視。
參考文獻(xiàn):
季海波.k階Erlang分布的Pearson-X2距離[J].淮陰工學(xué)院學(xué)報,2012,21(3):140-142.
?誗編輯 溫雪蓮