侯瑞環(huán), 王 沁, 李裕奇
(1. 塔里木大學(xué) 信息工程學(xué)院, 新疆 阿拉爾 843300; 2. 西南交通大學(xué) 數(shù)學(xué)學(xué)院, 四川 成都 610031)
?
含輔助信息的最小非參似然比估計(jì)和檢驗(yàn)
侯瑞環(huán)1,2,王沁2,李裕奇2
(1. 塔里木大學(xué) 信息工程學(xué)院, 新疆 阿拉爾 843300;2. 西南交通大學(xué) 數(shù)學(xué)學(xué)院, 四川 成都 610031)
摘要:當(dāng)前,擬合優(yōu)度檢驗(yàn)已經(jīng)比較完善,但仍存在對總體分布已有信息利用不足或者直接丟掉這部分信息的問題.為了實(shí)現(xiàn)對已有信息的充分利用,首先借助經(jīng)驗(yàn)似然的思想與最小非參似然比統(tǒng)計(jì)量的形式,給出含輔助信息的最小非參似然比統(tǒng)計(jì)量;然后利用最小非參似然比估計(jì)與檢驗(yàn)性質(zhì)的研究方法,得到含輔助信息的最小非參似然比估計(jì)量,并考察檢驗(yàn)統(tǒng)計(jì)量的相合性、穩(wěn)健性,同時(shí)得到其在復(fù)合零假設(shè)下的極限分布.這些結(jié)論在一定程度上可以豐富和完善擬合優(yōu)度檢驗(yàn)與非參數(shù)估計(jì)的一些理論.
關(guān)鍵詞:經(jīng)驗(yàn)似然; 輔助信息; 非參數(shù)似然比; 經(jīng)驗(yàn)分布
在實(shí)際數(shù)據(jù)處理過程中,通常所抽取的樣本都是來自未知總體,然后再根據(jù)所得數(shù)據(jù)對總體做出推斷.這里面主要有2個(gè)問題:估計(jì)和推斷.從已知分布入手解決這一問題,是統(tǒng)計(jì)學(xué)界長期關(guān)注與研究的課題之一.然而,要解決這類問題的關(guān)鍵要知道這組數(shù)據(jù)的分布或者分布族,也就是統(tǒng)計(jì)中的擬合優(yōu)度檢驗(yàn)問題.對于來自未知總體F的獨(dú)立同分布樣本X1,…,Xn,擬合優(yōu)度檢驗(yàn)一般考慮如下2種問題的檢驗(yàn):
(1)
(2)
其中,F0是已知的分布函數(shù),Fθ={Fθ:θ∈Θ}是一個(gè)含有未知參數(shù)的分布族.
對(1)式的檢驗(yàn),當(dāng)屬KarlPearson在1900年提出的χ2檢驗(yàn),經(jīng)過多年的發(fā)展,χ2型檢驗(yàn)理論已經(jīng)相當(dāng)之完善,又因計(jì)算簡單,時(shí)至今日,χ2型檢驗(yàn)[1-2]仍然是統(tǒng)計(jì)應(yīng)用中較為廣泛的檢驗(yàn)之一.但是,χ2型檢驗(yàn)卻有著“先天”的不足之處,為了彌補(bǔ)這一不足,人們提出了基于經(jīng)驗(yàn)分布(EDF)的檢驗(yàn),EDF型檢驗(yàn)主要有20世紀(jì)20—30年代提出的CV和KS統(tǒng)計(jì)量.到20世紀(jì)50年代,Anderson和Darling提出AD統(tǒng)計(jì)量及加權(quán)CV和KS統(tǒng)計(jì)量;20世紀(jì)70年代末,由R.H.Berk等[3]提出了似然比統(tǒng)計(jì)量;進(jìn)入21世紀(jì)以來,又先后有了EM統(tǒng)計(jì)量和修正的BJn統(tǒng)計(jì)量BWn.隨后,文獻(xiàn)[4-7]分別從不同研究角度給出了上界型統(tǒng)計(jì)量和積分型統(tǒng)計(jì)量.對問題(2)的研究主要集中于2種途徑:一是先對未知參數(shù)做出相應(yīng)估計(jì),再利用已有的檢驗(yàn)方法做檢驗(yàn);另一種則是對一些特殊分布,利用充分統(tǒng)計(jì)量,給出條件積分變換,由于對分布有一定的要求,以至于在實(shí)際應(yīng)用中不具有普遍性.由前述發(fā)現(xiàn),不論哪種方法,除了檢驗(yàn)統(tǒng)計(jì)量本身好壞之外,參數(shù)估計(jì)好壞直接影響著檢驗(yàn)的好壞,經(jīng)典的參數(shù)估計(jì)有極大似然估計(jì)和最小距離估計(jì),由于常見分布的參數(shù)極大似然估計(jì)計(jì)算容易,故其應(yīng)用相當(dāng)廣泛;最小距離估計(jì)在上世紀(jì)得到了相應(yīng)的研究,因?yàn)槠溆?jì)算較為繁瑣,所得估計(jì)收斂速度較慢,但應(yīng)用并不廣泛,直到進(jìn)入20世紀(jì),最小距離估計(jì)又得到了重視.然而這些統(tǒng)計(jì)量都無法更好地滿足人們的研究需求,所以近些年又出現(xiàn)了非參數(shù)似然比擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量及最小非參數(shù)似然比擬合優(yōu)度檢驗(yàn)統(tǒng)計(jì)量.在實(shí)際應(yīng)用中抽取樣本時(shí)往往會得到一些關(guān)于總體分布的輔助信息,為了能夠?qū)⑦@些信息加以有效利用,本文利用這2種統(tǒng)計(jì)量研究的思想與方法,給出含輔助信息的最小非參數(shù)似然比統(tǒng)計(jì)量,并從理論上對其估計(jì)和檢驗(yàn)的相關(guān)性質(zhì)及統(tǒng)計(jì)量的極限分布進(jìn)行研究,得到相應(yīng)結(jié)果.
1預(yù)備知識
1.1統(tǒng)計(jì)量提出
定義 1.1設(shè)X1,X2,…,Xn是來自于未知總體F的獨(dú)立同分布樣本,假設(shè)已有一些與總體相關(guān)的輔助信息,也就是存在r(r≥1)個(gè)函數(shù)g1(x),g2(x),…,gr(x)使得
EFg(X)=0,
這里g(X)=(g1(x),g2(x),…,gr(x))T.上述以定義的方式給出輔助信息,具體與輔助信息有關(guān)內(nèi)容見文獻(xiàn)[8-10].
定義 1.2假設(shè)G為任意分布函數(shù),對應(yīng)的上界型非參似然比統(tǒng)計(jì)量為
(3)
(4)
當(dāng)G=Fn時(shí),T(G)就是最小非參似然比估計(jì);
1.2存在性證明
則BJG(θ)關(guān)于θ∈Θ1連續(xù),且滿足(4)式的T(G)所組成的集合為緊致的非空子集.
由條件(I)和(II)可知結(jié)論成立.
2含輔助信息最小非參統(tǒng)計(jì)量性質(zhì)研究
統(tǒng)計(jì)量估計(jì)的相合性:
可知,當(dāng)n→∞時(shí)有
當(dāng)且僅當(dāng)不含輔助信息,即g(Xi)=0時(shí)等號成立,
定理 2.1假設(shè)T(G)的值唯一,對于任意θ∈Θ1有
統(tǒng)計(jì)量估計(jì)[14]的穩(wěn)健性:
定理 2.2假定對任一x∈R,F(x,θ)關(guān)于θ的二階導(dǎo)數(shù)存在且連續(xù),BJG(θ)關(guān)于θ的某個(gè)領(lǐng)域內(nèi)二階可微,并且二階偏導(dǎo)數(shù)矩陣連續(xù)可逆,則在T(G)處的響應(yīng)函數(shù)為
(5)
其中,θ=T(G)∈Θ1,Δx為在x退化分布,P(G)為BJG(θ)在θ處的二階偏導(dǎo)數(shù)矩陣,即
含有輔助信息最小非參似然比檢驗(yàn)統(tǒng)計(jì)量的極限分布:
引理 2.2假設(shè)對θ0的每一個(gè)鄰域Ω,存在某一正常數(shù)C,使得當(dāng)θ?Ω時(shí),對任意正δ有
成立,且對θ0的每一個(gè)鄰域Ω,當(dāng)n→∞時(shí)有
(6)
從而當(dāng)n→∞時(shí)有
(7)
所以有
定理 2.3假設(shè)F(x,θ)在θ0處可微,且存在一個(gè)常數(shù)C,使得任意θ∈Rm(m為參數(shù)的維數(shù))有
且
則在引理2.2條件下有
與
有相同的極限分布.由此可知含有輔助信息最小非參似然比檢驗(yàn)統(tǒng)計(jì)量的極限分布存在,可以按兩部分理解:第一部分由于含輔助信息經(jīng)驗(yàn)似然分布函數(shù)所導(dǎo)致的極限分布;另一部分為參數(shù)估計(jì)所引起的偏差部分.
3結(jié)語
至此,估計(jì)量T(G)的解是存在的,并且含輔助信息的最小非參似然比估計(jì)弱相合.另外影響估計(jì)穩(wěn)健性的因素是AG(△x):當(dāng)|AG(△x)|有界時(shí),估計(jì)是穩(wěn)健的;當(dāng)|AG(△x)|無界時(shí),一般得不到穩(wěn)健估計(jì).這里的AG(△x)與分布函數(shù)有關(guān),因此要想得到穩(wěn)健的估計(jì),則必須考慮分布族.并從理論上證明了含輔助信息的非參似然比檢驗(yàn)的極限分布是存在的,并且其與含輔助信息經(jīng)驗(yàn)似然分布函數(shù)和參數(shù)估計(jì)所引起偏差兩部分有關(guān).
定理2.1證明由含輔助信息的最小非參似然比估計(jì)
在此處,首先得說明
然而
由文獻(xiàn)[15]定理2.15容易得到
再結(jié)合定理?xiàng)l件2.1與引理2.1知
這與T(G)的唯一性相互矛盾,因此所有子序列均依概率收斂到.
定理2.2證明因?yàn)?/p>
所以
其中▽BJG(θ)表示BJG關(guān)于θ的一階偏導(dǎo)向量.
假設(shè)對于任意ε>0,Gε(t)=(1-ε)G(t)+ε△x(t),故而
綜上可以得到
又因?yàn)?/p>
其中θ1介于T(Gε)與T(G)之間.
其中,▽2BJG(θ)表示BJG關(guān)于θ的二階偏導(dǎo)矩陣,從而T在G處的影響函數(shù)為
定理2.3證明因?yàn)?/p>
對logF(x,θ)在F(x,θ0)處Taylor展開
類似的也可以對log(1-F(x,θ))在F(x,θ0)展開
所以將上述2式代入下式有
又因?yàn)橛?/p>
所以
故而由定理2.3的條件與引理2.2及類似于文獻(xiàn)[16]的結(jié)論得到結(jié)果.
參考文獻(xiàn)
[1] 陳希孺,方兆本,李國英,等. 非參數(shù)統(tǒng)計(jì)[M]. 合肥:中國科學(xué)技術(shù)大學(xué)出版社,2012.
[2] 李裕奇,趙聯(lián)文,王沁,等. 非參數(shù)統(tǒng)計(jì)方法[M]. 成都:西南交通大學(xué)出版社,2010.
[3] BERK R H, JONES D H. Goodness-of-fit statistics that dominate the Kolmogorov statistics[J]. Z Wahrsch-Verw Gebiete,1979,47:47-59.
[4] ZHANG J. Power full goodness-of-fit tests on the likelihood ratio[J]. J Royal Statistical Society Soc,2002,B64(2):281-294.
[5] 張軍艦,楊振海,程維虎. 擬合優(yōu)度檢驗(yàn)[M]. 北京:科學(xué)出版社,2010.
[6] 張軍艦,李國英. 上界型擬合優(yōu)度檢驗(yàn)[J]. 數(shù)學(xué)物理學(xué)報(bào),2010(2):344-357.
[7] JAGER L, WELLNER J A. A New Goodness of Fit Test:the Reversed Berk-Jones Statistic[M]. Seattle:University of Washington,2004:1-21.
[8] ZHANG B. M-estimation and quantile estimation in the presence of auxiliary information[J]. J Statistical Planning and Inference,1995,44:77-94.
[9] ZHANG B. Confidence intervals for a distribution function in the presence of auxiliary information [J]. Comput Statistics Data Analysis,1996,21:327-342.
[10] FENG L X, LI R. Smoothed empirical likelihood confidence intervals for quantile regression parameters with auxiliary information[J]. Statistical Methodology,2013,15:46-54.
[11] OWEN A B. Empirical likelihood ratio confidence intervals for a single function[J]. Biometrika,1988,75(2):237-249.
[12] OWEN A B. Non parametric Likelihood Confidence Bands for a Distribution Function[J]. J Am Statistical Association,1995,90:516-521.
[13] 林正炎,陸傳榮,蘇中根. 概率極限理論基礎(chǔ)[M]. 北京:高等教育出版社,1999.
[14] 許寶,姜玉秋,藤飛. 一種加權(quán)對稱損失函數(shù)下一類指數(shù)分布模型參數(shù)的估計(jì)[J]. 四川師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,34(4):484-487.
[15] 張軍艦. 廣義非參似然比擬合優(yōu)度檢驗(yàn)[D]. 北京:中國科學(xué)院,2006.
[16] POLLARD D. The minimum distance method of testing[J]. Metrikea,1980,27:43-70.
2010 MSC:62G86
(編輯鄭月蓉)
Minimum Non-Parametric Likelihood Ratio Estimation and Testing in the Presence of Auxiliary Information
HOU Ruihuan1,2,WANG Qin2,LI Yuqi2
(1.CollegeInformationEngineering,TarimUniversity,Alar843300,Xinjiang;2.SchoolofMathematics,SouthwestJiaotongUniversity,Chengdu610031,Sichuan)
Abstract:Currently, though the goodness of fit test is already fairly complete, there are still existing some outstanding problems, which will be lack of existing information or losing partly information directly during estimating the distribution. In order to achieve full utilization of existing information, first of all, with the idea of empirical likelihood and the form of minimum non-parametric likelihood ratio statistic, the paper gives the minimum nonparametric likelihood ratio statistic with the presence of auxiliary information. Then, using a minimum non-parametric likelihood ratio estimation and testing methods, the minimum nonparametric likelihood ratio estimator with the presence of auxiliary information is obtained. At last, the feature of consistency and robustness are studied, at the same time, the limit distribution in composite null hypothesis is got. To some extent, these conclusions can enrich and improve the theories of goodness testing and the nonparametric estimation.
Key words:empirical likelihood; auxiliary information; nonparametric likelihood ratio; empirical distribution
doi:10.3969/j.issn.1001-8395.2016.01.010
中圖分類號:O212.7
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-8395(2016)01-0059-06
*通信作者簡介:王沁(1973—),女,副教授,主要從事應(yīng)用、經(jīng)濟(jì)統(tǒng)計(jì)、管理科學(xué)與工程的研究,E-mail:wangqin@home.swjtu.edu.cn
基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(SWJTU11CX155)
收稿日期:2014-03-24