劉文麗, 呂書龍
(福州大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院, 福建 福州 350116)
假設(shè)檢驗是統(tǒng)計中常見的一種解決問題的手段.很多的實際問題要通過非參數(shù)假設(shè)檢驗加以解決.眾所周知,非參數(shù)假設(shè)檢驗的一個核心問題是構(gòu)造與秩有關(guān)的統(tǒng)計量,如檢驗對稱性的符號秩統(tǒng)計量W+,揭示非線性相關(guān)性的Spearman和Kendall相關(guān)系數(shù)等.一般的教材會給出固定的分位數(shù)表來確定檢驗臨界值,進而對檢驗作出判斷[1-4],但極少會涉及這些統(tǒng)計量的構(gòu)造、分位點和概率的計算問題.文獻[5]提出了計算W+概率的一種多項式方法.但是隨著樣本量n的增大,這些秩統(tǒng)計量的概率和分位點的計算變得極為困難,目前常見的做法是通過統(tǒng)計量的漸進正態(tài)分布來取得所需的近似結(jié)果[1].
本文從秩統(tǒng)計量的構(gòu)造出發(fā),導(dǎo)出秩統(tǒng)計量與排列組合的等價關(guān)系,進而提出秩統(tǒng)計量概率分布的一種遞推公式.遞推公式很容易轉(zhuǎn)成遞歸函數(shù),因此容易編程實現(xiàn),也便于教學(xué)上的理解和實際應(yīng)用.
假設(shè)x1,x2,…,xn是來自總體X的一個樣本,為討論方便,設(shè)總體X服從某一連續(xù)分布.
定義1設(shè)xi各不相等,從小到大排序成x(1) 定義2設(shè)|xi|各不相等,以絕對值從小到大排序成|x(1)|<|x(2)|<…<|x(n)|. 若|xi|=|x(Ri)|, 則稱xi的絕對秩為Ri,其中Ri=1,2,…,n. (1) (2) 其中tn(d)表示從1,2,…,n這n個數(shù)中任取若干個數(shù)(包括0個),其和恰為d的取法種數(shù). 對于假設(shè)檢驗問題,H0:總體X的對稱中心為原點.當(dāng)H0成立時,W+的分布關(guān)于n(n+1)/4對稱,且當(dāng)n充分大時,W+服從N(n(n+1)/4,n(n+1)(2n+1)/24)的漸進正態(tài)分布. 定義3設(shè)樣本x1,x2,…,xn來自總體X,樣本y1,y2,…,ym來自總體Y,記N=n+m,并記xi在合樣本x1,x2,…,xn,y1,y2,…,ym中的秩(依定義1)為R(i),R(i)=1,2,…,N.稱總體X的樣本的秩和 (3) 為Wilcoxon秩和統(tǒng)計量. 性質(zhì)2對于假設(shè)檢驗問題,H0:FX(x)=FY(y).當(dāng)H0成立時,Wx的分布律的等價形式為 (4) 其中tN,n(d)表示從1,2,…,N這N個數(shù)中任取n(n -n(n-1)/2≤d≤n(n-1)/2, sign(·)為通常的符號函數(shù). 性質(zhì)3Sn(d)取值滿足對稱性,即Sn(d)=Sn(-d). 顯然任意一種排列r1,r2,…,rn都存在其逆序排列rn,rn-1,…,r1,則自然有Sn(d)=Sn(-d). 關(guān)于W+和Wx的漸進分布和近似計算以及檢驗分位點表,可參考文獻[1,4].通過上述W+,Wx和Kendall-τ秩相關(guān)系數(shù)的構(gòu)造和性質(zhì)分析,本文給出求解其精確概率分布的遞推公式,便于通過手工推導(dǎo)或編寫程序得到精確的概率分布和檢驗分位點表. 由(2)式知tn(d)表示從1,2,…,n這n個數(shù)中任取若干個數(shù)(包括0個)其和恰為d的取法種數(shù).由遞推思路可將tn(d)分解成兩部分之和: (a) 從1,2,…,n-1這n-1個數(shù)中任取若干個數(shù)(包括0個),其和恰為d的取法種數(shù); (b) 固定含有n時,從1,2,…,n-1中任取若干個數(shù)(包括0個)的和恰為d-n. 由此可得tn(d)的遞推公式 tn(d)=tn-1(d)+tn-1(d-n). (5) 若令N=n(n+1)/2,結(jié)合對稱性質(zhì)和d的特殊取值情況,將(5)式細化如下: 上述細化描述很容易編程實現(xiàn),下面以求解t6(d)為例,給出手工推導(dǎo)過程,見表1. 表1 t6(d)的遞推表格 當(dāng)n=6時,易知d∈[0,1,2,…,21],由上述遞推公式可以容易算出所有可能取值的取法種數(shù),以d=10為例,有 t6(10)=t5(10)+t5(4)=t4(10)+t4(5)+t4(4)=t3(0)+t3(1)+t3(4)+t3(5)+t3(6)=5. tn(d)的推導(dǎo)層層遞歸,執(zhí)行效率低,速度慢.因此在n較大時,P(W+≤d)宜采用漸進正態(tài)分布來實現(xiàn).此處n多大算較大呢?這可從精確算法和近似算法的計算結(jié)果加以比較得到,參見表2. 表2 P(W+≤d) 從表2看出,遞推公式較正態(tài)近似計算的精度要高許多.當(dāng)n≥50時,基于正態(tài)分布和遞推公式計算的結(jié)果雖然在數(shù)量級上偏差較大,但在實際應(yīng)用中這個偏差基本全可以忽略.因此,我們認為在非參數(shù)檢驗的實際應(yīng)用中,如果n≥50則可認為樣本量較大,宜采用漸進正態(tài)分布進行近似計算,而當(dāng)n<50時,宜采用精確分布進行計算. 由性質(zhì)2知tN,n(d)表示從1,2,…,N這N個數(shù)中任取n個數(shù),其和恰為d的取法種數(shù).由遞推思路可將tN,n(d)分解成兩部分之和: (a) 從1,2,…,N-1這N-1個數(shù)中任取n個數(shù),其和恰為d的取法種數(shù); (b) 固定含有N時,從1,2,…,N-1中任取的n-1個數(shù)的和恰為d-N. 由此可得tN,n(d)的遞推公式 tN,n(d)=tN-1,n(d)+tN-1,n-1(d-N). (6) 類似3.1,遞推公式(6)很容易編成遞歸程序,進而求解P(Wx=d),P(Wx≤d)和分位點等.同樣當(dāng)n較大時,宜采用漸進正態(tài)分布來實現(xiàn)近似計算.表3給出遞推公式和漸進分布的計算結(jié)果,同樣看出當(dāng)N,n較小時,兩者存在明顯的偏差. 表3 P(Wx≤d) 由性質(zhì)3知Sn(d)表示對1,2,…,n這n個數(shù)隨機排列后任意兩個前后位置對應(yīng)的數(shù)值差的符號和恰為d的排列種數(shù).由遞推思路可將Sn(d)等價成: 將n這個數(shù)插入到1,2,…,n-1這n-1個數(shù)任意排列后留出的n個位置中.對于n-1個數(shù)的排列,由于n這個數(shù)的插入位置不同,其滿足的符號和的條件也不同. 例如n插入到第i個位置,則其對符號和的貢獻中,前i-1為正,后n-i個為負,即貢獻和為2i-n-1,即只要這n-1個數(shù)的排列滿足符號和為d-2i+n+1就可實現(xiàn)遞推.由此得Sn(d)的遞推公式為 (7) 本文從排列組合角度將非參數(shù)秩統(tǒng)計量轉(zhuǎn)化為等價的離散數(shù)列分布的研究,推導(dǎo)了秩統(tǒng)計量的精確概率分布的遞推公式,給出了計算三類常用秩統(tǒng)計量概率的一種方法.遞推結(jié)構(gòu)清晰,實現(xiàn)方便,不足之處在于遞歸實現(xiàn)的時空復(fù)雜度較高.如何快速精確地計算秩統(tǒng)計量的概率分布,有待進一步研究. [參 考 文 獻] [1] 王靜龍,梁小筠. 非參數(shù)統(tǒng)計分析[M]. 北京:高等教育出版社, 2006. [2] 吳喜之,王兆軍. 非參數(shù)統(tǒng)計方法[M]. 北京:高等教育出版社, 1996. [3] 陳希孺,方兆本,李國英,等. 非參數(shù)統(tǒng)計[M]. 上海:上海科學(xué)技術(shù)出版社,1989. [4] Conover W J.實用非參數(shù)統(tǒng)計[M]. 崔恒建譯.北京:人民郵電出版社,2006. [5] 羅劍鋒,趙耐青. 配對符號秩檢驗確切概率的遞推算法[J]. 復(fù)旦學(xué)報(醫(yī)學(xué)版),2004,3(31):274-276.3 遞推公式的構(gòu)造
3.1 關(guān)于tn(d)的遞推公式
3.2 關(guān)于tN,n(d)的遞推公式
3.3 關(guān)于Sn(d)的遞推公式
4 結(jié) 論