楊吉會(huì)
【摘要】非參數(shù)檢驗(yàn)是數(shù)據(jù)統(tǒng)計(jì)分析方法的重要組成部分,它與參數(shù)檢驗(yàn)方法共同構(gòu)成了統(tǒng)計(jì)推斷理論的核心內(nèi)容.游程檢驗(yàn)是一種常用的非參數(shù)檢驗(yàn)方法,在眾多數(shù)據(jù)統(tǒng)計(jì)問題中都有應(yīng)用,恰當(dāng)?shù)睦斫夂瓦\(yùn)用該數(shù)據(jù)分析方法,以及掌握其在數(shù)據(jù)統(tǒng)計(jì)軟件中的實(shí)現(xiàn)過程,對(duì)課堂教學(xué)和科研工作都具有現(xiàn)實(shí)意義.本文結(jié)合SPSS軟件的使用,闡述游程檢驗(yàn)在數(shù)據(jù)分析過程中的使用方法,并通過具體實(shí)例說明該非參數(shù)檢驗(yàn)方法的有效性和可行性.
【關(guān)鍵詞】隨機(jī)性;非參數(shù)檢驗(yàn);游程;SPSS軟件
【基金項(xiàng)目】國(guó)家自然科學(xué)基金(41401322).
一、單樣本的游程檢驗(yàn)
非參數(shù)檢驗(yàn)是數(shù)理統(tǒng)計(jì)學(xué)的一個(gè)重要研究?jī)?nèi)容,是相對(duì)參數(shù)檢驗(yàn)提出的概念.參數(shù)檢驗(yàn)是在已知總體分布的環(huán)境下,對(duì)總體分布參數(shù)進(jìn)行推斷的方法.非參數(shù)檢驗(yàn)是在對(duì)總體分布的具體形式未知或不是充分了解的情況下,從樣本的數(shù)據(jù)獲得需要的信息,對(duì)總體分布的類型或總體的其他統(tǒng)計(jì)特性進(jìn)行檢驗(yàn)的方法.根據(jù)樣本數(shù)據(jù)的來源,主要包括有單樣本的非參數(shù)檢驗(yàn),多獨(dú)立樣本的非參數(shù)檢驗(yàn)、多配對(duì)樣本的非參數(shù)檢驗(yàn)等[1].針對(duì)不同類型的問題提出了不同的非參數(shù)檢驗(yàn)方法,其中游程檢驗(yàn)是一類經(jīng)常使用的非參數(shù)檢驗(yàn)方法,其理論的出發(fā)點(diǎn)是檢驗(yàn)樣本的獨(dú)立性,即檢驗(yàn)數(shù)據(jù)的出現(xiàn)順序是否是隨機(jī)的[3-5].這一點(diǎn)非常重要,因?yàn)?,許多遇到的實(shí)際問題中并不只是使研究者關(guān)心分布的位置或者形狀,也包括樣本的隨機(jī)性,絕大部分經(jīng)典統(tǒng)計(jì)方法在理論上都要求樣本具有隨機(jī)樣本,即要求重復(fù)觀察到的一組變量值在統(tǒng)計(jì)上具有獨(dú)立性,如果樣本不是從總體中隨機(jī)抽取的,則所做的任何推斷都將沒有價(jià)值.游程檢驗(yàn)是最簡(jiǎn)單的判斷樣本取值順序是否具有隨機(jī)性的非參數(shù)檢驗(yàn)方法.本文通過SPSS軟件的使用,通過實(shí)例說明這種非參數(shù)檢驗(yàn)的使用過程.
所謂游程是樣本序列中連續(xù)出現(xiàn)的變量值的次數(shù)r,特別地,在一個(gè)0/1序列中,一個(gè)由0或1連續(xù)構(gòu)成的串稱為一個(gè)游程,一個(gè)游程中數(shù)據(jù)的個(gè)數(shù)稱為游程的長(zhǎng)度.
一個(gè)樣本序列的游程個(gè)數(shù)用r表示.例如,我們投擲一枚硬幣,獨(dú)立重復(fù)的進(jìn)行25次投擲,得到如下的0/1序列:
0000000111111000011110000
上述序列中有3個(gè)0游程,長(zhǎng)度分別為7、4、4,2個(gè)1游程,長(zhǎng)度分別為6和4,序列的游程數(shù)r=5.顯然,該序列0的總個(gè)數(shù)為n1=15,1的總個(gè)數(shù)為n2=10,總的試驗(yàn)次數(shù)n=n1+n2=25.
一般的,若一個(gè)樣本序列具有隨機(jī)性,則這個(gè)樣本序列的游程數(shù)不能太多,也不能太少.當(dāng)樣本序列的長(zhǎng)度n1和n2已知時(shí),樣本序列的游程數(shù)r近似服從正態(tài)分布,且有
下面通過具體例子說明利用SPSS軟件對(duì)單個(gè)樣本變量取值的隨機(jī)性進(jìn)行游程檢驗(yàn)的過程.
例1 為檢驗(yàn)?zāi)衬蛪涸O(shè)備在某段時(shí)間內(nèi)工作是否持續(xù)正常,測(cè)試并記錄下該時(shí)間段內(nèi)各個(gè)時(shí)間點(diǎn)上的設(shè)備耐電壓值的數(shù)據(jù)如下表:
現(xiàn)利用游程檢驗(yàn)法對(duì)這批數(shù)據(jù)進(jìn)行分析,判斷該設(shè)備工作是否正常.
解 如果耐壓數(shù)據(jù)的變動(dòng)是隨機(jī)的,可認(rèn)為該設(shè)備工作一直正常,否則認(rèn)為該設(shè)備有不能正常工作的現(xiàn)象.因此,檢驗(yàn)的原假設(shè)H0為該設(shè)備的耐壓值是隨機(jī)的,即該設(shè)備工作基本是正常的,備擇假設(shè)H1為該設(shè)備的耐壓值不具有隨機(jī)性,即該設(shè)備有不能正常工作的現(xiàn)象.不妨取數(shù)據(jù)的中位數(shù)204.55為檢驗(yàn)值,小于檢驗(yàn)值的數(shù)據(jù)為第1組,大于等于檢驗(yàn)值的數(shù)據(jù)為第2組,由此形成由1與2構(gòu)成的數(shù)據(jù)序列為
12122121111212122221
容易計(jì)算出該序列的游程數(shù)r=13,且第1組和第2組各有10個(gè)數(shù)據(jù),即n1=n2=10,這是一個(gè)小樣本問題,則有
應(yīng)用SPSS 23.0軟件求解過程如下:
(1)選擇菜單【分析(A)】→【非參數(shù)檢驗(yàn)(N)】→【舊對(duì)話框(L)】→【游程(R)】.
(2)選擇待檢驗(yàn)變量到【檢驗(yàn)變量列表(T)】框中.〖HJ1.14mm〗
(3)【割點(diǎn)】框中選擇中位數(shù)作為分界值.
求解過程如下圖所示:
a.中位數(shù)
由以上結(jié)果可知,中位數(shù)204.55,共有20個(gè)觀測(cè)樣本.小于檢驗(yàn)值與大于檢驗(yàn)值的數(shù)目各為10,游程數(shù)為13,檢驗(yàn)統(tǒng)計(jì)量的值為0.689,對(duì)應(yīng)的概率P-值為0.491.若顯著性水平為0.05,由概率P-值大于顯著性水平,故應(yīng)接受原假設(shè),可以認(rèn)為該設(shè)備在這段時(shí)間內(nèi)工作是基本正常的.
二、兩獨(dú)立樣本的游程檢驗(yàn)
單樣本的游程檢驗(yàn)是用來檢驗(yàn)單個(gè)變量的變量取值是否具有隨機(jī)性,兩獨(dú)立樣本的游程檢驗(yàn)則是用來檢驗(yàn)兩獨(dú)立樣本來自的兩個(gè)總體的分布是否存在顯著差異,這里以瓦爾德-沃爾福威茨游程檢驗(yàn)為例進(jìn)行討論,檢驗(yàn)的原假設(shè)H0為兩獨(dú)立樣本來自的兩總體的分布沒有顯著差異,備擇假設(shè)H1為兩獨(dú)立樣本來自的兩總體的分布存在顯著差異.檢驗(yàn)方法如下:
首先將來自兩總體的兩樣本按照變量值的升序排列,從而確定出組標(biāo)記值的一個(gè)排列,針對(duì)該組標(biāo)記值的這個(gè)排列按照單樣本游程檢驗(yàn)的方法計(jì)算其游程數(shù),如果兩總體的分布存在較大差異,則游程數(shù)會(huì)相對(duì)較小;如果游程數(shù)比較大,則表明兩總體的分布沒有明顯差異,最后利用公式(1)-(4)計(jì)算正態(tài)統(tǒng)計(jì)量Z獲得檢驗(yàn)結(jié)論[6-8].
例2 在我國(guó)的工業(yè)和商業(yè)企業(yè)中隨機(jī)抽取22家企業(yè)進(jìn)行資產(chǎn)負(fù)債率行業(yè)差異分析,抽樣獲得的兩類企業(yè)某年底資產(chǎn)負(fù)債率(% )數(shù)據(jù)如下表:
試用兩獨(dú)立樣本的游程檢驗(yàn)方法判斷工業(yè)企業(yè)與商業(yè)企業(yè)的資產(chǎn)負(fù)債率是否存在顯著差異.
解 原假設(shè)H0為兩類企業(yè)的資產(chǎn)負(fù)債率沒有顯著差異,備擇假設(shè)H1為兩類企業(yè)的資產(chǎn)負(fù)債率存在顯著差異.將兩類企業(yè)資產(chǎn)負(fù)債率數(shù)據(jù)由SPSS數(shù)據(jù)編輯器窗口錄入,工業(yè)企業(yè)的數(shù)據(jù)標(biāo)記為第1組,商業(yè)企業(yè)的數(shù)據(jù)標(biāo)記為第2組,通過SPSS【數(shù)據(jù)(D)】按鈕的【個(gè)案排序(O)】功能將資產(chǎn)負(fù)債率按照升序排列,由此形成由1與2組標(biāo)記構(gòu)成的數(shù)據(jù)序列為
1111121111222111222222
容易計(jì)算出該序列的游程數(shù)r=6,且第1組有12個(gè)數(shù)據(jù),第2組有10個(gè)數(shù)據(jù),即n1=12,n2=10,這是一個(gè)小樣本問題,則有
應(yīng)用SPSS軟件求解過程如下:
(1)選擇菜單【分析(A)】→【非參數(shù)檢驗(yàn)(N)】→【舊對(duì)話框(L)】→【兩個(gè)獨(dú)立樣本(2)】.
(2)選擇待檢驗(yàn)變量到【檢驗(yàn)變量列表(T)】框中.
(3)指定存放組標(biāo)記值的變量到【分組變量(G)】框中,并點(diǎn)擊【定義范圍(D)】按鈕給出組標(biāo)記值的取值范圍.
(4)在【檢驗(yàn)類型】框中選擇【瓦爾德-沃爾福威茨游程(W)】檢驗(yàn)方法.
求解過程如下圖所示:
SPSS運(yùn)行結(jié)果如下:
由以上結(jié)果可知,共有22個(gè)觀測(cè)樣本.工業(yè)企業(yè)的個(gè)案數(shù)為12,商業(yè)企業(yè)的個(gè)案數(shù)為10,游程數(shù)為6,檢驗(yàn)統(tǒng)計(jì)量的值為-2.384,對(duì)應(yīng)的概率P-值為0.008.若顯著性水平為0.05,由概率P-值遠(yuǎn)小于顯著性水平,故應(yīng)拒絕原假設(shè),接受備擇假設(shè),可以認(rèn)為兩類企業(yè)的資產(chǎn)負(fù)債率存在顯著差異.
例3 某工廠用甲、乙兩種不同的工藝生產(chǎn)同一種產(chǎn)品,現(xiàn)從兩種工藝生產(chǎn)出的產(chǎn)品中隨機(jī)抽取60個(gè)產(chǎn)品,獲得各自的使用壽命數(shù)據(jù)如下表:
試用兩獨(dú)立樣本的游程檢驗(yàn)方法判斷該兩種工藝生產(chǎn)出的產(chǎn)品壽命分布是否存在顯著差異.
解 原假設(shè)H0為兩種工藝生產(chǎn)出的產(chǎn)品壽命分布沒有顯著差異,備擇假設(shè)H1為兩種工藝生產(chǎn)出的產(chǎn)品壽命分布存在顯著差異.將兩種工藝生產(chǎn)出的產(chǎn)品壽命數(shù)據(jù)由SPSS數(shù)據(jù)編輯器窗口錄入,甲種工藝的數(shù)據(jù)標(biāo)記為第1組,乙種工藝的數(shù)據(jù)標(biāo)記為第2組,通過SPSS【數(shù)據(jù)(D)】按鈕的【個(gè)案排序(O)】功能將產(chǎn)品壽命數(shù)據(jù)按照升序排列,由此形成由1與2組標(biāo)記構(gòu)成的數(shù)據(jù)序列為
222222222222112212122121112121212221221212
111111111111111111
容易計(jì)算出該序列的游程數(shù)r=24,且第1組有32個(gè)數(shù)據(jù),第2組有28個(gè)數(shù)據(jù),即n1=32,n2=28,這是一個(gè)大樣本問題,則有
應(yīng)用SPSS軟件求解過程如下:
(1)選擇菜單【分析(A)】→【非參數(shù)檢驗(yàn)(N)】→【舊對(duì)話框(L)】→【兩個(gè)獨(dú)立樣本(2)】.
(2)選擇待檢驗(yàn)變量到【檢驗(yàn)變量列表(T)】框中.
(3)指定存放組標(biāo)記值的變量到【分組變量(G)】框中,并點(diǎn)擊【定義范圍(D)】按鈕給出組標(biāo)記值的取值范圍.
(4)在【檢驗(yàn)類型】框中選擇【瓦爾德-沃爾福威茨游程(W)】檢驗(yàn)方法.
求解過程如下圖所示:
SPSS運(yùn)行結(jié)果如下:
由以上結(jié)果可知,共有60個(gè)觀測(cè)樣本.甲種工藝的個(gè)案數(shù)為32,乙種工藝的個(gè)案數(shù)為28,游程數(shù)為24,檢驗(yàn)統(tǒng)計(jì)量的值為-1.796,對(duì)應(yīng)的概率P-值為0.036.若顯著性水平為0.05,由概率P-值小于顯著性水平,故應(yīng)拒絕原假設(shè),接受備擇假設(shè),可以認(rèn)為兩種工藝生產(chǎn)出的產(chǎn)品壽命分布存在顯著差異.
【參考文獻(xiàn)】
[1]王星.非參數(shù)統(tǒng)計(jì)[M].北京:清華大學(xué)出版社,2009.
[2]薛薇.基于SPSS的數(shù)據(jù)分析(第四版)[M].北京:中國(guó)人民大學(xué)出版社,2017.
[3]孫建偉,許汴利,蘇佳,黃學(xué)勇.游程檢驗(yàn)及其在流行病學(xué)中的應(yīng)用與探討[J].預(yù)防醫(yī)學(xué)論壇,2017(2):26-29,32.
[4]李學(xué),劉建民,靳云匯.中國(guó)證券市場(chǎng)有效性的游程檢驗(yàn)[J].統(tǒng)計(jì)研究,2001(12):43-46.
[5]王靜茹,趙以立.游程檢驗(yàn)應(yīng)用[J].中國(guó)統(tǒng)計(jì),1993(6):44-45.
[6]朱凱李悅.RPT方法在多元游程檢驗(yàn)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2016(2):362-363.
[7]蘭嘉慶,余宛泠.異方差的游程檢驗(yàn)[J].中山大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,43(z1):9-11.
[8]Alhakim,A,Hooper,W.A non-parametric test for several independent samples[J].Journal of Nonparametric Statistics,2008(20):253-261.