劉 倩
(西安電子科技大學 數(shù)學與統(tǒng)計學院,陜西 西安 710071)
假設檢驗是統(tǒng)計推斷的重要內容之一。本文以參數(shù)假設檢驗為研究對象,探討試驗設計對假設檢驗的影響。所謂試驗的統(tǒng)計設計,就是設計試驗的過程,使得收集的數(shù)據(jù)適合于用統(tǒng)計方法分析,得出有效的和客觀的結論。當問題涉及受試驗誤差影響的數(shù)據(jù)時,只有統(tǒng)計方法才是客觀的分析方法。這樣一來,任一試驗問題就存在兩個方面:試驗的設計和數(shù)據(jù)的統(tǒng)計分析。
在假設檢驗的試驗設計階段,需要重點解決以下兩個問題:①如何正確地建立原假設和備擇假設,對同樣一個檢驗模型,原假設和備擇假設可以互換嗎?特別是對單側假設檢驗,這個問題似乎尤為明顯,是否有必要給出原假設和備擇假設的建立原則?②以成對數(shù)據(jù)比較與成組數(shù)據(jù)比較問題為例,說明如何正確選擇檢驗統(tǒng)計量,此時分析清楚條件是關鍵。為了更好地解決這兩個問題,我們根據(jù)兩個具體的假設檢驗案例分別進行討論。
案例1[1]一位中學校長在報紙上看到一則報道:這一城市的初中學生平均每周看8 h電視。她認為她所領導的學校,學生看電視時間明顯小于該數(shù)字。為此,隨機調查了該校的100名初中學生,得知平均每周看電視的時間6.5 h,樣本標準差為2 h。假定學生每周看電視的時間服從正態(tài)分布,根據(jù)調查結果,在0.05的顯著性水平下,能否支持這位校長的看法。
分析由于學生每周看電視的時間服從正態(tài)分布,總體方差未知,所以采用t檢驗統(tǒng)計量。本題關鍵是如何建立原假設和備擇假設,究竟是左側檢驗還是右側檢驗呢?原假設和備擇假設能否進行互換呢?
解法1建立左側假設檢驗
H0:μ≥μ0;H1:μ<μ0。
(1)
(2)
顯然,統(tǒng)計量的觀測值落在拒絕域中,故拒絕H0,即在0.05的顯著性水平下,支持這位校長的看法。
解法2建立右側假設檢驗
H0:μ≤μ0;H1:μ>μ0。
(3)
(4)
顯然,統(tǒng)計量的觀測值沒有落在拒絕域中,故不能拒絕原假設H0。但是要注意“不拒絕”并不表示要“接受”, 但在一些教材上卻描述為接受原假設。事實上,這種描述是不準確的,原因就在于在現(xiàn)有的顯著性水平下,根據(jù)現(xiàn)有樣本數(shù)據(jù)沒有充分理由拒絕原假設H0,并非肯定H0是對的,此時,這是一種“被動”接受。所以根據(jù)解法2,結論為根據(jù)現(xiàn)有樣本數(shù)據(jù),無法作出判斷。即在0.05的顯著性水平下,無法得到支持這位校長的看法的結論。
這兩種不同的解法究竟哪一個正確呢?
如果稍不留神,就會認為這兩種做法的結論一致,認為無論是左側檢驗還是右側檢驗,都是支持這位校長的看法。但是方法2的“接受”并不能肯定原假設一定是對的,這樣的結論是含糊不清的。而解法1的結論明確且有效,所以對本例,推薦使用解法1。
由本例引入對假設檢驗立場問題的討論。我們是站在保護原假設的立場,為什么是保護原假設?根據(jù)Neyman與Pearson的思想,在假設檢驗理論中,首先要控制犯第一類錯誤,即“棄真”錯誤的概率不能大于給定的顯著性水平,這就表明原假設是被保護的。因此“把什么放在原假設”是個非常重要的問題。
這里,需要把握兩個原則:原則1,把經(jīng)過長期考驗或者驗證認為是正確的結論放在原假設;原則2,把希望得到的結論放在備擇假設,希望通過拒絕原假設來得到希望要的結論。
從數(shù)學的角度分析,原假設和備擇假設的地位應該是平等的。原假設和備擇假設無論怎樣提出都可以,因為它們的檢驗結論都是相容而不會相互矛盾[2]。但值得注意的是,對于給定的樣本數(shù)據(jù),統(tǒng)計假設的不同設定方法會導致表述的結論不同,有的表述更明確而且有效,而有的則顯得含糊不清。因此,在實踐中,提出原假設和備擇假設的幾點建立原則是很有必要的。這樣看來,從實際的假設檢驗過程中可以看出原假設和備擇假設是不平等的。因為拒絕原假設,說明有充分的理由證明原假設不對,而接受原假設僅是由于沒有充分的理由拒絕它,從保護原假設的立場我們接受了,但是“接受”是“含糊的”,“拒絕”是“明確的”。也就是說,要推翻原假設需要充分的證據(jù),如果得到拒絕原假設的結論, 那么這個結論是很有說服力的; 反之,僅僅表明樣本數(shù)據(jù)與原假設沒有矛盾, 但并不意味著原假設是應該被接受的,不拒絕不等于接受,在這種情形下接受原假設不是很有說服力。
此刻,發(fā)現(xiàn)本案例中的解法1正是依據(jù)原則2建立了原假設和備擇假設。筆者建議本題先確定備擇假設,再確定原假設,把我們想要得到的結論放在備擇假設,把希望拒絕的結論放在原假設。
更進一步,更新樣本數(shù)據(jù),比如樣本均值取7.8,或者更新樣本均值使得該檢驗統(tǒng)計量的觀測值介于-1.65和+1.65之間,答案會有怎樣的變化?我們發(fā)現(xiàn),無論左側檢驗還是右側檢驗,每一個決策都沒有很好的說服力。既不能拒絕初中學生平均每周看電視的時間至少是8 h的說法,也不能拒絕初中學生平均每周看電視的時間最多是8 h的說法,即此時校長的說法既不能接受也不能拒絕。導致出現(xiàn)上述結果的原因在于,這兩種做法的結論都是不能拒絕原假設,接受原假設,并不代表它是對的,備擇假設是錯的,只是說在現(xiàn)有顯著性水平下,根據(jù)現(xiàn)有樣本數(shù)據(jù)沒有充足的理由拒絕原假設,因此,“對于同樣一個檢驗模型,交換原假設和備擇假設可以得到完全相反的結論”的提法本身就是錯誤的,至少是不準確的。這種提法極易給初學者帶來誤區(qū)[3]。造成這種狀況的原因是題目給定的樣本容量太小,不足以形成統(tǒng)計學上的證據(jù)。此時,如果不改變樣本容量,則可以借助假設檢驗中常用的另一種決策準則:p值準則[4]。
案例2做以下的試驗以比較人對紅光或綠光的反應時間(以s(秒)計),試驗在點亮紅光或者綠光的同時,啟動計時器,要求受試者見到紅光或綠光點亮時,就按下按鈕,切斷計時器,這就能測得反應時間,測量的結果如表1。在0.05的顯著性水平下,問能否認為人對紅光的反應時間小于對綠光的反應時間。
解法1本題中的數(shù)據(jù)是成對的,即對同一個測試者測出一對數(shù)據(jù),因此,它們不是兩個獨立的隨機變量的觀測值。也就是說,表中第一行不能看成一個樣本的樣本值,同樣,表中第二行也不能看成是一個樣本的樣本值。
H0:μD≥0; H1:μD<0。 (5)
(6)
故拒絕H0,認為μD<0,即有95%的把握認為人對紅光的反應時間小于對綠光的反應時間,也就是人對紅光的反應要比綠光快。
解法2如果用成組比較來處理,即誤將表格中第一行數(shù)據(jù)看成隨機變量X的樣本值,而將第二行數(shù)據(jù)看成另一個獨立隨機變量Y的樣本值,并基于這兩個樣本檢驗如下假設
H0:μX≥μY;H1:μX<μY。
(7)
(8)
故不能拒絕原假設H0,結論為根據(jù)現(xiàn)有樣本數(shù)據(jù),無法作出判斷。即在0.05的顯著性水平下,無法得到人對紅光的反應時間小于對綠光的反應時間的結論。
這兩種不同的解法究竟哪一個正確呢? 以下引入成對數(shù)據(jù)比較與成組數(shù)據(jù)比較問題。
有時為了比較兩種產(chǎn)品、兩種儀器、兩種方法等的差異,我們常在相同條件下做對比試驗,得到一批成對的觀察值,然后分析觀察數(shù)據(jù)作出推斷,這種方法常稱作成對比較法。這些成對的數(shù)據(jù)是一對對獲得的,對于每一對數(shù)據(jù)而言,它們是同一研究對象對不同產(chǎn)品、儀器或者方法測得的結果,因此,它們不是兩個獨立的隨機變量的觀測值,我們不能采用成組數(shù)據(jù)(兩個獨立樣本比較)的方法對其進行檢驗。這是成對數(shù)據(jù)所采用的檢驗方法與成組數(shù)據(jù)(兩樣本比較)最本質的區(qū)別。
無論是成對數(shù)據(jù)比較,還是成組數(shù)據(jù)的差異比較問題,在總體方差未知的場合下,都可以通過構造恰當?shù)膖檢驗統(tǒng)計量進行假設檢驗。所以如果誤將成對比較理解為成組比較,那就會導致錯誤的結論。
顯然,在本案例中,同一對中兩個數(shù)據(jù)的差異則可看成是僅由兩種不同儀器的差異所引起的,這樣,局限于各對中兩個數(shù)據(jù)來比較就能排除種種其他因素,而只考慮單獨由不同儀器所產(chǎn)生的影響,從而能比較不同儀器的測量結果是否有顯著的差異。因此,本案例將成對比較問題轉化為單個樣本問題進行檢驗,解法1是正確的。教師在授課過程中,應該強調成對數(shù)據(jù)和成組數(shù)據(jù)在獲取方法和條件上的差異,并采用相應的方法。
本文以參數(shù)假設檢驗為研究對象,探討了試驗設計對假設檢驗的影響。重點分析了假設檢驗問題在試驗設計階段存在的兩個重要方面并引發(fā)了一些思考。由案例1引入對假設檢驗立場問題的討論并給出2條實用的建立原則。我們是站在保護原假設的立場,依據(jù)是Neyman與Pearson的思想,即首先要控制犯第一類錯誤即“棄真”錯誤的概率不能大于給定的顯著性水平。因此在實踐中,要掌握原假設和備擇假設的兩個建立原則,給出明確且有效的結論;由案例2本文引入對成對數(shù)據(jù)和成組數(shù)據(jù)比較問題,分析清楚題目條件,正確選擇檢驗統(tǒng)計量,才可能作出正確的判斷。