亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于程度化思想的假設(shè)檢驗(yàn)p值教學(xué)研究*

        2020-11-05 09:02:20魏立力劉國軍
        高等理科教育 2020年5期
        關(guān)鍵詞:定義

        魏立力 劉國軍

        (寧夏大學(xué) 數(shù)學(xué)統(tǒng)計學(xué)院,寧夏 銀川 750021)

        一、引言

        假設(shè)檢驗(yàn)是統(tǒng)計推斷的重要形式之一,是依據(jù)樣本提供的信息對總體某個假設(shè)做出判斷的過程,在醫(yī)療衛(wèi)生、工程、經(jīng)濟(jì)、農(nóng)業(yè)等諸多領(lǐng)域都有廣泛應(yīng)用。一般統(tǒng)計學(xué)教材中采用兩種方式呈現(xiàn)檢驗(yàn)過程,一為臨界值法,二為p值法。臨界值法是通過比較檢驗(yàn)統(tǒng)計量觀測值與臨界值的大小,判斷觀測值是否落入拒絕域,從而做推斷。而p值法是根據(jù)給定的樣本觀測值,計算輸出一個p值,p值越小,拒絕原假設(shè)的理由越充分??梢妏值反映了拒絕原假設(shè)的程度,可以比較精細(xì)地反映決策風(fēng)險,使用p值法有利于走出傳統(tǒng)的二值邏輯,樹立程度化思想,也更契合人腦智能特征。

        由于統(tǒng)計軟件都可以輸出p值,在應(yīng)用領(lǐng)域多用p值做判斷。但在具體應(yīng)用中,還是存在濫用、誤用及誤解p值的現(xiàn)象。近年來,一方面,應(yīng)用研究工作者在展示研究成果時不遺余力地追求(甚至操縱)更小的p值,以說明自己成果的“顯著性”;另一方面,統(tǒng)計學(xué)術(shù)界針對p值進(jìn)行科學(xué)推斷的弊端展開了激烈的學(xué)術(shù)爭論[1-3],這些現(xiàn)象引起了國際統(tǒng)計學(xué)界的高度重視。比如2016年美國統(tǒng)計學(xué)會(ASA)發(fā)表了一個關(guān)于統(tǒng)計顯著性和p值的六項(xiàng)官方聲明[4-5],國內(nèi)一些學(xué)者也對該聲明做出了不同角度的解讀[6-9]。

        在多年教學(xué)實(shí)踐過程中發(fā)現(xiàn),很多學(xué)生將假設(shè)檢驗(yàn)理解為二值決策,能夠理解用臨界值確定的拒絕域和接受域,但基于p值往往難以理解和解釋檢驗(yàn)過程,究其根源是缺乏程度化思想。這就出現(xiàn)了在應(yīng)用層面廣泛而頻繁地使用著的p值,在教學(xué)層面卻是概念模糊、邏輯不清的尷尬局面。

        本文從假設(shè)檢驗(yàn)教學(xué)的視角,針對許多統(tǒng)計學(xué)教材中關(guān)于p值的敘述不夠詳盡的現(xiàn)象,基于程度化的思想,對p值進(jìn)行研究。闡述p值的定義,舉例說明計算方法,指出如何用p值進(jìn)行決策等。運(yùn)用本文觀點(diǎn),容易理解ASA關(guān)于統(tǒng)計顯著性和p值的六條聲明。

        二、p值的定義與計算

        (一)p值的定義

        p值是一個基于特定假設(shè)和樣本觀測值進(jìn)行統(tǒng)計推斷的工具。從工具使用者的角度看,p值反映了原假設(shè)成立時研究者得到現(xiàn)有樣本觀測的不可能程度。p值越小,說明原假設(shè)為真時獲得現(xiàn)有觀測結(jié)果的概率越小,小到一定程度,就應(yīng)該拒絕原假設(shè)。從應(yīng)用的角度說,p值越小,表明結(jié)果越顯著。p值和顯著性水平關(guān)聯(lián)后可以得到如下定義:

        定義1,在一個給定的假設(shè)檢驗(yàn)問題中,利用現(xiàn)有樣本值能夠拒絕原假設(shè)的最小的顯著性水平稱為檢驗(yàn)的p值。

        這個定義告訴我們,p值有兩個要素:樣本觀測值和假設(shè)分布。先用樣本觀測值計算檢驗(yàn)統(tǒng)計量的值,再由假設(shè)分布計算和確定相應(yīng)的p值。對于不同的樣本觀測值,相應(yīng)的p值也不同,可見p值是一個隨機(jī)變量[10],其值與當(dāng)下樣本觀測值有關(guān),它的大小反映了利用現(xiàn)有的樣本值能夠拒絕原假設(shè)的程度。

        ASA的聲明中給出的p值非正式定義是:p值就是基于某個特定統(tǒng)計模型之下,對于樣本的某個統(tǒng)計匯總(Statistical Summary,如,兩個對照組的樣本平均值之差)與實(shí)際觀測值“相等或更極端”的概率。

        理解這個描述的關(guān)鍵是把握“相等或更極端”的含義。這有賴于具體的檢驗(yàn)統(tǒng)計量,該統(tǒng)計量取值的方向性(大或小)決定了其“更極端”的含義。如果該統(tǒng)計量的取值越大,對對立假設(shè)越有利,則“相等或更極端”就是指該統(tǒng)計量“大于等于”現(xiàn)有的觀測值;反之,如果該統(tǒng)計量的取值越小,對對立假設(shè)越有利,則“相等或更極端”就是指該統(tǒng)計量“小于等于”現(xiàn)有觀測值。

        p值的具體計算依賴于原假設(shè)中的概率分布,因而除非原假設(shè)是簡單假設(shè),否則p值一般不是一個值,而是原假設(shè)中參數(shù)的函數(shù),實(shí)用中取其上確界。具體而言,考慮參數(shù)假設(shè)檢驗(yàn)問題H0:θ∈Θ0? H1:θ∈Θ1,此時確定p值的方法由下面定義給出。

        定義 2,設(shè) T(X)是一個檢驗(yàn)統(tǒng)計量,如T(X)的值越大表示H1為真的依據(jù)越充分,則對于樣本觀測值x,定義該檢驗(yàn)的p值為

        如T(X)的值越小表示H1為真的依據(jù)越充分,則對于樣本觀測值x,定義該檢驗(yàn)的p值為

        上述定義給出了p值的具體計算公式,但計算上確界時可能會有困難。下面我們舉例說明一般情況下的計算問題。

        (二)p值的計算

        例1 設(shè)X1,X2,…,Xn是來自N(μ,σ2)(σ2未知)的簡單隨機(jī)樣本,考慮檢驗(yàn)問題

        這可通過t分布的分布函數(shù)得到。上面倒數(shù)第二個等式成立是因?yàn)樯洗_界在μ=μ0處取得,去掉下標(biāo)是因?yàn)檫@個概率不依賴于參數(shù)。

        例2 某種治療方法對某種疾病的治愈率僅為25%?,F(xiàn)有一種新的治療方法,我們想測定是否對同樣的疾病有更好的效果。以θ記這種新方法的治愈率,而提出假設(shè)檢驗(yàn)問題:

        H0:θ≤ 0.25 ?H1:θ>0.25。

        這里,原假設(shè)表示新方法治愈率不比舊的好,而備擇假設(shè)則表示新的優(yōu)于舊的。

        我們選擇20名合格患者,都用這種新方法治療,以X表示其中治愈者的人數(shù),則X取值越大對原假設(shè)H0越不利,對備擇假設(shè)越有利,因而p值的計算還套用定義3中公式(1)。此時參數(shù)為θ∈Θ=[0,1],原假設(shè)對應(yīng)的Θ0=[0,0.25],檢驗(yàn)統(tǒng)計量X~B(20,θ),X的所有可能取值及其p值見下表1。

        表1 X的所有可能取值及對應(yīng)的p值

        上面的例子中,確定上確界都不太困難,在比較復(fù)雜的情形中(比如在例1、例2中的原假設(shè)改為一個有限區(qū)間),求上確界也許就沒有這么簡單了。在研究性教學(xué)過程中,我們建議學(xué)生使用微積分或優(yōu)化工具。

        三、p值的本質(zhì)與可能的誤解

        p值就是在零假設(shè)條件下對數(shù)據(jù)特征的總結(jié)分析,p值提供的是實(shí)際數(shù)據(jù)與零假設(shè)不相容的證據(jù),p值越小,說明在零假設(shè)成立的條件下,得到現(xiàn)有數(shù)據(jù)的概率越小,越有把握拒絕原假設(shè),可見p值反映了程度化思想。在實(shí)際操作中,如果必須做出二值決策,則事先指定顯著性水平,如果p值小于這個水平值,則拒絕原假設(shè)?!帮@著”和“不顯著”的二分法有時候令人費(fèi)解。比如p值分別等于0.048和0.052,二者區(qū)別并不明顯,但前者被認(rèn)為是顯著的,后者卻被認(rèn)為是不顯著的。需要特別注意的是,當(dāng)單次實(shí)驗(yàn)中得到“剛好顯著”的結(jié)果,比如p=0.049,以此宣稱有所發(fā)現(xiàn)時,犯錯的概率仍然可能很高。

        關(guān)于p值本身,經(jīng)常存在如下三個誤解:

        第一個誤解是將p值看作“在得到現(xiàn)有樣本觀測值條件下原假設(shè)成立的概率”。在經(jīng)典統(tǒng)計學(xué)的觀點(diǎn)下,假設(shè)是一個關(guān)于總體未知部分的陳述,這個陳述要么正確,要么不正確,兩者必居其一,不存在隨機(jī)性,不能說假設(shè)成立的概率。這種誤解將兩個條件概率P(A|B)和P(B|A)混淆。對這兩種不同概率的混淆,是導(dǎo)致p值被誤解的核心所在。這被稱為條件概率倒置錯誤。事實(shí)上,對假設(shè)給出概率描述只可能在貝葉斯統(tǒng)計中完成。

        第二個誤解是“如果決定拒絕原假設(shè),則p值就是作出錯誤決定的概率”。這有點(diǎn)相似于拒真概率,但事實(shí)上,如果拒絕原假設(shè),則錯誤就是指原假設(shè)為真,因此其概率就是原假設(shè)為真的概率,這種誤解和第一種誤解本質(zhì)上相同。

        第三個誤解是“如果將試驗(yàn)重復(fù)很多次,則試驗(yàn)獲得顯著性結(jié)果的頻率大約為1-p”。這里的獲得顯著性結(jié)果,就是拒絕原假設(shè),將1-p誤解為試驗(yàn)獲得顯著性結(jié)果的頻率,也就是顯著性結(jié)果可以被重復(fù)的概率。事實(shí)上p值依賴于試驗(yàn)結(jié)果,不同的觀察值一般對應(yīng)不同的p值,p值不能被重復(fù)。p值從來沒有被證明可以用來接受某個假設(shè),即使是拒絕假設(shè),也是基于某個樣本得出的結(jié)論,當(dāng)樣本變動時,結(jié)論很可能也會變動。

        如前所述,影響p值的兩個要素是當(dāng)下的樣本觀測值和原假設(shè)對應(yīng)的分布模型。前者包括了樣本容量,從前面例1我們可以看出:當(dāng)n增大時,統(tǒng)計量的觀測值也趨于增大,因而導(dǎo)致p值減小,只要n足夠大,p值就可以足夠小,由p值檢驗(yàn)幾乎總是拒絕原假設(shè)。這種現(xiàn)象具有一般性,因此,在假設(shè)檢驗(yàn)問題中,報告p值的同時,應(yīng)特別注意樣本容量的大小,同樣的p值在不同的問題中,或者問題相同但樣本容量不同,可能具有完全不相同的信息。

        四、結(jié)語

        假設(shè)檢驗(yàn)的類型很多,有參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn),這些檢驗(yàn)的拒絕域各不相同,背景也相差很大,如果用拒絕域法,則情況比較繁雜,但只要能算出p值 (一般統(tǒng)計軟件中都輸出p值,有的用“p-value”表示,有的用“Sig.”表示),都可用 p 值對原假設(shè)作出判斷,而不管它們的背景有多大的差異,這正是p值的通用性。

        筆者利用本科生和研究生統(tǒng)計學(xué)教學(xué)實(shí)踐和研究結(jié)果,總結(jié)了p值的兩個定義,舉例說明了p值的計算和可能的困難,闡述了p值的本質(zhì)和可能的三種誤解。采用本文觀點(diǎn)理解ASA的聲明中包含的六條準(zhǔn)則是水到渠成的事情。

        在實(shí)際使用假設(shè)檢驗(yàn)時,使用者首先應(yīng)該給出p值,同時給出試驗(yàn)的規(guī)模,并將其理解為現(xiàn)有樣本數(shù)據(jù)(包括數(shù)據(jù)規(guī)模)與原假設(shè)不一致性的程度;其次盡量避免使用“顯著”或“不顯著”(或拒絕與接受)的二值邏輯進(jìn)行判斷;最后,置信區(qū)間和功效可以給讀者提供研究結(jié)果可靠程度的更多的判據(jù)。另外也可以使用貝葉斯檢驗(yàn)方法,對同一個數(shù)據(jù)使用多種方法進(jìn)行分析。結(jié)果越是不同,就越有可能出現(xiàn)重大的發(fā)現(xiàn)。

        猜你喜歡
        定義
        以愛之名,定義成長
        活用定義巧解統(tǒng)計概率解答題
        例談橢圓的定義及其應(yīng)用
        題在書外 根在書中——圓錐曲線第三定義在教材和高考中的滲透
        永遠(yuǎn)不要用“起點(diǎn)”定義自己
        海峽姐妹(2020年9期)2021-01-04 01:35:44
        嚴(yán)昊:不定義終點(diǎn) 一直在路上
        華人時刊(2020年13期)2020-09-25 08:21:32
        定義“風(fēng)格”
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        有壹手——重新定義快修連鎖
        修辭學(xué)的重大定義
        蜜臀av午夜一区二区三区| 大红酸枝极品老料颜色| 亚洲色图偷拍自拍在线| 亚洲日韩精品a∨片无码加勒比| 搡老熟女中国老太| 欧美伊人亚洲伊人色综| 亚洲综合av一区在线| 午夜福利理论片在线观看播放| 中文字字幕在线精品乱码| 国产激情久久99久久| 中国av一区二区三区四区| 国产人成视频在线视频| 国产成人午夜精华液| 91精品91| 亚洲av熟女少妇一区二区三区| 欧美激情综合色综合啪啪五月| 236宅宅理论片免费| 国产做床爱无遮挡免费视频| 国产三级不卡视频在线观看| 国产婷婷色一区二区三区在线| 精品久久久久久国产| 日韩精品一区二区av在线| 麻豆69视频在线观看| 2021久久精品国产99国产精品| аⅴ天堂国产最新版在线中文| 国产偷国产偷亚洲高清| 国产亚洲精品第一综合另类| 女人夜夜春高潮爽a∨片传媒| 亚洲AV秘 无码一区二区久久| 亚洲免费一区二区三区四区| 中字幕人妻一区二区三区| 国产精品女视频一区二区| 人妻露脸国语对白字幕| 日本边添边摸边做边爱喷水| 同性男男黄g片免费网站| 国产一级片内射在线视频| 日本激情网站中文字幕| 老师翘臀高潮流白浆| 99国产综合精品-久久久久| 加勒比日韩视频在线观看| 在熟睡夫面前侵犯我在线播放|