亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        樣本及其統(tǒng)計(jì)量性質(zhì)對(duì)臨床醫(yī)學(xué)研究統(tǒng)計(jì)方法恰當(dāng)選擇的影響

        2021-01-23 03:39:30吳俊林戴浩然唐雪莉黃艷君黃國(guó)平
        四川精神衛(wèi)生 2020年6期
        關(guān)鍵詞:隨機(jī)性正態(tài)正態(tài)分布

        吳俊林,陳 霞,戴浩然,唐雪莉,黃艷君,黃國(guó)平,2*

        (1.四川省精神衛(wèi)生中心·綿陽(yáng)市第三人民醫(yī)院,四川 綿陽(yáng) 621000;2.川北醫(yī)學(xué)院精神衛(wèi)生學(xué)院,四川 南充 637000*通信作者:黃國(guó)平,E-mail:achuanggp@163.com)

        在醫(yī)學(xué)論文中,誤用甚至濫用統(tǒng)計(jì)方法的現(xiàn)象仍較普遍[1-2],過(guò)度追求具體方法的使用而對(duì)其基本概念和原理理解的不充分與統(tǒng)計(jì)方法的誤用密切相關(guān)。本文將重點(diǎn)討論兩個(gè)可能會(huì)嚴(yán)重影響統(tǒng)計(jì)方法恰當(dāng)選擇而又容易被忽略的概念——樣本及其統(tǒng)計(jì)量,為醫(yī)學(xué)期刊編輯和醫(yī)學(xué)科研人員提供參考。

        1 樣本及隨機(jī)性來(lái)源

        眾所周知,必須帶有隨機(jī)性的數(shù)據(jù)才能成為統(tǒng)計(jì)學(xué)研究的對(duì)象,所處理的數(shù)據(jù)是否具有隨機(jī)性,是區(qū)別統(tǒng)計(jì)方法與其他數(shù)據(jù)處理方法的根本所在[3]。根據(jù)數(shù)據(jù)收集的方法或數(shù)據(jù)隨機(jī)性的來(lái)源,可將數(shù)據(jù)分為兩類(lèi),即觀察數(shù)據(jù)和實(shí)驗(yàn)(試驗(yàn))數(shù)據(jù)[4-5]。

        觀察數(shù)據(jù)常來(lái)源于抽樣調(diào)查,當(dāng)某研究所涉及的研究對(duì)象數(shù)量很大時(shí),一般不可能也沒(méi)必要對(duì)全部對(duì)象進(jìn)行研究,而只需抽取其部分對(duì)象加以考察,如擬調(diào)查某地區(qū)特定時(shí)點(diǎn)某疾病的患病率,假設(shè)該地區(qū)特定時(shí)點(diǎn)共有500 000人,其中有擬調(diào)查疾病患者m人,m未知,所以患病率P=m/500000也未知,要確切知道P,則須對(duì)500 000人逐一進(jìn)行診斷,獲得符合診斷標(biāo)準(zhǔn)的患者人數(shù)。如前所述,操作可能不易實(shí)現(xiàn),研究者打算采取另一種方法獲得P,從500 000人中隨機(jī)抽取2 000人進(jìn)行調(diào)查,500 000人稱(chēng)為總體,2 000人稱(chēng)為樣本,根據(jù)樣本對(duì)象的診斷結(jié)果估計(jì)P。隨機(jī)性影響就表現(xiàn)在:抽樣實(shí)施前研究者并不知道具體哪2 000人會(huì)被抽中,經(jīng)過(guò)有放回地重復(fù)抽樣,可得到大量同一容量的不同樣本,隨機(jī)性就來(lái)自于抽樣,對(duì)這類(lèi)樣本數(shù)據(jù)做分析必然會(huì)用到統(tǒng)計(jì)方法。

        實(shí)驗(yàn)數(shù)據(jù)來(lái)源于在實(shí)驗(yàn)中操縱一個(gè)或多個(gè)變量后測(cè)量的觀察指標(biāo)結(jié)果,它的隨機(jī)性來(lái)源于實(shí)驗(yàn)的隨機(jī)誤差。假如,某項(xiàng)研究擬探討維生素C對(duì)感冒的影響,研究者將符合納入標(biāo)準(zhǔn)且不符合排除標(biāo)準(zhǔn)的300名受試對(duì)象隨機(jī)地分配到研究組和對(duì)照組,每組150人,研究組每日口服維生素C 1 500毫克,對(duì)照組口服安慰劑1 500毫克,考察研究期間兩組對(duì)象平均患感冒的次數(shù)。分組過(guò)程中,研究者相當(dāng)于從300名受試者總體中隨機(jī)抽取了一部分對(duì)象作為A樣本,接受A處理,再隨機(jī)抽取另一部分對(duì)象作為B樣本,接受B處理,不過(guò),B樣本實(shí)際上是A樣本抽取后剩下的那部分研究對(duì)象。研究完成,假設(shè)得到兩組平均患感冒的次數(shù)分別為1.8次和3.2次,是否據(jù)此可以認(rèn)為維生素C對(duì)預(yù)防感冒有效。然而,兩組患感冒次數(shù)的差異可能僅僅是由于抽樣的隨機(jī)性所致,讓易患感冒的研究對(duì)象過(guò)多地被分配到樣本B中,而免疫力較強(qiáng)的對(duì)象更多地抽取到樣本A中,因此,這個(gè)差異很可能是由機(jī)會(huì)變異所致,機(jī)會(huì)變異往往由一些無(wú)法或不能完全加以控制且對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生隨機(jī)性影響的因素構(gòu)成,它給結(jié)果帶來(lái)不確定性,稱(chēng)為隨機(jī)誤差,需用統(tǒng)計(jì)方法加以分析兩組的差異是由隨機(jī)誤差造成的還是存在系統(tǒng)誤差(即處理之間存在差別)。

        2 樣本特征

        假設(shè)X1,X2,X3,…,Xn是從總體X中隨機(jī)抽取的容量為n的樣本,在觀察或試驗(yàn)之前,研究者其實(shí)并不知道X1,X2,X3,…,Xn各取哪個(gè)具體的值,但每個(gè)分量的可能取值與總體X的可能取值是一致的,它們有相同的值域,且每個(gè)分量是一個(gè)與總體X分布完全一樣的隨機(jī)變量,因此,樣本是一組隨機(jī)變量,具有隨機(jī)性特征。如果抽樣是有放回地抽取,即抽出一個(gè)對(duì)象記錄后放回總體,將總體搖均勻再進(jìn)行第二次抽取,以此類(lèi)推,每次抽樣時(shí)總體的抽樣環(huán)境相同,樣本各分量之間獨(dú)立,稱(chēng)這樣的樣本為獨(dú)立同分布樣本或簡(jiǎn)單隨機(jī)樣本。在觀察或試驗(yàn)之后,樣本中每個(gè)分量都能獲得一個(gè)具體的取值,共得到n個(gè)已知的數(shù),即x1,x2,x3,…,xn,統(tǒng)計(jì)中常以英文大寫(xiě)字母代表隨機(jī)變量,小寫(xiě)字母代表實(shí)數(shù),沒(méi)有隨機(jī)性,作為隨機(jī)變量的取值,顯然樣本具有數(shù)的特征。

        樣本既可以被看成一組數(shù)據(jù)也可被看成一組隨機(jī)變量,這就是樣本的二重性。樣本二重性雖然簡(jiǎn)單,但很重要,尤其在實(shí)際運(yùn)用過(guò)程中,研究者更容易把樣本看成一組具體的數(shù)字,但“樣本是一組隨機(jī)變量”這一特征不可忽視,否則容易導(dǎo)致統(tǒng)計(jì)學(xué)的誤用和濫用。如調(diào)查研究中,某研究者調(diào)查某日去過(guò)商場(chǎng)的前100人,這顯然不是一個(gè)隨機(jī)樣本,稱(chēng)為方便樣本。在醫(yī)學(xué)論文中,??梢?jiàn)研究者已描述為所獲樣本為方便樣本,但仍然采用了僅隨機(jī)樣本才能使用的統(tǒng)計(jì)方法來(lái)處理數(shù)據(jù)。又如臨床研究中的病歷資料回顧性分析,這類(lèi)樣本往往并不具有隨機(jī)性,仍采用分析隨機(jī)數(shù)據(jù)的統(tǒng)計(jì)方法處理相應(yīng)資料,顯然其結(jié)果的可信度存疑。

        3 統(tǒng)計(jì)量及其抽樣分布

        由于分布完整地描述了隨機(jī)變量,所以研究樣本的概率分布成為必然,樣本的概率分布也稱(chēng)為樣本分布,由于樣本的獨(dú)立同分布特征,所以其分布可由總體分布獲得。

        3.1 統(tǒng)計(jì)量

        樣本獲得后,需對(duì)其進(jìn)行加工、整理,從中提取有用信息,統(tǒng)計(jì)量就是樣本某一方面信息的集中體現(xiàn),所以選擇恰當(dāng)?shù)臉颖窘y(tǒng)計(jì)量是處理數(shù)據(jù)的關(guān)鍵。如用X表示100個(gè)學(xué)生的身高,從這100人中隨機(jī)抽取10人測(cè)量其身高,用X1代表準(zhǔn)備抽取的第一個(gè)人的身高,這個(gè)人可以是100人中的任何一個(gè)人,其身高取值記為x1,要求將抽取的第一個(gè)人放回總體后,再進(jìn)行第二次抽取,準(zhǔn)備抽取的第二個(gè)人的身高用X2表示,它也可以是100人中的任何一個(gè)人,記身高取值為x2。以此類(lèi)推,重復(fù)抽取10次,得到樣本容量為10的一個(gè)隨機(jī)樣本,即X1,X2,X3,…,X10?,F(xiàn)選擇樣本均值這個(gè)統(tǒng)計(jì)量對(duì)樣本X1,X2,X3,…,X10進(jìn)行加工,其計(jì)算表達(dá)式為是樣本均值,是對(duì)樣本X1,X2,X3,…,X10進(jìn)行加工處理后得到的量。因?yàn)闃颖臼且唤M隨機(jī)變量,所以也是一個(gè)隨機(jī)變量。如果按設(shè)定的抽樣方案把這10人從100人總體中取出,并測(cè)量了這10人的身高,此時(shí)就獲得了10個(gè)具體的數(shù),將其代入樣本均數(shù)表達(dá)式中,獲得隨機(jī)變量的一個(gè)具體值??梢?jiàn)抽樣實(shí)施前樣本統(tǒng)計(jì)量是一個(gè)隨機(jī)變量,實(shí)施后,即可得到統(tǒng)計(jì)量一個(gè)具體值。

        通常,統(tǒng)計(jì)量是樣本的已知函數(shù),它只依賴(lài)于樣本而不包含任何未知參數(shù),用于總體參數(shù)的估計(jì)和檢驗(yàn)。統(tǒng)計(jì)量既然是樣本的已知函數(shù),如上所述它也是一個(gè)隨機(jī)變量,也有其概率分布,且這個(gè)分布理論上可由樣本分布給出,稱(chēng)為抽樣分布。然而在實(shí)際工作中,統(tǒng)計(jì)量的抽樣分布的計(jì)算是困難的。如果總體服從正態(tài)分布,則樣本均值、樣本方差等常見(jiàn)統(tǒng)計(jì)量的精確分布比較容易算出,抽樣分布定理就是它們的分布描述,但對(duì)于非正態(tài)性分布的更一般總體,其樣本統(tǒng)計(jì)量的精確分布難以獲得,幸運(yùn)的是可以借助中心極限定理和大數(shù)定理獲得一些統(tǒng)計(jì)量的近似分布,不過(guò),只有當(dāng)樣本量較大時(shí)近似才有效,大樣本要求在應(yīng)用過(guò)程中是不可忽略的問(wèn)題[6]。

        由于統(tǒng)計(jì)學(xué)家根據(jù)不同的目的構(gòu)造了許多不同的統(tǒng)計(jì)量,下面將以常用的樣本均值統(tǒng)計(jì)量為例分析相應(yīng)的抽樣分布。

        3.2 漸進(jìn)抽樣分布

        設(shè)X1,X2,X3,…,Xn是來(lái)自總體均值為μ、方差為σ2的獨(dú)立同分布樣本,根據(jù)中心極限定理,當(dāng)n充分大時(shí),樣本均值近似地服從均值為μ,方差為的正態(tài)分布,即。也就是說(shuō),不管總體分布的具體形式如何,只要它的均值為μ,方差為σ2,中心極限定理保證了從這個(gè)總體抽取的簡(jiǎn)單隨機(jī)樣本,其均值就近似地服從均值為μ、方差為的正態(tài)分布。這為對(duì)來(lái)自非正態(tài)總體的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)處理提供了理論支持。

        3.3 精確分布

        設(shè)X1,X2,X3,…,Xn是抽自均值為μ、方差為σ2的正態(tài)總體的簡(jiǎn)單隨機(jī)樣本,則樣本中各分量均服從正態(tài)分布,且是絕對(duì)服從,而非近似服從。因?yàn)榉恼龖B(tài)分布的多個(gè)隨機(jī)變量的和仍為正態(tài)分布,一個(gè)正態(tài)分布乘以一個(gè)常數(shù)也為正態(tài)分布,樣本平均數(shù)是由服從同一正態(tài)分布的多個(gè)隨機(jī)變量Xi的和乘以一個(gè)常數(shù)構(gòu)成,所以-X服從正態(tài)分布,并且這個(gè)正態(tài)分布的均值為μ、方差為,即,等價(jià)于,也就是說(shuō)樣本均值減去總體均值再除以總體標(biāo)準(zhǔn)差與樣本量平方根的商所得量服從標(biāo)準(zhǔn)正態(tài)分布稱(chēng)為標(biāo)準(zhǔn)誤差。根據(jù)t分布的定義可推知,服從自由度為n-1的t分布,即。可見(jiàn),用樣本標(biāo)準(zhǔn)差s代替總體標(biāo)準(zhǔn)差σ后的統(tǒng)計(jì)量的分布也是已知的,它解決了實(shí)際工作中在總體標(biāo)準(zhǔn)差σ常常不可知情況下使用統(tǒng)計(jì)方法處理樣本數(shù)據(jù)的問(wèn)題。

        從上面公式導(dǎo)出過(guò)程可知,無(wú)論是漸進(jìn)抽樣分布公式還是精確抽樣分布公式,都是建立在簡(jiǎn)單隨機(jī)樣本基礎(chǔ)上,也稱(chēng)為獨(dú)立同分布樣本,指在相同條件下對(duì)總體X進(jìn)行n次重復(fù)且獨(dú)立的隨機(jī)抽樣,所獲得的是由n個(gè)獨(dú)立且與總體X具有相同分布的分量組成的隨機(jī)樣本。嚴(yán)格地講,為保證抽樣條件相同,須采取有放回地重復(fù)抽樣方法隨機(jī)抽取。由此可見(jiàn),公式的使用首先必須強(qiáng)調(diào)樣本分量間的獨(dú)立性,獨(dú)立性的判斷主要根據(jù)專(zhuān)業(yè)知識(shí)和樣本獲取過(guò)程以及研究者采用的抽樣方法。其次,總體的正態(tài)性考察,當(dāng)總體為非正態(tài)總體,所獲得的統(tǒng)計(jì)結(jié)果多為近似結(jié)果,而且要在大樣本量的情況下這種近似才有效,如果是正態(tài)總體,在其他條件都嚴(yán)格滿足的情況下,所得結(jié)果精度更高。再次,需要對(duì)方差齊性考察,公式推導(dǎo)過(guò)程顯示,只有當(dāng)兩總體方差相等時(shí),才可得到兩樣本均值差的抽樣分布,否則,相應(yīng)抽樣分布定理不可能存在。

        然而,在實(shí)際應(yīng)用中,上述諸多條件往往并不能?chē)?yán)格地滿足統(tǒng)計(jì)理論的要求,為處理問(wèn)題方便,如常把一些非正態(tài)總體近似地看成正態(tài)總體,用正態(tài)分布來(lái)逼近總體的分布,這種逼近所帶來(lái)的誤差從應(yīng)用的角度看可忽略不計(jì)。又如在試驗(yàn)分組時(shí),往往獲得的各分組樣本并不滿足獨(dú)立同分布要求,因?yàn)槌闃舆^(guò)程無(wú)法真正做到有放回地抽樣,而采取的是不放回抽樣方法,改變了抽樣條件,正如前例,某研究對(duì)象被抽到維生素C組,則他就沒(méi)有機(jī)會(huì)被抽到安慰劑組,這種分組會(huì)稍許影響兩組平均數(shù),不過(guò)在實(shí)際應(yīng)用過(guò)程中,仍然采用了獨(dú)立同分布樣本的抽樣分布相關(guān)定理來(lái)處理數(shù)據(jù),原因在于非獨(dú)立性可致使標(biāo)準(zhǔn)誤差變小,不放回抽樣使其增大,相應(yīng)統(tǒng)計(jì)結(jié)果誤差是可以被接受的[7]。盡管如此,研究者也應(yīng)當(dāng)明白,當(dāng)理論要求與現(xiàn)實(shí)條件相差甚遠(yuǎn)時(shí),這種逼近不是一個(gè)好的選擇。

        4 抽樣分布在參數(shù)估計(jì)中的應(yīng)用

        醫(yī)學(xué)統(tǒng)計(jì)學(xué)的任務(wù)主要包括統(tǒng)計(jì)描述和統(tǒng)計(jì)推斷,前者主要針對(duì)樣本,采用圖、表和統(tǒng)計(jì)量等工具對(duì)樣本進(jìn)行加工處理,后者是在樣本加工的基礎(chǔ)上對(duì)相應(yīng)總體的特征進(jìn)行推斷,其工作范圍已超越樣本指向了總體,主要包括參數(shù)估計(jì)和假設(shè)檢驗(yàn),參數(shù)估計(jì)又可分為點(diǎn)估計(jì)和區(qū)間估計(jì),下面以總體均值的區(qū)間估計(jì)為例,介紹抽樣分布的應(yīng)用。

        以前例100人總體為例,估計(jì)他們的平均身高μ,擬從總體中隨機(jī)抽取10人,分別用X1,X2,X3,…,X10代表其身高,實(shí)施抽取后獲得10人樣本,并分別測(cè)量其身高,計(jì)算平均值,假設(shè)總體服從正態(tài)分布,樣本為獨(dú)立同分布樣本,由抽樣分布定理可知,樣本均值服從均值為μ、方差為的正態(tài)分布,即,根據(jù)正態(tài)分布性質(zhì),有約68%的樣本平均數(shù)落在以總體均值μ為中心的1個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi),有約95%的樣本平均數(shù)落在2個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi),有約99.7%的樣本平均數(shù)落在3個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi),如圖1。

        圖1 正態(tài)抽樣分布

        由圖可見(jiàn),如果以落在2個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi)的樣本均值加減2個(gè)標(biāo)準(zhǔn)誤差構(gòu)造區(qū)間,即,則這個(gè)區(qū)間就完全可能覆蓋總體均值μ,然而,在所有的樣本均值中,僅有約95%的數(shù)落在以總體均值μ為中心的2個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi),還有約5%的樣本均值落在這個(gè)范圍之外,若以范圍外的樣本平均數(shù)加減2個(gè)標(biāo)準(zhǔn)誤差所得區(qū)間是不可能覆蓋總體均值μ,如果用這個(gè)區(qū)間作為總體平均數(shù)的估計(jì)區(qū)間,就會(huì)犯錯(cuò)誤,不過(guò)犯錯(cuò)的可能性?xún)H為5%,而所獲區(qū)間覆蓋總體均值μ的把握度則為95%,統(tǒng)計(jì)學(xué)上稱(chēng)為95%的置信區(qū)間。這個(gè)過(guò)程更形象地講,它就像從一只裝滿區(qū)間的盒子中隨機(jī)抽取一個(gè)區(qū)間,因盒子中所裝的區(qū)間有95%是覆蓋了總體均數(shù)μ,僅有5%的沒(méi)有覆蓋,抽取一次所得到能夠包括總體均值的區(qū)間的概率為95%,犯錯(cuò)的概率為5%。值得注意的是,實(shí)際工作中總體標(biāo)準(zhǔn)差σ往往未知,可用樣本標(biāo)準(zhǔn)差S代替,根據(jù)抽樣分布定理,相應(yīng)統(tǒng)計(jì)量則服從t分布,可用t分布求置信區(qū)間。

        5 小 結(jié)

        本文詳細(xì)介紹了樣本及其產(chǎn)生過(guò)程,樣本的隨機(jī)性及其來(lái)源,樣本統(tǒng)計(jì)量特征及其抽樣分布定理等內(nèi)容,回答了在統(tǒng)計(jì)方法應(yīng)用中應(yīng)當(dāng)滿足哪些條件以及為什么需要滿足這些條件,盡管實(shí)際應(yīng)用不一定完全能滿足要求,但在做近似處理時(shí)應(yīng)當(dāng)把握“度”的問(wèn)題[8],最終不讓統(tǒng)計(jì)結(jié)果偏離較遠(yuǎn)。

        猜你喜歡
        隨機(jī)性正態(tài)正態(tài)分布
        基于對(duì)數(shù)正態(tài)分布的出行時(shí)長(zhǎng)可靠性計(jì)算
        雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
        正態(tài)分布及其應(yīng)用
        淺析電網(wǎng)規(guī)劃中的模糊可靠性評(píng)估方法
        基于泛正態(tài)阻抗云的諧波發(fā)射水平估計(jì)
        考慮負(fù)荷與分布式電源隨機(jī)性的配電網(wǎng)無(wú)功優(yōu)化
        適用于隨機(jī)性電源即插即用的模塊化儲(chǔ)能電池柜設(shè)計(jì)
        正態(tài)分布題型剖析
        半?yún)?shù)EV模型二階段估計(jì)的漸近正態(tài)性
        χ2分布、t 分布、F 分布與正態(tài)分布間的關(guān)系
        久天啪天天久久99久孕妇| 国产98色在线 | 国产| 国产男女免费完整视频| 国产95在线 | 欧美| 国产欧美日韩专区毛茸茸| 一级黄片草逼免费视频| 狠色人妻丝袜中文字幕| 成人亚洲一区二区三区在线| 亚洲国产精品日韩av专区| 亚洲一区二区婷婷久久| 亚洲高清自偷揄拍自拍| 性色av色香蕉一区二区蜜桃| 欧美激情一区二区三区成人 | 亚洲日韩精品一区二区三区| 18禁黄网站禁片免费观看| 国产综合精品久久亚洲| 一本色道久久88综合亚洲精品| 日本一级二级三级不卡| 亚洲熟妇av一区| 亚洲精品综合一区二区三| 天天色影网| 亚洲Av午夜精品a区| 国产综合一区二区三区av| 91精品人妻一区二区三区水蜜桃| 性欧美长视频免费观看不卡| 白天躁晚上躁麻豆视频| 亚洲日韩区在线电影| 亚洲中文字幕亚洲中文| 久久精品人妻少妇一二三区| 被黑人猛烈30分钟视频| 免费的一级毛片| 日韩精品国产一区二区| 久久伊人精品中文字幕有尤物| 欧美黑寡妇特a级做爰| 亚洲精品国产精品国自产观看| 精品久久免费一区二区三区四区 | 亚洲国产精品久久电影欧美 | av在线免费高清观看| 成人免费xxxxx在线观看| 色老汉免费网站免费视频| 久久熟女乱一区二区三区四区|