亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

樣本及其統(tǒng)計(jì)量性質(zhì)對(duì)臨床醫(yī)學(xué)研究統(tǒng)計(jì)方法恰當(dāng)選擇的影響

2021-01-23 03:39:30吳俊林戴浩然唐雪莉黃艷君黃國(guó)平

四川精神衛(wèi)生 2020年6期

吳俊林，陳霞，戴浩然，唐雪莉，黃艷君，黃國(guó)平，2*

（1.四川省精神衛(wèi)生中心·綿陽(yáng)市第三人民醫(yī)院，四川綿陽(yáng) 621000；2.川北醫(yī)學(xué)院精神衛(wèi)生學(xué)院，四川南充 637000*通信作者：黃國(guó)平，E-mail：achuanggp@163.com）

在醫(yī)學(xué)論文中，誤用甚至濫用統(tǒng)計(jì)方法的現(xiàn)象仍較普遍［1-2］，過(guò)度追求具體方法的使用而對(duì)其基本概念和原理理解的不充分與統(tǒng)計(jì)方法的誤用密切相關(guān)。本文將重點(diǎn)討論兩個(gè)可能會(huì)嚴(yán)重影響統(tǒng)計(jì)方法恰當(dāng)選擇而又容易被忽略的概念——樣本及其統(tǒng)計(jì)量，為醫(yī)學(xué)期刊編輯和醫(yī)學(xué)科研人員提供參考。

1 樣本及隨機(jī)性來(lái)源

眾所周知，必須帶有隨機(jī)性的數(shù)據(jù)才能成為統(tǒng)計(jì)學(xué)研究的對(duì)象，所處理的數(shù)據(jù)是否具有隨機(jī)性，是區(qū)別統(tǒng)計(jì)方法與其他數(shù)據(jù)處理方法的根本所在［3］。根據(jù)數(shù)據(jù)收集的方法或數(shù)據(jù)隨機(jī)性的來(lái)源，可將數(shù)據(jù)分為兩類(lèi)，即觀察數(shù)據(jù)和實(shí)驗(yàn)（試驗(yàn)）數(shù)據(jù)［4-5］。

觀察數(shù)據(jù)常來(lái)源于抽樣調(diào)查，當(dāng)某研究所涉及的研究對(duì)象數(shù)量很大時(shí)，一般不可能也沒(méi)必要對(duì)全部對(duì)象進(jìn)行研究，而只需抽取其部分對(duì)象加以考察，如擬調(diào)查某地區(qū)特定時(shí)點(diǎn)某疾病的患病率，假設(shè)該地區(qū)特定時(shí)點(diǎn)共有500 000人，其中有擬調(diào)查疾病患者m人，m未知，所以患病率P=m/500000也未知，要確切知道P，則須對(duì)500 000人逐一進(jìn)行診斷，獲得符合診斷標(biāo)準(zhǔn)的患者人數(shù)。如前所述，操作可能不易實(shí)現(xiàn)，研究者打算采取另一種方法獲得P，從500 000人中隨機(jī)抽取2 000人進(jìn)行調(diào)查，500 000人稱(chēng)為總體，2 000人稱(chēng)為樣本，根據(jù)樣本對(duì)象的診斷結(jié)果估計(jì)P。隨機(jī)性影響就表現(xiàn)在：抽樣實(shí)施前研究者并不知道具體哪2 000人會(huì)被抽中，經(jīng)過(guò)有放回地重復(fù)抽樣，可得到大量同一容量的不同樣本，隨機(jī)性就來(lái)自于抽樣，對(duì)這類(lèi)樣本數(shù)據(jù)做分析必然會(huì)用到統(tǒng)計(jì)方法。

實(shí)驗(yàn)數(shù)據(jù)來(lái)源于在實(shí)驗(yàn)中操縱一個(gè)或多個(gè)變量后測(cè)量的觀察指標(biāo)結(jié)果，它的隨機(jī)性來(lái)源于實(shí)驗(yàn)的隨機(jī)誤差。假如，某項(xiàng)研究擬探討維生素C對(duì)感冒的影響，研究者將符合納入標(biāo)準(zhǔn)且不符合排除標(biāo)準(zhǔn)的300名受試對(duì)象隨機(jī)地分配到研究組和對(duì)照組，每組150人，研究組每日口服維生素C 1 500毫克，對(duì)照組口服安慰劑1 500毫克，考察研究期間兩組對(duì)象平均患感冒的次數(shù)。分組過(guò)程中，研究者相當(dāng)于從300名受試者總體中隨機(jī)抽取了一部分對(duì)象作為A樣本，接受A處理，再隨機(jī)抽取另一部分對(duì)象作為B樣本，接受B處理，不過(guò)，B樣本實(shí)際上是A樣本抽取后剩下的那部分研究對(duì)象。研究完成，假設(shè)得到兩組平均患感冒的次數(shù)分別為1.8次和3.2次，是否據(jù)此可以認(rèn)為維生素C對(duì)預(yù)防感冒有效。然而，兩組患感冒次數(shù)的差異可能僅僅是由于抽樣的隨機(jī)性所致，讓易患感冒的研究對(duì)象過(guò)多地被分配到樣本B中，而免疫力較強(qiáng)的對(duì)象更多地抽取到樣本A中，因此，這個(gè)差異很可能是由機(jī)會(huì)變異所致，機(jī)會(huì)變異往往由一些無(wú)法或不能完全加以控制且對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生隨機(jī)性影響的因素構(gòu)成，它給結(jié)果帶來(lái)不確定性，稱(chēng)為隨機(jī)誤差，需用統(tǒng)計(jì)方法加以分析兩組的差異是由隨機(jī)誤差造成的還是存在系統(tǒng)誤差（即處理之間存在差別）。

2 樣本特征

假設(shè)X1，X2，X3，…，Xn是從總體X中隨機(jī)抽取的容量為n的樣本，在觀察或試驗(yàn)之前，研究者其實(shí)并不知道X1，X2，X3，…，Xn各取哪個(gè)具體的值，但每個(gè)分量的可能取值與總體X的可能取值是一致的，它們有相同的值域，且每個(gè)分量是一個(gè)與總體X分布完全一樣的隨機(jī)變量，因此，樣本是一組隨機(jī)變量，具有隨機(jī)性特征。如果抽樣是有放回地抽取，即抽出一個(gè)對(duì)象記錄后放回總體，將總體搖均勻再進(jìn)行第二次抽取，以此類(lèi)推，每次抽樣時(shí)總體的抽樣環(huán)境相同，樣本各分量之間獨(dú)立，稱(chēng)這樣的樣本為獨(dú)立同分布樣本或簡(jiǎn)單隨機(jī)樣本。在觀察或試驗(yàn)之后，樣本中每個(gè)分量都能獲得一個(gè)具體的取值，共得到n個(gè)已知的數(shù)，即x1，x2，x3，…，xn，統(tǒng)計(jì)中常以英文大寫(xiě)字母代表隨機(jī)變量，小寫(xiě)字母代表實(shí)數(shù)，沒(méi)有隨機(jī)性，作為隨機(jī)變量的取值，顯然樣本具有數(shù)的特征。

樣本既可以被看成一組數(shù)據(jù)也可被看成一組隨機(jī)變量，這就是樣本的二重性。樣本二重性雖然簡(jiǎn)單，但很重要，尤其在實(shí)際運(yùn)用過(guò)程中，研究者更容易把樣本看成一組具體的數(shù)字，但“樣本是一組隨機(jī)變量”這一特征不可忽視，否則容易導(dǎo)致統(tǒng)計(jì)學(xué)的誤用和濫用。如調(diào)查研究中，某研究者調(diào)查某日去過(guò)商場(chǎng)的前100人，這顯然不是一個(gè)隨機(jī)樣本，稱(chēng)為方便樣本。在醫(yī)學(xué)論文中，?？梢?jiàn)研究者已描述為所獲樣本為方便樣本，但仍然采用了僅隨機(jī)樣本才能使用的統(tǒng)計(jì)方法來(lái)處理數(shù)據(jù)。又如臨床研究中的病歷資料回顧性分析，這類(lèi)樣本往往并不具有隨機(jī)性，仍采用分析隨機(jī)數(shù)據(jù)的統(tǒng)計(jì)方法處理相應(yīng)資料，顯然其結(jié)果的可信度存疑。

3 統(tǒng)計(jì)量及其抽樣分布

由于分布完整地描述了隨機(jī)變量，所以研究樣本的概率分布成為必然，樣本的概率分布也稱(chēng)為樣本分布，由于樣本的獨(dú)立同分布特征，所以其分布可由總體分布獲得。

3.1 統(tǒng)計(jì)量

樣本獲得后，需對(duì)其進(jìn)行加工、整理，從中提取有用信息，統(tǒng)計(jì)量就是樣本某一方面信息的集中體現(xiàn)，所以選擇恰當(dāng)?shù)臉颖窘y(tǒng)計(jì)量是處理數(shù)據(jù)的關(guān)鍵。如用X表示100個(gè)學(xué)生的身高，從這100人中隨機(jī)抽取10人測(cè)量其身高，用X1代表準(zhǔn)備抽取的第一個(gè)人的身高，這個(gè)人可以是100人中的任何一個(gè)人，其身高取值記為x1，要求將抽取的第一個(gè)人放回總體后，再進(jìn)行第二次抽取，準(zhǔn)備抽取的第二個(gè)人的身高用X2表示，它也可以是100人中的任何一個(gè)人，記身高取值為x2。以此類(lèi)推，重復(fù)抽取10次，得到樣本容量為10的一個(gè)隨機(jī)樣本，即X1，X2，X3，…，X10?，F(xiàn)選擇樣本均值這個(gè)統(tǒng)計(jì)量對(duì)樣本X1，X2，X3，…，X10進(jìn)行加工，其計(jì)算表達(dá)式為是樣本均值，是對(duì)樣本X1，X2，X3，…，X10進(jìn)行加工處理后得到的量。因?yàn)闃颖臼且唤M隨機(jī)變量，所以也是一個(gè)隨機(jī)變量。如果按設(shè)定的抽樣方案把這10人從100人總體中取出，并測(cè)量了這10人的身高，此時(shí)就獲得了10個(gè)具體的數(shù)，將其代入樣本均數(shù)表達(dá)式中，獲得隨機(jī)變量的一個(gè)具體值?？梢?jiàn)抽樣實(shí)施前樣本統(tǒng)計(jì)量是一個(gè)隨機(jī)變量，實(shí)施后，即可得到統(tǒng)計(jì)量一個(gè)具體值。

通常，統(tǒng)計(jì)量是樣本的已知函數(shù)，它只依賴(lài)于樣本而不包含任何未知參數(shù)，用于總體參數(shù)的估計(jì)和檢驗(yàn)。統(tǒng)計(jì)量既然是樣本的已知函數(shù)，如上所述它也是一個(gè)隨機(jī)變量，也有其概率分布，且這個(gè)分布理論上可由樣本分布給出，稱(chēng)為抽樣分布。然而在實(shí)際工作中，統(tǒng)計(jì)量的抽樣分布的計(jì)算是困難的。如果總體服從正態(tài)分布，則樣本均值、樣本方差等常見(jiàn)統(tǒng)計(jì)量的精確分布比較容易算出，抽樣分布定理就是它們的分布描述，但對(duì)于非正態(tài)性分布的更一般總體，其樣本統(tǒng)計(jì)量的精確分布難以獲得，幸運(yùn)的是可以借助中心極限定理和大數(shù)定理獲得一些統(tǒng)計(jì)量的近似分布，不過(guò)，只有當(dāng)樣本量較大時(shí)近似才有效，大樣本要求在應(yīng)用過(guò)程中是不可忽略的問(wèn)題［6］。

由于統(tǒng)計(jì)學(xué)家根據(jù)不同的目的構(gòu)造了許多不同的統(tǒng)計(jì)量，下面將以常用的樣本均值統(tǒng)計(jì)量為例分析相應(yīng)的抽樣分布。

3.2 漸進(jìn)抽樣分布

設(shè)X1，X2，X3，…，Xn是來(lái)自總體均值為μ、方差為σ2的獨(dú)立同分布樣本，根據(jù)中心極限定理，當(dāng)n充分大時(shí)，樣本均值近似地服從均值為μ，方差為的正態(tài)分布，即。也就是說(shuō)，不管總體分布的具體形式如何，只要它的均值為μ，方差為σ2，中心極限定理保證了從這個(gè)總體抽取的簡(jiǎn)單隨機(jī)樣本，其均值就近似地服從均值為μ、方差為的正態(tài)分布。這為對(duì)來(lái)自非正態(tài)總體的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)處理提供了理論支持。

3.3 精確分布

設(shè)X1，X2，X3，…，Xn是抽自均值為μ、方差為σ2的正態(tài)總體的簡(jiǎn)單隨機(jī)樣本，則樣本中各分量均服從正態(tài)分布，且是絕對(duì)服從，而非近似服從。因?yàn)榉恼龖B(tài)分布的多個(gè)隨機(jī)變量的和仍為正態(tài)分布，一個(gè)正態(tài)分布乘以一個(gè)常數(shù)也為正態(tài)分布，樣本平均數(shù)是由服從同一正態(tài)分布的多個(gè)隨機(jī)變量Xi的和乘以一個(gè)常數(shù)構(gòu)成，所以-X服從正態(tài)分布，并且這個(gè)正態(tài)分布的均值為μ、方差為，即，等價(jià)于，也就是說(shuō)樣本均值減去總體均值再除以總體標(biāo)準(zhǔn)差與樣本量平方根的商所得量服從標(biāo)準(zhǔn)正態(tài)分布稱(chēng)為標(biāo)準(zhǔn)誤差。根據(jù)t分布的定義可推知，服從自由度為n-1的t分布，即。可見(jiàn)，用樣本標(biāo)準(zhǔn)差s代替總體標(biāo)準(zhǔn)差σ后的統(tǒng)計(jì)量的分布也是已知的，它解決了實(shí)際工作中在總體標(biāo)準(zhǔn)差σ常常不可知情況下使用統(tǒng)計(jì)方法處理樣本數(shù)據(jù)的問(wèn)題。

從上面公式導(dǎo)出過(guò)程可知，無(wú)論是漸進(jìn)抽樣分布公式還是精確抽樣分布公式，都是建立在簡(jiǎn)單隨機(jī)樣本基礎(chǔ)上，也稱(chēng)為獨(dú)立同分布樣本，指在相同條件下對(duì)總體X進(jìn)行n次重復(fù)且獨(dú)立的隨機(jī)抽樣，所獲得的是由n個(gè)獨(dú)立且與總體X具有相同分布的分量組成的隨機(jī)樣本。嚴(yán)格地講，為保證抽樣條件相同，須采取有放回地重復(fù)抽樣方法隨機(jī)抽取。由此可見(jiàn)，公式的使用首先必須強(qiáng)調(diào)樣本分量間的獨(dú)立性，獨(dú)立性的判斷主要根據(jù)專(zhuān)業(yè)知識(shí)和樣本獲取過(guò)程以及研究者采用的抽樣方法。其次，總體的正態(tài)性考察，當(dāng)總體為非正態(tài)總體，所獲得的統(tǒng)計(jì)結(jié)果多為近似結(jié)果，而且要在大樣本量的情況下這種近似才有效，如果是正態(tài)總體，在其他條件都嚴(yán)格滿足的情況下，所得結(jié)果精度更高。再次，需要對(duì)方差齊性考察，公式推導(dǎo)過(guò)程顯示，只有當(dāng)兩總體方差相等時(shí)，才可得到兩樣本均值差的抽樣分布，否則，相應(yīng)抽樣分布定理不可能存在。

然而，在實(shí)際應(yīng)用中，上述諸多條件往往并不能?chē)?yán)格地滿足統(tǒng)計(jì)理論的要求，為處理問(wèn)題方便，如常把一些非正態(tài)總體近似地看成正態(tài)總體，用正態(tài)分布來(lái)逼近總體的分布，這種逼近所帶來(lái)的誤差從應(yīng)用的角度看可忽略不計(jì)。又如在試驗(yàn)分組時(shí)，往往獲得的各分組樣本并不滿足獨(dú)立同分布要求，因?yàn)槌闃舆^(guò)程無(wú)法真正做到有放回地抽樣，而采取的是不放回抽樣方法，改變了抽樣條件，正如前例，某研究對(duì)象被抽到維生素C組，則他就沒(méi)有機(jī)會(huì)被抽到安慰劑組，這種分組會(huì)稍許影響兩組平均數(shù)，不過(guò)在實(shí)際應(yīng)用過(guò)程中，仍然采用了獨(dú)立同分布樣本的抽樣分布相關(guān)定理來(lái)處理數(shù)據(jù)，原因在于非獨(dú)立性可致使標(biāo)準(zhǔn)誤差變小，不放回抽樣使其增大，相應(yīng)統(tǒng)計(jì)結(jié)果誤差是可以被接受的［7］。盡管如此，研究者也應(yīng)當(dāng)明白，當(dāng)理論要求與現(xiàn)實(shí)條件相差甚遠(yuǎn)時(shí)，這種逼近不是一個(gè)好的選擇。

4 抽樣分布在參數(shù)估計(jì)中的應(yīng)用

醫(yī)學(xué)統(tǒng)計(jì)學(xué)的任務(wù)主要包括統(tǒng)計(jì)描述和統(tǒng)計(jì)推斷，前者主要針對(duì)樣本，采用圖、表和統(tǒng)計(jì)量等工具對(duì)樣本進(jìn)行加工處理，后者是在樣本加工的基礎(chǔ)上對(duì)相應(yīng)總體的特征進(jìn)行推斷，其工作范圍已超越樣本指向了總體，主要包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)，參數(shù)估計(jì)又可分為點(diǎn)估計(jì)和區(qū)間估計(jì)，下面以總體均值的區(qū)間估計(jì)為例，介紹抽樣分布的應(yīng)用。

以前例100人總體為例，估計(jì)他們的平均身高μ，擬從總體中隨機(jī)抽取10人，分別用X1，X2，X3，…，X10代表其身高，實(shí)施抽取后獲得10人樣本，并分別測(cè)量其身高，計(jì)算平均值，假設(shè)總體服從正態(tài)分布，樣本為獨(dú)立同分布樣本，由抽樣分布定理可知，樣本均值服從均值為μ、方差為的正態(tài)分布，即，根據(jù)正態(tài)分布性質(zhì)，有約68%的樣本平均數(shù)落在以總體均值μ為中心的1個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi)，有約95%的樣本平均數(shù)落在2個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi)，有約99.7%的樣本平均數(shù)落在3個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi)，如圖1。

圖1 正態(tài)抽樣分布

由圖可見(jiàn)，如果以落在2個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi)的樣本均值加減2個(gè)標(biāo)準(zhǔn)誤差構(gòu)造區(qū)間，即，則這個(gè)區(qū)間就完全可能覆蓋總體均值μ，然而，在所有的樣本均值中，僅有約95%的數(shù)落在以總體均值μ為中心的2個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi)，還有約5%的樣本均值落在這個(gè)范圍之外，若以范圍外的樣本平均數(shù)加減2個(gè)標(biāo)準(zhǔn)誤差所得區(qū)間是不可能覆蓋總體均值μ，如果用這個(gè)區(qū)間作為總體平均數(shù)的估計(jì)區(qū)間，就會(huì)犯錯(cuò)誤，不過(guò)犯錯(cuò)的可能性?xún)H為5%，而所獲區(qū)間覆蓋總體均值μ的把握度則為95%，統(tǒng)計(jì)學(xué)上稱(chēng)為95%的置信區(qū)間。這個(gè)過(guò)程更形象地講，它就像從一只裝滿區(qū)間的盒子中隨機(jī)抽取一個(gè)區(qū)間，因盒子中所裝的區(qū)間有95%是覆蓋了總體均數(shù)μ，僅有5%的沒(méi)有覆蓋，抽取一次所得到能夠包括總體均值的區(qū)間的概率為95%，犯錯(cuò)的概率為5%。值得注意的是，實(shí)際工作中總體標(biāo)準(zhǔn)差σ往往未知，可用樣本標(biāo)準(zhǔn)差S代替，根據(jù)抽樣分布定理，相應(yīng)統(tǒng)計(jì)量則服從t分布，可用t分布求置信區(qū)間。

5 小結(jié)

本文詳細(xì)介紹了樣本及其產(chǎn)生過(guò)程，樣本的隨機(jī)性及其來(lái)源，樣本統(tǒng)計(jì)量特征及其抽樣分布定理等內(nèi)容，回答了在統(tǒng)計(jì)方法應(yīng)用中應(yīng)當(dāng)滿足哪些條件以及為什么需要滿足這些條件，盡管實(shí)際應(yīng)用不一定完全能滿足要求，但在做近似處理時(shí)應(yīng)當(dāng)把握“度”的問(wèn)題［8］，最終不讓統(tǒng)計(jì)結(jié)果偏離較遠(yuǎn)。