高 飛 ,劉媛媛 ,李長(zhǎng)平 ,胡良平
(1.天津醫(yī)科大學(xué)眼科醫(yī)院、眼視光學(xué)院、眼科研究所,天津 300384;2.天津市眼科學(xué)與視覺科學(xué)國(guó)際聯(lián)合研究中心,天津 300384;3.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,天津 300070;4.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029;5.軍事科學(xué)院研究生院,北京 100850
在統(tǒng)計(jì)學(xué)中,為觀測(cè)觀察單位某項(xiàng)定量指標(biāo)的數(shù)量大小而獲得的資料稱為計(jì)量資料(measurement data),該類型資料一般有度量衡單位,表現(xiàn)為數(shù)值大小,如高密度脂蛋白、血壓、糖化血紅蛋白等。假設(shè)檢驗(yàn)(hypothesis testing)作為統(tǒng)計(jì)分析的重要組成部分,是由樣本推斷總體是否可能存在差異的一種統(tǒng)計(jì)推斷方法[1]。以t分布為理論基礎(chǔ)的t檢驗(yàn)計(jì)算方便且檢驗(yàn)功效較高,是最常用的計(jì)量資料假設(shè)檢驗(yàn)方法。由于對(duì)實(shí)驗(yàn)設(shè)計(jì)類型、使用條件和資料性質(zhì)等問題認(rèn)識(shí)不清,科研工作者在使用t檢驗(yàn)時(shí)存在大量的誤用[2]。因此,本文對(duì)t檢驗(yàn)的基本概念與前提條件進(jìn)行介紹,闡明其正確的使用方法。
t分布最早由英國(guó)統(tǒng)計(jì)學(xué)家W.S.Gosset于1908年以筆名“student”發(fā)表,開創(chuàng)了小樣本統(tǒng)計(jì)推斷的新紀(jì)元[3]。
t分布的概率密度函數(shù)見式(2):
在式(2)中,Γ(·)為伽瑪函數(shù)。
t分布的概率密度函數(shù)見圖1,t分布的特征如下:①t分布的曲線形狀由自由度df決定,df越小則峰部越矮而兩尾部越高;②t分布的概率密度函數(shù)曲線形狀與標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)曲線相似,其圖形關(guān)于原點(diǎn)對(duì)稱,單峰偶函數(shù),但峰比標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)曲線低,而兩尾較高;③隨著自由度的增大,t分布越來越接近于標(biāo)準(zhǔn)正態(tài)分布,t分布的極限分布是標(biāo)準(zhǔn)正態(tài)分布。
圖1 t分布的概率密度函數(shù)圖
t檢驗(yàn)主要用于兩組定量資料(包括計(jì)量和計(jì)數(shù)資料兩種,通常指計(jì)量資料)的總體均數(shù)比較,是定量資料分析中最常用的假設(shè)檢驗(yàn)方法,屬于參數(shù)檢驗(yàn)的一種。根據(jù)研究目的和實(shí)驗(yàn)設(shè)計(jì)類型,t檢驗(yàn)可分為單組設(shè)計(jì)定量資料t檢驗(yàn)、配對(duì)設(shè)計(jì)定量資料t檢驗(yàn)和單因素兩水平設(shè)計(jì)(以前習(xí)慣上稱為成組設(shè)計(jì))定量資料t檢驗(yàn)三種[4]。這三種t檢驗(yàn)對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì)量見式(3)、式(4)、式(5):
式(3)中,t為檢驗(yàn)統(tǒng)計(jì)量的代號(hào),它是一個(gè)服從t分布的隨機(jī)變量,為定量觀測(cè)指標(biāo)n個(gè)觀測(cè)值的算術(shù)平均值,μ0為與該定量觀測(cè)指標(biāo)對(duì)應(yīng)的理論值或標(biāo)準(zhǔn)值,s為該定量觀測(cè)指標(biāo)n個(gè)觀測(cè)值的標(biāo)準(zhǔn)誤,其中s為該定量觀測(cè)指標(biāo)n個(gè)觀測(cè)值的標(biāo)準(zhǔn)差,df為自由度,有時(shí)習(xí)慣用希臘字母ν表示。
式(4)中,n為對(duì)子個(gè)數(shù),d為成對(duì)數(shù)據(jù)的差量。
當(dāng)兩總體方差相等時(shí),用合并樣本方差的方法計(jì)算t檢驗(yàn)統(tǒng)計(jì)量:
式(5)中的s1和s2分別為兩樣本的標(biāo)準(zhǔn)差。
值得一提的是:式(1)定義了一個(gè)“隨機(jī)變量”,而在實(shí)際應(yīng)用時(shí),所構(gòu)造出來的“t檢驗(yàn)統(tǒng)計(jì)量可以被視為式(1)的一個(gè)特例,前人已證明其服從“t分布”,故后人才可以不加證明地直接應(yīng)用t檢驗(yàn)。
1.3.1 估計(jì)某定量指標(biāo)參考值范圍或容許區(qū)間
當(dāng)樣本含量較小時(shí),如n≤60,即使定量資料服從正態(tài)分布,也應(yīng)運(yùn)用t分布相關(guān)知識(shí)進(jìn)行計(jì)算,可參考式(6)。若使用正態(tài)分布法估計(jì)個(gè)體值的100(1-α)%正常值范圍,其結(jié)果范圍過窄,假陽性率較大[4]。
1.3.2 求個(gè)體值的預(yù)測(cè)區(qū)間
在單組設(shè)計(jì)一元定量資料中,求在未來第k(k=1,2,…)次抽樣條件下,定量指標(biāo)X取值的100(1-α)%預(yù)測(cè)區(qū)間時(shí),所用的公式類似式(6),此處從略。
1.3.3 估計(jì)置信區(qū)間
當(dāng)σ未知且n較小時(shí),計(jì)算單一總體均數(shù)的置信區(qū)間;計(jì)算兩樣本含量均較小時(shí)(如n1和n2均≤60)兩總體均數(shù)之差的置信區(qū)間。
在直線相關(guān)分析和回歸分析中,計(jì)算總體相關(guān)系數(shù)、總體截距、總體回歸系數(shù)的置信區(qū)間。
1.3.4 均值的假設(shè)檢驗(yàn)
在單組設(shè)計(jì)、配對(duì)設(shè)計(jì)和單因素兩水平設(shè)計(jì)(簡(jiǎn)稱成組設(shè)計(jì))中,關(guān)于定量資料均值的假設(shè)檢驗(yàn)(特指參數(shù)檢驗(yàn)法),需要基于t分布進(jìn)行t檢驗(yàn)。
1.3.5 多重線性回歸分析中某些參數(shù)的假設(shè)檢驗(yàn)
在多重線性回歸分析中,對(duì)總體截距項(xiàng)和各總體回歸系數(shù)的假設(shè)檢驗(yàn),需要用到t檢驗(yàn)。
涉及t檢驗(yàn)的場(chǎng)合較多,都應(yīng)滿足一個(gè)共同的前提條件,即“所構(gòu)造出來的t統(tǒng)計(jì)量必須服從t分布”。這是一個(gè)相當(dāng)復(fù)雜的數(shù)學(xué)問題,以下僅針對(duì)“涉及均值比較且基于實(shí)驗(yàn)設(shè)計(jì)角度考量時(shí)t檢驗(yàn)的前提條件”進(jìn)行深入地解讀。概括地說,主要包括三種實(shí)驗(yàn)設(shè)計(jì)類型、三要素和四原則。
2.2.1 單組設(shè)計(jì)
單組設(shè)計(jì)的特點(diǎn)是對(duì)一組同質(zhì)(即符合特定研究目的)的受試對(duì)象不按其他任何因素進(jìn)行分組,直接觀測(cè)或給予一種特定處理后觀測(cè)這些受試對(duì)象某一個(gè)或某些定量指標(biāo)的取值大小,僅涉及一個(gè)實(shí)驗(yàn)因素的一個(gè)特定水平。若希望對(duì)單組設(shè)計(jì)定量資料進(jìn)行統(tǒng)計(jì)分析,必須提供定量觀測(cè)指標(biāo)的“標(biāo)準(zhǔn)值或理論值”。
2.2.2 配對(duì)設(shè)計(jì)
配對(duì)設(shè)計(jì)僅涉及一個(gè)實(shí)驗(yàn)因素的兩個(gè)水平,其特點(diǎn)是相同指標(biāo)的觀測(cè)結(jié)果成對(duì)出現(xiàn),主要包括以下三種情況:①數(shù)據(jù)來自同一個(gè)體,稱為自身配對(duì)設(shè)計(jì)(如同一患者服用某種藥物前、后對(duì)同一定量指標(biāo)的測(cè)量);②數(shù)據(jù)來自親代相同的兩個(gè)個(gè)體,稱為同源配對(duì)設(shè)計(jì)(如每窩選兩只條件相近的動(dòng)物或每戶選性別相同的兩個(gè)雙胞胎分別服用不同的藥物或接受不同的處理);③數(shù)據(jù)來自條件相近但并非同源的兩個(gè)個(gè)體,稱為條件相近者配對(duì)設(shè)計(jì)(如選擇性別相同,年齡、病情、體重等各方面都非常相近的每?jī)蓚€(gè)個(gè)體配成一對(duì))。
2.2.3 成組設(shè)計(jì)
單因素兩水平設(shè)計(jì)(簡(jiǎn)稱成組設(shè)計(jì))的特點(diǎn)是相同指標(biāo)的觀測(cè)結(jié)果來自兩個(gè)獨(dú)立的總體,受試對(duì)象被完全隨機(jī)分配到兩個(gè)不同的處理組中去。實(shí)驗(yàn)中僅涉及一個(gè)具有兩水平的實(shí)驗(yàn)因素,未對(duì)其他任何重要的非實(shí)驗(yàn)因素進(jìn)行處理,僅希望通過隨機(jī)化來平衡所有非實(shí)驗(yàn)因素在兩組間對(duì)觀察結(jié)果的干擾和影響[5]。
2.3.1 受試對(duì)象
受試對(duì)象就是實(shí)驗(yàn)研究中實(shí)驗(yàn)因素(如不同藥物、不同特殊處理)作用的承受者,在選取時(shí)必須對(duì)其同質(zhì)性予以重視,比如用動(dòng)物作為受試對(duì)象時(shí)要注意種屬、品系、年齡、性別、窩別、體重和營(yíng)養(yǎng)狀況等因素的影響;用樣品作為受試對(duì)象,應(yīng)考慮品種、批號(hào)、有效期和用量等影響因素;用人作為受試對(duì)象,若選取某病患者,應(yīng)注意正確診斷、正確分期和對(duì)病情的把握,若選取正常人,應(yīng)至少?zèng)]有與所研究問題有關(guān)的疾病。
2.3.2 影響因素
影響因素分為實(shí)驗(yàn)因素和非實(shí)驗(yàn)因素。實(shí)驗(yàn)因素即外加于受試對(duì)象身上的,而且是研究者關(guān)心的、在實(shí)驗(yàn)中需要觀察并闡明其處理效應(yīng)的因素。對(duì)于t檢驗(yàn)來說,根據(jù)不同的實(shí)驗(yàn)設(shè)計(jì)類型,一般僅涉及一個(gè)實(shí)驗(yàn)因素的一個(gè)或兩個(gè)水平。除實(shí)驗(yàn)因素外,通常還有一些來自受試對(duì)象自身?xiàng)l件(包括心理因素)、研究者(如操作方法、與受試對(duì)象交流的態(tài)度等)和環(huán)境條件的影響,必需通過增大樣本含量和采取合適的隨機(jī)化等措施,使一切非實(shí)驗(yàn)因素對(duì)實(shí)驗(yàn)因素的不同水平組的影響達(dá)到均衡一致,以降低或削弱非實(shí)驗(yàn)因素對(duì)評(píng)價(jià)指標(biāo)取值的干擾和影響。
2.3.3 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)因素作用于受試對(duì)象的結(jié)果,通過評(píng)價(jià)指標(biāo)來表達(dá)。采用t檢驗(yàn)時(shí),對(duì)評(píng)價(jià)指標(biāo)的最低要求是應(yīng)該為定量資料且服從正態(tài)分布,每次分析只涉及一個(gè)定量指標(biāo);若所研究的問題中有多個(gè)定量評(píng)價(jià)指標(biāo),僅當(dāng)它們?cè)趯I(yè)上是彼此互相獨(dú)立時(shí),才可以對(duì)其每單個(gè)運(yùn)用t檢驗(yàn),否則,需要采用多元假設(shè)檢驗(yàn)方法,如T2檢驗(yàn)或Wilks'λ檢驗(yàn)。
2.4.1 隨機(jī)原則
t檢驗(yàn)與其他假設(shè)檢驗(yàn)方法一樣,要求所得樣本是按照隨機(jī)原則從總體中抽取并分配到不同組中。其作用是確保樣本具有良好的代表性,使各組受試對(duì)象在重要的非實(shí)驗(yàn)因素方面具有極好的均衡性,提高組間的可比性。
2.4.2 對(duì)照原則
進(jìn)行實(shí)驗(yàn)研究,必須設(shè)立對(duì)照組。合理的對(duì)照組可以提高實(shí)驗(yàn)的鑒別能力,增強(qiáng)說服力。單組設(shè)計(jì)的對(duì)照組是“標(biāo)準(zhǔn)值或理論值”所來自的“那個(gè)總體”,配對(duì)設(shè)計(jì)和成組設(shè)計(jì)則以其中一組作為對(duì)照組,另一組作為實(shí)驗(yàn)組。
2.4.3 重復(fù)原則
重復(fù)是通過樣本含量來體現(xiàn)的,樣本含量過大(資源浪費(fèi)、工作量過大、易造成疏漏增多等)或過?。o法顯現(xiàn)真實(shí)的統(tǒng)計(jì)規(guī)律)都有弊病。不同的實(shí)驗(yàn)設(shè)計(jì)類型、評(píng)價(jià)指標(biāo)的性質(zhì)和擬解決的統(tǒng)計(jì)學(xué)問題,對(duì)應(yīng)著各自的樣本含量計(jì)算公式,應(yīng)針對(duì)實(shí)際問題,結(jié)合專業(yè)知識(shí)和統(tǒng)計(jì)學(xué)知識(shí)做出合理的估計(jì)[6]。
2.4.4 均衡原則
對(duì)于單因素分析來說,應(yīng)設(shè)法使實(shí)驗(yàn)組與對(duì)照組中的非實(shí)驗(yàn)因素(如年齡、病程和病情)盡量達(dá)到均衡一致,使實(shí)驗(yàn)因素的實(shí)驗(yàn)效應(yīng)盡可能地反映出來。保證組間均衡的主要措施是遵循隨機(jī)原則和具有足夠大的樣本含量。
資料滿足前面介紹的與實(shí)驗(yàn)設(shè)計(jì)有關(guān)的前提條件,是進(jìn)行t檢驗(yàn)的基礎(chǔ)。同時(shí),還應(yīng)進(jìn)一步關(guān)注數(shù)據(jù)資料特征方面的要求,即涉及均值比較且基于t分布角度考量時(shí),t檢驗(yàn)的前提條件有三個(gè),分別是獨(dú)立性、正態(tài)性和方差齊性。
獨(dú)立性是指各個(gè)觀測(cè)值之間相互獨(dú)立,可根據(jù)專業(yè)知識(shí)或常識(shí)等進(jìn)行判斷。研究者準(zhǔn)備調(diào)查某藥物治療對(duì)抑郁癥患者情感強(qiáng)度識(shí)別能力的影響,故將受試者隨機(jī)分為試驗(yàn)組與對(duì)照組,分別在基線期、治療后第4周和第12周使用情感強(qiáng)度識(shí)別任務(wù)對(duì)受試者進(jìn)行測(cè)評(píng)[7]。這種實(shí)驗(yàn)設(shè)計(jì)屬于從同一受試者身上重復(fù)測(cè)量獲得同一個(gè)指標(biāo)的多個(gè)觀測(cè)值,觀測(cè)值之間就不符合獨(dú)立性要求。具體而言,單組設(shè)計(jì)和成組設(shè)計(jì)定量資料要求每個(gè)個(gè)體的測(cè)量值要相互獨(dú)立,配對(duì)設(shè)計(jì)定量資料要求不同對(duì)子間的測(cè)量值要相互獨(dú)立。
若希望采用t檢驗(yàn)處理單組設(shè)計(jì)和成組設(shè)計(jì)定量資料,前提是待分析的各組定量資料均服從或近似服從正態(tài)分布,或者通過數(shù)據(jù)轉(zhuǎn)換使之符合正態(tài)分布。對(duì)于配對(duì)設(shè)計(jì)定量資料,不對(duì)兩組原始數(shù)據(jù)提出要求,只需兩組的差量符合正態(tài)分布即可。如果資料呈較嚴(yán)重的偏態(tài)分布,應(yīng)考慮采用非參數(shù)統(tǒng)計(jì)分析方法處理,或者通過變量轉(zhuǎn)換,使其滿足正態(tài)性要求。
正態(tài)性檢驗(yàn)的方法大致可以歸為兩類:①采用一個(gè)指標(biāo)綜合檢驗(yàn)偏度與峰度,如W法、D法、正態(tài)概率紙法等;②對(duì)兩者各用一個(gè)指標(biāo)檢驗(yàn),如動(dòng)差法(亦稱矩法)。使用SAS軟件,在調(diào)用單變量分析過程UNIVARIATE時(shí),只需在過程步語句中加上一個(gè)選擇項(xiàng)“NORMAL”,就可實(shí)現(xiàn)正態(tài)性檢驗(yàn)。用這個(gè)過程實(shí)現(xiàn)正態(tài)性檢驗(yàn),當(dāng)樣本含量n≤2 000時(shí),軟件自動(dòng)采用W檢驗(yàn)法(注:另外3種方法也會(huì)出現(xiàn));當(dāng)n>2 000時(shí),軟件自動(dòng)采用D檢驗(yàn)法;而在SAS/INSIGHT等模塊中,SAS采用的是Kolmogorov D檢驗(yàn)法。值得注意的是:當(dāng)樣本含量較小時(shí),用Kolmogorov D檢驗(yàn)法得出的結(jié)果與W檢驗(yàn)法得出的結(jié)果往往是矛盾的,此時(shí),應(yīng)以W檢驗(yàn)法的結(jié)果為準(zhǔn)。
單因素兩水平設(shè)計(jì)一元定量資料t檢驗(yàn)要求兩組定量資料所對(duì)應(yīng)的總體方差相等,對(duì)方差不齊的成組設(shè)計(jì)定量資料可采用近似t檢驗(yàn)(或稱t'檢驗(yàn)),也可直接選用秩和檢驗(yàn)。
檢驗(yàn)兩總體方差是否相等的常用方法是F檢驗(yàn),以兩樣本中方差較大的方差為分子,較小的方差為分母,求其比值(稱為F值),將求得的F值與相應(yīng)F分布下臨界值比較,得出結(jié)論。在SAS中,直接調(diào)用TTEST過程,即可輸出方差齊性檢驗(yàn)的結(jié)果。
為了探究不同性別的糖尿病患者在確診時(shí)測(cè)量的糖化血紅蛋白值(HbA1c)是否存在差異,隨機(jī)抽取男性和女性糖尿病患者各15例,通過查看既往醫(yī)療記錄收集相應(yīng)數(shù)據(jù),包括性別(gender:1為男性,2為女性)和HbA1c(%),具體數(shù)據(jù)見SAS程序中的數(shù)據(jù)步。試檢驗(yàn)不同性別的糖尿病患者HbA1c均值之間差異是否有統(tǒng)計(jì)學(xué)意義。
【SAS程序說明】在該試驗(yàn)中,在性別的兩水平作用下,獲得的HbA1c觀測(cè)結(jié)果是兩組獨(dú)立數(shù)據(jù),因此,本例屬于組內(nèi)完全隨機(jī)單因素兩水平設(shè)計(jì)(即成組設(shè)計(jì))。程序共4步,包括1個(gè)數(shù)據(jù)步和3個(gè)過程步,分別使用的是SORT過程、UNIVARIATE過程和TTEST過程。在SORT過程中,by選項(xiàng)指定性別為分組變量進(jìn)行排序。UNIVARIATE過程調(diào)用單變量分析過程,選項(xiàng)normal對(duì)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),var指明待分析的變量。TTEST過程調(diào)用t檢驗(yàn)并進(jìn)行方差齊性檢驗(yàn),選項(xiàng)cochran輸出采用“cochran法”導(dǎo)出的近似t檢驗(yàn)的結(jié)果。
以上是男性HbA1c的正態(tài)性檢驗(yàn)結(jié)果,運(yùn)用“W”等四種方法對(duì)其進(jìn)行正態(tài)性檢驗(yàn),P均>0.05,本例中n=15,因此選用W檢驗(yàn)結(jié)果,可以認(rèn)為男性HbA1c的分布符合正態(tài)分布。
以上是女性HbA1c的正態(tài)性檢驗(yàn)結(jié)果,運(yùn)用“W”等四種方法對(duì)其進(jìn)行正態(tài)性檢驗(yàn),P均>0.05,本例中n=15,因此選用W檢驗(yàn)結(jié)果,可以認(rèn)為女性HbA1c的分布符合正態(tài)分布。
以上是對(duì)不同性別HbA1c資料進(jìn)行方差齊性檢驗(yàn)的結(jié)果,F(xiàn)=1.32,P=0.6127>0.05,滿足方差齊性。
【說明】因篇幅所限,以上僅輸出了“與t分布有關(guān)的t檢驗(yàn)的前提條件”的計(jì)算結(jié)果,其他內(nèi)容從略。
t檢驗(yàn)的應(yīng)用有其明確的限定條件,對(duì)t檢驗(yàn)的盲目使用將會(huì)降低結(jié)論的可靠性,甚至得出錯(cuò)誤結(jié)論。在應(yīng)用t檢驗(yàn)時(shí),應(yīng)對(duì)如下幾種類型的錯(cuò)誤提高警惕:第一,不考察定量資料對(duì)應(yīng)的實(shí)驗(yàn)設(shè)計(jì)類型,盲目套用t檢驗(yàn)處理資料;第二,不檢查資料是否具備獨(dú)立性、正態(tài)性和方差齊性,盲目套用參數(shù)檢驗(yàn)方法;第三,隨意應(yīng)用t檢驗(yàn)處理單因素k(k≥3)水平設(shè)計(jì)定量資料或多因素設(shè)計(jì)定量資料,割裂了原先的整體設(shè)計(jì),降低資料的利用率,增大犯假陽性錯(cuò)誤的概率且無法分析因素之間的交互作用;第四,不以專業(yè)知識(shí)為依據(jù),主觀選定單側(cè)檢驗(yàn)或雙側(cè)檢驗(yàn),在對(duì)同一資料進(jìn)行檢驗(yàn)時(shí),單側(cè)檢驗(yàn)較雙側(cè)檢驗(yàn)更容易得出差異有統(tǒng)計(jì)學(xué)意義的結(jié)論[8]。
定量資料的統(tǒng)計(jì)分析在實(shí)際運(yùn)用中占據(jù)相當(dāng)大的比重,而t檢驗(yàn)則是單因素設(shè)計(jì)一元定量資料的假設(shè)檢驗(yàn)中最簡(jiǎn)單且常用的方法,在科研論文中使用頻率極高[9-10]。正確使用t檢驗(yàn)的關(guān)鍵在于如下兩點(diǎn):①正確辨析定量資料的實(shí)驗(yàn)設(shè)計(jì)類型,著重考察實(shí)驗(yàn)設(shè)計(jì)的“三要素”和“四原則”;②嚴(yán)格檢查定量資料是否滿足“獨(dú)立性、正態(tài)性和方差齊性”的條件。在已發(fā)表的期刊文章中,存在著大量關(guān)于t檢驗(yàn)的誤用情況,對(duì)于同一個(gè)資料或同一個(gè)分析目的,由于所采用的統(tǒng)計(jì)分析方法不同,有時(shí)會(huì)得出不完全相同、甚至相反的結(jié)論,繼而導(dǎo)致科研失敗。因此,科研人員應(yīng)充分了解t檢驗(yàn)的基本概念與前提條件,正確、合理地選用統(tǒng)計(jì)分析方法。