于澤洋 ,劉媛媛 *,李長平 ,2,胡良平
(1.天津醫(yī)科大學公共衛(wèi)生學院,天津 300070;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029;3.軍事科學院研究生院,北京 100850
t檢驗主要用于樣本含量較小,總體標準差未知的正態(tài)分布。單從均值比較的角度看,t檢驗主要用于以下三種實驗設計條件下一個定量評價指標算術均數(shù)的比較,即“單組設計”“配對設計”和“成組設計”。t檢驗因其所需樣本含量小、計算簡單及檢驗功效較高而成為廣大科研工作者最為熟悉且應用最多的統(tǒng)計分析方法之一[1-2]。本文主要介紹幾何均數(shù)以及兩組近似對數(shù)正態(tài)分布數(shù)據(jù)幾何均數(shù)的一般差異性t檢驗及SAS實現(xiàn)。
在臨床醫(yī)學研究中,一些變量的數(shù)值往往并不呈對稱分布,有時會遇到呈等比(即倍數(shù))關系的計量數(shù)據(jù)或計數(shù)數(shù)據(jù),例如大氣中某成分的濃度指標,臨床血清學診斷的抗體滴度數(shù)據(jù)等。由于這類數(shù)據(jù)往往不符合正態(tài)分布而呈正偏態(tài)分布,在進行統(tǒng)計描述時,不能直接通過算術均數(shù)和算術標準差來描述其數(shù)據(jù)的集中趨勢和離散程度。但這樣的數(shù)據(jù)經(jīng)過對數(shù)變換(即取對數(shù))后往往呈近似正態(tài)分布,被稱作服從對數(shù)正態(tài)分布的數(shù)據(jù),此時該變量的對數(shù)值的平均水平可以用算術均數(shù)來表示,見式(1):
對于以頻數(shù)分布表形式給出的數(shù)據(jù),同樣可以用組中值xMi估計對應組段中各個觀測值的大小,得到幾何均數(shù)的近似計算公式如下:
與幾何均數(shù)相比,算術均數(shù)的計算相對簡便,是應用最為廣泛的平均數(shù)指標。但算術均數(shù)對于特大或者特小的觀測值十分敏感。如果數(shù)據(jù)呈偏態(tài)分布,直接計算出的算術均數(shù)往往會偏向拖尾一側,不能很好地反映全部觀測值的平均水平。因此,算術均數(shù)主要適用于描述不含極端值的對稱分布變量的平均水平。幾何均數(shù)適合于原始數(shù)據(jù)呈正偏態(tài)分布但經(jīng)對數(shù)轉換后呈近似對稱分布的數(shù)據(jù),尤其是醫(yī)學研究中遇到的呈現(xiàn)等比例變化的數(shù)據(jù),如抗體滴度、血清凝集效價等[3]。幾何均數(shù)的對數(shù)值實際上是各變量值對數(shù)的算術均數(shù)。并且,幾何均數(shù)受極端值的影響比算術均數(shù)小。但幾何均數(shù)在計算時,變量值中不能有零值或者負值。
【例1】在一項對精神分裂癥患者血脂水平與奧氮平血漿濃度之間關系的研究[4]中,研究者選取患者24人,根據(jù)2007年中國成人血脂防治指南推薦標準分為高脂血癥組和血脂正常組,假設測定的患者奧氮平血漿濃度如下(單位為ng/mL),高脂血癥組:x1=40,20,30,25,10,15,25,30,40,10,15,80;血脂正常組:x2=11,87,42,15,20,16,23,10,35,70,95,75。試分析兩組受試者奧氮平血漿濃度之間差異是否有統(tǒng)計學意義。
該例整體數(shù)據(jù)涉及兩個組,每組有12個觀測值,共24個觀測值,樣本量較小,測量指標為“藥物血漿濃度”,數(shù)據(jù)所取自的實驗設計類型屬于“成組設計”,該資料的完整描述為“成組設計一元定量資料”。
該研究是考察兩組總體均數(shù)之間差異是否有統(tǒng)計學意義,且主要評價指標為藥物血漿濃度,由于同一組數(shù)據(jù)內(nèi)部各數(shù)據(jù)之間呈現(xiàn)近似倍數(shù)關系,故宜選用幾何均數(shù)G表示其平均水平,因此,應該對幾何均數(shù)G的差異性進行統(tǒng)計分析。若進行對數(shù)變換后,定量資料滿足獨立性、正態(tài)性和方差齊性的條件,可對其進行成組設計一元定量資料t檢驗,此時,還可以求出每組該定量指標的總體平均值的95%置信區(qū)間,再取反對數(shù),即可得到原始數(shù)據(jù)的平均值的置信區(qū)間;否則,應該直接對原始數(shù)據(jù)進行符號秩和檢驗[5]。
【程序說明】本示例SAS程序共4步,包括2個數(shù)據(jù)步和2個過程步。第1個數(shù)據(jù)步先建立數(shù)據(jù)集G_mean,利用input語句輸入變量nd(血漿藥物濃度)、group(不同患者類型的分組,組1為高脂血癥組,組2為血脂正常組);第2個數(shù)據(jù)步調(diào)用log函數(shù),取藥物血漿濃度值以e為底數(shù)的對數(shù)值,定義為新變量y;第3步調(diào)用UNIVARIATE過程,通過添加NORMAL選項對原始數(shù)據(jù)藥物血漿濃度nd以及對數(shù)值y按照不同分組進行正態(tài)性檢驗,分組變量為group;第4步為t檢驗,調(diào)用TTEST過程,對變量y按照分組變量group進行一般差異性t檢驗。選項COCHRAN表示輸出COCHRAN近似t檢驗的結果。
以上為正態(tài)性檢驗的結果,由于本例中樣本例數(shù)較少,所以參考Shapiro-Wilk檢驗的結果,可知兩組原始數(shù)據(jù)(變量為nd)不服從正態(tài)分布(W=0.812115、0.853688;P=0.0129、0.0408,P均<0.05),而經(jīng)對數(shù)變換后的數(shù)據(jù)(變量為y)符合正態(tài)分布(W=0.957749、0.91446;P=0.7513、0.2433,P均>0.05)。
以上均為變量y的基本描述統(tǒng)計量,由輸出結果可知,高脂血癥組變量y的均值為3.1681(95%CI:2.7811~3.5551);標 準 差 為 0.6091(95%CI:0.4315~1.0342);標 準 誤 為 0.1758;最 小 值 為2.3026,最大值為4.3820。血脂正常組變量y的均值為 3.4326(95%CI:2.9090~3.9562);標準差為0.8240(95%CI:0.5837~1.3991);標 準 誤 為0.2379;最小值為2.3026,最大值為4.5539。
以上為t檢驗和方差齊性檢驗的輸出結果,由檢驗兩組方差齊性的結果,可知兩總體方差相等(F=1.83,P=0.3307>0.05),所以本例經(jīng)對數(shù)變換后的數(shù)據(jù)滿足獨立性、正態(tài)性和方差齊性的條件,可以使用成組設計的一般差異性t檢驗進行均數(shù)比較,t=-0.89,P=0.3809>0.05,尚不能認為兩均值之間差異有統(tǒng)計學意義。
兩組原始數(shù)據(jù)經(jīng)對數(shù)變換后的y值的平均值分別為3.1681和3.4326,對這兩個均值取反對數(shù)(即進行指數(shù)運算)后,可以得到原始藥物血漿濃度數(shù)據(jù)的平均值,即幾何均數(shù)G,G1=e3.1681=23.76,G2=e3.4326=30.95。由此可以下結論,兩組藥物血漿濃度的幾何均數(shù)分別為:高脂血癥組23.76 ng/mL,血脂正常組30.95 ng/mL,且兩組均值差異無統(tǒng)計學意義,尚不能認為高脂血癥患者藥物血漿濃度明顯低于血漿正常組。
算術均數(shù)和標準差是描述正態(tài)分布計量數(shù)據(jù)集中趨勢與離散程度的兩個統(tǒng)計量,而幾何均數(shù)是用于描述對數(shù)正態(tài)分布計量數(shù)據(jù)集中趨勢的統(tǒng)計量,其區(qū)別在于:算數(shù)均數(shù)與算數(shù)標準差描繪的是算術度量上的集中與離散,而幾何均數(shù)描述的是幾何(倍數(shù))度量上的集中趨勢。因此,在對近似服從對數(shù)正態(tài)分布的定量資料進行分析時,要對數(shù)據(jù)的分布情況進行判斷后再選擇合適的描述方式,例如原始數(shù)據(jù)不能有負值或零值(必要時,可以給每個原始數(shù)據(jù)都加上同一個正數(shù),并確保不會再出現(xiàn)負值或零值,這樣做在數(shù)學上被稱為平移變換,不會改變結果的正確性),對原始數(shù)據(jù)進行對數(shù)變換后再使用t檢驗,仍應進行正態(tài)性檢驗和方差齊性檢驗。需要注意的是,取對數(shù)之后求得的均數(shù)要經(jīng)過取反對數(shù)才是原始數(shù)據(jù)的幾何均數(shù)。
由于不同類型數(shù)據(jù)的特征不同,在分析之前的預處理也不同,部分原始數(shù)據(jù)不一定通過簡單的取對數(shù)變換就一定能滿足正態(tài)性要求,還需要更加復雜的變換,例如有時需要進行l(wèi)og(X+K)或log(KX)變換(K為某一常數(shù),通過嘗試確定)或Box-Cox變換才呈正態(tài),需要根據(jù)具體數(shù)據(jù)確定[6-7]。