姚應(yīng)水
(1.皖南醫(yī)學(xué)院 公共衛(wèi)生學(xué)院/慢性病防制研究所,安徽 蕪湖 241002;2.安徽中醫(yī)藥高等專(zhuān)科學(xué)校臨床醫(yī)學(xué)系,安徽 蕪湖 241002)
在中醫(yī)藥科學(xué)研究中,統(tǒng)計(jì)分析的正確選擇是得到可靠結(jié)論的基本保證。不同的統(tǒng)計(jì)分析方法有各自的應(yīng)用條件和適用范圍,實(shí)際應(yīng)用時(shí),必須根據(jù)研究目的、資料的性質(zhì)、設(shè)計(jì)方案以及樣本含量大小等選擇適當(dāng)?shù)慕y(tǒng)計(jì)分析方法,以期達(dá)到統(tǒng)計(jì)分析為科學(xué)研究服務(wù)的目的[1]。研究者的統(tǒng)計(jì)學(xué)知識(shí)和分析策略對(duì)保障科研工作的科學(xué)性與嚴(yán)謹(jǐn)性具有重要作用。在中醫(yī)藥科學(xué)研究中,統(tǒng)計(jì)分析方法的選擇可遵循以下的基本原則:(1)研究分析的目的及意義;(2)反應(yīng)變量是單變量、雙變量還是多變量;(3)欲分析的資料是屬于計(jì)量資料、無(wú)序分類(lèi)資料、有序分類(lèi)資料中的哪種類(lèi)型;(4)欲分析的資料所屬的設(shè)計(jì)方案,是完全隨機(jī)設(shè)計(jì)、配對(duì)設(shè)計(jì)、隨機(jī)區(qū)組設(shè)計(jì)、析因設(shè)計(jì)及其他的設(shè)計(jì)類(lèi)型;(5)自變量(影響因素)是一個(gè)還是多個(gè);(6)分類(lèi)變量是幾個(gè)水平,即是一組、兩組、多組樣本;(7)欲分析的資料樣本量是否較大;(8)樣本量較小時(shí),判斷資料是否滿(mǎn)足所選用的統(tǒng)計(jì)分析方法的應(yīng)用條件。
該類(lèi)資料的統(tǒng)計(jì)分析步驟為:?jiǎn)巫兞糠治?;資料為計(jì)量資料;樣本均數(shù)與已知總體均數(shù)比較;先看樣本量大小,若樣本足夠大,則選用單樣本t/Z 檢驗(yàn)(樣本均數(shù)與總體均數(shù)比較的t/Z 檢驗(yàn));若樣本較?。╪ < 50),則需要先判斷該資料是否符合正態(tài)分布,若資料符合正態(tài)分布,選用單樣本t檢驗(yàn);若不符合正態(tài)分布,則考慮變量變換或者選用非參數(shù)檢驗(yàn)方法,即單樣本與總體中位數(shù)比較的Wilcoxon 符號(hào)秩和檢驗(yàn)。樣本均數(shù)與已知總體均數(shù)比較的分析思路可參見(jiàn)圖1。
圖1 樣本均數(shù)與已知總體均數(shù)比較的分析思路示意圖
1.2.1 完全隨機(jī)設(shè)計(jì)/成組設(shè)計(jì)的兩樣本均數(shù)比較資料 先判斷資料是否滿(mǎn)足正態(tài)性和方差齊性的條件,若資料符合正態(tài)分布和方差齊性,則選用兩樣本比較的t檢驗(yàn);若不滿(mǎn)足正態(tài)性或方差齊性的條件,則考慮變量變換,也可以選用兩樣本比較的Wilcoxon秩和檢驗(yàn)。
1.2.2 配對(duì)設(shè)計(jì)樣本均數(shù)比較資料 需先求差值,判斷差值是否符合正態(tài)分布;若符合正態(tài)分布,則選用配對(duì)t檢驗(yàn);若不符合正態(tài)分布,則考慮變量變換或者選用Wilcoxon 符號(hào)秩和檢驗(yàn)。兩樣本均數(shù)比較的分析思路可參見(jiàn)圖2。
圖2 兩樣本均數(shù)/配對(duì)樣本均數(shù)比較的分析思路示意圖
單變量的多個(gè)樣本均數(shù)比較,完全隨機(jī)設(shè)計(jì)和隨機(jī)區(qū)組設(shè)計(jì)兩種情況較為常見(jiàn)。
1.3.1 完全隨機(jī)設(shè)計(jì)/成組設(shè)計(jì)的多個(gè)樣本均數(shù)比較 若各組樣本服從正態(tài)分布,且方差齊性,則選用完全隨機(jī)設(shè)計(jì)的單因素方差分析(one-way ANOVA)。其檢驗(yàn)結(jié)果若有統(tǒng)計(jì)學(xué)意義,則還需進(jìn)行兩兩比較。可根據(jù)研究目的在SNK-q檢驗(yàn)、LSD-t檢驗(yàn)、Dunnett-t檢驗(yàn)等兩兩比較方法中選擇。若資料不滿(mǎn)足正態(tài)性與方差齊性的條件,則選用Kruskal-Wallis 秩和檢驗(yàn)。同樣,檢驗(yàn)結(jié)果有統(tǒng)計(jì)學(xué)意義時(shí),通常需進(jìn)一步兩兩比較(可參考相關(guān)書(shū)籍)[2]。
1.3.2 隨機(jī)區(qū)組設(shè)計(jì)的的多個(gè)樣本均數(shù)比較 該類(lèi)資料為單變量的比較,但涉及兩個(gè)分組因素,一個(gè)為處理因素,另一個(gè)為區(qū)組因素,也稱(chēng)作配伍組。如果資料滿(mǎn)足正態(tài)性的條件,則采用隨機(jī)區(qū)組設(shè)計(jì)的雙因素方差分析,如果不滿(mǎn)足上述條件,則采用隨機(jī)區(qū)組設(shè)計(jì)資料的Friedman 秩和檢驗(yàn)。
1.3.3 其他類(lèi)型資料的方差分析 主要有析因設(shè)計(jì)、重復(fù)測(cè)量資料的方差分析等。析因設(shè)計(jì)中最簡(jiǎn)單的是兩因素兩水平的方差分析,此時(shí)觀察兩個(gè)因素,每個(gè)因素兩個(gè)水平,共有2×2 即4 種不同的因素水平組合,要分別計(jì)算兩個(gè)因素的效應(yīng)及因素間的交互作用效應(yīng)。而對(duì)于重復(fù)測(cè)量的資料,由于同一受試對(duì)象在不同時(shí)點(diǎn)的觀察值之間彼此不獨(dú)立,因此,這類(lèi)資料的方差分析具有一定的特殊性,可進(jìn)行單變量的方差分析,也可視不同時(shí)間點(diǎn)的觀測(cè)值為多個(gè)反應(yīng)變量,進(jìn)行多變量分析(可參考相關(guān)書(shū)籍)[3-4]。
單變量計(jì)量資料多樣本均數(shù)比較的分析思路參見(jiàn)圖3。
圖3 多樣本均數(shù)比較的分析思路示意圖
(1)完全隨機(jī)設(shè)計(jì)兩樣本率的比較時(shí),首先是考慮樣本含量n和理論頻數(shù)T,若n<40 或T <1,選擇Fisher 精確概率法;如果n≥40,T ≥5 時(shí)選擇卡方檢驗(yàn);如果n≥40,出現(xiàn)1 ≤T <5 的情況,則選擇校正卡方檢驗(yàn)。
(2)調(diào)查設(shè)計(jì)兩變量關(guān)聯(lián)性分析時(shí),分析方法選擇同兩樣本率的比較一樣,不同的是要同時(shí)計(jì)算列聯(lián)系數(shù),以考察關(guān)聯(lián)的密切程度。
(3)配對(duì)設(shè)計(jì)資料兩個(gè)率比較時(shí),選擇McNemar 檢驗(yàn),變量關(guān)聯(lián)性選列聯(lián)系數(shù)分析。
2×2 表資料的分析思路參見(jiàn)圖4。
圖4 兩個(gè)率比較的分析思路示意圖
R×C 表資料可以分為雙向無(wú)序、單向有序、雙向有序?qū)傩韵嗤碗p向有序?qū)傩圆煌念?lèi)。
2.2.1 雙向無(wú)序R×C 表資料 R×C 表資料中兩個(gè)分類(lèi)變量皆為無(wú)序分類(lèi)變量時(shí),①若研究目的為多個(gè)樣本率(或構(gòu)成比)的比較,可用行×列表資料的χ2檢驗(yàn);②若研究目的為分析兩個(gè)無(wú)序分類(lèi)變量間是否存在關(guān)聯(lián),宜用行×列表資料χ2的檢驗(yàn)并計(jì)算Pearson 列聯(lián)系數(shù),分析關(guān)聯(lián)的密切程度。
2.2.2 單向有序R×C 表資料 單向有序R×C 表資料有兩種形式。
(1)R×C 表資料中的分組變量是有序的(如年齡組),而應(yīng)變量是無(wú)序的(如疾病的類(lèi)型),其研究目的通常是分析有序分組變量間率或構(gòu)成比的差別。例如:分析不同年齡組某病患病率的差別,此種單向有序R×C 表資料可用行×列表資料的χ2檢驗(yàn)進(jìn)行分析。
(2)R×C 表資料中的分組變量為無(wú)序的(如藥物分甲、乙、丙三種),而應(yīng)變量是有序的(如藥物治療效果是治愈、有效、無(wú)效、惡化、死亡的等級(jí)),其研究目的為比較不同對(duì)比組的有序等級(jí)是否有差別。例如:甲、乙、丙三種療法的治療效果比較,此種單向有序R×C 表資料宜用秩轉(zhuǎn)換的非參數(shù)檢驗(yàn)進(jìn)行分析,即Kruskal-Wallis 秩和檢驗(yàn)。
2.2.3 雙向有序?qū)傩韵嗤腞×C 表資料 R×C表資料中的兩個(gè)分類(lèi)變量皆為有序且屬性相同。該種資料實(shí)際上是配對(duì)四格表資料的擴(kuò)展,即水平數(shù)≥3的配伍資料,例如對(duì)同一批樣品用兩種檢測(cè)方法同時(shí)進(jìn)行檢測(cè),其檢測(cè)結(jié)果為-、±、+、++、+++。其研究目的通常是分析兩種檢測(cè)方法的一致性,此時(shí)宜用一致性檢驗(yàn)或稱(chēng)Kappa 檢驗(yàn)。
2.2.4 雙向有序?qū)傩圆煌腞×C 表資料 R×C表資料中兩個(gè)分類(lèi)變量皆為有序的,但屬性不同。對(duì)于該資料分三種情況。
(1)研究目的為分析等級(jí)分組變量之間應(yīng)變量有無(wú)差別時(shí),例如分析不同年齡組(20 ~、30 ~、40 ~、50 及以上)患者療效(治愈、有效、無(wú)效)之間有無(wú)差別,可把該資料視為單向有序R×C 表資料,而選用Kruskal-Wallis 秩和檢驗(yàn)。
(2)研究目的為分析兩個(gè)有序分類(lèi)變量間是否存在相關(guān)關(guān)系,選用等級(jí)相關(guān)分析。
(3)研究目的為分析兩個(gè)有序分類(lèi)變量間是否存在線(xiàn)性變化趨勢(shì),宜用線(xiàn)性趨勢(shì)檢驗(yàn)。
R×C 表資料的分析思路可參見(jiàn)圖5。
圖5 R×C 表資料的分析思路示意圖
兩組配對(duì)設(shè)計(jì)的資料比較,可選Wilcoxon 符號(hào)秩和檢驗(yàn);成組設(shè)計(jì)/完全隨機(jī)設(shè)計(jì)的兩樣本等級(jí)資料比較,可選兩樣本比較的Wilcoxon 秩和檢驗(yàn)或Mann-Whiney U 檢驗(yàn);若為成組設(shè)計(jì)/完全隨機(jī)設(shè)計(jì)的多個(gè)樣本等級(jí)資料比較,可選Kruskal-Wallis 秩和檢驗(yàn);隨機(jī)區(qū)組設(shè)計(jì)的多個(gè)樣本等級(jí)資料比較,選擇Fridman 秩和檢驗(yàn)。
單變量等級(jí)資料的分析思路參見(jiàn)圖6。
圖6 等級(jí)資料的分析思路示意圖
分析兩變量的相關(guān)關(guān)系時(shí),先繪制散點(diǎn)圖,如果圖中提示兩變量有線(xiàn)性趨勢(shì),且兩變量滿(mǎn)足雙變量正態(tài)分布,可選Pearson 直線(xiàn)相關(guān)分析;若兩變量不滿(mǎn)足雙變量的正態(tài)分布或是等級(jí)資料,可選Spearman秩相關(guān)分析。
分析兩變量的回歸關(guān)系時(shí),先繪制散點(diǎn)圖,如果圖中提示兩變量有線(xiàn)性趨勢(shì),且應(yīng)變量滿(mǎn)足正態(tài)分布時(shí),可選直線(xiàn)回歸分析。
分析兩變量的回歸關(guān)系時(shí),若散點(diǎn)圖顯示兩變量的關(guān)系呈曲線(xiàn)趨勢(shì),可進(jìn)行曲線(xiàn)直線(xiàn)化變換,也可按曲線(xiàn)類(lèi)型作相應(yīng)曲線(xiàn)回歸分析,如指數(shù)曲線(xiàn)、多項(xiàng)式曲線(xiàn)、成長(zhǎng)曲線(xiàn)等分析方法。雙變量資料的分析思路參見(jiàn)圖7。
圖7 雙變量資料的分析思路示意圖
多元線(xiàn)性回歸是直線(xiàn)回歸的擴(kuò)展,研究的因變量只有一個(gè),但是自變量卻有多個(gè)。在中醫(yī)藥研究中,常被用來(lái)篩選危險(xiǎn)因素、分析交互效應(yīng)、控制混雜因素、預(yù)測(cè)與控制等。多元線(xiàn)性回歸分析的前提假定條件是線(xiàn)性、獨(dú)立、正態(tài)及方差齊性。在實(shí)際問(wèn)題中,殘差分析常被用來(lái)考察資料是否滿(mǎn)足這四個(gè)前提條件。多元線(xiàn)性回歸方程=b0+b1X1+b2X2+…+bmXm,bi(i= 1、2、…、m)稱(chēng)為因變量Y對(duì)自變量Xi的偏回歸系數(shù),表示除自變量Xi以外的其余m-1個(gè)自變量都固定不變時(shí),自變量Xi每變化一個(gè)單位,因變量Y平均變化的單位數(shù)值,確切地說(shuō),當(dāng)bi>0時(shí),自變量Xi每增加一個(gè)單位,因變量Y平均增加bi個(gè)單位;當(dāng)bi<0 時(shí),自變量Xi每增加一個(gè)單位,因變量Y平均減少bi個(gè)單位。標(biāo)準(zhǔn)化偏回歸系數(shù)常常用來(lái)比較各個(gè)自變量對(duì)反應(yīng)變量的貢獻(xiàn)大小。確定系數(shù)和調(diào)整的確定系數(shù)常常用于評(píng)價(jià)模型擬合效果的好壞。對(duì)整個(gè)回歸模型的假設(shè)檢驗(yàn)一般采用方差分析,對(duì)各總體偏回歸系數(shù)是否為零的假設(shè)檢驗(yàn)常采用t檢驗(yàn)。當(dāng)建模時(shí)存在多個(gè)自變量時(shí),自變量之間可能會(huì)存在著較強(qiáng)的相關(guān)性,即多重共線(xiàn)性現(xiàn)象,這種情況下會(huì)使模型參數(shù)估計(jì)值不穩(wěn)定或不易解釋。逐步篩選變量時(shí)一定程度上解決此類(lèi)問(wèn)題的最簡(jiǎn)單的做法,其次可以利用主成分間的正交性即采用主成分回歸方法來(lái)解決共線(xiàn)性問(wèn)題。多重線(xiàn)性回歸分析中篩選自變量的方法有前進(jìn)法、后退法、逐步回歸法和最優(yōu)子集法等。用于篩選自變量的指標(biāo)有殘差平方和、殘差均方、確定系數(shù)、調(diào)整的確定系數(shù)、Cp統(tǒng)計(jì)量等。
Logistic 回歸模型分析是多變量統(tǒng)計(jì)方法中的重要內(nèi)容,根據(jù)設(shè)計(jì)類(lèi)型和構(gòu)建似然函數(shù)模型的不同,可分為非條件模型和條件模型兩類(lèi)。自變量X1,X2,…,Xm可以是連續(xù)型變量,也可以是離散型變量,因變量是分類(lèi)變量。該方法可以篩選危險(xiǎn)因素、校正混雜因素、預(yù)測(cè)與判別。Logistic 回歸模型的參數(shù)估計(jì)常采用最大似然法,求得Logistic 回歸方程后,仍需對(duì)回歸方程和每個(gè)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)?;貧w方程的檢驗(yàn)一般可用似然比檢驗(yàn)、Wald 卡方檢驗(yàn)、記分檢驗(yàn)等,回歸系數(shù)的假設(shè)檢驗(yàn)常用Wald 卡方檢驗(yàn)。為使建立的Logistic 回歸模型更為穩(wěn)定,需要對(duì)回歸自變量進(jìn)行篩選,根據(jù)自變量的作用大小來(lái)決定是否將其引入回歸方程。Logistic 回歸模型的參數(shù)β和OR值有聯(lián)系:當(dāng)某自變量的回歸系數(shù)β>0 時(shí),其OR>1,該因素為危險(xiǎn)因素;當(dāng)β<0 時(shí),其OR<1,該因素為保護(hù)因素;當(dāng)β=0 時(shí),其OR=1,該因素對(duì)結(jié)果不起作用。Logistic 回歸分析結(jié)果報(bào)告應(yīng)包括:危險(xiǎn)因素、相應(yīng)的檢驗(yàn)統(tǒng)計(jì)量、P值、各因素的β、標(biāo)準(zhǔn)誤(SE)、各因素OR值及OR值的95%可信區(qū)間。
生存分析是將終點(diǎn)事件的出現(xiàn)與否和達(dá)到終點(diǎn)所經(jīng)歷的時(shí)間相結(jié)合起來(lái)進(jìn)行分析的方法,其主要特點(diǎn)是考慮了每個(gè)觀察對(duì)象達(dá)到終點(diǎn)所經(jīng)歷的時(shí)間長(zhǎng)短。終點(diǎn)可以是死亡,也可以是疾病的發(fā)生,或者是藥物的治療效果等。生存率的估計(jì)有壽命表法和Kaplan-Meier 法,前者適用于大樣本資料,后者適用于小樣本。Cox 模型屬于比例風(fēng)險(xiǎn)模型。模型中回歸系數(shù)βj的含義是變量Xj每改變一個(gè)單位,風(fēng)險(xiǎn)函數(shù)增加exp (βj)倍。Cox 回歸分析可用于影響因素分析、校正混雜因素后的組間比較以及生存預(yù)測(cè)等[5]。
上述三種回歸模型形式比較相似,不同之處在于因變量的資料類(lèi)型,若Y為數(shù)值變量資料,可考慮選用多元線(xiàn)性回歸分析;若Y為分類(lèi)變量資料,特別是二分類(lèi)變量,考慮選用Logistic 回歸分析;若Y為時(shí)間變量資料,則優(yōu)先選用Cox 比例風(fēng)險(xiǎn)模型。這三種多因素分析模型中,對(duì)自變量未進(jìn)行特別規(guī)定,既可以是數(shù)值變量,也可以是分類(lèi)變量,但是當(dāng)自變量為無(wú)序多分類(lèi)資料時(shí),分析前要進(jìn)行啞變量設(shè)置,以有利于結(jié)果的正確分析和解釋。
數(shù)據(jù)管理和分析貫穿整個(gè)中醫(yī)藥研究過(guò)程中,不同類(lèi)型的研究,數(shù)據(jù)管理和統(tǒng)計(jì)分析的方法及指標(biāo)選擇不同,應(yīng)掌握每種具體方法的應(yīng)用條件,科學(xué)合理地選用,對(duì)中醫(yī)藥研究的順利實(shí)施至關(guān)重要。