王琪,胡良平
·講座·
如何用SAS軟件正確分析生物醫(yī)學科研資料XXVI. 結果變量為多值名義變量的高維列聯(lián)表資料的統(tǒng)計分析與SAS軟件實現(xiàn)(二)
王琪,胡良平
編者按
生物統(tǒng)計學是生物學領域科學研究和實際工作中必不可少的工具,在分子生物學迅速發(fā)展的今天,生物統(tǒng)計學更顯示出了它的重要性。實驗設計與數(shù)據(jù)統(tǒng)計分析是現(xiàn)代生物學的基石,是生物學研究者檢驗假說、尋找模式、建立生物學理論的有利工具,也是生物學研究者探索微觀和宏觀生物世界的必備基礎知識。對于每天甚至是每時每刻涌現(xiàn)的大量的、以天文數(shù)字計量的分子遺傳數(shù)據(jù),必須借助統(tǒng)計學知識加以分析處理,才能從中獲得有意義的信息?!吧锒鄻有詳?shù)據(jù)分析”是開展生物多樣性研究的一個重要方面,數(shù)據(jù)分析能力的高低極大地影響著我們對各種生態(tài)學現(xiàn)象認識的深度和廣度?,F(xiàn)在,電子計算機的普及使得生物統(tǒng)計分析過程大大簡化,生物統(tǒng)計分析軟件包的普及將生物統(tǒng)計學從統(tǒng)計學家的書本里解放了出來,簡化了生物統(tǒng)計分析過程,使之成為生物學研究者的常用工具。本刊特邀軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心主任胡良平教授,以“如何用 SAS 軟件正確分析生物醫(yī)學科研資料”為題,撰寫系列統(tǒng)計學講座,希望該系列講座能對生物醫(yī)學科研工作者有所幫助。
上期的講座已通過實例向讀者介紹了如何通過 SAS軟件使用 CMH χ2檢驗和對數(shù)線性模型處理結果變量為多值名義變量的高維列聯(lián)表(表中涉及到的定性變量的個數(shù)k ≥ 3)資料。本期將重點介紹另一種方法——擴展的多重logistic 回歸分析[1],該方法同樣可以分析結果變量為多值名義變量的高維列聯(lián)表資料。
當結果變量為二值變量時,高維列聯(lián)表資料可以用logistic 回歸分析來處理;當結果變量為多值有序變量時,所使用的 logistic 回歸被稱為累積 logistic 回歸模型;當結果變量為多值名義變量時,需使用擴展的多重 logistic 回歸模型來處理,該模型叫做多項 logit 模型[2]。
對于有 j = 1、2、… J 個取值的多值名義變量,多項logit 模型可以通過下式來表示:
在上述 J – 1 個回歸方程的基礎上,想要得到任意兩個類別,即結果變量的任意兩個取值所確定的回歸方程,可以按下式計算:
該回歸方程的截距和回歸系數(shù)分別為 αi– αj和 βik–βjk。
此外,對于有 J 個取值的結果變量,歸入第 j 類的概率為:
式 ⑴ 中包含的所有 J – 1 個回歸方程在 SAS 軟件中可以同時被擬合,這與將每個回歸方程單獨以二值結果變量的形式擬合一般的 logistic 回歸方程不同,同時擬合得到的模型參數(shù)估計的標準誤要更小一些。對于同時擬合來說,在選擇兩個類別建立回歸方程時,與哪個作為參照類別無關,均可以獲得同樣的參數(shù)估計。參照類別的選擇沒有嚴格的標準,這是多項 logit 模型的缺陷。
在 SAS 中,二值變量所對應的 logistic 回歸模型和累積 logistic 回歸模型都可以用系統(tǒng)中的 LOGISTIC 過程來完成,但是多項 logit 模型需要由 CATMOD 過程,即屬性數(shù)據(jù)的建模過程來完成,并且,CATMOD 過程也可以實現(xiàn)前面兩種 logistic 回歸模型分析。
使用 logistic 回歸分析方法,當原因變量是多值名義變量時,必須引入啞變量,因為這樣才可以對參數(shù)的實際意義作出解釋,并計算原因變量不同水平間的優(yōu)勢比。如果多值名義變量有 m 個水平,那么就需要產(chǎn)生 m – 1 個啞變量。SAS 的 CATMOD 過程在進行參數(shù)估計時,對于原因變量為多值有序變量或多值名義變量的情形,是以原因變量的一個水平作為參照估計出多個參數(shù),m 個水平的原因變量可估計出 m – 1 個參數(shù)。此時如果結果變量有 J 個取值,則該原因變量對應的參數(shù)一共為 (m – 1)( J – 1) 個。所以,使用 CATMOD 過程進行擴展 logistic 回歸分析,不再需要專門給多值名義的原因變量賦啞變量。
下面將通過實例向讀者介紹如何通過 SAS 軟件使用擴展的多重 logistic 回歸分析處理結果變量為多值名義變量的高維列聯(lián)表資料。
【例 1】調查某中醫(yī)院一日內醫(yī)生開出的針對甲、乙兩種疾病的處方情況,結果見表 1,試對數(shù)據(jù)進行分析。
表 1 不同疾病、不同性別患者的藥物使用情況
data a1; /*1*/ do a=1 to 2; do b=1 to 2; do c=1 to 3; input f @@; output; end; end; end; cards; 52 7 2 34 8 1 23 19 4 18 11 3 ; run; ods html; proc catmod; /*2*/ weight f; model c=a b; run; proc catmod; /*3*/ weight f; model c=a; run; ods html close;
分析與解答:此表中含有三個定性變量,分別為疾病類型、患者性別、藥物種類,結果變量為藥物種類(多值名義變量),數(shù)據(jù)以列聯(lián)表的形式呈現(xiàn),因此該表被稱作“結果變量為多值名義變量的三維列聯(lián)表”。對于該高維列聯(lián)表資料,分析目的是考察不同疾病、不同性別的患者所用藥物種類頻數(shù)構成有無差別,分析時通??蛇x用 CMH χ2檢驗、對數(shù)線性模型或擴展的多重 logistic 回歸分析。本期重點介紹最后一種。
SAS 程序如下,設程序名為 li1.sas。
程序說明:本例第一步建立數(shù)據(jù)集 a1,a 表示疾病類型,a = 1 表示甲,a = 2 表示乙;b 表示患者性別,b = 1 表示男性,b = 2 表示女性;c 表示藥物種類,c = 1 表示中藥,c = 2 表示西藥,c = 3 表示復方藥;變量 f 表示頻數(shù)。過程步使用 CATMOD 過程實現(xiàn)擴展的多重 logistic 回歸分析。CATMOD 過程的默認方式將結果變量的最后一個類別作為參照類,本例中為“復方藥”,如果想以“中藥”為參照類別,就需要對結果變量重新賦值或使用 sort 過程降序排列后再進行分析,并且,如果是降序排列后分析的話,還要在過程步加上 order = data 選項。對于“疾病類型”這個原因變量而言,默認方式也是以最后一個類別,即乙病作為參照類別,同樣,參照類的改變也可以通過相應的設置來實現(xiàn)。
SAS 程序運行結果:
CATMOD 過程Maximum likelihood analysis of variance
Analysis of maximum likelihood estimates
統(tǒng)計和專業(yè)結論:由結果第一部分可得出 a 變量(疾病類型)對結果變量 c 的影響是有統(tǒng)計學意義的,表明不同疾病患者所用的藥物種類頻數(shù)構成之間的差別有統(tǒng)計學意義。因此,可以認為患甲病的患者所用的藥物種類頻數(shù)構成與患乙病的患者相比是不同的。
b 變量是無統(tǒng)計學意義的。因此將程序中第二步“model c=a b”在第三步中修改為“model c=a”,運行結果如下:
Maximum likelihood analysis of variance
Analysis of maximum likelihood estimates
模型表達式為:
三種藥物種類概率的計算公式為:
當受試對象患乙病時,使用復方藥的概率為:
專業(yè)結論:結合實際資料可以看到,藥物種類的分布與疾病類型有關,而與性別因素沒有關系。
[1] Hu LP. Statistics facing practical scientific issues -- (2) multi-factor designs and linear model analysis. Beijing: People’s Medical Publishing House, 2012:567-578. (in Chinese)
胡良平. 面向問題的統(tǒng)計學——(2)多因素設計與線性模型分析.北京: 人民衛(wèi)生出版社, 2012:567-578.
[2] Hu LP. Medical statistics-analysis of quantitative and qualitative data applying the triple-type theory. Beijing: People’s Military Medical Press, 2009: 376-393. (in Chinese)
胡良平. 醫(yī)學統(tǒng)計學-運用三型理論分析定量與定性資料. 北京:人民軍醫(yī)出版社, 2009:376-393.
·協(xié)會之窗·
“2013中國(山東)國際生物醫(yī)藥產(chǎn)業(yè)博覽會”于11月27日在濟南舉行
為進一步加快生物醫(yī)藥產(chǎn)業(yè)發(fā)展,促進經(jīng)濟發(fā)展方式轉變,推動產(chǎn)業(yè)結構調整,加強國際間的行業(yè)交流,由濟南市人民政府聯(lián)合我會、山東省醫(yī)藥行業(yè)協(xié)會主辦,濟南博商展覽有限公司承辦的“2013 中國(山東)國際生物醫(yī)藥產(chǎn)業(yè)博覽會”于 11 月 27 – 29 日在濟南國際會展中心舉行。
會議邀請到來自海內外的近千家企業(yè)參展,展會展出面積 20 000 多平方米,共設十個展示交易區(qū)。展出內容涵蓋了生物醫(yī)藥、原料、新特品種藥、醫(yī)藥生物技術、基因工程、科學實驗儀器、制藥機械、包裝機械技術及設備、外包服務等上萬種產(chǎn)品。有 20 多個國家和地區(qū)的 20 000 多名專業(yè)觀眾前來參觀、采購、交流。
展會同期舉辦的“生物醫(yī)藥高層論壇”邀請了來自美國、歐洲等國家知名生物制藥、新藥研發(fā)、創(chuàng)新藥物研發(fā)外包、醫(yī)藥臨床研究、轉化醫(yī)學等領域專家與會,為生物制藥公司、新藥研發(fā)企業(yè)級專業(yè)人士提供了一個最佳的貿易交流平臺。
10.3969/cmba.j.issn.1673-713X.2013.06.017
國家科技重大專項課題(2011ZX09302-006-01)
100850 北京,軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心(王琪、胡良平);100850 北京,軍事醫(yī)學科學院放射與輻射醫(yī)學研究所(王琪)
胡良平,Email:lphu812@sina.com