上海交通大學醫(yī)學院生物統計學教研室(200025) 張莉娜
混合響應類型的多水平模型在重復測量資料中的應用和實現
上海交通大學醫(yī)學院生物統計學教研室(200025) 張莉娜
目的 將混合響應類型的多水平模型應用到具有兩個不同類型結局變量的重復測量資料的分析中。方法 對原始資料的格式作適當變換,構造一個水平1虛擬變量,將2個結局變量作為水平1上的觀察單位,各時間點的重復測量為水平2單位,受試者為水平3單位,用MLwiN2.25軟件擬合混合響應類型的三水平模型,對試驗組和對照組的療效,以及受試者的年齡、性別、觀察指標的基線值,時間、組別和時間的交互效應進行分析。結果 該模型在考慮了兩個不同類型的結局變量在各個水平上的相關性后,可以對兩個結局變量同時進行影響因素分析,獲得解釋變量對兩個結局變量影響的估計,且只要數據缺失隨機則估計是有效且無偏的。結論 由于混合響應類型的多水平模型允許結局變量具有不同類型,并且把數據間的相關性分解為重復測量相關性和結局變量間相關性兩部分,可有效地進行重復測量資料的動態(tài)變化趨勢分析,分析結果更為細致。
混合響應類型 重復測量資料 多水平模型 多反應變量模型
在醫(yī)學研究中,研究者常常感興趣的結局變量不止一個,各結局變量的類型有可能不同,并且對這些結局變量的測量并非只有一次,如多個時間點重復測量,收集到多個結局變量的重復測量數據。對于上述資料,每個個體除了各個時間點的單變量有相關性外,每次測量的多個結局變量之間也有相關性存在。
對于分析具有兩個結局變量,一個結局變量為二分類指標,另一個結局變量為計量指標的重復測量資料,傳統的分析思路有兩種,一是在各個時間點分別對二分類結局變量擬合多重logistic回歸模型,對計量結局變量擬合多重回歸模型。該方法孤立看待各時間點的觀察值,忽視觀察對象在各個時間點的內在聯系及內在相關性,且并未考慮兩結局變量的相關性。二是把重復測量作為水平1單位,各個受試者作為水平2單位,分別對二分類結局變量進行一元logistic兩水平模型回歸分析,對計量結局變量進行兩水平模型分析。該方法雖然考慮到了單個結局變量在各個時間點的非獨立性,但由于把兩個結局變量割裂開來單獨進行分析從而忽略了兩個結局變量之間的相互聯系。本文將采用一個實例,用重復測量資料混合響應類型的多水平模型對兩個不同類型的結局變量進行同時分析。該模型的優(yōu)勢就在于它允許結局變量存在不同類型,并將隨機誤差至少可分為兩個層次:個體間誤差和個體內重復測量間誤差。從而對數據間的相關性進行更加細致的分解和研究,將不同變量在不同時間點協同變化的影響以豐富的內容表述出來,其分析結果更加細致和符合實際。
為了評價某新藥治療慢性乙型病毒性肝炎的有效性,采用多中心、隨機、雙盲雙模擬、陽性藥物平行對照的Ⅱ期臨床試驗,療程為12周,治療結束后隨訪12周。分別在治療前、治療4周、治療8周、治療12周,治療結束后2周、4周、8周、12周各個時間點記錄各受試者的ALT,并對其進行臨床療效評定(有效或無效)。所有符合試驗方案、依從性良好、試驗期間未服用禁止用藥、完成CRF的病例納入PP(Per protocol)分析集,由于無效而提前退出的病例也納入PP分析。本試驗的療效分析用PP分析,共125例受試者進入PP分析集,其中試驗組64例,對照組61例。原始資料數據結構見表1,變量編碼見表2。
表1 兩組慢性乙型病毒性肝炎患者各時間點的ALT和療效評價情況
對原始數據庫進行整理,將每個受試者只有一個記錄的原始數據格式轉換成堆迭數據格式,即每個受試者有與各次隨訪相對應的多個記錄。本例有7個時間點,所以每個受試者對應7個記錄。再添加一個水平1虛擬變量,將2個結局變量(ALT和臨床療效)作為水平1上的觀察單位,用一個因變量表示,作為虛擬1水平單位。各時間點的重復測量為水平2單位,受試者為水平3單位。在添加了一個水平1虛擬變量后,模型中的常數項及每個納入模型的解釋變量都需要2個系數,分別對應于臨床療效和ALT,用上標(1)和(2)表示。即每個解釋變量的取值在對應的結局變量上取原始值,在另一個結局變量上取值為0。以編號為1的患者為例,轉換后的數據格式見表3。格式轉換后的數據庫的樣本量為原數據庫的14倍(每個受試者:7個時間點×2個結局變量)。
表2 原始資料數據庫各變量編碼及賦值
表3 混合響應類型重復測量資料的多水平模型資料格式
模型Ⅰ:設yij表示第j(j=1,…,n)個受試者,第i(i=1,2,…,7)次重復測量的臨床療效,假設臨床療效yij~Binomial(1,πij),考慮組別、性別、中心化年齡、治療前ALT和時間,并同時考慮組別和時間的交互作用,建立一個以臨床療效為結局變量,以受試者為水平1單位,重復測量為水平2單位的二分類兩水平的logistic模型:
模型Ⅱ:設yij表示第j(j=1,2,…,n)個受試者,第i(i=1,2,…,7)次重復測量的 ALT,假設 ALT 為yij~N(XB,Ω),考慮組別、性別、中心化年齡、治療前ALT和時間,并同時考慮組別和時間的交互作用,建立一個以ALT為結局變量,以受試者為水平1單位,重復測量為水平2單位的兩水平的隨機系數模型:
模型Ⅲ:設yijk表示第k(k=1,…,n)個受試者,第j(i=1,2,…,7)次重復測量,第i(i=1,2)個結局變量的觀察值。假設結局變量臨床療效為yijk~Binomial(1,πijk),結局變量ALT為yzik~N(XB,Ω),考慮組別、性別、中心化年齡、治療前ALT和時間,并同時考慮組別和時間的交互作用,可以建立一個混合響應類型的三水平模型:
先用臨床療效作為結局變量做重復測量資料的二分類兩水平logistic回歸模型(模型Ⅰ),再用ALT作為結局變量做重復測量資料的兩水平隨機系數模型(模型Ⅱ),再同時對兩個結局變量做混合響應類型重復測量資料的多水平模型(模型Ⅲ)。
表4 三個模型的參數估計和檢驗
表4固定參數部分結果顯示:本例模型Ⅰ、模型Ⅱ和模型Ⅲ的結論一致。對于結局指標臨床療效,組別和治療前的ALT有統計學意義,即試驗組的臨床療效優(yōu)于對照組,且治療前的ALT值越高,臨床療效越好。對于結局指標ALT,試驗組低于對照組,但P值略大于0.05,故組間差異無統計學意義,而時間有統計學意義,即隨著療程的增加,ALT也隨之降低。
表4隨機參數部分結果顯示:由于混合響應類型的多水平模型(模型Ⅲ)同時對兩個結局變量進行分析,所以比單反應變量模型(模型Ⅰ、Ⅱ)提供了更多的信息。結果顯示:臨床療效和ALT在受試者間的變異都具有統計學意義,且隨著病程的延長,ALT下降的速率在受試者間的變異也具有統計學意義。且在平衡了重復測量間的相關后兩指標在受試者水平上呈負相關(r=-0.737),相關性有統計學意義。而兩指標在時間水平上也呈負相關(r=-0.250),即兩指標重復測量間呈負相關,但相關性無統計學意義。
在醫(yī)學臨床研究中,分析具有多個結局變量,且各結局變量類型不同的重復測量資料,混合響應類型的多水平模型有其不可替代的優(yōu)勢。該模型不僅能對固定效應進行分析,而且可以將隨機誤差分解為個體內重復測量誤差和個體間誤差兩部分。既可以獲得解釋變量對各結局變量影響的有效估計,又在控制了解釋變量的影響后能估計各結局變量重復測量之間的相關系數以及在平衡了重復測量間的相關以外各結局變量之間的相關系數,對數據間的相關性進行更加細致的分解和研究,因此比單個反應變量的多水平模型能提供更多的信息。另外虛擬1水平的設立,可以有效地處理當某個體有個別觀察結果變量缺失的情況,只要數據缺失隨機則估計是有效且無偏的。
1.Goldstein H.Multilevel statistical models(third edition).London:Arnold,2003.
2.Hox J.J.Multilevel Analysis:Techniques and Applications(second edition).Routledge,2010.
3.Rasbash R,et al.A user’s guide to MLwiN.Multilevel Models Project.Institute of Education.University of London,1999.
4.薩建,劉桂芬.雙反應變量重復測量資料分析及MIXED過程實現.中國衛(wèi)生統計,2007,24(6):580-583.
5.王靜,劉芳,葉冬青.多反應變量模型在臨床實例中的應用研究.現代預防醫(yī)學,2008,35(4):640-645.
6.于浩,丁紅,趙楊,等.臨床試驗中多個終點變量同時評價的多元logistic 模型.中國衛(wèi)生統計,2007,24(3):251-254.
7.薩建,劉桂芬.非獨立數據的相關性分析.數理醫(yī)藥學雜志,2007,20(6):821-824.
8.楊珉,李曉松.醫(yī)學和公共衛(wèi)生研究常用多水平統計模型.北京:北京大學醫(yī)學出版社,2007,5.
The Application and Implement of Multilevel Model with a Mixture of Response Types for Repeated Measurement Data
Zhang Lina.Department of Biostatistics,Shanghai Jiao Tong University,School of Medicine(200025),Shanghai
ObjectiveTo apply multilevel model with a mixture of response types to analyze the repeated measures data with two different types of outcome variables.MethodsA multilevel model with a mixture of response types was fitted with the different types of the responses at pseudo level 1,repeated measures at level 2 and subject at level 3.The parameters in the model can be estimated by MLwiN software with rearranged data set.ResultsAfter considering of the correlation between the different types of the outcome variables in each level,the model can analysis the influence factors on the two outcome variables simultaneously.The effective estimation of coefficients can be gained and the estimates will be unbiased and efficient so long as the data are missing at random.ConclusionThe multilevel model with a mixture of response types allow a different types of the outcome variables in the model,and cut the correlation between data into two parts in the model:the correlation between multiple repeated measurements of each response variable and the correlation of all the response variables.The model can effectively analyze the dynamic change trend of multivariate repeated measures data,so the analysis results are more detailed.
Mixture of response types;repeated measures data;multilevel model;Multivariate Response Models
(責任編輯:郭海強)