張 敏 劉彥才 楊永麗 孟 永 董彩琴
高血壓合并多種并發(fā)癥的廣義估計方程統(tǒng)計分析
張 敏1△劉彥才2楊永麗1孟 永3董彩琴2
目的 高血壓有多種并發(fā)癥,一個病人可能沒有并發(fā)癥,也可能同時伴發(fā)一種或多種并發(fā)癥,這類數據稱作多重應答數據。本文以高血壓的并發(fā)癥為例,詳細闡述應變量是多重應答數據時如何用廣義估計方程進行統(tǒng)計分析,以期為臨床工作者在處理類似數據時提供參考。方法 用作者本人的一項高血壓研究為案例,以高血壓并發(fā)癥為應變量,各種可能的危險因素為自變量,通過Stata10.0統(tǒng)計軟件包構建廣義估計方程,篩出易患并發(fā)癥的危險因素。結果以高血壓的四類并發(fā)癥擬合四個常數項,構建廣義估計方程。通過該方程可以計算出在基線水平上各并發(fā)癥的發(fā)生概率,還可計算某自變量對某種并發(fā)癥的影響。結論 多重應答數據是醫(yī)學研究中常見的數據形式,用廣義估計方程處理這類數據,可以提高科研效率,節(jié)約科研資源。
高血壓并發(fā)癥 多重應答數據 廣義估計方程
1.昆明醫(yī)科大學第一附屬醫(yī)院心內科(650032)
2.云南省大理州賓川縣醫(yī)院(671600)
3.昆明醫(yī)科大學第二附屬醫(yī)院心內科(650101)
△通信作者:張敏
原發(fā)性高血壓可導致多種并發(fā)癥,如腦卒中、冠心病、充血性心衰、腎功能不全等。一個高血壓患者,可能目前沒有并發(fā)癥,也可能同時伴發(fā)一種或多種并發(fā)癥。這種類型的數據,相當于問卷調查中的多選題,同一個問題有多個候選答案,回答問題的人可以選擇其中若干個,也可以全選或不選,屬于多重應答的資料。在臨床研究中,多重應答數據是很常見的。例如,某種疾病有多種治療方法,病人可以選擇不接受治療,也可以選擇接受其中一種或多種治療方法;某種疾病有多種病因,病人可能因為一種病因而致病,也可能因為多種病因的共同作用而致病等等。如果把這種多重應答資料作為應變量,以各種危險因素作為自變量,分析這些自變量與多重應答的應變量之間的關系,研究者一般的做法,是簡單地把多重應答資料當做二分類變量處理:以高血壓的并發(fā)癥為例,設有并發(fā)癥為1,無并發(fā)癥為0,用構建logistic模型等的統(tǒng)計方法來處理數據。這種處理方法雖然簡單,但卻丟失了大量有用信息,用來分析多重應答資料是不恰當的。關于多重應答資料的統(tǒng)計方法,目前國內外對此的報道不多。張文彤〔1〕、洪榮濤〔2〕等提出可采用廣義估計方程來處理這類數據,但迄今為止尚未見到臨床醫(yī)務工作者使用廣義估計方程對多重應答資料進行分析的實際案例。本文從臨床醫(yī)生的角度出發(fā),用構建廣義估計方程的方法分析易導致高血壓各種并發(fā)癥的危險因素,并具體闡述構建模型的步驟,以期為廣大臨床工作者在處理類似數據時提供有價值的參考。
本案例來源于作者本人2011年發(fā)表于BMC Public Health的一項研究〔3〕:對云南省賓川縣4個自然村25歲以上的村民進行整群抽樣,得到5110名受試者,對其測量血壓和問卷調查,篩查出高血壓患者1340名。在這些高血壓患者中進行心電圖、血生化、尿常規(guī)檢查,以及進一步的問卷調查,從中篩出有并發(fā)癥的患者,統(tǒng)計分析哪些危險因素易導致高血壓并發(fā)癥。
本案例中設定的自變量有12個,其中年齡、體質量指數、受教育年限和經濟能力這4個變量為連續(xù)變量,單位分別是歲、千克/米2、年和元,其余變量為分類變量。應變量為高血壓的并發(fā)癥,如前所述,該數據屬于多重應答數據,本案例中定義的高血壓并發(fā)癥有4類,分別為腦損害、心臟損害、腎損害和其他。各變量的賦值情況見表1。
本案例使用Stata 10.0軟件包做統(tǒng)計分析,原始數據錄入格式見表2。
在本例中,自變量包括連續(xù)變量(如年齡、體質量指數等),二分類變量(如性別、是否接受降壓治療等),以及多分類變量(吸煙、飲酒)。吸煙和飲酒是兩個有序多分類變量,但由于無法準確衡量各類別之間的差距,故將這兩個原始的多分類變量轉化為數個啞變量,再進行進一步分析。轉化為啞變量的Stata命令如下:
這兩個命令分別將吸煙和飲酒轉化為S1~S6,及D1~D6各6個啞變量,各啞變量的賦值如下:
吸煙:
S1:不吸煙為1,否則為0;
S2:每天10支以內為1,否則為0;
表1 變量賦值情況
表2 原始數據錄入格式
S3:每天10~20支為1,否則為0;
S4:每天21~30支為1,否則為0;
S5:每天31~40支為1,否則為0;
S6:每天40支以上為1,否則為0。
飲酒:
D1:不飲酒為1,否則為0;
D2:每天白酒50ml以內為1,否則為0;
D3:每天50~100ml為1,否則為0;
D4:每天100~150ml為1,否則為0;
D5:每天150~200ml為1,否則為0;
D6:每天200ml以上為1,否則為0。
建模之前,首先要用reshape命令把原始數據的寬型格式轉換為長型格式,命令如下:
reshape long compli,i(No)j(Obs)
轉換后的長型數據格式見表3。No表示病人編號,Obs是新生成的變量,表示應變量四個選項的編號。
在擬合方程前,還需把Obs轉化為啞變量:
tab Obs,gen(z)
該命令將Obs轉化為z1~z4四個啞變量,賦值如下:
z1:有腦損害為1,否則為0;
z2:有心臟損害為1,否則為0;
z3:有腎損害為1,否則為0;
z4:有其他損害為1,否則為0。
表3 長型數據格式
本例中四類不同的并發(fā)癥,可以看成是對一個問題的四次重復測量,四個選項分別擬合四個常數項,構建廣義估計方程模型如下:
構建廣義估計方程的命令是xtgee,具體如下:
xtgee compli z1-z4 gender age bmi insurance school capacity aware risk treat control S2 S3 S4 S5 S6 D2 D3 D4 D5 D6,i(No)t(Obs)nocons family(binomial)corr(uns)
廣義估計方程的分析結果見表4。
z1~z4四個常數項的參數值分別表示在基線水平下四類并發(fā)癥的發(fā)生概率比數的自然對數值,1~4分別對應“腦損害”、“心臟損害”、“腎損害”和“其他”。例如,假設所有自變量都保持在基線水平的前提下,發(fā)生腦損害的概率為0.69‰,即:
同理,在基線水平下,發(fā)生心臟損害、腎損害和其他并發(fā)癥的概率分別為0.13‰,0.26‰,和0.02‰。
根據構建的模型顯示,易導致高血壓并發(fā)癥的危險因素分別為:女性、高齡、受教育年限短、經濟能力差、知曉已患高血壓、不知道高血壓的危險性、降壓不達標、以及吸煙。各危險因素的詳細解釋見作者已發(fā)表的文獻〔3〕,這里將對危險性大小及并發(fā)癥發(fā)生概率高低做詳細報道。以吸煙為例,每天吸煙10支以內者,發(fā)生高血壓并發(fā)癥的風險是不吸煙者的2倍(OR=e0.6989392=2.0);而每天吸煙40支以上者,發(fā)生并發(fā)癥的風險是不吸煙者的226.7倍(OR=e5.423671=226.7)。根據這個模型,還可以進一步分析某一自變量對某種具體的并發(fā)癥的影響,例如,在其他自變量保持在基線水平的前提下,降壓達標者發(fā)生腦損害的概率是0.13‰ (P=e-7.27491-1.67305/(1 +e-7.27491-1.67305)=0.0000129985),與基礎的0.69‰相比下降了81%。
表4 廣義估計方程分析結果
多重應答數據屬于分類數據,但與一般的分類數據不同的是,各個選項之間存在關聯,且選項之間一般不能互換,因此將各選項看成數個獨立的單選題來分析是不恰當的。本文通過一個實際的案例,具體闡述了如何構建廣義估計方程模型來處理應變量是多重應答數據的臨床問題。建模時,可以只擬合一個常數項,也可以n個選項擬合n個常數項,本文采用的是后者。從上述結果中可看出,擬合了四個常數項,不但可以分析哪些危險因素會導致高血壓的并發(fā)癥,還能進一步分析哪個危險因素對哪一種并發(fā)癥發(fā)生概率的影響情況,從而獲得更多有價值的結果。
多重應答數據是醫(yī)學研究中十分常見的數據形式,本案例列舉的是高血壓的并發(fā)癥,除高血壓外,很多心腦血管疾病也會產生多種并發(fā)癥;另外在疾病的起因、預防和治療方面也可能會收集到很多多重應答數據。而令人遺憾的是,目前關于如何分析多重應答數據的報道十分少見,而且在臨床研究中對這類數據的處理多是不當的。當應變量是多重應答數據時,構建廣義估計方程是一種比較合理,且不浪費信息資源的統(tǒng)計方法。對廣義估計方程的應用,以往的文獻中存在很多復雜的數學術語或編程命令〔1,2,4〕,可能會令廣大臨床工作者望而卻步。本文從臨床醫(yī)生的角度出發(fā),盡量簡化數學術語,詳盡闡述建模步驟,并對醫(yī)生感興趣的統(tǒng)計結果進行詳細分析,希望能為臨床工作者提供一種看得懂、用得上的統(tǒng)計方法,以提高效率、節(jié)約信息資源。
1.張文彤,田曉燕.基于廣義估計方程的多重應答資料統(tǒng)計分析方法.中國衛(wèi)生統(tǒng)計,2004,21(3):139-141.
2.洪榮濤,曹衛(wèi)華,歐劍鳴,等.多重應答資料統(tǒng)計分析及其SAS軟件實現過程.中國衛(wèi)生統(tǒng)計,2009,26(6):595-598.
3.Zhang M,Meng Y,Yang Y,et al.Major inducing factors of hypertensive complications and the interventions required to reduce their prevalence:an epidemiological study of hypertension in a rural population in China.BMC Public Health,2011,11:301.
4.朱玉,王靜,何倩.廣義估計方程在SPSS統(tǒng)計軟件中的實現.中國衛(wèi)生統(tǒng)計,2011,28(2):199-201.
Statistical Analysis for Hypertensive Complications Using Gen-eralized Estimating Equations
Zhang Min,Liu Yancai,Yang Yongli,et al.Department of Cardiology,the 1st Affiliated Hospital of Kunming Medical University(650032),Kunming
ObjectiveHypertension is a chronic disease with diverse complications.One hypertensive patient could experience one or more complications simultaneously.This type of data is multiple response data.The aim of this paper is to take hypertensive complications for an example,illustrate how to analyze multiple response data using generalized estimating equations,when multiple response data is adopted as the dependent variable.MethodsAn actual case from a hypertension study was used to illustrate how to develop generalized estimating equations.Diverse hypertensive complications were adopted as dependent variable,and potential risk factors were as independent variables.Statistical analyses were undertaken by Stata 10.0 statistical package.ResultsThe generalized estimating equations model was fitted containing four constants based on four categories of hypertensive complications.These four constants reflect the natural logarithm of the odds ratio of the prevalence of four hypertension complications on the baseline.Adjusted by other independent variables,the prevalence of certain complication due to the changing of certain independent variable can also be calculated.ConclusionMultiple response data is a common data in the field of medical research.Developing generalized estimating equations model is suitable to process multiple response data,which can improve research efficiency and save research resource.
Hypertensive complications;Multiple response data;Generalized estimating equations
(責任編輯:郭海強)