亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

復雜抽樣調(diào)查設(shè)計多值名義資料一水平多重Logistic回歸分析

2019-03-16 11:22:22劉媛媛李長平胡良平

四川精神衛(wèi)生 2019年6期

劉媛媛，李長平，2*，胡良平

（1.天津醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室，天津300070；2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會，北京100029；3.軍事科學院研究生院，北京100850*通信作者：李長平，E-mail：1067181059@qq.com）

在調(diào)查研究中，常見的結(jié)果變量及其取值除了二值資料、多值有序資料之外，還包括如血型“A型、B型、O型、AB型”或疾病分型“A型、B型、C型”這樣的資料，稱為多值名義資料。此類資料特指因變量或結(jié)果變量為多值名義變量，而自變量可以是定性的、定量的或混合型的資料［1］?，F(xiàn)在，復雜抽樣調(diào)查設(shè)計在實際調(diào)查研究中使用越來越多，對由此獲得的復雜抽樣數(shù)據(jù)進行統(tǒng)計分析時，需充分考慮由不同的抽樣方法而產(chǎn)生的不同“抽樣權(quán)重”。本文通過不同分析策略對復雜抽樣調(diào)查設(shè)計多值名義資料進行多重logistic回歸分析，并探討不同策略之間的差異。

1 多值名義資料多重logistic回歸模型簡介

1.1 簡單隨機抽樣下多值名義資料多重logistic回歸模型的構(gòu)建

對于結(jié)果變量為多值名義變量的logistic回歸模型，其結(jié)果變量的多個取值之間是“無序的”，假設(shè)結(jié)果變量Y的取值的類別個數(shù)為（D+1）個，這時，總是以其中一個取值類別作為對照，將其他類別與對照類別進行比較，共生成D個logistic回歸模型，所構(gòu)建的logistic回歸模型也被稱為擴展的logistic回歸模型或廣義logit模型［2］。見式（1）。

其中，α1，…，αD是D個截距參數(shù)，β1，…，βD是D個參數(shù)組成的向量，βi代表第i類相對于第（D+1）類的回歸系數(shù)向量，x代表協(xié)變量向量。此模型最早由McFadden［3］介紹，并被作為多項logit模型而熟知。

對上式進行轉(zhuǎn)換可得式（2）：

因為所有（D+1）類的概率之和必須為1，所以第（D+1）類的概率為式（3）［4］：

1.2 復雜抽樣下多值名義資料多重logistic回歸模型的構(gòu)建

對于復雜抽樣下多值名義資料多重logistic回歸模型來說，建模時通過使用偽對數(shù)似然函數(shù)來估計模型參數(shù)。當結(jié)果變量為多值名義資料時，構(gòu)建廣義logit模型將使用logit連接函數(shù)擬合每個響應類別的預期比例與參考類別的預期比例的比值［2］。此時，廣義logit模型即為式（4）：

其中，d=1，2，…，D。模型參數(shù)向量為βd=(βd1，βd2，…，βdk)'。πhij為結(jié)果變量的期望向量。xhij為第h層第i個群集第j個單位解釋變量的k維行向量。

利用偽對數(shù)似然函數(shù)對模型參數(shù)進行估計，求解最大似然估計值。見式（5）：

在式（5）中，Dhij為連接函數(shù)關(guān)于θ的偏導數(shù)矩陣，θ為回歸系數(shù)的列向量，θ=(β'1，β'2，…，β'D)'，ωhij為抽樣權(quán)重，yhij為變量Y的前D個類別的指示變量組成的一個D維的列向量［5］。

2 基于SAS的實例分析

2.1 問題與數(shù)據(jù)

本研究所使用數(shù)據(jù)為美國衛(wèi)生與公眾服務部開展的醫(yī)療支出面板調(diào)查（Medical Expenditure Panel Survey，MEPS）的數(shù)據(jù)，對醫(yī)療保健的各個方面進行評估［2］。該研究采用分層整群抽樣，抽樣權(quán)重根據(jù)無響應情況和當前人口調(diào)查的人口控制總量進行調(diào)整。在本例中，利用1999年全年數(shù)據(jù)來研究醫(yī)保覆蓋情況與人口學變量之間的關(guān)系。數(shù)據(jù)存儲于SAS數(shù)據(jù)集MEPS，樣本量為24 618，變量為8個，具體變量名及賦值見表1。

表1 數(shù)據(jù)集中變量名及賦值或單位

2.2 分析策略

2.2.1 按單純隨機抽樣進行分析

既不考慮抽樣設(shè)計，也不考慮抽樣權(quán)重：將復雜調(diào)查設(shè)計資料視為“單純隨機抽樣設(shè)計資料”。

2.2.1.1 SAS程序

基于表1及其具體數(shù)據(jù)創(chuàng)建臨時SAS數(shù)據(jù)集MEPS所對應的SAS數(shù)據(jù)步程序從略。調(diào)用LOGISTIC過程來實現(xiàn)單純隨機抽樣設(shè)計資料的廣義logit模型。

【說明】class語句指定分類變量sex、race、income；model語句中響應變量為Y=insurance，以insurance=3為參考類別，解釋變量（即自變量）為sex、race、income和expenditure。在MODEL語句中指定了LINK=GLOGIT選項，即指定擬合廣義logit回歸模型，即擴展的多重logistic回歸模型。

2.2.1.2 主要輸出結(jié)果及解釋

這里僅列出部分廣義logit回歸模型分析結(jié)果。其中模型參數(shù)的假設(shè)檢驗分別使用似然比檢驗、評分檢驗和Wald檢驗三種方法，結(jié)果顯示回歸模型有統(tǒng)計學意義。最大似然估計結(jié)果顯示，性別、家庭收入水平和全年衛(wèi)生保健總支出對健康保險覆蓋情況的影響均有統(tǒng)計學意義；優(yōu)勢比估計結(jié)果顯示，相對于全年沒有保險者而言，女性、家庭收入水平非貧窮者、全年衛(wèi)生保健總支出高者傾向于全年有私人保險；男性、家庭收入水平非貧窮者、全年衛(wèi)生保健總支出高者傾向于全年只有公共保險。

2.2.2 考慮抽樣設(shè)計，但不考慮抽樣權(quán)重

2.2.2.1 SAS程序

調(diào)用SURVEYLOGISTIC過程來實現(xiàn)復雜抽樣調(diào)查設(shè)計多值名義資料的廣義logit回歸模型。

【說明】STRATA語句用于指定在分層抽樣設(shè)計中的分層變量，CLUSTER語句指定整群抽樣設(shè)計中的群變量。其他解釋同上。

2.2.2.2 主要輸出結(jié)果及解釋

SAS輸出結(jié)果很多，由于篇幅限制，此部分結(jié)果從略。由輸出結(jié)果得知：性別、人種、家庭收入水平和全年衛(wèi)生保健總支出對健康保險覆蓋情況的影響均有統(tǒng)計學意義。

2.2.3 不考慮抽樣設(shè)計，但考慮抽樣權(quán)重

2.2.3.1 SAS程序

調(diào)用SURVEYLOGISTIC過程來實現(xiàn)復雜抽樣調(diào)查設(shè)計多值名義資料的廣義logit回歸模型。

【說明】WEIGHT語句指定權(quán)重變量，其他解釋同上。

2.2.3.2主要輸出結(jié)果及解釋

由于篇幅限制，SAS輸出結(jié)果從略。由輸出結(jié)果得知：性別、人種、家庭收入水平和全年衛(wèi)生保健總支出對健康保險覆蓋情況的影響均有統(tǒng)計學意義。

2.2.4 同時考慮抽樣設(shè)計和抽樣權(quán)重

2.2.4.1 SAS程序

調(diào)用SURVEYLOGISTIC過程來實現(xiàn)復雜抽樣調(diào)查設(shè)計多值名義資料的廣義logit模型。

【說明】分別用STRATA語句、CLUSTER語句、WEIGHT語句指定復雜抽樣中的分層變量、群變量、權(quán)重變量，CLASS語句指定分類變量；MODEL語句中結(jié)果變量為insurance，以insurance=3為參考類別，解釋變量為sex、race、income和expenditure。在MODEL語句中指定LINK=GLOGIT選項，即指定擬合廣義logit回歸模型。

2.2.4.2 主要輸出結(jié)果及解釋

由于篇幅限制，SAS輸出結(jié)果從略。由輸出結(jié)果得知：性別、人種、家庭收入水平和全年衛(wèi)生保健總支出對健康保險覆蓋情況的影響均有統(tǒng)計學意義。相對于全年沒有保險者而言，女性、愛斯基摩人（相對于白人）、家庭收入水平非貧窮者、全年衛(wèi)生保健總支出高者傾向于全年有私人保險，而男性、人種為美國印第安人或亞洲或太平洋島民或黑人（相對于白人）者、全年衛(wèi)生保健總支出低者傾向于無保險；女性、人種非白人、家庭收入水平貧窮者、全年衛(wèi)生保健總支出高者傾向于全年只有公共保險。

2.3 不同分析策略的結(jié)果比較

不考慮復雜抽樣的普通廣義logit回歸模型與僅考慮抽樣設(shè)計的廣義logit回歸模型所得回歸系數(shù)及OR值的參數(shù)估計值相同，僅回歸系數(shù)的標準誤及OR值的95%CI不同，而其變化有的增大有的減小。說明是否考慮抽樣方法對廣義logit回歸模型參數(shù)估計存在影響。

考慮抽樣權(quán)重與同時考慮抽樣設(shè)計和抽樣權(quán)重之后構(gòu)建的廣義logit回歸模型所得回歸系數(shù)及OR值的參數(shù)估計值相同，卻與前兩種分析策略結(jié)果不同。而且這兩種分析策略得到的回歸系數(shù)標準誤及OR值的95%CI也有增大或減小的區(qū)別。race變量在不考慮抽樣權(quán)重時，對健康保險覆蓋情況無影響；但在考慮抽樣權(quán)重后，race變量的不同情況對健康保險覆蓋情況的影響有統(tǒng)計學意義。說明在對復雜抽樣調(diào)查設(shè)計多值名義資料構(gòu)建廣義logit回歸模型時，首先應考慮研究采用的抽樣方法，由此計算相應的抽樣權(quán)重，否則可能產(chǎn)生較大偏差［5］。

3 討論與小結(jié)

抽樣調(diào)查是調(diào)查研究中相對簡單易行且代表性較好的方法之一，但單一的抽樣方法在實際應用中存在一些缺點，所以復雜抽樣的思想和方法應運而生，由復雜抽樣方法獲得的樣本稱為復雜樣本［6］。由于復雜隨機抽樣每個階段的抽樣方法可能不同，所以其抽樣誤差的計算相當復雜。因此，在對復雜樣本進行統(tǒng)計分析時，既要充分考慮多種抽樣方法聯(lián)合使用對抽樣誤差的影響，又要注意不同抽樣率下抽樣權(quán)重的不同，否則會使參數(shù)及其置信區(qū)間等的估計產(chǎn)生偏差。

為了探討在復雜抽樣或單純隨機抽樣基礎(chǔ)上進行統(tǒng)計分析的差異，本研究分別采用SAS軟件中的LOGISTIC過程和SURVEYLOGISTIC過程，按照是否考慮抽樣設(shè)計與是否考慮抽樣權(quán)重共4種分析策略對數(shù)據(jù)進行統(tǒng)計分析。由于LOGISTIC過程可采用逐步回歸法對自變量進行篩選，而SURVEYLOGISTIC過程不支持，所以本研究并未使用該選項。結(jié)果顯示，如果在統(tǒng)計分析中忽視“復雜抽樣”或“抽樣權(quán)重”，不僅會對參數(shù)估計值、回歸系數(shù)標準誤、OR值及其置信區(qū)間的估計產(chǎn)生影響［6］，而且對納入廣義logit回歸模型的解釋變量也有影響。由于復雜抽樣中的抽樣權(quán)重包含進行參數(shù)點估計時所需的信息，但不包含標準誤估計的信息，因此，在SURVEYLOGISTIC過程中需對方差進行估計。正確的方差估計包括每一個抽樣階段的方差估計和聯(lián)合抽樣概率［7］。SAS中可采用Taylor級數(shù)線性近似法（線性化）、重抽樣等方法，如不進行設(shè)置，則默認前者方法，這也是該過程與LOGISTIC過程的主要區(qū)別。因此，在實際研究中，利用樣本數(shù)據(jù)對總體進行統(tǒng)計推斷時，必須對樣本的設(shè)計類型加以考慮，不然即使樣本量足夠大，也會導致錯誤的推斷結(jié)論［7］。

本文通過實例研究，按照不同的分析策略分別對結(jié)果變量為多值名義變量的分層整群抽樣數(shù)據(jù)構(gòu)建廣義logit回歸模型，通過對結(jié)果的解釋和比較，發(fā)現(xiàn)在對復雜抽樣調(diào)查設(shè)計多值名義資料進行多重logistic回歸分析時，既要考慮抽樣設(shè)計，又要兼顧抽樣權(quán)重，以得到更準確的分析結(jié)果。