亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

復(fù)雜抽樣調(diào)查設(shè)計(jì)二值資料一水平多重Logistic回歸分析

2019-12-31 06:50:52李長(zhǎng)平胡良平

四川精神衛(wèi)生 2019年5期

王嬌，李長(zhǎng)平，2*，胡良平

（1. 天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室，天津 300070；2. 世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì)，北京 100029；3. 軍事科學(xué)院研究生院，北京 100850

*通信作者：李長(zhǎng)平，E-mail：1067181059@qq.com）

抽樣調(diào)查由于省時(shí)省力且靈活性高，在流行病學(xué)調(diào)查中應(yīng)用廣泛。最基礎(chǔ)的抽樣方法包括簡(jiǎn)單隨機(jī)抽樣、系統(tǒng)抽樣、整群抽樣和分層抽樣。但是，在多中心及大規(guī)模的調(diào)查中，通過(guò)單一的抽樣方法獲取的樣本往往代表性不好，因此常將多種抽樣方法組合在一起使用，即復(fù)雜抽樣［1］。復(fù)雜抽樣通常具有分層、整群、不等概率或多階段實(shí)施等特點(diǎn)，其產(chǎn)生的樣本稱為復(fù)雜樣本。由于復(fù)雜抽樣各階段所采取的抽樣方法不一定相同，因此，抽樣誤差的估計(jì)會(huì)變得極為復(fù)雜，若計(jì)算時(shí)不考慮抽樣設(shè)計(jì)，可能會(huì)造成錯(cuò)誤的統(tǒng)計(jì)推斷結(jié)果，從而得到錯(cuò)誤的結(jié)論。本文通過(guò)不同的分析策略實(shí)現(xiàn)了對(duì)復(fù)雜抽樣調(diào)查設(shè)計(jì)二值資料一水平多重logistic 回歸分析，并探討了各種分析策略之間的差異。

1 基本概念

1.1 常見復(fù)雜抽樣調(diào)查設(shè)計(jì)種類

1.1.1 分層隨機(jī)抽樣調(diào)查設(shè)計(jì)

分層隨機(jī)抽樣是按一定標(biāo)準(zhǔn)先將總體各單位分層，然后根據(jù)各層樣本量在總體樣本量中的占比，確定從各層中抽取樣本的數(shù)量，最后按照隨機(jī)原則從各層中抽取樣本。分層隨機(jī)抽樣適用于總體樣本量較大、內(nèi)部變異較大的調(diào)查對(duì)象。分層因素的選取需要把握好專業(yè)知識(shí)。

1.1.2 整群隨機(jī)抽樣調(diào)查設(shè)計(jì)

整群隨機(jī)抽樣是將總體按一定標(biāo)準(zhǔn)劃分成群或集體，以群或集體為單位按隨機(jī)原則從總體中抽取若干群或集體作為總體的樣本，并對(duì)抽中的各群或集體中每一個(gè)單位都進(jìn)行實(shí)際調(diào)查。

1.1.3 多階段隨機(jī)抽樣調(diào)查設(shè)計(jì)

多階段隨機(jī)抽樣是先將調(diào)查總體各單位按一定標(biāo)準(zhǔn)分為若干集群，作為一級(jí)抽樣單元，按照隨機(jī)原則，先在一級(jí)抽樣單元中抽出若干單元作為一級(jí)單元樣本，再在第一級(jí)單元樣本中抽出二級(jí)單元樣本，以此類推，抽取第三、第四級(jí)單元樣本。調(diào)查工作至第二級(jí)單元樣本者，為兩階段隨機(jī)抽樣；至第三級(jí)單元、第四級(jí)單元樣本者，分別為三階段和四階段隨機(jī)抽樣。多階段隨機(jī)抽樣適用于總體的范圍大、單元多、情況復(fù)雜的調(diào)查研究場(chǎng)合。

1.2 抽樣調(diào)查設(shè)計(jì)中權(quán)重的種類

1.2.1 概述

權(quán)重是一個(gè)相對(duì)的概念，用來(lái)描述某一指標(biāo)或個(gè)體在整體評(píng)價(jià)中的相對(duì)重要程度。研究表明，復(fù)雜抽樣資料的分析應(yīng)同時(shí)考慮觀測(cè)權(quán)重與抽樣權(quán)重，并提出了綜合權(quán)重的概念，納入綜合權(quán)重的結(jié)果更加靈敏、準(zhǔn)確、穩(wěn)?。?］。

1.2.2 觀測(cè)權(quán)重

觀測(cè)權(quán)重是基于權(quán)重系數(shù)的思想，在分析中引入一個(gè)度量每個(gè)個(gè)體或觀測(cè)對(duì)總體的重要程度的指標(biāo)，表示在其他個(gè)體不變的情況下，該個(gè)體的變化對(duì)結(jié)果的影響程度。由于抽樣研究中每個(gè)個(gè)體的重要程度有差異，在確定每個(gè)個(gè)體的觀測(cè)權(quán)重時(shí)應(yīng)根據(jù)實(shí)際情況做出合理規(guī)定。常用的定義觀測(cè)權(quán)重的方法有經(jīng)驗(yàn)權(quán)重法、貢獻(xiàn)權(quán)重法和試驗(yàn)次數(shù)權(quán)重法等。

1.2.3 抽樣權(quán)重

抽樣權(quán)重是反映所抽取的樣本中各個(gè)觀測(cè)在總體中的重要程度或樣本中各個(gè)觀測(cè)代表總體中個(gè)體的數(shù)目的指標(biāo)。抽樣權(quán)重與抽樣方法有關(guān)，分為基礎(chǔ)抽樣權(quán)重、調(diào)整抽樣權(quán)重與總抽樣權(quán)重［3］。在多階段復(fù)雜抽樣中，最終的抽樣權(quán)重為多個(gè)抽樣概率倒數(shù)的乘積［4］。

1.2.4 綜合權(quán)重

評(píng)價(jià)一個(gè)調(diào)查研究所得到的樣本觀測(cè)的重要程度需要從不同方面進(jìn)行綜合考慮，因此，在同時(shí)考慮觀測(cè)權(quán)重和抽樣權(quán)重的情況下，定義了綜合權(quán)重：綜合權(quán)重=觀測(cè)權(quán)重×抽樣權(quán)重。

2 多重logistic回歸模型的構(gòu)建與求解

復(fù)雜抽樣數(shù)據(jù)多重logistic 回歸模型的構(gòu)建、求解的思路和方法與“非配對(duì)設(shè)計(jì)二值資料一水平多重logistic 回歸分析”基本相同，參見文獻(xiàn)［5］，其區(qū)別僅在于多考慮了“權(quán)重”，其參數(shù)估計(jì)求解于下面的對(duì)數(shù)似然方程：

這種結(jié)合了權(quán)重的似然估計(jì)稱為加權(quán)極大似然估計(jì)。對(duì)對(duì)數(shù)似然方程關(guān)于參數(shù)求偏導(dǎo)數(shù)，并借助非線性迭代法求解出參數(shù)的估計(jì)值。

3 基于SAS的實(shí)例分析

3.1 問(wèn)題與數(shù)據(jù)

本研究中使用的數(shù)據(jù)是中國(guó)教育追蹤調(diào)查（China Education Panel Survey，CEPS）的基線數(shù)據(jù)。CEPS使用多階段概率和規(guī)模成比例（PPS）采樣方法，抽樣過(guò)程分為四個(gè)階段。調(diào)查的起點(diǎn)是兩個(gè)年級(jí)。在第一階段，平均教育水平和流動(dòng)人口比例是分層變量，從全國(guó)范圍內(nèi)隨機(jī)選擇28個(gè)縣級(jí)單位為調(diào)查點(diǎn)；第二和第三階段的調(diào)查是在學(xué)校進(jìn)行的。從選定的縣級(jí)單位中隨機(jī)抽取112 所學(xué)校的438 個(gè)班級(jí)進(jìn)行調(diào)查；第四階段對(duì)第三階段所選擇班級(jí)的全部學(xué)生進(jìn)行了調(diào)查，在基線時(shí)對(duì)大約20 000名學(xué)生進(jìn)行調(diào)查。本例以年級(jí)為因變量來(lái)研究?jī)蓚€(gè)年級(jí)（1=七年級(jí)、2=九年級(jí)）學(xué)生之間的差異，選取的自變量包括語(yǔ)文成績(jī)、數(shù)學(xué)成績(jī)、英語(yǔ)成績(jī)、性別（1=男生、2=女生）、戶籍類型（1=農(nóng)村、2=非農(nóng)村）、是否為獨(dú)生子女（1=不是、2=是）、父母是否在家（1=都在家、2=一方不在家或都不在家）、是否住校（1=是、2=否）、父親是否酗酒（0=否、1=是）、父母是否經(jīng)常吵架（0=否、1=是）和父母是否關(guān)系很好（0=否、1=是）。見表1。

表1 七年級(jí)和九年級(jí)學(xué)生基線資料

3.2 分析策略

在上述實(shí)例數(shù)據(jù)中，語(yǔ)文成績(jī)、數(shù)學(xué)成績(jī)和英語(yǔ)成績(jī)?nèi)齻€(gè)變量為定量資料，在原始數(shù)據(jù)的基礎(chǔ)上分別產(chǎn)生12個(gè)派生變量（x1-x12），代碼如下：

（此處輸入表1 中全部數(shù)據(jù)，19487 行、15 列（含編號(hào)列））

3.2.1 不考慮抽樣設(shè)計(jì)和抽樣權(quán)重，使用原始變量（模型1）

需要調(diào)用LOGISTIC 過(guò)程來(lái)實(shí)現(xiàn)單純隨機(jī)抽樣資料的多重logistic回歸分析。

【說(shuō)明】“descending”選項(xiàng)是要求給出“Y=2”（九年級(jí)）發(fā)生概率的計(jì)算結(jié)果，否則，給出“Y=1”（七年級(jí)）發(fā)生概率的計(jì)算結(jié)果；“class語(yǔ)句”定義了性別、戶籍類型、父母是否在家、是否住校、是否獨(dú)生、父親是否酗酒、父母是否吵架和父母關(guān)系為解釋變量中的分類變量；“model語(yǔ)句”中的selection=backward選項(xiàng)定義后退法來(lái)選擇變量；sls=0.05選項(xiàng)定義變量的保留標(biāo)準(zhǔn)為P＜0.05；RSQ選項(xiàng)輸出廣義R2。

3.2.2 不考慮抽樣設(shè)計(jì)和抽樣權(quán)重，使用原始變量和派生變量（模型2）

3.2.3 考慮抽樣設(shè)計(jì)但不考慮抽樣權(quán)重，使用原始變量（模型3）

需要調(diào)用SURVEYLOGISTIC 過(guò)程來(lái)實(shí)現(xiàn)復(fù)雜抽樣數(shù)據(jù)的多重logistic回歸。

【說(shuō)明】PROC SURVEYLOGISTIC 用于處理抽樣調(diào)查數(shù)據(jù)，在分析過(guò)程中將抽樣設(shè)計(jì)信息納入分析。本例為多階段分層抽樣，一般以一級(jí)抽樣單位為分層變量，因此用strata語(yǔ)句來(lái)定義分層變量為所在縣、市、區(qū)（ctyids）。“model語(yǔ)句”中的ref='1'選項(xiàng)定義以y=1為參考進(jìn)行建模。由于SURVEYLOGISTIC過(guò)程不能進(jìn)行變量篩選，在初次分析后剔除了三個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量（戶籍類型、父母是否吵架、父母關(guān)系），進(jìn)行最終的建模。

3.2.4 考慮抽樣設(shè)計(jì)但不考慮抽樣權(quán)重，使用原始變量和派生變量（模型4）

代碼從略。最終模型中剔除了11 個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量（x3、x4、x6、x10-x12、英語(yǔ)成績(jī)、戶籍類型、父親是否酗酒、父母是否吵架、父母關(guān)系）。

3.2.5 不考慮抽樣設(shè)計(jì)但考慮抽樣權(quán)重，使用原

始變量（模型5）

【說(shuō)明】加入了weight 語(yǔ)句來(lái)利用權(quán)重，本例僅考慮抽樣權(quán)重來(lái)擬合多重logistic 回歸模型。最終模型剔除了（戶籍類型、是否獨(dú)生、父母是否吵架）三個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量。

3.2.6 不考慮抽樣設(shè)計(jì)但考慮抽樣權(quán)重，使用原始變量和派生變量（模型6）

代碼從略。最終模型中剔除了10 個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量（x3、x6、x10-x12、英語(yǔ)、戶籍類型、是否獨(dú)生、父親是否酗酒和父母是否吵架）。

3.2.7 同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重，使用原始變量（模型7）

【說(shuō)明】在SURVEYLOGISTIC 模型中同時(shí)加入了strata 語(yǔ)句和weight 語(yǔ)句來(lái)擬合模型。最終模型剔除了三個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量（戶籍類型、是否獨(dú)生、父母是否吵架）。

3.2.8 同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重，使用原始變量和派生變量（模型8）

代碼從略。最終模型剔除了10 個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量（x3、x4、x6、x10-x12、戶籍類型、父親是否酗酒、父母是否吵架、父母關(guān)系）。

3.3 不同分析策略結(jié)果比較

不同的分析策略最終納入模型的變量不同。八個(gè)模型擬合結(jié)果見表2。

表2 各模型擬合結(jié)果比較

由表2可知，不考慮抽樣設(shè)計(jì)和抽樣權(quán)重時(shí)，獨(dú)生子女和父母關(guān)系均有統(tǒng)計(jì)學(xué)意義；考慮抽樣設(shè)計(jì)后，是否為獨(dú)生子女這個(gè)變量有統(tǒng)計(jì)學(xué)意義，而父母關(guān)系這個(gè)變量無(wú)統(tǒng)計(jì)學(xué)意義；考慮抽樣權(quán)重后，是否為獨(dú)生子女這個(gè)變量無(wú)統(tǒng)計(jì)學(xué)意義，而父母關(guān)系有統(tǒng)計(jì)學(xué)意義?？紤]抽樣權(quán)重的模型比不考慮抽樣權(quán)重的模型R2更大；同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重的模型R2最大（R2=0.2461，調(diào)整R2=0.3284）。各模型的AUC 相差較大，而同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重的模型AUC為0.789，在八個(gè)模型中表現(xiàn)較好。在納入派生變量后，模型R2和AUC大于不考慮派生變量時(shí)模型的值。

4 討論與小結(jié)

由于不同群體特征的可變性，研究人員在樣本選擇過(guò)程中應(yīng)采用科學(xué)的抽樣設(shè)計(jì)，以降低得出錯(cuò)誤結(jié)論的風(fēng)險(xiǎn)，并根據(jù)樣本調(diào)查數(shù)據(jù)的信息對(duì)群體進(jìn)行推斷。為了對(duì)調(diào)查資料做出統(tǒng)計(jì)上的有效推斷，必須在數(shù)據(jù)分析中考慮抽樣設(shè)計(jì)。在當(dāng)前流行病學(xué)調(diào)查中，logistic回歸分析因其能處理結(jié)局變量為離散型變量，尤其是二分類變量而廣泛使用。但是，在普通的logistic回歸分析中沒(méi)有考慮抽樣設(shè)計(jì)和抽樣權(quán)重，而是假設(shè)所有的樣本均來(lái)自單純隨機(jī)抽樣，這可能造成信息損失和結(jié)果分析的偏差。

在實(shí)際調(diào)查中，由于抽樣設(shè)計(jì)和抽樣總體的變動(dòng)，每一個(gè)體對(duì)結(jié)果影響的權(quán)重是不同的［2］，應(yīng)分別加以考慮。本研究給出的實(shí)例采用多階段的概率與規(guī)模成比例抽樣，抽樣權(quán)重為31.506～5 376.874，如果忽略了權(quán)重，分析結(jié)果可能會(huì)與實(shí)際結(jié)果之間有差異。而采用最大似然法擬合離散響應(yīng)調(diào)查數(shù)據(jù)的SURVEYLOGISTIC 回歸模型，其方差估計(jì)采用泰勒級(jí)數(shù)（線性化）方法或重采樣方法，考慮了復(fù)雜抽樣設(shè)計(jì)，包括分層、整群和權(quán)重不等的設(shè)計(jì)［6］。

由本研究結(jié)果可知，在考慮了抽樣權(quán)重后，變量之間的差異會(huì)與單純隨機(jī)抽樣和僅考慮了抽樣設(shè)計(jì)有所不同。忽略抽樣權(quán)重時(shí)，模型參數(shù)的標(biāo)準(zhǔn)誤降低，OR 值的置信區(qū)間變窄，但真實(shí)數(shù)據(jù)的分布可能沒(méi)有這么精確［7］。由于原始數(shù)據(jù)中僅提供了“抽樣權(quán)重”而未提供“觀測(cè)權(quán)重”，故本研究無(wú)法對(duì)使用不同權(quán)重后對(duì)回歸分析結(jié)果的影響加以評(píng)價(jià)。

但本研究所采用的“調(diào)查數(shù)據(jù)”中的“二值因變量（年級(jí)）”不是十分合格的“因變量”，它更適合充當(dāng)“原因變量”。因?yàn)橥ǔ５摹岸狄蜃兞俊笔敲總€(gè)受試對(duì)象在收集資料時(shí)可能會(huì)出現(xiàn)兩種結(jié)局之一，并且每種結(jié)局會(huì)以一定的概率出現(xiàn)［例如每位患者經(jīng)過(guò)治療后，可能會(huì)以概率P出現(xiàn)“存活”，而以概率（1-P）出現(xiàn)“死亡”；而在本例中，每個(gè)學(xué)生要么屬于七年級(jí)、要么屬于九年級(jí)，不可能以概率P屬于七年級(jí)，而以概率（1-P）屬于九年級(jí)］。由于沒(méi)有找到合適的復(fù)雜抽樣調(diào)查數(shù)據(jù)，僅借用本例來(lái)演示如何更全面地對(duì)復(fù)雜抽樣調(diào)查資料進(jìn)行二值資料一水平多重logistic回歸分析。