亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

復(fù)雜調(diào)查資料的特點與統(tǒng)計分析方法概述

2017-11-02 06:54:42胡良平

四川精神衛(wèi)生 2017年5期

崔壯，胡良平

(1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室，天津 300070；2.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計學(xué)咨詢中心，北京 100850；3.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會，北京 100029*通信作者：胡良平，E-mail：lphu812@sina.com)

崔壯1，胡良平2,3*

復(fù)雜抽樣是在抽樣過程中采用除一階段單純隨機抽樣外，其他抽樣方法或其組合的抽樣方案。本文對復(fù)雜抽樣資料的特點、基于復(fù)雜調(diào)查資料進行差異性分析、多重回歸分析以及進行生存資料多重回歸分析的要點進行宏觀概述。為科研工作者進行復(fù)雜抽樣資料的分析提供參考和借鑒。

復(fù)雜調(diào)查；特點；抽樣權(quán)重；統(tǒng)計分析技術(shù)；多重回歸分析

1 復(fù)雜抽樣資料的特點

1.1 何為復(fù)雜抽樣

復(fù)雜抽樣是指在抽樣過程中采用除一階段單純隨機抽樣外，其他抽樣方法或其組合的抽樣方案，通過復(fù)雜抽樣完成的調(diào)查稱為復(fù)雜調(diào)查[1]。復(fù)雜抽樣通常具有分層、整群、不等概率或多階段設(shè)計等方法，其產(chǎn)生的樣本稱為復(fù)雜樣本。復(fù)雜抽樣有以下優(yōu)點：節(jié)省人力物力，使大規(guī)模調(diào)查更具可行性；可靈活調(diào)整樣本量在各級抽樣單位中的分配；可通過改變抽樣比來提高子總體的代表性和估計的可靠性。因此，目前在社會科學(xué)領(lǐng)域以及衛(wèi)生領(lǐng)域調(diào)查研究中[2]，尤其是大規(guī)模調(diào)查，一般涉及多地區(qū)或多中心的抽樣問題，由于單純隨機抽樣因調(diào)查對象過于分散、成本高且可行性較低[3]，故選擇復(fù)雜抽樣設(shè)計。

1.2 分析復(fù)雜抽樣資料的困難

復(fù)雜隨機抽樣中每個階段的抽樣方法不一定相同，其抽樣誤差的計算隨著抽樣階段及抽樣方法的增多變得極為復(fù)雜。然而，研究者在統(tǒng)計分析時，常忽略之前采取的抽樣設(shè)計方法，將資料均視為來自單純隨機抽樣設(shè)計下獲得的資料來處理。實際上，在不同抽樣率下得到的等量樣本量的樣本數(shù)據(jù)所包含的信息是不同的，即“抽樣權(quán)重”不同[4]。有研究[5]顯示，對分層抽樣獲得的復(fù)雜調(diào)查數(shù)據(jù)進行列聯(lián)表的卡方檢驗、構(gòu)建OR的95%置信區(qū)間時，若忽視分層，會導(dǎo)致過于保守的檢驗(P值偏大)，OR的置信區(qū)間通常也會變寬；而對于整群抽樣，通常會產(chǎn)生相反的影響，若忽視整群效應(yīng)，會獲得偏小的P值和更窄的置信區(qū)間，而事實上的置信區(qū)間并非如此精確。

1.3 需要引入權(quán)重

文獻[4]認為，在抽樣調(diào)查研究中將觀測對結(jié)果的貢獻程度考慮在內(nèi)，在分析中應(yīng)考慮抽樣權(quán)重和觀測權(quán)重，同時也提出了綜合權(quán)重的概念。研究顯示納入綜合權(quán)重的結(jié)果更加靈敏且準確、穩(wěn)健。

觀測權(quán)重是基于綜合評價中權(quán)重系數(shù)的思想，在回歸分析中引入反映每個個體或觀測對總體的重要性的度量，表示在其他觀測不變的情況下，該觀測的變化對結(jié)果的影響程度。常用的有經(jīng)驗權(quán)重法、試驗次數(shù)權(quán)重法和貢獻權(quán)重法等[4]。

抽樣權(quán)重是在抽樣研究中，為反映所抽取的樣本中各個觀測在總體中的重要程度，或樣本中各個觀測代表總體中個體的數(shù)目。抽樣權(quán)重的大小與抽樣方法有關(guān)，分為基礎(chǔ)抽樣權(quán)重、調(diào)整抽樣權(quán)重與總抽樣權(quán)重[4]。

綜合權(quán)重是在對隨機抽樣所得的數(shù)據(jù)進行統(tǒng)計分析時，不僅考慮抽樣權(quán)重，還將觀測權(quán)重考慮在內(nèi)，計算各個觀測對結(jié)果總的重要程度。其計算方法是：綜合權(quán)重=觀測權(quán)重×抽樣權(quán)重[4]。

但是，隨著抽樣率的變化和樣本的不同，同一個觀測對模型擬合的貢獻是不同的。而對于不同的抽樣率和樣本中同一個觀測的觀測權(quán)重應(yīng)當是不同的。同時，基于觀測權(quán)重得到的綜合權(quán)重也應(yīng)當隨樣本的變化而變化。因此，如何動態(tài)地計算觀測權(quán)重與綜合權(quán)重仍需進一步研究[4]。

1.4 如何準確估計抽樣誤差

實際研究中，大多數(shù)大規(guī)模的樣本并非通過簡單隨機抽樣獲得的，或通過分層減小方差，對感興趣的領(lǐng)域進行估計，或通過分群來降低成本。在復(fù)雜調(diào)查中，采用復(fù)雜的抽樣方式獲得的數(shù)據(jù)通常不是獨立的，并且每個樣本被抽到的概率是不相等的。但標準統(tǒng)計軟件一般是按假定觀測單位是獨立等分布的條件下編寫的分析程序，可以給出均值等統(tǒng)計量的正確估計，但這時標準誤、置信區(qū)間和假設(shè)檢驗往往是不正確的，在計算時并未考慮抽樣設(shè)計[6]，如直接采用SAS中的SUMMARY、FREQ、MEANS、REG等標準統(tǒng)計分析過程來分析復(fù)雜抽樣數(shù)據(jù)會導(dǎo)致統(tǒng)計推斷錯誤。目前，SAS 9.0或更高的版本可以通過SURVEYMEANS、SURVEYFREQ、SURVEYREG、SURVEYLOGISTIC和SURVEYPHREG等過程進行復(fù)雜調(diào)查資料的分析[7]。

1.5 復(fù)雜調(diào)查中方差的估計方法

在復(fù)雜抽樣中，抽樣權(quán)重包含了構(gòu)造點估計所需的全部信息，但它不包含標準誤估計的任何信息，因此僅僅知道抽樣權(quán)重并不能進行統(tǒng)計推斷。統(tǒng)計量的方差取決于任何一個單元的入選概率，因此需要除抽樣權(quán)重以外更多關(guān)于抽樣設(shè)計的信息。對于復(fù)雜調(diào)查中方差的估計方法，主要包括線性化、隨機組、重抽樣以及廣義方差函數(shù)等[8]。

Taylor級數(shù)線性近似法(Taylor Series Linearization, TSL)：復(fù)雜調(diào)查方差估計中的理論特性是被研究得最透徹、最常采用的方法，其基本思想是利用Taylor級數(shù)方法將非線性統(tǒng)計量線性化，然后計算方差的估計值[9-10]。但計算過于繁瑣，在包含權(quán)數(shù)的復(fù)雜函數(shù)中難以應(yīng)用，對估計的每個非線性統(tǒng)計量都需一個單獨的方差計算公式，還需要進行專門的設(shè)計，每個統(tǒng)計量的計算方法都不同。準確度取決于樣本量，樣本量不夠大，方差的估計通常偏低。

重抽樣法：分層多階段抽樣中采用重抽樣方法，通過從完整樣本中抽取子樣本計算估計值，避免了求偏導(dǎo)數(shù)的過程。主要包括平衡重復(fù)復(fù)制法(Balanced Repeated Replication, BRR)、刀切法(Jackknife Repeated Replication, Jackknife)和Bootstrap法。

Jackknife法：基本思想是將總體分成k組，每次抽取時從中去掉一組，得到的多個二次抽樣樣本，每個二次樣本可得到一個均數(shù)或者率的估計值，根據(jù)估計值的差異估計方差[11]，屬于較為全能的方法。每層多于兩個群組的分層多階段抽樣中，BRR法不再適用，Jackknife法則有較好的表現(xiàn)。對于某些統(tǒng)計量估計方差結(jié)果不佳，如簡單隨機抽樣中分位數(shù)的方差估計效果較差。

BRR法：基本思想是假設(shè)總體分成L層，從每層隨機抽取兩個樣本單位，共抽取2L次，產(chǎn)生2L個樣本，得到多個均數(shù)或率的估計值，利用多個估計值的差異估計方差[8,12]。BRR幾乎可應(yīng)用于所有統(tǒng)計量，但通常只能用于每層只有兩個群組(PSU)或能轉(zhuǎn)化為每層有兩個PSU的設(shè)計。與Jackknife法和Bootstrap法相比，BRR法計算量相對較小。抽樣設(shè)計在每層中有兩個群組，估計的是有放回抽樣的方差，可能會高估方差。

Bootstrap法：適用于通常抽樣設(shè)計中的非光滑函數(shù)(如分位數(shù))，但計算量大于Jackknife和BRR。

2 基于復(fù)雜調(diào)查資料進行差異性分析的要點

2.1 SURVEYFREQ過程簡介

PROC SURVEYFREQ根據(jù)獲得的調(diào)查數(shù)據(jù)的抽樣設(shè)計計算誤差估計值，調(diào)查設(shè)計可以是一個復(fù)雜的抽樣調(diào)查，如分層抽樣、整群抽樣以及不平衡加權(quán)，PROC SURVEYFREQ提供了很多誤差估計的方法，包括TSL、BRR法和Jackknife法。

SURVEYFREQ過程利用樣本調(diào)查數(shù)據(jù)生成單向到多向頻率表和交叉表。這些表包括人口總數(shù)、人口比例(總體比例，行和列比例)以及相應(yīng)的標準誤差的估計、置信限度、變異系數(shù)和模型的效果評價。

對于單向頻率表，PROC SURVEYFREQ提供了針對抽樣設(shè)計的調(diào)整Rao-Scott卡方擬合優(yōu)度檢驗；對于雙向頻率表，PROC SURVEYFREQ提供了基于行和列之間無關(guān)聯(lián)的檢驗。這些檢驗包括Rao-Scott卡方檢驗、Rao-Scott似然比檢驗、Wald卡方和Wald對數(shù)線性卡方檢驗。

以下語句說明了PROC SURVEYFREQ的用法：

PROC SURVEYFREQ < options > ;

BY variables ;

CLUSTER variables ;

REPWEIGHTS variables < / options > ;

STRATA variables < / option > ;

TABLES requests < / options > ;

WEIGHT variable ;

PROC SURVEYFREQ語句調(diào)用該過程，識別要分析的數(shù)據(jù)集，并指定方差估計方法。PROC SURVEYFREQ語句是必需的。TABLES語句指定頻率或交叉表，以及這些表的統(tǒng)計量和檢驗結(jié)果。STRATA語句列出了在分層設(shè)計中的分層變量。CLUSTER語句指定在整群設(shè)計中的群組變量。WEIGHT語句指定抽樣權(quán)重變量。REPWEIGHTS語句指定經(jīng)過BRR法或者Jackknife法估計誤差后的重新加權(quán)變量，BY語句對以BY變量分組的各個亞族分別進行完全獨立的分析。

SURVEYFREQ與FREQ過程的不同點主要體現(xiàn)在PROC SURVEYFREQ后可以根據(jù)需要選擇不同的誤差估計方法，比如VARMETHOD=TAYLOR，VARMETHOD=BRR，VARMETHOD=BRR (fay=c)(c是一個相關(guān)系數(shù))，VARMETHOD=JACKKNIFE，并且可以使用CLUSTER語句、REPWEIGHTS語句、STRATA語句。

2.2 SURVEYMEANS過程簡介

SURVEYMEANS過程通過計算調(diào)查資料的統(tǒng)計量來估計調(diào)查人群的特征。通過該過程可以估計均數(shù)、合計、百分位數(shù)、四分位數(shù)間距。PROC SURVEYMEANS也可以進行域分析，即對一個亞人群或者區(qū)域進行估計。該過程也可以估計誤差、置信區(qū)間以及進行t檢驗。PROC SURVEYMEANS運用基于復(fù)雜抽樣設(shè)計的TSL或者運用BRR來估計抽樣誤差，該過程適用于復(fù)雜抽樣過程如分層抽樣、整群抽樣和不平衡加權(quán)抽樣設(shè)計。

以下語句說明了PROC SURVEYMEANS的用法：

PROC SURVEYMEANS < options >< statistic-keywords > ;

BY variables ;

CLASS variables ;

CLUSTER variables ;

DOMAIN variables ;

RATIO < ’label’ > variables / variables ;

REPWEIGHTS variables < / options > ;

STRATA variables < / option > ;

VAR variables ;

WEIGHT variable ;

PROC SURVEYMEANS選擇輸入要分析的數(shù)據(jù)集，指定要計算的統(tǒng)計量以及誤差估計方法。VAR語句指定要分析的變量。CLASS語句指定要被分析數(shù)值變量轉(zhuǎn)換為分類變量。STRATA語句列出在分類設(shè)計中進行分類的變量。CLUSTER語句指定在整群設(shè)計中群組變量。DOMAIN語句列出域分析或者亞人群分析的變量，RATIO語句指定要進行率分析的均數(shù)或者百分位數(shù)，WEIGHT語句指定抽樣權(quán)重變量，REPWEIGHTS語句指定經(jīng)過BRR或者Jackknife法估計誤差后的重新加權(quán)變量，BY語句對以BY變量分組的各個亞族分別進行完全獨立的分析。

SURVEYMEANS與MEANS過程的不同點主要體現(xiàn)在PROC SURVEYMEANS后可以根據(jù)需要選擇不同的誤差估計方法，比如VARMETHOD = TAYLOR，VARMETHOD=BRR，VARMETHOD=BRR (fay=c)(c是一個相關(guān)系數(shù))，并且可以使用CLUSTER語句、DOMAIN語、REPWEIGHTS語句和STRATA語句。

3 基于復(fù)雜調(diào)查資料進行多重回歸分析的要點

3.1 SURVEYREG過程簡介

PROC SURVEYREG過程可以對調(diào)查資料的數(shù)據(jù)進行回歸分析。該過程可以處理復(fù)雜的抽樣設(shè)計資料包括分層設(shè)計、整群設(shè)計和不平衡加權(quán)數(shù)據(jù)。該過程適用于符合線性模型的測量數(shù)據(jù)，并計算回歸系數(shù)以及變量-協(xié)變量矩陣。該過程還為模型效應(yīng)和模型參數(shù)的任何指定的可估線性函數(shù)提供了假設(shè)檢驗。利用回歸過程可以計算樣本調(diào)查數(shù)據(jù)的預(yù)測值。PROC SURVEYREG基于廣義最小二乘估計法采用逐步法估計回歸系數(shù)，該過程假定回歸系數(shù)在不同層和基本抽樣單元上是不變的。為了估計回歸系數(shù)的方差-協(xié)方差矩陣，PROC SURVEYREG過程運用基于復(fù)雜抽樣設(shè)計的TSL或者運用BRR估計抽樣誤差。

以下語句說明了PROC SURVEYREG的用法：

PROC SURVEYREG < options > ;

BY variables ;

CLASS variables ;

CLUSTER variables ;

CONTRAST ’label’ effect values < ... effect values >< / options > ;

DOMAIN variables < variable_variable variable_variable_variable ... > ;

EFFECT name = effect-type ( variables < / options > ) ;

ESTIMATE < ‘label’ > estimate-specification < / options > ;

LSMEANS ;

LSMESTIMATE model-effect lsmestimate-specification < / options > ;

MODEL dependent = ;

OUTPUT < keyword < =variable-name > ... keyword < =variable-name >>< / option > ;

REPWEIGHTS variables < / options > ;

SLICE model-effect < / options > ;

STORE item-store-name< / LABEL=‘label’ > ;

STRATA variables < / options > ;

TEST ;

WEIGHT variable ;

語句PROC SURVEYREG和語句MODEL是必需的，如果模型包含分類效應(yīng)，則必須采用CLASS語句來對變量進行分類，并且CLASS語句一定要位于MODEL語句之前，如果還要使用CONTRAST語句或者ESTIMATE語句，則MODEL語句一定要在CONTRAST語句或者ESTIMATE語句之前。語句CLASS、CLUSTER、CONTRAST、EFFECT、ESTIMATE、LSMEANS、LSMESTIMATE、REPWEIGHTS、SLICE、STRATA、TEST可以多次使用，而語句MODEL、WEIGHT、STORE、OUTPUT只能使用一次。CLASS語句指定分層變量，CLUSTER語句指定整群設(shè)計中群組變量，DOMAIN語句指定域分析的變量，MODEL語句指定響應(yīng)變量和協(xié)變量，REPWEIGHTS語句指定經(jīng)過BRR法或者Jackknife法估計誤差后的重新加權(quán)變量。

SURVEYREG與REG過程的不同點主要體現(xiàn)在PROC SURVEYREG過程后可以根據(jù)需要選擇不同的誤差估計方法，比如VARMETHOD = TAYLOR, VARMETHOD=BRR, VARMETHOD=BRR (fay=c)(c是一個相關(guān)系數(shù))，并且可以使用CLUSTER語句、DOMAIN語句、STRATA語句。

3.2 SURVEYLOGISTIC過程簡介

SURVEYLOGISTIC過程基于最大似然法對離散響應(yīng)測量數(shù)據(jù)的線性邏輯回歸模型進行擬合。對于統(tǒng)計推斷，SURVEYLOGISTIC適用于分層抽樣、整群抽樣和不平衡加權(quán)抽樣得到的數(shù)據(jù)進行統(tǒng)計分析。用Fisher評分算法或者Newton-Raphson算法來進行最大似然估計，并且可以為參數(shù)估計指定初始值，在ordinallogistic回歸中可以用probit函數(shù)或log-log函數(shù)來替換logit函數(shù)，作為連接函數(shù)。優(yōu)勢比的估計值可以和參數(shù)估計一起顯示，并且可以根據(jù)需要自行指定所需的解釋變量?；貧w參數(shù)的誤差和優(yōu)勢比的計算一般采用基于復(fù)雜抽樣設(shè)計的TSL或BRR進行估計。

以下語句說明了PROC SURVEYLOGISTIC的用法：

PROCSURVEYLOGISTIC;BYvariables;CLASSvariable<(v-options)>...>;CLUSTERvariables;CONTRAST’label’effectvalues<,...effectvalues>;DOMAINvariables;EFFECTname=effect-type(variables);ESTIMATE<‘label’>estimate-specification;FREQvariable;LSMEANS;LSMESTIMATEmodel-effectlsmestimate-specification;MODELevents/trials=>;MODELvariable<(v-options)>=;OUTPUT;REPWEIGHTSvariables;SLICEmodel-effect;STOREitem-store-name;STRATAvariables;TESTequation1<,...,equationk>;UNITSindependent1=list1<...independentk=listk>;WEIGHTvariable;

語句CLASS、CLUSTER、CONTRAST、EFFECT、ESTIMATE、LSMEANS、 LSMESTIMATE，REPWEIGHTS、SLICE、STRATE、TEST可以在程序中出現(xiàn)多次，而語句MODEL、 WEIGHT、STORE、OUTPUT、UNITS只能用一次，并且CLASS語句必須在MODEL語句之前出現(xiàn)使用，CONTRAST語句必須位于MODEL語句之后。BY語句指定分組變量，CLASS語句指定分層變量，CLUSTER語句指定整群設(shè)計中群組變量，DOMAIN語句指定域分析的變量，MODEL語句指定響應(yīng)變量和協(xié)變量，REPWEIGHTS語句指定經(jīng)過BRR法或Jackknife法估計誤差后的重新加權(quán)變量。

SURVEYLOGISTIC和LOGISTIC過程的不同點主要體現(xiàn)在SURVEYLOGISTIC后可以根據(jù)需要選擇不同的誤差估計方法，比如VARMETHOD = TAYLOR, VARMETHOD=BRR, VARMETHOD=BRR (fay=c)(c是一個相關(guān)系數(shù))，并且可以使用DOMAIN語句、REPWEIGHTS語句。

4 基于復(fù)雜調(diào)查資料進行生存資料多重回歸分析的要點

SURVEYPHREG過程執(zhí)行基于Cox比例風(fēng)險模型的抽樣調(diào)查數(shù)據(jù)的回歸分析。當有合適的解釋變量可用時，Cox的半?yún)?shù)比例風(fēng)險回歸模型被廣泛應(yīng)用于分析生存數(shù)據(jù),并估計危險率，該過程提供基于復(fù)雜抽樣設(shè)計資料的誤差估計以及置信區(qū)間、有關(guān)參數(shù)和模型效應(yīng)的假設(shè)檢驗。SURVEYPHREG提供了幾種優(yōu)化的技術(shù)以最大限度地提高對數(shù)似然值，風(fēng)險比可以和參數(shù)估計一同計算得到，回歸參數(shù)的抽樣誤差和風(fēng)險比可以通過基于復(fù)雜抽樣設(shè)計的TSL或者運用BRR估計得到。

以下語句說明了PROC SURVEYPHREG的用法：

PROC SURVEYPHREG < options > ;

BY variables ;

CLASS variable < (options) >< . . . variable < (options) >>< /options > ;

CLUSTER variables ;

DOMAIN variables < variable_variable variable_variable_variable ... > ;

ESTIMATE < ‘label’ > estimate-specification < / options > ;

FREQ variable ;

LSMEANS ;

LSMESTIMATE model-effect lsmestimate-specification < / options > ;

MODEL response < *censor(list) > = effects < /options > ;

NLOPTIONS < options > ;

OUTPUT < OUT=SAS-data-set > ;

REPWEIGHTS variables < / options > ;

SLICE model-effect < / options > ;

STRATA variables < /option > ;

STORE item-store-name < / LABEL=‘label’ > ;

TEST ;

WEIGHT variable ;

語句PROC SURVEYPHREG和MODEL是必需的，并且CLASS語句必須在MODEL語句之前出現(xiàn)，MODEL語句指定要分析模型，CLASS語句指定進行分類的變量，STRATA語句指定分層變量，CLUSTER語句指定在整群設(shè)計中群組變量，WEIGHT語句指定抽樣權(quán)重變量，NLOPTIONS語句指定優(yōu)化算法，REPWEIGHTS語句指定經(jīng)過BRR法或者Jackknife法估計誤差后的重新加權(quán)變量，DOMAIN語句羅列出進行亞人群或者域分析的變量，BY語句指定變量分組后分別進行分析。

SURVEYPHREG和PHREG過程的不同點主要體現(xiàn)在PROC SURVEYPHREG后可以根據(jù)需要選擇不同的誤差估計方法，比如VARMETHOD=TAYLOR，VARMETHOD=BRR，VARMETHOD=BRR (fay=c)(c是一個相關(guān)系數(shù))，并且可以使用DOMAIN語句、REWEIGHTS語句、NLOPTIONS語句。

[1] 姜博,王麗敏,劉艷,等. 復(fù)雜抽樣數(shù)據(jù)統(tǒng)計分析方法回顧[J]. 中國衛(wèi)生統(tǒng)計,2015,32(4):721-723, 726.

[2] Osborne JW. Best practices in using large, complex samples: the importance of using appropriate weights and design effect compensation[J]. Practical Assessment, Research and Evaluation, 2011, 16(12):1-7.

[3] Anderson KM, Wilson PW, Odell PM, et al. An updated coronary risk profile. A statement for health professionals[J]. Circulation, 1991, 83(1): 356-418.

[4] 孫日揚,胡良平. 復(fù)雜隨機抽樣數(shù)據(jù)的多重線性回歸分析方法及其應(yīng)用[J]. 軍事醫(yī)學(xué), 2015, 39(5): 380-385.

[5] Sharon L. Sampling: Design and Analysis[M]. Boston: Thomson Brooks Cole, 2009: 291-355.

[6] SAS Institute Inc. SAS /STAT 9.3 User’s Guide[M]. Cary, NC: SAS Institute Inc, 2011: 7207-7547.

[7] 繆凡,童峰. 復(fù)雜抽樣數(shù)據(jù)的logistic回歸分析方法及其應(yīng)用[J]. 中國衛(wèi)生統(tǒng)計, 2008, 25(6): 577-579.

[8] 王曉榮, 趙俊康, 王彤. 復(fù)雜抽樣下的截取回歸模型在醫(yī)學(xué)研究中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計, 2012, 29(5): 691-697.

[9] 劉建華, 金水高. 復(fù)雜抽樣調(diào)查總體特征量及其方差的估計[J]. 中國衛(wèi)生統(tǒng)計, 2008, 25(4): 377-379.

[10] West BT. Statistical and methodological issues in the analysis of complex sample survey data: practical guidance for trauma researchers[J]. J Trauma Stress, 2008, 21(5): 440-447.

[11] KrewskiD, Rao JNK.Inference from stratified samples: properties of the linearization, jackknife and balanced repeated replication methods[J].Ann Stat, 1981, 9(5): 1010-1019.

[12] 呂萍.重權(quán)數(shù)在復(fù)雜調(diào)查的方差估計中的應(yīng)用[J].統(tǒng)計研究, 2011, 28(2): 93-99.

Overviewforthefeaturesofcomplexsurveydataanditsanalyticaltechniques

CuiZhuang1,HuLiangping2,3*

(1.DepartmentofHealthStatistics,SchoolofPublicHealth,TianjinMedicalUniversity,Tianjin300070,China;2.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China;3.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)

Complex sampling is the sampling plan of other sampling methods or their combination, except a simple random sampling of one stage in the process of sampling. This paper presented a macro overview of the characteristics of complex sampling data, the main points of the difference analysis and multiple regression analysis based on the complex survey data, and the key points of multiple regression analysis of survey survival data. The paper could provide references for the researchers to better understand and implement the analysis of complex sampling data.

Complex survey; Feature; Sampling weight; Analytical techniques of statistics; Multiple regression analysis

R195.1

10.11886/j.issn.1007-3256.2017.05.004

2017-08-17)

(本文編輯：陳霞)

國家高技術(shù)研究發(fā)展計劃課題資助(2015AA020102)