亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        SURVEYMEANS過程在抽樣調(diào)查資料分析中的應(yīng)用

        2017-11-02 06:54:45李長平胡良平
        四川精神衛(wèi)生 2017年5期
        關(guān)鍵詞:整群置信區(qū)間花費

        李長平,胡良平

        (1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室,天津 300070;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029;3.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計學(xué)咨詢中心,北京 100850*通信作者:胡良平,E-mail:lphu812@sina.com)

        SURVEYMEANS過程在抽樣調(diào)查資料分析中的應(yīng)用

        李長平1,2,胡良平2,3*

        (1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室,天津 300070;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029;3.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計學(xué)咨詢中心,北京 100850*通信作者:胡良平,E-mail:lphu812@sina.com)

        傳統(tǒng)的統(tǒng)計分析方法在進行差異性分析、線性與廣義線性回歸分析時,基本上都是基于樣本來自無限總體、完全隨機抽樣的基礎(chǔ)上估計抽樣誤差。而調(diào)查數(shù)據(jù)往往來自于分層、整群、多階段或不等概率等復(fù)雜隨機抽樣方法,此時若采用前述提及的經(jīng)典統(tǒng)計分析方法,則不能準確估計抽樣誤差。本文通過具體實例,介紹如何應(yīng)用SAS軟件中的SURVEYMEANS過程,更好地實現(xiàn)對通過各種抽樣方法獲得的數(shù)據(jù)進行統(tǒng)計描述和簡單的統(tǒng)計分析,以便達到準確估計抽樣誤差、對總體參數(shù)描述和估計的目的。

        SAS軟件;SUVEYMEANS過程;簡單隨機抽樣;分層抽樣;分層整群抽樣

        1 調(diào)查資料統(tǒng)計分析方法概述

        1.1 隨機抽樣方法簡介

        調(diào)查研究是醫(yī)學(xué)科學(xué)研究常見的形式之一。而無論是觀察性研究如橫斷面研究,還是分析性研究如病例對照研究、隊列研究,絕大多數(shù)時候都會采用抽樣調(diào)查的形式。那么,一旦采用抽樣的形式選取研究對象,研究結(jié)果就會存在抽樣誤差。常用的概率抽樣調(diào)查的方法有完全隨機抽樣、系統(tǒng)抽樣、分層抽樣、整群抽樣等。不同的抽樣方法,抽樣誤差大小的估計方法是不同的[1]。

        1.2 調(diào)查資料統(tǒng)計描述與簡單統(tǒng)計分析方法簡介

        傳統(tǒng)統(tǒng)計分析軟件(如SAS,其MEANS、GLM過程等)中的算法,通常都是基于“無限總體、完全隨機抽樣”這樣的假設(shè)基礎(chǔ)上估計抽樣誤差的。而當抽樣方法相對復(fù)雜,采用這些程序計算將不能得到正確的抽樣誤差估計值[2-3]。此時,SAS/STAT中的SURVEYMEANS過程就能發(fā)揮其作用了。PROC SURVEYMEANS利用Taylor擴展方法估計基于復(fù)雜抽樣設(shè)計的統(tǒng)計量抽樣誤差。該方法獲得統(tǒng)計量的一個線性近似值并用該近似值的方差估計來推斷統(tǒng)計量本身的方差[4-5]。

        1.3 調(diào)查資料回歸分析方法簡介

        在SAS軟件中,有SASREG、SASLOGISTIC、SASPHREG三個過程可被用來對各種復(fù)雜抽樣調(diào)查資料進行建模。針對不同的隨機抽樣方法,采取相應(yīng)的算法去估計方差-協(xié)方差矩陣,以便更好地估計回歸系數(shù);同時,還采用Taylor級數(shù)方法或重抽樣方法來估計抽樣誤差。

        2 采用SURVEYMEANS過程實現(xiàn)統(tǒng)計描述與簡單統(tǒng)計分析

        2.1 SURVEYMEANS過程簡介

        PROC SURVEYMEANS DATA=用于指定要分析的輸入數(shù)據(jù)集。當調(diào)查設(shè)計包括有限總體校正因子時,可以用RATE=或TOTAL=選項指定抽樣率或抽樣大?。?/p>

        BY 指定分組單獨分析變量;

        CLASS 指定作為屬性變量來分析的變量;

        CLUSTER 指定整群抽樣設(shè)計中的群識別變量;

        DOMAIN語句對亞總體或域進行分析的變量;

        RATIO 計算分析變量均值或構(gòu)成的比值,分子變量/分母變量;

        STRATA指定分層抽樣設(shè)計中的分層變量;

        VAR 指定分析變量;

        WEIGHT 指定包含抽樣權(quán)重的變量;

        RUN;

        2.2 基于完全隨機抽樣設(shè)計的統(tǒng)計分析

        【例1】假設(shè)從總體4 000名學(xué)生(七、八、九年級)中采用隨機抽樣方法抽取40名學(xué)生作為樣本。研究者想通過對這40名學(xué)生的調(diào)查了解學(xué)生平均每周的冰淇淋花費,以及每周的冰淇淋花費超過10美元的學(xué)生的比例。具體數(shù)據(jù)如表1所示,表1數(shù)據(jù)存為SAS數(shù)據(jù)集,命名為IceCream。

        表1 40名學(xué)生每周冰激淋花費情況

        注:Grade,年級;Spending,花費;less,<10美元;more,≥10美元

        對應(yīng)的SAS計算程序如下:

        title1‘AnalysisofIceCreamSpending’;title2‘SimpleRandomSampleDesign’;procsurveymeansdata=IceCreamtotal=4000;varSpendingGroup;run;

        【程序說明】proc surveymeans調(diào)用surveymeans過程。TOTAL=4 000,指進行一個樣本量為4 000的有限總體校正的方差估計

        【輸出結(jié)果】

        TheSURVEYMEANSProcedureDataSummaryNumberofObservations40

        StatisticsVariableLevelNMeanStdErrorofMean95%CLforMeanSpending408.7500000.8451397.0405453910.4594546Groupless230.5750000.0787610.415689940.7343101more170.4250000.0787610.265689940.5843101

        【結(jié)果說明】數(shù)值變量Spending的結(jié)果顯示,學(xué)生總體中平均每周冰淇淋花費為8.75美元,95%置信區(qū)間為(7.04,10.46)美元。屬性變量Group的結(jié)果顯示,學(xué)生總體中平均每周冰淇淋花費少于10美元的比例約為57.5%,置信區(qū)間為(41.6%,73.4%),多于10美元的比例約為42.5%,置信區(qū)間為(26.6%,58.45%)。

        2.3 基于分層抽樣設(shè)計的統(tǒng)計分析

        【例2】 沿用例1的背景資料。假設(shè)上例中4 000名學(xué)生是來自分層抽樣設(shè)計,按年級分層,各年級抽取的學(xué)生人數(shù)見下表2。試對數(shù)據(jù)進行分析。

        表2 各年級抽取的學(xué)生人數(shù)

        對應(yīng)的SAS計算程序如下:

        dataStudentTotals;inputGrade_total_;datalines;718248102591151;dataIceCream;setIceCream;ifGrade=7thenProb=20/1824;ifGrade=8thenProb=9/1025;ifGrade=9thenProb=11/1151;Weight=1/Prob;title1‘AnalysisofIceCreamSpending’;title2‘StratifiedSimpleRandomSampleDesign’;procsurveymeansdata=IceCreamtotal=StudentTotals;stratumGrade/list;varSpendingGroup;weightweight;run;

        【程序說明】Grade是分層變量,變量_total_表示各層總體大小,該名稱為程序中固定格式。程序方差估計時利用每層總體觀測量大小來校正有限總體抽樣的影響。若不提供各總體的大小或抽樣率,則

        系統(tǒng)假定樣本中包含總體的率非常小,此時不做有限總體校正。在分層抽樣設(shè)計中,當各層抽樣概率不同時,需要定義樣本的權(quán)重以便做到對均數(shù)無偏的估計。在本例中,采用按比例抽樣的方式,每層抽樣概率的倒數(shù)作為樣本權(quán)重(即用Weight命令設(shè)置權(quán)重)。List命令要求輸出每層的信息。每個年級中抽取的樣本數(shù)為事先按一定規(guī)則,如等比例抽樣規(guī)定的樣本數(shù)。

        【輸出結(jié)果】

        (1)生成的IceCream SAS數(shù)據(jù)集截圖如下:

        (2)Output結(jié)果:

        StratumInformationStratumIndexGradePopulationTotalSamplingRateNObsVariableLevelN1718241.10%20Spending20Groupless17more32810250.88%9Spending9Groupless0more93911510.96%11Spending11Groupless6more5

        上表顯示按三個年級分層、各層的總?cè)藬?shù)、抽樣率、抽取的各層總樣本數(shù)、對應(yīng)的變量及細分組樣本數(shù)信息。

        StatisticsVariableLevelNMeanStdErrorofMean95%CLforMeanSpending409.1412980.5317998.0637705210.2188254Groupless230.5445550.0584240.426176780.6629323more170.4554450.0584240.337067690.5738232

        對Spending分析的結(jié)果顯示,學(xué)生總體中平均每周冰淇淋花費為9.14美元,標準誤為0.53,95%置信區(qū)間為(8.06,10.22)美元。對Group分析的結(jié)果顯示,學(xué)生總體中平均每周冰淇淋花費少于10美元的約為54.5%,置信區(qū)間為(42.6%,66.3%),多于10美元的約為45.5%,置信區(qū)間為(33.7%,57.4%),標準誤為5.8%。

        2.4 基于分層整群抽樣設(shè)計的統(tǒng)計分析

        【例3】沿用例1的背景資料。假設(shè)從總體4 000名學(xué)生中采用分層整群抽樣獲取40例樣本。4 000名學(xué)生的總體情況如下表3所示:

        表3 4 000名學(xué)生各年級及學(xué)習(xí)小組構(gòu)成情況

        4 000名學(xué)生來自七、八、九年級。各年級有對應(yīng)的人數(shù)(表3第3列)和若干學(xué)習(xí)小組(表3第2列)。每個學(xué)習(xí)小組中有2~4個學(xué)生。

        在本例中,抽樣單位(或“群”)是學(xué)習(xí)小組。以年級為分層單位,對學(xué)習(xí)小組進行隨機抽選,選中的學(xué)習(xí)小組中的所有學(xué)生作為樣本。假定從七、八、九年級分別抽取了8、3、5個學(xué)習(xí)小組。

        對應(yīng)的SAS程序如下:

        ①dataIceCreamStudy;inputGradeStudyGroupSpending@@;if(Spending<10)thenGroup='less';elseGroup='more';datalines;7347734774124927147342923015927157501292308923077501385920740347403118591385917814312814316859189235981431093128923569235119312107321681561981561473213732112748927489977817781074892715617786741267156293018;②dataStudentGroups;inputGrade_total_;datalines;760882529403;

        ③dataIceCreamStudy;setIceCreamStudy;ifGrade=7thenProb=8/608;ifGrade=8thenProb=3/252;ifGrade=9thenProb=5/403;Weight=1/Prob;title1‘AnalysisofIceCreamSpending’;title2‘StratifiedClusteredSampleDesign’;④procsurveymeansdata=IceCreamStudytotal=Student-Groups;strataGrade/list;clusterStudyGroup;varSpendingGroup;weightweight;run;

        【程序說明】數(shù)據(jù)步①中Group表示年級,StudyGroup表示學(xué)習(xí)小組,不同年級的小組編號可以相同,因為小組編號是按年級和其小組數(shù)排的順序編號。Spending表示冰淇淋花費,Group是根據(jù)冰淇淋花費進行分組。數(shù)據(jù)步②中Grade是分層變量,變量_total_表示各層學(xué)習(xí)小組數(shù),該名稱為程序中固定格式,用于表達主要抽樣單位。數(shù)據(jù)步③中,定義主要抽樣單位的權(quán)重。權(quán)重為群抽樣概率的倒數(shù)。過程步④中,strata定義分層變量,cluster定義群抽樣單位變量。

        【輸出結(jié)果】

        (1)生成的IceCreamstudy SAS數(shù)據(jù)集截圖如下:

        (2)Output輸出結(jié)果:

        DataSummaryNumberofStrata3NumberofClusters16NumberofObservations40SumofWeights3162.6

        ClassLevelInformationCLASSVariableLevelsValuesGroup2lessmore

        StratumInformationStratumIndexGradePopulationTotalSamplingRateNObsVariableLevelNClusters176081.32%20Spending208Groupless178more33282521.19%9Spending93Groupless00more93394031.24%11Spending115Groupless64more54

        上表中給出了按三個年級分層,各層的總?cè)簲?shù)、抽樣率、抽取的各層總樣本數(shù)、對應(yīng)的變量水平、細分組樣本數(shù)信息和群數(shù)。

        StatisticsVariableLevelNMeanStdErrorofMean95%CLforMeanSpending408.9238600.6508597.5177637010.3299565Groupless230.5614370.0563680.439660570.6832130more170.4385630.0563680.316786980.5603394

        對Spending分析的結(jié)果顯示,學(xué)生總體中平均每周冰淇淋花費為8.92美元,標準誤為0.53,95%置信區(qū)間為(7.52,10.33)美元。對Group分析的結(jié)果顯示,學(xué)生總體中平均每周冰淇淋花費少于10美元的比例約為56.1%,置信區(qū)間為(44.0%,68.3%),多于10美元的比例約為43.9%,置信區(qū)間為(31.7%,56.0%),標準誤為5.6%。

        2.5 SURVEYMEANS在域分析(Domain analysis)中的應(yīng)用

        域分析是指對亞群或域的統(tǒng)計計算,進行分析的亞組可以與樣本抽樣設(shè)計無關(guān),該分析也稱為亞組分析、亞群分析或子域分析。如下例所示:

        【例4】欲對前800家公司情況進行分析,了解其概況及經(jīng)濟相關(guān)狀況,同時了解不同公司市場類型特征下的經(jīng)濟情況?,F(xiàn)有其中66家公司的樣本,但該66家公司的抽取并沒有考慮到市場類型這一因素,即為市場類型的非概率抽樣,樣本中每個市場類型中含有多少個公司是一個隨機變量。此時,要對每一個市場類型作相應(yīng)的分析,可采用域分析。

        【SAS程序如下】

        dataCompany; lengthType$14; inputType$AssetSaleValueProfitEmployeeWeight;datalines; Other2764.01828.01850.3144.018.79.6 Energy13246.24633.54387.7462.924.342.6 Finance3597.7377.893.014.01.112.2 Transporta-tion6646.16414.22377.5348.247.121.8 HiTech1068.41689.81430.272.94.64.3 Manufacturing1125.01719.41057.598.120.44.5 Other1459.01241.4452.724.520.15.5 Finance2672.3262.5296.223.12.29.3 Finance311.0566.2932.052.82.71.9 Energy1148.61014.6485.160.64.04.5 Finance5327.0572.4372.925.24.217.7 Energy1602.7678.4653.075.62.86.0 Energy5808.81288.42007.0318.85.919.2 Medical268.8204.4820.945.63.71.8 Transporta-tion5222.62627.81910.0245.622.817.4 Other872.71419.4939.369.712.23.7……;title1'TopCompaniesProfileStudy';procsurveymeansdata=Companytotal=800meansum; varAssetSaleValueProfitEmployee; weightWeight; domainType;run;

        【程序說明】數(shù)據(jù)步中Type表示市場類型,Asset表示資產(chǎn)(百萬美元),Sale表示銷售額(百萬美元),Value表示公司的市場價值(百萬美元),Profit表示利潤(百萬美元),Employee表示員工數(shù)(千),weight代表權(quán)重,共66行即66家公司的數(shù)據(jù)。為節(jié)省篇幅,僅列出部分數(shù)據(jù)。

        【輸出結(jié)果】:

        TheSURVEYMEANSProcedureDataSummaryNumberofObservations66SumofWeights799.8

        StatisticsVariableMeanStdErrorofMeanSumStdDevAsset6523.488510720.55707552174861073829Sale4215.995799839.1325063371953847885Value2145.935121342.5317201716319359609Profit188.78821025.05787615099330144Employee36.8748697.787857294937148.003298

        DomainStatisticsinTypeTypeVariableMeanStdErrorofMeanSumStdDevEnergyAsset7868.3029321941.6991631449341785962Sale5419.6790992416.214417998305673373Value2249.297177520.295162414321213580Profit289.56465852.5121415333825927Employee14.1511943.9746972606.6500001481.777769FinanceAsset7890.1902641057.1853361855773704506Sale829.210502115.76253119503074436Value565.06819776.96454713290448156Profit63.71683710.099341149865801.108513

        Employee5.8062930.8115551365.640000519.658410HiTechAsset5031.959781732.436967321542183302Sale5464.292019731.296997349168196013Value6707.8284821194.160584428630249154Profit346.40704242.2990042213512223Employee70.7669808.6835954522.0100002524.778281ManufacturingAsset7403.0042501454.921083888361492577Sale7207.6388332112.444703864917501679Value2986.442750799.121544358373196979Profit211.93358339.9932552543213322Employee83.31433331.0890199997.7200006294.309490MedicalAsset5046.5706091218.444638140799131942Sale3313.219713758.2163039243985655Value2561.614695530.8022457146964663Profit218.68279644.0514476101.2500005509.560969Employee46.51899611.1359551297.8800001213.651734OtherAsset1850.250000338.1289845883831375Sale1620.784906168.6867735154124593Value1432.820755297.8698284556424204Profit115.08993727.9705603659.8600002018.201371Employee14.3066042.313733454.950000216.327710RetailAsset2939.845750393.69236923518894605Sale7395.4535001746.187580591636263263Value2103.863125529.75640916830978304Profit157.17187531.734253125745478.281027Employee93.62400015.7267437489.9200003093.832061TransportationAsset4712.047359888.954411267644163516Sale4030.2332751015.555708228917142669Value1703.330282313.8413269674958947Profit224.76232456.168925127678287.585418Employee30.9463036.7862701757.7500001066.586615

        以上結(jié)果是給出總的和各市場類型對應(yīng)的各指標的均數(shù)、標準誤及置信區(qū)間。

        另外,在SURVEYMEANS過程中,還能對抽樣調(diào)查數(shù)據(jù)存在缺失值、其它抽樣方法如有放回分層整群抽樣[6]等進行處理,在此不再一一介紹。對于本文中涉及的置信區(qū)間的計算方法在此不再贅述,具體計算公式參考相關(guān)文獻[7]。

        [1] LehtonenR, Pahkinen E. Practical methods for design and analysis of complex survey[M]. New York: Wiley, 2004: 22-37.

        [2] 劉建華, 金水高. 復(fù)雜抽樣調(diào)查總體特征量及其方差的估計[J].中國衛(wèi)生統(tǒng)計,2008, 25(4): 377-379.

        [3] Brick JM, Kalton G. Handling missing data in survey research[J].Stat Methods Med Res, 1996, 5(3): 215-238.

        [4] Woodruff RS. A simple method for approximating the variance of a complicated estimate[J].J Am Stat Assoc,1971, 66(334): 411-414.

        [5] Fuller WA. Regression analysis for sample survey[J]. Sankhya, 1975, 37(3): 117-132.

        [6] Francisco CA,Fuller WA. Quantile estimation with a complex survey design[J]. AnnStat, 1991,19(1): 454-469.

        [7] SAS Institute Inc. SAS /STAT 9.3 User’s Guide[M]. Cary, NC: SAS Institute Inc, 2011: 7633-7704.

        ApplicationoftheSURVEYMEANSprocedureintheanalysisofsamplingsurveydata

        LiChangping1,2,HuLiangping2,3*

        (1.DepartmentofHealthStatistics,SchoolofPublicHealth,TianjinMedicalUniversity,Tianjin300070,China;2.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China;3.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)

        When performing a difference analysis or a linear and generalized linear regression analysis, traditional statistical methods are basically based on the sample from the infinite population or completely random sampling to estimate the sampling error. However, the survey data are usually collected from complex random sampling methods, such as stratified, cluster, multi-stage or unequal probability. At this point, the sampling error cannot be accurately estimated if the classical statistical analysis methods mentioned above are adopted. Through specific examples, this article aimed to apply the SURVEYMEANS procedure in SAS software which can better implement the statistical description and analysis of the data obtained by various sampling methods, in order to estimate the sampling error and population parameters accurately.

        SAS software; SURVEYMEANS procedure; Simple random sampling; Stratified sampling; Stratified cluster sampling

        R195.1

        A

        10.11886/j.issn.1007-3256.2017.05.005

        2017-08-17)

        (本文編輯:陳 霞)

        國家高技術(shù)研究發(fā)展計劃課題資助(2015AA020102)

        猜你喜歡
        整群置信區(qū)間花費
        階梯整群隨機試驗
        基于整群隨機樣本評估的簡單隨機抽樣精度探討
        定數(shù)截尾場合三參數(shù)pareto分布參數(shù)的最優(yōu)置信區(qū)間
        p-范分布中參數(shù)的置信區(qū)間
        多個偏正態(tài)總體共同位置參數(shù)的Bootstrap置信區(qū)間
        新春開拍小禮物
        影像視覺(2021年3期)2021-03-24 11:39:16
        情況不同,“花費”不一樣
        列車定位中置信區(qū)間的確定方法
        為什么整群豬圍攻一頭豬
        2014年世界杯會花費多少?
        足球周刊(2014年20期)2014-07-03 16:23:38
        亚洲天堂成人av在线观看| 91精品国产免费久久久久久青草 | 99无码精品二区在线视频| 成人网站免费看黄a站视频| 青青青国产精品一区二区| 综合久久久久6亚洲综合| 亚洲av综合色区久久精品| 麻豆视频在线播放观看| 久久精品中文闷骚内射| 1000部夫妻午夜免费| 亚洲精品国产老熟女久久| 国产一级黄色性生活片| 在线天堂av一区二区| 国产午夜精品av一区二区麻豆| 女厕厕露p撒尿八个少妇| 在线国产视频精品视频| 国产av午夜精品一区二区入口 | 网站在线观看视频一区二区| 丰满熟妇人妻av无码区| 国产成人久久精品激情| 性一交一乱一伦一视频一二三区| 丝袜美腿亚洲综合玉足| h视频在线播放观看视频| 免费人妻无码不卡中文字幕系| 小sao货水好多真紧h视频 | 饥渴的熟妇张开腿呻吟视频| 精品不卡久久久久久无码人妻 | 熟女人妻中文字幕一区| 激情五月天在线观看视频| 俺去啦最新地址| 久久人人爽人人爽人人片av麻烦| 欧美丝袜激情办公室在线观看| 日本av一区二区在线| av无码小缝喷白浆在线观看| 风间由美性色一区二区三区| 亚洲AV秘 无码一区二区三| 91精品国产综合久久国产| 蜜臀久久99精品久久久久久| 极品粉嫩小泬无遮挡20p| 精品国产高清a毛片| 美女丝袜诱惑在线播放蜜桃|