亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SAS軟件實現(xiàn)隨機抽樣及應用

        2016-11-16 07:35:30胡良平
        四川精神衛(wèi)生 2016年5期
        關鍵詞:語句概率分層

        胡 完,胡良平,2*

        (1.軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心,北京 100850;2.世界中醫(yī)藥聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)

        ?

        基于SAS軟件實現(xiàn)隨機抽樣及應用

        胡 完1,胡良平1,2*

        (1.軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心,北京 100850;2.世界中醫(yī)藥聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)

        本文的目的是幫助讀者方便快捷地運用SAS軟件中的SURVEYSELECT過程實現(xiàn)隨機抽樣。首先,對SURVEYSELECT過程及SAS數(shù)據(jù)集Customers進行了簡單介紹。接著,結合簡單隨機抽樣、分層隨機抽樣和控制排序分層隨機抽樣,介紹了隨機抽樣的SAS實現(xiàn)方法。讀者只需要修改本文中所呈現(xiàn)的SAS程序中的少量參數(shù),就可很方便地使用SAS軟件實現(xiàn)隨機抽樣任務。事實說明,盡管SAS軟件非常難學難用,但借助現(xiàn)成的SAS程序,可以輕松自如地解決很多具體問題。

        SAS軟件;SAS數(shù)據(jù)集;SAS過程;簡單隨機抽樣;分層隨機抽樣

        1 在“科研方法專題”中為何要使用統(tǒng)計軟件

        本刊前兩期(即2016年第3期和第4期)的“科研方法專題”[1-7]詳細介紹了進行生物醫(yī)學和臨床科學研究時不可缺少的基礎知識,即“三要素”和“四原則”。這些內容似乎僅僅與“文字描述”有關。然而,在確定受試對象的數(shù)量時,涉及到“樣本含量估計”的技術問題;在從總體中選取受試對象時,涉及到“隨機抽樣”的技術問題;在將已選取的受試對象分配到不同的對比組中時,涉及到“隨機分組”的技術問題。這里提及的三個“技術問題”,僅基于“文字描述”是得不到很好解決的,需要借助計算公式或查閱相應的表格方可實現(xiàn)。然而,在計算機已相當普及的今天,利用現(xiàn)成的統(tǒng)計軟件方便快捷地實現(xiàn)前述的三個技術問題,則是大勢所趨。本文在已介紹SAS軟件基礎知識和用法入門的基礎上,介紹使用SAS軟件實現(xiàn)隨機抽樣的基本方法。

        2 與隨機抽樣有關問題的概述[8]

        在SAS軟件中,SURVEYSELECT過程提供了各種各樣的概率隨機抽樣方法[1]。這個過程既可以進行簡單隨機抽樣,也可以進行包括分層抽樣、整群抽樣、不等概率抽樣在內的復雜多階段設計的抽樣。在概率抽樣中,調查總體中的每個抽樣單位都有一個已知的共同的概率被抽取。概率抽樣的這種屬性避免了選擇偏倚,同時可讓研究者根據(jù)統(tǒng)計理論和樣本信息對調查總體做出有效推斷。

        用SURVEYSELECT過程選擇樣品并構成樣本,在所輸入的SAS數(shù)據(jù)集中需要包括抽樣框,抽樣框是包含全部抽樣單位的目錄性清單。抽樣單位是個體觀測者或觀測組(群組)。用戶可以指定抽樣方法、所需樣本大小或抽樣比例和其他一些選擇參數(shù)。用SURVEYSELECT過程抽取樣本后,產(chǎn)生包含抽樣單位、抽樣概率以及抽樣權重的輸出數(shù)據(jù)集。當進行多階段抽樣時,對每一個抽樣階段都需要調用這個過程來設定抽樣框和選擇參數(shù)。在等概率抽樣中,抽樣框或同一層內的每一抽樣單位都有相同的概率被抽取。在等比例(PPS)抽樣中,每一抽樣單位被抽取的概率和它所在層的大小成正比。

        SURVEYSELECT過程提供的等概率抽樣方法有:①簡單隨機抽樣(無放回);②無限制隨機抽樣(有放回);③系統(tǒng)隨機抽樣;④序貫隨機抽樣;⑤貝努利抽樣。

        SURVEYSELECT過程提供的等比例(PPS)抽樣方法有:①無放回PPS抽樣;②有放回PPS抽樣;③PPS系統(tǒng)抽樣;④基于PPS算法從每層抽取兩個單元;⑤最小放回PPS序貫抽樣。

        該過程采用快速、高效的算法來實現(xiàn)這些抽樣,它對于大的輸入數(shù)據(jù)集或者抽樣框表現(xiàn)很好。

        SURVEYSELECT過程通過在層內選擇獨立樣本來進行分層抽樣,層內個體不重疊出現(xiàn)在調查總體的亞組中。分層可控制各層樣本大小,廣泛應用于調查個體多樣的實踐中。例如通過分層可以保證感興趣但樣本量小的亞組有足夠的樣本量,或通過分層提高對總體估計的精度。在系統(tǒng)抽樣或序貫抽樣中,SURVEYSELECT過程也可按控制變量的排序來額外控制隱性分層因素在層內的分布。

        對于分層抽樣,SURVEYSELECT過程提供了分配各層樣本大小的調查設計方法??捎玫姆峙浞椒òò幢壤峙?、Neyman分配和最優(yōu)化分配。最優(yōu)化分配在考慮層的大小、成本和方差情況下,在可用資源內使估計精度最大化。

        SURVEYSELECT過程提供重復抽樣,當總樣本是由一組相同個體組成時,可用相同的方法抽取每一個體。用戶可以利用重復抽樣來研究變量的非抽樣誤差,例如不同面試官面試結果的變異性。用戶也可以用重復抽樣結合樣本大小來估計標準誤以及執(zhí)行各種重復采樣和仿真任務。

        3 實施抽樣研究所需要數(shù)據(jù)集的概況[8]

        使用統(tǒng)計軟件實施隨機抽樣的前提是要創(chuàng)建由擬被抽取樣本的全體(即抽樣總體)構成的數(shù)據(jù)集。下面借用SAS軟件SURVEYSELECT過程的幫助信息中介紹的一個例子,來講解如何實施各種隨機抽樣方法。一個互聯(lián)網(wǎng)服務提供商進行了一項客戶滿意度調查,這個調查的目標人群是該公司當前的用戶。該公司計劃從當前用戶中選擇一個樣本,采訪選中客戶,然后根據(jù)樣本數(shù)據(jù)推斷整個被調查總體的情況。

        SAS數(shù)據(jù)集Customers包含抽樣框,它是被調查總體的抽樣單元目錄。樣本客戶將從這個抽樣框中抽取。數(shù)據(jù)集Customers是公司客戶數(shù)據(jù)庫的重要組成部分。它包括了每個客戶的4項有關信息,即客戶ID號(CustomerID)、客戶來自的州名(State)、新老客戶類型(Type)、服務使用量(Usage),共有13 471個客戶。讀者或用戶在SAS程序編輯窗口內輸入以下4句SAS語句:

        title1'CustomerSatisfactionSurvey';title2'First10Observations';procprintdata=Customers(obs=10);run;

        【程序說明】前兩句將在輸出結果的前兩行產(chǎn)生標題,內容分別為“客戶滿意度調查(Customer Satisfaction Survey)”和“前10個觀測(First 10 Observations)”;第3句是調用SAS中的print過程打印數(shù)據(jù)集中的信息,其選擇項“data=Customers(obs=10)”的含義:采用的數(shù)據(jù)集名稱為Customers,且僅輸出該數(shù)據(jù)集中的前10行信息(即前10個觀測者在4個變量上對應的全部信息)。

        將上述4句語句組成的一段簡單SAS程序(只有過程步,沒有數(shù)據(jù)步,因為調用SAS軟件中已有的SAS數(shù)據(jù)集Customers),便可顯示Customers數(shù)據(jù)集中前10個觀測數(shù)據(jù),結果見表1。

        表1 數(shù)據(jù)集Customers中前10位客戶的有關信息

        在SAS數(shù)據(jù)集Customers中,變量CustomerID唯一地標識每個客戶;變量State是客戶所在州地址,該公司客戶在4個州:格魯吉亞(GA)、阿拉巴馬州(AL)、佛羅里達州(FL)和南卡羅萊納(SC);變量Type取值為“Old”表示該客戶訂購公司服務超過一年,與之相對應的取值為“New”;變量Usage表示客戶幾分鐘內平均每月服務使用量。

        接下來的部分展示了在三種不同設計下采用SURVEYSELECT過程對客戶滿意度實施概率抽樣調查,給出所需要的SAS程序及抽樣結果。這三種設計都是以每一個客戶為一個抽樣單位。第一種設計是不分層簡單隨機抽樣;第二種設計是按State和Type分層,在層內采用簡單隨機抽樣;第三種設計是按Usage分層,然后在層內排序,最后采用簡單隨機抽樣。

        4 簡單隨機抽樣及SAS實現(xiàn)[8-9]

        以下是PROC SURVEYSELECT語句采用簡單隨機抽樣抽取Customers數(shù)據(jù)集中的一個概率樣本。

        title1'CustomerSatisfactionSurvey';title2'SimpleRandomSampling';procsurveyselectdata=customersmethod=srsn=100 out=samplesrs;run;

        【程序說明】proc surveyselect語句調用surveyselect過程。該語句包含了如下4個選項:第1個選項為“data=customers”,指定SAS數(shù)據(jù)集Customers作為輸入數(shù)據(jù)集來選擇樣本;第2個選項為“method=srs”,指定抽樣方法為簡單隨機抽樣。在簡單隨機抽樣中,每一個抽樣單位都有同等的概率被抽取,樣本是無放回抽取的,意味著每一個抽樣單元不能被多次抽??;第4個選項為“n=100”,指定被抽取的樣本大小為100個客戶;第4個選項為“out=samplesrs將抽取到的樣本儲存到名為samplesrs的SAS數(shù)據(jù)集中去。

        上面的SAS程序可以產(chǎn)生如下的信息,見表2。

        表2 對數(shù)據(jù)集Customers進行簡單隨機抽樣的有關情況說明

        表2概要地報告了使用SURVEYSELECT過程進行隨機抽樣的有關情況。采用簡單隨機抽樣從Customers數(shù)據(jù)集中抽取了100個客戶;隨機種子數(shù)為39647,SURVEYSELECT過程用這個數(shù)字作為初始種子來產(chǎn)生隨機數(shù)字。由于在SURVEYSELECT過程中沒有指定seed=option選項,種子值采用的是計算機系統(tǒng)時間;每位客戶被選中的概率為0.007423,該概率等于樣本大小(100)除以總體容量(13471)所得的商;樣本中每一客戶的抽樣權重為134.71,抽樣權重是抽樣概率的倒數(shù);真正的抽樣結果(即被抽取的100位客戶在4個變量上的取值情況)被放置在輸出數(shù)據(jù)集samplesrs中。

        這100位樣本客戶被儲存在SAS數(shù)據(jù)集samplesrs中。PROC SURVEYSELECT并沒有直接顯示此輸出數(shù)據(jù)集的內容。下面用PROC PRINT語句顯示samplesrs中前20個觀測。

        title1'CustomerSatisfactionSurvey';title2'Sampleof100Customers,SelectedbySRS';title3'(First20Observations)';procprintdata=samplesrs(obs=20);run;

        【程序說明】參見前面產(chǎn)生表1的SAS程序后面的“程序說明”,此處從略。

        上面這段SAS程序產(chǎn)生的結果見表3。

        表3 采用簡單隨機抽樣從customers中隨機抽取的100位客戶中的前20位

        注:因篇幅所限,僅顯示出了前5位

        表3顯示了包含樣本客戶的輸出數(shù)據(jù)集samplesrs的前20個觀測。這個數(shù)據(jù)集包含了輸入數(shù)據(jù)集Customers中的所有變量。

        5 分層隨機抽樣及SAS實現(xiàn)[8-9]

        在Customers數(shù)據(jù)集中,抽樣框是按State和Type分層后的所有客戶目錄性清單。這就把抽樣框按State和Type取值分成了互不重疊的亞組,其亞組的數(shù)目等于State和Type兩個變量或因素的水平數(shù)之乘積。然后,SAS軟件將在每一層中獨立選擇樣本。

        PROC SURVEYSELECT要求輸入數(shù)據(jù)集為按分層變量排序后的數(shù)據(jù)集。下面PROC SORT語句使Customers數(shù)據(jù)集按分層變量State和Type進行排序。

        procsortdata=Customers;byStateType;run;

        下面PROC FREQ語句顯示customers數(shù)據(jù)集中State和Type兩個變量所形成的交叉頻數(shù)表。

        title1'CustomerSatisfactionSurvey';title2'StrataofCustomers';procfreqdata=customers; tablesState*Type;run;

        上面這段SAS程序被執(zhí)行后,輸出結果見表4。

        表4 數(shù)據(jù)集Customers按State和Type兩變量形成交叉表后

        表4給出了13471個客戶按Type分組后再按State分組所形成的頻數(shù)分布表。四個州和兩類客戶共形成8個層,每層中計算出4個數(shù)值,從上到下分別代表“頻數(shù)”、“占全部客戶數(shù)的百分比”、“占行合計的百分比”和“占列合計的百分比”。

        下面PROC SURVEYSELECT語句根據(jù)State和Type兩個變量進行分層隨機抽樣設計從Customers數(shù)據(jù)集按概率抽取一個客戶樣本。

        title1'CustomerSatisfactionSurvey'; title2'StratifiedSampling'; procsurveyselectdata=customersmethod=srsn=15seed=1953out=samplestrata; stratastatetype; run;

        【程序說明】strata語句聲明分層變量為State和Type。在PROC SURVEYSELECT語句中,“method=srs”選項指定抽樣方法為簡單隨機抽樣;“n=15”選項指定每層抽取的樣本大小為15位客戶。如果想不同層指定不同樣本大小,可以使用“n=SAS-data-set(即一個新數(shù)據(jù)集名)”選項來聲明一個新數(shù)據(jù)集,該數(shù)據(jù)集包含每層樣本大小?!皊eed=1953”選項指定“1953”為產(chǎn)生隨機數(shù)的初始種子數(shù)。

        上面這段SAS程序僅顯示抽樣情況的總結信息,一共有120位客戶被抽取,因篇幅所限,有關分層隨機抽樣的總結信息從略。

        下面PROC PRINT語句將顯示分層隨機抽樣結果數(shù)據(jù)集samplestrata中前30個觀測。

        title1'CustomerSatisfactionSurvey';title2'SampleSelectedbyStratifiedDesign';title3'(First30Observations)';procprintdata=samplestrata(obs=30);run;

        【程序說明】參見前面產(chǎn)生表1的SAS程序后面的“程序說明”,此處從略。

        上面這段SAS程序被執(zhí)行后,輸出結果見表5。

        表5 采用分層隨機抽樣從customers中隨機抽取的120位客戶中的前30位

        注:因篇幅所限,僅顯示出了前5位

        表5顯示了輸出數(shù)據(jù)集samplestrata的前30個觀測數(shù)據(jù),samplestrata含有8個層,每層15位客戶,一共有120位客戶。變量SelectionProb指樣本中每個客戶被抽中的概率。由于在同一層中每位客戶被抽中的概率相同,所以抽樣概率等于層樣本大小(15)除以該層的總樣本含量之商。由于層間大小不同,所以抽樣概率在不同層中是不一樣的。變量SamplingWeight為抽樣權重,抽樣權重為抽樣概率的倒數(shù)。

        6 控制排序分層隨機抽樣及SAS實現(xiàn)[8]

        下一個客戶滿意度調查抽樣設計是按State分層,同時在層內按Type和Usage排序。在分層和控制排序后,在每一層中按系統(tǒng)隨機抽樣方法抽取客戶。系統(tǒng)抽樣加上抽樣前控制排序使得樣本的Type和Usage取值在每層(State)內是均勻分布的。下面PROC SURVEYSELECT語句根據(jù)這種設計從Customers數(shù)據(jù)集中按概率抽取客戶樣本。

        title1'CustomerSatisfactionSurvey';title2'StratifiedSamplingwithControlSorting';procsurveyselectdata=Customersmethod=sysrate=.02 seed=1234out=SampleControl; strataState; controlTypeUsage;run;

        【程序說明】 STRATA語句聲明分層變量為State。CONTROL語句聲明控制變量為Type和Usage。在PROC SURVEYSELECT語句中,“METHOD=SYS”選項指定抽樣方法為系統(tǒng)隨機抽樣。“RATE=0.02”選項指定每層抽樣率為0.02?!癝EED=1234”選項指定產(chǎn)生隨機數(shù)的初始種子數(shù)。

        上面這段SAS程序僅顯示抽樣情況的總結信息,一共有271位客戶被抽取,因篇幅所限,按State分層同時在層內按Type和Usage排序的總結信息和抽樣結果(即采用PRINT過程輸出數(shù)據(jù)集SampleControl的內容)均省略。

        [1] 郭春雪, 胡良平. 正確把握精神衛(wèi)生臨床試驗設計三要素的要領(Ⅰ)—受試對象[J]. 四川精神衛(wèi)生, 2016, 28(3): 197-201.

        [2] 胡完, 胡良平. 正確把握精神衛(wèi)生臨床試驗設計三要素的要領(Ⅱ)—影響因素[J]. 四川精神衛(wèi)生, 2016, 28(3): 202-206.

        [3] 谷恒明, 胡良平. 正確把握精神衛(wèi)生臨床試驗設計三要素的要領(Ⅲ)—觀測指標[J]. 四川精神衛(wèi)生, 2016, 28(3): 207-210.

        [4] 楊孟淵, 胡良平. 精神衛(wèi)生科研如何嚴格遵守試驗設計四原則之隨機原則[J]. 四川精神衛(wèi)生, 2016, 29(4): 289-294.

        [5] 沈寧, 胡良平. 精神衛(wèi)生科研如何嚴格遵守試驗設計四原則之對照原則[J]. 四川精神衛(wèi)生, 2016, 29(4): 295-302.

        [6] 張效嘉, 胡良平. 精神衛(wèi)生科研如何嚴格遵守試驗設計四原則之重復原則[J]. 四川精神衛(wèi)生, 2016, 29(4): 303-306.

        [7] 張效嘉, 胡良平. 精神衛(wèi)生科研如何嚴格遵守試驗設計四原則之均衡原則[J]. 四川精神衛(wèi)生, 2016, 29(4): 307-310.

        [8] SAS Institute Inc. SAS/STAT 9.3 User’s Guide[M]. Cary, NC: SAS Institute Inc, 2011: 7633-7704.

        [9] 胡良平. 科研設計與統(tǒng)計分析[M]. 北京: 軍事醫(yī)學科學出版社, 2012: 206-227.

        (本文編輯:陳 霞)

        How to implement random sampling and application based on SAS software

        HUWan1,HULiang-ping1,2*

        (1.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China;2.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China

        HULiang-ping,E-mail:lphu812@sina.com)

        The purpose of this article is to help readers to use SURVEYSELECT procedure in SAS software to implement random sampling fast and conveniently. Firstly, introducing SURVEYSELECT procedure and SAS data set customers. Then, introducing how to perform random sampling based on SAS combined with simple random sampling, stratified random sampling and control sorting stratified random sampling. The readers can finish their own random sampling task by using SAS software easily through modifying a few parameters in the SAS programs presented in this article. The fact is that despite the SAS software is very difficult to learn and use, but the users can solve many specific problems with a ready-made SAS program.

        SAS software; SAS data set; SAS procedure; Simple random sampling; Stratified random sampling

        R195.1

        A doi:10.11886/j.issn.1007-3256.2016.05.002

        2016-10-11)

        猜你喜歡
        語句概率分層
        第6講 “統(tǒng)計與概率”復習精講
        第6講 “統(tǒng)計與概率”復習精講
        概率與統(tǒng)計(一)
        概率與統(tǒng)計(二)
        重點:語句銜接
        一種沉降環(huán)可準確就位的分層沉降儀
        工程與建設(2019年2期)2019-09-02 01:34:14
        雨林的分層
        精彩語句
        有趣的分層
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        大地资源在线观看官网第三页 | jizz国产精品免费麻豆| 国产婷婷丁香五月麻豆| 欧美日本视频一区| 激情五月六月婷婷俺来也| 国产tv不卡免费在线观看| 国产亚洲欧洲aⅴ综合一区| 国产精品亚洲综合色区| 丁香五香天堂网| 狠狠干视频网站| 亚洲av毛片在线播放| 手机在线免费av资源网| 又大又粗欧美黑人aaaaa片| 成人爽a毛片在线视频| 日本大片免费观看完整视频| 国产精彩视频| 日本一区二区三区免费| 国产精品高潮呻吟av久久黄| 中文精品久久久久人妻不卡| 成人爽a毛片在线视频| 中文字幕亚洲欧美日韩在线不卡 | 免费人妖一区二区三区| 亚洲成人免费av影院| 又爽又黄又无遮挡网站| 99久久国产福利自产拍| 69av视频在线观看| 美女被插到高潮嗷嗷叫| 日韩人妻免费视频一专区 | 波多野42部无码喷潮| 国产精品香蕉在线观看| 一个人免费观看在线视频播放| 亚洲AV无码中文AV日韩A| 亚洲天堂av在线一区| 久久婷婷综合缴情亚洲狠狠| 国产偷闻隔壁人妻内裤av | 欧美日韩国产一区二区三区地区| 精品久久久久久蜜臂a∨| 一级黄色一区二区三区视频| 国产白浆一区二区在线| 欧美最猛黑人xxxx黑人猛交| 一本一道波多野结衣一区|