亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        復(fù)雜抽樣調(diào)查設(shè)計(jì)二值資料一水平多重Logistic回歸分析

        2019-12-31 06:50:52李長(zhǎng)平胡良平
        四川精神衛(wèi)生 2019年5期
        關(guān)鍵詞:權(quán)重分層變量

        王 嬌,李長(zhǎng)平,2*,胡良平

        (1. 天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室,天津 300070;2. 世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029;3. 軍事科學(xué)院研究生院,北京 100850

        *通信作者:李長(zhǎng)平,E-mail:1067181059@qq.com)

        抽樣調(diào)查由于省時(shí)省力且靈活性高,在流行病學(xué)調(diào)查中應(yīng)用廣泛。最基礎(chǔ)的抽樣方法包括簡(jiǎn)單隨機(jī)抽樣、系統(tǒng)抽樣、整群抽樣和分層抽樣。但是,在多中心及大規(guī)模的調(diào)查中,通過(guò)單一的抽樣方法獲取的樣本往往代表性不好,因此常將多種抽樣方法組合在一起使用,即復(fù)雜抽樣[1]。復(fù)雜抽樣通常具有分層、整群、不等概率或多階段實(shí)施等特點(diǎn),其產(chǎn)生的樣本稱為復(fù)雜樣本。由于復(fù)雜抽樣各階段所采取的抽樣方法不一定相同,因此,抽樣誤差的估計(jì)會(huì)變得極為復(fù)雜,若計(jì)算時(shí)不考慮抽樣設(shè)計(jì),可能會(huì)造成錯(cuò)誤的統(tǒng)計(jì)推斷結(jié)果,從而得到錯(cuò)誤的結(jié)論。本文通過(guò)不同的分析策略實(shí)現(xiàn)了對(duì)復(fù)雜抽樣調(diào)查設(shè)計(jì)二值資料一水平多重logistic 回歸分析,并探討了各種分析策略之間的差異。

        1 基本概念

        1.1 常見復(fù)雜抽樣調(diào)查設(shè)計(jì)種類

        1.1.1 分層隨機(jī)抽樣調(diào)查設(shè)計(jì)

        分層隨機(jī)抽樣是按一定標(biāo)準(zhǔn)先將總體各單位分層,然后根據(jù)各層樣本量在總體樣本量中的占比,確定從各層中抽取樣本的數(shù)量,最后按照隨機(jī)原則從各層中抽取樣本。分層隨機(jī)抽樣適用于總體樣本量較大、內(nèi)部變異較大的調(diào)查對(duì)象。分層因素的選取需要把握好專業(yè)知識(shí)。

        1.1.2 整群隨機(jī)抽樣調(diào)查設(shè)計(jì)

        整群隨機(jī)抽樣是將總體按一定標(biāo)準(zhǔn)劃分成群或集體,以群或集體為單位按隨機(jī)原則從總體中抽取若干群或集體作為總體的樣本,并對(duì)抽中的各群或集體中每一個(gè)單位都進(jìn)行實(shí)際調(diào)查。

        1.1.3 多階段隨機(jī)抽樣調(diào)查設(shè)計(jì)

        多階段隨機(jī)抽樣是先將調(diào)查總體各單位按一定標(biāo)準(zhǔn)分為若干集群,作為一級(jí)抽樣單元,按照隨機(jī)原則,先在一級(jí)抽樣單元中抽出若干單元作為一級(jí)單元樣本,再在第一級(jí)單元樣本中抽出二級(jí)單元樣本,以此類推,抽取第三、第四級(jí)單元樣本。調(diào)查工作至第二級(jí)單元樣本者,為兩階段隨機(jī)抽樣;至第三級(jí)單元、第四級(jí)單元樣本者,分別為三階段和四階段隨機(jī)抽樣。多階段隨機(jī)抽樣適用于總體的范圍大、單元多、情況復(fù)雜的調(diào)查研究場(chǎng)合。

        1.2 抽樣調(diào)查設(shè)計(jì)中權(quán)重的種類

        1.2.1 概述

        權(quán)重是一個(gè)相對(duì)的概念,用來(lái)描述某一指標(biāo)或個(gè)體在整體評(píng)價(jià)中的相對(duì)重要程度。研究表明,復(fù)雜抽樣資料的分析應(yīng)同時(shí)考慮觀測(cè)權(quán)重與抽樣權(quán)重,并提出了綜合權(quán)重的概念,納入綜合權(quán)重的結(jié)果更加靈敏、準(zhǔn)確、穩(wěn)?。?]。

        1.2.2 觀測(cè)權(quán)重

        觀測(cè)權(quán)重是基于權(quán)重系數(shù)的思想,在分析中引入一個(gè)度量每個(gè)個(gè)體或觀測(cè)對(duì)總體的重要程度的指標(biāo),表示在其他個(gè)體不變的情況下,該個(gè)體的變化對(duì)結(jié)果的影響程度。由于抽樣研究中每個(gè)個(gè)體的重要程度有差異,在確定每個(gè)個(gè)體的觀測(cè)權(quán)重時(shí)應(yīng)根據(jù)實(shí)際情況做出合理規(guī)定。常用的定義觀測(cè)權(quán)重的方法有經(jīng)驗(yàn)權(quán)重法、貢獻(xiàn)權(quán)重法和試驗(yàn)次數(shù)權(quán)重法等。

        1.2.3 抽樣權(quán)重

        抽樣權(quán)重是反映所抽取的樣本中各個(gè)觀測(cè)在總體中的重要程度或樣本中各個(gè)觀測(cè)代表總體中個(gè)體的數(shù)目的指標(biāo)。抽樣權(quán)重與抽樣方法有關(guān),分為基礎(chǔ)抽樣權(quán)重、調(diào)整抽樣權(quán)重與總抽樣權(quán)重[3]。在多階段復(fù)雜抽樣中,最終的抽樣權(quán)重為多個(gè)抽樣概率倒數(shù)的乘積[4]。

        1.2.4 綜合權(quán)重

        評(píng)價(jià)一個(gè)調(diào)查研究所得到的樣本觀測(cè)的重要程度需要從不同方面進(jìn)行綜合考慮,因此,在同時(shí)考慮觀測(cè)權(quán)重和抽樣權(quán)重的情況下,定義了綜合權(quán)重:綜合權(quán)重=觀測(cè)權(quán)重×抽樣權(quán)重。

        2 多重logistic回歸模型的構(gòu)建與求解

        復(fù)雜抽樣數(shù)據(jù)多重logistic 回歸模型的構(gòu)建、求解的思路和方法與“非配對(duì)設(shè)計(jì)二值資料一水平多重logistic 回歸分析”基本相同,參見文獻(xiàn)[5],其區(qū)別僅在于多考慮了“權(quán)重”,其參數(shù)估計(jì)求解于下面的對(duì)數(shù)似然方程:

        這種結(jié)合了權(quán)重的似然估計(jì)稱為加權(quán)極大似然估計(jì)。對(duì)對(duì)數(shù)似然方程關(guān)于參數(shù)求偏導(dǎo)數(shù),并借助非線性迭代法求解出參數(shù)的估計(jì)值。

        3 基于SAS的實(shí)例分析

        3.1 問(wèn)題與數(shù)據(jù)

        本研究中使用的數(shù)據(jù)是中國(guó)教育追蹤調(diào)查(China Education Panel Survey,CEPS)的基線數(shù)據(jù)。CEPS使用多階段概率和規(guī)模成比例(PPS)采樣方法,抽樣過(guò)程分為四個(gè)階段。調(diào)查的起點(diǎn)是兩個(gè)年級(jí)。在第一階段,平均教育水平和流動(dòng)人口比例是分層變量,從全國(guó)范圍內(nèi)隨機(jī)選擇28個(gè)縣級(jí)單位為調(diào)查點(diǎn);第二和第三階段的調(diào)查是在學(xué)校進(jìn)行的。從選定的縣級(jí)單位中隨機(jī)抽取112 所學(xué)校的438 個(gè)班級(jí)進(jìn)行調(diào)查;第四階段對(duì)第三階段所選擇班級(jí)的全部學(xué)生進(jìn)行了調(diào)查,在基線時(shí)對(duì)大約20 000名學(xué)生進(jìn)行調(diào)查。本例以年級(jí)為因變量來(lái)研究?jī)蓚€(gè)年級(jí)(1=七年級(jí)、2=九年級(jí))學(xué)生之間的差異,選取的自變量包括語(yǔ)文成績(jī)、數(shù)學(xué)成績(jī)、英語(yǔ)成績(jī)、性別(1=男生、2=女生)、戶籍類型(1=農(nóng)村、2=非農(nóng)村)、是否為獨(dú)生子女(1=不是、2=是)、父母是否在家(1=都在家、2=一方不在家或都不在家)、是否住校(1=是、2=否)、父親是否酗酒(0=否、1=是)、父母是否經(jīng)常吵架(0=否、1=是)和父母是否關(guān)系很好(0=否、1=是)。見表1。

        表1 七年級(jí)和九年級(jí)學(xué)生基線資料

        3.2 分析策略

        在上述實(shí)例數(shù)據(jù)中,語(yǔ)文成績(jī)、數(shù)學(xué)成績(jī)和英語(yǔ)成績(jī)?nèi)齻€(gè)變量為定量資料,在原始數(shù)據(jù)的基礎(chǔ)上分別產(chǎn)生12個(gè)派生變量(x1-x12),代碼如下:

        (此處輸入表1 中全部數(shù)據(jù),19487 行、15 列(含編號(hào)列))

        3.2.1 不考慮抽樣設(shè)計(jì)和抽樣權(quán)重,使用原始變量(模型1)

        需要調(diào)用LOGISTIC 過(guò)程來(lái)實(shí)現(xiàn)單純隨機(jī)抽樣資料的多重logistic回歸分析。

        【說(shuō)明】“descending”選項(xiàng)是要求給出“Y=2”(九年級(jí))發(fā)生概率的計(jì)算結(jié)果,否則,給出“Y=1”(七年級(jí))發(fā)生概率的計(jì)算結(jié)果;“class語(yǔ)句”定義了性別、戶籍類型、父母是否在家、是否住校、是否獨(dú)生、父親是否酗酒、父母是否吵架和父母關(guān)系為解釋變量中的分類變量;“model語(yǔ)句”中的selection=backward選項(xiàng)定義后退法來(lái)選擇變量;sls=0.05選項(xiàng)定義變量的保留標(biāo)準(zhǔn)為P<0.05;RSQ選項(xiàng)輸出廣義R2。

        3.2.2 不考慮抽樣設(shè)計(jì)和抽樣權(quán)重,使用原始變量和派生變量(模型2)

        3.2.3 考慮抽樣設(shè)計(jì)但不考慮抽樣權(quán)重,使用原始變量(模型3)

        需要調(diào)用SURVEYLOGISTIC 過(guò)程來(lái)實(shí)現(xiàn)復(fù)雜抽樣數(shù)據(jù)的多重logistic回歸。

        【說(shuō)明】PROC SURVEYLOGISTIC 用于處理抽樣調(diào)查數(shù)據(jù),在分析過(guò)程中將抽樣設(shè)計(jì)信息納入分析。本例為多階段分層抽樣,一般以一級(jí)抽樣單位為分層變量,因此用strata語(yǔ)句來(lái)定義分層變量為所在縣、市、區(qū)(ctyids)。“model語(yǔ)句”中的ref='1'選項(xiàng)定義以y=1為參考進(jìn)行建模。由于SURVEYLOGISTIC過(guò)程不能進(jìn)行變量篩選,在初次分析后剔除了三個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量(戶籍類型、父母是否吵架、父母關(guān)系),進(jìn)行最終的建模。

        3.2.4 考慮抽樣設(shè)計(jì)但不考慮抽樣權(quán)重,使用原始變量和派生變量(模型4)

        代碼從略。最終模型中剔除了11 個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量(x3、x4、x6、x10-x12、英語(yǔ)成績(jī)、戶籍類型、父親是否酗酒、父母是否吵架、父母關(guān)系)。

        3.2.5 不考慮抽樣設(shè)計(jì)但考慮抽樣權(quán)重,使用原

        始變量(模型5)

        【說(shuō)明】加入了weight 語(yǔ)句來(lái)利用權(quán)重,本例僅考慮抽樣權(quán)重來(lái)擬合多重logistic 回歸模型。最終模型剔除了(戶籍類型、是否獨(dú)生、父母是否吵架)三個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量。

        3.2.6 不考慮抽樣設(shè)計(jì)但考慮抽樣權(quán)重,使用原始變量和派生變量(模型6)

        代碼從略。最終模型中剔除了10 個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量(x3、x6、x10-x12、英語(yǔ)、戶籍類型、是否獨(dú)生、父親是否酗酒和父母是否吵架)。

        3.2.7 同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重,使用原始變量(模型7)

        【說(shuō)明】在SURVEYLOGISTIC 模型中同時(shí)加入了strata 語(yǔ)句和weight 語(yǔ)句來(lái)擬合模型。最終模型剔除了三個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量(戶籍類型、是否獨(dú)生、父母是否吵架)。

        3.2.8 同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重,使用原始變量和派生變量(模型8)

        代碼從略。最終模型剔除了10 個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意義的變量(x3、x4、x6、x10-x12、戶籍類型、父親是否酗酒、父母是否吵架、父母關(guān)系)。

        3.3 不同分析策略結(jié)果比較

        不同的分析策略最終納入模型的變量不同。八個(gè)模型擬合結(jié)果見表2。

        表2 各模型擬合結(jié)果比較

        由表2可知,不考慮抽樣設(shè)計(jì)和抽樣權(quán)重時(shí),獨(dú)生子女和父母關(guān)系均有統(tǒng)計(jì)學(xué)意義;考慮抽樣設(shè)計(jì)后,是否為獨(dú)生子女這個(gè)變量有統(tǒng)計(jì)學(xué)意義,而父母關(guān)系這個(gè)變量無(wú)統(tǒng)計(jì)學(xué)意義;考慮抽樣權(quán)重后,是否為獨(dú)生子女這個(gè)變量無(wú)統(tǒng)計(jì)學(xué)意義,而父母關(guān)系有統(tǒng)計(jì)學(xué)意義??紤]抽樣權(quán)重的模型比不考慮抽樣權(quán)重的模型R2更大;同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重的模型R2最大(R2=0.2461,調(diào)整R2=0.3284)。各模型的AUC 相差較大,而同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重的模型AUC為0.789,在八個(gè)模型中表現(xiàn)較好。在納入派生變量后,模型R2和AUC大于不考慮派生變量時(shí)模型的值。

        4 討論與小結(jié)

        由于不同群體特征的可變性,研究人員在樣本選擇過(guò)程中應(yīng)采用科學(xué)的抽樣設(shè)計(jì),以降低得出錯(cuò)誤結(jié)論的風(fēng)險(xiǎn),并根據(jù)樣本調(diào)查數(shù)據(jù)的信息對(duì)群體進(jìn)行推斷。為了對(duì)調(diào)查資料做出統(tǒng)計(jì)上的有效推斷,必須在數(shù)據(jù)分析中考慮抽樣設(shè)計(jì)。在當(dāng)前流行病學(xué)調(diào)查中,logistic回歸分析因其能處理結(jié)局變量為離散型變量,尤其是二分類變量而廣泛使用。但是,在普通的logistic回歸分析中沒(méi)有考慮抽樣設(shè)計(jì)和抽樣權(quán)重,而是假設(shè)所有的樣本均來(lái)自單純隨機(jī)抽樣,這可能造成信息損失和結(jié)果分析的偏差。

        在實(shí)際調(diào)查中,由于抽樣設(shè)計(jì)和抽樣總體的變動(dòng),每一個(gè)體對(duì)結(jié)果影響的權(quán)重是不同的[2],應(yīng)分別加以考慮。本研究給出的實(shí)例采用多階段的概率與規(guī)模成比例抽樣,抽樣權(quán)重為31.506~5 376.874,如果忽略了權(quán)重,分析結(jié)果可能會(huì)與實(shí)際結(jié)果之間有差異。而采用最大似然法擬合離散響應(yīng)調(diào)查數(shù)據(jù)的SURVEYLOGISTIC 回歸模型,其方差估計(jì)采用泰勒級(jí)數(shù)(線性化)方法或重采樣方法,考慮了復(fù)雜抽樣設(shè)計(jì),包括分層、整群和權(quán)重不等的設(shè)計(jì)[6]。

        由本研究結(jié)果可知,在考慮了抽樣權(quán)重后,變量之間的差異會(huì)與單純隨機(jī)抽樣和僅考慮了抽樣設(shè)計(jì)有所不同。忽略抽樣權(quán)重時(shí),模型參數(shù)的標(biāo)準(zhǔn)誤降低,OR 值的置信區(qū)間變窄,但真實(shí)數(shù)據(jù)的分布可能沒(méi)有這么精確[7]。由于原始數(shù)據(jù)中僅提供了“抽樣權(quán)重”而未提供“觀測(cè)權(quán)重”,故本研究無(wú)法對(duì)使用不同權(quán)重后對(duì)回歸分析結(jié)果的影響加以評(píng)價(jià)。

        但本研究所采用的“調(diào)查數(shù)據(jù)”中的“二值因變量(年級(jí))”不是十分合格的“因變量”,它更適合充當(dāng)“原因變量”。因?yàn)橥ǔ5摹岸狄蜃兞俊笔敲總€(gè)受試對(duì)象在收集資料時(shí)可能會(huì)出現(xiàn)兩種結(jié)局之一,并且每種結(jié)局會(huì)以一定的概率出現(xiàn)[例如每位患者經(jīng)過(guò)治療后,可能會(huì)以概率P出現(xiàn)“存活”,而以概率(1-P)出現(xiàn)“死亡”;而在本例中,每個(gè)學(xué)生要么屬于七年級(jí)、要么屬于九年級(jí),不可能以概率P屬于七年級(jí),而以概率(1-P)屬于九年級(jí)]。由于沒(méi)有找到合適的復(fù)雜抽樣調(diào)查數(shù)據(jù),僅借用本例來(lái)演示如何更全面地對(duì)復(fù)雜抽樣調(diào)查資料進(jìn)行二值資料一水平多重logistic回歸分析。

        猜你喜歡
        權(quán)重分層變量
        抓住不變量解題
        權(quán)重常思“浮名輕”
        也談分離變量
        一種沉降環(huán)可準(zhǔn)確就位的分層沉降儀
        雨林的分層
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        有趣的分層
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        分離變量法:常見的通性通法
        亚洲人成无码区在线观看| 五月丁香六月综合缴清无码| 五月四房播播| 中国老熟妇自拍hd发布| 久久久久久好爽爽久久| 中文字幕人妻熟女人妻洋洋| 国内精品一区二区三区| 无码一区二区三区人| 国产日韩乱码精品一区二区| 久久精品国产亚洲av麻豆床戏| 国产一区二区三区最新地址| 色综合久久久久综合体桃花网| 国产精品网站在线观看免费传媒| 欧美一区二区三区红桃小说| 女人被做到高潮免费视频 | 97人人超碰国产精品最新o| 亚洲五月七月丁香缴情| 色婷婷久色国产成人免费| 日产精品高潮一区二区三区5月| 狂猛欧美激情性xxxx大豆行情| 激情内射人妻1区2区3区| 久久久受www免费人成| 欧美a在线播放| 99热久久只有这里是精品| 一区二区三区四区亚洲免费 | 日本阿v片在线播放免费| 久久人人妻人人做人人爽| 欧美日韩久久久精品a片| 国产激情久久久久久熟女老人| 国产成人精品一区二三区在线观看 | 999久久久国产精品| 国产一区二区丰满熟女人妻| 亚洲最大的av在线观看| 中文字幕一区二区网址| 日本人妻免费在线播放| 亚洲国产日韩精品一区二区三区 | 国产精品白浆在线观看免费| 国产全肉乱妇杂乱视频| 国产精品美女一级在线观看| 成人自拍三级在线观看| 亚洲一区二区三区小说|