亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        復雜抽樣調(diào)查設計多值有序資料一水平多重Logistic回歸分析

        2019-12-31 06:50:58李長平胡良平
        四川精神衛(wèi)生 2019年5期
        關鍵詞:整群估計值權重

        王 慧,李長平,2,胡良平

        (1. 天津醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室,天津 300070;2. 世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029;3. 軍事科學院研究生院,北京 100850

        *通信作者:胡良平,E-mail:lphu812@sina.com)

        調(diào)查資料,尤其是臨床科研或試驗資料,結(jié)果變量常為“療效”(死亡、無效、好轉(zhuǎn)、顯效、治愈)或“效果”(優(yōu)、良、中、差),此類資料被稱為多值有序資料[1]。在獲取此類資料的調(diào)查研究中,為提高樣本對總體的代表性和估計的可靠性,研究者常將分層抽樣、整群抽樣、簡單隨機抽樣組合使用,這種調(diào)查被稱為復雜抽樣調(diào)查設計。然而,在對復雜抽樣數(shù)據(jù)進行回歸分析時,研究者常常忽略此前采取的抽樣設計方法。在不同的抽樣階段下,每個個體所對應的抽樣概率不同,抽樣權重也就不同,因此,抽樣誤差估計極為復雜。孫日揚等[2]認為,在復雜抽樣調(diào)查研究的分析中應考慮抽樣權重和觀測權重,同時提出了綜合權重的概念。在多重線性回歸分析中納入綜合權重的分析結(jié)果更加準確、穩(wěn)健。本研究通過不同的分析策略對復雜抽樣調(diào)查設計多值有序資料進行多重logistic回歸分析,并探討各種分析方法之間的異同。

        1 累積多重logistic回歸模型的構(gòu)建與求解

        1.1 累積logistic回歸模型

        結(jié)果變量為多值有序變量的logistic回歸模型又被稱為累積logistic 回歸模型,它是二值變量logistic回歸模型的擴展[3],其回歸模型見式(1):

        其中y*表示觀測現(xiàn)象的內(nèi)在趨勢,不能被直接測量;xk(k = 1,2,…,p)為p 個自變量,ε 為誤差項。當結(jié)果變量有J 個可能的結(jié)局時,相應的取值為y=1、y=2、… 、y=J,即共有J-1 個分界點將各相鄰類別分開,即:若y*≤μ1,則y=1;若μ1<y*≤μ2,則y=2;…;若y*≥μJ-1,則y=J。

        給定x 值的累積概率可以按式(2)表示。其中1-P(y ≤j|x)即為P(y ≥j|x),這樣就依次將J 個可能的結(jié)局合并成兩個,從而進行一般的多重logistic 回歸模型分析。

        相應地,累積概率可通過式(3)進行預測:

        SAS 軟件在實際運行中,定義β0j為各類中截距α與分界點μj的綜合,所以上式就轉(zhuǎn)化為式(4):

        其參數(shù)估計采用最大似然法求解,其對數(shù)似然方程見式(5):

        對式(5)的求解需要用到非線性迭代算法,一般需要借助統(tǒng)計軟件來實現(xiàn),此處從略。由以上討論可知,如果結(jié)果變量中有J 個可能的結(jié)局,則可獲得J-1 個累積logit 函數(shù)(當進行統(tǒng)計分析時,若有m 個截距項β0j無統(tǒng)計學意義,則只能獲得J-m-1個累積logit 函數(shù))。累積logistic 回歸模型應用的假設條件是比例優(yōu)勢假定,其含義是自變量的作用與所有累積logit 的截斷點無關,即對于任意一個自變量xk而言,所有的累積logit 都有一組相同的參數(shù)估計值,只是截距參數(shù)有所差別。若不滿足比例優(yōu)勢假定條件時,Bender 等[4]建議可以考慮兩種方法,一是采用獨立的二分類模型,二是采用偏比例優(yōu)勢模型。

        1.2 復雜抽樣的多值有序logistic回歸模型

        復雜抽樣多值有序資料的logistic 回歸模型的構(gòu)建、求解的思路和方法與單純隨機抽樣設計資料的累積logistic 回歸模型基本相同,主要差別在于:復雜抽樣的多值有序logistic 回歸模型考慮到了與特定抽樣設計條件下對應的“抽樣權重”[3]。其參數(shù)估計求解于下面的對數(shù)似然方程組,見式(6):

        這種結(jié)合了抽樣權重的似然估計通常被稱為加權的最大似然估計或偽似然估計。

        2 基于SAS的實例分析

        2.1 問題與數(shù)據(jù)

        本研究所使用數(shù)據(jù)為美國衛(wèi)生與公眾服務部開展的醫(yī)療支出調(diào)查(Medical Expenditure Panel Survey,MEPS),用于對醫(yī)療保健的各個方面進行全國性和地區(qū)性的評估。MEPS采用分層整群抽樣,抽樣權重會根據(jù)無響應情況進行調(diào)整,并根據(jù)當前人口調(diào)查的人口控制總量進行調(diào)整。在本例中,使用歐洲議會議員提供的1999年全年綜合數(shù)據(jù)來研究家庭收入與性別和種族的關系。樣本量為24 618,分層數(shù)為143,群集數(shù)為460。數(shù)據(jù)存儲于SAS數(shù)據(jù)集MEPS。本例中變量命名及賦值見表1,分析所用示例數(shù)據(jù)見表2。

        表1 MEPS數(shù)據(jù)集變量命名及賦值

        表2 1999年美國家庭收入情況及影響因素數(shù)據(jù)(基于MEPS數(shù)據(jù)集)

        2.2 分析策略

        2.2.1 將復雜調(diào)查設計資料視為“單純隨機抽樣設計資料”

        2.2.1.1 SAS程序

        需要調(diào)用LOGISTIC 過程來實現(xiàn)單純隨機抽樣資料的累積logistic回歸?!菊f明】“descending”選項要求對響應變量表中具有較低(1=貧窮)有序值的響應進行建模,class 語句指定分類變量sex 和race;model 語句中響應變量為income,解釋變量(即自變量)為sex和race。在此段SAS 過程步程序之前,應基于表2 資料創(chuàng)建臨時SAS數(shù)據(jù)集meps,此段SAS數(shù)據(jù)步程序省略了。

        2.2.1.2 主要輸出結(jié)果及解釋

        在形式上,累積logistic 回歸模型分析的結(jié)果大致可分為模型基本信息、比例優(yōu)勢假定檢驗結(jié)果、模型擬合信息以及參數(shù)估計結(jié)果四部分。因篇幅所限,只給出參數(shù)估計結(jié)果;比例優(yōu)勢假定檢驗結(jié)果顯示,χ2=7.4931,P=0.2766,不拒絕“比例優(yōu)勢假設”的條件,即滿足比例優(yōu)勢假定,可采用累積logistic回歸模型。擬合的累積logistic模型給出4個截距項以及sex和race的兩個自變量的參數(shù)估計值,結(jié)果顯示,性別和人種對家庭收入的影響均有統(tǒng)計學意義。女性貧窮的風險是男性的1.189倍;白種人貧窮的風險比其他人種低43.7%(=1-0.563)。

        2.2.2 考慮抽樣設計但不考慮抽樣權重

        2.2.2.1 SAS程序

        需要調(diào)用surveylogistic 過程來實現(xiàn)復雜隨機抽樣多值有序資料的累積logistic回歸模型分析:【說明】由于研究數(shù)據(jù)屬于分層整群隨機抽樣調(diào)查資料,故在strata 語句中指定分層變量為stratum,cluster 語句中指定群集變量為cluster。

        2.2.2.2 主要輸出結(jié)果及解釋

        復雜抽樣logistic回歸主要結(jié)果大致可以分為三部分。第一部分是模型的基本信息,可以看到指定的分層變量和群集,擬合的是累積logistic回歸模型;在響應概略表中可以看到因變量income順序為5、4、3、2、1以及各響應水平的總頻數(shù)。第二部分模型檢驗結(jié)果均顯示整體模型具有統(tǒng)計學意義(P均<0.01)。

        參數(shù)估計結(jié)果顯示性別和人種對家庭收入的影響均具有統(tǒng)計學意義。女性貧窮的風險是男性的1.189 倍;白種人貧窮的風險比其他人種低43.7%(=1-0.563)。

        2.2.3 考慮抽樣權重,不考慮抽樣設計

        2.2.3.1 SAS程序

        需要調(diào)用surveylogistic 過程來實現(xiàn)復雜隨機抽樣多值有序資料的累積logistic回歸模型分析:

        【說明】加入weight語句,指定權重變量weight。

        2.2.3.2 主要輸出結(jié)果及解釋

        與前文“模型信息”相同的部分此處從略。指定的權重變量在前文2.2.2.2的基礎上增加的各響應水平的總權重。模型檢驗結(jié)果均顯示整體模型具有統(tǒng)計學意義(P均<0.01)。

        結(jié)果顯示女性貧窮的風險是男性的1.212倍;白種人貧窮的風險比其他人種低53.5%(=1-0.465)。

        2.2.4 同時考慮抽樣設計和抽樣權重

        2.2.4.1 SAS程序

        需調(diào)用SURVEYLOGISTIC 過程來實現(xiàn)復雜隨機抽樣多值有序資料的累積logistic回歸模型分析:

        【說明】在第“2.2.3.1SAS程序節(jié)”的基礎上,加入strata語句指定分層變量stratum,加入cluster語句指定群集變量cluster。

        2.2.4.2 主要輸出結(jié)果及解釋

        與前文“模型信息”相同的部分此處從略。

        模型的基本信息在“第2.2.3.2 主要輸出結(jié)果及解釋”的基礎上增加了關于分層的內(nèi)容。第二部分模型檢驗結(jié)果均顯示模型總體具有統(tǒng)計學意義(P均<0.01)。

        最后參數(shù)估計結(jié)果顯示,女性貧窮的風險是男性的1.212 倍;白種人貧窮的風險比其他人種低53.5%(=1-0.465)。因此,最終建立的四個模型為:

        2.3 不同分析策略的結(jié)果比較

        結(jié)合上述分析結(jié)果可以看出,考慮抽樣設計的累積logistic 回歸模型與普通累積logistic 回歸模型的結(jié)果相比,二者的參數(shù)估計值完全相同,但是sex的標準誤降低且OR 值的置信區(qū)間縮窄,說明對分層整群抽樣資料進行分析時,若忽視分層信息,則會導致過于保守的檢驗(P值偏大),同時OR 的置信區(qū)間也會變寬,容易出現(xiàn)假陽性結(jié)果;而race的標準誤和OR 值的置信區(qū)間會增大,本研究認為主要是由于race在群內(nèi)存在相關性導致的。

        只考慮抽樣權重的累積logistic 回歸模型與普通累積logistic 回歸模型的結(jié)果相比,參數(shù)估計值和標準誤均發(fā)生了變化,sex的估計值和標準誤變化不大,而在考慮抽樣權重后race 的參數(shù)估計值降低,標準誤和OR 值的置信區(qū)間幾乎沒有變化,所以本研究認為對于存在群內(nèi)相關性的變量,在加入權重變量后,可在一定程度上校正這種群內(nèi)相關性導致的預測不穩(wěn)定。

        同時考慮抽樣設計和抽樣權重的累積logistic回歸模型與普通累積Logistic回歸模型的結(jié)果相比,自變量的參數(shù)估計值和標準誤均發(fā)生了變化,sex的估計值略高,而標準誤和置信區(qū)間變化不大;race不僅標準誤增大了,而且參數(shù)估計值也發(fā)生了變化,可能是因為race在群變量因素的各個水平中存在相關性,同時在該群變量水平的權重也很小,這也是為什么在考慮了抽樣權重后,其標準誤僅與考慮群變量的模型相比略有變化,因為它的影響很小。而同時考慮抽樣設計和抽樣權重的累積logistic 回歸模型與只考慮抽樣權重的累積logistic 回歸模型相比,sex 的參數(shù)估計值不變,但其標準誤降低、OR 值的置信區(qū)間變窄,說明在考慮抽樣權重的基礎上,納入抽樣設計的分析,會使分析結(jié)果更加準確和穩(wěn)健。

        3 討論與小結(jié)

        3.1 討論

        在社會科學或者衛(wèi)生領域的研究中,尤其是大規(guī)模研究,常涉及多地區(qū)或者多中心的抽樣,調(diào)查對象過于分散,若采用單純的隨機抽樣,會出現(xiàn)調(diào)查成本高、可行性低的情況[5],所以研究者經(jīng)常采用復雜抽樣設計,以提高調(diào)查的可行性,節(jié)約調(diào)查的成本支出[6]。但在實際進行復雜抽樣調(diào)查資料的統(tǒng)計分析時,多數(shù)研究者卻常常忽略抽樣設計,采用單純隨機抽樣的普通logistic 回歸模型分析。例如本研究數(shù)據(jù)是采用動態(tài)權重法進行的分層整群隨機抽樣數(shù)據(jù),由于存在群變量,而有可能導致存在群內(nèi)的相關性,若采用普通的累積logistic 回歸模型分析,會導致較大的假陽性錯誤;其次,由于普通的累積logistic 回歸模型的應用假設條件是所有樣本均來自簡單隨機抽樣,每一個個體被抽中的概率相同[7],所以不能將抽樣權重納入分析,也會造成信息的損失和結(jié)果的偏差。所以在對復雜抽樣資料進行統(tǒng)計分析與推斷時,將抽樣設計和抽樣權重正確納入分析,是分析者應該重點關注的問題。

        本文采用SAS 中的SURVEYLOGISTIC 過程對復雜隨機抽樣調(diào)查資料進行累積logistic 回歸模型分析,這是一種基于復雜抽樣調(diào)查設計的分析方法,可以結(jié)合抽樣設計(分層、整群隨機等)和抽樣權重進行分析,可以不依賴于模型的假定,充分利用抽樣權重、群效應信息等,進一步提高估計結(jié)果的準確性和穩(wěn)定性[8]??紤]到本研究數(shù)據(jù)是分層整群抽樣資料,這類資料也可以通過多水平logistic 回歸模型進行分析,因篇幅所限,此處從略。

        3.2 小結(jié)

        本研究通過分層整群抽樣的實例數(shù)據(jù)進行了不同分析策略的復雜抽樣調(diào)查多值有序資料的多重logistic 回歸分析,對分析結(jié)果給出了解釋,并進一步探討了不同分析策略結(jié)果之間的差異,結(jié)果表明:在對復雜抽樣資料進行統(tǒng)計分析時,將抽樣設計和抽樣權重納入分析,會得到更加準確和穩(wěn)定的分析結(jié)果。

        猜你喜歡
        整群估計值權重
        階梯整群隨機試驗
        基于整群隨機樣本評估的簡單隨機抽樣精度探討
        權重常思“浮名輕”
        當代陜西(2020年17期)2020-10-28 08:18:18
        一道樣本的數(shù)字特征與頻率分布直方圖的交匯問題
        為黨督政勤履職 代民行權重擔當
        人大建設(2018年5期)2018-08-16 07:09:00
        統(tǒng)計信息
        2018年4月世界粗鋼產(chǎn)量表(續(xù))萬噸
        基于公約式權重的截短線性分組碼盲識別方法
        電信科學(2017年6期)2017-07-01 15:44:57
        為什么整群豬圍攻一頭豬
        層次分析法權重的計算:基于Lingo的數(shù)學模型
        河南科技(2014年15期)2014-02-27 14:12:51
        成年在线观看免费视频| 中文字幕人妻在线少妇| 大桥未久av一区二区三区| av鲁丝一区鲁丝二区鲁丝三区| 日韩精品无码免费专区网站| 久久一区二区三区四区| 妇女自拍偷自拍亚洲精品| av高潮一区二区三区| 日本高清在线一区二区三区 | 日本视频一区二区三区观看| 人妻少妇-嫩草影院| 在线视频观看免费视频18| 国产免费破外女真实出血视频| 蜜桃av多人一区二区三区| 中文字幕人妻互换激情| 黄色国产精品福利刺激午夜片| 亚洲色大成网站www永久| 中文无码久久精品| 国产高清吃奶成免费视频网站| 日本无吗一区二区视频| 亚洲成年国产一区二区| 精品国产精品国产偷麻豆| 最近中文字幕mv在线资源| 国产精品98福利小视频| 网红尤物泛滥白浆正在播放| 日韩精品综合一本久道在线视频| 熟妇激情内射com| 久久av无码精品人妻糸列| 国产日产免费在线视频| av中国av一区二区三区av| 亚洲av成人噜噜无码网站| 夜夜爽一区二区三区精品| 国产一区二区精品网站看黄| 日本一区二区在线播放视频| (无码视频)在线观看| 99热久久精里都是精品6| 日本中文字幕一区二区高清在线| 亚洲精品中文字幕一二| 亚洲av无码无线在线观看| 亚洲va无码va在线va天堂| 国产精品户露av在线户外直播|