亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        半?yún)?shù)方法在缺失數(shù)據(jù)中的研究及應(yīng)用

        2019-03-01 08:17:16樊思敏施三支翟芳慧
        關(guān)鍵詞:因變量視力概率

        樊思敏,施三支,翟芳慧

        (長(zhǎng)春理工大學(xué) 理學(xué)院,長(zhǎng)春 1300222)

        在現(xiàn)實(shí)應(yīng)用中,由于人為、機(jī)械等因素,數(shù)據(jù)缺失比較普遍。數(shù)據(jù)缺失造成的部分信息丟失,在不同程度上影響統(tǒng)計(jì)推斷,導(dǎo)致得出結(jié)果存在一定的失真。數(shù)據(jù)缺失的處理研究引起了更多的關(guān)注。從缺失數(shù)據(jù)的缺失值排列方式來看,數(shù)據(jù)缺失可分為單調(diào)缺失和非單調(diào)缺失。從缺失數(shù)據(jù)的缺失影響因素來看,分為隨機(jī)缺失(MAR)、非隨機(jī)缺失(NMAR)和完全隨機(jī)缺失(MCAR),缺失機(jī)制概念及三種缺失機(jī)制由 Rubin(1976)[1]提出。非隨機(jī)依賴完全觀測(cè)變量時(shí),也可稱為不可忽略機(jī)制(NI)。在不可忽視機(jī)制的基礎(chǔ)上,由Samiran Sinha等(2014)[2]提出了NI-機(jī)制。本文主要討論隨機(jī)缺失下的非單調(diào)缺失情況。

        缺失數(shù)據(jù)加大了數(shù)據(jù)分析和挖掘的困難程度,提高了分析結(jié)果的偏差。最簡(jiǎn)單的方式是刪除帶有缺失項(xiàng)的樣本,即完全數(shù)據(jù)分析(CC)。樣本量缺失項(xiàng)較少時(shí),CC帶來的偏差較少,當(dāng)缺失項(xiàng)較多時(shí),由于一部分的數(shù)據(jù)信息缺失,CC方法的偏差很大。為糾正由缺失數(shù)據(jù)導(dǎo)致的結(jié)論偏倚,缺失數(shù)據(jù)處理方法相繼被提出。Horvitz和Thompson(1952)[3]最先提出了逆概率加權(quán)方法。Rubin和Laird(1977)[4]提出了用于處理缺失數(shù)據(jù)的EM算法。Zhao(1994)[5]提出了一類在MAR機(jī)制下的逆概率加權(quán)方法。Chen等(1999)[6]提出了一種用EM算法的全似然方法。Robins(2000)[7]提出了一種基于逆概率加權(quán)的改進(jìn)方法,即逆概率刪失加權(quán)法(IPCW)。Ibrahim,Chen(2004)[8]在不同缺失機(jī)制情況下,把半?yún)?shù)方法應(yīng)用到多缺失協(xié)變量上。Samiran Sinha、Wang S.J和K.Saha(2014)[2]將半?yún)?shù)方法與NI-機(jī)制結(jié)合,應(yīng)用到多變量缺失中。Jiwei Zhao和Jun Shao(2015)[9]基于不可忽視(NI)機(jī)制下提出了一種半?yún)?shù)似然方法。

        本文對(duì)完全數(shù)據(jù)進(jìn)行隨機(jī)缺失,在隨機(jī)缺失的背景下,使用了Samiran Sinha、Wang S.J和K.Saha(2014)[2]相似的半?yún)?shù)方法處理來達(dá)到估計(jì)Logistic模型中參數(shù)的目的,并與單一均值插補(bǔ)、多重插補(bǔ)和EM算法進(jìn)行了比較分析。

        1 半?yún)?shù)方法

        記Y為因變量,X為帶有缺失數(shù)據(jù)的自變量,Z為完全數(shù)據(jù)自變量,設(shè)定缺失自變量為2維的情況,樣本量為h,數(shù)據(jù)類型為離散型。示性函數(shù)為I,當(dāng)數(shù)據(jù)可觀測(cè)時(shí),示性函數(shù)為1,不可觀測(cè)為0。

        設(shè)Xij(i=1,2,…,h;j=1,2)表示為第i行第j列的觀測(cè)值,Xi(-j)則表示為此觀測(cè)值缺失。本文關(guān)注數(shù)據(jù)缺失的隨機(jī)缺失,即缺失的數(shù)據(jù)與完全數(shù)據(jù)相關(guān),假設(shè)缺失機(jī)制的選擇概率為π,有:

        設(shè)回歸模型為g(Y|θ,Z,X),θ為模型的參數(shù)。則似然函數(shù)為:

        對(duì)上述似然函數(shù)取對(duì)數(shù),對(duì)參數(shù)求導(dǎo),得到得分函數(shù)如下:

        其中,S=?log(g(Y|θ,Z,X))/?θ,ki,m(P)=g(Yi|θ,Zi,Xi)*P*f(Xir|Xi(-m),Zi)。

        m的取值為1,2,12。P為相應(yīng)的缺失選擇概率,f(Xim|Xi(-m),Zi)為缺失項(xiàng)Xi(-m)的條件分布。由于缺失變量的條件分布未知,根據(jù)Chatterjee.N、Chen.Y.-H.和 Breslow.N.E(2003)[10]的理論可知:

        當(dāng)Ii1=Ii2=1,Ii=1。將得到的估計(jì)值代入得分函數(shù),產(chǎn)生新的得分函數(shù)。對(duì)得分函數(shù)求導(dǎo),得出目標(biāo)參數(shù)θ。

        與文獻(xiàn)中不同的是,Samiran Sinha、Wang S.J和 K.Saha(2014)[2]在似然方程中與NI-機(jī)制結(jié)合,文中的應(yīng)用數(shù)據(jù)模擬時(shí)進(jìn)行隨機(jī)缺失,故而在MAR的背景下,將似然函數(shù)方程(2)中缺失機(jī)制的選擇概率設(shè)置為與MAR相對(duì)應(yīng)的選擇概率。

        2 模擬與實(shí)證分析

        文中采用的數(shù)據(jù)為太平洋車險(xiǎn)數(shù)據(jù)[11],數(shù)據(jù)量為50,數(shù)據(jù)量均為布爾型數(shù)值。因變量為車險(xiǎn)理賠情況,自變量分別為調(diào)研者的性別、視力情況、抽煙史、是否有駕駛教育和相關(guān)年齡。由汪靜波(2015)[11]變量與因變量的相關(guān)性可知,理賠與視力情況、抽煙史有關(guān)。設(shè)視力情況為X1,抽煙史為X2,由于半?yún)?shù)方法的需要,自變量的數(shù)量偏少,且MAR機(jī)制與完全數(shù)據(jù)相關(guān),本文中再添加輔助變量Z=X1*X2作為完全觀測(cè)數(shù)據(jù)。對(duì)兩個(gè)自變量及輔助變量作共線性診斷,k的值為18.31,在100之內(nèi),可認(rèn)為三者之間共線性小。

        表1 自變量與因變量之間單因素logistic顯著性

        三個(gè)自變量與因變量的單因素Logistic分析結(jié)果如上,均呈現(xiàn)出顯著性。

        表2 Logistic回歸分析

        表2為因變量與自變量之間的回歸分析結(jié)果,視力情況和抽煙史極為顯著,視力*抽煙對(duì)方程的顯著性不如視力情況和抽煙史。因此可得出實(shí)際應(yīng)用數(shù)據(jù)的回歸方程為:

        設(shè)自變量X1、X2帶有缺失項(xiàng),Z為可完全觀測(cè)數(shù)據(jù),設(shè)置的缺失率分別為10%、20%、30%、40%,數(shù)據(jù)缺失模擬結(jié)果如表3所示。

        表3為在不同缺失率的情況下不同缺失數(shù)據(jù)處理方法的結(jié)果。從表中可以看出,當(dāng)缺失率為10%時(shí),綜合偏差和標(biāo)準(zhǔn)差來看,后三種方法相比均值方法效果稍微好些,當(dāng)缺失率升至20%時(shí),EM和半?yún)?shù)方法較均值插補(bǔ)和MI方法估計(jì)偏差更少。MI方法與均值插補(bǔ)相差不大。隨著缺失率的進(jìn)一步增大,這四種方法明顯受到缺失率的影響,估計(jì)精度變差。而半?yún)?shù)方法較其他三種方法估計(jì)效果更好。

        3 結(jié)論

        在實(shí)際問題中,由于信息缺失,缺失的數(shù)據(jù)給研究者帶來不少困擾。本文在離散變量背景下對(duì)完整的車險(xiǎn)數(shù)據(jù)采用了Logistic回歸,對(duì)自變量模擬了四種缺失率,在不同缺失率的情況下運(yùn)用四種缺失數(shù)據(jù)處理方法來處理缺失數(shù)據(jù)以得到模型參數(shù)估計(jì)。從分析結(jié)果表中可知,缺失率越小,幾種方法的估計(jì)精度越高。缺失率增加時(shí),插補(bǔ)類方法明顯差于模型法,而半?yún)?shù)方法受到的影響較其他幾種方法小,有較好的魯棒性。

        插補(bǔ)類方法依賴數(shù)據(jù)之間的關(guān)系,對(duì)數(shù)據(jù)插補(bǔ)時(shí)有一定的偏倚,EM方法和半?yún)?shù)方法未直接對(duì)數(shù)據(jù)填補(bǔ),利用似然函數(shù)處理缺失部分,對(duì)數(shù)據(jù)缺失處理有更大優(yōu)勢(shì),而半?yún)?shù)方法自身結(jié)合參數(shù)和非參數(shù)優(yōu)點(diǎn),合理利用缺失部分信息,參數(shù)估計(jì)準(zhǔn)確度和魯棒性均高于EM算法,但半?yún)?shù)方法也受限于缺失機(jī)制,實(shí)現(xiàn)過程中受到初始參數(shù)的影響,這兩者在將來都是值得探討和改進(jìn)的地方。

        表3 不同缺失率模擬結(jié)果

        猜你喜歡
        因變量視力概率
        上午給眼睛“充電”或可改善視力
        中老年保健(2022年3期)2022-08-24 02:57:26
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
        中國藥房(2022年7期)2022-04-14 00:34:30
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        概率與統(tǒng)計(jì)(一)
        概率與統(tǒng)計(jì)(二)
        保護(hù)視力等
        小讀者之友(2019年2期)2019-09-10 07:22:44
        好奇:20/20視力到底是什么?
        適應(yīng)性回歸分析(Ⅳ)
        ——與非適應(yīng)性回歸分析的比較
        偏最小二乘回歸方法
        免费观看又污又黄的网站| 国产激情视频高清在线免费观看| 91精品蜜桃熟女一区二区| av在线播放免费网站| 精品香蕉99久久久久网站| 国产精品v片在线观看不卡| 欧美午夜精品一区二区三区电影 | 国产人妻精品无码av在线| 久久久无码中文字幕久...| 亚洲影院天堂中文av色| 综合色天天久久| 日韩人妻无码精品系列专区无遮 | 天天插视频| 久久精品国产成人午夜福利| 亚洲中文字幕乱码免费看| 精品人妻久久一日二个| 国产一区二区三区久久精品| 中文字幕日韩人妻不卡一区| 丰满人妻被中出中文字幕| 国产日韩欧美在线| 久久精品午夜免费看| 久久精品国产亚洲av成人网| 不卡一本av天堂专区| 日韩网红少妇无码视频香港| 亚洲av成人中文无码专区| 国产成人精品日本亚洲18| 91精品国产综合久久青草| 日韩美女人妻一区二区三区| av网站大全免费在线观看| 97精品国产一区二区三区| 人禽伦免费交视频播放| 国产日产精品久久久久久| 日本肥老熟妇在线观看| 国产亚洲精品免费专线视频| 中文字幕一区二区三区久久网| 插我一区二区在线观看| 亚洲学生妹高清av| 国产午夜精品久久久久99| 中文字幕人妻一区色偷久久| 亚洲天堂av福利在线| 亚洲av自偷自拍亚洲一区|