亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        指示變量隨機(jī)缺失下變系數(shù)模型的分位數(shù)回歸

        2019-05-18 09:00:56寧黎明何曉霞王志明
        關(guān)鍵詞:方法模型

        寧黎明,何曉霞,王志明

        (武漢科技大學(xué)理學(xué)院,湖北 武漢,430065)

        刪失數(shù)據(jù)廣泛存在于金融、生物、醫(yī)學(xué)、工程等研究領(lǐng)域。為了更好地對(duì)刪失數(shù)據(jù)進(jìn)行分析,各種統(tǒng)計(jì)模型相繼出現(xiàn),較早的有Cox提出的比例風(fēng)險(xiǎn)模型[1],但其中一些假設(shè)在現(xiàn)實(shí)中是不成立的。隨后Cox等[2]又提出了加速失效時(shí)間(accelerated failure time, AFT)模型:logT=XTβ+ε,將失效時(shí)間的對(duì)數(shù)表示為協(xié)變量的線性組合。AFT模型很顯然是有意義的,但在實(shí)際應(yīng)用中,不可能保證所有協(xié)變量對(duì)生存時(shí)間都有線性影響,因此研究人員又提出了部分線性變系數(shù)模型,它在線性回歸模型的基礎(chǔ)上增加了非線性部分,使得整個(gè)模型具有更強(qiáng)的可塑性,通常采用局部多項(xiàng)式和光滑樣條來(lái)估計(jì)其非參數(shù)部分?;诰植慷囗?xiàng)式方法,Zhang等[3]研究了半變系數(shù)模型,而Fan等[4]研究了協(xié)變量帶測(cè)量誤差情況下的懲罰經(jīng)驗(yàn)似然估計(jì)。Zhao等[5]基于B樣條估計(jì),得到半?yún)?shù)部分線性變系數(shù)模型的模態(tài)回歸。

        分位數(shù)回歸較普通的均值回歸更加靈活,其應(yīng)用也得到了迅速發(fā)展。何曉霞等[6]針對(duì)右刪失數(shù)據(jù),得到光滑回歸函數(shù)的組合分位數(shù)回歸估計(jì)。Wang等[7]對(duì)非參數(shù)部分采用B樣條近似,得到部分線性變系數(shù)模型在縱向數(shù)據(jù)情形下的分位數(shù)回歸。Shen等[8]運(yùn)用局部多項(xiàng)式方法,在指示變量缺失的條件下得到部分線性變系數(shù)模型的分位數(shù)回歸估計(jì)。由于局部多項(xiàng)式的計(jì)算速度較慢,因此本文采用B樣條估計(jì),研究刪失指示變量缺失情形下部分線性變系數(shù)模型的分位數(shù)回歸。

        1 模型描述

        本文考慮右刪失數(shù)據(jù)情形下的部分線性模型

        (1)

        由于數(shù)據(jù)右刪失,故只能觀察到(Xi,Ui,Zi,Yi),其中Yi=min(Ti,Ci),Ci是隨機(jī)刪失時(shí)間。定義刪失指示量δi=I(Ti≤Ci)以及缺失指示量ξi,其中I為示性函數(shù),如果δi被觀測(cè)到存在缺失時(shí)ξi=1,否則ξi=0。另外,記Hi=(Xi,Zi,Ui)。

        2 估計(jì)方法和主要結(jié)論

        2.1 樣條近似和估計(jì)

        (1)s限制在任何區(qū)間IMi(0≤i≤M)上是r次多項(xiàng)式;

        (2)對(duì)r≥2,s在區(qū)間[a,b]上是r次連續(xù)可微的。

        由文獻(xiàn)[10],對(duì)Sn存在標(biāo)準(zhǔn)化的B樣條基{Bω,1≤ω≤mn},其中mn=M+r是Sn的維數(shù)。因此對(duì)于任意函數(shù)αn(t)∈Sn,能夠得到

        (2)

        在合理的平滑假設(shè)條件下,可以通過(guò)Sn中的基函數(shù)來(lái)逼近任意平滑函數(shù)。因此模型(1)中對(duì)α*的估計(jì)就可以轉(zhuǎn)化為估計(jì)αω。

        (3)

        進(jìn)一步地,式(3)又可以寫(xiě)為

        (4)

        其中Wi=Ip?B(Ui)·Xi且γ=(α1,α2,…,αmn)T,cτk是誤差ε的τk分位數(shù)。

        (5)

        (6)

        在刪失指示量隨機(jī)缺失的情況下,對(duì)于G(·)的估計(jì)不能再使用較為常見(jiàn)的Kaplan-Meier估計(jì)。參照文獻(xiàn)[11],這里給出G(·)的估計(jì):

        (7)

        (8)

        2.2 估計(jì)量的理論性質(zhì)

        為了分析估計(jì)量的理論性質(zhì),首先給出以下假設(shè)條件:

        (C1) 對(duì)于任意α*∈Ψ,有E[α*(Ui)]=0。

        (C2) 協(xié)變量U有密度函數(shù)fU(u)且存在兩個(gè)常數(shù)c1和c2,使得在[a,b]區(qū)間上,有0

        (C3)Ci獨(dú)立于(Zi,Ui)和Ti。

        (C4) 對(duì)于任何t∈[0,τ],P(t≤T≤C)≥ζ0,其中ζ0是正常數(shù)。

        (C5)ε1,ε2,…,εn有共同的連續(xù)可微的概率密度函數(shù)f(·),滿足0

        (C7) 定義aH=inf{t∶H(t)=1},aG=inf{t∶G(t)=1},令aH

        條件(C1~C2)是一般性假定,條件(C3~C5)是生存分析背景下的常規(guī)設(shè)定,條件(C6)保證定理1的證明中所定義矩陣D的特征值是有界的并且遠(yuǎn)離零,條件(C7)表示G(Yi)遠(yuǎn)離零。

        關(guān)于估計(jì)量的性質(zhì),本文有下述結(jié)論。

        定理1假設(shè)條件(C1~C7)成立,可以得到

        其中,D1和Σ的定義在定理1的證明中給出。假設(shè)mn=O(n1/(2p+1)),定理1的結(jié)論(II)也可寫(xiě)為

        3 定理的證明

        3.1 三條引理

        引理2假設(shè)條件(C1~C7)成立,最小化式(8)等同于最小化下式:

        (9)

        同時(shí),可以得到

        因此A2=op(1),A3=op(1)。

        基于以上結(jié)論,可以得到

        (10)

        (11)

        =op(1)

        (12)

        (13)

        根據(jù)引理1和引理2,可以得到

        (14)

        結(jié)合式 (13) 和式(14) 就可以得到式(11)。

        3.2 定理1的證明

        定義如下矩陣:

        D-1=

        =op(1)。

        下面證明定理1的結(jié)論(II)。由式(11)也可得到:

        則可以得到

        因此,

        (15)

        根據(jù)I2的定義與如下等式:

        (16)

        結(jié)合式 (15)~式(16),有

        因此

        4 數(shù)值模擬與實(shí)例驗(yàn)證

        4.1 蒙特卡洛模擬

        本文采用R軟件中的lpsolve包解決此線性規(guī)劃問(wèn)題。

        樣本數(shù)據(jù)由以下模型產(chǎn)生:

        Ti=b1zi1+b2zi2+α(Ui)Xi+εi,i=1,…,n

        (17)

        評(píng)價(jià)非參數(shù)部分估計(jì)效果采用均方誤差指標(biāo):

        (18)

        本文應(yīng)用3種方法處理缺失數(shù)據(jù):校準(zhǔn)方法(Calibration Method, CA)和插補(bǔ)方法 (Imputation Method, IM)以及完全記錄分析(Complete Case Analysis, CC)方法。CC方法的基本思路就是直接忽略那些有缺失記錄的個(gè)體,再用傳統(tǒng)的統(tǒng)計(jì)分析方法去處理剩下的數(shù)據(jù)集,該方法的缺點(diǎn)是,當(dāng)缺失數(shù)據(jù)太多時(shí)得不到有效的估計(jì)。IM方法是對(duì)缺失的數(shù)據(jù)進(jìn)行填補(bǔ),然后再用傳統(tǒng)的統(tǒng)計(jì)分析方法去處理整個(gè)數(shù)據(jù)集,其缺點(diǎn)也很明顯,對(duì)缺失的數(shù)據(jù)進(jìn)行填補(bǔ)亦要選擇合適的方法,否則不會(huì)得到較好的估計(jì)。CA方法是用當(dāng)前的可觀測(cè)數(shù)據(jù)來(lái)估計(jì)參數(shù),通過(guò)給定參數(shù)的形式產(chǎn)生模擬數(shù)據(jù),即對(duì)包含缺失在內(nèi)的整個(gè)數(shù)據(jù)集進(jìn)行估計(jì)。

        設(shè)置模擬次數(shù)為200、q=5,誤差服從N(0,1)和t(5)分布的計(jì)算結(jié)果分別見(jiàn)表1和表2,其中MSE為200次模擬均值。另外,在表1中,CR為10%和20%時(shí)所對(duì)應(yīng)的刪失時(shí)間指數(shù)分布參數(shù)分別為0.1和0.19;在表2中,CR為10%和20%所對(duì)應(yīng)的刪失時(shí)間指數(shù)分布參數(shù)分別為0.08和0.16。

        從表1和表2的結(jié)果可以看出:①對(duì)比不同的處理缺失數(shù)據(jù)方法,CA方法最好,IM方法其次,CC方法最差,表明本案例選用數(shù)據(jù)校準(zhǔn)方法比較合適,而CC方法在不是完全隨機(jī)缺失的假設(shè)下只能得到有偏的估計(jì),所以在本案例中的估計(jì)效果是最差的。②隨著樣本數(shù)量的增多,估計(jì)結(jié)果的偏差也逐漸變小,這與估計(jì)的大樣本性相符。③當(dāng)刪失率和丟失率增大時(shí),估計(jì)偏差隨之變大,這也從側(cè)面說(shuō)明了估計(jì)的大樣本性,在足夠的樣本容量下,配合適當(dāng)?shù)墓烙?jì)方法才能得到好的估計(jì)結(jié)果。④在樣本量一定的情況下,相較于丟失率的變化,刪失率的變化對(duì)最后的估計(jì)結(jié)果影響更大。

        4.2 實(shí)例分析

        實(shí)例分析數(shù)據(jù)來(lái)源于文獻(xiàn)[15]。該數(shù)據(jù)是基于“東部腫瘤合作組織”(Eastern Cooperative Oncology Group)進(jìn)行的一次臨床試驗(yàn),其對(duì)象是II 期女性乳腺癌患者,目的是比較三苯氧胺(tamoxifen)和安慰劑對(duì)于該病的療效。在參與試驗(yàn)的170 名對(duì)象中,只關(guān)注其中79 個(gè)在試驗(yàn)結(jié)束前死亡的病患。根據(jù)報(bào)告可知,這個(gè)試驗(yàn)的死亡原因數(shù)據(jù)并不完全。在這79 個(gè)死亡對(duì)象中, 44人死于乳腺癌,17 人死于已知的其他原因,剩下的18 名死于未知原因。為了適用于本文模型,在下面的數(shù)據(jù)分析中,采用的都是生存時(shí)間(單位:d)的對(duì)數(shù)值,記作Y。設(shè)指標(biāo)δ顯示死亡是否由乳腺癌引起,指標(biāo)ξ顯示死因是否已知。另外,變量Z1表示病人服用藥物情況(1,三苯氧胺;0,安慰劑);變量Z2表示病人雌激素受體蛋白狀態(tài)(1,陽(yáng)性;0,陰性);X為病人腋淋巴結(jié)個(gè)數(shù);U為腫塊的大小。模型如下:

        表1 誤差服從N(0,1)分布的模擬結(jié)果

        表2 誤差服從t(5)分布的模擬結(jié)果

        Y=b1Z1+b2Z2+α(U)X+ε

        (19)

        實(shí)例分析時(shí)采用的缺失數(shù)據(jù)處理方法為CA和IM,參數(shù)估計(jì)結(jié)果見(jiàn)表3,非參數(shù)部分的估計(jì)結(jié)果見(jiàn)圖1。由表3可見(jiàn),所有的系數(shù)估計(jì)值都是正值,但是變量Z1的系數(shù)估計(jì)值比較小,也就是說(shuō),乳腺癌患者的生存時(shí)間雖然沒(méi)有受到“是否接受藥物治療”這個(gè)因素的顯著性影響,但若服用三苯氧胺,病人存活的時(shí)間還是可以延長(zhǎng);另外雌激素受體蛋白狀態(tài)為陽(yáng)性也能增加生存時(shí)間,變量Z2的系數(shù)相對(duì)比較大,可見(jiàn)該因素對(duì)乳腺癌患者生存時(shí)間的影響更顯著一些。上述計(jì)算結(jié)果與文獻(xiàn)[11]的結(jié)論基本一致。根據(jù)圖1,非參數(shù)部分估計(jì)值意味著腫塊的增大會(huì)導(dǎo)致生存時(shí)間的減少,這與文獻(xiàn)[15]中的試驗(yàn)結(jié)果是一致的。

        表3 參數(shù)估計(jì)結(jié)果

        圖1 非參數(shù)部分估計(jì)結(jié)果

        [1] Cox D R. Regression models and life-tables[J]. Journal of the Royal Statistical Society: Series B, 1972,34(2):187-220.

        [2] Cox D R, Oakes D. Analysis of survival data[M]. London: Chapman and Hall, 1984:593.

        [3] Zhang W Y, Lee S-Y, Song X Y. Local polynomial fitting in semivarying coefficient model[J]. Journal of Multivariate Analysis, 2002,82:166-188.

        [4] Fan G L, Liang H Y, Shen Y. Penalized empirical likelihood for high-dimensional partially linear varying coefficient model with measurement errors[J]. Journal of Multivariate Analysis, 2016,147:183-201

        [5] Zhao W H, Zhang R Q, Liu J C, et al. Robust and efficient variable selection for semiparametric partially linear varying coefficient model based on modal regression[J]. Annals of the Institute of Statistical Mathematics,2014,66(1):165-191.

        [6] 何曉霞,劉熙,王志明.右刪失數(shù)據(jù)下回歸函數(shù)的局部組合分位數(shù)回歸估計(jì)[J].武漢科技大學(xué)學(xué)報(bào),2016,39(4):309-316.

        [7] Wang H J, Zhu Z Y, Zhou J H. Quantile regression in partially linear varying coefficient models[J]. The Annals of Statistics, 2009,37(6B):3841-3866.

        [8] Shen Y, Liang H Y. Quantile regression for partially linear varying-coefficient model with censoring indicators missing at random[J]. Computational Statistics and Data Analysis, 2018,117:1-18.

        [9] Huang J, Horowitz J L, Wei F R. Variable selection in nonparametric additive models[J]. The Annals of Statistics, 2010,38(4):2282-2313.

        [10] Schumaker L L. Spline functions: basic theory[M]. New Jersey: John Wiley & Sons, Inc.,1981.

        [11] 李夏炎.刪失指示量隨機(jī)缺失情況下回歸模型統(tǒng)計(jì)推斷[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué), 2011.

        [12] Wang Q H, Dinse G E. Linear regression analysis of survival data with missing censoring indicators[J]. Lifetime Data Analysis, 2011,17(2):256-279.

        [13] Hjort N L, Pollard D. Asymptotics for minimisers of convex processes[R/OL]. (2011-07-19)[2018-12-13]. https://arxiv.org/abs/1107.3806.

        [14] Knight K. Limiting distributions for L1regression estimators under general conditions[J]. The Annals of Statistics, 1998,26(2):755-770.

        [15] Cummings F J, Gray R, Davis T E, et al. Tamoxifen versus placebo: double-blind adjuvant trial in elderly women with stage II breast cancer[J]. NCI Monographs: a Publication of the National Cancer Institute, 1986 (1):119-123.

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        亚洲av无码不卡久久| 日韩免费精品在线观看| 国精产品一区一区二区三区mba| 波多野42部无码喷潮| 欧美日韩国产色综合一二三四| 成人国产在线播放自拍| 国产精品女主播在线播放| 亚洲av无码无限在线观看| 欧美丰满熟妇aaaaa片| 北岛玲中文字幕人妻系列| 蜜桃传媒免费观看视频| 亚洲国产精品久久艾草| 日本高清www无色夜在线视频| 不卡国产视频| 能看不卡视频网站在线| 亚洲爆乳精品无码一区二区三区| 嫖妓丰满肥熟妇在线精品| 国产未成女年一区二区| 精品国产免费一区二区久久 | 国产精品99无码一区二区| 娇妻玩4p被三个男人伺候电影| 在线看亚洲十八禁网站| 日本一区二区三区熟女俱乐部| 国产精品国三级国产av| 亚洲国产中文在线二区三区免 | 中文字幕二区三区在线| 国产精品国产高清国产专区| 欧美a级情欲片在线观看免费| 麻豆久久五月国产综合| 国产一区二区三区av观看| 无码国内精品人妻少妇蜜桃视频| 亚洲国产成人va在线观看天堂| 国产亚洲精品国看不卡| 亚洲国产综合人成综合网站| 国产高潮视频在线观看| 澳门毛片精品一区二区三区| 一级a免费高清免在线| 欧美激情一区二区三区成人| 色先锋资源久久综合5566| 亚洲老女人区一区二视频| 97成人精品国语自产拍|