亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        右刪失數(shù)據(jù)下廣義線性模型的統(tǒng)計(jì)診斷

        2017-09-12 06:35:12季文奇
        關(guān)鍵詞:參數(shù)估計(jì)廣義殘差

        季文奇,馮 予

        (南京理工大學(xué) 理學(xué)院, 南京 210094)

        右刪失數(shù)據(jù)下廣義線性模型的統(tǒng)計(jì)診斷

        季文奇,馮 予

        (南京理工大學(xué) 理學(xué)院, 南京 210094)

        研究了帶有右刪失數(shù)據(jù)的廣義線性模型的統(tǒng)計(jì)診斷問題。首先構(gòu)造了右刪失數(shù)據(jù)下的似然函數(shù),推導(dǎo)出了參數(shù)的極大似然估計(jì)?;跀?shù)據(jù)刪除模型,推導(dǎo)出了數(shù)據(jù)刪除前后參數(shù)估計(jì)的一階近似公式,推廣了廣義Cook距離和似然距離等用來判定異常點(diǎn)或強(qiáng)影響點(diǎn)的診斷統(tǒng)計(jì)量,并證明了兩者的等價(jià)性。最后通過實(shí)際數(shù)據(jù)分析,驗(yàn)證了該理論的正確性和實(shí)用性。

        廣義線性模型;右刪失數(shù)據(jù);極大似然估計(jì);廣義Cook距離;似然距離

        統(tǒng)計(jì)診斷是數(shù)理統(tǒng)計(jì)學(xué)中的一個(gè)重要分支,主要研究數(shù)據(jù)對模型的影響,最基本的方法是數(shù)據(jù)刪除法[1]。廣義線性模型[2]可以分析不同類型的數(shù)據(jù),包括缺失數(shù)據(jù)[3-4]、刪失數(shù)據(jù),近幾年在缺失數(shù)據(jù)下應(yīng)用研究很多,但在刪失數(shù)據(jù)下的研究較少。右刪失數(shù)據(jù)是當(dāng)前生存分析中研究的最重要的數(shù)據(jù)類型。本文在最廣泛的廣義線性模型框架下,研究了右刪失數(shù)據(jù)的統(tǒng)計(jì)診斷問題,具有重要的理論意義和應(yīng)用價(jià)值。

        1 右刪失數(shù)據(jù)下廣義線性模型的極大似然估計(jì)

        1.1 右刪失數(shù)據(jù)下的廣義線性模型

        設(shè)(x1,y1),(x2,y2),…,(xn,yn)表示n個(gè)可以觀察的數(shù)據(jù)點(diǎn),其中yi∈R是獨(dú)立的隨機(jī)變量,xi∈Rp是給定的自變量,yi服從自然形式的指數(shù)族分布,則廣義線性模型(GLM)定義為

        (1)

        其中:β為未知參數(shù);g(·)為嚴(yán)增可微函數(shù),稱為聯(lián)系函數(shù)(link function);yi的密度函數(shù)可表示為

        式中θi稱為自然參數(shù),并記μ=(μ1,…,μn)T,θ=(θ1,…,θn)T。根據(jù)指數(shù)族分布的性質(zhì),有

        由于yi右刪失,觀測值yi為:① -∞

        1.2 右刪失數(shù)據(jù)下的似然函數(shù)

        設(shè)Y1,Y2,…,Yn是來自分布F的獨(dú)立同分布隨機(jī)變量,通常稱為生存時(shí)間,一般為非負(fù),其概率密度函數(shù)為f(x,θ),θ為未知參數(shù)。如果存在右刪失時(shí)間Ci(i=1,2,…,n),其分布為G。假設(shè)Yi和Ci相互獨(dú)立,記Zi=min(Yi,Ci),δi=I(Ci≤Yi),實(shí)際觀察樣本為(Zi,δi),則刪失數(shù)據(jù)下的似然函數(shù)[5]為

        1.3 模型的極大似然估計(jì)

        對于模型(1) ,設(shè)yi服從自然形式的指數(shù)族分布,其分布函數(shù)為F,從而似然函數(shù)為

        取對數(shù)得

        其中h(yi)不依賴于β,對估計(jì)β無影響,故可略去,從而對數(shù)似然函數(shù)為

        對于右刪失數(shù)據(jù),考慮如下的情形[6]:① -∞

        (2)

        e(β)=Y-μ(β),ei(β)=yi-μi(xi,β);

        其中:i=1,2,…,n;a,b=1,2,…,p;D(β)、Dθ(β)和J(β)為n×p階矩陣;W(β)、Wθ(β)和K(β)為n×p×p階立體陣;M是前r個(gè)分量為1的n×1列向量;N是n階方陣;I是n-r階方陣。

        證明 計(jì)算l(β)關(guān)于β的導(dǎo)數(shù)時(shí),始終把θi視為中間變量,由式(2)對β求導(dǎo)得到

        (3)

        所以

        該式代入式(3)即可得到第2式。式(3)繼續(xù)求導(dǎo)可得

        βi+1=βi+[-MTK(βi)+DT(βi)NV-1(βi)D(βi)]-1·[JT(βi)M+DT(βi)V-1(βi)Ne(βi)]

        2 模型診斷

        2.1 數(shù)據(jù)刪除模型

        要評價(jià)第i個(gè)數(shù)據(jù)點(diǎn)(xi,yi)在回歸分析中的作用與影響,可比較第i個(gè)點(diǎn)(xi,yi)刪除前后統(tǒng)計(jì)推斷結(jié)果的變化,用以觀測該點(diǎn)是否為異常點(diǎn)或強(qiáng)影響點(diǎn),刪除第i(r+1≤i≤n)個(gè)點(diǎn)以后的模型稱為數(shù)據(jù)刪除模型?;跀?shù)據(jù)刪除模型,對于模型(1),本研究只刪除觀測到的數(shù)據(jù)部分,對右刪失的數(shù)據(jù)點(diǎn)不討論異常點(diǎn)問題??紤]模型(1)中刪除第i個(gè)數(shù)據(jù)點(diǎn)(xi,yi)以后的模型,以及刪除后參數(shù)的估計(jì),這個(gè)刪除模型可以表示為

        其中觀測值yj為如下的情形:

        1) -∞

        2)yj為確切已知值,r+1≤j≤n。

        (4)

        其中:D(i)(β)為D(β)刪除第i行以后的(n-1)×p階矩陣;V(i)(β)為V(β)刪除第i行、第i列以后的(n-1)×(n-1)階對角陣;e(i)(β)為e(β)刪除第i點(diǎn)以后的n-1維向量。

        (5)

        證明 記:

        I(β)=ST(β)U(β)

        將該式代入式(4)可得

        利用和式求逆公式得

        (6)

        由于r+1≤i≤n,所以nii=1,故

        故由式(6)即可得到式(5)。證明完畢。

        2.2 模型的診斷統(tǒng)計(jì)量

        2.2.1 廣義Cook距離

        其中:M為正定的權(quán)矩陣;c>0為尺度因子。本文取

        M=I(β)=-MTK+DTNV-1D,c=1

        其中P=-MTK+DTV-1ND。

        2.2.2 似然距離

        除了正態(tài)線性模型等少數(shù)模型之外,似然距離一般沒有顯式解,因此實(shí)用上主要依靠數(shù)值解和近似解。本研究采用似然距離的1階近似公式

        由此可知,廣義Cook距離和似然距離的2階近似相等。

        3 實(shí)例分析

        通過實(shí)例進(jìn)行分析,驗(yàn)證帶有右刪失數(shù)據(jù)的廣義線性模型的統(tǒng)計(jì)診斷的有效性。先進(jìn)行參數(shù)估計(jì),再觀察標(biāo)準(zhǔn)殘差值和廣義Cook距離,判定模型的異常點(diǎn)或強(qiáng)影響點(diǎn)。

        表1數(shù)據(jù)[9]為50位急性淋巴細(xì)胞白血病病人生存數(shù)據(jù)。在入院治療時(shí)取得了外轅血中的細(xì)胞數(shù)(x1,千個(gè)/mm3),淋巴結(jié)浸潤等級(x2,分為0,1,2,3級)以及出院后有無鞏固治療(x3,“1”表示有鞏固治療,“0”表示無鞏固治療),通過隨訪取得病人的生存時(shí)間,并以變量y=0表示生存時(shí)間在1a以內(nèi),y=1表示生存時(shí)間在1a或1a以上。關(guān)于x1,x2,x3和y的觀測數(shù)據(jù),用Logistic回歸模型分析病人生存時(shí)間的概率與x1,x2,x3的關(guān)系:

        考慮到y(tǒng)的前5個(gè)數(shù)據(jù)右刪失,假設(shè)yi>a≡0(1≤i≤5)。數(shù)據(jù)如表1所示。

        表1 生存數(shù)據(jù)

        3.1 參數(shù)估計(jì)

        針對這個(gè)數(shù)據(jù),可以求出參數(shù)β的估計(jì)值:

        3.2 影響分析

        在參數(shù)估計(jì)的基礎(chǔ)上,對其進(jìn)行殘差分析,并計(jì)算廣義Cook距離。圖1、圖2分別是標(biāo)準(zhǔn)化殘差和廣義Cook距離的散點(diǎn)圖。

        從圖1、圖2可以看出:第7、11、13、16個(gè)觀測點(diǎn)的數(shù)值較大。從圖2中可直接看出:第11、13、16號點(diǎn)異于其他的點(diǎn),而且這些異常點(diǎn)不涉及刪失部分。綜合以上分析可知,第11、13、16號點(diǎn)為異常點(diǎn)。

        圖1 殘差圖

        4 結(jié)束語

        本文在最廣泛的廣義線性模型框架下,主要研究了右刪失數(shù)據(jù)下廣義線性模型的統(tǒng)計(jì)診斷問題,首先得到了參數(shù)的極大似然估計(jì),基于數(shù)據(jù)刪除模型,推導(dǎo)出了數(shù)據(jù)刪除前后估計(jì)量之間的關(guān)系式;根據(jù)這個(gè)關(guān)系式,提出了廣義Cook距離、似然距離等診斷統(tǒng)計(jì)量;最后通過實(shí)際數(shù)據(jù)分析,驗(yàn)證了統(tǒng)計(jì)診斷方法的有效性和正確性。

        [1] 翟爽.基于數(shù)據(jù)刪除的廣義線性模型診斷方法[D].哈爾濱:東北林業(yè)大學(xué)理學(xué)院,2012.

        [2] 光琳,宗序平.Logistic模型的統(tǒng)計(jì)診斷[J].江南大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,11(1):113-117.

        [3] 閆莉,陳夏.缺失數(shù)據(jù)下廣義線性模型的經(jīng)驗(yàn)似然推斷[J].統(tǒng)計(jì)與信息論壇,2013,28(2):14-17.

        [4] 閆莉,陳夏.響應(yīng)變量隨機(jī)缺失下廣義線性模型的經(jīng)驗(yàn)似然[J].陜西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,43(3):1-5.

        [5] 周勇.廣義估計(jì)方程估計(jì)方法[M].北京:科學(xué)出版社,2013.

        [6] 胡宏昌,崔恒建,秦永松,等.近代線性回歸分析方法[M].北京:科學(xué)出版社,2013.

        [7] COOK R D.Detection of influential observations in linear regression[J].Technometrics,1977,19:15-18.

        [8] 韋博成,林金官,解鋒昌.統(tǒng)計(jì)診斷[M].北京:高等教育出版社,2009.

        [9] 薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.

        (責(zé)任編輯 林 芳)

        Statistical Diagnostics for Generalized Linear Models with Right-Censored Data

        JI Wenqi, FENG Yu

        (School of Science, Nanjing University of Science and Technology, Nanjing 210094, China)

        This paper investigates statistical diagnosis problem of the generalized linear models with right-censored data. First, we derive the likelihood function under right-censored data to obtain maximum likelihood estimates for the parameters. Based on the case-deletion models and using the first order Taylor approximation of parameter estimates, we then propose the diagnostic tools such as the generalized cook distance and the likelihood distance to determine outfielders and/or influential cases in the data. We also prove the equivalence of two distances. Finally, we use a real data example to verify the efficiency and feasibility of the proposed diagnostic methods.

        generalized linear model; right-censored data; maximum likelihood estimation; generalized cook distance; likelihood distance

        2017-03-22 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(11271189)

        季文奇(1992—),女 ,山東濟(jì)寧人,碩士研究生,主要從事概率論與數(shù)理統(tǒng)計(jì)研究,E-mail:875063250@qq.com。

        季文奇,馮予.右刪失數(shù)據(jù)下廣義線性模型的統(tǒng)計(jì)診斷[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2017(8):174-181.

        format:JI Wenqi, FENG Yu.Statistical Diagnostics for Generalized Linear Models with Right-Censored Data[J].Journal of Chongqing University of Technology(Natural Science),2017(8):174-181.

        10.3969/j.issn.1674-8425(z).2017.08.029

        O212

        A

        1674-8425(2017)08-0174-08

        猜你喜歡
        參數(shù)估計(jì)廣義殘差
        Rn中的廣義逆Bonnesen型不等式
        基于雙向GRU與殘差擬合的車輛跟馳建模
        基于新型DFrFT的LFM信號參數(shù)估計(jì)算法
        基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        從廣義心腎不交論治慢性心力衰竭
        Logistic回歸模型的幾乎無偏兩參數(shù)估計(jì)
        有限群的廣義交換度
        基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
        基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
        久久久精品国产亚洲AV蜜| 少妇高潮太爽了在线看| 女人18毛片a级毛片| 亚洲日韩一区二区三区| 麻豆乱码国产一区二区三区| 深夜福利国产| 人妻少妇中文字幕专区| 国产亚洲精品熟女国产成人| 亚洲国产高清一区av| 99久久99久久久精品蜜桃| 少妇性bbb搡bbb爽爽爽| 亚洲精品无码久久久久av麻豆| 婷婷一区二区三区在线| 免费看黄在线永久观看| 亚洲精品有码日本久久久| 人妻无码一区二区三区免费| 日本乱子人伦在线视频| 最新国产美女一区二区三区| 精品不卡视频在线网址| 精品亚洲麻豆1区2区3区| 激情偷乱人成视频在线观看| 中文字幕一区二区三区精彩视频| 99久久超碰中文字幕伊人| 日韩人妻免费一区二区三区| 水蜜桃精品视频在线观看| 无码aⅴ免费中文字幕久久| 亚洲欧美精品伊人久久| 区一区一日本高清视频在线观看| 日本黄色影院一区二区免费看 | 19款日产奇骏车怎么样| 亚洲国产天堂久久综合网| 亚洲va无码手机在线电影| 久久久久亚洲AV无码专| 国产一区二区三区免费小视频| 日本a级一级淫片免费观看| 免费观看羞羞视频网站| 精品久久久久久无码国产| 亚洲精品尤物av在线网站| 开心久久综合婷婷九月| 午夜福利av无码一区二区| 久久免费的精品国产v∧|