亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        缺失偏態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計推斷

        2013-09-05 02:10:18吳劉倉張家茂邱貽濤
        統(tǒng)計與信息論壇 2013年9期
        關(guān)鍵詞:偏態(tài)偏度樣本量

        吳劉倉,張家茂,邱貽濤

        (昆明理工大學(xué) 理學(xué)院,云南 昆明 650093)

        一、引 言

        在金融和經(jīng)濟等領(lǐng)域,經(jīng)常收集到的數(shù)據(jù)不是嚴(yán)格地服從正態(tài)分布,而是服從偏正態(tài)分布,因為偏態(tài)分布能夠較好地刻畫出數(shù)據(jù)的非對稱性和偏斜程度。一方面,偏態(tài)數(shù)據(jù)是正態(tài)數(shù)據(jù)的進一步推廣,是非常常見的一種統(tǒng)計數(shù)據(jù);另一方面,在現(xiàn)實數(shù)據(jù)的采集過程中,很多抽樣調(diào)查數(shù)據(jù)和實驗數(shù)據(jù)都會受到無回答的干擾,或者是因為某種原因而丟失。因此,對缺失偏態(tài)數(shù)據(jù)的統(tǒng)計分析具有重要的理論和實際意義,筆者旨在研究缺失偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的估計問題。

        目前,缺失對稱數(shù)據(jù)下回歸模型研究已得到了廣泛關(guān)注,Cheng、Chu等人研究了缺失數(shù)據(jù)下回歸模型中非參數(shù)估計[1-2];Wang等人采用回歸插補方法,研究了線性回歸模型中響應(yīng)變量均值的估計[3];閆莉等人討論了缺失數(shù)據(jù)下廣義線性模型中參數(shù)置信域問題[4];Little、金勇進等人對缺失數(shù)據(jù)做了詳細的介紹,并總結(jié)了缺失數(shù)據(jù)的處理方法[5]59-72[6]60-75;Azzalini對偏正 態(tài)分布 做了大量 研究,并應(yīng)用此模型分析了一組運動數(shù)據(jù)[7];Xie等人研究了偏態(tài)數(shù)據(jù)下回歸模型中偏度和尺度參數(shù)的齊次性檢驗[8],而對缺失偏態(tài)數(shù)據(jù)下回歸模型的研究甚少。

        二、偏態(tài)數(shù)據(jù)下線性回歸模型

        (一)偏正態(tài)分布

        偏正態(tài)分布實際是一種廣義的正態(tài)分布,一個隨機變量Y服從位置參數(shù)μ、尺度參數(shù)σ2和偏度參數(shù)λ的偏正態(tài)分布,記為y~SN(μ,σ2,λ),其密度函數(shù)為:

        其中φ(·)、Φ(·)分別是標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)和分布函數(shù),這種分布的非對稱范圍是(-0.995,0.995)。當(dāng)λ<0時,該分布有負(fù)的偏斜;當(dāng)λ>0時,該分布有正的偏斜;當(dāng)λ=0時,這個概率密度函數(shù)就是正態(tài)分布的概率密度函數(shù)。

        (二)缺失偏態(tài)數(shù)據(jù)下線性回歸模型

        偏態(tài)數(shù)據(jù)下線性回歸模型定義如下:

        其中xi= (xi1,…,xip)T是可以觀測的協(xié)變量,β=(β1,…,βp)Τ是p×1維未知的線性回歸系數(shù),λ是響應(yīng)變量yi的偏度參數(shù)。設(shè)xi可全部觀測到,yi有缺失,δi為指示yi缺失的變量,即:

        假定yi滿足隨機缺失機制(MAR),即:

        其中p(x)表示給定x下y被觀測到的概率。

        三、完全數(shù)據(jù)下參數(shù)的極大似然估計

        假設(shè)樣本(xi,yi),i=1,2,…,n來自模型(2)且獨立同分布,由式(1)可得對數(shù)極大似然函數(shù)為:

        通常的數(shù)值計算大多需要使用迭代算法,以下介紹極大似然估計的常用迭代法。事實上,這也就是非線性規(guī)劃中求解函數(shù)最大值(最小值)最典型的基本算法,即Gauss-Newton迭代法。

        (一)Gauss-Newton迭代法[9]113-114

        設(shè)X~f(x,θ),L(θ)=logf(x,θ),θ∈Θ,則極大似然估計=(X)滿足以下必要條件:

        在某點θ0處展開可得:

        因此可視θ0為初值,設(shè)計以下迭代公式:

        其中D(θ)=[-L″(θ)]-1[L′(θ)],直到‖θi+1-θi‖≤ε,ε為預(yù)定的充分小的正數(shù),如ε=10-8等,則取θi+1作為極大似然估計的近似值。

        (二)極大似然估計的迭代算法

        Step1 給定迭代的參數(shù)初值:θ0=(,,λ0)T。

        Step2 給定當(dāng)前值:θi=(βTi,σ2i,λi)T,迭代θi+1=θi+[-L″(θi)]-1[L′(θi)]。

        Step3重復(fù)Step2直到迭代收斂。

        四、缺失數(shù)據(jù)下參數(shù)的極大似然估計

        插補方法是處理缺失數(shù)據(jù)的一類常用的技術(shù)方法,是指給每一個缺失數(shù)據(jù)一些替代值,從而得到完整數(shù)據(jù)集;然后使用標(biāo)準(zhǔn)的完全數(shù)據(jù)統(tǒng)計方法進行數(shù)據(jù)分析和推斷。本文在缺失偏態(tài)數(shù)據(jù)下線性回歸模型中,采用不同的插補方法對缺失數(shù)據(jù)進行插補,得到完整數(shù)據(jù)集;再使用完全數(shù)據(jù)下參數(shù)的極大似然估計對參數(shù)進行估計。具體插補方法如下:

        (一)均值插補(EI)

        均值插補法是指對所有缺失值,用所有觀測值的均值進行插補。假定可以觀測到y(tǒng)1,…,yn1,而yn1+1,…,yn缺失,即插補值yj為:

        得到完全數(shù)據(jù)集,利用完全數(shù)據(jù)下參數(shù)的極大似然估計,估計出參數(shù)。

        均值插補的特點是操作簡便,并且對均值這樣的簡單變量可以有效地降低其點估計的偏差,但是由于其缺失值都由均值來充當(dāng),因而扭曲了變量的樣本分布,于是均值插補并不適用于偏態(tài)線性回歸模型中回歸系數(shù)、尺度、偏度的參數(shù)估計。

        (二)回歸插補(RI)

        回歸插補法是根據(jù)目標(biāo)變量Y和輔助變量X之間的相互關(guān)系建立回歸模型,然后利用已知的輔助變量信息和回歸模型,對目標(biāo)變量的缺失數(shù)據(jù)進行插補的方法。在樣本中,如果變量Y和變量X之間存在高度相關(guān),可以利用已知數(shù)據(jù)擬合回歸預(yù)測模型,計算出回歸替代值,插補出缺失數(shù)據(jù)。

        對于yi~SN(μi,σ2,λ),給定x條件下y的密度函數(shù)為fθ(y|x),其中θ=(βT,σ2,λ)T。假定可以觀測到y(tǒng)1,…,yn1,而yn1+1,…,yn缺失,可以利用觀測值(x1,y1),…,(xn1,yn1),并采用完全數(shù)據(jù)下參數(shù)的極大似然估計方法,對參數(shù)θ進行估計,從而得到。這樣就可以對缺失值yj(j=n1+1,…,n)依照下式進行獨立的參數(shù)隨機插補:

        然后得到插補后的完全數(shù)據(jù)集,利用完全數(shù)據(jù)下參數(shù)的極大似然估計,得到參數(shù)估計值。

        在偏態(tài)數(shù)據(jù)下線性回歸模型中,由于變量Y和變量X之間存在高度相關(guān),應(yīng)用回歸插補時,對回歸系數(shù)的參數(shù)估計將會有十分好的效果,但是對于相同的xi(i=1,2,…,n),得到的插補值是相同的,這樣就和均值插補一樣,存在樣本分布扭曲問題,將會造成偏態(tài)數(shù)據(jù)下線性回歸模型中尺度、偏度參數(shù)估計的不良效果。為了克服這個缺點,本文在回歸插補方法(RI)的基礎(chǔ)上,針對缺失偏態(tài)數(shù)據(jù)線性回歸模型(2),提出一種新的迭代插補方法,稱之為修正回歸插補(CRI)方法,具體做法如下:

        第一步,利用觀測值(x1,y1),…,(xn1,yn1),并采用完全數(shù)據(jù)下參數(shù)的極大似然估計方法,對參數(shù)θ進行估計,從而得到。

        第二步,依次對第j個缺失值yj(j=n1+1,…,n),依照式(5)進行獨立的參數(shù)隨機插補。

        第三步,將插補值當(dāng)作觀測值,得到j(luò)組觀測值,重復(fù)第一步,估計出新的參數(shù)槇θ;重復(fù)第二步,插補出新的缺失值,直到所有缺失值插補完成,即j=n的時候 ,將得到參數(shù)的最終估計。

        通過依次插補缺失值,迭代回歸插補的方法克服了樣本分布扭曲的問題,并改善了尺度參數(shù)和偏度參數(shù)的估計效果。

        (三)隨機回歸插補(RRI)

        隨機回歸插補是在回歸插補的基礎(chǔ)上所作的改進,也因考慮到經(jīng)過回歸后缺失值yj的估計為yj=對于相同的x(i=1,2,…,n),得到的插補值是i相同的,也存在樣本分布扭曲的問題。隨機回歸插補對缺失值yj(j=n1+1,…,n)依照下式進行獨立的參數(shù)隨機插補:得到完全數(shù)據(jù)集,利用完全數(shù)據(jù)下參數(shù)的極大似然估計,估計出參數(shù)。通過隨機地插補缺失值,克服了樣本分布扭曲的缺點,提高了尺度、偏度參數(shù)的估計效果。

        五、Monte Carlo模擬

        (一)完全數(shù)據(jù)下的參數(shù)估計模擬研究

        yi,i=1,2,…,n產(chǎn)生于模型(2),是相互獨立的隨機變 量;協(xié) 變 量xi~U(-1,1),取 真 值β=(-2,3,4)T,σ2=0.5;在λ=-0.5、λ=0、λ=0.5,而且樣本量為100、200、300時,模擬1 000次,模擬結(jié)果見表1。

        表1 完全數(shù)據(jù)下偏態(tài)線性回歸模型參數(shù)極大似然估計結(jié)果表

        從表1模擬結(jié)果知:隨著樣本量的增加,在不同偏度下,完全偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的極大似然估計的均方誤差(MSE)越來越小,估計值越來越接近真值,說明本文的完全偏態(tài)數(shù)據(jù)下線性回歸模型參數(shù)的極大似然估計效果是良好的,并且不依賴于偏度,適用于各種偏度情況下的參數(shù)估計。

        (二)缺失數(shù)據(jù)下的參數(shù)估計模擬研究

        yi,i=1,2,…,n產(chǎn)生于模型(2),是相互獨立的隨機變量,協(xié)變量xi~U(-1,1),取真值β=(2,3,-1)T,σ2=0.5,λ=0.5;對Y分別隨機缺失5%,10%和30%數(shù)據(jù)后,在插補方法為均值插補(EI)、回歸插補(RI)、隨機回歸插補(RRI)、修正回歸插補(CRI),而且樣本量n為100,200,300時,模擬1 000次,其中樣本量為100時模擬結(jié)果見表2;樣本量為300時模擬結(jié)果見表3;修正回歸插補方法估計結(jié)果見表4。

        情形1 樣本量n=100,各種插補方法在不同缺失率下,參數(shù)的估計結(jié)果比較。

        表2 樣本量n=100時各種插補方法結(jié)果比較表

        情形2 樣本量n=300,各種插補方法在不同缺失率下,參數(shù)的估計結(jié)果比較。

        表3 樣本量n=300時各種插補方法結(jié)果比較表

        從表2表3可以得出以下結(jié)論:

        1.均值插補后的極大似然參數(shù)估計隨著缺失率增大,估計值離真值越來越遠,均方誤差(MSE)越來越大,可見均值插補效果十分差,只適用于缺失率較低情況。

        2.回歸插補后的極大似然參數(shù)估計對于回歸系數(shù)估計效果十分好,這與變量Y和輔助變量X之間具有很高的相關(guān)性有關(guān),但隨著缺失率的增加,尺度參數(shù)估計值和偏度參數(shù)估計值離真值越來越遠,均方誤差(MSE)逐漸增大,參數(shù)估計效果比較差。

        3.對比回歸插補,經(jīng)過隨機回歸插補后的尺度和偏度參數(shù)估計,效果有了明顯地改善。

        4.經(jīng)過修正回歸插補后參數(shù)的極大似然參數(shù)估計,對回歸系數(shù)、尺度參數(shù)和偏度參數(shù)的估計效果十分好,而且隨著缺失率的增加,對所有參數(shù)的估計都比較穩(wěn)定。參數(shù)估計效果比隨機回歸插補后更好,是所有插補方法中參數(shù)估計總體效果最佳的,十分適合偏態(tài)數(shù)據(jù)下線性回歸模型的參數(shù)估計。尤其是隨著缺失率和樣本量的增加,以上現(xiàn)象表現(xiàn)得更加明顯,這充分說明了筆者提出的修正回歸插補對缺失偏態(tài)數(shù)據(jù)插補后模型參數(shù)的極大似然估計,是十分有效的。

        情形3 不同樣本量和不同缺失率下,修正回歸插補方法估計結(jié)果。

        從表4可以看出:隨著缺失率的減小,修正回歸插補后的參數(shù)估計效果越來越好,符合數(shù)據(jù)缺失下參數(shù)估計的基本規(guī)律;隨著樣本量的增加,修正回歸插補后的參數(shù)估計效果越來越好,進一步說明了提出的修正回歸插補對缺失偏態(tài)數(shù)據(jù)插補后模型參數(shù)的極大似然估計是很好的。

        表4 不同樣本量和不同缺失率下修正回歸插補方法估計結(jié)果表

        六、實例分析

        體重指數(shù)(bmi,Y)是與體內(nèi)脂肪總量密切相關(guān)的指標(biāo),為了簡單,考慮體重(x1)和性別(x2)兩個因素,當(dāng)?shù)弥粋€人的體重和性別就可以簡要地計算出體重指數(shù)。該實例數(shù)據(jù)來自R軟件sn包中關(guān)于mle的例子,在R軟件中使用sn.mle命令得到估計參數(shù),并對數(shù)據(jù)中心化處理(截距為11.689),處理后的數(shù)據(jù)(bmi)概率密度函數(shù)如圖1。

        圖1 bmi概率密度函數(shù)擬合圖

        經(jīng)過處理后的數(shù)據(jù)由圖1可知,體重指數(shù)(bmi)近似服從偏正態(tài)分布,所以令其滿足下列模型:

        經(jīng)過計算得到完全數(shù)據(jù)下模型參數(shù)估計如下:

        在不同缺失率下對數(shù)據(jù)隨機缺失后,利用本文提出的修正回歸插補等方法,計算得到模型參數(shù)估計如表5。

        從表5可以看出:隨著缺失率的減小,修正回歸插補后的參數(shù)估計效果越來越好,本文提出的修正回歸插補方法的表現(xiàn),是所有插補方法中總體表現(xiàn)最好的。

        表5 體重指數(shù)(bmi)的參數(shù)極大似然估計結(jié)果表

        七、結(jié) 論

        本文主要目的是研究響應(yīng)變量Y存在偏斜和隨機缺失下線性回歸模型的參數(shù)估計問題,針對缺失偏態(tài)數(shù)據(jù),為了克服樣本分布扭曲缺點,提高模型的回歸系數(shù)、尺度參數(shù)和偏度參數(shù)的估計效果,提出了一種適合偏態(tài)數(shù)據(jù)下線性回歸模型中缺失數(shù)據(jù)的修正回歸插補方法。通過隨機模擬和實例研究,同均值插補、回歸插補、隨機回歸插補方法比較,結(jié)果表明所提出的修正回歸插補方法是有用可行的。

        [1] Cheng P E.Nonparametric Estimation of Mean Functionals With Data Missing at andom[J].J.Amer.Statist Assoc,1994,89(425).

        [2] Chu C K,Cheng P E.Nonparametric Regression Estimation With Missing Data[J].Journal of Statist Planning Inference,1995(1).

        [3] Wang Q H,Rao J N K.Emprical Likelihood for Liner Regression Modles Under Imputation for Missing Responses[J].Scandinavain Journal of Statistics,2001(4).

        [4] 閆莉,陳夏.缺失數(shù)據(jù)下廣義線性模型的經(jīng)驗似然推斷[J].統(tǒng)計與信息論壇,2013(2).

        [5] Little R J A,Rubin D B.Statistical Analysis With Missing Data[M].New York:John Wiley & Sons Inc,1987.

        [6] 金勇進,邵軍.缺失數(shù)據(jù)的統(tǒng)計處理[M].北京:中國統(tǒng)計出版社,2009.

        [7] Azzalini A.A Class of Distribution Which Include the Normal Ines[J].Scandinavain Journal of Statistics,1985(2).

        [8] Xie F C,Wei B C,Lin J G.Homogeneity Dignostatics for Skew-normal Nonlinear Regression Models[J].Statistics and Probability Letters,2009(6).

        [9] 韋博成.參數(shù)統(tǒng)計教程[M].北京:高等教育出版社,2006.

        猜你喜歡
        偏態(tài)偏度樣本量
        醫(yī)學(xué)研究中樣本量的選擇
        對稱分布的矩刻畫
        考試成績轉(zhuǎn)換成偏態(tài)分布量化成績的算法
        航空裝備測試性試驗樣本量確定方法
        隧穿量子點分子的Wigner-Yanase偏態(tài)信息
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        基于偏度的滾動軸承聲信號故障分析方法
        考慮偏度特征的動態(tài)多響應(yīng)穩(wěn)健參數(shù)設(shè)計與優(yōu)化
        基于偏度、峰度特征的BPSK信號盲處理結(jié)果可信性評估
        電子器件(2015年5期)2015-12-29 08:42:56
        雙模壓縮真空態(tài)光場作用下耦合雙原子的Wigner-Yanase偏態(tài)信息
        在线观看日本一区二区三区四区| 少妇的肉体k8经典| AV无码一区二区三区国产| 国产不卡视频一区二区在线观看 | 国产香港明星裸体xxxx视频 | 色偷偷噜噜噜亚洲男人| 亚洲免费观看在线视频| 无码吃奶揉捏奶头高潮视频| 亚洲大胆视频在线观看| 丝袜美腿视频一区二区| 中国无码人妻丰满熟妇啪啪软件| 女人被爽到呻吟gif动态图视看| 国产91 对白在线播放九色| 蜜桃视频一区二区三区在线| 日本师生三片在线观看| 国产99久久久国产精品~~牛| 亚洲国产成人影院在线播放| 国产精品户露av在线户外直播 | 性无码一区二区三区在线观看| 亚洲人成未满十八禁网站| 精品无码久久久久久久久粉色| 一区二区三区岛国av毛片| 成人av综合资源在线| 日本丰满熟妇videossexhd| 在线观看免费人成视频色9| 9久9久女女热精品视频免费观看| 小草手机视频在线观看| 国产一级二级三级在线观看av| 人妻av无码一区二区三区| 国产精品人妻一区夜夜爱| 波多吉野一区二区三区av| 男女搞基视频免费网站| 日本丰满老妇bbw| 国产在线精品成人一区二区三区 | 国产丶欧美丶日本不卡视频| 欧美日韩中文国产一区| 激情五月婷婷久久综合| 国产一区二区三区青青草 | 精品一区二区三区在线观看l| 日韩亚洲一区二区三区在线| 欧美性生交大片免费看app麻豆|