亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        穩(wěn)健方法在線性回歸模型中的應用

        2016-02-16 06:18:34余云彩
        關(guān)鍵詞:模型

        余云彩

        (湖北師范大學數(shù)學與統(tǒng)計學院,湖北黃石 435002)

        穩(wěn)健方法在線性回歸模型中的應用

        余云彩

        (湖北師范大學數(shù)學與統(tǒng)計學院,湖北黃石 435002)

        從影響函數(shù)和崩潰點角度分析了線性回歸模型中最小二乘估計的不穩(wěn)健性,進而引出M估計這類穩(wěn)健估計,從理論上分析穩(wěn)健估計的抗差性,并用R軟件對實際數(shù)據(jù)進行實證研究.結(jié)果表明,在處理含有異常點的數(shù)據(jù)過程中,穩(wěn)健估計優(yōu)于最小二乘估計.

        線性回歸模;M估計;穩(wěn)健性

        0 引言

        考慮線性回歸模型:

        寫成向量形式為:

        其中,Y=(Y1,…,Yn)T是n×1的觀測向量,β=(β1,…,βn)T是p×1未知參數(shù)向量,e=(e1,…,en)T是n×1誤差向量.

        為估計向量β,最常用的方法是最小二乘法,即

        其中x'i=(x1i,x2i…,xni).在X滿秩的條件下求得β的最小二乘估計:

        最小二乘估計雖然有許多優(yōu)良性質(zhì),如在Gauss-Markov假設(shè)下,最小二乘估計βLS具有很好的漸近效率,并且βLS是β估計的最佳線性無偏估計(簡稱BLUE),這一事實奠定了它在線性回歸估計中的重要地位.然而它并不是一個穩(wěn)健的估計,下面我們將從估計量穩(wěn)健性的兩個基本指標影響函數(shù)和崩潰點來說明βLS的不穩(wěn)健性.

        假設(shè)樣本X1,…,Xn獨立同分布,X1~H(x),樣本協(xié)方差陣正定且有界,誤差e1,…,en,獨立同分布,e1~F(x).

        在模型(1)下,(x1,y1),(x2,y2),…(xn,yn)獨立同分布,其聯(lián)合分布為:

        最小二乘估計βLS的統(tǒng)計泛函(記為βLS)是下列方程的解

        它的影響函數(shù)為:

        其中B=∫xxTd H(x)是正定矩陣.顯然βLS的影響函數(shù)無界,無論是響應變量y還是x的觀測數(shù)據(jù)受到污染,都可能對βLS的估計有很大的影響,并且βLS的漸近崩潰點為:

        1 穩(wěn)健方法

        一個非常穩(wěn)健的估計應該具有受限制的影響和高崩潰點,顯然最小二乘估計表現(xiàn)出非常不穩(wěn)健的特性.為克服這一缺點,我們引入穩(wěn)健統(tǒng)計中一類常用的M估計.

        設(shè)X1,…,Xn是來自某總體的一個樣本,ρ(x;θ)為非負函數(shù),若θ =θ (X)滿足

        M估計包括很多估計方法,如那些分類為M估計,GM估計,S估計及MM估計的方法,它們都是將最大似然的思想推廣用于尺度和位置的穩(wěn)健測度(Huber[1])M估計的性質(zhì)取決于選取的ρ(·),或者與之等價的ψ.如果選取ρ(x;θ)=-logf(y;θ),得到的是普通最大似然估計.如果ψ無界,漸近崩潰點則為0.為了產(chǎn)生一個能抵抗特異值干擾的估計,我們應該對分布尾部靠外的觀察值給予較小的權(quán)重,如Huber估計,雙權(quán)數(shù)估計.

        Huber估計由Huber函數(shù)決定:

        對(4)式求導,得到影響函數(shù):

        其中c是一個常數(shù),由上述Huber權(quán)重的函數(shù)可以看出M估計非常穩(wěn)健,并且與其他用于大樣本的穩(wěn)健測量相比,M估計具有較高的漸進效率,并且隨著樣本量的增大而具有更高的效率(參考Hogg[2]).下面我們將定義線性回歸模型中的M估計:

        其中Q(β)為目標函數(shù),β=(β1,β2,…,βp)是p維向量.

        將目標函數(shù)Q(β)限定為帶有非降的導數(shù)ψ(·),即ρ為凸函數(shù),則(5)可等價地寫成

        回歸的M估計是位置M估計的一種擴展,從形式上看,它是將殘差的某種函數(shù)進行最小化,其穩(wěn)健性也取決于函數(shù)ρ和ψ的選擇.

        求解回歸M估計的過程是一個復雜過程,因為殘差在模型未建立起來之前是一個未知量,而估計結(jié)果在殘差未知的情況下也無法直接求出來,所以必須用迭代程序.主要做法是開始給一個好的初始估計β(0),然后在式(5)中應用一步牛頓法,一般地,把最小二乘估計作為初始估計β(0)(盡管最小二乘估計具有比較差的穩(wěn)健性質(zhì)).

        M估計對重尾誤差和不定誤差具有很好的耐抗性,通常也有很高的漸近效率和崩潰點,然而它不能處理杠桿效應,對異常變化的隨機量X沒有很好的抵抗性.通常情況下可以用改進的M估計,利用M-S算法得到MM估計來處理杠桿效應,詳細過程可參考Rousseeuw[3].

        2 實際應用

        下列是來源于Rousseeuw[3](p.27,table 3)的天鵝座方向郝-羅素圖數(shù)據(jù),變量log.Te表示的是恒星表面的實際溫度(取對數(shù)),變量log.light表示的是光密度(取對數(shù)).

        表1 天鵝座方向郝-羅素圖數(shù)據(jù)

        考察星座光密度與星座表面的實際溫度的關(guān)系,可以模擬一元線性回歸模型:

        用最小二乘法得到回歸直線:

        我們將這條直線與星座光密度對星座表面的實際溫度的散點圖共同繪制在圖1中.

        圖1 光密度對星座表面的實際溫度的散點圖和擬合的最小二乘回歸直線

        從散點圖看,光密度與星座表面的實際溫度應該是正相關(guān),而我們擬合的最小二乘回歸線的斜率為負,意味著負相關(guān),與實際情況不同.從圖1可以發(fā)現(xiàn),回歸線被拉向第11,20,30,34這4個點,說明這四個點嚴重影響了我們建立的回歸模型,我們稱這4個點為異常點,也可以叫杠桿效應點.為了處理異常點,下面采取穩(wěn)健的方法來模擬模型(7).

        1)用M估計(用Huber函數(shù))得到穩(wěn)健回歸直線:

        2)用MM估計得到穩(wěn)健回歸直線:

        為了方便比較,我們把散點圖和所有模擬的回歸直線共同繪制在圖2中.

        圖2 光密度對星座表面的實際溫度的散點圖和擬合的最小二乘和穩(wěn)健回歸直線

        圖2表明,M估計(Huber函數(shù))雖然降低了異常點的權(quán)重,但是斜率仍然是負值,甚至其模擬結(jié)果比最小二乘還要差,可見Huber估計還是會受杠桿效應的影響,而改進后的MM估計能很好地抵抗異常的干擾.

        參考文獻:

        [1]Yohai V J.Robust estimation in the linear model[J].Ann Statist,1974,2:562~567.

        [2]Hogg R V.Adaptive robust procedures[J].Amer Statist Associ,1974,69:909~927.

        [3]Rousseeuw P J,Leroy A M.Robust regression and outlier detection[M].New York:Wiley,1987.

        [4]陳希孺,趙林城.線性模型中的M方法[M].上海:上??茖W技術(shù)出版社,1996.

        [5]Huber P J.Robust statistics[M].New York:Wiley,1981.

        [6]Yohai V J,Maronna R A.Asymptotic behavior of M-estimates for the linear model[J].Ann Statist,1979,7:258 ~268.

        [7]Zhao L C.Strong consistency of M-estimates in linear models[J].Sci China Ser A,2002,45:1420~1427.

        [8]Wu L,Qiu J.Applied multivariate statistical analysis and related topics with R[M].Beijing:Science Press,2013.

        [9]Chatterjee S,Hadi A S.Regression analysis by example,5th edn[M].Beijing:China Machine Press,2013.

        [10]Yohai V J.High Breakdown-Point and high efficiency robust estimates for regression[J].Ann Statist,1987,15:642~656.

        [11]Chatterjee S,Price B.Regression analysis by example[M].New York:Wiley,1977.

        Robust methods applied in linear regression models

        YU Yun-cai

        (College of Mathematics and Statistics,Hubei Normal University,Huangshi 435002,China)

        This paper considers some estimators in linear regression model,least-squares estimator is Confirmed the lack of robustness by analyzing their influence function and breakdown point,robust estimators such as M-estimator is investigated.In addition,the resistant of the robust estimators are analyzed theoretically and empirical application to the actual data by R software illustrates that robust estimators are significantly superior to least squares estimate when data contain outliers.

        linear regression model;M-estimator;robustness

        O212.1

        A

        1009-2714(2016)04-0035-05

        10.3969/j.issn.1009-2714.2016.04.009

        2016—02—18

        余云彩(1990— ),男,湖北陽新人,碩士,研究方向為回歸分析.

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        亚洲乱码中文字幕综合| 国产精品自拍视频在线| 国产精品网站91九色| 国模吧无码一区二区三区| 免费又黄又爽又猛的毛片| 极品诱惑一区二区三区| 蜜桃视频网址在线观看| 丰满少妇被猛烈进入高清播放| 乱中年女人伦av一区二区| 国产日产高清欧美一区| 岛国视频在线无码| 男女动态91白浆视频| 熟女人妇 成熟妇女系列视频| 99久久免费精品高清特色大片| 黄色录像成人播放免费99网| 亚洲熟妇一区二区蜜桃在线观看| 欧美老熟妇乱xxxxx| 小sao货水好多真紧h视频| 亚洲AV无码一区二区一二区色戒 | 欧美精品一级| 日日噜噜夜夜久久密挑| 亚洲综合精品中文字幕| 99精品国产99久久久久久97| 国产激情在观看| 少妇性l交大片免费快色| 精品国产午夜肉伦伦影院| 精品一区二区三区无码免费视频| 日韩AV无码一区二区三不卡| 久久精品视频日本免费| 久久国产成人精品国产成人亚洲| 粗了大了 整进去好爽视频| 在线观看av片永久免费| 99久久国产精品免费热| 亚洲日韩一区精品射精| 成人动漫久久| 国产麻豆国精精品久久毛片| 天天做天天添av国产亚洲| 国产精品视频一区二区三区四| 亚洲在线一区二区三区四区| 日本a级一级淫片免费观看| 国产无套内射久久久国产|