亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        部分線性模型下Adaptive Dantzig Selector方法的漸近正態(tài)性

        2018-06-23 12:22:54李丹丹劉琳
        關(guān)鍵詞:樣本數(shù)正態(tài)維數(shù)

        李丹丹,劉琳

        (廣西大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,廣西 南寧 530004)

        1 引言

        變量選擇是進(jìn)行數(shù)據(jù)分析以及統(tǒng)計(jì)建模過程中比較重要的部分.近年來,由于大量超高維數(shù)據(jù)的涌現(xiàn),變量選擇引起了學(xué)者的高度重視.隨著研究的不斷深入,越來越多的變量選擇方法與相對(duì)應(yīng)的算法被提出.其中最典型的代表是Lasso(Least Absolute Shrinkage and Selection Operator)方法.Lasso[1]方法的提出迅速引起了很多學(xué)者的關(guān)注,在研究的過程中Lasso方法的局限性也突顯出來,文獻(xiàn)[2]指出Lasso方法給出的估計(jì)不具有相合性以及大樣本性質(zhì).為了解決這一問題,文獻(xiàn)[3]提出DS(Dantzig Selector)方法,并研究了DS估計(jì)損失的非漸進(jìn)界,但沒有得出其漸進(jìn)性質(zhì).之后文獻(xiàn)[4]和文獻(xiàn)[5]分別提出了處理超高維數(shù)據(jù)的ADS(Adaptive Dantzig Selector)方法和DASSO算法.在目前的文獻(xiàn)中對(duì)ADS方法的研究仍較少,現(xiàn)考慮當(dāng)維數(shù)隨樣本數(shù)以指數(shù)速度增長(zhǎng)時(shí),在部分線性模型下ADS方法的漸近正態(tài)性質(zhì).

        2 ADS方法及其性質(zhì)

        2.1 部分線性模型下 ADS估計(jì)的定義

        設(shè)X=(X1,X2,···,Xp)T是p維協(xié)變量,Y是響應(yīng)變量,β=(β1,β2,···,βp)T為p維非零的參數(shù)向量,g(t)為未知的非參數(shù)函數(shù),且g(·)光滑,ε是隨機(jī)誤差,E(ε/X,t)=0,則部分線性模型[6]形式如下:

        對(duì)(1)式兩邊分別求關(guān)于t的條件期望,得到

        聯(lián)立(1)(2)兩式可得

        下面利用核估計(jì)方法,令mX(t)=E(X/t),mY(t)=E(Y/t),其中mX(t),mY(t)的估計(jì)

        K(·)為核函數(shù),h為窗寬.下面定義部分線性模型的DS[7]估計(jì)為:

        其中,λ為調(diào)整參數(shù).令

        定義 2.1部分線性模型下的ADS估計(jì),

        則所求解為ADS估計(jì)值,記為

        此時(shí)非參數(shù)部分g(t)的估計(jì)為選取權(quán)重函數(shù)令W=diag(ω1,ω2,···,ωp),其中是的相合估計(jì),f(·)是正的減函數(shù),且f(0)=∞.

        2.2 ADS估計(jì)的漸近正態(tài)性

        設(shè)真實(shí)參數(shù)值稀疏,其中

        首先給出半?yún)?shù)模型中的正則條件:

        1 設(shè)核函數(shù)K(·)關(guān)于原點(diǎn)對(duì)稱,支撐區(qū)間為[?1,1],存在常數(shù)M1和M2,有 0≤M1≤M2,使得

        2

        3t的密度函數(shù)不為0,與mX(t),mY(t)都是二階導(dǎo)數(shù)連續(xù)有界,其中mX(t),mY(t)估計(jì)選擇的窗寬h的階數(shù)為

        接下來給出四個(gè)條件假設(shè):

        (a)假設(shè)誤差項(xiàng)ε1,···,εn獨(dú)立同分布,并對(duì)某常數(shù)1≤d≤2,L>0和K,對(duì)任意的x≥0和i=1,2,···,εi,p(|εi|>x)≤Kexp(?Lxd)的尾概率均滿足,使維數(shù)p隨著樣本數(shù)n以指數(shù)速度exp(nα)增長(zhǎng),其中0<α<1.

        (b)假設(shè)初始估計(jì)滿足其中ηj是依賴于β的未知常數(shù),滿足如下不等式

        (c)設(shè)q為通過變量選擇得到的變量個(gè)數(shù),記為|A|.由q=O(nc1),0

        成立,其中k為常數(shù),Σ是p×p維矩陣,ΣAA是Σ中|A|×|A|維子矩陣組成,0

        (d)設(shè)

        其中XAi表示矩陣XA的第i列.

        說明:假設(shè)條件(a)保證了維數(shù)p隨著樣本數(shù)n以指數(shù)速度exp(nα)增長(zhǎng),對(duì)于(b)中系數(shù)的初始估計(jì)的取法,Huang[8]提出在適當(dāng)條件下可以用邊際回歸估計(jì)量來作為ALasso(Adaptive Least Absolute Shrinkage and Selection Operator)方法的初始估計(jì),類似的方法,可在(b)中取

        先用邊際回歸估計(jì)量得到回歸系數(shù)的初始估計(jì)再用來作為ADS方法的權(quán)重,結(jié)合(c)(d)假設(shè)可得在部分線性模型下ADS方法的漸近正態(tài)性,下面給出具體的證明.

        定理 2.1若及假設(shè)條件(a)至(d)成立時(shí),p隨著樣本數(shù)n以指數(shù)速度exp(nα)增長(zhǎng),其中0<α<1.則部分線性模型ADS參數(shù)估計(jì)量滿足

        證明根據(jù)設(shè)(4)式的解為其中

        I為單位陣,K=(Kij)n×n.由假設(shè)條件 (a)至(d),則有

        根據(jù)條件(d),令則

        所以由slutsky定理,得

        通過上述得到維數(shù)p關(guān)于樣本數(shù)n以指數(shù)速度增加時(shí),在部分線性模型下ADS方法具有漸近正態(tài)性,即在處理超高維稀疏數(shù)據(jù)時(shí),可以達(dá)到有效降維和確保模型準(zhǔn)確率的目的.下面通過數(shù)值模擬來驗(yàn)證該方法的可行性與優(yōu)越性.

        3 數(shù)值模擬

        假設(shè)數(shù)據(jù)取自模型為

        其中g(shù)(t)=sin(2πt),t服從 [0,1]上的均勻分布ε~N(0,1),真實(shí)參數(shù)β有六個(gè)非零分量β=(1,3,1,3,1/2,1/2,0,···,0)取n=50,非參數(shù)估計(jì)核函數(shù)為Epanechnikov核,K(μ)=0.75(1?μ2)+,調(diào)整參數(shù)采用BIC懲罰參數(shù)選取法,取維數(shù)p=100,500,在R軟件編輯程序,并重復(fù)運(yùn)行1000次,取其非零系數(shù)估計(jì)結(jié)果的平均數(shù)進(jìn)行匯總為如表1所示.

        表1 兩種方法的系數(shù)估計(jì)平均值

        通過數(shù)值模擬結(jié)果可以看出,當(dāng)p?n時(shí),ADS方法得到的估計(jì)值與Lasso方法相比更接近真值,故驗(yàn)證了該方法的優(yōu)良性.

        下面通過實(shí)例進(jìn)一步驗(yàn)證在大眾點(diǎn)評(píng)網(wǎng)數(shù)據(jù)中的可行性.

        4 實(shí)例分析

        本文將 ADS方法用于大眾點(diǎn)評(píng)網(wǎng)數(shù)據(jù) (http://www.dianping.com/beijing),數(shù)據(jù)集共由1000多家美食類商家數(shù)據(jù)組成,主要選取了消費(fèi)者關(guān)心的信息指標(biāo)以及直接影響消費(fèi)者決策判斷的數(shù)據(jù)進(jìn)行收集.將銷售量作為響應(yīng)變量記為:Y,將店鋪星級(jí)、店鋪動(dòng)態(tài)評(píng)分(即口味、環(huán)境、服務(wù))、人均消費(fèi)價(jià)格、好評(píng),一般,差評(píng)的數(shù)量,以及32種菜系等40個(gè)指標(biāo)作為協(xié)變量記為:X1,X2,X3,···,X39,X40.通過分析,可得Y與X符合部分線性模型條件,找出與Y存在較顯著的非線性關(guān)系的協(xié)變量,將其作為非參數(shù)模型中g(shù)(·)的協(xié)變量.在R軟件中,可利用LARS算法與DASSO算法,同時(shí)采用五折交叉驗(yàn)證法選取懲罰參數(shù)λ,結(jié)果如表2所示,其中兩種方法系數(shù)估計(jì)值全為0的已略去.

        表2 模型非零系數(shù)的估計(jì)值

        將預(yù)測(cè)模型代入檢測(cè)集中得出模型的驗(yàn)證結(jié)果如表3所示:

        表3 兩種方法驗(yàn)證結(jié)果比較

        在表3中,CSR(Correct Selection Rate)表示模型選擇的正確率,即在檢測(cè)集中能正確預(yù)測(cè)出的個(gè)數(shù)/檢測(cè)集的總個(gè)數(shù),MSE(Mean Square Error)表示均方誤差值表示檢測(cè)集中的數(shù)據(jù),表示預(yù)測(cè)結(jié)果取整后的值,N(Number)表示模型中被選入變量的個(gè)數(shù).從表3的驗(yàn)證結(jié)果中可以看出:

        1.對(duì)于CRS值,Lasso方法所對(duì)應(yīng)的CRS值為80.95%小于ADS方法的83.72%;

        2.對(duì)于MSE值,模型中Lasso方法對(duì)應(yīng)的MSE值是大于ADS方法的MSE值;

        3.對(duì)于N值,在模型中Lasso方法比ADS方法在變量選擇時(shí)多選入了2個(gè)變量,且ADS方法能從40個(gè)變量中準(zhǔn)確的選出7個(gè)對(duì)銷售量有顯著影響的特征變量.

        結(jié)合上述結(jié)論,得出ADS方法在實(shí)際應(yīng)用中的可行性以及高精準(zhǔn)性.

        5 結(jié)論

        本文首先給出部分線性模型下ADS方法的定義,并證明了在超高維情況下,p維數(shù)隨樣本數(shù)n以指數(shù)速度增長(zhǎng)時(shí),在部分線性模型下ADS方法的漸近正態(tài)性質(zhì).然后通過數(shù)值模擬并結(jié)合大眾點(diǎn)評(píng)網(wǎng)美食店鋪的數(shù)據(jù),通過比較ADS方法與Lasso方法的計(jì)算結(jié)果,進(jìn)一步驗(yàn)證了在部分線性模型下ADS方法在處理超高維稀疏性數(shù)據(jù)時(shí)的大樣本性質(zhì),以及在實(shí)際應(yīng)用中的可行性以及高精準(zhǔn)性.

        [1]Tibshirani R.Regression shrinkage and selection via the Lasso[J].Journal of the Royal Statistical Society,2011,73(3):273-282.

        [2]Zhao P,Yu B.Stagewise Lasso[J].Journal of Machine Learning Research,2014,8(12):2701-2726.

        [3]Candes E,Tao T.The Dantzig Selector:statistical estimation whenpis much larger thann[J].The Annals of Statistics,2007,35(6):2392-2404.

        [4]Dicker L,Lin X.Parallelism,uniqueness,and large-sample asymptotics for the Dantzig selector[J].Canadian Journal of Statistics,2013,41(1):23-35.

        [5]James G M,Radchenko P.A generalized Dantzig selector with shrinkage tuning[J].Biometrika,2009,96(2):323-337.

        [6]董凱.高維數(shù)據(jù)部分線性模型的變量選擇[D].北京:北京工業(yè)大學(xué)圖書館,2012.

        [7]Li F.Variable selection and parameter estimation for partially linear models via Dantzig selector[J].Metrika,2013,76(2):225-238.

        [8]Huang J,Ma S.Adaptive lasso for sparse high-dimensional regression models[J].Statistica Sinica,2006,18(4):1603-1618.

        [9]Dicker L H.Regularized Regression Methods for Variable Selection and Estimation[D].Boston:Harvard University,2010.

        猜你喜歡
        樣本數(shù)正態(tài)維數(shù)
        β-變換中一致丟番圖逼近問題的維數(shù)理論
        勘 誤 聲 明
        一類齊次Moran集的上盒維數(shù)
        雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
        關(guān)于齊次Moran集的packing維數(shù)結(jié)果
        涉及相變問題Julia集的Hausdorff維數(shù)
        基于泛正態(tài)阻抗云的諧波發(fā)射水平估計(jì)
        半?yún)?shù)EV模型二階段估計(jì)的漸近正態(tài)性
        三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
        田間鑒定雜交棉品種純度的適宜時(shí)期和樣本數(shù)
        久久国产亚洲精品超碰热| 国产精品国产三级国产a| 色婷婷久色国产成人免费| 亚洲一区二区三区蜜桃| 中文字幕av一区二区三区人妻少妇| 97人人模人人爽人人喊电影| 精品无码国产自产野外拍在线| 欧美日韩精品一区二区三区高清视频| 91精品国产乱码久久久| 精品一区二区三区国产av| 亚洲av成人av三上悠亚| 欧美video性欧美熟妇| 国产精品国语对白露脸在线播放| 妞干网中文字幕| 日韩精品国产一区在线| 亚洲一区二区三区精品久久av| 亚洲处破女av日韩精品中出| 亚洲另类欧美综合久久图片区 | 国产精品自产拍在线观看免费| 蜜桃av福利精品小视频| 亚洲一区二区三区精品视频 | 一区二区三区日本高清| 男人扒开添女人下部免费视频| 少妇人妻在线视频| 国产爆乳美女娇喘呻吟久久| 亚洲码无人客一区二区三区| 久久777国产线看观看精品 | 一本色道久久88加勒比一| 国产精品一区二区久久乐下载| 国产精品高潮无码毛片| 亚洲熟妇夜夜一区二区三区| 久久本道久久综合伊人| 欲求不満の人妻松下纱荣子 | 青青草国产成人99久久| 巨臀中文字幕一区二区| 日韩亚洲在线观看视频| 成人午夜福利视频后入 | 九一成人AV无码一区二区三区| 都市激情亚洲综合一区| 少妇被黑人整得嗷嗷叫视频| 成人白浆超碰人人人人|