亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于估計穩(wěn)定性的變系數(shù)模型選擇

        2018-04-08 11:23:06呂曉玲劉擷芯戴秀紅
        統(tǒng)計與決策 2018年5期
        關(guān)鍵詞:方法模型

        呂曉玲,劉擷芯,戴秀紅

        (中國人民大學a.應(yīng)用統(tǒng)計研究中心;b.數(shù)據(jù)挖掘中心;c.統(tǒng)計學院,北京100872)

        0 引言

        變系數(shù)模型最初由Hastie和Tibshirani(1993)[1]提出,是一類非常重要的非參數(shù)回歸模型。它考慮了指示變量與協(xié)變量之間的交互效應(yīng),與常規(guī)的線性模型相比具有更強的適應(yīng)性和解釋性。它在計量經(jīng)濟、生物統(tǒng)計、社會科學等多個領(lǐng)域中都有著廣泛的應(yīng)用,已成為處理多元非參數(shù)、半?yún)?shù)回歸問題的有力工具[2-4]。

        在對實際問題進行回歸建模時,為了減小可能存在的模型誤差,研究者在初始建模時往往會引入很多可能與被解釋變量相關(guān)的協(xié)變量。但為了提高模型的預測精度、增強模型的可解釋性,研究者需要判別對因變量具有顯著影響的重要變量。因此,變量選擇已成為當今統(tǒng)計分析中一個重要的研究課題。各種各樣的正則化估計方法應(yīng)運而生,也即在傳統(tǒng)損失函數(shù)的基礎(chǔ)上加入懲罰函數(shù),從而實現(xiàn)變量選擇和參數(shù)估計的同時進行。

        與其他正則化估計方法一樣,在對變系數(shù)模型的正則化估計中,調(diào)節(jié)參數(shù)的選擇至關(guān)重要。常用的選參準則包括交叉驗證(Cross-validation,CV)、貝葉斯信息準則(Bayesian Information Criterion,BIC)、赤池信息量準則(Akaike Information Criterion,AIC)等,這些方法在判別顯著變量、提高模型預測準確性等多個方面都非常有效。不過,這些方法所確定的模型或多或少都不具有穩(wěn)定性,尤其是在高維數(shù)據(jù)設(shè)定下。對此,Lim和Yu(2013)[5]針對線性模型的LASSO問題中正則化參數(shù)的選擇提出了ESCV(estimation stability cross validation)方法,這一方法有效彌補了以往選參方法在高維數(shù)據(jù)分析中不穩(wěn)定這一不足。因此,本文將ESCV方法作為一種選參準則引入到變系數(shù)模型的正則化估計中,以期提高變系數(shù)模型的穩(wěn)定性。

        1 變系數(shù)模型及KLASSO估計

        其中ei∈R1是隨機噪聲,滿足E(ei|Xi,Zi)=0,系數(shù)向量β(z)={β1(z),...,βd(z)}T∈Rd是未知的,并且是Z的光滑函數(shù)。其真實值可給定為β0(z)={β01(z),...,β0d(z)}T∈Rd。不失一般性的假定存在整數(shù)d0≤d,對于任意的j≤d,有0<E{(Z)}<∞,但對于任意的j>d,0i0E{(Z)}=0,簡單來說,就是假定前d個預測變量與響i0應(yīng)變量是真實相關(guān)的,其余的是不相關(guān)的。

        Wang和Xia(2013)[4]提出的KLASSO(Kernel Lasso)估計,是一種將流行的核光滑方法與加罰估計結(jié)合起來的估計方法,其基本思想是將一個典型的收縮方法即LASSO算法的局部連續(xù)核估計應(yīng)用于變系數(shù)模型,KLASSO估計方法如下:

        對于任意的指標變量Zi∈[0,1],β(z)可以通過最小化下面的局部加權(quán)最小二乘函數(shù)來估計:

        對于B0={β0(Z1),…,β0(Zn)}T∈Rn×d,可通過最小化如下全局最小二乘函數(shù)來估計:

        注意到,在模型假設(shè)下,矩陣B0的最后(d-d0)列應(yīng)該都是0,因此變量選擇就等價于在矩陣B0中辨別出稀疏列。借用Yuan和Lin(2006)[6]提出的Group LASSO的方法來判別稀疏列,提出下面的加罰估計:

        其中,bj是B的第j列,‖.‖表示常用的歐幾里德范數(shù)。Wang和Xia(2013)[4]使用局部二階近似算法得到上述估計的解,并證明了KLASSO方法有很好的理論性質(zhì)。

        上述方法涉及到調(diào)節(jié)參數(shù)(核函數(shù)K的窗寬h以及懲罰函數(shù)的λj,1≤j≤d)的選擇問題。文中第一步使用了留一交叉驗證方法選取h,然后簡使用BIC準則選取λ0。

        2 基于估計穩(wěn)定性的新的變量選擇方法

        估計穩(wěn)定性對于一個合理的估計過程來說是一個必要的性質(zhì),如果隨著樣本的不同,估計的值變動相當大,那么這個估計是沒有意義的[5,7]。當用L2誤差來度量不同樣本間的差異時,估計穩(wěn)定性顯然與方差相關(guān),然而在統(tǒng)計學上人們傾向于用穩(wěn)定性而非變異性來形容不同條件和環(huán)境對所估計模型的影響,這就是說穩(wěn)定性是一個比方差或者變異性更廣泛的概念?,F(xiàn)有文獻中研究變系數(shù)模型變量選擇和估計方法的文章很多,但是研究變系數(shù)模型穩(wěn)定性的文章卻很少。然而模型穩(wěn)定性對于任何模型來說都是重要的,尤其是在數(shù)據(jù)采集技術(shù)及數(shù)據(jù)存儲技術(shù)日益強大的今天,人們經(jīng)??梢允占椒浅6嗟淖兞亢蜆颖緮?shù)據(jù),數(shù)據(jù)往往呈現(xiàn)海量或高維的形態(tài)。在分析這些大數(shù)據(jù)和高維數(shù)據(jù)時,統(tǒng)計方法的不穩(wěn)定性出現(xiàn)得更為普遍。

        在對有限樣本且無模型假定的數(shù)據(jù)建模時,交叉驗證(CV)是建模常用方法,它依賴數(shù)據(jù)重抽樣來評估候選模型的預測誤差。具體做法是:在給定的建模樣本中,拿出大部分樣本作為訓練集建立模型,留小部分樣本作為測試集,用訓練集所建立的模型對預測集進行預測,并求出測試樣本的預測誤差,記錄它們的誤差平方和,這個過程一直進行,直到所有的樣本都被作為測試集測試了一次而且僅被測試一次時,選出預測誤差平方和最小的模型作為最終模型。交叉驗證的目的是為了得到可靠穩(wěn)定的模型,然而,數(shù)據(jù)重抽樣會引發(fā)模型的不穩(wěn)定性,尤其是數(shù)據(jù)為大數(shù)據(jù)或者高維數(shù)據(jù)時。在正則化估計如LASSO估計方法中經(jīng)常用CV方法來選擇調(diào)節(jié)參數(shù),然而CV通常會導致模型不穩(wěn)定,從而不利于可靠性解釋。Lim和Yu(2013)[5]提出了ESCV方法,即將數(shù)據(jù)可信度需求加入到交叉驗證中,ESCV是一個基于估計穩(wěn)定性ES(Estimation stability)并將其與CV結(jié)合起來的一種無需模型假定的變量選擇方法。

        在變系數(shù)模型KLASSO估計實際計算中,需要選擇合適的調(diào)節(jié)參數(shù),調(diào)整參數(shù)的選擇在加罰估計的變量選擇過程中起著極其重要的作用。當調(diào)整參數(shù)λ=0時,所有的變量都被選進模型;當調(diào)整參數(shù)λ=∞時,那么模型中不含有任何變量。λ起到了控制模型復雜度的作用。λ取值越大,得到的模型越簡單。反之,λ取值越小,得到的模型越復雜。大的λ給出的估計的方差比較小,而小的λ對應(yīng)的模型偏差會比較小。因此,在KLASSO估計中調(diào)節(jié)參數(shù)λ的確定對模型的穩(wěn)定性有重要影響,估計方差和模型偏差之間一個好的平衡就需要選出一個比較理想的λ,如何選擇一個合適的調(diào)整參數(shù)使得模型在預測性和解釋性上都能達到一個理想結(jié)果就成為人們所關(guān)心的重要問題。

        Wang和Xia(2009)[4]提出的變系數(shù)模型的KLASSO估計中,確定收縮參數(shù)λ,是采用BIC最小準則,BIC雖然易于計算,但其有效性依賴于模型假定,而且它是漸近性結(jié)果,因此在樣本量有限的情況下,BIC模擬結(jié)果表現(xiàn)不一定很好,且BIC在統(tǒng)計性能上是不穩(wěn)定的[8],當數(shù)據(jù)是高維數(shù)據(jù)時,即樣本量n小于變量維度p時,Lim和Yu(2013)[5]將ESCV、CV(cross validation)和BIC應(yīng)用與Lasso方法,并對這三種方法所估計的模型的穩(wěn)定性進行比較,結(jié)果表明ESCV方法在多個指標上面都表現(xiàn)較好?;诖耍疚膶SCV作為一種選參方法引入到變系數(shù)模型加罰估計中,以期提高變系數(shù)模型在傳統(tǒng)變量選擇方法BIC下的模型穩(wěn)定性,挑選λ的準則是選擇具有局部最小標準化方差的[λ],即就是要使ES(λ)值最小。

        本文的分析比較中,選用模型預測均方誤差(MSE)、模型大?。∕S)以及顯著性變量個數(shù)(NOSV)及其百分比(PSV)四個方面來度量模型的穩(wěn)定性。均方誤差是度量模型穩(wěn)定性的首要標準,模型預測能力不好,則模型不可靠。模型大小即所選變量的個數(shù),在高維數(shù)據(jù)分析中,需要控制模型復雜度,若所選變量過多,模型太過復雜,模型的穩(wěn)定性就可能得不到保證。在眾多變量中對模型有顯著性影響的自變量對模型穩(wěn)定性有重要影響,顯著性變量個數(shù)及其百分比是指挑選多個變量的情況下,對模型有顯著影響的自變量個數(shù)及其占所選全部變量的比例。

        3 模擬研究

        3.1 正態(tài)分布下變系數(shù)模型模擬

        本文的次模擬是模擬實際中常見的數(shù)據(jù)分布形式,即自變量服從或近似服從正態(tài)分布的情形,模擬所采用的模型如下:

        其中假定X=(Xi1,Xi2,Xi3)服從正態(tài)分布N(0,1),ei服從正態(tài)分布N(0,0.8),σe=1.2,并設(shè)定不顯著變量(Xi4,…,Xip)服從正態(tài)分布N(0,0.8),全部變量之間的協(xié)示變量Z服從

        i均勻分布U(0,1)。

        在自變量來自正態(tài)分布的變系數(shù)模型中,本文用KLASSO方法進行參數(shù)估計和變量選擇,在估計過程中,調(diào)節(jié)參數(shù)分別選用ESCV準則和傳統(tǒng)的BIC準則進行確定。為了比較在不同變量維度下BIC和ESCV方法進行變量選擇對模型穩(wěn)定性的影響,本文設(shè)定總變量數(shù)p∈{10,30,60,70,90,100}。

        在模型樣本量n=50不變,變量數(shù)p不斷增大的情況下,將每個模型隨機模擬100次,結(jié)果如表1所示。

        表1 正態(tài)分布下模擬結(jié)果

        從表1中可以看出,在樣本量n=50保持不變而總變量數(shù)p變化時,兩種變量選擇方法的均方誤差(MSE)都隨著變量總數(shù)的增加而增大。當變量維度p小于樣本量n,即當p為10和30時,ESCV方法估計的預測誤差、變量個數(shù)以及顯著性百分比都不如BIC方法,但在高維數(shù)據(jù)情形下,即當變量維度p大于樣本量n時,ESCV方法的預測誤差、變量個數(shù)以及顯著性變量百分比優(yōu)于BIC方法且這種優(yōu)勢隨著變量維度p的增大越發(fā)明顯。

        當樣本量n=50,變量維度p=70時,ESCV的100次模擬平均預測誤差為2.29,BIC的100次模擬平均預測誤差為2.80,ESCV所選模型的MSE小于BIC所選模型且較BIC所選模型的MSE降低了18.21%,同時ESCV的100次模擬所選變量個數(shù)平均為16.92,BIC的100次模擬所選變量個數(shù)平均為42.88,ESCV所選模型的變量個數(shù)不到BIC所選模型變量個數(shù)的一半,ESCV方法較BIC大大縮減了模型變量維度,在顯著性變量占所選變量百分比上,ESCV所選模型的顯著性變量百分比為14.36%,是BIC所選模型的兩倍。當p=100時,ESCV所選模型的MSE較BIC所選模型降低約20%,ESCV所挑選的變量個數(shù)僅占全部變量數(shù)的16.05%,而BIC所選變量個數(shù)占全部變量數(shù)的66.29%,ESCV所選變量個數(shù)大約是BIC所選變量個數(shù)的四分之一,在顯著性變量百分比上,ESCV所選模型的顯著性變量百分比為14.70%,是BIC所選模型的三倍。由上述分析可知,當變量維度p大于樣本量n時,ESCV方法在模型穩(wěn)定性上的表現(xiàn)優(yōu)于BIC,且在樣本量不變的情況下,隨著變量維度p的增加優(yōu)勢越發(fā)明顯。

        3.2 稀疏情況下變系數(shù)模型模擬

        Lim和Yu(2013)[5]給出在高維稀疏情況下,ESCV方法較BIC估計方法更能突顯模型的穩(wěn)定性優(yōu)勢,因此,改變變系數(shù)模型中自變量的分布,將自變量分布稀疏化來探討在自變量稀疏情況下,ESCV方法與傳統(tǒng)變量選擇方法BIC在模型穩(wěn)定性上的不同表現(xiàn)。

        模擬模型假定與第一種情況相同,只是假定自變量X來自于服從均勻分布的隨機稀疏矩陣sprand(ss,p,d),其中ss為樣本量,p為總變量個數(shù),d為非零元素分布密度的大小,設(shè)為0.4。

        模型在樣本量n=50保持不變,總變量數(shù)p∈{10,30,60,70,90,100}的情況下,對每組模型設(shè)定都進行100次模擬,在KLASSO估計方法下,分別選用ESCV選參準則和BIC選參準則來選擇調(diào)節(jié)參數(shù),結(jié)果如表2所示。

        表2 稀疏情況下模擬結(jié)果

        從表2可以看出,自變量來自于稀疏分布情形時,在樣本量p小于n的情況下,即p=10或30時,在均方誤差MSE上,ESCV方法所選模型對應(yīng)的均方誤差較BIC方法要小,在模型大小以及顯著性變量百分比上,ESCV方法對應(yīng)的模型較BIC要大,但隨著變量維度的增加,當變量維度p大于樣本量n,即p∈{60,70,90,100}時,ESCV篩選變量的優(yōu)勢大大增強,均方誤差也越來越小。當p=100時,ESCV方法平均100次模擬的均方誤差為1.06,BIC方法對應(yīng)的均方誤差為1.18,ESCV方法的對應(yīng)模型的MSE較BIC減少了10.17%,且ESCV方法為模型所挑選的變量個數(shù)平均為4.09,大大少于BIC方法所選變量個數(shù)33.77,ESCV所選變量個數(shù)大約是BIC方法所選變量個數(shù)的四分之一,在顯著性變量百分比上,ESCV所選顯著性變量占全部所選變量的50.86%,而BIC方法所選顯著性變量占所選全部變量的7.26%,即BIC方法較ESCV方法更多的選擇了不顯著變量。

        與自變量來自于正態(tài)分布下的變系數(shù)模型相比,稀疏分布下兩種方法擬合的模型在模型均方誤差、模型大小、顯著性變量百分比上的表現(xiàn)都更好,但與BIC方法相比,ESCV方法對模型穩(wěn)定性的影響更為顯著,即ESCV方法下的模型均方誤差、模型大小減小幅度更大,顯著性變量百分比增大幅度則更多,如稀疏情形下,BIC方法對應(yīng)的模型大小是正態(tài)分布下模型大小的二分之一,而ESCV方法對應(yīng)的模型大小是正態(tài)分布下的四分之一。且稀疏分布情形下,低維時,ESCV方法對應(yīng)的模型均方誤差小于BIC,這與自變量來自于正態(tài)分布且數(shù)據(jù)為低維情況下ESCV預測誤差大于BIC相反。高維時,不論自變量來自哪種分布,ESCV在均方誤差、模型大小、顯著性變量百分比上都優(yōu)于BIC。在高維稀疏數(shù)據(jù)分析中,ESCV較BIC方法的穩(wěn)定性優(yōu)勢更加明顯。

        4 實例分析

        4.1 Boston Housing數(shù)據(jù)分析

        本文將分析Boston住房數(shù)據(jù),該數(shù)據(jù)是在1970年Boston地區(qū)收集的506個人口普查區(qū)的房價信息。本文沿用Fan和Huang(2005)[9]的變量設(shè)定,將MEDV(業(yè)主自用房子的中位數(shù),以$1000為單位)作為響應(yīng)變量Y,LSTAT(地區(qū)較低地位人群占總體的百分比)作為指示變量Z,數(shù)據(jù)集中的其他七個變量作為自變量INT(截距,X1),CRIM(鎮(zhèn)上人均犯罪率,X2),RM(每座房子的平均房間數(shù),X3),PTRATIO(鎮(zhèn)上學生-老師人數(shù)比,X4),NOX(氮氧化物濃度,X5),TAX(房間全價值物業(yè)稅率,以$10000為單位,X6)和AGE(業(yè)主占用房子建造早于1940年的比例,X7)。

        將全部506個樣本單元隨機分成十份,每次選取其中九份做訓練集,另一份為預測集。在應(yīng)用模型之前,需要將自變量X和指示變量LSTAT標準化處理。由抽取的訓練集數(shù)據(jù)建立變系數(shù)模型,并在KLASSO方法下分別選用ESCV與BIC兩種方法進行變量選擇,記錄10次抽樣數(shù)據(jù)擬合中每個變量被選入模型的次數(shù),以及每次模型預測集的均方誤差MSE,結(jié)果如表3所示。

        從表3中可以看出,對10次擬合進行平均,ESCV的均方誤差MSE與BIC方法對應(yīng)模型的MSE相當,但在10次擬合中,ESCV方法傾向于選擇前三個變量,變量X1,X2,X3被選中的次數(shù)分別為10、9、10,即ESCV方法能夠穩(wěn)定的選擇出前三個自變量,而BIC方法在每次模擬時所選變量的個數(shù)以及傾向于選擇哪些變量都不穩(wěn)定,即抽樣數(shù)據(jù)不同時,BIC不能保證所估計模型的穩(wěn)定性。

        為了進一步理解抽樣數(shù)據(jù)分析中的不穩(wěn)定性,給出第6次抽樣下,BIC方法對應(yīng)模型的估計系數(shù)圖,如圖1(上);ESCV方法所對應(yīng)模型的估計系數(shù)圖,如圖1(下)。

        從圖1(上)中可以看出,在BIC方法下,用此次抽樣所得的455個數(shù)據(jù)進行變量選擇,所選取的變量數(shù)為1,即僅第一個變量INT顯著不為0,其他六個變量的全部估計為0。用此次數(shù)據(jù)建立模型并對余下的51個數(shù)據(jù)進行預測,所對應(yīng)的平均預測誤差為0.5115;圖1(下)給出了相同樣本數(shù)據(jù)下,用ESCV方法進行變量選擇,所選取的變量個數(shù)為3,即INT、RM、CRIM這3個變量顯著不為0,用所建模型對余下的51個數(shù)據(jù)進行預測,所對應(yīng)的平均預測誤差為0.4082。對比兩個圖可以看出在一次抽樣數(shù)據(jù)擬合中,對同一個自變量的估計,例如自變量INT,ESCV方法對該變量估計的波動程度要顯著小于BIC方法,即ESCV方法估計的變量系數(shù)更為穩(wěn)定。

        表3 Boston住房數(shù)據(jù)結(jié)果

        圖1 BIC(上)和ESCV(下)方法下自變量估計系數(shù)變動情況

        從Boston housing的數(shù)據(jù)分析中可以看到,當所抽取的樣本數(shù)據(jù)發(fā)生變化時,BIC方法選擇的變量個數(shù)就會隨之發(fā)生大的變動,而ESCV卻能穩(wěn)定地選出對因變量有重要影響的自變量,且對所選變量的系數(shù)估計也更穩(wěn)定。

        4.2 新浪新聞數(shù)據(jù)分析

        利用爬蟲技術(shù)在新浪新聞網(wǎng)站獲取2013年7月1日至9月30日(共12周)財經(jīng)(標簽為+1)和健康(標簽為-1)兩類新聞文檔。共390篇,兩類的比例為1:1。利用分詞軟件將原始文本數(shù)據(jù)轉(zhuǎn)化為文檔詞頻矩陣。隨機選取150篇文檔為訓練集,剩余240篇為測試集。利用LASSO初步篩選出162個關(guān)鍵詞。指示變量z為時間并以周為時間單位。即假定關(guān)鍵詞對新聞類別的影響與其出現(xiàn)的時間有關(guān)。

        在變系數(shù)模型KLASSO估計中,分別用ESCV和BIC兩種方法確定調(diào)節(jié)參數(shù),用所確定模型的分類準確率來衡量模型預測誤差,用所選擇變量的個數(shù)來確定模型大小。將數(shù)據(jù)進行10次抽樣,并對每次抽樣所得數(shù)據(jù)進行擬合,每次擬合模型所選變量數(shù),以及模型分類準確率所得結(jié)果如表4所示:

        表4 新聞數(shù)據(jù)分類準確率和模型大小

        從表4中可以看出,在樣本量n=150小于變量維度p=162時,盡管10次所抽取的樣本數(shù)據(jù)不一樣,但用ESCV方法選擇出的變量所建模型的分類準確率始終要大于BIC方法的分類準確率,且在模型大小上,BIC方法傾向于選擇幾乎所有的變量,而ESCV傾向于選擇固定的20多個變量,ESCV挑選出的變量個數(shù)始終顯著小于BIC方法下的變量個數(shù),在此次新聞數(shù)據(jù)分析中,ESCV變量選擇方法有明顯的降維作用,在分類準確率上較傳統(tǒng)BIC方法也有優(yōu)勢,采用ESCV變量選擇方法可以顯著提高模型的穩(wěn)定性。

        為了更好地理解ESCV選擇變量的穩(wěn)定性要優(yōu)于BIC,給出某次抽樣下,ESCV選擇變量的情況,如在第四次抽樣中,ESCV在162個關(guān)鍵詞中,選擇了22個對分類有重要影響的關(guān)鍵詞,即選擇的變量個數(shù)為22。分析這22個關(guān)鍵詞,大致可以分為三大類,第一類是明顯跟經(jīng)濟類相關(guān)的詞,如:美元、經(jīng)濟、投資、下降、漲、中國、企業(yè)、發(fā)展、部門;第二類是跟健康類相關(guān)詞,如:醫(yī)院、性、肌肉、成分、疾病、健康、破壞、食物、效果;第三類是對分類沒有很重要作用,但在兩類文章中都會出現(xiàn)的詞,如:發(fā)布、公布、好。

        在此次抽樣中,BIC方法所選變量個數(shù)為160,幾乎所有由LASSO初步篩選出的關(guān)鍵詞都被引入到模型中。因此BIC所建模型比ESCV更復雜。在兩種選參方法下,“健康”一詞都被選中,但兩種方法對其重要性的估計不同,下面本文給出兩種方法下,關(guān)鍵詞“健康”在12周中估計系數(shù)的變化對比圖,如圖2所示。

        圖2ESCV和BIC方法下關(guān)鍵詞“健康”估計系數(shù)變化圖

        從圖2中可以看出,在12周中,“健康”一詞在分類上始終是有重要作用的詞匯,但在BIC方法下估計出的系數(shù)值即關(guān)鍵詞重要性波動較大,而在ESCV方法下估計系數(shù)值變動較小,在前4周幾乎沒有變動,第4周略有下降,但在后4周中又開始固定不變,系數(shù)值基本保持在0.4995的水平上,ESCV比BIC方法對該詞的估計更為穩(wěn)定。

        從新浪新聞數(shù)據(jù)分析可以看出,在高維數(shù)據(jù)情況下,ESCV在模型預測、變量選擇上較BIC表現(xiàn)得更好,即在變系數(shù)模型KLASSO估計下,選用ESCV準則比選用BIC準則進行變量選擇所確立模型的穩(wěn)定性更強。

        5 總結(jié)

        本文是基于Yu和Lim(2013)[5]提出的ESCV方法以及對模型穩(wěn)定性的度量標準,將ESCV方法引入到變系數(shù)模型加罰估計中,以期提高變系數(shù)模型的穩(wěn)定性。本次研究主要是基于Wang和Xia(2009)[4]提出的變系數(shù)模型KLASSO估計,在KLASSO估計實際計算中,分別應(yīng)用ESCV方法與BIC方法進行調(diào)節(jié)參數(shù)的選擇,并對比不同選參方法對模型穩(wěn)定性的影響,而模型穩(wěn)定性主要從模型預測誤差、模型大小和顯著性變量百分比上來進行比較。

        本文雖然找到了一種能夠提高變系數(shù)模型穩(wěn)定性的方法,但同樣存在很多問題:首先對于模型穩(wěn)定性統(tǒng)計學上還沒有給出標準的定義,本文只能直觀地從預測誤差、選擇變量等方面來衡量模型是否穩(wěn)定;其次變系數(shù)模型有很多估計方法,而此次研究僅限于KLASSO估計,在其他變系數(shù)模型估計方法下,ESCV方法是否能夠比BIC方法表現(xiàn)好還有待進一步研究;最后數(shù)據(jù)在低維情形時,多次抽樣情況下,雖然ESCV方法的變量選擇穩(wěn)定性要優(yōu)于BIC,但是BIC方法的平均預測誤差要小于ESCV,ESCV方法可能存在總是漏選某個重要變量的情況。

        參考文獻:

        [1]Hastie T,Tibshirani R.Varying Coefficient Models[J].Journal of Royal Statistical Society:Series B,1993,(55).

        [2]Fan J,Zhang W.Statistical Estimation in Varying Coefficient Models[J].Journal of the American Statistical Association,1999,(27).

        [3]Chiang C,Rice J A,Wu C O.Smoothing Spline Estimation for Varying Coefficient Models With Repeatedly Measured Dependent Variables[J].Journal of American Statistical Association,2001,(96).

        [4]Wang H,Xia Y.Shrinkage Estimation of the Varying Coefficient Model[J].Journal of the American Statistical Association,2009,(104).

        [5]Lim C,Yu B.Estimation Stability With Cross Validation(ESCV)[J].arXiv,2013,(1303).

        [6]Yuan M,Lin Y.Model Selection and Estimation in Regression With Grouped Variables[J].Journal of the Royal Statistical Society:Series B,2006,(68).

        [7]Yu B.Stability[J].Bernoulli,2013,19(4).

        [8]Breiman L.Heuristics of Instability and Stabilization in Model Selection[J].Annals of Statistics,1996,(24).

        [9]Fan J,Huang T.Profile Likelihood Inferences on Semiparametric Varying Coefficient Partially Linear Models[J].Bernoulli,2005,(11).

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        學習方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        色窝窝无码一区二区三区2022| 人妻精品久久久久中文字幕| 国产精品伦一区二区三级视频| 久久香蕉免费国产天天看| 亚洲AV成人综合五月天在线观看| 久久精品人妻一区二三区| 国产一区二区三区小说| 国产专区国产av| 亚洲欧美成人中文在线网站| 亚洲一区二区三区精品久久av| 亚洲一区二区三区四区五区黄| 国产亚洲日韩在线三区| 不卡无毒免费毛片视频观看| 丰满巨臀人妻中文字幕| 97人人模人人爽人人喊网| 欧美黑人疯狂性受xxxxx喷水| 国产成人一区二区三区影院免费| 蕾丝女同一区二区三区| 久久精品中文闷骚内射| 国产女人18毛片水真多| 黄色网页在线观看一区二区三区| 在线播放亚洲丝袜美腿| 国产激情电影综合在线看| 白浆出来无码视频在线| 国产少妇露脸精品自拍网站| 风韵少妇性饥渴推油按摩视频| 国产熟妇搡bbbb搡bb七区| 亚洲成熟丰满熟妇高潮XXXXX| 日本精品免费看99久久| 伊人久久大香线蕉av网禁呦| 免费 无码 国产在线观看不卡| 亚洲女同性恋激情网站| 国产av一区二区三区无码野战| 无码人妻丰满熟妇啪啪7774| 亚洲精品2区在线观看| 邻居美少妇张开腿让我爽了一夜| 国产亚洲精品久久777777| 亚洲视频高清| 婷婷久久亚洲中文字幕| 大学生粉嫩无套流白浆| 婷婷成人亚洲|