亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于稀疏回歸的變量選擇研究

        2022-09-06 02:54:20徐嘉璐雷馨鈺
        關(guān)鍵詞:高維樣本量情形

        徐嘉璐,雷馨鈺

        蘭州財經(jīng)大學(xué) 統(tǒng)計學(xué)院,甘肅 蘭州 730020

        在這個大數(shù)據(jù)爆發(fā)的時代,數(shù)據(jù)的收集成本不斷降低,高維數(shù)據(jù)在各個領(lǐng)域隨處可見,這樣的數(shù)據(jù)不僅規(guī)模大,而且關(guān)系復(fù)雜、相關(guān)性強,傳統(tǒng)的統(tǒng)計方法不再適用,從而給統(tǒng)計學(xué)帶來巨大的“壓力”。那么怎樣從冗余的數(shù)據(jù)中篩選出對我們有用的信息則變成了重中之重,也是目前研究的熱點方向。

        處理高維數(shù)據(jù)的關(guān)鍵點在于進行降維。主成分分析是一種能夠處理相關(guān)數(shù)據(jù)和進行數(shù)據(jù)降維的統(tǒng)計工具,能夠廣泛應(yīng)用于社會科學(xué)、醫(yī)學(xué)、計量學(xué)等領(lǐng)域中[1-3]。它將許多原始變量替換為少數(shù)主成分,進而減少變量數(shù)量。但每個主成分都是原始變量的線性組合,那么每一個主成分到底表達(dá)的是什么方面的特征就很難看出來,使得分析結(jié)果通常難以解釋。在大數(shù)據(jù)環(huán)境下,該問題受到了很多關(guān)注,比如針對原始變量的替代方案或修改,以及與有偏回歸進行聯(lián)系。例如,引入PCA[4]的稀疏替代方案,Zou[5]利用Lasso[6]和 elastic net[7]的稀疏特性,使得一些載荷能夠縮小到0從而使變量稀疏化,所得方法稱為稀疏 PCA(SPCA)。或是將主成分同回歸進行有機結(jié)合,主成分回歸(PCR)[8-9]是一種非常有吸引力的方法,它能夠解決數(shù)據(jù)共線性的問題,并減少變量數(shù)量。在PCR中每個主成分都是原始變量的線性組合,不再是原來的變量。Kawano等[10]使用 SPCA 替代傳統(tǒng)的主成分回歸方法,這被稱為稀疏主成分回歸(SPCR)。這不僅可以獲得原始變量的稀疏主成分載荷同時還可以得到主成分的數(shù)量;張文明等[11]在主成分分析的基礎(chǔ)上,利用elastic net對主成分的系數(shù)進行稀疏近似,在保留主成分優(yōu)點的基礎(chǔ)上,還能夠提高模型的解釋性;Tay等[12]將主成分與Lasso回歸相結(jié)合提出了一種新的監(jiān)督學(xué)習(xí)方法,即pcLasso。它將L1懲罰與二次懲罰相結(jié)合,將系數(shù)向量縮小到特征值的主要主成分上,通過模擬表明能夠提高預(yù)測性能。

        本文梳理了傳統(tǒng)的PCA、SPCA、PCR的方法,并與一些稀疏回歸方法進行結(jié)合,基于模擬來進行變量選擇。利用敏感性與特異性等指標(biāo)來分析比較不同方法的使用情況,并擴展到高維數(shù)據(jù)情形下,擴寬了模型的應(yīng)用范圍。

        1 模型簡介

        先考慮一個最傳統(tǒng)的線性回歸模型:

        y=Xξ+ε,

        (1)

        其中y=(y1,…,yn)T是具有np個觀測值的解釋變量;x=(x1,…,xp)是n×p數(shù)據(jù)矩陣,包含有n個解釋變量的信息;ε為隨機誤差項,假定相互獨立且服從正態(tài)分布εt~N(0,σ2)式(1)的最小二乘可以表示為:

        最小二乘估計是常用的一種系數(shù)估計方法,在假設(shè)條件下,具有無偏性。當(dāng)自變量之間存在多重共線性時,經(jīng)典的OLS方法變得不再適用。為了解決這些問題,主成分回歸是一種常用的方法,通過生成自變量的線性組合來解決多重共線性的問題,X分解為:

        X=TPT+E,

        (3)

        其中E是誤差項,P為載荷矩陣。將其帶入原來的線性回歸模型中,結(jié)果如下:

        y=(TPT)ξ+εT=Tθ+εT,

        (4)

        其中θ=PTβ,εT為誤差項,將OLS估計量應(yīng)用以上的回歸系數(shù)。

        盡管,主成分回歸是分析多變量數(shù)據(jù)的有用工具,但如果響應(yīng)變量取決于具有小特征值的主成分,那么該方法可能沒有足夠的預(yù)測精度。稀疏主成分(SPCA)能夠獲得與響應(yīng)變量相關(guān)的稀疏主成分載荷,并同時選擇主成分的數(shù)量。

        其中B=(β1,…,βk)是p×k的載荷矩陣,k表示主成分的數(shù)量,A=(α1,…,αk)是一個p×k的矩陣,λi,j(j=1,…,k)是正則化參數(shù),‖·‖1是ξ的L1范數(shù)。

        對于回歸模型來說,另外一個具有解決問題的方案是Kawano(2015)提出的稀疏PCR(SPCR),他同樣能夠改善當(dāng)響應(yīng)變量對應(yīng)小特征值而無法預(yù)測的情況。它通過下式定義:

        其中ξ0是截距,λβ和λξ是非負(fù)的正則化參數(shù),w和ξ是介于0和1之間的調(diào)整參數(shù)。公式中的第一項表示相應(yīng)變量與主成分BTx之間的最小二乘損失,第二項代表數(shù)據(jù)X的主成分丟失,調(diào)整參數(shù)w是用來權(quán)衡第一項和第二項的權(quán)數(shù),可以根據(jù)目的來選擇w的值,要是想要獲得更高的預(yù)測精度時,可以選擇較小的w值,如果想要獲得主成分載荷的精確形式時,可以使用較大的w值。第三項和第五項則是用來表示B和γ的稀疏程度。B上的稀疏性能夠輕松進行主成分載荷的選擇,γ的稀疏使得主成分個數(shù)選擇更加方便。調(diào)整參數(shù)ξ用來權(quán)衡B的L1和L2范數(shù)之間權(quán)重。

        由此來看,可以利用一些稀疏的估計量來代替OLS來改進預(yù)測效果,如使用Lasso回歸來構(gòu)建回歸模型,其中一些大的主成分對應(yīng)大的特征值,這可以看作是PCA與Lasso的組合,同樣,可以將其推廣到PCA與ALasso,這樣,所得到的的估計量成為pcLasso、pcALasso。同樣的,使用稀疏主成分來來代替?zhèn)鹘y(tǒng)的主成分,再將其推廣至稀疏回歸。所得到的估計稱為spcLasso、spcALasso。

        2 隨機模擬

        這部分利用模擬研究來展示所用方法的性能,情形1和情形2適用于低維情況,情形3和情形4則用于高維情況。模擬的方法和參數(shù)選擇,參照Kawano所提供的方法。

        2.1 低維數(shù)據(jù)

        通過以下幾種按情況響應(yīng)變量由下式計算:y=χξ+ε,其中誤差項ε來自于均值為0,方差為σ的正態(tài)分布。數(shù)據(jù)矩陣X由多元正態(tài)分布N(0,∑)生成,ξ是真實的系數(shù)參數(shù)。

        情形1:(a)令p=10,另外∑=I10,設(shè)回歸系數(shù)真實值為β=(2,1,0,…,0);(b)∑=diag{1,32,1,…,1},設(shè)回歸系數(shù)的真實值為β=(8,1,0,…,0)取樣本量為50和100。

        情形2:在這個例子中,令β=(-1,0,1,1,0,-1,-1,0,1,1),xi和xj之間的相關(guān)性ρ=0.5,0.9,分別用來表示信息變量之間的中度相關(guān)和高度相關(guān)。有∑=ρ|j-k|,1≤j,k≤p,取樣本量為50和100。

        為了評估以上不同的估計量,這些評估是通過100次重復(fù)試驗所計算出來的,選擇以下幾種方法作為評價的性能指標(biāo)。

        使用敏感性和特異性兩個指標(biāo)來評價回歸模型中參數(shù)選擇的好壞,敏感性(Sensitivity)和特異性(Specificity)的定義如下:

        其中#代表計數(shù),Sensitivity∈[0,1],Specificity∈[0,1],值越接近于1,變量選擇效果越好。

        表1展示了在低維情形下的模擬結(jié)果,從中可以看出:(1)當(dāng)樣本量不斷增大時,模型的估計效率就越好;(2)在情形1下,提取的主成分為2時,SPCR的表現(xiàn)最佳,不論是在n=50或是在n=200的情況下都有不錯的估計精度,在提取的主成分越多時,spcLasso則具有更高的精確度。(3)在情形2下,當(dāng)變量間的共線程度不斷增大時,spcALasso結(jié)合了SPCR和自適應(yīng)Lasso回歸的優(yōu)點,在變量間高度相關(guān)下能夠提高模型的精度,且比SPCR方法具有優(yōu)勢。(4)隨著樣本量的增大,pcLasso和pcALasso也表現(xiàn)出了不俗的估計效率。由于低維情形下各模型的敏感性和特異性差異不大,故不作展示。

        表1 比較各模型的MSE值

        2.2 高維數(shù)據(jù)

        當(dāng)自變量的個數(shù)大于樣本量的個數(shù)(即p>n)時,即為高維數(shù)據(jù),在上部分討論了低維情形下的幾種模型的變量選擇情況,想要提高預(yù)測精度,只需不斷增大樣本量,就可以提高預(yù)測的精度。而在實際問題中,經(jīng)常出現(xiàn)p→∞的情況,如醫(yī)學(xué)問題,維數(shù)通常會遠(yuǎn)大于樣本量,這時消除無關(guān)基因,尋找致病因子,確定某種癌變細(xì)胞的基因組合,從而尋找并制定合適的醫(yī)療方案就變得尤為重要,這就是接下來將要討論的高維數(shù)據(jù)問題。

        假設(shè)變量來自傳統(tǒng)的的線性回歸模型y=χξ+ε,其中誤差項ε來自于均值為0,方差為1的正態(tài)分布。用ρ|i-j|表示任意兩個解釋變量之間的相關(guān)系數(shù),分別取ρ=0.5和ρ=0.9,樣本量n=30和70,重復(fù)進行100次試驗。考慮以下幾種情形:

        情形4:樣本n=70,回歸系數(shù)與上情形一樣,此時p=n。

        對于每一個p≥n組合,分別計算以上兩種情形下模型的敏感性、特異性以及MSE,結(jié)果見表2。

        表2 高維數(shù)據(jù)下各類方法的比較

        通過模擬,表2列出了在情形3和情形4中所描述的高維數(shù)據(jù)場景的三個指標(biāo)結(jié)果。從結(jié)果中看:第一,在樣本量不變時,提取的主成分越少時,SPCR能夠準(zhǔn)確提取變量的比例會高于其他幾種模型。另外,增大樣本量,敏感性和特異性也會增大;第二,當(dāng)維數(shù)和相關(guān)系數(shù)ρ不變時,增大樣本量增加,模型的均方誤差也會減??;第三,對于模型能夠正確判別數(shù)據(jù)的比率,在不同的情況下會有不同的結(jié)果。在樣本量越大,提取的主成分越多時,數(shù)據(jù)間的相關(guān)性越高,模型能夠正確選擇變量的比率就越高,可以看到敏感性和特異性的值越接近于1;第四,相關(guān)系數(shù)增大時,模型的MSE值有所減少,在這種高度相關(guān)的情況下,L2懲罰會變得不穩(wěn)定,共線問題會導(dǎo)致Lasso預(yù)測能力的降低,自適應(yīng)Lasso具有同樣的問題,但由于加入了SPC,這減少了變量間的共線性,明顯提高了預(yù)測精度。

        3 結(jié) 論

        通過模擬結(jié)果,能夠發(fā)現(xiàn)在低維模型中,當(dāng)提取的主成分較少時,且變量間的相關(guān)程度不高時,SPCR的預(yù)測精度會優(yōu)于其他的模型;另外,當(dāng)提取的主成分較多時,spcLasso則展現(xiàn)出了它的優(yōu)勢。當(dāng)維數(shù)不斷增大,到達(dá)p≥n時,能夠發(fā)現(xiàn):PCR適用于提取主成分較少時,spcALasso適用于主成分較多時;增大相關(guān)系數(shù)時,我們所選擇的模型MSE值都有所減少,這說明當(dāng)變量間相關(guān)性很高時,本文所提出的方法能夠很好的提高模型的預(yù)測精度。需要強調(diào)的是,本文并未表明某種模型具有絕對優(yōu)勢,是為了說明不同模型適用于不同的數(shù)據(jù)類型。

        猜你喜歡
        高維樣本量情形
        醫(yī)學(xué)研究中樣本量的選擇
        避免房地產(chǎn)繼承糾紛的十二種情形
        四種情形拖欠勞動報酬構(gòu)成“拒不支付”犯罪
        公民與法治(2020年4期)2020-05-30 12:31:34
        航空裝備測試性試驗樣本量確定方法
        一種改進的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
        出借車輛,五種情形下須擔(dān)責(zé)
        公民與法治(2016年9期)2016-05-17 04:12:18
        一般非齊次非線性擴散方程的等價變換和高維不變子空間
        高維Kramers系統(tǒng)離出點的分布問題
        国产av无码专区亚洲avjulia| 噜噜综合亚洲av中文无码| 久久久久99人妻一区二区三区 | 99久久这里只精品国产免费| 欧美国产亚洲日韩在线二区 | 亚洲五月七月丁香缴情| 日韩精品av在线一区二区| 一区二区三区在线观看视频精品| 亚洲一区二区三区偷拍女| 国产大屁股视频免费区| 国产精品久久久久9999赢消| 亚洲色大网站www永久网站| 国产精品亚洲А∨天堂免下载| 精品视频在线观看一区二区三区| 国产一区三区二区视频在线观看 | 91九色最新国产在线观看 | 一本大道香蕉最新在线视频| 天堂69亚洲精品中文字幕| 亚洲hd高清在线一区二区| 所有视频在线观看免费| 国产尤物精品视频| 狠狠色噜噜狠狠狠狠色综合久 | 狠狠丁香激情久久综合| 日韩精品一二区在线视频| 黑丝美腿国产在线观看| 国产在线无码一区二区三区视频 | 日韩av在线手机免费观看| 又粗又黄又猛又爽大片app| 日本黄页网站免费大全| 手机色在线| 国产黄色一级到三级视频| 亚洲av一区二区三区蜜桃| 久久视频在线| 妺妺窝人体色www在线图片| 久久这里都是精品一区| 久久精品国产白丝爆白浆| 久久国产精品婷婷激情| 亚洲欧美综合区自拍另类| 激情综合欧美| 无码av永久免费大全| 偷拍视频这里只有精品|