亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        含順序類別自變量的中位數(shù)懲罰回歸及應(yīng)用研究

        2022-12-25 12:42:26吉洋瑩潘雨辰
        關(guān)鍵詞:分類方法模型

        吉洋瑩,潘雨辰,黃 磊

        (西南交通大學(xué) 數(shù)學(xué)學(xué)院, 成都 611756)

        0 引言

        統(tǒng)計(jì)研究時(shí),數(shù)據(jù)往往存在多個(gè)變量。近幾十年,關(guān)于變量選擇方法的研究非常多。Akaike[1]提出AIC準(zhǔn)則,有助于減少模型過擬合的風(fēng)險(xiǎn)。Schwarz[2]考慮了樣本數(shù)量,提出了懲罰因子為log(n)的BIC準(zhǔn)則。另外,在自變量越來越多的大數(shù)據(jù)時(shí)代下,其維度p甚至大于樣本量n。在這種高維情況下,基于AIC、BIC及其擴(kuò)展的子集選擇方法將導(dǎo)致計(jì)算的負(fù)擔(dān)和不可靠的結(jié)果。因此,統(tǒng)計(jì)學(xué)家又提出了許多針對(duì)高維環(huán)境下有用的變量選擇方法。例如,F(xiàn)an等[3]提出了SCAD(smoothly clipped absolute deviation)懲罰,SCAD既能連續(xù)地壓縮系數(shù),也能在系數(shù)較大時(shí)取得漸近無偏估計(jì)。Tibshirani[4]提出了最小絕對(duì)收縮選擇算子(least absolute shrinkage and selection operator,LASSO),在最小二乘基礎(chǔ)上添加l1懲罰得到稀疏模型。由于LASSO對(duì)回歸系數(shù)使用相同程度的壓縮,可能會(huì)造成估計(jì)不完全有效,模型選擇結(jié)果不一致的現(xiàn)象。因此,Zou[5]改進(jìn)LASSO并提出自適應(yīng)LASSO方法,使回歸系數(shù)有不同程度的壓縮。自適應(yīng)LASSO能夠一致地識(shí)別真實(shí)模型且所得估計(jì)具有oracle性質(zhì)。 除此以外,對(duì)于LASSO統(tǒng)計(jì)學(xué)家還做了不少拓展,針對(duì)具有組特征的數(shù)據(jù)結(jié)構(gòu),Yuan等[6]提出可從組角度進(jìn)行變量選擇的group-LASSO方法。Group-LASSO對(duì)一組系數(shù)向量添加約束,克服了LASSO無法從組水平進(jìn)行變量選擇的缺點(diǎn)。 Wang等[7]將Zou[5]和Yuan等[6]的思想加以結(jié)合修訂,又提出了針對(duì)不同組系數(shù)施加不同懲罰的自適應(yīng)group-LASSO方法。

        統(tǒng)計(jì)建模中,回歸用來量化因變量和自變量之間的關(guān)系。其中,最常見的參數(shù)估計(jì)方法是普通最小二乘法(ordinary least square,OLS)。最小二乘估計(jì)是一種基于均值回歸的估計(jì)方法,在滿足正態(tài)誤差假設(shè)時(shí)具有良好的性質(zhì),如估計(jì)量具有無偏性和相合性。然而,當(dāng)誤差不滿足高斯-馬爾科夫假設(shè)條件,就有可能產(chǎn)生有偏的估計(jì)結(jié)果。若樣本數(shù)據(jù)中存在異常值,模型估計(jì)值可能存在較大偏差[8]。另外,有時(shí)候不僅希望研究因變量的期望均值,還希望能探索因變量的全局分布。于是,Koenker和Bassett[9]提出分位數(shù)回歸(quantile regression,QR)。分位數(shù)回歸應(yīng)用條件相對(duì)寬松,可以描述因變量的全局特征,也可以挖掘更為豐富的信息,另外分位數(shù)回歸估計(jì)采用最小化加權(quán)誤差絕對(duì)值和進(jìn)行估計(jì),通常不受異常值的影響,結(jié)果更為穩(wěn)健。Yu等[10]總結(jié)了一些分位數(shù)回歸典型的應(yīng)用領(lǐng)域,分位數(shù)回歸在醫(yī)藥與生存分析、金融與經(jīng)濟(jì)統(tǒng)計(jì)、環(huán)境分析等諸多領(lǐng)域得到應(yīng)用。 Engle等[11]在經(jīng)濟(jì)中對(duì)于計(jì)算VaR,提出了一種類似廣義自回歸條件異方差形式的計(jì)算分位數(shù)的方法。劉軍躍等[12]利用分位數(shù)回歸法,從碳減排角度實(shí)證分析了長江經(jīng)濟(jì)帶在不同碳排放水平下產(chǎn)業(yè)結(jié)構(gòu)升級(jí)與碳排放的關(guān)系。此外,分位數(shù)回歸還拓展到各種類型的數(shù)據(jù)中。例如,具有異方差誤差項(xiàng)的數(shù)據(jù)、時(shí)間序列數(shù)據(jù)、刪失數(shù)據(jù)等。

        近年來,建立分位數(shù)回歸和LASSO類型相結(jié)合的分位數(shù)懲罰回歸的研究越來越廣泛。Ciuperca[13]提出了含有組特征變量的分位數(shù)自適應(yīng)group-LASSO。Wang等[14]結(jié)合中位數(shù)(least absolute deviation,LAD)回歸和LASSO構(gòu)建了LAD-LASSO。 LAD是分位數(shù)回歸中τ=0.5的回歸,LAD不受異常值的影響,結(jié)合正則化估計(jì)方法對(duì)高維數(shù)據(jù)進(jìn)行變量選擇,可以得到穩(wěn)健的結(jié)果。最近,許多分位數(shù)回歸方法的相關(guān)研究大多都集中在維數(shù)超過觀測(cè)值的高維數(shù)據(jù)中,如Wu等[15],Wang等[16]研究了l1懲罰分位數(shù)回歸模型,證明了LASSO懲罰分位數(shù)回歸估計(jì)量的oracle性質(zhì)。

        旨在提出一種含有順序類別自變量的高維回歸方法。教育研究中,受教育水平可以分為小學(xué)、中學(xué)、大學(xué)、研究生教育[17]?;颊叩纳眢w情況表現(xiàn)為嚴(yán)重?fù)p傷、輕微損傷、正常、非常好[18]。 這種具有順序類別的自變量,通常按照被觀測(cè)對(duì)象特征高低或大小依次賦值,將順序類別自變量轉(zhuǎn)換為啞變量形式。針對(duì)這類含有順序類別自變量的模型,利用前面提到的分位數(shù)懲罰回歸模型中的LAD-LASSO對(duì)模型進(jìn)行選擇,之后若直接對(duì)模型進(jìn)行擬合,不可保證能消除掉組變量中的偽分類,即組內(nèi)相鄰變量系數(shù)相等。 直接進(jìn)行模型擬合可能會(huì)造成過擬合的現(xiàn)象。為了避免發(fā)生過擬合, Walter等[19]提出順序類別變量的編碼方案,能夠很好地解釋系數(shù)估計(jì),但依然存在過擬合和估計(jì)值不存在等問題。Gertheiss等[20]運(yùn)用嶺回歸能夠得到穩(wěn)健的參數(shù)估計(jì),但過擬合現(xiàn)象還是沒有解決。之后,Tian等[21]提出啞變量線性變換方法(transformed dummies,TD),將TD與BIC方法結(jié)合提出TD-BIC方法檢測(cè)偽分類。 Huang等[22]提出TD-LASSO方法,高維環(huán)境下采用LASSO較BIC更為容易。周曉霞等[23]將TD與機(jī)器學(xué)習(xí)相結(jié)合識(shí)別偽分類。晁越等[24]則是提出一種漸近相合的探測(cè)logistic回歸模型中順序多分類解釋變量的LTD-BIC偽分類識(shí)別方法。又由于LASSO的無差別懲罰,采用自適應(yīng)LASSO進(jìn)行改進(jìn)。因此,將TD與自適應(yīng)LASSO相結(jié)合提出TD-ADLASSO,再與LAD回歸相結(jié)合提出LAD-TD-ADLASSO識(shí)別偽分類。LAD-TD-ADLASSO既可以做參數(shù)估計(jì)還能識(shí)別偽分類,可以有效避免模型的過擬合風(fēng)險(xiǎn),提高預(yù)測(cè)精度。

        剩余部分安排如下:第1節(jié)詳細(xì)介紹了TD和LAD-TD-ADLASSO偽分類識(shí)別與融合技術(shù),并整理出一個(gè)系統(tǒng)性的可行算法;第2節(jié)通過2個(gè)實(shí)例,根據(jù)所提出的LAD-TD-ADLASSO偽分類識(shí)別與融合技術(shù)算法展示該方法的實(shí)用性和有效性;第3節(jié)進(jìn)行總結(jié)和展望。

        1 模型與方法

        在本節(jié)中,介紹了具有順序類別自變量的高維模型,并提出LAD-TD-ADLASSO算法。為了描述簡便,在以下模型推導(dǎo)中僅考慮包含一個(gè)順序類別自變量的回歸模型,而實(shí)際問題中的模型可能包含多個(gè)順序類別的自變量??紤]含有一個(gè)m分類的順序類別自變量的線性模型:

        Yi=α+β2X2,i+…+βmXm,i+

        α1Z1,i+…+αkZk,i+εi,

        i=1,2,…,N

        (1)

        式中:εi,i=1,…,N為隨機(jī)誤差。實(shí)際研究中,不光有順序類別自變量,還有連續(xù)型變量,用{Z1,…,Zk}表示k個(gè)連續(xù)型變量。{X2,…,Xm}為相應(yīng)的啞變量,m類別的順序類別自變量將生成m-1個(gè)啞變量,啞變量定義如下:

        (2)

        將模型(1)改寫成矩陣形式:

        Y=Xβ+ε

        (3)

        式中:X為設(shè)計(jì)矩陣,X=(1,X2,…,Xm,Z1,…,Zk),并假定列是滿秩的,Xj=(Xj,1,…,Xj,N)T,j=2,…,m。 連續(xù)型變量Zj=(Zj,1,…,Zj,N)T,j=1,…,k,因變量Y=(Y1,…,YN)T,回歸系數(shù)β=(α,β2,…,βm,α1,…,αk)T。誤差向量ε滿足高斯-馬爾科夫條件:

        (ⅰ)E(ε)=0;

        (ⅱ) Var(ε)=δ2I, Var(·)表示一個(gè)隨機(jī)向量的協(xié)方差矩陣。

        使用最小二乘來估計(jì)回歸參數(shù)向量β,使得誤差向量ε=Y-Xβ的平方和達(dá)到最小,得到參數(shù)向量β的無偏估計(jì):

        (4)

        當(dāng)誤差項(xiàng)不滿足高斯-馬爾科夫條件時(shí),使用最小二乘估計(jì)可能造成估計(jì)有偏。同時(shí),最小二乘極易受異常值的影響,當(dāng)樣本中存在異常值,使用最小二乘的誤差平方和可能產(chǎn)生較大偏差。而且,最小二乘確定的是自變量X取值x時(shí),因變量Y的E(y|x),無法給出因變量的一個(gè)全局分布。因此,Koenker等[9]提出分位數(shù)回歸,引入分位數(shù)回歸替換最小二乘估計(jì),分位數(shù)回歸不對(duì)誤差分布做任何假定,可以得到一種穩(wěn)健性的參數(shù)估計(jì)方法。分位數(shù)回歸使用最小化加權(quán)誤差絕對(duì)值和進(jìn)行參數(shù)估計(jì),對(duì)異常值的影響較小。同時(shí),分位數(shù)回歸可以給出自變量X取值x時(shí),因變量Y取值的各種τ分位數(shù)Qτ(y|x)下的回歸擬合結(jié)果,即相應(yīng)Y取值的各種分位點(diǎn)的估計(jì)。

        給定X=x,因變量Y的累積條件分布函數(shù)為FY(y|X=x)=P(Y≤y|X=x)。因變量Y的τth分位數(shù)的分位數(shù)回歸模型為:

        Qτ(Y|X=x)=g(X,β)=xTβ(τ)

        (5)

        (6)

        分位數(shù)回歸不能像最小二乘估計(jì)(4)一樣得到顯式解,通?;趽p失函數(shù)ρτ(μ),用數(shù)值算法對(duì)式(6)進(jìn)行求解:

        (7)

        主要研究當(dāng)τ=0.5時(shí)的LAD,LAD與分位數(shù)回歸一樣都具有對(duì)異常值不敏感,不對(duì)誤差分布做假設(shè)等特點(diǎn),并且能得到穩(wěn)健的估計(jì)結(jié)果,其他τ分位點(diǎn)同理。

        主要研究對(duì)含有順序類別自變量的樣本進(jìn)行建模,對(duì)于這類樣本建模時(shí)需要考慮偽分類的情況,避免模型因?yàn)榇嬖趥畏诸惏l(fā)生過擬合現(xiàn)象。對(duì)于解決過擬合現(xiàn)象,可以通過正則化進(jìn)行處理。Gertheiss等[20]曾提出對(duì)不含有連續(xù)型變量的模型,運(yùn)用嶺回歸方法進(jìn)行偽分類的識(shí)別:

        (8)

        順序類別自變量為有序類別,設(shè)置第一個(gè)類別為基準(zhǔn)類,定義β1=0,這樣可以方便懲罰相鄰類別之間的系數(shù)差異。 將相鄰2類系數(shù)之差定義為Δβj=βj-βj-1。該方法實(shí)際上是使用l2懲罰的嶺回歸方法,但嶺回歸無法消除偏差,不能有效識(shí)別出偽分類,且沒有考慮連續(xù)型變量,因此模型不具有可解釋性。

        之后,Huang等[22]提出TD-LASSO方法識(shí)別順序類別自變量中的偽分類,主要思想是運(yùn)用TD對(duì)系數(shù)進(jìn)行懲罰。由于TD-LASSO是基于最小二乘基礎(chǔ)上進(jìn)行的,可知最小二乘對(duì)異常值敏感,且對(duì)模型誤差有正態(tài)假設(shè)條件。因此,根據(jù)LAD的不受異常值影響,不對(duì)模型誤差做假設(shè)還能得到穩(wěn)健性估計(jì)結(jié)果的特點(diǎn)。用LAD替換最小二乘提出LAD-TD-LASSO。又由于LASSO采用無差別的懲罰系數(shù),會(huì)導(dǎo)致部分自變量系數(shù)被過度壓縮降低估計(jì)效率,并影響選擇的一致性。因此,采用自適應(yīng)LASSO對(duì)LAD-TD-LASSO方法加以改進(jìn)提出LAD-TD-ADLASSO方法對(duì)偽分類進(jìn)行識(shí)別,具體步驟如算法1所示。

        算法1LAD-TD-ADLASSO算法

        α1Z1,i+…+αkZk,i+εi

        (9)

        步驟2將步驟1中的參數(shù)進(jìn)行合并整理:

        ΔβmXm,i+α1Z1,i+…+αkZk,i+εi

        (10)

        α1Z1,i+…+αkZk,i+εi

        (11)

        步驟4使用分位數(shù)懲罰回歸識(shí)別偽分類,令φ=(α,Δβ2,…,Δβm,α1,…,αk)T,則

        (12)

        2 真實(shí)數(shù)據(jù)

        在本節(jié)中,使用提出的LAD-TD-ADLASSO方法對(duì)2個(gè)實(shí)際數(shù)據(jù)例子進(jìn)行分析研究,比較模型結(jié)果,觀察并分析該方法是否具有實(shí)用性和有效性。

        2.1 實(shí)證分析1

        分析一個(gè)來自醫(yī)學(xué)研究的真實(shí)數(shù)據(jù)集。數(shù)據(jù)來自新加坡眼科研究所眼科流行病學(xué)研究小組,見網(wǎng)站blog.uus.edu.sg/SEED。重點(diǎn)研究眼病、糖尿病、視網(wǎng)膜病變、青光眼、屈光不正和白內(nèi)障等。選擇其中一個(gè)糖尿病數(shù)據(jù)集來展示所提出的LAD-TD-ADLASSO方法對(duì)具有順序類別自變量的模型的性能。一共3 280個(gè)數(shù)據(jù),7個(gè)變量。數(shù)據(jù)存在缺失值,利用刪除法對(duì)數(shù)據(jù)進(jìn)行處理,剩余3 242個(gè)數(shù)據(jù)。其中因變量為血壓,有4個(gè)順序類別自變量,分別是性別、受教育水平、家庭經(jīng)濟(jì)狀況、糖尿病診斷。連續(xù)變量為年齡和BMI指標(biāo)(身高與體重平方的比值),根據(jù)以往的醫(yī)學(xué)研究可將年齡和BMI進(jìn)行分類。年齡以10年為一分段將其劃分為一個(gè)5分類的順序類別自變量。BMI根據(jù)世界衛(wèi)生組織(WHO)的劃分標(biāo)準(zhǔn)將其劃分成偏瘦、正常、肥胖前狀態(tài)、一級(jí)肥胖、二級(jí)肥胖、三級(jí)肥胖。整個(gè)糖尿病數(shù)據(jù)集有6個(gè)順序類別自變量。醫(yī)學(xué)研究中通常繪制table one向讀者展示研究人群的基本特征變量,見表1。特征變量中用(*)表示順序類別自變量。對(duì)順序類別自變量的分類情況做相應(yīng)的統(tǒng)計(jì)描述,得到相應(yīng)的頻數(shù)和頻率。連續(xù)型變量描述其均值、標(biāo)準(zhǔn)差、中位數(shù)和最大最小值。

        表1 糖尿病數(shù)據(jù)集的統(tǒng)計(jì)描述

        判斷順序類別自變量中是否存在偽分類,以受教育水平為例。繪制受教育水平影響血壓的階梯圖,如圖1所示。受教育水平中2、3分類對(duì)于血壓影響相似, 猜測(cè)受教育水平中2、3分類之間沒有顯著差異,可能存在偽分類。同樣,受教育水平中4、5分類對(duì)于血壓影響非常接近,猜測(cè)受教育水平中4、5分類可能存在偽分類。但不能單憑圖1就猜測(cè)哪些類別存在偽分類,需要通過提出的LAD-TD-ADLASSO方法進(jìn)行偽分類的識(shí)別。

        圖1 受教育水平影響血壓的階梯圖

        首先,構(gòu)造線性模型(模型1)為:

        然后,通過LAD-TD-ADLASSO方法識(shí)別出順序類別自變量中隱藏的偽分類,檢測(cè)出受教育水平中3、4分類為偽分類,5、6分類為偽分類,將6分類的受教育水平進(jìn)行偽分類識(shí)別與融合得到一個(gè)4分類的順序類別自變量。 家庭經(jīng)濟(jì)狀況中2、3、4分類為偽分類,將其合并為一個(gè)2分類順序類別的自變量。BMI分類中4、5、6分類為偽分類,融合成一個(gè)4分類變量。建立模型2:

        為了評(píng)價(jià)未做TD-ADLASSO偽分類識(shí)別的模型1和做過TD-ADLASSO偽分類識(shí)別的模型2的差異性。 同時(shí),檢驗(yàn)做LAD與做最小二乘下的模型的性能。 采用交叉驗(yàn)證進(jìn)行評(píng)價(jià),交叉驗(yàn)證可以用于評(píng)估模型的預(yù)測(cè)性能。比較平均絕對(duì)誤差(mean absolute error,MAE)和均方誤差(mean square error,MSE)指標(biāo),MAE和MSE越小,則表示模型效果越好:

        表2 添加干擾后交叉驗(yàn)證的MAE和MSE結(jié)果

        將未做TD-ADLASSO偽分類識(shí)別的模型1基于最小二乘得到的結(jié)果記做OLS,模型1基于LAD得到的結(jié)果記做LAD。 將做過TD-ADLASSO偽分類識(shí)別的模型2基于最小二乘得到的結(jié)果記做TD+OLS,模型2基于LAD得到的結(jié)果記做TD+LAD。

        根據(jù)表2可知,TD+OLS得到的MAE和MSE均小于OLS的MAE和MSE,TD+LAD下的MAE和MSE結(jié)果也均小于LAD的結(jié)果。說明經(jīng)過TD-ADLASSO偽分類識(shí)別下的模型較未經(jīng)過TD-ADLASSO偽分類識(shí)別的模型更具穩(wěn)健性。同時(shí),比較模型1和模型2內(nèi)部的OLS和LAD結(jié)果,經(jīng)過偽分類識(shí)別的模型2中,基于LAD得到的MAE和MSE均小于基于OLS得到的MAE和MSE。同樣,未經(jīng)過TD-ADLASSO偽分類識(shí)別的模型1中,基于LAD得到的MAE和MSE均小于基于OLS得到的MAE和MSE。表明LAD較最小二乘更具穩(wěn)健性。通過TD+LAD得到的MAE和MSE結(jié)果發(fā)現(xiàn),使用了TD的模型MAE、MSE不僅更小,而且啞變量個(gè)數(shù)變少,模型更精簡,這符合解釋型建模的要求。而且使用了LAD的模型,在隨機(jī)干擾下表現(xiàn)更穩(wěn)健。因此,提出的LAD-TD-ADLASSO方法在實(shí)際數(shù)據(jù)處理上具有可行性。

        2.2 實(shí)證分析2

        數(shù)據(jù)來自于成都市某中學(xué)不同年級(jí)學(xué)生的若干項(xiàng)目指標(biāo),該組數(shù)據(jù)包含了2 550位同學(xué)的大樣本數(shù)據(jù),主要統(tǒng)計(jì)了2類指標(biāo):一類是身體素質(zhì),包括性別、身高、體重;另一類是體測(cè)成績,此類指標(biāo)包括肺活量、50米跑、坐位體前屈、一分鐘跳繩。將50米跑作為因變量,考慮其他因素的影響,其中有6個(gè)順序類別的自變量,分別是年級(jí)、性別、體重、肺活量、坐位體前屈、一分鐘跳繩。 性別變量是二分類變量,1代表男性,2代表女性; 體重中的類別分為4個(gè)等級(jí),等級(jí)1~4分別代表“正?!?,“低體重”,“超重”,“肥胖”; 肺活量中的類別分為4個(gè)等級(jí),等級(jí)1~4分別代表“不及格”,“及格”,“良好”,“優(yōu)秀”; 坐位體前屈和一分鐘跳繩中的類別也分為4個(gè)等級(jí),等級(jí)1~4代表的分類情況同上。變量及其變量解釋具體見表3。特征變量中用(*)表示順序類別自變量,其余的為連續(xù)型變量。對(duì)順序類別自變量的分類情況做相應(yīng)的統(tǒng)計(jì)描述,連續(xù)型變量描述其均值、標(biāo)準(zhǔn)差、中位數(shù)和最大最小值。

        表3 成都市某中學(xué)不同年級(jí)學(xué)生的若干項(xiàng)目指標(biāo)的統(tǒng)計(jì)描述

        判別順序類別自變量中是否存在偽分類,以體重水平為例,繪制體重的核密度估計(jì)圖,如圖2所示。由圖2可知,體重的第2、3、4分類非常近似,猜測(cè)體重的2、3、4分類存在偽分類。為了判斷是否確實(shí)存在偽分類,通過提出的LAD-TD-ADLASSO判別偽分類。

        圖2 體重的核密度估計(jì)圖

        首先,構(gòu)造線性模型(模型3)為:

        然后,通過LAD-TD-ADLASSO方法識(shí)別出順序類別自變量中隱藏的偽分類,如體重水平中的2、3、4分類為偽分類,將其合并為同一類,建立模型4:

        為了評(píng)價(jià)未做TD-ADLASSO偽分類識(shí)別的模型3和做過TD-ADLASSO偽分類識(shí)別的模型4的差異性,以及檢驗(yàn)做最小二乘和做LAD的模型的性能。同樣,在交叉驗(yàn)證過程中,選擇訓(xùn)練集殘差最大的前5%的數(shù)據(jù),將其因變量Y添加總體因變量的2倍標(biāo)準(zhǔn)誤差得到其MAE和MSE結(jié)果,見表4。

        表4 添加干擾后交叉驗(yàn)證的MAE和MSE結(jié)果

        根據(jù)表4可知,TD+LAD的MAE和MSE小于LAD的結(jié)果,且TD+OLS的MAE和MSE小于OLS的結(jié)果,表明通過TD-ADLASSO偽分類識(shí)別后的模型較未經(jīng)過TD-ADLASSO偽分類識(shí)別模型更具穩(wěn)健性,模型效果更好。比較模型3和模型4內(nèi)部的OLS和LAD結(jié)果,經(jīng)過TD-ADLASSO偽分類識(shí)別的模型4中,基于LAD得到的MAE和MSE均小于基于OLS得到的MAE和MSE。同樣,未經(jīng)過TD-ADLASSO偽分類識(shí)別的模型3中,基于LAD得到的MAE和MSE均小于基于OLS得到的MAE和MSE,表明LAD較最小二乘更具穩(wěn)健性。通過TD+LAD得到的MAE和MSE結(jié)果發(fā)現(xiàn),使用了TD的模型MAE、MSE不僅更小,而且啞變量個(gè)數(shù)變少,模型更精簡,這符合解釋型建模的要求。而且使用了LAD的模型,在隨機(jī)干擾下表現(xiàn)更穩(wěn)健。因此,提出的LAD-TD-ADLASSO方法在實(shí)際數(shù)據(jù)處理上具有可行性。

        3 結(jié)論

        針對(duì)含順序類別自變量的線性回歸模型,研究LAD和一種新型的順序類別自變量的偽分類識(shí)別及融合技術(shù)。對(duì)提出的偽分類識(shí)別技術(shù)TD-LASSO加以改進(jìn),利用自適應(yīng)LASSO代替LASSO對(duì)不同參數(shù)進(jìn)行不同壓縮提出TD-ADLASSO方法。之后,介紹了LAD的性質(zhì)并與最小二乘作比較得出LAD的優(yōu)勢(shì),用LAD替換最小二乘做參數(shù)估計(jì)。對(duì)TD-ADLASSO偽分類識(shí)別技術(shù)加以改進(jìn)得到LAD-TD-ADLASSO方法,該方法能有效地進(jìn)行變量選擇與參數(shù)估計(jì),得到穩(wěn)健性結(jié)果。最后通過糖尿病數(shù)據(jù)集和成都市某中學(xué)不同年級(jí)學(xué)生的若干項(xiàng)目指標(biāo)2個(gè)真實(shí)數(shù)據(jù)集,分別展示所提出的LAD-TD-ADLASSO方法識(shí)別偽分類的實(shí)用性,通過模型比較、交叉驗(yàn)證得到的結(jié)果證實(shí)提出的LAD-TD-ADLASSO方法具有可行性。 然而,本文中僅考慮τ=0.5的LAD,當(dāng)τ取任意分位數(shù)時(shí),也是值得研究的內(nèi)容。

        猜你喜歡
        分類方法模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        亚洲视频99| 亚洲欧美牲交| 三男一女吃奶添下面| 精品国产亚洲一区二区在线3d | 无遮挡又黄又刺激又爽的视频 | 午夜成人理论无码电影在线播放 | 亚洲欧美另类激情综合区| 婷婷综合缴情亚洲狠狠| 亚洲一区二区三区最新视频| 精品一区二区三区芒果| 无码av无码天堂资源网| 亚洲av日韩aⅴ无码电影| 国产丝袜在线福利观看| 老鲁夜夜老鲁| 人妻少妇精品专区性色av| 人妻少妇无码中文幕久久| 亚洲不卡av二区三区四区| 无码色av一二区在线播放| 亚洲综合久久成人a片| 中文字幕有码在线视频| 一区二区在线观看日本视频| 少妇人妻综合久久中文字幕| 精品人妻少妇一区二区不卡| 国产三级国产精品国产专区| 最新中文字幕人妻少妇| 一性一交一口添一摸视频| 国产激情视频在线观看首页| 日本在线无乱码中文字幕| 亚洲av日韩精品久久久久久a| 亚洲av伊人久久综合密臀性色| 黄 色 成 年 人 网 站免费| 日本刺激视频一区二区| 亚洲欧美乱综合图片区小说区| 一级二级中文字幕在线视频| 色婷婷一区二区三区四| 18禁免费无码无遮挡不卡网站| 野花社区www高清视频| 亚洲一区二区情侣| 一区二区在线观看视频高清| 337p西西人体大胆瓣开下部| 一区二区精品|