林少煒 鄧鋰峰 吳思英
福建醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系
環(huán)境因素與腫瘤福建省重點(diǎn)實(shí)驗(yàn)室
環(huán)境與健康福建省高校重點(diǎn)實(shí)驗(yàn)室(350108)
基于LASSO算法的水平壓縮方差分析*
林少煒 鄧鋰峰 吳思英△
福建醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系
環(huán)境因素與腫瘤福建省重點(diǎn)實(shí)驗(yàn)室
環(huán)境與健康福建省高校重點(diǎn)實(shí)驗(yàn)室(350108)
方差分析(ANOVA)是一種用于檢驗(yàn)多組總體均數(shù)之間是否存在統(tǒng)計(jì)學(xué)差異的常用方法。進(jìn)行方差分析的主要目標(biāo)有兩個,其一是找出對因變量改變有影響的因素,其二是探索這些因素內(nèi)部的水平之間是否有差異[1]。方差分析方法在某研究因素的水平數(shù)超過兩個時,若F統(tǒng)計(jì)量顯著,只能說明多個水平中至少有兩個水平不同,至于這幾個水平中哪些不同,還需要進(jìn)行事后的多次兩兩比較,即post-hoc analysis,用以發(fā)現(xiàn)是哪些水平之間存在統(tǒng)計(jì)學(xué)差異。主要兩兩比較方法有SNK法、Dunnett-t法和Bonferroni法等[2],不過這些方法都有一個明顯的缺陷,即可能出現(xiàn)方差分析結(jié)果有統(tǒng)計(jì)學(xué)差異,但兩兩間比較都沒統(tǒng)計(jì)學(xué)差異或者不一致的情況。如對于一個三水平的因素,方差分析得到有統(tǒng)計(jì)學(xué)差異,但三個水平間都沒有統(tǒng)計(jì)學(xué)差異,或者出現(xiàn)水平1和水平2有統(tǒng)計(jì)學(xué)差異而水平1和水平3,水平2和水平3沒有統(tǒng)計(jì)學(xué)差異這樣比較難以解釋的情況。
Tibshirani[3]提出的LASSO(least absolute shrinkage and selection operator)基于L1懲罰,可以使回歸系數(shù)的值壓縮成0。Bondell受其啟發(fā),將LASSO的L1懲罰引入方差分析,提出了基于LASSO的方差分析方法——水平壓縮方差分析[4]。水平壓縮方差分析在估計(jì)因素水平系數(shù)的同時可以對因素水平間的系數(shù)進(jìn)行壓縮,將方差分析和兩兩比較的兩個步驟合二為一,即在進(jìn)行方差分析認(rèn)為各因素水平之間是否有統(tǒng)計(jì)學(xué)差異的同時,完成因素各水平間兩兩比較,提高了統(tǒng)計(jì)效率。
1.LASSO方法
LASSO方法是一種壓縮估計(jì)。它通過對回歸系數(shù)加以L1懲罰得到一個較為精煉的模型,使得它壓縮一些系數(shù),從而使某些對結(jié)局不重要的變量系數(shù)壓縮為0,實(shí)現(xiàn)了對因素的壓縮,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)。
LASSO的基本思想是在回歸系數(shù)的絕對值之和小于一個常數(shù)的約束條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴(yán)格等于0的回歸系數(shù),得到可以解釋的模型,其數(shù)學(xué)表達(dá)式如下:
其中t>0,是調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實(shí)現(xiàn)對總體回歸系數(shù)的壓縮。t值的確定可以利用Efron和Tibshirani(1993)[5]提出的交叉驗(yàn)證法來估計(jì)。這個數(shù)學(xué)表達(dá)式還等價于最小化下述懲罰最小二乘法:
其中λ與t一一對應(yīng),可以互相轉(zhuǎn)換。LASSO方法的主要優(yōu)勢在于其對參數(shù)估計(jì)較大的變量壓縮較小,而參數(shù)估計(jì)較小的變量壓縮成0,并且LASSO分析的參數(shù)估計(jì)具有連續(xù)性,適用于高維數(shù)據(jù)的模型選擇[6]。Tibshirani在2005年提出了Fused LASSO方法[7],這個估計(jì)方法滿足了模型系數(shù)以及系數(shù)差分的稀疏性,使得鄰近系數(shù)間更加平滑。
2.水平壓縮方差分析
若在方差分析中有J個因素,每個因素有pj個水平,則水平壓縮方差分析的數(shù)學(xué)表達(dá)式為
其中t>0是調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實(shí)現(xiàn)對總體回歸系數(shù)的壓縮是懲罰項(xiàng)權(quán)重。在這個表達(dá)式中含有兩個限制項(xiàng),其中第一項(xiàng)限制與標(biāo)準(zhǔn)的方差分析相同,它的作用是將某因素內(nèi)各水平的系數(shù)和限制為0,使得模型參數(shù)可以進(jìn)行識別。第二項(xiàng)限制便是水平壓縮方差分析的特別之處,它將LASSO回歸的想法應(yīng)用于傳統(tǒng)的方差分析中。這一項(xiàng)是Fused LASSO的一種廣義版本,可以實(shí)現(xiàn)各個因素內(nèi)部水平的兩兩比較。若某個水平與作為參照組的水平無顯著差異,則該水平的系數(shù)與作為參照組的水平系數(shù)將會相等,即該水平的系數(shù)與參照組的系數(shù)之差將嚴(yán)格為0。與傳統(tǒng)的方差分析兩兩比較方法不同,水平壓縮方差分析算法將會根據(jù)計(jì)算結(jié)果中產(chǎn)生的不同系數(shù)來產(chǎn)生不同的分組:若兩水平無顯著差異,則它們將被歸入系數(shù)相同的組中,即這些水平的系數(shù)將會相等;反之,它們的系數(shù)將會不相等,這也避免了在傳統(tǒng)的兩兩比較中可能出現(xiàn)計(jì)算結(jié)果自相矛盾而難以解釋的問題。
在LASSO分析中,可能會出現(xiàn)過度壓縮非零系數(shù)的情況,增大了估計(jì)結(jié)果的偏差,使估計(jì)結(jié)果不具有相合性。為了提高LASSO方法的相合性和準(zhǔn)確性,Zou H(2006)[8]提出了自適應(yīng)的LASSO方法,其把LASSO中的懲罰項(xiàng)修正為
1.模擬數(shù)據(jù)產(chǎn)生
考慮只有一個三水平的因素情形,三個水平對應(yīng)的總體都是來自方差是1的正態(tài)分布,其總體均值分別為9.5,9.5和10,即
模擬數(shù)據(jù)見表1。
表1 模擬數(shù)據(jù)
2.傳統(tǒng)方差分析和兩兩比較
對上面數(shù)據(jù)進(jìn)行方差齊性檢驗(yàn),P=0.7923,可認(rèn)為三個水平對應(yīng)的總體方差滿足方差齊性。方差分析結(jié)果顯示,F(xiàn)=4.12,P=0.0274<0.05,差異有統(tǒng)計(jì)學(xué)意義,可認(rèn)為三個水平的總體均數(shù)不全相同。使用HSD方法進(jìn)行兩兩比較,結(jié)果如表2。
表2 模擬數(shù)據(jù)HSD兩兩比較結(jié)果
HSD兩兩比較結(jié)果出現(xiàn)了比較難以解釋的情形:水平1與水平2、水平3的差異都沒有統(tǒng)計(jì)學(xué)意義,而水平2和水平3的差異有統(tǒng)計(jì)學(xué)意義。
3.水平壓縮方差分析
在水平壓縮方差分析中,使用BIC準(zhǔn)則選擇λ=0.9,水平1、水平2和水平3的回歸系數(shù)分別為9.683、9.683和10.198,由此可見:水平1和水平2的回歸系數(shù)相同,說明兩者之間的差異無統(tǒng)計(jì)學(xué)意義;而水平3的回歸系數(shù)與水平1和水平2不同,說明水平3與水平1和水平2的差異均存在統(tǒng)計(jì)學(xué)意義,這與模擬數(shù)據(jù)的設(shè)置吻合,并且回歸系數(shù)值與對應(yīng)的總體均值非常接近。
1.實(shí)例資料
使用一項(xiàng)關(guān)于“福州地區(qū)大學(xué)生睡眠質(zhì)量與人格”的調(diào)查為實(shí)例數(shù)據(jù),其樣本量為300。其中大學(xué)生的睡眠質(zhì)量PSQI評分是根據(jù)匹茲堡睡眠質(zhì)量指數(shù)量表(pittsburgh sleep quality index)[9]進(jìn)行計(jì)算得到的,總分范圍為0到21分,分?jǐn)?shù)越高睡眠質(zhì)量越差。人格類型使用錢銘怡等人修訂的艾森克人格問卷簡式量表中國版(EPQ-RSC)[10]中的外向性和神經(jīng)質(zhì)兩個分量表,根據(jù)艾森克的人格氣質(zhì)理論,形成4種典型人格氣質(zhì)類型:膽汁質(zhì)、抑郁質(zhì)、多血質(zhì)和粘液質(zhì)。
2.實(shí)例數(shù)據(jù)分析
傳統(tǒng)方差分析的結(jié)果為F=17.2,P<0.001,說明四種人格氣質(zhì)的總體均值不全相同。HSD兩兩比較結(jié)果表明,除多血質(zhì)和粘液質(zhì)人格、膽汁質(zhì)與抑郁質(zhì)人格外,其余人格兩兩比較差異均有統(tǒng)計(jì)學(xué)意義,即對大學(xué)生睡眠質(zhì)量的影響差異有統(tǒng)計(jì)學(xué)意義(表3)。HSD兩兩比較并沒有把四種人格嚴(yán)格區(qū)分成不同的亞組。而水平壓縮方差分析中膽汁質(zhì)、抑郁質(zhì)、多血質(zhì)和粘液質(zhì)對應(yīng)的回歸系數(shù)分別為4.624,4.624,3.369和3.978,其把人格分成3個亞組:膽汁質(zhì)和抑郁質(zhì)在一個組,而多血質(zhì)、粘液質(zhì)各自成一個組,說明除膽汁質(zhì)以及抑郁質(zhì)人格外,各種人格對大學(xué)生睡眠質(zhì)量的影響差異存在統(tǒng)計(jì)學(xué)意義。
表3 實(shí)例數(shù)據(jù)HSD兩兩比較結(jié)果
方差分析是統(tǒng)計(jì)分析方法中,最重要、最常用的方法之一。經(jīng)方差分析后,如果各總體均數(shù)間有統(tǒng)計(jì)學(xué)差異時,常需進(jìn)一步確定哪兩個總體均數(shù)間有統(tǒng)計(jì)學(xué)差異,哪兩個之間無統(tǒng)計(jì)學(xué)差異,即多重比較。然而,各種多重比較方法經(jīng)常會得到?jīng)]有嚴(yán)格的分組,使得各組間的統(tǒng)計(jì)學(xué)差異不具傳遞性,結(jié)果難以解釋。
通過模擬數(shù)據(jù)分析表明,HSD兩兩比較方法不具有組間嚴(yán)格分組能力,出現(xiàn)了矛盾的結(jié)果,沒有發(fā)現(xiàn)模擬數(shù)據(jù)的自身結(jié)構(gòu)。水平壓縮分析方法在進(jìn)行方差分析的同時構(gòu)建了因素內(nèi)部水平與水平之間的分組,使得這些分組是相互不重疊的,克服了出現(xiàn)傳統(tǒng)方差分析兩兩比較不具嚴(yán)格分組的問題,并且得到了模擬數(shù)據(jù)的真正結(jié)構(gòu)。水平壓縮方差分析把方差分析和兩兩比較兩步驟合二為一,可以同時對因素以及水平進(jìn)行分析,避免了傳統(tǒng)方差分析方法中找出因素間有差異后還需要再對因素內(nèi)各水平進(jìn)行兩兩比較的過程,在提高分析結(jié)果準(zhǔn)確性的同時也提高了統(tǒng)計(jì)效率。
[1]方積乾主編.衛(wèi)生統(tǒng)計(jì)學(xué).北京:人民衛(wèi)生出版社,2012.
[2]JW T.Comparing Individual Means in the Analysis of Variance.Biometrics,1949,5(2):99-114.
[3]Tibshirani R.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society B,1996,58:267-288.
[4]Bondell HD,Reich BJ.Simultaneous factor selection and collapsing levels in anova.Biometrics,2009,65:169-177.
[5]Efron B,Tibshirani RJ.An introduction to the bootstrap.New York:Chapman and Hall,1993.
[6]李根,鄒國華,張新雨,等.高維模型選擇方法綜述.?dāng)?shù)理統(tǒng)計(jì)與管理,2012,31(4):640-658.
[7]Tibshirani R,Saunders M,Rosset S,et al.Sparsity and smoothness via the fused lasso.Journal of the Royal Statistical Society,2005,67(1):91-108.
[8]Zou H.The adaptive LASSO and its oracle properties.Journal of the American Statistical Association,2006,101:1418-1429.
[9]劉賢臣,唐茂芹,胡蕾,等.匹茲堡睡眠質(zhì)量指數(shù)的信度和效度研究.中華精神科雜志,1996,29(2):103-107.
[10]錢銘怡,武國城,朱榮春,等.艾森克人格問卷簡式量表中國版(EQP-RSC)的修訂.心理學(xué)報,2000,32(3):319-7-323.
(責(zé)任編輯:鄧 妍)
福建省中青年教師教育科研項(xiàng)目(JA14144);福建醫(yī)科大學(xué)女性研究課題(2014FN002)
△通信作者:吳思英,E-mail:fmuw sy@163.com