亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LASSO算法的水平壓縮方差分析*

        2017-01-09 14:38:20林少煒鄧鋰峰吳思英
        中國衛(wèi)生統(tǒng)計(jì) 2016年5期
        關(guān)鍵詞:抑郁質(zhì)回歸系數(shù)總體

        林少煒 鄧鋰峰 吳思英

        福建醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系

        環(huán)境因素與腫瘤福建省重點(diǎn)實(shí)驗(yàn)室

        環(huán)境與健康福建省高校重點(diǎn)實(shí)驗(yàn)室(350108)

        基于LASSO算法的水平壓縮方差分析*

        林少煒 鄧鋰峰 吳思英△

        福建醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系

        環(huán)境因素與腫瘤福建省重點(diǎn)實(shí)驗(yàn)室

        環(huán)境與健康福建省高校重點(diǎn)實(shí)驗(yàn)室(350108)

        方差分析(ANOVA)是一種用于檢驗(yàn)多組總體均數(shù)之間是否存在統(tǒng)計(jì)學(xué)差異的常用方法。進(jìn)行方差分析的主要目標(biāo)有兩個,其一是找出對因變量改變有影響的因素,其二是探索這些因素內(nèi)部的水平之間是否有差異[1]。方差分析方法在某研究因素的水平數(shù)超過兩個時,若F統(tǒng)計(jì)量顯著,只能說明多個水平中至少有兩個水平不同,至于這幾個水平中哪些不同,還需要進(jìn)行事后的多次兩兩比較,即post-hoc analysis,用以發(fā)現(xiàn)是哪些水平之間存在統(tǒng)計(jì)學(xué)差異。主要兩兩比較方法有SNK法、Dunnett-t法和Bonferroni法等[2],不過這些方法都有一個明顯的缺陷,即可能出現(xiàn)方差分析結(jié)果有統(tǒng)計(jì)學(xué)差異,但兩兩間比較都沒統(tǒng)計(jì)學(xué)差異或者不一致的情況。如對于一個三水平的因素,方差分析得到有統(tǒng)計(jì)學(xué)差異,但三個水平間都沒有統(tǒng)計(jì)學(xué)差異,或者出現(xiàn)水平1和水平2有統(tǒng)計(jì)學(xué)差異而水平1和水平3,水平2和水平3沒有統(tǒng)計(jì)學(xué)差異這樣比較難以解釋的情況。

        Tibshirani[3]提出的LASSO(least absolute shrinkage and selection operator)基于L1懲罰,可以使回歸系數(shù)的值壓縮成0。Bondell受其啟發(fā),將LASSO的L1懲罰引入方差分析,提出了基于LASSO的方差分析方法——水平壓縮方差分析[4]。水平壓縮方差分析在估計(jì)因素水平系數(shù)的同時可以對因素水平間的系數(shù)進(jìn)行壓縮,將方差分析和兩兩比較的兩個步驟合二為一,即在進(jìn)行方差分析認(rèn)為各因素水平之間是否有統(tǒng)計(jì)學(xué)差異的同時,完成因素各水平間兩兩比較,提高了統(tǒng)計(jì)效率。

        原理與方法

        1.LASSO方法

        LASSO方法是一種壓縮估計(jì)。它通過對回歸系數(shù)加以L1懲罰得到一個較為精煉的模型,使得它壓縮一些系數(shù),從而使某些對結(jié)局不重要的變量系數(shù)壓縮為0,實(shí)現(xiàn)了對因素的壓縮,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)。

        LASSO的基本思想是在回歸系數(shù)的絕對值之和小于一個常數(shù)的約束條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴(yán)格等于0的回歸系數(shù),得到可以解釋的模型,其數(shù)學(xué)表達(dá)式如下:

        其中t>0,是調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實(shí)現(xiàn)對總體回歸系數(shù)的壓縮。t值的確定可以利用Efron和Tibshirani(1993)[5]提出的交叉驗(yàn)證法來估計(jì)。這個數(shù)學(xué)表達(dá)式還等價于最小化下述懲罰最小二乘法:

        其中λ與t一一對應(yīng),可以互相轉(zhuǎn)換。LASSO方法的主要優(yōu)勢在于其對參數(shù)估計(jì)較大的變量壓縮較小,而參數(shù)估計(jì)較小的變量壓縮成0,并且LASSO分析的參數(shù)估計(jì)具有連續(xù)性,適用于高維數(shù)據(jù)的模型選擇[6]。Tibshirani在2005年提出了Fused LASSO方法[7],這個估計(jì)方法滿足了模型系數(shù)以及系數(shù)差分的稀疏性,使得鄰近系數(shù)間更加平滑。

        2.水平壓縮方差分析

        若在方差分析中有J個因素,每個因素有pj個水平,則水平壓縮方差分析的數(shù)學(xué)表達(dá)式為

        其中t>0是調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實(shí)現(xiàn)對總體回歸系數(shù)的壓縮是懲罰項(xiàng)權(quán)重。在這個表達(dá)式中含有兩個限制項(xiàng),其中第一項(xiàng)限制與標(biāo)準(zhǔn)的方差分析相同,它的作用是將某因素內(nèi)各水平的系數(shù)和限制為0,使得模型參數(shù)可以進(jìn)行識別。第二項(xiàng)限制便是水平壓縮方差分析的特別之處,它將LASSO回歸的想法應(yīng)用于傳統(tǒng)的方差分析中。這一項(xiàng)是Fused LASSO的一種廣義版本,可以實(shí)現(xiàn)各個因素內(nèi)部水平的兩兩比較。若某個水平與作為參照組的水平無顯著差異,則該水平的系數(shù)與作為參照組的水平系數(shù)將會相等,即該水平的系數(shù)與參照組的系數(shù)之差將嚴(yán)格為0。與傳統(tǒng)的方差分析兩兩比較方法不同,水平壓縮方差分析算法將會根據(jù)計(jì)算結(jié)果中產(chǎn)生的不同系數(shù)來產(chǎn)生不同的分組:若兩水平無顯著差異,則它們將被歸入系數(shù)相同的組中,即這些水平的系數(shù)將會相等;反之,它們的系數(shù)將會不相等,這也避免了在傳統(tǒng)的兩兩比較中可能出現(xiàn)計(jì)算結(jié)果自相矛盾而難以解釋的問題。

        在LASSO分析中,可能會出現(xiàn)過度壓縮非零系數(shù)的情況,增大了估計(jì)結(jié)果的偏差,使估計(jì)結(jié)果不具有相合性。為了提高LASSO方法的相合性和準(zhǔn)確性,Zou H(2006)[8]提出了自適應(yīng)的LASSO方法,其把LASSO中的懲罰項(xiàng)修正為

        模擬實(shí)驗(yàn)

        1.模擬數(shù)據(jù)產(chǎn)生

        考慮只有一個三水平的因素情形,三個水平對應(yīng)的總體都是來自方差是1的正態(tài)分布,其總體均值分別為9.5,9.5和10,即

        模擬數(shù)據(jù)見表1。

        表1 模擬數(shù)據(jù)

        2.傳統(tǒng)方差分析和兩兩比較

        對上面數(shù)據(jù)進(jìn)行方差齊性檢驗(yàn),P=0.7923,可認(rèn)為三個水平對應(yīng)的總體方差滿足方差齊性。方差分析結(jié)果顯示,F(xiàn)=4.12,P=0.0274<0.05,差異有統(tǒng)計(jì)學(xué)意義,可認(rèn)為三個水平的總體均數(shù)不全相同。使用HSD方法進(jìn)行兩兩比較,結(jié)果如表2。

        表2 模擬數(shù)據(jù)HSD兩兩比較結(jié)果

        HSD兩兩比較結(jié)果出現(xiàn)了比較難以解釋的情形:水平1與水平2、水平3的差異都沒有統(tǒng)計(jì)學(xué)意義,而水平2和水平3的差異有統(tǒng)計(jì)學(xué)意義。

        3.水平壓縮方差分析

        在水平壓縮方差分析中,使用BIC準(zhǔn)則選擇λ=0.9,水平1、水平2和水平3的回歸系數(shù)分別為9.683、9.683和10.198,由此可見:水平1和水平2的回歸系數(shù)相同,說明兩者之間的差異無統(tǒng)計(jì)學(xué)意義;而水平3的回歸系數(shù)與水平1和水平2不同,說明水平3與水平1和水平2的差異均存在統(tǒng)計(jì)學(xué)意義,這與模擬數(shù)據(jù)的設(shè)置吻合,并且回歸系數(shù)值與對應(yīng)的總體均值非常接近。

        實(shí)例分析

        1.實(shí)例資料

        使用一項(xiàng)關(guān)于“福州地區(qū)大學(xué)生睡眠質(zhì)量與人格”的調(diào)查為實(shí)例數(shù)據(jù),其樣本量為300。其中大學(xué)生的睡眠質(zhì)量PSQI評分是根據(jù)匹茲堡睡眠質(zhì)量指數(shù)量表(pittsburgh sleep quality index)[9]進(jìn)行計(jì)算得到的,總分范圍為0到21分,分?jǐn)?shù)越高睡眠質(zhì)量越差。人格類型使用錢銘怡等人修訂的艾森克人格問卷簡式量表中國版(EPQ-RSC)[10]中的外向性和神經(jīng)質(zhì)兩個分量表,根據(jù)艾森克的人格氣質(zhì)理論,形成4種典型人格氣質(zhì)類型:膽汁質(zhì)、抑郁質(zhì)、多血質(zhì)和粘液質(zhì)。

        2.實(shí)例數(shù)據(jù)分析

        傳統(tǒng)方差分析的結(jié)果為F=17.2,P<0.001,說明四種人格氣質(zhì)的總體均值不全相同。HSD兩兩比較結(jié)果表明,除多血質(zhì)和粘液質(zhì)人格、膽汁質(zhì)與抑郁質(zhì)人格外,其余人格兩兩比較差異均有統(tǒng)計(jì)學(xué)意義,即對大學(xué)生睡眠質(zhì)量的影響差異有統(tǒng)計(jì)學(xué)意義(表3)。HSD兩兩比較并沒有把四種人格嚴(yán)格區(qū)分成不同的亞組。而水平壓縮方差分析中膽汁質(zhì)、抑郁質(zhì)、多血質(zhì)和粘液質(zhì)對應(yīng)的回歸系數(shù)分別為4.624,4.624,3.369和3.978,其把人格分成3個亞組:膽汁質(zhì)和抑郁質(zhì)在一個組,而多血質(zhì)、粘液質(zhì)各自成一個組,說明除膽汁質(zhì)以及抑郁質(zhì)人格外,各種人格對大學(xué)生睡眠質(zhì)量的影響差異存在統(tǒng)計(jì)學(xué)意義。

        表3 實(shí)例數(shù)據(jù)HSD兩兩比較結(jié)果

        討 論

        方差分析是統(tǒng)計(jì)分析方法中,最重要、最常用的方法之一。經(jīng)方差分析后,如果各總體均數(shù)間有統(tǒng)計(jì)學(xué)差異時,常需進(jìn)一步確定哪兩個總體均數(shù)間有統(tǒng)計(jì)學(xué)差異,哪兩個之間無統(tǒng)計(jì)學(xué)差異,即多重比較。然而,各種多重比較方法經(jīng)常會得到?jīng)]有嚴(yán)格的分組,使得各組間的統(tǒng)計(jì)學(xué)差異不具傳遞性,結(jié)果難以解釋。

        通過模擬數(shù)據(jù)分析表明,HSD兩兩比較方法不具有組間嚴(yán)格分組能力,出現(xiàn)了矛盾的結(jié)果,沒有發(fā)現(xiàn)模擬數(shù)據(jù)的自身結(jié)構(gòu)。水平壓縮分析方法在進(jìn)行方差分析的同時構(gòu)建了因素內(nèi)部水平與水平之間的分組,使得這些分組是相互不重疊的,克服了出現(xiàn)傳統(tǒng)方差分析兩兩比較不具嚴(yán)格分組的問題,并且得到了模擬數(shù)據(jù)的真正結(jié)構(gòu)。水平壓縮方差分析把方差分析和兩兩比較兩步驟合二為一,可以同時對因素以及水平進(jìn)行分析,避免了傳統(tǒng)方差分析方法中找出因素間有差異后還需要再對因素內(nèi)各水平進(jìn)行兩兩比較的過程,在提高分析結(jié)果準(zhǔn)確性的同時也提高了統(tǒng)計(jì)效率。

        [1]方積乾主編.衛(wèi)生統(tǒng)計(jì)學(xué).北京:人民衛(wèi)生出版社,2012.

        [2]JW T.Comparing Individual Means in the Analysis of Variance.Biometrics,1949,5(2):99-114.

        [3]Tibshirani R.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society B,1996,58:267-288.

        [4]Bondell HD,Reich BJ.Simultaneous factor selection and collapsing levels in anova.Biometrics,2009,65:169-177.

        [5]Efron B,Tibshirani RJ.An introduction to the bootstrap.New York:Chapman and Hall,1993.

        [6]李根,鄒國華,張新雨,等.高維模型選擇方法綜述.?dāng)?shù)理統(tǒng)計(jì)與管理,2012,31(4):640-658.

        [7]Tibshirani R,Saunders M,Rosset S,et al.Sparsity and smoothness via the fused lasso.Journal of the Royal Statistical Society,2005,67(1):91-108.

        [8]Zou H.The adaptive LASSO and its oracle properties.Journal of the American Statistical Association,2006,101:1418-1429.

        [9]劉賢臣,唐茂芹,胡蕾,等.匹茲堡睡眠質(zhì)量指數(shù)的信度和效度研究.中華精神科雜志,1996,29(2):103-107.

        [10]錢銘怡,武國城,朱榮春,等.艾森克人格問卷簡式量表中國版(EQP-RSC)的修訂.心理學(xué)報,2000,32(3):319-7-323.

        (責(zé)任編輯:鄧 妍)

        福建省中青年教師教育科研項(xiàng)目(JA14144);福建醫(yī)科大學(xué)女性研究課題(2014FN002)

        △通信作者:吳思英,E-mail:fmuw sy@163.com

        猜你喜歡
        抑郁質(zhì)回歸系數(shù)總體
        編讀往來
        青春期健康(2021年6期)2021-12-04 07:01:12
        太陽花在線
        小讀者之友(2021年6期)2021-07-29 19:32:01
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        2020年秋糧收購總體進(jìn)度快于上年
        外匯市場運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
        中國外匯(2019年6期)2019-07-13 05:44:06
        大學(xué)生道德教育的氣質(zhì)化研究初探
        多元線性回歸的估值漂移及其判定方法
        電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
        直擊高考中的用樣本估計(jì)總體
        多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時Bayes估計(jì)及優(yōu)良性
        无码区a∨视频体验区30秒| 青青草视频在线观看9| 国产在线观看视频一区二区三区 | 熟妇与小伙子露脸对白| 亚洲国产精品日韩av专区| 国产一区二区三区四区三区| 亚洲精品国产av成拍色拍 | 疯狂做受xxxx高潮欧美日本| 2020久久精品亚洲热综合一本| 一区二区激情偷拍老牛视频av| 在线无码中文字幕一区| 无套内射蜜桃小视频| 亚洲午夜久久久久中文字幕| 国产一区二区视频在线看| 久久不见久久见免费视频6| 国产人妻久久精品二区三区| 人妖精品视频在线观看| 精品精品国产一区二区性色av| 欧美老熟妇乱xxxxx| 久久久久久久性潮| 99在线无码精品秘 人口| 按摩师玩弄少妇到高潮av| 国产成人无码18禁午夜福利p| 巨大欧美黑人xxxxbbbb| 魔鬼身材极品女神在线| 一本大道道久久综合av| 成人精品一区二区三区中文字幕| 国产亚洲精品日韩综合网| 少妇高潮精品正在线播放| 精品av熟女一区二区偷窥海滩| 亚洲aⅴ无码成人网站国产app| 国产av天堂亚洲国产av麻豆| 成人av毛片免费大全| 性xxxx18免费观看视频| 亚洲色大成网站www在线观看| 最新亚洲视频一区二区| 天天做天天爱夜夜爽女人爽| 男人和女人高潮免费网站| 日韩精品一区二区亚洲av性色 | 亚洲AV手机专区久久精品| 91精品国产乱码久久中文|