亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        logistic回歸參數(shù)遺傳算法估計(jì)的可行性研究

        2012-12-04 02:59:32陳金甌
        中國衛(wèi)生統(tǒng)計(jì) 2012年1期
        關(guān)鍵詞:樣本量參數(shù)估計(jì)遺傳算法

        韓 芳 陳金甌 柳 青△

        醫(yī)學(xué)研究中常涉及用多個指標(biāo)對兩類對象進(jìn)行預(yù)測或判別的問題,logistic回歸是兩分類判別或疾病風(fēng)險(xiǎn)預(yù)測的常用模型之一。通常用極大似然法估計(jì)logistic回歸的模型參數(shù),隨著計(jì)算機(jī)功能的日益強(qiáng)大和模型求解方法發(fā)展,有人提出了其他的參數(shù)估計(jì)方法。在以前的應(yīng)用中人們發(fā)現(xiàn)當(dāng)變量較多而樣本有限時,極大似然法估計(jì)存在過擬合現(xiàn)象,模型外推應(yīng)用時出現(xiàn)較大的泛化誤差。此外當(dāng)變量較多而樣本較小時,極大似然估計(jì)的參數(shù)會出現(xiàn)異常值,例如極大極小的參數(shù)估計(jì)值或極大的標(biāo)準(zhǔn)誤〔1-2〕。本文擬通過模擬比較參數(shù)估計(jì)的遺傳算法和極大似然法的結(jié)果,從理論上考證極大似然法和遺傳算法的適用條件。

        遺傳算法是通過不斷的選擇、交叉、變異的計(jì)算程式來得到最優(yōu)解的一種方法,適用范圍很廣,在醫(yī)學(xué)領(lǐng)域里已有應(yīng)用,如特殊模型遺傳程序設(shè)計(jì)(genetic programming)用于疾病數(shù)據(jù)的分類〔3-5〕;又如疾病相關(guān)基因的遺傳算法搜索〔6〕。在醫(yī)學(xué)分類問題中,通常用分類效能指標(biāo)考察模型的優(yōu)劣〔7〕,而通常評價模型參數(shù)估計(jì)方法時只考察了模型系數(shù)的統(tǒng)計(jì)學(xué)意義,沒有考察模型的分類效能。本文主要從分類效能和泛化誤差著手,考察極大似然法和遺傳算法用于估計(jì)logistic回歸模型參數(shù)的價值。

        數(shù)據(jù)模擬和參數(shù)估計(jì)方法

        1.數(shù)據(jù)模擬

        建立8個自變量的logistic回歸模型,自變量包括分類變量和數(shù)值變量,數(shù)值變量包括呈正態(tài)分布的變量和偏倚分布變量。模型設(shè)置分別為標(biāo)準(zhǔn)設(shè)置(模型1)、自變量間有相關(guān)(模型2)和自變量間有相關(guān)并且隨機(jī)誤差較大(模型3)。模型表達(dá)式如下:

        模型1 logit(p)=0.5+0.8x1-1.2x2+1.3x3+1.5x4-0.7x5+1.7x6-1.5x7-0.7x8+e1

        模型2 logit(p)=1.5-0.9x1+0.8x3+0.8x2x4-1.2x5-0.6x6-0.6x7+0.8x8x1+e2

        模型3 logit(p)=1.5-0.3x1+0.2x3+0.2x2x4-0.4x5-0.2x6-0.2x7+0.2x8x1+e3

        其中x1,x4為兩分類變量,x2,x3為有序3分類變量,x8為有序5分類變量,x5,x6為正態(tài)分布數(shù)值變量,x7為偏倚分布數(shù)值變量。e為隨機(jī)誤差項(xiàng),e1服從均數(shù)為0,方差為3的正態(tài)分布;e2和e3服從均數(shù)為0,方差為7的正態(tài)分布。模型2中,x3與x1、x2有相關(guān):m3=1.2x1+0.6x2+e,x3為分類變量,所以由m3轉(zhuǎn)換產(chǎn)生;x6與 x4、x5有相關(guān),x6=0.4x4+0.6x5+e;并且x2與x4,x1與x8之間存在交互作用項(xiàng)。模型3的自變量設(shè)置、變量間相關(guān)、交互作用項(xiàng)與模型2相同,但模型中各自變量的系數(shù)值減少,與預(yù)測變量的關(guān)聯(lián)減弱。

        根據(jù)模型1、2和3分別模擬一份例數(shù)為1 000的數(shù)據(jù)作為總體,從中抽取200份樣本(包括訓(xùn)練集100份和驗(yàn)證集100份),訓(xùn)練集的樣本量分別為800、200、80和40;驗(yàn)證集的樣本量不變,均為200。分別根據(jù)訓(xùn)練集數(shù)據(jù)用極大似然法和遺傳算法兩種參數(shù)估計(jì)方法估計(jì)模型參數(shù),用樣本數(shù)據(jù)估計(jì)的模型參數(shù)分別做訓(xùn)練集和驗(yàn)證集數(shù)據(jù)的判別,考察這兩種參數(shù)估計(jì)方法建立模型的分類效能,分類效能的指標(biāo)為靈敏度、特異度和正確度。

        2.遺傳算法的參數(shù)設(shè)置

        本研究中遺傳算法的目的就是要搜索出一組模型參數(shù),使模型的分類效能達(dá)到最大。選入logistic回歸和遺傳算法的初始變量均是x1~x8,logistic回歸通過P值是否小于0.05來篩選最終模型的變量,而遺傳算法通過設(shè)定系數(shù)來篩選變量,例如a1b1x1項(xiàng),系數(shù)a采用二進(jìn)制編碼,取值為1或0,系數(shù)b采用實(shí)數(shù)編碼,取值范圍為(-∞,+∞)或者根據(jù)實(shí)際意義加以限定[-2,2],當(dāng)a1=1時表示模型選入x1變量,b1就是x1的系數(shù)值,相反當(dāng)a1=0時表示模型不選入x1變量,b1無意義。

        另外遺傳算法本身運(yùn)算過程需要設(shè)定一些參數(shù),為了得到遺傳算法的最好結(jié)果,通常以不同的參數(shù)試驗(yàn),經(jīng)過多次試驗(yàn),選擇針對問題的最佳參數(shù)〔8〕。本次分析中設(shè)置初始參數(shù):種群大小為20,交叉概率為0.6,變異概率為0.005,最大進(jìn)化代數(shù)為100,自變量系數(shù)的范圍為[-2,2]。通過程序運(yùn)行的情況以及結(jié)果的合理性情況調(diào)整程序的參數(shù)。

        本程序采用的最終參數(shù)如下:種群大小為100,交叉概率為0.6,變異概率為0.01,自變量系數(shù)的范圍為[-2,2],最大進(jìn)化代數(shù)為300,目標(biāo)函數(shù)值超過50代沒有改善則程序停止,表示當(dāng)前代中的最優(yōu)個體為最終結(jié)果。使用的統(tǒng)計(jì)軟件為SAS 8.1、SPSS 13.0和MATLAB 7.0。

        結(jié) 果

        1.標(biāo)準(zhǔn)參數(shù)設(shè)置的模擬結(jié)果

        標(biāo)準(zhǔn)參數(shù)設(shè)置指自變量獨(dú)立性較好,自變量之間不存在相關(guān),并且無交互作用的數(shù)據(jù)結(jié)構(gòu)。在800、200、80和40四種樣本量下,極大似然法估計(jì)的模型分類效能在訓(xùn)練集和驗(yàn)證集均高于遺傳算法估計(jì)的模型,如表1所示。但在樣本量為40的情況下,兩份樣本的模型參數(shù)極大似然法估計(jì)不收斂。觀察四種樣本量情況下的兩種參數(shù)估計(jì)方法的效能,發(fā)現(xiàn)隨著樣本量的減小,極大似然法在驗(yàn)證集中的分類效能逐漸下降,說明極大似然法的泛化誤差隨著樣本量的減小而增大。而隨著樣本量的減小,遺傳算法在驗(yàn)證集中的分類效能下降不如極大似然法明顯,但遺傳算法在訓(xùn)練集中的分類效能有一個逐漸增長的趨勢,提示隨著樣本量的減小遺傳算法的過擬合現(xiàn)象越來越明顯。在樣本量為40時,兩種方法在訓(xùn)練集中的分類效能差異已無統(tǒng)計(jì)學(xué)意義。

        表1 兩種方法不同樣本量下(模型1)在訓(xùn)練集和驗(yàn)證集中的分類效能(ˉX±S)

        2.存在變量相關(guān)和交互作用參數(shù)設(shè)置的模擬結(jié)果

        當(dāng)自變量間存在相關(guān),并且有交互作用項(xiàng)時,考察兩種參數(shù)估計(jì)方法在不同樣本量下的效能。在樣本量為800和200時,極大似然法估計(jì)的模型分類效能在訓(xùn)練集和驗(yàn)證集仍然高于遺傳算法估計(jì)的模型,如表2所示,但在樣本量為80和40時,極大似然法和遺傳算法估計(jì)的模型分類效能差異無統(tǒng)計(jì)學(xué)意義,說明數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜時極大似然法估計(jì)模型參數(shù)的分類效能降低。同樣的,在樣本量為40的情況下,五份樣本的模型參數(shù)極大似然法估計(jì)不收斂,說明復(fù)雜的自變量間關(guān)系影響了極大似然法的參數(shù)估計(jì)效能。

        另外觀察四種樣本量情況下的兩種參數(shù)估計(jì)方法的模型分類效能,發(fā)現(xiàn)和標(biāo)準(zhǔn)設(shè)置同樣的趨勢,極大似然法的泛化誤差隨著樣本量的減小而增大;遺傳算法的過擬合隨著樣本量的減小而增大。

        表2 兩種方法不同樣本量下(模型2)在訓(xùn)練集和驗(yàn)證集中的分類效能(ˉX±S)

        3.隨機(jī)誤差增大模型模擬結(jié)果

        當(dāng)自變量間關(guān)系復(fù)雜而隨機(jī)誤差增大時,數(shù)據(jù)變異程度增加。在這種數(shù)據(jù)結(jié)構(gòu)下,自變量對因變量的影響受到干擾比較大,在這種情況評價兩種參數(shù)估計(jì)方法的分類效能。在訓(xùn)練集樣本量為80的情況下,100份訓(xùn)練集樣本中有64份樣本極大似然法不收斂,訓(xùn)練集樣本量200時,仍有39份樣本極大似然法不收斂(表3)。提示當(dāng)數(shù)據(jù)不理想時,極大似然法受樣本量限制比較大,而遺傳算法不受影響。撇開極大似然法不收斂的那些樣本,模型3的兩種方法估計(jì)模型參數(shù)的分類效能與模型2相似,故不重復(fù)。

        表3 極大似然法無法估計(jì)參數(shù)的樣本數(shù)

        討 論

        本文通過模擬研究發(fā)現(xiàn):遺傳算法在數(shù)據(jù)內(nèi)部結(jié)構(gòu)不復(fù)雜的情況下能達(dá)到較高的分類效能,如模型1里面遺傳算法的分類效能在0.7~0.8之間,但其分類效能并沒有超越logistic回歸方法。而logistic回歸參數(shù)的極大似然法估計(jì)是常規(guī)的方法,已經(jīng)有相當(dāng)長時間的應(yīng)用。因此,一般情況下極大似然法仍屬首選參數(shù)估計(jì)方法。但是模擬結(jié)果也提示:當(dāng)樣本量較小,自變量關(guān)系復(fù)雜,自變量與因變量關(guān)系較弱時,模型參數(shù)的極大似然法估計(jì)可能不收斂,這時遺傳算法可能成為理想的替代方法。

        有文獻(xiàn)報(bào)道遺傳算法做logistic回歸模型的參數(shù)估計(jì)〔9〕,效果更好,但該文獻(xiàn)為單個自變量的logistic曲線模型。本文模擬結(jié)果顯示遺傳算法還不能替代極大似然法用于logistic回歸參數(shù)估計(jì),僅在小樣本復(fù)雜數(shù)據(jù)結(jié)構(gòu)情況,有一定的價值。

        樣本量小或自變量與因變量關(guān)聯(lián)較弱的情況在基因突變與疾病關(guān)聯(lián)分析中比較常見,這時極大似然法可能無法完成logistic回歸模型的參數(shù)估計(jì),而遺傳算法可能發(fā)揮其優(yōu)勢。此外遺傳算法在模型搜索方面更具有優(yōu)勢,遺傳算法搜索出的模型相對簡單,能從大量的自變量中搜索出對應(yīng)變量有影響的自變量,簡化模型,因此模擬遺傳算法搜索不同結(jié)構(gòu)logistic回歸模型及估計(jì)參數(shù)的效果,值得進(jìn)一步探索。

        1.馮國雙,陳景武,周春蓮.logistic回歸應(yīng)用中容易忽視的幾個問題.中華流行病學(xué)雜志,2004,25:544-545.

        2.陳彬,李從珠.基于選擇抽樣下的Logistic回歸.北方工業(yè)大學(xué)學(xué)報(bào),2006,18:86-90.

        3.Cornelis J,Biesheuvel,Ivar S.Genetic programming outperformed multivariable logistic regression in diagnosing pulmonary embolism.Journal of Clinical Epidemiology,2004,57:551-560.

        4.Ivar S,Maarten K.Genetic programming as a method to develop powerful predictive models for clinical diagnosis.GECCO'05 2005,June,164-166.

        5.Milo E,Jeffrey AK.Use of genetic programming to diagnose venous thromboembolism in the emergency department.GenetProgram Evolvable,2008,9:39-51.

        6.Li L,Jiang W,Li X.A robust hybrid between genetic algorithm and support vector machine for extracting an optimal feature gene subset.Genomics,2005,85:16-23.

        7.Regeniter A,F(xiàn)reidank H,Dickenmann M.Evaluation of proteinuria and GFR to diagnose and classify kidney disease:Systematic review and proof of concept.European Journal of Internal Medicine,2009,20:556-561.

        8.Michalewicz Z,Genetic Algorithms+Data Structures=Evolution Programs.Berlin:Germany Springer,1989.

        9.蔡煜東.運(yùn)用遺傳算法擬合 Logistic曲線的研究.生物數(shù)學(xué)學(xué)報(bào),1995,10:59-63.

        猜你喜歡
        樣本量參數(shù)估計(jì)遺傳算法
        基于新型DFrFT的LFM信號參數(shù)估計(jì)算法
        醫(yī)學(xué)研究中樣本量的選擇
        航空裝備測試性試驗(yàn)樣本量確定方法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        基于自適應(yīng)遺傳算法的CSAMT一維反演
        一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
        基于遺傳算法和LS-SVM的財(cái)務(wù)危機(jī)預(yù)測
        Logistic回歸模型的幾乎無偏兩參數(shù)估計(jì)
        基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
        基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
        女女同恋一区二区在线观看| 国产亚洲sss在线观看| 久久道精品一区二区三区| 青青自拍视频成人免费观看| 黄色精品一区二区三区| 午夜精品久久久久久久久| 女人让男人桶爽30分钟| 亚洲成在人线av| 黄片在线观看大全免费视频| 久久影院最新国产精品| 免费a级毛片高清在钱| 国产一区二区女内射| 日本a级特黄特黄刺激大片| 人妻爽综合网| 色婷婷av一区二区三区丝袜美腿 | 日本中文一区二区在线观看| 久热国产vs视频在线观看| 亚洲中文字幕无码永久在线 | 日本高清aⅴ毛片免费| 精品免费久久久久国产一区| 久久国产精品精品国产色| 国产免费av手机在线观看片| 亚洲熟女乱综合一区二区| 中文字幕av日韩精品一区二区| 国产传媒剧情久久久av| 日本在线观看一二三区| 婷婷色香五月综合缴缴情| 人妻影音先锋啪啪av资源| 亚洲av永久无码精品水牛影视| 97人妻精品一区二区三区免费 | 无码熟妇人妻av在线c0930| 久久精品亚洲一区二区三区画质| 夜夜夜夜曰天天天天拍国产| 天堂草原电视剧在线观看图片高清| 亚洲免费一区二区三区视频| av网站韩日在线观看免费| 97久久成人国产精品免费| 精品婷婷国产综合久久| 欧美激情一区二区三区成人 | 国产对白国语对白| 国产亚洲情侣一区二区无|