亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于logistic回歸組合預(yù)測(cè)的疾病診斷研究*

        2018-03-05 08:59:26福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院350002林雨婷莊虹莉李立婷溫永仙
        關(guān)鍵詞:分類方法模型

        福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院(350002) 林雨婷 莊虹莉 李立婷 溫永仙

        根據(jù)已有的數(shù)據(jù)建立模型,是預(yù)測(cè)目標(biāo)對(duì)象走勢(shì)和影響因素的關(guān)鍵,建立的模型的好壞直接關(guān)系到預(yù)測(cè)的精度。任何一種單項(xiàng)預(yù)測(cè)方法,在評(píng)估解釋變量對(duì)預(yù)測(cè)目標(biāo)的影響力的反映上并不能盡善盡美。單項(xiàng)預(yù)測(cè)模型的選擇容易受到選擇過(guò)程中的不確定因素的影響而具有不穩(wěn)定性,選擇一個(gè)預(yù)測(cè)模型就可能導(dǎo)致遺失其他未被選中的預(yù)測(cè)模型中的有用信息。為解決上述問題,學(xué)者們提出多種解決方法,其中組合預(yù)測(cè)是最常用的方法之一。組合預(yù)測(cè)模型是以單項(xiàng)預(yù)測(cè)模型為基礎(chǔ),對(duì)多個(gè)不同的單項(xiàng)預(yù)測(cè)模型根據(jù)不同的方法組合在一起,所以能綜合利用單項(xiàng)預(yù)測(cè)模型有用信息,減小受單項(xiàng)模型選擇中不確定因素的影響。

        1969年,Bates和Granger[1]指出組合預(yù)測(cè)模型的均方誤差比任何一個(gè)被組合的單項(xiàng)模型小,并將其運(yùn)用于航空客運(yùn)中,被許多學(xué)者認(rèn)為是組合預(yù)測(cè)的起步。李勤[2]在文中分析研究線性組合預(yù)測(cè)和非線性組合預(yù)測(cè),指出組合預(yù)測(cè)方法將越來(lái)越豐富。近年來(lái),關(guān)于組合預(yù)測(cè)的方法研究主要有Gao等[3]提出刪組的最優(yōu)模型平均方法,Zhang等[4]提出的廣義線性模型的最優(yōu)模型平均方法。組合方法在航空客運(yùn)量預(yù)測(cè)、城市流動(dòng)人口預(yù)測(cè)、金融股票等方面都得到了廣泛應(yīng)用。近期有徐敏捷等[5]將組合模型用于網(wǎng)絡(luò)輿情數(shù)據(jù)分析,提高了對(duì)輿情的發(fā)展勢(shì)態(tài)的預(yù)測(cè)效果。目前國(guó)內(nèi)外學(xué)者將組合預(yù)測(cè)模型運(yùn)用到疾病診斷領(lǐng)域的研究還較少,本文將組合預(yù)測(cè)模型運(yùn)用到Arrhythmia數(shù)據(jù)的分析中。

        本文對(duì)四種基于logistic回歸懲罰函數(shù)的變量選擇方法進(jìn)行組合并用十折交叉驗(yàn)證方法計(jì)算其精度,比較得到組合模型的優(yōu)劣性。通過(guò)不同類型數(shù)據(jù)的模擬,得出基于logistic模型的L2-group MCP與group bridge的組合具有優(yōu)良的分類精度的結(jié)論。

        原理和方法

        1.logistic回歸分析模型

        logistic回歸分析模型是一種廣義線性回歸分析模型,其響應(yīng)變量為二分類變量或某事件發(fā)生的概率,常用于疾病診斷、數(shù)據(jù)挖掘、金融經(jīng)濟(jì)預(yù)測(cè)及風(fēng)險(xiǎn)預(yù)測(cè)等,在疾病中主要探索疾病的發(fā)生概率和引發(fā)疾病的相關(guān)因素等。

        假設(shè)有m個(gè)解釋變量X=(x1,x2,…,xm),其響應(yīng)變量y為二元變量,有n個(gè)觀測(cè)樣本(yi,xi1,xi2,…,xim),i=1,2,…,n,設(shè)pi=P(yi=1|Xi)為給定條件下得到y(tǒng)i=1的概率,同樣地,yi=0的概率為P(yi=0|Xi)=1-pi,令Xi=(xi1,xi2,…,xim),i=1,2,…,n,則X=(X1,X2,…,Xn)T為n×m的觀測(cè)樣本矩陣,令其相應(yīng)觀測(cè)值為y=(y1,y2,…,yn)T。

        對(duì)于普通logistic回歸模型,條件概率可表示為:

        (1)

        其中β0為常數(shù)項(xiàng)系數(shù),βj(j=1,2,…,m)為第i個(gè)解釋變量對(duì)應(yīng)的系數(shù),β則為由這m個(gè)系數(shù)所組成的系數(shù)向量β=(β1,β2,…,βm)T,ε~N(0,σ2)。

        在logistic回歸分析模型中,通常是通過(guò)最大似然法估計(jì)參數(shù)。logistic回歸模型的似然函數(shù):

        ln[1+exp(β0+Xiβ)]}

        (2)

        2.基于懲罰函數(shù)組合預(yù)測(cè)模型

        莊虹莉等[6]研究了L2-group MCP-logistic、SCAD-logistic、group bridge-logistic、composite MCP-logistic等方法。本文在此基礎(chǔ)上應(yīng)用組變量選擇方法L2-group MCP-logistic(簡(jiǎn)寫為gMCP-L)、單變量選擇方法SCAD-logistic(簡(jiǎn)寫為SCAD-L)、雙層變量選擇方法group bridge-logistic(簡(jiǎn)寫為GB-L)和composite MCP-logistic(簡(jiǎn)寫為cMCP-L)進(jìn)行組合。其中g(shù)MCP-L、SCAD-L、GB-L三種懲罰函數(shù)的原理見文獻(xiàn)[6],由于文獻(xiàn)[6]未提及cMCP-L,所以我們首先對(duì)composite MCP-logistic進(jìn)行描述。

        (1)composite MCP-logistic

        由于group bridge在某些點(diǎn)的不可微,給求解計(jì)算帶來(lái)了極大的困難,因此Brenheny和Huang[7]提出了cMCP(composite MCP的簡(jiǎn)稱),cMCP也是雙層變量選擇的另一經(jīng)典方法,同樣是組內(nèi)懲罰和組間懲罰的復(fù)合函數(shù)。假設(shè)已知分有J組變量,分別為A1,A2,…,AJ,每組的變量數(shù)為m1,m2,…,mJ,則復(fù)合函數(shù)形式為:

        cMCP懲罰方法的定義如下:

        (3)

        將cMCP加載到logistic模型中,就得到cMCP-logistic。

        (4)

        cMCP方法在變量選擇與預(yù)測(cè)精度中具有較好的表現(xiàn),因此本文將其選入作為單項(xiàng)預(yù)測(cè)模型之一。

        (2)組合預(yù)測(cè)模型

        組合預(yù)測(cè)模型是將多個(gè)不同的預(yù)測(cè)模型根據(jù)不同的方法組合在一起,再對(duì)研究目標(biāo)進(jìn)行預(yù)測(cè),避免了因預(yù)測(cè)誤差大的模型被淘汰而造成此模型中有用信息的損失,綜合利用單項(xiàng)預(yù)測(cè)模型的有用信息,提高預(yù)測(cè)的精度。設(shè)有M個(gè)單項(xiàng)預(yù)測(cè)模型fi(x),i=1,2,…,M,其組合預(yù)測(cè)基本模型可表示為:

        (5)

        由式(5)可以知道在組合預(yù)測(cè)模型中,除了單項(xiàng)預(yù)測(cè)模型的選擇,權(quán)重的確定也是其中一個(gè)重要的研究問題。按權(quán)重系數(shù)的計(jì)算方法可以分為兩類:最優(yōu)權(quán)重系數(shù)法和非最優(yōu)權(quán)重系數(shù)法。

        最優(yōu)權(quán)重系數(shù)法就是將按照某種規(guī)則確定的目標(biāo)函數(shù),通過(guò)一定的限定條件使其得到最大值或最小值,從而求得權(quán)重系數(shù)。不同的目標(biāo)函數(shù)將對(duì)應(yīng)一組不同的權(quán)重系數(shù)。用數(shù)學(xué)規(guī)劃的方法表示最優(yōu)權(quán)重系數(shù)法,如下:

        (6)

        其中Φ(w1,w2,…,wM)為目標(biāo)函數(shù)。

        非最優(yōu)權(quán)重系數(shù)法是一種比較直接的、力求簡(jiǎn)單的確定權(quán)重的方法。主要有算數(shù)平均方法、方差倒數(shù)法、遞歸等權(quán)加權(quán)法等。本文未運(yùn)用非最優(yōu)權(quán)重系數(shù)法進(jìn)行權(quán)重系數(shù)的選擇,因此在此并不對(duì)其展開描述。

        本文采用單項(xiàng)預(yù)測(cè)方法有g(shù)MCP-L、SCAD-L、GB-L和cMCP-L。莊虹莉等在對(duì)Arrhythmia數(shù)據(jù)集進(jìn)行分析研究時(shí)指出方法gMCP-L對(duì)患病的人的判別能力更為突出,而SCAD-logistic方法和group bridge-logistic方法對(duì)正常人的計(jì)算精度更高。SCAD-L方法作為典型的雙層變量選擇方法之一,在變量的選擇方面具有很好的效果。因此,本文對(duì)方法gMCP-L分別與SCAD-L、GB-L和cMCP-L三個(gè)方法組合,并且對(duì)cMCP-L與SCAD-L方法進(jìn)行組合研究。

        gMCP-L方法與SCAD-L、cMCP-L和GB-L方法的組合模型:

        (7)

        cMCP-L方法與SCAD-L方法的組合模型:

        (8)

        (3)精度計(jì)算

        本文將模型的預(yù)測(cè)精度分為三類:

        3.權(quán)重選擇

        (9)

        模擬研究

        本文根據(jù)解釋變量之間不同的數(shù)據(jù)結(jié)構(gòu)類型通過(guò)蒙特卡洛方法產(chǎn)生模擬數(shù)據(jù),再通過(guò)十折交叉驗(yàn)證方法產(chǎn)生訓(xùn)練集和測(cè)試集,分別計(jì)算出訓(xùn)練集和測(cè)試集的精度。分析比較L2-group MCP-logistic與SCAD-logistic的組合方法(簡(jiǎn)寫為gMCP+SCAD-L)、L2-group MCP-logistic與group bridge-logistic的組合方法(簡(jiǎn)寫為gMCP+CB-L)、L2-group MCP-logistic與cMCP-logistic的組合方法(簡(jiǎn)寫為gMCP+cMCP-L)以及cMCP-logistic和SCAD-logistic的組合方法(簡(jiǎn)寫為cMCP+SCAD-L)的優(yōu)劣。由于變量選擇、參數(shù)估計(jì)和分類精度的結(jié)果受解釋變量的類型、分組情況和樣本量的影響,并且為了比較組合預(yù)測(cè)模型和單項(xiàng)模型的預(yù)測(cè)精度,故本文與文獻(xiàn)[6]一樣設(shè)置了六組不同的模擬數(shù)據(jù)。

        1.模擬數(shù)據(jù)[6]

        建立logistic模型:

        模擬數(shù)據(jù)1:變量之間存在弱相關(guān)關(guān)系且內(nèi)部不存在組結(jié)構(gòu)的數(shù)據(jù),取Xi~N(0,1)且變量Xi和Xj之間的相關(guān)系數(shù)為Rij=0.1|i-j|,設(shè)定的300個(gè)解釋變量其中有8個(gè)顯著變量,其對(duì)應(yīng)的參數(shù)為:

        β300×1=(-2,1,1,0.5,-1,1,2,3.5,0,0,…,0)T

        模擬數(shù)據(jù)2和模擬數(shù)據(jù)3則分別是解釋變量之間存在相關(guān)關(guān)系和強(qiáng)相關(guān)關(guān)系,本文將解釋變量之間的相關(guān)系數(shù)中的R0分別取值為0.5和0.8,其他的設(shè)置與模擬1保持相同。

        模擬數(shù)據(jù)4:在模擬數(shù)據(jù)1的基礎(chǔ)上,加入了變量之間的多重共線性關(guān)系,即解釋變量存在如下關(guān)系:

        X1=2X2+4X3+2X4。

        模擬數(shù)據(jù)5:考慮解釋變量之間存在組結(jié)構(gòu)及變量之間的多重共線性關(guān)系,且顯著變量組內(nèi)沒有零系數(shù)。與Wei和Huang[9]的相同,將變量分成60組,此時(shí)有X=(X1,X2,…,X60),其中Xi=(X5(i-1)+1,…,X5(i-1)+5),1≤i≤60,即每組有5個(gè)變量,每組參數(shù)的系數(shù)為其中設(shè)定有10個(gè)顯著變量:

        β1=(0.5,1,1.5,2,2.5)T,β2=(2,2,2,2,2)T,

        β3=…=β60=(0,0,0,0,0)T

        模擬數(shù)據(jù)6:顯著變量的組內(nèi)存在零系數(shù),數(shù)據(jù)的產(chǎn)生與模擬數(shù)據(jù)5 類似,不同的是不同變量之間的具體分組不一樣,模擬數(shù)據(jù)6將解釋變量分為74組,前四組每組的變量數(shù)為5,后70組每組的變量數(shù)為4,其中設(shè)定15個(gè)顯著變量。即

        β1=(-3,-2,-1,1,2)T,β2=(-3,-2,-1,1,0)T,β3=β4=(0,0,0,0,0)T,β5=(2,-2,1,1.5)T,β6=(-1.5,1.5,0,0)T,β7=…=β74=(0,0,0,0)T

        通過(guò)計(jì)算機(jī)分別模擬這6種不同的數(shù)據(jù)類型,樣本容量分別取n=1000,500,200,每種樣本容量下重復(fù)100次。分別用gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L方法對(duì)模擬數(shù)據(jù)進(jìn)行變量選擇和參數(shù)估計(jì),并且得到訓(xùn)練集和測(cè)試集的分類精度。借助R語(yǔ)言中的glmnet包、ncvreg包和grpreg包實(shí)現(xiàn)變量選擇和參數(shù)估計(jì),進(jìn)一步得到訓(xùn)練集和測(cè)試集的分類精度。

        2.模擬結(jié)果

        根據(jù)所產(chǎn)生的六類不同的模擬數(shù)據(jù),gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L四種方法分析結(jié)果見表1和表2。

        表1 組合預(yù)測(cè)模型中解釋變量之間存在各種相關(guān)且無(wú)組結(jié)構(gòu)模擬的分類精度(模擬1到模擬3的分類精度)

        *:表中SCAD-L、gMCP-L、GB-L分類精度數(shù)據(jù)摘自文獻(xiàn)[6]?!?”表示yi取值為0的樣本的預(yù)測(cè)精度;“1”表示yi取值為1的樣本的預(yù)測(cè)精度;“總體”表示樣本的總體預(yù)測(cè)精度;“訓(xùn)練集”表示由訓(xùn)練集計(jì)算得到的分類精度;“測(cè)試集”表示由測(cè)試集得到的分類精度。

        由表1可知,與單項(xiàng)預(yù)測(cè)模型相比,解釋變量之間存在弱相關(guān)性時(shí),gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L四個(gè)組合方法相同樣本量下的分類精度均比單項(xiàng)預(yù)測(cè)模型的分類精度高。解釋變量之間存在相關(guān)時(shí),組合方法的分類精度在樣本量n=1000,500時(shí)均比單項(xiàng)預(yù)測(cè)的更高。解釋變量之間存在強(qiáng)相關(guān)時(shí),組合預(yù)測(cè)只在樣本量n=1000時(shí),才表現(xiàn)出更高的分類預(yù)測(cè)精度。由此可見解釋變量之間存在相關(guān)和強(qiáng)相關(guān)時(shí),樣本量越大,組合預(yù)測(cè)模型的優(yōu)勢(shì)才會(huì)體現(xiàn)出來(lái)。從總體上看,組合預(yù)測(cè)模型的分類精度相比于單項(xiàng)預(yù)測(cè)模型的分類精度更高。

        組合預(yù)測(cè)模型之間,當(dāng)解釋變量之間存在不同強(qiáng)度的相關(guān)性時(shí),所有方法計(jì)算的精度都隨著樣本量的減小而降低,且所有的計(jì)算方法對(duì)于樣本中y值為1的預(yù)測(cè)精度均偏小,樣本量相同時(shí),gMCP+GB-L方法相比于其他方法均具有更高的精確度。當(dāng)解釋變量之間存在強(qiáng)相關(guān)性時(shí),gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L四個(gè)組合方法的分類預(yù)測(cè)精度波動(dòng)幅度均比解釋變量之間存在弱相關(guān)和解釋變量之間存在相關(guān)時(shí)大。其中解釋變量之間存在不同強(qiáng)度的相關(guān)性時(shí),gMCP+GB-L方法的分類預(yù)測(cè)精度波動(dòng)幅度都為最小。

        由表2可知,與單項(xiàng)預(yù)測(cè)模型相比,當(dāng)解釋變量存在多重共線性且無(wú)組結(jié)構(gòu)時(shí),單項(xiàng)預(yù)測(cè)模型中測(cè)試集的最高總體預(yù)測(cè)精度為93%,而組合預(yù)測(cè)模型中測(cè)試集的最低總體預(yù)測(cè)精度為93.2%,總體上看,組合預(yù)測(cè)模型的分類預(yù)測(cè)精度相比于單項(xiàng)預(yù)測(cè)模型有明顯的提高。當(dāng)解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù)時(shí),樣本量n=500時(shí),組合預(yù)測(cè)才具有明顯的優(yōu)勢(shì)。當(dāng)解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù)時(shí),相同樣本量下組合預(yù)測(cè)模型的分類預(yù)測(cè)精度高于單項(xiàng)預(yù)測(cè)模型的分類預(yù)測(cè)精度。

        組合預(yù)測(cè)模型之間,相比于前三類模擬數(shù)據(jù),當(dāng)解釋變量存在多重共線性時(shí),所有方法的計(jì)算精度都有顯著提高,對(duì)y值為1的預(yù)測(cè)也更為精確。組合預(yù)測(cè)模型計(jì)算精度隨樣本量的減小而提升,其中分類預(yù)測(cè)精度最高且變化幅度最小的組合預(yù)測(cè)方法是gMCP+GB-L方法。解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)有零系數(shù)時(shí),組合預(yù)測(cè)模型的分類預(yù)測(cè)精度隨樣本量的增加而提升,而顯著變量組內(nèi)沒有零系數(shù)的數(shù)據(jù)集的計(jì)算精度則在樣本量n=500時(shí)為最高。其中g(shù)MCP+GB-L方法在解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)有零系數(shù)和沒有零系數(shù)時(shí),都具有最高的分類預(yù)測(cè)精度和最小的波動(dòng)幅度。

        綜上所述,組合預(yù)測(cè)模型總體上比單項(xiàng)預(yù)測(cè)模型有更優(yōu)的表現(xiàn)。在解釋變量存在的相關(guān)性越強(qiáng)時(shí),樣本量越大,組合預(yù)測(cè)模型的優(yōu)勢(shì)才更為凸顯出來(lái)。解釋變量存在多重共線性且無(wú)組結(jié)構(gòu)和存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù)和有零系數(shù)時(shí),相同樣本量下,組合預(yù)測(cè)模型比單項(xiàng)預(yù)測(cè)模型有更高的分類精度。組合預(yù)測(cè)模型由基于組間變量選擇的gMCP-L方法和基于雙層變量選擇GB-L方法組合對(duì)于各數(shù)據(jù)類型都具有優(yōu)良的性質(zhì)。本文推薦在實(shí)際應(yīng)用中使用gMCP+GB-L組合方法。

        表2 組合預(yù)測(cè)模型中解釋變量之間存在多重共線性和存在組結(jié)構(gòu)(模擬4到模擬6的分類精度)

        *:表中SCAD-L、gMCP-L、GB-L的分類精度數(shù)據(jù)摘自文獻(xiàn)[6]。“多重共線性”表示解釋變量之間存在多重共線性且無(wú)組結(jié)構(gòu);“組結(jié)構(gòu)且組內(nèi)無(wú)零系數(shù)”表示解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù);表中“組結(jié)構(gòu)且組內(nèi)有零系數(shù)”表示解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)有零系數(shù)。

        3.假設(shè)檢驗(yàn)

        本文利用Studentt檢驗(yàn)和Wilcoxon秩和檢驗(yàn),通過(guò)六種模擬數(shù)據(jù)得到訓(xùn)練集總體精度檢驗(yàn)文章中組合方法之間的差異的統(tǒng)計(jì)學(xué)意義。Studentt檢驗(yàn)和Wilcoxon秩和檢驗(yàn)均得到gMCP+GB-L方法與gMCP+SCAD-L、gMCP+cMCP-L和cMCP+SCAD-L方法具有顯著差異。而gMCP+SCAD-L、gMCP+cMCP-L和cMCP+SCAD-L方法兩兩之間不存在顯著差異。其檢驗(yàn)得到的P值如表3。

        表3 Student t檢驗(yàn)和Wilcoxon秩和檢驗(yàn)得到的P值

        *:1代表gMCP+SCAD-L方法;2代表gMCP+cMCP-L方法;3代表gMCP+GB-L方法;4代表cMCP+SCAD-L方法;“-”表示其左右兩端數(shù)字對(duì)應(yīng)的方法進(jìn)行比較。

        資料與對(duì)象

        本文用UCI 數(shù)據(jù)庫(kù)中Arrhythmia 數(shù)據(jù)集進(jìn)行實(shí)證分析,該數(shù)據(jù)集有452個(gè)樣本,每個(gè)樣本包括了279個(gè)屬性,其中包括年齡、性別、心率、身高等。在該數(shù)據(jù)集中,由于每個(gè)樣本的第14個(gè)屬性幾乎都是缺失的,因此將這一屬性剔除;另外再剔除屬性數(shù)據(jù)缺失的樣本,最后得到420個(gè)樣本,278個(gè)屬性。該數(shù)據(jù)集的屬性維度較高,對(duì)數(shù)據(jù)進(jìn)行不同的分類時(shí),每個(gè)類別的樣本量又較少,有的甚至沒有樣本。因此將420個(gè)樣本分為兩類:心律失常病人和正常人,其中有183個(gè)心律失常的病人,并將此作為類別0的數(shù)據(jù)集;有237個(gè)正常人作為類別1的數(shù)據(jù)集。

        結(jié)果與分析

        表4 Arrhythmia 數(shù)據(jù)集的組合預(yù)測(cè)分析的分類精度

        *:()中的數(shù)值為組合預(yù)測(cè)模型文中式(7)到(10)的權(quán)重w的值。表中SCAD-L、gMCP-L、GB-L的分類精度數(shù)據(jù)摘自文獻(xiàn)[6]。

        由表4可得,在對(duì)Arrhythmia 數(shù)據(jù)集的實(shí)證分析中,組合預(yù)測(cè)模型對(duì)訓(xùn)練集的總體預(yù)測(cè)精度均高于單項(xiàng)預(yù)測(cè)模型的總體預(yù)測(cè)精度。在訓(xùn)練集中,對(duì)比單項(xiàng)預(yù)測(cè)模型,除了gMCP+cMCP-L方法外,gMCP+SCAD-L、gMCP+GB-L、cMCP+SCAD-L方法得到的總體預(yù)測(cè)精度有所提升,其中對(duì)測(cè)試集總體的預(yù)測(cè)中g(shù)MCP+GB-L方法的分類精度達(dá)到79.1%。比單項(xiàng)預(yù)測(cè)模型中最高分類精度77.9%高出1.2%。

        從測(cè)試集的分類預(yù)測(cè)精度來(lái)看,除了gMCP+cMCP-L方法外,gMCP+SCAD-L、gMCP+GB-L、cMCP+SCAD-L方法對(duì)病人(即y值為0數(shù)據(jù)集)和正常人(即y值為1的數(shù)據(jù)集)的預(yù)測(cè)精度都介于組成它的兩個(gè)單項(xiàng)預(yù)測(cè)方法對(duì)應(yīng)的預(yù)測(cè)精度之間;而gMCP+cMCP-L方法對(duì)心律失常的人的預(yù)測(cè)精度比gMCP-L和cMCP-L方法的預(yù)測(cè)精度都低。其中g(shù)MCP+GB-L方法對(duì)病人診斷的精確率最高。

        總體來(lái)看,組合預(yù)測(cè)模型一定程度上平均了單項(xiàng)預(yù)測(cè)模型的優(yōu)點(diǎn)和缺點(diǎn)。在對(duì)Arrhythmia數(shù)據(jù)集的分析中,gMCP+GB-L方法依然保持了最優(yōu)的分類預(yù)測(cè)精度。

        討 論

        本文通過(guò)最小絕對(duì)誤差和法的權(quán)重選擇方法建立了gMCP+SCAD-L、gMCP+cMCP-L、gMCP+GB-L、cMCP+SCAD-L四個(gè)組合方法,并從模擬研究和實(shí)證分析兩方面對(duì)這四個(gè)組合方法進(jìn)行比較。從結(jié)果上看,gMCP+GB-L方法在模擬研究和實(shí)證分析中均顯示出了更高預(yù)測(cè)精度。模擬研究表明,解釋變量存在的相關(guān)性越強(qiáng),樣本量越大,組合預(yù)測(cè)模型的優(yōu)勢(shì)更為明顯;解釋變量存在多重共線性且無(wú)組結(jié)構(gòu)和存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù)時(shí),相同樣本量下,組合預(yù)測(cè)模型比單項(xiàng)預(yù)測(cè)模型有更高的分類精度。在實(shí)證分析中,組合方法對(duì)正常人的預(yù)測(cè)精度普遍更高,對(duì)患病者的預(yù)測(cè)gMCP+GB-L方法最高為76.4%,其他方法在57.5%~58.0%之間。

        目前,組合方法在各個(gè)領(lǐng)域中得到越來(lái)越多的重視,各種形式的模型組合得以不斷地研究,權(quán)重的選擇方法也不斷地發(fā)展。本文僅用了最小絕對(duì)誤差和法進(jìn)行權(quán)重選擇,在今后的研究中,可以選用多種權(quán)重選擇方法,比較其效果;二是可以在變量選擇的模型內(nèi)組合多個(gè)懲罰項(xiàng)。

        [1] Bates JM,Granger CWJ.The Combination of Forecasts.Journal of the Operational Research Society,1969,20(4):451-468.

        [2] 李勤.組合預(yù)測(cè)方法研究綜述.價(jià)值工程,2012,31(29):23-25.

        [3] Gao Y,Zhang X,Wang S,et al.Model averaging based on leave-subject-out cross-validation.Journal of Econometrics,2016,192(1):139-151.

        [4] Zhang X,Yu D,Zon G,et al.Optimal Model Averaging Estimation for Generalized Linear Models and Generalized Linear Mixed-Effects Models.Journal of the American Statistical Association,2016,111(516):1775-1790.

        [5] 徐敏捷,蘭月新,劉冰月.基于組合預(yù)測(cè)的網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)測(cè)模型研究.情報(bào)科學(xué),2016,34(12):40-45+87.

        [6] 莊虹莉,李立婷,林雨婷,等.基于logistic回歸懲罰函數(shù)的疾病診斷.中國(guó)衛(wèi)生統(tǒng)計(jì),2017,34(1):139-143.

        [7] Huang J,Breheny P,Ma S.A Selective Review of Group Selection in High-Dimensional Models.Statistical Science,2012,27(4):481-499.

        [8] 高少龍.幾種變量選擇方法的模擬研究和實(shí)證分析.山東大學(xué),2014.

        [9] Wei F,Huang J.Consistent group selection in high-dimensional linear regression.Bernoulli:official journal of the Bernoulli Society for Mathematical Statistics and Probability,2010,16(4):1369-1384.

        猜你喜歡
        分類方法模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        国产午夜伦鲁鲁| 国产精品高清免费在线| 成熟妇女毛茸茸性视频| 中文字幕一精品亚洲无线一区| 欧美疯狂性xxxxxbbbbb| 日韩av一区二区毛片| 国产午夜视频高清在线观看| 久久无码高潮喷水抽搐| 97成人碰碰久久人人超级碰oo| 天天狠天天透天干天天| 久久精品亚洲熟女九色| 高黄暴h日本在线观看| 国产va在线观看免费| 囯产精品无码一区二区三区| 夜色视频在线观看麻豆| 亚洲国产精品无码久久一线| 久久久久久久久久久国产 | 欧美丝袜激情办公室在线观看| 国产精品综合女同人妖| 岛国av无码免费无禁网站| 日本韩无专砖码高清| 免费观看视频在线播放| 一本久道竹内纱里奈中文字幕| 在线观看热码亚洲av每日更新| 人妻丰满熟妇av无码区hd| 日本激情久久精品人妻热| 激情综合婷婷色五月蜜桃| 亚洲啪啪综合av一区| 国产真实乱对白在线观看| 国产免费人成视频在线观看| 精品国产免费一区二区三区| 99精品视频69V精品视频| 毛片亚洲av无码精品国产午夜| 国产精品久久久久尤物| 少妇深夜吞精一区二区| 久久99国产精品久久99| 久久久久久久99精品国产片| av毛片在线播放网址| 亚洲av午夜一区二区三| 怡红院免费的全部视频| 久久久www成人免费无遮挡大片|