亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        零膨脹計數(shù)數(shù)據(jù)回歸模型的選擇與比較及R語言的實現(xiàn)*

        2018-07-16 06:15:28劉振球左佳鷺方綺雯張鐵軍
        中國衛(wèi)生統(tǒng)計 2018年2期
        關鍵詞:二項分布原始數(shù)據(jù)決策樹

        劉振球 嚴 瓊 左佳鷺 方綺雯 張鐵軍△

        【提 要】 目的 探討和比較不同模型在零膨脹數(shù)據(jù)回歸分析中的應用。 方法 在R語言中,擬合HIV合并血友病數(shù)據(jù)的對數(shù)線性模型、零膨脹模型、隨機森林、決策樹以及支持向量機模型,通過比較標準化均方誤差和均方根誤差,對模型進行評價與選擇。結果 從標準化均方誤差和均方根誤差來看,隨機森林是對原始數(shù)據(jù)擬合的最好的模型,隨后是支持向量機和決策樹模型,而經(jīng)典的計數(shù)模型表現(xiàn)則相對較差。結論 在對零膨脹計數(shù)資料進行回歸預測時,機器學習方法的效果優(yōu)于經(jīng)典的計數(shù)模型。

        在醫(yī)學研究中,經(jīng)常遇到因變量為計數(shù)資料的問題,如一段時間內(nèi)癲癇患者的抽搐發(fā)作次數(shù)、某種化療藥物引起患者的嘔吐次數(shù)等。這些事件發(fā)生次數(shù)取值為非負整數(shù),且多服從正偏態(tài)分布。研究此類問題時,我們通常假設事件發(fā)生次數(shù)服從Poisson分布,將該關注事件發(fā)生的頻數(shù)作為因變量,擬合廣義線性Poisson回歸模型,去探索其他自變量對該事件的影響[1]。當事件發(fā)生次數(shù)過度離散時,我們可以選擇負二項回歸模型。但是,在某些罕見事件的研究中,常遇到許多觀察個體在研究時間內(nèi),并未發(fā)生該結局事件,因此數(shù)據(jù)中會有相當比例的結局變量取值為零,并且零的比例超過Poisson回歸和負二項回歸的預測能力,故稱為零膨脹[2]。Lambert首次建立了零膨脹Poisson回歸模型[3]。該模型的提出,有效地解決了零膨脹數(shù)據(jù)的分析問題,使分析結果更加準確。近年,關于零膨脹計數(shù)資料的模型選擇問題已成為一個研究熱點,各種模型層出不窮,比如Hurdle計數(shù)模型[4],半連續(xù)數(shù)據(jù)兩部模型等[5]。此類模型均是基于經(jīng)典的統(tǒng)計方法,雖然能夠用明確的數(shù)學表達式對原始數(shù)據(jù)進行展示和解釋,但是由于受限于原始數(shù)據(jù)的結構以及對原始數(shù)據(jù)的一些假設,因此在對未知數(shù)據(jù)進行預測時,往往效果不好。隨著計算機技術的不斷發(fā)展,機器學習方法也被越來越多地運用到實際問題的處理過程中。以往的研究證實,在時間序列數(shù)據(jù)的預測上,算法模型,比如隨機森林、支持向量機、決策樹等,其預測效果明顯優(yōu)于傳統(tǒng)的統(tǒng)計模型[6-7]。

        本研究擬比較不同的算法模型以及傳統(tǒng)的統(tǒng)計模型,在零膨脹數(shù)據(jù)預測分析上的優(yōu)劣,從而為零膨脹數(shù)據(jù)的分析提供一個新的思路。

        方法與實例分析

        本文所采用的分析數(shù)據(jù)來自于美國國家癌癥研究所資助的多中心血友病隊列研究(http://www.stat.berkeley.edu/users/statlabs/labs.html)。該項研究從1978年1月1日到1995年12月31日在歐美16個治療中心跟蹤隨訪了超過1600個血友病病人,所得數(shù)據(jù)共有2144個觀測值及6個變量。表1為變量的基本描述。

        表1 HIV合并血友病數(shù)據(jù)變量基本描述

        在上述變量中,deaths是一個零膨脹變量,其取值分布如圖1所示。

        圖1 deaths變量取值分布

        死亡數(shù)等于零的組占比為85.5%,因此,該數(shù)據(jù)為典型的零膨脹數(shù)據(jù)。在經(jīng)典統(tǒng)計學的基礎上,我們一般采用零膨脹計數(shù)數(shù)據(jù)模型對其進行回歸。該模型由兩個部分構成,一部分為集中在零點的點質(zhì)量,如logistic或者probit回歸模型;第二部分為某種計數(shù)分布,比如Poisson分布或者負二項分布。以零膨脹Poisson模型為例,其密度函數(shù)可以表示為:

        p(yi=0|xi)=pi+(1-pi)exp(-μi)

        (1)

        (2)

        上式中,yi為某事件發(fā)生數(shù),xi為協(xié)變量向量,μi為第i個個體的期望Poisson計數(shù),pi為二項分布產(chǎn)生的零計數(shù)概率。零膨脹負二項分布的概率分布與零膨脹Poisson分布模型類似,二者第一部分相同,而在非零部分選用了負二項分布。

        R語言pscl包中的zeroinfl()函數(shù)可用來擬合零膨脹負二項分布模型、零膨脹Poisson模型,以及零膨脹幾何分布模型。

        該函數(shù)基本格式如下:

        fit_zero <- zeroinfl(deaths~hiv+factor+py+age | hiv+py+age,data,dist)

        管道符“|”將模型分為兩個部分,前面是零部分,后面是非零部分,至于每一部分用什么變量進行擬合,無法先驗確定,可以通過多次嘗試來決定。該函數(shù)默認是進行零膨脹Poisson回歸,我們可以根據(jù)dist參數(shù)選擇相應的非零部分的分布模型。

        關于選擇何種分布模型,我們可以使用過度離散檢驗[8]和Vuong檢驗[9]來決定,與之對應的函數(shù)分別是odtest()和vuong()。除此之外,我們也可以利用AIC,BIC,標準均方誤差以及均方根誤差等統(tǒng)計指標作為判斷標準。

        零膨脹Poisson回歸模型得出的結果見表2。

        表2 零膨脹Poisson回歸模型結果

        為了比較不同的模型,包括經(jīng)典的計數(shù)模型以及機器學習模型,對于該數(shù)據(jù)的擬合情況,采用標準均方誤差(NMSE)以及均方根誤差(RMSE)作為判斷標準,對各個模型進行評價。NMSE和RMSE的計算公式如下:

        (3)

        (4)

        在模型擬合的過程中,為了保證結果的穩(wěn)健性,采用了10重交叉驗證,最后對NMSE和RMSE取均值。實現(xiàn)這一過程的函數(shù)見附件。該自定義函數(shù)命名為zero_fl,包含9個參數(shù),分別為data,model,formula,id,tar,z=10,p=0.8,dist=′poisson′,seed=2017;其含義分別為:

        (1)data:傳入的數(shù)據(jù)集。

        (2)model:選擇的模型,接受一個字符串,比如”rf”,表示進行隨機森林擬合。

        (3)formula:針對不同模型的回歸公式。

        (4)id:接受一個正整數(shù),表示根據(jù)這個變量對原始數(shù)據(jù)集進行均衡切分。

        (5)tar:接受一個正整數(shù),表示目的變量。

        (6)z:默認值為10,表示進行10重交叉驗證。

        (7)p:默認值是0.8,表示進行交叉驗證時,將80%的數(shù)據(jù)設置為訓練集。

        (8)dist:表示進行零膨脹模型時,采用何種分布,可選“poisson”,“bioneg”和“geometric”。

        (9)seed:默認是2017,用于設置隨機數(shù)種子。

        該函數(shù)最終返回的是NMSE和RMSE。對于本文中使用的數(shù)據(jù)集,最終不同模型擬合的結果如圖2和表3所示。

        Liner:Poisson對數(shù)線性模型;RF:隨機森林;SVM:支持向量機;Rpart:決策樹模型;Poisson:Poisson零膨脹模型;Negbin:負二項分布零膨脹模型;Geometric:幾何分布零膨脹模型

        圖2 不同模型擬合結果比較

        小  結

        計數(shù)數(shù)據(jù)是我們在醫(yī)學科研中經(jīng)常遇到的一個問題,對于此類問題,常用的方法是廣義Poisson對數(shù)線性模型[10]。但是對于因變量中零過多的情況,傳統(tǒng)的統(tǒng)計模型則不能對數(shù)據(jù)進行很好的擬合,從而造成數(shù)據(jù)信息使用不全,導致偏離甚至錯誤的結論。零膨脹模型的提出很好地解決了這個問題,我們可以根據(jù)原始數(shù)據(jù)的特征,比如零在結局變量中所占的比例,選擇相應的零膨脹模型;也可以對多個不同的零膨脹模型進行統(tǒng)計學比較,從而選擇最優(yōu)模型。

        從上文中的結果來看,專門為計數(shù)資料設計的若干經(jīng)典統(tǒng)計模型的表現(xiàn)整體不如廣譜的算法模型。擬合程度最好的是隨機森林,隨后是支持向量機和決策樹模型,表現(xiàn)最差的是Poisson對數(shù)線性模型,零膨脹模型介于此二類模型之間。這提示我們今后在處理零膨脹數(shù)據(jù)時,如果需要對每一個自變量進行解釋,則可以選擇合適的零膨脹回歸模型,如果需要對未知數(shù)據(jù)進行預測,機器學習方法是一個更好的選擇。

        經(jīng)典的統(tǒng)計模型與算法模型存在本質(zhì)區(qū)別,前者通常要求數(shù)據(jù)滿足若干假設,如果數(shù)據(jù)滿足所有假設,則經(jīng)典模型會擬合出完美的結果,數(shù)學上也能被精確描述,我們從而能夠根據(jù)模型對數(shù)據(jù)和結果作出正確的解釋。而機器學習算法不基于原始數(shù)據(jù)的任何假設,因此適用范圍更加廣泛。這些方法預測精度高,但是不會得到類似P值那樣的顯著性度量指標,也無法用精確的數(shù)學公式來描述,更不會用諸如無偏性等概念來評價模型,所以交叉驗證的方法被廣泛用于評價算法模型。本文中提供的R語言代碼,簡單實現(xiàn)了對不同模型的10重交叉驗證,有助于我們快速得到準確的結果。

        猜你喜歡
        二項分布原始數(shù)據(jù)決策樹
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        二項分布與超幾何分布的區(qū)別與聯(lián)系
        深度剖析超幾何分布和二項分布
        概率與統(tǒng)計(1)——二項分布與超幾何分布
        受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術實現(xiàn)5 級自動駕駛
        汽車零部件(2017年4期)2017-07-12 17:05:53
        二項分布參數(shù)的E-Bayes估計及其應用
        基于決策樹的出租車乘客出行目的識別
        无码一区二区三区在线在看| 亚洲线精品一区二区三区| 国产97色在线 | 国产| 少妇高潮惨叫久久久久久电影| 人人妻一区二区三区| 人妻少妇精品无码专区二区| √天堂中文官网8在线| 国产免费av片在线观看播放| 亚洲无码啊啊啊免费体验| 亚洲精品乱码久久麻豆| 日本一区二区三区视频免费在线| 麻豆69视频在线观看| 精品国偷自产在线视频九色| 奇米影视777撸吧| 激情五月婷婷综合| 亚洲国产综合性感三级自拍| 色婷婷av一区二区三区丝袜美腿 | 摸进她的内裤里疯狂揉她动图视频| 毛片无码国产| www.狠狠艹| 99久久免费中文字幕精品| 精品一区二区三区久久| 欧洲美熟女乱又伦av影片| 久久精品国产久精国产| 国产农村妇女高潮大叫| 成人在线免费视频亚洲| 免费一区二区三区av| 亚洲国产成人久久精品一区| 色88久久久久高潮综合影院| 亚洲色大成网站www久久九| 日韩在线免费| 国产91熟女高潮一曲区| 亚洲国产精品区在线观看| 日韩人妻ol丝袜av一二区| 在教室伦流澡到高潮hgl视频| 色狠狠色狠狠综合一区| 欧美日韩国产在线成人网| 国产精品天堂在线观看| 国产日本精品视频一区二区| 亚洲av无码专区亚洲av伊甸园| 亚洲男人的天堂在线播放|