亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于含測(cè)量誤差半?yún)?shù)模型的糖尿病數(shù)據(jù)研究

        2022-02-24 01:52:40黃振生
        關(guān)鍵詞:估計(jì)量測(cè)量誤差變量

        孫 興, 黃振生

        (南京理工大學(xué) 理學(xué)院,南京 210094)

        0 引 言

        在醫(yī)療領(lǐng)域,糖尿病是備受關(guān)注的慢性病之一,也是全球嚴(yán)重的公共衛(wèi)生安全問(wèn)題之一,它除了會(huì)給患者帶來(lái)痛苦之外,還會(huì)給家庭和社會(huì)帶來(lái)巨大的經(jīng)濟(jì)負(fù)擔(dān)和壓力。根據(jù)國(guó)際糖尿病聯(lián)盟(IDF)2017的調(diào)研結(jié)果顯示,全球共有約4.25億糖尿病患者,其中中國(guó)糖尿病患者占比超25%[1]。研究糖尿病與體質(zhì)測(cè)量數(shù)據(jù)之間的關(guān)系,可以更好地了解和預(yù)防糖尿病,因此具有較為重要的意義。研究的糖尿病數(shù)據(jù)集包含442個(gè)觀測(cè)樣本,其中響應(yīng)變量是糖尿病患者的定量測(cè)量數(shù)據(jù),協(xié)變量分別為年齡(Age)、性別(Sex)、體質(zhì)指數(shù)(BMI)、平均血壓(BP)和6種血清指標(biāo)測(cè)量數(shù)據(jù),分別以符號(hào)TC、LDL、HDL、TCH、LTG和GLU表示。

        部分變系數(shù)單指標(biāo)模型(PVCSIMs)是一類重要的半?yún)?shù)模型,它不僅保留了非參數(shù)模型的特點(diǎn),還能避免“維數(shù)災(zāi)禍”問(wèn)題,因此是統(tǒng)計(jì)分析的重要工具,尤其在處理高維數(shù)據(jù)時(shí)十分有優(yōu)勢(shì),模型的結(jié)構(gòu)如下:

        Y=θT(U)Z+g(βTX)+ε

        (1)

        可以看出,該模型具有一般性,它不僅兼有變系數(shù)模型和單指標(biāo)模型的特點(diǎn),還包含了許多其他重要的半?yún)?shù)模型作為特例:對(duì)于變系數(shù)部分,函數(shù)θ(·)表示的是Z和U的相互作用,如果假設(shè)θ(·)是常數(shù)向量,那么模型就可以看作是部分線性單指標(biāo)模型,若進(jìn)一步令系數(shù)函數(shù)向量θ(·)的維數(shù)q等于1,那么就可以得到單指標(biāo)模型。對(duì)于單指標(biāo)部分,若令聯(lián)系函數(shù)g(βTX)≡βTX,那么模型就變成了部分線性變系數(shù)模型,進(jìn)一步取參數(shù)β的維數(shù)p為1,模型就退化成了變系數(shù)模型。

        近年來(lái),關(guān)于模型式(1)的研究成果已經(jīng)十分豐富。為了研究化學(xué)污染物水平與每天因呼吸系統(tǒng)疾病住院的總?cè)藬?shù)的關(guān)系,以及溫度和相對(duì)濕度對(duì)入院人數(shù)的影響,Wong等[2]首次提出PVCSIMs,他們結(jié)合二元局部線性方法、平均方法和一步回?cái)M技術(shù)(One-step Back-fitting Technique)得到函數(shù)和參數(shù)的有效估計(jì)?;谒麄兊难芯?,Huang和Zhang[3]進(jìn)一步利用廣義似然法(GLR)解決了模型中變系數(shù)部分的檢驗(yàn)問(wèn)題。Li和Zhang[4]通過(guò)將系數(shù)函數(shù)和聯(lián)系函數(shù)樣條化,提出了模型的懲罰樣條估計(jì)方法,該方法可以同時(shí)得到未知參數(shù)和函數(shù)的估計(jì)值。Wang和Xue[5]的研究指出,Wong等[2]用二元局部線性光滑進(jìn)行估計(jì)可能會(huì)導(dǎo)致估計(jì)量不相合,因此,提出一種較為穩(wěn)定的逐步估計(jì)法對(duì)模型進(jìn)行估計(jì),其基本思想是:假設(shè)參數(shù)已知,將模型轉(zhuǎn)換成變系數(shù)模型,并利用Nadaraya-Watson核估計(jì)方法和局部線性回歸方法逐步得到系數(shù)函數(shù)和聯(lián)系函數(shù)的初步估計(jì),然后根據(jù)這些初始估計(jì)量計(jì)算未知參數(shù)的估計(jì)值,文章還討論了估計(jì)量的漸近性質(zhì),并且建立了逐點(diǎn)置信區(qū)間和置信域。Huang[6]通過(guò)經(jīng)驗(yàn)似然方法研究了單指標(biāo)參數(shù)的極大似然估計(jì),并且利用截面經(jīng)驗(yàn)似然方法構(gòu)造了各參數(shù)分量的置信區(qū)間。Huang[7]等結(jié)合SCAD(Smoothly Clipped Absolute Deviation)懲罰和逐步估計(jì)法研究了指標(biāo)參數(shù)β的變量選擇問(wèn)題,在一定的正則化條件下,還構(gòu)建了估計(jì)量的大樣本性質(zhì)。最近,受到圖像數(shù)據(jù)分析的啟發(fā),Li等[8]討論了函數(shù)型數(shù)據(jù)下PVCSIMs的估計(jì)問(wèn)題,利用局部線性方法逐步迭代得到了系數(shù)函數(shù)、聯(lián)系函數(shù)、指標(biāo)參數(shù)以及方差函數(shù)的估計(jì)值,并且證明提出的方法相較于Wong等[2]和Wang和Xue[5]中的方法更加穩(wěn)定。

        雖然半?yún)?shù)模型可以用來(lái)解決大部分回歸擬合問(wèn)題,然而在實(shí)際應(yīng)用中,由于操作人員的失誤和測(cè)量工具不精確等問(wèn)題,收集到數(shù)據(jù)中往往帶有測(cè)量誤差,因此進(jìn)一步研究半?yún)?shù)誤差模型是很有必要的。扭曲測(cè)量誤差(Distorted Measurement Error)作為誤差的常見(jiàn)形式,是近年來(lái)學(xué)者們研究的熱點(diǎn)問(wèn)題。Sentürk 和 Müller[9]提出協(xié)變量調(diào)整回歸(Covariate-adjusted Regression, CAR)模型,即假設(shè)響應(yīng)變量和協(xié)變量都含有扭曲測(cè)量誤差,通過(guò)將線性誤差模型轉(zhuǎn)換成變系數(shù)模型,并結(jié)合分箱法給出了對(duì)未知參數(shù)的估計(jì)。Cui等[10]提出一種非參數(shù)誤差回歸模型的一般估計(jì)方法,該方法通過(guò)核估計(jì)得到誤差函數(shù)的估計(jì)量并以此計(jì)算受污染變量的校正值,然后根據(jù)校正后的變量對(duì)目標(biāo)參數(shù)進(jìn)行估計(jì)。Delaigle[11]等進(jìn)一步討論了在不同假設(shè)條件下非參數(shù)誤差回歸模型的估計(jì)問(wèn)題,在弱化對(duì)未知變量或扭曲函數(shù)的假設(shè)后,提出了更一般的估計(jì)方法,并且建立了相應(yīng)估計(jì)量的漸近性質(zhì)。此外,Qian和Huang[12]研究了含扭曲測(cè)量誤差的部分非線性變系數(shù)模型的統(tǒng)計(jì)推斷問(wèn)題。Dai和Huang[13]將協(xié)變量含扭曲測(cè)量誤差的情形推廣到部分非線性變系數(shù)模型。

        對(duì)于糖尿病數(shù)據(jù)集,根據(jù)數(shù)據(jù)本身的特點(diǎn),利用單指標(biāo)部分含扭曲測(cè)量誤差的PVCSIMs模型進(jìn)行擬合。該模型具有復(fù)雜的結(jié)構(gòu),可以靈活地?cái)M合變量之間的關(guān)系。進(jìn)一步考慮了測(cè)量誤差的存在,使得模型更加符合實(shí)際情形,可以更好地挖掘變量之間潛在的聯(lián)系。模型的估計(jì)方法主要參考Cui等[10]和Huang[6]中的思想。

        1 模型建立

        含有扭曲測(cè)量誤差的部分變系數(shù)單指標(biāo)模型具有如下形式:

        (2)

        (1) ‖β0‖=1,其中‖·‖表示Euclid模;

        (2)E|ψ(U)|=1,E|φr(U)|=1;

        (3) 模型誤差ε的方差是有限的。

        其中,r=1,2…,p。假設(shè)條件(1)保證了單指標(biāo)參數(shù)的唯一性,假設(shè)條件(2)保證了誤差函數(shù)的可識(shí)別性,假設(shè)條件(3)保證了估計(jì)量的漸近性質(zhì)。

        接下來(lái),介紹模型(2)的估計(jì)方法。首先估計(jì)誤差函數(shù),根據(jù)Cui等[10]和Delaigle等[11]中提出的方法,結(jié)合假設(shè)條件(2)可以得到:

        因此可以用N-W核估計(jì)方法可以得到誤差函數(shù)的估計(jì)式分別為

        根據(jù)校正后的變量,可以得到模型(1)的一個(gè)近似形式

        (3)

        模型(3)的估計(jì)過(guò)程主要參考文獻(xiàn)[6]中的思想和方法,簡(jiǎn)要表述過(guò)程如下:

        令B={β∈Rp:‖β‖=1},可以推出β0∈B。由于假設(shè)條件(1)的存在,目標(biāo)函數(shù)

        β∈B,在β0處的一階導(dǎo)數(shù)不存在,因此考慮使用Zhu和Xue[14]中的“去一分量”法得到β0的有效估計(jì)。不妨假設(shè)β的第r個(gè)分量βr>0,定義

        β(r)=(β1,β2,…,βr-1,βr+1,…βp)T

        則有

        接著,可以計(jì)算出β關(guān)于β(r)的Jacobian矩陣為

        不難推出,{ηi(β(r)),i=1,2,…,n}是相互獨(dú)立的且E(ηi(β(r)))=0。因此β(r)的經(jīng)驗(yàn)對(duì)數(shù)似然比函數(shù)可以定義為

        (4)

        接下來(lái),只要求解函數(shù)的初始估計(jì)值即可。對(duì)于函數(shù)的初始估計(jì),考慮利用局部線性光滑方法分步求解系數(shù)函數(shù)和聯(lián)系函數(shù),具體的估計(jì)步驟如下:首先假設(shè)參數(shù)β0已知,對(duì)模型(3)的兩邊求條件期望,經(jīng)過(guò)簡(jiǎn)單的計(jì)算可以得到:

        其中

        且有

        參考Einmahl和Mason[15]的方法,應(yīng)用N-W核估計(jì)求解兩個(gè)二元函數(shù)的估計(jì)表達(dá)式。選擇核函數(shù)K1(t,u)=K(t)·K(u)和帶寬h2(n)→0,ωj(·,·)(j=1,2)的估計(jì)量分別為

        接著,令a=(a1,…,aq)T和b=(b1,…,bq)T,在u的鄰域內(nèi)有

        通過(guò)最小化加權(quán)平方和

        可以得到系數(shù)函數(shù)θ(·)及其一階導(dǎo)數(shù)θ′(·)的初始估計(jì)量為

        其中κ(u)=diag(Kh2(U1-u),Kh2(U2-u),…,Kh2(Un-n))以及

        然后,帶入系數(shù)函數(shù)估計(jì)量到式(3)中,通過(guò)局部線性方法,類似地,可以得到聯(lián)系函數(shù)g(·)及其一階導(dǎo)數(shù)g′(·)的初始估計(jì)方程估計(jì)分別為

        以及

        2 模型擬合

        糖尿病數(shù)據(jù)集共包含442個(gè)樣本觀測(cè)值和11個(gè)變量,數(shù)據(jù)集來(lái)自Efron等[16]。Zhang等[17]利用含測(cè)量誤差的部分線性單指標(biāo)模型研究了該數(shù)據(jù)集,并且證明變量Sex和6種血清的化驗(yàn)數(shù)據(jù)與變量BMI可能存在非線性關(guān)系,受到該實(shí)驗(yàn)結(jié)果的啟發(fā),考慮用部分變系數(shù)單指標(biāo)模型重新分析該數(shù)據(jù)集,觀察變量Sex和6種血清的化驗(yàn)數(shù)據(jù)變量的系數(shù)是否受到BMI的影響。此外,考慮到病人的BMI可能與他的年齡和血壓存在關(guān)系,因此假設(shè)變量Age和BP受到BMI的污染,具體的變量意義見(jiàn)表1。實(shí)驗(yàn)前,對(duì)各個(gè)變量進(jìn)行了標(biāo)準(zhǔn)化處理。

        表1 糖尿病數(shù)據(jù)集變量及其含義Table 1 The variables and meanings of diabetes data set

        在非參數(shù)回歸方法中,帶寬對(duì)估計(jì)精度較大,因此使用合適的帶寬選擇方法十分重要。由于對(duì)于誤差函數(shù)的估計(jì)方法比較簡(jiǎn)單,因此可以采用基于經(jīng)驗(yàn)的拇指規(guī)則(Rule of Thumb)來(lái)選擇帶寬。選取h1=n-1/3SE(V),其中

        而對(duì)于系數(shù)函數(shù)向量θ(·)和聯(lián)系函數(shù)g(·)的估計(jì)比較復(fù)雜,因此使用交叉驗(yàn)證法(Cross-validation)選擇最優(yōu)帶寬hcv,并令h2=hcv,h3=hcv(nlogn)-1/20。

        根據(jù)第2節(jié)的模型估計(jì)方法,本次實(shí)驗(yàn)的具體算法流程如下:

        Step2 選擇符合假設(shè)(1)的初始參數(shù)βini;

        使用模型(2)對(duì)糖尿病數(shù)據(jù)集進(jìn)行擬合,變量選擇如表1所示。首先得到的是誤差函數(shù)ψ(·)和φr(·)(r=1,2)的估計(jì)曲線,見(jiàn)圖1和圖2,其中圖2(a)和圖2(b)分別代表函數(shù)φ1(·)和φ2(·)的估計(jì)曲線。從估計(jì)曲線的趨勢(shì)可以看出,各條估計(jì)曲線都不是水平的,這說(shuō)明變量(Y,X1,X2)與混淆因子V存在非線性的關(guān)系,這驗(yàn)證了之前的實(shí)驗(yàn)假設(shè):糖尿病患者定量測(cè)量數(shù)據(jù),Age和BP受到了混淆因子BMI的污染。

        圖1 ψ(·)的估計(jì)值Fig. 1 The estimation of ψ(·)

        (a)φ1(·) (b)φ2(·)

        (a)Z1 (b)Z2 (c)Z3

        (d)Z4 (e)Z5 (f)Z6 (g)Z7

        圖4 聯(lián)系函數(shù)g(·)的估計(jì)曲線Fig. 4 The estimation curve of contact function g(·)

        3 結(jié)束語(yǔ)

        對(duì)于高維數(shù)據(jù)分析,相較于傳統(tǒng)的參數(shù)模型和非參數(shù)模型,半?yún)?shù)模型不僅可以較好地?cái)M合數(shù)據(jù),還可以避免“維數(shù)災(zāi)禍”問(wèn)題,因此廣泛地應(yīng)用醫(yī)藥和經(jīng)濟(jì)等領(lǐng)域。此外,在實(shí)際應(yīng)用中,由于外界因素的干擾,很難避免測(cè)量誤差的產(chǎn)生,如果忽略誤差的影響,就有可能導(dǎo)致模型擬合產(chǎn)生偏差,因此研究帶有測(cè)量誤差的模型應(yīng)用問(wèn)題是比較重要的。這里,針對(duì)糖尿病數(shù)據(jù)集,應(yīng)用部分變系數(shù)單指標(biāo)模型進(jìn)行擬合,并假設(shè)變量Y和X受到混淆因子BMI的乘積污染。觀察實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),6種血清測(cè)量數(shù)據(jù)和變量Sex的系數(shù)會(huì)隨著B(niǎo)MI的變化而變化,并且對(duì)比帶有測(cè)量誤差和不含測(cè)量誤差兩種情形的結(jié)果發(fā)現(xiàn),糖尿病人定量測(cè)量值、Age和BP均受到BMI的污染。這些結(jié)果說(shuō)明選擇單指標(biāo)部分帶有測(cè)量誤差的部分變系數(shù)單指標(biāo)模型對(duì)該數(shù)據(jù)集進(jìn)行擬合是合理的,并且相較于不含測(cè)量誤差的半?yún)?shù)模型,可以更好地挖掘數(shù)據(jù)中的信息。

        猜你喜歡
        估計(jì)量測(cè)量誤差變量
        密度測(cè)量誤差分析
        抓住不變量解題
        也談分離變量
        縱向數(shù)據(jù)下變系數(shù)測(cè)量誤差模型的漸近估計(jì)
        淺談估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        牽引變壓器功率測(cè)量誤差分析
        基于配網(wǎng)先驗(yàn)信息的諧波狀態(tài)估計(jì)量測(cè)點(diǎn)最優(yōu)配置
        分離變量法:常見(jiàn)的通性通法
        IMU/GPS測(cè)量誤差對(duì)斜視條件下機(jī)載重軌干涉
        亚洲永久国产中文字幕| 永久免费看黄在线观看| 久久久久久久久久久熟女AV| 亚洲最大在线精品| 国产成人精品日本亚洲直播| 中文字幕人妻系列一区尤物视频| 国产一区二区黑丝美女| 偷偷夜夜精品一区二区三区蜜桃| 男女搞事在线观看视频| 中文字幕人成人乱码亚洲av| 久人人爽人人爽人人片av| 午夜内射中出视频| ā片在线观看| 人妻AV无码一区二区三区奥田咲| 国产综合精品久久久久成人| 国产一区二区三区资源在线观看| a级三级三级三级在线视频| 99久久99久久久精品蜜桃| 国产综合无码一区二区辣椒| 国产96在线 | 欧美| 色老头一区二区三区| 91精品啪在线看国产网站| 女同av免费在线播放| 久久一二区女厕偷拍图| 艳z门照片无码av| 亚洲精品午睡沙发系列| 性夜夜春夜夜爽aa片a| 在线天堂中文一区二区三区| 国产av一区二区三区在线| 成h视频在线观看免费| 国产女人好紧好爽| 中字幕人妻一区二区三区| 中文字幕无码家庭乱欲| 亚洲日韩精品A∨片无码加勒比| 亚洲日本精品一区久久精品| 久亚洲一线产区二线产区三线麻豆| 在线观看免费日韩精品| 亚洲国产成人久久三区| 嫖妓丰满肥熟妇在线精品| 日韩在线第二页| 中文字幕在线人妻视频|