亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        帶有刪失函數(shù)型協(xié)變量的非參數(shù)模型的估計研究

        2024-03-01 08:39:20王純杰盧哲昕
        通化師范學(xué)院學(xué)報 2024年2期
        關(guān)鍵詞:方法模型

        李 響,王純杰,盧哲昕,徐 萍

        隨著技術(shù)的進步,函數(shù)型數(shù)據(jù)分析在越來越多的領(lǐng)域中發(fā)揮著重要作用,如醫(yī)學(xué)、生物學(xué)、經(jīng)濟學(xué)等領(lǐng)域.由于觀測對象在試驗中需要長期隨訪,因此,每個觀測對象的生理指標(biāo)的測量結(jié)果通常被記錄為曲線的形式,并且由于觀測對象加入試驗、退出試驗的時間不一致或者中途退出導(dǎo)致的差別、觀測時間的局限性或客觀條件的限制等因素的影響,人們通常不能得到完整的觀測曲線.例如在醫(yī)學(xué)研究中許多數(shù)據(jù)集是通過患者定期檢查并記錄下來,然而患者忘記檢查或者醫(yī)療設(shè)備的損壞都可能產(chǎn)生刪失函數(shù)型數(shù)據(jù).目前對于刪失函數(shù)型數(shù)據(jù)已經(jīng)有學(xué)者進行了研究,例如DELAIGLE 等[1]使用曲線擴展算法對刪失函數(shù)型數(shù)據(jù)進行擴展.DELAIGLE 等[2]提出使用馬爾科夫鏈的方法對刪失函數(shù)型數(shù)據(jù)進行擴展.KRAUS 等[3]提出正則化方法對不完整的函數(shù)型數(shù)據(jù)進行分類.DELAIGLE 等[4]通過計算張量級數(shù)的方法得到協(xié)方差函數(shù)并且得到近似完整的函數(shù)型數(shù)據(jù).DESCARY等[5]對規(guī)則密集的數(shù)據(jù)提出使用矩陣補全方法重新構(gòu)造協(xié)方差函數(shù).LIN 等[6]針對刪失函數(shù)型難以計算非對角線區(qū)域的信息問題,使用基函數(shù)展開的方法估計協(xié)方差函數(shù).LIN等[7]把協(xié)方差函數(shù)分解為方差函數(shù)分量和相關(guān)函數(shù)分量來解決刪失函數(shù)型的協(xié)方差函數(shù)不好估計的問題.趙志文等[8]在缺失數(shù)據(jù)下使用均值補充法、條件均值補充法研究了區(qū)間自回歸模型的參數(shù)估計問題.

        非參數(shù)回歸模型具有回歸函數(shù)形式靈活、適應(yīng)性廣泛的優(yōu)勢.FERRATY 等[9]在非參數(shù)模型下把核估計應(yīng)用于函數(shù)型數(shù)據(jù)和時間序列數(shù)據(jù).RACHDI 等[10]對非參數(shù)模型估計中的帶寬選擇進行研究.MOHAMMED 等[11]在非參數(shù)模型下針對函數(shù)型協(xié)變量,使用核估計方法解決魯棒回歸問題.FLORENT 等[12]提出使用k近鄰方法估計非參數(shù)模型.王景樂[13]在刪失指標(biāo)隨機缺失下研究回歸函數(shù)的非參數(shù)估計.孟書宇[14]使用k近鄰方法估計相依函數(shù)型非參數(shù)模型.程彥茹[15]使用k近鄰方法估計隨機缺失函數(shù)型非參數(shù)模型.

        本文研究具有刪失函數(shù)型協(xié)變量的非參數(shù)模型的估計問題.使用曲線擴展算法把刪失函數(shù)型數(shù)據(jù)擴展至完整數(shù)據(jù).通過建立非參數(shù)模型,可以得到函數(shù)型協(xié)變量對標(biāo)量響應(yīng)變量的預(yù)測.通過模擬研究驗證該方法的有效性,并應(yīng)用到肝硬化數(shù)據(jù)集.

        1 模型與估計

        在實驗過程中人們往往以函數(shù)型數(shù)據(jù)的形式來記錄試驗結(jié)果,但由于各種因素不能觀測到函數(shù)型數(shù)據(jù)的全部過程,因此產(chǎn)生刪失函數(shù)型數(shù)據(jù).假設(shè)觀測數(shù)據(jù)為Xi(t) ≡Xi,i=1,…,n,每條觀測數(shù)據(jù)Xi(t) 只能在部分區(qū)間Ii=[ai,bi]可被觀測到,且Ii?I0,其中ai和bi分別表示第i個樣本的左端點和右端點,I0表示完整觀測的區(qū)間.例如文獻[1]研究了8 歲到25 歲四個種族群體(亞洲人、黑人、西班牙人和白人)脊柱骨密度分類問題,其中對每個個體只能進行2 次到4 次的測量,只觀測到部分區(qū)間內(nèi)的部分函數(shù)型數(shù)據(jù).像這種觀測次數(shù)不同、觀測時間不同的函數(shù)型數(shù)據(jù),不經(jīng)過處理很難建立模型.本文將介紹一種非參數(shù)的方法對刪失函數(shù)型數(shù)據(jù)進行擴展,并建立非參數(shù)模型.非參數(shù)模型定義為:

        式中:Yi為標(biāo)量響應(yīng)變量,r(?)為未知的非線性算子,εi為滿足E(εi|Xi)=0 的隨機誤差,Xi為刪失函數(shù)型數(shù)據(jù).

        在建立模型前需要通過曲線擴展算法把刪失函數(shù)型數(shù)據(jù)進行處理.本文使用的方法為文獻[8]中的函數(shù)型核估計方法,公式如下:

        式中:wn,h(?,?)為權(quán)重函數(shù),可以表示為:

        式中:K(?)為核函數(shù),d(?,?)為半度量,h為窗寬,在進行估計時需要對核函數(shù)、半度量和窗寬h進行選擇.

        2 刪失函數(shù)型數(shù)據(jù)擴展算法

        本文使用文獻[1]提出的基于垂直距離將刪失函數(shù)型數(shù)據(jù)擴展為完整函數(shù)型數(shù)據(jù)的方法.該方法具有計算快、精確度高、靈活性高、非參數(shù)等優(yōu)勢.具體過程為,假設(shè)觀測到的樣本為在區(qū)間Ishort=[ashort,bshort]上的函數(shù)型數(shù)據(jù)Xshort,其中ashort和bshort分別表示需要擴展的函數(shù)型數(shù)據(jù)的左端點和右端點,使用區(qū)間Ilong=[along,blong]?Ishort上的數(shù)據(jù)Xi,i=1,…,n估計Xshort未觀測到的部分,并且Ishort?Ilong?其中along和blong分別表示長于數(shù)據(jù)Xshort的左端點和右端點.從bshort的右邊來構(gòu)造擴展數(shù)據(jù)Xext的具體算法步驟如下:

        步驟1:設(shè)置對于所有的t∈[ashort,bshort],使Xext(t)=Xshort(t)且j=1,j為擴展的次數(shù),bext,j=bshort.

        步驟2:對于j=1,2,…,重復(fù)以下步驟直到bext,j

        (1)找到所有滿足ai≤bext,j和bi>bext,j的函數(shù)型數(shù)據(jù)Xi,選擇它們其中的一個命名為Xi*,Xi*被觀測在Ii*=[ai*,bi*],其中ai*和bi*分別表示函數(shù)型數(shù)據(jù)Xi*的左端點和右端點.

        (2)擴展出的右端點bext,j+1=min(bi*,blong,bext,j+Δ),其中Δ >0 是調(diào)優(yōu)參數(shù).

        (3)對于每個t∈[bext,j,bext,j+1],使Xext(t)=Xi*(t) ?Xi*(bext,j)+Xext(bext,j).

        在實踐中,該算法需要在步驟2 的(2)中對調(diào)優(yōu)參數(shù)Δ 進行選擇,Δ 的作用是為了防止擴展過長的函數(shù)型數(shù)據(jù)片段使擴展函數(shù)型數(shù)據(jù)產(chǎn)生較大的誤差.為了擴展數(shù)據(jù)片段Xext足夠短,并且擴展的數(shù)據(jù)片段盡可能包含I0上出現(xiàn)的特征模態(tài)、凹凸度變化的小片段.可以設(shè)置Δ=|I0|/10,其中|I0|表示I0的長度.如果函數(shù)型數(shù)據(jù)具有快速變化的特征,Δ 可以取的更小.

        算法中還需要在步驟2 的(1)中選擇確定函數(shù)型數(shù)據(jù)Xi*.假設(shè)在步驟2 的(1)中有cj個滿 足ai≤bext,j和bi>bext,j的函數(shù)型數(shù)據(jù)Xi,i=c1,…,cj.以下是選擇函數(shù)型數(shù)據(jù)Xi*的兩個方法.

        方法一是在cj個碎片中隨機獲得函數(shù)型數(shù)據(jù)Xi*,每一個被選擇的概率為pij=1/cj.當(dāng)數(shù)據(jù)Xi*與來自總體的完整函數(shù)型數(shù)據(jù)的樣本具有相同的主要屬性時,可以使用這個方法.方法二是當(dāng)一組函數(shù)型數(shù)據(jù)有明顯的形狀相似時,每條函數(shù)型數(shù)據(jù)的形狀在局部與附近數(shù)據(jù)的形狀相似.在這種情況下,可以通過選擇使用最近的刪失函數(shù)型數(shù)據(jù)的方式.更具體地說,假設(shè)感興趣的是在bext,j的右邊擴展數(shù)據(jù)Xext,讓D(Xi,Xext;bext,j) 表 示Xi和Xext在點bext,j的距離.刪失函數(shù)型數(shù)據(jù)的形狀取決于它們局部垂直軸上的位置距離,讓D(Xi,Xext;bext,j)=|Xi(bext,j)?Xext(bext,j)|,可以得到

        同樣的算法可以應(yīng)用在函數(shù)型數(shù)據(jù)的左側(cè),通過與上面相同的方式從右向左每次擴展一小段.使用這種非參數(shù)的方法可以把刪失函數(shù)型數(shù)據(jù)擴展為完整的函數(shù)型數(shù)據(jù).

        3 數(shù)值模擬

        下面將通過數(shù)值模擬來驗證文中所給模型與算法的可行性.定義非參數(shù)模型為:

        設(shè)置εi~N(0,1),函數(shù)型協(xié)變量為:

        設(shè)置每條刪失函數(shù)型數(shù)據(jù)只有在區(qū)間Ii=[Ai,Bi]上可以被觀測到,其中Ai=[Ui],Bi=min(Ai+[Vi],100),Ui~U[1,95],Vi~U[7,15].上述設(shè)置模擬100 個刪失函數(shù)型樣本數(shù)據(jù)圖如圖1 所示.

        圖1 刪失函數(shù)型數(shù)據(jù)

        圖1 中隨機生成的100 個刪失函數(shù)型數(shù)據(jù)原始完整數(shù)據(jù)與擴展算法處理后數(shù)據(jù)的對比圖如圖2 所示.使用垂直距離最小的方法將刪失函數(shù)型數(shù)據(jù)盡可能表現(xiàn)出完整數(shù)據(jù)的特征,其中圖2(a)為原始完整數(shù)據(jù),圖2(b)為使用曲線擴展算法補充后的數(shù)據(jù),設(shè)置調(diào)優(yōu)參數(shù)Δ=10.

        圖2 刪失函數(shù)型數(shù)據(jù)原始完整數(shù)據(jù)與擴展算法處理后數(shù)據(jù)對比圖

        從圖2 可以看出,使用該算法處理過的函數(shù)型數(shù)據(jù)可以近似地表現(xiàn)出原始函數(shù)型數(shù)據(jù)的特征.

        在估計非參數(shù)模型時,選擇半度量為

        使用正態(tài)核函數(shù)和Nadaraya?Watson 類型的窗寬并且通過廣義交叉驗證程序選擇最優(yōu)窗寬為s=2.通過使用計算的均方誤差的均值、中位數(shù)、方差對進行評價的均方誤差表示為:

        在上述設(shè)置下循環(huán)200 次,樣本量分別為100、200、400,非線性算子的均方誤差的均值(Mean())、方 差(Var())、中位數(shù)(Median())評價指標(biāo)如表1 所示.

        表1 非線性算子均方誤差的均值、方差、中位數(shù)

        表1 非線性算子均方誤差的均值、方差、中位數(shù)

        4 實例分析

        下面采用非參數(shù)模型對原發(fā)性膽汁肝硬化數(shù)據(jù)進行分析,由于不可控制的因素,所以每位患者的觀測時間和觀測次數(shù)都不同.本實例使用觀測樣本n=150 進行建模,研究白蛋白對血清膽紅素的影響.設(shè)置調(diào)優(yōu)參數(shù)Δ=1.5,使得刪失指標(biāo)白蛋白擴展至區(qū)間[0,14].

        設(shè)置模型血清膽紅素為響應(yīng)變量Yi,i=1,…,150,白蛋白為函數(shù)型協(xié)變量且Yi=r(Xi)+εi,i=1,…,150.

        在估計時采用半度量d2(Xi,Xj)=采用正態(tài)核函數(shù)和Nadaraya?Watson 類型的窗寬h,并通過廣義交叉驗證得分來進行選擇最優(yōu)窗寬.具體如圖3所示.

        圖3 刪失函數(shù)型數(shù)據(jù)與使用擴展算法處理后數(shù)據(jù)對比圖

        從圖3 可以看出,肝硬化患者隨著患病時間的延長,白蛋白會呈現(xiàn)下降趨勢.

        圖4 的分布情況

        5 結(jié)語

        本文通過曲線擴展算法可以將刪失函數(shù)型數(shù)據(jù)擴展至完整函數(shù)型數(shù)據(jù),在建模時避免了刪失函數(shù)型數(shù)據(jù)對模型的影響.通過對非參數(shù)模型中非參數(shù)算子的估計,驗證估計值的相合性和穩(wěn)定性.本文通過模擬數(shù)據(jù)和實例數(shù)據(jù)驗證曲線擴展算法的實用性和準(zhǔn)確性.

        在曲線擴展實踐中,當(dāng)樣本量n很小時,曲線會擴展到越來越大的區(qū)間,誤差也會變大,所以曲線擴展算法樣本量不能太小,并且在算法中需要曲線Xi,i=1,…,n覆蓋I0大部分區(qū)間,如果在I0出現(xiàn)數(shù)據(jù)曲線沒有覆蓋到的地方,程序?qū)o法運行.如果Xi在某一小部分區(qū)間刪失的數(shù)據(jù)比較少,在數(shù)據(jù)擴展時會將大量的擴展數(shù)據(jù)集中使得誤差變大,這也是后續(xù)要改進的問題.在曲線擴展中需要對參數(shù)Δ 進行選取,如果參數(shù)Δ 過大會使擴展后的曲線不能展示出I0上曲線的特征;如果參數(shù)Δ 過小首先會出現(xiàn)的問題是影響數(shù)據(jù)曲線整體的走勢形態(tài),其次是會極大增加不必要的計算量,運行速度降低.因此,調(diào)優(yōu)參數(shù)Δ 的精確選取有待進一步研究.

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        學(xué)習(xí)方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国产一区二区精品尤物| a级毛片内射免费视频| 亚洲国产精品美女久久 | 成人免费播放视频777777| 伊人大杳焦在线| 国产xxx69麻豆国语对白| 国语对白做受xxxxx在线| 18成人片黄网站www| 国产精品亚洲一区二区无码| 欧美在线成人午夜网站| 有码中文字幕一区二区| 精品亚洲在线一区二区| 一区二区三区日韩亚洲中文视频| 一边摸一边做爽的视频17国产| 日本另类αv欧美另类aⅴ| 东京热人妻一区二区三区| 99热久久精里都是精品6| 久久狠色噜噜狠狠狠狠97| 精品丝袜一区二区三区性色| 一区二区三区一片黄理论片 | 亚洲精品一区二区在线免费观看| 精品国产一区二区三区色搞| 男女爱爱好爽视频免费看| 欧美成人精品第一区二区三区| 国产精品一区二区久久精品| 91精品国产91久久久久久青草| 亚洲三区av在线播放| 在线日本国产成人免费精品| 黑人巨大精品欧美一区二区免费| 国产亚洲精品aaaaaaa片 | 久久久精品3d动漫一区二区三区| 午夜影院91| 日本高清二区视频久二区| 一区二区三区国产精品麻豆| 日韩午夜理论免费tv影院| av无码av天天av天天爽| 国内a∨免费播放| 国产精品丝袜在线不卡 | 日韩专区欧美专区| 91色婷婷成人精品亚洲| 街拍丝袜美腿美女一区|