亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于EM算法及Cox回歸模型下右刪失數(shù)據(jù)的研究

2023-12-02 08:30:31趙翠

科技資訊 2023年21期

趙翠

(貴州財(cái)經(jīng)大學(xué) 貴州貴陽(yáng) 550025)

右刪失數(shù)據(jù)是刪失數(shù)據(jù)中最常見(jiàn)的數(shù)據(jù)類(lèi)型，通常出現(xiàn)在實(shí)驗(yàn)研究的各個(gè)鄰域范圍內(nèi)，由于刪失數(shù)據(jù)的出現(xiàn)，越來(lái)越多的研究者也加入了右刪失數(shù)據(jù)的研究中。

右刪失數(shù)據(jù)問(wèn)題是實(shí)驗(yàn)數(shù)據(jù)中經(jīng)常出現(xiàn)的、無(wú)法避免的，因此，學(xué)習(xí)和了解處理右刪失數(shù)據(jù)的方法的思想和原理尤為重要。其中，EM 算法作為一種優(yōu)化算法，被廣泛應(yīng)用于處理數(shù)據(jù)的缺失值，并且EM算法在處理數(shù)據(jù)缺失時(shí)有顯著優(yōu)勢(shì)，比如：算法和原理簡(jiǎn)單、收斂穩(wěn)定、適用性廣等。另外，還介紹了Cox 回歸方法，Cox比例回歸模型是由英國(guó)統(tǒng)計(jì)學(xué)家D.R.Cox提出的一種半?yún)?shù)回歸模型。該模型以生存結(jié)局和生存時(shí)間為因變量，分析多因素對(duì)生存期的影響[1]，該模型自提出以來(lái)就被廣泛應(yīng)用于各領(lǐng)域，特別是在臨床醫(yī)學(xué)科研領(lǐng)域，該模型實(shí)現(xiàn)了巨大的價(jià)值，解決了生存數(shù)據(jù)中遇到的截尾數(shù)據(jù)問(wèn)題。本文基于文獻(xiàn)背景展開(kāi)研究，旨在探討解決右刪失數(shù)據(jù)的兩種實(shí)用方法并深入闡述其原理。

1 右刪失數(shù)據(jù)與類(lèi)型

若在對(duì)一個(gè)研究事件進(jìn)行觀察試驗(yàn)時(shí)，由于外部條件的原因與觀測(cè)對(duì)象在開(kāi)始或結(jié)束試驗(yàn)時(shí)產(chǎn)生不同的結(jié)果，導(dǎo)致試驗(yàn)中出現(xiàn)右刪失數(shù)據(jù)。右刪失在平時(shí)研究刪失數(shù)據(jù)的研究中經(jīng)常避免不了它的出現(xiàn)，然而通過(guò)對(duì)右刪失進(jìn)一步的研究發(fā)現(xiàn)，它可以分為3 種類(lèi)型。具體敘述如下。

1.1 I型刪失(Type I Censoring)

對(duì)任何個(gè)體的觀察從同一個(gè)起始時(shí)間開(kāi)始，在事先指定的同一個(gè)時(shí)間內(nèi)結(jié)束，除了已經(jīng)歷過(guò)終點(diǎn)事件的個(gè)體，若其他個(gè)體的觀察截止到某一個(gè)穩(wěn)固的時(shí)間，這種刪失就稱(chēng)為Ⅰ型刪失。

1.2 II型刪失(Type II Censoring)

所有研究對(duì)象的觀察起點(diǎn)是統(tǒng)一的，一直隨訪觀察到有足夠數(shù)量的終點(diǎn)結(jié)局事件發(fā)生為止，這時(shí)研究停止，未發(fā)生終點(diǎn)事件的研究對(duì)象的生存時(shí)間未知，這種刪失就稱(chēng)為Ⅱ型刪失。

1.3 III型刪失(Type III Censoring)

在研究過(guò)程中，研究周期固定在一個(gè)范圍，研究對(duì)象開(kāi)始和結(jié)束的時(shí)間不一樣，使得生存時(shí)間無(wú)法確定，像這種情況就稱(chēng)為Ⅲ型刪失，由于刪失數(shù)據(jù)常常是隨機(jī)發(fā)生的，因此III型刪失又被稱(chēng)為隨機(jī)刪失。

2 數(shù)據(jù)刪失產(chǎn)生的原因

在數(shù)學(xué)實(shí)驗(yàn)和統(tǒng)計(jì)數(shù)據(jù)分析中，經(jīng)常會(huì)產(chǎn)生數(shù)據(jù)刪失的情況。刪失數(shù)據(jù)是數(shù)據(jù)研究中不可避免的問(wèn)題，在平時(shí)研究中只要涉及獲取數(shù)據(jù)的地方往往就避免不了數(shù)據(jù)的刪失。然而，在研究不同的數(shù)據(jù)時(shí)，產(chǎn)生的刪失數(shù)據(jù)也往往是不相同的。另外，在實(shí)驗(yàn)中通常獲取數(shù)據(jù)的方式有調(diào)查獲取數(shù)據(jù)和應(yīng)用獲取數(shù)據(jù)，調(diào)查獲取數(shù)據(jù)是通過(guò)人為地獲取數(shù)據(jù)，人們通過(guò)實(shí)時(shí)調(diào)查研究得到數(shù)據(jù)；應(yīng)用獲取數(shù)據(jù)則是在一些互聯(lián)網(wǎng)平臺(tái)，經(jīng)他人獲取的數(shù)據(jù)保留在一定平臺(tái)上面供其他人獲取，從而方便他人獲取想要的數(shù)據(jù)。而在調(diào)查過(guò)程中形成數(shù)據(jù)刪失是很普遍的情況[2]。現(xiàn)如今調(diào)查的方式多種多樣，除了一些比較傳統(tǒng)的調(diào)查之外，更流行于通過(guò)互聯(lián)網(wǎng)、大數(shù)據(jù)、文獻(xiàn)等方式獲取數(shù)據(jù)，然而這些方式獲取的數(shù)據(jù)更能導(dǎo)致數(shù)據(jù)的刪失。

通過(guò)數(shù)據(jù)的收集，我們了解到產(chǎn)生數(shù)據(jù)刪失的主要原因有以下幾個(gè)方面。

2.1 技術(shù)上無(wú)法獲取、技術(shù)不合理或錯(cuò)誤

就是在技術(shù)設(shè)備上面由于機(jī)器的性能、運(yùn)轉(zhuǎn)等發(fā)生故障，精確度不足導(dǎo)致的刪失，比如：車(chē)輛在運(yùn)行過(guò)程中，實(shí)時(shí)速度，性能等數(shù)據(jù)無(wú)法獲取，導(dǎo)致缺失。

2.2 有不可使用的信息

主要表現(xiàn)在未收集到的數(shù)據(jù)存在明顯錯(cuò)誤，例如：在調(diào)查過(guò)程中被調(diào)查者不認(rèn)真回答問(wèn)題，或者調(diào)查者工作不細(xì)心，導(dǎo)致數(shù)據(jù)填寫(xiě)錯(cuò)誤、記錄錯(cuò)誤等造成數(shù)據(jù)刪失。

2.3 調(diào)查中的無(wú)回答

在數(shù)據(jù)采集過(guò)程中，多余調(diào)查問(wèn)題沒(méi)有進(jìn)行回答或者沒(méi)有有效回答，例如：調(diào)查問(wèn)卷中涉及的某產(chǎn)品的滿(mǎn)意度不做出評(píng)價(jià)，這就造成了數(shù)據(jù)刪失。

綜上所述，第一種原因?qū)е碌娜笔枰ㄟ^(guò)技術(shù)設(shè)備解決，或者轉(zhuǎn)化為第三種原因方式的缺失來(lái)處理；第二種原因?qū)е碌膭h失需要完善調(diào)查過(guò)程中的管理模式；第三種原因?qū)е碌膭h失需要對(duì)被調(diào)查者進(jìn)行篩選，使調(diào)查過(guò)程的數(shù)據(jù)更加準(zhǔn)確[3]。

3 對(duì)右刪失數(shù)據(jù)進(jìn)行處理的方法

EM 算法、Cox 回歸方法常用來(lái)處理右刪失數(shù)據(jù)，并對(duì)右刪失做統(tǒng)計(jì)分析。下面重點(diǎn)了解這兩種處理右刪失數(shù)據(jù)的方法與原理。

3.1 EM算法

期望最大化算法（Expectation Maximization，EM 算法），是由DEMPSTER A P、LAIRD N、RUBIN D 這3 人在1977 年提出的。EM 算法作為一種迭代算法，主要分為兩個(gè)步驟，即E步和M步，分別是求密度函數(shù)的數(shù)學(xué)期望和極大值。EM 算法的提出解決了數(shù)據(jù)刪失存在的問(wèn)題，為刪失數(shù)據(jù)的處理提供了便利。

下面對(duì)EM算法的基本思想簡(jiǎn)單闡述如下。

設(shè)觀測(cè)數(shù)據(jù)X=(X1，X2，…，Xn1)T為獨(dú)立同分布的樣本，其密度函數(shù)為fX(x，θ)，x=(x1，x2，…，xn1)T，未觀測(cè)到的數(shù)據(jù)為Y=(Y1，Y2，…，Yn-n1)T～fY(y，θ)，且X和Y相互獨(dú)立。則完全似然函數(shù)為

E 步：假設(shè)有觀測(cè)數(shù)據(jù)x=(x1，x2，…，xn1)T及第i 步估計(jì)值θ=θ(i)，就得到對(duì)數(shù)似然函數(shù)的數(shù)學(xué)期望為

M 步：求Q(θ|x，θ(i))關(guān)于θ 的最大值點(diǎn)θ(i+1)，即找θ(i+1)，使其滿(mǎn)足Q(θ(i+1)|x，θ(i)) =maxQ(θ|x，θ(i)),經(jīng)過(guò)不斷迭代到數(shù)據(jù)收斂，即得到θ的極大似然估計(jì)。

也就是說(shuō)，為了能夠很好地理解EM 算法這個(gè)概念，可以將EM 算法看成是一個(gè)不斷重復(fù)求一個(gè)特定參數(shù)的算法，如果在一個(gè)模型的參數(shù)是未知的情況下，就把它假設(shè)為θ(i)，這樣進(jìn)行下一步的計(jì)算，從而確定這組參數(shù)所對(duì)應(yīng)的最可能狀態(tài)和概率數(shù)，然后在確定的這組參數(shù)所對(duì)應(yīng)的最可能狀態(tài)下進(jìn)行下一步修改，這樣就可以確定另外一個(gè)參數(shù)，同樣又在這個(gè)參數(shù)的情況下確定新的情況，對(duì)這個(gè)參數(shù)進(jìn)行重復(fù)多次的估計(jì)，當(dāng)求得模型的未知參數(shù)時(shí)就可停止迭代[4]。

3.2 Cox比例風(fēng)險(xiǎn)模型

Cox 比例回歸模型是由英國(guó)統(tǒng)計(jì)學(xué)家D.R.Cox 于1972 年提出的一種半?yún)?shù)回歸模型。它應(yīng)用的主要范圍是解決生存分析問(wèn)題。該模型的目的是探索影響生存率的危險(xiǎn)因素有哪些，并做出影響因素的預(yù)后分析。

為了便于理解Cox 回歸模型，下面先了解幾個(gè)與Cox模型相關(guān)的函數(shù)[5]。

（1）危險(xiǎn)率函數(shù)。

當(dāng)t時(shí)刻還在存活的研究對(duì)象死于t時(shí)刻后一瞬間的概率，用h(t)表示為

式（3）中：T為觀察對(duì)象的生存時(shí)間；n(t)為t時(shí)刻的生存人數(shù)；n(t+Δt)為t+Δt時(shí)刻的生存人數(shù)。

（2）生存函數(shù)與危險(xiǎn)率函數(shù)的關(guān)系。

（3）Cox回歸模型的基本形式

式（5）中，h(t，X)表示在t時(shí)刻的風(fēng)險(xiǎn)函數(shù)、風(fēng)險(xiǎn)率或瞬間死亡率；h0(t)表示基準(zhǔn)風(fēng)險(xiǎn)函數(shù)，即所有變量都取0 時(shí)t時(shí)刻的風(fēng)險(xiǎn)函數(shù)；X1，X2，…，Xm表示協(xié)變量、影響因素或者預(yù)后因素；β1，β2，…，βm為自變量的偏回歸系數(shù)，它是須從樣本數(shù)據(jù)做出估計(jì)的參數(shù)[6]。

3.2.1 Cox回歸模型的參數(shù)估計(jì)

假設(shè)有n個(gè)患者，他們的生存時(shí)間從小排到大：t1≤t2≤…≤tn，對(duì)于任何生存時(shí)間ti來(lái)看，把不小于ti的所有病人看成是一個(gè)危險(xiǎn)集合，記為R(ti)。在R(ti)內(nèi)的病人，在ti以前是活著的，但由于生存時(shí)間的變化，R(ti)內(nèi)的病人逐漸死亡，退出了觀察，直到最后一個(gè)病人死亡時(shí)，R(ti)消失。j代表ti時(shí)刻時(shí)間以后R(ti)中對(duì)似然函數(shù)做貢獻(xiàn)的個(gè)體[7]。

如果ti代表了真正的死亡，那么個(gè)體在時(shí)刻ti是死亡的條件概率為：

有截尾值時(shí)用δi來(lái)表示數(shù)據(jù)類(lèi)型：δi=1，表示病人在ti時(shí)刻死亡；δi=0，表示病人在ti時(shí)刻截尾。得到偏似然函數(shù)為

兩邊取對(duì)數(shù)，得

求關(guān)于βk(k=1，2，…m)的一階偏導(dǎo)數(shù)，并求其等于0，即得到βk的最大似然估計(jì)值。

3.2.2 Cox回歸模型的假設(shè)檢驗(yàn)

采用似然比檢驗(yàn)剔除模型中原有不顯著變量，引入明顯的變量，并對(duì)變量個(gè)數(shù)不同的模型進(jìn)行比較[8]。

檢驗(yàn)新增加的協(xié)變量是否具有統(tǒng)計(jì)學(xué)意義的統(tǒng)計(jì)量為χ2=2[lnL(p+1) -lnL(p)]，其服從自由度為1 的χ2分布，其中L(p)包含p個(gè)協(xié)變量的模型的似然函數(shù)值，L(p+1)包含p+1 個(gè)協(xié)變量的模型的似然函數(shù)值，假設(shè)檢驗(yàn)步驟為：

步驟一：建立假設(shè)檢驗(yàn)為H0:β1=β2=…=βm=0，H1:β1=β2=…=βm≠0。

步驟二：構(gòu)造合適的統(tǒng)計(jì)量χ2= 2[lnL(p+ 1) -lnL(p)]，服從于自由度為1 的χ2分布，確定拒絕域R，PH0{χ2∈R}=α。

步驟三：做出判斷，根據(jù)樣本觀測(cè)值算出統(tǒng)計(jì)量χ2的值，若χ2∈R，則拒絕H0；否則接受H0。

4 結(jié)語(yǔ)

本研究的主要目的是了解統(tǒng)計(jì)分析中發(fā)生的右刪失數(shù)據(jù)，并對(duì)存在的右刪失數(shù)據(jù)進(jìn)行處理。首先，介紹了右刪失數(shù)據(jù)的相關(guān)概念及其右刪失數(shù)據(jù)的類(lèi)型，在統(tǒng)計(jì)研究中，發(fā)生數(shù)據(jù)的刪失是很常見(jiàn)的一種情況，然而了解在統(tǒng)計(jì)分析中右刪失數(shù)據(jù)發(fā)生的原因同樣重要，我們知道了發(fā)生右刪失數(shù)據(jù)的原因主要為技術(shù)上無(wú)法獲取、技術(shù)不合理或錯(cuò)誤，有不可使用的信息，調(diào)查中的無(wú)回答等。其次，研究了處理右刪失數(shù)據(jù)的方法，分別是EM 算法和Cox 回歸兩種處理方法。EM 算法是一種優(yōu)化算法，該算法原理簡(jiǎn)單，收斂穩(wěn)定，適用性廣，被廣泛應(yīng)用于處理數(shù)據(jù)的缺失值。Cox 回歸方法以生存結(jié)局和生存時(shí)間為因變量，分析了多因素對(duì)生存期的影響，主要應(yīng)用于臨床醫(yī)學(xué)科研鄰域，解決了生存數(shù)據(jù)中遇到的截尾數(shù)據(jù)問(wèn)題。在統(tǒng)計(jì)分析過(guò)程中，往往避免不了產(chǎn)生刪失數(shù)據(jù)，研究中給出的兩種處理辦法需要必備完善的統(tǒng)計(jì)數(shù)據(jù)，收集充足的數(shù)據(jù)集，在數(shù)據(jù)完整之后進(jìn)行分析處理刪失數(shù)據(jù)。