亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

非配對(duì)設(shè)計(jì)多值有序資料一水平多重Logistic回歸分析

2019-12-31 06:50:56鳳思苑李長(zhǎng)平胡良平

四川精神衛(wèi)生 2019年5期

鳳思苑，李長(zhǎng)平，2，胡良平

（1. 天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室，天津 300070；2. 世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì)，北京 100029；3. 軍事科學(xué)院研究生院，北京 100850

*通信作者：胡良平，E-mail：lphu812@sina.com）

生物醫(yī)學(xué)研究中最常見的問題之一就是探究各種影響因素（自變量X）與“是否發(fā)病”或“健康狀況”（因變量Y）之間的關(guān)系。當(dāng)結(jié)局變量是多值有序變量（如治療結(jié)局為治愈、好轉(zhuǎn)、顯效和無(wú)效等）時(shí)，常用的線性回歸模型就不再適合了。本文將結(jié)合實(shí)例介紹如何使用SAS實(shí)現(xiàn)非配對(duì)設(shè)計(jì)多值有序資料一水平多重logistic 回歸分析，其中一水平主要是指受試對(duì)象不具有層級(jí)結(jié)構(gòu)，即滿足研究樣本隨機(jī)來(lái)自同一個(gè)總體（即認(rèn)為受試對(duì)象在變量之間關(guān)系上具有“同質(zhì)性”）。

1 基本概念

1.1 模型定義

多值有序logistic回歸模型不同于二分類logistic回歸模型，它是基于累積概率構(gòu)建累積logistic 回歸模型。假設(shè)結(jié)局變量Y有J個(gè)有序分類，其自然結(jié)局順序表示為Y=1，2，…，J，每個(gè)分類結(jié)局對(duì)應(yīng)的發(fā)生概率為π1，π2，…，πj，則其有序分類≤m的累計(jì)發(fā)生概率表示為P（Y≤m）=π1+π2+…+πm。因此，可以通過指定累積概率P（Y≤m）的閾值將整個(gè)結(jié)局變量Y的J個(gè)有序分類從指定的閾值點(diǎn)截?cái)啵怪蔀槎诸惤Y(jié)局。設(shè)有P個(gè)自變量記為X=（x1，x2，…，xp）表示相應(yīng)的影響因素。由此定義累積logit P（Y≤m）函數(shù)：

該累積logit P（Y≤m）函數(shù)是兩個(gè)累積概率比的對(duì)數(shù)值，這兩個(gè)累積概率分別表示結(jié)局變量Y 的取值小于等于結(jié)局分類m 與大于分類m 的可能性大?。?-2］。因?yàn)榻Y(jié)果Y 共有J 個(gè)有序分類，故最多可以寫成J-1個(gè)累積logit函數(shù)。

累積logit 函數(shù)還可以用線性函數(shù)形式表示如下：

上述模型就是累積logistic 回歸模型。為了進(jìn)一步簡(jiǎn)化該模型，假定對(duì)于所有J-1 個(gè)累積logit 函數(shù)，各個(gè)自變量Xi所對(duì)應(yīng)的系數(shù)βi假設(shè)都是等同的，即每個(gè)累積logit 函數(shù)相同自變量Xi都有相同的系數(shù)βi以及不同的截距βj0。在此假設(shè)條件下，J-1個(gè)累積logit 函數(shù)的回歸線其實(shí)是相互平行的，只是截距βj0不同，該假設(shè)被稱為平行假設(shè)。滿足平行假設(shè)的模型簡(jiǎn)化后為：

該簡(jiǎn)化后的模型稱為成比例比數(shù)比累積logit回歸模型，該模型和一般累積logistic回歸模型一樣，至多有J-1個(gè)方程形式，即同樣有J-1個(gè)截距，但是p個(gè)自變量的回歸系數(shù)在不同方程中分別相同［3］。該模型對(duì)應(yīng)的概率模型形式為：通過上述公式，可獲得結(jié)局Y取類別為j時(shí)的概率：

1.2 參數(shù)估計(jì)

多值有序資料的logistic 回歸分析的參數(shù)估計(jì)和結(jié)局為二分類的logistic 回歸分析相似，都可以用極大似然的方法估計(jì)［4］。對(duì)于n 個(gè)獨(dú)立觀察對(duì)象的樣本，第i 個(gè)觀察對(duì)象Xi出現(xiàn)Y=j 分類結(jié)局的概率記為Pj=P（Y=j | Xi），它是累積概率函數(shù)的差，即Pj=P（Y=j | Xi）= P（Y≤j | Xi）-P（Y≤j-1 | Xi）。由此構(gòu)建的似然函數(shù)L為：

式中yij表示第i 個(gè)觀察對(duì)象的結(jié)局變量Y 分類為j 等級(jí)時(shí)所對(duì)應(yīng)的編碼，它滿足，而該觀測(cè)實(shí)際只可能對(duì)應(yīng)一個(gè)等級(jí)結(jié)局，故而只有某個(gè)yij取值為1，其余皆為0。相應(yīng)的對(duì)數(shù)似然函數(shù)如下：

2 實(shí)例分析

冠狀動(dòng)脈旁路移植術(shù)（Coronary artery bypass grafting，CABG）是目前治療冠心病最有效方法之一，但往往會(huì)存在術(shù)后靜脈移植血管病變，從而降低血管通暢率并引起患者缺血癥狀的復(fù)發(fā)。為了研究引起術(shù)后血管狹窄可能的影響因素，隨機(jī)選擇207名CABG術(shù)后超過一年的患者，評(píng)價(jià)性別、橋齡、原位靶血管病變支數(shù)、冠心病類型、左室射血分?jǐn)?shù)、左室舒張末期內(nèi)徑、α-羥丁酸脫氫酶、極低密度脂蛋白、脂蛋白a 和同型半胱氨酸對(duì)血管狹窄程度的影響。其中結(jié)局變量血管狹窄程度分為無(wú)狹窄（DS=1），部分狹窄（DS=2）和完全狹窄（DS=3）三個(gè)等級(jí)。見表1。

表1 多值有序logistic回歸分析的數(shù)據(jù)表

2.1 SAS程序

【說明】首先建立臨時(shí)數(shù)據(jù)集DS，依次輸入變量性別、橋齡、原位靶血管病變支數(shù)、冠心病類型、左室射血分?jǐn)?shù)、左室舒張末期內(nèi)徑、α_羥丁酸脫氫酶、極低密度脂蛋白、脂蛋白a 和同型半胱氨酸。接著調(diào)用LOGISTIC 過程完成累積回歸模型的分析。其中class 語(yǔ)句為分類變量NLV 創(chuàng)建啞變量，選項(xiàng)ref=”3”是以變量的第三個(gè)水平為對(duì)照實(shí)現(xiàn)啞變量賦值；Model 語(yǔ)句中因變量為DS，其余變量為自變量。選項(xiàng)selection= stepwise 表示變量篩選采用逐步回歸方法，選項(xiàng)sle 為選入自變量的顯著性水平，選項(xiàng)sls 為剔除自變量的顯著性水平。

接下來(lái)依次調(diào)用第二、第三個(gè)LOGISTIC 過程，采用的變量篩選分別為向前（forward）、向后（backward）回歸方法。

【說明】在左欄的SAS 程序中，第2 和第3 個(gè)“model 語(yǔ)句”中省略號(hào)部分的內(nèi)容與第1 個(gè)“model語(yǔ)句”中相應(yīng)位置上的變量相同；在實(shí)際使用時(shí)，最好取“sls=0.05”。

2.2 結(jié)果解釋

LOGISTIC 過程輸出結(jié)果的第一部分為模型總體的相關(guān)信息，所分析的數(shù)據(jù)集是臨時(shí)數(shù)據(jù)集DS，響應(yīng)變量為血管狹窄程度DS，采用的模型方法為cumulative logit（累積logit），模型優(yōu)化的技術(shù)為Fisher's scoring。結(jié)果變量共有三個(gè)水平，各自的例數(shù)分別為53、27 和117。其次該模型是以結(jié)局排序較低的取值為對(duì)比的基礎(chǔ)，即以“y=1”為參照水平，也就是以血管無(wú)狹窄組為基礎(chǔ)（即對(duì)照組）建模。

LOGISTIC 過程輸出結(jié)果的第二部分輸出了自變量篩選的過程，包括每次模型擬合后擬合統(tǒng)計(jì)量、整個(gè)模型檢驗(yàn)以及平行線假設(shè)的結(jié)果。此實(shí)例中逐步法進(jìn)行自變量的篩選過程共四步，由于篇幅原因，不做過多展示。逐步篩選法的篩選結(jié)果顯示，最終自變量LVDED、HDT、LVN、QL 進(jìn)入了回歸方程。平行線假設(shè)的檢驗(yàn)結(jié)果為χ2=9.4233，P=0.0933＞0.05，說明資料滿足平行線假設(shè)。

LOGISTIC 過程輸出結(jié)果的第三部分主要輸出參數(shù)估計(jì)的結(jié)果：

在累積logistic 回歸模型中，截距項(xiàng)有多個(gè)，其個(gè)數(shù)為因變量的水平數(shù)減1。本例中因變量水平數(shù)為3，因此包含2 個(gè)截距項(xiàng)。如果用P1、P2、P3分別表示血管無(wú)狹窄、部分狹窄、完全狹窄的概率，則回歸方程如下：

式中x1、x2、x31、x32和x4分別為自變量QL、HDT、NLV（1 VS 3）、NLV（2 vs 3）和LVDED。此外，本例中篩選出自變量對(duì)應(yīng)的P 值均＜0.05，表明自變量的回歸系數(shù)的估計(jì)值與0之間的差異均有統(tǒng)計(jì)學(xué)意義。其中QL 回歸系數(shù)估計(jì)值小于0，說明自變量橋齡取值越大，血管出現(xiàn)無(wú)狹窄的概率P1越低，血管出現(xiàn)完全狹窄的概率P3越大。QL 的OR 估計(jì)值為0.917，95%置信區(qū)間為（0.844，0.996）。其他變量的結(jié)果：

本文在篩選變量時(shí)除了逐步法以外，還采用了前進(jìn)法和后退法。雖然變量篩選的具體過程不同，但最終納入的變量以及相關(guān)的最大似然估計(jì)結(jié)果與逐步法相同，此處不做重復(fù)展示。

專業(yè)結(jié)論：橋齡（QL）、心臟病類型、原位靶血管病變支數(shù)和左室舒張末期內(nèi)徑與CABG 術(shù)后血管再狹窄程度有關(guān)，而與其他變量無(wú)關(guān)。OR 的點(diǎn)估計(jì)和置信區(qū)間結(jié)果顯示橋齡越大、心臟病類型為急性冠狀動(dòng)脈綜合征以及左室舒張末期內(nèi)徑越大，則血管無(wú)狹窄的可能性越低；原位靶血管病變支數(shù)2 支相對(duì)于3 支而言，血管出現(xiàn)無(wú)狹窄的可能性越高。

3 討論

本文主要采用了LOGISTIC 過程對(duì)多值有序資料擬合累積logistic回歸模型，在變量篩選方面分別選用了常用的逐步、向前和向后三種方法，結(jié)果表明三種方法最后納入了相同的自變量，參數(shù)的極大似然估計(jì)也相同，但三種方法在變量篩選過程方面實(shí)則不同，具體的變量篩選原理可參閱文獻(xiàn)［5］。從多種篩選自變量方法產(chǎn)生的回歸方程中選擇最優(yōu)的回歸方程，可參考的標(biāo)準(zhǔn)主要有以下幾條：第一，整個(gè)回歸方程以及篩選出的自變量具有統(tǒng)計(jì)學(xué)意義，并在專業(yè)上有合理的解釋；第二，若回歸方程中所含自變量的個(gè)數(shù)相同，取赤池信息標(biāo)準(zhǔn)值（Akaike information criteria，AIC）較小者，其次模型的結(jié)果以簡(jiǎn)單為主。本案例中三種變量篩選方法的AIC 值均為409.338，且納入的自變量相同，故最后結(jié)果相同。

除此之外，累積logit 回歸分析多值有序數(shù)據(jù)時(shí)依然還需要注意一些問題：（1）平行線假設(shè)：在擬合有序logistic 回歸時(shí)，需要對(duì)擬合的J-1 個(gè)方程對(duì)應(yīng)的累積概率曲線的平行性進(jìn)行檢驗(yàn)。當(dāng)平行線假設(shè)未滿足時(shí)，說明資料不適合有序logistic 回歸模型，應(yīng)采用多值名義的logistic 回歸模型；（2）個(gè)體獨(dú)立性：擬合多值有序logistic 回歸模型時(shí)，要求研究個(gè)體之間是相互獨(dú)立的，即不存在組內(nèi)個(gè)體同質(zhì)、組間個(gè)體異質(zhì)的現(xiàn)象，若資料不滿足該情況則可以采用多值有序多水平的logistic 回歸分析；（3）在建模時(shí)，還可以引入一些派生自變量（如連續(xù)變量的平方項(xiàng)、交叉乘積項(xiàng)等）參與自變量的篩選，有時(shí)可能獲得擬合優(yōu)度更高的回歸模型。因篇幅所限，此處暫不贅述，可參閱文獻(xiàn)［6-9］。