季聰華梁建鳳劉 姍張 穎洪雪文
ROC分析方法在病因?qū)W研究中的應(yīng)用*
季聰華1梁建鳳2劉 姍1張 穎1洪雪文1
疾病發(fā)生發(fā)展過(guò)程中的基本醫(yī)學(xué)研究問(wèn)題包括:致病因素引起疾病的發(fā)生,對(duì)疾病進(jìn)行診斷,預(yù)防和治療疾病,疾病轉(zhuǎn)歸產(chǎn)生結(jié)局等。圍繞這一系列過(guò)程可以產(chǎn)生很多研究命題,可以運(yùn)用到很多統(tǒng)計(jì)學(xué)方法,其中ROC分析方法在診斷試驗(yàn)中應(yīng)用較多,在其他疾病發(fā)生發(fā)展環(huán)節(jié)尚未被充分應(yīng)用,值得我們進(jìn)一步深入研究。本文探討ROC分析方法在病因?qū)W研究中的應(yīng)用。
ROC分析是一種把靈敏度和特異度結(jié)合起來(lái)綜合評(píng)價(jià)診斷準(zhǔn)確度的方法。其基本思想是把靈敏度和特異度看作一個(gè)連續(xù)變化的過(guò)程,用ROC曲線(xiàn)描述診斷系統(tǒng)的特性,用曲線(xiàn)下面積說(shuō)明診斷的準(zhǔn)確度。同時(shí),根據(jù)曲線(xiàn)拐點(diǎn),可選取理論上最合適的臨界值(cut off point),使試驗(yàn)的靈敏度和特異度達(dá)到最優(yōu)[1]。美國(guó)生物統(tǒng)計(jì)百科全書(shū)[2]中關(guān)于ROC的定義是:“對(duì)于可能或?qū)?huì)存在混淆的兩種條件或自然狀態(tài),需要試驗(yàn)者、專(zhuān)業(yè)診斷學(xué)工作者以及預(yù)測(cè)工作者作出精細(xì)判別,或者準(zhǔn)確決策的一種定量方法?!?/p>
ROC分析方法中作為診斷金標(biāo)準(zhǔn)的一般是兩分類(lèi)變量,而新的診斷系統(tǒng)一般是連續(xù)型資料,通過(guò)ROC分析的臨界值處理可轉(zhuǎn)換為兩分類(lèi)變量,用于做出是與否的診斷。所以ROC分析方法同時(shí)又是進(jìn)行兩分類(lèi)變換、尋找合適分界點(diǎn)的有效方法。在我們的病因?qū)W研究、疾病防治研究和預(yù)后研究中,有疾病發(fā)生(是、否)、療效(有效、無(wú)效)和預(yù)后終點(diǎn)事件(死亡、存活)等類(lèi)似于金標(biāo)準(zhǔn)的兩分類(lèi)變量,也有連續(xù)型資料需要轉(zhuǎn)化成兩分類(lèi)變量的情況,所以應(yīng)用ROC分析方法原理進(jìn)行分析處理是不錯(cuò)的選擇。
1.“金標(biāo)準(zhǔn)”的確定
在ROC分析中,兩分類(lèi)的“金標(biāo)準(zhǔn)”是進(jìn)行評(píng)價(jià)的關(guān)鍵性指標(biāo)。病因?qū)W研究常采用隊(duì)列研究或者病例對(duì)照研究,所以在病因?qū)W研究中的“金標(biāo)準(zhǔn)”實(shí)際上就是病因的結(jié)局——疾病的發(fā)生。在隊(duì)列研究中,是病例與對(duì)照的觀察終點(diǎn)——疾病發(fā)生與否;在病例對(duì)照研究中,是分組依據(jù)。
2.研究因素
病因?qū)W研究中的研究因素,即可疑的疾病危險(xiǎn)因素。危險(xiǎn)因素一般是多因素的,有兩分類(lèi)變量,也有連續(xù)型變量。對(duì)于連續(xù)型變量,確定其是否為危險(xiǎn)因素,一般采用logistic回歸分析。對(duì)同一資料的分析,變量采用不同的取值形式,參數(shù)的含義、量值及符號(hào)都可能發(fā)生變化[3]。logistic回歸只回答某個(gè)連續(xù)型變量總體上是不是危險(xiǎn)因素,危險(xiǎn)程度如何(用RR或OR值表示),但不能回答具體在哪個(gè)臨界點(diǎn)以上或以下危險(xiǎn)性增大。直接采用數(shù)值型變量參與計(jì)算時(shí),得到的exp(b)表示每增加一個(gè)單位的優(yōu)勢(shì)比,實(shí)際意義不大。將數(shù)值型變量劃分為分類(lèi)變量時(shí)則容易解釋專(zhuān)業(yè)意義。連續(xù)型變量可以轉(zhuǎn)換成分類(lèi)變量進(jìn)行l(wèi)ogistic回歸分析,但不同的分類(lèi)依據(jù),所取得的OR值(或RR值)是不一樣的,這也給我們分類(lèi)依據(jù)的科學(xué)性提出考驗(yàn)。
3.閾值的判斷
將數(shù)值型變量轉(zhuǎn)化成分類(lèi)變量的方法,可以是依據(jù)平均數(shù)或者中位數(shù)為界進(jìn)行劃分,也可以按照專(zhuān)業(yè)知識(shí)大致按某個(gè)整數(shù)點(diǎn)位進(jìn)行劃分,這些方法都帶有粗略的特征。采用ROC分析進(jìn)行閾值判斷的基本原理是連續(xù)型變量值與“金標(biāo)準(zhǔn)”進(jìn)行ROC分析,選取靈敏度+特異度值最大時(shí)候的連續(xù)型變量值作為危險(xiǎn)因素兩分類(lèi)轉(zhuǎn)換的分界點(diǎn),因采用的“金標(biāo)準(zhǔn)”是疾病發(fā)生與否,所以以獲得的分界值為分類(lèi)臨界點(diǎn)的兩分類(lèi)數(shù)據(jù)可以計(jì)算到最大的OR(RR)值。
4.logistic回歸分析獲取OR(RR)值
以閾值為分界點(diǎn)進(jìn)行連續(xù)型資料的二分類(lèi)轉(zhuǎn)換,然后進(jìn)行二分類(lèi)logistic回歸分析,獲得OR(RR)值及其95%CI。這個(gè)計(jì)算到的exp(b)值(OR值)是最大的,這個(gè)臨界點(diǎn)正好說(shuō)明了是該危險(xiǎn)因素的轉(zhuǎn)折點(diǎn)。
1.案例要點(diǎn)
為說(shuō)明ROC方法對(duì)連續(xù)型變量進(jìn)行分類(lèi)的意義,選擇了中醫(yī)藥研究生《中醫(yī)藥統(tǒng)計(jì)學(xué)》教科書(shū)上的一個(gè)危險(xiǎn)因素分析的例子[4]。為了探索有關(guān)危險(xiǎn)因素和保護(hù)因素,對(duì)33例胃癌病人和33例對(duì)照者進(jìn)行病例對(duì)照研究,研究的危險(xiǎn)因素有多個(gè),其中所考察的危險(xiǎn)因素中的年齡為連續(xù)型變量。本文主要說(shuō)明ROC分析法在連續(xù)型變量轉(zhuǎn)化成分類(lèi)變量中的作用,所以只摘取其原始數(shù)據(jù)中的年齡數(shù)據(jù),如表1所示。
表1 胃癌病人與對(duì)照病人的年齡情況表
2.ROC分析
以組別(病例=1,對(duì)照=0)作為參照系統(tǒng),年齡作為分析變量進(jìn)行ROC分析。結(jié)果顯示,ROC曲線(xiàn)下面積為0.658(0.525~0.790),p=0.027,靈敏度+特異度最大時(shí)的cutoff值為60.5歲,cutoff值的靈敏度+特異度=1.303。
3.logistic回歸分析
對(duì)于連續(xù)型變量的logistic回歸分析,可以有兩種處理方法。一種是直接進(jìn)行計(jì)算,可以回答在不進(jìn)行分類(lèi)的情況下,年齡每增加1歲時(shí)的比值比;另一種是將連續(xù)型資料轉(zhuǎn)換成分類(lèi)資料,常見(jiàn)的是進(jìn)行兩分類(lèi)轉(zhuǎn)換,即以某個(gè)值(如平均數(shù)、中位數(shù)等)為界值進(jìn)行兩分類(lèi)變換。
(1)變量不轉(zhuǎn)換的logistic回歸分析結(jié)果
進(jìn)行二分類(lèi)logistic回歸分析,將連續(xù)型資料直接作為自變量進(jìn)行計(jì)算,可得OR值為1.068,95%CI為1.005~1.134,P=0.034,顯示OR值有統(tǒng)計(jì)學(xué)意義,年齡因素是胃癌的危險(xiǎn)因素,但危險(xiǎn)程度很低。
(2)以均數(shù)為界值進(jìn)行二分類(lèi)轉(zhuǎn)換
經(jīng)計(jì)算,兩組66例研究對(duì)象年齡的算術(shù)均值為57.29歲。對(duì)年齡資料以57.29歲為臨界點(diǎn)進(jìn)行二分類(lèi)轉(zhuǎn)換,大于等于57.29歲=1,小于57.29歲=0。進(jìn)行二分類(lèi)logistic回歸分析,將轉(zhuǎn)換后的年齡作為自變量進(jìn)行計(jì)算,可得OR值為1.859,95%CI為0.695~4.976,P=0.217,顯示OR值沒(méi)有統(tǒng)計(jì)學(xué)意義,即以57.29歲為界,尚不能說(shuō)明年齡的高低是胃癌的危險(xiǎn)因素。
(3)二分變量轉(zhuǎn)換后的logistic回歸
采用ROC分析結(jié)果,對(duì)年齡資料以60.5歲為臨界點(diǎn)進(jìn)行二分類(lèi)轉(zhuǎn)換,大于等于60.5歲=1,小于60.5歲=0。進(jìn)行二分類(lèi)logistic回歸分析,將轉(zhuǎn)換后的年齡作為自變量進(jìn)行計(jì)算,可得OR值為3.946,95%CI為1.343~11.600,P=0.027,顯示OR值有統(tǒng)計(jì)學(xué)意義,即以60.5歲為界,年齡大于60.5歲是低于60.5歲發(fā)生胃癌的危險(xiǎn)比是3.946(1.343~11.600),表明年齡大于60.5歲具有較高的患病風(fēng)險(xiǎn)。三種不同處理方式的結(jié)果如表2所示。
表2 不同處理方式的logistic回歸結(jié)果
從表中可以看出,以cut off值為界值的二分類(lèi)轉(zhuǎn)換方法具有更強(qiáng)的區(qū)分能力,能更加精確地發(fā)現(xiàn)危險(xiǎn)因素。
ROC分析方法20世紀(jì)50年代起源于統(tǒng)計(jì)決策理論,在醫(yī)學(xué)領(lǐng)域中的應(yīng)用從20世紀(jì)80年代開(kāi)始。最初應(yīng)用在生理學(xué)和神經(jīng)醫(yī)學(xué),在醫(yī)學(xué)影像診斷試驗(yàn)研究中應(yīng)用最廣泛,在檢驗(yàn)醫(yī)學(xué)和中醫(yī)藥學(xué)研究[5]也應(yīng)用較多,但應(yīng)用于病因?qū)W的研究中尚不多見(jiàn)。實(shí)際上根據(jù)ROC分析的基本數(shù)據(jù)特征,以一個(gè)二分類(lèi)變量作為“金標(biāo)準(zhǔn)”,分析另一個(gè)連續(xù)型變量,不僅在成熟的診斷試驗(yàn)領(lǐng)域,在病因?qū)W研究領(lǐng)域,甚至在疾病防治、疾病預(yù)后研究等領(lǐng)域,都有類(lèi)似的數(shù)據(jù)特征資料,而且也有相同的尋找臨界點(diǎn)的需求,所以ROC分析方法在理論上能很好地解決需要分類(lèi)轉(zhuǎn)換分析時(shí)存在的問(wèn)題。在實(shí)踐過(guò)程中,我們通過(guò)本案例也很清楚地看到了ROC分析在解決這類(lèi)問(wèn)題時(shí)的能力和優(yōu)勢(shì)。
ROC分析技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用較晚,但發(fā)展迅速,解決了很多醫(yī)學(xué)研究的難題,但ROC分析的局限性也是很明顯的。ROC分析一般只能處理單因素,而病因往往是多因素的,所以ROC分析方法不能作為病因?qū)W分析的主要方法,而主要用于連續(xù)型變量轉(zhuǎn)換成分類(lèi)變量臨界點(diǎn)的確定。
1.賈振華.ROC曲線(xiàn)在醫(yī)學(xué)診斷中的應(yīng)用與進(jìn)展.東南大學(xué)學(xué)報(bào),2003,22(1):1-4.
2.Armitage P,Colton T.Encyclopedia of biostatistics.New York:John,1998:3738-3744.
3.孫振球主編.醫(yī)學(xué)統(tǒng)計(jì)學(xué).第3版.人民衛(wèi)生出版社,2012,292.
4.史周華,張雪飛主編.中醫(yī)藥統(tǒng)計(jì)學(xué).第1版.科學(xué)出版社,2009,193-194.
5.季聰華.ROC分析方法在中醫(yī)辨證診斷量表研制過(guò)程中的應(yīng)用,中華中醫(yī)藥學(xué)刊,2013,31(3):550-551.
(責(zé)任編輯:劉 壯)
浙江省衛(wèi)生廳資助課題(項(xiàng)目編號(hào):2011ZQ011)
1.浙江省中醫(yī)院臨床評(píng)價(jià)分析中心(310006)
2.浙江大學(xué)醫(yī)學(xué)院附屬兒童醫(yī)院