劉雪晴 周曉華,2,3△
【提 要】 目的 本文旨在探討自由響應(yīng)ROC(free-response ROC,F(xiàn)ROC)方法和變異FROC(alternative FROC,AFROC)方法相對傳統(tǒng)ROC方法的優(yōu)勢與局限性,并提出生成平均AFROC曲線的非參數(shù)方法。方法 通過FROC曲線和AFROC曲線的定義,從理論角度闡述兩種方法的聯(lián)系與優(yōu)缺點。闡述在MRMC研究中生成平均AFROC曲線的方法,并證明平均AFROC曲線下的面積與平均AFROC-AUC相等。在實際數(shù)據(jù)中應(yīng)用以上方法并對結(jié)果進(jìn)行比較。結(jié)果 與FROC曲線不同,不同的診斷試驗產(chǎn)生的AFROC曲線具有相同的長度,因此能夠進(jìn)行多個曲線間的比較。平均AFROC曲線能夠反映不同診斷試驗的準(zhǔn)確度大小,且與回歸模型得到的結(jié)果一致。結(jié)論 FROC研究更適合涉及多病變檢測和定位任務(wù)的診斷試驗。改進(jìn)后的AFROC曲線能解決原始FROC曲線不利于比較的問題?;诜菂?shù)方法得到的平均AFROC曲線能直觀地反映出診斷準(zhǔn)確度,可在進(jìn)行診斷試驗評價時輔助其他結(jié)果共同報告。
在傳統(tǒng)的受試者操作特征(receiver operating characteristic,ROC)方法中,閱片者為每個病例賦分,并判斷其是否患病,而無需定位病變的位置[1]。對于涉及多病變的檢測和定位的影像診斷試驗的臨床評價,使用ROC方法可能產(chǎn)生位置偏差,即患者被診斷為有病,但是病變的定位錯誤,導(dǎo)致靈敏度被高估[2]。已有研究提出了ROC的擴(kuò)展方法,稱為定位ROC(location-specific ROC)方法,包括LROC(localization ROC)法[3]、ROI(region-of-interest)法[4]和自由響應(yīng)ROC(free-response ROC,F(xiàn)ROC)法[5-6]。其中FROC研究更具靈活性,它把病變作為基本的診斷單位,并允許閱片者自由標(biāo)記出所有的可疑區(qū)域。AFROC方法是對FROC分析的改進(jìn),它通過對正常病例中的所有假陽性標(biāo)記得分取最大值,使得生成的曲線控制在單位區(qū)域中,有利于多個診斷試驗的比較。
本文將具體介紹FROC方法和AFROC方法,并在真實多讀者多病例(multi-reader multi case,MRMC)FROC實例研究中說明和比較兩種方法。在進(jìn)行診斷準(zhǔn)確度研究時,研究者往往會在報告平均AFROC-AUC時,同時展示AFROC曲線。相比多個單獨的AFROC曲線,平均AFROC曲線顯然更加直觀,且能夠綜合多個閱片者的信息。因此,本文提出生成平均AFROC曲線的非參數(shù)方法,在實際數(shù)據(jù)中應(yīng)用并與回歸模型的結(jié)果進(jìn)行比較。
1.FROC方法
在FROC研究中,閱片者自由標(biāo)記出所有可疑的區(qū)域并賦分。研究者根據(jù)“金標(biāo)準(zhǔn)”提供的信息將標(biāo)記分類為真陽性(TP)或假陽性(FP)。假陽性標(biāo)記可能同時出現(xiàn)在患病或正常病例中,而真陽性標(biāo)記僅存在于患病病例中。
FROC數(shù)據(jù)是以病變(或假陽性標(biāo)記)為單位收集的。假設(shè)研究包括K個病例,其中患病病例為k1個,正常病例為k0個。FROC數(shù)據(jù)的格式[7]可以記為
(1)
FROC分析方法存在兩個主要問題。第一,從橫坐標(biāo)的定義不難看出,其長度可能趨于無窮,使得FROC曲線下面積難以定義[8]。第二,由于不同診斷試驗的FROC曲線長度不同,診斷試驗間難以進(jìn)行直觀的比較。目前已經(jīng)有多種改進(jìn)方法用于解決這些問題,其中最常用的就是AFROC方法。
2.AFROC方法
變異FROC(alternative FROC,AFROC)分析對原始FROC方法做出改進(jìn)[6],通過在正常病例中對所有假陽性標(biāo)記的得分取最大值,得到以病例為分析單位的假陽性率,進(jìn)而將AFROC曲線限制在單位區(qū)域內(nèi),使得多個診斷試驗之間的比較具有可行性。
首先我們將FROC數(shù)據(jù)轉(zhuǎn)換為在AFROC分析中所應(yīng)用的數(shù)據(jù)格式。我們定義
AFROC曲線中縱坐標(biāo)的定義仍與FROC曲線中相同,即以病變?yōu)榉治鰡挝坏腡PR,它的非參數(shù)估計可以表示為
(2)
其中ξ為該研究所選定的閾值。經(jīng)過取最大值的變換后,AFROC曲線的橫坐標(biāo)與傳統(tǒng)的ROC曲線相似,它的非參數(shù)估計可以表示為
(3)
(4)
AFROC分析很好地解決了FROC曲線長度不一甚至可能趨于無窮的問題。但目前對于AFROC曲線的研究仍然十分有限,比如目前仍沒有較好地能夠生成AFROC曲線的參數(shù)模型,已有的模型面臨著參數(shù)可識別性的問題或是存在較強的獨立性假設(shè)。盡管非參數(shù)估計會系統(tǒng)性地低估AFROC-AUC,但由于不需要過多的假設(shè)而在研究中被普遍使用,其方差的估計往往需要借助重抽樣的方法[9]。
3.多讀者多病例FROC研究
在完全交叉的多讀者多病例(multi-reader multi-case,MRMC)研究中,全部病例接受所有診斷試驗的檢測,然后每個閱片者對所有的病例影像進(jìn)行解釋和賦分。這種設(shè)計的好處在于可以有效地增加統(tǒng)計效能,減少研究所需的樣本量[1]。然而,完全交叉的MRMC設(shè)計產(chǎn)生了互相關(guān)的數(shù)據(jù)結(jié)構(gòu):同一閱片者、同一病例或同一診斷試驗產(chǎn)生的檢測結(jié)果分別是相關(guān)的。當(dāng)數(shù)據(jù)是以病變?yōu)閱挝皇占?FROC數(shù)據(jù)),則產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,因為同一病例/影像上不同可疑區(qū)域的得分也存在一定的相關(guān)性。目前存在多種統(tǒng)計方法用于MRMC研究分析[10-11],然而這些方法都是基于MRMC ROC研究提出和發(fā)展的。本文首先介紹了一種使用回歸模型分析MRMC FROC數(shù)據(jù)的方法[12],該方法不僅能夠在估計參數(shù)時考慮數(shù)據(jù)間復(fù)雜的相關(guān)性,還能調(diào)整影響準(zhǔn)確度的其他協(xié)變量。此外,本文提出了一種生成平均AFROC曲線的非參數(shù)方法,用于提供多個診斷試驗間的直觀比較。
(1)統(tǒng)計方法
我們提出了一種利用邊際回歸模型分析MRMC FROC數(shù)據(jù)的方法[12],該方法對相關(guān)性結(jié)構(gòu)進(jìn)行了全面分析,并借用了用于“稀疏相關(guān)”的估計方法,得到了回歸參數(shù)的相合性和漸近正態(tài)估計。這種基于回歸模型的方法是對AFROC-AUC建立回歸模型。當(dāng)診斷試驗結(jié)果為連續(xù)變量時,模型可以表示為
(5)
(2)平均AFROC曲線
現(xiàn)有的對于MRMC FROC研究的討論往往是關(guān)于如何得到平均診斷準(zhǔn)確度指標(biāo)的估計和如何進(jìn)行假設(shè)檢驗以判斷診斷試驗的優(yōu)劣。然而,AFROC曲線本身也能提供直觀的準(zhǔn)確度信息并進(jìn)行多個診斷試驗間的比較。本文提出利用一種非參數(shù)的方法得到平均AFROC曲線,而且該曲線下面積恰好等于平均AFROC-AUC。該方法是對平均ROC曲線的一個擴(kuò)展[13]。
曲線下面積與平均AFROC-AUC相等的平均AFROC曲線并不是唯一的。例如,可以在不同的FPR取值下對TPR取平均,也可以在不同的TPR下對FPR取平均。更一般地,我們可以按照如下方式得到平均AFROC曲線。
首先,我們將坐標(biāo)系中的(FPR(ξ),TPR(ξ),逆時針旋轉(zhuǎn)θ度,從而得到
我們進(jìn)一步通過實例研究闡釋和討論上述方法。本文所用數(shù)據(jù)來自乳腺斷層攝影(breast tomosynthesis,BT)和數(shù)字乳腺X線攝影(digital mammography,DM)兩個設(shè)備的準(zhǔn)確度比較研究。該研究包括5名閱片者,185名病例(其中包括89名患病病例)。在研究中,每個閱片者獨立地使用BT和DM兩個設(shè)備下分別對CT影像進(jìn)行標(biāo)記和賦分。研究的金標(biāo)準(zhǔn)由專家小組確定。根據(jù)是否接近金標(biāo)準(zhǔn)提供的病變位置,專家后期將標(biāo)記分為真陽性和假陽性。實例研究的數(shù)據(jù)結(jié)構(gòu)如公式(1)所示。
本文的分析全部使用R軟件。我們首先繪制了5個閱片者單獨的FROC曲線和AFROC曲線,如圖1和圖2所示。可以看出,5個閱片者的FROC曲線長度不同,特別是有使用BT和使用DM時的FROC曲線長度不一致,從而難以進(jìn)行兩個診斷試驗之間的直觀比較。AFROC曲線的橫軸在(0,1)范圍內(nèi),對于同一閱片者,在橫坐標(biāo)相同時,BT比DM的AFROC曲線高。
圖1 經(jīng)驗FROC曲線
圖2 經(jīng)驗AFROC曲線
應(yīng)用回歸模型的方法對MRMC數(shù)據(jù)進(jìn)行分析,所得結(jié)果如表1所示。BT與DM的AFROC-AUC的差異為0.144(95%置信區(qū)間:[0.074,0.215]),從而可以得出BT比DM的準(zhǔn)確度高。
表1 BT與DM準(zhǔn)確度比較研究的結(jié)果
圖3 平均AFROC曲線
本文探討了FROC方法和AFROC方法。相比傳統(tǒng)的ROC方法,這兩種方法將病變的位置信息納入分析,更適合涉及多病變檢測和定位的影像診斷試驗的準(zhǔn)確度研究。此外,我們簡單介紹了一種新的回歸模型方法,并著重介紹了如何生成平均AFROC曲線。目前關(guān)于平均AFROC曲線的討論較少,我們的研究彌補了這一空白。實例分析很好地說明了平均AFROC曲線能夠提供較多的信息和直觀的比較,能夠輔助以AFROC-AUC為準(zhǔn)確度指標(biāo)得到的結(jié)論。
FROC方法和AFROC方法仍然處在發(fā)展階段,與ROC方法相比,仍有很多不完善的地方。第一,目前對于曲線下面積的計算主要基于非參數(shù)方法,而參數(shù)模型的研究相對較少。第二,同一病例中多個標(biāo)記診斷結(jié)果存在著相關(guān)性,如何在FROC分析中很好地處理相關(guān)性問題也值得進(jìn)一步研究。
總之,F(xiàn)ROC研究收集的數(shù)據(jù)包含更多的信息,通常認(rèn)為在分析中考慮這些信息能夠提高統(tǒng)計效能。在影像診斷試驗的準(zhǔn)確度研究中,應(yīng)當(dāng)更多地使用考慮病變位置的方法。