尚美霞 姚 晨 康曉平 閻小妍
1.北京大學(xué)第一醫(yī)院醫(yī)學(xué)統(tǒng)計室(100034)
2.北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計系
3.北京大學(xué)臨床研究所
△通信作者:康曉平,E-mail:Xpkang@ bjmu.edu.cn
MRMC方差分析在影像診斷試驗多閱片者多病例研究設(shè)計中的應(yīng)用
尚美霞1姚 晨1康曉平2△閻小妍3
影像診斷試驗 多閱片者多病例 MRMC方差分析 方差分量
對影像診斷技術(shù)的臨床試驗研究越來越多,評價影像診斷技術(shù)診斷性能的指標(biāo)和方法也層出不窮,ROC曲線分析法由于其不用固定明確的診斷界值而成為目前國內(nèi)外公認(rèn)的比較評價2種或2種以上的影像診斷手段效能差異性的客觀標(biāo)準(zhǔn)的統(tǒng)計學(xué)方法[1-2]。但臨床影像診斷系統(tǒng)是由影像診斷技術(shù)和診斷醫(yī)生共同構(gòu)成的,臨床醫(yī)生的專業(yè)水平和識別能力存在差異,這種差異能導(dǎo)致影像科醫(yī)生選擇不同的診斷標(biāo)準(zhǔn);同時,在臨床工作中經(jīng)常出現(xiàn)同病異影和同影異病的情況,且可能由于病例影像征象不典型而無法做出明確診斷,也為評價不同的影像學(xué)診斷方法帶來一定困難,影像醫(yī)生在做出診斷時不可避免的會出現(xiàn)各種偏倚。在影像診斷試驗研究中為考慮醫(yī)生所產(chǎn)生的偏倚,使診斷試驗研究的結(jié)果更接近其臨床的真實情況,國際上已逐漸趨向于采用多閱片者多病例(multireader multicase,MRMC)的研究設(shè)計[3-5]。本研究利用一個乳腺腫瘤影像診斷試驗多閱片者多病例設(shè)計的實例,用MRMC方差分析方法對有多閱片者參與的兩種影像診斷技術(shù)數(shù)據(jù)結(jié)果進行統(tǒng)計處理,并與傳統(tǒng)ROC曲線分析法進行比較,為探索能夠合理、客觀反映影像診斷系統(tǒng)診斷性能的統(tǒng)計分析方法提供依據(jù)。
1.研究對象
選擇2006 年7 月至2007 年6 月來自全國五家三甲醫(yī)院經(jīng)過病理學(xué)診斷為乳腺腫瘤良性患者48例,惡性患者48例,共96例均為女性患者,年齡在25~ 88 歲,平均年齡55 歲。
2.影像采集系統(tǒng)和閱片者
目前檢查乳腺疾病時常規(guī)二維掃描成像應(yīng)用有效且廣泛,但對于重疊組織、結(jié)構(gòu)化噪聲以及檢查有致密乳腺組織的病例時存在一定的局限性,導(dǎo)致乳腺腫瘤的檢出率有限,復(fù)查率過高;而三維斷層合成技術(shù),可降低乳腺攝影中重疊組織和結(jié)構(gòu)化噪聲的影響,對于有致密乳腺組織的受檢者,可視化效果相對更好,預(yù)計可改善乳腺腫瘤的早期檢出。所以本項臨床研究分別采用乳腺腫瘤影像診斷應(yīng)用的常規(guī)數(shù)字乳腺攝影成像(2D)與Selenia全區(qū)域數(shù)字乳腺攝影系統(tǒng)乳腺斷層合成(3D)方法,常規(guī)攝取雙側(cè)乳腺軸位和側(cè)斜位,必要時加照側(cè)位和局部加壓放大攝影。注意觀察每位患者的乳腺類型、病灶大小、清晰度、邊緣狀況、病灶形態(tài)、病灶內(nèi)部或鄰近有無鈣化(包括鈣化大小、形態(tài)、數(shù)目、密度和分布等)等。本研究的閱片者來自全國八家醫(yī)院的12名具有不同經(jīng)驗水平和閱片經(jīng)歷的影像科醫(yī)生,其中經(jīng)驗較豐富者7名,經(jīng)驗較少者5名。
1.研究變量的定義及賦值
(1)閱片者閱片 正式開始研究前先對12名放射科醫(yī)生就影像成像和讀片規(guī)則進行三天培訓(xùn)。培訓(xùn)結(jié)束后在不提供患者姓名、臨床診斷資料等情況下,由12位熟練掌握該乳腺癌診斷技術(shù)的影像科醫(yī)生以隨機次序獨立閱讀所有受試者的2D成像影像集并作出影像診斷,一個月之后再由這12位影像科醫(yī)生隨機獨立閱讀相同受試者的3D乳腺成像影像集并再次作出影像診斷。
(2)閱片者讀片結(jié)果表達(dá) 病理學(xué)結(jié)果作為金標(biāo)準(zhǔn)診斷受試者是否患乳腺癌;不同閱片者對受試者乳腺2D和3D影像圖片的讀片結(jié)果按乳腺成像報告和數(shù)據(jù)系統(tǒng)(BIRADS)評分標(biāo)準(zhǔn)記錄乳腺腫瘤的惡性程度。金標(biāo)準(zhǔn)診斷結(jié)果和閱片者BIRADS閱片結(jié)果及影像醫(yī)生經(jīng)驗水平的賦值見表1。
表1 本研究中有關(guān)變量的賦值
2.本研究的多閱片者多病例(MRMC)設(shè)計
多閱片者多病例(MRMC)研究設(shè)計的主要思路是分別選取合適數(shù)量有代表性的患者(包括金標(biāo)準(zhǔn)確診待研究疾病的患者與非患者)和閱片者作為樣本,每個患者分別接受某個或多個診斷試驗,然后由閱片者獨立盲法的對患者關(guān)于試驗的影像檢測結(jié)果進行解釋[6]。在對診斷結(jié)果進行分析和評價時,這種設(shè)計可以將閱片者自身以及不同閱片者之間的各種效應(yīng)考慮進去。
多閱片者多病例(MRMC)研究有多種設(shè)計方式,本研究采用其中常見的配對患者與配對閱片者設(shè)計,即全部患者分別依次接受兩種不同影像診斷技術(shù)的檢查,然后由所有閱片者分別對每一位患者接受每一種診斷技術(shù)的檢查結(jié)果進行解讀和判斷[7]。例如,用2種診斷技術(shù)(i=1,2)(如2D和3D),J名閱片者(j=1,2,…J)(如12名影像學(xué)專家)分別獨立對N例患者的試驗結(jié)果(如影像圖片)(k=1,2,…N)進行診斷,會產(chǎn)生2*J*N種診斷結(jié)果,對于每一種診斷技術(shù)收集的結(jié)果,可排成類似于J*N形式的矩陣如下:
患者
1 2 …k
其中,行代表閱片者,列代表患者,在每一列的患者中均有n-例正常受試者和n+例異常受試者,比如x1jk表示第j名閱片者對第k例患者接受第1種診斷技術(shù)檢查產(chǎn)生影像數(shù)據(jù)的診斷結(jié)果。
3.MRMC方差分析方法
(1)
據(jù)此,可以分別計算i種診斷技術(shù)、j名閱片者各自的ROC曲線下面積的Jackknife偽值以及每種診斷技術(shù)所有閱片者的平均ROC曲線下面積[8]。
在計算得到第i診斷技術(shù)、第j閱片者、第k患者ROC曲線下面積的Jackknife偽值之后,將Yijk當(dāng)作因變量,以閱片者和患者變量作為隨機因素,診斷技術(shù)變量作為固定因素,構(gòu)建混合效應(yīng)的統(tǒng)計學(xué)模型如下:
Yijk=μ+ti+rj+pk+(tr)ij+(tp)ik+(rp)jk+(trp)ijk+εijk
(2)
表2 混合效應(yīng)方程模型的方差分析(ANOVA)表
*:EMS為模型期望均方,可以通過SAS的GLM過程獲得。
MRMC方差分析法構(gòu)建的混合效應(yīng)模型中擬檢驗的零假設(shè)是兩診斷技術(shù)的固定效應(yīng)相等,即H0:t1=…tI。檢驗零假設(shè)是否成立之前,需要先檢驗診斷技術(shù)固定效應(yīng)與閱片者、患者隨機效應(yīng)之間有無交互作用;以H0:MStr=MStrp,F(xiàn)=MStr/MStrp,分子自由度ν1為(I-1)(J-1),分母自由度ν2為(I-1)(J-1)(N-1)檢驗診斷技術(shù)與閱片者之間的交互作用;以H0:MStp=MStrp,F(xiàn)=MStp/MStrp,分子自由度ν1為(I-1)(N-1),分母自由度ν2為(I-1)(J-1)(N-1)檢驗診斷技術(shù)與患者之間的交互作用;如果以上檢驗F值對應(yīng)的P值大于檢驗水準(zhǔn)α(如α=0.05),則認(rèn)為交互作用不存在,反之即存在交互作用。
(3)
(4)
多閱片者多病例(MRMC)研究除了檢驗診斷技術(shù)的固定效應(yīng),估計兩個或者多個診斷技術(shù)各自相應(yīng)的ROC曲線下面積和其可信區(qū)間及各診斷技術(shù)之間曲線下面積的差值及其可信區(qū)間外,還可以對閱片者和患者等各隨機效應(yīng)的方差分量進行估計。
4.本研究采用的傳統(tǒng)ROC曲線分析法
對于多閱片者多病例(MRMC)的研究設(shè)計資料,基本處理方法與一般診斷試驗資料一致,即將所有閱片者的評價結(jié)果作為一個整體,根據(jù)分析指標(biāo)中的BIRADS分級,分別將分級中的①,①+②,①+②+③,①+②+③+④作為診斷乳腺癌的不同界值,分別估計在不同界值下的靈敏度、特異度,以不同診斷界值下的靈敏度為縱坐標(biāo)、1-特異度為橫坐標(biāo)作圖,繪制ROC曲線,并計算該ROC曲線下的面積[10-11]。對兩個診斷系統(tǒng)的ROC曲線下面積比較的檢驗統(tǒng)計量為:
5.統(tǒng)計原則及統(tǒng)計軟件
計量指標(biāo)以均數(shù)和標(biāo)準(zhǔn)差描述,計數(shù)指標(biāo)以例數(shù)及百分?jǐn)?shù)描述。MRMC方差分析應(yīng)用SAS 9.2軟件,結(jié)合Hillis SL.等編寫的MRMC_DBM_Macro程序?qū)崿F(xiàn),傳統(tǒng)ROC曲線分析及參數(shù)估計應(yīng)用軟件ROCKITβ0.8 軟件完成,統(tǒng)計學(xué)描述應(yīng)用SAS 9.2軟件實現(xiàn)。
1.納入本研究受試者的基本情況
本研究納入受試者樣本共96例,其中良性患者中2例由于缺少某一名閱片者的讀片結(jié)果而剔除,實際納入分析良性乳腺腫瘤患者46例,惡性腫瘤患者48例;平均年齡分別為良性腫瘤患者(51.7±11.8)歲,惡性腫瘤患者(56.8±12.0)歲。隨機選取的閱片者樣本為12名,每位閱片者的總讀片數(shù)為94份,對良性患者的總讀片數(shù)為552份,對惡性患者的總讀片數(shù)為576份,合計讀片數(shù)為1128份。12名閱片者對96例患者共1128份影像資料的閱片結(jié)果見表3。
表3 12名閱片者的影像閱片結(jié)果描述
2.本研究MRMC方差分析結(jié)果
(1)兩種診斷技術(shù)的診斷一致性評價
在1128份閱片者的讀片結(jié)果中,2D診斷技術(shù)可以明確確診的良性和惡性腫瘤結(jié)果分別為497份和538份,合計1035份;3D診斷技術(shù)可以明確確診的良性和惡性腫瘤結(jié)果分別為505份和569份,合計1074份;以金標(biāo)準(zhǔn)為參考分別估計得到2D和3D兩種診斷系統(tǒng)的診斷一致率為68.21%和76.54%,其中陽性一致率分別為58.45%和67.14%,陰性一致率分別為78.25%和74.66%。表4為兩種成像技術(shù)診斷結(jié)果與金標(biāo)準(zhǔn)相對應(yīng)的四格表。
表4 研究中兩種成像技術(shù)診斷一致性的評價結(jié)果
(2)兩診斷技術(shù)固定效應(yīng)的估計和檢驗
通過對診斷技術(shù)、閱片者以及患者三者之間的方差分析結(jié)果提示存在患者與閱片者及患者與診斷技術(shù)之間的交互作用(P<0.0001),所以采用Satterthwaite近似F檢驗對診斷技術(shù)的固定效應(yīng)進行估計,分別按照公式計算得到近似F檢驗的分母自由度為77.1997,F(xiàn)統(tǒng)計量為15.5989,經(jīng)檢驗表明兩種診斷技術(shù)ROC曲線下面積差別有統(tǒng)計學(xué)意義(P=0.0002);在此基礎(chǔ)上進一步依據(jù)方差分析的結(jié)果分別估計2D和3D兩種診斷技術(shù)的ROC曲線下面積為0.7505和0.8500,兩者之間ROC曲線下面積的差值為0.0995。診斷技術(shù)、閱片者以及患者三者之間的方差分析結(jié)果如表5所示,兩種診斷系統(tǒng)的ROC曲線下面積、面積的差值及其95%的可信區(qū)間如表6所示。
表5 本研究對試驗、閱片者及病例的方差分析結(jié)果
表6 MRMC方差分析法對兩種診斷系統(tǒng)ROC曲線下面積的估計和比較
(3)閱片者、患者及各交互項隨機效應(yīng)的估計
3.傳統(tǒng)ROC曲線分析結(jié)果
綜合全部閱片者的讀片結(jié)果,以ROC曲線下面積作為診斷系統(tǒng)準(zhǔn)確性的評價指標(biāo),應(yīng)用ROCKITβ0.8 軟件參數(shù)法估計并比較2D和3D兩種乳腺成像診斷系統(tǒng)的診斷準(zhǔn)確性大小。表8列出了每種診斷系統(tǒng)的ROC曲線下面積以及兩者比較的統(tǒng)計量大小。
表7 本研究混合效應(yīng)模型中各隨機效應(yīng)的方差分量結(jié)果
表8 兩種診斷系統(tǒng)ROC曲線下面積的參數(shù)法估計和比較
本研究首先對兩種診斷技術(shù)與金標(biāo)準(zhǔn)的診斷結(jié)果一致性作出估計,結(jié)果顯示3D斷層成像技術(shù)的診斷一致率(76.54%)明顯高于常用的2D成像技術(shù)(68.21%),說明總體看來,3D斷層成像技術(shù)的診斷性能要比2D成像技術(shù)好一些,但這只是一個對診斷結(jié)果相對粗略的估計[14],并未考慮到結(jié)果評價過程中閱片者以及其他因素產(chǎn)生的各種可能效應(yīng),對診斷系統(tǒng)的準(zhǔn)確性評價存在一定的偏倚[15-16]。本研究針對多閱片者設(shè)計利用方差分析總變異可分的特點,采用MRMC方差分析的方法對有多閱片者參與的影像診斷試驗研究進行分析,構(gòu)建混合效應(yīng)線性模型,根據(jù)診斷技術(shù)、閱片者和患者間的方差分析結(jié)果可以看出存在閱片者與患者、患者與診斷技術(shù)間的交互作用(P<0.0001),因此在假設(shè)檢驗時需將閱片者、患者及診斷技術(shù)的交互作用保留在模型中,進一步通過Satterthwaite近似F檢驗對診斷技術(shù)的固定效應(yīng)進行估計,結(jié)果表明在模型對閱片者、患者及其與診斷技術(shù)的交互作用進行控制之后,檢驗兩種診斷方式的ROC曲線下面積差別,3D成像診斷技術(shù)的ROC曲線下面積高于2D技術(shù)(3D-2D=0.0995),且該差異有統(tǒng)計學(xué)意義(F′=15.5989,P<0.0002),對診斷試驗固定效應(yīng)的估計與兩種診斷技術(shù)的診斷一致性評價結(jié)果一致;另外該分析方法除作出假設(shè)檢驗之外,也估計給出了控制各種混合效應(yīng)后的每種診斷技術(shù)的固定效應(yīng)(3D=0.8500,95%CI:0.7770~0.8255;2D=0.7505,95%CI:0.6639~0.7215)。
MRMC方差分析方法構(gòu)建混合效應(yīng)模型除估計和檢驗?zāi)P凸潭ㄐ?yīng)之外,另一個最大特點就在于對各隨機效應(yīng)的方差分量進行研究估計,推斷隨機樣本所在總體的變異性如何[17]。從本研究中混合效應(yīng)方差分析給出的方差分量結(jié)果可以看出,MRMC方差分析法將閱片者、患者及其與診斷技術(shù)間的各種隨機效應(yīng)的方差從總的隨機誤差中提取分解出來,并估計了每個隨機效應(yīng)的方差分量大小,閱片者不論是其自身還是與其他因素的交互作用都會給研究結(jié)果的變異貢獻部分作用。為進一步探討閱片者這一隨機效應(yīng)對研究結(jié)果變異性的影響大小,本研究又將閱片者按照閱片者的閱歷經(jīng)驗不同分成經(jīng)驗豐富和經(jīng)驗較少兩組分別進行估計,結(jié)果發(fā)現(xiàn)經(jīng)驗較豐富的和經(jīng)驗較少的閱片者在評價兩種診斷方式估計其ROC曲線下面積時經(jīng)驗豐富者的變異程度明顯低于經(jīng)驗較少者;而傳統(tǒng)的ROC曲線分析方法無法區(qū)分不同閱片者之間的差別,資料分析時最終只能分別估計兩種診斷系統(tǒng)的ROC曲線下面積,尚不能控制閱片者及其他效應(yīng)的作用也不能給出閱片者樣本所代表的整個總體的變異情況。
在現(xiàn)實實踐中應(yīng)用診斷技術(shù)的臨床影像醫(yī)生經(jīng)驗水平也會各不相同,但與真實的臨床實踐不同,影像診斷試驗的研究目的在于客觀的評價某診斷系統(tǒng)本身固有的診斷能力,所以為保證研究結(jié)果更接近于診斷系統(tǒng)本身的真實實際水平,所以在選擇閱片者樣本時就需考慮閱片者的偏倚以及代表性問題,采用多閱片者的設(shè)計,盡量納入各種不同經(jīng)驗水平的閱片者,同時針對這種多閱片者多病例的研究設(shè)計資料選擇合適的統(tǒng)計分析方法。多閱片者多病例(MRMC)方差分析方法構(gòu)建的混合效應(yīng)ANOVA模型可以應(yīng)用于等級分類資料也可以應(yīng)用于連續(xù)資料,模型中統(tǒng)計分析采用的分析指標(biāo)可以是ROC曲線下面積,靈敏度、特異度,也可以是某特定特異度區(qū)間對應(yīng)的部分ROC曲線下面積等;同時可以控制研究中可能產(chǎn)生的各種誤差,提高統(tǒng)計效能,減少偏倚,保證研究結(jié)果的客觀真實,能夠為更加準(zhǔn)確的篩查和診斷疾病提供幫助。
[1] 李朝軍,羅向紅,劉望彭.ROC分析法評價超聲與鉬靶攝影術(shù)在乳腺癌篩查和早期診斷中的價值.臨床超聲醫(yī)學(xué)雜志,2008,3:169-171,174.
[2] 彭娟,吳敏,龔黎,等.ROC曲線評價二維超聲與彩色多普勒診斷小乳腺癌.中國介入影像與治療學(xué),2010,6:647-650.
[3] Beam CA,Baker ME,Paine SS,et al.Answering unanswered questions:proposal for a shared resource in clinical diagnostic radiology research.Radiology,1992,183(3):619-620.
[4] Obuchowski NA.Reducing the number of reader interpretations in MRMC studies.Acad Radiol,2009,16(2):209-217.
[5] Koshkin VS,Hinshaw JL,Wroblewski K,et al.CAD-associated reader error in CT colonography.Academic Radiology,2012,19(7):801-810.
[6] Zhou XH.Statistical Methods in Diagnostic Medicine.NewYork:JohnWiley&Sons,2002.
[7] Obuchowski NA,Beiden SV,Berbaum KS,et al.Multireader,multicase receiver operating characteristic analysis:an empirical comparison of five methods.Acad Radiol,2004,11(9):980-995.
[8] Dorfman DD,Berbaum KS,Metz CE.Receiver operating characteristic rating analysis.Generalization to the population of readers and patients with the jackknife method.Invest Radiol,1992,27(9):723-731.
[9] Obuchowski NA.Multireader,multimodality receiver operating characteristic curve studies:hypothesis testing and sample size estimation using an analysis of variance approach with dependent observations.Acad Radiol,1995,2(Suppl)1:S22-S29,S57-S64,S70-S71.
[10] 潘清,陳卉,馬宇晶,等.影像學(xué)診斷評價中的參數(shù)法ROC曲線分析.中國醫(yī)學(xué)影像技術(shù),2011,8:1694-1697.
[11] 王先運,吳多文,汲偉明,等.用ROC曲線下面積進行差異性檢驗的常用方法.中華放射學(xué)雜志,2006,07:763-764.
[12] 李康,馬葆華,趙亞雙,等.具有協(xié)變量或干擾因素的診斷試驗數(shù)據(jù)的 ROC 分析.中國衛(wèi)生統(tǒng)計,2002,19(2):67-70.
[13] 王喜文,董柏青,劉飛鷹.兩相關(guān)診斷試驗的ROC曲線下面積比較的SAS程序?qū)崿F(xiàn).數(shù)理醫(yī)藥學(xué)雜志,2010,6:671-674.
[14] 周宇豪,許金芳,賀佳.診斷試驗一致性評價中幾種方法的比較及應(yīng)用.中國衛(wèi)生統(tǒng)計,2011,28(1):40-42.
[15] Jackson SL,Taplin SH,Sickles EA,et al.Variability of interpretive accuracy among diagnostic mammography facilities.Journal of the National Cancer Institute,2009,101(11):814-827.
[16] Gallas BD,Chan HP,D′Orsi CJ,et al.Evaluating imaging and computer-aided detection and diagnosis devices at the FDA.Academic Radiology,2012,19(4):463-477.
[17] 陳峰,姚晨,孫高,等.新藥臨床試驗中重復(fù)測量資料的混合效應(yīng)模型.中國衛(wèi)生統(tǒng)計,2000,17(6):373-376.
TheApplicationofMRMCANOVAMethodinMultireaderMulticaseDesignofRadiologicalDiagnosticStudy
Shang Meixia,Yao Chen,Kang Xiaoping,et al.
(PekingUniversityFirstHospital(100034),Beijing)
ObjectiveTo explore the statistical power of the MRMC ANOVA method evaluating the results between different diagnostic technologies in multireader multicase study design; and to provide the theory basis for the usage of mutireader muticase design in radiological diagnostic study.MethodsCollect 96 image pictures of suspected breast cancer subjects taking in 2D and 3D tomographic these two different imaging diagnostic techniques,select 12 representative readers randomly,and analyze the data about the reading results with MRMC ANOVA method and traditional ROC curve method separately; MRMC ANOVA method apples software SAS 9.2 accompanied with MRMC_DBM_Macro programme written by Hillis SL.and parameter estimations of traditional ROC curve method apples software ROCKITβ0.8.ResultsThe consistency rate of 3D tomographic imaging diagnostic technique is much more bigger than that of 2D imaging diagnostic technique(2D:62.59%,3D:72.87%),and the positive consistency rate is 65.45% and 71.01% while the negative consistency rate is 59.60% and 69.38% respectively; MRMC ANOVA method can estimate and compare the diagnostic accuracy of 2D diagnostic technique and 3D tomographic imaging diagnostic technique(2D:0.7505,3D:0.8500,3D-2D:0.0994); Besides it can also consider the probable biases resulting from different readers and quantify them,then estimate the variance components of all possible random effects(,total random error is 0.2765); But the traditional ROC method can only figure out the accuracy of the two technologies(2D:0.7368,3D:0.8328,3D-2D:0.0960).ConclusionsCompared with the traditional ROC curve method,MRMC ANOVA method is much more comprehensive and accurate when assessing the diagnostic power of mutireader muticase radiological diagnostic study,which can not only compare the accuracy but also evaluate the reliability.
Radiological diagnostic study;Mutireader muticase;MRMC ANOVA;ROC curve;Variance components
(責(zé)任編輯:劉 壯)