唐少文 陶必林 王琦琦 么鴻雁
結(jié)核病是由結(jié)核分枝桿菌引起的慢性傳染病,現(xiàn)已成為全球重大的公共衛(wèi)生問題和社會問題。中國是全球30個結(jié)核病高負擔國家之一,肺結(jié)核發(fā)病例數(shù)居全球第3位[1]。早期正確的診斷是結(jié)核病防治工作的重要基礎,但長期以來尚缺乏一種快速、敏感、特異而又簡便的方法。隨著科學技術的進步,新的檢查方法層出不窮,為結(jié)核病的診斷提供了便利。因而結(jié)核病相關的診斷準確性評價研究常有報道,但劉霞等[2]對國內(nèi)斑點免疫膠體金滲濾法檢測結(jié)核抗體診斷結(jié)核病的文獻按照診斷準確性研究的質(zhì)量評價(quality assessment of diagnostic accuracy studies,QUADAS)量表標準進行評價,大多數(shù)文獻存在質(zhì)量問題,如研究對象選擇、金標準核實、盲法評價等。為了指導醫(yī)務人員更好地開展結(jié)核病診斷準確性研究和提高研究質(zhì)量,筆者就其研究設計、分析指標及應注意的問題作一介紹。
診斷準確性研究(diagnostic accuracy studies)主要是指使用各種診斷方法對患者的疾病和健康狀況做出診斷的試驗,也就是評價某診斷試驗正確區(qū)分某種特定疾病的患者和非患者的能力[3]。其評價的核心思想就是對比,即待評價診斷方法(也稱指標試驗,index test)與已有方法或金標準進行比較,從而判斷待評價試驗可能的角色——取代、分診或附加[4];其中,取代即待評價診斷方法可否取代已有方法或金標準,一般要求待評價試驗具有更好的準確性或副反應少、操作簡單等;如果待評價試驗得到陽性或陰性結(jié)果后才進行已有試驗,則為分診,主要是已有試驗更具侵入性或更不容易被接受或執(zhí)行;反之,只有在已有試驗得到陽性或陰性結(jié)果后才進行待評價試驗,則為附加,主要是因為已有試驗不是很準確,而且待評價試驗更昂貴等。對于上述三種關系的評價,其側(cè)重點不一樣,但基本研究設計是相似的。如果診斷試驗設計存在缺陷,或者研究結(jié)果報告欠準確,均可夸大或縮小待評價試驗的價值,從而導致醫(yī)生誤診或漏診。這就需要研究者在評價之初就進行嚴謹?shù)脑O計和規(guī)范的報告。
診斷準確性研究設計一般涉及到幾個關鍵步驟:
1.確定研究設計類型:診斷準確性研究設計類型可以是隨機對照試驗(RCT)[5],也可以是觀察性研究(如隊列研究[6]或病例-對照研究[7]),還可以采用橫斷面研究[8],但一般多采用病例-對照研究分析思路,即依據(jù)金標準去確定患有和未患有某種疾病的研究對象,再用待評價診斷試驗對研究對象進行檢測,將其獲得的結(jié)果與金標準的診斷結(jié)果進行比較,從而評價待評價診斷試驗的診斷效果。但如果需要觀察不同診斷方法對患者的遠期影響(如生存或死亡),則可以借助于RCT;如果判斷研究對象是否會罹患某種疾病需要借助于隨訪,則可以采用隊列研究設計。
2.確定金標準:金標準是指目前醫(yī)學界公認的診斷某種疾病最準確的方法,在無金標準的前提下,則是臨床醫(yī)學專家共同制定的公認診斷標準。確定合適的金標準是進行診斷試驗評價的前提,如果金標準選擇不當,就會造成對受試者診斷分類上的錯誤,使整個試驗的評價失去準確性的基礎。結(jié)核病的診斷是一個綜合診斷,目前可以參照《WS 288-2017 肺結(jié)核診斷》[9]。
3.研究對象的選擇:按照金標準將研究對象分為病例組和對照組;病例組可以包括各種類型的患者(如不同嚴重程度、不同病程階段、典型與非典型等),這樣評價結(jié)果才具有推廣性和臨床適用性;對照組最好納入與所研究疾病臨床上相類似、易混淆的其他疾病患者,以利于評價診斷試驗的鑒別能力。在結(jié)核病診斷準確性研究中,研究對象一般來自于某時間段內(nèi)門診或病房的連續(xù)性患者,病例組一般是按照國家標準判斷,對照組也必須明確不符合此標準,否則會導致對照組的錯誤分類。
5.同步盲法判定結(jié)果:待評價診斷試驗判斷結(jié)果時應采用盲法,即在不知道金標準診斷結(jié)果的情況下觀察試驗結(jié)果,從而避免過高或過低估計診斷試驗效果,以保證比較結(jié)果的真實性。但在結(jié)核病診斷準確性研究中,很少有研究提及使用盲法。此外,待評價試驗與金標準判斷是否是同時期進行?或兩種方法檢測的時間跨度足夠短,以避免患者的條件在兩種方法檢測期間發(fā)生改變[3],相關原始研究也均未說明。但對于前瞻性的隨訪研究來說,有可能存在時間差,則會對其敏感度和特異度的判斷產(chǎn)生影響,尤其是對于隨著時間推移,某些生化指標會發(fā)生改變者。
6.數(shù)據(jù)整理:待評價診斷試驗與金標準判斷結(jié)果可以整理成四格表形式(表1),表中數(shù)據(jù)分別為真陽性(a)、假陽性(b)、假陰性(c)和真陰性(d)。真陽性表示用金標準方法確診患某病而用待評價診斷試驗亦判定為陽性;假陽性是指用金標準方法確診未患某病而用待評價試驗卻判定為陽性;假陰性指用金標準方法確診患某病而用待評價試驗卻判定為陰性;真陰性是指用金標準方法確診未患某病而用待評價試驗也判定為陰性。
表1 待評價診斷試驗與金標準診斷結(jié)果的關系
基于上述表1,可以通過計算一系列評價指標或方法來評價其診斷效果。
1.敏感度:該指標用于評價診斷試驗發(fā)現(xiàn)患者能力,即實際患病且被該診斷試驗正確地判為陽性的概率,敏感度=[a/(a+c)]×100%,理想的診斷試驗敏感度應該為100%。假陰性率(漏診率)是實際患病但被診斷試驗判斷為陰性的概率,假陰性率=[c/(a+c)]×100%。
2.特異度:該指標是甄別出非患者的能力,即實際未患病且被該診斷試驗正確地判為陰性的概率,特異度=[d/(b+d)]×100%,理想的診斷試驗特異度應為100%。假陽性率(誤診率)為實際未患病但被待評價診斷試驗確定為陽性的概率,假陽性率=[b/(b+d)]×100%。
3.似然比:該指標是病例組中出現(xiàn)某種檢測結(jié)果的概率與對照組中出現(xiàn)相應結(jié)果的概率之比,說明患者中出現(xiàn)該結(jié)果的機會是非患者的多少倍。該指標是一個綜合了敏感度和特異度特征的相對穩(wěn)定指標。陽性似然比是患者中該診斷試驗出現(xiàn)陽性結(jié)果的機會是非患者的多少倍,陽性似然比=真陽性率/假陽性率=[a/(a+c)]/[b/(b+d)],比值越大說明該診斷試驗的診斷價值越高。陰性似然比是患者中該診斷試驗出現(xiàn)陰性結(jié)果的機會是非患者的多少倍,陰性似然比=假陰性率/真陰性率=[c/(a+c)]/[d/(b+d)],該比值越小,說明該診斷試驗的診斷價值越高。
4.符合率:又稱一致率,即研究對象被金標準和待評價試驗均判斷為陽性或陰性的人數(shù)之和占所有研究對象的比率,符合率=[(a+d)/N]×100%。符合率越高,說明待評價方法判斷結(jié)果與金標準越一致。
5.ROC曲線:即受試者工作特征曲線,該曲線是用真陽性率和假陽性率作圖得出的曲線,即橫軸表示假陽性率(1-特異度),縱軸表示真陽性率(敏感度),曲線上的任意一點代表某待評價試驗特定界值對應的敏感度和特異度。ROC曲線是一種全面、準確評價診斷試驗效果的方法,一方面對于存在多個臨界值時診斷試驗可以決定最佳臨界點,另一方面還可以比較兩種或多種診斷試驗的診斷價值,即通過計算ROC曲線下的面積來進行比較,面積越大,診斷的真實度越高。
1.待評價試驗診斷不清者的處理:無論采用何種研究設計,待評價試驗都需要對金標準判斷的研究對象進行檢驗或判斷,其結(jié)果是否都能明確判斷為陽性或陰性。對于判斷不清的研究對象,應該明確說明。孫琳等[11]在評價γ干擾素釋放試驗用于活動性結(jié)核病患兒診斷中時,則明確排除了研究過程中不確定結(jié)果的研究對象。如果存在判斷不清的結(jié)果,則原先的2×2四格表就需要變成2×3表格,在待評價試驗診斷結(jié)果里增加一行,即被金標準判斷為患病和未患病者,但待評價診斷試驗結(jié)果為無法判斷,此時敏感度和特異度的計算時就需要把這部分人加入到分母之中[3]。
2.指標的選擇與計算:常規(guī)診斷試驗準確性研究一般都采用敏感度、特異度等指標,但需要注意的是,只有當研究對象經(jīng)過金標準判斷后,方可使用敏感度和特異度來反映其發(fā)現(xiàn)患者和排除非患者的能力。反之,如果以其他方法為參照時,計算待評價方法的敏感度和特異度則不合適。在報告每個評價指標時,除了報告點估計外,還需要報告其95%可信區(qū)間(95%CI)[3]。此外,Cochrane組織還建議對于似然比或診斷比值比可以不報告,因為這些指標對于后續(xù)診斷決策并沒有明顯的提高,而且這些指標還會隨著人群患病率不同而發(fā)生變化。
3.不同方法之間的比較:在結(jié)核病診斷準確性研究中,常涉及到不同方法診斷價值的比較,研究者常片面地采用χ2檢驗就某一個指標(敏感度或特異度)進行比較[12-13]。雖然敏感度和特異度是從不同側(cè)面反映診斷效果的指標,但任何診斷方法的評價都需要兼顧到敏感度和特異度。因此,不同方法之間比較時,采用單一指標來評價不合適,可以采用ROC曲線法比較不同方法的ROC曲線下面積,這樣更能全面反映不同方法的診斷效果差異。當然,如果僅對于兩種或多種方法進行粗略比較,采用符合率(一致率)或kappa值比較合適。
4.亞組分析:由于不同特征人群的患病率存在差異,相同的診斷試驗在不同的亞組間進行評價時效果往往不同。因此,就可以選擇特定人群開展診斷評價,從而提高其診斷效果。如結(jié)核感染T細胞斑點試驗在肺外結(jié)核診斷價值研究中,作者將最終確診肺外結(jié)核患者分為初治組和復治組,結(jié)果提示結(jié)核感染T細胞斑點試驗在復治肺外結(jié)核組的敏感度要高于初治肺外結(jié)核組[14]。
5.規(guī)范報告:2015年版的報告規(guī)范STARD主要用于規(guī)范診斷試驗的報告,提高報告的準確性和完整性。該規(guī)范主要包括報告清單、常見術語和研究流程圖,其中報告清單涉及到標題、摘要、引言、方法、結(jié)果、討論和其他信息等7個部分,包括30個條目和34個子條目[15]。通過文獻中的流程圖可以直觀地評估研究對象對目標人群的代表性及研究中可能存在的偏倚。因此,研究者需要對未納入對象提供明確的排除理由,以及待評價診斷方法不確定的結(jié)果。上述γ干擾素釋放試驗在活動性結(jié)核病患兒中診斷價值研究中,作者詳細展示了研究對象納入與排除流程[11]。
結(jié)核病的診斷除結(jié)合患者的臨床癥狀和病史資料外,還需要借助于細菌學、影像學、分子生物學、免疫學、內(nèi)鏡介入等多種檢驗、檢查方法或技術,這也使得基于日常工作進行結(jié)核病診斷準確性研究成為可能。因此,目前絕大多數(shù)原始研究基本上都是針對已有的病例資料開展回顧性分析,相對省時省力;但在研究過程中,如果能采用嚴謹?shù)难芯吭O計、正確的統(tǒng)計方法和分析指標、規(guī)范地報告研究結(jié)果,同樣可以產(chǎn)生高質(zhì)量的研究報告。