韓宏志,官 鑫,陳思含,姜瑾秋,李欣欣
(吉林大學(xué)學(xué)報(醫(yī)學(xué)版)編輯部,吉林 長春 130021)
診斷試驗是生物醫(yī)學(xué)研究中較為常用且較為復(fù)雜的研究方法。在金標準的選擇、樣本含量估算、最佳診斷界值的選擇、診斷試驗的真實性評價(靈敏度、特異度、總符合率、約登指數(shù)和似然比)、診斷試驗的可靠性評價(一致性評價、組間變異系數(shù)、Bland-Altman圖和Kappa系數(shù))和診斷試驗實用性評價(陽性預(yù)測值、陰性預(yù)測值和經(jīng)濟性評價)等知識點具有很強的專業(yè)性,通常研究者很難在短時間內(nèi)熟練正確掌握,導(dǎo)致已發(fā)表的診斷試驗研究論文總體質(zhì)量不高。目前,研究者參考英文醫(yī)學(xué)期刊普遍使用的《診斷試驗研究報告標準》(Standards for Reporting Diagnostic Accuracy Studies,STARD)、中華醫(yī)學(xué)會系列雜志診斷準確性研究建議使用的《STARD 2015對照檢查清單》和中國高??萍计诳芯繒t(yī)學(xué)期刊專業(yè)委員會推薦使用的《中國高校醫(yī)學(xué)期刊論文統(tǒng)計報告推薦清單(2021版)》對該類研究進行規(guī)范,但由于這幾種清單條目多,內(nèi)容細,專業(yè)性較強,對于不具備統(tǒng)計學(xué)基礎(chǔ)的研究者而言,熟練掌握并正確應(yīng)用較困難,醫(yī)學(xué)期刊編輯處理該種類型稿件也較為吃力,因此現(xiàn)已正式發(fā)表的該類文章仍存在諸多問題。現(xiàn)就醫(yī)學(xué)編輯在日常審稿過程常見的幾種診斷試驗應(yīng)用錯誤進行辨析,旨在提高醫(yī)學(xué)期刊中診斷試驗研究試驗設(shè)計、統(tǒng)計學(xué)分析和結(jié)果報告的科學(xué)性、準確性和規(guī)范性。
某項研究[1]探討血清淀粉樣蛋白 A (Serum amyloid A protein,SAA)、白細胞介素 6(Interleukin-6,IL-6)和腫瘤壞死因子 α(Tumor necrosis factor-α,TNF-α)水平檢測對特發(fā)性間質(zhì)性肺炎(idiopathic interstitial pneumonia,IIP)的診斷價值,研究者選取124例IIP患者作為IIP組,選取同期該院 130名健康體檢者作為對照組進行診斷試驗,這是一種不規(guī)范的對照組選取,采用上述3種實驗室指標診斷IIP的類似研究已有相關(guān)文獻報道,因此該研究不屬于診斷試驗準確性評價的早期探索階段,不宜選用正常人(健康志愿者)作為對照組,病例組也不能僅選取典型病例,也應(yīng)選取不同嚴重程度(輕、中和重)、不同病程階段(早、中和晚)、不同癥狀和體征(典型和不典型)及有無并發(fā)癥的患者;另外健康體檢者與IIP患者在臨床癥狀和體征上存在很大區(qū)別,不需要應(yīng)用實驗室指標進行鑒別診斷。診斷試驗研究對象選取時對照組應(yīng)選擇那種在癥狀和體征上與疾病組高度相似,在臨床工作中極易與待診斷疾病混淆的人群,以考核待診斷試驗的適用范圍和鑒別診斷能力。選取健康體檢者作為對照組所進行的診斷試驗,會過高評估待診斷試驗的診斷效率。醫(yī)學(xué)期刊編輯在處理該種類型稿件時,應(yīng)注意診斷試驗研究對象選取的合理性和代表性,把好研究對象選取質(zhì)量關(guān)。
某項研究[2]探討免疫熒光原位雜交(fluorescence in situ hybridization, FISH)技術(shù)檢測腦脊液中循環(huán)腫瘤細胞對于肺癌腦膜轉(zhuǎn)移的診斷價值,研究者選擇16例肺癌腦轉(zhuǎn)移患者作為病例組,8例腦部非腫瘤疾病患者作為對照組,初步判斷該研究所選用的樣本量過少,可導(dǎo)致診斷指標預(yù)測結(jié)果的不穩(wěn)定,無法滿足統(tǒng)計的準確性和可靠性,進而影響對診斷結(jié)果的評價。診斷試驗樣本含量估算與顯著性水平(α)、預(yù)計該方法診斷患者的靈敏度及靈敏度的容許誤差和預(yù)計該方法診斷非患者的特異度及特異度的容許誤差有關(guān)。診斷試驗應(yīng)在研究設(shè)計階段進行病例組和對照組樣本含量的估算,并給出樣本含量估算的計算公式或軟件名稱(版本號)等相關(guān)信息,其中病例組樣本含量由靈敏度估計,對照組樣本含量由特異度估計,在診斷試驗設(shè)計時要基于靈敏度進行病例組樣本含量估計和基于特異度進行對照組樣本含量估計,之后選取兩者的最大值。因此醫(yī)學(xué)期刊編輯在審稿過程中要注意診斷試驗研究樣本量,對于病例組和對照組樣本含量小于30例的診斷試驗,建議作者重新采用PASS軟件或Power and Sample Size網(wǎng)站進行樣本含量估算,樣本含量相應(yīng)增加后進行重新試驗,以保證診斷試驗的真實性和可靠性。
某研究者[3]應(yīng)用受試者工作特征(receiver operating characteristic,ROC)曲線評價基質(zhì)金屬蛋白酶 9(matrix metalloproteinase-9,MMP-9)對 ST段抬高型心肌梗死(St-segment elevation myocardial infarction,STEMI)的診斷價值,研究者選取某醫(yī)院心臟中心重癥監(jiān)護室55例年滿18周歲初次診斷為STEMI漢族患者作為STEMI組,選取同期于該中心普通病房住院診療年滿18周歲的50例有非典型胸痛表現(xiàn)(冠狀動脈造影提示左右冠狀動脈未見異常)的漢族患者作為對照組,但2組研究對象主要人口學(xué)特征[性別構(gòu)成、年齡分布、吸煙率和體質(zhì)量指數(shù)(body mass index,BMI)]和主要臨床特征[白細胞計數(shù)、單核細胞計數(shù)和血肌酐(serum creatinine,Scr)]等基數(shù)資料比較差異均有統(tǒng)計學(xué)意義(P<0.05或P<0.01),由于研究對象年齡分布和性別構(gòu)成等人口學(xué)特征與疾病嚴重程度或并發(fā)癥發(fā)生情況可能存在相關(guān)關(guān)系而影響診斷試驗的準確性,因此醫(yī)學(xué)期刊編輯應(yīng)正確讀取診斷試驗研究對象的一般人口學(xué)特征和疾病嚴重程度等基線資料,判斷其是否具有可比性。
在某些診斷試驗研究進行了多指標的聯(lián)合診斷評價,但未明確指出聯(lián)合診斷試驗的方法(并聯(lián)試驗或串聯(lián)試驗),并且在結(jié)果中還存在錯誤,如某研究者[4]研究支氣管肺泡灌洗液(bronchoalveolar lavage fluid,BALF)-半乳甘露聚糖(galactomannan,GM)試驗聯(lián)合血清GM侵襲性肺曲霉病(invasive pulmonary aspergillosis,IPA)的診斷價值,其中BALF-GM試驗陽性的靈敏度為84.6%,特異度為62.5%,血清GM試驗陽性的靈敏度為76.5%,特異度為56.5%,而BALF-GM試驗與血清GM試驗均為陽性(串聯(lián)試驗)的靈敏度(95.3%)與特異度(87.0%)均較單獨應(yīng)用時升高,存在計算錯誤。在聯(lián)合試驗中不可能出現(xiàn)靈敏度與特異度同時升高的情況。而另一位研究者[5]采用血清中前列腺特異抗原(prostate specific antigen,PSA)[總PSA(tPSA)和游離PSA(free PSA, fPSA)]、細胞角蛋白19片段抗原21-1(cytokeratin 19 fragment antigen 21-1,CYFRA21-1)單獨和聯(lián)合檢測評價對乳腺癌的診斷價值,文中未敘述聯(lián)合試驗的具體方法,直接得出tPSA+fPSA+CYFRA21-1聯(lián)合檢測的靈敏度和特異度均高于tPSA、fPSA和CYFRA21-1單獨檢測,也是存在計算錯誤。靈敏度和特異度這 2個指標可以綜合反映待評價診斷方法診斷能力的優(yōu)劣。不同的診斷試驗臨界值具有不同的靈敏度和特異度,靈敏度升高,特異度下降;特異度升高,靈敏度下降。在并聯(lián)試驗時,2種診斷方法聯(lián)合診斷的靈敏度高于單獨任一種診斷方法,但聯(lián)合試驗的特異度低于任一種診斷方法;在串聯(lián)試驗時,2種診斷方法聯(lián)合診斷的特異度高于單獨一種診斷方法,但靈敏度低于任意一種診斷方法。因此在聯(lián)合試驗時,不會出現(xiàn)聯(lián)合試驗的診斷靈敏度和特異度均高于任意一種診斷方法的情況。這是一種較為普遍的診斷試驗錯用誤用的形式,應(yīng)引起醫(yī)學(xué)期刊編輯的足夠重視,此類錯誤源于研究者主觀傾向于所研究診斷方法的聯(lián)合試驗應(yīng)優(yōu)于單獨一種和對診斷試驗統(tǒng)計學(xué)基礎(chǔ)知識掌握不準確。
某項研究[6]采用 GEvivid7 pro彩超行經(jīng)胸超聲心動圖(TTE,3S探頭)和經(jīng)食道超聲心動圖(TEE,6T探頭)探討2種檢測方法在感染性心內(nèi)膜換瓣術(shù)前的診斷價值,該研究存在諸多不足之處,主要表現(xiàn)在:①在“1.2”方法中敘述了采用 2種方法檢查,但未敘述是由同一位醫(yī)生還是不同醫(yī)生操作,2種方法是存在先后順序檢查還是遵循盲法,診斷試驗應(yīng)遵循隨機化原則,在該研究中體現(xiàn)在不同醫(yī)生判斷診斷試驗結(jié)果時應(yīng)采用隨機化順序;②在“1.3”統(tǒng)計分析中敘述了采用聯(lián)合檢驗(并聯(lián)和串聯(lián))的計算公式,但結(jié)果部分未進行相關(guān)計算;③在結(jié)果部分給出了2種檢查方法的陽性似然比和陰性似然比,但似然比的數(shù)值為0.5~1.0,表明2種方法對該疾病的診斷價值不大,因此該研究所得出的 2種檢查方法對感染性心內(nèi)膜炎換瓣術(shù)前具有重要的臨床診斷價值的結(jié)論不準確。似然比是評價診斷試驗真實性的重要指標,其不受受檢人群患病率的影響,當似然比大于 1時,表示應(yīng)用該診斷試驗對疾病的診斷概率增加,當似然比小于1時,表明該診斷試驗對疾病的診斷價值??;當似然比為1~2或0.5~1時,表示該種診斷試驗對疾病的診斷作用不大[7]。醫(yī)學(xué)期刊編輯可以基于似然比的數(shù)值判斷作者對診斷試驗結(jié)論的準確性。對于評價2種方法對同一種疾病的診斷價值,建議采用Kappa一致性檢驗。
某研究者[8]應(yīng)用 ROC 曲線評價甲胎蛋白(alpha-fetoprotein,AFP)、α-L-巖藻糖苷酶(α-L-fucosidase,AFU)、CA199和γ谷氨酰轉(zhuǎn)移酶(glutamyltransferase,GGT)單獨或聯(lián)合檢測對原發(fā)性肝癌(primary hepatic carcinoma, PHC)的診斷價值,以AFP、AFU、CA199和GGT正常參考值上限作為診斷PHC的臨界點。醫(yī)學(xué)參考值范圍(reference range)指包括絕大多數(shù)正常人的某指標觀測值的波動范圍[9],當醫(yī)學(xué)參考值范圍建立后要評價是否可以用于醫(yī)學(xué)實踐一般需重新觀測一部分健康者和患者用原觀測方法(金標準)與參考值范圍進行評價[10]。醫(yī)學(xué)參考值范圍的上限和下限不能作為診斷某種疾病的界值。該研究未充分考慮上述 4種診斷標志物在健康人群、疾病人群以及與疾病人群相似人群中的分布情況,也未權(quán)衡誤診和漏診所帶來的影響,因此在試驗設(shè)計上不夠科學(xué)嚴謹。診斷試驗是用于臨床醫(yī)生判斷患者是否患病,需要設(shè)定試驗結(jié)果的正常與異常的界值,也稱為截斷點,以此值為界將研究對象經(jīng)待評價診斷標準的檢測結(jié)果分為陽性與陰性,并且診斷試驗的結(jié)果通常在患者與無病者之間存在重疊和交叉,因此確定截斷點是診斷試驗的關(guān)鍵性步驟。診斷試驗臨界點的確立方法主要包括正態(tài)分布法、百分位數(shù)法、ROC曲線法、最大約登指數(shù)和臨床確定法。醫(yī)學(xué)期刊編輯審理該類型稿件時,應(yīng)建議作者選擇合理的方法確定最佳臨界值。
描述診斷試驗檢出結(jié)果時,靈敏度和特異度必須與相應(yīng)的決策閾值一起給出,在描述AUC結(jié)果時,應(yīng)報道AUC及95%置信區(qū)間(95%CI),AUC與0.5比較差異是否有統(tǒng)計學(xué)意義。某研究[11]探討血清肺腺癌轉(zhuǎn)移相關(guān)轉(zhuǎn)錄因子 1 (metastasis-associated lung adenocarcinoma transcript-1,MALAT-1)聯(lián)合PSA檢測對前列腺癌的診斷價值,該文章在研究設(shè)計與統(tǒng)計學(xué)分析中出現(xiàn)如下錯誤:①在文中未體現(xiàn)出AUC與0.5比較差異是否有統(tǒng)計學(xué)意義;②研究中的聯(lián)合檢驗未說明是并聯(lián)試驗還是串聯(lián)試驗,但在原文的表2中靈敏度介于單獨應(yīng)用MALAT-1或PSA檢驗,而特異度高于單獨應(yīng)用MALAT-1和PSA檢驗,不符合串聯(lián)試驗和并聯(lián)試驗中靈敏度與特異度變化的規(guī)律;③表1(原文中表2)和圖1(原文中圖3A)中及結(jié)果部分均說明聯(lián)合試驗(MALAT-1和PSA檢驗)診斷前列腺癌的AUC(0.865)高于單獨使用MALAT-1(0.759)和PSA(0.800),但圖1A顯示3條ROC曲線存在交叉,因此不能按照曲線離機會對角線最遠判斷哪條曲線AUC最大,SPSS軟件無比較AUC大小的功能,通常應(yīng)用MedCalc軟件進行AUC大小的比較,另外研究者還可以采用 AUC 95%CI進行判斷,MALAT-1+PSA的95%CI(0.782~0.925)包含PSA的AUC值(0.800),因此P>0.05,不能說明MALAT-1+PSA與PSA的診斷能力有差別。
圖1 MALAT-1和PSA診斷前列腺癌的ROC
表1 MALAT-1和PSA對前列腺癌的診斷效能
某研究[12]評估乳腺影像學(xué)報告及數(shù)據(jù)系統(tǒng)(Breast Imaging Reporting and Data System,BI-RADS)診斷標準與超聲彈性成像(ultrasonic elastography, UE)改良5分法判斷乳腺導(dǎo)管內(nèi)腫物良惡性的價值,首先采用常規(guī)超聲發(fā)現(xiàn)病灶,對其進行BI-RADS評分,在此基礎(chǔ)上進入UE模式,獲得實時彈性成像圖像后再進行評分,因這 2種診斷方法均屬于主觀,后一種診斷試驗結(jié)果的判讀受第一種診斷試驗結(jié)果的影響,相當于增加了臨床資料作為確立診斷的臨床依據(jù),未能做到所研究 2種診斷方法的獨立,也未遵循診斷試驗結(jié)果判定過程中的盲法,診斷試驗的觀察者應(yīng)在不知金標準診斷結(jié)果的情況下,應(yīng)用被評價的診斷方法檢查患者或測定患者標本,即盲法判斷試驗結(jié)果,避免觀察者造成的偏倚。該診斷試驗的偏倚屬于評價者臨床解讀偏倚,這種偏倚增加了試驗的靈敏度,降低了試驗的特異度。在診斷試驗研究中,對于較主觀的資料判讀常受到臨床資料,如年齡、性別、癥狀、體征、實驗室和影像資料的影響,提高判斷的準確性,這種情況在臨床實踐過程是可的,但在診斷試驗研究中容易產(chǎn)生偏倚,這種偏倚增加了靈敏度,但對特異度的影響較小。
中國臨床試驗注冊中心規(guī)定所有在人體中和采用取自人體的標本進行的研究,包括各種診斷技術(shù)、試劑、設(shè)備的診斷性試驗,均需進行臨床試驗注冊。在中國臨床試驗注冊中心以診斷試驗為研究類型注冊的試驗有3 400項,占全部注冊項目的5.55% (2022年8月30日)。而現(xiàn)已經(jīng)發(fā)表的診斷試驗文章僅有極少的一部分進行了臨床試驗注冊。多數(shù)國際期刊要求所有前瞻性臨床研究均應(yīng)設(shè)計方案并進行臨床試驗注冊,投稿時要提交方案注冊號,診斷準確性臨床研究類型文章投稿需要從雜志中下載 STARD 報告規(guī)范聲明(http://www.stard-statement.org/)模板并上傳。中華醫(yī)學(xué)會系列雜志要求診斷試驗參照《STARD 2015對照檢查清單》進行報告撰寫,進行臨床試驗注冊,并在投稿時提供診斷試驗研究注冊號和注冊名稱?!吨袊咝at(yī)學(xué)期刊論文統(tǒng)計報告推薦清單(2021版)》對診斷試驗評價方面的研究論文在試驗設(shè)計、質(zhì)量控制和統(tǒng)計學(xué)分析等諸多方面提出了很多建設(shè)性意見,但對于診斷試驗研究是否進行臨床試驗注冊未給予明確規(guī)定。本文作者建議,對于前瞻性的診斷試驗研究,應(yīng)進行臨床試驗注冊,并上傳共享完整研究方案。
診斷試驗屬于醫(yī)學(xué)統(tǒng)計學(xué)中比較復(fù)雜的統(tǒng)計學(xué)方法,醫(yī)學(xué)期刊編輯在處理該種類型稿件時會感覺困難,建議應(yīng)加強該種類型統(tǒng)計學(xué)方法的學(xué)習,掌握診斷試驗的基本原則和應(yīng)用條件,參照現(xiàn)有相關(guān)的診斷試驗聲明進行報告的撰寫,希望本篇文章能為醫(yī)學(xué)編輯處理該類稿件提供幫助和指導(dǎo)。