安易,陳紅,周彥吉,劉魯平,陳千吉,雷園,孫艷艷,王錫友,劉長信,張洋,于長禾*
退行性腰椎管狹窄癥(degenerative lumbar spinal stenosis,DLSS)是一種退行性疾病,以腿痛、腰痛,伴有神經(jīng)源性間歇性跛行等癥狀為主要表現(xiàn)[1]。在美國,現(xiàn)存DLSS患者有20多萬人,是導(dǎo)致疼痛和殘障的主要原因之一,也是>65歲患者進行脊柱手術(shù)的最主要病因[2]。關(guān)于退行性腰椎疾病的研究顯示,全球每年有1.02億人(1.4%)被診斷為椎管狹窄[3]。Framingham研究表明,有19%~47%的60歲以上美國人有椎管狹窄的影像學(xué)證據(jù)[1,4-5],DLSS的患病率將隨著老齡化的加劇和醫(yī)學(xué)檢驗技術(shù)的進步而進一步升高。
指南在醫(yī)療診治過程中發(fā)揮著積極而不可或缺的作用[6-7],然而,只有方法學(xué)設(shè)計和報告規(guī)范符合要求的指南才能為醫(yī)療工作提供更符合醫(yī)患雙方利益的決策依據(jù)[8],才可有效指導(dǎo)和規(guī)范醫(yī)生的診療行為,提高患者就診體驗,降低國家的醫(yī)療負擔[9],才能凸顯指南評價的意義。目前使用率和認可度最高的指南方法學(xué)質(zhì)量評價工具為AGREEⅡ(appraisal of guidelines research and evaluation Ⅱ),最通用的報告標準為RIGHT(reporting items for practice guidelines in healthcare)。AGREE 自2003年首次發(fā)布后即廣泛用于指南方法學(xué)質(zhì)量評價中,并于2008年更新為AGREEⅡ[10]。我國發(fā)布的指南報告質(zhì)量還不盡如人意[11],指南制訂者對報告規(guī)范關(guān)注度也不夠。2016年RIGHT標準發(fā)布并得以應(yīng)用后[12],在提升了指南質(zhì)量的前提下還提高了指南在適用人群中的應(yīng)用度和傳播速度[7]。一部好的指南不僅要在制訂過程中嚴格遵守方法學(xué)標準[13],還應(yīng)該在報告時盡量以透明公開的方式保證指南的透明度和完整性[7,14]。本研究采用AGREEⅡ和RIGHT工具評價DLSS相關(guān)指南的方法學(xué)質(zhì)量和報告質(zhì)量,以期在提高指南質(zhì)量、規(guī)范報告標準方面為指南制訂人員提供參考。
1.1 檢索策略 計算機檢索中國生物醫(yī)學(xué)文獻數(shù)據(jù)庫(CBM)、中國知網(wǎng)(CNKI)、萬方數(shù)據(jù)知識服務(wù)平 臺(Wanfang Data)、 維 普 網(wǎng)(VIP)、PubMed,補充檢索醫(yī)脈通數(shù)據(jù)庫(Medlive)、世界衛(wèi)生組織(WHO)、英國國家臨床優(yōu)化研究所(NICE)、國際指南協(xié)作網(wǎng)(GIN)、美國國立指南文庫(NGC)和蘇格蘭院際間協(xié)作網(wǎng)(SIGN)等指南庫,檢索時限均為2010-01-01至2022-01-01。中文檢索詞為腰椎管狹窄、椎管狹窄、脊柱退行性病變、間歇性跛行、神經(jīng)源性跛行和指南、共識、規(guī)范等;英文檢索詞為lumbar spinal stenosis、spinal stenosis、Spinal Osteophytosis、neurogenic claudication、guideline、consensus、clinical practice guideline等。
1.2 納入與排除標準 納入標準:(1)研究類型為臨床實踐指南、共識或規(guī)范;(2)研究對象為DLSS患者;(3)更新或重復(fù)發(fā)表的文獻,僅納入最新版指南文獻。排除標準:(1)指南解讀或指南譯本;(2)指南制訂計劃書、草案、試行版、摘要和會議紀要;(3)非中、英文文獻;(4)無方法學(xué)支撐的文獻。
1.3 文獻篩選整理 由兩位研究者獨立完成文獻篩選并交叉核對;如遇分歧,則與第三位研究者協(xié)商定奪;如遇資料不全或缺失,則盡量與通信作者聯(lián)系進行補充收集。基于本研究采用的評價工具設(shè)計資料提取表,提取內(nèi)容主要包括:發(fā)表(或更新)年份、發(fā)表國家、研究對象、指南所用證據(jù)質(zhì)量及推薦等級分級方法、透明度相關(guān)問題等。
1.4 質(zhì)量評估 本研究分別采用AGREEⅡ和RIGHT工具對納入的文獻進行方法學(xué)質(zhì)量評價及報告質(zhì)量評價。AGREEⅡ包含6個評分領(lǐng)域共23條評分項,每條評分項的最低分為1分,最高分為7分。納入文獻各領(lǐng)域最終得分(標化為百分比)的計算公式如下:各領(lǐng)域得分=(實際分-最低可能得分)/(最高可能得分-最低可能得分)。計算納入文獻的各領(lǐng)域得分總和,計算出實際總得分/總最高可能得分×100%用以比較整篇文獻的方法學(xué)質(zhì)量。
RIGHT評價工具包含7個評分領(lǐng)域共22個條目。每個條目以“完全報告(Y)”“部分報告(P)”“未報告(N)”及“不適用(I)”進行定性賦分:“Y”表示該條目所要求信息均在文獻中進行表達;“P”表示只有部分所要求的信息得以表述;“N”表示在文獻中無法找到相關(guān)信息的情況;“I”表示指南不符合某條目評價要求,不能用“Y”“P”或“N”進行定性。此外,在包含多個內(nèi)容的條目中,未表達出所有要求的信息,便將其評價為“P”。匯總各領(lǐng)域“報告”的頻率和百分比,并將“Y”計為2分,“P”計為1分,“N”和“I”計為0分,以實際總得分/總最高可能得分×100%來衡量其總報告率。
1.5 推薦強度分級情況 因目前指南或共識存在推薦強度分級不規(guī)范、不統(tǒng)一的情況[15],為使推薦意見之間可以橫向比較,由兩位研究者分別按照文件中干預(yù)類推薦意見的文字描述結(jié)合文章所使用的推薦等級標準將推薦等級劃分為強推薦、弱推薦、不確定及不推薦4種。對于強推薦及不推薦這類明確意見,根據(jù)推薦等級字面表達進行劃分;而弱推薦及不確定的等級劃分,則需要結(jié)合文章中對推薦意見的具體描述。對有證據(jù)支持的利大于弊,但又達不到強推薦意見證據(jù)充足程度,劃分為弱推薦;指南中表示當前證據(jù)不足以對某項干預(yù)措施進行推薦,或利弊平衡無法確定的推薦意見等級劃分為不確定[16]。如過程中出現(xiàn)分歧,交由第三位研究者進行評判。
1.6 質(zhì)量控制 組內(nèi)相關(guān)系數(shù)(interclass correlation coefficient,ICC)是衡量觀察者信度和復(fù)測信度的指標之一。本研究使用ICC對AGREEⅡ評價結(jié)果進行信度檢驗。RIGHT報告質(zhì)量評價時,如果兩位評價者遇到分歧,交由第三位研究者進行評判。
1.7 統(tǒng)計學(xué)方法 采用Excel 2019及SPSS 26.0進行數(shù)據(jù)統(tǒng)計以及對兩名評價者評分結(jié)果進行一致性檢驗;ICC>0.80說明評價者評價結(jié)果之間的一致性較好。
2.1 文獻檢索結(jié)果 共檢索1 402篇文獻,經(jīng)文獻管理軟件NoteExpress 3.2查重后剩余1 282篇,通過閱讀標題和摘要篩選剩余22篇,閱讀全文后納入6篇[17-22]。文獻篩選流程見圖1。
圖1 文獻篩選流程圖Figure 1 Flowchart of literature screening
2.2 納入文獻的基本特征 納入的6篇中,4篇為指南[17-20],2 篇為共識[21-22];1 篇為中醫(yī)指南[17],5篇[18-22]為現(xiàn)代醫(yī)學(xué)指南;納入的4篇指南中,3篇為循證指南[18-20];在指南的內(nèi)容上,3篇[17,19-20]內(nèi)容為診斷與治療類指南,1篇[18]僅涉及治療內(nèi)容;納入的2篇共識分別為診斷類共識[21]和診療類共識[22];6篇文獻中,3篇[18-20]使用GRADE作為評價證據(jù)等級方法,1篇[22]使用美國預(yù)防服務(wù)工作組(U.S. Preventive Services Task Force,USPSTF)提供的推薦等級,還有2篇[17,21]未說明使用何種推薦等級。納入文獻的基礎(chǔ)信息見表1。
表1 納入文獻的基本信息表Table 1 Basic information sheet for included literature
2.3 納入文獻的質(zhì)量評價
2.3.1 AGREEⅡ評價結(jié)果 經(jīng)過一致性檢驗,其結(jié)果一致性較高,各領(lǐng)域ICC均>0.92。AGREEⅡ結(jié)果顯示,納入文獻的方法學(xué)質(zhì)量評價得分偏低。所納入的6篇文獻的實際總得分/實際最高得分的比值從高到低依次為78.2%、53.6%、45.7%、37.7%、28.2% 及 15.0%。 在AGREEⅡ各個領(lǐng)域中,納入的指南之間差距較大,平均得分中只有范圍和目的、表達明晰性兩個領(lǐng)域超過了50.0%(52.783%、65.800%),參與人員、制訂嚴謹性、應(yīng)用性和編輯獨立性四個領(lǐng)域平均得分均低于50.0%,其中應(yīng)用性領(lǐng)域得分平均值最低,僅有31.233%,北美脊柱協(xié)會(NASS)指南和加拿大骨關(guān)節(jié)協(xié)會發(fā)表的指南中各領(lǐng)域得分均在納入文獻中處于較高,后者最低領(lǐng)域得分也有66.7%。AGREEⅡ各領(lǐng)域平均評分結(jié)果見表2。
表2 AGREEⅡ各領(lǐng)域評分結(jié)果(%)Table 2 AGREE Ⅱ domain scores for included literature
2.3.2 RIGHT評價結(jié)果 因多條RIGHT條目不適用納入的2篇共識,故在做報告質(zhì)量評級時僅對4篇指南進行評級。根據(jù)RIGHT評價結(jié)果,當前關(guān)于DLSS的最新指南,整體報告質(zhì)量并不高。進行RIGHT評價的4篇指南總報告率從高到低依次為72.9%、72.9%、62.9%及34.3%。中醫(yī)學(xué)為基礎(chǔ)的指南得分最低。在RIGHT的7個領(lǐng)域中,最符合RIGHT報告規(guī)范的是其他方面(可及性、對未來研究的建議和指南的局限性),平均得分為79.125%;在指南證據(jù)的報告規(guī)范上,雖然納入的非循證指南[17]得分只有10.0%,但其余3篇指南[18-20]100.0%按照RIGHT的報告規(guī)范進行了報道,平均分也有77.5%;在基本信息和背景的報告規(guī)范上平均得分均在60.0%以上,分別為73.225%和66.050%;但在評審和質(zhì)量保證、推薦意見、資金資助與利益聲明與管理三個領(lǐng)域,得分最低分別為50.000%,44.650%和28.125%。RIGHT不同領(lǐng)域得分匯總及平均分情況見表3,具體報告結(jié)果見表4。
表3 RIGHT各領(lǐng)域得分匯總表(%)Table 3 RIGHT domain scores for included guidelines
表4 RIGHT不同領(lǐng)域報告結(jié)果Table 4 Domain-based reporting quality assessment of included guidelines using the RIGHT
2.4 DLSS相關(guān)指南臨床問題及推薦意見內(nèi)容分析 納入的6篇文獻中,有5篇[17-20,22]進行了臨床問題、推薦意見或共識結(jié)果的提出,1篇共識[21]用國際德爾菲法對7個關(guān)于DLSS的具體問題進行了共識。共有46條治療類和11個非治療類的推薦意見或共識提出。
世界中醫(yī)藥學(xué)會聯(lián)合會(世中聯(lián))指南共提出了8條中醫(yī)治療類推薦意見,包括內(nèi)服中藥、中醫(yī)外治法及功法鍛煉。丹麥國家臨床指南提出了10個治療相關(guān)的臨床問題及相應(yīng)推薦意見,其中7個臨床問題與保守療法有關(guān),3個臨床問題基于手術(shù)療法展開討論推薦。NASS指南提出了16個臨床問題及相應(yīng)的推薦意見,其中6個問題圍繞DLSS的定義、病程、診斷及評價DLSS干預(yù)的臨床結(jié)局指標展開,還有10個臨床治療類問題,有關(guān)保守治療和手術(shù)治療的臨床問題數(shù)量比例為7∶3。加拿大骨關(guān)節(jié)協(xié)會的指南中提出了12個關(guān)于DLSS間歇性跛行的非手術(shù)治療類臨床問題及推薦意見。美國西弗吉尼亞州介入?yún)f(xié)會發(fā)表的共識中有11項共識,5項關(guān)于DLSS概念、診斷,4項關(guān)于手術(shù)治療,2項關(guān)于非手術(shù)治療。具體療法的推薦意見見表5。
表5 各推薦療法意見等級Table 5 Grade of each recommended therapy in five included studies
3.1 DLSS指南或共識基本情況 DLSS的嚴重程度與臨床表現(xiàn)之間的相關(guān)性很差,在指南和共識[19,22]中也有提出,但是神經(jīng)源性間歇性跛行卻是DLSS的特征性臨床表現(xiàn)。納入的文獻中加拿大骨關(guān)節(jié)協(xié)會指南圍繞解決神經(jīng)源性間歇性跛行這一主要困擾DLSS患者的癥狀為臨床問題,其余納入文獻針對DLSS展開,提供診斷、影像學(xué)、治療以及干預(yù)結(jié)局指標評定等方面的意見推薦。根據(jù)基于AGREEⅡ和RIGHT的質(zhì)量和報告規(guī)范結(jié)果,納入的文章中,指南的質(zhì)量和報告規(guī)范遠高于共識,基于循證制訂的3篇指南的質(zhì)量遠高于非循證指南;基于現(xiàn)代醫(yī)學(xué)的指南比中醫(yī)類指南的質(zhì)量和報告規(guī)范要高。
由此可見,想要讓我國廣大醫(yī)療工作者閱讀指南后有更好的臨床決策輸出,亟需高水平、高標準的循證指南提出,特別是中醫(yī)類指南。
3.2 DLSS相關(guān)指南或共識的質(zhì)量分析 2019年我國發(fā)表的指南在AGREEⅡ和RIGHT評價方法學(xué)質(zhì)量和報告質(zhì)量相較于2014—2018年有了5%以上的提高[11],但我國指南與國際指南仍存在較大差距,指南評價的發(fā)展也推動著指南制訂者對指南質(zhì)量和報告規(guī)范的嚴格把控,促進著我國醫(yī)療指南制訂的發(fā)展[11,23]。本研究采用AGREEⅡ評價指南和共識的質(zhì)量,AGREEⅡ評價工具推斷指南共識的制訂方法和內(nèi)容是否可靠,制訂過程是否符合標準要求,推薦意見是否基于當前最佳證據(jù)總結(jié)得出、在臨床推廣必要與否[24]。
經(jīng)AGREEⅡ評價后的結(jié)果顯示,納入的6篇文獻中,基于循證的3篇指南在總分及各個領(lǐng)域中的得分較高,在范圍和內(nèi)容、制作嚴謹性和表達明晰性三個領(lǐng)域中均比其余3篇文獻得分高。通過AGREEⅡ條目設(shè)定及評定情況,可見循證制訂臨床實踐指南是當前的趨勢[25],美國醫(yī)學(xué)研究所(Institute of Medicine,IOM)2011年更新的臨床指南定義——基于系統(tǒng)綜述生成的證據(jù)對各種備選方案進行利弊評價和權(quán)衡之后提出的最佳推薦意見,可以看出指南應(yīng)該是基于循證證據(jù)為基礎(chǔ)而制訂的[26]。且循證指南在制訂過程中有嚴格且合理的評估程序,比傳統(tǒng)的專家指南更為科學(xué)和系統(tǒng)[27]。在參與人員、應(yīng)用性和編輯獨立性這三個領(lǐng)域,所納入的文獻評分較低,均不足40.0%,說明在指南描述制訂人員的專業(yè),制定過程中所做貢獻,選擇臨床問題時的意愿收集,指南適用人群,指南應(yīng)用和推廣中的影響因素,贊助資金來源、使用情況及利益沖突等方面還距國際公認的指南質(zhì)量評價方法——AGREEⅡ量表中的相關(guān)要求有一定差距。在參與人員領(lǐng)域,是否參考了群眾及目標群體的意見和意愿條目中,只有世界中醫(yī)藥學(xué)會聯(lián)合會發(fā)布的指南中在制訂推薦意見時考慮了患者意愿,可能礙于指南版面與字數(shù)要求,但不考慮指南主要目標人群——患者的意愿,確有悖于循證醫(yī)學(xué)做尋求的三個立足點之一。大多的指南制訂團隊,對于指南面向適用人群后的推廣及應(yīng)用提及均甚少,在是否更新,何時更新等內(nèi)容上,只有質(zhì)量較好的2篇指南[19-20]中有提及。
就DLSS相關(guān)的指南或共識質(zhì)量而言還可以進一步提升,以期為臨床決策更好的服務(wù)。
3.3 DLSS相關(guān)指南和共識的報告規(guī)范分析 本研究基于RIGHT對納入的文獻進行報告規(guī)范方面的評級,作為國際上應(yīng)用最多的指南報告規(guī)范標準,RIGHT條目不適用所納入的大部分共識,且共識用大量篇幅講述專家達成共識的過程,為了減少對其他納入文獻的影響,故只對4篇指南進行了RIGHT評價評分的匯總和分析。
RIGHT由基本信息、背景、推薦意見、證據(jù)、評審和質(zhì)量保證、資金資助與利益沖突聲明和管理及其他方面7個領(lǐng)域組成[12]。本研究經(jīng)RIGHT評價后的4篇文獻中有3篇指南總報告率超過了60.0%,世界中醫(yī)藥學(xué)會聯(lián)合會發(fā)布的指南最終評級的比值最低只有34.3%。具體到各領(lǐng)域,資金資助與利益和推薦意見兩個領(lǐng)域的評價最不理想,得分只有28.125%和44.650%。在資金資助與利益這一領(lǐng)域中,根據(jù)RIGHT具體要求,指南制訂過程的各個階段的資金來源均應(yīng)在文中有透明公開表達[12],而所評指南對贊助資金的來源和使用雖有提及,但也只是用簡單的語句描述指南制訂的資助方,并沒細化到具體制訂階段以及描述如何使用。在推薦意見領(lǐng)域,納入的指南在意見形成原理及解釋說明這一個條目中失分最多,評價標準要求不僅在意見推出的過程中要參考指南使用人群和目標人群的意愿,還需進一步考慮成本、資源利用、公平性、可行性及可接受度等因素的影響??梢?,當前DLSS相關(guān)指南的報告規(guī)范據(jù)國際實踐指南報告標準有很大差距,主要表現(xiàn)在RIGHT要求的分條目的描述上??赡茉u價結(jié)果不理想的指南因為篇幅較少,限制了一些信息的表達,但納入指南中得分最高也只有72.9%,也說明了指南制訂人員在指南制訂過程中還需對報告規(guī)范有進一步提高。
3.4 DLSS相關(guān)指南和共識推薦意見分析 納入且給出推薦意見的5篇文獻中提出57條推薦意見,其中11條推薦意見關(guān)于DLSS的定義、診斷標準及療效評價等內(nèi)容,46條推薦意見關(guān)于干預(yù)方法。3篇循證指南[18-20]基于系統(tǒng)評級或者Meta分析給出推薦意見,并用GRADE評價證據(jù)等級,給出證據(jù)質(zhì)量及推薦強度等級方法。
5篇文獻給出了36個保守干預(yù)意見,證據(jù)數(shù)量最多的外治法是NASS指南和西弗吉尼亞州介入?yún)f(xié)會共識中提到的硬脊膜外類固醇注射,推薦等級為中推薦,且NASS還將時間限定在發(fā)病之初的24個月內(nèi),隨著病程遷延對于此項治療的推薦等級也在下降,在病程超過36個月之后降為不確定。只有中醫(yī)指南給出了針灸及手法治療具體的處方,其余提及的指南或共識以弱推薦[20]或不確定[19]呈現(xiàn),其中加拿大骨關(guān)節(jié)協(xié)會的指南限定針灸只在發(fā)病初期使用并將手法治療歸屬于康復(fù)治療。2篇指南[17,20]為功能鍛煉給出了弱推薦;1篇指南[19]不確定;丹麥國家臨床指南關(guān)于功能鍛煉作為干預(yù)手段給出了“傾向”的描述,又補充鍛煉活動有利于神經(jīng)源性疼痛治療的證據(jù)支持不足,但對于術(shù)后鍛煉給予了弱推薦。藥物干預(yù)方面,中醫(yī)指南對內(nèi)服中藥給予弱推薦;西醫(yī)藥物中,除NASS指南給營養(yǎng)神經(jīng)藥物不確定是否推薦和丹麥國家臨床指南在疾病初期以弱推薦的等級推薦神經(jīng)源性疼痛止疼藥以外,其他文獻均明確不推薦任何西醫(yī)內(nèi)服藥物。
關(guān)于手術(shù)干預(yù),丹麥國家臨床指南對保守治療效果不佳的患者,外科椎板減壓術(shù)及椎體融合術(shù)給予弱推薦;NASS指南對中重度患者的手術(shù)治療同樣給出弱推薦。而西弗吉尼亞州介入?yún)f(xié)會共識用USPSTF給出的標準對經(jīng)皮影像引導(dǎo)腰椎減壓術(shù)強推薦。
DLSS較長的病程使得保守治療不能立竿見影,對比指南發(fā)現(xiàn),手術(shù)治療可以迅速緩解癥狀,得到的推薦等級也較高,但神經(jīng)損傷等并發(fā)癥或復(fù)發(fā)率高,再手術(shù)率高,且價格貴、接受度低,故治療策略又回到以保守治療為先。NASS指南也提出非手術(shù)治療也可以作為DLSS治療的第一策略,所以以手術(shù)治療作為保底方案,以保守治療作為第一策略是符合患者意愿和當前最佳證據(jù)的治療方案。而目前指南中對保守治療的重視程度還有待提高,希望指南制訂者增加保守治療方案或組合從證據(jù)到推薦意見各個步驟的探討,使指南的使用人群為患者做出最有利的臨床決策。
綜上,DLSS相關(guān)指南和共識方法學(xué)質(zhì)量和報告規(guī)范還有待進一步提升,對于中重度腰椎管狹窄癥患者指南給出的推薦意見傾向于手術(shù)治療,在指南數(shù)量上,國內(nèi)DLSS的指南較少。希望指南制訂過程中,制訂者嚴格按照AGREEⅡ和RIGHT的要求,制訂出質(zhì)量更高為臨床醫(yī)生和患者更好服務(wù)的循證指南。
作者貢獻:陳紅、王錫友、劉長信、張洋、于長禾提出研究思路,設(shè)計研究方案;安易、劉魯平、雷園、孫艷艷負責數(shù)據(jù)收集、采集、清洗和統(tǒng)計學(xué)分析、繪制圖表等;安易、周彥吉、陳千吉負責論文起草、撰寫及修改;安易、于長禾負責最終版本修訂,對論文負責。
本文無利益沖突。