廖茜雯
北京大學第一醫(yī)院 北京大學臨床研究所
姚晨*
北京大學第一醫(yī)院 北京大學臨床研究所
海南省真實世界數(shù)據(jù)研究院
醫(yī)療器械注冊管理的核心在于嚴格評估臨床證據(jù),以保障患者的安全和醫(yī)療器械治療的有效性。傳統(tǒng)隨機對照試驗(randomized controlled trial,RCT)因其最小化偏倚并建立因果關系的優(yōu)勢,被視為可以產(chǎn)生高質量證據(jù)以評估醫(yī)療干預措施的金標準[1-2]。然而,隨著醫(yī)療器械產(chǎn)業(yè)高速發(fā)展,在醫(yī)療器械上市評估方面,使用RCT 面臨著獨特的挑戰(zhàn)。與藥物臨床試驗相比,醫(yī)療器械臨床試驗通常難以實現(xiàn)同樣的標準化水平。醫(yī)療器械的固有屬性,如復雜性、多樣性、可變性,以及使用者的操作技能等因素,極大限制了傳統(tǒng)RCT 方法的相關性和適用性[3-4]。此外,傳統(tǒng)RCT 通常需要大量的時間和資金投入,可能會在一定程度上阻礙創(chuàng)新醫(yī)療器械的上市及推廣,從而影響患者接受治療的時效性[5]。在倫理方面,醫(yī)療器械RCT中,使用安慰劑或假手術對照有時被認為是不可行或不符合倫理要求的[4-6]。這進一步突出了監(jiān)管部門保持靈活性、接納并認可多樣化臨床證據(jù)的重要性,從而更好地確保臨床證據(jù)科學性與倫理標準之間的平衡。
鑒于傳統(tǒng)RCT 在醫(yī)療器械評估中的局限性,監(jiān)管部門與研究人員正積極探索替代的研究設計和新的證據(jù)來源。過度依賴RCT可能會阻礙技術創(chuàng)新,并延緩患者獲得關鍵醫(yī)療技術的時間。通過采納更加開放靈活的證據(jù)評估方法,整合各種研究設計和數(shù)據(jù)來源,有助于優(yōu)化監(jiān)管決策過程,提升決策的效率和質量。監(jiān)管部門通過充分利用不同研究設計特有的優(yōu)勢,能夠更高效準確地評估醫(yī)療器械的安全性與有效性,從而加速創(chuàng)新技術惠及患者的進程。以美國為例,美國食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)在此過程中發(fā)揮了關鍵作用,積極倡導在產(chǎn)品全生命周期的監(jiān)管決策中,尤其是在醫(yī)療器械領域,充分利用真實世界數(shù)據(jù)(real-world data,RWD)和真實世界證據(jù)(real-world evidence,RWE)[7]。這一點在FDA 發(fā)布的一系列相關指導原則中得到了充分體現(xiàn),強調了RWD 及RWE 從支持上市前批準(premarket approval,PMA)到上市后安全性監(jiān)測決策中的重要作用[8-11]。同時,突出了RWD 及RWE 在補充甚至替代傳統(tǒng)臨床試驗數(shù)據(jù)的潛力,有助于更全面地了解醫(yī)療器械在真實臨床環(huán)境中的性能表現(xiàn)。
本文旨在將醫(yī)療器械監(jiān)管中對傳統(tǒng)RCT 面臨的挑戰(zhàn)進行分析,并倡導對臨床證據(jù)多樣性的廣泛接納。通過對相關監(jiān)管指南的分析,以及醫(yī)療器械臨床試驗設計中所面臨的統(tǒng)計學挑戰(zhàn),本文致力于推動形成更加靈活高效的監(jiān)管環(huán)境,進一步推動醫(yī)療器械創(chuàng)新發(fā)展。
醫(yī)療器械與藥物在特性和研發(fā)路徑方面存在明顯差異,因而導致二者具有不同的臨床評價標準和監(jiān)管要求。藥物通常依靠化學或生物機制發(fā)揮療效,而醫(yī)療器械則主要通過物理作用來實現(xiàn)其預定的治療或診斷目標[4,12]。這一作用機制的根本區(qū)別決定了它們在開發(fā)、評價和監(jiān)管過程中有必要采取不同的路徑。一般而言,醫(yī)療器械可分為治療性和診斷性兩類,包括但不限于植入物、起搏器、檢測試劑盒、超聲設備以及作為醫(yī)療器械的軟件等多種復雜性產(chǎn)品[13]。其中,治療性醫(yī)療器械通常針對人體的特定部位所設計,以在該部位直接產(chǎn)生治療效果。相反,化學藥物則主要通過與人體的相互作用,并經(jīng)過吸收、分布、代謝等過程,在局部或全身范圍內產(chǎn)生治療效果[4,12]。在化學藥物研發(fā)過程中,活性成分始終保持不變。這種一致性與其明確的作用機制使得藥物能夠在用藥劑量、適應癥或給藥方案上進行標準化操作,并在不同人群和臨床階段進行系統(tǒng)性評估[3,14-15]。藥物有效性評價可能會受社會、行為、生理、遺傳等多種因素的影響[16-17]。因此,傳統(tǒng)隨機、雙盲、安慰劑對照試驗被視為確立藥物療效因果關系的金標準[3-4,18-19]。然而,醫(yī)療器械的開發(fā)和評估則需要不斷調整以適應其演變的特性并滿足改進的需求[12,20]。藥物成分的改變可能會對其安全性和有效性產(chǎn)生重大影響,而醫(yī)療器械的微小調整通常不會影響其性能或安全性[3]。因此,醫(yī)療器械的多樣性、演變性及應用特性對其安全性和有效性評估提出了獨特的統(tǒng)計學挑戰(zhàn),需要采用靈活且創(chuàng)新的監(jiān)管策略進行有效應對[12]。
在醫(yī)療器械評價過程中,針對是否需要遵循藥物監(jiān)管標準進行傳統(tǒng)RCT 的討論引發(fā)了廣泛關注,這一討論突出了醫(yī)療器械臨床試驗所面臨的特殊挑戰(zhàn)[18,21-22]。RCT 是一種前瞻性、比較性、定量研究設計,其核心是在受控條件下將受試者隨機分配到不同的干預組進行比較,從而進行科學嚴謹?shù)囊蚬茢郲23]。該定義描述了RCT 進行可靠因果推斷的兩個關鍵要素,即隨機分配與對試驗條件的良好控制[24]。隨機分配有助于平衡已知及未知的干擾因素,保證組間的可比性[1,24]。然而,若將這一方法應用于醫(yī)療器械臨床試驗中,尤其是涉及外科植入物的臨床試驗,則面臨著實際操作和倫理上的挑戰(zhàn)。不同于藥物臨床試驗,醫(yī)療器械臨床試驗通常受產(chǎn)品數(shù)量與復雜性的限制,隨機化分組的可行性大大降低[3-4]??紤]到進行假手術可能帶來的額外風險,采用安慰劑作為對照組往往被認為不符合倫理標準[4,12,25-26]。在涉及陽性對照的醫(yī)療器械臨床試驗中,兩種陽性治療方式可能引發(fā)不同程度的安慰劑效應。因此,所觀察到的治療差異有可能源自于安慰劑效應的差異,而非實際治療效果之間的區(qū)別,這增加了研究設計與結果解釋的復雜性[12]。
在嚴格控制臨床試驗條件方面,術前、術中(涉及手術持續(xù)時間、醫(yī)療器械操作或護理等)、術后的護理標準化操作也同樣充滿挑戰(zhàn)[22]。此外,在藥物臨床試驗中,通常使用盲法以進一步減少偏倚,確保受試者、醫(yī)生或研究人員無法得知具體的治療分配情況[24]。然而,在醫(yī)療器械臨床試驗中,尤其是涉及外科植入物時,實施盲法極為困難,幾乎不可能使執(zhí)行手術的醫(yī)生或研究人員保持盲態(tài)[4,12,27]。醫(yī)療器械臨床試驗與藥物臨床試驗之間的另一個關鍵區(qū)別在于操作者(如外科醫(yī)生)的技術熟練度和學習曲線可能對試驗結果有重要的影響[3-4,20]。因此,在評估過程中不僅需要考慮醫(yī)療器械本身、相關疾病和患者的特性,還必須考慮操作者的技術水平[28-29]。隨著操作者技能的提高,不良事件的發(fā)生率可能降低,從而提高醫(yī)療器械使用的安全性和有效性[3]。綜上所述,醫(yī)療器械臨床試驗的設計和執(zhí)行需要考慮其特有的挑戰(zhàn),包括隨機化、安慰劑對照、盲法實施的困難,以及操作者技能對結果的影響[4,19,30-31]。這些考慮因素共同強調了在醫(yī)療器械評估過程中,采用創(chuàng)新性和靈活性方法的必要性,以保障研究的科學嚴謹性及倫理合規(guī)性。
考慮到藥物和醫(yī)療器械之間的本質差異,美國FDA 對二者的審批路徑和對證據(jù)強度的要求有著明顯區(qū)別(圖1)。
圖1 美國FDA 藥物與醫(yī)療器械審批路徑對比
根據(jù)《美國聯(lián)邦法規(guī)》第21篇“食品與藥品”(21 CFR)有關規(guī)定,美國FDA 要求藥物的審批應通過充分且控制良好的研究,產(chǎn)生有效性的實質性證據(jù),從而將藥物的效果與其他影響因素區(qū)分開來,包括疾病過程中的自發(fā)變化、安慰劑效應或存在偏倚的觀察[32]。具體而言,根據(jù)21 CFR 第314 章 第126 條(21 CFR 314.126)規(guī)定,對于藥物的審批,充分且控制良好的研究特點包括:有明確說明的研究目標;使用設置對照組進行有效比較的研究設計,以定量評估藥物效果,其中認可的對照組包括安慰劑同期對照、劑量比較同期對照、無治療同期對照、陽性治療同期對照、歷史對照;選擇受試者的方法為研究其所患疾病提供充分保證;將患者分配到治療組和對照組的方法能夠減少偏倚;采取適當措施,盡量減少受試者、觀察者和數(shù)據(jù)分析者的偏倚;受試者反應的評估方法明確且可靠;對研究結果的分析足以評估藥物效果。
根據(jù)21 CFR 第860 章 第7 條(21 CFR 860.7)有關規(guī)定,相較于藥物,醫(yī)療器械的審批標準和所需的證據(jù)水平是基于有效的科學證據(jù)對安全性和有效性提供的合理保證[21 CFR 860.7(c)(1)]。有效的科學證據(jù)可以來源于多種研究設計,包括控制良好的研究、部分控制的研究、無對照匹配的研究和客觀試驗、專家記錄的詳細病例史,以及已上市醫(yī)療器械的重要人類使用經(jīng)驗報告[21 CFR 860.7(c)(2)]。用于產(chǎn)生有效科學證據(jù)的研究設計可能因醫(yī)療器械類型、使用條件、警告和其他限制的存在及其使用經(jīng)驗的程度而異。藥物批準所需的充分且控制良好的研究可以作為主要提交的有效科學證據(jù)。然而,在缺乏控制良好的研究的情況下,也可以接受其他被認定為足以確定醫(yī)療器械有效性的有效科學證據(jù)[21 CFR 860.7(e)(2)]。當基于有效的科學證據(jù)可以確定對于大部分目標人群而言,在按照預期的用途和條件使用該醫(yī)療器械能夠產(chǎn)生顯著的臨床效果時,即認為達到了對有效性的合理保證[21 CFR 860.7(e)(1)]。同樣地,當基于有效的科學證據(jù)可以確定,使用該醫(yī)療器械對于預期用途和使用條件下的健康潛在益處超過任何可能的風險時,即認為達到了對安全性的合理保證。此外,還應確立在醫(yī)療器械的預期用途和使用條件下,不存在與使用該醫(yī)療器械相關的不合理的疾病或傷害風 險[21 CFR 860.7(d)(1)]。總之,美國FDA 在審批醫(yī)療器械時采取了靈活的方法,旨在適應不同類型的醫(yī)療器械及其特殊的使用場景。這種靈活性舉措鼓勵在醫(yī)療器械審批過程中采用多樣化的數(shù)據(jù)和證據(jù),從而更好地應對醫(yī)療器械所面臨的獨特挑戰(zhàn)和需求。
醫(yī)療器械的特殊性質及其在多個領域的廣泛應用,強調了使用多樣化評估方法以確保其安全性和有效性的重要性[4,18,21,25,27]。盡管美國FDA 在2013 年發(fā)布的《醫(yī)療器械關鍵性臨床試驗設計考量》(Design Considerations for Pivotal Clinical Investigations for Medical Devices)為醫(yī)療器械上市前申請的研究提供了一系列基本設計原則,但其并未明確指出哪一種研究設計最適合滿足FDA對“有效的科學證據(jù)”的要求[33]。對此,F(xiàn)DA 僅倡導在提交申請前進行充分溝通,以確定一個符合實際且適當?shù)难芯吭O計,這為除傳統(tǒng)RCT 之外的其他研究設計的可行性和適用性增加了額外的不確定性。為了應對這一不確定性,有研究建議不應要求針對那些不涉及優(yōu)效性檢驗或沒有新作用機制的醫(yī)療器械進行RCT[18]。特別是對于那些與現(xiàn)有產(chǎn)品相似或只做了微小調整的醫(yī)療器械,如果在早期臨床試驗中已證明其有效性,則不必再進行控制良好的有效性驗證試驗[3,18]。非劣效性試驗通常采用陽性對照,其樣本量很大程度上取決于試驗醫(yī)療器械相對于陽性對照醫(yī)療器械的效應量大小。當假設兩種醫(yī)療器械效果相同時,所需的樣本量可能會遠超試驗醫(yī)療器械比陽性對照更有效時所需的樣本量[34]。因此,采用非劣效RCT 來驗證新醫(yī)療器械的療效不顯著低于已有醫(yī)療器械時,將增加額外的成本和復雜性[18]。
盡管一些研究設計可能相較于其他設計能夠提供更高質量的臨床證據(jù),但醫(yī)療器械評估試驗的首要目的是在一個合理的不確定性范圍內,科學嚴謹?shù)卦u估安全性與有效性[3]。醫(yī)療器械監(jiān)管的核心在于平衡鼓勵創(chuàng)新與確保產(chǎn)品安全性和有效性之間的關系,因此在需要權衡試驗可行性與試驗結果可靠性的情況下,應仔細進行考量[3,18]。美國FDA 在很多情況下愿意在醫(yī)療器械生命周期初期接受較大的獲益與風險不確定性等實際情況,旨在讓患者更早地接觸到可能具有重大意義和創(chuàng)新性的治療器械,同時推動技術的持續(xù)改進和發(fā)展[27]。
在循證醫(yī)學的證據(jù)金字塔中,RCT 位于證據(jù)等級的頂端[35]。然而,在無法或無需進行RCT 的情況下,選取一個既能提供合理證據(jù)等級又能有效控制偏倚的替代性研究設計,并給出科學的論證,變得至關重要[22,25,27,33]。一方面,由相關專家開展的病例系列研究以及對已上市醫(yī)療器械的重要人用經(jīng)驗的報告,在證據(jù)等級中處于較低地位,這類報告往往不包含新的臨床數(shù)據(jù)或分析[35]。鑒于該類證據(jù)固有的局限性和較低的證據(jù)等級,其很少被用作支持醫(yī)療器械有效性的證據(jù)基礎[33]。前瞻性病例系列研究盡管在醫(yī)療器械審批過程中的作用受限,但在記錄醫(yī)療器械早期使用的變化和改進方面仍然具有獨特的價值,能夠反映醫(yī)療器械開發(fā)的演變性及動態(tài)進程[18,21]。在病例對照研究中,基于其回顧性的特性,協(xié)變量的測量通常在暴露發(fā)生之后進行,甚至在確定結果后才回溯性地確認暴露情況。這種方法的偏倚風險較高,且違背了因果推斷所需的時間順序假設,因此難以確立因果關系[36-37]?;谏鲜鲈颍祟愌芯刻峁┑淖C據(jù)通常不被認為是提交醫(yī)療器械上市申請時的有效科學證據(jù)。
另一方面,前瞻性、比較性、非隨機化、觀察性研究,如前瞻性隊列研究,因具有較高的證據(jù)等級及成本效益,被認為是對傳統(tǒng)RCT 的有效替代,用于產(chǎn)生有效的科學證據(jù)[18]。盡管如此,由于缺乏隨機化過程,特別是在對未測量變量的控制方面,采用該研究設計無法完全保證試驗組與對照組具有可比性,從而難以確立涉及優(yōu)效性檢驗的因果關系[22]。不過,通過開展高質量的前瞻性觀察性研究和注冊研究能夠有效揭示不同醫(yī)療器械治療方式間的差異,尤其適用于評估與現(xiàn)有產(chǎn)品相似或僅做微小調整且不具備新作用機制的醫(yī)療器械。為盡可能降低偏倚,此類前瞻性觀察性研究需要采用科學嚴謹?shù)难芯吭O計,并在可能的情況下采用適合的統(tǒng)計學方法(如傾向評分匹配法等)來調整已測量的混雜變量,以增強研究的內部有效性[22]。
在進行安全性評估時,由于RCT 的隨訪時間有限,可能無法完全發(fā)現(xiàn)所有的潛在不良事件[38]。因此,針對潛在傷害風險較高的醫(yī)療器械,現(xiàn)有研究建議實施小規(guī)模的觀察性研究,旨在深入收集醫(yī)療器械相關數(shù)據(jù),以回答對產(chǎn)品特性、最優(yōu)使用方法、質量控制、操作人員培訓以及醫(yī)療器械準確使用方面的初步疑問[18,21]。隨著醫(yī)療器械使用頻率的提升,還可采用更為廣泛的研究設計,如開展多中心觀察性研究或利用疾病注冊登記數(shù)據(jù)庫的方法,以便在更全面的應用場景中收集關鍵數(shù)據(jù),從而提高對不良事件監(jiān)測的效率、降低研究成本,最終推動構建更為安全的醫(yī)療器械不良事件監(jiān)測體系[18,21]。
隨著RWD 和RWE 的快速發(fā)展,許多國家和地區(qū)的監(jiān)管機構逐漸認識到它們在醫(yī)療器械全生命周期監(jiān)管中的關鍵作用[39]。例如,美國FDA 相應地發(fā)布了一系列指導原則,詳細說明了如何有效利用RWD 及RWE 支持藥械監(jiān)管決策[7,10-11]。美國醫(yī)療器械審批標準的演變進一步推動了更靈活和多樣化的研究設計與方法的快速發(fā)展,用于生成更加有效的科學證據(jù),從而合理確保醫(yī)療器械的安全性和有效性。FDA認可相關且可靠的高質量RWE用于支持醫(yī)療器械監(jiān)管決策[40]。根據(jù)FDA《使用真實世界證據(jù)支持醫(yī)療器械監(jiān)管決策》指導原則(Use of Real-World Evidence to Support Regulatory Decision-Making for Medical Devices),當傳統(tǒng)RCT 被視為難以實施或挑戰(zhàn)性過大時,使用適當?shù)姆椒ǚ治龇夏康牡腞WD,能夠提供與傳統(tǒng)RCT 收集和分析的信息相似甚至更優(yōu)的信息[9,40]。因此,F(xiàn)DA廣泛采納使用RWD 的多種RWE研究設計,如以RWD 為歷史對照的單臂研究、使用RWD 作為先驗信息的貝葉斯自適應設計、采用單組目標值法的研究,以及各類觀察性研究等[9,40]。2021年,F(xiàn)DA 發(fā)布 了90 個2012~2019 年RWE被成功應用于醫(yī)療器械監(jiān)管決策的案例[41]。其中,65 個案例涉及上市前的申請?zhí)峤?,包括僅限上市前批準(PMA)申請和產(chǎn)品全生命周期申請兩類。在這65 個案例中,有49 個(75.38%)將RWE 作為獲批的主要或唯一臨床證據(jù)來源,其中包含22 個上市前批準的提交案例(表1)。這表明,隨著醫(yī)療器械監(jiān)管環(huán)境的演進,RWD 和RWE 在證明醫(yī)療器械安全性和有效性方面發(fā)揮著越來越重要的作用,為醫(yī)療器械的審評與批準提供了新的視角和方法。
表1 真實世界證據(jù)在美國2012~2019 年醫(yī)療器械上市前監(jiān)管決策中的主要用途
以全踝關節(jié)置換系統(tǒng)為例,其PMA 批準是使用美國境外RWE 作為支持醫(yī)療器械監(jiān)管決策的主要證據(jù)來源[42]。該系統(tǒng)(H3系列)是一款非骨水泥型植入物,旨在替換由多種原因導致的關節(jié)炎性踝關節(jié),包括原發(fā)性骨關節(jié)炎、創(chuàng)傷性骨關節(jié)炎或因炎癥性疾病引起的關節(jié)炎。為了確立其安全性和有效性的合理保障,通過開展回顧性、非隨機、單臂研究,將該醫(yī)療器械的臨床數(shù)據(jù)與預先設定的目標值進行對比分析。該系統(tǒng)的有效性和安全性數(shù)據(jù)來源于瑞士的一個單一的前瞻性收集的注冊登記數(shù)據(jù)庫(H3 研究數(shù)據(jù)庫),該數(shù)據(jù)庫記錄了自2003 年以來該系統(tǒng)在歐洲市場上市以來的實際使用情況。
該研究回顧性分析納入了符合預先確定的納入排除標準、接受該系統(tǒng)治療的患者。主要臨床終點由3 個獨立的共同主要終點構成,分別是2 年或更長時間后的美國矯形外科足踝協(xié)會(AOFAS)評分、5 年內的生存率,以及2 年內未涉及摘除或修正的醫(yī)療器械嚴重不良反應(serious adverse device effect,SADE)發(fā)生率。這3 個共同主要終點均需要單獨達到統(tǒng)計學意義。3 個共同主要終點的目標值是基于對已發(fā)表的H3 系列相關文獻及美國合法上市的移動支撐全踝系統(tǒng)(美國對照組)注冊數(shù)據(jù)的系統(tǒng)性Meta 分析預先確定的。為了降低Meta 分析過程中潛在的偏倚,文獻搜索與分析方法已在研究開始前被明確。主要安全性評估是通過比較H3 研究人群記錄的SADE 發(fā)生率與已發(fā)表的H3 研究相關文獻及美國對照數(shù)據(jù)進行的。該項研究共有298 名患者參與。主要安全性終點的分析顯示,H3 研究數(shù)據(jù)庫中全踝關節(jié)置換系統(tǒng)相關的SADE 發(fā)生率顯著低于美國對照組醫(yī)療器械的SADE 發(fā)生率,這為其安全性提供了合理保障。同時,H3 研究數(shù)據(jù)庫中的SADE 發(fā)生率與已發(fā)表的H3 研究相關文獻數(shù)據(jù)保持一致。主要有效性評估結果顯示,H3 研究數(shù)據(jù)庫中3 個共同主要終點均超過了預先確定的目標值,證實了該系統(tǒng)在替換因原發(fā)性骨關節(jié)炎、創(chuàng)傷性骨關節(jié)炎或由炎癥性疾病引發(fā)的關節(jié)炎踝關節(jié)方面的有效性[42]。此類利用RWE 支持醫(yī)療器械監(jiān)管決策的實例,反映出監(jiān)管評估方式正向更加靈活的模式轉變,并為創(chuàng)新醫(yī)療技術的市場準入提供了一條更為高效的路徑。
當前,醫(yī)療器械監(jiān)管正處于創(chuàng)新轉型的關鍵階段,其中RWD 和RWE 在評估與審批過程中的作用日益突出,標志著監(jiān)管審批從傳統(tǒng)且較為僵化的框架向更具適應性、更能真實反映臨床實踐的體系轉變。這一轉變反映出監(jiān)管部門對于新興數(shù)據(jù)源及研究設計的包容性,同時也意味著未來醫(yī)療器械監(jiān)管將建立在更加全面廣泛的證據(jù)基礎之上,從而更有效地支持患者健康與醫(yī)療技術創(chuàng)新。需要明確的是,當醫(yī)療器械涉及優(yōu)效性檢驗或存在創(chuàng)新性作用機制時,傳統(tǒng)RCT 仍是用于高質量臨床評估該類產(chǎn)品的金標準。監(jiān)管部門通過深入理解RCT 在監(jiān)管決策中的作用,并結合RWD 與RWE 的創(chuàng)新應用,能夠采取更加靈活的審評策略,以平衡醫(yī)療器械創(chuàng)新與確保產(chǎn)品安全性和有效性的需求,同時兼顧臨床實踐的實際需求與面臨的挑戰(zhàn),進而推動構建一個更高效、更透明且以患者為核心的醫(yī)療器械監(jiān)管體系。