譯者:熊云云,李子孝,3,丁玲玲,谷鴻秋,王春娟,3,王春雪,趙性泉,3,王擁軍,3
臨床試驗(yàn)方案是研究人員必須撰寫(xiě)的文件,應(yīng)詳細(xì)介紹臨床試驗(yàn)的基本原理、研究方法和執(zhí)行計(jì)劃。外部審稿人(供資機(jī)構(gòu)、監(jiān)管機(jī)構(gòu)、研究倫理委員會(huì)、期刊編輯、同行評(píng)審、機(jī)構(gòu)審查委員會(huì)以及更廣泛的公眾)將通過(guò)此關(guān)鍵文件來(lái)理解該研究的原理、評(píng)估方法學(xué)的嚴(yán)謹(jǐn)性和倫理考量。此外,試驗(yàn)方案也提供了一個(gè)共享的參考,以支持研究團(tuán)隊(duì)進(jìn)行高質(zhì)量的研究。
盡管如此重要,目前已發(fā)表的試驗(yàn)方案的質(zhì)量和完整性仍然參差不齊。因此,在2013年發(fā)布了《干預(yù)試驗(yàn)方案報(bào)告標(biāo)準(zhǔn)》(Standard Protocol Items:Recommendations for Interventional Trials,SPIRIT)聲明,旨在為臨床試驗(yàn)方案的最低報(bào)告內(nèi)容提供指導(dǎo),目前被廣泛認(rèn)可并成為國(guó)際標(biāo)準(zhǔn)。SPIRIT 2013提供了適用于所有臨床試驗(yàn)干預(yù)措施的最低指導(dǎo),但同時(shí)也認(rèn)識(shí)到針對(duì)某些干預(yù)措施需要進(jìn)行條目上的擴(kuò)展或細(xì)化。人工智能(artificial intelligence,AI)領(lǐng)域備受關(guān)注,它具有強(qiáng)大的驅(qū)動(dòng)力,通過(guò)出版、實(shí)施和市場(chǎng)推廣可加速新的AI干預(yù)措施。AI系統(tǒng)的相關(guān)研究已開(kāi)展了一段時(shí)間。近期,由于在衛(wèi)生領(lǐng)域的應(yīng)用潛力,其在深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面的進(jìn)展引起了極大的關(guān)注。這些應(yīng)用的例子范圍很廣,包括用于篩查和分診、診斷、預(yù)后、決策支持和治療推薦的AI系統(tǒng)。然而,目前大多數(shù)公開(kāi)證據(jù)只有計(jì)算機(jī)模擬和早期驗(yàn)證。AI研究報(bào)告的不充分,以及現(xiàn)有的報(bào)告指南并未完全涵蓋AI系統(tǒng)特有的偏移潛在來(lái)源已經(jīng)成為了一個(gè)公認(rèn)的事實(shí)。旨在評(píng)估基于或包含有AI成分(本文中為“AI干預(yù)”)的新型干預(yù)措施的臨床療效的隨機(jī)對(duì)照試驗(yàn)也同樣存在設(shè)計(jì)和報(bào)告方面的擔(dān)憂。這凸顯了制訂AI領(lǐng)域內(nèi)“目的導(dǎo)向”報(bào)告指南的必要性。
SPIRIT-AI擴(kuò)展[作為SPIRIT-AI和《人工智能試驗(yàn)報(bào)告統(tǒng)一標(biāo)準(zhǔn)》(Consolidated Standards of Reporting Trials-Artificial Intelligence,CONSORT-AI)倡議的一部分]是由SPIR I T 和提高健康研究的質(zhì)量和透明度(Enhancing the Qualit y and Transp are nc y of Health Res earch,EQUATOR)網(wǎng)共同支持的國(guó)際倡議,用于擴(kuò)展或詳細(xì)闡述現(xiàn)有的SPIRIT 2013聲明,以制訂基于共識(shí)的針對(duì)AI的研究方案指南,是對(duì)旨在促進(jìn)高質(zhì)量AI試驗(yàn)報(bào)告的CONSORT-AI聲明的補(bǔ)充。這個(gè)共識(shí)聲明描述了用于識(shí)別和評(píng)估候選條目并取得共識(shí)的方法。此外,它還提供了包括新的條目及其相應(yīng)的解釋在內(nèi)的完整的SPIRIT-AI條目清單。
SPIRIT-AI和CONSORT-AI擴(kuò)展同時(shí)被開(kāi)發(fā)用于臨床試驗(yàn)方案和試驗(yàn)報(bào)告。SPIRITAI和CONSORT-AI倡議于2019年10月發(fā)布。這兩個(gè)指南均根據(jù)EQUATOR網(wǎng)的方法學(xué)框架制定,并于2019年5月在EQUATOR報(bào)告指南庫(kù)中注冊(cè)為正在制訂中的指南。SPIRIT-AI和CONSORT-AI指導(dǎo)小組由15名國(guó)際專家組成,以監(jiān)督研究的進(jìn)行和審查研究的方法。術(shù)語(yǔ)表中提供了關(guān)鍵術(shù)語(yǔ)的定義(表1)。
該研究獲得了英國(guó)伯明翰大學(xué)倫理審查委員會(huì)的批準(zhǔn)(ERN_19-1100)。在調(diào)查完成前和共識(shí)會(huì)議前,參與者的信息以電子方式提供給德?tīng)柗茀⑴c專家。德?tīng)柗茀⑴c專家提供了電子知情同意書(shū),并獲得共識(shí)會(huì)議參與者的書(shū)面同意。。
表1 術(shù)語(yǔ)定義
通過(guò)審查已發(fā)表的文獻(xiàn),并與指導(dǎo)小組和知名國(guó)際專家進(jìn)行磋商,生成了SPIRIT-AI和CONSORT-AI候選條目的初始列表。文獻(xiàn)搜索工作于2019年5月13日進(jìn)行,使用關(guān)鍵詞“artificial intelligence”“machine learning”和“deep learning”搜索美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館臨床試驗(yàn)登記(ClinicalTrials.gov)中列出的涉及AI干預(yù)措施的現(xiàn)有臨床試驗(yàn)。在316項(xiàng)注冊(cè)試驗(yàn)中,62項(xiàng)已完成,7項(xiàng)已發(fā)表試驗(yàn)結(jié)果。有兩項(xiàng)研究與CONSORT聲明有關(guān),其中一項(xiàng)研究提供了一項(xiàng)未發(fā)表的試驗(yàn)方案。工作小組從這些研究中確定了針對(duì)AI的考慮因素,并將它們重新設(shè)計(jì)構(gòu)建為候選條目。這些候選條目也從既往一項(xiàng)評(píng)估醫(yī)學(xué)成像深度學(xué)習(xí)診斷準(zhǔn)確性的系統(tǒng)綜述中找到依據(jù)。在咨詢了指導(dǎo)小組和其他國(guó)際專家(n=19)之后,研究生成了29項(xiàng)候選條目,其中26項(xiàng)與SPIRIT-AI和CONSORT-AI皆相關(guān),3項(xiàng)僅與CONSORTAI相關(guān)。工作小組將這些條目規(guī)劃到相應(yīng)的SPIRIT和CONSORT條目,修改措辭,并根據(jù)需要提供說(shuō)明文本,以將條目置于上下文。這些條目被列入隨后的德?tīng)柗普{(diào)查。
2019年9月,169位國(guó)際專家被邀請(qǐng)參加在線德?tīng)柗普{(diào)查,對(duì)候選條目進(jìn)行投票并提出其他條目。項(xiàng)目指導(dǎo)小組確定并聯(lián)系專家,聯(lián)系的專家可以舉薦其他專家以便進(jìn)行一輪“滾雪球式”專家招募。此外,還包括在公告發(fā)布后聯(lián)系的個(gè)人。指導(dǎo)小組一致認(rèn)為,本次咨詢應(yīng)廣泛地代表臨床試驗(yàn)、AI和機(jī)器學(xué)習(xí)(machine learning,ML)專業(yè)人士以及該技術(shù)的主要用戶的意見(jiàn)。利益相關(guān)者包括醫(yī)療保健專業(yè)人員、方法學(xué)家、統(tǒng)計(jì)學(xué)家、計(jì)算機(jī)科學(xué)家、行業(yè)代表、期刊編輯、政策制定者、衛(wèi)生信息學(xué)家、法律和道德專家、監(jiān)管者、患者和資助者等。本研究進(jìn)行了兩次在線德?tīng)柗普{(diào)查。使用的軟件DelphiManager(版本4.0)由有效性試驗(yàn)的核心結(jié)果測(cè)量(Core Outcome Measures in Effectiveness Trials,COMET)開(kāi)發(fā)和維護(hù)。參與者獲得了有關(guān)該研究的書(shū)面信息,并被要求提供他們?cè)谝韵骂I(lǐng)域的專業(yè)水平:①AI/ML和②臨床試驗(yàn)。每項(xiàng)候選條目都需要參與咨詢的專家進(jìn)行仔細(xì)考慮(SPIRIT-AI為26項(xiàng),CONSORT-AI為29項(xiàng))。參與者對(duì)每項(xiàng)條目進(jìn)行9分制投票,評(píng)分標(biāo)準(zhǔn)如下:1~3分:不重要;4~6分:重要但不關(guān)鍵;7~9分:重要且關(guān)鍵。受訪者分別對(duì)SPIRIT-AI和CONSORT-AI進(jìn)行了評(píng)級(jí)。針對(duì)每項(xiàng)條目的投票,可以選擇棄權(quán),并且每項(xiàng)投票條目下都有編輯功能,方便參與者提出建議。在德?tīng)柗普{(diào)查的最后,參與者有機(jī)會(huì)提出新建議。第一輪德?tīng)柗普{(diào)查收到103份回應(yīng),第二輪收到91份回應(yīng)(占第一輪參與者的88%)。德?tīng)柗普{(diào)查的結(jié)果為隨后的國(guó)際共識(shí)會(huì)議提供了依據(jù)。德?tīng)柗蒲芯繀⑴c專家提出了12項(xiàng)新條目,并在共識(shí)會(huì)議上進(jìn)行了討論。對(duì)在德?tīng)柗普{(diào)查中收集的數(shù)據(jù)進(jìn)行匿名處理,并將條目級(jí)別的結(jié)果提交共識(shí)會(huì)議進(jìn)行討論和投票。
為期兩天的共識(shí)會(huì)議于2020年1月舉行,由英國(guó)伯明翰大學(xué)主辦,旨在就SPIRIT-AI和CONSORT-AI的內(nèi)容達(dá)成共識(shí)。邀請(qǐng)了來(lái)自德?tīng)柗普{(diào)查參與者中的31個(gè)國(guó)際利益相關(guān)者討論這些條目,并對(duì)其進(jìn)行投票。選擇的參與專家能恰當(dāng)?shù)卮砀骼嫦嚓P(guān)團(tuán)體。依次討論了38項(xiàng)條目,其中包括在初始文獻(xiàn)綜述和條目產(chǎn)生階段生成的26項(xiàng)條目(這26項(xiàng)條目與SPIRIT-AI和CONSORT-AI相關(guān);同時(shí)討論了僅與CONSORT-AI相關(guān)的3項(xiàng)條目)以及參與專家在進(jìn)行德?tīng)柗普{(diào)查期間提出的12項(xiàng)新條目。每項(xiàng)條目的德?tīng)柗普{(diào)研得分(中位數(shù)和四分位間距)以及德?tīng)柗茀⑴c專家關(guān)于該條目的評(píng)論均被提交給共識(shí)小組。共識(shí)會(huì)議參與專家評(píng)論每項(xiàng)條目的重要性以及該條目是否應(yīng)包括在AI擴(kuò)展建議中。此外,共識(shí)會(huì)與會(huì)人員討論每一項(xiàng)附帶的解釋性文字措辭以及每項(xiàng)相對(duì)于SPIRIT 2013和CONSORT 2010清單的位置。在公開(kāi)討論每項(xiàng)條目以及調(diào)整措辭之后進(jìn)行電子表決,以選擇包含或排除該條目。指導(dǎo)小組預(yù)先設(shè)定了80%的納入門(mén)檻,可以代表多數(shù)參會(huì)專家的共識(shí)。每個(gè)利益相關(guān)者都使用轉(zhuǎn)折點(diǎn)(Turning Point)投票設(shè)備(Turning Technologies,版本8.7.2.14)進(jìn)行匿名投票。
在共識(shí)會(huì)結(jié)束后,參會(huì)者將對(duì)SPIRIT-AI和CONSORT-AI的更新條目的措辭給出最終的意見(jiàn),并確保更新的內(nèi)容忠實(shí)地反映共識(shí)會(huì)議討論的結(jié)論。
工作小組根據(jù)決策樹(shù)將每項(xiàng)條目分配為擴(kuò)展或詳細(xì)說(shuō)明項(xiàng),并生成了SPIRIT-AI和CONSORT-AI條目清單的倒數(shù)第二份草案。一項(xiàng)預(yù)試驗(yàn)對(duì)倒數(shù)第二輪草案的條目清單進(jìn)行了測(cè)試,用于確保更新內(nèi)容的措辭是清晰無(wú)歧義的。共有34位專家參與該試驗(yàn),包括:①參與德?tīng)柗蒲芯?,但是未參加共識(shí)會(huì)的專家,以及②未參加開(kāi)發(fā)過(guò)程但在德?tīng)柗蒲芯块_(kāi)始后聯(lián)系的外部專家。工作小組對(duì)文字進(jìn)行了最終更改,目的僅為讓讀者閱讀時(shí)更加清晰明確。
SPIRIT-AI擴(kuò)展應(yīng)與現(xiàn)有SPIRIT 2013原有條目結(jié)合在一起使用,SPIRIT-AI擴(kuò)展推薦AI干預(yù)措施相關(guān)的試驗(yàn)方案應(yīng)符合15項(xiàng)新的條目(12項(xiàng)擴(kuò)展和3項(xiàng)闡釋說(shuō)明)。這些條目對(duì)AI干預(yù)相關(guān)的臨床試驗(yàn)方案極為重要,因此除了SPIRIT 2013清單核心條目外,還應(yīng)常規(guī)報(bào)告這些新的條目。表2列出了SPIRIT-AI條目。
SPIRIT-AI擴(kuò)展中納入的15項(xiàng)新條目都在共識(shí)會(huì)上通過(guò)了80%贊成票的納入門(mén)檻。SPIRIT-AI 6a(i)、SPIRIT-AI 11a(v)和SPIRIT-AI 22是由兩個(gè)候選條目經(jīng)過(guò)討論后合并而成。SPIRIT-AI 11a(iii)最初并不符合列入標(biāo)準(zhǔn)(73%的投票贊成),但經(jīng)過(guò)廣泛討論和修改后,共識(shí)小組一致支持重新表決,并最終通過(guò)了納入門(mén)檻(97%投票贊成)。
(1)SPIRIT-AI 1(i)說(shuō)明:表明AI/機(jī)器學(xué)習(xí)相關(guān)的干預(yù)措施并指明模型類型。
解釋:鼓勵(lì)在方案標(biāo)題和(或)摘要中指出干預(yù)措施涉及AI,以便可以立即將其確定為AI/ML干預(yù)類別,并有助于在文獻(xiàn)數(shù)據(jù)庫(kù)、登記數(shù)據(jù)庫(kù)和其他在線資源中對(duì)試驗(yàn)方案進(jìn)行索引和搜索。標(biāo)題應(yīng)該能被廣大讀者理解,因此鼓勵(lì)使用接受度更為廣泛的術(shù)語(yǔ),如“人工智能”或“機(jī)器學(xué)習(xí)”。
應(yīng)該在摘要中使用更精確的術(shù)語(yǔ),而不是標(biāo)題,除非它們被廣泛地認(rèn)為是作為AI/ML的一種形式。與模型類型和架構(gòu)相關(guān)的具體術(shù)語(yǔ)應(yīng)在摘要中詳細(xì)說(shuō)明。
(2)SPIRIT-AI 1(ii)說(shuō)明:陳述AI干預(yù)的預(yù)期用途。
解釋:AI干預(yù)的預(yù)期用途應(yīng)在方案標(biāo)題和(或)摘要中明確。這應(yīng)該描述AI干預(yù)的目的和疾病背景。一些AI干預(yù)措施可能有多項(xiàng)預(yù)期用途,或者預(yù)期用途可能隨著時(shí)間的推移而演變。因此,記錄這一點(diǎn)可以讓讀者了解在試驗(yàn)時(shí)該算法的預(yù)期用途。
(1)SPIRIT-AI 6a(i)擴(kuò)展:解釋人工智能干預(yù)在臨床路徑中的預(yù)期用途,包括其目的和預(yù)期用戶(如醫(yī)療保健專業(yè)人員、患者、公眾)。
解釋:為了闡明AI干預(yù)將如何適應(yīng)臨床路徑,應(yīng)在方案背景中詳細(xì)描述其作用。AI干預(yù)可以設(shè)計(jì)為與不同的用戶交互,包括醫(yī)療專業(yè)人員、患者和公眾,他們的角色可以是廣泛的(如相同的AI干預(yù)理論上可以取代、增強(qiáng)或判定臨床決策的部分內(nèi)容)。闡明AI干預(yù)的預(yù)期用途及其預(yù)期使用者有助于讀者理解在試驗(yàn)中評(píng)估AI干預(yù)的目的。
表2 SPIRIT-AI條目清單
(2)SPIRIT-AI 6a(ii)擴(kuò)展:描述有關(guān)AI干預(yù)的任何現(xiàn)有證據(jù)。
解釋:作者應(yīng)在研究方案中描述任何與AI干預(yù)的有效性相關(guān)的已發(fā)表證據(jù)(支持性參考文獻(xiàn))或未發(fā)表的證據(jù),或AI干預(yù)相關(guān)方面缺乏的說(shuō)明。應(yīng)考慮證據(jù)是否用于與計(jì)劃的試驗(yàn)相似的用途、設(shè)置和目標(biāo)人群。這可能包括AI模型的前期開(kāi)發(fā)、內(nèi)部和外部驗(yàn)證以及試驗(yàn)前所做的任何修改。
(1)SPIRIT-AI 9擴(kuò)展:描述將AI干預(yù)納入試驗(yàn)環(huán)境所需的現(xiàn)場(chǎng)和非現(xiàn)場(chǎng)要求。
解釋:AI算法的泛化存在局限性,其中之一是當(dāng)它們?cè)陂_(kāi)發(fā)環(huán)境之外使用時(shí)。AI系統(tǒng)依賴于其運(yùn)行環(huán)境,研究方案應(yīng)提供硬件和軟件要求的詳細(xì)信息,以便在每個(gè)研究場(chǎng)所對(duì)AI干預(yù)進(jìn)行技術(shù)整合。例如,應(yīng)該說(shuō)明AI干預(yù)是否需要與供應(yīng)商的設(shè)備綁定,是否每個(gè)研究場(chǎng)所需要有專有計(jì)算硬件,或者研究場(chǎng)所是否必須支持云集成,特別是這些設(shè)備是否需要特定的供應(yīng)商。如果在實(shí)施過(guò)程中需要在每個(gè)研究場(chǎng)所對(duì)算法進(jìn)行任何更改(如根據(jù)本地?cái)?shù)據(jù)對(duì)算法進(jìn)行微調(diào)),則還應(yīng)清楚地描述此過(guò)程。
(2)SPIRIT-AI 10(i)說(shuō)明:在受試者層面陳述納入和排除標(biāo)準(zhǔn)。
解釋:納入和排除標(biāo)準(zhǔn)應(yīng)根據(jù)非AI干預(yù)試驗(yàn)方案中的慣例在受試者層面進(jìn)行定義。這不同于在數(shù)據(jù)輸入層面制定的納入和排除標(biāo)準(zhǔn),后者在條目10(ii)中作了說(shuō)明。
(3)SPIRIT-AI 10(ii)擴(kuò)展:在輸入數(shù)據(jù)層面說(shuō)明納入和排除標(biāo)準(zhǔn)。
解釋:“輸入數(shù)據(jù)”是指AI干預(yù)為實(shí)現(xiàn)其預(yù)期用途目標(biāo)所需的數(shù)據(jù)(如對(duì)于乳腺癌診斷系統(tǒng),輸入數(shù)據(jù)可以是未經(jīng)處理或特定廠商的提供的乳腺癌鉬靶X線掃描后處理數(shù)據(jù),據(jù)此進(jìn)行診斷;對(duì)于預(yù)警系統(tǒng),輸入數(shù)據(jù)可以是電子病歷中的生理指標(biāo)或?qū)嶒?yàn)室結(jié)果)。試驗(yàn)方案應(yīng)預(yù)先規(guī)定是否對(duì)輸入數(shù)據(jù)(如圖像分辨率、質(zhì)量指標(biāo)或數(shù)據(jù)格式)有最低要求,以確定隨機(jī)化前的合格性。它應(yīng)具體說(shuō)明評(píng)估的時(shí)間、方式和人員。例如,如果受試者符合第10(i)項(xiàng)所述的CT掃描平躺的標(biāo)準(zhǔn),但掃描質(zhì)量(出于任何特定原因)降低到不再適合AI系統(tǒng)使用,則應(yīng)將其視為輸入數(shù)據(jù)級(jí)別的排除標(biāo)準(zhǔn)。請(qǐng)注意,如果輸入數(shù)據(jù)是在隨機(jī)分組后獲得的(由SPIRIT-20c解決),任何排除都被認(rèn)為是來(lái)自分析層面,而不是來(lái)自入組標(biāo)準(zhǔn)(圖1)
(4)SPIRIT-AI 11a(i)擴(kuò)展:說(shuō)明將使用哪個(gè)版本的AI算法。
解釋:與其他形式的醫(yī)療設(shè)備軟件類似,AI系統(tǒng)在其生命周期內(nèi)可能經(jīng)歷多次修改和更新。研究方案應(yīng)說(shuō)明將在臨床試驗(yàn)中使用哪種版本的AI系統(tǒng),以及該版本是否與先前用于證明研究理由的研究中使用的版本相同。在可行的情況下,研究方案應(yīng)說(shuō)明相關(guān)版本之間發(fā)生了什么變化以及變更的理由。在適用的情況下,研究方案應(yīng)包括市場(chǎng)監(jiān)管機(jī)構(gòu)備案,例如唯一設(shè)備標(biāo)識(shí)符,它要求設(shè)備更新版本的新標(biāo)識(shí)符。
(5)SPIRIT-AI 11a(ii)擴(kuò)展:詳細(xì)說(shuō)明AI干預(yù)中獲取和選擇輸入數(shù)據(jù)的程序。
解釋:任何AI系統(tǒng)的測(cè)量性能可能嚴(yán)重依賴于輸入數(shù)據(jù)的性質(zhì)和質(zhì)量。應(yīng)提供如何處理輸入數(shù)據(jù)的程序,包括AI系統(tǒng)分析前的數(shù)據(jù)采集、選擇和預(yù)處理。這個(gè)過(guò)程的完整性和透明性是可行性評(píng)估和未來(lái)將該干預(yù)措施推廣的重要保障。它還將有助于確定輸入數(shù)據(jù)處理流程是否將在不同的試驗(yàn)場(chǎng)所進(jìn)行標(biāo)準(zhǔn)化處理。
(6)SPIRIT-AI 11a(iii)擴(kuò)展:詳細(xì)說(shuō)明評(píng)估和處理質(zhì)量差或不可用輸入數(shù)據(jù)的程序。
解釋:與SPIRIT-AI 10(ii)類似,“輸入數(shù)據(jù)”是指AI實(shí)現(xiàn)預(yù)期用途所需的數(shù)據(jù)。如第10(ii)項(xiàng)所述,AI系統(tǒng)的性能可能受輸入數(shù)據(jù)質(zhì)量差或缺失(如心電圖上的異常運(yùn)動(dòng)偽影)影響。研究方案應(yīng)規(guī)定是否以及如何識(shí)別和處理質(zhì)量差或不可用的輸入數(shù)據(jù)。方案還應(yīng)規(guī)定輸入數(shù)據(jù)所需的最低標(biāo)準(zhǔn),以及未達(dá)到最低標(biāo)準(zhǔn)時(shí)的處理流程(包括對(duì)受試者管理路徑的影響或其他任何變化)
質(zhì)量差或不可用的數(shù)據(jù)也同樣會(huì)影響非AI的干預(yù)效果。例如,較差的掃描質(zhì)量可能會(huì)影響放射學(xué)家診斷的結(jié)果。因此,輸入數(shù)據(jù)在AI干預(yù)組和對(duì)照組應(yīng)保持一致。如果該最低質(zhì)量標(biāo)準(zhǔn)與隨機(jī)化前評(píng)估的合格輸入數(shù)據(jù)的納入標(biāo)準(zhǔn)不同,則應(yīng)予以說(shuō)明。
(7)SPIRIT-AI 11a(iv)擴(kuò)展:詳細(xì)說(shuō)明在輸入數(shù)據(jù)的處理中是否存在人-AI交互,以及用戶需要什么專業(yè)知識(shí)水平。
解釋:當(dāng)處理輸入數(shù)據(jù)時(shí),應(yīng)提供人-AI界面的描述和良好人-AI交互的要求。例如臨床醫(yī)師引導(dǎo)從組織切片中選擇感興趣的區(qū)域,并可由AI診斷系統(tǒng)解釋,或者由內(nèi)科醫(yī)師選擇的結(jié)腸鏡檢查視頻片段作為用于檢測(cè)息肉的算法的輸入數(shù)據(jù)。對(duì)即將使用AI干預(yù)措施的用戶培訓(xùn)的描述以及用戶如何處理輸入數(shù)據(jù)的說(shuō)明應(yīng)該是清晰的,并且在試驗(yàn)流程中是可重復(fù)的。人-AI交互不清楚可能導(dǎo)致用戶無(wú)法做到標(biāo)準(zhǔn)化操作,并可能帶來(lái)倫理影響,尤其是在發(fā)生危害的情況下。例如,一旦發(fā)生錯(cuò)誤,將很難界定是由于人為偏離操作流程,還是由AI系統(tǒng)造成的錯(cuò)誤。
(8)SPIRIT-AI 11a(v)擴(kuò)展:詳細(xì)說(shuō)明AI干預(yù)的輸出。
解釋:AI干預(yù)的輸出應(yīng)在研究方案中明確規(guī)定。例如,AI系統(tǒng)可以輸出診斷分類或概率、建議的操作、對(duì)事件發(fā)出警報(bào)(如輸注藥物的滴定)或其他輸出。AI干預(yù)輸出的性質(zhì)直接說(shuō)明了它的可用性以及它如何導(dǎo)致下游行動(dòng)和結(jié)果。
(9)SPIRIT-AI 11a(vi)擴(kuò)展:解釋AI干預(yù)的輸出將如何有助于臨床決策或其他臨床實(shí)踐方面的程序。
解釋:由于受試者的健康結(jié)果也可能很依賴用戶如何與AI干預(yù)進(jìn)行交互,試驗(yàn)方案應(yīng)解釋AI系統(tǒng)的輸出結(jié)果如何用于臨床決策或臨床實(shí)踐。應(yīng)該詳細(xì)描述能夠影響受試者結(jié)局的下一步干預(yù)措施。與SPIRIT-AI 11a(iv)類似,應(yīng)詳細(xì)描述人-AI交互對(duì)輸出結(jié)果的各種影響,包括理解輸出結(jié)果所需的專業(yè)知識(shí)水平以及為此目的提供的任何培訓(xùn)和(或)說(shuō)明。例如,以概率可能性作為輸出的皮膚癌檢測(cè)系統(tǒng)應(yīng)附有解釋,說(shuō)明輸出結(jié)果如何解釋和用戶如何行動(dòng),并指定兩種預(yù)期途徑(如果診斷為陽(yáng)性,則行皮膚病變切除術(shù))和進(jìn)入這些路徑的閾值(如果診斷為陽(yáng)性且概率大于80%,則進(jìn)行皮膚病變切除)。參照性的干預(yù)措施產(chǎn)生的信息應(yīng)類似地描述,并解釋如何使用這些信息進(jìn)行患者管理的臨床決策,以及它們之間在哪兒相關(guān)。
(1)SPIRIT-AI 22擴(kuò)展:闡述識(shí)別和分析性能錯(cuò)誤的任何計(jì)劃。如果沒(méi)有計(jì)劃,請(qǐng)說(shuō)明理由。
解釋:性能錯(cuò)誤的報(bào)告和失敗案例的分析對(duì)AI干預(yù)尤其重要。AI系統(tǒng)可能會(huì)犯一些難以預(yù)見(jiàn)的錯(cuò)誤,忽視這些問(wèn)題而進(jìn)行大規(guī)模部署,可能會(huì)造成嚴(yán)重后果。因此,識(shí)別錯(cuò)誤問(wèn)題并確定風(fēng)險(xiǎn)控制策略對(duì)確定何時(shí)進(jìn)行安全實(shí)施干預(yù)措施以及針對(duì)哪些人群使用是極為關(guān)鍵的。研究方案中應(yīng)該詳細(xì)說(shuō)明是否有分析性能錯(cuò)誤的規(guī)劃。如果沒(méi)有這方面的規(guī)劃,應(yīng)在研究方案中說(shuō)明理由。
(1)SPIRIT-AI 29擴(kuò)展:說(shuō)明是否能以及如何訪問(wèn)AI干預(yù)和(或)其代碼,包括訪問(wèn)或重復(fù)使用的任何限制。
解釋:研究方案應(yīng)明確是否能以及如何訪問(wèn)或重復(fù)使用AI干預(yù)和(或)其代碼。應(yīng)包括相關(guān)許可證和訪問(wèn)限制的詳細(xì)信息。
SPIRIT-AI擴(kuò)展與SPIRIT 2013及其他相關(guān)的SPIRIT擴(kuò)展一起,為臨床試驗(yàn)方案中應(yīng)報(bào)告的AI特定信息提供了基于國(guó)際共識(shí)的指導(dǎo)。它包括了15項(xiàng)條目:3項(xiàng)是在AI試驗(yàn)背景下對(duì)現(xiàn)有SPIRIT 2013指南的闡述,以及12項(xiàng)新的擴(kuò)展。該指南的目的不是規(guī)定AI試驗(yàn)的研究方法,相反,它旨在提高在報(bào)告臨床試驗(yàn)設(shè)計(jì)和方法時(shí)的透明度,以更易于理解、解釋和同行評(píng)議。
許多擴(kuò)展條目涉及干預(yù)措施[條目11(i)~11(vi)]、設(shè)置(條目9)和預(yù)期效果[條目6a(i)]。針對(duì)AI系統(tǒng)的相關(guān)方面提出了具體建議,包括算法版本、輸入輸出數(shù)據(jù)、整個(gè)試驗(yàn)設(shè)置、用戶的專業(yè)知識(shí)以及根據(jù)AI系統(tǒng)的建議可采取的執(zhí)行研究方案等。專家一致認(rèn)為,這些細(xì)節(jié)對(duì)于獨(dú)立評(píng)估研究方案至關(guān)重要。期刊編輯指出,盡管這些條目很重要,但目前它們?cè)谔峤挥糜诎l(fā)表的試驗(yàn)方案和報(bào)告中經(jīng)常被遺漏,這一現(xiàn)象更加突出了將它們加入特定擴(kuò)展條目的必要性。
德?tīng)柗圃u(píng)論和共識(shí)小組討論的一個(gè)共同的焦點(diǎn)是AI系統(tǒng)的安全性。與其他衛(wèi)生干預(yù)措施不同,AI系統(tǒng)可能產(chǎn)生無(wú)法預(yù)測(cè)的錯(cuò)誤,而這些錯(cuò)誤通過(guò)人類判斷不易被檢測(cè)或解釋。例如,對(duì)人眼來(lái)說(shuō),不可見(jiàn)的或隨機(jī)出現(xiàn)的醫(yī)學(xué)影像變化可能會(huì)完全改變?cè)\斷結(jié)果的可能性。令人擔(dān)憂的是,鑒于AI系統(tǒng)在理論上可以輕易大規(guī)模部署,任何意想不到的有害后果都可能是極其嚴(yán)重的。為此添加了兩個(gè)擴(kuò)展項(xiàng)。SPIRIT-AI第6a(ii)項(xiàng)要求說(shuō)明驗(yàn)證AI干預(yù)證據(jù)的等級(jí)水平。SPIRIT-AI第22項(xiàng)要求對(duì)所有分析性能錯(cuò)誤的計(jì)劃進(jìn)行說(shuō)明,以強(qiáng)調(diào)預(yù)測(cè)算法所產(chǎn)生的系統(tǒng)性錯(cuò)誤及其后果的重要性。
德?tīng)柗普{(diào)查和共識(shí)會(huì)議提出了一個(gè)未包括在最終指南中的主題,即“持續(xù)進(jìn)化”AI系統(tǒng)(也被稱為“持續(xù)適應(yīng)”或“持續(xù)學(xué)習(xí)”AI系統(tǒng))。這些AI系統(tǒng)能夠不斷地對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練,使其性能可能會(huì)隨著時(shí)間的推移而發(fā)生變化。專家組注意到,雖然這很有趣,但這一領(lǐng)域尚處在相對(duì)早期的發(fā)展階段,在醫(yī)療應(yīng)用中缺乏實(shí)例,因此目前不適宜在SPIRIT-AI指南中強(qiáng)調(diào)。這一主題將在SPIRIT-AI的未來(lái)迭代中被觀察和重新討論。值得注意的是,軟件的逐步更新,無(wú)論是連續(xù)的還是迭代的,有目的性還是無(wú)目的性,都可能對(duì)部署后的安全性能產(chǎn)生嚴(yán)重的后果。因此,至關(guān)重要的是,應(yīng)按軟件版本記錄和確定這些變更,并制訂強(qiáng)有力的部署后監(jiān)督計(jì)劃。
本研究是在當(dāng)前健康領(lǐng)域中的AI背景下進(jìn)行的,因此,需要注意幾個(gè)局限性。首先,在SPIRIT-AI提出時(shí),醫(yī)療AI領(lǐng)域只有7項(xiàng)已發(fā)表的試驗(yàn),尚無(wú)已發(fā)表的試驗(yàn)方案。因此,在SPIRIT-AI的開(kāi)發(fā)過(guò)程中所做的討論和決定并不是都有現(xiàn)有實(shí)例的支持。這源于我們聲明的目標(biāo),即盡早解決AI領(lǐng)域試驗(yàn)方案設(shè)計(jì)較差的問(wèn)題,認(rèn)識(shí)該領(lǐng)域強(qiáng)大的驅(qū)動(dòng)因素,以及AI研究設(shè)計(jì)和報(bào)告的具體挑戰(zhàn)。隨著科學(xué)和AI研究的發(fā)展,我們歡迎研究人員合作,共同發(fā)展這些報(bào)告標(biāo)準(zhǔn),以確保其持續(xù)的相關(guān)性。其次,AI隨機(jī)對(duì)照試驗(yàn)的檢索使用了“人工智能”“機(jī)器學(xué)習(xí)”和“深度學(xué)習(xí)”等術(shù)語(yǔ),但沒(méi)有使用“臨床決策支持系統(tǒng)”和“專家系統(tǒng)”等術(shù)語(yǔ),這些術(shù)語(yǔ)在20世紀(jì)90年代更常用于基于AI系統(tǒng)的技術(shù),其風(fēng)險(xiǎn)與最近的案例類似。這類系統(tǒng)如果今天發(fā)表,很可能會(huì)被編入“人工智能”或“機(jī)器學(xué)習(xí)”的索引。然而,臨床決策支持系統(tǒng)在這個(gè)共識(shí)過(guò)程中并沒(méi)有得到積極的討論。第三,最初的候選條目列表是由范圍相對(duì)較小的專家組提出,該專家組由指導(dǎo)小組成員和其他的國(guó)際專家組成。但是,由規(guī)模更大的德?tīng)柗茖<倚〗M提出的新項(xiàng)目在共識(shí)小組進(jìn)行了討論,共識(shí)會(huì)議期間或會(huì)后評(píng)估期間沒(méi)有新項(xiàng)目提出。
與SPIRIT聲明一樣,SPIRIT-AI擴(kuò)展旨在作為最低限度的AI試驗(yàn)報(bào)告指南,對(duì)于試驗(yàn)方案,還有AI相關(guān)的其他注意事項(xiàng)可能值得考慮。此擴(kuò)展特別針對(duì)已經(jīng)計(jì)劃或正在進(jìn)行臨床試驗(yàn)的研究者,不過(guò),它也可以在AI系統(tǒng)的早期驗(yàn)證階段為AI干預(yù)的開(kāi)發(fā)者提供有用的指導(dǎo)。研究人員若想報(bào)告研究進(jìn)展以及驗(yàn)證AI模型的診斷和預(yù)測(cè)性能應(yīng)參考“基于機(jī)器學(xué)習(xí)的個(gè)體化預(yù)后或診斷的多變量預(yù)測(cè)模型透明報(bào)告”(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis-Machine Learning,TRIPODML)和“基于人工智能診斷準(zhǔn)確性研究的報(bào)告標(biāo)準(zhǔn)”(Standards for Reporting Diagnostic Accuracy Studies-Artificial Intelligence,STARD-AI),這兩者目前均在開(kāi)發(fā)中。其他潛在相關(guān)的指導(dǎo)原則(對(duì)研究設(shè)計(jì)不確定)已在EQUATOR網(wǎng)站注冊(cè)。SPIRIT-AI擴(kuò)展的推出希望可以鼓勵(lì)對(duì)AI干預(yù)的臨床試驗(yàn)進(jìn)行謹(jǐn)慎的早期規(guī)劃,與CONSORT-AI結(jié)合起來(lái),將有助于提高AI干預(yù)試驗(yàn)的質(zhì)量。
人們普遍認(rèn)為AI是一個(gè)快速發(fā)展的領(lǐng)域,隨著技術(shù)和新的應(yīng)用方向的發(fā)展,將有必要對(duì)SPIRIT-AI進(jìn)行更新。目前,AI/ML的多數(shù)應(yīng)用涉及疾病檢測(cè)、診斷和分診,這可能會(huì)影響SPIRIT-AI條目的性質(zhì)和優(yōu)先順序。隨著“AI成為治療手段”的廣泛應(yīng)用,根據(jù)這些研究重新評(píng)估SPIRIT-AI將是非常重要的。此外,計(jì)算機(jī)技術(shù)的進(jìn)步以及將其整合到臨床工作流程中的能力將為醫(yī)療創(chuàng)新帶來(lái)新的機(jī)遇,從而使患者受益。然而,研究設(shè)計(jì)和報(bào)告也可能伴隨新的挑戰(zhàn),以確保透明度,最大限度地減少潛在偏倚,并確保此類研究的結(jié)果值得信賴,以及它們可能在多大的程度上可推廣。SPIRITAI和CONSORT-AI 指導(dǎo)小組將會(huì)持續(xù)關(guān)注更新的需要。
數(shù)據(jù)獲取:可向通信作者提出數(shù)據(jù)請(qǐng)求,由SPIRIT-AI和CONSORT-AI指導(dǎo)小組考慮是否提供。