譯者:李子孝,熊云云,丁玲玲,王春雪,趙性泉,王擁軍
隨機(jī)對(duì)照試驗(yàn)(randomized control trials,RCTs)被認(rèn)為是為干預(yù)的安全性和有效性提供證據(jù)的金標(biāo)準(zhǔn)試驗(yàn)設(shè)計(jì)。如果對(duì)試驗(yàn)結(jié)果進(jìn)行充分報(bào)告,有可能為管理決策、臨床指南和衛(wèi)生政策提供信息。因此,RCTs報(bào)告的透明性和完整性至關(guān)重要,這樣讀者才能批判性地評(píng)價(jià)試驗(yàn)方法和結(jié)果,并評(píng)估結(jié)果中是否存在偏倚。
CONSORT聲明為提高RCTs報(bào)告的完整性提供了基于證據(jù)的建議。該聲明于1996年首次提出,此后得到了國(guó)際醫(yī)學(xué)期刊的廣泛認(rèn)可。在過(guò)去的20年里,它經(jīng)歷了兩次更新,對(duì)RCTs報(bào)告的質(zhì)量產(chǎn)生了重要的積極影響。最新的CONSORT 2010聲明提供了含有25項(xiàng)條目報(bào)告內(nèi)容的最小條目清單,適用于所有RCTs,但它指出某些干預(yù)可能需要對(duì)這些條目進(jìn)行擴(kuò)展或闡述。目前已有一些這樣的擴(kuò)展版本。
AI是人們非常感興趣的一個(gè)領(lǐng)域,它有強(qiáng)大的驅(qū)動(dòng)力,通過(guò)發(fā)布、實(shí)施和市場(chǎng)推廣促進(jìn)新的AI干預(yù)。AI系統(tǒng)的相關(guān)研究已開展了一段時(shí)間。由于在醫(yī)療健康領(lǐng)域的應(yīng)用潛力,近期AI在深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面的進(jìn)展引起了極大的關(guān)注。AI系統(tǒng)應(yīng)用的范圍很廣,包括用于篩查和分診、診斷、預(yù)后、決策支持和治療推薦。然而,目前大多數(shù)公開證據(jù)只有計(jì)算機(jī)模擬和早期驗(yàn)證。AI研究報(bào)告的不充分,以及現(xiàn)有的報(bào)告指南并未完全涵蓋AI系統(tǒng)特有的偏移潛在來(lái)源已經(jīng)成為一個(gè)公認(rèn)的事實(shí)。旨在評(píng)估基于或包含有AI成分(本文中為“AI干預(yù)”)的新型干預(yù)措施的隨機(jī)對(duì)照試驗(yàn)也同樣存在設(shè)計(jì)和報(bào)告方面的擔(dān)憂。這突顯了制訂AI領(lǐng)域內(nèi)“目的導(dǎo)向”報(bào)告指南的必要性。CONSORT-AI(SPIRIT-AI和CONSORT-AI聲明的一部分)是由CONSORT和提高健康研究的質(zhì)量和透明度(Enhancing the Quality and Transparency of Health Research,EQUATOR)網(wǎng)共同制訂的國(guó)際倡議,旨在評(píng)估現(xiàn)有的CONSORT 2010聲明,并在必要時(shí)擴(kuò)展或闡述該指南,用以支持AI干預(yù)臨床試驗(yàn)的報(bào)告。它是SPIRIT-AI聲明的補(bǔ)充,SPIRIT-AI聲明的目的是提升AI試驗(yàn)方案報(bào)告的質(zhì)量。本共識(shí)聲明描述了識(shí)別和評(píng)估候選條目及獲得共識(shí)的方法。此外,還提供了CONSORT-AI條目清單,其中包括新的擴(kuò)展條目及相應(yīng)的解釋說(shuō)明。
SPIRIT-AI和CONSORT-AI擴(kuò)展是同時(shí)為臨床試驗(yàn)方案和試驗(yàn)報(bào)告制訂的。2019年10月,SPIRIT-AI和CONSORT-AI新方案公告發(fā)布。這兩個(gè)指南均根據(jù)EQUATOR網(wǎng)的方法學(xué)框架制訂,并于2019年5月在EQUATOR報(bào)告指南庫(kù)中注冊(cè)為正在制訂中的報(bào)告指南。SPIRIT-AI和CONSORT-AI指導(dǎo)小組由15位國(guó)際專家組成,以監(jiān)督研究的進(jìn)行和審查研究的方法。關(guān)鍵術(shù)語(yǔ)的定義見術(shù)語(yǔ)表(表1)。
該研究獲得英國(guó)伯明翰大學(xué)倫理審查委員會(huì)的批準(zhǔn)(ERN_19-1100)。在調(diào)查完成前和共識(shí)會(huì)議前,參與者的信息以電子方式提供給德爾菲參與專家。德爾菲參與專家提供了電子知情同意書,并獲得共識(shí)會(huì)議參與者的書面同意。
通過(guò)審查已發(fā)表的文獻(xiàn),并與指導(dǎo)小組和國(guó)際知名專家進(jìn)行磋商,生成了SPIRIT-AI和CONSORT-AI候選條目的初步清單。文獻(xiàn)搜索工作于2019年5月13日進(jìn)行,使用關(guān)鍵詞“artificial intelligence”“machine learning”和“deep learning”搜索美國(guó)國(guó)家醫(yī)學(xué)圖書館臨床試驗(yàn)登記(ClinicalTrials.gov)中列出的涉及AI干預(yù)措施的現(xiàn)有臨床試驗(yàn)。共有316項(xiàng)注冊(cè)試驗(yàn),其中62項(xiàng)已完成,7項(xiàng)已公布結(jié)果。有兩項(xiàng)研究與CONSORT聲明有關(guān),其中一項(xiàng)研究提供了未發(fā)表的試驗(yàn)方案。工作小組從這些研究中確定了針對(duì)AI的考量因素,并將它們重新構(gòu)建為候選報(bào)告條目。這些候選條目也從既往一項(xiàng)評(píng)估醫(yī)學(xué)成像深度學(xué)習(xí)診斷準(zhǔn)確性的系統(tǒng)綜述中找到依據(jù)。在與指導(dǎo)小組和其他國(guó)際專家(n=19)協(xié)商后,產(chǎn)生了29項(xiàng)候選條目,其中26項(xiàng)與SPIRIT-AI和CONSORT-AI均相關(guān),3項(xiàng)僅與CONSORT-AI相關(guān)。工作小組將這些條目規(guī)劃到相應(yīng)的SPIRIT和CONSORT條目中,根據(jù)上下文需要修改措辭,提供說(shuō)明性文字。之后對(duì)這些條目進(jìn)行德爾菲調(diào)查。
表1 術(shù)語(yǔ)定義
2019年9月,169位國(guó)際重要專家參加在線德爾菲調(diào)查,對(duì)候選條目進(jìn)行投票,并提出新增條目的建議。項(xiàng)目指導(dǎo)小組確定并聯(lián)系專家,聯(lián)系的專家可以舉薦其他專家以便進(jìn)行一輪“滾雪球式”專家招募。此外,還包括在公告發(fā)布后聯(lián)系的個(gè)人。指導(dǎo)小組一致認(rèn)為,在臨床試驗(yàn)、AI和機(jī)器學(xué)習(xí)(machine learning,ML)領(lǐng)域的專業(yè)人士以及技術(shù)的主要使用者應(yīng)該在協(xié)商中得到充分代表。利益相關(guān)者包括醫(yī)療保健專業(yè)人員、方法學(xué)家、統(tǒng)計(jì)學(xué)家、計(jì)算機(jī)科學(xué)家、行業(yè)代表、期刊編輯、政策制定者、健康“信息學(xué)家”、法律和倫理專家、監(jiān)管機(jī)構(gòu)、患者和資助者。共進(jìn)行了兩次在線德爾菲調(diào)查。電子德爾菲調(diào)查使用DelphiManager軟件(4.0版),由有效性試驗(yàn)核心結(jié)局指標(biāo)測(cè)量(core outcome measures in effectiveness trials,COMET)學(xué)術(shù)組織工作組開發(fā)和維護(hù)。給予參與者關(guān)于該研究的書面信息,并要求他們提供在AI/ML和臨床試驗(yàn)領(lǐng)域的專業(yè)水平。每個(gè)條目都提交審議(SPIRIT-AI為26項(xiàng),CONSORT-AI為29項(xiàng))。參與者用9分制對(duì)每個(gè)條目進(jìn)行投票,評(píng)分標(biāo)準(zhǔn)如下:1~3分,不重要;4~6分,重要但不關(guān)鍵;7~9分,重要且關(guān)鍵。參與者對(duì)SPIRIT-AI和CONSORT-AI分別進(jìn)行了評(píng)級(jí)。針對(duì)每項(xiàng)條目的投票,可以選擇棄權(quán),并且每項(xiàng)投票條目下都有編輯功能,方便參與者提出建議。在德爾菲調(diào)查結(jié)束時(shí),參與者還有機(jī)會(huì)提出新的條目。第一輪德爾菲調(diào)查收到103份答復(fù),第二輪收到91份答復(fù)(占第一輪參與者的88%)。德爾菲調(diào)查的結(jié)果為隨后的國(guó)際共識(shí)會(huì)議提供了依據(jù)。德爾菲研究參與者提出了12項(xiàng)新條目,并在共識(shí)會(huì)議上進(jìn)行了討論。德爾菲調(diào)查收集的數(shù)據(jù)是匿名的,在共識(shí)會(huì)議上對(duì)每個(gè)條目結(jié)果進(jìn)行討論和表決。
共識(shí)會(huì)議于2020年1月舉行,為期兩天,由英國(guó)伯明翰大學(xué)主辦,旨在就SPIRIT-AI和CONSORT-AI的內(nèi)容達(dá)成共識(shí)。德爾菲調(diào)查參與者中的31個(gè)國(guó)際利益相關(guān)方應(yīng)邀討論了這些條目并進(jìn)行了投票。選擇的參與專家能充分地代表各利益相關(guān)團(tuán)體。會(huì)議依次討論了41項(xiàng)條目,包括在初始文獻(xiàn)綜述和條目產(chǎn)生階段產(chǎn)生的29項(xiàng)條目(26項(xiàng)條目與SPIRIT-AI和CONSORTAI均相關(guān),3項(xiàng)條目?jī)H與CONSORT-AI相關(guān))以及參與專家在德爾菲調(diào)查期間提出的12項(xiàng)新條目。每項(xiàng)條目連同其德爾菲得分(中位數(shù)和四分位間距)以及德爾菲調(diào)查參與專家對(duì)該條目的所有意見均提交給共識(shí)小組。參與專家對(duì)每項(xiàng)條目的重要性以及是否應(yīng)納入指南發(fā)表意見。此外,參與專家就每項(xiàng)條目所附帶的說(shuō)明性文字以及該條目對(duì)應(yīng)于SPIRIT 2013和CONSORT 2010條目清單的位置發(fā)表了意見。在對(duì)每項(xiàng)條目及是否進(jìn)行措辭調(diào)整進(jìn)行公開討論后,進(jìn)行電子表決,可選擇采納或不采納該條目。指導(dǎo)小組預(yù)設(shè)的納入閾值為80%,認(rèn)為這可以合理地代表多數(shù)人的意見。每個(gè)利益相關(guān)者都使用轉(zhuǎn)折點(diǎn)(Turning Point)投票設(shè)備(Turning Technologies,版本8.7.2.14)進(jìn)行匿名投票。
在共識(shí)會(huì)議后,參會(huì)者有機(jī)會(huì)對(duì)條目做出最后評(píng)議,參會(huì)者達(dá)成一致,更新的SPIRITAI和CONSORT-AI條目可代表會(huì)議討論結(jié)果。工作小組根據(jù)決策樹將每項(xiàng)條目分為擴(kuò)展或闡述條目,產(chǎn)生了SPIRIT-AI和CONSORT-AI條目清單的倒數(shù)第二版。倒數(shù)第二版條目清單由34位專家進(jìn)行了預(yù)試驗(yàn),以確保內(nèi)容措辭清晰無(wú)歧義。參加預(yù)試驗(yàn)的專家包括:①?zèng)]有參加共識(shí)會(huì)議,但是參與了德爾菲研究調(diào)查的專家;②沒有參加指南制訂過(guò)程,但在德爾菲研究開始后聯(lián)系的外部專家。為使讀者理解更加清晰,工作小組對(duì)措辭進(jìn)行了最后的修改。
C O N S O R T-A I 擴(kuò)展建議在現(xiàn)有的CONSORT 2010聲明中增加了14項(xiàng)新條目(11項(xiàng)擴(kuò)展條目和3項(xiàng)闡述條目)。這些條目對(duì)關(guān)于AI干預(yù)的臨床試驗(yàn)報(bào)告十分重要,因此除了CONSORT 2010清單核心條目之外,試驗(yàn)報(bào)告還應(yīng)常規(guī)包含這些內(nèi)容。表2列出了CONSORT-AI的具體條目。
擴(kuò)展中納入的14項(xiàng)新條目都在共識(shí)會(huì)上通過(guò)了80%贊成票的納入門檻。CONSORT-AI 2a、CONSORT-AI 5(ii)和CONSORT-AI 19都是在與共識(shí)小組討論后合并兩項(xiàng)條目的結(jié)果。為了表述清晰,CONSORT-AI 4a(i)和(ii)被分成兩項(xiàng)條目,分別進(jìn)行表決。CONSORT-AI 5(iii)起初未達(dá)到納入標(biāo)準(zhǔn)(77%投票贊成),然而,經(jīng)過(guò)廣泛討論和重新修訂,共識(shí)小組一致支持重新投票,最終其達(dá)到了納入標(biāo)準(zhǔn)(97%投票贊成)。
(1)CONSORT-AI 1a,b(i)闡述:在標(biāo)題和(或)摘要中指明干預(yù)涉及AI/ML,并說(shuō)明模型類型。
說(shuō)明:推薦在試驗(yàn)報(bào)告的標(biāo)題和(或)摘要中寫明干預(yù)涉及的AI的類型,因?yàn)檫@樣可以快速說(shuō)明干預(yù)為AI/ML干預(yù),并有助于索引和搜索。標(biāo)題應(yīng)該被廣大讀者理解,因此,推薦使用如“人工智能”或“機(jī)器學(xué)習(xí)”等接受度更廣泛的術(shù)語(yǔ)。更精確的術(shù)語(yǔ)應(yīng)該在摘要中使用,而不是在標(biāo)題中使用,除非它們被廣泛認(rèn)為是AI/ML的一種形式。與模型類型和體系結(jié)構(gòu)相關(guān)的特定術(shù)語(yǔ)應(yīng)該在摘要中詳細(xì)說(shuō)明。
(2)CONSORT-AI 1a,b(ii)闡述:在標(biāo)題和(或)摘要中說(shuō)明試驗(yàn)中AI干預(yù)的預(yù)期用途。
說(shuō)明:在試驗(yàn)報(bào)告標(biāo)題和(或)摘要中描述AI干預(yù)的預(yù)期用途。應(yīng)該描述AI干預(yù)的目的和疾病背景。一些AI干預(yù)可能有多種預(yù)期用途,或者預(yù)期用途可能會(huì)隨著時(shí)間的推移而變化。因此,記錄這一點(diǎn)可以讓讀者理解試驗(yàn)中所用算法的預(yù)期用途。
CONSORT-AI 2a(i)擴(kuò)展:在臨床路徑下解釋AI干預(yù)的預(yù)期用途,包括其目的及其目標(biāo)用戶(如:醫(yī)療專業(yè)人員、患者、公眾)。
說(shuō)明:為了闡明AI干預(yù)如何嵌入臨床路徑,應(yīng)在試驗(yàn)報(bào)告的背景部分詳細(xì)描述其作用。AI干預(yù)可以設(shè)計(jì)為與不同的用戶交互,包括醫(yī)療保健專業(yè)人員、患者和公眾,AI干預(yù)的應(yīng)用可以是廣泛的(如:理論上,同一AI干預(yù)可替代、增強(qiáng)或決定臨床決策的某些環(huán)節(jié))。清晰地闡述AI干預(yù)的預(yù)期用途及其預(yù)期用戶有助于讀者理解在試驗(yàn)中評(píng)估AI干預(yù)的目的。
(1)CONSORT-AI 4a(i)闡述:在受試者層面說(shuō)明納入和排除標(biāo)準(zhǔn)。
說(shuō)明:應(yīng)按照非AI干預(yù)試驗(yàn)報(bào)告的慣例,定義受試者層面的納入和排除標(biāo)準(zhǔn)(圖1)。這與在輸入數(shù)據(jù)層面制訂的納入和排除標(biāo)準(zhǔn)不同,見條目4a(ii)。
表2 CONSORT-AI條目清單
表2(續(xù))
(2)CONSORT-AI 4a(ii)擴(kuò)展:在輸入數(shù)據(jù)層面說(shuō)明納入和排除標(biāo)準(zhǔn)。
說(shuō)明:“輸入數(shù)據(jù)”是指AI干預(yù)達(dá)到研究目的所需的數(shù)據(jù)(如:對(duì)于乳腺癌診斷系統(tǒng),輸入數(shù)據(jù)可以是用于診斷的未處理的或是儀器供應(yīng)商特定的后處理的乳腺X光掃描數(shù)據(jù);對(duì)于早期預(yù)警系統(tǒng),輸入數(shù)據(jù)可以是電子病歷中的生理指標(biāo)或?qū)嶒?yàn)室結(jié)果)。試驗(yàn)報(bào)告應(yīng)預(yù)先說(shuō)明對(duì)確定預(yù)隨機(jī)化的輸入數(shù)據(jù)是否有最低要求(如圖像分辨率、質(zhì)量指標(biāo)或數(shù)據(jù)格式)。應(yīng)該具體說(shuō)明數(shù)據(jù)評(píng)估的時(shí)間、方式和人員。例如,如果受試者符合第4a(i)項(xiàng)規(guī)定的CT掃描平躺的標(biāo)準(zhǔn),但掃描質(zhì)量受損(出于任何特定原因)的程度被認(rèn)為不適合AI系統(tǒng)使用,則應(yīng)將其作為輸入數(shù)據(jù)層面的排除標(biāo)準(zhǔn)寫入報(bào)告。需注意的是,如果輸入數(shù)據(jù)是在隨機(jī)化之后獲得的,任何排除都被認(rèn)為是來(lái)自數(shù)據(jù)分析,而不是來(lái)自數(shù)據(jù)入選(CONSORT 13b)(圖1)。
(3)CONSORT-AI 4b擴(kuò)展:描述AI干預(yù)是如何整合到試驗(yàn)環(huán)境中的,包括現(xiàn)場(chǎng)或非現(xiàn)場(chǎng)要求。
圖1 CONSORT 2010流程圖——適用于AI臨床試驗(yàn)
說(shuō)明:AI算法的通用性有一定的局限性,其中之一是當(dāng)它們?cè)谄溟_發(fā)環(huán)境之外被使用時(shí)。AI系統(tǒng)依賴于其操作環(huán)境,報(bào)告應(yīng)提供對(duì)硬件和軟件要求的詳細(xì)信息,以便在每個(gè)研究場(chǎng)所對(duì)AI干預(yù)進(jìn)行技術(shù)整合。例如,應(yīng)該說(shuō)明AI干預(yù)是否需要特定的供應(yīng)商設(shè)備,每個(gè)研究場(chǎng)所是否需要有專門的計(jì)算硬件,或者每個(gè)研究場(chǎng)所是否必須支持云集成,特別是這些設(shè)備是否需要特定的供應(yīng)商。如果在實(shí)施過(guò)程中需要在每個(gè)研究場(chǎng)所對(duì)算法進(jìn)行任何更改(如對(duì)本地?cái)?shù)據(jù)進(jìn)行算法微調(diào)),則還應(yīng)清楚地描述此過(guò)程。
(4)CONSORT-AI 5(ii)擴(kuò)展:描述輸入數(shù)據(jù)是如何獲取和選擇用于AI干預(yù)的。
說(shuō)明:任何AI系統(tǒng)的測(cè)量性能可能在很大程度上取決于輸入數(shù)據(jù)的性質(zhì)和質(zhì)量。應(yīng)提供輸入數(shù)據(jù)處理的說(shuō)明,包括AI系統(tǒng)分析前的采集、選擇和預(yù)處理。該描述的完整性和透明性對(duì)于AI干預(yù)在臨床試驗(yàn)之外的真實(shí)世界的可重復(fù)性是不可或缺的。它還可幫助讀者判斷輸入數(shù)據(jù)在研究場(chǎng)所的處理流程是否標(biāo)準(zhǔn)化。
(5)CONSORT-AI 5(iii)擴(kuò)展:描述如何評(píng)估和處理質(zhì)量差或不可用的輸入數(shù)據(jù)。
說(shuō)明:同CONSORT-AI 4a(ii)一樣,“輸入數(shù)據(jù)”是指AI干預(yù)為達(dá)到其目的所需的數(shù)據(jù)。如4a(ii)所述,AI系統(tǒng)的性能可能會(huì)因輸入數(shù)據(jù)質(zhì)量差或缺失而受到影響(如:心電圖上的過(guò)度運(yùn)動(dòng)偽影)。試驗(yàn)報(bào)告應(yīng)報(bào)告缺失數(shù)據(jù)的數(shù)量,以及如何識(shí)別和處理這些數(shù)據(jù)。報(bào)告還應(yīng)說(shuō)明輸入數(shù)據(jù)是否有最低要求標(biāo)準(zhǔn),以及未達(dá)到最低標(biāo)準(zhǔn)時(shí)如何處理(包括對(duì)受試者管理路徑的影響或任何變化)。
質(zhì)量差或不可用數(shù)據(jù)也會(huì)影響非AI干預(yù)的效果。例如,掃描的質(zhì)量不佳可能會(huì)影響放射科醫(yī)師解釋和診斷的結(jié)果。因此,在對(duì)照干預(yù)中同樣報(bào)告這些信息是很重要的,它們是相關(guān)聯(lián)的。如果最低質(zhì)量標(biāo)準(zhǔn)與隨機(jī)化前評(píng)估的合格輸入數(shù)據(jù)的納入標(biāo)準(zhǔn)不同,應(yīng)加以說(shuō)明。
(6)CONTORT-AI 5(iv)擴(kuò)展:闡述在處理輸入數(shù)據(jù)時(shí)是否存在人-AI交互,以及用戶需要的專業(yè)知識(shí)水平。
說(shuō)明:當(dāng)處理輸入數(shù)據(jù)時(shí),應(yīng)提供人-AI接口的描述和成功交互的要求。例如,臨床醫(yī)師從組織學(xué)切片中選擇感興趣的區(qū)域,然后由AI診斷系統(tǒng)解讀,或由內(nèi)窺鏡醫(yī)師選擇的結(jié)腸鏡檢查視頻片段作為設(shè)計(jì)用于檢測(cè)息肉的算法的輸入數(shù)據(jù)。描述所提供的用戶培訓(xùn),說(shuō)明用戶應(yīng)如何處理輸入數(shù)據(jù),使試驗(yàn)流程透明、可重復(fù)。對(duì)人-AI接口闡述不清可能導(dǎo)致用戶無(wú)法做到標(biāo)準(zhǔn)化操作,并可能引發(fā)倫理問(wèn)題,特別是在發(fā)生傷害的情況下。如:一旦發(fā)生錯(cuò)誤,可能無(wú)法明確是由于人為偏離操作流程,還是AI系統(tǒng)所導(dǎo)致的錯(cuò)誤。
(7)CONTORT-AI 5(v)擴(kuò)展:闡述AI干預(yù)的輸出內(nèi)容。
說(shuō)明:AI干預(yù)的輸出內(nèi)容應(yīng)在試驗(yàn)報(bào)告中明確規(guī)定。例如,AI系統(tǒng)可以輸出診斷分類或概率、推薦的操作、對(duì)事件的報(bào)警(如藥物注射的滴定)或其他輸出。AI干預(yù)輸出的性質(zhì)直接影響其可用性,以及后續(xù)行動(dòng)和最終結(jié)果。
(8)CONSORT-AI 5(vi)擴(kuò)展:解釋AI干預(yù)的結(jié)果將如何有助于臨床決策或臨床實(shí)踐的其他方面。
說(shuō)明:由于受試者的健康結(jié)果可能很依賴用戶如何與AI干預(yù)進(jìn)行交互,試驗(yàn)方案應(yīng)解釋AI系統(tǒng)的輸出結(jié)果如何用于臨床決策或臨床實(shí)踐的其他方面。也應(yīng)詳細(xì)描述能影響干預(yù)結(jié)局的下一步干預(yù)措施。與CONSORT-AI 5(iv)一樣,應(yīng)詳細(xì)描述人-AI交互對(duì)輸出結(jié)果的任何影響,包括理解輸出結(jié)果所需的專業(yè)知識(shí)水平,以及為此提供的任何培訓(xùn)和(或)指導(dǎo)。例如,一個(gè)皮膚癌檢測(cè)系統(tǒng),以概率作為其輸出,應(yīng)該解釋用戶如何解讀這一輸出結(jié)果及如何采取行動(dòng),詳細(xì)說(shuō)明兩種預(yù)期的路徑(如:如果診斷為陽(yáng)性,則行皮膚病變切除術(shù))和進(jìn)入路徑的閾值(如:如果診斷為陽(yáng)性且概率大于80%,則進(jìn)行皮膚病變切除術(shù))。由對(duì)照干預(yù)產(chǎn)生的信息也需同樣描述,并解釋如何使用這些信息來(lái)做出患者管理的臨床決策。臨床決策如何進(jìn)行與預(yù)期如何進(jìn)行(即試驗(yàn)方案中規(guī)定的)之間的任何差異都應(yīng)報(bào)告。
CONSORT-AI 19擴(kuò)展:描述性能錯(cuò)誤分析的結(jié)果,以及如何識(shí)別這些錯(cuò)誤(如適用)。若沒有此計(jì)劃或未進(jìn)行,請(qǐng)說(shuō)明原因。
說(shuō)明:報(bào)告性能錯(cuò)誤和分析失敗案例對(duì)于AI干預(yù)尤為重要。AI系統(tǒng)可能會(huì)產(chǎn)生難以預(yù)見的錯(cuò)誤,但如果進(jìn)行大規(guī)模部署,可能會(huì)產(chǎn)生災(zāi)難性的后果。因此,報(bào)告錯(cuò)誤案例和確定風(fēng)險(xiǎn)控制策略對(duì)于確定何時(shí)以及針對(duì)哪些人群可以安全實(shí)施干預(yù)非常重要。應(yīng)報(bào)告任何性能錯(cuò)誤分析的結(jié)果,并討論結(jié)果的含義。
CORSORT-AI 25擴(kuò)展:說(shuō)明是否以及如何訪問(wèn)AI干預(yù)和(或)其代碼,包括對(duì)訪問(wèn)或重復(fù)使用的任何限制。
說(shuō)明:試驗(yàn)報(bào)告應(yīng)明確是否以及如何訪問(wèn)或重復(fù)使用AI干預(yù)和(或)其代碼。應(yīng)包括相關(guān)許可證和訪問(wèn)限制的詳細(xì)信息。
CORSORT-AI是一個(gè)新的報(bào)告指南的擴(kuò)展版,由國(guó)際多利益相關(guān)者共識(shí)發(fā)展而來(lái)。它的目的是促進(jìn)AI干預(yù)試驗(yàn)報(bào)告的透明度,便于批判性評(píng)價(jià)和證據(jù)合成。CORSORT-AI中增加的擴(kuò)展條目解決了與AI干預(yù)的實(shí)施和評(píng)估有關(guān)的一系列具體問(wèn)題,這些問(wèn)題應(yīng)同時(shí)參考CORSORT 2010核心條目清單和其他CORSORT擴(kuò)展版。需要注意的是,這些是最低要求,報(bào)告清單或補(bǔ)充材料中未包含的附加條目可能也有價(jià)值。
在CONSORT-AI和SPIRIT-AI中,一個(gè)主要的重點(diǎn)是增加了幾項(xiàng)與干預(yù)本身及其在臨床環(huán)境中應(yīng)用有關(guān)的新條目。增加條目5(i)~5(vi)是為了強(qiáng)調(diào)描述干預(yù)措施是專門針對(duì)AI的。提出了與AI系統(tǒng)相關(guān)的具體建議,涉及算法版本、輸入和輸出數(shù)據(jù)、與試驗(yàn)環(huán)境的整合、用戶的專業(yè)知識(shí)以及根據(jù)AI系統(tǒng)建議采取行動(dòng)的方案。我們一致認(rèn)為,這些細(xì)節(jié)對(duì)于獨(dú)立評(píng)估與重復(fù)試驗(yàn)至關(guān)重要。期刊編輯反映,盡管這些條目很重要,但目前在提交用于發(fā)表時(shí),試驗(yàn)報(bào)告中往往沒有這些條目,這進(jìn)一步突顯了將它們納入擴(kuò)展條目的重要性。
AI系統(tǒng)的安全性是德爾菲調(diào)查評(píng)論和共識(shí)小組討論的焦點(diǎn)。不同于其他健康干預(yù)措施,AI系統(tǒng)可能產(chǎn)生不可預(yù)測(cè)的錯(cuò)誤,這些錯(cuò)誤不容易被人類發(fā)現(xiàn)或解釋。例如,對(duì)人眼來(lái)說(shuō),不可見的或隨機(jī)出現(xiàn)的醫(yī)學(xué)影像變化可能會(huì)完全改變?cè)\斷結(jié)果的可能性。令人擔(dān)憂的是,鑒于AI系統(tǒng)在理論上可以輕易地大規(guī)模部署,任何意想不到的有害后果都可能是災(zāi)難性的。CONSORT-AI條目19要求詳細(xì)說(shuō)明性能錯(cuò)誤分析的計(jì)劃,增加該項(xiàng)是為了強(qiáng)調(diào)預(yù)測(cè)算法產(chǎn)生的系統(tǒng)錯(cuò)誤及其后果的重要性。除此之外,也鼓勵(lì)研究者探索不同人群亞組的表現(xiàn)以及錯(cuò)誤率的差異。已有研究表明,AI系統(tǒng)可能有系統(tǒng)誤差,出現(xiàn)不同的輸出,這可能會(huì)導(dǎo)致基于現(xiàn)有特征不同甚至不公平的治療。
在共識(shí)會(huì)議期間,參會(huì)者詳細(xì)討論了一個(gè)未包括在CONSORT-AI指南中的主題,即“不斷發(fā)展”的AI系統(tǒng)(也稱為“不斷適應(yīng)”或“不斷學(xué)習(xí)”的AI系統(tǒng))。AI系統(tǒng)能夠根據(jù)新數(shù)據(jù)不斷進(jìn)行訓(xùn)練,隨著時(shí)間的推移可能會(huì)導(dǎo)致性能發(fā)生變化。工作小組指出,盡管這一領(lǐng)域很有趣,但它的發(fā)展相對(duì)處于早期,在醫(yī)療保健應(yīng)用方面沒有具體的例子,因此在現(xiàn)階段將其納入CONSORT-AI并不合適。工作組將持續(xù)關(guān)注這一主題,并將在CONSORT-AI的未來(lái)更新中重新討論。值得注意的是,軟件的增量更新,無(wú)論是連續(xù)的還是迭代的,有目的性的還是無(wú)目的性的,都可能對(duì)部署后的安全性能產(chǎn)生嚴(yán)重的后果。因此,按軟件版本記錄和識(shí)別這些更新是至關(guān)重要的,并應(yīng)制訂強(qiáng)有力的部署后監(jiān)督計(jì)劃。
本研究是在目前AI在健康領(lǐng)域應(yīng)用的背景下進(jìn)行的,因此,應(yīng)注意以下局限性。第一,在醫(yī)療AI領(lǐng)域,已發(fā)表的干預(yù)試驗(yàn)相對(duì)較少,因此,本研究中所做的討論和決定并不總是得到現(xiàn)有已完成試驗(yàn)實(shí)例的支持。這是因?yàn)槲覀兊哪康氖潜M早解決該領(lǐng)域報(bào)告質(zhì)量不佳的問(wèn)題,認(rèn)識(shí)到該領(lǐng)域的強(qiáng)大驅(qū)動(dòng)力以及AI研究設(shè)計(jì)和報(bào)告存在的具體挑戰(zhàn)。隨著AI科學(xué)和研究的發(fā)展,我們歡迎與研究人員合作,共同發(fā)展試驗(yàn)報(bào)告標(biāo)準(zhǔn),以確保它們的持續(xù)相關(guān)性。第二,對(duì)AI隨機(jī)對(duì)照試驗(yàn)的文獻(xiàn)檢索使用了“人工智能”“機(jī)器學(xué)習(xí)”和“深度學(xué)習(xí)”等術(shù)語(yǔ),但沒有使用“臨床決策支持系統(tǒng)”或“專家系統(tǒng)”等術(shù)語(yǔ),這些術(shù)語(yǔ)更常用于20世紀(jì)90年代由AI系統(tǒng)支持的技術(shù),與最近的案例具有相似的風(fēng)險(xiǎn)。這些系統(tǒng)如果如今發(fā)表很可能會(huì)在“人工智能”或“機(jī)器學(xué)習(xí)”下被索引。然而,在本次共識(shí)過(guò)程中,臨床決策支持系統(tǒng)并沒有得到積極的討論。第三,最初的候選條目列表是由范圍相對(duì)較小的專家組提出,該專家組由指導(dǎo)小組成員和其他國(guó)際專家組成。但是,由規(guī)模更大的德爾菲專家小組提出的新項(xiàng)目在共識(shí)小組進(jìn)行了討論,共識(shí)會(huì)議期間或會(huì)后評(píng)估期間沒有新項(xiàng)目提出。
與CONSORT聲明一樣,CONSORT-AI擴(kuò)展旨在作為最低限度的AI報(bào)告指南,對(duì)于試驗(yàn)報(bào)告,還有AI相關(guān)的其他注意事項(xiàng)可能值得考慮。此擴(kuò)展目的是使研究者和讀者報(bào)告或評(píng)價(jià)臨床試驗(yàn),不過(guò),它也可以在AI系統(tǒng)的早期驗(yàn)證階段為AI干預(yù)的開發(fā)者提供有用的指導(dǎo)。開發(fā)和驗(yàn)證AI模型的診斷和預(yù)測(cè)性能的研究人員,在研究報(bào)告時(shí)應(yīng)參考“基于機(jī)器學(xué)習(xí)的個(gè)體化預(yù)后或診斷的多變量預(yù)測(cè)模型透明報(bào)告”(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis-Machine Learning,TRIPODML)和“基于AI診斷準(zhǔn)確性研究的報(bào)告標(biāo)準(zhǔn)”(Standards for Reporting Diagnostic Accuracy Studies-Artificial Intelligence,STARD-AI),這兩個(gè)報(bào)告標(biāo)準(zhǔn)目前都在開發(fā)中。其他與研究設(shè)計(jì)無(wú)關(guān)的相關(guān)指南已在EQUATOR協(xié)作網(wǎng)注冊(cè)。CONSORT-AI擴(kuò)展有助于AI干預(yù)的臨床試驗(yàn)在早期進(jìn)行詳細(xì)規(guī)劃,與SPIRIT-AI相結(jié)合,將有助于提高AI干預(yù)試驗(yàn)的質(zhì)量。CONSORT-AI指南的開發(fā)不包括試驗(yàn)報(bào)告討論部分的附加條目。CONSORT 2010中關(guān)于試驗(yàn)局限性、普遍性和解釋的指導(dǎo)同樣適用于AI干預(yù)試驗(yàn)。
AI是一個(gè)快速發(fā)展的領(lǐng)域,隨著技術(shù)和新應(yīng)用的發(fā)展,CONSORT-AI也需要更新。目前,AI的大多數(shù)應(yīng)用涉及疾病檢測(cè)、診斷和分診,這很可能已經(jīng)影響了CONSORT-AI條目的類型和優(yōu)先順序。隨著更多“AI成為治療手段”應(yīng)用的出現(xiàn),根據(jù)相關(guān)研究繼續(xù)評(píng)估CONSORT-AI將十分重要。此外,計(jì)算機(jī)技術(shù)以及將其整合到臨床工作流程的能力在不斷進(jìn)步,將為醫(yī)療創(chuàng)新帶來(lái)新的機(jī)遇,從而使患者受益。然而,研究設(shè)計(jì)和報(bào)告也可能伴隨新的挑戰(zhàn)。為了保證試驗(yàn)透明度,最大限度地減少潛在的偏差,提高結(jié)果的可信度和可推廣度,SPIRIT-AI和CONSORT-AI指導(dǎo)小組將持續(xù)關(guān)注指南更新的需要。