楊衛(wèi)華,邵 毅,許言午,《眼科人工智能臨床研究評(píng)價(jià)指南(03)》專家組,中國(guó)醫(yī)藥教育協(xié)會(huì)眼科影像與智能醫(yī)療分會(huì),中國(guó)醫(yī)藥教育協(xié)會(huì)智能醫(yī)學(xué)專業(yè)委員會(huì)
人工智能(artificial intelligence,AI)是計(jì)算機(jī)科學(xué)的一個(gè)分支,旨在開發(fā)智能機(jī)器,使它們能夠像人類一樣進(jìn)行學(xué)習(xí)、推理、判斷和決策。AI包含很多子領(lǐng)域和技術(shù),如自然語言處理、計(jì)算機(jī)視覺[1]、機(jī)器學(xué)習(xí)[2]、深度學(xué)習(xí)網(wǎng)絡(luò)[3]等。AI被廣泛應(yīng)用于醫(yī)療保健、金融、交通運(yùn)輸、制造等領(lǐng)域[4]。隨著計(jì)算機(jī)技術(shù)和數(shù)據(jù)處理能力的不斷提升,AI的發(fā)展和應(yīng)用也越來越廣泛和深入。眼科疾病是影響全球人口健康的重要疾病之一,包括白內(nèi)障、青光眼、糖尿病視網(wǎng)膜病變、年齡相關(guān)性黃斑變性、病理性近視等。臨床研究對(duì)于了解疾病的病理生理機(jī)制、發(fā)展預(yù)防和治療策略、提高患者生活質(zhì)量以及降低醫(yī)療成本等方面都具有重要意義。AI在眼科臨床研究領(lǐng)域的應(yīng)用主要包括眼科疾病的預(yù)測(cè)和診斷[5-6]、治療和干預(yù)、預(yù)防和管理等[7-8]。其中,基于眼科影像和AI技術(shù)的眼科疾病的早期篩查系統(tǒng),如糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件[9]、眼底病變眼底圖像輔助診斷軟件(適用于慢性青光眼樣視神經(jīng)病變、糖尿病視網(wǎng)膜病變)[10-11]、慢性青光眼樣視神經(jīng)病變眼底圖像輔助診斷軟件等產(chǎn)品均通過了中國(guó)國(guó)家藥品監(jiān)督管理局三類醫(yī)療器械注冊(cè)證的注冊(cè)審批。
基于眼科影像和AI技術(shù)的眼科AI臨床研究如火如荼,隨著眼科AI臨床研究的不斷增多,確保其質(zhì)量和可靠性的評(píng)價(jià)指南變得尤為必要。這不僅可以確保研究數(shù)據(jù)的準(zhǔn)確性和有效性,而且能提高研究的可重復(fù)性和可比性。此外,對(duì)AI算法和模型的驗(yàn)證和認(rèn)證也非常關(guān)鍵,以確保其在真實(shí)臨床環(huán)境中的有效性和可靠性[12-13]。因此,中國(guó)醫(yī)藥教育協(xié)會(huì)眼科影像與智能醫(yī)療分會(huì)和智能醫(yī)學(xué)專業(yè)委員會(huì)組織成立了《眼科人工智能臨床研究評(píng)價(jià)指南(2023)》專家組,制定適用于眼科AI臨床研究評(píng)價(jià)的指南。本指南主要針對(duì)基于眼科影像和AI技術(shù)[14-15]的眼科AI臨床研究,旨在全面總結(jié)眼科AI臨床研究評(píng)價(jià)的方法,可以保障眼科AI臨床研究的質(zhì)量和可靠性,促進(jìn)眼科AI臨床研究的透明度和規(guī)范性,同時(shí)保護(hù)研究參與者隱私和數(shù)據(jù)安全,平穩(wěn)推動(dòng)眼科AI臨床研究和應(yīng)用的發(fā)展。
基于目前眼科AI臨床研究評(píng)價(jià)問題,中國(guó)醫(yī)藥教育協(xié)會(huì)眼科影像與智能醫(yī)療分會(huì)、智能醫(yī)學(xué)專業(yè)委員會(huì)組織眼科AI專家、眼科臨床研究專家、眼科醫(yī)學(xué)倫理專家和眼科AI產(chǎn)品研發(fā)科學(xué)家于2022-07成立眼科AI臨床研究評(píng)價(jià)指南專家組,于 2022-07-25開始對(duì)眼科AI臨床研究的相關(guān)專家進(jìn)行訪談,收集并整理相關(guān)領(lǐng)域中涉及的眼科AI臨床研究評(píng)價(jià)問題及在相關(guān)AI技術(shù)臨床研究中面臨的困難。由于眼科AI臨床研究評(píng)價(jià)尚未形成統(tǒng)一的可遵守的指南,本指南專家組在認(rèn)真學(xué)習(xí)國(guó)內(nèi)外眼科AI臨床研究文獻(xiàn)、研究文獻(xiàn)的基礎(chǔ)上,結(jié)合眼科AI臨床研究的實(shí)踐經(jīng)驗(yàn),召開線下和線上會(huì)議,針對(duì)收集的眼科AI臨床研究評(píng)價(jià)問題進(jìn)行充分討論和論證。由執(zhí)筆專家組成員撰寫指南初稿,初稿形成后通過電子郵件和微信方式由各位專家獨(dú)立閱讀并提出修改意見,分別提交指南撰寫組核心成員,修改意見經(jīng)過整理并通過微信、郵件方式和線上會(huì)議進(jìn)行討論和歸納。指南在修改期間充分接受參與專家的建議和指導(dǎo)意見,最終達(dá)成指南終稿,旨在指導(dǎo)眼科AI臨床研究評(píng)價(jià)。本指南制定過程歷時(shí)近1a。
目前,國(guó)際上還沒有針對(duì)眼科AI臨床研究的評(píng)價(jià)指南。然而,有一些通用的規(guī)范AI臨床研究或臨床試驗(yàn)的指南可以參考。例如2020年發(fā)布的干預(yù)性臨床試驗(yàn)的建議-AI擴(kuò)展版(Standard Protocol Items: Recommendations for Interventional Trials-Artificial Intelligence, SPIRIT-AI)[16]和臨床試驗(yàn)報(bào)告統(tǒng)一標(biāo)準(zhǔn)-AI擴(kuò)展版(Consolidated Standards of Reporting Trials-Artificial Intelligence, CONSORT-AI)[17],2021年發(fā)布的診斷準(zhǔn)確性研究報(bào)告標(biāo)準(zhǔn)-AI擴(kuò)展版(Standards for Reporting of Diagnostic accuracy studies-Artificial Intelligence, STARD-AI)[18]和個(gè)體預(yù)后或診斷的多變量預(yù)測(cè)模型的透明報(bào)告-AI擴(kuò)展版(Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis-Artificial Intelligence, TRIPOD-AI)[19]。其中,SPIRIT-AI是涉及AI的干預(yù)措施臨床試驗(yàn)的規(guī)范性指南,針對(duì)AI臨床試驗(yàn)方案應(yīng)報(bào)告的特定信息,應(yīng)與SPIRIT 2013和其他SPIRIT擴(kuò)展指南一同使用,目的是促進(jìn)AI臨床試驗(yàn)設(shè)計(jì)和方法的透明度,以促進(jìn)理解、解釋和同行評(píng)審[16]。類似地,CONSORT-AI用于規(guī)范涉及AI的干預(yù)措施臨床試驗(yàn)報(bào)告,建議提供對(duì)AI干預(yù)措施的清晰描述,包括使用所需的指導(dǎo)和技能、AI干預(yù)集成的環(huán)境、AI干預(yù)的輸入和輸出處理、AI與人類的交互以及錯(cuò)誤案例分析,促進(jìn)AI干預(yù)措施臨床試驗(yàn)報(bào)告的透明度和完整性[17]。STARD-AI是用于規(guī)范以AI為核心的診斷測(cè)試準(zhǔn)確性研究報(bào)告的指南,提出需對(duì)數(shù)據(jù)預(yù)處理方法、AI測(cè)試開發(fā)方法(如數(shù)據(jù)集劃分、模型校準(zhǔn)、訓(xùn)練時(shí)停止準(zhǔn)則、使用外部驗(yàn)證集)、公平度量指標(biāo)、非標(biāo)準(zhǔn)性能指標(biāo)、可解釋性以及人與AI測(cè)試的交互等內(nèi)容進(jìn)行報(bào)告,旨在提高AI診斷測(cè)試準(zhǔn)確性研究的透明度和公平性[18]。TRIPOD-AI是針對(duì)多變量AI預(yù)測(cè)模型研究報(bào)告的指南,以幫助研究者透明地報(bào)告研究?jī)?nèi)容,并幫助查閱者理解研究方法和結(jié)果,從而減少研究浪費(fèi)[19]。
眼科AI臨床研究的環(huán)節(jié)包括眼科檢查數(shù)據(jù)采集和管理、模型開發(fā)、臨床試驗(yàn)、臨床應(yīng)用4個(gè)關(guān)鍵環(huán)節(jié)。本指南將針對(duì)這些關(guān)鍵環(huán)節(jié)介紹評(píng)價(jià)方法。值得注意的是,眼科AI臨床研究模型可按照臨床應(yīng)用的任務(wù)分為干預(yù)模型、診斷模型、預(yù)測(cè)模型[20-21]3種。具體地,眼科AI干預(yù)模型可作為獨(dú)立干預(yù)措施或聯(lián)合常規(guī)干預(yù)措施用于對(duì)特定疾病或癥狀的治療、預(yù)防或管理等;眼科AI診斷模型用于確定是否存在某種疾病或病變及其分類、分級(jí);眼科AI預(yù)測(cè)模型用于根據(jù)研究參與者的特征預(yù)測(cè)未來疾病的風(fēng)險(xiǎn)或治療的效果。因此,對(duì)模型評(píng)價(jià)方法的介紹將按這3種眼科AI臨床研究模型分別展開。此外,由于臨床試驗(yàn)是醫(yī)療器械在國(guó)內(nèi)和國(guó)外上市的必要條件[22-23],本指南將在第4節(jié)單獨(dú)介紹眼科AI臨床試驗(yàn)的評(píng)價(jià)方法。
3.1 眼科AI臨床研究通用評(píng)價(jià)方法
3.1.1 數(shù)據(jù)采集和管理的評(píng)價(jià)針對(duì)眼科AI臨床研究中數(shù)據(jù)采集和管理環(huán)節(jié)的評(píng)價(jià)是為了確保研究數(shù)據(jù)的數(shù)量、質(zhì)量、完整性、安全性以及可靠性[24]。具體的評(píng)價(jià)方法建議覆蓋以下幾個(gè)方面:(1)數(shù)據(jù)數(shù)量評(píng)價(jià):評(píng)價(jià)收集數(shù)據(jù)的數(shù)量,確保其符合臨床研究中模型的開發(fā)、性能的驗(yàn)證等要求。(2)數(shù)據(jù)質(zhì)量評(píng)價(jià):評(píng)價(jià)數(shù)據(jù)的質(zhì)量[25-26],包括數(shù)據(jù)的完整性、準(zhǔn)確性、邏輯性、一致性和可用性等,確保數(shù)據(jù)的質(zhì)量符合要求[27]。(3)數(shù)據(jù)清洗評(píng)價(jià):評(píng)價(jià)數(shù)據(jù)清洗過程是否保持脫敏、是否符合邏輯、是否有效等。(4)數(shù)據(jù)標(biāo)簽評(píng)價(jià):評(píng)價(jià)數(shù)據(jù)標(biāo)簽,即參考標(biāo)準(zhǔn)[28]的構(gòu)建過程和標(biāo)簽質(zhì)量,確保數(shù)據(jù)標(biāo)簽可靠。對(duì)于依賴人工標(biāo)注而生成的標(biāo)簽,需評(píng)價(jià)標(biāo)注流程的規(guī)范性、標(biāo)注人員和設(shè)備、標(biāo)注過程以及標(biāo)注質(zhì)量[29]。(5)數(shù)據(jù)存儲(chǔ)評(píng)價(jià):評(píng)價(jià)數(shù)據(jù)的存儲(chǔ)質(zhì)量,確保數(shù)據(jù)的存儲(chǔ)安全且符合要求。常用的方法包括檢查數(shù)據(jù)的存儲(chǔ)位置、存儲(chǔ)介質(zhì)和存儲(chǔ)方式等。(6)數(shù)據(jù)管理評(píng)價(jià):評(píng)價(jià)數(shù)據(jù)的管理質(zhì)量,確保數(shù)據(jù)的管理安全且符合要求。常用的方法包括檢查數(shù)據(jù)的管理過程和數(shù)據(jù)管理人員的能力等[30]。(7)數(shù)據(jù)使用評(píng)價(jià):評(píng)價(jià)數(shù)據(jù)的使用質(zhì)量,確保數(shù)據(jù)的使用以及共享過程安全且符合要求。常用的方法包括檢查數(shù)據(jù)使用的目的、范圍、倫理性[31]、合法性,以及數(shù)據(jù)共享的政策、共享方式和目的等。
3.1.2 眼科AI模型開發(fā)的評(píng)價(jià)針對(duì)眼科AI臨床研究中模型開發(fā)環(huán)節(jié)的評(píng)價(jià)是為了確保研究開發(fā)的模型具有高質(zhì)量、可靠性以及穩(wěn)定性。具體的評(píng)價(jià)方法建議覆蓋以下幾個(gè)方面:(1)開發(fā)數(shù)據(jù)集的評(píng)價(jià):評(píng)價(jià)開發(fā)AI模型所使用的數(shù)據(jù)集的質(zhì)量、數(shù)量、均衡性是否足夠,數(shù)據(jù)集的代表性如何,訓(xùn)練集、驗(yàn)證集、測(cè)試集的劃分是否合理;評(píng)價(jià)標(biāo)簽的定義方法是否有充分的臨床依據(jù)。(2)特征選擇和提取評(píng)價(jià):若需要人工選擇特征,則評(píng)價(jià)選擇的特征是否能夠?qū)δP偷男阅墚a(chǎn)生重要影響,同時(shí)評(píng)價(jià)特征提取方法是否合適。(3)眼科AI模型性能評(píng)價(jià):使用常見的指標(biāo)評(píng)價(jià)模型的性能,確保模型能夠準(zhǔn)確地預(yù)測(cè)目標(biāo)變量,詳見3.2小節(jié)。(4)交叉驗(yàn)證:使用交叉驗(yàn)證方法(如k折交叉驗(yàn)證)來評(píng)價(jià)模型的泛化能力,確保模型能夠在新數(shù)據(jù)上進(jìn)行準(zhǔn)確預(yù)測(cè)。(5)模型解釋性評(píng)價(jià):評(píng)價(jià)模型的解釋性,確保模型的預(yù)測(cè)結(jié)果可被臨床解釋和理解。(6)模型穩(wěn)定性評(píng)價(jià):評(píng)價(jià)模型對(duì)數(shù)據(jù)噪聲和隨機(jī)性的穩(wěn)定性,確保模型在面對(duì)不同數(shù)據(jù)集時(shí)能夠產(chǎn)生一致的結(jié)果。(7)模型適應(yīng)性評(píng)價(jià):評(píng)價(jià)模型在不同群體和不同環(huán)境下的適應(yīng)性,確保模型能夠在實(shí)際應(yīng)用中產(chǎn)生準(zhǔn)確的結(jié)果。
3.1.3 眼科AI模型臨床應(yīng)用的評(píng)價(jià)針對(duì)眼科AI模型臨床應(yīng)用的評(píng)價(jià)是為了確保臨床應(yīng)用的安全、有效以及可重復(fù)性。具體的評(píng)價(jià)方法建議覆蓋以下幾個(gè)方面:(1)安全性評(píng)價(jià):評(píng)價(jià)臨床應(yīng)用過程是否存在數(shù)據(jù)隱私和安全性等方面的問題,以保護(hù)研究參與者的隱私權(quán)和個(gè)人信息。(2)內(nèi)部有效性評(píng)價(jià):評(píng)價(jià)研究結(jié)果的準(zhǔn)確性、可信度和適用性。內(nèi)部有效性的高低取決于研究設(shè)計(jì)的合理性、研究組和對(duì)照組的選取和分配、盲法設(shè)計(jì)、研究過程中的控制和管理以及數(shù)據(jù)分析的可靠性等因素。(3)外部有效性評(píng)價(jià):評(píng)價(jià)研究結(jié)果的推廣能力和普適性。外部有效性的高低取決于研究樣本的代表性、試驗(yàn)環(huán)境的真實(shí)性、研究方法的通用性和研究結(jié)果的適用性等因素。(4)可重復(fù)性評(píng)價(jià):評(píng)價(jià)研究結(jié)果是否能被重復(fù)驗(yàn)證,即評(píng)價(jià)AI模型在不同數(shù)據(jù)集上的性能是否穩(wěn)定、性能波動(dòng)范圍是否可接受,在不同設(shè)備上的表現(xiàn)是否一致,在同一數(shù)據(jù)多次輸入情況下的預(yù)測(cè)結(jié)果是否一致??芍貜?fù)性的高低取決于模型開發(fā)階段數(shù)據(jù)的代表性、研究過程的透明度、研究方法的清晰度、數(shù)據(jù)的公開性和分析的可重復(fù)性等因素。(5)應(yīng)用效果評(píng)價(jià):評(píng)價(jià)臨床應(yīng)用中的效果,包括對(duì)患者診斷和治療的指導(dǎo)和改善程度。(6)衛(wèi)生經(jīng)濟(jì)學(xué)分析評(píng)價(jià):評(píng)價(jià)在臨床應(yīng)用中的衛(wèi)生經(jīng)濟(jì)學(xué)價(jià)值,包括成本效果分析、成本效用分析、成本效益分析等,成本包括人力、物力和經(jīng)濟(jì)成本等,產(chǎn)出指標(biāo)包括實(shí)際應(yīng)用過程中產(chǎn)生的臨床效果、質(zhì)量調(diào)整生命年和節(jié)約的醫(yī)療費(fèi)用等。
3.2 眼科AI臨床研究模型評(píng)價(jià)方法
3.2.1 眼科AI干預(yù)模型的評(píng)價(jià)眼科AI干預(yù)模型可作為獨(dú)立干預(yù)措施或聯(lián)合常規(guī)干預(yù)措施用于對(duì)特定疾病或癥狀的治療、預(yù)防或管理等。為證明眼科AI干預(yù)模型對(duì)治療目標(biāo)病癥有效,眼科AI干預(yù)模型臨床研究的評(píng)價(jià)主要指標(biāo)是干預(yù)過程評(píng)價(jià)和干預(yù)效果評(píng)價(jià)兩方面。干預(yù)過程的評(píng)價(jià)可通過與常規(guī)干預(yù)措施直接比較,從干預(yù)過程的時(shí)長(zhǎng)、安全性和有效性、衛(wèi)生經(jīng)濟(jì)學(xué)等方面開展評(píng)價(jià),根據(jù)指標(biāo)數(shù)據(jù)的類型選擇適合的統(tǒng)計(jì)學(xué)方法進(jìn)行比較[32-34]。干預(yù)效果的評(píng)價(jià)通常使用臨床結(jié)局指標(biāo)來衡量,如死亡率、疾病復(fù)發(fā)率、生存期等,可以通過干預(yù)后癥狀減輕、疾病進(jìn)展或生存率等結(jié)果來評(píng)價(jià),詳見3.3.1小節(jié)。
3.2.2 眼科AI診斷模型的評(píng)價(jià)診斷模型是用于確定是否存在某種疾病或病變的模型。評(píng)價(jià)診斷模型的主要目標(biāo)是考察其診斷準(zhǔn)確性,可使用的評(píng)價(jià)指標(biāo)可包括靈敏度、特異度、準(zhǔn)確率和Kappa一致性系數(shù)等,詳見3.3.2小節(jié)。
3.2.3 眼科AI預(yù)測(cè)模型的評(píng)價(jià)預(yù)測(cè)模型用于根據(jù)研究參與者的特征預(yù)測(cè)疾病的風(fēng)險(xiǎn)、生理結(jié)構(gòu)的變化,或預(yù)測(cè)治療效果。評(píng)價(jià)預(yù)測(cè)模型可包含評(píng)價(jià)疾病未來發(fā)生與否的分類結(jié)果,評(píng)價(jià)未來生理結(jié)構(gòu)測(cè)量參數(shù)的回歸結(jié)果等。在有明確預(yù)測(cè)標(biāo)簽(參考標(biāo)準(zhǔn))的情況下,可使用的評(píng)價(jià)指標(biāo)可包括均方根誤差、平均絕對(duì)誤差、靈敏度、特異度等;在沒有明確預(yù)測(cè)標(biāo)簽(參考標(biāo)準(zhǔn))的情況下,可使用的評(píng)價(jià)指標(biāo)可包括與其他優(yōu)秀方法獲得結(jié)果的陽性符合率、陰性符合率、總符合率等,詳見3.3.3小節(jié)。
3.3 常用眼科AI臨床研究模型評(píng)價(jià)指標(biāo)和計(jì)算公式本指南提供了常用的眼科AI模型評(píng)價(jià)指標(biāo)及其計(jì)算公式[28,35],不同模型的臨床研究應(yīng)根據(jù)實(shí)現(xiàn)的任務(wù)選擇不同的指標(biāo)進(jìn)行評(píng)價(jià)。
3.3.1 眼科AI干預(yù)模型的常用結(jié)局評(píng)價(jià)指標(biāo)和計(jì)算公式
(1)干預(yù)模型死亡率,指研究參與者在干預(yù)后死亡的比例:
①
(2)干預(yù)模型疾病復(fù)發(fā)率,指研究參與者在干預(yù)后疾病再次發(fā)作的比例:
②
(3)干預(yù)模型生存期,指研究參與者從干預(yù)開始到死亡或失訪之間的天數(shù)。
3.3.2 眼科AI診斷模型的常用評(píng)價(jià)指標(biāo)和計(jì)算公式
(1)混淆矩陣,一種特殊的、具有兩個(gè)維度的可視化矩陣,可用于監(jiān)督學(xué)習(xí)評(píng)價(jià)時(shí)比較分類結(jié)果和實(shí)際測(cè)得值?;煜仃嚨拿恳恍写砹祟A(yù)測(cè)類別,每一行的數(shù)據(jù)總數(shù)表示預(yù)測(cè)為該類別的數(shù)據(jù)的數(shù)目;每一列代表了數(shù)據(jù)的真實(shí)歸屬類別,每一列的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)數(shù)目;每一元素中的數(shù)值表示對(duì)應(yīng)真實(shí)類別數(shù)據(jù)被預(yù)測(cè)某類的數(shù)目(表1)。
表1 混淆矩陣示意
(2)靈敏度(Sensitivity, Sen),又可稱召回率(Recall, R)、查全率,是真陽性樣本占全體陽性樣本的比例:
③
(3)特異度(Specificity, Spe),真陰性樣本占全體陰性樣本的比例:
④
(4)似然比(Likelihood Ratio, LR),同時(shí)反映敏感度和特異度的復(fù)合指標(biāo),即患病者中得出某一篩檢研究結(jié)果的概率與未患病者得出這一概率的比值。
陽性似然比(Positive Likelihood Ratio, +LR), 篩檢結(jié)果的真陽性率與假陽性率之比,比值越大,研究結(jié)果陽性時(shí)為真陽性的概率越大:
⑤
陰性似然比(Negative Likelihood Ratio, -LR),篩檢結(jié)果的假陰性率與真陰性率之比,其比值越小,研究結(jié)果陰性時(shí)為真陰性的可能性越大:
⑥
(5)準(zhǔn)確率(Accuracy, Acc),算法診斷正確的樣本占全體樣本的比例:
⑦
(6)精確率(Precision, Pre),又稱陽性預(yù)測(cè)值(Positive Prediction Value, PPV)、查準(zhǔn)率,是真陽性樣本占算法判為陽性樣本的比例:
⑧
(7)陰性預(yù)測(cè)值(Negative Prediction Value, NPV),真陰性樣本占被算法判為陰性樣本的比例:
⑨
(8)漏檢率(Miss Rate, MR),也稱為漏報(bào)率、漏診率、漏警率、假陰性率,即檢測(cè)中未發(fā)現(xiàn)的陽性樣本占全體陽性樣本的比例:
⑩
(9)誤檢率(False Alarm Rate, FA),也稱為誤報(bào)率、誤診率、虛警率、假陽性率,即全體陰性樣本中被錯(cuò)誤地預(yù)測(cè)為陽性樣本的比例:
(10)F1分?jǐn)?shù)(F1Score),召回率和精確率的調(diào)和平均數(shù):
式中,P表示精確率;R表示召回率。
(11)約登指數(shù)(Youden Index, YI),也稱正確指數(shù),假設(shè)假陰性(漏診率)和假陽性(誤診率)危害同等意義,約登指數(shù)為靈敏度與特異度之和減去1,指數(shù)越大說明篩查效果越好。
YI=Sen+Spe-1
(12)Kappa系數(shù)(Kappa Value),用于評(píng)價(jià)篩查系統(tǒng)與參考標(biāo)注診斷結(jié)果一致性的指標(biāo):
式中po=(TP+TN)/N,pe=(R1C1+R2C2)/N×N,即:
(13)受試者操作特征(Receiver operating characteristic,ROC)曲線下面積(area under curve,AUC):ROC是通過在一組(一系列)預(yù)設(shè)閾值下估計(jì)的篩查系統(tǒng)在測(cè)試集上的靈敏度和特異度,從而產(chǎn)生一組(1-特異度,靈敏度)操作點(diǎn),將這些操作點(diǎn)依次連接形成的曲線,AUC即為該曲線和X軸所圍成的面積(圖1),可用于度量分類模型的性能,取值范圍一般為0.5~1,且值越大代表模型分類效果越好。
圖1 ROC曲線及AUC指標(biāo)與PR曲線示意圖 A:ROC曲線;B:PR曲線。
(14)精確率-召回率(Precision-Recall,PR)曲線:PR曲線與ROC類似,是通過在一組(一系列)預(yù)設(shè)閾值下估計(jì)的篩查系統(tǒng)在測(cè)試集上的精確率和召回率,從而產(chǎn)生一組(召回率,精確率)操作點(diǎn),將這些點(diǎn)依次連接形成的曲線(圖1)。
3.3.3 眼科AI預(yù)測(cè)模型的常用評(píng)價(jià)指標(biāo)和計(jì)算公式預(yù)測(cè)模型若輸出分類類別結(jié)果,則可使用3.3.2小節(jié)提供的評(píng)價(jià)指標(biāo)和計(jì)算公式進(jìn)行評(píng)價(jià);若輸出為連續(xù)數(shù)值結(jié)果,則可使用如下的評(píng)價(jià)指標(biāo)和計(jì)算公式:
(1)均方根誤差(Root Mean Square Error, RMSE)可以衡量預(yù)測(cè)值和真值之間的偏差,能夠反映出測(cè)量的精確度。均方根誤差越接近于0,表明模型對(duì)于目標(biāo)值預(yù)測(cè)的效果越好:
(2)平均絕對(duì)誤差 (Mean Absolute Error, MAE),是各個(gè)測(cè)量值與參考標(biāo)準(zhǔn)的偏差絕對(duì)值的平均值。平均絕對(duì)誤差可避免誤差相互抵消的問題,準(zhǔn)確地反映實(shí)際預(yù)測(cè)誤差的大小:
(3)平均絕對(duì)百分比誤差(Mean Absolute Percentage Error, MAPE),是一種相對(duì)度量,相較于MAE,MAPE計(jì)算了預(yù)測(cè)值和參考標(biāo)準(zhǔn)偏差相對(duì)參考標(biāo)準(zhǔn)的百分比:
MAPE的范圍是[0,+∞),值為0代表完美模型,值大于100%代表劣質(zhì)模型。注意當(dāng)參考標(biāo)注值為0時(shí)公式不可用。
(4)對(duì)稱平均絕對(duì)百分比誤差(Symmetric Mean Absolute Percentage Error,SMAPE),與MAPE相比,計(jì)算公式分母中的參考標(biāo)準(zhǔn)絕對(duì)值被替換為參考標(biāo)準(zhǔn)絕對(duì)值和預(yù)測(cè)值絕對(duì)值的中值:
SMAPE的取值范圍為[0,200%],當(dāng)參考標(biāo)準(zhǔn)和預(yù)測(cè)值同時(shí)為0時(shí)公式不可用。
(5)R2,也叫決定系數(shù),是回歸預(yù)測(cè)值和標(biāo)定值之間擬合程度的統(tǒng)計(jì)系數(shù)。R2值介于0~1之間,越接近0,表明模型的預(yù)測(cè)結(jié)果越接近隨機(jī);越接近1,表明模型回歸預(yù)測(cè)目標(biāo)值的擬合效果越好:
(6)當(dāng)預(yù)測(cè)模型輸出的參考標(biāo)準(zhǔn)未知時(shí),可將待評(píng)價(jià)方法結(jié)果與其他方法獲得的結(jié)果進(jìn)行符合率的計(jì)算,如陽性符合率、陰性符合率、總符合率,如表2[36]和公式所示:
表2 參考標(biāo)準(zhǔn)未知的2×2表
(7)對(duì)預(yù)測(cè)模型除了評(píng)價(jià)其準(zhǔn)確性,對(duì)其校準(zhǔn)或擬合優(yōu)度的考察也十分重要。校準(zhǔn)或擬合優(yōu)度被認(rèn)為是預(yù)測(cè)模型最重要的屬性之一,它反映了預(yù)測(cè)模型正確估計(jì)絕對(duì)風(fēng)險(xiǎn)的程度,校準(zhǔn)不當(dāng)?shù)念A(yù)測(cè)模型會(huì)低估或高估目標(biāo)結(jié)果[37]。校準(zhǔn)或擬合優(yōu)度的評(píng)價(jià)方法通常使用Hosmer-Lemeshow擬合度檢驗(yàn)和校準(zhǔn)曲線。
Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)(HL檢驗(yàn))[37],用于判斷預(yù)測(cè)值與真實(shí)值之間的差異情況。若P≤0.05,表示預(yù)測(cè)值與真實(shí)值之間的差異具有統(tǒng)計(jì)學(xué)意義,說明模型擬合度較差;若P>0.05,則提示通過HL檢驗(yàn),說明預(yù)測(cè)值與真實(shí)值之間無明顯差異[38]。
校準(zhǔn)曲線(Calibration Curve)[37]用于輔助觀察模型的預(yù)測(cè)概率是否接近于真實(shí)概率,是實(shí)際發(fā)生率-預(yù)測(cè)發(fā)生率的散點(diǎn)圖,本質(zhì)上是擬合優(yōu)度檢驗(yàn)的結(jié)果可視化。
3.3.4 眼科AI臨床研究中其他常用評(píng)價(jià)指標(biāo)和計(jì)算公式
(1)數(shù)據(jù)有效使用率,是數(shù)據(jù)收集和處理過程中,最終被有效使用的數(shù)據(jù)占總數(shù)據(jù)量的比例:
(2)樣本量估算公式,可根據(jù)眼科AI模型的預(yù)期效果,推導(dǎo)測(cè)試集中各類別數(shù)據(jù)需要的數(shù)量:
式中,Z為置信水平的Z統(tǒng)計(jì)量,Δ為允許誤差,P為預(yù)期的準(zhǔn)確率、靈敏度、特義度等評(píng)價(jià)指標(biāo),N為所需樣本量。通常設(shè)定參數(shù)估計(jì)雙側(cè)可信區(qū)間的可信度為95%(即Ⅰ類錯(cuò)誤α為0.05,雙側(cè)),則Z1-a/2=1.96,預(yù)期評(píng)價(jià)指標(biāo)估計(jì)精度(可信區(qū)間半寬度)Δ通常設(shè)置為5%。
(3)評(píng)價(jià)多類別分類眼科AI研究任務(wù)時(shí),對(duì)于多分類眼科AI研究任務(wù),若多個(gè)類別互相獨(dú)立,則可將多類別的評(píng)價(jià)轉(zhuǎn)化為多個(gè)二分類問題的評(píng)價(jià),每一類的陰性樣本定義為總樣本中除了該類別為陽性的樣本之外的所有樣本??捎?jì)算的評(píng)價(jià)指標(biāo)包括Micro/MacroF1值,Micro/Macro AUC和Kappa值。
其中,MacroF1和Macro AUC值是先分別計(jì)算每一類預(yù)測(cè)的F1值和AUC值,然后將各個(gè)類別的F1值和AUC值取平均:
式中,C為分類任務(wù)的總類別數(shù)。
MicroF1和Micro AUC值則是先計(jì)算總體樣本的真陽性、假陽性、真陰性和假陰性樣本數(shù),再根據(jù)F1和AUC定義進(jìn)行計(jì)算,即:
Micro AUC依賴全局的混淆矩陣,在繪制全局ROC曲線時(shí),橫縱坐標(biāo)點(diǎn)分別代表全局的1-特異度和靈敏度,即
Micro/Macro F1, Micro/Macro AUC均為0~1之間的數(shù)值,值越接近1表示多分類模型的效果越好。
Kappa一致性系數(shù)在評(píng)價(jià)多分類任務(wù)時(shí):
(4)眼科AI臨床研究中結(jié)構(gòu)區(qū)域分割評(píng)價(jià)時(shí),評(píng)價(jià)結(jié)構(gòu)(生理結(jié)構(gòu)、病灶等)區(qū)域分割結(jié)果是否準(zhǔn)確的評(píng)價(jià)指標(biāo)通常有DICE系數(shù)和Jaccard系數(shù):
DICE系數(shù)(Dice Coefficient),結(jié)構(gòu)區(qū)域分割輪廓與參考標(biāo)準(zhǔn)輪廓的交集占分割輪廓與參考標(biāo)準(zhǔn)輪廓平均值的比例(圖2):
圖2 DICE系數(shù)計(jì)算示意。
其中 |X∩Y| 是X和Y之間的交集,|X|和|Y|分表表示X和Y的元素的個(gè)數(shù)。
Jaccard系數(shù)(Jaccard Coefficient),結(jié)構(gòu)區(qū)域分割輪廓與參考標(biāo)準(zhǔn)輪廓的交集占分割輪廓與目標(biāo)輪廓并集的比例(圖3),又稱交并比(Intersection over Union, IoU):
圖3 Jaccard系數(shù)計(jì)算示意。
臨床試驗(yàn)是臨床研究的重要組成部分,用于驗(yàn)證藥物或醫(yī)療器械的安全性和有效性。對(duì)于眼科AI臨床試驗(yàn)的的評(píng)價(jià)方法建議覆蓋以下幾個(gè)方面:試驗(yàn)設(shè)計(jì)、研究參與者群體、倫理問題、樣本量、對(duì)照和盲法設(shè)計(jì)、試驗(yàn)結(jié)果、數(shù)據(jù)分析、不良事件等。(1)試驗(yàn)設(shè)計(jì):臨床試驗(yàn)的設(shè)計(jì)應(yīng)適合于回答臨床試驗(yàn)的問題,包括試驗(yàn)類型、前瞻性還是回顧性、單中心還是多中心、優(yōu)效性設(shè)計(jì)或非劣性設(shè)計(jì)還是單組目標(biāo)值設(shè)計(jì)等。例如,針對(duì)干預(yù)模型的臨床試驗(yàn)需保證對(duì)參與者進(jìn)行足夠時(shí)間的隨訪,確保干預(yù)在一定時(shí)期內(nèi)是安全有效的。針對(duì)醫(yī)學(xué)影像診斷模型的AI醫(yī)療器械臨床試驗(yàn),為避免醫(yī)生的主觀因素和不確定性等因素的影響,可采用多閱片者多病例(Multi-reader Multi-case,MRMC)試驗(yàn)設(shè)計(jì),確保全面評(píng)價(jià)模型性能,減小因研究者個(gè)體差異造成的誤差。(2)研究參與者群體:臨床試驗(yàn)需有一個(gè)明確的研究參與者群體,該研究參與者群體是被研究人群的代表。臨床試驗(yàn)需要根據(jù)研究參與者的特點(diǎn)和試驗(yàn)?zāi)康?合理選擇研究參與者,保證樣本的代表性和多樣性。(3)倫理問題:臨床試驗(yàn)應(yīng)符合倫理原則,研究參與者在參加臨床試驗(yàn)前應(yīng)簽署知情同意書,且臨床試驗(yàn)應(yīng)獲得倫理委員會(huì)的批準(zhǔn)[31]。(4)樣本量:臨床試驗(yàn)應(yīng)具有合適的樣本量,滿足統(tǒng)計(jì)分析的要求,以發(fā)現(xiàn)組間有意義的差異。(5)對(duì)照和盲法設(shè)計(jì):干預(yù)性臨床試驗(yàn)研究參與者應(yīng)隨機(jī)分為治療組和對(duì)照組,且應(yīng)采用雙盲方法,以盡量減少選擇偏差,并確保各組在基線時(shí)具有可比性。診斷性或預(yù)測(cè)性臨床試驗(yàn)設(shè)計(jì)應(yīng)適合于回答臨床試驗(yàn)的問題。診斷性臨床試驗(yàn)應(yīng)以目前臨床上標(biāo)準(zhǔn)的方法作為對(duì)照方法。(6)試驗(yàn)結(jié)果:被測(cè)量的結(jié)果應(yīng)明確定義并與臨床試驗(yàn)問題相關(guān),并應(yīng)使用標(biāo)準(zhǔn)化方法進(jìn)行測(cè)量。(7)數(shù)據(jù)分析:數(shù)據(jù)的統(tǒng)計(jì)分析應(yīng)適當(dāng),試驗(yàn)結(jié)果應(yīng)以清晰透明的方式呈現(xiàn)。(8)不良事件:臨床試驗(yàn)應(yīng)報(bào)告在試驗(yàn)期間發(fā)生的任何不良事件,并應(yīng)評(píng)價(jià)臨床試驗(yàn)的安全性和耐受性。
眼科是醫(yī)學(xué)AI最為活躍的臨床???隨著基于眼科影像和AI技術(shù)的眼科AI臨床研究的不斷增多,為保障眼科AI臨床研究的質(zhì)量和可靠性,我們制定了眼科AI臨床研究評(píng)價(jià)指南。本指南總結(jié)了眼科AI臨床研究評(píng)價(jià)指南制定的背景和方法、介紹了AI臨床研究評(píng)價(jià)的國(guó)際指南、并討論了眼科AI臨床研究評(píng)價(jià)方法。詳細(xì)介紹了眼科AI臨床研究通用評(píng)價(jià)方法、眼科AI臨床研究模型評(píng)價(jià)方法、常用眼科AI臨床研究模型評(píng)價(jià)指標(biāo)和計(jì)算公式,并詳細(xì)闡述了眼科AI臨床試驗(yàn)評(píng)價(jià)方法。眼科AI臨床研究評(píng)價(jià)指南的制定,有助于改進(jìn)臨床研究方案的設(shè)計(jì)、實(shí)施和研究質(zhì)量,從而提高研究的完整性和透明度,減少潛在的偏倚。本指南的目的是提出眼科AI臨床研究評(píng)價(jià)的建議,從而提高相關(guān)人員對(duì)眼科AI臨床研究評(píng)價(jià)的規(guī)范意識(shí)。眼科AI臨床研究中,研究者可根據(jù)研究的環(huán)節(jié)、模型的類型來選用相對(duì)應(yīng)的評(píng)價(jià)指標(biāo)和計(jì)算公式。
本指南是第一部關(guān)于眼科AI臨床研究評(píng)價(jià)的指南,隨著醫(yī)學(xué)領(lǐng)域中AI技術(shù)應(yīng)用方面法律法規(guī)政策方針的逐步出臺(tái),本指南內(nèi)容將得到進(jìn)一步的討論和更新。歡迎對(duì)本指南存在的不足提出寶貴的建議和意見,使得本指南能夠不斷更新和完善。
形成指南專家組成員
執(zhí)筆專家:
楊衛(wèi)華 深圳市眼科醫(yī)院 深圳市眼病防治研究所
許言午 華南理工大學(xué)未來技術(shù)學(xué)院 人工智能與數(shù)字經(jīng)濟(jì)廣東省實(shí)驗(yàn)室(廣州)
方慧卉 人工智能與數(shù)字經(jīng)濟(jì)廣東省實(shí)驗(yàn)室(廣州)
邵 毅 南昌大學(xué)第一附屬醫(yī)院
張少?zèng)_ 深圳市眼科醫(yī)院 深圳市眼病防治研究所
魏永越 北京大學(xué)公眾健康與重大疫情防控戰(zhàn)略研究中心
劉祖國(guó) 廈門大學(xué)眼科研究所
周吉銀 陸軍軍醫(yī)大學(xué)第二附屬醫(yī)院
周永進(jìn) 深圳大學(xué)醫(yī)學(xué)部生物醫(yī)學(xué)工程學(xué)院
參與起草的專家(按姓氏拼音排列):
Sunee Chansangpetch 泰國(guó)朱拉隆功國(guó)王紀(jì)念醫(yī)院眼科
陳 浩 溫州醫(yī)科大學(xué)附屬眼視光醫(yī)院
陳 杰 鵬城實(shí)驗(yàn)室
陳羽中 北京鷹瞳科技發(fā)展股份有限公司
崔紅光 浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院
戴 琦 溫州醫(yī)科大學(xué)附屬眼視光醫(yī)院
戴偉偉 愛爾數(shù)字眼科研究所
鄧愛軍 濰坊醫(yī)學(xué)院附屬醫(yī)院
丁 琳 新疆維吾爾自治區(qū)人民醫(yī)院
段立新 電子科技大學(xué)(深圳)高等研究院
付華柱 新加坡科技研究局高性能計(jì)算研究所
戈宗元 北京鷹瞳科技發(fā)展股份有限公司
韓 偉 浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院
黃厚斌 解放軍總醫(yī)院眼科醫(yī)學(xué)部 解放軍總醫(yī)院海南醫(yī)院
蔣 沁 南京醫(yī)科大學(xué)附屬眼科醫(yī)院
雷柏英 深圳大學(xué)醫(yī)學(xué)部生物醫(yī)學(xué)工程學(xué)院
柯根杰 安徽省立醫(yī)院
劉 虎 南京醫(yī)科大學(xué)第一附屬醫(yī)院
李世迎 廈門大學(xué)附屬翔安醫(yī)院暨廈門大學(xué)醫(yī)學(xué)中心
李 文 電子科技大學(xué)(深圳)高等研究院
李小萌 香港科技大學(xué)
劉小晴 北京致遠(yuǎn)慧圖科技有限公司
婁 巖 中國(guó)醫(yī)科大學(xué)智能醫(yī)學(xué)學(xué)院
陸培榮 蘇州大學(xué)附屬第一醫(yī)院
宋宗明 河南省立眼科醫(yī)院 河南省人民醫(yī)院
孫 斌 山西省眼科醫(yī)院
譚明奎 華南理工大學(xué)軟件學(xué)院
陶黎明 安徽醫(yī)科大學(xué)第二附屬醫(yī)院
萬 程 南京航空航天大學(xué)
魏銳利 海軍軍醫(yī)大學(xué)上海長(zhǎng)征醫(yī)院
吳 健 浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院 浙江大學(xué)公共衛(wèi)生學(xué)院
肖 璇 武漢大學(xué)人民醫(yī)院
徐 捷 首都醫(yī)科大學(xué)附屬北京同仁醫(yī)院 北京市眼科研究所
徐 雯 浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院
徐 帆 廣西壯族自治區(qū)人民醫(yī)院
許晶晶 北京致遠(yuǎn)慧圖科技有限公司
楊永升 中國(guó)中醫(yī)科學(xué)院眼科醫(yī)院
姚 進(jìn) 南京醫(yī)科大學(xué)附屬眼科醫(yī)院
葉 娟 浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院
岳麗菁 廣東省第二中醫(yī)院
張冬冬 北京至真互聯(lián)網(wǎng)技術(shù)有限公司
張光華 太原學(xué)院大數(shù)據(jù)智能診療產(chǎn)業(yè)學(xué)院
張國(guó)明 深圳市眼科醫(yī)院 深圳市眼病防治研究所
張 弘 哈爾濱醫(yī)科大學(xué)附屬第一醫(yī)院眼科醫(yī)院
張志常 中國(guó)醫(yī)科大學(xué)智能醫(yī)學(xué)學(xué)院
趙一天 中國(guó)科學(xué)院慈溪生物醫(yī)學(xué)工程研究所
鄭 博 湖州師范學(xué)院信息工程學(xué)院
周慧芳 上海交通大學(xué)醫(yī)學(xué)院附屬第九人民醫(yī)院
利益沖突:
所有作者均聲明不存在利益沖突。本指南的制定未接受任何企業(yè)的贊助。
指南聲明:
本指南為《眼科人工智能臨床研究評(píng)價(jià)指南(2023)》專家組、中國(guó)醫(yī)藥教育協(xié)會(huì)眼科影像與智能醫(yī)療分會(huì)和中國(guó)醫(yī)藥教育協(xié)會(huì)智能醫(yī)學(xué)專業(yè)委員會(huì)部分專家起草。所有參與本指南制定的專家均聲明,堅(jiān)持客觀的立場(chǎng),以專業(yè)知識(shí)、全球研究數(shù)據(jù)和臨床研究經(jīng)驗(yàn)為依據(jù),經(jīng)過充分討論,全體專家一致同意后形成本指南。
免責(zé)聲明:
本指南的內(nèi)容僅代表參與制定的專家對(duì)臨床研究評(píng)價(jià)方法的建議指導(dǎo)意見,供臨床醫(yī)師參考;本指南的內(nèi)容不代表任何的法律法規(guī)。盡管專家們進(jìn)行了廣泛的意見征詢和討論,但仍有不全面之處。本指南所提供的建議并非強(qiáng)制性意見,與本指南不一致的做法并不意味著錯(cuò)誤或不當(dāng)。臨床實(shí)踐中仍存在諸多問題需要探索,正在進(jìn)行和未來開展的臨床研究將提供進(jìn)一步的證據(jù)。隨著臨床經(jīng)驗(yàn)的積累和新的治療方法的涌現(xiàn),未來需要對(duì)本指南定期修訂、更新,為患者帶來更多臨床獲益。