鄭晨,張宇晶,彭亮,蔣薇,鮑雅晴
1.國(guó)家藥品監(jiān)督管理局 醫(yī)療器械技術(shù)審評(píng)中心,北京 100081;2.國(guó)家衛(wèi)生健康委能力建設(shè)和繼續(xù)教育中心,北京 100191
近年來(lái),利用人工智能(Artificial Intelligence,AI)算法輔助醫(yī)生進(jìn)行海量肺結(jié)節(jié)CT影像的快速檢測(cè)和初步診斷,已成為AI醫(yī)療器械領(lǐng)域的研究熱點(diǎn)之一[1-3]。目前,國(guó)內(nèi)已有相關(guān)產(chǎn)品獲準(zhǔn)上市,還有若干產(chǎn)品正在申請(qǐng)上市,除臨床評(píng)價(jià)等傳統(tǒng)方法外,如何采用基于測(cè)評(píng)數(shù)據(jù)庫(kù)的新方法來(lái)評(píng)價(jià)此類(lèi)產(chǎn)品的安全有效性,已成為AI醫(yī)療器械技術(shù)審評(píng)的關(guān)注重點(diǎn)。
測(cè)評(píng)數(shù)據(jù)庫(kù)是指可用于軟件確認(rèn)的第三方數(shù)據(jù)庫(kù)[4],其中軟件確認(rèn)是指通過(guò)提供客觀(guān)證據(jù)認(rèn)定軟件滿(mǎn)足用戶(hù)需求和預(yù)期用途[5]?,F(xiàn)有CT肺結(jié)節(jié)第三方數(shù)據(jù)庫(kù)存在數(shù)據(jù)量不足、數(shù)據(jù)分布與臨床真實(shí)情況差異較大、數(shù)據(jù)開(kāi)放導(dǎo)致的“開(kāi)卷考試”等問(wèn)題,不適合作為測(cè)評(píng)數(shù)據(jù)庫(kù)[6-7]。同時(shí),用于CT肺結(jié)節(jié)產(chǎn)品測(cè)試的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)[6,8]由于在數(shù)據(jù)持續(xù)更新方面存在局限性,故僅可在一定范圍內(nèi)用作測(cè)評(píng)數(shù)據(jù)庫(kù)。
本文旨在從醫(yī)療器械技術(shù)審評(píng)的角度明確CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)的構(gòu)建要求,以期指導(dǎo)相關(guān)責(zé)任方籌建符合技術(shù)審評(píng)要求的測(cè)評(píng)數(shù)據(jù)庫(kù),同時(shí)為探索CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)取代或部分取代臨床評(píng)價(jià)的可行性提供參考。
通過(guò)對(duì)國(guó)內(nèi)外AI醫(yī)療器械技術(shù)審評(píng)相關(guān)指導(dǎo)文件的調(diào)研發(fā)現(xiàn),美國(guó)食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)相關(guān)指導(dǎo)文件僅對(duì)測(cè)試集有要求[9],尚無(wú)測(cè)評(píng)數(shù)據(jù)庫(kù)要求。國(guó)內(nèi)相關(guān)指導(dǎo)文件已有測(cè)評(píng)數(shù)據(jù)庫(kù)的通用要求[4,10],但尚無(wú)針對(duì)CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)的專(zhuān)用要求。
測(cè)試集和測(cè)評(píng)數(shù)據(jù)庫(kù)雖有相似之處,但存在本質(zhì)差異,前者屬于軟件驗(yàn)證(通過(guò)提供客觀(guān)證據(jù)認(rèn)定軟件輸出滿(mǎn)足軟件輸入)范疇,后者屬于軟件確認(rèn)范疇,軟件驗(yàn)證是軟件確認(rèn)的基礎(chǔ),詳見(jiàn)表1。
表1 測(cè)評(píng)數(shù)據(jù)庫(kù)、公開(kāi)數(shù)據(jù)庫(kù)和測(cè)試集對(duì)比
本文基于上述國(guó)內(nèi)外AI醫(yī)療器械監(jiān)管要求[4,6,8-11]的調(diào)研,結(jié)合多項(xiàng)AI醫(yī)療器械的審評(píng)工作經(jīng)驗(yàn),提出CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)構(gòu)建的專(zhuān)用要求。
根據(jù)《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)》[4]和《人工智能醫(yī)療器械注冊(cè)審查指導(dǎo)原則(征求意見(jiàn)稿)》[10]的要求,除滿(mǎn)足數(shù)據(jù)管理、網(wǎng)絡(luò)安全與數(shù)據(jù)安全、可擴(kuò)展性等數(shù)據(jù)庫(kù)通用要求外,CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)還應(yīng)具備權(quán)威性、科學(xué)性、規(guī)范性、多樣性、封閉性和動(dòng)態(tài)性等特點(diǎn)。
CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)的數(shù)據(jù)采集、標(biāo)注及其質(zhì)控工作應(yīng)由相應(yīng)權(quán)威臨床機(jī)構(gòu)(如國(guó)家臨床醫(yī)學(xué)研究中心)的放射科醫(yī)生完成,以保證數(shù)據(jù)準(zhǔn)確性;數(shù)據(jù)標(biāo)注、審核和分歧仲裁人員應(yīng)具備相應(yīng)的臨床實(shí)踐經(jīng)驗(yàn),如職稱(chēng)、工作年限等,以保證數(shù)據(jù)質(zhì)量。
CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)的數(shù)據(jù)樣本應(yīng)來(lái)源于臨床真實(shí)數(shù)據(jù),不應(yīng)來(lái)源于公開(kāi)數(shù)據(jù)集,不得進(jìn)行數(shù)據(jù)擴(kuò)增。所有數(shù)據(jù)需經(jīng)過(guò)醫(yī)院倫理委員會(huì)批準(zhǔn)或同等效力的行政審批,包括原始圖像和流行病學(xué)信息,以及其他相關(guān)的臨床數(shù)據(jù)、信息資料等[1]。CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)應(yīng)具有一定的規(guī)模,數(shù)據(jù)總量應(yīng)基于肺結(jié)節(jié)流行病學(xué)統(tǒng)計(jì)指標(biāo)和測(cè)試抽樣誤差控制要求,數(shù)據(jù)總量需遠(yuǎn)大于單次測(cè)試抽取的樣本量。如果數(shù)據(jù)總量過(guò)低容易導(dǎo)致抽樣誤差過(guò)大,測(cè)試結(jié)果不準(zhǔn)確[11-12]。
數(shù)據(jù)分布應(yīng)符合CT肺結(jié)節(jié)流行病學(xué)特征情況。已有研究表明高齡、有吸煙史、疾病史是肺結(jié)節(jié)發(fā)生的危險(xiǎn)因素[13]。因此,患者人群分布應(yīng)參考流行病學(xué)統(tǒng)計(jì)進(jìn)行均勻隨機(jī)抽樣或按照臨床上肺結(jié)節(jié)高發(fā)年齡段分布進(jìn)行分層抽樣。目前肺結(jié)節(jié)各類(lèi)型的患病率尚未獲得全國(guó)的流行病學(xué)統(tǒng)計(jì),可依據(jù)各機(jī)構(gòu)掌握的先驗(yàn)數(shù)據(jù)設(shè)計(jì)肺結(jié)節(jié)類(lèi)型比例,可進(jìn)行均勻隨機(jī)抽樣或按結(jié)節(jié)類(lèi)型和長(zhǎng)、短徑分布進(jìn)行分層抽樣[6]。
測(cè)評(píng)數(shù)據(jù)庫(kù)的數(shù)據(jù)采集、數(shù)據(jù)脫敏、數(shù)據(jù)清洗以及數(shù)據(jù)標(biāo)注等過(guò)程的質(zhì)量直接影響測(cè)評(píng)數(shù)據(jù)庫(kù)的使用價(jià)值,因此均應(yīng)建立質(zhì)控程序,并滿(mǎn)足可追溯性要求。數(shù)據(jù)采集需考慮采集人員、采集流程、采集質(zhì)量評(píng)估等方面要求。采集人員應(yīng)熟悉胸部CT掃描的技術(shù)要點(diǎn),能根據(jù)不同病種和目的,調(diào)整合適的參數(shù)進(jìn)行掃描以獲得最佳數(shù)據(jù)質(zhì)量,如從在三甲醫(yī)院從事圖像采集工作5年以上資質(zhì)的人員中選拔。采集流程應(yīng)統(tǒng)一,保證掃描范圍包括全部肺。采集質(zhì)量評(píng)估通過(guò)檢查數(shù)據(jù)掃描的質(zhì)量,剔除存在缺層、錯(cuò)層、圖像偽影和掃描視野缺失等數(shù)據(jù)。
數(shù)據(jù)脫敏是為了保護(hù)患者隱私,去除敏感信息,如機(jī)構(gòu)名稱(chēng)和地址,患者姓名、生日和地址等,須符合相關(guān)法律法規(guī)的要求。數(shù)據(jù)清洗是為了去除不合格數(shù)據(jù),如CT影像序列不連續(xù),非肺部圖像等數(shù)據(jù),從而篩選出滿(mǎn)足質(zhì)量要求的數(shù)據(jù)。數(shù)據(jù)標(biāo)注流程和質(zhì)控影響標(biāo)注結(jié)果,如標(biāo)注人員的資質(zhì)和數(shù)量,標(biāo)注形式、標(biāo)注輪次和標(biāo)注步驟,結(jié)果判定標(biāo)準(zhǔn)(如臨床診療規(guī)范、專(zhuān)家共識(shí)、文獻(xiàn)分析),結(jié)果判定規(guī)則(如少數(shù)服從多數(shù)、高水平醫(yī)生仲裁),標(biāo)注質(zhì)量評(píng)估等。
為了控制統(tǒng)計(jì)意義上的偏倚,測(cè)評(píng)數(shù)據(jù)庫(kù)應(yīng)具備充分的多樣性,數(shù)據(jù)應(yīng)來(lái)源于多家、多地域、多層級(jí)的代表性臨床機(jī)構(gòu)以及多家、多種、多參數(shù)的代表性采集設(shè)備,以保證數(shù)據(jù)多樣性能夠滿(mǎn)足算法泛化能力評(píng)估要求。
代表性臨床機(jī)構(gòu)應(yīng)考慮采集圖像的場(chǎng)所,包括體檢、門(mén)診和住院等不同應(yīng)用場(chǎng)景。代表性采集設(shè)備應(yīng)考慮設(shè)備兼容性和采集特征的要求。設(shè)備兼容性包括CT的制造商、型號(hào)、規(guī)格(如探測(cè)器排數(shù))和性能指標(biāo)等要求。采集特征包括采集方式(如常規(guī)劑量平掃/增強(qiáng)、低劑量平掃)、采集參數(shù)(如管電壓、管電流、加載時(shí)間、層厚與層間距、層數(shù)、輻射劑量[14]、窗寬窗位、重建方式、顯示方式)、采集精度(如分辨率、采樣率)等[8]。
應(yīng)對(duì)CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)實(shí)施封閉管理,測(cè)評(píng)活動(dòng)亦需在封閉安全的環(huán)境下進(jìn)行,否則相當(dāng)于“開(kāi)卷考試”,無(wú)法保證測(cè)評(píng)結(jié)果的客觀(guān)、公正和公平。
CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)應(yīng)具備持續(xù)的科學(xué)性、多樣性、封閉性和數(shù)據(jù)的時(shí)效性,陳舊數(shù)據(jù)可能與當(dāng)前采集設(shè)備的技術(shù)水平、數(shù)據(jù)質(zhì)量以及醫(yī)生標(biāo)注的原則和水平存在差異,會(huì)導(dǎo)致軟件確認(rèn)的系統(tǒng)性偏差[15],因此應(yīng)定期對(duì)一定比例的數(shù)據(jù)樣本進(jìn)行更換、補(bǔ)充。
CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)的構(gòu)建,關(guān)鍵是要保證數(shù)據(jù)多樣性,控制數(shù)據(jù)偏倚。我國(guó)幅員遼闊,地域差異明顯,更加需要考慮數(shù)據(jù)多樣性問(wèn)題,同時(shí)亦需考慮數(shù)據(jù)采集的難度,受時(shí)間和成本的限制,可以結(jié)合地域、醫(yī)療機(jī)構(gòu)的典型性以及動(dòng)態(tài)性來(lái)保證數(shù)據(jù)多樣性。數(shù)據(jù)偏倚主要考慮選擇偏倚和參考標(biāo)準(zhǔn)偏倚。選擇偏倚來(lái)源于抽樣。原則上,應(yīng)根據(jù)測(cè)評(píng)數(shù)據(jù)庫(kù)數(shù)據(jù)分布情況(包括流行病學(xué)統(tǒng)計(jì)、采集地點(diǎn)、采集設(shè)備、肺結(jié)節(jié)特征等因素)等比例隨機(jī)抽取測(cè)試樣本,且樣本量應(yīng)滿(mǎn)足測(cè)試抽樣誤差控制要求。需要注意的是,由于不同的CT掃描劑量對(duì)于產(chǎn)品性能有較大影響,因此采集設(shè)備需予以考慮[16]。參考標(biāo)準(zhǔn)偏倚來(lái)源于與真實(shí)情況的差距?,F(xiàn)階段對(duì)標(biāo)注標(biāo)準(zhǔn)的理解,如小結(jié)節(jié)的標(biāo)注,實(shí)際上還存在很多不一致。對(duì)于醫(yī)學(xué)圖像判讀,不同專(zhuān)家對(duì)影像數(shù)據(jù)的解讀也存在一定的差異[17]。因此,建議由來(lái)自影像科、呼吸科等多個(gè)科室的醫(yī)生聯(lián)合閱片,盡量減少不完美參考標(biāo)準(zhǔn)的偏倚。
使用測(cè)評(píng)數(shù)據(jù)庫(kù)需考慮其適用場(chǎng)景和限制條件。產(chǎn)品類(lèi)型不同評(píng)價(jià)重點(diǎn)也不同,如肺結(jié)節(jié)CT影像輔助檢測(cè)軟件預(yù)期用于肺結(jié)節(jié)的檢出和影像學(xué)分類(lèi),需關(guān)注假陰性,避免漏診;而肺結(jié)節(jié)CT影像輔助診斷軟件預(yù)期用于肺結(jié)節(jié)良惡性判定,需關(guān)注假陽(yáng)性,避免誤診,因此需要考慮測(cè)評(píng)數(shù)據(jù)庫(kù)的測(cè)評(píng)對(duì)象范圍。同時(shí),同類(lèi)產(chǎn)品的輸出不同評(píng)價(jià)要求亦不同,如肺結(jié)節(jié)CT影像輔助檢測(cè)軟件可輸出二分類(lèi)亦可輸出多分類(lèi),測(cè)評(píng)數(shù)據(jù)庫(kù)若采用多分類(lèi)通常可根據(jù)對(duì)應(yīng)關(guān)系測(cè)評(píng)二分類(lèi)產(chǎn)品,反之則無(wú)法進(jìn)行評(píng)測(cè),因此需要考慮測(cè)評(píng)數(shù)據(jù)庫(kù)的測(cè)評(píng)能力。
為保證測(cè)評(píng)數(shù)據(jù)庫(kù)的封閉性,需要盡量提高數(shù)據(jù)樣本總量,保證樣本總量遠(yuǎn)大于單次測(cè)評(píng)樣本量。若樣本總量有限,需要考慮限制同一產(chǎn)品的測(cè)試次數(shù),以免樣本分布規(guī)律“開(kāi)放”。同時(shí),測(cè)評(píng)數(shù)據(jù)庫(kù)應(yīng)具備動(dòng)態(tài)性,持續(xù)保證測(cè)評(píng)數(shù)據(jù)庫(kù)的封閉性。
測(cè)評(píng)數(shù)據(jù)庫(kù)的測(cè)評(píng)結(jié)果統(tǒng)計(jì)可由責(zé)任方自行承擔(dān),亦可由責(zé)任方與第三方測(cè)評(píng)機(jī)構(gòu)合作承擔(dān),但需要考慮封閉性要求。
若條件具備,測(cè)評(píng)數(shù)據(jù)庫(kù)可包含適當(dāng)比例的罕見(jiàn)或特殊臨床真實(shí)數(shù)據(jù)樣本用于開(kāi)展壓力測(cè)試,以便深入評(píng)估算法泛化的極限能力[4]。未來(lái),基于測(cè)評(píng)數(shù)據(jù)庫(kù),利用數(shù)據(jù)擾動(dòng)、生成對(duì)抗網(wǎng)絡(luò)等技術(shù),衍生出對(duì)抗測(cè)評(píng)數(shù)據(jù)庫(kù),可以深入評(píng)估算法的魯棒性。
由于臨床試驗(yàn)實(shí)施機(jī)構(gòu)的多樣性存在一定限制,數(shù)據(jù)分布與臨床真實(shí)情況存在差距,尚難以對(duì)AI醫(yī)療器械的安全有效性進(jìn)行深入全面的評(píng)價(jià)。測(cè)評(píng)數(shù)據(jù)庫(kù)可有效解決相關(guān)問(wèn)題,可以部分替代或全部替代臨床試驗(yàn),能夠降低注冊(cè)申請(qǐng)人的負(fù)擔(dān),加快產(chǎn)品上市進(jìn)程。
本文前瞻性地提出CT肺結(jié)節(jié)測(cè)評(píng)數(shù)據(jù)庫(kù)的構(gòu)建要求,以期指導(dǎo)相關(guān)責(zé)任方籌建符合技術(shù)審評(píng)要求的測(cè)評(píng)數(shù)據(jù)庫(kù),避免構(gòu)建的第三方數(shù)據(jù)庫(kù)不能用于軟件確認(rèn),造成資源浪費(fèi)。今后,將繼續(xù)研究測(cè)評(píng)數(shù)據(jù)庫(kù)評(píng)估辦法,推進(jìn)第三方數(shù)據(jù)庫(kù)經(jīng)評(píng)估后成為測(cè)評(píng)數(shù)據(jù)庫(kù),以滿(mǎn)足AI醫(yī)療器械監(jiān)管要求。