【作 者】王 浩,孟祥峰,李 澍,任海萍
中國食品藥品檢定研究院光機(jī)電室,北京市,100050
隨著深度學(xué)習(xí)[1]、GPU[2]等軟硬件技術(shù)的突破,國外人工智能(artificial intelligence, AI)醫(yī)療器械產(chǎn)業(yè)的發(fā)展進(jìn)入井噴狀態(tài),預(yù)期用途豐富多樣[3-12]。我國也有大量產(chǎn)品進(jìn)入注冊(cè)申報(bào)階段。目前人工智能產(chǎn)品大多采用監(jiān)督學(xué)習(xí)的技術(shù)路徑,產(chǎn)品研發(fā)、訓(xùn)練、優(yōu)化都需要訓(xùn)練集,而產(chǎn)品的驗(yàn)證/確認(rèn)需要測(cè)試集,二者都需要優(yōu)質(zhì)數(shù)據(jù)。
人工智能醫(yī)療器械監(jiān)管還處于探索階段。其中一個(gè)重要問題是如何理解和明確數(shù)據(jù)集在產(chǎn)品質(zhì)控中的作用,如何對(duì)數(shù)據(jù)集進(jìn)行評(píng)價(jià)和規(guī)范。企業(yè)一般需要準(zhǔn)備自身的數(shù)據(jù)資源,或借助于公開訓(xùn)練集開展研發(fā),與臨床試驗(yàn)之間存在廣泛的聯(lián)系和相似性。從數(shù)據(jù)集的角度打通兩個(gè)環(huán)節(jié)之間的壁壘,有助于人工智能醫(yī)療器械的科學(xué)監(jiān)管,有助于企業(yè)研發(fā)與上市的提速降費(fèi),對(duì)于行業(yè)發(fā)展意義深遠(yuǎn)。
基于以上考慮,本文對(duì)數(shù)據(jù)集在國內(nèi)外的發(fā)展概況、國外上市審批過程中的角色、數(shù)據(jù)集質(zhì)量要求等關(guān)鍵內(nèi)容進(jìn)行研究和探討,旨在分析人工智能醫(yī)療器械專用測(cè)試集的定位、準(zhǔn)入條件、評(píng)價(jià)標(biāo)準(zhǔn),為鼓勵(lì)全社會(huì)開發(fā)公用數(shù)據(jù)集和支撐藥監(jiān)部門上市前審批、上市后監(jiān)管等管理活動(dòng)提供有用的信息。
國外建立了很多著名的醫(yī)學(xué)數(shù)據(jù)集,對(duì)醫(yī)學(xué)影像AI的發(fā)展尤其是算法訓(xùn)練做出突出貢獻(xiàn),代表包括LIDC(Lung Image Database Consortium)[13]、NLST(National Lung Screening Trial)[14]、Messidor[15]、EyePACS[16]、MIT-BIH心率失常數(shù)據(jù)庫[17]、ChestX-ray8[8]等。表1對(duì)它們進(jìn)行了比對(duì),說明國外數(shù)據(jù)集的建設(shè)思路和特點(diǎn)是多種多樣的,尚未形成統(tǒng)一的模式。
表1 國外著名醫(yī)學(xué)數(shù)據(jù)集的比對(duì)Tab.1 Comparison between datasets abroad
國內(nèi)起步較晚,數(shù)據(jù)集種類和數(shù)量相對(duì)有限,代表有阿里天池競(jìng)賽使用的肺結(jié)節(jié)公開數(shù)據(jù)集等。我國醫(yī)學(xué)數(shù)據(jù)基數(shù)大,門診量多,后發(fā)優(yōu)勢(shì)和發(fā)展?jié)摿薮?,有必要進(jìn)行引導(dǎo)和規(guī)范,促進(jìn)優(yōu)質(zhì)數(shù)據(jù)集的發(fā)展壯大。
美國FDA發(fā)布過幾部相關(guān)指導(dǎo)原則,對(duì)于啟發(fā)人工智能醫(yī)療器械監(jiān)管思路、明晰測(cè)試集在醫(yī)療器械評(píng)價(jià)中的作用和要求具有借鑒意義,因此分別介紹如下:
(1)計(jì)算機(jī)輔助探測(cè)(Computer-assisted Detection Devices)提交上市前通知(510(k))指導(dǎo)原則
該原則發(fā)布于2012年7月,對(duì)應(yīng)預(yù)期用于處理放射影像圖像和設(shè)備數(shù)據(jù)的II類產(chǎn)品,比如生理異常的特征的識(shí)別、標(biāo)記、高亮顯示等,與部分AI醫(yī)療器械較為相似。該原則要求企業(yè)提交510(k)資料時(shí)應(yīng)描述使用的數(shù)據(jù)庫信息,包括訓(xùn)練和測(cè)試用的放射影像、設(shè)備數(shù)據(jù)。數(shù)據(jù)的形式由具體評(píng)價(jià)方式?jīng)Q定,可以包括計(jì)算機(jī)仿真數(shù)據(jù)、體模數(shù)據(jù)和實(shí)際患者數(shù)據(jù),其意義在于第一次提出將數(shù)據(jù)集的描述納入計(jì)算機(jī)輔助探測(cè)產(chǎn)品申報(bào)材料。
(2)計(jì)算機(jī)輔助探測(cè)(Computer-assisted Detection Devices)臨床性能評(píng)價(jià)指導(dǎo)原則
該原則也發(fā)布于2012年7月,用于規(guī)范計(jì)算機(jī)輔助探測(cè)類醫(yī)療器械的臨床試驗(yàn)設(shè)計(jì),適用于II類產(chǎn)品的510(k)和III類產(chǎn)品的上市前許可(PMA),要求進(jìn)一步描述臨床試驗(yàn)中的數(shù)據(jù)細(xì)節(jié),其意義在于明確要求臨床試驗(yàn)數(shù)據(jù)獨(dú)立于研發(fā)數(shù)據(jù),允許使用回顧式和前瞻式兩種方式開展臨床試驗(yàn),并強(qiáng)調(diào)在回顧式臨床試驗(yàn)中重視偏倚控制。
(3)真實(shí)世界證據(jù)指導(dǎo)原則(Use of Real-World Evidence to Support Regulatory Decision-Making for Medical Devices)
該文件發(fā)布于2017年8月,提出在滿足質(zhì)量要求的前提下,真實(shí)世界數(shù)據(jù)可以用于監(jiān)管活動(dòng),包括上市前批準(zhǔn)、上市后監(jiān)管、臨床試驗(yàn)、產(chǎn)品分類、公共健康監(jiān)控等等。該指南明確對(duì)數(shù)據(jù)質(zhì)量的要求取決于用途。根據(jù)這一文件,AI的測(cè)試集理論上也可以用于監(jiān)管活動(dòng)。
教以生為本,學(xué)以悟?yàn)楦?。在語文教材中,很多篇章,或真實(shí)生動(dòng)地展現(xiàn)我們民族的優(yōu)良傳統(tǒng),或熱情謳歌我們民族的精神,或精彩地描繪美麗多嬌的祖國山河,或深刻闡述生命的意義等。我們教師要用中華優(yōu)秀文化的精髓來啟發(fā)自己的學(xué)生,使他們懂得生命的意義和價(jià)值,將古詩文的優(yōu)秀文化內(nèi)涵在不知不覺中潛移默化地滲透到高中語文課堂教學(xué)中來。
(4)醫(yī)療器械軟件臨床試驗(yàn)指導(dǎo)原則
該文件發(fā)布于2017年12月,明確軟件的臨床試驗(yàn)被看做是軟件算法驗(yàn)證和確認(rèn)的結(jié)果與預(yù)期臨床條件之間的關(guān)系,可以使用現(xiàn)有臨床數(shù)據(jù)(針對(duì)本預(yù)期用途采集,或針對(duì)其他預(yù)期用途采集但經(jīng)解釋可用于本預(yù)期用途)。在此意義下推斷,以回顧方式采集臨床數(shù)據(jù)建立的測(cè)試集理論上可用于臨床試驗(yàn)。
以上指導(dǎo)原則,從理論依據(jù)的角度說明測(cè)試集,特別是回顧式測(cè)試集,在滿足條件的情況下既可能成為產(chǎn)品驗(yàn)證與確認(rèn)的依據(jù),又可能充當(dāng)臨床試驗(yàn),意味著建設(shè)優(yōu)質(zhì)的測(cè)試集,可能起到一箭雙雕的作用,加速AI產(chǎn)品上市。
目前,從FDA官網(wǎng)提供的資料中,可以發(fā)現(xiàn)不少有關(guān)測(cè)試集的描述,表2中列舉了10個(gè)與人工智能或計(jì)算機(jī)輔助探測(cè)有關(guān)的已上市產(chǎn)品和FDA公開資料中涉及測(cè)試集的描述,類別包括5個(gè)510(k)、3個(gè)de novo和2個(gè)PMA。
表2所示的5個(gè)510(k)產(chǎn)品都進(jìn)行了非臨床的測(cè)試,其中的4個(gè)產(chǎn)品沒有進(jìn)行臨床試驗(yàn)。3個(gè)de novo產(chǎn)品全部開展臨床試驗(yàn)(2個(gè)為回顧式),除IDx-DR外都進(jìn)行了非臨床的測(cè)試;IDx-DR做了前瞻式臨床試驗(yàn),也發(fā)表過回顧式臨床試驗(yàn)結(jié)果[10]。2個(gè)PMA產(chǎn)品全部進(jìn)行了非臨床性能測(cè)試和回顧式臨床測(cè)試。表2的內(nèi)容基本符合前面FDA各指導(dǎo)原則的思想,說明非臨床階段一般需要進(jìn)行性能測(cè)試,使用的數(shù)據(jù)來源包括臨床數(shù)據(jù)、仿真數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)集(心電專標(biāo));臨床試驗(yàn)廣泛使用了回顧式臨床。
人工智能醫(yī)療器械目前尚未進(jìn)入我國醫(yī)療器械分類目錄,根據(jù)業(yè)內(nèi)對(duì)于其風(fēng)險(xiǎn)的認(rèn)識(shí),一般分為III類(最高風(fēng)險(xiǎn)),類似于iCAD PowerLook Tomo和QVCAD的監(jiān)管級(jí)別。參考FDA的工作思路,由臨床數(shù)據(jù)構(gòu)成的測(cè)試集對(duì)于產(chǎn)品的驗(yàn)證和確認(rèn)可以發(fā)揮重要作用,有潛力用于臨床試驗(yàn)本身。
測(cè)試集的監(jiān)管價(jià)值由其自身質(zhì)量和風(fēng)險(xiǎn)水平?jīng)Q定??紤]成本限制,無論是前瞻式還是回顧式建庫,其本質(zhì)都是對(duì)現(xiàn)實(shí)數(shù)據(jù)的抽樣,抽樣誤差和統(tǒng)計(jì)偏倚是數(shù)據(jù)集面臨的主要質(zhì)量風(fēng)險(xiǎn)。
抽樣誤差主要由預(yù)期考察的數(shù)據(jù)類型的數(shù)量決定,數(shù)量越高,抽樣誤差越小。抽樣誤差可以采用基于二項(xiàng)分布用公式定量描述[7]。數(shù)據(jù)集設(shè)計(jì)時(shí)如果能明確總?cè)萘亢鸵疾斓奶囟ú》N的患病率,可以估計(jì)抽樣誤差和置信區(qū)間,反過來對(duì)數(shù)據(jù)集的規(guī)模和患病率設(shè)置進(jìn)行調(diào)整。
表2 FDA公開資料中對(duì)測(cè)試集的描述Tab.2 Description of test datasets from FDA website
統(tǒng)計(jì)偏倚的控制是建設(shè)數(shù)據(jù)集的難點(diǎn),共包括六類主要問題:
(1)選擇偏倚:進(jìn)入測(cè)試集的樣本不能代表目標(biāo)人群,包括患者人群和使用者(醫(yī)生)?;颊呷巳哼x擇偏倚主要以患者準(zhǔn)入條件和信息進(jìn)行控制。使用者的選擇偏倚相對(duì)容易控制,因?yàn)锳I的運(yùn)行環(huán)境容易統(tǒng)一,醫(yī)生對(duì)于同一軟件產(chǎn)品的操作可以通過培訓(xùn)來提升一致性,消除人員差異。
(2)覆蓋偏倚:樣本不能覆蓋目標(biāo)人群的全部情形。與(1)不同,覆蓋偏倚問題要求的是病種齊全、比例合理,并且考慮同一病種的不同情況,例如并發(fā)癥等。然而,有些AI產(chǎn)品的預(yù)期用途往往把并發(fā)癥和復(fù)雜病理排除在外(例如IDx-DR排除了青光眼),因此覆蓋偏倚的風(fēng)險(xiǎn)取決于產(chǎn)品預(yù)期用途本身。
(3)參考標(biāo)準(zhǔn)偏倚:樣本的金標(biāo)準(zhǔn)不是100%準(zhǔn)確。金標(biāo)準(zhǔn)的采集受制于情景、成本和患者意愿,不一定全覆蓋。以肺結(jié)節(jié)為例,只有醫(yī)生要求做穿刺活檢的高風(fēng)險(xiǎn)結(jié)節(jié)能得到病理信息,而一般的小結(jié)節(jié)不會(huì)獲取病理,此時(shí)以醫(yī)生的標(biāo)注作為參考標(biāo)準(zhǔn)。醫(yī)生的參考標(biāo)準(zhǔn)可以由專家共識(shí)、培訓(xùn)、流程優(yōu)化等方式控制偏倚,等同于金標(biāo)準(zhǔn)。例如,醫(yī)學(xué)影像專業(yè)閱片中心被認(rèn)為具有較高的可信度,我國的臨床評(píng)價(jià)指導(dǎo)原則也接受中心閱片室作為第三方盲評(píng)的一種。
(4)驗(yàn)證偏倚:對(duì)診斷價(jià)值的驗(yàn)證只使用了參考標(biāo)準(zhǔn)(非金標(biāo)準(zhǔn))。該問題主要取決于參考標(biāo)準(zhǔn)偏倚的控制。如果醫(yī)學(xué)影像AI產(chǎn)品測(cè)試的目的是比較AI結(jié)果與醫(yī)學(xué)真相,那么應(yīng)當(dāng)加入輔助信息來糾正驗(yàn)證偏倚,例如患者病史、化驗(yàn)結(jié)果、遺傳等等;如果測(cè)試的目的是單純地比較AI和標(biāo)注者對(duì)單張或單個(gè)序列圖像的識(shí)別,那么驗(yàn)證偏倚的風(fēng)險(xiǎn)會(huì)相對(duì)可控。
(5)閱讀順序偏倚:多個(gè)測(cè)試之間比較時(shí),打分者的判斷會(huì)受到對(duì)某組測(cè)試記憶的影響。由于人工智能醫(yī)療器械的數(shù)據(jù)集建設(shè)和標(biāo)注大多采用隨機(jī)雙盲的方式,標(biāo)注者的判斷獨(dú)立于工作進(jìn)度,不涉及多個(gè)測(cè)試的比較,該風(fēng)險(xiǎn)影響較小。
(6)情景偏倚:樣本的患病率不同于目標(biāo)人群,從而影響測(cè)試結(jié)果。情景偏倚與測(cè)試集的患病率設(shè)計(jì)有關(guān),可以通過優(yōu)化抽樣方式或樣本入選條件進(jìn)行改善。情景偏倚主要影響陽性預(yù)測(cè)值PPV、陰性預(yù)測(cè)值NPV等統(tǒng)計(jì)指標(biāo),在測(cè)試時(shí)應(yīng)當(dāng)引起重視。
除此之外,測(cè)試集的常規(guī)要求還包括隱私保護(hù)與數(shù)據(jù)清洗。首先應(yīng)根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》、《醫(yī)療器械網(wǎng)絡(luò)安全注冊(cè)技術(shù)指導(dǎo)原則》等法規(guī)的要求,參照美國健康保險(xiǎn)攜帶和責(zé)任法案(Health Insurance Portability and Accountability Act,HIPAA)的具體要求,對(duì)于原始數(shù)據(jù)進(jìn)行脫敏,防止患者隱私泄露。其次,為保證訓(xùn)練與測(cè)試效果,應(yīng)當(dāng)對(duì)原始數(shù)據(jù)進(jìn)行清洗,去除重復(fù)數(shù)據(jù)、不完整數(shù)據(jù)、不可讀取的數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)。
簡(jiǎn)而言之,一個(gè)有能力服務(wù)監(jiān)管的測(cè)試集,應(yīng)當(dāng)在容量方面滿足抽樣誤差的要求,在數(shù)據(jù)多樣性方面、標(biāo)注的權(quán)威性方面、數(shù)據(jù)構(gòu)成等方面滿足偏倚控制的要求,同時(shí)做到注重患者隱私保護(hù)和數(shù)據(jù)安全。
本文對(duì)于人工智能醫(yī)療器械發(fā)展所必需的數(shù)據(jù)集的發(fā)展概況進(jìn)行了介紹,結(jié)合國外情況和相關(guān)文獻(xiàn)討論了測(cè)試集在監(jiān)管中的定位與作用,從理論和實(shí)例兩個(gè)方面證明了回顧式數(shù)據(jù)集可以用于人工智能醫(yī)療器械的非臨床評(píng)價(jià)和發(fā)揮臨床試驗(yàn)的作用。同時(shí),本文對(duì)于測(cè)試集的要求和評(píng)價(jià)角度進(jìn)行了深入研究,對(duì)于回顧式數(shù)據(jù)集的偏倚問題及解決方案、數(shù)據(jù)質(zhì)量控制、標(biāo)注質(zhì)量控制等影響數(shù)據(jù)集質(zhì)量和風(fēng)險(xiǎn)水平的要素進(jìn)行了分析,初步確定了如何對(duì)測(cè)試集進(jìn)行約束與規(guī)范。
從實(shí)現(xiàn)的角度考慮,回顧式建庫的效率優(yōu)于前瞻式建庫,周期相對(duì)較短,數(shù)據(jù)多樣性相對(duì)容易滿足;從隨機(jī)性和偏倚控制的角度考慮,前瞻式建庫優(yōu)于回顧式建庫,在直觀意義上更接近臨床試驗(yàn),患者信息更完整,驗(yàn)證手段更豐富。二者的選取主要由產(chǎn)品預(yù)期用途和成本控制決定,評(píng)價(jià)方式和要求基本一致,都應(yīng)當(dāng)滿足產(chǎn)品測(cè)試要求,避免偏倚。對(duì)于訓(xùn)練集,建議按照測(cè)試集的要求和實(shí)際條件對(duì)數(shù)據(jù)質(zhì)量、多樣性、統(tǒng)計(jì)偏倚等內(nèi)容進(jìn)行控制。
綜上所述,本文論證了數(shù)據(jù)集在人工智能醫(yī)療器械的監(jiān)管中能夠發(fā)揮積極作用。有序開發(fā)能夠替代臨床試驗(yàn)的高質(zhì)量測(cè)試集,對(duì)于企業(yè)、監(jiān)管機(jī)構(gòu)、醫(yī)學(xué)機(jī)構(gòu)是互利共贏的重要舉措,應(yīng)當(dāng)鼓勵(lì);同時(shí),本文對(duì)測(cè)試集的質(zhì)量評(píng)價(jià)建立了理論依據(jù),為下一步形成測(cè)試集評(píng)價(jià)規(guī)范與認(rèn)證機(jī)制打下了良好的基礎(chǔ)。