王浩,唐橋虹,郝燁,孟祥峰,李佳戈,李靜莉
中國(guó)食品藥品檢定研究院 醫(yī)療器械檢定所,北京 102629
人工智能(Artificial Intelligence,AI)醫(yī)療器械在我國(guó)發(fā)展較快,目前已有十多個(gè)產(chǎn)品獲得第三類醫(yī)療器械注冊(cè)證,技術(shù)轉(zhuǎn)化和臨床應(yīng)用步伐加快。為支持產(chǎn)業(yè)發(fā)展,我國(guó)藥品監(jiān)管部門開展了卓有成效的監(jiān)管研究,在AI醫(yī)用軟件產(chǎn)品的分類界定[1]、AI醫(yī)療器械產(chǎn)品的審評(píng)審批[2-5]、軟件產(chǎn)品生產(chǎn)質(zhì)量管理[6]等環(huán)節(jié)發(fā)布了多個(gè)重要的指導(dǎo)原則和技術(shù)文件,對(duì)產(chǎn)業(yè)提供指導(dǎo)。2019年,國(guó)家藥品監(jiān)督管理局正式成立了AI醫(yī)療器械標(biāo)準(zhǔn)化技術(shù)歸口單位,組織我國(guó)AI醫(yī)療器械標(biāo)準(zhǔn)的制修訂,為監(jiān)管和產(chǎn)業(yè)提供技術(shù)支持,目前已有兩個(gè)行業(yè)標(biāo)準(zhǔn)完成報(bào)批[7-8]。
標(biāo)準(zhǔn)體系的設(shè)計(jì)是開展標(biāo)準(zhǔn)化工作的基礎(chǔ)。由于AI醫(yī)療器械是醫(yī)療器械領(lǐng)域新的分支,目前相關(guān)的國(guó)際標(biāo)準(zhǔn)化組織尚未建立專門的技委會(huì)。歐美國(guó)家近年來相繼發(fā)布了各自的AI標(biāo)準(zhǔn)規(guī)劃,我國(guó)的國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)在2020年也發(fā)布了《國(guó)家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南,我國(guó)的AI醫(yī)療器械標(biāo)準(zhǔn)體系建設(shè)需要結(jié)合行業(yè)實(shí)際進(jìn)行探索。
由于我國(guó)的AI醫(yī)療器械產(chǎn)業(yè)剛剛起步,來自教育、科研、監(jiān)管、臨床等領(lǐng)域的利益相關(guān)方參與標(biāo)準(zhǔn)化工作的熱情高漲,思路較為多元化。本文對(duì)于AI醫(yī)療器械標(biāo)準(zhǔn)化的趨勢(shì)進(jìn)行了梳理,對(duì)AI醫(yī)療器械標(biāo)準(zhǔn)體系的發(fā)展方向提出了建議,旨在促進(jìn)AI醫(yī)療器械標(biāo)準(zhǔn)化進(jìn)程,完善質(zhì)量評(píng)價(jià)體系。
從監(jiān)管歷史來看,對(duì)AI產(chǎn)品的監(jiān)管思想建立在傳統(tǒng)計(jì)算機(jī)輔助診斷軟件基礎(chǔ)上,不斷發(fā)展變化,趨于嚴(yán)格。美國(guó)食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)在2019年提出了良好機(jī)器學(xué)習(xí)規(guī)范(Good Machine Learning Practice,GMLP)的概念[9],探討產(chǎn)品的變更和再評(píng)價(jià)問題,旨在縮短算法更新后的評(píng)價(jià)周期。在征求社會(huì)意見的基礎(chǔ)上,F(xiàn)DA提出了AI/機(jī)器學(xué)習(xí)醫(yī)療器械軟件行動(dòng)計(jì)劃[10],在調(diào)整監(jiān)管框架、發(fā)展GMLP的同時(shí),提出了以患者為中心、對(duì)用戶的透明度、算法偏倚與魯棒性評(píng)價(jià)、真實(shí)世界證據(jù)。歐盟 在“可信賴的AI”倫理思想[11]基礎(chǔ)上,把AI的風(fēng)險(xiǎn)控制納入立法環(huán)節(jié),其中醫(yī)學(xué)AI屬于高風(fēng)險(xiǎn)應(yīng)用。
從國(guó)際標(biāo)準(zhǔn)化活動(dòng)來看,信息技術(shù)領(lǐng)域(通用AI、軟件測(cè)試等)、醫(yī)用電氣設(shè)備等諸多領(lǐng)域的標(biāo)準(zhǔn)化成果,對(duì)AI醫(yī)療器械的標(biāo)準(zhǔn)化有借鑒意義。表1列舉了近3年來國(guó)外已發(fā)布的相關(guān)標(biāo)準(zhǔn)化文件,來自國(guó)際標(biāo)準(zhǔn)化組織(International Organization for Standardization,ISO)、國(guó)際電工委員會(huì)(International Electrotechnical Commission,IEC)和美國(guó)國(guó)家標(biāo)準(zhǔn)化組織(American National Organization for Standardization,ANSI)等。
表1 國(guó)外相關(guān)標(biāo)準(zhǔn)化文件匯總
從信息技術(shù)領(lǐng)域的角度看,ISO、IEC在大數(shù)據(jù)參考架構(gòu)、AI術(shù)語、AI可信賴性、AI軟件測(cè)試方法等方向開展大量工作,形成了較多的技術(shù)報(bào)告(Technical Report,TR)。從醫(yī)療器械角度看,IEC在醫(yī)療器械自治能力方面形成了TR,與AI醫(yī)療器械存在密切聯(lián)系。從美國(guó)ANSI/CTA的情況看,醫(yī)學(xué)AI的術(shù)語定義、可信賴性形成了標(biāo)準(zhǔn),以闡述概念為主,內(nèi)容較為簡(jiǎn)短,不涉及具體產(chǎn)品的驗(yàn)證、確認(rèn)、測(cè)試。
從國(guó)外產(chǎn)品公布的上市申請(qǐng)資料來看,這些產(chǎn)品在性能指標(biāo)、測(cè)試方法、測(cè)試集等方面存在較多的差異,尚未建立統(tǒng)一的范式[24]。從國(guó)外算法模型評(píng)價(jià)與比對(duì)的情況看,AI的臨床應(yīng)用還受到不少問題的制約,例如預(yù)期用途描述不清晰、算法偏倚、過擬合、測(cè)試結(jié)果難以重復(fù)、數(shù)據(jù)管理混亂等[25]。在臨床研究領(lǐng)域,AI產(chǎn)品專用的臨床試驗(yàn)報(bào)告要求也成為了研究熱點(diǎn)[12,26]。
在產(chǎn)品質(zhì)量評(píng)價(jià)的實(shí)踐環(huán)節(jié)中,對(duì)AI醫(yī)療器械產(chǎn)品算法性能的評(píng)價(jià)也在演化發(fā)展,對(duì)標(biāo)準(zhǔn)體系的建設(shè)同樣提供了重要的啟示。本節(jié)以糖尿病視網(wǎng)膜病變輔助診斷軟件為案例,介紹質(zhì)量評(píng)價(jià)思路的變遷。
在起步階段,此類產(chǎn)品的質(zhì)量評(píng)價(jià)工作立足于測(cè)試集的整體結(jié)果,反映統(tǒng)計(jì)學(xué)意義下的總體表現(xiàn)。一般來說,測(cè)試人員需要收集來自不同地區(qū)、不同機(jī)構(gòu)、不同臨床分期的患者眼底圖像構(gòu)建測(cè)試集,比較AI給出的分期與參考標(biāo)準(zhǔn)的分期,從而計(jì)算準(zhǔn)確率等主要指標(biāo)。
為擴(kuò)展對(duì)產(chǎn)品魯棒性的認(rèn)識(shí),測(cè)試人員可對(duì)眼底圖像進(jìn)行裁剪、插值、濾波等處理,模擬臨床環(huán)境下的數(shù)據(jù)變化和硬件變化,把處理后的圖像輸入AI產(chǎn)品,觀察其輸出的變化。此類測(cè)試也稱為對(duì)抗測(cè)試[2],側(cè)重產(chǎn)品性能變化的趨勢(shì),有助于制造商更好地限定產(chǎn)品的部署使用環(huán)境及數(shù)據(jù)質(zhì)量要求。
在AI倫理思想的推動(dòng)下,AI的可解釋性、可預(yù)測(cè)性等要求正在影響產(chǎn)品的質(zhì)量評(píng)價(jià)思路。AI產(chǎn)品性能的“拐點(diǎn)”成為質(zhì)量評(píng)價(jià)關(guān)注的新問題,即了解AI的性能在何種條件下出現(xiàn)顯著的偏離。本文設(shè)計(jì)了算法測(cè)試用例,對(duì)于糖尿病視網(wǎng)膜病變輔助診斷算法的“拐點(diǎn)”進(jìn)行觀測(cè)和舉例。
由于眼底圖像上的出血斑是臨床醫(yī)生、AI產(chǎn)品進(jìn)行圖像分期的重要依據(jù),而出血斑的尺寸因患者而異,具有臨床多樣性。為了直觀地研究出血斑尺寸對(duì)AI算法的影響,從增殖性糖網(wǎng)病變的眼底圖像上提取出血斑的圖像,按照不同比例線性改變其尺寸,使用泊松融合算法[27]植入另一幅健康的眼底圖像,從而合成試驗(yàn)樣本。根據(jù)醫(yī)學(xué)定義,合成的圖像屬于糖網(wǎng)二期,屬于需要臨床轉(zhuǎn)診的分期。
將合成的系列圖像輸入開源的糖網(wǎng)AI算法模型,可得到AI分期結(jié)果隨出血斑尺寸變化的曲線和“拐點(diǎn)”(圖1)。隨著出血斑尺寸的增大,AI的分期出現(xiàn)了階梯式的上升;當(dāng)出血斑的尺寸低于20像素時(shí),算法給出的是假陰性結(jié)果;當(dāng)直徑大于等于20像素時(shí),算法的分期結(jié)論保持正確。這意味著出血斑的尺寸對(duì)AI的準(zhǔn)確性有直接的影響,制造商在臨床部署時(shí)需更加細(xì)化明確產(chǎn)品的適用范圍,開展針對(duì)性的驗(yàn)證和確認(rèn)。該案例所體現(xiàn)的AI算法性能變化,也反映了AI與人類醫(yī)生認(rèn)知模式的區(qū)別,有助于用戶了解AI本身性能的限制。
圖1 糖網(wǎng)AI算法分期結(jié)果與出血斑直徑的關(guān)系曲線
通過上述案例可以發(fā)現(xiàn),AI產(chǎn)品的質(zhì)量評(píng)價(jià)宜下沉到算法的工作過程中,關(guān)注AI在患者個(gè)體、病灶個(gè)體上的表現(xiàn),了解算法的偏倚與能力限制。這種測(cè)試思路有助于完善AI醫(yī)療器械的方法標(biāo)準(zhǔn)、產(chǎn)品標(biāo)準(zhǔn)。
根據(jù)上述情況,AI醫(yī)療器械的標(biāo)準(zhǔn)化,需要以問題為導(dǎo)向,在應(yīng)用中落地。本節(jié)對(duì)AI醫(yī)療器械的標(biāo)準(zhǔn)體系設(shè)計(jì)提出建議。圖2所示為AI醫(yī)療器械標(biāo)準(zhǔn)體系框架圖,分為基礎(chǔ)標(biāo)準(zhǔn)、管理標(biāo)準(zhǔn)、方法標(biāo)準(zhǔn)和產(chǎn)品標(biāo)準(zhǔn)四大板塊,各板塊又可展開成不同的角度。
圖2 AI醫(yī)療器械標(biāo)準(zhǔn)體系框架圖
以深度學(xué)習(xí)為代表的新一代AI算法的工作方式具有黑盒特性,難以直觀地理解,因此利益相關(guān)方對(duì)產(chǎn)品質(zhì)量缺乏充分的了解和信任,在人機(jī)互動(dòng)方面存在一定的疑惑,制約著AI的應(yīng)用落地。因此,AI醫(yī)療器械產(chǎn)品的安全有效應(yīng)包含可信賴性、透明度、可解釋性、可溯源性等一系列內(nèi)在要求。這是建立健全基礎(chǔ)標(biāo)準(zhǔn)的一大出發(fā)點(diǎn),需要在產(chǎn)品的安全可信、編碼溯源、隱私保護(hù)、人機(jī)交互、可用性等方面開展工作,對(duì)上述質(zhì)量特性加強(qiáng)控制,增強(qiáng)利益相關(guān)方的信心。
根據(jù)研發(fā)現(xiàn)狀,AI產(chǎn)品設(shè)計(jì)受到數(shù)據(jù)、算法雙重驅(qū)動(dòng),高質(zhì)量的數(shù)據(jù)集是研發(fā)活動(dòng)的物質(zhì)基礎(chǔ);產(chǎn)品形態(tài)以獨(dú)立軟件、軟件組件為主,算法的質(zhì)量與軟件的特性密不可分;產(chǎn)品運(yùn)行環(huán)境日趨靈活,與互聯(lián)網(wǎng)技術(shù)高度融合。上述因素對(duì)產(chǎn)品質(zhì)量有直接的影響。因此,基礎(chǔ)標(biāo)準(zhǔn)還需要在數(shù)據(jù)集、數(shù)據(jù)標(biāo)注、算法框架與模型、軟件特性、網(wǎng)絡(luò)安全等角度開展工作,加強(qiáng)產(chǎn)品的質(zhì)量保證。
由于AI算法具有黑盒特性,產(chǎn)品的質(zhì)量評(píng)價(jià)目前主要關(guān)注輸入-輸出之間的關(guān)系,性能指標(biāo)測(cè)試結(jié)果與輸入的測(cè)試集有一定的關(guān)聯(lián),產(chǎn)品在真實(shí)世界中的表現(xiàn)也可能隨數(shù)據(jù)發(fā)生變化。因此,AI醫(yī)療器械的質(zhì)量評(píng)價(jià)方法與傳統(tǒng)醫(yī)用電氣設(shè)備、醫(yī)療器械軟件存在較大差別。
從需求來看,AI醫(yī)療器械的方法標(biāo)準(zhǔn)需要解決算法模型、成品的質(zhì)量評(píng)價(jià)需求,包含上市前驗(yàn)證與確認(rèn)、臨床驗(yàn)收與質(zhì)控、真實(shí)世界監(jiān)測(cè)等各個(gè)環(huán)節(jié)。不僅考慮常見的性能指標(biāo)(如靈敏度、特異性等),而且對(duì)AI特殊的質(zhì)量特性進(jìn)行評(píng)價(jià),如魯棒性等。質(zhì)量評(píng)價(jià)的維度需要從患者整體向個(gè)體進(jìn)行擴(kuò)展,關(guān)注算法的細(xì)節(jié)表現(xiàn)。此外,根據(jù)慣例,質(zhì)量評(píng)價(jià)過程需要調(diào)用的方法、工具、平臺(tái),也應(yīng)作為方法標(biāo)準(zhǔn)的一部分進(jìn)行考量,例如用于擴(kuò)增測(cè)試數(shù)據(jù)的方法等。
AI醫(yī)療器械的發(fā)展依托于數(shù)據(jù)、算法、算力,驗(yàn)證和確認(rèn)的方式比較特殊,產(chǎn)品的更新迭代頻繁。其生產(chǎn)質(zhì)量管理一方面執(zhí)行現(xiàn)有法規(guī)[6]和質(zhì)量管理標(biāo)準(zhǔn)(ISO 13485、YY/T 0287等)的通用要求,另一方面需要規(guī)范AI算法、數(shù)據(jù)集[28]本身的設(shè)計(jì)開發(fā)流程、生命周期管理,對(duì)算法更新與再評(píng)價(jià)的框架進(jìn)行創(chuàng)新,對(duì)云平臺(tái)、計(jì)算平臺(tái)等特殊的生產(chǎn)設(shè)施加強(qiáng)管理,對(duì)標(biāo)注人員[29-30]、數(shù)據(jù)采集人員的選拔、培訓(xùn)、質(zhì)控進(jìn)行統(tǒng)籌。AI醫(yī)療器械管理標(biāo)準(zhǔn)的研究,還應(yīng)借鑒醫(yī)療器械軟件監(jiān)管與標(biāo)準(zhǔn)化的思想[31-32],強(qiáng)調(diào)預(yù)防不良事件、加強(qiáng)產(chǎn)品版本控制與追溯。此外,管理標(biāo)準(zhǔn)的落地,需要具體領(lǐng)域技術(shù)規(guī)范的支持,例如在數(shù)據(jù)集標(biāo)注與建設(shè)方面編寫配套的專家共識(shí)[33]。
目前,我國(guó)已上市的AI醫(yī)療器械產(chǎn)品預(yù)期用途包括輔助診斷、輔助檢測(cè)、輔助分診等,數(shù)據(jù)模態(tài)包括了CT、MRI、眼底彩照、心電、X線等。由于在每個(gè)細(xì)分方向的產(chǎn)品數(shù)量還不夠豐富,產(chǎn)品標(biāo)準(zhǔn)的制訂條件尚不成熟,目前暫時(shí)處于預(yù)研狀態(tài),將根據(jù)產(chǎn)業(yè)發(fā)展規(guī)模和監(jiān)管需求提上日程。AI醫(yī)療器械的產(chǎn)品標(biāo)準(zhǔn)將明確具體產(chǎn)品的功能、性能指標(biāo)、試驗(yàn)方法、檢驗(yàn)規(guī)則等內(nèi)容,對(duì)基礎(chǔ)標(biāo)準(zhǔn)、方法標(biāo)準(zhǔn)進(jìn)行呼應(yīng)。產(chǎn)品標(biāo)準(zhǔn)也包括AI醫(yī)療器械附件、原材料(包括數(shù)據(jù)集)的專用要求、指標(biāo)、驗(yàn)證方法。
我國(guó)的AI醫(yī)療器械標(biāo)準(zhǔn)體系建設(shè),在學(xué)習(xí)借鑒國(guó)際經(jīng)驗(yàn)的同時(shí)還需要兼顧國(guó)情,與國(guó)外存在一定的差異:一方面,國(guó)外的標(biāo)準(zhǔn)研究來源于軟件測(cè)試[20]、通用AI[19]、大數(shù)據(jù)[12]等已有的標(biāo)準(zhǔn)化領(lǐng)域和組織,與醫(yī)療器械行業(yè)的結(jié)合比較薄弱,缺乏集中的頂層規(guī)劃。國(guó)內(nèi)的AI醫(yī)療器械標(biāo)準(zhǔn)化工作在藥品監(jiān)管部門領(lǐng)導(dǎo)下,立足于監(jiān)管需求,標(biāo)準(zhǔn)化的對(duì)象更加豐富,考慮了產(chǎn)品的通用質(zhì)量特性、性能與安全指標(biāo)、評(píng)價(jià)方法、原材料(數(shù)據(jù)集)等各個(gè)方面,以及生產(chǎn)質(zhì)量管理的各種要素(如數(shù)據(jù)標(biāo)注),覆蓋產(chǎn)品的全生命周期;另一方面,由于AI技術(shù)本身處于快速發(fā)展中,國(guó)內(nèi)的標(biāo)準(zhǔn)化工作一般立足于行業(yè)的普適性、階段性成果,對(duì)于具體產(chǎn)品的設(shè)計(jì)工藝、核心部件、技術(shù)細(xì)節(jié)和最新進(jìn)展的關(guān)注程度還不夠充分,在細(xì)粒度和時(shí)效性方面可能存在不足,標(biāo)準(zhǔn)的前瞻性有待提高。
本文在國(guó)內(nèi)外文獻(xiàn)調(diào)研和產(chǎn)品測(cè)試實(shí)踐基礎(chǔ)上,對(duì)我國(guó)AI醫(yī)療器械標(biāo)準(zhǔn)體系的設(shè)計(jì)策略進(jìn)行了研究,分析了基礎(chǔ)標(biāo)準(zhǔn)、方法標(biāo)準(zhǔn)、管理標(biāo)準(zhǔn)、產(chǎn)品標(biāo)準(zhǔn)各自的發(fā)展需求,并對(duì)產(chǎn)品質(zhì)量評(píng)價(jià)的發(fā)展方向進(jìn)行了展望。AI醫(yī)療器械標(biāo)準(zhǔn)的發(fā)展,一方面應(yīng)與我國(guó)的監(jiān)管法規(guī)做好銜接,發(fā)揮技術(shù)支持作用,另一方面應(yīng)及時(shí)吸收國(guó)際前沿思想,更好地管控AI醫(yī)療器械的特殊風(fēng)險(xiǎn),提高對(duì)產(chǎn)品質(zhì)量的認(rèn)識(shí)和評(píng)價(jià)能力。