王 浩,孟祥峰,郝 燁,李佳戈,李靜莉
中國食品藥品檢定研究院,北京 100050
隨著人工智能技術(shù)的發(fā)展,人工智能醫(yī)療器械產(chǎn)業(yè)不斷壯大,臨床應用不斷增加[1-2]。當代人工智能醫(yī)療器械普遍采用機器學習[3]的技術(shù)路線,核心算法的訓練、調(diào)優(yōu)、測試、臨床試驗等關(guān)鍵環(huán)節(jié)均需使用高質(zhì)量的臨床數(shù)據(jù)集。在算法訓練與調(diào)優(yōu)階段,數(shù)據(jù)集的屬性類似于原材料,幫助人工智能算法學習臨床特征,建立輔助決策的能力。在算法測試階段,數(shù)據(jù)集的屬性類似于測試基準(benchmark),是比較算法決策結(jié)果和人工決策結(jié)果的主要載體;數(shù)據(jù)集的標注結(jié)果一般由人工判讀產(chǎn)生,是算法測試的參考標準(reference standard)。在人工智能醫(yī)療器械產(chǎn)品的臨床質(zhì)控階段,數(shù)據(jù)集的屬性類似于質(zhì)控品,用于對產(chǎn)品質(zhì)量進行日常監(jiān)測,為識別、預防不良事件提供支撐。因此,數(shù)據(jù)集的質(zhì)量對于人工智能醫(yī)療器械產(chǎn)品的全生命周期均具有重要影響,國內(nèi)外多個醫(yī)療器械監(jiān)管技術(shù)文件將數(shù)據(jù)質(zhì)量控制列為重要議題[4-5]。為了充分支撐監(jiān)管需求、規(guī)范數(shù)據(jù)集建設與質(zhì)控,我國在人工智能醫(yī)療器械標準化進程中,圍繞數(shù)據(jù)質(zhì)量開展了大量工作,并于2022年牽頭起草發(fā)布了國際先進標準IEEE 2801-2022《醫(yī)學人工智能數(shù)據(jù)集質(zhì)量管理推薦標準》(IEEERecommendedPracticefortheQualityManagementofDatasetsforMedicalArtificialIntelligence)[6],同年發(fā)布了我國行業(yè)標準YY/T 1833.2-2022《人工智能醫(yī)療器械 質(zhì)量要求和評價 第2部分:數(shù)據(jù)集通用要求》(下文簡稱“YY/T 1833.2-2022”)[7],初步建立了“數(shù)據(jù)集開發(fā)過程管理+質(zhì)量評價”雙管齊下的標準框架。
數(shù)據(jù)集質(zhì)量評價的基本思路,來自信息技術(shù)、臨床數(shù)據(jù)管理、醫(yī)療器械監(jiān)管等多個領域的交叉融合。國際標準ISO/IEC 25012[8]作為信息技術(shù)領域的基礎通用標準,明確了數(shù)據(jù)質(zhì)量特性的基本定義,在醫(yī)療領域有待進一步展開和轉(zhuǎn)化;臨床數(shù)據(jù)管理領域公認的FAIR原則[9],即可查尋(Findability)、可訪問(Accessibility)、可交互(Interoperability)、可再用(Reuse)原則,在專病數(shù)據(jù)集建設過程中被廣泛采用;醫(yī)療器械監(jiān)管關(guān)注電子數(shù)據(jù)的完整性與可追溯性,在數(shù)據(jù)核查活動中常采用ALCOA原則[10],強調(diào)數(shù)據(jù)的可歸因性(Attributable)、易讀性(Legible)、同時性(Contemporaneous)、原始性(Original)、準確性(Accurate)五大屬性。上述原則為標準的起草提供了重要理論依據(jù),屬于文獻調(diào)研的重點[11-12]。近年來我國在醫(yī)學專病數(shù)據(jù)庫、人工智能醫(yī)療器械數(shù)據(jù)集建設方面開展了大量工作[13-16],為YY/T 1833.2-2022標準的起草提供了實踐素材和行業(yè)共識基礎,也支持了標準的技術(shù)驗證。
本文對YY/T 1833.2-2022中數(shù)據(jù)集通用要求的編制思想、條款內(nèi)容和實施方式進行解析,旨在為數(shù)據(jù)集的開發(fā)、質(zhì)量評價及過程管理提供依據(jù),以引導臨床機構(gòu)按照標準要求開展數(shù)據(jù)集建設與質(zhì)量驗收,助力將我國豐富的臨床數(shù)據(jù)轉(zhuǎn)化為人工智能醫(yī)療器械行業(yè)急需的高質(zhì)量數(shù)據(jù)集,為人工智能產(chǎn)品的高質(zhì)量發(fā)展提供良好的產(chǎn)業(yè)供應鏈。
YY/T 1833.2-2022適用于對人工智能醫(yī)療器械質(zhì)量有直接影響的數(shù)據(jù)集,例如產(chǎn)品研發(fā)階段使用的訓練集和調(diào)優(yōu)集、驗證/確認階段使用的性能獨立測試集和臨床試驗數(shù)據(jù)集、上市后使用的質(zhì)控數(shù)據(jù)集等。上述數(shù)據(jù)集對應人工智能醫(yī)療器械全生命周期質(zhì)量管理的各個關(guān)鍵環(huán)節(jié),是監(jiān)管證據(jù)鏈的組成部分,因此成為標準的主要關(guān)注對象。對于研發(fā)早期用于概念論證、人員培訓等活動的其他數(shù)據(jù)集,若不涉及最終產(chǎn)品的設計開發(fā)和測試活動,未納入醫(yī)療器械范疇,可參考執(zhí)行本標準,不作強制要求,以避免限制創(chuàng)新。當產(chǎn)品研發(fā)采用遷移學習路線時,預訓練模型本身依托的數(shù)據(jù)集若來自非醫(yī)療領域,亦不適用于本標準。
YY/T 1833.2-2022的主要約束對象是數(shù)據(jù)集制造責任方,其定義為“對數(shù)據(jù)集的設計和制造負有責任的實體”。醫(yī)院、體檢機構(gòu)、科研院所、生產(chǎn)企業(yè)、檢測機構(gòu)、監(jiān)管機構(gòu)都有可能成為數(shù)據(jù)集制造責任方。在開展數(shù)據(jù)集質(zhì)量評價前,數(shù)據(jù)集制造責任方需根據(jù)標準要求,準備數(shù)據(jù)集的描述文檔、風險分析文檔、可追溯的過程記錄,明確聲明數(shù)據(jù)集的質(zhì)量特性。
數(shù)據(jù)集的文檔要求主要包括說明文檔及風險分析文檔2個方面。YY/T 1833.2-2022第4章提出了數(shù)據(jù)集的說明文檔要求。說明文檔用于向用戶、第三方檢測機構(gòu)、監(jiān)管機構(gòu)描述數(shù)據(jù)集的基本情況、開發(fā)過程和質(zhì)量特性,作為開展質(zhì)量評價的依據(jù)。描述文檔的作用類似于醫(yī)療器械的說明書和技術(shù)要求的融合。
數(shù)據(jù)集制造責任方在編寫說明文檔時,應重點關(guān)注數(shù)據(jù)集的類型、基本信息、標識信息、質(zhì)量特性4個要素。
數(shù)據(jù)集的類型可按照數(shù)據(jù)集本身的預期用途、數(shù)據(jù)來源、用戶類型、訪問管理方式、更新形式進行劃分。數(shù)據(jù)集類型將影響數(shù)據(jù)的采集路徑、存儲方式、管理機制,影響數(shù)據(jù)集的開發(fā)與維護成本,且與數(shù)據(jù)集制造責任方的工作量直接相關(guān)。IEEE 2801-2022進一步解釋了數(shù)據(jù)集類型對數(shù)據(jù)質(zhì)量管理的影響。
數(shù)據(jù)集的基本信息包含數(shù)據(jù)模態(tài)、數(shù)據(jù)層次、應用場景、數(shù)據(jù)采集要求、數(shù)據(jù)預處理要求、數(shù)據(jù)標注要求、數(shù)據(jù)元、元數(shù)據(jù)、數(shù)據(jù)更新、數(shù)據(jù)多樣性等要素,以及依從的條件、規(guī)則和規(guī)范。數(shù)據(jù)集的設計輸入(建設方案)是數(shù)據(jù)集基本信息的主要來源,數(shù)據(jù)集建成之后的統(tǒng)計信息作為補充。
與醫(yī)療器械軟件類似,數(shù)據(jù)集本身也需要具備命名、唯一標識和版本號,用于追蹤數(shù)據(jù)集的使用、流通和變化情況,配合監(jiān)管機構(gòu)對數(shù)據(jù)集進行追溯;數(shù)據(jù)集制造責任方的名稱、聯(lián)系方式也應在說明文檔中體現(xiàn)。數(shù)據(jù)集如出現(xiàn)更新,版本號則應及時變更。
數(shù)據(jù)集制造責任方在建成數(shù)據(jù)集之后,應按照YY/T 1833.2-2022第5章的要求,將數(shù)據(jù)集的各個質(zhì)量特性映射為具體的技術(shù)指標,在說明文檔中進行聲明。本部分將直接體現(xiàn)數(shù)據(jù)集的技術(shù)水平,是橫向比較數(shù)據(jù)集質(zhì)量的重要依據(jù)。對于可客觀量化描述的技術(shù)指標,數(shù)據(jù)集制造責任方應給出具體數(shù)值,例如準確性、一致性;對于不能客觀量化描述的技術(shù)指標,數(shù)據(jù)集制造責任方應給出可驗證的書面證據(jù),例如可訪問性、可理解性。
數(shù)據(jù)集風險分析文檔是數(shù)據(jù)集制造責任方開展風險管理活動的重要產(chǎn)出,標準中強調(diào)了數(shù)據(jù)集偏倚風險,列舉了選擇偏倚、覆蓋偏倚、混雜偏倚等情形。數(shù)據(jù)集制造責任方可參考臨床試驗設計中的偏倚控制思路,在設計、建立數(shù)據(jù)集的過程中加強樣本的多樣性、代表性。對于臨床獲取難度較大的病種、樣本,數(shù)據(jù)集制造責任方可通過數(shù)據(jù)擴增等方式提供補充,但應注意對擴增數(shù)據(jù)進行人工審核確認后方可投入使用,且對擴增數(shù)據(jù)賦予特別的標識,與真實臨床數(shù)據(jù)進行區(qū)分。
YY/T 1833.2-2022第5章共規(guī)定了17種質(zhì)量特性。表1歸納了其中與數(shù)據(jù)價值有關(guān)的8個質(zhì)量特性及其注意事項。這些質(zhì)量特性一般在編寫數(shù)據(jù)集的設計輸入(建設方案)時由數(shù)據(jù)集制造責任方預先聲明,實際效果取決于數(shù)據(jù)采集、預處理和標注環(huán)節(jié)。
表1 與數(shù)據(jù)價值相關(guān)的質(zhì)量特性
為了確保上述質(zhì)量特性得以實現(xiàn),數(shù)據(jù)集制造責任方需從數(shù)據(jù)源頭加強把關(guān),注意事項解釋如下:
(1)準確性:一方面,數(shù)據(jù)采集應盡量反映患者生理或病理層面的真實情況,標注結(jié)果應盡量接近金標準或參考標準;另一方面,數(shù)據(jù)錄入應盡量避免出現(xiàn)錯誤,導致偏離真實情況。準確性由數(shù)據(jù)采集設備的先進程度、數(shù)據(jù)采集流程與人員操作的規(guī)范程度、數(shù)據(jù)標注與數(shù)據(jù)錄入的嚴謹程度共同決定?!罢嬷怠钡某尸F(xiàn)形式與具體的數(shù)據(jù)模態(tài)有關(guān),需要根據(jù)現(xiàn)實條件確定。例如,病灶良惡性的判定以病理診斷作為“真值”;冠狀動脈狹窄程度的判定以冠狀動脈造影結(jié)果作為“真值”。為了確?!罢嬷怠钡膶崿F(xiàn),采集數(shù)據(jù)的設備(如放射影像設備、光學成像設備、生理信號采集設備等)應符合相關(guān)法規(guī)、標準要求,完成必要的計量、校準,使之處于有效狀態(tài)。
(2)完備性:一方面包含數(shù)據(jù)元、元數(shù)據(jù)字段的全面性,由數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)體現(xiàn),可通過數(shù)據(jù)庫軟件進行預覽和查驗;另一方面包含數(shù)據(jù)采集、標注的充分性,由數(shù)據(jù)集包含的數(shù)據(jù)模態(tài)、信息量體現(xiàn),需經(jīng)數(shù)據(jù)解析進行驗證。
(3)唯一性:數(shù)據(jù)集的唯一性體現(xiàn)在病例、數(shù)據(jù)元等不同層面。數(shù)據(jù)集的樣本如出現(xiàn)重復,將破壞數(shù)據(jù)集的預設分布,導致數(shù)據(jù)集存在偏倚等問題,因此各個樣本應保證唯一。數(shù)據(jù)集制造責任方在進行數(shù)據(jù)收集時,應進行查重,從根源上杜絕樣本重復。值得注意的是,對于同一病例提交多次檢查的情形,不同檢查應避免重復,例如病例的多次隨訪/預后評估數(shù)據(jù)之間、MRI不同掃描序列之間、冠狀動脈CT平掃/增強序列之間避免重復。
(4)一致性:標準提出的一致性包含內(nèi)部和外部兩個層面。內(nèi)部一致性指的是同一數(shù)據(jù)單元在內(nèi)部流轉(zhuǎn)過程中質(zhì)量保持不變,例如圖像數(shù)據(jù)在經(jīng)歷脫敏、查重、標注等操作后,圖像矩陣保持不變。數(shù)據(jù)流轉(zhuǎn)過程中的格式轉(zhuǎn)換、有損壓縮是影響內(nèi)部一致性的常見風險,需引起重視。外部一致性指的是不同批次、不同來源樣本之間的相似性,需開展數(shù)據(jù)之間的橫向比對,尤其注意數(shù)據(jù)采集條件、標注方式的相似性。
(5)確實性:主要反映樣本的真實程度,客觀上要求數(shù)據(jù)集制造責任方防范數(shù)據(jù)造假、數(shù)據(jù)污染等情形,體現(xiàn)了數(shù)據(jù)集制造責任方的誠信、嚴謹程度。
(6)時效性:反映數(shù)據(jù)集的采集條件、標注規(guī)則是否適應當前需求,同時也體現(xiàn)了數(shù)據(jù)集制造責任方的執(zhí)行效率。
(7)精度:主要由數(shù)據(jù)采集設備、數(shù)據(jù)標注軟件的技術(shù)水平?jīng)Q定。例如,成像設備的空間分辨率、像素分辨率、動態(tài)響應范圍等技術(shù)參數(shù)決定了數(shù)據(jù)采集的精度;標注軟件能夠勾畫的最小分割單元等技術(shù)參數(shù)決定了數(shù)據(jù)標注的精度。
(8)代表性:作為體現(xiàn)數(shù)據(jù)公平的主要屬性,需事先設計、事后驗證。數(shù)據(jù)集設計輸入(建設方案)的預設樣本分布、樣本量設置應考慮臨床患者群體的流行病學特征;數(shù)據(jù)集建成后,實際的統(tǒng)計分布應盡量貼近預設分布。
數(shù)據(jù)集建成后,其使用質(zhì)量也是數(shù)據(jù)集質(zhì)量評價的重點。表2歸納了與使用質(zhì)量有關(guān)的6個質(zhì)量特性及其注意事項,其含義與軟件質(zhì)量評價相似,以用戶的權(quán)益為視角。對于數(shù)據(jù)集制造責任方而言,使用質(zhì)量取決于數(shù)據(jù)的存儲格式、編碼形式、封裝方式。數(shù)據(jù)集制造責任方在建設數(shù)據(jù)集的同時,需考慮輔助工具的匹配,例如數(shù)據(jù)庫軟件、數(shù)據(jù)恢復軟件,以加強對用戶的技術(shù)支持能力。
表2 與使用質(zhì)量相關(guān)的質(zhì)量特性
數(shù)據(jù)集建設過程中,數(shù)據(jù)集制造責任方具有管理責任,YY/T 1833.2-2022對此也進行了規(guī)定。表3歸納了與管理相關(guān)的3個質(zhì)量特性及其注意事項。保密性需從數(shù)據(jù)脫敏、數(shù)據(jù)安全、網(wǎng)絡安全等角度考慮,對基礎設施和工具有一定要求。依從性主要由數(shù)據(jù)集制造責任方聲明,明確數(shù)據(jù)集建設過程中執(zhí)行的法規(guī)、技術(shù)標準、臨床規(guī)范、參考文獻,對數(shù)據(jù)集的合規(guī)性提供系統(tǒng)支撐,同時也反映了數(shù)據(jù)集總體設計的合理性??勺匪菪砸髷?shù)據(jù)集制造責任方在數(shù)據(jù)采集、預處理、標注等各個環(huán)節(jié)建立操作規(guī)程和原始記錄,以過程為導向加強數(shù)據(jù)集的合規(guī)性,以助于滿足人工智能醫(yī)療器械生命周期的質(zhì)量管理要求。
表3 與管理相關(guān)的質(zhì)量特性
YY/T 1833.2-2022作為醫(yī)藥行業(yè)標準,以監(jiān)管需求為出發(fā)點,主要用于對人工智能醫(yī)療器械行業(yè)使用的數(shù)據(jù)集進行質(zhì)量評價,也可用于自檢、第三方測試、數(shù)據(jù)集進貨檢驗等目的,同時可幫助人工智能醫(yī)療器械的生產(chǎn)廠家對數(shù)據(jù)集的供應商進行審核。
標準要求數(shù)據(jù)集制造責任方提供數(shù)據(jù)集說明文檔、風險分析文檔,能夠幫助監(jiān)管部門快速了解數(shù)據(jù)集的建設過程和技術(shù)水平,也能夠幫助生產(chǎn)企業(yè)根據(jù)需求遴選數(shù)據(jù)集。標準要求數(shù)據(jù)集制造商聲明17種質(zhì)量特性,為數(shù)據(jù)集質(zhì)量的橫向比對提供了依據(jù),能夠幫助行業(yè)形成統(tǒng)一的質(zhì)量認識。值得注意的是,數(shù)據(jù)集制造責任方在聲明質(zhì)量特性時,需參考具體病種、模態(tài)和預期應用的產(chǎn)品情況、監(jiān)管要求[17-21],不宜將專病數(shù)據(jù)庫的技術(shù)參數(shù)直接轉(zhuǎn)化為數(shù)據(jù)集的質(zhì)量特性。專病數(shù)據(jù)庫作為醫(yī)學數(shù)據(jù)資源的重要載體,以病種為主題,其范圍一般大于YY/T 1833.2-2022提出的數(shù)據(jù)集概念,應根據(jù)對標的人工智能醫(yī)療器械需求,進行樣本抽取、篩選和整合,形成真正的數(shù)據(jù)集,提交質(zhì)量評價。
數(shù)據(jù)集的質(zhì)量評價流程以抽樣檢驗為主要步驟。YY/T 1833.2-2022沿用了目前市場監(jiān)督抽驗常用的國家標準,統(tǒng)計方法較成熟,數(shù)據(jù)集制造責任方可采用相關(guān)方法開展自檢,確定抽樣方案和質(zhì)量水平。YY/T 1833.2-2022的發(fā)布實施,有助于企業(yè)自檢,亦有助于指導新檢測工具、檢測平臺的開發(fā)[22]。
數(shù)據(jù)集是人工智能醫(yī)療器械產(chǎn)業(yè)發(fā)展的重要資源。YY/T 1833.2-2022的發(fā)布實施,為數(shù)據(jù)集的質(zhì)量評價提供了統(tǒng)一標準,為數(shù)據(jù)供應鏈的發(fā)展提供了質(zhì)量保證同時為相關(guān)機構(gòu)研究建立具體醫(yī)學場景下的數(shù)據(jù)集專用標準提供了通用框架,將推動數(shù)據(jù)集質(zhì)量評價在細分領域的落地。醫(yī)療機構(gòu)啟動數(shù)據(jù)集建設前,可按照該標準的要求梳理數(shù)據(jù)采集條件,為后續(xù)人工智能產(chǎn)品開發(fā)和應用提前謀劃,從而節(jié)約資源。臨床機構(gòu)作為數(shù)據(jù)集建設的主力軍,有必要充分了解標準的內(nèi)容,根據(jù)標準的要求準備數(shù)據(jù)集描述文檔、風險分析文檔,在數(shù)據(jù)集建設階段保留可追溯的記錄,并加強人員培訓和過程監(jiān)管。