亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

CT 影像人工智能軟件的審評要點

2022-08-25 08:50:12李小江曾祥衛(wèi)孫志剛

醫(yī)療裝備 2022年15期

關鍵詞：功能

李小江，曾祥衛(wèi)，孫志剛

廣東省藥品監(jiān)督管理局審評認證中心（廣東廣州 510080 ）

近年來，隨著人工智能（artificial intelligence，AI）技術的快速發(fā)展，AI在醫(yī)學領域的應用也越來越廣泛，特別是關于CT影像AI軟件的研究。從臨床應用的角度來看，CT影像AI軟件可分為輔助決策類和非輔助決策類。輔助決策類軟件相當于醫(yī)師的“助手”，可以自動識別病灶、提供輔助診斷（如肺結節(jié)良惡性的輔助診斷）；非輔助決策類軟件僅可提供信息參考，相當于醫(yī)師的“工具”，可用于改善成像質量及進行流程優(yōu)化、自動測量、CT三維重建等。軟件的前處理、流程優(yōu)化、常規(guī)后處理、輔助決策等功能在產品層面存在交叉，具體情況需要結合產品的預期用途、使用場景和核心功能進行考慮。目前，從獲批的醫(yī)療器械注冊證來看，國內CT影像AI軟件主要應用在肺結節(jié)、肺炎、冠狀動脈病變、骨折等方面的輔助診斷、分診和流程優(yōu)化。AI軟件因其具有輔助醫(yī)務人員進行臨床決策的功能，因此存在很大的臨床使用風險，若出現漏診和誤診甚至會導致延誤治療和過度醫(yī)療[1]。因此，很有必要對CT 影像AI軟件的安全性和有效性進行評價。本文主要從醫(yī)療器械注冊審評角度淺析CT影像AI軟件的審評要點，以期為該類產品的注冊申報提供參考。

1 監(jiān)管信息

1.1 產品名稱

產品的命名應符合《醫(yī)療器械通用名稱命名規(guī)則》[2]的要求。建議產品名稱應明確目標疾?。ㄈ绶窝?、肺結節(jié)、骨折）和臨床用途（如輔助診斷、輔助檢測、分診、測量、定位）。如：肺炎CT 影像輔助分診與評估軟件、肺結節(jié)CT 影像輔助檢測軟件。目前，AI 軟件在決策方面的定位只是輔助角色，需要醫(yī)師做出最終決定，產品名稱建議明確為輔助軟件。

1.2 分類

根據《人工智能醫(yī)用軟件產品分類界定指導原則》[3]，輔助決策類AI 軟件按照三類醫(yī)療器械管理，用于測量等非輔助決策類AI 軟件按照二類醫(yī)療器械管理。如廠家不確定產品分類，建議向國家藥品監(jiān)督管理局醫(yī)療器械標準管理中心申請分類界定。

1.3 適用范圍

適用范圍需明確處理對象（如CT 影像）、目標疾?。ㄈ绶窝?、肺結節(jié)、肺氣腫、肺結核、肺癌、腦出血、血管閉塞、心臟冠脈病變、肝癌等）、適用人群（如成人、小兒）、臨床用途（如分診提示、異常識別、疾病類型分析、良惡性風險提示、病程階段分析、提供輔助診斷結果、提供醫(yī)學建議）、目標用戶（如放射科醫(yī)師）等信息。如：用于肺部CT 影像的顯示、處理、測量和肺炎病灶識別，可輔助用于成年的新型冠狀病毒肺炎疑似患者的分診提示以及確診患者的病情評估；供經培訓合格的醫(yī)師使用，不能單獨用作臨床診療決策證據。

2 技術要求

2.1 型號規(guī)格及劃分說明

如產品有多個型號，應明確不同型號間的差異，明確軟件的發(fā)布版本及軟件版本的命名規(guī)則，命名規(guī)則中需涵蓋算法更新類型（區(qū)分算法驅動型和數據驅動型），還需涵蓋網絡安全的更新類型，并區(qū)別重大更新和輕微更新（原則上算法驅動型屬于重大更新），重大更新需列舉常見的情形。

2.2 性能指標

明確軟件的輸入輸出數據類型。輸入數據一般包括軟件的處理對象及成像模態(tài)，如X 射線計算機體層攝影；輸出數據一般指的是測量、分析、處理等結果類型，如用于4 mm 以上肺結節(jié)的識別。

明確軟件的接口類型，包括調用的其他應用程序接口、數據接口、可聯合使用的其他產品接口。其中，數據接口還需明確數據傳輸協議或存儲格式（如比較常見的DICOM、HL7），如采用私有協議也需要說明。

明確軟件運行環(huán)境。一般需明確典型運行環(huán)境，既包括處理器、存儲器等硬件配置，也包括系統(tǒng)軟件環(huán)境，還包括網絡條件。需要注意的是，如適用多個版本，一般表述為“兼容版本”，不宜表述為“更高版本”或“以上版本”，如“運行環(huán)境： IE 6.0版本或兼容版本”。

軟件的臨床功能需包括說明書和軟件界面所包含的所有臨床功能綱要。為方便審閱，建議可結合產品的邏輯組成，分模塊列明。臨床功能一般包括可以客觀測量的功能、圖像處理功能等。直線長度、角度、面積、周長、體積、平均密度、直徑等凡是可測量的物理量，都應該在性能指標中進行明確，并規(guī)定測量的誤差要求。布局、放大鏡、聯動、復位、裁剪、拖移、縮放、反片、曲線窗、右轉、左轉、倒置、鏡像、偽彩、增強、濾鏡、圖像對比、多平面重建（multiplanar reformation，MPR）、最大密度投影（maximum intensity projection，MIP）、最小密度投影（minimum intensity projection，MinIP）、容積重建（Volume rendering，VR）、病灶部位、分割方式、病灶量化分析、病灶識別與標注、病灶性質判斷、靶區(qū)自動勾畫等采用AI算法的圖像處理功能需標注并明確算法類型。

軟件性能包括響應時間、系統(tǒng)響應時間和應用延遲時間、吞吐量、并發(fā)用戶數和資源利用率等。

明確軟件的用戶使用限制和必要的技術限制。如使用場景的限制，預期用于一般的體檢篩查還是門診病房；對患者的年齡、疾病類型或者地域是否有限制；其他限制包括CT 設備的廠家，CT 的掃描參數（如排數、層數、管電流、管電壓、劑量、層厚、加載時間、重建方式等），適用于CT 平掃還是CT 增強掃描，CT 圖像質量有何要求（如分辨率是多少，需要排除的偽影類型等），目標疾病的分類或分型，病灶識別的部位等。

3 軟件研究

3.1 算法性能要求

疾病檢出類算法的性能一般包括召回率、病變定位率（真陽性/（真陽性+假陰性）×100%）、精確度（真陽性/（真陽性+假陽性）×100%））、F1分數[（2×精確度×召回率/（精確率+召回率）]、平均精確度、平均精確度均值、fR0C曲線（以召回率為縱坐標、非病變定位率為橫坐標構造的曲線）。

區(qū)域分割與測量類算法的性能一般包括召回率（算法分割的感興趣區(qū)域與參考標準分割的感興趣區(qū)域的交集除以參考標準分割的感興趣區(qū)域）、精確度（算法分割的感興趣區(qū)域與參考標準分割的感興趣區(qū)域的交集除以算法分割的感興趣區(qū)域）、交并比[當感興趣區(qū)域為一般實體時（如肺結節(jié)），宜采用Dice系數或Jaccard系數計算交并比]、樹檢測長度、表面距離、密度測量、尺寸測量、體積測量。

影像分類算法的性能一般包括靈敏度、特異度、漏檢率、陽性預測值、陰性預測值、準確率、約登指數、Kappa系數、R0C 曲線。

隨訪評估功能算法一般需根據不同時間節(jié)點，比較算法對同一感興趣區(qū)域的分析結果與參考標準之間的符合性，計算絕對誤差，并建立各時間節(jié)點的動態(tài)曲線，計算與參考標準曲線的一致性。

患者分診功能算法一般根據不同的分診級，與算法輸出的標簽進行對比，建立混淆矩陣，計算靈敏度、特異度、Kappa系數等。

算法質量特性包括泛化能力、魯棒性（包括面向硬件變化的對抗測試、面向軟件前處理的對抗測試、面向欺騙攻擊的對抗測試、壓力測試）、重復性、一致性、效率、錯誤分析。

3.2 訓練數據要求

基于深度學習的AI 技術與傳統(tǒng)統(tǒng)計學習技術的差異主要在于數據集規(guī)模與特征提取兩方面。傳統(tǒng)統(tǒng)計學習技術對數據量的要求沒有那么大，特征提取是一個白盒過程；而AI 技術對于數據量要求很高，且是一個端到端的黑盒過程，可自動完成特征提取。這意味著，AI 技術對數據庫的考量會更加細致，需要重點考慮其數據的可解釋性問題。

3.3 數據采集要求

數據采集需考慮CT 設備的兼容性與掃描參數、CT 影像質量等因素，如廠家、探測器排數、層數、層厚、管電壓、管電流、加載時間、掃描方式、患者體位、掃描速度、螺距、圖像偽影與噪聲等要求。對于CT 設備的要求，建議盡量覆蓋國內外主流機型，如飛利浦、GE、西門子、東芝、聯影、東軟等。掃描方式，如平掃、增強、低劑量，應各有一定的占比。數據采集還需考慮患者人群、采集場所、機構來源、數據格式、采集人員、影像學分級、分型、分期等多方面的因素。人群因素包括不同的年齡分布、性別、地域（如華東、華南、華中、西北等）。采集場所，如體檢、門診、住院。影像學分級，如肺炎包括早期、進展期、嚴重期，肺結節(jié)類型包括肺內實性結節(jié)、肺內部分實性結節(jié)、肺內純磨玻璃結節(jié)、肺內鈣化結節(jié)、胸膜實性結節(jié)、胸膜鈣化結節(jié)、其他疾病等，不同類型的結節(jié)還包括不同尺寸。

3.4 數據標注及質控要求

在標注任務開始前，標注責任方應明確標注任務的分類，包括數據模態(tài)、執(zhí)行主體、標注結果格式、標注結果性質、標注結果形式等維度。

標注任務需建立標注規(guī)則，如根據法規(guī)文件、專家共識、文獻分析等確定標注規(guī)則，需明確標注人員的要求，如標注人員來源的醫(yī)療機構、工作年限、職稱、工作量、培訓考核評價情況、標注任務，不同角色人員（如初級標注人員、審核人員、仲裁人員）分別進行闡述，明確人員分工，制定決策機制，明確分歧處理程序。此外，需明確標注過程適用的標注工具，如設備型號、標注軟件的信息，描述標注環(huán)境，標注數據如何進行數據清洗、查重等。

要求整個標注過程中追蹤結果應可以導出并可追溯，避免數據丟失，具體要求如下。（1）標注時間監(jiān)測：可以通過記錄測試過程中醫(yī)師對于每一個病例的標注時間，建立每一位標注者的標注時間分布；在實際標注階段，可以通過不斷比對每一個病例的標注時間、該時間在該標注人員標注時間分布中的位置來判斷標注的狀態(tài)；若標注時間多次出現過長或過短的情況，則需要同時評估標注人員的狀態(tài)和數據的質量。（2）標注一致性監(jiān)測：在標注過程中，引入部分病例，讓同一名標注人員進行二次標注，并計算同一個人兩次標注之間的一致性，以確保標注人員的標注一致性水準始終能夠達到項目的要求，保證整體標注的一致性。（3）標注準確率監(jiān)測：在標注過程中，引入部分醫(yī)學專家提供的帶有標準標注答案的病例，計算標注人員對于帶標準答案病例標注的準確性，用以評估標注人員的實時狀態(tài)。

3.5 算法訓練

算法訓練需結合繪制訓練數據量-評估指標曲線，重點進行算法性能影像因素分析以及數據多樣性分析。

算法訓練如涉及數據擴增，需明確數據擴增的對象、方法、倍數，分析擴增倍數過大的影響及其風險。數據擴增并不總能產生積極的作用，不當的數據擴增可能產生負面影響。而什么是適當的數據擴增，取決于具體的任務和數據集。因此需要慎重考慮擴增過程中的數據偏移問題，同時進行擴增倍數過大的影響分析。

3.6 算法驗證與確認

測試集應與算法的研發(fā)、訓練集和調優(yōu)集保持獨立，以保證數據集的安全性和封閉性。根據靈敏度、特異度計算單次測試的樣本量，考慮人群特征，疾病分類和分級、數據質量要求，不同采集設備等，確保數據容量和數據多樣性。

4 臨床評價

該類產品的臨床評價方式與其必備的軟件功能類型有關。用于病情評估的量化分析功能、數據對比功能、常見影像后處理功能（如多平面重建、曲面重建、最大密度投影、最小密度投影、表面遮蓋顯示、容積再現、仿真內窺鏡、偽彩、圖像銳化、去噪、增強、分割、配準、融合等）屬于非輔助決策類軟件功能，可基于核心功能按同品種醫(yī)療器械比對的臨床評價途徑。簡單操作類軟件功能（如隨訪結果對比、多窗口顯示、圖像縮放移動、窗寬窗位調節(jié)、長度測量、角度測量、標注工具）、單純流程優(yōu)化類軟件功能（如一鍵輸出報告功能、批量導出功能、隨訪提醒功能、膠片智能排版打印、分診指引功能）可通過非臨床證據予以評價。

分診提示、異常識別、疾病類型分析、病灶種類鑒別、良惡性風險提示、病程階段分析、提供輔助診斷結果（自動化報告）、提供醫(yī)學建議（給出臨床診斷治療依據和/或建議、用藥建議）等功能屬于輔助決策類軟件功能，可基于核心算法進行同品種醫(yī)療器械比對，比對所選產品的臨床證據需基于臨床試驗。全新的核心算法、核心功能、預期用途原則上均應開展臨床試驗[4]。

4.1 試驗設計

若無同類已上市產品可采用單組目標值試驗設計；若有同類已上市產品可考慮平行對照試驗設計。

采用單組目標值試驗設計，目標值應符合臨床應用需求，并提供目標值確定的依據。目標值可來源于權威醫(yī)學組織、臨床文獻或回顧性臨床研究結果確定。

臨床機構應當具備代表性和廣泛性，不同于訓練數據主要來源機構，地域分布盡可能廣泛，機構數量盡可能多，以確認算法泛化能力。

4.2 評價指標

針對采用AI算法設計的臨床功能原則上選擇靈敏度、特異度、ROC曲線下面積（area under curve，AUC）為主要評價指標，亦可在此基礎上根據軟件特點選擇靈敏度/特異度衍生指標、ROC AUC衍生指標（如診斷準確率、精確率、召回率）、F1系數、組內相關系數、Kappa系數、時間效率（如輔助診斷平均時間、日人均診斷量增益率和診斷平均時間增益率）、數據有效使用率等指標作為次要評價指標。

5 小結

AI 技術在醫(yī)學領域的應用日益廣泛，前景廣闊，但仍存在如下問題：因其不確定性帶來潛在風險，目前相關的監(jiān)管體系尚不健全，評估標準缺失，難以及時對潛在的醫(yī)療質量安全問題進行監(jiān)督與管理。國家藥監(jiān)部門有必要盡快出臺具體的評價標準，發(fā)布相關的指導原則、審評指南，指導企業(yè)從研發(fā)、注冊申報，到臨床應用，規(guī)范注冊審評審批，構建全生命周期的監(jiān)管體系，為產品的安全、有效保駕護航，使AI 軟件產品更好地服務于臨床。