孟祥峰,王浩,王權(quán),張超,任海萍
中國食品藥品檢定研究院 光機電室,北京 100050
醫(yī)學(xué)影像數(shù)據(jù)是診療數(shù)據(jù)的重要組成部分,包括眼底拍照[1-6]、內(nèi)窺鏡成像[7]、核磁[8]、X射線[9]等。醫(yī)學(xué)影像價值的開發(fā)需要投入大量人力進行定量分析、比較。目前,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人工智能(Artificial Intelligence,AI)算法在包括學(xué)影像的逐多領(lǐng)域?qū)崿F(xiàn)了突破。人工智能在醫(yī)學(xué)影像的應(yīng)用預(yù)期實現(xiàn)對疾病的檢出、分類、篩查、病灶分割及測量等工作。影像類人工智能醫(yī)療器械大量涌現(xiàn),例如用于糖尿病視網(wǎng)膜病變識別/篩查/分期的產(chǎn)品、肺結(jié)節(jié)的檢出/篩查的產(chǎn)品等。這類產(chǎn)品是醫(yī)療器械監(jiān)管領(lǐng)域新的方向,國內(nèi)外尚未建立成熟標準和評價方法,有必要進行研究。
根據(jù)報道,國內(nèi)外不同機構(gòu)使用各種數(shù)據(jù)集舉辦過一些AI算法競賽,如LUNA[10-11]、Kaggle、天池大賽等。這些競賽對于比對算法性能提供了有益的借鑒,但角度不同于針對完整產(chǎn)品開展的有效性與安全性評價,不能完全滿足醫(yī)療器械監(jiān)管層面的需求。目前尚未建立人工智能醫(yī)療器械的評價標準與方法規(guī)范。本文對影像類人工智能醫(yī)療器產(chǎn)品性能評價方法進行了研究,提出了通用的整體方案,討論了不同情形的特殊處理,有助于推進影像類人工智能醫(yī)療器械性能評價工作,為后續(xù)制訂標準規(guī)范提供依據(jù)。
影像類人工智能醫(yī)療器械可包含多種預(yù)期用途,如檢出、分類、邊界分割、尺寸測量等,由不同算法模塊實現(xiàn)。產(chǎn)品的評價建議按照從上到下、從整體到局部的原則建立流水線,在每個環(huán)節(jié)對各個模塊進行單獨考量。從臨床意義和工作時序出發(fā),檢測流程按照檢出、分類、邊界分割、尺寸測量等步驟依次進行(圖1)所示。測試流程的每一步只允許把當前AI判斷正確的結(jié)果提交下一步的分析,以保證各步驟的獨立性,避免后續(xù)的誤判,例如在肺結(jié)節(jié)的檢出環(huán)節(jié),僅把AI檢出結(jié)果中的真陽結(jié)果用于分類環(huán)節(jié)準確率的分析。
依托于測試集的性能評價主要是比較AI結(jié)果與測試集的參考標準,用不同指標建立定量描述的過程。所謂參考標準是指目標疾病狀態(tài)的真實信息[12-13],本文所提到的參考標準是指標注醫(yī)生通過圖像信息,對肺部疾病狀態(tài)進行判斷,給出病灶位置的準確邊界。以下對各環(huán)節(jié)具體展開介紹。
圖1 檢測流程圖
影像類人工智能醫(yī)療器械多采用提示框顯示AI檢出的病灶,提示框可能為方框、圓框、分割邊界等;提示框邊界與病灶距離可能為緊包裹或大于病灶一定尺寸。由于提示框形狀和尺寸形式各異,除非以邊界直接作為提示框,提示框的面積不能完全代表結(jié)節(jié)區(qū)域,因此用提示框與參考標準的重疊面積或交并比作為檢出的依據(jù),對不同產(chǎn)品的評價尺度難于統(tǒng)一。為避免提示框形狀和尺寸對檢出問題帶來的影響,本文建議使用參考標準的中心點到提示框中心點的距離,作為AI提示框與參考標準結(jié)節(jié)位置接近程度的考量,描述檢出。
以中心點作為檢出的判斷,需明確中心點的定義。對于二維影像而言,可采用緊包裹病灶的方框的中心點作為病灶的中心點,如有可能也可以尋找病灶的幾何中心作為中心點(這和參考標準的標注形式有關(guān));對于整體重建得到的三維影像,可以以緊密包裹整個立體區(qū)域的長方體中心作為中心點;對于斷層掃描得到的三維影像,也可以參照二維平面進行逐層計算,而對于整個立體區(qū)域可以取平均直徑最大的層面的中心作為立體中心點。
對于用于處理二維影像的AI產(chǎn)品,如參考標準用緊密包裹的方框標注,當參考標準中心點與AI預(yù)測病灶中心點的距離小于參考標準標注框半徑,可視為檢出;如參考標準進行了病灶邊緣分割,那么病灶就有了準確的邊界,能給出病灶的長徑和短徑。這時如果以參考標準中心點與AI預(yù)測病灶中心點距離小于參考標準長徑的一半作為檢出的定義,則AI預(yù)測病灶中心點可能落在結(jié)節(jié)之外,如圖2所示,此時預(yù)測病灶將判為真陽。
如果以距離小于參考標準短徑的一半作為檢出的定義,AI預(yù)測病灶中心點可能雖然落在結(jié)節(jié)之內(nèi)如圖3所示,此時預(yù)測結(jié)節(jié)將判為假陽。
以上判斷情形與實際重疊情況存在分歧,因此建議當參考標準有準確的邊界時,要求AI預(yù)測病灶的中心點至少要落在病灶上,也就是落在邊界以內(nèi)或邊界上,作為對中心點距離的替代判斷方式;當AI中心點落在邊界以外,視為檢出失敗。如圖4所示,病灶1判為檢出,病灶2判為未檢出。該方法需要測試集本身具備結(jié)節(jié)邊界的參考標準。
圖2 以長徑的一半?yún)^(qū)域作為檢出的定義
圖3 以短徑的一半?yún)^(qū)域作為檢出的定義
圖4 以參考標準分割區(qū)域作為檢出的定義
對于處理三維斷層影像的AI產(chǎn)品,每一層包含了一個中心點,只要任意一層檢出了病灶,在臨床使用上,這個病灶都會被醫(yī)生注意到,因此只要AI預(yù)測病灶某一層的中心點落在參考標準三維立體空間內(nèi)即視為檢出,如圖5所示;否則為未檢出,如圖6所示。
圖5 三維斷層影像的AI產(chǎn)品的檢出判斷舉例
圖6 三維斷層影像的AI產(chǎn)品的的未檢出判斷舉例
參考標準中未被配對的結(jié)節(jié),判為漏診;AI預(yù)測結(jié)果中未被配對的結(jié)節(jié),判為假陽。檢出即AI檢出的真肺結(jié)節(jié),總數(shù)記為TP;假陽即AI檢出的“假”肺結(jié)節(jié),總數(shù)記為FP;漏診即AI漏診的真肺結(jié)節(jié),總數(shù)記為FN。
召回率的計算公式見式(1):
精確度的計算公式見式(2):
F分數(shù)的計算公式見式(3):
分類問題是醫(yī)學(xué)影像AI的常見應(yīng)用,例如眼底病變分類、肺結(jié)節(jié)類型分類[14-17]。對于二分類的產(chǎn)品,可以根據(jù)檢測結(jié)果構(gòu)建混淆矩陣,進行靈敏度、特異性、ROC曲線等參數(shù)的計算。
對于大于二分類的產(chǎn)品,同樣可以根據(jù)檢測結(jié)果構(gòu)建混淆矩陣,如表1所示,計算整體的準確度和Kappa系數(shù),作為評價指標。在實際臨床應(yīng)用中,醫(yī)生可能會關(guān)心某一類的分類表現(xiàn)情況,那么對于這種情況我們可以把多種分類分成需要評價的類和其他類(把除需要評價的類以外的類別合并),組成2×2的混淆矩陣,如表2所示,以類別i作為需要評價的類。這樣就把多分類問題轉(zhuǎn)換成了二分類情況考量,這樣就可以評價每一類的靈敏度、特異性等參數(shù)。
表1 已檢出病灶的分類混淆矩陣(以6分類的舉例)
表2 已檢出結(jié)節(jié)的分類混淆矩陣
對于二維影像,尺寸分割可以得到面積,以及病灶的長短徑等參數(shù),對于面積可進行準確性和交并比的考量,其中交并比可用dice系數(shù)表示,如圖7所示,用參考標準分割面積與AI分割面積的交集除以二者面積之和即為dice系數(shù)。實際計算中可將AI預(yù)測的結(jié)節(jié)邊界和參考標準結(jié)節(jié)邊界考慮為兩個封閉的曲線,按照定義計算兩個封閉曲線面積的交并比;也可考慮為兩個像素集合,計算AI預(yù)測的像素和參考標準像素集合的交并比。對于三維影像尺寸分割可以得到體積,以及病灶面積最大層面的長短徑等參數(shù),三維情況的交并比,即可轉(zhuǎn)換為立體范圍內(nèi)AI預(yù)測的體素和參考標準體素的集合之間的交并比。長短徑可進行標量的誤差計算,計算AI預(yù)測值與參考標準測標準值的相對偏差。
圖7 交并比測試示意圖
實際檢測工作中發(fā)現(xiàn),對于檢出還存在多對1匹配的情況,即一個AI預(yù)測結(jié)節(jié)與多個參考標準結(jié)節(jié)滿足檢出要求,或多個AI預(yù)測結(jié)節(jié)與一個參考標準結(jié)節(jié)滿足檢出要求,如圖8所示。
圖8 多對1匹配情況的舉例
因為參考標準結(jié)界本身之間是不聯(lián)通的兩個個體,所以一個AI預(yù)測結(jié)節(jié)與多個參考標準結(jié)節(jié)滿足檢出要求的情況,只有出現(xiàn)在一個AI預(yù)測結(jié)節(jié)匹配了長徑≥4 mm參考標準結(jié)節(jié)與長徑<4 mm參考標準結(jié)節(jié);或匹配了長徑<4 mm參考標準結(jié)節(jié)與長徑<4 mm參考標準結(jié)節(jié)。對于第一種情況,因為AI預(yù)測結(jié)節(jié)肯定落在了長徑≥4 mm參考標準結(jié)界范圍內(nèi),所以優(yōu)先選擇長徑≥4 mm參考標準結(jié)節(jié)進行配對。圖8中優(yōu)先選擇AI1和AI2和GT1配對;而第二種情況由于無準確邊界,無法確定是否落在了真正的區(qū)域范圍內(nèi),所以優(yōu)先取AI預(yù)測結(jié)節(jié)中心點與參考標準結(jié)節(jié)中心點距離最近的結(jié)節(jié)作為檢出,圖8中選取AI3和GT2進行配對,作為檢出。未被檢出的GT3還可與其他AI結(jié)節(jié)進行匹配驗證,如果仍未被檢出,考慮參考標準結(jié)節(jié)個數(shù)是一定的,為了召回率評價的一致,這種情況應(yīng)作為漏診處理。
對于圖8中GT1,同時有AI1和AI2配對,屬于多個AI預(yù)測結(jié)節(jié)與一個參考標準結(jié)節(jié)滿足檢出要求的情況,這種情況的選取可以有三種考量:① 選擇分類正確的;② 選擇預(yù)測概率高的;③ 選擇AI預(yù)測結(jié)節(jié)中心點與參考標準結(jié)節(jié)中心點距離最近的。如果選取分類正確或者預(yù)測概率最高的,很有可能影響未被配對結(jié)節(jié)的匹配關(guān)系,如圖9所示。如果測試工具先判斷GT1的匹配關(guān)系,那么按照分類或者預(yù)測概率選擇的話,就會選中AI2與GT1配對,那這樣GT2就變成了漏診,實際上對于臨床這樣的標注應(yīng)該認為兩個結(jié)節(jié)同時被檢出。所以出于考慮肺結(jié)節(jié)AI軟件檢出是最重要的環(huán)節(jié),本文優(yōu)先取AI預(yù)測結(jié)節(jié)中心點與參考標準結(jié)節(jié)中心點最近的結(jié)節(jié)作為檢出,圖8中選取GT1和AI1進行配對,作為檢出;圖9中選取GT1和AI1進行配對,作為檢出。未被檢出選取的AI預(yù)測結(jié)節(jié)還可其他參考標準結(jié)節(jié)進行匹配驗證,如果仍未被檢出,考慮參考標準并無真陰性的個數(shù)要求,且該情況多出現(xiàn)在一個大結(jié)節(jié)被AI分成了多個小結(jié)節(jié),對于臨床檢出來說無風(fēng)險,因此不作為假陽處理。
圖9 多對1匹配情況的舉例
按以上原則統(tǒng)計TP、FP、FN數(shù)量可計算召回率、精確度、F分數(shù)等參數(shù)。
因為數(shù)據(jù)集的測試數(shù)量很大,產(chǎn)品的檢出形式對評價方式也有一定的影響,如果對于一個病灶產(chǎn)品只給出了一個中心點,那么根據(jù)檢出的評價方法,要判斷這一個點是否落在金標準結(jié)節(jié)范圍內(nèi);如果對一個病灶產(chǎn)品給出了逐層的中心點,那么根據(jù)檢出的評價方法,可判斷任意一層中心是否落在金標準結(jié)節(jié)范圍內(nèi)。本文模擬兩種場應(yīng)用場景,對AI輸出結(jié)果逐層中心點檢出匹配以及只對最大層面(平均直徑最大的層面)中心點進行檢出匹配,分別進行檢出指標的計算。
如果以AI預(yù)測結(jié)節(jié)最大層面中心落在金標準結(jié)節(jié)范圍內(nèi),與AI預(yù)測結(jié)節(jié)任意一層中心點落在金標準范圍內(nèi)作比較,召回率可相差5%左右,AI給出多層,相當于增加了更多的指示信息,因此其召回率相對較高;在多匹配情況中,以多個AI預(yù)測結(jié)節(jié)與一個金標準結(jié)節(jié)滿足檢出要求的情況為例,如果未被檢出選取的AI預(yù)測結(jié)節(jié)判為假陽,與未被檢出選取的AI預(yù)測結(jié)節(jié)不做處理比較,精確度可相差0.3%左右;對于邊界的處理方式的不同,如邊界點視為像素點以像素點構(gòu)建病灶區(qū)域或視為物理坐標點以多邊形構(gòu)建病灶區(qū)域,也會帶來較大的偏差。這是因為像素有一定的尺寸,在檢出判斷中很可能中心點落在邊緣像素點上,這種情況下,以數(shù)學(xué)多邊形的判斷形式,很可能視為未檢出。
從以上結(jié)果可以看出,評價方式的不同,會影響著輸出結(jié)果,因此必須合理的統(tǒng)一;而像素的處理方式和幾何邊界的處理方式實際上是數(shù)據(jù)處理的精度問題,操作時可以通過差值的方式將一個像素劃分為像素陣列,提高像素處理方式的精度,從而消除數(shù)據(jù)處理手段的不同帶來的偏差??傊u價方法或數(shù)據(jù)處理的任何一個環(huán)節(jié)都會對結(jié)果產(chǎn)生一定影響。
評價方法的建立是與產(chǎn)品的輸出特性以及測試數(shù)據(jù)集參考標準有這著直接的聯(lián)系,相同的算法如果輸出方式不同或參考標準不同,所選用的評價方法就有可能不同,測試結(jié)果就會存在差異。因此對于接下來的研究,有必要規(guī)范產(chǎn)品的輸出,以及標準化測試數(shù)據(jù)集,從而確定評價方法。此外,鑒于目前存在這些差異,在進行各種測試時所給出的結(jié)果,必須明確所使用的方法、產(chǎn)品的描述以及測試集的情況,這樣得到的結(jié)果才是可追溯的結(jié)果,才具有參考價值。
本文針對影像類人工智能醫(yī)療器械性能的評價,提出了流水線式的檢測流程設(shè)計,給出了具體實施方法,并討論了各種特殊情況的處理方式,有助于解決實際檢測中遇到的疑慮。本研究內(nèi)容結(jié)合實際的AI產(chǎn)品特點及臨床應(yīng)用,有助于實現(xiàn)產(chǎn)品的客觀評價,統(tǒng)一評判標準,為今后影像類人工智能醫(yī)療器械檢驗的標準化工作提供基礎(chǔ)。