孟祥峰,王浩,張超,任海萍
中國食品藥品檢定研究院 光機電室,北京 100050
當(dāng)前以深度學(xué)習(xí)[1-2]為代表的人工智能技術(shù)已廣泛用于醫(yī)療領(lǐng)域,如糖網(wǎng)篩查[3-6],這些技術(shù)本質(zhì)決定了訓(xùn)練集的質(zhì)量對人工智能(Artificial Intelligence,AI)產(chǎn)品的核心算法性能有重要影響,醫(yī)學(xué)AI使用的訓(xùn)練集數(shù)據(jù)[7-8]區(qū)別于其他領(lǐng)域,需要獲得倫理批準(zhǔn),圖像獲得后還需進行標(biāo)注等處理以獲得“金標(biāo)準(zhǔn)”,建設(shè)周期長,成本高。此外,國內(nèi)外也沒有相關(guān)標(biāo)準(zhǔn)和規(guī)范對AI訓(xùn)練集的質(zhì)量進行約束,不同國家、地區(qū)、機構(gòu)建立的訓(xùn)練集的起源、數(shù)據(jù)質(zhì)量、可溯源性、標(biāo)注的參考標(biāo)準(zhǔn)、數(shù)據(jù)多樣性往往存在較大差異。因此在訓(xùn)練數(shù)據(jù)集數(shù)量不足、數(shù)據(jù)質(zhì)量參差不齊的情況下,AI的性能本身就受到了很大的限制。
AI軟件在特定訓(xùn)練集訓(xùn)練或測試時,會得到很好的效果,然而在新的數(shù)據(jù)集上的表現(xiàn)就很難保證,這也說明其泛化能力差,容易出現(xiàn)過擬的現(xiàn)象。一旦數(shù)據(jù)出現(xiàn)“噪聲”的擾動,魯棒性能差的AI就可能產(chǎn)生系統(tǒng)性的質(zhì)量問題,這對于AI企業(yè)、醫(yī)生、患者,甚至整個行業(yè)將造成損失和浪費。
實際上對于糖網(wǎng)AI的訓(xùn)練集即眼底圖像,在獲取、傳輸過程中本身的格式、分辨率等有可能發(fā)生改變,甚至AI軟件本身為了節(jié)省計算機資源,也會對圖像進行預(yù)處理(如壓縮、圖像背景裁剪等),這對于軟件就是一種擾動,圖像在人的視覺上可能和原始的圖像不可區(qū)分,但對于AI,圖像擾動帶來的變化是敏感的,很可能會對最終的決策產(chǎn)生影響。
目前對于醫(yī)療AI產(chǎn)品的算法評價多采用“黑盒”測試的方式。由于AI軟件系統(tǒng)對數(shù)據(jù)的處理、計算和決策過程對用戶是不可見的,因此可從AI軟件的輸入、輸出端入手,在輸入端(即測試數(shù)據(jù)集)采取圖像變換的形式(如圖像壓縮、背景裁剪、濾波等),模擬圖像采集過程中實際存在的圖像改變,進而觀察輸出的變化。這個過程也是對AI軟件的對抗攻擊過程,通過模擬對抗測試[9],實現(xiàn)人工智能醫(yī)療器械在實際使用時的風(fēng)險和可靠性評價。
本文采用實際臨床100張眼底圖像,對AI軟件進行模擬對抗測試,原始圖像分類[10-16]與分布,見表1。
分別對原始圖像進行圖像壓縮、圖像背景裁剪、圖像平滑濾波變換。
(1) 圖像壓縮。使用雙三次插值,將原始圖像等比壓縮,比例范圍為50%~100%,步長5%,將原始100張圖像分成11組,總共1100張圖像。
(2) 圖像背景裁剪。在原始圖像兩側(cè)分別填充黑色背景,尺寸為0~100像素,步長10像素,將原始100張圖像分成11組,總共1100張圖像。
(3)圖像平滑濾波。使用moving average濾波,卷積核1~21個像素的均一矩陣,步長2像素,將原始100張圖像分成11組,總共1100張圖像。
對以上3種變換共3300張圖像在3種算法上進行測試,算法均為轉(zhuǎn)診篩查功能。表1中0、1、5、6類為金標(biāo)準(zhǔn)的陰性,2、3、4類為金標(biāo)準(zhǔn)的陽性。當(dāng)算法將表1中圖像判為不轉(zhuǎn)診時,即為AI算法的陰性;判為轉(zhuǎn)診時,即為AI算法的陽性。對每種算法每種變換的每組結(jié)果給出混淆矩陣,見表2。
計算靈敏度與特異性,靈敏度特異性計算公式如式(1)~(2)所示。
靈敏度:
特異性:
式中,N1,1為真陽性的數(shù)量,即被AI算法正確地預(yù)測為陽性的眼底數(shù)據(jù);N1,2為假陽性的數(shù)量,即被AI算法錯誤的預(yù)測為陽性的眼底數(shù)據(jù);N2,1為假陰性的數(shù)量,即被AI算法錯誤的預(yù)測為陰性的眼底數(shù)據(jù);N2,2為真陰性,即被AI算法正確地預(yù)測為陰性的患者數(shù)據(jù)。
表2 AI測試結(jié)果的混淆矩陣
經(jīng)三個AI算法的原始圖像及圖像壓縮處理后的圖像的測試結(jié)果分別如圖1~3所示。從圖1可以看出,圖像壓縮的變化對算法1的靈敏度和特異性引起的變動不大,然而對于算法2(圖2)和算法3(圖3),隨著圖像分辨率的降低,靈敏度出現(xiàn)下降,特異性出現(xiàn)上升。對于醫(yī)生,圖像分辨率越高,可能越有利于讀圖的準(zhǔn)確率,然而對于算法2和算法3,靈敏度和特異性的變化趨勢相反,需要研發(fā)者進行權(quán)衡。
經(jīng)三個AI算法的原始圖像及背景裁剪處理后圖像的測試結(jié)果分別見圖4~6。圖像背景裁剪變化的是圖像上的黑色背景,即圖片中不包含眼底信息的部分,客觀上也能節(jié)省AI的計算資源,同時不影響醫(yī)生對于圖像的判斷。然而AI產(chǎn)品的響應(yīng)出現(xiàn)了波動。測試結(jié)果顯示,算法1的靈敏度保持平穩(wěn),特異性的變化小于2%(圖4);算法2和算法3(圖5~6)的靈敏度和特異性都有5%左右的波動。這也說明非病灶區(qū)的圖像變化對AI產(chǎn)品也會造成影響,AI魯棒性應(yīng)引起注意。
經(jīng)三個AI算法的原始圖像及平滑濾波處理后的圖像的測試結(jié)果分別如圖7~9所示。圖像平滑濾波作為常見預(yù)處理算法,一般是用于抑制圖像獲取時所產(chǎn)生的高頻噪聲或偽影,尤其對于糖網(wǎng)1期和2期的判斷,高頻噪聲可能會影響微血管瘤和出血點的識別。根據(jù)測試結(jié)果,對于算法1,隨著平滑濾波卷積核的增大(意味著濾波器截止頻率下降),靈敏度和特異性均有下降(圖7);對于算法2和算法3平滑濾波卷積核越大,靈敏度越低,特異性越高(圖8~9)。
從每個算法的性能變化角度看,對于算法1,圖像壓縮、圖像背景裁剪對靈敏度幾乎無影響,特異性有輕微波動,波動量在3%以內(nèi);平滑濾波引起靈敏度和特異性同時下降,波動量達(dá)10%左右;算法2和算法3圖像壓縮、圖像平滑濾波操作客觀上導(dǎo)致圖像空間頻率降低,引起靈敏度下降,特異性上升,波動量接近20%;圖像背景裁剪引起結(jié)果的小幅波動,波動量在5%以內(nèi)。
表1 模擬對抗測試用原始數(shù)據(jù)集分類與分布
圖1 算法1圖像壓縮后靈敏度及特異性變化曲線
圖2 算法2圖像壓縮后靈敏度及特異性變化曲線
圖3 算法3圖像壓縮后靈敏度及特異性變化曲線
圖4 算法1圖像背景裁剪處理后靈敏度及特異性變化曲線
圖5 算法2圖像背景裁剪處理后靈敏度及特異性變化曲線
圖6 算法3圖像背景裁剪處理后靈敏度及特異性變化曲線
圖7 算法1圖像平滑濾波處理后靈敏度及特異性變化曲線
圖8 算法2圖像平滑濾波處理后靈敏度及特異性變化曲線
圖9 算法3圖像平滑濾波處理后靈敏度及特異性變化曲線
本次實驗使用臨床數(shù)據(jù)模擬了幾種圖像預(yù)處理對眼底圖像引起的變化,包括為了節(jié)約內(nèi)存而進行的圖像等比壓縮、因軟件而異的圖像黑色填充比例調(diào)節(jié),以及為了降低圖像噪聲的圖像平滑處理。三種待測算法在測試中的表現(xiàn)具有明顯差異。
綜合來看,算法1在本次實驗中性能的穩(wěn)定程度優(yōu)于算法2和3。三種圖像預(yù)處理中,圖像平滑濾波對AI結(jié)果的影響最大,說明降噪需謹(jǐn)慎處理??紤]到部分眼底相機或AI軟件本身就具有降噪的功能,研發(fā)人員應(yīng)當(dāng)關(guān)注這些功能對AI算法的訓(xùn)練和優(yōu)化帶來的影響。黑色背景填充本身雖然與病灶無關(guān),但對魯棒性也有一定影響,在兼顧硬件運行效率的同時應(yīng)權(quán)衡其帶來的風(fēng)險。
隨著AI技術(shù)在醫(yī)療領(lǐng)域的飛速發(fā)展,醫(yī)療AI的種類也越來越多,應(yīng)用在各個領(lǐng)域,如骨科、消化科、眼科、胸科等多個領(lǐng)域,對測試集的需求越來越大,對數(shù)據(jù)來源、采集設(shè)備、試驗條件、人員操作、預(yù)期人群等多樣性的要求也越來越高。從以上試驗結(jié)果可以看出,對抗測試的方法對于比較不同AI軟件性能的差異提供了一個新的維度,對于客觀評價醫(yī)療AI軟件魯棒性提供了一種有效思路,這也擴展了使用單一測試集評價產(chǎn)品的能力。理想情況下,用于AI產(chǎn)品質(zhì)量評價的數(shù)據(jù)集應(yīng)無限大,包含人群、設(shè)備、場景等各種多樣性以及可預(yù)見的數(shù)據(jù)波動。然而,受制于實際條件和成本,數(shù)據(jù)集難以包含真實世界的所有情況。采用模擬對抗的方式,有針對性地對樣本進行擴充,有希望以較低的成本提高測試的科學(xué)性和發(fā)現(xiàn)產(chǎn)品質(zhì)量風(fēng)險的能力,值得繼續(xù)深入。