亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

糖尿病視網(wǎng)膜病變AI產(chǎn)品的模擬對抗測試研究

2019-01-17 02:38:46孟祥峰王浩張超任海萍

中國醫(yī)療設(shè)備 2018年12期

關(guān)鍵詞：背景

孟祥峰，王浩，張超，任海萍

中國食品藥品檢定研究院光機電室，北京 100050

引言

當(dāng)前以深度學(xué)習(xí)[1-2]為代表的人工智能技術(shù)已廣泛用于醫(yī)療領(lǐng)域，如糖網(wǎng)篩查[3-6]，這些技術(shù)本質(zhì)決定了訓(xùn)練集的質(zhì)量對人工智能（Artificial Intelligence，AI）產(chǎn)品的核心算法性能有重要影響，醫(yī)學(xué)AI使用的訓(xùn)練集數(shù)據(jù)[7-8]區(qū)別于其他領(lǐng)域，需要獲得倫理批準(zhǔn)，圖像獲得后還需進行標(biāo)注等處理以獲得“金標(biāo)準(zhǔn)”，建設(shè)周期長，成本高。此外，國內(nèi)外也沒有相關(guān)標(biāo)準(zhǔn)和規(guī)范對AI訓(xùn)練集的質(zhì)量進行約束，不同國家、地區(qū)、機構(gòu)建立的訓(xùn)練集的起源、數(shù)據(jù)質(zhì)量、可溯源性、標(biāo)注的參考標(biāo)準(zhǔn)、數(shù)據(jù)多樣性往往存在較大差異。因此在訓(xùn)練數(shù)據(jù)集數(shù)量不足、數(shù)據(jù)質(zhì)量參差不齊的情況下，AI的性能本身就受到了很大的限制。

AI軟件在特定訓(xùn)練集訓(xùn)練或測試時，會得到很好的效果，然而在新的數(shù)據(jù)集上的表現(xiàn)就很難保證，這也說明其泛化能力差，容易出現(xiàn)過擬的現(xiàn)象。一旦數(shù)據(jù)出現(xiàn)“噪聲”的擾動，魯棒性能差的AI就可能產(chǎn)生系統(tǒng)性的質(zhì)量問題，這對于AI企業(yè)、醫(yī)生、患者，甚至整個行業(yè)將造成損失和浪費。

實際上對于糖網(wǎng)AI的訓(xùn)練集即眼底圖像，在獲取、傳輸過程中本身的格式、分辨率等有可能發(fā)生改變，甚至AI軟件本身為了節(jié)省計算機資源，也會對圖像進行預(yù)處理（如壓縮、圖像背景裁剪等），這對于軟件就是一種擾動，圖像在人的視覺上可能和原始的圖像不可區(qū)分，但對于AI，圖像擾動帶來的變化是敏感的，很可能會對最終的決策產(chǎn)生影響。

目前對于醫(yī)療AI產(chǎn)品的算法評價多采用“黑盒”測試的方式。由于AI軟件系統(tǒng)對數(shù)據(jù)的處理、計算和決策過程對用戶是不可見的，因此可從AI軟件的輸入、輸出端入手，在輸入端（即測試數(shù)據(jù)集）采取圖像變換的形式（如圖像壓縮、背景裁剪、濾波等），模擬圖像采集過程中實際存在的圖像改變，進而觀察輸出的變化。這個過程也是對AI軟件的對抗攻擊過程，通過模擬對抗測試[9]，實現(xiàn)人工智能醫(yī)療器械在實際使用時的風(fēng)險和可靠性評價。

1 試驗方法

本文采用實際臨床100張眼底圖像，對AI軟件進行模擬對抗測試，原始圖像分類[10-16]與分布，見表1。

分別對原始圖像進行圖像壓縮、圖像背景裁剪、圖像平滑濾波變換。

（1）圖像壓縮。使用雙三次插值，將原始圖像等比壓縮，比例范圍為50%～100%，步長5%，將原始100張圖像分成11組，總共1100張圖像。

（2）圖像背景裁剪。在原始圖像兩側(cè)分別填充黑色背景，尺寸為0～100像素，步長10像素，將原始100張圖像分成11組，總共1100張圖像。

（3）圖像平滑濾波。使用moving average濾波，卷積核1～21個像素的均一矩陣，步長2像素，將原始100張圖像分成11組，總共1100張圖像。

對以上3種變換共3300張圖像在3種算法上進行測試，算法均為轉(zhuǎn)診篩查功能。表1中0、1、5、6類為金標(biāo)準(zhǔn)的陰性，2、3、4類為金標(biāo)準(zhǔn)的陽性。當(dāng)算法將表1中圖像判為不轉(zhuǎn)診時，即為AI算法的陰性；判為轉(zhuǎn)診時，即為AI算法的陽性。對每種算法每種變換的每組結(jié)果給出混淆矩陣，見表2。

計算靈敏度與特異性，靈敏度特異性計算公式如式(1)～(2)所示。

靈敏度：

特異性：

式中，N1,1為真陽性的數(shù)量，即被AI算法正確地預(yù)測為陽性的眼底數(shù)據(jù)；N1,2為假陽性的數(shù)量，即被AI算法錯誤的預(yù)測為陽性的眼底數(shù)據(jù)；N2,1為假陰性的數(shù)量，即被AI算法錯誤的預(yù)測為陰性的眼底數(shù)據(jù)；N2,2為真陰性，即被AI算法正確地預(yù)測為陰性的患者數(shù)據(jù)。

表2 AI測試結(jié)果的混淆矩陣

2 試驗結(jié)果

經(jīng)三個AI算法的原始圖像及圖像壓縮處理后的圖像的測試結(jié)果分別如圖1～3所示。從圖1可以看出，圖像壓縮的變化對算法1的靈敏度和特異性引起的變動不大，然而對于算法2（圖2）和算法3（圖3），隨著圖像分辨率的降低，靈敏度出現(xiàn)下降，特異性出現(xiàn)上升。對于醫(yī)生，圖像分辨率越高，可能越有利于讀圖的準(zhǔn)確率，然而對于算法2和算法3，靈敏度和特異性的變化趨勢相反，需要研發(fā)者進行權(quán)衡。

經(jīng)三個AI算法的原始圖像及背景裁剪處理后圖像的測試結(jié)果分別見圖4～6。圖像背景裁剪變化的是圖像上的黑色背景，即圖片中不包含眼底信息的部分，客觀上也能節(jié)省AI的計算資源，同時不影響醫(yī)生對于圖像的判斷。然而AI產(chǎn)品的響應(yīng)出現(xiàn)了波動。測試結(jié)果顯示，算法1的靈敏度保持平穩(wěn)，特異性的變化小于2%（圖4）；算法2和算法3（圖5～6）的靈敏度和特異性都有5%左右的波動。這也說明非病灶區(qū)的圖像變化對AI產(chǎn)品也會造成影響，AI魯棒性應(yīng)引起注意。

經(jīng)三個AI算法的原始圖像及平滑濾波處理后的圖像的測試結(jié)果分別如圖7～9所示。圖像平滑濾波作為常見預(yù)處理算法，一般是用于抑制圖像獲取時所產(chǎn)生的高頻噪聲或偽影，尤其對于糖網(wǎng)1期和2期的判斷，高頻噪聲可能會影響微血管瘤和出血點的識別。根據(jù)測試結(jié)果，對于算法1，隨著平滑濾波卷積核的增大（意味著濾波器截止頻率下降），靈敏度和特異性均有下降（圖7）；對于算法2和算法3平滑濾波卷積核越大，靈敏度越低，特異性越高（圖8～9）。

從每個算法的性能變化角度看，對于算法1，圖像壓縮、圖像背景裁剪對靈敏度幾乎無影響，特異性有輕微波動，波動量在3%以內(nèi)；平滑濾波引起靈敏度和特異性同時下降，波動量達(dá)10%左右；算法2和算法3圖像壓縮、圖像平滑濾波操作客觀上導(dǎo)致圖像空間頻率降低，引起靈敏度下降，特異性上升，波動量接近20%；圖像背景裁剪引起結(jié)果的小幅波動，波動量在5%以內(nèi)。

表1 模擬對抗測試用原始數(shù)據(jù)集分類與分布

圖1 算法1圖像壓縮后靈敏度及特異性變化曲線

圖2 算法2圖像壓縮后靈敏度及特異性變化曲線

圖3 算法3圖像壓縮后靈敏度及特異性變化曲線

圖4 算法1圖像背景裁剪處理后靈敏度及特異性變化曲線

圖5 算法2圖像背景裁剪處理后靈敏度及特異性變化曲線

圖6 算法3圖像背景裁剪處理后靈敏度及特異性變化曲線

圖7 算法1圖像平滑濾波處理后靈敏度及特異性變化曲線

圖8 算法2圖像平滑濾波處理后靈敏度及特異性變化曲線

圖9 算法3圖像平滑濾波處理后靈敏度及特異性變化曲線

3 討論

本次實驗使用臨床數(shù)據(jù)模擬了幾種圖像預(yù)處理對眼底圖像引起的變化，包括為了節(jié)約內(nèi)存而進行的圖像等比壓縮、因軟件而異的圖像黑色填充比例調(diào)節(jié)，以及為了降低圖像噪聲的圖像平滑處理。三種待測算法在測試中的表現(xiàn)具有明顯差異。

綜合來看，算法1在本次實驗中性能的穩(wěn)定程度優(yōu)于算法2和3。三種圖像預(yù)處理中，圖像平滑濾波對AI結(jié)果的影響最大，說明降噪需謹(jǐn)慎處理?？紤]到部分眼底相機或AI軟件本身就具有降噪的功能，研發(fā)人員應(yīng)當(dāng)關(guān)注這些功能對AI算法的訓(xùn)練和優(yōu)化帶來的影響。黑色背景填充本身雖然與病灶無關(guān)，但對魯棒性也有一定影響，在兼顧硬件運行效率的同時應(yīng)權(quán)衡其帶來的風(fēng)險。

隨著AI技術(shù)在醫(yī)療領(lǐng)域的飛速發(fā)展，醫(yī)療AI的種類也越來越多，應(yīng)用在各個領(lǐng)域，如骨科、消化科、眼科、胸科等多個領(lǐng)域，對測試集的需求越來越大，對數(shù)據(jù)來源、采集設(shè)備、試驗條件、人員操作、預(yù)期人群等多樣性的要求也越來越高。從以上試驗結(jié)果可以看出，對抗測試的方法對于比較不同AI軟件性能的差異提供了一個新的維度，對于客觀評價醫(yī)療AI軟件魯棒性提供了一種有效思路，這也擴展了使用單一測試集評價產(chǎn)品的能力。理想情況下，用于AI產(chǎn)品質(zhì)量評價的數(shù)據(jù)集應(yīng)無限大，包含人群、設(shè)備、場景等各種多樣性以及可預(yù)見的數(shù)據(jù)波動。然而，受制于實際條件和成本，數(shù)據(jù)集難以包含真實世界的所有情況。采用模擬對抗的方式，有針對性地對樣本進行擴充，有希望以較低的成本提高測試的科學(xué)性和發(fā)現(xiàn)產(chǎn)品質(zhì)量風(fēng)險的能力，值得繼續(xù)深入。