賈曉茜,張向利,劉 哲,曾 強(qiáng),趙志富,李延壽,黃 鴻,董阿梅,楊 健,郭建新
(1.西安交通大學(xué)第一附屬醫(yī)院醫(yī)學(xué)影像科,陜西西安 710061;2. 西安盈谷科技有限公司,陜西西安 710075)
胸部數(shù)字X線(digital radiology, DR)是臨床常用的檢查方法。但是,因機(jī)器和操作者等因素的差異,臨床實(shí)際工作中所獲取的圖像質(zhì)量參差不齊,質(zhì)量較差的圖像可能導(dǎo)致患者反復(fù)重照而增加輻射劑量風(fēng)險或者漏診誤診[1]。因此,DR圖像的質(zhì)量控制(quality control, QC)對臨床精確診斷及患者安全具有重要意義,對整個影像過程的質(zhì)量和規(guī)范進(jìn)行監(jiān)督是必要的[2]。但是DR圖像的人工評價主觀性較高,其定性評價結(jié)果差異較大,因此具有一定的局限性。近幾年,人工智能(artificial intelligence, AI)的迅速發(fā)展推進(jìn)了臨床各項(xiàng)技術(shù)的應(yīng)用,例如肺結(jié)節(jié)檢測、骨齡評估等[3-5]。但是,我們發(fā)現(xiàn)作為AI的重要算法——卷積神經(jīng)網(wǎng)絡(luò)算法對DR圖像質(zhì)量的評價研究較少。本文旨在評價基于卷積神經(jīng)網(wǎng)絡(luò)在胸部DR圖像QC工作中的應(yīng)用價值。
1.1 圖像資料圖像(n=2 128)來源于多種不同的采集設(shè)備,包括沈陽東軟醫(yī)療系統(tǒng)有限公司、GE Healthcare、ANGELL、Agfa、Carestream Health、GE Healthcare、SIEMENS等公司生產(chǎn)的設(shè)備。排除未成年(<18歲)的(n=350)和非常規(guī)體位(側(cè)位、前后位等)拍攝的圖像(n=160),剩余有效影像圖像為1 618張。
1.2 人工標(biāo)記
1.2.1圖像獲取標(biāo)準(zhǔn)[6]①Dicom重要參數(shù)完整:姓名、性別、年齡、檢查號和位置信息完整;②圖像清晰:兩肺清晰可辨,無體外偽影;心臟、縱膈、膈肌及氣管分叉邊界顯示清楚;兩側(cè)肋骨外緣、兩側(cè)肋膈角、肺尖上軟組織可見;縱膈后方1~4胸椎可見;心影后肺及紋理大致可見、肋骨隱約可見、椎體隱約可見;③圖像位置合理美觀:兩肺位置正中對稱;肩胛骨投影于肺野之外;胸椎位于正中;雙側(cè)胸鎖關(guān)節(jié)對稱顯示,位置高且趨于水平;肩部軟組織上空曝區(qū)3~5 cm。
1.2.2標(biāo)簽區(qū)域 兩肺區(qū)標(biāo)簽(肺區(qū))、兩肺尖標(biāo)簽(肺尖);位置標(biāo)簽R/L并注明類別;異物標(biāo)簽(如有)。Dicom重要參數(shù)標(biāo)簽見圖1。
1.2.3圖像標(biāo)記級別 1:優(yōu)(完全滿足1.2.1中圖像獲取標(biāo)準(zhǔn)①、②、③);2:良(位置不完美:完全滿足①、②而不完全滿足③);3:可(圖像質(zhì)量稍差:完全滿足圖像獲取標(biāo)準(zhǔn)①而不完全滿足②、③,存在可容忍異物,經(jīng)過處理后可診斷);4:差(不滿足①或圖像質(zhì)量太差不能診斷或有不可容忍異物在肺區(qū))。
以上工作由5名從事影像工作10年以上的影像學(xué)技師完成,在圖像分級評價過程中,對有異議的圖像進(jìn)行協(xié)商確定。
圖1 機(jī)器學(xué)習(xí)的圖像標(biāo)記區(qū)域要求
Fig.1 Image marking area requirements for machine learning
(紅色:肺野;橙色:肺尖;紫色:X線照片標(biāo)記;綠色:可容忍的異物;藍(lán)色:不可容忍的異物)。
1.3 卷積神經(jīng)網(wǎng)絡(luò)及測試采用基于卷積神經(jīng)網(wǎng)絡(luò)中的InceptionV3分類網(wǎng)絡(luò)進(jìn)行QC,將數(shù)據(jù)分成訓(xùn)練集和測試集,AI評價DR圖像質(zhì)量的流程如圖2所示。InceptionV3分類網(wǎng)絡(luò)結(jié)構(gòu)如圖3。首先將圖像尺寸統(tǒng)一縮放到139×139像素,作為InceptionV3分類網(wǎng)絡(luò)的輸入,在保留圖像絕大多數(shù)信息的情況下,提高了算法的速度(通過實(shí)驗(yàn),在顯存為12G的GPU上,直接使用原圖作為輸入,單張圖像預(yù)測時間為0.112~0.138 s,原圖resize到139×139像素,作為網(wǎng)絡(luò)輸入,單張圖像預(yù)測時間為0.029~0.036 s);其次,InceptionV3分類網(wǎng)絡(luò)利用輸入圖像及其標(biāo)記,通過多層卷積神經(jīng)網(wǎng)絡(luò)不斷迭代和自主更新網(wǎng)絡(luò)權(quán)重,對圖像特征進(jìn)行學(xué)習(xí)和提??;最后通過softmax函數(shù)對最終特征進(jìn)行分類預(yù)測,得出圖像屬于對應(yīng)優(yōu)良可差4個類別的概率,最終確定QC結(jié)果,得到圖像質(zhì)量等級。
1.4 計算與統(tǒng)計學(xué)分析測試結(jié)果采用二分類和四分類2種方式進(jìn)行計算,按照圖像是否滿足診斷進(jìn)行二分類計算(圖像級別為1、2、3級代表合格,圖像級別為4級代表不合格);按照圖像級別進(jìn)行四分類計算。最終通過混淆矩陣(表1)計算敏感度、特異度、陽性預(yù)測值(positive predicted value, PPV)、陰性預(yù)測值(negative predicted value, NPV)、總準(zhǔn)確率,計算公式如下:
圖2 胸片DR圖像QC流程圖
Fig.2 Flow chart of image quality control for chest radiography DR
圖3 InceptionV3結(jié)構(gòu)圖[5]
Fig.3 Inception V3 structure diagram
表1 混淆矩陣表述結(jié)果示例
Tab.1 Examples of confusion matrix representations
圖片數(shù)量預(yù)測結(jié)果為1類預(yù)測結(jié)果為2類預(yù)測結(jié)果為3類預(yù)測結(jié)果為4類標(biāo)記1類x11x12x13x13標(biāo)記2類x21x22x23x24標(biāo)記3類x31x32x33x34標(biāo)記4類x41x42x43x44
率的卡方檢驗(yàn)用于二分類和四分類準(zhǔn)確率的比較,P<0.05認(rèn)為差異有統(tǒng)計學(xué)意義。以上過程在SPSS 20.0版本和keras2.1.2版本上進(jìn)行,代碼均在python2.7的環(huán)境下開發(fā)的,并在GPU型號為GTX 1080Ti上運(yùn)行,該AI智能化質(zhì)控系統(tǒng)在Linux/Windows/Mac等操作系統(tǒng)上均可以使用。
本研究共使用1 618張胸部DR圖像,其中用于訓(xùn)練集的特征圖像1 294張數(shù)據(jù),測試集324張數(shù)據(jù)。二分類結(jié)果:敏感度為73.53%(25/34),特異度為97.93%(284/290),PPV為80.65%(25/31),NPV為96.93%(284/293),總準(zhǔn)確率95.37%(309/324)(表2)。四分類“優(yōu)、良、可、差”的測試結(jié)果見表3,總準(zhǔn)確率為75.93%(246/324)。二分類和四分類結(jié)果比較見表4:二分類的總準(zhǔn)確率明顯高于四分類(P<0.01)。
表2 二分類測試結(jié)果混淆矩陣
Tab.2 Confusion matrix for test result of two classifications (n)
標(biāo)記類別預(yù)測結(jié)果為1、2、3類預(yù)測結(jié)果為4類標(biāo)記1、2、3類2846標(biāo)記4類925
表3 四分類測試結(jié)果混淆矩陣
Tab.3 Confusion matrix for test result of four classifications
標(biāo)記類別預(yù)測結(jié)果為1類預(yù)測結(jié)果為2類預(yù)測結(jié)果為3類預(yù)測結(jié)果為4類標(biāo)記1類1141220標(biāo)記2類346051標(biāo)記3類510461標(biāo)記4類03526
卷積神經(jīng)網(wǎng)絡(luò)作為AI最主要的計算模式,融合了多學(xué)科和產(chǎn)業(yè)的技術(shù),對疾病診斷研究已經(jīng)超過30年,且跨越不同系統(tǒng)多種疾病[7-8]。在輔助診斷的同時大幅度降低了醫(yī)務(wù)工作者的工作強(qiáng)度,使工作更高效。然而,圖像質(zhì)量的好壞直接影響到診斷的準(zhǔn)確性。此外,高質(zhì)量的影像質(zhì)量是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和計算最重要的基礎(chǔ)[9]。影像質(zhì)量的評價最常用最直接的方法是影像醫(yī)師的主觀評價即視覺評價,這種評價方法費(fèi)時費(fèi)力,且容易帶有主觀偏見,不一定適合臨床需求。AI輔助評價質(zhì)量具有客觀、便捷的優(yōu)勢,已應(yīng)用在實(shí)驗(yàn)篩選、檢測相片問題、評價胎兒超聲圖像等方面[10-12]。AI在影像質(zhì)量評價上的應(yīng)用,來自于ZHANG等[13]和代廣喆[14]的研究成果,2項(xiàng)研究結(jié)果均證實(shí)了可以利用AI結(jié)合掃描參數(shù)測量圖像質(zhì)量。
表4 測試結(jié)果采用兩種分類方法的評價指標(biāo)的比較
Tab.4 Comparison of the two classification methods for test results
評價指標(biāo)二分類四分類優(yōu)良可差χ2P敏感度(%)73.5389.0660.0074.1976.47--特異度(%)97.9380.1088.8495.4299.31--PPV(%)80.6574.5170.5979.3192.86--NPV(%)96.5391.8183.2693.9997.30--總準(zhǔn)確率(%)95.3775.93總錯判率(%)4.6324.0749.83<0.01
本研究將卷積神經(jīng)網(wǎng)絡(luò)的InceptionV3分類網(wǎng)絡(luò)用于胸部DR圖像的質(zhì)量評估,采用1 294張圖像進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)及324張圖像驗(yàn)證其準(zhǔn)確性,并用了2種分類方法計算結(jié)果。二分類計算方法總準(zhǔn)確率95.37%,四分類進(jìn)行計算總準(zhǔn)確率75.93%,二分類總準(zhǔn)確率高于四分類。這可能與影響DR圖像質(zhì)量的多種因素有關(guān)[15]。據(jù)筆者所知,目前尚無基于卷積神經(jīng)網(wǎng)絡(luò)在QC管理工作中的應(yīng)用,較類似的研究是前文已有提到的MR圖像質(zhì)量的研究[13],該研究將信噪比作為一個觀察指標(biāo)建立圖像質(zhì)量評估模型,得到較為滿意的結(jié)果。目前,影像科的QC管理工作,最常用的方法仍然是以人為調(diào)查、監(jiān)督和報告等傳統(tǒng)方式進(jìn)行[16-18]。隨著管理工具在醫(yī)院管理中的引入,醫(yī)生嘗試?yán)肞DCA進(jìn)行QC管理[19-21],取得了滿意的效果。QC是管理者采用回顧性分析數(shù)據(jù)的方法測試影像質(zhì)量[22-23],發(fā)現(xiàn)低于最低標(biāo)準(zhǔn)的數(shù)據(jù),從而通過分析原因采取改正措施,確保所關(guān)注數(shù)據(jù)滿足可接受的最低要求,達(dá)到持續(xù)提升質(zhì)量的終極目標(biāo)。本研究所采用的二分類計算方法,分類標(biāo)準(zhǔn)即按照QC管理要求:滿足診斷,通過計算測試本次卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率,得出相當(dāng)滿意的結(jié)果,能夠滿足QC管理工作的要求。因此,本次測試較滿意完成的是質(zhì)量管理的基本工作:快速高效篩選出不合格影像,計算重做率,適合于放射科影像管理的基礎(chǔ)工作。但是,質(zhì)量管理工作包括QC、質(zhì)量保證和質(zhì)量持續(xù)改進(jìn)這樣一個從低級到高級的過程,管理者需要提升影像圖像質(zhì)量,則需要四分類這種更加細(xì)致的計算方法實(shí)施。
本次測試存在以下局限性:首先,涉及到的圖像質(zhì)量特征標(biāo)記為主觀視覺評價,無客觀參數(shù)納入,例如灰度、紋理、銳度等等,今后還需結(jié)合參數(shù)等客觀數(shù)據(jù)進(jìn)一步探索其在QC工作中的應(yīng)用價值;其次,本次測試用了兩種計算方法并證實(shí)可以滿足QC的管理工作,而更高級別的測試準(zhǔn)確率(例如質(zhì)量持續(xù)改進(jìn)、AI診斷等)并無具體量化的要求,因此并不能否定四分類計算結(jié)果的價值,仍需進(jìn)一步探討。
總而言之,利用卷積神經(jīng)網(wǎng)絡(luò)來實(shí)施QC管理工作被證實(shí)是可靠的,可大大減少人為調(diào)查分析所占用的時間,且避免了因設(shè)備或人為因素造成的影響,而且有可能在影像診斷輔助工作中發(fā)揮更大的優(yōu)勢。但因卷積神經(jīng)網(wǎng)絡(luò)用于影像管理工作還僅處于學(xué)步階段,要與提升質(zhì)量、考核及診斷匹配,還需更精細(xì)的分級標(biāo)準(zhǔn)和特征標(biāo)記。