畢忠旭,李子元,周宇,任昕,李津書,劉建新,王霄英,張曉東
X線胸片(chest X-ray,CXR)在臨床工作中應用廣泛,是診斷呼吸系統(tǒng)疾病的一線影像檢查方法。但由于CXR是重疊影像,胸廓骨質(zhì)結構和肺部在圖像上的投影有重疊,導致當肺部病灶不顯著時診斷醫(yī)師在閱片時可能受到干擾,造成漏診。
通過骨質(zhì)抑制技術去除CXR上的骨組織,無論對影像科醫(yī)師還是計算機輔助診斷系統(tǒng)都有幫助[1-2]。既往研究證明雙能減影成像(dual-energy subtraction imaging,DES)技術對骨質(zhì)結構的抑制效果極佳[3]。然而DES的輻射劑量相對較大,需要特殊的雙能成像設備,而且心跳、呼吸產(chǎn)生的運動偽影可導致去骨效果不佳。如果能通過后處理軟件使得常規(guī)CXR得到與DES相似的去骨效果,則可避免DES的上述缺點,這已成為近期CXR去骨研究的關注熱點。目前除了傳統(tǒng)的圖像處理方法,基于深度學習模型的方法也有望用于CXR去骨處理[4-5]。本研究初步探索了一種深度學習算法實現(xiàn)CXR去骨處理的可行性。
本研究獲得了本院倫理審查委員會的批準(2019-70),按照本單位AI項目研發(fā)規(guī)范開展研究工作。
CXR數(shù)據(jù)來源于兩個方面,一個是開源數(shù)據(jù)集[(JSRT+BSE JSRT,JSRT為日本放射技術學會(Japanese Society of Radiological Technology),BSE為骨去除(bone shadow exclusion)][6],其中包括241例正位常規(guī)CXR和與其對應的241例去骨CXR[7],該數(shù)據(jù)集的去骨結果由傳統(tǒng)的圖像后處理算法得到;另一個數(shù)據(jù)集是自采數(shù)據(jù)集,來自于我院雙能X光機(GE Discovery XR656)采集的59例臨床胸部篩查患者的圖像數(shù)據(jù),其中包括常規(guī)CXR、去骨CXR和骨相CXR各59幀圖像。將兩個數(shù)據(jù)集整合,經(jīng)過數(shù)據(jù)篩選,去除運動偽影較大以及去骨效果較差的圖像后,建立研究隊列,獲得295例患者的常規(guī)CXR圖像和去骨CXR圖像各295幀。以295例患者隨機分入訓練集(80%)、調(diào)優(yōu)集(5%)和測試集(15%)。
將DICOM格式圖像轉化為PNG格式圖像,轉化時利用DICOM文件里的窗寬和窗位信息,將16bit圖像數(shù)據(jù)轉換為8bit圖像數(shù)據(jù),保證原始CXR圖像和其對應的去骨CXR圖像的窗寬和窗位一致。將研究樣本數(shù)據(jù)集中的所有圖像的覆蓋范圍統(tǒng)一,使其主要包括肺野區(qū)域,去除肩、腹等非肺野區(qū)域,并將剪切后的圖像統(tǒng)一調(diào)整為像素大小2048×2048。模型輸入為常規(guī)CXR圖像,模型輸出為去骨后的CXR圖像。
模型訓練的初始權重來源于ImageNet[8]預訓練ResNet34[9]和VGG(VGG:Visual Geometry Group)16模型[10]。圖像預處理步驟:原始圖像縮小至像素大小為512×512,并對圖像像素值按照ImageNet數(shù)據(jù)集的均值和方差進行歸一化處理。擴增方法包括隨機旋轉、裁剪、縮放和平移等。
在NVIDIA GPU P100設備上利用Pytorch(https://pytorch.org/)深度學習Python庫,在整理好的CXR圖像數(shù)據(jù)集中進行開發(fā)和訓練。
以Resnet34為卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)深度學習模型的基礎架構,結合動態(tài)UNet網(wǎng)絡[11],并以VGG網(wǎng)絡為基礎,提取圖像激活及風格特征組成損失函數(shù)(Loss Function),逐步建立CXR去骨模型(圖1)[11-12]。
圖1 基于ResNet34基礎架構并結合動態(tài)UNet網(wǎng)絡的CXR去骨模型的結構。
CXR去骨模型基于常規(guī)CXR圖像而生成去骨的CXR圖像,即由輸入的圖像生成新的圖像,屬于圖像生成模型。在圖像訓練及測試階段,主要涉及三類圖像:輸入圖像I(input),目標圖像T(target)和預測生成圖像P(prediction)。其中目標圖像是指模型需要學習的對象,預測生成圖像是指模型預測的結果。對于該模型的去骨效能,主通過比較目標圖像T和預測生成圖像P來進行評估。用測試集的峰值信噪比(peak signal-to-noise ratio,PSNR)和結構相似性(structure similarity,SSIM)評價CXR去骨模型的效能。
PSNR是峰值信號的能量與噪聲的平均能量之比,其計算公式為:PSNR=10×log10(MaxI2/MSE),其中MaxI指圖像灰度的峰值,MSE指相比較的T與P兩個圖像像素之間的均方誤差值(mean square error,MSE),是一種評估圖像質(zhì)量的客觀標準。PSNR的單位是分貝(dB),數(shù)值越大代表圖像質(zhì)量越好,一般來說,PSNR與圖像質(zhì)量的關系如下:PSNR≥40dB,提示圖像質(zhì)量極好;30dB≤PSNR<40dB,提示圖像質(zhì)量較好;20dB≤PSNR<30dB,提示圖像質(zhì)量差;PSNR<20dB,提示圖像質(zhì)量極差。
SSIM也是一種圖像質(zhì)量的評價指標,分別從亮度、對比度和結構三方面度量圖像之間的相似性,分別用T和P兩組圖像的均值作為亮度、標準差作為對比度、協(xié)方差作為結構相似度的相應指標。SSIM取值范圍為0~1,值越大表示圖像T與P之間的相似度越高[13]。
所建模型在測試集中生成的去骨CXR圖像的PSNR和SSIM值均較高(圖2):PSNR為25.35~37.22dB,平均(31.94±2.49)dB;SSIM值為25.35%~98.48%,平均93.37%±5.11%。
圖2 測試集病例。a)常規(guī)CXR圖像I作為輸入圖像;b)由輸入圖像生成的目標去骨CXR圖像T;c)模型預測生成的去骨CXR圖像P,顯示預測圖像的質(zhì)量較好(PSNR為33.35dB),預測圖像與目標圖像的結構相似性較高(SSIM值為95.44%)。 圖3 測試集病例。a)常規(guī)CXR圖像I作為輸入圖像;b)由輸入圖像生成的目標去骨CXR圖像T;c)模型預測生成的去骨CXR圖像P,顯示預測圖像與目標圖像T的結構相似性較差(SSIM值僅79.64%)。
根據(jù)PSNR值分析,測試集中45例預測圖像與DES真實去骨圖像的PSNR均值達31.94dB,其中PSNR小于30dB的情況僅有5例,即88.89%(5/45)的預測圖像的質(zhì)量較好。根據(jù)SSIM值分析,測試集中45例預測圖像的SSIM的均值達到93.37%,其中SSIM值小于88%的情況僅見于6例(圖3),即86.67%(6/45)的預測圖像與目標圖像的結構相似性達到88%以上。
CXR是呼吸系統(tǒng)疾病的首選影像檢查方法,對CXR的閱片工作不僅包括影像專業(yè)的醫(yī)師,也常常包括臨床醫(yī)師。CXR的閱片準確性與診斷者的經(jīng)驗密切相關,但即使是有經(jīng)驗的閱片者也可能漏診肺內(nèi)不顯著的小病變,主要是由于CXR是重疊影像,胸部區(qū)域的骨質(zhì)結構對疾病的檢出和鑒別診斷會帶來干擾。
雙能量X線胸部檢查的研發(fā)和臨床應用探索已有幾十年。其基本原理是將胸片上骨質(zhì)和軟組織分離,分別生成骨圖像和軟組織圖像,在臨床應用中的主要優(yōu)勢是檢出被肋骨遮蔽的軟組織結節(jié)以及對鈣化的定性[14]。尤其是對不顯著的微小肺內(nèi)病變,可提高低年資醫(yī)師以及非影像診斷專業(yè)的臨床醫(yī)師的診斷準確性[15]。最初研究的關注點是通過X線和探測器的改進獲得更好的物質(zhì)分離圖像,以提高診斷效能[16]。近年來隨著深度學習技術的發(fā)展,除了在CXR診斷方面的研究[17],也有關于深度學習模型應用于CXR圖像的去骨處理的相關研究報告,認為該技術可提高影像醫(yī)師對CXR閱片的工作效能,同時也能提高相關基于CXR圖像的深度學習分類模型的效能[1,2]。
本研究結果顯示,深度學習模型可以用于常規(guī)CXR圖像的去骨處理,這與既往的研究結果相似[4-5]。對于測試集中SSIM最小值(79.64%)的圖像(圖3),可以看到由雙能量減影直接生成的目標圖像中的偽影較為嚴重,肋骨痕跡明顯,而從常規(guī)CXR去骨模型生成的預測圖像則較好地抑制了骨質(zhì)結構,但由于目標圖像中偽影的影響,導致反映結構相似性的SSIM值較低,但從該示例也進一步說明我們的CXR去骨模型可以更好地預測生成去骨CXR圖像,避免雙能減影成像過程中身體運動導致的偽影。
AI模型的研發(fā)和泛化過程中應考慮技術問題[18]。本研究CXR去骨模型訓練過程中未對設備進行篩選,使用了連續(xù)數(shù)據(jù)。CXR圖像來自本單位在實際臨床工作中使用的雙能量X光機以及開源數(shù)據(jù)集,其中目標圖像T的生成方法也不同,自采數(shù)據(jù)集采用的是雙能量減影,開源數(shù)據(jù)集則來源于其它去骨算法[7]。全部圖像由不同技師完成攝片工作,未根據(jù)設備、人員及生成目標圖像的方法進行分組。本研究結果證明了不同DR設備、不同技師及不同去骨方法生成目標圖像的數(shù)據(jù)均可用于模型的訓練,且無論來源于何種DR設備的圖像,其測試集數(shù)據(jù)的預測生成圖像均達到較好的結果。由于常規(guī)CXR圖像質(zhì)量基本可以保證,來源于不同設備的圖像性質(zhì)差異不大,從這個角度考慮,在CXR去骨模型泛化過程中,沒有圖像采集技術上的風險。
本研究的局限性:首先,CXR去骨模型的結果評價指標目前只使用了評估圖像質(zhì)量和結構相似性的PNSR和SSIM。但對于臨床應用來說,不同年資的影像醫(yī)師的主觀評估也是非常重要的,在后續(xù)研究中需要進一步開展醫(yī)師針對去骨效果的評價研究,觀察在去骨過程中能否進一步利用深度學習模型實現(xiàn)對病灶的自動檢測和定位等[19-20],這才是圖像處理的最終目的。其次,模型研發(fā)后應在實際臨床工作中進行驗證,開展前瞻性和隨機對照臨床試驗,證明使用AI模型的臨床獲益。第三,CXR 去骨模型在本單位經(jīng)過驗證后,應嘗試將其泛化,應用于不同醫(yī)療機構和不同臨床場景下,尤其是應與實際報告過程對接,在提高診斷準確性的前提下,進一步提高工作效率[21]。
總之,使用深度學習模型對X線胸片中的骨質(zhì)結構進行去骨處理是可行的,可用于進一步研究去骨后處理圖像對醫(yī)學影像醫(yī)師讀片工作效率及相關CXR診斷模型效能的影響并嘗試應用于臨床。