吳育鑫,薛蘊菁,段 青,孫 斌,劉柏韻,陳玉仙
(1.福建醫(yī)科大學(xué)研究生院,福建 福州 350000;2.福建醫(yī)科大學(xué)附屬協(xié)和醫(yī)院影像科,福建 福州 350000;3.北京推想科技有限公司,北京 100025)
肋骨骨折是鈍性胸部損傷中最常見骨骼損傷,與鎖骨骨折合并約占鈍性胸部損傷的58%[1]。DR胸部平片是診斷胸部外傷的主要方法[2]。臨床工作中,放射科醫(yī)師每天需重復(fù)閱讀大量DR胸片,診斷準確率往往因醫(yī)師精力消耗及視覺疲勞而降低[3-4]。本研究觀察基于深度學(xué)習(xí)的計算機輔助診斷系統(tǒng)(deep-learning based computer aided diagnosis system, DL-CAD)于DR胸片中檢出胸部骨折的效能,探討該系統(tǒng)在實際工作中可否提高放射科低年資住院醫(yī)師的對于DR胸部正位片中骨折的診斷水平。
1.1 測試集資料 測試集由骨折陽性及陰性2個部分組成。以放射科醫(yī)師診斷報告作為初始分類依據(jù),以“肋骨骨折”及“鎖骨骨折”為關(guān)鍵詞,在福建醫(yī)科大學(xué)附屬協(xié)和醫(yī)院影像存儲與傳輸系統(tǒng)(picture archiving and communication system, PACS)中搜索2015年11月—2019年2月符合條件的胸部X線正位片。排除標準:術(shù)后改變明顯;年齡<12歲;明顯金屬異物;同一患者重復(fù)檢查;圖像質(zhì)量差。最終納入347例骨折陽性病例。在PACS中搜索2018—2019年無“肋骨骨折”及“鎖骨骨折”病例,排除標準同上,隨機選取200例作為陰性病例。最終共納入547例,男389例,女158例,年齡13~95歲,平均(59.0±14.4)歲。
1.2 儀器與方法
1.2.1 影像采集 采用GE Definium 6000、Discovery XR656數(shù)字化X線攝影機,胸部后前位曝光,管電壓120 kV,管電流320 mA,視野41 cm×41 cm。
1.2.2 制定金標準 將547例測試集導(dǎo)入DL-CAD工作站,由2名高年資醫(yī)師(1名主任醫(yī)師、1名副主任醫(yī)師,從事影像學(xué)診斷均超過10年)在DL-CAD工作站分別作出標記,對不一致處共同閱片,若仍未能達成一致,則與第3名醫(yī)師(從事影像學(xué)診斷超過15年的主任醫(yī)師)共同協(xié)商,最終確認361例骨折陽性病例及186例骨折陰性病例,共標記983處骨折病灶。
1.2.3 DL-CAD輔助診斷 采用DL-CAD(InferRead DR Chest, www.Infervision.com)預(yù)測胸部骨折,系統(tǒng)自動閱讀導(dǎo)入后的胸部X線正位片,以ResNet50特征金字塔網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)提取特征,使用focal loss函數(shù)計算損失。
1.3 試驗1 評估DL-CAD性能,將DL-CAD工作站對547例測試集的原始預(yù)測結(jié)果與金標準進行對比,分別以病例及病灶為單位計算DL-CAD的敏感度、特異度、陽性預(yù)測值及F值[5-6]。
1.4 試驗2 于根據(jù)金標準診斷的361例骨折陽性病例中隨機篩選211例(604處骨折)作為觀察者試驗陽性測試集,以186例無骨折病例作為陰性測試集,記錄并比較單獨DL-CAD(1組)、單獨低年資住院醫(yī)師(從事影像學(xué)診斷<3年,2組)、DL-CAD輔助低年資醫(yī)師(3組)、單獨高年資主任醫(yī)師(從事影像學(xué)診斷>10年,4組)的檢出結(jié)果。
無DL-CAD輔助閱片模式(2、4組):由低年資住院醫(yī)師及高年資主任醫(yī)師分別將397例測試集圖像導(dǎo)入醫(yī)學(xué)影像瀏覽軟件(RadiAnt DICOM Viewer)進行標記。于病灶層面計算其診斷敏感度、特異度、陽性預(yù)測值及F值。
DL-CAD輔助閱片模式(3組):由同一名低年資醫(yī)師間隔1個月在DL-CAD平臺對經(jīng)過軟件預(yù)測后的DR胸片進行再次標注,以黃色方框標記軟件預(yù)測的病灶,醫(yī)師可對軟件漏診病灶進行補標注,以藍色方框顯示,見圖1。統(tǒng)計DL-CAD輔助低年資醫(yī)師診斷骨折的敏感度、特異度、陽性預(yù)測值及F值。
1.5 統(tǒng)計學(xué)分析 采用IBM SPSS Statistics 25.0統(tǒng)計分析軟件。以CochranQ檢驗比較4組觀察者總體檢出效能的差異;差異有統(tǒng)計學(xué)意義時,采用Dunn's檢驗(經(jīng)Bonferroni法校正)進行事后兩兩比較。P<0.05為差異有統(tǒng)計學(xué)意義。
圖1 患者男,65歲,右側(cè)第4、5后肋陳舊性骨折,DL-CAD分析X線胸片,黃框為根據(jù)DL-CAD預(yù)測所標記的骨折處,藍框為低年資住院醫(yī)師閱片后添加的骨折標記
2.1 試驗1 病灶層面:共983處骨折中,DL-CAD識別出672處,正確識別641處,誤診31處,敏感度為65.21%(641/983),特異度83.33%(155/186),陽性預(yù)測值95.39%(641/672),F(xiàn)值為77.46%;病例層面:共361例骨折患者中,DL-CAD識別出320例,正確識別314例,誤診6例,敏感度86.98%(314/361),特異度96.77%(180/186),陽性預(yù)測值98.13%(314/320),F(xiàn)值92.22%。
2.2 試驗2 604處骨折(211例),1、2、3、4組觀察者分別發(fā)現(xiàn)375、372、524及504處,敏感度分別為62.09%(375/604)、61.59%(372/604)、86.75%(524/604)和83.44%(504/604)。186例陰性病例中,1、2、3、4組觀察者分別誤診6、10、8和1例,特異度分別為96.77%(180/186)、94.62%(176/186)、95.70%(178/186)及99.46%(185/186)。1、2、3、4組陽性預(yù)測值分別為95.91%(375/391)、94.66%(372/393)、95.10%(524/551)及97.30%(504/518),F(xiàn)值分別為75.38%、74.62%、90.74%及89.84%。4組檢出效能總體差異有統(tǒng)計學(xué)意義(χ2=199.47,P<0.01),1組與2組、3組與4組間差異無統(tǒng)計學(xué)意義(P均>0.05),3、4組均高于1、2組(P均<0.01)。
1組及2組共同檢出病灶278處,1組檢出而2組未檢出97處病灶,2組檢出而1組未檢出94處病灶,二者均漏診病灶135處,見表1。
表1 試驗2中1、2組病灶檢出情況對比(處)
本研究采用基于深度卷積神經(jīng)網(wǎng)絡(luò)模型(convolutional neural network, CNN)的DL-CAD預(yù)測胸部骨折,可自動閱讀導(dǎo)入的胸部X線正位片。胸部X線片所示可疑病灶大小不同,表現(xiàn)各異;為提高模型的魯棒性,該系統(tǒng)采用ResNet50特征金字塔網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)提取特征,以focal loss函數(shù)計算損失,檢測器對難檢測樣本的針對性更強,從而提升了算法精度,以檢測框形式標出DR胸部正位片中包括骨折、氣胸及肺結(jié)節(jié)等在內(nèi)的異常征象。該軟件前期經(jīng)超過6 000幀X線片的內(nèi)部數(shù)據(jù)集訓(xùn)練及驗證,敏感度在使用最優(yōu)閾值情況下可達65%。
試驗1中DL-CAD在病例層面敏感度達86.98%,在病灶層面則僅為65.21%,原因在于同例患者可能同時存在多處不同部位骨折,以病例為單位時,觀察者僅需檢出并準確定位某個陽性病灶即可定義為真陽性,而以病灶為單位時,需檢出并準確定位每一處骨折。臨床工作中,DL-CAD廣泛用于不同影像學(xué)檢查中,如DR或CT對全身不同部位骨折的檢出[7-13]。URAKAWA等[14]采用CNN模型診斷股骨轉(zhuǎn)子間骨折,發(fā)現(xiàn)其檢出敏感度(93.9%)優(yōu)于骨科醫(yī)師(88.3%)。本研究試驗1中DL-CAD檢出敏感度有所不逮,可能原因在于胸廓結(jié)構(gòu)較為特殊,肋骨呈弧形,試驗中僅針對胸部正位片進行預(yù)測,且肺紋理及各類病變存在重疊,而膈下部位曝光不足等原因均可能導(dǎo)致DR胸片對骨折的預(yù)測易出現(xiàn)漏診及誤診,患者自身條件亦可能對檢查結(jié)果產(chǎn)生影響[15]。
進一步抽取試驗1中397例患者進行試驗2,結(jié)果顯示DL-CAD與低年資住院醫(yī)師之間檢出效能差異無統(tǒng)計學(xué)意義,而DL-CAD輔助可提高低年資醫(yī)師的檢出效能;盡管單獨DL-CAD與低年資醫(yī)師檢出敏感度相仿,但檢出結(jié)果仍存在差異(表1)。上述結(jié)果提示,采用DL-CAD系統(tǒng)輔助,低年資醫(yī)師可在原本觀察基礎(chǔ)上將側(cè)重點集中于DL-CAD已檢出病灶周圍,從而發(fā)現(xiàn)更多相關(guān)病灶而提高敏感度。
本研究的不足:①DL-CAD目前僅能在胸部正位X線片上預(yù)測骨折,通過加入胸部側(cè)位片或肋骨正斜位片等不同體位圖像進行模型訓(xùn)練,有望提高其預(yù)測骨折的準確性;②制定金標準時僅局限于DR影像,未能結(jié)合其他臨床體征及CT、MRI等,可能遺漏DR表現(xiàn)不明顯的隱匿性骨折[16]。如能在下一步軟件迭代中提高對于檢出不同類型、程度及不同部位骨折的敏感性,將有助于提升DL-CAD的檢出效能。