李莉,黃韜,王新宇,馮敖梓,呂軍
醫(yī)療影像是醫(yī)療大數(shù)據(jù)中的常見數(shù)據(jù)形式,是疾病篩查和診斷、治療決策的最主要信息來源之一[1]。在治療過程中,醫(yī)院存儲(chǔ)了大量影像信息,形成了巨大的數(shù)據(jù)積累[2]。如何有效利用這些數(shù)據(jù)促進(jìn)醫(yī)學(xué)技術(shù)的發(fā)展,是眾多研究者們共同關(guān)注的重點(diǎn)。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識別文字、圖像和聲音等數(shù)據(jù)[3]。由于醫(yī)學(xué)影像閱片工作專業(yè)性強(qiáng),需專門的影像科醫(yī)生閱片并撰寫報(bào)告,工作內(nèi)容可重復(fù)性高,且難以避免具有主觀性,不同的醫(yī)生可能得到不同的結(jié)果。使用深度學(xué)習(xí)技術(shù)理解醫(yī)學(xué)影像,提取關(guān)鍵信息,自動(dòng)閱片的AI輔助診斷技術(shù)具有重要的臨床與科研價(jià)值。
在飛利浦醫(yī)療保健公司的支持下,麻省理工學(xué)院計(jì)算生理學(xué)實(shí)驗(yàn)室和貝斯以色列女執(zhí)事醫(yī)療中心合作的基礎(chǔ)上,2019年1月Johnson等發(fā)布了MIMIC胸部X射線(MIMIC-CXR)數(shù)據(jù)庫[4]。這是一個(gè)帶有放射學(xué)報(bào)告的大型胸部X射線影像公開數(shù)據(jù)集。同年11月,為了給研究過程提供標(biāo)準(zhǔn),節(jié)省科研人員的時(shí)間,Johnson等在MIMICCXR的基礎(chǔ)上進(jìn)一步處理,發(fā)布了MIMIC-CXRJPG數(shù)據(jù)庫[5]。不僅將DICOM的影像格式轉(zhuǎn)換為JPEG格式,而且提取了文本報(bào)告中的重要信息,轉(zhuǎn)換成了結(jié)構(gòu)化的標(biāo)簽形式。本文對MIMICCXR以及MIMIC-CXR-JPG數(shù)據(jù)庫做出基本的介紹,對DICOM影像數(shù)據(jù)轉(zhuǎn)換成JPEG數(shù)據(jù)的過程進(jìn)行了探索分析,并對深度學(xué)習(xí)技術(shù)在MIMICCXR醫(yī)學(xué)影像上的研究方向進(jìn)行簡單總結(jié)。
為了促進(jìn)醫(yī)學(xué)影像在計(jì)算機(jī)視覺,自然語言處理和臨床數(shù)據(jù)挖掘等方面科學(xué)研究,推進(jìn)醫(yī)學(xué)向自動(dòng)化、智能化發(fā)展,Johnson等[4]收集并免費(fèi)發(fā)布了2011~2016年間貝斯以色列女執(zhí)事醫(yī)療中心急診科患者的胸腔X射線影像及其對應(yīng)的報(bào)告數(shù)據(jù)。數(shù)據(jù)集官網(wǎng):https://mimic-cxr.mit.edu/(圖1)。
圖1 數(shù)據(jù)集官網(wǎng)主頁界面
該數(shù)據(jù)集包含了65 379例患者的數(shù)據(jù),每例患者擁有一項(xiàng)或多項(xiàng)不同的檢查,共計(jì)227 835項(xiàng)影像檢查。而每項(xiàng)檢查又包含了一個(gè)或多個(gè)圖像,共計(jì)377 110張X光片胸腔圖像。同時(shí)每項(xiàng)檢查都對應(yīng)著放射科醫(yī)生撰寫的文本報(bào)告。影像與報(bào)告均已規(guī)范的形式組織,并取消患者標(biāo)識,數(shù)據(jù)集文件結(jié)構(gòu)如圖2所示。為避免在一個(gè)目錄中包含過多的文件,整個(gè)數(shù)據(jù)集被分成了10個(gè)文件夾(p10-p19)。文件夾內(nèi)整合了每例患者的數(shù)據(jù)(如圖2中p10000032),s開頭的文件夾為不同的檢查項(xiàng)目,txt文件為相應(yīng)檢查的報(bào)告。以5組16進(jìn)制編碼命名的dcm文件為影像數(shù)據(jù)。在圖2顯示患者數(shù)據(jù)共進(jìn)行了四項(xiàng)檢查,其中三項(xiàng)檢查中包含了兩個(gè)X光片,一項(xiàng)檢查僅有一個(gè)X光片。這些檢查沒有順序標(biāo)記,數(shù)據(jù)中的文件編碼均為隨機(jī)。
圖2 MIMIC-CXR數(shù)據(jù)集文件結(jié)構(gòu)
在完成了CITI旗下的“Data or Specimens Only Research”課程獲得成績證書,提出申請并簽署數(shù)據(jù)使用協(xié)議后,可在PhysioNet的MIMIC-CXR官方頁面(https://physionet.org/content/mimiccxr/2.0.0/)看到如圖3所示的界面。由于每一個(gè)DCM影像文件在15 MB左右,整個(gè)數(shù)據(jù)集占用存儲(chǔ)空間達(dá)到4.6 TB。官方提供了三種接入方式,谷歌云盤、谷歌BigQuery及Wget下載代碼,用戶可選擇任意方式獲取數(shù)據(jù)進(jìn)行研究。除前述文件結(jié)構(gòu)外,數(shù)據(jù)集中還包含以下內(nèi)容:
圖3 MIMIC-CXR文件預(yù)覽及下載頁面
·許可證明LICENSE.txt。
·圖片文件列表 cxr-record-list.csv,列表中包含了患者標(biāo)識符subject_id、檢查項(xiàng)目標(biāo)識符study_id、圖片文件名dicom_id以及圖片文件路徑path四個(gè)字段。這里的患者標(biāo)識符對應(yīng)了MIMIC-Ⅳ數(shù)據(jù)庫[6]的患者標(biāo)識符。
·報(bào)告文件列表cxr-study-list.csv,包含患者標(biāo)識符subject_id、檢查項(xiàng)目標(biāo)識符study_id以及報(bào)告路徑path三個(gè)字段。
·mimic-cxr-reports.zip是如圖2的文件結(jié)構(gòu),但只包含報(bào)告而不包含圖像文件的存檔。
·SHA256SUMS.txt是以上四個(gè)文件的sha256校驗(yàn)碼,用于校驗(yàn)數(shù)據(jù)文件的完整性。
DCM文件是醫(yī)學(xué)影像方面的常用文件,以醫(yī)學(xué)數(shù)字成像和通信(DICOM)格式存儲(chǔ),例如心電圖、核磁共振成像、CT掃描圖像、超聲圖像等。DCM文件還可以存儲(chǔ)患者信息,包含了protected health information(PHI),不僅方便將圖像與患者配對,而且可以獲取相應(yīng)的標(biāo)簽進(jìn)行研究,例如患者的拍攝位置、進(jìn)行的具體檢查項(xiàng)目等。但DCM文件需要專用的閱片軟件打開,不利于數(shù)據(jù)的探索與分析。我們使用Python編程語言讀取dcm影像數(shù)據(jù)并進(jìn)行展示,基本的影像展示代碼如圖4所示,得到如圖5所示樣本。
圖4 DCM 影像讀取與展示代碼
圖5 X光片示例樣本
數(shù)據(jù)庫中患者的每一項(xiàng)檢查都對應(yīng)著一份文本報(bào)告。報(bào)告樣例如圖6所示,報(bào)告內(nèi)容中包含了檢查的具體項(xiàng)目、病因、體位、是否包含比較、影像學(xué)發(fā)現(xiàn)以及最后的影像學(xué)診斷,其中影像學(xué)發(fā)現(xiàn)和診斷由放射科醫(yī)生描述,其余信息從患者電子健康記錄中獲?。╡lectronic health record,EHR)。報(bào)告中消除了患者身份信息,并以三個(gè)下劃線“___”表示。
圖6 X光片放射學(xué)報(bào)告樣例(對應(yīng)于圖5)
由于MIMIC-CXR中提供的是簡單處理的原始數(shù)據(jù),無論是影像DCM文件,還是文本報(bào)告都不是數(shù)據(jù)分析的常用數(shù)據(jù)格式。為了減少研究者的數(shù)據(jù)預(yù)處理工作,提供統(tǒng)一的規(guī)范,推進(jìn)研究進(jìn)程,Johnson等[5]在MIMIC-CXR的基礎(chǔ)上進(jìn)行了進(jìn)一步的數(shù)據(jù)處理,發(fā)布了 MIMIC-CXR-JPG數(shù)據(jù)庫(文中簡寫為CXR-JPG)。CXR-JPG數(shù)據(jù)下載頁面如圖7所示。
圖7 MIMIC-CXR-JPG文件預(yù)覽以及下載頁面
相比于MIMIC-CXR,CXR-JPG數(shù)據(jù)占用存儲(chǔ)空間較小,主要在兩個(gè)方面處理了數(shù)據(jù)內(nèi)容,一是改變了圖像數(shù)據(jù)的格式,二是從文本報(bào)告中提取了標(biāo)簽信息。
圖像上,首先由于DICOM文件是以16位深度(像素值范圍為[0, 65536])存儲(chǔ)的無損無壓縮的格式文件,作者將其歸一化成8位深度(像素值范圍為[0, 255])的常規(guī)圖像格式,并以JPEG文件格式存儲(chǔ)。單張影像的文件大小上也從15MB降到了1MB左右。由于DICOM影像的成像標(biāo)準(zhǔn)并不統(tǒng)一,部分影像像素值呈現(xiàn)相反的狀態(tài)。例如有的影像中患者組織顯示為白色(最高像素值),而空氣顯示為黑色(最低像素值),有的則相反。DICOM影像文件中以Photometric Interpretation為主鍵標(biāo)記這種不同的方式。作者根據(jù)此標(biāo)記判斷圖像是否需要反轉(zhuǎn),以此統(tǒng)一所有的像素內(nèi)容表示。最后,由于醫(yī)學(xué)影像的灰度值較低,其灰度分布可能集中在較窄區(qū)間,動(dòng)態(tài)范圍偏小,造成圖像不夠清晰。使用了直方圖均衡化的圖像增強(qiáng)技術(shù),通過改變圖像中各像素的灰度來增強(qiáng)對比度。影像歸一化后以及均衡化后的對比如圖8所示,可見均衡化后的影像對比度更高,且像素分布更為均衡。
圖8 X光片歸一化和均衡化處理后效果對比
文本報(bào)告上,作者使用NegBio[7]和CheXpert[8]兩個(gè)開源工具來提取數(shù)據(jù)標(biāo)簽。NegBio主要用于在臨床文本(如放射學(xué)報(bào)告)中進(jìn)行否定和不確定性檢測。而CheXpert是以NegBio為基礎(chǔ)的可從放射學(xué)報(bào)告中提取觀察分類標(biāo)簽的NLP算法。從報(bào)告中提取標(biāo)簽的示例如表1所示。從報(bào)告中共提取了14個(gè)類別,分別是:健康(No Finding)、縱隔擴(kuò)大(Enlarged Cardiomediastinum)、心臟肥大(Cardiomegaly)、肺部渾濁(Lung Opacity)、肺部病變(Lung Lesion)、水腫(Edema)、變實(shí)(Consolidation)、肺炎(Pneumonia)、肺不張(Atelectasis)、氣胸(Pneumothorax)、胸腔積液(Pleural Effusion)、胸膜其他(Pleural Other)、骨折(Fracture)、輔助設(shè)備(Support Devices)。
表1 根據(jù)報(bào)告提取標(biāo)簽示例[5]
此外,CXR-JPG數(shù)據(jù)庫提供了包含視圖位置,患者方向及圖像獲取時(shí)間的匿名日期的元數(shù)據(jù),提供了由CheXpert標(biāo)記器生成的帶有標(biāo)記的研究以及帶有NegBio標(biāo)記器生成的標(biāo)記的研究。同時(shí),給出了建議的訓(xùn)練(368 960項(xiàng)),驗(yàn)證(2991項(xiàng)),和測試(5159項(xiàng))分組,為研究者提供了一個(gè)統(tǒng)一的實(shí)驗(yàn)標(biāo)準(zhǔn),有利于為不同方法建立公平的對比條件。
隨著科技的發(fā)展,人工智能在醫(yī)療行業(yè)的應(yīng)用越來越廣泛,例如語音錄入病歷、醫(yī)療影像輔助診斷、藥物研發(fā)、醫(yī)療機(jī)器人、個(gè)人健康大數(shù)據(jù)的智能分析等。超聲、X光、CT、MRI等均是醫(yī)生診療過程中常用的技術(shù)手段。通過這些手段得到的醫(yī)療影像,利用深度學(xué)習(xí)技術(shù)進(jìn)行病灶識別、疾病診斷,不僅利于輔助影像科室醫(yī)生檢查,減輕工作壓力,減小辨認(rèn)誤差;也利于降低影像閱片所需的專業(yè)要求。因此,醫(yī)學(xué)影像數(shù)據(jù)集的發(fā)布有著重要的現(xiàn)實(shí)意義。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,使用深度神經(jīng)網(wǎng)絡(luò)研究研究醫(yī)學(xué)影像數(shù)據(jù)已成為目前研究主流[9],并取得重要研究成果,例如使用深度學(xué)習(xí)進(jìn)行腫瘤分割[10],對胰腺神經(jīng)內(nèi)分泌腫瘤分級[11],高效率高精度的醫(yī)學(xué)影像檢索[12]等。公開的數(shù)據(jù)集更多起到的是科研上的意義,為理論研究的評估和比較服務(wù)。匯總MIMIC-CXR以及其JPEG版本數(shù)據(jù)庫,共提供了DICOM高精度影像數(shù)據(jù),JPEG低內(nèi)存圖片數(shù)據(jù),自由文本報(bào)告,結(jié)構(gòu)化標(biāo)簽等內(nèi)容。利用深度學(xué)習(xí)研究MIMIC-CXR影像數(shù)據(jù)集,從技術(shù)手段上看,有計(jì)算機(jī)視覺與自然語言處理兩個(gè)方向。計(jì)算機(jī)視覺方向上,可進(jìn)行如病灶分割、異物檢測、病理特征匹配、影像超分辨率處理等研究工作。自然語言處理方面,可進(jìn)行如自由文本轉(zhuǎn)換、信息提取等研究工作。兩方面技術(shù)結(jié)合,可考慮使用影像數(shù)據(jù)直接生成自由文本報(bào)告[13]。由于MIMIC-CXR數(shù)據(jù)庫關(guān)聯(lián)了MIMIC-Ⅳ數(shù)據(jù)庫[6],如何結(jié)合影像數(shù)據(jù)與患者病歷數(shù)據(jù)進(jìn)行研究是一個(gè)重要的研究方向。
MIMIC-CXR數(shù)據(jù)庫提供了65 379例患者的胸部X光片影像數(shù)據(jù)及其描述報(bào)告,同時(shí)該數(shù)據(jù)集與MIMIC-Ⅳ同源,對應(yīng)了患者的臨床電子健康數(shù)據(jù)。MIMIC-CXR-JPG轉(zhuǎn)換了影像數(shù)據(jù)的存儲(chǔ)格式,并將描述報(bào)告結(jié)構(gòu)化,生成了規(guī)范化的標(biāo)簽。本文主要介紹了MIMIC-CXR以及MIMICCXR-JPG的基本構(gòu)成,旨在幫助研究者快速了解數(shù)據(jù)內(nèi)容,減少探索數(shù)據(jù)中浪費(fèi)的時(shí)間和精力,提高工作效率。