張曉東,孫兆男,任昕,周宇,周雯,李建輝,謝輝輝,劉婧,張雖雖,李津書,王霄英
表1 CXR二分類模型研發(fā)數(shù)據(jù)篩選方法
注:*0=無(wú)發(fā)現(xiàn);1=有發(fā)現(xiàn)
胸部X線片(chest X-ray,CXR)是診斷呼吸系統(tǒng)疾病的重要影像檢查方法,在醫(yī)學(xué)影像科日常工作中占很大比例。使用CXR進(jìn)行檢查的臨床場(chǎng)景包括門診檢查、術(shù)前常規(guī)檢查、健康體檢、急診檢查等[1];在前三種情況下,CXR結(jié)果多數(shù)為正常,影像檢查的任務(wù)是檢出少數(shù)的異常者,再做進(jìn)一步處理(如行胸部CT檢查等)。近年來(lái)人工智能(artificial intelligence,AI)領(lǐng)域的技術(shù)開始應(yīng)用于CXR的質(zhì)控、圖像分割和診斷等工作[2-6],初步結(jié)果認(rèn)為在適應(yīng)證明確的情況下,AI對(duì)完成影像檢查任務(wù)是有幫助的。本研究擬使用深度學(xué)習(xí)方法研發(fā)影像輔助診斷工具,對(duì)門診、術(shù)前常規(guī)和體檢人群的CXR進(jìn)行“無(wú)發(fā)現(xiàn)”、“有發(fā)現(xiàn)”的分類(以下簡(jiǎn)稱二分類),以提高醫(yī)學(xué)影像科醫(yī)師的工作效率。
本研究獲得了本院倫理審查委員會(huì)的批準(zhǔn),按照本單位AI項(xiàng)目研發(fā)規(guī)范開展研究工作。
根據(jù)本單位AI項(xiàng)目管理方法,首先定義研發(fā)CXR二分類AI模型的用例(Use Case)[7],包括以下內(nèi)容:CXR二分類AI模型的ID、臨床問(wèn)題、場(chǎng)景描述、模型在實(shí)際工作中的調(diào)用流程、模型輸入輸出數(shù)據(jù)結(jié)構(gòu)等。AI模型返回結(jié)果定義為“無(wú)發(fā)現(xiàn)”和“有發(fā)現(xiàn)”兩類?!盁o(wú)發(fā)現(xiàn)”的定義:CXR上未見應(yīng)寫入報(bào)告的影像發(fā)現(xiàn),診斷印象為兩肺心膈未見異常?!坝邪l(fā)現(xiàn)”的定義:CXR上有需要在報(bào)告中提及的任何影像所見,包括(但不限于)胸壁、肺、縱隔、橫膈、上腹部的影像所見,診斷印象中提及了一種以上的影像所見。
回顧性收集CXR數(shù)據(jù)建立二分類模型研發(fā)隊(duì)列。從本院PACS系統(tǒng)中檢索2017年7月1日至2018年7月1日的連續(xù)資料,由2位住院醫(yī)師根據(jù)登記信息、設(shè)備信息、影像報(bào)告和CXR圖像進(jìn)行篩選,再由1位高年資醫(yī)師再次讀片,對(duì)圖像進(jìn)行最終分類(表1)。
經(jīng)過(guò)數(shù)據(jù)篩選建立研究隊(duì)列,獲得“無(wú)發(fā)現(xiàn)”患者的CXR圖像共9765幅,“有發(fā)現(xiàn)”患者的CXR圖像共9956幅。以患者為單位隨機(jī)分為訓(xùn)練集(training dataset,70%)、調(diào)優(yōu)集(validation dataset,20%)和測(cè)試集(testing dataset,10%),各個(gè)數(shù)據(jù)集中的患者信息是不同的,具體見表2。
表2 CXR二分類模型訓(xùn)練過(guò)程中的數(shù)據(jù)分配 (例)
CXR二分類模型輸入圖像大小為512×512,模型輸出為“無(wú)發(fā)現(xiàn)”、“有發(fā)現(xiàn)”二分類概率,并可通過(guò)Grad-CAM方法得到該模型的激活熱圖。
模型訓(xùn)練的初始權(quán)重來(lái)源于ImageNet預(yù)訓(xùn)練ResNet152模型[8]。圖像預(yù)處理部分包括以下步驟:原始圖像大小縮放至512×512, 并對(duì)圖像像素值按照ImageNet數(shù)據(jù)集的均值和方差進(jìn)行歸一化處理。擴(kuò)增方法:隨機(jī)旋轉(zhuǎn)、縮放、平移等。
圖1 基于ResNet152基礎(chǔ)架構(gòu)并結(jié)合Grad-CAM的CXR二分類模型訓(xùn)練過(guò)程。 圖2 CXR二分類模型在測(cè)試集中的混淆矩陣。 圖3 CXR二分類模型在測(cè)試集中的ROC曲線。
在NVIDIA GPU(P100,Nvidia Corporation,Santa Clara,CA)上利用Pytorch (https://pytorch.org/) 深度學(xué)習(xí)Python庫(kù),在本院收集整理的臨床患者CXR圖像數(shù)據(jù)集上進(jìn)行開發(fā)和訓(xùn)練。
二分類模型基于152層的卷積神經(jīng)網(wǎng)絡(luò)模型,以Resnet為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)深度學(xué)習(xí)模型的基礎(chǔ)架構(gòu)[9],結(jié)合梯度類別激活圖(gradient class activation maps,Grad-CAM)方法[10],建立可以同時(shí)顯示分類結(jié)果及激活熱圖的CXR二分類模型(圖1)。
訓(xùn)練和調(diào)優(yōu)分別在訓(xùn)練集和調(diào)優(yōu)集數(shù)據(jù)上進(jìn)行,訓(xùn)練好的模型在測(cè)試集上驗(yàn)證。用測(cè)試集的混淆矩陣(confusion matrix)評(píng)價(jià)二分類模型的效能,得到將CXR分為“無(wú)發(fā)現(xiàn)”與“有發(fā)現(xiàn)”的精確度(precision)、召回率(recall)、F1-分?jǐn)?shù)(F1-score)及受試者工作特征(receiver operating characteristic,ROC)曲線的曲線下面積。將CXR二分類模型預(yù)測(cè)結(jié)果返回到結(jié)構(gòu)化報(bào)告中,以保證AI模型在臨床工作流程中的可用性。
CXR二分類模型對(duì)測(cè)試集數(shù)據(jù)預(yù)測(cè)的混淆矩陣(圖2)顯示,分類的精確度、召回率和F1-分?jǐn)?shù)均較高(表3), ROC曲線下面積均為0.96(圖3)。在測(cè)試集1018個(gè)“有發(fā)現(xiàn)”的病例中,模型正確識(shí)別了其中914個(gè),有104個(gè)未被識(shí)別出來(lái);995個(gè)“無(wú)發(fā)現(xiàn)”的病例中,模型正確識(shí)別了其中876個(gè),其中119個(gè)被誤認(rèn)為“有發(fā)現(xiàn)”。以“有發(fā)現(xiàn)”為陽(yáng)性,模型的假陰性率為10.6%,假陽(yáng)性率為11.5%。經(jīng)與影像專家的讀片結(jié)果進(jìn)行對(duì)照,發(fā)現(xiàn)假陰性者的主要“發(fā)現(xiàn)”種類為:少量纖維索條影、小范圍鈣化、心臟輪廓稍飽滿、主動(dòng)脈結(jié)輕度突出、肺門影稍重、肺紋理輕度增多、肋骨變異等。
表3 CXR二分類模型在測(cè)試集中的分類效能
CXR二分類模型返回了激活圖(圖4~6),可以看到圖像中的病灶區(qū)域與預(yù)測(cè)為“有發(fā)現(xiàn)”的激活區(qū)域基本吻合,而如果將該圖像預(yù)測(cè)為正常的話,其激活高亮區(qū)域大部分散在分布,與解剖學(xué)上的特征區(qū)域沒有相關(guān)性。
根據(jù)用例設(shè)計(jì)要求,將CXR二分類模型結(jié)果直接返回到結(jié)構(gòu)化報(bào)告中,生成相應(yīng)的結(jié)果。對(duì)分類是“無(wú)發(fā)現(xiàn)”的,直接生成“正?!眻?bào)告,包括常規(guī)影像表現(xiàn)和診斷印象,不返回激活圖。對(duì)分類是“有發(fā)現(xiàn)”的,激活“異?!笨丶?,并返回激活圖(圖7)。
胸部X線檢查是呼吸系統(tǒng)疾病重要的影像檢查方法之一,是醫(yī)學(xué)影像科工作中最常見的臨床任務(wù)。在綜合性醫(yī)院,大多數(shù)常規(guī)體檢和呼吸系統(tǒng)疾病篩查均首選CXR[11],且在這些診斷任務(wù)中相當(dāng)多的影像診斷結(jié)果是“無(wú)發(fā)現(xiàn)”。使用輔助診斷軟件將“有發(fā)現(xiàn)”與“無(wú)發(fā)現(xiàn)”分開,可提高醫(yī)生的工作效率,有利于工作流程的優(yōu)化。值得注意的是,本研究中此模型召回率和F1值不足0.9,將面臨著10%左右的漏診率和誤診率,尤其是漏診將給臨床應(yīng)用價(jià)值帶來(lái)較大影響。經(jīng)與影像專家的讀片結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)漏診的情況主要集中于輕微影像改變,對(duì)臨床結(jié)局影響不大,所以仍需在工作中持續(xù)改進(jìn)。當(dāng)前的改進(jìn)方法是將在實(shí)際工作中發(fā)現(xiàn)的預(yù)測(cè)錯(cuò)誤的數(shù)據(jù)持續(xù)性收集、整理、標(biāo)注,用于模型的進(jìn)一步訓(xùn)練,以實(shí)現(xiàn)模型的持續(xù)迭代。另一方面,將患者入組人群進(jìn)一步細(xì)分,統(tǒng)一專家診斷標(biāo)準(zhǔn),都有可能提高模型的準(zhǔn)確率。
圖4 心衰合并右肺病變及胸腔積液,CXR二分類預(yù)測(cè)結(jié)果為“有發(fā)現(xiàn)”。a)CXR原圖;b)“有發(fā)現(xiàn)”的激活圖,高亮區(qū)域?yàn)榭v隔、心尖、右下肺,與影像征象異常的區(qū)域基本吻合;c)預(yù)測(cè)結(jié)果如果是“無(wú)發(fā)現(xiàn)”,則激活區(qū)域在肺外以及脊柱區(qū)域,與圖像的關(guān)鍵解剖位置不相關(guān)。 圖5 主動(dòng)脈增寬,CXR二分類預(yù)測(cè)結(jié)果為“有發(fā)現(xiàn)”。a)CXR原圖;b)“有發(fā)現(xiàn)”的激活圖,高亮區(qū)域?yàn)橹锌v隔主動(dòng)脈區(qū)域,與影像征象異常的區(qū)域基本吻合;c)預(yù)測(cè)結(jié)果如果是“無(wú)發(fā)現(xiàn)”,則激活區(qū)域散在分布于整個(gè)圖像中,與圖像的關(guān)鍵解剖位置不相關(guān)。 圖6 深靜脈置管,雙側(cè)胸腔積液,肺內(nèi)散在小片滲出,CXR二分類預(yù)測(cè)結(jié)果為“有發(fā)現(xiàn)”。a)CXR原圖;b)“有發(fā)現(xiàn)”的激活圖,高亮區(qū)域?yàn)樯铎o脈置管、雙下胸部和左上肺,與影像征象異常的區(qū)域基本吻合;c)預(yù)測(cè)結(jié)果如果是“無(wú)發(fā)現(xiàn)”,則激活區(qū)域散在分布于整個(gè)圖像中,無(wú)特殊規(guī)律,與圖像的關(guān)鍵解剖位置不相關(guān)。
本研究結(jié)果顯示,深度學(xué)習(xí)模型可以用于CXR的輔助診斷,這與既往研究結(jié)果相似[12,13]。對(duì)于醫(yī)學(xué)圖像的分類問(wèn)題,模型的可解釋性非常重要,有利于對(duì)模型分類結(jié)果的準(zhǔn)確性評(píng)估。近年來(lái),相關(guān)學(xué)者對(duì)于深度卷積神經(jīng)網(wǎng)絡(luò)模型的可解釋性做了很多探索,其中CAM方法是對(duì)不同類別的卷積層生成的特征圖加權(quán)求和而得到激活熱圖,通過(guò)該激活熱圖可以對(duì)模型分類的結(jié)果進(jìn)行解釋[14]。Grad-CAM是CAM技術(shù)的擴(kuò)展,可以適用于任何CNN架構(gòu)。本研究中CXR二分類模型利用Grad-CAM來(lái)生成分類激活熱圖,在該熱圖上可以展示輸入圖像中的哪些區(qū)域?qū)τ诘玫皆摲诸惤Y(jié)果是重要的激活區(qū)域。
本研究的數(shù)據(jù)篩選過(guò)程是由醫(yī)生回顧性讀片完成的。對(duì)于大樣本模型訓(xùn)練,多是從報(bào)告中用自然語(yǔ)言處理(natural language processing,NLP)方法提取信息[15,16],優(yōu)點(diǎn)是處理大量影像數(shù)據(jù)時(shí)可節(jié)省醫(yī)生時(shí)間,但報(bào)告內(nèi)容常欠規(guī)范,不完整,因些需要大量的數(shù)據(jù),即便是大量數(shù)據(jù)其準(zhǔn)確性仍欠佳[17]。本研究由影像醫(yī)生進(jìn)行數(shù)據(jù)篩選,且由高年資醫(yī)生再次回顧性閱片確定圖像分類,雖然在數(shù)據(jù)清洗過(guò)程中人力成本較高,但結(jié)果較好,用不太多的數(shù)據(jù)訓(xùn)練得到的模型,準(zhǔn)確性仍很高[18]。
AI模型研發(fā)和泛化過(guò)程中應(yīng)考慮技術(shù)問(wèn)題[19]。本研究CXR二分類模型訓(xùn)練過(guò)程中未對(duì)設(shè)備進(jìn)行篩選,使用了連續(xù)數(shù)據(jù)。CXR圖像來(lái)自本單位在實(shí)際臨床工作中使用的多種DR設(shè)備,由不同技師完成攝片工作,未根據(jù)設(shè)備、人員進(jìn)行分組。本研究結(jié)果證明了不同DR設(shè)備、不同技師采集的圖像均可用于模型的訓(xùn)練,且無(wú)論來(lái)源于何種DR設(shè)備的圖像,其驗(yàn)證集數(shù)據(jù)的分類預(yù)測(cè)均達(dá)到較好的結(jié)果。胸部X線檢查有明確的技術(shù)規(guī)范,經(jīng)過(guò)常規(guī)培訓(xùn)的技師都可按照規(guī)范完成日常工作,操作一致性強(qiáng);且現(xiàn)代DR設(shè)備有自動(dòng)曝光功能,可自動(dòng)設(shè)置最佳投照條件并調(diào)整圖像的窗水平,因此圖像預(yù)處理難度不大,可適用于多種AI模型的訓(xùn)練[19]。由于常規(guī)CXR基本可以保證圖像質(zhì)量,來(lái)源于不同設(shè)備的圖像性質(zhì)差別不大,從這個(gè)角度考慮,在CXR二分類模型泛化過(guò)程中,沒有圖像采集技術(shù)上的風(fēng)險(xiǎn)。
圖7 CXR二分類模型與結(jié)構(gòu)化報(bào)告整合的流程。
從實(shí)際場(chǎng)景出發(fā)設(shè)定AI研發(fā)目標(biāo),是項(xiàng)目設(shè)計(jì)的關(guān)鍵問(wèn)題,決定了模型臨床應(yīng)用的適用性[20]。本研究CXR二分類模型訓(xùn)練過(guò)程中定義的分類輸出結(jié)果為“無(wú)發(fā)現(xiàn)”和“有發(fā)現(xiàn)”。在最初的用例設(shè)計(jì)中,擬將返回的二分類值定義為 “正常”和“異?!保趯?shí)際建立隊(duì)列過(guò)程中,發(fā)現(xiàn)“肺心膈正?!辈⒉皇恰罢!薄T凇胺涡碾跽!睍r(shí),圖像中如存在有臨床意義的其他征象,也需要報(bào)告出來(lái);如“單側(cè)乳腺切除術(shù)后,胸壁軟組織缺失,兩肺心膈未見異?!?,再如“PICC置入術(shù)后,兩肺心膈未見異?!钡?,這些術(shù)后改變、置入物等信息,都是CXR檢查應(yīng)發(fā)現(xiàn)并報(bào)告給臨床醫(yī)生的。因此,為了提高模型訓(xùn)練效率,本研究中將“肺心膈正?!鼻也缓喜⑵渌魏涡鑸?bào)告的情況歸為“無(wú)發(fā)現(xiàn)”;將有疾病影像表現(xiàn),或“肺心膈正常但合并其它有臨床意義的所見”情況歸為“有發(fā)現(xiàn)”。
AI臨床應(yīng)用的一個(gè)基本要求是與臨床流程整合。在符合法規(guī)、倫理的框架下,國(guó)內(nèi)外技術(shù)人員做過(guò)很多探索[21],均認(rèn)為把AI模型作為獨(dú)立第三方軟件使用的形式不是最優(yōu)解。筆者認(rèn)為將AI結(jié)果直接返回到臨床實(shí)際使用的結(jié)構(gòu)化報(bào)告,是較好的解決方案[22]。為了提高臨床工作效率,在將CXR二分類結(jié)果返回到報(bào)告時(shí),如果模型預(yù)測(cè)結(jié)果為“無(wú)發(fā)現(xiàn)”,則激活“兩肺心膈未見異?!钡膱?bào)告內(nèi)容,此時(shí)報(bào)告是完全自動(dòng)生成的。如果模型預(yù)測(cè)結(jié)果為“有發(fā)現(xiàn)”,則在報(bào)告中激活的是“異常”控件,需要醫(yī)生進(jìn)一步對(duì)異常進(jìn)行描述,這時(shí)報(bào)告是半自動(dòng)生成的。本單位臨床實(shí)際工作中CXR“無(wú)發(fā)現(xiàn)”的情況較常見,占到工作量的一半以上,因此如將CXR二分類模型接入報(bào)告,在分類準(zhǔn)確率足夠高時(shí),能明顯提高臨床工作效率。而且由模型返回結(jié)果自動(dòng)生成的報(bào)告,語(yǔ)言規(guī)范、結(jié)構(gòu)清晰,對(duì)未來(lái)提取報(bào)告信息做其他研究分析也有利[23]。
本研究的局限性:①CXR二分類模型在“有發(fā)現(xiàn)”情況下提供的信息不是具體疾病,臨床價(jià)值受限,仍需進(jìn)一步優(yōu)化,訓(xùn)練用于多種疾病診斷的CXR多分類AI模型[3],針對(duì)不同體位[2]、不同年齡、不同申請(qǐng)目的時(shí)對(duì)多種常見疾病做出診斷[24,25];②模型研發(fā)后應(yīng)在實(shí)際臨床工作中進(jìn)行驗(yàn)證,開展前瞻性、隨機(jī)對(duì)照臨床試驗(yàn),證明使用AI模型的臨床獲益;③CXR 二分類模型在本單位經(jīng)過(guò)驗(yàn)證后,應(yīng)嘗試將其泛化[26],應(yīng)用于不同醫(yī)療機(jī)構(gòu)、不同臨床場(chǎng)景下,進(jìn)一步提高其適用性。
綜上所述,使用深度學(xué)習(xí)模型可對(duì)X線胸片做出“無(wú)發(fā)現(xiàn)”與“有發(fā)現(xiàn)”的分類診斷,在常規(guī)臨床工作中使用模型分檢病例,有利于提高醫(yī)學(xué)影像科的工作效率。
致謝:感謝北京賽邁特銳醫(yī)學(xué)科技有限公司張欣靜、郭嘉欣在數(shù)據(jù)整理工作中的貢獻(xiàn)。