馬帥, 吳靜云, 劉義, 姜健, 李作峰, 施雅慧, 李俊博, 魏娟, 王霄英
·影像信息學(xué)專題·
自然語言處理對泌尿系結(jié)石CT特征的提?。号c人工診斷結(jié)果的對照研究
馬帥, 吳靜云, 劉義, 姜健, 李作峰, 施雅慧, 李俊博, 魏娟, 王霄英
目的:研究自然語言處理(NLP)對泌尿系結(jié)石CT特征的提取效果。方法:回顧性分析379例泌尿系結(jié)石(392個)行手術(shù)治療患者的CT報告,以人工和NLP方法分別進行結(jié)石相關(guān)圖像特征的分析。NLP分析過程:結(jié)合人工校正,進行文本信息的提取和加工,通過機器學(xué)習(xí)制定原則,得到關(guān)鍵特征,交叉驗證這些關(guān)鍵特征與不同手術(shù)方式的相關(guān)性。專家分析過程:三位醫(yī)師分析CT圖像,人工確定需提取的關(guān)鍵特征,分析各種特征與手術(shù)方式的相關(guān)性。結(jié)果:NLP分析所得關(guān)鍵特征為“結(jié)石”、“炎癥”和“輸尿管形態(tài)”相關(guān)信息,其預(yù)測手術(shù)方式的符合率為0.456,ROC下面積為0.608。專家分析所得關(guān)鍵特征中,“結(jié)石上下位置”、“腎周索條影”、“輸尿管壁增厚”和“結(jié)石大小”這4個征象與手術(shù)方式的選擇有相關(guān)性(r=0.192、-0.318、-0.285和-0.359,P<0.05)。結(jié)論:NLP提取的泌尿系結(jié)石的關(guān)鍵CT特征與專家評估的結(jié)果類似,其對手術(shù)方式的預(yù)測效能得到初步肯定。
自然語言處理; 泌尿系結(jié)石; 數(shù)據(jù)挖掘; 影像信息學(xué)
自然語言處理(natural language processing,NLP)技術(shù)作為醫(yī)學(xué)影像信息學(xué)在臨床應(yīng)用中的重要工具[1],其價值受到學(xué)術(shù)界廣泛關(guān)注。通過計算機智能挖掘影像報告自由文本中的特定信息、提取疾病診斷相關(guān)征象,NLP可學(xué)習(xí)診斷模式及規(guī)則,并為臨床提供決策支持[2]。系統(tǒng)訓(xùn)練和驗證是NLP構(gòu)建過程中的重要環(huán)節(jié),對保證系統(tǒng)運行穩(wěn)定性和結(jié)論可靠性具有重要意義。
泌尿系結(jié)石手術(shù)治療方式多樣,CT報告中結(jié)石征象對于治療決策的制訂有重要價值,臨床醫(yī)師常綜合分析CT征象和其它臨床信息來選擇手術(shù)方式。既往CT影像研究的關(guān)注點多為結(jié)石成分分析[3]、特殊結(jié)石的影像表現(xiàn)[4]等,但患者手術(shù)治療前更需綜合評估其影像表現(xiàn),以幫助臨床醫(yī)師制訂手術(shù)計劃。本研究擬通過NLP技術(shù)來分析CT報告中泌尿系結(jié)石的征象,評估各征象與手術(shù)方式的相關(guān)性,并以專家人工分析為參照標準來驗證NLP的診斷結(jié)果,旨在初步探討NLP對結(jié)石術(shù)式選擇的預(yù)測效能。
1.研究對象
回顧性分析2014年1月-2016年9月在我院住
表1 不同手術(shù)組結(jié)石CT定量特征的比較
院并接受手術(shù)治療的泌尿系結(jié)石患者的病例資料,共搜集連續(xù)379例患者(392個結(jié)石)的數(shù)據(jù),對其CT報告及臨床病歷文本資料分別進行拆分歸檔,完成NLP分析和人工分析。本組患者接受的手術(shù)方式有4種:經(jīng)皮腎鏡碎石術(shù)(percutaneous nephrolithotripsy,PNL),輸尿鏡碎石術(shù)(ureteroscopic lithotripsy,URL),輸尿管軟鏡碎石術(shù)(retrograde intrarenal surgery,RIRS),多種手術(shù)方式聯(lián)合使用。以上4組納入研究的結(jié)石特征數(shù)分別為140、180、39和33個,共計392個。
2.NLP分析方法
首先,按CT報告、出院小結(jié)對文本資料進行拆分預(yù)處理,錄入Excel表格構(gòu)建數(shù)據(jù)挖掘的訓(xùn)練數(shù)據(jù)集。既而,構(gòu)建基于連續(xù)n個相鄰詞語組成的小片段(ngram)的決策樹來分析上述預(yù)處理文本,識別每份自由文本特定部分(如影像表現(xiàn)和診斷結(jié)論等)來創(chuàng)建詞袋并統(tǒng)計相關(guān)詞頻,以此構(gòu)建特征向量。對頻數(shù)相同且互為包含關(guān)系的小片段,結(jié)合專家建議僅保留具有最長字節(jié)者,由此篩選具有完整語義的屬性,完成特征提取和特征加工環(huán)節(jié)。最后,系統(tǒng)通過機器學(xué)習(xí)推導(dǎo)并制定原則,判斷目標概念是否可推導(dǎo)出相應(yīng)手術(shù)方式,實現(xiàn)CT報告中結(jié)石征象與手術(shù)方式的相關(guān)性分析。
3.專家人工分析方法
由三位有經(jīng)驗的影像診斷醫(yī)師,經(jīng)過文獻復(fù)習(xí)及協(xié)商,確定對CT報告的文本材料進行信息提取[5-8],主要包括:結(jié)石左右位置、結(jié)石上下位置、結(jié)石大小、CT值、梗阻積水程度、輸尿管擴張、輸尿管壁增厚、腎盂擴張、輸尿管周索條、腎周索條和腎臟增大等,對其中部分項目進行編碼以便于統(tǒng)計計數(shù)或等級資料(如梗阻積水程度按四級標記:0=無、1=輕度、2=中度、3=重度)。前兩次信息采集均由兩位醫(yī)師配合,采取一人閱讀另一人記錄的方式,并記錄診斷用時和誤讀數(shù),分析兩次人工分析結(jié)果的一致性。第三次由另一位高年資醫(yī)師針對前兩者記錄的不一致項目重新閱讀,將其判斷結(jié)果作為最終結(jié)論,完成與臨床手術(shù)方式的相關(guān)性分析,以此作為專家標準來驗證NLP預(yù)測手術(shù)方式的效能。
4.統(tǒng)計學(xué)分析
使用SPSS 18.0軟件,對計量資料采用均值±標準差表示,所有數(shù)據(jù)均采用Shapiro-Wilkins檢驗來驗證其是否服從正態(tài)分布。人工分析報告中兩位閱片者的一致性分析采用Kappa檢驗,Kappa值<0.42為一致性差,0.4≤Kappa值<0.75為一致性良好,Kappa值≥0.75為一致性非常好。采用Spearman相關(guān)分析評估結(jié)石征象的關(guān)鍵信息在各手術(shù)方式間的差異,并得出相關(guān)系數(shù)。采用非參數(shù)Kruskal-Wallis H檢驗比較各組計量資料的差異,若差異有統(tǒng)計學(xué)意義,則采用非參數(shù)秩和檢驗(Mann-Whitney U)進行兩兩比較。P<0.05為差異有統(tǒng)計學(xué)意義。
對379例患者的392個結(jié)石特征進行專家分析。NLP處理時,因部分數(shù)據(jù)信息不完整被刪除,故NLP最終處理了371個結(jié)石的特征。
1.NLP評估結(jié)果
利用分詞技術(shù),構(gòu)建詞袋向量,對每一份醫(yī)療文檔構(gòu)建詞袋詞頻,并構(gòu)建特征向量。將患者的手術(shù)方式進行分類。利用決策樹方法,來觀察臨床醫(yī)師可能的決策過程。
本研究中NLP提取出“結(jié)石”、“炎癥”、“輸尿管形態(tài)”的文字描述與手術(shù)方式的選擇有較強的相關(guān)性。十字交叉驗證結(jié)果顯示,NLP分類診斷符合率為0.456,ROC下面積為0.608。
2.專家評估結(jié)果
根據(jù)文獻[5-8]建議及本單位專家共識,對每個結(jié)石的CT特征提取11類關(guān)鍵信息,合計應(yīng)提取4312項,缺失1303項,最后3009項納入分析。兩位醫(yī)師統(tǒng)計分析病例的特征信息分別用時302和350min。復(fù)核后,兩位醫(yī)師提取的信息錯誤分別為13項和17項(主要為CT值誤讀、結(jié)石上下位置分類錯誤等),兩位閱片者間的一致性差(Kappa=0.062,P=0.001)。
四種手術(shù)方式組中結(jié)石定量特征的測量結(jié)果見表1。各組間結(jié)石CT值的差異無統(tǒng)計學(xué)意義(H=7.186,P=0.066)。而結(jié)石直徑的差異有統(tǒng)計學(xué)意義(H=101.042,P<0.001);進一步兩兩比較,僅RIRS組與聯(lián)合手術(shù)組之間結(jié)石直徑的差異無統(tǒng)計學(xué)意義(Z=-0.540,P=0.589),其它各組間結(jié)石直徑的差異均有統(tǒng)計學(xué)意義(P<0.05):PNL組、RIRS組和聯(lián)合手術(shù)組中結(jié)石直徑均大于URL組,差異有統(tǒng)計學(xué)意義(P=0.000~0.025)。
Spearman相關(guān)系數(shù)分析結(jié)果見表2?!敖Y(jié)石上下位置”、“輸尿管壁增厚”、“腎周索條”及“結(jié)石大小(最大徑)”與手術(shù)方式具有弱相關(guān)關(guān)系(r=0.192、-0.285、-0.318和-0.359,P<0.05),但“腎周索條”這一征象的數(shù)據(jù)存在較大缺失(缺失率為89.5%)。其它征象與手術(shù)方式均無明確相關(guān)性(r=-0.003~-0.092)。此外在各手術(shù)分組中,部分具有弱相關(guān)性的CT征象,其陽性征象的頻數(shù)分布也具有一定規(guī)律(表3)??傮w觀察,納入研究的陽性征象占有效案例的比值分別為:結(jié)石上下位置386/392、腎周索條影37/41、輸尿管壁增厚196/229。具體而言,PNL組、RIRS組及聯(lián)合手術(shù)組中,結(jié)石多發(fā)于腎臟(分別占62.3%、71.1%、53.2%),且均以腎盂為主(分別占53.6%、39.5%、31.3%);URL組中以多發(fā)輸尿管結(jié)石為主(占80.4%),且以輸尿管上段和下段最為常見(分別占30.9%、32.6%),腎結(jié)石僅占11.2%。腎周索條和輸尿管管壁增厚的描述均以URL組最為多見(分別占48.6%和50.0%),RIRS組出現(xiàn)頻率最低(分別為2.7%、8.7%)。
表2 結(jié)石CT特征與手術(shù)方式的相關(guān)性
注:*有統(tǒng)計學(xué)意義的弱相關(guān)關(guān)系(P<0.05)。
表3 與手術(shù)方式有弱相關(guān)的CT征象描述比較 (例)
注:括號內(nèi)為百分數(shù)(%)。
3.NLP與人工分析結(jié)果的比較
兩種分析方法均提示結(jié)石CT特征中,與手術(shù)方式相關(guān)性較強的為“結(jié)石(大小、位置)”、“炎癥(輸尿管壁增厚、腎周索條)”和“輸尿管形態(tài)”。NLP結(jié)果與人工統(tǒng)計的關(guān)鍵征象基本類似,但具體描述略有不同,NLP結(jié)果較為概括,而人工分析結(jié)果則具體到結(jié)石大小和上下位置、輸尿管壁和腎周索條的描述。
泌尿系結(jié)石是常見病、多發(fā)病,發(fā)病部位可位于腎臟、輸尿管、膀胱及尿道任何部位,以腎臟和輸尿管最為多見。CT檢查對確診泌尿系結(jié)石及術(shù)前指導(dǎo)制定治療方案具有重要作用,可精確提示結(jié)石大小、數(shù)量、形態(tài)及發(fā)生部位,并能顯示集合系統(tǒng)積水擴張、炎性反應(yīng)等繼發(fā)征象[5-8]。目前結(jié)石的治療方式多樣,泌尿外科醫(yī)師往往結(jié)合臨床多種信息對最終治療方案采取主觀的多因素分析。本研究通過NLP提取出了CT報告中與手術(shù)相關(guān)性較強的結(jié)石特征,以期了解臨床醫(yī)生可能的決策過程,并以專家分析結(jié)果驗證了其效能。
NLP技術(shù)在影像醫(yī)學(xué)領(lǐng)域的潛在價值正得到越來越多的關(guān)注,有望改變傳統(tǒng)影像醫(yī)學(xué)工作模式并對其它臨床領(lǐng)域產(chǎn)生推動作用。雖然各類NLP資源的臨床應(yīng)用目的和實際操作流程有一定區(qū)別,但文本特征提取與加工、系統(tǒng)訓(xùn)練和驗證等關(guān)鍵流程的原理是基本類似的。NLP構(gòu)建過程中的訓(xùn)練驗證通常有兩種方式:參考集驗證或交叉驗證[9-10]。前者數(shù)據(jù)通常來自該領(lǐng)域?qū)<遗凶x并標注某種疾病后形成的具有一定規(guī)模的數(shù)據(jù)集樣本,而這種標注大部分是以二元形式存在(如特定征象有無等),但也可以自由文本形式出現(xiàn)(如規(guī)范的報告語句、特定概念或定量數(shù)值描述)。后者的數(shù)據(jù)集常被分割為若干等份子集,其中一份作為測試數(shù)據(jù),剩余部分為訓(xùn)練數(shù)據(jù),子集輪流替換完成迭代驗證再求均值,作為對相關(guān)算法準確性的估計。本研究中NLP構(gòu)建過程中所用的“十折交叉驗證”即為此類驗證方法的典型代表,而人工提取關(guān)鍵征象并做相關(guān)性分析則可視為前者的具體運用。
在本研究中NLP分析結(jié)果與專家分析結(jié)果相近,其關(guān)鍵詞均涉及“結(jié)石”、“炎癥”以及“輸尿管形態(tài)”,雖然未涉及到具體的形態(tài)、位置以及周邊炎性表現(xiàn)描述,但其分析效能也可得到肯定。本研究NLP提取的手術(shù)相關(guān)特征,不僅得到本組專家人工結(jié)果的驗證,也與既往類似人工研究的結(jié)果相似,在臨床手術(shù)治療結(jié)石的決策環(huán)節(jié),結(jié)石大小和位置都為術(shù)式選擇的重要依據(jù)[5-8]。
近年來國外有研究者對NLP處理和人工分析的效能進行了對比,驗證了其敏感度和特異度均在90%左右[9-11],并且性能不因醫(yī)學(xué)試驗?zāi)康?、軟件資源等因素的不同而表現(xiàn)出顯著差異,其運行表現(xiàn)出良好的穩(wěn)定性。此外,與人工統(tǒng)計相比,NLP不僅可以快速、精準地完成數(shù)據(jù)挖掘等任務(wù),還可隨著驗證參考集的更新、機器學(xué)習(xí)算法及驗證算法的不斷改進而不斷表現(xiàn)出更高的效能,有良好的可擴展性[12]。
然而,NLP在臨床醫(yī)學(xué)工作中尤其是醫(yī)學(xué)影像領(lǐng)域的應(yīng)用仍需改進,其構(gòu)建過程尚不明晰[1-2]。在目標數(shù)據(jù)集選擇、數(shù)據(jù)預(yù)處理、特殊數(shù)據(jù)挖掘匹配、模式的解釋和評估等流程中,均可因能因IT操作者對醫(yī)學(xué)領(lǐng)域先驗知識理解程度、數(shù)據(jù)挖掘算法選擇以及訓(xùn)練驗證數(shù)據(jù)集的不同而使分析結(jié)果發(fā)生一定變化。在本組NLP的初步探索中,也有類似的局限性。首先,在臨床工作中真實數(shù)據(jù)與“理想”數(shù)據(jù)存在一定差距[13],當出現(xiàn)缺失少量信息或前后信息不完全一致的情況時,在人工分析過程中,這些有瑕疵的數(shù)據(jù)可被專家根據(jù)經(jīng)驗進行識別和糾正,從而可被納入研究中;但NLP對此類瑕疵數(shù)據(jù)的識別仍有困難,故本組NLP研究的病例少于人工研究的數(shù)量(371 vs 392),但通常不影響最終結(jié)果的一致性[14]。其次,NLP分析的關(guān)鍵詞中“炎癥”并非標準的影像學(xué)征象術(shù)語,這可能與NLP系統(tǒng)在機器學(xué)習(xí)過程中操作者設(shè)計的算法規(guī)則有一定關(guān)聯(lián)。第三,雖然專家人工分析結(jié)果可視為NLP效能評價的參考標準,但因本研究無法明確選出合適的陽性指標或正常值上限,因此并不適合做診斷試驗評價,無法量化NLP評價的敏感度和特異度等評價指標。
因此,針對本組研究問題的NLP仍可進一步改進。本組CT報告中,部分征象的缺失數(shù)量過多造成結(jié)果可能出現(xiàn)一定偏差,這與既往使用文本式報告、內(nèi)容完整性不能保障有關(guān),未來可以使用結(jié)構(gòu)式報告的數(shù)據(jù)來進行NLP研究[15-16],在數(shù)據(jù)質(zhì)量明顯提高的情況下,NLP的效能有可能進一步提高。其次,本研究僅對CT報告的文本進行了分析,如能導(dǎo)入醫(yī)院信息系統(tǒng)(hospital information system,HIS)中全部醫(yī)療數(shù)據(jù),在增加臨床信息的基礎(chǔ)上,有可能會對NLP的效能進一步改進。最后,本研究回顧性分析了CT征象與手術(shù)的相關(guān)性,試圖以“相關(guān)關(guān)系”來預(yù)測手術(shù)方式的選擇,以期了解臨床醫(yī)師的決策思路?,F(xiàn)階段此種研究方案的設(shè)計有一定的科學(xué)性,也與當前大多數(shù)同類型研究使用的方法相同。但NLP的最終用途應(yīng)是輔助決策,故將來應(yīng)在優(yōu)質(zhì)數(shù)據(jù)、優(yōu)效NLP的基礎(chǔ)上開展前瞻性研究,才能真正驗證以NLP輔助決策選擇手術(shù)方法的實際效能。隨著NLP技術(shù)的完善,未來有望在影像診斷結(jié)構(gòu)式報告書寫過程中,系統(tǒng)后臺同時提取患者其他相關(guān)臨床信息,結(jié)合醫(yī)師錄入(或系統(tǒng)自動提取)的圖像特征,在出具診斷報告的同時,為臨床決策提供可行的指導(dǎo)建議。
綜上所述,NLP可提取泌尿系結(jié)石的關(guān)鍵CT特征,預(yù)測手術(shù)方式的結(jié)果與專家評估結(jié)果類似,其預(yù)測效能得到初步肯定。NLP對輔助制訂臨床決策具有潛在的應(yīng)用價值,值得進一步研究。
[1] Cai T,Giannopoulos AA,Yu S,et al.Natural language processing technologies in radiology research and clinical applications[J].Radiographics,2016,36(1):176-191.
[2] Pons E,Braun LM,Hunink MG,et al.Natural language processing in radiology:a systematic review[J].Radiology,2016,279(2):329-343.
[3] 范兵,王霄英,邱建星,等.能譜CT有效原子序數(shù)對泌尿系結(jié)石成分的診斷價值[J].實用放射學(xué)雜志,2012,28(9):1400-1403.
[4] 侯振洲,董鳳群,王霄英,等.三聚氰胺致泌尿系統(tǒng)結(jié)石的CT表現(xiàn)[J].中華放射學(xué)雜志,2009,43(4):390-393.
[5] Kambadakone AR,Eisner BH,Catalano OA,et al.New and evolving concepts in the imaging and management of urolithiasis:urologists' perspective[J].RadioGraphics,2010,30(3):603-623.
[6] Eisner BH,McQuaid JW,Hyams E,et al.Nephrolithiasis:what surgeons need to know[J].AJR,2011,196(6):1274-1278.
[7] Cheng PM,Moin P,Dunn MD,et al.What the radiologist needs to know about urolithiasis:Part 1:pathogenesis,types,assessment,and variant anatomy[J].AJR,2012,198(6):540-547.
[8] Cheng PM,Moin P,Dunn MD,et al.What the radiologist needs to know about urolithiasis:Part 2:CT findings,reporting,and treatment[J].AJR,2012,198(6):548-554.
[9] Do BH,Wu AS,Maley J,et al.Automatic retrieval of bone fracture knowledge using natural language processing[J].J Digit Imaging,2013,26(4):709-713.
[10] Sevenster M,Bozeman J,Cowhy A,et al.Automatically pairing measured findings across narrative abdomen CT reports[D].AMIA Annu Symp Proc,2013:1262-1271.PMCID:PMC3900143.
[11] Sevenster M,van Ommering R,Qian Y.Automatically correlating clinical findings and body locations in radiology reports using MedLEE[J].J Digit Imaging,2012,25(2):240-249.
[12] Sevenster M,Buurman J,Liu P,et al.Natural language processing techniques for extracting and categorizing finding measurements in narrative radiology reports[J].Appl Clin Inform,2015,6(3):600-110.
[13] Duszak R Jr,Nossal M,Schofield L,et al.Physician documentation deficiencies in abdominal ultrasound reports:frequency,characteristics,and financial impact[J].J Am Coll Radiol,2012,9(6):403-408.
[14] Lakhani P,Kim W,Langlotz CP.Automated extraction of critical test values and communications from unstructured radiology reports:an analysis of 9.3 million reports from 1990 to 2011[J].Radiology,2012,265(3):809-818.
[15] 秦岫波,王蕊,高歌,等.前列腺多參數(shù)MRI報告進展:基于第2版前列腺影像報告和數(shù)據(jù)系統(tǒng)的結(jié)構(gòu)式報告的構(gòu)建[J].腫瘤影像學(xué),2016,25(2):111-116.
[16] 王可,劉慶,郭小超,等.肝癌影像報告進展:基于LI-RADS的結(jié)構(gòu)式報告[J].肝癌電子雜志,2016,3(1):26-31.
Natural language processing techniques for extracting CT features of urinary calculi:a comparative study with expert diagnostic results
MA Shuai,WU Jing-yun,LIU Yi,et al.
Department of Radiology,Peking University First Hospital,Beijing 100034,China
Objective:To study the value of natural language processing techniques (NLP) for extracting CT characteristics of urinary calculi.Methods:CT reports of 379 consecutive patients with urinary calculi (n=392) proved by surgery were retrospectively analyzed.CT characteristics of urinary calculi were extracted using NLP method and experts manual delineation.Analytical process of NLP:combined with manual correction,text information was extracted and processed using NLP technique;through machine learning,principles were deduced and established,and then the key features of calculi were determined and their prediction efficacy for surgical methods were judged by cross-validations.Analytical process of experts:CT features were extracted by three radiologists and their correlation with different surgical options was analyzed.Results:The key features extracted by NLP were:calculus,inflammation and morphology of ureter,with the prediction value of 0.456,area under ROC curve of 0.608.The key features extracted by experts were calculus position,perinephric stranding,ureter wall thickening and calculus size with correlation of surgical methods (r=0.192,-0.381,-0.285,and -0.359,respectively;P<0.05).Conclusion:The key CT features of calculi relating to surgical approach determined by NLP are similar to those determined by experts with affirmative predictive value for surgical approach.
Natural language processing; Urinary calculus; Data mining; Medical imaging informatics
100034 北京,北京大學(xué)第一醫(yī)院醫(yī)學(xué)影像科(馬帥、吳靜云、劉義、姜健、王霄英);200233 上海,飛利浦中國研究院(李作峰、施雅慧、李俊博、魏娟)
馬帥(1987-),男,山東慶云人,博士研究生,主要從事影像診斷研究工作。
王霄英,E-mail:cjr.wangxiaoying@vip.163.com
R814.42; R693.4
A
1000-0313(2016)12-1151-04
10.13609/j.cnki.1000-0313.2016.12.010
2016-10-20
2016-11-05)