亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于電子病歷的乳腺癌群組與治療方案可視分析

        2021-07-21 06:08:40徐敏王科戴浩然羅曉博余煒倫陶煜波林海
        關(guān)鍵詞:特征分析

        徐敏,王科,戴浩然,羅曉博,余煒倫,陶煜波,林海

        (1.浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院 醫(yī)工信息部,浙江杭州310003;2.浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院 乳腺外科,浙江杭州310003;3.浙江大學(xué)CAD&CG國家重點(diǎn)實(shí)驗(yàn)室,浙江杭州310058)

        隨著醫(yī)院信息系統(tǒng)的不斷完善和數(shù)字醫(yī)療設(shè)備的普及,電子病歷數(shù)據(jù)海量增長,這為疾病的診斷和治療提供了大數(shù)據(jù)支持,但其復(fù)雜性也給數(shù)據(jù)分析帶來了挑戰(zhàn)。如何以直觀的方式分析電子病歷數(shù)據(jù),挖掘其隱含的知識(shí)和關(guān)系,輔助醫(yī)生診斷和治療,是目前醫(yī)學(xué)信息應(yīng)用領(lǐng)域的重要研究方向之一。

        當(dāng)前的電子病歷系統(tǒng)僅含信息展示、匯總和篩選等初級(jí)功能,不具有數(shù)據(jù)深層次挖掘和呈現(xiàn)功能。醫(yī)生只能結(jié)合自己的醫(yī)學(xué)知識(shí)和經(jīng)驗(yàn),經(jīng)手動(dòng)篩選對(duì)比了解病人病情的發(fā)展模式和關(guān)聯(lián)關(guān)系,這不僅步驟煩瑣、易丟失信息,且誤差較大,既增加了數(shù)據(jù)分析的難度,也影響分析結(jié)果的準(zhǔn)確性。

        電子病歷是一種非結(jié)構(gòu)化數(shù)據(jù),在機(jī)器學(xué)習(xí)領(lǐng)域已有眾多針對(duì)該類數(shù)據(jù)的模型和算法,可有效分析患者數(shù)據(jù)。然而,由于電子病歷數(shù)據(jù)的多元性和高維性,如何直觀地呈現(xiàn)原始數(shù)據(jù)并分析其結(jié)果成為另一難點(diǎn)??梢暬夹g(shù)結(jié)合多樣的圖表和豐富的交互,從不同的抽象層次展現(xiàn)數(shù)據(jù),是解決上述問題的有效方法。為此,本文利用機(jī)器學(xué)習(xí)模型先分析電子病歷數(shù)據(jù),再通過可視化技術(shù)展示分析結(jié)果,旨在幫助醫(yī)生直觀地發(fā)現(xiàn)患者數(shù)據(jù)中隱含的信息。

        乳腺癌是女性中最常見的惡性腫瘤之一,其發(fā)病率一直居高不下,并呈年輕化趨勢(shì)。對(duì)乳腺癌相關(guān)的電子病歷數(shù)據(jù)進(jìn)行分析,有助于有效制訂治療規(guī)劃和進(jìn)行預(yù)后分析。因此,本文以乳腺癌患者的電子病歷為研究數(shù)據(jù),基于數(shù)據(jù)特征挖掘相似病人,幫助醫(yī)生分析不同病人臨床特征間的相關(guān)性。

        本文的主要貢獻(xiàn)有:

        (1)利用降維聚類算法挖掘相似病人群組;

        (2)利用可視化技術(shù)展示用戶驅(qū)動(dòng)的分析結(jié)果,幫助醫(yī)生分析不同病人間臨床特征的相關(guān)性;

        (3)基于特征相關(guān)性,探索不同屬性與治療方案的關(guān)系,提供治療方案預(yù)測(cè),輔助術(shù)前決策,提高診斷效率和治療效果。

        1 相關(guān)工作

        有關(guān)醫(yī)療數(shù)據(jù)的可視分析研究已取得一系列成果,本節(jié)介紹電子病歷數(shù)據(jù)挖掘和電子病歷可視化的相關(guān)工作。

        1.1 電子病歷數(shù)據(jù)挖掘

        電子病歷為一種非結(jié)構(gòu)化數(shù)據(jù),包括病人的結(jié)構(gòu)化屬性和非結(jié)構(gòu)化的文字描述,具有多元性和高維性特征,相較紙質(zhì)病歷,電子病歷具有易存儲(chǔ)和方便查詢的特點(diǎn)。多元性是指數(shù)據(jù)類型較多,如性別屬于類別型數(shù)據(jù),而年齡屬于數(shù)值型數(shù)據(jù);高維性是指數(shù)據(jù)維度較高,記錄了每位病人的多個(gè)屬性值,如血壓、血糖等。通過挖掘電子病歷數(shù)據(jù),試圖提取結(jié)構(gòu)化的醫(yī)學(xué)概念,包括疾病種類、治療方法和發(fā)展模式等,以幫助醫(yī)生制訂治療方案,提高診斷效率。

        由于數(shù)據(jù)的多元性和高維性,需利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法從復(fù)雜的電子病歷數(shù)據(jù)中提取信息。JAGANNATHA等[1]將概念提取問題視為序列標(biāo)記任務(wù),探索了多種基于RNN特征提取的結(jié)構(gòu)學(xué)習(xí)方法,其目標(biāo)是為臨床病歷中的每個(gè)關(guān)鍵實(shí)體單詞分配相關(guān)的標(biāo)簽;CHOI等[2]利用word2vec模型將電子病歷中的一些臨床概念轉(zhuǎn)化為高維向量,然后用這些向量表示病人,并將其作為下游學(xué)習(xí)任務(wù)的輸入;LI等[3]使用2層神經(jīng)網(wǎng)絡(luò)識(shí)別骨質(zhì)疏松癥,并通過模型重建確定影響骨質(zhì)疏松癥的最高風(fēng)險(xiǎn)因素;LIN等[4]提出一種主動(dòng)學(xué)習(xí)算法,基于用戶的反饋,迭代式識(shí)別表征數(shù)據(jù)中的稀有類別,實(shí)現(xiàn)個(gè)性化醫(yī)療。

        本文在數(shù)據(jù)處理階段用聚類和降維算法提取群組特征,利用SVM模型預(yù)測(cè)治療方案,以幫助醫(yī)生分析屬性和結(jié)果間的聯(lián)系。

        1.2 電子病歷可視化

        電子病歷可視化系統(tǒng)TimeLines[5]將不同病人的數(shù)據(jù)以及醫(yī)療行為展示在時(shí)間軸上。在使用時(shí)可通過點(diǎn)擊醫(yī)療事件了解詳細(xì)信息。受此工作啟發(fā),PLAISAN等[6]進(jìn)一步設(shè)計(jì)了LifeLines,用線段表示醫(yī)療事件的持續(xù),用不同顏色標(biāo)識(shí)病人的(正?;虍惓#顟B(tài),以便醫(yī)生更好地掌握治療過程和治療效果。為支持對(duì)不同時(shí)間粒度和不確定性的醫(yī)療事件可視化,COMBI等[7]用更多符號(hào)更精細(xì)地表示事件的時(shí)間信息,如最小持續(xù)時(shí)間等,并提供了附加視圖以展示不同事件的時(shí)間關(guān)系;ORDONEZ等[8]用2個(gè)星形坐標(biāo)圖顯示病人12個(gè)指標(biāo)的變化情況,以每30 min為1個(gè)時(shí)間間隔,將同一時(shí)間不同指標(biāo)用連線繪制成一個(gè)多邊形,并用動(dòng)畫和不同顏色直觀展示指標(biāo)、身體器官及其關(guān)系。

        早期的電子病歷可視化研究主要側(cè)重于展示單個(gè)病人的記錄。相對(duì)于文本記錄而言,其增加了圖形編碼和簡(jiǎn)單的交互,醫(yī)生可直觀地查看病人信息。但隨著信息技術(shù)的發(fā)展和電子病歷數(shù)據(jù)的大量累積,僅展示單個(gè)病人的數(shù)據(jù)已無法滿足醫(yī)生查找病人之間的相關(guān)性、尋找最優(yōu)治療方案的需求。因此,開始關(guān)注病人群體的信息挖掘和可視分析。

        時(shí)間信息是電子病歷數(shù)據(jù)中一類極為重要的特征,大量研究均將患者的時(shí)間記錄視為時(shí)間事件序列 進(jìn) 行 分 析。WANG等[9]基 于LifeLines、LifeLines2,在時(shí)間軸展示的基礎(chǔ)上增加了比較功能,并通過對(duì)齊、排序和過濾操作強(qiáng)調(diào)時(shí)間順序,以幫助醫(yī)生分析病情的發(fā)展趨勢(shì);MALIK等[10]設(shè)計(jì)了病人群組比較可視分析系統(tǒng)CoCo,利用自動(dòng)統(tǒng)計(jì)數(shù)據(jù)算法,在用戶驅(qū)動(dòng)的分析策略下探索不同病人群組之間的異同;RetainVis[11]允許醫(yī)生改變序列中的醫(yī)療事件,如添加、編輯和刪除,進(jìn)行假設(shè)分析,以支持診斷風(fēng)險(xiǎn)預(yù)測(cè);此外,事件序列查詢[12]和推薦[13]等工作也為電子病歷數(shù)據(jù)的進(jìn)一步探索提供了技術(shù)支持;與時(shí)間事件序列分析不同,AALIM[14]視電子病歷數(shù)據(jù)為多模式數(shù)據(jù),將文本、影像和音頻數(shù)據(jù)的定量分析集成為一個(gè)系統(tǒng),首次提出利用病人記錄的相似性實(shí)現(xiàn)輔助診斷的思想。這一思想也是本文分析相似病人群組的基礎(chǔ)。

        2 數(shù)據(jù)與任務(wù)

        病人在醫(yī)院的經(jīng)歷主要包括早期篩查檢查階段和確診后治療階段。電子病歷詳細(xì)記錄了病人在醫(yī)院的各個(gè)過程,如入院記錄、檢查結(jié)果、手術(shù)記錄與出院記錄等。

        2.1 數(shù) 據(jù)

        乳腺影像報(bào)告和數(shù)據(jù)系統(tǒng)(breast imaging reporting and data system,BI-RADS)分類法是目前主要的乳腺癌評(píng)估分級(jí)方法,0~6分別表示乳腺癌的嚴(yán)重程度,其含義如表1所示。

        輔助檢查主要包括:

        (1)乳腺鉬靶檢查和乳腺X光檢查,包括檢查體位、乳腺分型、乳腺影響、腫塊大小等,描述影像的信息有腫塊大小、腫塊定位、鈣化的分布和程度等。

        (2)乳腺超聲檢查,主要包含異常和病灶的聲像圖描述,如病灶位置、外形、大小、周圍組織與邊界等,此外,也包含醫(yī)生對(duì)該病灶的結(jié)論,如分級(jí)及處理建議等。

        (3)乳腺磁共振,包含既往病史與檢查結(jié)果對(duì)比、影像發(fā)現(xiàn)描述與乳腺組織構(gòu)成、評(píng)估類別和處理建議,也包含對(duì)病灶的形狀與位置的相關(guān)描述。

        (4)免疫組化結(jié)果,用于評(píng)估乳腺組織的浸潤狀態(tài),判斷癌癥類型,幫助選擇治療方案,評(píng)估預(yù)后;檢測(cè)結(jié)果中包含激素受體(ER)、孕激素受體(PR)、Ki-67抗體、CK5/6抗體、P63抗體、calponin抗體、CerbB-2抗原、P120蛋白、E-Cadherin蛋白等屬性。

        (5)病理報(bào)告,描述腫塊大小、淋巴結(jié)陰陽性、病理組織學(xué)分級(jí)與類型、手術(shù)方案等,腫塊大小以2 cm和4 cm為界,分為三類;病理組織學(xué)分為I~Ⅲ級(jí),分級(jí)越高惡性程度越高;淋巴結(jié)陰性表示未轉(zhuǎn)移,陽性表示轉(zhuǎn)移。

        2.2 任務(wù)描述

        醫(yī)生及醫(yī)學(xué)研究人員希望能串聯(lián)眾多檢查數(shù)據(jù),通過分析不同患者各項(xiàng)屬性的異同,找到共性;用電子病歷數(shù)據(jù)驗(yàn)證在臨床實(shí)踐中得到的與乳腺癌病理狀態(tài)與預(yù)后相關(guān)的特征,例如,用計(jì)算特征的相關(guān)性或p值確定關(guān)聯(lián)度;同時(shí),希望利用機(jī)器學(xué)習(xí)算法自動(dòng)分析相關(guān)數(shù)據(jù),在診治過程中給予幫助,如探索屬性對(duì)治療方案的影響,以提高決策正確率。

        任務(wù)描述:

        ?T 1特征相關(guān)性分析,疾病的各特征間存在相關(guān)性,如同時(shí)升高或下降,每個(gè)特征對(duì)疾病的重要性也各不相同,因此分析特征間的關(guān)系有助于更好地了解疾病及其治療方案。

        ?T 2構(gòu)建不同的病人群組,相似病人具有相似的癥狀及治療方案,對(duì)所有病人構(gòu)建不同的病人群組,以便分析疾病的類型和特征。

        ?T 3群組之間的分析與比較,可視比較和分析不同病人群組的異同,特別是特征上的差異,有助于更好地了解疾病病程和選擇治療方案。

        ?T 4治療方案預(yù)測(cè),基于病人當(dāng)前的特征,構(gòu)建機(jī)器學(xué)習(xí)模型,預(yù)測(cè)治療結(jié)果。

        ?T 5展示病人詳細(xì)情況,展示病人的電子病歷數(shù)據(jù)及其原始診療報(bào)告,以便驗(yàn)證結(jié)論。

        基于上述任務(wù),本文設(shè)計(jì)了乳腺癌的相似病人群組可視分析和治療方案系統(tǒng)。

        3 相似病人群組的可視分析

        用戶對(duì)病人群組的交互探索從特征的選擇開始,系統(tǒng)界面如圖1所示。首先,選擇感興趣的特征,然后,選擇對(duì)病人群組生成的聚類方法和特征降維算法;之后,根據(jù)用戶的選擇,系統(tǒng)將生成相應(yīng)的結(jié)果并展示在對(duì)應(yīng)的視圖中,用戶通過點(diǎn)擊、框選等交互方式探索不同群組間的關(guān)系,查看單個(gè)病人的縱向病史以及詳細(xì)病歷。

        表1 BI-RADS分類法Table 1 BI-RADS taxonomy

        3.1 聚類散點(diǎn)圖

        電子病歷數(shù)據(jù)呈高維特征,首先需做降維處理,降為低維空間后再進(jìn)行聚類,以尋找相似病人群組。為可視化展示降維與聚類結(jié)果,本文用散點(diǎn)圖中的點(diǎn)表示病人,并用不同顏色編碼病人所屬的群組。散點(diǎn)圖中的坐標(biāo)表示高維特征降為二維后的坐標(biāo)值。用戶可以在二維空間中通過散點(diǎn)圖洞察病人之間的集聚程度(T 2)。

        本文選擇多維縮放(multi-dimensional scaling,MDS)[15-17]算法將病人的高維屬性降為二維。在降維過程中,盡量保持原空間中的距離關(guān)系不變。MDS算法用幾何空間(歐氏空間或高維空間)距離計(jì)算病人之間的相似性,距離越近兩個(gè)點(diǎn)越相似。在此過程中,盡可能使距離關(guān)系保持單調(diào)與相似。

        經(jīng)MDS降維后,將病人情況顯示在二維空間坐標(biāo),選擇K-means等聚類算法進(jìn)一步分析,聚類散點(diǎn)圖將實(shí)時(shí)展現(xiàn)聚類過程,例如,在圖2中,(a)和(b)分別為選擇K-means算法聚為兩類和五類的結(jié)果。

        3.2 相似病人群組與群組比較

        在選擇聚類算法后,系統(tǒng)根據(jù)相似性將病人劃分為不同的群組。由于每個(gè)病人均由多維屬性表示,可利用南丁格爾圖可視化相似病人群組。如圖1(d)所示,每行代表一個(gè)群組,用玫瑰表示病人,每個(gè)花瓣表示病人的一個(gè)屬性。對(duì)于布爾類屬性,若擁有則顯示花瓣,反之則隱藏。對(duì)于數(shù)值屬性和類別屬性,用花瓣的長短表示,花瓣越長表示該病人在相應(yīng)屬性上數(shù)值越大。不同的屬性用不同的顏色展示,以便直觀感受病人間的差異(T 3)。

        圖1 系統(tǒng)界面Fig.1 System overview

        圖2 特征降維圖與聚類過程散點(diǎn)圖Fig.2 Feature reduction and clustering process scatter plots

        為便于比較不同病人群組間的差異,設(shè)計(jì)了群組比較直方圖。如圖1(e)所示,在選擇兩個(gè)病人群組后,群組比較直方圖將展示其在不同屬性上的統(tǒng)計(jì)信息。橫坐標(biāo)展示的為群組所具有的屬性,為方便區(qū)分,相鄰2個(gè)屬性用不同的背景色塊表示,分別統(tǒng)計(jì)每個(gè)屬性的不同數(shù)值區(qū)間,同一群組內(nèi)的屬性共享一致的色彩編碼,需要比較的是2個(gè)群組展示在橫坐標(biāo)上下兩側(cè)的數(shù)值??v坐標(biāo)表示屬于該區(qū)間的病人數(shù)與其歸屬群組中病人數(shù)占比(r),r值越大,表示在該群組中具有該區(qū)間屬性的病人越多。此設(shè)計(jì)有助于快速發(fā)現(xiàn)2個(gè)群組間的差異,挖掘感興趣的屬性與病人群組模式。當(dāng)醫(yī)生接待新病人時(shí),可通過搜索與病人最相似的群組獲取該類群組的特征,以幫助制訂治療方案。

        3.3 群組特征詞云與詞頻

        影像科醫(yī)生在檢查中會(huì)根據(jù)病人的癥狀及檢查結(jié)果做文字描述,以幫助乳腺科醫(yī)生了解病人病情。系統(tǒng)將從癥狀描述中提取主題,并用詞云進(jìn)行展示,如圖1(b)所示。詞云中的字體大小和位置表示主題特征詞在癥狀描述中出現(xiàn)的次數(shù),字體越大,表示出現(xiàn)頻率越高,且越靠近詞云中心。此外,用直方圖展示詞頻的具體數(shù)值,以輔助判斷特征詞的重要性,如圖1(c)所示。描述詞匯的直觀展示可幫助醫(yī)生了解病人的癥狀和比較不同群組之間的差異(T 3)。

        3.4 單個(gè)病人縱向時(shí)間軸

        通過訪問單個(gè)病人的縱向病史研究病人的病情進(jìn)展(T 5)。從南丁格爾圖中選擇病人后,由于病人的病史與診斷時(shí)間相關(guān),如圖1(f)所示,診斷時(shí)間軸圖根據(jù)時(shí)間順序從左到右展示病人所做的檢查及治療事件,橫軸展示的為發(fā)生的時(shí)間點(diǎn),縱軸展示該檢查或治療事件的類別。點(diǎn)表示病人在該時(shí)間點(diǎn)發(fā)生的醫(yī)療事件,用不同顏色編碼該時(shí)間點(diǎn)的事件類別,點(diǎn)擊該點(diǎn)可顯示原始病歷,如圖1(g)所示的病理診斷報(bào)告詳文,方便多層面對(duì)信息進(jìn)行分析。

        4 治療方案設(shè)計(jì)可視化

        基于乳腺癌電子病歷數(shù)據(jù)建立的預(yù)測(cè)模型,可根據(jù)患者屬性預(yù)測(cè)治療方案,如只提供預(yù)測(cè)結(jié)果,很難使用戶理解不同病人的屬性差異和特點(diǎn)。為解決此問題,本文設(shè)計(jì)了一個(gè)可視分析系統(tǒng),通過視圖和交互,幫助醫(yī)生分析病情和預(yù)測(cè)結(jié)果,輔助制訂治療方案。

        4.1 預(yù)測(cè)模型

        本文用支持向量機(jī)(support vector machine,SVM)分類方法預(yù)測(cè)治療方案(T 4)。SVM是解決二分類問題的分類模型,其基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,在樣本空間中尋找超平面分割樣本。

        4.2 平行坐標(biāo)

        特征關(guān)聯(lián)的平行坐標(biāo)圖用多個(gè)相互平行的縱軸表示不同的屬性,縱軸上的刻度表示其對(duì)應(yīng)屬性的值。將每個(gè)病人可視化為一條穿插于多個(gè)縱軸之間的曲線,其與不同縱軸的交點(diǎn)表示該病人在該屬性上的值,用不同的顏色區(qū)分類別的屬性或?qū)傩灾?。如圖3所示,系統(tǒng)用不同的顏色將表述患者病情嚴(yán)重程度的ER屬性值映射到曲線,如平行坐標(biāo)圖右側(cè)的色帶所示,曲線的顏色越紅表示病情越嚴(yán)重,越紫表示越輕緩(T 1)。

        圖3 特征關(guān)聯(lián)的平行坐標(biāo)Fig.3 Feature-related parallel coordinate

        4.3 矩陣熱力圖

        矩陣熱力圖可用于表示屬性權(quán)重。由于每個(gè)屬性在每個(gè)分類器中具有不同的權(quán)重,可自然地由矩陣表示。受此啟發(fā),本文采用矩陣熱力圖的形式展示各屬性在各個(gè)分類器中的權(quán)重,以幫助醫(yī)生快速觀察最相關(guān)的特征(T 4)。

        系統(tǒng)根據(jù)特征權(quán)重的數(shù)值進(jìn)行顏色編碼,如圖4所示,紅色表示特征權(quán)重為正值,顏色越深表示數(shù)值越大;藍(lán)色表示特征權(quán)重為負(fù)值,顏色越深表示數(shù)值越小。在矩陣熱力圖中,顏色越突出的方塊表明該屬性對(duì)該分類器的影響越大,反之則顏色與背景色越相近,此設(shè)計(jì)可提示醫(yī)生哪些是影響較大的屬性。同時(shí),可通過右側(cè)的色帶,設(shè)置矩陣熱力圖中展示權(quán)重區(qū)間的上界和下界,實(shí)現(xiàn)過濾操作,隱藏權(quán)重過小或?yàn)樨?fù)值的屬性,使醫(yī)生聚焦于感興趣的區(qū)間。

        圖4 分類權(quán)重矩陣熱力圖Fig.4 The heat map illustrates the classification weight matrix

        4.4 分類圖

        為幫助醫(yī)生分析預(yù)測(cè)模型的分類結(jié)果,設(shè)計(jì)了分類圖。由于在分析過程中,不僅需要對(duì)預(yù)測(cè)模型的整體表現(xiàn)有直觀的認(rèn)識(shí),也需要詳細(xì)分析不同病人的分類預(yù)測(cè)情況,系統(tǒng)用不同顏色區(qū)別治療方案,以列為類別聚集,每個(gè)小方格表示一個(gè)病人,方塊位置表示分類結(jié)果。

        圖5顯示了“乳房單側(cè)切除”這一類別的手術(shù)治療方案預(yù)測(cè)結(jié)果。左側(cè)的縱軸表示預(yù)測(cè)概率,“乳房單側(cè)切除”屬性作為一條縱軸將預(yù)測(cè)樣本劃分為左右2個(gè)區(qū)域,右側(cè)為預(yù)測(cè)正確樣本,左側(cè)為預(yù)測(cè)錯(cuò)誤樣本。每個(gè)方塊的顏色由表示該病人實(shí)際所屬的類別決定,顏色編碼規(guī)則展示在對(duì)應(yīng)圖例中。由此,分類器預(yù)測(cè)的精確度可由右側(cè)的方塊數(shù)得到,即為與縱軸顏色相同的方塊數(shù)與正確分類樣本數(shù)之比。此外,可通過方塊在概率預(yù)測(cè)縱軸上的分布洞察模型的準(zhǔn)確率,即越靠近頂部的方塊,預(yù)測(cè)正確率越高。通過這些設(shè)計(jì),可直觀感受預(yù)測(cè)模型的準(zhǔn)確率和精確度,也可通過點(diǎn)擊方塊獲取該病人的詳細(xì)信息,完成進(jìn)一步調(diào)查。

        圖5 預(yù)測(cè)結(jié)果分類圖Fig.5 The classification chart displays prediction results

        5 案例分析

        為驗(yàn)證系統(tǒng)的有效性和準(zhǔn)確性,選取與乳腺癌病人相關(guān)的電子病歷數(shù)據(jù)進(jìn)行輔助屬性分析、病理特征分析和治療方案設(shè)計(jì)評(píng)估。所用數(shù)據(jù)主要包括病理診斷報(bào)告、B超報(bào)告、磁共振(MRI)診斷報(bào)告、乳腺鉬靶診斷報(bào)告等,具體數(shù)據(jù)與數(shù)據(jù)量如表2所示。

        表2 電子病歷數(shù)據(jù)源Table 2 Dataset of electronic health record

        5.1 輔助屬性分析

        在輔助屬性分析上,醫(yī)生希望通過輔助檢查將病人劃分至已有的病人群組,供后續(xù)治療參考,或從病人群組中找到可幫助診療的分析結(jié)果。

        本案例采用MDS降維算法與K-Means聚類算法,針對(duì)表2中的病理診斷報(bào)告、B超報(bào)告、磁共振診斷報(bào)告和乳腺鉬靶診斷報(bào)告,將病人群組分為6類,降維和聚類結(jié)果如圖6所示。在降維和聚類過程中,由于算法具有隨機(jī)性,可通過交互調(diào)整算法中的參數(shù),如K-Means中的K值優(yōu)化結(jié)果。通過散點(diǎn)圖觀察降維和聚類結(jié)果是否符合預(yù)期(分布是否均勻,有無噪點(diǎn)),以便進(jìn)行后續(xù)分析。

        圖6 降維和聚類結(jié)果Fig.6 Clustering results after dimensionality reduction

        病人群組分類結(jié)果如圖7所示,同一群組中病人的南丁格爾圖較為相似,而不同群組之間則差異較大。群組1和群組2對(duì)應(yīng)的特征描述詞云如圖8所示,此有助于確認(rèn)2個(gè)群組間的差異。對(duì)總體樣本而言,囊性增生和淋巴結(jié)腫大是其主要特征;對(duì)群組1而言,除了囊性增生外,腫塊和腫瘤標(biāo)志物(CA)也較為突出;對(duì)群組2而言,結(jié)節(jié)和囊性增生是其突出特征。此外,可發(fā)現(xiàn)CA伴隨腫塊一起出現(xiàn),且隨腫塊出現(xiàn)頻率的增加而增加。對(duì)比群組1與群組2可知,腫塊出現(xiàn)的病人較結(jié)節(jié)出現(xiàn)的病人患惡性腫瘤的可能性更高。

        圖7 病人群組分類結(jié)果Fig.7 Nightingale diagram for different cohorts

        圖9 為選擇CA、腫塊和結(jié)節(jié)屬性后的病人群組圖。從圖9中可發(fā)現(xiàn),腫塊與CA呈伴隨出現(xiàn)的特點(diǎn)。對(duì)同時(shí)具有3類特征的病人,其腫塊也較大,病情更為嚴(yán)重。

        此外,在群組1中,病人的BI-RADS分級(jí)均較高,平均在4c級(jí)以上,見圖7(a);而在群組2中,病人的分級(jí)較低,基本為4a和4b,見圖7(b)。為進(jìn)一步探究兩者之間的差異,圖10展示了此2個(gè)群組的比較直方圖。對(duì)于BI-RADS屬性,群組1(藍(lán)色)中大部分病人為偏惡性與惡性,良性僅占極小部分。病理檢查顯示,其中90%為浸潤性乳腺癌,且組織學(xué)分級(jí)在Ⅱ、Ⅲ級(jí),淋巴結(jié)轉(zhuǎn)移比例較高,表明該類病人病情嚴(yán)重。大部分病人在手術(shù)方案上選擇單側(cè)切除或改良根治術(shù)。相比之下,在群組2(綠色)中,病人的BI-RADS分級(jí)較低,且腫塊大多小于4 cm,大部分未出現(xiàn)轉(zhuǎn)移現(xiàn)象,為保障術(shù)后生活質(zhì)量等,大多病人選擇切除腫塊、保留乳房的手術(shù)方案。

        圖8 特征描述詞云Fig.8 T heme word cloud for different cohorts

        圖9 選擇腫塊、結(jié)節(jié)、CA特征后的病人群組圖Fig.9 Nightingale diagram that focuses on lumps,nodules,and CA

        圖10 群組1與群組2比較直方圖Fig.10 Comparison of histograms for cohort 1 and cohort 2

        通過觀察群組1和群組2,進(jìn)一步推測(cè)病人選擇手術(shù)方案時(shí)受腫塊、浸潤性的影響較大。對(duì)腫塊較大和可能感染到周圍組織的浸潤性乳腺癌,因復(fù)發(fā)與轉(zhuǎn)移可能性較大,傾向于選擇單側(cè)乳腺切除或改良根治術(shù)。對(duì)于病情較輕的群組2,因腫瘤還未浸潤到其他組織,大多選擇切除腫塊的方案。此推測(cè)的合理性得到驗(yàn)證,在乳腺彩超與病理結(jié)果的關(guān)聯(lián)分析中亦得到證明,本系統(tǒng)對(duì)乳腺癌早期篩查是有效的。

        5.2 病理特征分析

        選擇表1中的免疫組化報(bào)告和病理報(bào)告數(shù)據(jù),對(duì)140位病人進(jìn)行特征分析,以證明系統(tǒng)的實(shí)用性和有效性。

        在對(duì)病理報(bào)告做整合處理后,排除了部分缺失數(shù)據(jù),最后得到138位病人免疫組化中的ER、PR、Ki-67、CerbB-2四個(gè)特征和病理報(bào)告中的淋巴結(jié)情況、腫塊大小、病理類型、組織學(xué)分級(jí)、手術(shù)方案,并進(jìn)行聯(lián)合分析,經(jīng)MDS降維和K-Means聚類后,得到6個(gè)病人群組。

        如圖11所示,通過比較群組2(綠色)和群組3(藍(lán)色)發(fā)現(xiàn),群組3中淋巴結(jié)陽性表達(dá)較少,而群組2中淋巴結(jié)陽性表達(dá)較多。進(jìn)一步分析發(fā)現(xiàn),在群組3中,大多腫塊較?。?2 cm),且在組織學(xué)分級(jí)中多表現(xiàn)為高分化低惡性;而在群組2中,大多腫塊大于2 cm,組織學(xué)分級(jí)大多在Ⅱ級(jí)以上,浸潤性低分化惡性腫瘤占大多數(shù)。由此可猜測(cè),淋巴結(jié)是否發(fā)生轉(zhuǎn)移與病人的腫塊大小及其組織學(xué)分級(jí)有較大關(guān)系。此結(jié)論已得到乳腺科醫(yī)生的證實(shí)。

        5.3 治療方案設(shè)計(jì)

        通過選擇平行坐標(biāo)進(jìn)行屬性相關(guān)性探索,圖12(a)以平行坐標(biāo)的方式展示了隨機(jī)選取的94位患者的屬性??捎^察到ER和PR屬性在很大程度上擁有相同的陽性表現(xiàn),具有很強(qiáng)的相關(guān)性。ER屬性值越大,陽性越強(qiáng),病人的BI-RADS分級(jí)也越高,腫塊直徑大多在2 cm以上,且組織學(xué)分級(jí)主要分布在Ⅱ和Ⅲ級(jí)。

        圖12(b)展示的為組織學(xué)分級(jí)為Ⅰ級(jí)的病人,可以明顯看到此類病人的ER和PR屬性大多為陰性。進(jìn)一步過濾腫塊大于2 cm的病人,發(fā)現(xiàn)大部分病人選擇了腫塊部分切除的手術(shù)方案。由此可推斷,ER和PR等免疫組化屬性的表達(dá)與腫瘤的惡性程度有較大關(guān)系。當(dāng)ER和PR屬性未呈現(xiàn)陽性且腫塊較小時(shí),可采取只切除腫瘤部分的手術(shù)方案。

        圖11 群組2與群組3比較直方圖Fig.11 Comparison of histograms for cohort 2 and cohort 3

        圖12 病人屬性平行坐標(biāo)展示Fig.12 Patients'features displayed by the parallel coordinate

        圖4展示了預(yù)測(cè)模型在治療方案預(yù)測(cè)過程中各特征在各分類器中重要程度。從中可發(fā)現(xiàn):

        (1)對(duì)所有分類器而言,患者的年齡均展示在黃色方塊中,表明年齡并不是影響治療方案選擇的主要因素。

        (2)針對(duì)全切與保乳分類器,腫塊大小的絕對(duì)權(quán)重值最高,其他分類器的權(quán)重值均較小,說明在考量全切還是保乳手術(shù)的決策過程中,腫塊大小是決定性因素。

        (3)ER和PR等屬性與淋巴結(jié)轉(zhuǎn)移情況對(duì)改良根治手術(shù)的選擇影響較大,此結(jié)論得到了醫(yī)生的證實(shí)。在改良根治手術(shù)中,在切除乳房的同時(shí)會(huì)清掃腋下淋巴結(jié)組織,較適合有轉(zhuǎn)移的病人。

        對(duì)50位病人的治療方案預(yù)測(cè)結(jié)果見圖13,四類治療方案分別為腫塊切除(藍(lán)色)、乳房單側(cè)切除(綠色)、改良根治(紅色)和新輔助治療(紫色)。由圖13可知,大部分病人采用腫塊切除(藍(lán)色)方案,而采用新輔助治療(紫色)的病人較少。雖然部分采用腫塊切除與乳房單側(cè)切除的病人在預(yù)測(cè)過程中可能出現(xiàn)混淆,但總體來說,能較準(zhǔn)確預(yù)測(cè)大部分患者的治療方案。

        圖13 治療方案預(yù)測(cè)結(jié)果Fig.13 Prediction of treatment plans

        6 結(jié) 論

        為幫助醫(yī)生有效地探索和分析乳腺癌患者的電子病歷數(shù)據(jù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于相似病人群組的可視分析系統(tǒng)。該系統(tǒng)通過用戶驅(qū)動(dòng)的方式選擇特征,對(duì)病人信息進(jìn)行降維和聚類,以幫助醫(yī)生分析不同群組之間的區(qū)別與聯(lián)系。該系統(tǒng)還可分析不同治療方案和屬性之間的相關(guān)性,以幫助醫(yī)生進(jìn)行術(shù)前決策,提高診斷效率。

        未來工作將嘗試分析更為龐大的數(shù)據(jù)集,并進(jìn)行多角度探索,如預(yù)測(cè)患者生存率、追蹤疾病的發(fā)展模式等,緊密結(jié)合醫(yī)生需求,提高系統(tǒng)的普適性、完整性和實(shí)用性。

        猜你喜歡
        特征分析
        抓住特征巧觀察
        隱蔽失效適航要求符合性驗(yàn)證分析
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        抓住特征巧觀察
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        在線教育與MOOC的比較分析
        麻豆精品国产精华精华液好用吗 | 色欲色香天天天综合vvv| 女人喷潮完整视频| 一区二区三区日韩亚洲中文视频 | 国产美女高潮流的白浆久久| 最新日本人妻中文字幕| 日本特黄特色特爽大片| 国产不卡一区二区三区免费视| 特级毛片a级毛片在线播放www| 女人18毛片aa毛片免费| 成人网站在线进入爽爽爽| 日韩a毛片免费观看| av手机在线天堂网| 久久亚洲乱码中文字幕熟女| 色爱av综合网站| 国产乱沈阳女人高潮乱叫老| 亚洲午夜无码久久久久软件| 少妇高潮精品在线观看| 成人午夜视频精品一区 | 亚洲一区精品中文字幕| 午夜免费观看国产视频| 国产成人久久精品一区二区三区| 91av手机在线观看| 国产成人夜色在线视频观看| 中文字幕在线乱码一区| 久久www免费人成人片| 国产极品美女高潮抽搐免费网站| 69精品人妻一区二区| 精品人妻系列无码人妻漫画 | 欧美黄色免费看| 69久久精品亚洲一区二区| 一本色道久久hezyo无码| 国产在线无码制服丝袜无码| 无码丰满熟妇浪潮一区二区av| 羞羞色院99精品全部免| 亚洲国产成人精品无码区二本| 另类专区欧美在线亚洲免费| 国产女主播大秀在线观看| 久久久久国色av免费观看性色| 又爽又黄无遮挡高潮视频网站| 国产免费人成网站在线播放|