亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于臨床數(shù)據(jù)的胃癌篩查模型研究

        2019-10-11 08:57:28楊榮陳譽高紅梅陳先來
        中國醫(yī)學物理學雜志 2019年9期
        關鍵詞:胃癌差異模型

        楊榮,陳譽,高紅梅,陳先來

        1.中南大學湘雅醫(yī)院,湖南長沙410078;2.中南大學湘雅醫(yī)學院,湖南長沙410013;3.中南大學信息安全與大數(shù)據(jù)研究院,湖南長沙410083;4.中南大學醫(yī)療大數(shù)據(jù)應用技術國家工程實驗室,湖南長沙410083

        前言

        降低胃癌的發(fā)病率和死亡率是亟待解決的重大公共衛(wèi)生問題。2018年前9個月,美國胃癌患者死亡11 433例[1]。2015年我國胃癌發(fā)病例數(shù)約為67.9萬,其發(fā)病例數(shù)僅次于肺癌(73.3 萬例)[2]。胃癌的發(fā)生發(fā)展是一個多因素參與、多步驟演變的復雜病理過程,包括人口學、感染、生活飲食、遺傳和環(huán)境等[3]。年齡、性別是胃癌的重要人口學因素,隨著年齡增長,胃癌發(fā)病率和死亡率亦越來越高,男性的胃癌發(fā)病率和死亡率均高于女性[4]。高鹽飲食[5]、腌熏煎烤炸食品[3]與胃癌關系密切。IARC、WHO 均將Hp歸為Ⅰ類致癌因子,Hp感染與胃癌的發(fā)生存在相關性[6-7]。流行病學資料顯示部分胃癌有家族聚集傾向[8]。精神心理社會因素(如精神刺激或抑郁)、免疫因素等可能與胃癌發(fā)生有一定關聯(lián)[9]。其它致病風險包括糖尿?。?0]、慢性萎縮性胃炎[11]等。

        胃癌的生存率與腫瘤進展情況密切相關,早期胃癌5年存活率可達90%[12],而進展期胃癌5年存活率低于30%[13]。然而,絕大多數(shù)胃癌早期癥狀不明顯,與胃炎、胃潰瘍等慢性胃部疾病相混淆,很難早期發(fā)現(xiàn),容易導致漏診和誤診。目前,胃癌的臨床診斷方法大致有以下幾類:(1)實驗室檢查。包括:①血常規(guī)檢查。血紅蛋白、紅細胞、紅細胞壓積等指標下降,在早期胃癌篩查中有一定的價值。②腫瘤標志物測定、免疫學檢查。如血清胃蛋白酶原Ⅰ及胃蛋白酶原Ⅰ/Ⅱ之比[14],CEA、CA199、CA125、CA724等[15]癌類相關抗原及單克隆抗體檢測,對胃癌的診斷具有一定價值,但這些檢查的假陽性與假陰性均較高,特異性不強。③大便潛血試驗。持續(xù)性大便潛血陽性,對胃癌的診斷有參考價值,可以為發(fā)現(xiàn)胃癌提供線索[16-17]。(2)X線。如果X線鋇餐檢查發(fā)現(xiàn)可疑病變,則進一步進行內(nèi)鏡檢查。(3)纖維內(nèi)窺鏡檢查。它是胃癌診斷最直接準確有效的診斷方法,但依賴于設備和內(nèi)鏡醫(yī)師資源,普通小型醫(yī)療機構難以開展,且費用相對較高,具有一定痛苦,患者接受程度較差,難以用于大規(guī)模胃癌篩查。(4)B超。通過超聲檢查,可了解胃部周圍實質(zhì)性臟器轉移,但對于早期胃癌的診斷價值不大。(5)CT 檢查。通過CT 檢查可以了解胃腫瘤侵犯情況,以及與周圍臟器關系,有無切除可能[18]。此外,呼氣的化學物質(zhì)分析也對診斷胃癌有價值[19]。以上各類診斷方法,存在特異性不強等問題,需要聯(lián)合考慮。此外,胃癌的篩查還需要考慮危險因素。通過數(shù)據(jù)挖掘,可以從大量信息中提取有用的醫(yī)學規(guī)則,建立疾病診斷輔助模型,為疾病的篩查、診斷、預后分析提供支撐。本研究擬以臨床數(shù)據(jù)為基礎,嘗試利用決策樹算法,建立胃癌篩查模型,從中提取胃癌的篩查規(guī)則。目的在于通過構建良好的篩查模型,輔助胃癌早期診斷,提高胃癌的早期診斷水平。

        1 對象與方法

        1.1 數(shù)據(jù)收集

        本研究選擇胃癌患者作為研究對象,并以非胃部惡性腫瘤及健康體檢者作為對照。研究對象的選擇遵循以下原則:(1)胃癌患者第一出院診斷ICD 編碼為C16 及其下位類;(2)非胃部惡性腫瘤患者第一出院診斷ICD編碼為C及其下位類(C16及其下位類除外);(3)非惡性腫瘤者為無腫瘤診斷史體檢者。數(shù)據(jù)來源于長沙某3 所三甲醫(yī)院,其中,腫瘤患者數(shù)據(jù)來源于臨床醫(yī)療數(shù)據(jù),非腫瘤患者數(shù)據(jù)來源于健康體檢數(shù)據(jù)?;谝陨显瓌t,從住院病人中隨機抽取胃癌患者5 585例[男3 597例,女1 966例,性別不詳22例,年齡(56.96±11.81)歲],作為胃癌組(A組);從57 657例非胃部惡性腫瘤住院患者中隨機抽取6 000例[男3 402例,女2 565例,性別不詳33例,年齡(53.63±14.88)歲],作為非胃部惡性腫瘤組(B組);從42 275例健康體檢者中隨機抽取6 000例[男5 170例,女830例,年齡(40.57±12.51)歲],作為非惡性腫瘤組(C組)。

        本研究數(shù)據(jù)收集范圍的確定遵循以下原則:(1)已有研究顯示可能的胃癌相關因素;(2)數(shù)據(jù)可以獲??;(3)相關檢測為常規(guī)經(jīng)濟性檢測,而非昂貴的特殊檢測;(4)相關檢測為非侵入性或低侵入性。根據(jù)這些原則,主要收集人口學信息(性別、年齡)和實驗室檢測指標(血常規(guī)檢測、血脂/肝功能、腫瘤相關標志物、Hp等),見表1。

        1.2 數(shù)據(jù)預處理

        數(shù)據(jù)來源于多家醫(yī)療機構,異構性強,存在名稱不一致、值閾不一致、數(shù)據(jù)冗余、空缺嚴重等質(zhì)量問題。對此,采取用LOINC統(tǒng)一指標、用歸一化方法統(tǒng)一值閾、用相似性度量消除冗余、刪除缺失率大于90%的指標等措施,對數(shù)據(jù)進行處理。預處理后數(shù)據(jù)如表2所示。

        1.3 特征指標的選取

        為提高篩查模型的魯棒性,使用Pearson 雙變量相關性分析(雙尾),對各指標與診斷(Diagnosis,非惡性腫瘤取0,非胃部惡性腫瘤取1,胃癌取2)之間相關性進行分析,識別出重要特征變量。與診斷顯著相關的指標如表3所示。

        表1 所采集的實驗室檢測指標Tab.1 Collected laboratory test indicators

        從表3可見,與診斷具有顯著相關性(P<0.05)的指標包括人口學因素(性別、年齡)、血液生化指標(如ALB、TC、TG)、血常規(guī)檢查指標(如Hb、HCT、Lym_Per)、幽門螺桿菌感染(Hp)、胃蛋白酶原(PG1、PG2、PG1_2_PG2)以及癌類相關抗原(CA153、CA199)等。為了解各指標的組間差異顯著性,進一步支持特征變量選取,對各指標進行組間獨立樣本t檢驗。結果發(fā)現(xiàn),存在組間差異顯著性的指標如表4所示。

        表2 預處理后的數(shù)據(jù)示例Tab.2 Examples of data after preprocessing

        1.4 胃癌篩查決策樹模型的構建

        建模變量的選取主要考慮以下因素:①與胃癌診斷的相關性;②組間差異顯著性;③現(xiàn)有文獻報道或臨床實踐情況。據(jù)此選取以下53 項指標用于建模:性別、年齡、RH、AFP、ALB、ALB_2_GLB、APTT、Baso_Cnt、Baso_Per、CA125、CA153、CA199、CEA、DBIL、D_Dimer、Eos_Cnt、Eos_Per、FOB、GLB、Hb、HCT、HDL_C、HDL_C_2_TC、Hp、LDH_L、LDL_C、Lym_Cnt、Lym_Per、MCH、MCHC、MCV、Mono_Cnt、Mono_Per、MPV、Neu_Cnt、Neu_Per、P_LCR、PCT、PDW、PG1、PG1_2_PG2、PG2、PLT、PT、RBC、RDW_CV、TBA、TBIL、TC、TG、TP、TT、WBC。

        表3 與診斷具有顯著相關的指標Tab.3 Indicators significantly correlated with diagnosis

        疾病篩查屬于典型的分類問題,適合采用決策樹算法建模。因此,先要對數(shù)值型數(shù)據(jù)進行離散處理。對于既有上限又有下限的變量,離散為正常(N)、偏低(L)、偏高(H)3種取值,如球蛋白(GLB);對于只有上限的變量,離散為正常(N)、偏高(H),如癌胚抗原(CEA)。參照WHO方法,年齡離散為青年及以下(<45歲)、中年(45~59歲)、老年及以上(≥60歲)。

        表4 存在組間差異顯著性的指標Tab.4 Indicators with significant inter-group differences

        每組按照6:4 隨機劃分為訓練集和測試集。本研究的目的在于確定是否有患胃癌(Diagnosis=2)風險,故將C 組(Diagnosis=0)、B 組(Diagnosis=1)合并為一組,作為非胃癌組(合并后Diagnosis=0)。經(jīng)過劃分、合并處理后,訓練集包含C 組記錄3 580例、B組記錄3 584例、A 組記錄3 340例;測試集包含C 組記錄2 420例、B組記錄2 416例、A組記錄2 245例。

        本研究涉及的數(shù)據(jù)量大,考慮的變量(指標)多,故選擇C5.0 作為篩查模型構建算法。在模型構建時,設置目標變量為診斷(Diagnosis),前面所確定的指標作為決策變量。修剪嚴重性設置為75,每個子分支的最小記錄數(shù)設為20,使用分區(qū)數(shù)據(jù),并使用全局修剪方式,構建決策樹模型。

        2 結果

        2.1 胃癌篩查模型與決策規(guī)則

        從所得模型(圖1)可以發(fā)現(xiàn),從中可提取51條決策規(guī)則用于胃癌篩查。糖類抗原CA153是識別胃癌的首選指標,其次是糖類抗原CA199、癌胚抗原CEA,血常規(guī)指標HCT、RDW_CV、Baso_Cnt、Lym_Per以及胃蛋白酶原對于識別胃癌也有重要價值。

        2.2 指標的重要性

        在篩查模型中,重要性排前10 的指標依次為CA199、CA153、CEA、HCT、RDW_CV、Baso_Cnt、Lym_Per、PG1_2_PG2、PG2、DBIL,如表5所示。

        圖1 胃癌篩查決策樹模型(規(guī)則集,部分)Fig.1 Decision tree model for gastric cancer screening(rule set,partial)

        2.3 胃癌篩查模型性能評估

        基于預測的準確性,利用訓練集和測試集分別對所建模型進行評估。結果發(fā)現(xiàn)模型對于訓練集、測試集的準確率分別為89.58%、89.14%。根據(jù)測試集,利用受試者特征曲線(ROC)對模型進行評估,計算得到的曲線下面積(AUC)為0.809。

        表5 對胃癌篩查重要性前10位的指標Tab.5 Top 10 indicators for gastric cancer screening ranked by importance

        3 分析與討論

        3.1 胃癌篩查決策樹模型的性能

        利用臨床業(yè)務數(shù)據(jù),挖掘得到的胃癌篩查模型(圖1)包含51條決策規(guī)則。評估結果顯示,模型的整體準確率超過89%,是一套良好的決策規(guī)則集。

        綜合考慮模型篩查的靈敏度和特異性,從ROC曲線形狀和曲線下面積(AUC=0.809)可以發(fā)現(xiàn),所建模型具有良好的胃癌風險識別能力。

        從規(guī)則的置信度來看,大多數(shù)規(guī)則具有較高的置信度,如以下規(guī)則的置信度為0.999:

        CA153=N[Pattern:2](1,718)

        PG1_2_PG2 in["""L"][Pattern:2]=>2.0 (1,601;0.999)

        由此可見,本研究所構建的胃癌篩查模型具有良好的分類性能和實用價值。

        3.2 胃癌篩查指標的價值

        從相關性分析(表3)、組間獨立樣本t檢驗(表4)以及決策樹模型(圖1)結果,可以發(fā)現(xiàn)一些關于胃癌篩查指標的有趣規(guī)律。

        3.2.1 人口學因素年齡和性別等人口學因素是胃癌的危險因素[3]。胃癌組(A 組)男性3 597例,女性1 966例,男女比例為1.83:1,與2008年IARC數(shù)據(jù)[20]相近。性別與胃癌診斷具有顯著相關性(P<0.05),獨立樣本t檢驗結果也發(fā)現(xiàn)性別在胃癌組(A 組)、非胃部惡性腫瘤組(B組)、非惡性腫瘤組(C組)之間均存在顯著性差異(表4),性別在篩查模型中也是重要的決策屬性之一。這些結果說明胃癌存在性別顯著性差異,對于胃癌篩查具有一定價值,與已有報道[4,20]相一致。相關性分析結果(表3)顯示,年齡與胃癌發(fā)病密切相關(P<0.05),A 組年齡明顯高于C 組,也高于B組,獨立樣本t檢驗也發(fā)現(xiàn)A、B、C組之間存在年齡顯著性差異(P<0.05)。說明年齡是胃癌的重要風險因素,其患病率隨年齡增長而上升[3]。然而,年齡在胃癌篩查模型中并未發(fā)現(xiàn)其作用。這可能說明,采用WHO方法對年齡進行劃分,并不一定適合于我國胃癌篩查模型研究,這有待進一步探索。

        3.2.2 血常規(guī)檢查指標謝燕等[21]研究認為RDW、MPV、Lym_Cnt 等血常規(guī)指標對于胃癌的早期診斷具有重要提示作用。本研究的相關性分析結果(表3)顯示,部分血常規(guī)檢查指標與胃癌診斷具有顯著相關性,包括Baso_Per、Eos_Cnt、Hb、HCT、Lym_Cnt、Lym_Per、 MCH、 MCHC、 MCV、 Mono_Cnt、Mono_Per、MPV、Neu_Cnt、Neu_Per、P_LCR、PCT、PDW、PLT、RDW_CV、RDW_SD、WBC 等。根據(jù)獨立樣本t檢驗結果(表4),發(fā)現(xiàn)Hb、HCT、Lym_Cnt、Lym_Per、MCH、MCHC、MCV、MPV、Neu_Cnt、Neu_Per、P_LCR、RDW_CV、TT、WBC在A、B、C 3組之間均存在顯著性差異。 APTT、Baso_Per、Mono_Cnt、Mono_Per、PDW 在非惡性腫瘤組(C 組)與兩個惡性腫瘤組(A 組、B 組)之間存在顯著性差異。PCT、PLT在A組與B組、C組之間均存在顯著性差異。Eos_Cnt、Eos_Per 在B 組與A 組、C 組之間均存在顯著性差異。RBC 僅在C 組與B 組之間存在顯著性差異。Baso_Cnt 僅在C 組與A 組之間存在顯著性差異。在篩查模型中,HCT、Mono_Cnt、Baso_Cnt、PLT、Lym_Per、DBIL、APTT、MCH、Neu_Per 等指標進入了決策屬性。以上研究結果說明,血常規(guī)檢查對于胃癌篩查具有一定價值。

        3.2.3 血脂/肝功能及其它生化指標相關性分析結果(表3)顯示,血液生化檢查中的ALB、ALB_2_GLB、 DBIL、 GLB、 HDL_C、 HDL_C_2_TC、LDH_L、LDL_C、TBA、TBIL、TC、TG、TP等與胃癌具有顯著相關性。獨立樣本t檢驗結果發(fā)現(xiàn)ALB、ALB_2_GLB、DBIL、GLB、HDL_C、HDL_C_2_TC、TBA、TC、TG、TP 在各組之間均存在顯著性差異。LDH_L、LDL_C 在非惡性腫瘤組(C 組)與兩個惡性腫瘤組(A 組、B 組)之間存在顯著性差異,對于識別良惡性腫瘤具有一定價值。TBIL 在A 組與C 組、B組之間均存在顯著性差異,說明TBIL 對于識別胃癌與非胃癌具有一定意義。

        在胃癌篩查模型中,血液生化檢查指標TP、DBIL、GLB進入了決策屬性,對于胃癌的篩查具有重要作用。

        3.2.4 腫瘤標志物指標腫瘤標志物是腫瘤診斷的重要指標,主要的腫瘤標志物包括CA199、CA153、CA125、CEA、AFP、CA724 等。本研究發(fā)現(xiàn)AFP、CA153、CA199 與胃癌診斷具有顯著相關性,而CEA、CA125 未顯示出顯著相關性,如表3 所示。獨立樣本t檢驗結果(表4)顯示,AFP 在A、B、C 組3 組之間均存在顯著性差異,C 組的CEA 與A、B 組之間均存在顯著性差異,A 組的CA125、CA199 與C、B 組均存在顯著性差異,而B組與A組之間卻不存在顯著性差異,CA153 僅在B 組與A 組之間具有顯著性差異,而在C 組與B、A 組之間均無顯著性差異。在胃癌篩查模型中,發(fā)現(xiàn)CEA、CA153、CA199 均位列重要屬性前3 名(表5)。這些結果說明,腫瘤標志物CA199、CA153、CA125、CEA、AFP 等在胃癌篩查中具有重要作用,但難以單獨用于胃癌篩查。單一惡性腫瘤所特有的標志物至今尚未發(fā)現(xiàn),聯(lián)合檢測更具診斷價值[15,22]。通過聯(lián)合使用以上腫瘤標志物,可以提高胃癌的鑒別能力,提高胃癌篩查的準確率。本研究未發(fā)現(xiàn)CA724 在胃癌篩查中的價值,這與Wang等[23]的研究結果一致。

        3.2.5 其它指標陳如昌等[24]研究發(fā)現(xiàn),F(xiàn)OB 對胃癌的診斷和預后判斷有重要的臨床價值。本研究結果(表3)顯示,F(xiàn)OB 與胃癌診斷之間存在顯著相關性。獨立樣本t檢驗結果(表4)也發(fā)現(xiàn),F(xiàn)OB 在各組之間均存在差異顯著性,說明FOB 對于胃癌的篩查具有重要價值。Cha 等[25]研究認為胃蛋白酶(PG)是胃部癌前病變和早期胃癌的有用標志物,文獻[20]也認為PG 檢測是一種有用的胃癌檢查標志物。本研究中相關性分析(表3)、獨立樣本t檢驗(表4)、決策樹模型(圖1)均提示PG1_2_PG2 在胃癌篩查中具有重要作用??梢?,胃蛋白酶檢測可作為早期胃癌篩查的手段之一。從相關性分析結果看,Hp與胃癌診斷有顯著相關性,C 組與A、B 組之間存在顯著性差異,但A組與B組之間無顯著性差異,也未進入輔助篩查模型的決策變量中,說明Hp對于胃癌篩查作用不充分,與文獻[26]報道相一致。

        4 結論

        綜上可見,對于胃癌篩查,實驗室檢查是一種費用低廉、方便有用的工具。有價值的檢測指標包括RH、AFP、ALB、ALB_2_GLB、APTT、Baso_Cnt、Baso_Per、CA125、CA153、CA199、CEA、DBIL、D_Dimer、Eos_Cnt、Eos_Per、FOB、GLB、Hb、HCT、HDL_C、 HDL_C_2_TC、Hp、 LDH_L、 LDL_C、Lym_Cnt、Lym_Per、MCH、MCHC、MCV、Mono_Cnt、Mono_Per、MPV、Neu_Cnt、Neu_Per、P_LCR、PCT、PDW、PG1、PG1_2_PG2、PG2、PLT、PT、RBC、RDW_CV、TBA、TBIL、TC、TG、TP、TT、WBC等。其中,CA199、CA153、CEA、HCT、RDW_CV、Baso_Cnt、Lym_Per、PG1_2_PG2、PG2、DBIL 為胃癌篩查的前10 個重要指標,胃癌篩查可重點考慮使用這些檢驗項目。利用臨床數(shù)據(jù),通過決策樹算法,可以建立性能良好的胃癌篩查模型,對于提高胃癌篩查水平具有參考價值。

        猜你喜歡
        胃癌差異模型
        一半模型
        相似與差異
        音樂探索(2022年2期)2022-05-30 21:01:37
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        找句子差異
        生物為什么會有差異?
        3D打印中的模型分割與打包
        P53及Ki67在胃癌中的表達及其臨床意義
        胃癌組織中LKB1和VEGF-C的表達及其意義
        胃癌組織中VEGF和ILK的表達及意義
        亚洲一区二区蜜桃视频| av免费不卡国产观看| 日韩激情无码免费毛片| 老男人久久青草AV高清| 中文字幕一区二区三区四区在线| 中文字幕高清一区二区| 国产精品午夜夜伦鲁鲁| 欧美成人精品午夜免费影视| 国产三级在线观看播放视频| 亚洲精品成人av一区二区| 精品日韩在线观看视频| 久久99精品久久久久婷婷| 摸进她的内裤里疯狂揉她动图视频| 国产av无码专区亚洲av| 最新永久无码AV网址亚洲| 国产精品一区二区三区四区亚洲| 中文字幕无线码免费人妻| 黄 色 人 成 网 站 免 费| 婷婷成人亚洲综合国产| 青青草手机在线免费视频| 亚洲av无码成h在线观看| 亚洲色欲色欲www在线播放| 国产精品麻豆A啊在线观看| 中文字幕人妻少妇精品| 国产精品18久久久白浆| 亚洲av无码专区电影在线观看| 精品91亚洲高清在线观看| 亚洲最大不卡av网站| 成人免费无码大片a毛片| 成在人线av无码免费| 色综合久久五月天久久久| 少妇高潮在线精品观看| 国产成人精品电影在线观看| 国产在线精品福利大全| 在线观看一区二区蜜桃| 美丽人妻在夫前被黑人| 欧美老熟妇又粗又大| 日本超骚少妇熟妇视频| 久久久国产精品va麻豆| 性激烈的欧美三级视频| 亚洲男人天堂av在线|