亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA模型和電子病歷的疾病輔助診斷方法

        2017-05-12 03:36:50劉玉文
        宿州學院學報 2017年2期
        關(guān)鍵詞:病歷概率公式

        劉玉文,張 鈺,楊 樞

        蚌埠醫(yī)學院衛(wèi)生管理系,蚌埠,233030

        ?

        基于LDA模型和電子病歷的疾病輔助診斷方法

        劉玉文,張 鈺,楊 樞

        蚌埠醫(yī)學院衛(wèi)生管理系,蚌埠,233030

        采用分詞軟件對電子病歷進行分詞,然后用LDA模型對分詞后的電子病歷進行建模。通過建立病歷、疾病、特征三者之間的依賴關(guān)系,生成病歷-疾病和疾病-特征兩個分布矩陣。并基于歐氏距離的相似度計算方法,利用標準化歐氏距離公式,計算測試樣本病歷與疾病-特征分布的相似度,推斷出測試樣本病歷中不同疾病的出現(xiàn)概率。結(jié)果表明:運用該方法,疾病診斷準確率達81.99%,高于C4.5算法的79.61%和ID3算法的77.19%,取得了良好的疾病輔助診斷效果。

        LDA模型;電子病歷;疾病特征;輔助診斷;歐氏距離

        隨著醫(yī)院病歷管理系統(tǒng)的廣泛應用,我國各級醫(yī)院中保存著大量的電子病歷。這些病歷完整地記錄了病人從入院到出院間接受治療的全過程,病歷中蘊含著大量潛在的有價值信息[1],這些信息對疾病的診斷和治療具有十分重要的意義。因此,高效地對病歷進行分析,從中識別出疾病的特征是醫(yī)療數(shù)據(jù)分析領域的研究重點內(nèi)容之一。

        計算機疾病輔助診斷就是運用隱含在醫(yī)療大數(shù)據(jù)里的知識和規(guī)律對疾病進行推斷的過程,其中,基于電子病歷的疾病診斷研究是一個重要研究方向。如文獻[2]提出了一種基于關(guān)聯(lián)規(guī)則的疾病診斷方法,該方法通過計算電子病歷中特征項集與疾病之間的關(guān)聯(lián)程度,找出疾病的關(guān)聯(lián)特征,建立疾病與特征的關(guān)聯(lián)規(guī)則集,最后依據(jù)關(guān)聯(lián)規(guī)則集進行疾病診斷。文獻[3]提出了基于ID3算法的病歷分類方法,該方法把病歷按照疾病的不同進行分類,然后對病歷進行監(jiān)督學習,找出疾病的特征向量,最后通過疾病的特征向量進行疾病輔助診斷。文獻[4]提出了基于C4.5的疾病預測方法,該方法首先建立疾病分類決策樹,然后根據(jù)決策樹對疾病進行預測。雖然,這些方法在疾病輔助診斷方面取得了一定的成效,但仍然存在疾病特征識別精度低、推斷不準確等問題?;诖耍谋咎岢隽艘环N基于LDA模型和電子病歷的疾病輔助診斷方法。該方法首先使用LDA模型對病歷、疾病、疾病特征三者進行建模,得出病歷-疾病和疾病-特征兩個分布矩陣,然后通過計算測試病歷與疾病-特征的相似度來推斷測試病歷中的疾病分布,從而達到疾病輔助診斷的目的。

        1 LDA模型

        1.1 基本原理

        隱狄利克雷分配(Latent Dirichlet Allocation,簡稱LDA)是一種無監(jiān)督文檔主題生成模型[5],它能自動從大規(guī)模語料庫中識別出潛在主題。LDA模型基于一個假設,即文檔以一定的概率選擇某個主題,而主題又以一定的概率選擇每個詞,因此,文檔可以視為是主題的混合,主題是詞的混合。LDA采用詞袋(bag of words)方法[6],把每個文檔看作一個詞頻向量,把文本信息轉(zhuǎn)化成數(shù)字信息,沒有考慮詞之間的順序關(guān)系,簡化了建模復雜度。LDA模型定義了4個變量:文本-主題分布向量θ、主題-詞匯分布向量φ、主題z和詞匯w,其中,主題z依賴于θ,w依賴于z。由于z是隱含變量,w是唯一可觀測變量,詞匯w在文檔d中出現(xiàn)的概率為P(w|d) =P(z|d)P(w|z),所以LDA本質(zhì)上是一個三層貝葉斯網(wǎng)絡,其生產(chǎn)過程如圖1所示。

        圖1 LDA模型的貝葉斯網(wǎng)絡圖

        LDA模型中各變量的含義如表1所示。

        表1 LDA模型變量含義

        雖然LDA模型在文本主題識別中存在明顯的優(yōu)勢,但主題數(shù)必須事先確定,這是它的主要缺陷[7]。如果主題數(shù)確定不合理,則會大大影響算法的精度。

        1.2 動態(tài)主題數(shù)計算

        本文采用目前最流行的基于貝葉斯的計算方法來尋找文本數(shù)據(jù)集的最優(yōu)主題數(shù)[8],計算公式如(1)和(2)所示:

        (1)

        (2)

        2 基于LDA的疾病輔助診斷方法

        本文把LDA模型運用到電子病歷的分析上,通過對病歷的學習,找出病歷中潛在的疾病和疾病的特征,再使用相似度計算方法進行疾病輔助診斷。通過分析病歷可以發(fā)現(xiàn),一個病人可能會同時生幾種疾病,每種疾病又由特定的特征詞來描述。因此,基于LDA的病歷學習基于一個假設,即一個病歷文檔以一定的概率選擇某種疾病,每種疾病又以一定的概率選擇某個特征詞。這樣,病歷可以看作是多種疾病的組合,而疾病又是多種特征的組合。設D={d1,d2,…,dm}表示由m個病歷文檔組成的病歷語料庫,S={s1,s2,…,sk}表示D中潛在的疾病集合,V={w1,w2,…,wn}表示由D中所有詞語組成的集合。

        病歷語料庫D中每個病歷d生成不同疾病的概率為θd=ps1,…,psk,其中,psi表示d對應S中第i個疾病的概率。計算公式為psi=nsi/n,其中nsi表示d中對應第i個s的詞的數(shù)目,n是d中所有詞的總數(shù)。

        疾病集合S中每種疾病(s)生成不同單詞的概率為φs=pw1,…,pwm,其中,pwi表示s生成V中第i個單詞的概率。計算公式為pwi=nwi/n,其中nwi表示對應到s的V中第i個單詞的數(shù)目,n表示所有對應到s的單詞總數(shù)。

        LDA模型首先從病歷-疾病分布中選擇一個疾病,然后再從疾病-詞匯分布中選擇一個詞,其生成過程如下:

        (1)對每篇病歷文檔,從病歷-疾病分布中抽取一種疾病,使得sdn~Multi(θd);

        (2)從上述被抽到的疾病所對應的疾病-詞匯分布中抽取一個詞,使得wfn~Multi(φs);

        (3)重復上述過程直至遍歷病歷中的每個詞。

        由于θ和S是隱變量,W是可觀測到的詞匯,則LDA生成一個病歷的疾病分布、再生成N種疾病、然后再生成這篇病歷的N個詞的聯(lián)合概率如公式(3)所示:

        P(θ,Z,W|α,β)

        (3)

        式中,θ是病歷的疾病分布向量,S是N維的疾病向量,W是N個詞組成的向量。由于θ和S是隱變量,求W的邊緣分布將θ和S消去得到病歷中每個單詞的生成概率,如公式(4)所示:

        P(w|α,β)

        (4)

        LDA通過可觀測值w訓練出病歷-疾病分布矩陣θ和病歷-詞匯分布矩陣φ。采用變分貝葉斯方法估算預測值,并利用EM算法來對參數(shù)θ和φ進行估計。本文通過吉布斯采樣來訓練模型的兩個分布矩陣,采樣公式如(5)所示:

        (5)

        每次采樣中,θ、φ的更新公式如(6)和(7)所示:

        (6)

        (7)

        對公式(5)進行反復迭代,當θ和φ達到穩(wěn)定狀態(tài)后,得到最終的θ和φ分布結(jié)果。

        3 實驗分析

        3.1 數(shù)據(jù)來源與預處理

        實驗數(shù)據(jù)來源于蚌埠醫(yī)學院第一附屬醫(yī)院。選取該院2013年到2015年內(nèi)科住院電子病歷28 168份,其中27 000份作為訓練樣本,1 168份作為測試樣本。由于病歷包含病人基本信息、主訴、現(xiàn)病史、檢查結(jié)果、診斷、治療過程等信息。首先對病歷進行去隱私,去無用信息處理,只保留主訴和現(xiàn)病史兩項內(nèi)容。然后用中國科學院分詞軟件ICTCLAS對處理后的電子病歷進行分詞并去除停用詞。分詞結(jié)果存放在文本文件disTxt中,每行存放一個電子病歷的分詞結(jié)果。

        3.2 疾病識別結(jié)果

        在LDA算法中,最優(yōu)疾病數(shù)K采用貝葉斯方法獲取,α設置為0.5/K,β設置為0.1,均為經(jīng)驗最優(yōu)值。疾病特征詞個數(shù)disWord概率設為8。在disTxt上運行LDA模型后,產(chǎn)生θ和φ兩個分布,其中φ表示的是疾病和特征詞的分布,由于識別出的疾病種類較多,選取其中6種疾病作為樣例來描述疾病特征的識別結(jié)果,詳情如表2所示。

        表2 疾病特征的挖掘結(jié)果

        3.3 疾病預測

        根據(jù)疾病-詞匯分布矩陣φ,測試樣本病歷dx與φ中任意疾病特征樣本di的相似度用歐氏距離來表示,如公式(8)所示。

        (8)

        由于公式(8)無法準確度量不同量綱特征的重要程度,所以要對其作進一步標準化處理,標準化處理如公式(9)所示。

        (9)

        把公式(9)帶入公式(8)得到標準化的歐氏距離公式,如公式(10)所示。

        (10)

        其中,σ和μ表示φ中n個病歷樣本在各維特征上的均值向量和標準差向量。dx與di的相似度Sim值越大,說明dx中的疾病與di的疾病越相似。根據(jù)公式(10),計算測試樣本病歷dx與φ中每個疾病特征樣本的相似度,并按值從大小排序。最終得出dx中可能存在的疾病概率。

        3.4 預測準確率評價

        為了檢測本文方法的疾病診斷準確性,采用十折交叉法把1 168份數(shù)據(jù)分成10等分,分別對每組數(shù)據(jù)進行測試,以ID3算法和C4.5算法作為文本算法的比較對象,測試結(jié)果如圖2所示。

        由圖2可以得出,本文提出的算法的綜合準確率為81.99%,分別優(yōu)于C4.5算法的79.61%和ID3算法的77.19%,取得了良好的疾病輔助診斷效果。

        圖2 算法的對比結(jié)果

        4 結(jié)束語

        以上分析了LDA模型原理,并根據(jù)電子病歷的特點,把LDA模型應用到基于電子病歷的疾病特征識別中,找出不同疾病的特征分布。再通過計算測試病歷與疾病特征分布的相似度,判斷測試病歷的疾病種類,從而達到疾病輔助診斷的目的。實驗結(jié)果表明,本文提出的算法能提高疾病診斷的準確率。

        [2]李準,馮思佳,楊美潔,等.關(guān)聯(lián)規(guī)則技術(shù)在冠心病電子病歷中的應用[J].醫(yī)學信息學雜志,2015,36(1):58-62

        [3]李奮華,趙潤林.基于數(shù)據(jù)挖掘的疾病預測模型的構(gòu)建與分析[J].現(xiàn)代計算機,2016(18):14-17

        [4]陳松景,楊林,吳思竹,等.基于C4.5分類的呼吸系統(tǒng)疾病危險因素定量分析方法[J].中華醫(yī)學圖書情報雜志,2016,25(8):35-41

        [5]BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].JournalofMachineLearningResearch,2003(3):993-1022

        [6]AnandkumarA,FosterDP,HsuD,etal.ASpectralAlgorithmforLatentDirichletAllocation[J].Algorithmica,2015,72(1):193-214

        [7]NoelGE,PetersonGL.ApplicabilityofLatentDirichletAllocationtomulti-disksearch[J].DigitalInvestigation,2014,11(1):43-56

        [8]TirunillaiS,TellisGJ.MiningMarketingMeaningfromOnlineChatter:StrategicBrandAnalysisofBigDataUsingLatentDirichletAllocation[J].JournalofMarketingResearch,2014,51(4):463-479

        (責任編輯:汪材印)

        10.3969/j.issn.1673-2006.2017.02.028

        2016-11-18

        安徽省教育廳自然科學一般研究項目(KJ2015B061by);安徽省高校人文社會科學重點項目(sk2015A405,sk2016A0607)。

        劉玉文(1982-),安徽蚌埠人,碩士,講師,研究方向:數(shù)據(jù)挖掘,機器學習。

        TP391.41

        A

        1673-2006(2017)02-0114-04

        猜你喜歡
        病歷概率公式
        第6講 “統(tǒng)計與概率”復習精講
        組合數(shù)與組合數(shù)公式
        排列數(shù)與排列數(shù)公式
        強迫癥病歷簿
        趣味(語文)(2021年9期)2022-01-18 05:52:42
        第6講 “統(tǒng)計與概率”復習精講
        概率與統(tǒng)計(一)
        概率與統(tǒng)計(二)
        等差數(shù)列前2n-1及2n項和公式與應用
        “大數(shù)的認識”的診斷病歷
        例說:二倍角公式的巧用
        国产一在线精品一区在线观看| 亚洲免费国产中文字幕久久久 | 青青草 视频在线观看| 国产精品网站在线观看免费传媒| 成年男女免费视频网站| 97无码人妻一区二区三区蜜臀| 99伊人久久精品亚洲午夜| 日本真人边吃奶边做爽动态图| 国产精品亚韩精品无码a在线| 野外三级国产在线观看| 久久99国产精品久久99密桃| 亚洲一区精品无码| 中文字幕人妻熟女人妻洋洋 | 福利在线国产| 一区二区亚洲 av免费| 国产让女高潮的av毛片| 欧美俄罗斯40老熟妇| 96精品在线| 美女福利视频网址导航| 亚洲av成人一区二区三区本码 | 亚洲视频在线播放免费视频| 日本一区二区视频高清| 爆乳熟妇一区二区三区霸乳| 久久青草伊人精品| 亚洲人妻av在线播放| 人妻少妇偷人精品免费看| 纯爱无遮挡h肉动漫在线播放| 成人片在线看无码不卡| 国产中文字幕一区二区视频| 激情综合色五月丁香六月欧美 | 亚洲美免无码中文字幕在线| 国产亚洲日本人在线观看| 东风日产车是不是国产的 | 亚洲国产精品成人av网| 人妻激情另类乱人伦人妻| 久久精品免费无码区| 自拍情爱视频在线观看| 午夜天堂精品久久久久| 艳妇乳肉豪妇荡乳av无码福利| 一区二区三区国产精品| 亚洲天堂二区三区三州|