亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的醫(yī)療數(shù)據(jù)智能分析算法研究

        2021-06-27 03:26:02朱鐵兵柏志安
        電子設(shè)計(jì)工程 2021年12期
        關(guān)鍵詞:單詞分類方法

        朱鐵兵,柏志安

        (上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院計(jì)算機(jī)中心,上海 200025)

        在現(xiàn)代醫(yī)療技術(shù)中,醫(yī)療預(yù)測(cè)的成本較大,在可用性上也受到了限制,現(xiàn)代電子病歷的智能分析[1-2]有望成為一種迅速、低成本的解決方案。電子病歷由醫(yī)務(wù)人員在臨床醫(yī)療活動(dòng)中使用健康信息系統(tǒng)捕獲,包含詳細(xì)描述患者健康狀況的文字、符號(hào)、圖表、圖形、數(shù)字與圖像,主要由結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)組成。其中,非結(jié)構(gòu)化數(shù)據(jù)包括自由樣式的文本[3-4],如主要癥狀、病程進(jìn)度與出院總結(jié)。盡管這些文本特征便于記錄疾病、癥狀、測(cè)試和治療,但對(duì)自動(dòng)挖掘醫(yī)療信息以構(gòu)建智能輔助診斷的臨床決策系統(tǒng)造成了障礙。為消除這些障礙,命名實(shí)體識(shí)別技術(shù)被廣泛應(yīng)用于電子病歷中疾病、癥狀、測(cè)試與治療信息的抽取[5-6]。但目前國(guó)內(nèi)外對(duì)命名實(shí)體識(shí)別的研究,主要集中在傳統(tǒng)的命名實(shí)體模型能否有效識(shí)別EMRs中的命名實(shí)體。此外,由于缺乏可供研究的資源,從中文命名實(shí)體中挖掘命名實(shí)體的研究較少[7]。

        近年來(lái),深度學(xué)習(xí)技術(shù)作為一種流行的大數(shù)據(jù)分析方法,在一些研究中被應(yīng)用于提高網(wǎng)絡(luò)學(xué)習(xí)機(jī)器的性能[8-10]。然而,目前的研究主要集中在利用傳統(tǒng)的NER 方法從EMRs 中挖掘命名實(shí)體[11-12],且沒(méi)有一個(gè)模型能夠在無(wú)需傳統(tǒng)機(jī)器學(xué)習(xí)模型的幫助下通過(guò)深度學(xué)習(xí)的方式在EMRs 中實(shí)現(xiàn)[13-14]。雖然深度學(xué)習(xí)已成為構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的一種有效的特征提取方法,但在復(fù)雜的特征提取與選擇的過(guò)程中必須依賴于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,如支持向量機(jī)(SVM)或條件隨機(jī)場(chǎng)(CRF)來(lái)構(gòu)建這些神經(jīng)網(wǎng)絡(luò)模型[15-16]。因此該文嘗試在不使用傳統(tǒng)機(jī)器學(xué)習(xí)模型的情況下,設(shè)計(jì)一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)與單詞嵌入的NER 模型來(lái)完成EMR-NER 任務(wù)。該文構(gòu)建了一個(gè)帶注釋且在電子病歷首頁(yè)增加了質(zhì)控核查的電子病歷語(yǔ)料庫(kù),然后提出了一種基于CNN 的多類分類方法來(lái)完成EMRs 中的NER,通過(guò)實(shí)驗(yàn)驗(yàn)證了方法的有效性,并根據(jù)研究結(jié)果給出了潛在的研究方向[17]。

        1 EMRs中的命名實(shí)體識(shí)別

        命名實(shí)體識(shí)別信息抽取技術(shù)的一個(gè)關(guān)鍵子任務(wù),是將由單詞組成的命名實(shí)體在文本中分類為預(yù)定義類別。NER 可以定義為一個(gè)多分類問(wèn)題,即對(duì)一個(gè)實(shí)體詞進(jìn)行分類,如式(1)所示。

        其中,N與T分別表示單詞數(shù)與命名實(shí)體類型數(shù)。此任務(wù)也可以用序列標(biāo)記任務(wù),例如:x可以標(biāo)記為,y可以標(biāo)記為其中,l表示單詞與標(biāo)簽的數(shù)量,表示第i個(gè)字,表示第t個(gè)字。

        在該文研究中,注釋數(shù)據(jù)被標(biāo)記為BIO 格式用于構(gòu)造NER 方法。其中,每個(gè)單詞被分配到3 個(gè)類中的一個(gè),B:實(shí)體的開(kāi)始;I:實(shí)體內(nèi)部;O:實(shí)體外部。電子病歷中的命名實(shí)體識(shí)別是指從臨床筆記中挖掘概念或事件作為實(shí)體,用于構(gòu)建輔助決策的信息系統(tǒng),幫助醫(yī)務(wù)人員進(jìn)行決策。圖1 給出了電子病歷句子中以BIO 格式標(biāo)注實(shí)體的示例。每一個(gè)單詞的標(biāo)簽均是根據(jù)其實(shí)體類型標(biāo)注的,類型由專業(yè)醫(yī)生確定,并用BIO 格式手動(dòng)標(biāo)記的。例如,將“青霉素過(guò)敏史”分為“青霉素”與“非青霉素過(guò)敏史”,“青霉素”與“過(guò)敏史”分別標(biāo)上“B 病”與“I 病”。其中“B”與“I”分別表示詞在命名實(shí)體中的位置信息,“病”表示命名實(shí)體的類型,NER 技術(shù)則應(yīng)用于自動(dòng)標(biāo)記這些標(biāo)簽。

        圖1 命名實(shí)體識(shí)別標(biāo)記結(jié)果示例

        2 數(shù)據(jù)集

        該文研究是基于某醫(yī)院不同科室的992 份電子病歷進(jìn)行的,這些病歷中包含的私人信息已被刪除。每份電子病歷的記錄由兩位醫(yī)生(A1 與A2)獨(dú)立注釋,若兩位醫(yī)生均給出相同的意見(jiàn),則注釋是固定的;若意見(jiàn)不一致,則進(jìn)行深入討論,直至就注釋達(dá)成一致。在經(jīng)過(guò)兩輪注釋,最終獲得了包含992個(gè)EMRs 的金標(biāo)準(zhǔn)。

        最終的金標(biāo)準(zhǔn)使用5 類命名實(shí)體,即疾病、癥狀、治療、測(cè)試與疾病組的診斷和治療過(guò)程。在對(duì)語(yǔ)料庫(kù)進(jìn)行注釋后,使用注釋間一致性(IAA)來(lái)評(píng)估兩個(gè)注釋者的一致性水平。兩位醫(yī)生的IAA 值為94.20%,說(shuō)明利用標(biāo)注的語(yǔ)料庫(kù)作為數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練與測(cè)試是可靠的。

        表1 給出了數(shù)據(jù)集的一些統(tǒng)計(jì)數(shù)據(jù),包括文檔、句子、字符與實(shí)體的數(shù)量。在992例EMRs中,每種命名實(shí)體的分類為47.69%的癥狀、20.96%的疾病、17.60%的檢查、13.20%的治療與0.56%的疾病組。治療與測(cè)試命名實(shí)體幾乎平均分布在出院總結(jié)與病程記錄中,而癥狀實(shí)體主要分布在急診室。這些數(shù)據(jù)集分為5個(gè)部分:4個(gè)部分用于訓(xùn)練模型,一個(gè)部分用于測(cè)試模型,并使用五折交叉驗(yàn)證來(lái)評(píng)估NER方法。

        表1 電子病歷中文件、句子、字符和實(shí)體的數(shù)量

        3 設(shè)計(jì)方法

        該文基于CNN 的EMRs 命名實(shí)體多類分類方法分為兩個(gè)階段:在第一階段,對(duì)EMRs 進(jìn)行預(yù)處理,選擇與提取特征并標(biāo)記單詞;在第二階段,建立基于CNN 的多類分類模型。該方法的兩階段框架如圖2所示。在第一階段中,使用文本提取器從EMRs 中提取句子并刪除相同句子。

        圖2 基于CNN的神經(jīng)網(wǎng)絡(luò)多類分類模型框架

        在第二階段,首先使用詞向量來(lái)表示樣本,樣本表示為一對(duì)標(biāo)簽與一組詞向量。例如,單詞wi可以使用其自身的標(biāo)簽與相鄰詞的詞向量表示,表達(dá)式為

        其中,l表示其命名實(shí)體類型的標(biāo)簽,wvi表示wi的單詞向量。然后使用一對(duì)一策略將樣本劃分為子集,并在這些子集上訓(xùn)練模型。其過(guò)程如圖3 所示。樣本集根據(jù)標(biāo)簽對(duì)的劃分被分割成多個(gè)子集。例如,若樣本集中有3 種標(biāo)簽(即a、b與c),則集合將根據(jù)標(biāo)簽對(duì)的組合(如{(a,b),(b,c),(a,c)})被劃分為3 個(gè)子集。其次,利用CNN 對(duì)每一個(gè)子集訓(xùn)練一個(gè)二值分類器,從而得到多個(gè)分類模型。在預(yù)測(cè)過(guò)程中,根據(jù)這些分類器對(duì)預(yù)測(cè)的投票結(jié)果來(lái)生成測(cè)試樣本的標(biāo)簽。

        圖3 基于CNN的模型訓(xùn)練框架

        4 實(shí)驗(yàn)分析

        4.1 特 征

        給定一個(gè)句子,S=wk-2wk-1wkwk+1wk+2wk+2…,其中在特征集中定義wk和以wk為中心的n個(gè)圖形:

        1)以一元語(yǔ)法與二元語(yǔ)法形式顯示令牌的字級(jí)信息;

        2)以一元語(yǔ)法、二元語(yǔ)法與三元語(yǔ)法形式顯示POS(詞性標(biāo)注,Part-of-Speech)標(biāo)記的語(yǔ)法信息。

        特征模板使用的是Stanford 分詞器與Stanford 單詞分析器中的特征模板,以便在包含樸素貝葉斯(Naive Bayes,NB)、最大熵原理(Maximum Entropy,ME)、SVM 與CRF 的傳統(tǒng)機(jī)器學(xué)習(xí)模型的基礎(chǔ)上構(gòu)建NER 模型。對(duì)于文中的方法,使用Tensorflow11 提供的CNN 來(lái)構(gòu)造多類分類方法,關(guān)鍵參數(shù)有:面板為3×3,池為2×2,層數(shù)為2。

        4.2 評(píng)價(jià)指標(biāo)

        文中從NER 的評(píng)價(jià)指標(biāo)(即準(zhǔn)確率、微F-Mesure值與宏F-Mesure 值)方面來(lái)評(píng)估NER 方法的性能。微F-Mesure 數(shù)值受樣本數(shù)量的影響大于其他類別,其計(jì)算方法如下所示。

        其中,true positive(c) 表示c類中與金標(biāo)準(zhǔn)相同的實(shí)體標(biāo)簽計(jì)數(shù);false positive(c)表示c類中與金標(biāo)準(zhǔn)相同的發(fā)散標(biāo)簽計(jì)數(shù);false negative(c)表示c類中與金標(biāo)準(zhǔn)不相同的實(shí)體標(biāo)簽計(jì)數(shù)。

        宏F-Mesure 值(F)由準(zhǔn)確率值(P)與召回率值(R)定義,如式(5)~(7)所示。

        其中,TP表示與金標(biāo)準(zhǔn)相同標(biāo)簽的實(shí)體標(biāo)簽計(jì)數(shù);FP表示已識(shí)別實(shí)體標(biāo)簽中與金標(biāo)準(zhǔn)相同的發(fā)散標(biāo)簽計(jì)數(shù);FN表示已識(shí)別實(shí)體標(biāo)簽中與金標(biāo)準(zhǔn)不同的標(biāo)簽的計(jì)數(shù)。

        宏F-Mesure 值的計(jì)算方法如下所示:

        其中,Nc是實(shí)體類別數(shù),Pi、Ri與Fi表示第i類實(shí)體的識(shí)別數(shù)值。

        4.3 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)分別用宏值、微值與準(zhǔn)確率來(lái)評(píng)估傳統(tǒng)方法與文中所提方法的性能。從表2 與表3 的結(jié)果可見(jiàn),多類分類方法較基于CRF 方法的整體精度低。然而由于識(shí)別長(zhǎng)實(shí)體的結(jié)果存在誤差,其準(zhǔn)確度低于微F-Mesure 值。換言之,若實(shí)體由多個(gè)單詞組成,則這些單詞的實(shí)體類型不能同時(shí)使用正確的標(biāo)簽進(jìn)行標(biāo)記。不同實(shí)體類型的識(shí)別結(jié)果比較表明,測(cè)試實(shí)體的識(shí)別準(zhǔn)確率最高,而疾病組實(shí)體的識(shí)別準(zhǔn)確率最低。

        表2 所提方法與傳統(tǒng)方法在出院總結(jié)的準(zhǔn)確率比較(單位:%)

        表3 所提方法與傳統(tǒng)方法在進(jìn)度注釋的準(zhǔn)確率比較(單位:%)

        由于實(shí)驗(yàn)?zāi)P团c傳統(tǒng)模型未使用相同特征的訓(xùn)練集來(lái)訓(xùn)練,所以上述的比較并不是在相同的條件下進(jìn)行的。因此,還需要使用相同特征的模型進(jìn)行訓(xùn)練再比較結(jié)果。最終結(jié)果如表4 所示。結(jié)果表明,多類分類方法與基于CRF 方法在出院總結(jié)的NER 模型性能差異約為3.77 %,而在病程記錄上的性能差異約為3.39 %。雖然該文設(shè)計(jì)的方法在性能上低于基于CRF 的NER 模型,但這恰好說(shuō)明了所提出的方法在電子病歷中的實(shí)用性。

        表4 所提方法與同類方法的性能評(píng)估比較(單位:%)

        5 結(jié)束語(yǔ)

        該文構(gòu)建了一個(gè)由992 個(gè)電子病歷組成的語(yǔ)料庫(kù),并用5 種實(shí)體類型進(jìn)行人工標(biāo)注。然后,研究文中提出多類分類方法在語(yǔ)料庫(kù)中識(shí)別醫(yī)學(xué)命名實(shí)體的性能。實(shí)驗(yàn)結(jié)果表明,分詞與詞性信息均可為構(gòu)造NER 方法創(chuàng)建有用的特征。該方法在出院總結(jié)與病程記錄上的微F值分別為88.64%與91.13%;而基于CRF 的NER 方法的微F值分別為92.41%與94.52%,高于傳統(tǒng)方法略低于CRF 方法。實(shí)驗(yàn)結(jié)果驗(yàn)證,基于CNN 的多類分類方法對(duì)電子病歷中命名實(shí)體的挖掘是有效的。為進(jìn)一步提高NER 的性能,下一步可以通過(guò)建立一個(gè)解析器系統(tǒng)來(lái)提取信息的特性,如POS 特性以獲取更多信息。

        猜你喜歡
        單詞分類方法
        分類算一算
        單詞連一連
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        看圖填單詞
        教你一招:數(shù)的分類
        看完這些單詞的翻譯,整個(gè)人都不好了
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        成午夜精品一区二区三区| 穿着白丝啪啪的av网站| 亚洲av午夜福利精品一区不卡| 日韩一区二区三区熟女| 男女视频在线观看一区| 五十六十日本老熟妇乱| 国产md视频一区二区三区| 国产精品毛片久久久久久久| 欧美性猛交内射兽交老熟妇| 在教室伦流澡到高潮hnp视频| 亚洲春色AV无码专区在线播放| 色老板精品视频在线观看| 国产免费午夜a无码v视频| 欧美自拍丝袜亚洲| 正在播放淫亚洲| 国产一区二区三区高清视频| 伊人久久大香线蕉综合av| av天堂网手机在线观看| 丰满少妇按摩被扣逼高潮| 99久久亚洲精品日本无码| 久激情内射婷内射蜜桃人妖| 国产精品久久码一区二区 | 男女打扑克视频在线看| 日韩亚洲精品国产第二页| 内射夜晚在线观看| 精品国产乱码久久久软件下载 | 无码AV无码免费一区二区| 一本大道综合久久丝袜精品| 亚洲专区路线一路线二网| 玩弄人妻少妇精品视频| 精品国产a∨无码一区二区三区| 青青草针对华人超碰在线| 国产毛女同一区二区三区| 精品久久久久久久无码人妻热| 国产无遮挡无码视频免费软件 | 国产精品后入内射日本在线观看| 99国产精品久久久蜜芽| 青青草视频原手机在线观看| 亚洲av成人永久网站一区| 日本免费大片一区二区| 99久久婷婷国产综合精品青草免费|