亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合詞向量及詞屬性推理的中文電子病歷實(shí)體識別方法*

        2022-09-07 15:00:38武學(xué)鴻
        關(guān)鍵詞:病歷語料庫實(shí)體

        武學(xué)鴻 楊 峰

        (1中南大學(xué)計(jì)算機(jī)學(xué)院 長沙 410083 2湖南科創(chuàng)信息技術(shù)股份有限公司 長沙 410205) (中南大學(xué)計(jì)算機(jī)學(xué)院 長沙 410083)

        李建華 徐 倩

        (湖南科創(chuàng)信息技術(shù)股份有限公司 長沙 410205) (中南大學(xué)湘雅醫(yī)學(xué)院 長沙 410003)

        1 引言

        中文電子病歷的命名實(shí)體識別研究最初主要是基于詞典和規(guī)則的方法[1-4],形成了醫(yī)療領(lǐng)域3個(gè)代表性通用工具,即MedLEE、MedKA和cTAKES[5]。目前最常用的是基于機(jī)器學(xué)習(xí)的研究方法[6-10]。Wang Y、Yu Z和Chen L等[11]通過基于規(guī)則和條件隨機(jī)場的算法對病歷數(shù)據(jù)進(jìn)行實(shí)體識別。Lei J、Tang B和 Lu X等[9]對比分析條件隨機(jī)場、支持向量機(jī)、最大熵和結(jié)構(gòu)支持向量機(jī)等不同算法在中文電子病歷命名實(shí)體識別中的效果。于楠、王普和翁壯等[12]提出基于多特征融合的中文電子病歷命名實(shí)體識別方法,多特征融合的條件隨機(jī)場模型在僅選取基本特征、上下文窗口為7時(shí)識別效果最好。中文命名實(shí)體識別研究方法常將詞向量、字向量或者二者的簡單結(jié)合作為分類模型的輸入特征[13-14]。本文構(gòu)建醫(yī)學(xué)語料庫來訓(xùn)練醫(yī)學(xué)專業(yè)詞向量,同時(shí)設(shè)計(jì)詞屬性推理模型,以詞語中的每個(gè)字作為輸入得到詞語的詞屬性向量,將其作為詞語的內(nèi)部特征,最后將二者結(jié)合作為模型的輸入特征,見圖1。

        圖1 融合詞向量及詞屬性推理的中文電子病歷命名實(shí)體識別方法

        2 醫(yī)學(xué)語料庫構(gòu)建與詞向量訓(xùn)練

        2.1 構(gòu)建醫(yī)學(xué)語料庫

        首先構(gòu)建豐富的醫(yī)學(xué)語料庫,通過收集及預(yù)處理獲取語料庫內(nèi)容,見表1。

        表1 醫(yī)學(xué)語料庫

        2.2 詞向量訓(xùn)練

        2.2.1 相似詞分析法 采用skip-gram方法依次將語料分割為單個(gè)詞、初始化向量、二次抽樣、使用詞典查找方法和正則表達(dá)式來修正、訓(xùn)練并保存skip-gram隱含層節(jié)點(diǎn)參數(shù),從而生成醫(yī)學(xué)專業(yè)領(lǐng)域詞向量。采用歐式距離的倒數(shù)表示詞語之間的相似度,歐式距離越小則詞語之間語義越相關(guān)。假設(shè)有兩個(gè)詞語A、B,向量分別為a(x11,x12,…,x1n),b(x21,x22,…,x2n),則A與B的歐氏距離dab的計(jì)算公式為:

        公式1

        A、B之間的相似度simAB計(jì)算公式為:

        公式2

        本文列舉了部分典型詞語,分別計(jì)算其在通用領(lǐng)域和專業(yè)領(lǐng)域詞向量空間模型中排名前3的最相似詞,見表2、表3。對比表2及表3,如“發(fā)燒”,在前者中最相似詞分別是“發(fā)熱”“燃燒”“發(fā)光”,而在后者中則是“發(fā)熱”“感冒”“高熱”;又如“拍片”在前者中最相似詞分別是“拍電影”“拍視頻”“照相”,而在后者中則是“CT”“造影”“B超”?;诔WR分析來看,醫(yī)學(xué)領(lǐng)域詞向量模型中推薦的相似詞更加準(zhǔn)確。

        表2 基于通用領(lǐng)域詞向量空間中最相似詞

        表3 基于醫(yī)學(xué)領(lǐng)域詞向量空間中最相似詞

        2.2.2 類比推理法 除相似詞分析外,類比推理也是一種評價(jià)詞向量空間模型的有效方法。該方法給出一對有語義聯(lián)系的詞語對A與B,然后給定一個(gè)詞語C,可以計(jì)算得到與C有同類語義聯(lián)系的詞語D,見表4。從表4中結(jié)果可以看出兩種詞向量空間模型對詞語的語義特征提取存在差別。如“緊張”一詞,參考“升高-降低”詞語對的反義性,專業(yè)領(lǐng)域詞向量模型推理出為“松軟”,而通用領(lǐng)域詞向量模型推理結(jié)果為“放松”。

        表4 類比推理結(jié)果

        2.2.3 結(jié)果分析 綜上所述專業(yè)領(lǐng)域詞向量中詞語的語義特征比通用領(lǐng)域詞向量更接近詞語在醫(yī)療語境的含義。

        3 融合詞屬性推理機(jī)制

        詞屬性推理機(jī)制是指根據(jù)詞語中的每個(gè)字推理出其屬性分類信息,再與詞語向量結(jié)合形成融合后的文本特征輸入到分類模型中去。詞屬性推理機(jī)制本質(zhì)上屬于分類任務(wù),為了盡可能地提取到詞語中單個(gè)字與多個(gè)字的信息,使用多卷積核的卷積神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)詞屬性推理模型,見圖2。

        圖2 詞屬性推理模型結(jié)構(gòu)設(shè)計(jì)

        詞語的字向量輸入詞屬性推理模型后,經(jīng)過卷積層的輸出為:

        c1=conv(f1,X,‘valid’)+b1

        公式3

        c2=conv(f2,X,‘valid’)+b2

        公式4

        式中conv表示二維的卷積操作運(yùn)算,f1、f2表示兩個(gè)不同大小的卷積核,X表示輸入詞語的字向量(x1,x2……xi),“valid”是本文選擇的卷積操作處理邊界問題的一種方式,b1、b2分別表示兩個(gè)卷積層的偏置量。將c1、c2進(jìn)行連接操作后輸入到下一層的全連接層中:

        c=concat(c1,c2)

        公式5

        m=c×w1+b3

        公式6

        式中concat操作表示將兩個(gè)卷積層結(jié)果連接起來。式中w1是全連接層1的權(quán)重矩陣,b3是偏置量。

        m′=m×Bernoulli(p)

        公式7

        n=m′×w2+b4

        公式8

        以上公式中Bernoulli函數(shù)是為了生成概率向量,也就是隨機(jī)生成一個(gè)只包含0、1的向量,其中p表示生成過程中的概率。將全連接層1的輸出結(jié)果與概率向量相乘,相當(dāng)于隨機(jī)丟棄了其中占比為p的信息,這種做法也被稱為dorpout處理。w2是全連接層2的權(quán)重矩陣,b4是偏置量。模型最后一層對全連接層2的輸出結(jié)果進(jìn)行softmax操作,結(jié)果作為模型的最終輸出,計(jì)算公式如下:

        公式9

        4 實(shí)驗(yàn)結(jié)果分析

        4.1 分析工具

        為了分析詞向量以及詞屬性推理機(jī)制對實(shí)驗(yàn)結(jié)果的影響,設(shè)計(jì)3個(gè)基于BiLSTM-CRF[15]的擴(kuò)展模型:模型CEMRNER使用通用領(lǐng)域詞向量,模型CEMNER_WA使用通用領(lǐng)域詞向量并結(jié)合詞屬性推理機(jī)制,模型CEMRNER_DW_WA使用專業(yè)領(lǐng)域詞向量并結(jié)合詞屬性推理機(jī)制。3個(gè)模型都基于tensorflow框架開發(fā)實(shí)現(xiàn)。

        4.2 實(shí)驗(yàn)數(shù)據(jù)來源及格式

        實(shí)驗(yàn)數(shù)據(jù)來自于臨床電子病歷,采用eHost工具對1 000份電子病歷標(biāo)注并審核確認(rèn),標(biāo)注的實(shí)體類別有:疾病、癥狀、藥品、部位、治療以及檢查。每份電子病歷的標(biāo)注結(jié)果都會(huì)輸出對應(yīng)的xml文件。Annotations標(biāo)簽為根標(biāo)簽,其屬性textSource記錄了病歷文件名稱,每個(gè)實(shí)體信息由annotation以及classMention兩個(gè)標(biāo)簽描述,其中annotation標(biāo)簽中的span子標(biāo)簽描述該實(shí)體在病歷中的位置,spannedText為實(shí)體內(nèi)容,classMention標(biāo)簽中的metionClass子標(biāo)簽指明了當(dāng)前實(shí)體類別。標(biāo)注完成后,將實(shí)驗(yàn)數(shù)據(jù)按照8:1:1的比例隨機(jī)劃分出訓(xùn)練集、驗(yàn)證集以及測試集。

        4.3 結(jié)果分析

        對比分析模型CEMRNER與CEMRNER_DW在測試集上F1值可知,結(jié)合詞屬性推理機(jī)制的模型CEMRNER_WA較沒有引入詞屬性推理機(jī)制的模型CEMRNER在總體水平上有所提升,F(xiàn)1值由0.85提升到0.88,從各實(shí)體類別來看整體識別效果更好。對比分析模型CEMRNER_WA與CEMRNER_DW_WA在測試集上的表現(xiàn)可知,使用領(lǐng)域詞向量的模型表現(xiàn)更優(yōu),總體F1值從0.88上升到0.90。針對每類實(shí)體識別結(jié)果,CEMRNER_DW_WA都表現(xiàn)出1%~2%的提升。

        5 結(jié)語

        本文介紹了融合詞向量及詞屬性推理的中文電子病歷實(shí)體識別方法,以BiLSTM-CRF為基準(zhǔn)模型分別實(shí)現(xiàn)3個(gè)對比模型。實(shí)驗(yàn)結(jié)果表明詞屬性推理機(jī)制的引入可以提升模型實(shí)體識別效果,同時(shí)也證明了專業(yè)領(lǐng)域詞向量比通用領(lǐng)域詞向量在醫(yī)療命名實(shí)體識別任務(wù)中表現(xiàn)更好。

        猜你喜歡
        病歷語料庫實(shí)體
        強(qiáng)迫癥病歷簿
        趣味(語文)(2021年9期)2022-01-18 05:52:42
        “大數(shù)的認(rèn)識”的診斷病歷
        《語料庫翻譯文體學(xué)》評介
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        為何要公開全部病歷?
        村醫(yī)未寫病歷,誰之過?
        av无码小缝喷白浆在线观看| 蜜桃伦理一区二区三区| 亚洲性av少妇中文字幕| 中文有码无码人妻在线| 人人妻人人澡人人爽久久av| 最新精品国偷自产在线婷婷| 女同同成片av免费观看| 寂寞人妻渴望被中出中文字幕| 精品无码人妻一区二区三区不卡| 日本午夜福利| 中文字幕人妻一区色偷久久| 精品日韩一级免费视频| 熟女一区二区中文字幕| 无码视频在线观看| 激情内射亚洲一区二区三区爱妻| 熟女白浆精品一区二区| 亚洲国产女性内射第一区二区 | 加勒比一本大道大香蕉| 国产精品黑丝高跟在线粉嫩| 特级无码毛片免费视频尤物| 狠狠躁夜夜躁AV网站中文字幕 | 青青草视频在线播放观看| 999国产精品999久久久久久| 日韩精品人妻系列无码专区免费| 国产韩国精品一区二区三区| 在线免费看91免费版.| 精品久久久久成人码免费动漫| 澳门毛片精品一区二区三区| 国产激情免费观看视频| 色综合久久久久综合体桃花网| 亚洲老妇色熟女老太| 亚洲成AV人片无码不卡| 最新国产女主播在线观看| 免费国产黄网站在线观看可以下载 | 成人综合网站| 欧美日韩亚洲成色二本道三区 | 91精品啪在线看国产网站| 国产精品一区二区夜色不卡 | 国产免费网站看v片元遮挡| 一区二区三区在线乱码 | 乱人伦中文无码视频在线观看|