亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合詞向量及詞屬性推理的中文電子病歷實(shí)體識別方法*

        2022-09-07 15:00:38武學(xué)鴻
        關(guān)鍵詞:病歷語料庫實(shí)體

        武學(xué)鴻 楊 峰

        (1中南大學(xué)計(jì)算機(jī)學(xué)院 長沙 410083 2湖南科創(chuàng)信息技術(shù)股份有限公司 長沙 410205) (中南大學(xué)計(jì)算機(jī)學(xué)院 長沙 410083)

        李建華 徐 倩

        (湖南科創(chuàng)信息技術(shù)股份有限公司 長沙 410205) (中南大學(xué)湘雅醫(yī)學(xué)院 長沙 410003)

        1 引言

        中文電子病歷的命名實(shí)體識別研究最初主要是基于詞典和規(guī)則的方法[1-4],形成了醫(yī)療領(lǐng)域3個(gè)代表性通用工具,即MedLEE、MedKA和cTAKES[5]。目前最常用的是基于機(jī)器學(xué)習(xí)的研究方法[6-10]。Wang Y、Yu Z和Chen L等[11]通過基于規(guī)則和條件隨機(jī)場的算法對病歷數(shù)據(jù)進(jìn)行實(shí)體識別。Lei J、Tang B和 Lu X等[9]對比分析條件隨機(jī)場、支持向量機(jī)、最大熵和結(jié)構(gòu)支持向量機(jī)等不同算法在中文電子病歷命名實(shí)體識別中的效果。于楠、王普和翁壯等[12]提出基于多特征融合的中文電子病歷命名實(shí)體識別方法,多特征融合的條件隨機(jī)場模型在僅選取基本特征、上下文窗口為7時(shí)識別效果最好。中文命名實(shí)體識別研究方法常將詞向量、字向量或者二者的簡單結(jié)合作為分類模型的輸入特征[13-14]。本文構(gòu)建醫(yī)學(xué)語料庫來訓(xùn)練醫(yī)學(xué)專業(yè)詞向量,同時(shí)設(shè)計(jì)詞屬性推理模型,以詞語中的每個(gè)字作為輸入得到詞語的詞屬性向量,將其作為詞語的內(nèi)部特征,最后將二者結(jié)合作為模型的輸入特征,見圖1。

        圖1 融合詞向量及詞屬性推理的中文電子病歷命名實(shí)體識別方法

        2 醫(yī)學(xué)語料庫構(gòu)建與詞向量訓(xùn)練

        2.1 構(gòu)建醫(yī)學(xué)語料庫

        首先構(gòu)建豐富的醫(yī)學(xué)語料庫,通過收集及預(yù)處理獲取語料庫內(nèi)容,見表1。

        表1 醫(yī)學(xué)語料庫

        2.2 詞向量訓(xùn)練

        2.2.1 相似詞分析法 采用skip-gram方法依次將語料分割為單個(gè)詞、初始化向量、二次抽樣、使用詞典查找方法和正則表達(dá)式來修正、訓(xùn)練并保存skip-gram隱含層節(jié)點(diǎn)參數(shù),從而生成醫(yī)學(xué)專業(yè)領(lǐng)域詞向量。采用歐式距離的倒數(shù)表示詞語之間的相似度,歐式距離越小則詞語之間語義越相關(guān)。假設(shè)有兩個(gè)詞語A、B,向量分別為a(x11,x12,…,x1n),b(x21,x22,…,x2n),則A與B的歐氏距離dab的計(jì)算公式為:

        公式1

        A、B之間的相似度simAB計(jì)算公式為:

        公式2

        本文列舉了部分典型詞語,分別計(jì)算其在通用領(lǐng)域和專業(yè)領(lǐng)域詞向量空間模型中排名前3的最相似詞,見表2、表3。對比表2及表3,如“發(fā)燒”,在前者中最相似詞分別是“發(fā)熱”“燃燒”“發(fā)光”,而在后者中則是“發(fā)熱”“感冒”“高熱”;又如“拍片”在前者中最相似詞分別是“拍電影”“拍視頻”“照相”,而在后者中則是“CT”“造影”“B超”?;诔WR分析來看,醫(yī)學(xué)領(lǐng)域詞向量模型中推薦的相似詞更加準(zhǔn)確。

        表2 基于通用領(lǐng)域詞向量空間中最相似詞

        表3 基于醫(yī)學(xué)領(lǐng)域詞向量空間中最相似詞

        2.2.2 類比推理法 除相似詞分析外,類比推理也是一種評價(jià)詞向量空間模型的有效方法。該方法給出一對有語義聯(lián)系的詞語對A與B,然后給定一個(gè)詞語C,可以計(jì)算得到與C有同類語義聯(lián)系的詞語D,見表4。從表4中結(jié)果可以看出兩種詞向量空間模型對詞語的語義特征提取存在差別。如“緊張”一詞,參考“升高-降低”詞語對的反義性,專業(yè)領(lǐng)域詞向量模型推理出為“松軟”,而通用領(lǐng)域詞向量模型推理結(jié)果為“放松”。

        表4 類比推理結(jié)果

        2.2.3 結(jié)果分析 綜上所述專業(yè)領(lǐng)域詞向量中詞語的語義特征比通用領(lǐng)域詞向量更接近詞語在醫(yī)療語境的含義。

        3 融合詞屬性推理機(jī)制

        詞屬性推理機(jī)制是指根據(jù)詞語中的每個(gè)字推理出其屬性分類信息,再與詞語向量結(jié)合形成融合后的文本特征輸入到分類模型中去。詞屬性推理機(jī)制本質(zhì)上屬于分類任務(wù),為了盡可能地提取到詞語中單個(gè)字與多個(gè)字的信息,使用多卷積核的卷積神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)詞屬性推理模型,見圖2。

        圖2 詞屬性推理模型結(jié)構(gòu)設(shè)計(jì)

        詞語的字向量輸入詞屬性推理模型后,經(jīng)過卷積層的輸出為:

        c1=conv(f1,X,‘valid’)+b1

        公式3

        c2=conv(f2,X,‘valid’)+b2

        公式4

        式中conv表示二維的卷積操作運(yùn)算,f1、f2表示兩個(gè)不同大小的卷積核,X表示輸入詞語的字向量(x1,x2……xi),“valid”是本文選擇的卷積操作處理邊界問題的一種方式,b1、b2分別表示兩個(gè)卷積層的偏置量。將c1、c2進(jìn)行連接操作后輸入到下一層的全連接層中:

        c=concat(c1,c2)

        公式5

        m=c×w1+b3

        公式6

        式中concat操作表示將兩個(gè)卷積層結(jié)果連接起來。式中w1是全連接層1的權(quán)重矩陣,b3是偏置量。

        m′=m×Bernoulli(p)

        公式7

        n=m′×w2+b4

        公式8

        以上公式中Bernoulli函數(shù)是為了生成概率向量,也就是隨機(jī)生成一個(gè)只包含0、1的向量,其中p表示生成過程中的概率。將全連接層1的輸出結(jié)果與概率向量相乘,相當(dāng)于隨機(jī)丟棄了其中占比為p的信息,這種做法也被稱為dorpout處理。w2是全連接層2的權(quán)重矩陣,b4是偏置量。模型最后一層對全連接層2的輸出結(jié)果進(jìn)行softmax操作,結(jié)果作為模型的最終輸出,計(jì)算公式如下:

        公式9

        4 實(shí)驗(yàn)結(jié)果分析

        4.1 分析工具

        為了分析詞向量以及詞屬性推理機(jī)制對實(shí)驗(yàn)結(jié)果的影響,設(shè)計(jì)3個(gè)基于BiLSTM-CRF[15]的擴(kuò)展模型:模型CEMRNER使用通用領(lǐng)域詞向量,模型CEMNER_WA使用通用領(lǐng)域詞向量并結(jié)合詞屬性推理機(jī)制,模型CEMRNER_DW_WA使用專業(yè)領(lǐng)域詞向量并結(jié)合詞屬性推理機(jī)制。3個(gè)模型都基于tensorflow框架開發(fā)實(shí)現(xiàn)。

        4.2 實(shí)驗(yàn)數(shù)據(jù)來源及格式

        實(shí)驗(yàn)數(shù)據(jù)來自于臨床電子病歷,采用eHost工具對1 000份電子病歷標(biāo)注并審核確認(rèn),標(biāo)注的實(shí)體類別有:疾病、癥狀、藥品、部位、治療以及檢查。每份電子病歷的標(biāo)注結(jié)果都會(huì)輸出對應(yīng)的xml文件。Annotations標(biāo)簽為根標(biāo)簽,其屬性textSource記錄了病歷文件名稱,每個(gè)實(shí)體信息由annotation以及classMention兩個(gè)標(biāo)簽描述,其中annotation標(biāo)簽中的span子標(biāo)簽描述該實(shí)體在病歷中的位置,spannedText為實(shí)體內(nèi)容,classMention標(biāo)簽中的metionClass子標(biāo)簽指明了當(dāng)前實(shí)體類別。標(biāo)注完成后,將實(shí)驗(yàn)數(shù)據(jù)按照8:1:1的比例隨機(jī)劃分出訓(xùn)練集、驗(yàn)證集以及測試集。

        4.3 結(jié)果分析

        對比分析模型CEMRNER與CEMRNER_DW在測試集上F1值可知,結(jié)合詞屬性推理機(jī)制的模型CEMRNER_WA較沒有引入詞屬性推理機(jī)制的模型CEMRNER在總體水平上有所提升,F(xiàn)1值由0.85提升到0.88,從各實(shí)體類別來看整體識別效果更好。對比分析模型CEMRNER_WA與CEMRNER_DW_WA在測試集上的表現(xiàn)可知,使用領(lǐng)域詞向量的模型表現(xiàn)更優(yōu),總體F1值從0.88上升到0.90。針對每類實(shí)體識別結(jié)果,CEMRNER_DW_WA都表現(xiàn)出1%~2%的提升。

        5 結(jié)語

        本文介紹了融合詞向量及詞屬性推理的中文電子病歷實(shí)體識別方法,以BiLSTM-CRF為基準(zhǔn)模型分別實(shí)現(xiàn)3個(gè)對比模型。實(shí)驗(yàn)結(jié)果表明詞屬性推理機(jī)制的引入可以提升模型實(shí)體識別效果,同時(shí)也證明了專業(yè)領(lǐng)域詞向量比通用領(lǐng)域詞向量在醫(yī)療命名實(shí)體識別任務(wù)中表現(xiàn)更好。

        猜你喜歡
        病歷語料庫實(shí)體
        強(qiáng)迫癥病歷簿
        趣味(語文)(2021年9期)2022-01-18 05:52:42
        “大數(shù)的認(rèn)識”的診斷病歷
        《語料庫翻譯文體學(xué)》評介
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        為何要公開全部病歷?
        村醫(yī)未寫病歷,誰之過?
        中文无码成人免费视频在线观看| 日本经典中文字幕人妻| 国产在线一区二区三区不卡| 久久天天躁夜夜躁狠狠85麻豆 | 免费看黑人男阳茎进女阳道视频| 国产亚洲日韩一区二区三区| 国产人禽杂交18禁网站| 国产91会所女技师在线观看| 欧美日韩精品久久久久| 日本a级特黄特黄刺激大片| 亚洲精品天堂在线观看| 日本亚洲中文字幕一区| 日本高清视频永久网站www| 欧美人与动牲交片免费| 久久精品中文字幕亚洲| 国产三级久久精品三级91| 国产av丝袜旗袍无码网站| 无码电影在线观看一区二区三区| 日韩熟女精品一区二区三区视频| 国产精品久久久天天影视| 伊伊人成亚洲综合人网香| 国产午夜视频免费观看| 青青草在线免费观看视频| 99久久亚洲精品日本无码| 亚洲av无码国产精品色软件| 日本成本人三级在线观看| 亚洲欧美性另类春色| 日本在线一区二区三区视频| 中文字幕亚洲欧美在线不卡| 最近中文字幕完整版| 91精品国产综合久久青草| 日本一区二区三区视频免费在线| 久久超碰97人人做人人爱| 久久精品国产热| 国产91精品自拍视频| 欧美成人精品a∨在线观看| 人人妻人人澡人人爽人人精品电影 | 国产精品国产三级国av在线观看| 国产爆乳无码一区二区在线 | 国产一级自拍av播放| 无套内内射视频网站|