亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合詞向量及詞屬性推理的中文電子病歷實(shí)體識別方法*

2022-09-07 15:00:38武學(xué)鴻

醫(yī)學(xué)信息學(xué)雜志 2022年7期

關(guān)鍵詞：病歷語料庫實(shí)體

武學(xué)鴻楊峰

(1中南大學(xué)計(jì)算機(jī)學(xué)院長沙 410083 2湖南科創(chuàng)信息技術(shù)股份有限公司長沙 410205) (中南大學(xué)計(jì)算機(jī)學(xué)院長沙 410083)

李建華徐倩

(湖南科創(chuàng)信息技術(shù)股份有限公司長沙 410205) (中南大學(xué)湘雅醫(yī)學(xué)院長沙 410003)

1 引言

中文電子病歷的命名實(shí)體識別研究最初主要是基于詞典和規(guī)則的方法[1-4]，形成了醫(yī)療領(lǐng)域3個(gè)代表性通用工具，即MedLEE、MedKA和cTAKES[5]。目前最常用的是基于機(jī)器學(xué)習(xí)的研究方法[6-10]。Wang Y、Yu Z和Chen L等[11]通過基于規(guī)則和條件隨機(jī)場的算法對病歷數(shù)據(jù)進(jìn)行實(shí)體識別。Lei J、Tang B和 Lu X等[9]對比分析條件隨機(jī)場、支持向量機(jī)、最大熵和結(jié)構(gòu)支持向量機(jī)等不同算法在中文電子病歷命名實(shí)體識別中的效果。于楠、王普和翁壯等[12]提出基于多特征融合的中文電子病歷命名實(shí)體識別方法，多特征融合的條件隨機(jī)場模型在僅選取基本特征、上下文窗口為7時(shí)識別效果最好。中文命名實(shí)體識別研究方法常將詞向量、字向量或者二者的簡單結(jié)合作為分類模型的輸入特征[13-14]。本文構(gòu)建醫(yī)學(xué)語料庫來訓(xùn)練醫(yī)學(xué)專業(yè)詞向量，同時(shí)設(shè)計(jì)詞屬性推理模型，以詞語中的每個(gè)字作為輸入得到詞語的詞屬性向量，將其作為詞語的內(nèi)部特征，最后將二者結(jié)合作為模型的輸入特征，見圖1。

圖1 融合詞向量及詞屬性推理的中文電子病歷命名實(shí)體識別方法

2 醫(yī)學(xué)語料庫構(gòu)建與詞向量訓(xùn)練

2.1 構(gòu)建醫(yī)學(xué)語料庫

首先構(gòu)建豐富的醫(yī)學(xué)語料庫，通過收集及預(yù)處理獲取語料庫內(nèi)容，見表1。

表1 醫(yī)學(xué)語料庫

2.2 詞向量訓(xùn)練

2.2.1 相似詞分析法采用skip-gram方法依次將語料分割為單個(gè)詞、初始化向量、二次抽樣、使用詞典查找方法和正則表達(dá)式來修正、訓(xùn)練并保存skip-gram隱含層節(jié)點(diǎn)參數(shù)，從而生成醫(yī)學(xué)專業(yè)領(lǐng)域詞向量。采用歐式距離的倒數(shù)表示詞語之間的相似度，歐式距離越小則詞語之間語義越相關(guān)。假設(shè)有兩個(gè)詞語A、B，向量分別為a(x11,x12,…,x1n)，b(x21,x22,…,x2n)，則A與B的歐氏距離dab的計(jì)算公式為：

公式1

A、B之間的相似度simAB計(jì)算公式為：

公式2

本文列舉了部分典型詞語，分別計(jì)算其在通用領(lǐng)域和專業(yè)領(lǐng)域詞向量空間模型中排名前3的最相似詞，見表2、表3。對比表2及表3，如“發(fā)燒”，在前者中最相似詞分別是“發(fā)熱”“燃燒”“發(fā)光”，而在后者中則是“發(fā)熱”“感冒”“高熱”；又如“拍片”在前者中最相似詞分別是“拍電影”“拍視頻”“照相”，而在后者中則是“CT”“造影”“B超”?；诔ＷR分析來看，醫(yī)學(xué)領(lǐng)域詞向量模型中推薦的相似詞更加準(zhǔn)確。

表2 基于通用領(lǐng)域詞向量空間中最相似詞

表3 基于醫(yī)學(xué)領(lǐng)域詞向量空間中最相似詞

2.2.2 類比推理法除相似詞分析外，類比推理也是一種評價(jià)詞向量空間模型的有效方法。該方法給出一對有語義聯(lián)系的詞語對A與B，然后給定一個(gè)詞語C，可以計(jì)算得到與C有同類語義聯(lián)系的詞語D，見表4。從表4中結(jié)果可以看出兩種詞向量空間模型對詞語的語義特征提取存在差別。如“緊張”一詞，參考“升高-降低”詞語對的反義性，專業(yè)領(lǐng)域詞向量模型推理出為“松軟”，而通用領(lǐng)域詞向量模型推理結(jié)果為“放松”。

表4 類比推理結(jié)果

2.2.3 結(jié)果分析綜上所述專業(yè)領(lǐng)域詞向量中詞語的語義特征比通用領(lǐng)域詞向量更接近詞語在醫(yī)療語境的含義。

3 融合詞屬性推理機(jī)制

詞屬性推理機(jī)制是指根據(jù)詞語中的每個(gè)字推理出其屬性分類信息，再與詞語向量結(jié)合形成融合后的文本特征輸入到分類模型中去。詞屬性推理機(jī)制本質(zhì)上屬于分類任務(wù)，為了盡可能地提取到詞語中單個(gè)字與多個(gè)字的信息，使用多卷積核的卷積神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)詞屬性推理模型，見圖2。

圖2 詞屬性推理模型結(jié)構(gòu)設(shè)計(jì)

詞語的字向量輸入詞屬性推理模型后，經(jīng)過卷積層的輸出為：

c1=conv(f1,X,‘valid’)+b1

公式3

c2=conv(f2,X,‘valid’)+b2

公式4

式中conv表示二維的卷積操作運(yùn)算，f1、f2表示兩個(gè)不同大小的卷積核，X表示輸入詞語的字向量(x1,x2……xi)，“valid”是本文選擇的卷積操作處理邊界問題的一種方式，b1、b2分別表示兩個(gè)卷積層的偏置量。將c1、c2進(jìn)行連接操作后輸入到下一層的全連接層中：

c=concat(c1,c2)

公式5

m=c×w1+b3

公式6

式中concat操作表示將兩個(gè)卷積層結(jié)果連接起來。式中w1是全連接層1的權(quán)重矩陣，b3是偏置量。

m′=m×Bernoulli(p)

公式7

n=m′×w2+b4

公式8

以上公式中Bernoulli函數(shù)是為了生成概率向量，也就是隨機(jī)生成一個(gè)只包含0、1的向量，其中p表示生成過程中的概率。將全連接層1的輸出結(jié)果與概率向量相乘，相當(dāng)于隨機(jī)丟棄了其中占比為p的信息，這種做法也被稱為dorpout處理。w2是全連接層2的權(quán)重矩陣，b4是偏置量。模型最后一層對全連接層2的輸出結(jié)果進(jìn)行softmax操作，結(jié)果作為模型的最終輸出，計(jì)算公式如下：

公式9

4 實(shí)驗(yàn)結(jié)果分析

4.1 分析工具

為了分析詞向量以及詞屬性推理機(jī)制對實(shí)驗(yàn)結(jié)果的影響，設(shè)計(jì)3個(gè)基于BiLSTM-CRF[15]的擴(kuò)展模型：模型CEMRNER使用通用領(lǐng)域詞向量，模型CEMNER_WA使用通用領(lǐng)域詞向量并結(jié)合詞屬性推理機(jī)制，模型CEMRNER_DW_WA使用專業(yè)領(lǐng)域詞向量并結(jié)合詞屬性推理機(jī)制。3個(gè)模型都基于tensorflow框架開發(fā)實(shí)現(xiàn)。

4.2 實(shí)驗(yàn)數(shù)據(jù)來源及格式

實(shí)驗(yàn)數(shù)據(jù)來自于臨床電子病歷，采用eHost工具對1 000份電子病歷標(biāo)注并審核確認(rèn)，標(biāo)注的實(shí)體類別有：疾病、癥狀、藥品、部位、治療以及檢查。每份電子病歷的標(biāo)注結(jié)果都會(huì)輸出對應(yīng)的xml文件。Annotations標(biāo)簽為根標(biāo)簽，其屬性textSource記錄了病歷文件名稱，每個(gè)實(shí)體信息由annotation以及classMention兩個(gè)標(biāo)簽描述，其中annotation標(biāo)簽中的span子標(biāo)簽描述該實(shí)體在病歷中的位置，spannedText為實(shí)體內(nèi)容，classMention標(biāo)簽中的metionClass子標(biāo)簽指明了當(dāng)前實(shí)體類別。標(biāo)注完成后，將實(shí)驗(yàn)數(shù)據(jù)按照8:1:1的比例隨機(jī)劃分出訓(xùn)練集、驗(yàn)證集以及測試集。

4.3 結(jié)果分析

對比分析模型CEMRNER與CEMRNER_DW在測試集上F1值可知，結(jié)合詞屬性推理機(jī)制的模型CEMRNER_WA較沒有引入詞屬性推理機(jī)制的模型CEMRNER在總體水平上有所提升，F(xiàn)1值由0.85提升到0.88，從各實(shí)體類別來看整體識別效果更好。對比分析模型CEMRNER_WA與CEMRNER_DW_WA在測試集上的表現(xiàn)可知，使用領(lǐng)域詞向量的模型表現(xiàn)更優(yōu)，總體F1值從0.88上升到0.90。針對每類實(shí)體識別結(jié)果，CEMRNER_DW_WA都表現(xiàn)出1%～2%的提升。

5 結(jié)語

本文介紹了融合詞向量及詞屬性推理的中文電子病歷實(shí)體識別方法，以BiLSTM-CRF為基準(zhǔn)模型分別實(shí)現(xiàn)3個(gè)對比模型。實(shí)驗(yàn)結(jié)果表明詞屬性推理機(jī)制的引入可以提升模型實(shí)體識別效果，同時(shí)也證明了專業(yè)領(lǐng)域詞向量比通用領(lǐng)域詞向量在醫(yī)療命名實(shí)體識別任務(wù)中表現(xiàn)更好。