亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合實(shí)體-語(yǔ)句特征信息的中醫(yī)醫(yī)案實(shí)體識(shí)別研究

        2024-09-22 00:00:00王豐陳根浪吳創(chuàng)
        軟件工程 2024年9期

        關(guān)鍵詞:特征融合;命名實(shí)體識(shí)別;BERT;中醫(yī)

        中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

        0 引言(Introduction)

        中醫(yī)醫(yī)案中蘊(yùn)含著中醫(yī)專(zhuān)家豐富的診療經(jīng)驗(yàn)和理論,因此有效提取醫(yī)案中的草藥、癥狀、證、劑量等信息[1]對(duì)于后續(xù)探尋診療規(guī)律[2]、構(gòu)建診療模型[3]具有重要意義,是傳承中醫(yī)學(xué)的重要實(shí)踐方式。

        在中醫(yī)領(lǐng)域,命名實(shí)體識(shí)別(Named Entity Recognition,NER)被用于提取癥狀、中藥等實(shí)體信息,是中醫(yī)知識(shí)圖譜構(gòu)建的重要技術(shù)之一。中醫(yī)命名實(shí)體具有復(fù)雜、長(zhǎng)度不確定等特點(diǎn),并且存在許多嵌套實(shí)體,因此中醫(yī)實(shí)體識(shí)別更具挑戰(zhàn)性。考慮到中藥之間的配伍關(guān)系和癥狀的共現(xiàn)性,本文提出了一種中醫(yī)實(shí)體融合識(shí)別方法。該方法將每個(gè)實(shí)體向量和語(yǔ)句向量相融合,獲得帶有全局特征信息的實(shí)體向量,進(jìn)一步將實(shí)體向量和語(yǔ)句向量進(jìn)行連接以獲得融合后的特征向量。本文使用多組基于BERT(Bidirectional Encoder Representation fromTransformers)的模型進(jìn)行了實(shí)驗(yàn)與測(cè)試。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在中醫(yī)醫(yī)案的實(shí)體識(shí)別任務(wù)上的精確率有顯著提高,可為中醫(yī)醫(yī)案的實(shí)體識(shí)別提供有益的參考。

        1 相關(guān)工作(Related work)

        命名實(shí)體識(shí)別是中醫(yī)領(lǐng)域信息提取的關(guān)鍵任務(wù),也是中醫(yī)數(shù)據(jù)挖掘和構(gòu)建中醫(yī)輔助診斷系統(tǒng)的重要步驟。醫(yī)學(xué)命名實(shí)體識(shí)別方法可分為基于規(guī)則和領(lǐng)域詞典的字符匹配的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。

        早期的實(shí)體識(shí)別方法主要依賴(lài)專(zhuān)家構(gòu)造語(yǔ)法和語(yǔ)義規(guī)則,根據(jù)規(guī)則進(jìn)行模式匹配來(lái)完成對(duì)實(shí)體的抽取。中醫(yī)師們利用醫(yī)學(xué)字典和專(zhuān)業(yè)人員的臨床專(zhuān)業(yè)知識(shí)構(gòu)建模板和規(guī)則。ZINGMOND等[4]通過(guò)研究醫(yī)學(xué)語(yǔ)料庫(kù)中的規(guī)則,并結(jié)合處理醫(yī)學(xué)文本報(bào)告的自然語(yǔ)言處理方法,構(gòu)造了一個(gè)文本處理器。FRIEDMAN等[5]設(shè)計(jì)了一種通用自然語(yǔ)言文本處理器,用于提取醫(yī)學(xué)報(bào)告中的臨床信息。這類(lèi)方法存在準(zhǔn)確性過(guò)度依賴(lài)模板質(zhì)量和可移植性的問(wèn)題。

        機(jī)器學(xué)習(xí)方法將實(shí)體識(shí)別任務(wù)轉(zhuǎn)換為字符(Token)級(jí)別的多分類(lèi)問(wèn)題或是序列標(biāo)注問(wèn)題,在構(gòu)造標(biāo)注數(shù)據(jù)的同時(shí),通過(guò)學(xué)習(xí)將不同字符映射成為不同標(biāo)簽。例如,隱馬爾可夫模型、支持向量機(jī)、條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型等常見(jiàn)的機(jī)器學(xué)習(xí)算法均被廣泛應(yīng)用于實(shí)體識(shí)別。高佳奕等[6]將條件隨機(jī)場(chǎng)模型應(yīng)用于中醫(yī)實(shí)體識(shí)別,在名老中醫(yī)臨床肺癌醫(yī)案實(shí)體識(shí)別任務(wù)中取得了滿意的效果。任宋潔[7]使用條件隨機(jī)場(chǎng)模型對(duì)藥品說(shuō)明書(shū)進(jìn)行實(shí)體識(shí)別。這些方法雖然減少了對(duì)人工構(gòu)建模板的需求,但是仍然需要大量的特征工程。

        深度學(xué)習(xí)方法避免了煩瑣的特征工程,采用向量化表示以及神經(jīng)網(wǎng)絡(luò)式的傳導(dǎo)求解探索隱藏的語(yǔ)義信息。DENG等[8]構(gòu)建了雙向長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)并結(jié)合條件隨機(jī)場(chǎng)模型識(shí)別中醫(yī)藥專(zhuān)利中的實(shí)體,并取得了良好的效果。在Transformer提出后,兩段式訓(xùn)練被廣泛應(yīng)用。雙向Transformer編碼器的BERT預(yù)訓(xùn)練語(yǔ)言模型則提升了詞向量的語(yǔ)義表征能力,使其在命名實(shí)體識(shí)別上有較大的性能提升。何濤等[9]使用BERT模型配合條件隨機(jī)場(chǎng)模型從電子病歷中提取實(shí)體,并驗(yàn)證了BERT-CRF模型應(yīng)用在中文實(shí)體識(shí)別中尤其是在中醫(yī)實(shí)體識(shí)別任務(wù)上的有效性。

        2 模型架構(gòu)(Model architecture)

        2.1 模型概述

        本文提出的模型整體架構(gòu)如圖1所示。在輸入文本序列添加特殊標(biāo)記[CLS]和[SEP]后,經(jīng)由BERT模型的嵌入層對(duì)輸入序列進(jìn)行編碼,生成語(yǔ)義向量表示。虛線框是本文提出的融合模塊,將實(shí)體向量Hn 和語(yǔ)句向量H 相乘,獲得的融合向量H'n 包含了單個(gè)實(shí)體與語(yǔ)句環(huán)境的特征信息,之后將添加語(yǔ)義信息后的融合向量H'n 與原始語(yǔ)句向量H 連接,得到保留上下文實(shí)體關(guān)系的融合特征向量。該方法可以捕捉實(shí)體之間的依賴(lài)關(guān)系并提取出更豐富的語(yǔ)義特征。條件隨機(jī)場(chǎng)模型負(fù)責(zé)對(duì)融合向量進(jìn)行解碼,計(jì)算得分最高的標(biāo)簽,可以獲得最佳的訓(xùn)練標(biāo)簽序列。下文將詳細(xì)介紹模型的每一模塊。

        2.2BERT預(yù)訓(xùn)練模型

        BERT模型的輸入表征如圖2所示。輸入由詞嵌入向量(Token Embedding)、分段嵌入向量(Segment Embedding)和位置嵌入向量(Position Embedding)組成。文本數(shù)據(jù)被轉(zhuǎn)換為向量,并且為每個(gè)句子的開(kāi)頭和結(jié)尾添加特殊標(biāo)志[CLS]和[SEP],經(jīng)過(guò)詞嵌入后的向量被轉(zhuǎn)換成一個(gè)768維的向量。分段嵌入層使用兩種向量表示法為句子對(duì)中的兩個(gè)句子分配不同的向量表示,用于區(qū)分兩個(gè)句子的前后順序。位置嵌入層為每個(gè)位置學(xué)習(xí)一個(gè)代表序列順序信息的向量和一個(gè)大小為(512×768)的查找表用于表示序列中各個(gè)位置的特征。3個(gè)嵌入層的向量按元素相加得到BERT編碼層的輸入。

        BERT預(yù)訓(xùn)練模型的實(shí)現(xiàn)基于多層雙向Transformer編碼器且采用掩碼語(yǔ)言模型用于預(yù)訓(xùn)練,生成融合上下文信息的深層雙向語(yǔ)言表征。本文實(shí)驗(yàn)選擇使用中文維基百科相關(guān)語(yǔ)料的預(yù)訓(xùn)練BERT-base-Chinese模型,其結(jié)構(gòu)為12層編碼器,每層有12個(gè)端口,向量維數(shù)為768維。

        2.3 融合層

        在中醫(yī)文本中,實(shí)體之間存在一些固定的上下文信息。例如,前人把單味藥的應(yīng)用同藥與藥之間的配伍關(guān)系稱(chēng)為藥物的“七情”,例如“桂枝配白芍”二藥配伍,一溫一寒,一斂一散,針對(duì)衛(wèi)強(qiáng)營(yíng)弱,可調(diào)和營(yíng)衛(wèi)?!安窈潼S芩”二藥配伍,具有較好的和解少陽(yáng)、疏散肝膽郁熱的作用。藥物配合使用,藥與藥之間會(huì)發(fā)生某些相互作用,有的能增強(qiáng)或降低原有藥效,有的能抑制或消除毒副作用。在癥狀描述中,患者的某些癥狀往往伴隨產(chǎn)生,如“鼻涕多、鼻塞”“久咳多痰”等通常會(huì)伴隨某種疾病出現(xiàn)。為了更好地適配中醫(yī)醫(yī)案文本的藥物配伍關(guān)系和癥狀的共現(xiàn)性,獲得更豐富的實(shí)體間特征,本文提取文本中的單個(gè)草藥實(shí)體和其他實(shí)體,并將草藥實(shí)體放入中藥處方語(yǔ)境中。同樣,將癥狀實(shí)體放入其經(jīng)常出現(xiàn)的語(yǔ)境中進(jìn)行實(shí)體融合,使得實(shí)體不僅具有自身的特征,還具備文本中其他實(shí)體的語(yǔ)境特征。因此,與單個(gè)實(shí)體向量相比,融合向量擁有更多關(guān)于每個(gè)實(shí)體與整個(gè)語(yǔ)句之間關(guān)系的特征信息。融合模塊的具體算法流程如下。

        3 實(shí)驗(yàn)(Experiment)

        3.1 數(shù)據(jù)預(yù)處理

        實(shí)驗(yàn)選取了4000多份患者的臨床病歷,經(jīng)過(guò)數(shù)據(jù)清洗和冗余處理等預(yù)處理步驟,保障了數(shù)據(jù)的可靠性。結(jié)合特定領(lǐng)域的知識(shí)以及專(zhuān)家的見(jiàn)解對(duì)數(shù)據(jù)進(jìn)行標(biāo)注并構(gòu)建了一個(gè)中醫(yī)語(yǔ)料庫(kù),其中包括20 400個(gè)草藥實(shí)體和26072個(gè)癥狀實(shí)體。

        考慮到中醫(yī)實(shí)體具有很強(qiáng)的領(lǐng)域?qū)I(yè)性,需要制定規(guī)范的標(biāo)注策略以更好地確定實(shí)體之間的差異性,保證標(biāo)注數(shù)據(jù)的完整性。標(biāo)注規(guī)范描述如下。

        (1)同一中藥材采用不同的炮制方法會(huì)產(chǎn)生不同的功效,因此標(biāo)注上要進(jìn)行區(qū)分。例如:生麥芽具有回乳消脹的功效;炒麥芽有健胃消食的作用。

        (2)癥狀中存在大量嵌套實(shí)體,因此對(duì)嵌套的癥狀要進(jìn)行區(qū)分。例如:舌紅苔白和舌紅苔白厚膩表示不同癥狀。

        (3)專(zhuān)業(yè)的中醫(yī)師在描述癥狀時(shí)存在一定的口語(yǔ)化特點(diǎn),部分癥狀描述可能會(huì)采用縮寫(xiě)形式,因此對(duì)癥狀描述的差異性要進(jìn)行標(biāo)注上的區(qū)分。例如:手心萎黃和手黃。

        本文數(shù)據(jù)集采用BMES(Beginning Middle End Single)標(biāo)注方法,具體格式如表1所示。其中:B代表實(shí)體的起始位置,M代表實(shí)體的中間位置,E代表實(shí)體的結(jié)束位置,S代表單一實(shí)體,O代表非實(shí)體部分。數(shù)據(jù)按6∶2∶2的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

        3.2 實(shí)驗(yàn)環(huán)境

        本實(shí)驗(yàn)基于Pytorch框架構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,具體實(shí)驗(yàn)環(huán)境配置如表2所示。

        3.4 實(shí)驗(yàn)參數(shù)

        實(shí)驗(yàn)中使用BERT 預(yù)訓(xùn)練模型為12層Transformer網(wǎng)絡(luò),隱藏層狀態(tài)的維數(shù)為768,BERT預(yù)訓(xùn)練模型的學(xué)習(xí)率為1e-5,CRF層的學(xué)習(xí)率為1e-3,以30輪迭代訓(xùn)練的最優(yōu)結(jié)果作為最終訓(xùn)練結(jié)果。實(shí)驗(yàn)參數(shù)如表3所示。

        3.5 結(jié)果與分析

        將實(shí)體識(shí)別抽象為序列標(biāo)注問(wèn)題后,本研究首先使用Softmax函數(shù)對(duì)融合層的輸出向量進(jìn)行分類(lèi),以獲取訓(xùn)練好的標(biāo)注序列。考慮標(biāo)簽的預(yù)測(cè)相對(duì)獨(dú)立,實(shí)體識(shí)別的準(zhǔn)確率是將實(shí)體包括邊界作為整體計(jì)算,因此將Softmax函數(shù)替換為條件隨機(jī)場(chǎng)模塊,確保標(biāo)簽之間的約束性。在癥狀實(shí)體的精確度上,添加Softmax函數(shù)在BERT模型后的表現(xiàn)略好于條件隨機(jī)場(chǎng)模塊,而F1分?jǐn)?shù)和召回率則稍差。在中藥實(shí)體方面,添加條件隨機(jī)場(chǎng)模塊在P、R、F1三個(gè)指標(biāo)上的表現(xiàn)更勝一籌。不同模型的實(shí)驗(yàn)結(jié)果對(duì)比如表4所示。

        在BERT-CRF模型的基礎(chǔ)上,加入雙向長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)獲取上下文特征信息。BiLSTM 通過(guò)其門(mén)控結(jié)構(gòu)控制神經(jīng)元的傳輸,從而學(xué)習(xí)中藥和癥狀文本中存在的上下文關(guān)系。加入上下文特征后,訓(xùn)練結(jié)果并未得到顯著改善。本文分析認(rèn)為BiLSTM可能忽略了局部特征,因此加入了空洞卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated Convolutional Neural Network,IDCNN)模塊??斩淳矸e在不使用池化損失信息的情況下擴(kuò)大了感受野,使每個(gè)卷積輸出都包含更大范圍的信息。然而,添加空洞卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和雙向長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)并未對(duì)實(shí)體識(shí)別效果帶來(lái)明顯的提升。

        為了使模型能夠更好地獲取中醫(yī)上下文特征信息,本文提出了實(shí)體特征融合的結(jié)構(gòu),添加特征融合模塊后的中藥實(shí)體識(shí)別效果提升顯著,這主要得益于中藥之間的配伍關(guān)系更加密切。由于本文的特征融合方法更好地關(guān)注到了上下文特征信息,在中醫(yī)語(yǔ)料上實(shí)體識(shí)別效果優(yōu)于其他方法。與BERT-CRF模型相比,中藥實(shí)體識(shí)別F1分?jǐn)?shù)提高了1.44百分點(diǎn),癥狀實(shí)體提高了0.14百分點(diǎn)。與BERT-IDCNN-BiLSTM-CRF模型相比,中藥實(shí)體識(shí)別F1分?jǐn)?shù)提高了2.83百分點(diǎn),癥狀實(shí)體提高了4.67百分點(diǎn)。

        4 結(jié)論(Conclusion)

        本研究通過(guò)融合BERT預(yù)訓(xùn)練模型提取的語(yǔ)句特征向量和實(shí)體特征向量,更有效地捕捉到了中醫(yī)實(shí)體之間的特征信息。將融合向量輸入條件隨機(jī)場(chǎng)模塊,在標(biāo)簽序列預(yù)測(cè)過(guò)程中降低了非法序列的發(fā)生概率,從而提高了標(biāo)簽預(yù)測(cè)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在對(duì)中醫(yī)命名實(shí)體識(shí)別的效果上優(yōu)于其他方法。未來(lái)的研究將進(jìn)一步完善數(shù)據(jù)集和方法,以提高對(duì)相似文本實(shí)體的準(zhǔn)確識(shí)別率。

        作者簡(jiǎn)介:

        王豐(1999-),男,碩士生。研究領(lǐng)域:中醫(yī)智能化技術(shù)及應(yīng)用。

        陳根浪(1978-),男,博士,教授。研究領(lǐng)域:大數(shù)據(jù)及人工智能,生命健康領(lǐng)域。

        吳創(chuàng)(1998-),男,碩士生。研究領(lǐng)域:中醫(yī)智能化技術(shù)及應(yīng)用。

        轻点好疼好大好爽视频| 国产精品国产三级国a| 亚洲最大在线视频一区二区| 国产放荡对白视频在线观看| 18无码粉嫩小泬无套在线观看| 在线观看一区二区女同| 老熟妇Av| 国产亚洲精品视频在线| 亚洲综合日韩精品一区二区| 在熟睡夫面前侵犯我在线播放| 夜夜嗨av一区二区三区| 91青草久久久久久清纯| 亚洲一区极品美女写真在线看| 日韩人妻系列在线观看| 久久不见久久见免费视频6| 国产亚洲av无码专区a∨麻豆| 精品欧美久久99久久久另类专区| 中文字幕亚洲精品综合| 国产aⅴ激情无码久久久无码| 国产人妻精品一区二区三区不卡| 在线视频青青草猎艳自拍69| 亚洲熟女天堂av一区二区三区| 男人扒开女人双腿猛进视频| 黄网站欧美内射| 日本大片免费观看完整视频| 成人国产乱对白在线观看| 最新国产精品国产三级国产av| 内射白浆一区二区在线观看| 午夜成人理论无码电影在线播放 | 忘忧草社区www日本高清| 日韩电影一区二区三区| 国产午夜激无码AV毛片不卡| 精品久久一品二品三品| 一边做一边喷17p亚洲乱妇50p| 日韩中文字幕欧美亚洲第一区| 亚洲高清一区二区三区视频| 手机在线免费观看av不卡网站| 亚洲成在人线av品善网好看| 猫咪免费人成网站在线观看| 国产呦系列呦交| 久久婷婷综合激情五月|