亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LSTM-CRF命名實(shí)體識(shí)別技術(shù)的研究與應(yīng)用

        2019-02-25 13:14:50張聰品劉昱良
        關(guān)鍵詞:實(shí)驗(yàn)信息模型

        張聰品,方 滔,劉昱良

        (河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007)

        0 引 言

        電子病歷是指醫(yī)務(wù)人員在醫(yī)療活動(dòng)過(guò)程中,使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的文字、符號(hào)、圖表、圖形、數(shù)據(jù)、影像等數(shù)字化信息,并能實(shí)現(xiàn)存儲(chǔ)、管理、傳輸和重現(xiàn)的醫(yī)療記錄[1],是由醫(yī)務(wù)人員撰寫的面向患者個(gè)體描述醫(yī)療活動(dòng)的記錄。

        隨著自然語(yǔ)言處理技術(shù)的發(fā)展,可以從電子病歷的文本[2]中自動(dòng)提取大量專業(yè)醫(yī)療知識(shí),構(gòu)建醫(yī)療知識(shí)圖譜。如電子病歷中,“患者緣于1年前無(wú)明顯誘因出現(xiàn)頸肩部及腰部疼痛、右上肢麻木,入院后進(jìn)行頸椎CT檢查:頸椎間盤突出。入院后給予患者頸椎牽引、頸部手法推拿、頸部中藥塌漬、頸部微波照射治療。于今日出院?!痹诓v中,“頸椎CT檢查”證實(shí)了“無(wú)明顯誘因出現(xiàn)頸肩部及腰部疼痛、右上肢麻木”的發(fā)生;而“患者頸椎牽引”、“頸部手法推拿”、“頸部中藥塌漬”、“頸部微波照射治療”這些治療使患者的癥狀消失了,為了從電子病歷里抽取出這些相關(guān)的醫(yī)療知識(shí)(即關(guān)系抽取),構(gòu)建醫(yī)療知識(shí)圖譜,首先需要識(shí)別出電子病歷文本中與患者健康密切相關(guān)的各類命名實(shí)體,如“腰部”等身體部位、“疼痛”等癥狀、“頸椎CT檢查”等檢查手段、“頸椎間盤突出”等疾病名稱、“頸部手法推拿”等實(shí)施的治療。身體部位、癥狀、檢查手段、疾病名稱、治療這些概念在電子病歷信息抽取研究中被稱為命名實(shí)體[3]。

        傳統(tǒng)的中文實(shí)體識(shí)別方法有條件隨機(jī)場(chǎng)、字典法和混合方法[4]。隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)廣泛應(yīng)用于自然語(yǔ)言處理中,包括中文命名實(shí)體識(shí)別[5]?;谏疃壬窠?jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別模型中,使用神經(jīng)網(wǎng)絡(luò)隱含層的上下文向量作為輸出層標(biāo)注的特征,但是神經(jīng)網(wǎng)絡(luò)模型卻無(wú)法表示標(biāo)注之間的約束關(guān)系[6]。

        通過(guò)在長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)模型中內(nèi)嵌條件隨機(jī)場(chǎng)(CRF)模型,利用CRF模型表示標(biāo)注之間的約束關(guān)系。構(gòu)建了LSTM-CRF模型,自動(dòng)識(shí)別出電子病歷中的五類中文命名實(shí)體:身體部位、疾病名稱、檢查手段、癥狀和治療,為下一步抽取關(guān)系信息[7],構(gòu)建醫(yī)療知識(shí)圖譜奠定了基礎(chǔ)。

        1 LSTM-CRF模型

        傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)輸出只依賴于當(dāng)前的輸入,循環(huán)神經(jīng)網(wǎng)絡(luò)通過(guò)使用帶自反饋的神經(jīng)元,能夠處理任意長(zhǎng)度的序列,解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)解決不了的變長(zhǎng)輸入和相互依賴的處理任務(wù)[8]。長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型解決了循環(huán)神經(jīng)網(wǎng)絡(luò)由于梯度爆炸或消失只能學(xué)習(xí)到短周期的依賴關(guān)系問(wèn)題[9]。

        LSTM模型通過(guò)引入一組記憶單元,使得神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)遺忘歷史信息,用新信息更新記憶單元的功能。在時(shí)刻t,記憶單元ct記錄了到當(dāng)前時(shí)刻為止的所有歷史信息,并受三個(gè)“門”控制:輸入門it,遺忘門ft和輸出門ot。三個(gè)門的計(jì)算公式如下所示,三個(gè)門元素的值在[0,1]之間。

        it=σ(Wixt+Uiht-1+Vict-1)

        (1)

        ft=σ(Wfxt+Ufht-1+Vfct-1)

        (2)

        ot=σ(Woxt+Uoht-1+Voct)

        (3)

        (4)

        (5)

        ht=ot⊙tanh(ct)

        (6)

        其中,xt是當(dāng)前時(shí)刻的輸入;σ是logistic 函數(shù);Vi、Vf、Vo是對(duì)角矩陣。遺忘門ft控制每一個(gè)內(nèi)存單元需要遺忘多少信息,輸入門it控制每一個(gè)內(nèi)存單元加入多少新的信息,輸出門ot控制每一個(gè)內(nèi)存單元輸出多少信息。

        LSTM模型工作時(shí),首先由遺忘門層通過(guò)sigmoid來(lái)控制確定通過(guò)記憶單元的信息。根據(jù)上一時(shí)刻的輸出ht-1和當(dāng)前輸入xt來(lái)產(chǎn)生一個(gè)0到1的ft值,以決定是否讓上一時(shí)刻學(xué)到的信息Ct-1通過(guò)或部分通過(guò)。然后進(jìn)一步產(chǎn)生需要更新的新信息[10]。需要更新的新信息包含兩部分,第一部分是輸入門層通過(guò)sigmoid函數(shù)決定哪些值用來(lái)更新,第二部分是tanh層用來(lái)生成新的候選值C~t,它作為當(dāng)前層產(chǎn)生的候選值會(huì)添加到記憶單元中。模型結(jié)合這兩部分產(chǎn)生的值進(jìn)行更新[11]。

        文中在識(shí)別中文電子病歷中的命名實(shí)體時(shí),將漢字分解成若干個(gè)偏旁部首,每個(gè)漢字表示成d維向量。對(duì)給定的包含n個(gè)漢字的句子(x1,x2,…,xn),句子中的每個(gè)漢字,LSTM模型通過(guò)式1~6計(jì)算字左邊內(nèi)容的ht和字右邊內(nèi)容的ht,得到詞向量的LSTM表示,從而包含了所需要記憶的信息。

        在LSTM神經(jīng)網(wǎng)絡(luò)模型中,直接用ht作為特征值去計(jì)算網(wǎng)絡(luò)輸出yt,在識(shí)別中文命名實(shí)體時(shí),輸出標(biāo)簽之間存在的一些約束條件LSTM模型無(wú)法表示出來(lái)。如文中所識(shí)別的五類中文命名實(shí)體,身體部位BOD、疾病名稱DIS、檢查手段EXA、癥狀SYM和治療TRE,通常B表示開(kāi)始的字,I表示中間的字,E表示最后的字,S表示該實(shí)體是單個(gè)字,I-BOD不能在B-DIS之后,LSTM模型無(wú)法表示這些約束條件,因此在LSTM模型中嵌入CRF模型,利用CRF模型計(jì)算輸出yt的值。

        在條件隨機(jī)場(chǎng)中,每個(gè)特征函數(shù)有下面幾個(gè)輸入值:一個(gè)句子X(jué)、一個(gè)單詞在句子中的位置i、當(dāng)前單詞的標(biāo)簽li、前一個(gè)單詞的標(biāo)簽li1、輸出為一個(gè)實(shí)數(shù)(通常是0或者1)[12]。在LSTM-CRF模型中,首先定義了句子X(jué)輸出標(biāo)簽序列y的分值s(X,y)的計(jì)算公式。

        (7)

        其中,A是轉(zhuǎn)移矩陣,表示將所有狀態(tài)一步轉(zhuǎn)移的概率;P是LSTM輸出的矩陣,pi,j是假設(shè)從第i個(gè)字到第j個(gè)字作為一個(gè)實(shí)體的分值。根據(jù)s(X,y)的值選擇y。

        輸出y*=argmaxs(x,y'),其中y'∈Yx,Yx表示y所有可能的標(biāo)簽序列。所設(shè)計(jì)實(shí)現(xiàn)的LSTM-CRF模型結(jié)構(gòu)如圖1所示。

        2 實(shí)驗(yàn)分析

        2.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)的硬件環(huán)境如下:處理器為intel@Corei7CPU

        圖1 LSTM-CRF模型

        @3.60 GHz*8;內(nèi)存32 G;GPU為TITAN X (Pascal);操作系統(tǒng)為Ubuntu16.04。

        文中設(shè)計(jì)實(shí)現(xiàn)的中文電子病歷命名實(shí)體識(shí)別程序,使用Python程序設(shè)計(jì)語(yǔ)言開(kāi)發(fā),開(kāi)發(fā)過(guò)程中調(diào)用的工具包如下:

        jieba-0.38:結(jié)巴分詞模塊可支持精確模式、全模式、搜索引擎模式三種分詞方式,支持基于概率的用戶詞典。實(shí)驗(yàn)過(guò)程中使用精確模式并結(jié)合加載外部用戶詞典,從原文本產(chǎn)生分詞語(yǔ)料。詞典格式設(shè)計(jì)為一個(gè)詞占一行,涵蓋常用醫(yī)學(xué)上的專有名詞即確定的實(shí)體邊界。

        gensim-2.3.0版本:gensim-2.3.0是Word2Vec基于python的實(shí)現(xiàn)。Word2Vec是Google公司發(fā)布的一個(gè)開(kāi)源詞向量工具包,并在語(yǔ)料中獲取了高精度的詞向量表示。實(shí)驗(yàn)中首先使用結(jié)巴分詞庫(kù)產(chǎn)生的分詞語(yǔ)料來(lái)生成詞向量,然后使用Gensim的Word2Vec,訓(xùn)練結(jié)果在構(gòu)建LSTM深度學(xué)習(xí)模型時(shí)使用。

        tensorflow-gpu==1.2.0版本:實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型的開(kāi)源工具。實(shí)驗(yàn)中使用tensorflow-gpu==1.2.0搭建了LSTM神經(jīng)網(wǎng)絡(luò)模型[13-14]。

        2.2 實(shí)驗(yàn)數(shù)據(jù)處理

        首先,在醫(yī)學(xué)專家指導(dǎo)下人工標(biāo)注了100×4條實(shí)體語(yǔ)料[15],并建立字典,字典中包括實(shí)體和實(shí)體類型;其次,利用模型生成部分實(shí)體標(biāo)注語(yǔ)料,并設(shè)計(jì)程序自動(dòng)校對(duì),校對(duì)程序判斷模型生成的語(yǔ)料是否與字典中的一致,包括實(shí)體和實(shí)體類型是否一致;最后,生成深度學(xué)習(xí)模型需要的BIO字標(biāo)簽形式語(yǔ)料。反復(fù)迭代下去,不斷優(yōu)化模型生成語(yǔ)料,直至建立好模型需要的語(yǔ)料。

        2.3 實(shí)驗(yàn)結(jié)果

        準(zhǔn)確率是多分類中最重要的性能指標(biāo)。該實(shí)驗(yàn)中的準(zhǔn)確率達(dá)到96.29%,精確率、召回率、F值分別是91.61%、96.22%、93.85。所識(shí)別的5個(gè)實(shí)體的精確率、召回率和F值如表1所示。

        表1中疾病名稱和治療的精確率相對(duì)較低,主要有兩方面的原因。一是和訓(xùn)練測(cè)試數(shù)據(jù)不均衡相關(guān),因?yàn)殡娮硬v中包含的相關(guān)信息相對(duì)較少;二是和詞典相關(guān),隨著醫(yī)學(xué)技術(shù)的發(fā)展,許多新的治療方法并未錄入詞典中。

        表1 LSTM-CRF多分類器性能評(píng)價(jià)指標(biāo)

        3 結(jié)束語(yǔ)

        文中設(shè)計(jì)實(shí)現(xiàn)了基于LSTM-CRF的中文電子病歷命名實(shí)體識(shí)別系統(tǒng),該系統(tǒng)能識(shí)別五種實(shí)體類型,準(zhǔn)確率達(dá)到了96.29%,超過(guò)了大多數(shù)多分類識(shí)別器的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果為基于中文電子病歷的關(guān)系抽取和構(gòu)建醫(yī)療知識(shí)圖譜奠定了扎實(shí)的基礎(chǔ)。另外,該系統(tǒng)也存在不足,需要進(jìn)一步改進(jìn),如基于LSTM-CRF模型的訓(xùn)練時(shí)間。實(shí)驗(yàn)中,在沒(méi)有GPU的環(huán)境下訓(xùn)練,在人工標(biāo)注的400條語(yǔ)料上,花費(fèi)了69個(gè)小時(shí),在TITAN X (Pascal)GPU的環(huán)境下訓(xùn)練,仍然花費(fèi)了3個(gè)小時(shí),因此下一步工作將進(jìn)一步完善模型,以縮短訓(xùn)練時(shí)間。

        猜你喜歡
        實(shí)驗(yàn)信息模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        展會(huì)信息
        不卡的av网站在线观看| 乱中年女人伦av一区二区| 国产精品美女久久久久av福利| 日日碰狠狠躁久久躁96avv | 啦啦啦中文在线观看日本| 曰本女人与公拘交酡免费视频| 久久99免费精品国产| 中文字幕34一区二区| 朋友的丰满人妻中文字幕| 亚洲国产精品久久久久秋霞影院 | 人妻少妇一区二区三区| 一级午夜理论片日本中文在线| 青青草高中生在线视频| aⅴ精品无码无卡在线观看| 国产免费破外女真实出血视频 | 无码专区天天躁天天躁在线| 阿v视频在线| 女同舌吻互慰一区二区| 香蕉成人伊视频在线观看| 成人免费无码大片a毛片软件| 国产精品亚洲欧美大片在线看| 亚洲天堂手机在线| 亚洲AV秘 片一区二区三区 | 毛片24种姿势无遮无拦| 精品久久久久久电影院| 国产激情视频在线观看首页| 久久老熟女乱色一区二区| 精品精品久久宅男的天堂| 久久aⅴ人妻少妇嫩草影院| 欧美高清视频一区| 久亚洲一线产区二线产区三线麻豆 | 亚洲永久精品日韩成人av| 最新中文字幕人妻少妇| 精品久久久久成人码免费动漫 | 久久精品熟女亚洲av艳妇| 高潮精品熟妇一区二区三区| 亚洲av无码片vr一区二区三区| 精品9e精品视频在线观看| 草草网站影院白丝内射| 国产三级伦理视频在线| 亚洲精品中文字幕一二三|