亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于新詞發(fā)現(xiàn)和Lattice-LSTM的中文醫(yī)療命名實體識別

        2021-01-15 08:22:22趙耀全
        計算機應用與軟件 2021年1期
        關(guān)鍵詞:新詞語料命名

        趙耀全 車 超 張 強

        (大連大學計算機輔助設(shè)計國家地方聯(lián)合工程實驗室 遼寧 大連 116622)

        0 引 言

        作為自然語言處理領(lǐng)域的基礎(chǔ)任務(wù),命名實體識別得到了持續(xù)的關(guān)注。在中文命名實體識別中,目前的主流方法是基于字符的LSTM-CRF模型[1]。然而詞語為命名實體識別提供了重要的邊界信息,越來越多的研究利用單詞信息提高識別的準確率。例如:Rei[2]通過構(gòu)建一個單詞語言的模型去提高命名實體識別的準確率;Peters等[3]通過預先訓練一個字符的語言模型來增強單詞表示進而提高識別的準確率。

        然而,在特定領(lǐng)域的命名實體識別中,由于專業(yè)術(shù)語的特殊性,未登錄詞常常會因為歧義造成識別錯誤。這在醫(yī)療領(lǐng)域中尤其嚴重,如“支氣管哮喘”中的“氣管”因為在生活領(lǐng)域是一種工具而被錯誤識別。為了在利用詞語信息的同時減少未登錄詞造成的錯誤,本文在Lattice-LSTM模型[4]基礎(chǔ)上引入新詞發(fā)現(xiàn)進行醫(yī)療命名實體的識別。Lattice-LSTM能夠?qū)⑤斎氲淖址约八心茉谠~典匹配的單詞一起編碼輸入到模型中,選擇出最相關(guān)的字符和單詞,降低歧義發(fā)生的概率,從而提升識別的準確率。為此,本文構(gòu)建了一個醫(yī)療相關(guān)的詞典。在構(gòu)建醫(yī)療詞典的過程中,使用N-grams算法從大量的醫(yī)療對話語料中獲取新詞,幫助分詞算法進行分詞。然后根據(jù)分詞后的結(jié)果使用Word2Vec構(gòu)建一個醫(yī)療的詞典。本文模型將潛在的多種的單詞信息作為特征,構(gòu)建Lattice-LSTM模型來對這些單詞進行建模。如圖1所示,利用構(gòu)建的詞表來構(gòu)建網(wǎng)格結(jié)構(gòu)。圖示的句子包含多種粒度的單詞信息,如果使用門結(jié)構(gòu),可以動態(tài)地控制不同路徑的信息流,從而為模型提供更多的引導,選擇最相關(guān)的字和單詞。與基于字符的方法相比,本文模型加入潛在的多種粒度的單詞信息作為特征,更好地提高了識別的性能。

        圖1 詞表的網(wǎng)格結(jié)構(gòu)

        1 相關(guān)工作

        目前,常用中文分詞方法主要分為基于詞典的方法[5]、基于傳統(tǒng)機器學習的方法[6]、基于深度學習的方法[7]。由于基于詞典的方法簡單高效,在一些實際應用中常常使用,主要以詞典為主,結(jié)合少量的詞法、語法規(guī)則和語義解析。隨著時代的進步,一些新詞不斷涌現(xiàn),詞典的規(guī)模也相應擴大,還會面臨存在未登錄詞的問題。所以,越來越多的學者研究如何發(fā)現(xiàn)新詞去擴充詞典。

        在新詞發(fā)現(xiàn)上,現(xiàn)在常用的方法大致有三種思路。第一種是基于構(gòu)詞法[8],它需要理解特定語言語法規(guī)則;第二種是基于統(tǒng)計模型的方法[9-10],它是基于對字符排列的統(tǒng)計分析和基于詞排列的統(tǒng)計分析;第三種是將語言規(guī)則和統(tǒng)計模型的方法結(jié)合起來的方法[11]。傳統(tǒng)命名實體識別的方法大致分為三種。(1) 基于規(guī)則的命名實體識別的方法,大多需要專家手工構(gòu)造的規(guī)則模板或詞典,例如:Hanisch等[12]提出了ProMiner,它利用預處理的同義詞字典來識別文本中的蛋白質(zhì)和潛在基因;Quimbaya等[13]提出一種基于字典的電子健康命名實體識別方法。(2) 無監(jiān)督學習的典型方法是聚類[14],這是一種基于上下文相似性的方法,例如:Nadeau等[15]提出了一種用于地名詞典建立和命名實體消歧的無監(jiān)督系統(tǒng);Zhang等[16]提出了一種從生物醫(yī)學文本中提取命名實體的無監(jiān)督方法。(3) 在有監(jiān)督的學習方法中,命名實體識別被轉(zhuǎn)換為多分類或者序列標記任務(wù),最大熵[17]和條件隨機場[18]等模型被用來解決序列標注任務(wù)。

        當前,基于深度學習的命名實體識別模型成為主流。例如:Hammerton[19]第一次嘗試使用單向的LSTM去解決這個問題;Collobert等[20]使用CNN-CRF結(jié)構(gòu)在通用命名識別領(lǐng)域取得了比較好的效果;Huang等[21]構(gòu)造了采用手工拼寫特征的BiLSTM-CRF模型,大大提高了識別的效率;Chiu等[22]使用BiLSTM-CNN的模型,使用雙向LSTM和CNN混合結(jié)構(gòu)自動獲取字符和單詞的特征,進一步提高命名實體識別的性能。

        2 實體識別模型

        本文研究提出的命名實體識別方法分為兩步。首先,使用N-grams算法從醫(yī)療對話語料中尋找新詞后構(gòu)建一個醫(yī)療的外部詞典。然后,在基于字的LSTM-CRF的基礎(chǔ)上結(jié)合詞典中潛在的多種單詞信息作為特征,構(gòu)建Lattice-LSTM模型。

        2.1 基于N-grams模型的新詞發(fā)現(xiàn)法

        N-grams新詞發(fā)現(xiàn)法主要利用詞語頻數(shù)和凝固度兩個指標。其中:頻數(shù)指詞語在數(shù)據(jù)中出現(xiàn)的次數(shù);凝固度指詞語片段間的緊密程度,常常用互信息來衡量。提取的新詞就是滿足詞語頻數(shù)和凝固度閾值要求的單詞。

        本文考慮到文本中多個字的內(nèi)部凝固度,即使用N-grams對句子進行切分,然后計算其內(nèi)部凝固度。其中,三個字的凝固度為:

        (1)

        式中:a、b、c是相鄰的三個字;p(a)、p(b)、p(c)代表各自出現(xiàn)的頻率;p(ab)、p(bc)、p(abc)代表組合成詞語后出現(xiàn)的頻率。取組合中凝固度最小的那個為整個字組合的凝固度。

        算法步驟如下:

        步驟1本文中設(shè)n為4字即4grams對句子進行切分。統(tǒng)計2grams、3grams、4grams,計算它們的內(nèi)部凝固度,并設(shè)置不同的閾值,在本文中閾值設(shè)置為5的倍數(shù)。當n為2時,閾值設(shè)置為5;當n為3時,閾值設(shè)置為25;當n為4時,閾值設(shè)置為125。保留高于閾值的片段,構(gòu)成一個集合M。

        步驟2用上面的grams對語料進行粗切分,并統(tǒng)計頻率。切分的規(guī)則是,只要有一個片段在集合M中,該片段就不再切分。以片段“各項目”為例,只要“各項”和“項目”都在集合M中,即使“各項目”不在集合M中,片段“各項目”依然不會被切分。

        步驟3在類似于片段“各項目”的單詞被切分出來之后,再判斷其是否在對應的grams中。如果存在則保留,否則予以刪除。N-grams的優(yōu)點是在互信息較大的情況下,不會切錯詞,同時排除比較模糊的詞。

        使用上面的方法進行實驗,將提取的新詞與結(jié)巴內(nèi)置詞典進行對比篩選。然后,將篩選之后剩下的新詞進行人工篩選,進而最終確定發(fā)現(xiàn)的新詞。

        2.2 Lattice-LSTM

        基本的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)由于梯度消失的原因不能很好地學習到長距離依賴關(guān)系。為此,長短期網(wǎng)絡(luò)(LSTM)在RNN的基礎(chǔ)上引入記憶單元來記錄狀態(tài)信息,通過輸入門、遺忘門和輸出門這三個門結(jié)構(gòu)去更新隱藏狀態(tài)和記憶單元。

        (2)

        式中:ec表示字向量映射表。LSTM模型中計算式包括:

        (3)

        (4)

        (5)

        (6)

        (7)

        (8)

        圖2 Lattice-LSTM模型

        (9)

        (10)

        (11)

        (12)

        (13)

        (14)

        (15)

        (16)

        (17)

        2.3 CRF層

        在h1,h2,…,hn上使用CFR層,最后得到標簽序列的概率為:

        (18)

        3 實 驗

        3.1 數(shù)據(jù)集

        在中文醫(yī)療命名實體識別的任務(wù)中,實驗所用的數(shù)據(jù)來自醫(yī)療網(wǎng)站上的醫(yī)生和患者的對話數(shù)據(jù)。數(shù)據(jù)由具有臨床經(jīng)驗的醫(yī)生進行標注,語料整體標注質(zhì)量較高,其中數(shù)據(jù)中的實體采用BIO的標注方式。對話數(shù)據(jù)中一共標注了5種實體類型,包括疾病名稱、藥品名稱、臨床表現(xiàn)、治療方法和檢測方法,不同類型的具體數(shù)目如表1所示。其中訓練數(shù)據(jù)1 201 KB,驗證數(shù)據(jù)325 KB,測試數(shù)據(jù)322 KB。

        表1 實體的類型及其數(shù)目 KB

        3.2 評測指標

        本文中文命名實體識別任務(wù)采用F1值來進行評測。輸出的結(jié)果集合為S={s1,s2,…,sm},人工標注的結(jié)果集合為G={g1,g2,…,gn}。定義si∈S與gi∈G等價,當且僅當:

        max(si·posb,gi·posb)≤min(sipose,gj·pose)

        (19)

        si·c=gic

        (20)

        式中:posb和pose分別代表實體在句子中開始位置和結(jié)束位置;c代表實體類型。式(19)表示預測集和輸出集的某個實體在位置上有交集。

        基于以上等價關(guān)系,定義集合S和G的松弛交集∩,因此得到評價指標F1:

        (21)

        (22)

        (23)

        式中:P表示準確率,是預測正確的結(jié)果占所有預測結(jié)果的比例;R表示召回率,是預測正確的結(jié)果占所有數(shù)據(jù)的比例。

        3.3 超參數(shù)設(shè)置

        在神經(jīng)網(wǎng)絡(luò)模型中超參數(shù)的選擇對模型有著很大的影響。本文模型的超參數(shù)設(shè)置如表2所示。LSTM是模型層數(shù)為1、隱藏層維度為200的網(wǎng)絡(luò)結(jié)構(gòu)。在字向量和單詞向量使用Dropout,并且Dropout比率設(shè)置為50%。使用SGD(隨機梯度下降法)對模型進行優(yōu)化:

        lr=init_lr×((1-decay_rate)×epoch)

        (24)

        式中:epoch代表使用訓練集的全部數(shù)據(jù)對模型進行的訓練次數(shù);init_lr為初始學習率,設(shè)置為0.015;decay_rate為衰減率,設(shè)置為0.05。

        表2 超參數(shù)設(shè)置

        3.4 實驗結(jié)果及分析

        經(jīng)過N-grams新詞發(fā)現(xiàn)算法提取到部分新詞包括:布地奈德、舒利迭、小細胞肺癌、未見、保守治療、倍他樂克、二甲雙胍、肺動脈高壓、希望醫(yī)生、可能是。

        在新詞發(fā)現(xiàn)的結(jié)果中,出現(xiàn)了一些像“未見”“希望醫(yī)生”“可能是”不是醫(yī)療實體的錯誤詞語,這些詞語由于凝固度較高從而產(chǎn)生了較高的互信息被抽取出來。很多專業(yè)的術(shù)語都被正確地提取出來,如“布地奈德”“二甲雙胍”“小細胞肺癌”等醫(yī)療專業(yè)名稱。但是,一些出現(xiàn)次數(shù)比較少的專業(yè)單詞不能做到很好的發(fā)現(xiàn),如“孟魯司特鈉片”“硫酸沙丁胺醇口腔崩解片”“脾氨肽口服液”等。因此,通過擴大語料規(guī)?;蛘卟杉嘞鄬Y狀的醫(yī)療對話來提高新詞發(fā)現(xiàn)的數(shù)量。

        表3給出了本文基于N-grams新詞發(fā)現(xiàn)的Lattice-LSTM的多粒度命名實體識別模型在醫(yī)療對話數(shù)據(jù)集上的實驗結(jié)果,并且同中文命名實體識別常用的基于字符的CRF、LSTM-CRF和BILSTM-CRF模型的實驗結(jié)果進行了對比。與傳統(tǒng)方法相比,本文基于N-grams新詞發(fā)現(xiàn)的Lattice-LSTM算法的F1值得到很大的提升,相對于沒有進行過新詞發(fā)現(xiàn)的Lattice-LSTM算法F1值也從89.73%提高到90.95%。

        表3 實驗結(jié)果對比 %

        通過對實驗結(jié)果的對比分析,本文基于N-grams新詞發(fā)現(xiàn)的Lattice-LSTM的命名實體識別模型在醫(yī)療命名實體上有很好的效果。由于實驗所用醫(yī)療對話語料針對的疾病類型主要是高血壓、肺病,涉及疾病類型不全面,所以提取到的新詞數(shù)量不多,但相對于沒有經(jīng)過新詞發(fā)現(xiàn)的Lattice-LSTM算法有了一定的提升。由于評測指標中采用交集的計算方式,在CRF模型上出現(xiàn)了較多的一個目標標簽對應多個正確的標簽,從而F1值相對于LSTM+CRF有一定的提高。本文提出的命名實體識別模型充分利用了經(jīng)過新詞發(fā)現(xiàn)法構(gòu)建的詞典里的多種粒度的單詞信息,對命名實體識別任務(wù)效果的提高起到了一定的幫助作用。

        4 結(jié) 語

        本文針對醫(yī)療的命名實體識別任務(wù),提出一種基于新詞發(fā)現(xiàn)和Lattice-LSTM的多粒度的命名實體識別模型。通過N-grams算法去發(fā)現(xiàn)新詞,從而構(gòu)建一個有針對性的詞典,然后使用Lattice-LSTM模型選擇了詞典中最優(yōu)的字符和單詞,從而取得了更好的結(jié)果。但是在新詞發(fā)現(xiàn)的過程中,一些不是醫(yī)療實體的錯誤單詞由于凝固度較高也被識別出來,給后期新詞篩選工作增加了負擔。接下來我們會探索更有效的新詞發(fā)現(xiàn)方法,應用在基于Lattice-LSTM命名實體模型中。

        猜你喜歡
        新詞語料命名
        命名——助力有機化學的學習
        《微群新詞》選刊之十四
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實語料在翻譯教學中的應用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學實證研究比較:語料類型與收集方法
        小議網(wǎng)絡(luò)新詞“周邊”
        語文知識(2014年12期)2014-02-28 22:01:18
        外教新詞堂
        亚洲国产成人久久综合下载| 国产好片日本一区二区三区四区 | 极品尤物在线精品一区二区三区 | 青青草99久久精品国产综合| 亚洲在线视频一区二区| 国产理论亚洲天堂av| 91三级在线观看免费| 五月天激情电影| 国产激情视频一区二区三区| 国产zzjjzzjj视频全免费| 久久99欧美| 亚洲人成网站18男男| 国产精品亚洲av无人区一区蜜桃| 国产精品一区二区韩国av| 包皮上有一点一点白色的| 久久久www成人免费毛片| 99精品国产99久久久久久97| 久久AV老司机精品网站导航| 亚洲一区二区在线视频播放| 日本高清中文字幕二区在线 | 亚洲一区二区三区少妇| 色欲欲www成人网站| 国产97在线 | 亚洲| 18禁男女爽爽爽午夜网站免费| 国产高清吃奶成免费视频网站| 国产一区二区三区亚洲天堂| 老岳肥屁熟女四五十路| 久久精品色福利熟妇丰满人妻91| 国产日韩精品欧美一区喷水| 人人爽人人爱| 99在线精品国产不卡在线观看| 成人免费无码视频在线网站| 亚洲人妻av综合久久| 风韵丰满熟妇啪啪区99杏| 青青草国产精品一区二区| 少妇寂寞难耐被黑人中出| 亚洲色大成人一区二区| 美女扒开内裤露黑毛无遮挡 | 亚洲在AV极品无码天堂手机版 | 男女搞事在线观看视频| 亚洲va久久久噜噜噜久久天堂|