亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BLSTM的臨床文本實體關(guān)系抽取

        2019-10-08 06:43:30關(guān)鵬舉曹春萍
        軟件 2019年5期
        關(guān)鍵詞:特征提取

        關(guān)鵬舉 曹春萍

        摘 ?要: 實體關(guān)系的提取是構(gòu)建知識庫的重要組成部分,對臨床文本實體關(guān)系的研究可以促進醫(yī)療衛(wèi)生的發(fā)展。傳統(tǒng)針對實體關(guān)系抽取的方法大多是基于規(guī)則或是機器學習,需要領(lǐng)域?qū)<襾碇贫ù罅刻卣?,而且特征的多少和準確性同時影響關(guān)系抽取結(jié)果的準確性。為了能更好的提取文本特征,同時減少手工制造特征帶來的麻煩,該文提出使用雙向長短期記憶網(wǎng)絡(luò)(BLSTM),利用該模型提取句子級語義特征,從而達到更好的實體關(guān)系抽取效果。通過對比其他模型,證實了該模型的有效性。

        關(guān)鍵詞: 實體關(guān)系抽取;臨床文本;特征提取;雙向長短期記憶網(wǎng)絡(luò)

        中圖分類號: TP391.1 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.05.030

        本文著錄格式:關(guān)鵬舉,曹春萍. 基于BLSTM的臨床文本實體關(guān)系抽取[J]. 軟件,2019,40(5):159162

        【Abstract】: The extraction of entity relationships is an important part of building a knowledge base. The study of the relationship between clinical text can promote the development of health care. Traditional methods for entity relationship extraction are mostly based on rules or machine learning. Domain experts are required to manufacture a large number of features, the number and accuracy of features affect the accuracy of the relationship extraction results. In order to extract more effective text features and reduce the trouble caused by hand-made features, this paper proposes to use bidirectional long short-term memory network (BLSTM) to extract sentence-level semantic features, so as to achieve better entity relationship extraction. The validity of the model was confirmed by comparing other models.

        【Key words】: Entity relationship extraction; Clinical text; Feature extraction; BLSTM

        0 ?引言

        自動提取實體及其關(guān)系是檢測實體并從大量非結(jié)構(gòu)化數(shù)據(jù)集中識別它們之間的語義關(guān)系。它對各種NLP應用具有至關(guān)重要的影響,例如信息提取和知識庫(KB)的自動構(gòu)建。生物醫(yī)學的快速發(fā)展導致醫(yī)學領(lǐng)域的臨床文本數(shù)據(jù)和文獻數(shù)量急劇增加。醫(yī)學中存在大量非結(jié)構(gòu)化數(shù)據(jù),并且該數(shù)據(jù)中存在許多可能非常有意義的信息,因此臨床文本的信息挖掘非常有必要[1]。實體關(guān)系提取基于命名實體標識,并且醫(yī)療記錄文本中的相同語句中的兩個命名實體被給予預定義關(guān)系類型。當兩個實體出現(xiàn)在同一個句子中時,則需要根據(jù)上下文確定兩個實體之間的語義關(guān)系。如員工與公司之間的雇傭關(guān)系,商品與類別之間的關(guān)系,藥品與他們之間的治療關(guān)系。關(guān)系的抽取一般包括兩個步驟:1)確定實體對之間是否有一定的關(guān)系;2)將檢測到的關(guān)系分類到預定義的類別中[2]。對生物醫(yī)學關(guān)系抽取的研究是對疾病、藥物等實體之間語義關(guān)系的揭示,是構(gòu)建領(lǐng)域知識圖譜、本體與知識庫、臨床決策支持系統(tǒng)的重要基礎(chǔ),對輔助醫(yī)療有重要的現(xiàn)實意義[3]。

        1 ?相關(guān)研究

        實體關(guān)系提取基于命名實體標識,并且醫(yī)療記錄文本中的相同語句中的兩個命名實體被給予預定義關(guān)系類型。當兩個實體出現(xiàn)在同一個句子中時,則可以根據(jù)上下文確定兩個實體之間的語義關(guān)系。如員工與公司之間的雇傭關(guān)系,商品與類別之間的關(guān)系,藥品與他們之間的治療關(guān)系。不同的域?qū)嶓w類型的定義不同,實體之間的關(guān)系也不同。而且其中關(guān)系類型不僅取決于實體類型和對應領(lǐng)域的特點,還取決于抽取目的。在提取關(guān)系之前,需要定義要提取的語義關(guān)系類型,然后根據(jù)兩個實體的上下文特征預測實體間具有最大概率的語義關(guān)系,大多數(shù)學者無論是通過機器學習還是深度學習,通常都采用分類方法來實現(xiàn)實體間關(guān)系的抽取[4]。

        Uzuner首先對醫(yī)療實體關(guān)系抽取進行了開創(chuàng)性的研究,詳細定義了六大類醫(yī)療實體關(guān)系:當前治療和疾病的關(guān)系、可能的治療和疾病關(guān)系、檢查和疾病的關(guān)系、疾病和癥狀的關(guān)系、當前癥狀和治療的關(guān)系、可能的癥狀和治療的關(guān)系[5]。早期電子病歷實體關(guān)系提取的研究方法主要采用基于規(guī)則的方法,基于字典驅(qū)動的方法和基于機器學習的分類方法。其中基于規(guī)則的方法是針對語言結(jié)構(gòu)和形式,構(gòu)造出基于詞、詞性、詞的語義等模式信息進行整理,形成固定模式集,當關(guān)系提取時,直接使用固定規(guī)則中的模式匹配對要處理的文本進行處理,如果匹配成功,則認為是符合規(guī)則集中定義的關(guān)系[6]。但是,這種方法有一些限制,一方面由于沒有一種規(guī)則通用于所有領(lǐng)域,對于規(guī)則或者模板的選擇有一定困難,另一方面規(guī)則的制定需要領(lǐng)域?qū)<遥抑贫ǖ囊?guī)則可能存在不充分的情況?;谧值涞年P(guān)系提取方法,對于用戶來說更加簡捷,但是同樣也需要領(lǐng)域知識庫的模板集合,需要構(gòu)造一個針對于詞的參數(shù)和語義限制[7]。對于新加入的關(guān)系類型,需要對新引入的詞匯添加到詞典中,由于醫(yī)學文本中語言結(jié)構(gòu)的特點,語句中結(jié)構(gòu)和詞語并不是很明確,所以不是很符合電子病歷的結(jié)構(gòu)特點,臨床文本中的稀疏性常使得難以統(tǒng)計詞級別的關(guān)系。基于機器學習的關(guān)系抽取是現(xiàn)階段使用比較廣泛的方法,常將關(guān)系抽取問題看作是給定文本及其特征的分類問題。王宏濤等人使用SVM模型證實了該模型對分類問題的有效性[8]。Frunza等人研究了疾病和治療之間的三種關(guān)系(治愈、抑制、導致副作用)的識別,對比了三種分類方式,其中構(gòu)造了以樸素貝葉斯和SVM模型為主的分類模型實現(xiàn)三個關(guān)系類型上的分類方式,使用次特征、短語特征即UMLS語義類型,分別在治愈、抑制和導致副作用這三種類型上獲得0.9855、1.0、0.8889的結(jié)果[9]。Rink等人在I2B2 2010評測數(shù)據(jù)上采用SVM模型識別電子病歷中實體間預定義的語義關(guān)系,通過自定義抽取詞匯特征、上下文特征等,最后評測結(jié)果F值約為0.737,結(jié)果表明結(jié)合上下文特征的SVM模型在關(guān)系識別中有一定的作用[10]。

        近年來,深度學習在文本處理中的使用引起了學者們極大的興趣,并從各種模型和算法到大規(guī)模應用中獲得了令人滿意的結(jié)果[11]。機器學習中,錯誤的特征或者沒有提取到的特征,都會影響到關(guān)系分類的結(jié)果,然而深度學習是一個能自動發(fā)現(xiàn)特征的神經(jīng)網(wǎng)絡(luò),減少了手工制造特征的同時,更能發(fā)現(xiàn)詞語之間的深層次特征和關(guān)系[12]。孫建東等人在COAE2016任務中提出了基于CNN的實體關(guān)系抽取算法,并對比分析了基于模板和基于SVM的方法,驗證了CNN模型在實體關(guān)系抽取中的有效性[13]。馬超以等人采用弱監(jiān)督和半自動的方法,使用RNN模型中來進行關(guān)系抽取,從而驗證了RNN模型的有效性[14]。長短期記憶網(wǎng)絡(luò)LSTM神經(jīng)網(wǎng)絡(luò)考慮了長距離的相關(guān)性,能更好的提取語義特征[15],本文使用BLSTM模型進行臨床文本中的實體關(guān)系抽取,利用該模型來提取句子正向反向語義特征,從而達到更好的文本處理效果。并對比現(xiàn)有的其他模型實驗效果,證實了BLSTM在實體關(guān)系抽取中有更好的效果,對其他學者研究該領(lǐng)域有一定的參考價值。下圖1描述了生物醫(yī)學領(lǐng)域SRE方法的三個階段。

        2 ?模型介紹

        由于長短期記憶網(wǎng)絡(luò)具有學習長文本的能力,即可以對整句話進行特征分析,就像人一樣,要聽完一整句化才能理解要表達的意思,BLSTM模型很符合實體關(guān)系抽取。BLSTM是雙向LSTM模型,即計算了正向和反向神經(jīng)元之間的聯(lián)系,其核心結(jié)構(gòu)是三個門,即遺忘門、輸入門、輸出門,另外還有一個記憶單元。具體模型及其數(shù)據(jù)處理步驟如圖2所示。

        遺忘門的作用是選擇性遺忘記憶細胞中的信息,通過遺忘門可以決定上一時刻的輸出和當前輸入,來決定有多少信息可以保留。

        輸入門的作用是將新的信息選擇性的記錄到新的細胞狀態(tài)中,通過輸入門來得到需要更新的信息,其一是從輸入門得到的用于更新的值,其二是使用tanh層來生成新的候選值,將這兩部分結(jié)合起來進行更新。

        結(jié)合遺忘門和輸入門,丟掉不需要的部分,保留需要更新的部分,這樣就得到需要更新的信息。

        輸出門的作用是使得最后的輸出結(jié)果即包含細胞狀態(tài)又包含輸入,首先通過sigmod層得到一個原始輸出,然后使用tanh得到的值與sigmod得到的輸出逐對相乘,得到模型的輸出。

        BLSTM是雙向長短期記憶網(wǎng)絡(luò),通過該模型訓練,使得提取到的信息不僅包含前面詞語對后面的影響,同時也包含后面詞語對前面詞語的影響。其中遺忘門、輸入門、輸出門過濾信息的方式如下 ?(1)~(6)公式。

        上述是一個神經(jīng)單元傳遞給下一個神經(jīng)單元所經(jīng)過的計算過程,將這些輸出向量經(jīng)過Mean pooling層之后,會得到一個整合向量信息之后的向量,在最后接一個Softmax進行分類概率處理。

        3 ?實驗結(jié)果分析

        3.1 ?數(shù)據(jù)采集

        本文的研究選用i2b2在2010年發(fā)布的評測任務中提供的臨床文本數(shù)據(jù),并對任務中的實體關(guān)系進行標注。語料庫以8∶2的比例分為訓練集、測試集。其中要抽取的實體間相互關(guān)系有以下幾種,具體如下表1所示。

        3.2 ?數(shù)據(jù)處理

        臨床文本的關(guān)系提取是一般建立在實體已經(jīng)給出標注的基礎(chǔ)上,所以對于臨床文本中實體關(guān)系抽取的研究,一般先進行實體概念的抽取,之后再轉(zhuǎn)化為在其上的關(guān)系抽取,因此本文主要所研究的內(nèi)容將針對已經(jīng)標注實體的臨床文本記錄中的實體關(guān)系抽取。實驗中僅考慮了二元關(guān)系提取任務,針對數(shù)據(jù)集,主要是進行數(shù)據(jù)整理和詞向量表示等工作。使用word2Vec生成詞向量表示,根據(jù)經(jīng)驗,這里使用300維向量表示。每一句描述語句將表示成(w0, w1,…, wn)形式的詞序列,這里n表示語句中有多少個詞匯,其中wi的轉(zhuǎn)換成詞向量后結(jié)構(gòu)表示為(v0, v1,…, vn)形式,其中vi表示每個單詞表示的詞向量。數(shù)據(jù)處理完成后,將詞向量表示輸入到BLSTM模型中進行訓練和預測。

        3.3 ?實驗結(jié)果分析

        根據(jù)以上實驗結(jié)果所知,使用機器學習的方法,如SVM得到的準確率率為76.4%,F(xiàn)1值為74.2。使用CNN的方法得到的準確率為81.9%,F(xiàn)1值為80.4。使用RNN方法得到的分類結(jié)果準確率80.3%,F(xiàn)1值為78.1%。本文使用的BLSTM模型,對關(guān)系分類結(jié)果準確率達到82.2%,F(xiàn)1值達到81.2。從實驗結(jié)果可以看出,對比其他模型,BLSTM模型在實體關(guān)系抽取任務中有較好的結(jié)果,也說明了該模型能夠提取更多的語義特征。

        4 ?結(jié)束語

        實體關(guān)系抽取已經(jīng)有很多學者在研究了,但是國內(nèi)在中文語料上的研究還有待提高,傳統(tǒng)有監(jiān)督方法,需要在語料上提取有效的特征,通過訓練機器模型來預測實體關(guān)系,特征選取非常重要。本文使用BLSTM模型對臨床文本實體關(guān)系進行抽取,取得了一定的效果。但是深度學習的實現(xiàn)效果容易受噪聲影響,接下來將繼續(xù)嘗試使用深度學習組合模型進行研究,達到消除歧義,獲取更多深層次局部特征,來提高關(guān)系抽取效果。

        參考文獻

        [1] 蘇婭, 劉杰, 黃亞樓. 在線醫(yī)療文本中的實體識別研究[J]. 北京大學學報(自然科學版), 2016, 52(01): 1-9.

        [2] ZHOU D Y, ZHONG D Y, HE Y L. Biomedical relation extraction: from binary to complex[J]. Computational & Mathematical Methods in Medicine, 2014(3): 139- 142.

        [3] 李芳, 劉勝宇, 劉崢. 生物醫(yī)學語義關(guān)系抽取方法綜述[J]. 圖書館論壇, 2017, 37(06): 61-69.

        [4] 車萬翔, 劉挺, 李生. 實體關(guān)系自動抽取. 中文信息學報, 2004, 19(2): 1?6.

        [5] Uzuner O, Mailoa J, Ryan R, Sibanda T. Semantic relations for problem-oriented medical records. Artificial Intelligence in Medicine, 2010, 50(2): 63?73.

        [6] Roman Y, Grishman R. NYU: Description of the Proteus/PET System as Used for MUC-7 ST[A].1998.

        [7] Aone C, Ramos2Santacruz M. Rees: A large-scale relation and event extraction system[M].New York, 2000.76-83.

        [8] 王宏濤, 孫劍偉. 基于BP 神經(jīng)網(wǎng)絡(luò)和SVM 的分類方法研究[J].軟件, 2015,36(11): 96-99.

        [9] Frunza O, Inkpen D. Extraction of disease-treatment semantic relations from biomedical sentences. In: Proceedings of the 2010 Workshop on Biomedical Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. 91?98.

        [10] Rink B, Harabagiu S, Roberts K. Automatic extraction of relations between medical concepts in clinical texts. Journal of the American Medical Informatics Association, 2011, 18(5): 594?600.

        [11] 張曉明, 尹鴻峰. 基于卷積神經(jīng)網(wǎng)絡(luò)和語義信息的場景分類[J]. 軟件, 2018, 39(01): 29-34.

        [12] 劉騰飛, 于雙元, 張洪濤, 等. 基于循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 軟件, 2018, 39(01): 64-69.

        [13] 孫建東, 顧秀森, 李彥, 徐蔚然. 基于COAE2016數(shù)據(jù)集的中文實體關(guān)系抽取算法研究[J]. 山東大學學報(理學版), 2017, 52(09): 7-12+18.

        [14] 馬超義, 徐蔚然. 基于弱監(jiān)督和半自動方法的中文關(guān)系抽取數(shù)據(jù)集構(gòu)建[J]. 中文信息學報, 2017, 31(05): 114-119.

        [15] 張玉環(huán), 錢江. 基于兩種 LSTM 結(jié)構(gòu)的文本情感分析[J]. 軟件, 2018, 39(1), 116-120.

        猜你喜歡
        特征提取
        特征提取和最小二乘支持向量機的水下目標識別
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于DNN的低資源語音識別特征提取技術(shù)
        自動化學報(2017年7期)2017-04-18 13:41:09
        Bagging RCSP腦電特征提取算法
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        基于DSP的直線特征提取算法
        基于改進WLD的紋理特征提取方法
        計算機工程(2015年4期)2015-07-05 08:28:02
        淺析零件圖像的特征提取和識別方法
        機電信息(2015年3期)2015-02-27 15:54:46
        基于CATIA的橡皮囊成形零件的特征提取
        久久精品国产99国产精品澳门| 亚洲精品久久久中文字| 色偷偷亚洲精品一区二区| 久久777国产线看观看精品 | 9久久精品视香蕉蕉| 少妇人妻字幕一区二区| 国产精品内射久久一级二| 亚洲码国产精品高潮在线| 热久久久久久久| 中文字幕久区久久中文字幕| 国产白浆在线免费观看| 人妻中文无码久热丝袜| 中文字幕亚洲综合久久菠萝蜜| 亚洲综合天堂一二三区| 人妻少妇偷人精品免费看| 国产一区二区三精品久久久无广告| 亚洲AV秘 无码二区在线| 在线观看国产av一区二区| 欧美激情乱人伦| 久久人人玩人妻潮喷内射人人| 欧美久久中文字幕| 亚洲国产日韩一区二区三区四区 | 久久久久久久99精品国产片| 无码一区二区三区人| 精品亚洲一区中文字幕精品| 内射合集对白在线| 亚洲一区二区三区在线网站| 自拍偷拍一区二区三区四区| 免费观看91色国产熟女| 日本熟妇人妻xxxxx视频| 精品国产91久久久久久久a| 在线观看在线观看一区二区三区| 国产精品无码无在线观看| 免费一区在线观看| 亚洲中文字幕在线精品2021| 99国产精品久久久久久久成人热| 狼色精品人妻在线视频| 国产杨幂AV在线播放| 亚洲一区二区免费在线观看视频| 国产天美传媒性色av| 国产高潮流白浆免费观看不卡|