亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于領域詞典與CRF雙層標注的中文電子病歷實體識別

        2020-06-08 14:40:08龔樂君張知菲
        工程科學學報 2020年4期
        關鍵詞:特征文本

        龔樂君,張知菲

        1) 南京郵電大學計算機學院、軟件學院、網(wǎng)絡空間安全學院,南京 210023 2) 江蘇省大數(shù)據(jù)安全與智能處理重點實驗室,南京 210023

        近些年來,醫(yī)療信息化以及大批在線問診網(wǎng)站、病例交流網(wǎng)站的迅猛發(fā)展產(chǎn)生了海量的電子病歷. 電子病歷中包含了大量重要的臨床資源. 如何利用電子病歷所包含的大量潛在信息,成為目前熱門的研究方向之一. 作為文本挖掘的基礎任務,命名實體識別在病歷文本中需要識別的實體類型主要為疾病名稱、癥狀、醫(yī)療人員采取的措施(包括檢查措施和治療措施)、藥品名稱等醫(yī)療實體.

        有研究表明,在中文電子病歷中,實體分布的密集程度遠高于通用領域文本[1]. 中文電子病歷語料中實體字符所占比例接近中文通用語料的2倍,這說明了中文電子病歷是一種知識密集型的文本,其數(shù)據(jù)具有相當?shù)难芯績r值.

        命名實體識別任務,常常被作為序列標注任務來處理[2]. 機器學習中特征的選擇情況將會直接影響實體識別的效果,因此大部分中文醫(yī)療實體識別研究集中于構造和選擇不同特征. Wang等[3]利用字符位置信息和短分句對癥狀實體進行識別,在中醫(yī)文本語料上達到了95.12%的F1值. 文獻[4?7]研究了語言符號特征、詞性特征、關鍵詞特征、詞典特征、分詞特征、詞塊特征等多特征組合與多種學習器組合對病歷實體識別的影響. 隨著深度學習[8]技術的發(fā)展,利用深度神經(jīng)網(wǎng)絡對中文醫(yī)療實體識別的相關研究[9?13]也在進行,其模型基本為序列模型— —循環(huán)神經(jīng)網(wǎng)絡(Recurrent neural networks, RNN)及其變體.

        英文電子病歷命名實體識別的相關研究[14?19]已經(jīng)形成了相當完善的模式. 相比之下,中文電子病歷命名實體識別工作剛展開不久,缺少充足的標注語料. 除此之外,中文醫(yī)療實體識別仍存在以下難點:

        (1)中文電子病歷中的醫(yī)療實體數(shù)量眾多、類型豐富,難以建立大而全的疾病、藥品或是科室檢查等醫(yī)學關鍵詞詞典. 對于固定不變的醫(yī)學詞典而言,病歷文本中將不斷地有新的未登錄詞出現(xiàn).這些新的醫(yī)療實體變化多樣,更加難以收錄.

        (2)中文電子病歷中的醫(yī)療實體長度不定,大部分醫(yī)療實體長度長于通用實體. 醫(yī)療實體構成結構較為復雜,存在大量的嵌套、別名、縮略詞等問題,沒有嚴格的構詞規(guī)律可以遵循[20].

        (3)在中文電子病歷的不同部分,醫(yī)療實體的類別屬性有所差異,進行命名實體標注時存在分類模糊的問題,無法清晰判斷某些命名實體之間的界限. 常見的是癥狀表現(xiàn)的實體也經(jīng)常出現(xiàn)在疾病實體名中,這種互相交叉包含的情況大量存在.

        針對以上問題,本文提出了一種基于領域詞典與條件隨機場(Conditional random field, CRF)的預標注-二次標注雙層標注模型(Double layer annotation model, DLAM). DLAM并不著眼于人工選擇詞法、句法特征,也并非單純的基于詞典的命名實體識別,而是將兩者結合起來,通過一次預標注-二次精確標注的形式將人工構建的準確性和機器學習的自動性融為一體. 實驗結果表明,該雙層標注模型能夠很好地完成中文醫(yī)療實體識別任務.

        1 相關方法

        中文醫(yī)療實體識別問題可轉化為序列標注問題. 序列標注問題即對于輸入序列A=a1,···,an和標簽集合L,確定輸出標簽序列B=b1,···,bn(bi∈L,1≤i≤n). 其本質是對輸入序列中每個元素根據(jù)上下文進行分類.

        基于詞典與規(guī)則的實體識別方法雖然人工開銷大,但對登錄詞的識別效率極高,領域詞典包含的領域特征信息也非常豐富. 因此考慮通過構建小規(guī)模的領域詞典,將詞典的準確性與機器學習發(fā)現(xiàn)未登錄詞的能力結合起來.

        1.1 統(tǒng)計方法構建領域詞典

        中文病歷文本的語言特征和用詞構成與通用文本差異甚大,在由病歷文本構建領域詞典的過程中,為了使領域詞典中收錄的詞更具有領域專業(yè)性,使用新聞語料作為篩選語料庫.

        病歷文本經(jīng)過分詞后提取每份文本中TFIDF[21]值最大的前50詞W={wi|1≤i≤50},計算wi在新聞語料庫中的歸一化詞頻tfi,m為預先設置的閾值,當滿足tfi≤m時,將wi加入領域詞典中.

        1.2 基于領域詞典和CRF的雙層標注模型DLAM

        CRF是一種無向概率圖模型,其優(yōu)點在于為一個位置進行標注的過程中可以利用豐富的內部及上下文特征信息[22]. 由于考慮了輸出標簽序列的聯(lián)合概率分布,線性鏈條件隨機場被大量應用于序列標注問題.

        本研究中提出的基于領域詞典與CRF的雙層標注模型DLAM是在標準線性鏈條件隨機場的前面增加一層基于領域詞典匹配的預標注層.

        中文電子病歷醫(yī)療實體識別任務中,輸入序列X為中文電子病歷文本,輸出序列Y為對應的標簽序列. 在給定輸入序列X=x1,···,xn的情況下,通過領域詞典匹配得到預標注序列D=d1,···,dn,最大化輸出標簽序列Y的聯(lián)合條件概率的似然估計. 對于輸入序列X,最有可能的輸出標簽序列Y:

        DLAM將預標注結果序列D和輸入序列X共同作為CRF的輸入. 因此,DLAM中的條件隨機場為給定X,D條件下的聯(lián)合條件概率P=(Y|X,D).在隨機變量X取值為x的條件下,隨機變量D取值為d,隨機變量Y的條件概率如下:

        與標準線性鏈條件隨機場類似,式(2)、(3)中tk和sl是特征函數(shù),λk和μl是對應的權值.Z(x)是規(guī)范化因子,求和是在所有可能的輸出序列上進行的. 模型的訓練過程即是在特征函數(shù)下,訓練其對應的權值.

        DLAM算法步驟如下:

        (1)輸入:病歷文本序列X=x1,···,xn;

        (2)構建領域詞典S;

        (3)文本與詞典進行匹配的結果為S∩X;

        (4)打碎S∩X結果形成基元,得到一層標注序列:D=d1,···,dn;

        (5)抽取文本的基本特征集F=f1,···,fn;

        (6)將一層標注結果D及文本特征F投入CRF模型,得到二層標注序列Y=y1,···,yn;

        (7)輸出:標注結果.

        詳細過程如圖1所示.

        圖 1 基于領域詞典與CRF的雙層標注模型Fig.1 Double-layer annotation model

        2 實驗數(shù)據(jù)

        由于國內對患者隱私的保護政策,醫(yī)院電子病歷較難獲得. 因此,選擇從“愛愛醫(yī)”網(wǎng)站上爬取了1064份呼吸科病歷文本和30262份不限科室病歷文本作為實驗數(shù)據(jù). 1064份呼吸科電子病歷中的864份用于1.1節(jié)所述統(tǒng)計方法構建領域詞典,200份在參考文獻[23]以及英文I2B2、UMLS語義類型[24]的基礎上,標注出疾病、癥狀、藥品、操作四類醫(yī)療實體. 標注規(guī)范如下:

        (1)疾病:醫(yī)生對患者做出的診斷或以“病”、“癥”作為結尾的實體統(tǒng)稱為疾病. 如“肺內隔離癥”.

        (2)癥狀:由疾病導致的不適表現(xiàn)、異常表現(xiàn)、正常或異常的檢查結果或者患者的不健康狀態(tài)以及患者自述中的病史介紹. 如“聲音嘶啞”、“無結核病史”.

        (3)藥品:診療過程中給予患者的具體藥物名稱或藥物類別. 如“地塞米松”、“抗生素”.

        (4)操作:包括檢查項目和診療手段. 檢查項目是指,為了發(fā)現(xiàn)、證實或是否認疾病,希望得到更多關于疾病的信息而施加給患者的檢查項目.診療手段是指,為了緩解不適癥狀或者解決疾病而施加給患者的干預措施和治療程序. 如“拍胸片”、“抗感染”、“胸腔穿刺術”.

        表1所示為訓練、測試語料數(shù)據(jù)分布.

        另外,在本研究中,為了驗證DLAM模型效果,選擇注意力深度神經(jīng)網(wǎng)絡BiLSTM-Attention-CRF作為參照. 因此,30262份不限科室未標注電子病歷使用Word2vec工具,采用skip-gram模型,基于字粒度分別訓練出50維、150維、300維的字嵌入.

        表 1 訓練集、測試集實體分布情況Table 1 Distribution of entities among the training set and the test set

        對于實體識別的序列標注任務,標簽由兩部分構成:實體類別和實體中的位置. 本研究采用BIO表示法以字符為最小標注單位來表征該字符的標簽. BIO表示法中,B代表位于實體的開始位置,I表示位于實體內部,O代表不為實體. 因此,標注語料中共包含4類實體,9類標簽.

        領域詞典的構建除了1.1節(jié)所述統(tǒng)計方法外,還借助了外部專業(yè)資源,來源有:

        (1)互動百科“呼吸系統(tǒng)疾病”全部詞條以及每個詞條“概述”部分的分詞結果;

        (2)“中國公眾健康網(wǎng)”上“肺和呼吸相關疾病”全部詞條以及每種疾病頁面的“相關癥狀”和“相關藥品”;

        (3)CHPO“呼吸系統(tǒng)異?!比織l目,不僅包括實體本身,還包括其HP編碼.

        以上多種途徑構建出的初始詞典經(jīng)過去重、人工去除噪音、人工分類,最后整合成共3943詞的“呼吸科領域詞典”,其中包括疾病、癥狀、操作、藥品、關鍵詞、器官、位置、否定八類. 表2展示了該領域詞典的構成.

        除與醫(yī)療實體識別任務中目標實體相同的四類外,領域詞典中還額外定義了四種類型的關鍵詞. 這是因為中文病歷文本存在復合實體較多、短句內句子成分缺失嚴重的問題. 為了更好地識別出醫(yī)療實體,考慮在利用領域詞典進行的預標注部分采用范圍更廣的關鍵詞匹配策略,不僅標注出目標實體類型,也標注出對目標實體的修飾關鍵詞. 具體含義如下:

        (1)關鍵詞:提示將出現(xiàn)癥狀,因對關鍵詞的癥狀描述多樣,所以單獨列出. 如:“食欲”.

        (2)器官:指人體器官或部分肢體,因同一癥狀可能發(fā)生于不同器官或器官的不同范圍而單獨列出. 如:“肺”.

        (3)位置:為了描述器官的某部分而單獨列出,在句子成分缺失的短句中也能直接代指器官的某部分. 如:“左下”.

        (4)否定:病歷文本中常有描述患者并未出現(xiàn)某些癥狀或并未患某種疾病的情況,直接通過詞典匹配無法判斷這種情況,可能造成語義相反.如:“無”、“未聞及”.

        3 實驗結果及討論

        為了綜合考慮模型在整個數(shù)據(jù)集上的性能,本文中采用宏平均指標(Macro-Average). 宏平均是指每一類性能指標的算數(shù)平均值,具體可分為:宏精確率(Macro-P)、宏召回率(Macro-R)和宏F1值(Macro-F1).

        其中,N表示實體類別總數(shù),Pi表示每一類實體的精確率,Ri表示每一類實體的召回率.

        以不采用預標注層、僅使用語言符號特征和上下文特征的單層CRF作為基線,首先討論領域詞典是否對CRF標注產(chǎn)生積極影響. 上下文窗口大小均設置為5. 表3所示為該組對比實驗結果.

        可以看到,雙層標注模型DLAM同時結合了領域詞典的準確性和CRF的自動學習能力,將中文醫(yī)療實體的識別效果得到了極大提升. 不同于單層CRF宏精確率和宏召回率相差較大的情況,DLAM的宏精確率和宏召回率幾乎相等,達到了一個很好的平衡.

        第二組對比實驗是研究采用了注意力機制[25]的深度神經(jīng)網(wǎng)絡BiLSTM-Attention-CRF[26]對中文醫(yī)療實體的識別效果. 根據(jù)預訓練的不同字嵌入維度和一組隨機初始化embedding向量進行對比.表4為該組對比實驗結果.

        表 2 領域詞典構成情況Table 2 Distribution among the domain dictionary

        從實驗結果可以看出,預訓練字嵌入的質量對深度神經(jīng)網(wǎng)絡的識別結果會產(chǎn)生較大影響. 字嵌入維度過小,會導致丟失隱含的語義信息;字嵌入維度過大,則會帶來噪音. 字嵌入維度應如何設置與訓練語料的大小、語料的語言特點有關.

        表 3 CRF對比實驗結果Table 3 Comparison experiment results of CRF %

        表 4 BiLSTM-Attention-CRF對比實驗結果Table 4 Comparison experiment results of BiLSTM-Attention-CRF %

        值得注意的是,深度神經(jīng)網(wǎng)絡相比單層CRF能明顯提高醫(yī)療實體的召回率.

        以150維字嵌入的結果作為BiLSTM-Attention-CRF進行中文醫(yī)療實體識別的最好結果,從實體級別以精確率P和召回率R作為標準,比較DLAM模型與BiLSTM-Attention-CRF的識別效果. 如圖2,圖3所示.

        圖 2 DLAM與BiLSTM-Attention-CRF實體級別精確率對比Fig.2 DLAM and BiLSTM-Attention-CRF precision comparison on entity

        由圖2,圖3可看出,雖然關于通用語料的研究表明:采用了注意力機制的深度神經(jīng)網(wǎng)絡對句間的長期依賴有較好學習能力[25]. 但在具體的專業(yè)領域中,BiLSTM-Attention-CRF仍然難以學到復雜的專業(yè)特征. 而DLAM采用領域詞典預標注的方式很好地解決了這一問題.

        本文識別的四類實體中,BiLSTM-Attention-CRF與DLAM識別效果相差最大的是藥品實體.這是因為藥品名大多較生僻,其構詞方式與病歷中其他部分的自由文本相差較大,深度神經(jīng)網(wǎng)絡很難學到其上下文關系. 而領域詞典中一旦登錄了某種藥品,就能夠很好的識別出來. 對于呼吸科病歷,常見藥品出現(xiàn)的頻率高,作用相似的藥品其名稱構詞方式也類似,因此識別效果較好.

        圖 3 DLAM與BiLSTM-Attention-CRF實體級別召回率對比Fig.3 DLAM and BiLSTM-Attention-CRF recall comparison on entity

        本文還對DLAM識別結果中的錯例進行了進一步的分析. DLAM對四類實體的識別效果趨于穩(wěn)定. 因長實體缺少部分構詞成分而造成的錯例主要存在于疾病實體和癥狀實體中,具體表現(xiàn)在對長實體中的修飾成分識別效果不佳. 例如,“間變性B細胞非霍奇金淋巴瘤”僅能識別出“非霍奇金淋巴瘤”,“肋以下呈大片狀致密影”被識別為“大片狀致密影”. 修飾成分中的器官指向通常攜帶了重要的醫(yī)療信息,目前DLAM仍會丟失部分此類信息. 值得注意的是,DLAM通過結合機器學習自動學習文本上下文特征的能力,能容錯醫(yī)療文本中的錯別字,如成功識別“腹不(部)平軟”.

        此外,如表5所示對比了DLAM與文獻[27]中基于多特征融合的CRF以及以字嵌入和分割信息作為BiLSTM-CRF輸入特征的醫(yī)療實體識別方法. 由于兩項研究都是基于自標注語料完成的,導致單純的結果對比并無意義. 但文獻[27]中為了達到較好的識別效果,融合了如詞袋、詞性、位置等多項特征;而DLAM在CRF階段僅使用上下文特征,主要是通過第一層預標注來獲取更多的語義隱含信息.

        4 結論

        本文針對中文電子病歷文本復合實體較多、實體長度較長、句子成分缺失嚴重、實體邊界不清的語言特點,對中文電子病歷中的四類實體——疾病、癥狀、藥品、操作進行命名實體識別研究.

        表 5 DLAM與現(xiàn)有模型結果對比Table 5 Comparison of DLAM and existing model results %

        (1)結合電子病歷文本通過統(tǒng)計分析構建了一個小規(guī)模的醫(yī)療領域詞典.

        (2)將經(jīng)典序列標注算法CRF與富含領域知識的詞典相結合,提出了一種預標注-二次標注的雙層標注模型DLAM. 通過一次預標注-二次精確標注兩種不同粒度的標注完成對中文醫(yī)療實體的識別. 經(jīng)過實驗驗證,DLAM在測試集上的宏精確率為96.7%、宏召回率為97.7%、宏F1值為97.2%,可準確地對中文醫(yī)療實體進行識別.

        (3)對比分析采用注意力機制的深度神經(jīng)網(wǎng)絡的識別效果,結果表明提出的雙層標注模型DLAM在測試數(shù)據(jù)集上表現(xiàn)優(yōu)越于深度神經(jīng)網(wǎng)絡.

        猜你喜歡
        特征文本
        抓住特征巧觀察
        新型冠狀病毒及其流行病學特征認識
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉化
        人間(2015年20期)2016-01-04 12:47:10
        最新国产日韩AV线| 人妻中文字幕在线网站| 久久精品国产久精国产果冻传媒 | 日本精品一区二区在线看| 亚洲一区二区三区重口另类| 国产综合色在线视频区| 竹菊影视欧美日韩一区二区三区四区五区 | a√无码在线观看| 精品女厕偷拍视频一区二区| 2019日韩中文字幕mv| 蜜臀av一区二区| 国产亚洲日韩AV在线播放不卡| 国产乱子伦一区二区三区国色天香| 国产亚洲精品成人aa片新蒲金| 人妻妺妺窝人体色www聚色窝| 99久久亚洲国产高清观看| 一卡二卡国产av熟女| 一色桃子中文字幕人妻熟女作品 | 国产特黄级aaaaa片免| 无码aⅴ在线观看| 国产一区二区三区观看视频| 亚洲国产精品国自产拍性色| 偷偷色噜狠狠狠狠的777米奇| 99热成人精品免费久久| 富婆叫鸭一区二区三区| 亚洲天堂一区av在线| 好屌草这里只有精品| 91久久福利国产成人精品| 亚洲中文字幕综合网站| 色欲欲www成人网站| 在线永久看片免费的视频| 水蜜桃在线视频在线观看| 国产日产久久高清ww| 女人被狂躁到高潮视频免费网站| 亚洲精品成AV无在线观看| 国产在线观看黄片视频免费| 天天夜碰日日摸日日澡性色av| 77777亚洲午夜久久多人| 中文字幕日本人妻一区| 国产婷婷色一区二区三区深爱网| 中文字幕无码日韩专区免费|