亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bert-BiLSTM-CRF模型的電子病歷隱私信息識(shí)別方法*

        2022-05-13 13:35:10陳逸墨葉輝易珺周華文方丹丹曹東
        自動(dòng)化與信息工程 2022年2期
        關(guān)鍵詞:實(shí)驗(yàn)信息模型

        陳逸墨 葉輝 易珺 周華文 方丹丹 曹東

        基于Bert-BiLSTM-CRF模型的電子病歷隱私信息識(shí)別方法*

        陳逸墨1葉輝1易珺2周華文1方丹丹1曹東1

        (1.廣州中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,廣東 廣州 510006 2.廣東藥科大學(xué)醫(yī)藥信息工程學(xué)院,廣東 廣州 510006)

        隨著電子病歷數(shù)據(jù)開放共享的需求越來越大,電子病歷去隱私性問題亟需解決。利用自然語言處理技術(shù),提出一種基于Bert-BiLSTM-CRF模型的電子病歷隱私信息識(shí)別方法。采用某三甲中醫(yī)院的電子病歷作為數(shù)據(jù)來源,結(jié)合當(dāng)前公開的數(shù)據(jù)集進(jìn)行訓(xùn)練,得到正確率為94.02%、召回率為94.25%、1為93.98%的中醫(yī)電子病歷隱私信息識(shí)別模型。與其他傳統(tǒng)模型進(jìn)行對(duì)比實(shí)驗(yàn)表明,Bert-BiLSTM-CRF模型能有效識(shí)別并保護(hù)電子病歷中的隱私數(shù)據(jù),有助于醫(yī)療數(shù)據(jù)的開放共享。

        隱私信息;Bert;雙向長短時(shí)記憶網(wǎng)絡(luò);條件隨機(jī)場;電子病歷

        0 引言

        隨著信息時(shí)代的到來,各行各業(yè)開始與互聯(lián)網(wǎng)、信息技術(shù)交融并飛速發(fā)展。為加快我國醫(yī)學(xué)領(lǐng)域的發(fā)展進(jìn)程,衛(wèi)生部發(fā)布了《電子病歷基本規(guī)范(試行)》。電子病歷也稱計(jì)算機(jī)化的病案系統(tǒng),是用電子設(shè)備保存、管理、傳輸和重現(xiàn)的數(shù)字化醫(yī)療記錄[1]。電子病歷在提高信息交流效率的同時(shí)也面臨諸多挑戰(zhàn),其中如何有效識(shí)別并隱藏患者的隱私信息成為關(guān)鍵問題。

        目前,中文命名實(shí)體識(shí)別方法主要基于規(guī)則、統(tǒng)計(jì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方法[2]。其中,基于規(guī)則的方法依賴手工規(guī)則,結(jié)合命名實(shí)體庫,通過實(shí)體與規(guī)則的相符情況進(jìn)行類型判斷。該方法能夠得到較好的識(shí)別效果,但不同領(lǐng)域的規(guī)則各有不同且這些規(guī)則不能互用,因此機(jī)器學(xué)習(xí)的方法逐漸興起。目前,用于中文命名實(shí)體識(shí)別的機(jī)器學(xué)習(xí)模型主要有隱馬爾科夫模型(Hidden Markov model, HMM)、條件隨機(jī)場(condition random field, CRF)[3]等。隨著硬件計(jì)算能力的提升,基于深度學(xué)習(xí)的方法越來越普遍,且效果較基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法更勝一籌。目前,基于深

        度學(xué)習(xí)的方法主要通過神經(jīng)網(wǎng)絡(luò)來訓(xùn)練模型,主流神經(jīng)網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[4]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[5]、長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(long short–term memory, LSTM)[6]等。中醫(yī)電子病歷具有復(fù)雜性高、詞語多義性強(qiáng)、專業(yè)性強(qiáng)等特點(diǎn),傳統(tǒng)模型雖然可以實(shí)現(xiàn)實(shí)體識(shí)別功能,但效果不盡如人意。

        近年來提出的Bert預(yù)訓(xùn)練語言模型,憑借優(yōu)秀的表意能力,使與之結(jié)合的神經(jīng)網(wǎng)絡(luò)模型效果更佳。本文提出由Bert、BiLSTM和CRF 三個(gè)模塊構(gòu)成的模型對(duì)中醫(yī)電子病歷中的隱私信息進(jìn)行識(shí)別。

        1 模型原理

        Bert-BiLSTM-CRF模型框架如圖1所示。

        首先,待處理的數(shù)據(jù)輸入Bert進(jìn)行預(yù)訓(xùn)練;然后,BiLSTM層進(jìn)行語義編碼處理;最后,將得到的數(shù)據(jù)輸入CRF層計(jì)算最終結(jié)果。與傳統(tǒng)的基于深度學(xué)習(xí)方法相比,本文方法引入了Bert預(yù)訓(xùn)練語言模型。Bert-BiLSTM-CRF模型是經(jīng)過大量語料及長時(shí)間訓(xùn)練得到的,能根據(jù)上下文信息計(jì)算出字的向量表示,可有效表現(xiàn)字的多義性,增強(qiáng)句子的語義表示[7]。

        圖1 Bert-BiLSTM-CRF模型示意圖

        1.1 Bert預(yù)訓(xùn)練語言模型

        2015年,DAI和LE首次提出預(yù)訓(xùn)練語言模型[8]。2018年DEVLIN等經(jīng)過改進(jìn),提出Bert預(yù)訓(xùn)練語言模型[9]。該模型的構(gòu)成元素為表義能力較強(qiáng)的Trans- former[10]。Transformer是一種基于Attention機(jī)制的深度網(wǎng)絡(luò),具有良好的并行計(jì)算能力且善于捕捉長距離特征,結(jié)構(gòu)如圖2所示。

        圖2 Transformer編碼單元

        1.2  BiLSTM

        1997年,HOCHREITER提出基于RNN改進(jìn)的LSTM[11]。LSTM模型較于RNN模型具有可利用長距離信息的特點(diǎn),并解決了RNN模型存在的梯度消失問題。2005年,GRAVES根據(jù)LSTM和雙向RNN提出雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)[12]。LSTM單元主要由輸入門、遺忘門、輸出門3部分組成。其中,輸入門確定保留信息;遺忘門確定丟棄信息;輸出門確定可輸出信息,結(jié)構(gòu)圖如圖3所示。

        圖3 LSTM單元結(jié)構(gòu)圖

        1.3 CRF

        CRF是LAFFERTY等在2001年提出的一種判別式模型,屬于隨機(jī)場的一種[13]。由于BiLSTM模塊的輸出結(jié)果會(huì)出現(xiàn)一些無意義的字符和標(biāo)簽,也沒有考慮其間的依賴關(guān)系,故通過加入CRF模塊從訓(xùn)練數(shù)據(jù)中獲得約束性規(guī)則,保證標(biāo)簽是合法的[14]。BiLSTM模塊的輸出序列作為CRF模塊的輸入,如句子(x1, x2, ..., xi)通過Bert預(yù)訓(xùn)練語言模型和BiLSTM層后,得到每個(gè)字的預(yù)測序列(1,2, ... ,y),進(jìn)入CRF后被轉(zhuǎn)換為BIO標(biāo)注法所定義的標(biāo)記(1,2, ... ,tag),其中表示標(biāo)記維度。通過CRF層為標(biāo)記打分,采用Softmax函數(shù)進(jìn)行歸一化,以BIO標(biāo)注法對(duì)標(biāo)記序列進(jìn)行規(guī)整,完成隱私信息的識(shí)別[15]。

        2 實(shí)驗(yàn)

        本實(shí)驗(yàn)用來識(shí)別中醫(yī)電子病歷中的隱私信息,包括人名、地名、機(jī)構(gòu)名、年齡。實(shí)驗(yàn)數(shù)據(jù)主要來自人民日?qǐng)?bào)語料庫和某三甲中醫(yī)院的電子病歷,其中電子病歷349份,共11 465 469個(gè)字。將人民日?qǐng)?bào)語料庫與電子病歷中的數(shù)據(jù)以1∶9的比例分割后作為測試集和訓(xùn)練集。為保證數(shù)據(jù)整潔,人民日?qǐng)?bào)語料庫已標(biāo)記的數(shù)據(jù)不做變動(dòng),在電子病歷數(shù)據(jù)中新增“年齡”實(shí)體類型,用以識(shí)別年齡信息。實(shí)驗(yàn)主要分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)導(dǎo)入模型、評(píng)判結(jié)果3個(gè)步驟。

        2.1 數(shù)據(jù)預(yù)處理

        本文所用數(shù)據(jù)均采用BIO標(biāo)注法,標(biāo)簽有9種: B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG、B-AGE、I-AGE、O。其中,B表示實(shí)體開始部分;I表示實(shí)體非開始部分;O表示非實(shí)體;PER表示人名實(shí)體;LOC表示地名實(shí)體;ORG表示機(jī)構(gòu)實(shí)體;AGE表示年齡實(shí)體。BIO標(biāo)簽集如表1所示。

        表1 BIO標(biāo)簽集

        未標(biāo)記的數(shù)據(jù)使用自主開發(fā)的標(biāo)注軟件進(jìn)行實(shí)體標(biāo)注,操作界面如圖4所示,標(biāo)注結(jié)果如圖5所示。其中,C為需要標(biāo)注的實(shí)體;P為實(shí)體在文本中的位置;T為實(shí)體類型。

        圖4 標(biāo)注軟件操作界面

        圖5 標(biāo)注結(jié)果

        2.2 實(shí)驗(yàn)參數(shù)設(shè)置

        3個(gè)模型的常規(guī)參數(shù)設(shè)置如表2所示。其中“Max sequence length”表示字?jǐn)?shù)個(gè)數(shù);“epoch”表示時(shí)期,一個(gè)epoch就是將所有訓(xùn)練樣本訓(xùn)練一次的過程;“dropout”表示防止過擬合參數(shù);“Learning rate”表示學(xué)習(xí)率,合適的學(xué)習(xí)率可以使目標(biāo)函數(shù)在合適的時(shí)間內(nèi)收斂到局部最小值;“Batch size”表示每批樣本的大??;“Max checkpoints”表示訓(xùn)練過程中的最大模型快照。

        表2 實(shí)驗(yàn)參數(shù)

        2.3 實(shí)驗(yàn)結(jié)果

        本文以正確率、召回率、和1值作為評(píng)判指標(biāo)。其中,正確率為預(yù)測準(zhǔn)確樣本中真實(shí)準(zhǔn)確樣本的比例;召回率為真實(shí)準(zhǔn)確樣本中預(yù)測準(zhǔn)確樣本的比例;1為正確率和召回率的加權(quán)平均值。

        實(shí)驗(yàn)環(huán)境如表3所示。

        表3 實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)中所有模型均在上述配置下完成訓(xùn)練。各實(shí)體類型的識(shí)別結(jié)果如表4所示。

        表4 3種模型對(duì)不同實(shí)體類型的識(shí)別結(jié)果

        其中,模型耗時(shí)BiLSTM為158.771 min;BiLSTM-CRF為336.951 min;Bert-BiLSTM-CRF為1 718.366 min。

        2.4 實(shí)驗(yàn)結(jié)果分析

        訓(xùn)練后得到平均正確率為94.02%、平均召回率為94.25%、平均1為93.98%的中醫(yī)電子病歷隱私信息識(shí)別模型。

        從模型方面來看:Bert-BiLSTM-CRF模型的平均正確率達(dá)到94.02%,在4個(gè)實(shí)體類型上的識(shí)別效果都優(yōu)于BiLSTM模型和BiLSTM-CRF模型;由此可見,Bert-BiLSTM-CRF模型比傳統(tǒng)的LSTM模型效果更好。

        從實(shí)體類型來看:PER和LOC的識(shí)別效果較好,特別是Bert-BiLSTM-CRF模型對(duì)這2種實(shí)體類型識(shí)別的1值均超過了0.95,這是由于人民日?qǐng)?bào)語料中人名和地名的標(biāo)注質(zhì)量較高且這些實(shí)體不會(huì)因其他客觀因素而改變;ORG和AGE的識(shí)別效果較差,主要原因是ORG有時(shí)用縮略詞或組合詞對(duì)識(shí)別產(chǎn)生干擾,如“廣州中醫(yī)藥大學(xué)”被縮略為“廣中醫(yī)”、“中山大學(xué)第三附屬醫(yī)院”被縮略為“中大三附院”;年齡實(shí)體由數(shù)字組成,而病例中存在其他與年齡無關(guān)的數(shù)字,導(dǎo)致AGE識(shí)別不準(zhǔn)確,如“藥品劑量50 mg/1日”中“50”被識(shí)別成年齡,“日期2011-11-23”中“11”和“23”被識(shí)別為年齡,產(chǎn)生信息混淆。

        3 結(jié)語

        本文提出的Bert-BiLSTM-CRF模型已達(dá)到可以使用的水平,相比傳統(tǒng)的BiLSTM模型和BiLSTM-CRF模型,本文模型識(shí)別不同類別隱私信息的能力更強(qiáng)。陳衍旭[16]提出的Bert-BiLSTM-CRF模型的隱私信息識(shí)別1值為0.932 9,本文模型在此基礎(chǔ)上有一定程度的提升。在之后的工作中,需要豐富數(shù)據(jù)集并且對(duì)模型進(jìn)行適當(dāng)改進(jìn),以提高模型的識(shí)別效率。如明確年齡實(shí)體與其他包含數(shù)字的實(shí)體的分類;通過增加原始數(shù)據(jù)數(shù)量來增加訓(xùn)練量。近年來有融入注意力機(jī)制[17]的新模型出現(xiàn)。因此,下一步可以考慮從數(shù)據(jù)處理和融入新機(jī)制入手來提升模型性能。

        [1] 中華人民共和國衛(wèi)生部.電子病歷基本規(guī)范(試行)[J].中國藥房,2010,21(12):1063-1064.

        [2] 劉瀏,王東波.命名實(shí)體識(shí)別研究綜述[J].情報(bào)學(xué)報(bào),2018, 37(3):329-340.

        [3] 宮義山,段亞奇.基于不同模型的中文命名實(shí)體識(shí)別方法研究[J].長江信息通信,2021,34(1):84-86.

        [4] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural compu-tation, 1989,1(4):541-551.

        [5] 夏瑜潞.循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展綜述[J].電腦知識(shí)與技術(shù),2019, 15(21):182-184.

        [6] HOCHREITER S, SCHMIDHUBER J. LSTM can solve hard long time lag problems[J]. Advances in neural information processing systems, 1997: 473-479.

        [7] 王遠(yuǎn)志,曹子瑩.Bert-BLSTM-CRF模型的中文命名實(shí)體識(shí)別[J].安慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,27(1):59-65.

        [8] DAI A M, LE Q V. Semi-supervised sequence learning[J]. Advances in neural information processing systems, 2015,28: 3079-3087.

        [9] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

        [10] VASWANI A, SHAZEER N, PARMAR N. et al. Attention is all you need[C]. Advances in Neural Information Processing Systems, 2017:5998-6008.

        [11] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

        [12] GRAVES A, SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5-6): 602-610.

        [13] LAFFERTY J, MCCALLUM A, PEREIRA F. Condition random fields: probabilistic models for segmenting and labeling sequence data[C].Proceedings of the 18th Interna-tional Conference on Machine Learning, 2001, 951:282-289.

        [14] 羅熹,夏先運(yùn),安瑩,等.結(jié)合多頭自注意力機(jī)制與BiLSTM- CRF的中文臨床實(shí)體識(shí)別[J].湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,48(4):45-55.

        [15] 劉一斌,葉輝,易珺,等.基于樸素貝葉斯和word2vec的中醫(yī)電子病歷文本信息抽取[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(10):3563-3568.

        [16] 陳衍旭.面向臨床文本的知識(shí)獲取與應(yīng)用[D].哈爾濱工業(yè)大學(xué),2019.

        [17] 張華麗,康曉東,李博,等.結(jié)合注意力機(jī)制的Bi-LSTM-CRF中文電子病歷命名實(shí)體識(shí)別[J].計(jì)算機(jī)應(yīng)用,2020,40(S1): 98-102.

        Private Information Recognition Method of Electronic Medical Records Based on Bert-BiLSTM-CRF Model

        CHEN Yimo1YE Hui1YI jun2ZHOU Huawen1FANG Dandan1CAO Dong1

        (1.School of Medical Information Engineering, Guangzhou University of Chinese Medicine,Guangzhou 510006, China 2. College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006, China)

        With the increasing demand for open sharing of electronic medical record data, the privacy of electronic medical record needs to be solved urgently. Using natural language processing technology, a privacy information recognition method of electronic medical record based on Bert-BiLSTM-CRF model is proposed. Using the electronic medical record of a three-tier traditional Chinese medicine hospital as the data source, combined with the current public data set for training, we get the privacy information recognition model of traditional Chinese medicine electronic medical record with the accuracy rate of 94.02%, the recall rate of 94.25% and1 of 93.98%. Compared with other traditional models, the experiment shows that Bert-BiLSTM-CRF model can effectively identify and protect the private data in EMR, which is conducive to the open sharing of medical data.

        privacy information; Bert; BiLSTM; CRF; electronic medical record

        TP391.1

        A

        1674-2605(2022)02-0006-06

        10.3969/j.issn.1674-2605.2022.02.006

        陳逸墨,男,1997年生,在讀研究生,主要研究方向:醫(yī)學(xué)自然語言處理。

        葉輝,男,1978年生,碩士,講師,主要研究方向:醫(yī)學(xué)自然語言處理。

        易珺,女,1976年生,碩士,副教授,主要研究方向:醫(yī)學(xué)自然語言處理。

        周華文,男,1997年生,在讀研究生,主要研究方向:醫(yī)學(xué)自然語言處理。

        方丹丹,女,1998年生,在讀研究生,主要研究方向:醫(yī)學(xué)自然語言處理。

        曹東(通信作者)男,1975年生,博士研究生,教授,主要研究方向:醫(yī)學(xué)自然語言處理、醫(yī)學(xué)信號(hào)傳感與檢測。 E-mail: caodong@ gzucm.edu.cn

        基金項(xiàng)目:國家重點(diǎn)研發(fā)計(jì)劃資助(2019YFC1710400):廣東省普通高校重點(diǎn)領(lǐng)域?qū)m?xiàng)(2020ZDZX3080)。

        陳逸墨,葉輝,易珺,等.基于BERT-BiLSTM-CRF模型的電子病歷隱私信息識(shí)別方法[J].自動(dòng)化與信息工程, 2022,43(2):35-40.

        CHEN Yimo, YE Hui, YI jun, et al. Private information recognition method of electronic medical records based on Bert-BiLSTM-CRF model[J]. Automation & Information Engineering, 2022,43(2):35-40.

        猜你喜歡
        實(shí)驗(yàn)信息模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長實(shí)驗(yàn)
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        展會(huì)信息
        色视频不卡一区二区三区| 狠狠久久精品中文字幕无码| 欧美手机在线视频| 成人水蜜桃视频在线观看| 亚洲三区在线观看内射后入| 公粗挺进了我的密道在线播放贝壳| 青青在线精品2022国产| 国产美女高潮流的白浆久久| 久久久久久久久国内精品影视| 亚洲不卡高清av在线| 2021亚洲国产精品无码| 射死你天天日| 亚洲中文字幕巨乳人妻| 一区二区三区高清视频在线| 国产亚洲精品第一综合另类| 日本乱子人伦在线视频| 国产成人精品aaaa视频一区| 国产高清人肉av在线一区二区| 日本熟日本熟妇中文在线观看 | 在线看亚洲十八禁网站| 日本熟妇精品一区二区三区| 国模91九色精品二三四| 人妻熟女一区二区三区app下载 | 在线成人一区二区| 国产精品三级在线观看| 国产精品不卡免费版在线观看| 日本精品一区二区三区二人码| 国产精品三级在线观看无码| 中文字幕第一页亚洲观看| 强迫人妻hd中文字幕| 国产精品无码久久综合| 亚洲 欧美 唯美 国产 伦 综合| 61精品人妻一区二区三区蜜桃| 久久九九精品国产av| 久久精品女人天堂av| 中文精品久久久久中文| 日韩精品极品系列在线免费视频 | 乱码精品一区二区三区| 国产 在线播放无码不卡| 蜜桃视频在线观看网址| 色综合视频一区中文字幕|