亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多神經(jīng)網(wǎng)絡(luò)協(xié)作的電子病歷命名實(shí)體識(shí)別方法

        2021-02-25 08:49:46張運(yùn)中劉慧君
        關(guān)鍵詞:方法模型

        張運(yùn)中 紀(jì) 斌 余 杰 劉慧君

        1(湖南省電子口岸服務(wù)中心 湖南 長(zhǎng)沙 410001)2(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院 湖南 長(zhǎng)沙 410073)3(中國(guó)工程物理研究院計(jì)算機(jī)應(yīng)用研究所 四川 綿陽(yáng) 621999)

        0 引 言

        隨著電子病歷的迅速普及和醫(yī)療大數(shù)據(jù)時(shí)代的到來(lái),自然語(yǔ)言處理(Natural Language Processing, NLP)技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用與發(fā)展已經(jīng)成為當(dāng)前的研究熱點(diǎn)。NLP相關(guān)技術(shù),如句子的分詞、實(shí)體識(shí)別等,可以從臨床醫(yī)療記錄中提取有科研價(jià)值信息,幫助科研人員進(jìn)行的學(xué)術(shù)研究,從而可以支持醫(yī)療研究和輔助治療方案決策[1]。

        命名實(shí)體識(shí)別(Named Entity Recognition, NER)是自然語(yǔ)言處理里的一項(xiàng)基礎(chǔ)任務(wù)。狹義上,NER是識(shí)別出人名、地名和組織機(jī)構(gòu)名這三類(lèi)命名實(shí)體[2]。臨床醫(yī)療命名實(shí)體識(shí)別是醫(yī)療信息抽取最基礎(chǔ)的任務(wù),國(guó)內(nèi)諸多有影響力的學(xué)術(shù)會(huì)議將其作為評(píng)測(cè)任務(wù)以推進(jìn)其研究與發(fā)展,如中國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(China Conference on Knowledge Graph and Semantic Computing, CCKS)[3]、中國(guó)健康信息處理會(huì)議(China Health Information Processing Conference, CHIP)等。這些評(píng)測(cè)任務(wù)既推動(dòng)了醫(yī)療命名實(shí)體識(shí)別的研究與發(fā)展,也為后續(xù)的研究提供了一批高質(zhì)量的數(shù)據(jù)集。

        CHIP2018發(fā)布中文電子病歷臨床醫(yī)療命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)[4],此項(xiàng)評(píng)測(cè)任務(wù)來(lái)自工業(yè)界的真實(shí)應(yīng)用,因此更具有研究?jī)r(jià)值和挑戰(zhàn)性。此次評(píng)測(cè)任務(wù)的目的是從電子病歷中抽取出三種惡性腫瘤相關(guān)的命名實(shí)體,并發(fā)布了600份人工標(biāo)注的病歷作為訓(xùn)練數(shù)據(jù),200份無(wú)標(biāo)注的病歷作為測(cè)試數(shù)據(jù),在本文中分別用CHIP TR和CHIP TE標(biāo)識(shí)。由于這三種實(shí)體的復(fù)雜性和特殊性質(zhì),單一神經(jīng)網(wǎng)絡(luò)模型難以有效地完成本任務(wù)。針對(duì)此任務(wù),本文提出了一種基于多神經(jīng)網(wǎng)絡(luò)協(xié)作的復(fù)雜醫(yī)療命名實(shí)體識(shí)別方法,通過(guò)多種神經(jīng)網(wǎng)絡(luò)模型協(xié)作的方式實(shí)現(xiàn)了復(fù)雜醫(yī)療命名實(shí)體有效識(shí)別,并且通過(guò)句子級(jí)別上的模型遷移應(yīng)用解決了訓(xùn)練數(shù)據(jù)集較小及數(shù)據(jù)分布不一致的問(wèn)題。本文的貢獻(xiàn)可總結(jié)如下:

        (1) 對(duì)于難以通過(guò)單一的神經(jīng)網(wǎng)絡(luò)模型完成的真實(shí)復(fù)雜醫(yī)療命名實(shí)體識(shí)別任務(wù),深入分析實(shí)體特點(diǎn),挖掘?qū)嶓w間的依賴(lài)關(guān)系,提出基于多神經(jīng)網(wǎng)絡(luò)協(xié)作的復(fù)雜醫(yī)療命名實(shí)體識(shí)別方法,有一定的工程實(shí)踐價(jià)值。

        (2) 本文方法相對(duì)于其他使用規(guī)則的方法有更好的泛化能力,在CHIP 2018評(píng)測(cè)任務(wù)中取得了第二名的成績(jī)。

        (3) 本文方法的改進(jìn)版本取得了CCKS2019評(píng)測(cè)任務(wù)一的第一名,為后續(xù)的相關(guān)研究提供了一個(gè)有效的基線成績(jī)。

        1 相關(guān)研究

        醫(yī)學(xué)命名實(shí)體識(shí)別指的是確定醫(yī)學(xué)領(lǐng)域文本中的專(zhuān)業(yè)術(shù)語(yǔ)的邊界,然后基于領(lǐng)域信息對(duì)它們進(jìn)行分類(lèi)[5]。目前醫(yī)學(xué)命名實(shí)體識(shí)別的主要方法分為淺層機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法。淺層機(jī)器學(xué)習(xí)方法主要包括HMM、ME、CRF、SVM,以及上述分類(lèi)模型的改進(jìn)等[6]。Wang等[7]驗(yàn)證了基于CRF的Gimli方法,在JNLPBA 2004數(shù)據(jù)集上取得了72.23%的F1值;于楠等[8]提出了多特征融合的條件隨機(jī)場(chǎng)方法,可以準(zhǔn)確識(shí)別中文電子病歷中疾病和癥狀實(shí)體,同時(shí)也可準(zhǔn)確識(shí)別未登錄詞。淺層機(jī)器學(xué)習(xí)方法在很大程度上依賴(lài)于人工特征的設(shè)計(jì)。為減少?gòu)?fù)雜的人工特征,Tang等[9]采用CRF模型進(jìn)行生物醫(yī)學(xué)實(shí)體識(shí)別,在基本人工特征的基礎(chǔ)上加入不同的詞向量特征,在JNLPBA 2004數(shù)據(jù)集上取得了71.39%的F1值。Chang等[10]利用少量的人工特征和詞向量結(jié)合的方式構(gòu)建CRF模型并添加后處理,在JNLPBA 2004語(yǔ)料上取得了71.77%的F1值。

        在使用深層神經(jīng)網(wǎng)絡(luò)進(jìn)行醫(yī)學(xué)命名實(shí)體識(shí)別的研究中,Yao等[11]首先在無(wú)標(biāo)注的生物醫(yī)學(xué)文本上利用神經(jīng)網(wǎng)絡(luò)生成詞向量,然后建立多層神經(jīng)網(wǎng)絡(luò),在JNLPBA 2004數(shù)據(jù)集上取得了71.01%的F1值。Li等[12]采用BiLSTM模型在BioCreative II GM的數(shù)據(jù)集上取得了88.6%的F1值,同時(shí)在JNLPBA 2004語(yǔ)料上取得了72.76%的F1值。李麗雙等[13]提出了一種基于CNN-BLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型,在Biocreative II GM和JNLPBA 2004數(shù)據(jù)集上達(dá)到了最優(yōu)的F1值。

        此外,基于規(guī)則的方法將手工編寫(xiě)的規(guī)則與文本進(jìn)行匹配來(lái)識(shí)別命名實(shí)體,是一種非常有效地命名實(shí)體識(shí)別的方法[14]。但基于規(guī)則方法需要領(lǐng)域?qū)I(yè)知識(shí)和專(zhuān)業(yè)的人員編寫(xiě)規(guī)則,并且規(guī)則跨領(lǐng)域遷移應(yīng)用能力較差,基本不具有泛化能力。

        2 實(shí)體識(shí)別方法

        2.1 實(shí)體定義與分析

        CHIP2018評(píng)測(cè)任務(wù)中的腫瘤原發(fā)部位、原發(fā)腫瘤大小、腫瘤轉(zhuǎn)移部位定義[15-16]如下:

        (1) 腫瘤原發(fā)部位:腫瘤原發(fā)的身體部位,區(qū)別于腫瘤轉(zhuǎn)移部位。通常情況下,腫瘤原發(fā)部位的下文為“癌”“惡性腫瘤”“MT”“CA”等。

        (2) 原發(fā)腫瘤大?。好枋鲈l(fā)腫瘤長(zhǎng)度、面積或體積的量度,包括,常見(jiàn)度量單位有mm、cm等。

        (3) 腫瘤轉(zhuǎn)移部位:原發(fā)腫瘤的轉(zhuǎn)移部位,理論上除腫瘤原發(fā)部位外,腫瘤可向身體任何其他部位轉(zhuǎn)移。

        從上述三種實(shí)體的定義中可以得出,作為一種描述腫瘤大小的量度,原發(fā)腫瘤大小依賴(lài)于腫瘤原發(fā)部位。一個(gè)基于統(tǒng)計(jì)得到的事實(shí)是原發(fā)腫瘤大小與腫瘤原發(fā)部位在電子病歷中是句子級(jí)別共存的,也就是說(shuō)在絕大多數(shù)情況下原發(fā)腫瘤大小和腫瘤原發(fā)部位出現(xiàn)在同一個(gè)句子中。

        腫瘤原發(fā)部位和腫瘤轉(zhuǎn)移部位都屬于身體部位或組織,在電子病歷中這兩種實(shí)體較為稀疏。一般情況下,一份病歷中只有一個(gè)腫瘤原發(fā)部位,數(shù)個(gè)腫瘤轉(zhuǎn)移部位。但電子病歷中包含大量的不屬于兩類(lèi)實(shí)體的身體部位。并且對(duì)于腫瘤轉(zhuǎn)移部位來(lái)說(shuō),只有“轉(zhuǎn)移”這一特征描述詞可以用于辨別一個(gè)身體部位是否屬于腫瘤轉(zhuǎn)移部位,但這種辨別能力隨著句子長(zhǎng)度的增加而削弱?,F(xiàn)在主流的神經(jīng)網(wǎng)絡(luò)模型大多將命名實(shí)體識(shí)別作為序列標(biāo)注任務(wù),其基于統(tǒng)計(jì)原理的本質(zhì)決定了當(dāng)電子病歷中包含了大量的與抽取任務(wù)無(wú)關(guān)的身體部位時(shí),腫瘤轉(zhuǎn)移部位的抽取不會(huì)有優(yōu)異的性能。

        基于上述分析,將CHIP2018評(píng)測(cè)任務(wù)分解為三個(gè)子任務(wù):腫瘤原發(fā)部位抽取,原發(fā)腫瘤大小抽取和腫瘤轉(zhuǎn)移部位抽取。

        2.2 方法設(shè)計(jì)

        圖1為基于神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜臨床醫(yī)療命名實(shí)體抽取方法架構(gòu)。

        圖1 臨床醫(yī)療命名實(shí)體抽取方法架構(gòu)

        (1) 腫瘤原發(fā)部位抽取。腫瘤原發(fā)部位的抽取是一個(gè)典型的命名實(shí)體識(shí)別過(guò)程,采用經(jīng)典的BiLSTM-CRF模型抽取腫瘤原發(fā)部位,模型框架結(jié)構(gòu)如圖2所示。

        圖2 BiLSTM-CRF模型框架結(jié)構(gòu)圖

        BiLSTM-CRF模型實(shí)現(xiàn)句子級(jí)別的命名實(shí)體識(shí)別。模型的第一層是embedding層,其作用是在將句子輸入到模型之前,將句子轉(zhuǎn)換為向量表達(dá)。從圖2中可以看出,本文中的BiLSTM-CRF模型基于字符embedding。具體來(lái)說(shuō),就是將句子中的每個(gè)字符用字符embedding表示,最后得到關(guān)于句子的向量表示序列。假設(shè)一個(gè)句子X(jué)含有n個(gè)字,則該句的向量表達(dá)可表示為X=(x1,x2,…,xn),其中xi∈Rd,d是字符embedding的維度。

        模型的第三層是CRF層,進(jìn)行句子級(jí)的序列標(biāo)注。CRF層的參數(shù)矩陣是一個(gè)維度為(k+2)×(k+2)的狀態(tài)轉(zhuǎn)移矩陣A,其中Aij表示從第i個(gè)標(biāo)簽到第j個(gè)標(biāo)簽的轉(zhuǎn)移得分,因此在為句子的一個(gè)字符進(jìn)行標(biāo)注的時(shí)候可以利用此前已經(jīng)標(biāo)注過(guò)的標(biāo)簽信息。假設(shè)y=(y1,y2,…,yn)為一個(gè)長(zhǎng)度等于句子長(zhǎng)度的標(biāo)簽序列,那么模型對(duì)于句子X(jué)的標(biāo)簽序列等于y的計(jì)算公式如下:

        式中:Pi,yi表示將xi標(biāo)注為yi的概率,由隱狀態(tài)Hi計(jì)算得到。

        模型在預(yù)測(cè)過(guò)程時(shí)使用動(dòng)態(tài)規(guī)劃的Viterbi算法來(lái)求解最優(yōu)路徑[8]。

        BiLSTM-CRF模型的超參數(shù)設(shè)置如表1所示,用 BiLSTM-CRF-T標(biāo)識(shí)。訓(xùn)練數(shù)據(jù)采用BIO[15]的標(biāo)注模式,依據(jù)人工標(biāo)注信息將CHIP TR處理成適合模型訓(xùn)練的格式。用B-TU、I-TU代表腫瘤原發(fā)部位首字和非首字,用O標(biāo)注不屬于命名實(shí)體的字符。一個(gè)數(shù)據(jù)標(biāo)注示例如圖3所示。

        表1 神經(jīng)網(wǎng)絡(luò)模型的超參數(shù)設(shè)置

        圖3 語(yǔ)料標(biāo)注示例

        (2) 原發(fā)腫瘤大小抽取。原發(fā)腫瘤大小是由數(shù)字、長(zhǎng)度單位(mm或cm)、表示乘法的二元符號(hào)(*、×、X等)組成按照一定的規(guī)則構(gòu)成的描述原發(fā)腫瘤的量度。本文采用了基于規(guī)則的方法抽取原發(fā)腫瘤大小,其抽取流程如下:

        ① 預(yù)處理電子病歷。將“?”“?”“;”“;”等標(biāo)點(diǎn)符號(hào)替換為“?!?,并依據(jù)“?!狈指铍娮硬v,得到句子集合。

        ② 句子篩選。對(duì)于第①步得到的句子集合中的每個(gè)句子,若其不包含腫瘤原發(fā)部位,則將其從句子集合中移除。將句子集合中剩余的句子組合成為短文本。

        ③ 實(shí)體抽取。依據(jù)電子病歷中的原發(fā)腫瘤大小的度量的符號(hào)組成規(guī)則,編寫(xiě)正則表達(dá)式(如式(1)所示),并用其抽取第②步獲取的短文本中的度量。

        RE=′(d?d?d?.?d?d(([cm][mm]?)|(.?.?[*×

        X~].?d?d?d?.?d?))*[cm][mm])′

        (1)

        原發(fā)腫瘤大小的抽取依賴(lài)于腫瘤原發(fā)部位的抽取結(jié)果,因此若腫瘤原發(fā)部位的抽取錯(cuò)誤,則可能會(huì)導(dǎo)致原發(fā)腫瘤大小抽取錯(cuò)誤,引起錯(cuò)誤傳播。

        (3) 腫瘤轉(zhuǎn)移部位抽取。腫瘤轉(zhuǎn)移部位與其他兩種實(shí)體無(wú)明顯的內(nèi)在關(guān)系,并且“轉(zhuǎn)移”作為唯一特征,難以用來(lái)抽取長(zhǎng)句中的多個(gè)腫瘤轉(zhuǎn)移部位。一種啟發(fā)式的抽取方法如下:

        ① 電子病歷預(yù)處理。一個(gè)基于統(tǒng)計(jì)得到的事實(shí)是:包含腫瘤轉(zhuǎn)移部位的句子中絕大多數(shù)包含“轉(zhuǎn)移”;在包含其他關(guān)鍵字的情況下,如“考慮轉(zhuǎn)移”、“不除外轉(zhuǎn)移”等,此句的前一句中包含的腫瘤轉(zhuǎn)移部位,統(tǒng)計(jì)得到的關(guān)鍵字如下所示?;陉P(guān)鍵字列表編寫(xiě)規(guī)則篩選包含腫瘤原發(fā)部位的句子。

        關(guān)鍵字列表={考慮轉(zhuǎn)移,轉(zhuǎn)移,傾向轉(zhuǎn)移,傾向?yàn)檗D(zhuǎn)移,轉(zhuǎn)移可能,不除外轉(zhuǎn)移,轉(zhuǎn)移不除外,轉(zhuǎn)移待排,疑轉(zhuǎn)移,轉(zhuǎn)移可能,轉(zhuǎn)移不除外,考慮為轉(zhuǎn)移,可疑淋巴結(jié)轉(zhuǎn)移,考慮轉(zhuǎn)移性淋巴結(jié),轉(zhuǎn)移性可能,轉(zhuǎn)移瘤可能,考慮多發(fā)轉(zhuǎn)移,轉(zhuǎn)移征象可能,轉(zhuǎn)移瘤不除外,轉(zhuǎn)移不能除外,考慮骨轉(zhuǎn)移,轉(zhuǎn)移待除外,考慮為轉(zhuǎn)移瘤,轉(zhuǎn)移可能性大,考慮肺轉(zhuǎn)移,考慮為骨轉(zhuǎn)移,轉(zhuǎn)移?,轉(zhuǎn)移均不除外,均考慮轉(zhuǎn)移不除外,均為骨轉(zhuǎn)移改變,均考慮轉(zhuǎn)移}

        ② 使用BiLSTM-CRF模型抽取句子中的解剖部位。

        ③ 處理解剖部位,獲取腫瘤轉(zhuǎn)移部位實(shí)體。后處理包括實(shí)體去重、實(shí)體特殊格式處理。其中特殊格式實(shí)體主要為補(bǔ)全與淋巴結(jié)相關(guān)的實(shí)體,如:“左側(cè)腮腺、雙頸、右側(cè)鎖骨上區(qū)間隙多發(fā)淋巴結(jié),考慮轉(zhuǎn)移”的神經(jīng)網(wǎng)絡(luò)模型識(shí)別結(jié)果為“左側(cè)腮腺”“雙頸”“右側(cè)鎖骨上區(qū)”“淋巴結(jié)”,需要將上述實(shí)體補(bǔ)全為“左側(cè)腮腺淋巴結(jié)”“雙頸淋巴結(jié)”“右側(cè)鎖骨上區(qū)淋巴結(jié)”。

        CHIP TR和CHIP TE中腫瘤原發(fā)部位、原發(fā)腫瘤大小、腫瘤轉(zhuǎn)移部位的數(shù)量統(tǒng)計(jì)如表2所示??梢钥闯?,兩個(gè)數(shù)據(jù)集中的腫瘤轉(zhuǎn)移部位的實(shí)體較為稀疏,因此從解剖部位數(shù)量和種類(lèi)上來(lái)看,基于CHIP TR不足以支撐訓(xùn)練性能優(yōu)異的神經(jīng)網(wǎng)絡(luò)模型。在此,引入了CCKS2018評(píng)測(cè)任務(wù)一發(fā)布的600份電子病歷數(shù)據(jù)集,該數(shù)據(jù)集由清華大學(xué)知識(shí)工程實(shí)驗(yàn)室和醫(yī)渡云(北京)技術(shù)有限公司聯(lián)合提供。本文用CCKS TR標(biāo)識(shí)該數(shù)據(jù)集,CCKS TR中有8 542個(gè)帶有標(biāo)注信息的解剖部位,完全可以滿足神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需求。盡管CCKS TR和CHIP數(shù)據(jù)集應(yīng)用場(chǎng)景不同,但是二者在解剖部位的表現(xiàn)形式上是一樣的。基于CCKS TR訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型遷移應(yīng)用于篩選的CHIP數(shù)據(jù)集的句子上既可以消除數(shù)據(jù)不一致帶來(lái)的影響,又解決了CHIP數(shù)據(jù)集實(shí)體稀疏的問(wèn)題。應(yīng)用于腫瘤轉(zhuǎn)移部位的抽取BiLSTM-CRF模型結(jié)構(gòu)與圖2所示的模型結(jié)構(gòu)一致。模型的參數(shù)設(shè)置如表1所示,用BiLSTM-CRF-M標(biāo)識(shí)。

        表2 CHIP2018數(shù)據(jù)集實(shí)體統(tǒng)計(jì)

        3 實(shí) 驗(yàn)

        3.1 評(píng)估標(biāo)準(zhǔn)

        本文共使用兩種評(píng)估標(biāo)準(zhǔn):標(biāo)準(zhǔn)評(píng)估和權(quán)重評(píng)估。

        (1) 標(biāo)準(zhǔn)評(píng)估。標(biāo)準(zhǔn)準(zhǔn)確率(P)、召回率(R)和F1值(F1)作為標(biāo)準(zhǔn)評(píng)估的評(píng)估指標(biāo),分別使用以下三個(gè)公式計(jì)算:

        (2)

        (3)

        (4)

        (2) 權(quán)重評(píng)估。權(quán)重評(píng)估由CHIP2018評(píng)測(cè)任務(wù)定義,用于計(jì)算帶權(quán)重的準(zhǔn)確率、召回率和F1值。若用T、S、M分別表示腫瘤原發(fā)部位、原發(fā)腫瘤大小、腫瘤轉(zhuǎn)移部位,那么在權(quán)重評(píng)估標(biāo)準(zhǔn)下TP、FP、FN的計(jì)算公式如下:

        TP=0.2×TPT+0.3×TPS+0.5×TPM

        (5)

        FP=0.2×FPT+0.3×FPS+0.5×FPM

        (6)

        FN=0.2×FNT+0.3×FNS+0.5×FNM

        (7)

        而標(biāo)準(zhǔn)評(píng)估標(biāo)準(zhǔn)下三者的計(jì)算公式如下:

        TP=TPT+TPS+TPM

        (8)

        FP=FPT+FPS+FPM

        (9)

        FN=FNT+FNS+FNM

        (10)

        3.2 實(shí)驗(yàn)結(jié)果

        本文方法在CHIP TE上的測(cè)試結(jié)果如表3所示,測(cè)試結(jié)果由CHIP 2018評(píng)測(cè)平臺(tái)提供。

        表3 命名實(shí)體識(shí)別方法在CHIP TE數(shù)據(jù)集上的評(píng)估結(jié)果%

        可以看出,本文方法在CHIP TE上獲得了78.38%的權(quán)重F1值,在此次評(píng)測(cè)任務(wù)中排名第二。此次評(píng)測(cè)任務(wù)的前四名的成績(jī)統(tǒng)計(jì)如表4所示。

        表4 CHIP2018評(píng)測(cè)任務(wù)一前四名成績(jī) %

        可以看出,在排名前四的方法中,本文方法是唯一基于神經(jīng)網(wǎng)絡(luò)的方法。相比于基于規(guī)則的方法,本文方法減少了編寫(xiě)規(guī)則的工作量,有更好的泛化能力。

        CCKS2019發(fā)布了一項(xiàng)與CHIP2018任務(wù)形式相同的評(píng)測(cè)任務(wù),并且提供了900份電子病歷作為訓(xùn)練數(shù)據(jù)集。為驗(yàn)證本文方法的泛化能力,將其遷移應(yīng)用到CCKS2019數(shù)據(jù)集上,測(cè)試結(jié)果如表5所示。

        表5 命名實(shí)體識(shí)別方法在CCKS2019數(shù)據(jù)集上的評(píng)估結(jié)果 %

        可以看出,本文方法在CCKS2019數(shù)據(jù)集上取得了帶權(quán)重的69.09%的F1值,比在CHIP TE上的評(píng)估結(jié)果低9.29個(gè)百分點(diǎn)。深入研究后發(fā)現(xiàn),兩次評(píng)測(cè)任務(wù)標(biāo)準(zhǔn)的不完全一致是導(dǎo)致本文方法性能下降較大的原因:在CHIP2018評(píng)測(cè)任務(wù)中,腫瘤原發(fā)部位的是不帶有方位詞的,但在CCKS2019評(píng)測(cè)任務(wù)中要求帶有方位詞;CCKS2019評(píng)測(cè)任務(wù)不需要對(duì)淋巴結(jié)相關(guān)的實(shí)體進(jìn)行補(bǔ)全。在3.2節(jié)給出的例子中,BiLSTM-CRF模型的識(shí)別結(jié)果就是CCKS2019要求的正確結(jié)果。

        依據(jù)CCKS2019評(píng)測(cè)任務(wù)一的具體任務(wù)定義形式對(duì)本文方法進(jìn)行改進(jìn),最終在CCKS2019評(píng)測(cè)任務(wù)一中取得了第一名的成績(jī)[17]。簡(jiǎn)而言之,本文方法的有效性和泛化能力在CCKS2019數(shù)據(jù)集中得到了驗(yàn)證。

        4 結(jié) 語(yǔ)

        本文提出一種基于神經(jīng)網(wǎng)絡(luò)的電子病歷命名實(shí)體識(shí)別方法,探究了融合使用多種神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)復(fù)雜的、難以通過(guò)單一神經(jīng)網(wǎng)絡(luò)模型完成的醫(yī)療命名實(shí)體識(shí)別,有一定的工程實(shí)踐價(jià)值。在CHIP2018和CCKS2019評(píng)測(cè)任務(wù)中,本文方法及改進(jìn)方法分別取得了優(yōu)異的成績(jī),驗(yàn)證了本文方法的有效性和泛化能力,為后續(xù)相關(guān)研究提供了一個(gè)有效的基線成績(jī)。

        未來(lái)仍然還需要許多的工作來(lái)完善本文方法。首先,本文方法中仍然使用了基于規(guī)則的方法抽取原發(fā)腫瘤大小和包含腫瘤轉(zhuǎn)移部位句子,因此未來(lái)的工作之一是使用基于神經(jīng)網(wǎng)絡(luò)的方法替換基于規(guī)則的方法,以進(jìn)一步提高本文方法的性能和泛化能力。其次,本文方法中使用的兩個(gè)BiLSTM-CRF模型均是基于隨機(jī)初始化的字符embeddings,而領(lǐng)域相關(guān)的預(yù)訓(xùn)練的字符embeddings可以有效提高命名實(shí)體識(shí)別性能[18-19],因此未來(lái)的第二個(gè)工作是預(yù)訓(xùn)練領(lǐng)域相關(guān)的字符embeddings,以進(jìn)一步提高本文方法的性能。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        最新国产一区二区精品久久| 韩国av一区二区三区不卡| 男人女人做爽爽18禁网站| 猫咪免费人成网站在线观看 | 人妖另类综合视频网站| 风流少妇一区二区三区91| 亚洲一区二区三区,日本| 又黄又硬又湿又刺激视频免费| 国产人成精品综合欧美成人| 日本精品极品视频在线| 美女视频在线观看网址大全| 天堂网www资源在线| 国内大量揄拍人妻在线视频| 国产午夜精品久久久久| 日本不卡一区二区三区久久精品| 欧美日韩一区二区三区在线观看视频| 免费国产在线精品一区二区三区免 | 精品人妻一区二区三区蜜桃| 视频国产自拍在线观看| 亚洲女同一区二区| 护士奶头又白又大又好摸视频 | 亚洲国产精品嫩草影院久久av| 亚洲黄色大片在线观看| 日本精品视频一区二区三区四区| 成人免费看片又大又黄| 无码午夜剧场| 亚洲国产综合精品一区最新| 国产成人无码a区在线观看导航| 天天躁夜夜躁狠狠躁2021| 无码中文字幕加勒比一本二本| 天堂女人av一区二区| 日韩av一区二区三区激情在线| 首页 综合国产 亚洲 丝袜| 精品国产av无码一道| 天堂精品人妻一卡二卡| 日日噜噜夜夜狠狠va视频v| 一本色道av久久精品+网站 | 在线视频精品少白免费观看| 国产免费久久精品99久久| 少妇的肉体k8经典| 日本一极品久久99精品|