亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化

        2021-05-27 05:31:56孫曰君劉智強(qiáng)楊志豪林鴻飛
        中文信息學(xué)報(bào) 2021年4期
        關(guān)鍵詞:標(biāo)準(zhǔn)化標(biāo)準(zhǔn)實(shí)驗(yàn)

        孫曰君,劉智強(qiáng),楊志豪,林鴻飛

        (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

        0 引言

        隨著醫(yī)療信息化的快速發(fā)展,各醫(yī)院累積了海量電子病歷數(shù)據(jù),如何有效利用這些數(shù)據(jù)來(lái)提高醫(yī)療健康服務(wù)水平是當(dāng)前研究熱點(diǎn)之一[1]。電子病歷作為病人入院就診信息的基本載體,記錄了大量有意義的信息,這些病例信息大多以自由文本形式存在,并且由于醫(yī)生個(gè)人書寫習(xí)慣以及術(shù)語(yǔ)表達(dá)多樣性等因素,導(dǎo)致電子病歷中同一醫(yī)療概念會(huì)對(duì)應(yīng)多種不用的表述形式,阻礙了醫(yī)療數(shù)據(jù)的檢索、分析和利用。把形式多樣的醫(yī)療概念映射到標(biāo)準(zhǔn)的醫(yī)療術(shù)語(yǔ)編碼,即臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化(clinical term normalization),對(duì)于疾病輔助診療、科研檢索、疾病分組(diagnosis related groups,DRGS)以及智能醫(yī)??刭M(fèi)等研究具有重要的現(xiàn)實(shí)意義[2]。

        當(dāng)前國(guó)內(nèi)的手術(shù)操作編碼主要采用的是《手術(shù)操作分類與代碼應(yīng)用指導(dǎo)手冊(cè)》(簡(jiǎn)稱,ICD9—2017協(xié)和臨床版)。它是根據(jù)國(guó)際疾病分類臨床修訂本(第三卷)進(jìn)行的本土化修訂,收納了近9 000條的手術(shù)、操作名稱,按照編碼規(guī)則,統(tǒng)一擴(kuò)展為6位數(shù),編碼樣例如表1所示。

        表1 ICD9—2017協(xié)和臨床版編碼樣例

        盡管臨床術(shù)語(yǔ)的標(biāo)準(zhǔn)化編碼對(duì)于醫(yī)療行業(yè)的發(fā)展非常重要,但在實(shí)際情況中患者就診時(shí)為其分配正確的編碼,不但耗時(shí)、易出錯(cuò)且成本高昂。醫(yī)療機(jī)構(gòu)的專業(yè)編碼人員會(huì)對(duì)臨床醫(yī)生的診斷進(jìn)行二次編碼,編碼人員需要查閱醫(yī)生對(duì)某次臨床事件寫的診斷描述以及電子病歷中的其他信息,然后再按照編碼指導(dǎo)以人工的方式分配合適的標(biāo)準(zhǔn)編碼。這種方式總體學(xué)習(xí)成本較高,并且效率低下。因此,研究一種自動(dòng)的臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化方法對(duì)于推進(jìn)醫(yī)療信息化建設(shè)以及減少編碼人員的工作量、提高工作效率具有重要的現(xiàn)實(shí)意義。

        本文將臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化問(wèn)題抽象為分類問(wèn)題,提出一種基于BERT的臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化方法。首先計(jì)算待標(biāo)準(zhǔn)化的手術(shù)原詞與標(biāo)準(zhǔn)詞之間的Jaccard相似度系數(shù),生成候選標(biāo)準(zhǔn)詞集合;然后將手術(shù)原詞與候選標(biāo)準(zhǔn)詞使用BERT模型進(jìn)行匹配分類,得到最終的預(yù)測(cè)結(jié)果。該方法在2019年CHIP臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化評(píng)測(cè)數(shù)據(jù)集上準(zhǔn)確率為90.04%,表明該方法對(duì)于臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化任務(wù)是有效的。

        1 相關(guān)方法

        針對(duì)臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化問(wèn)題,已有大量醫(yī)生和技術(shù)人員進(jìn)行了研究和探索,目前主要分為三類方法,即基于人工手動(dòng)結(jié)合規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。

        寧溫馨等[3]提出一種為中文臨床診斷進(jìn)行術(shù)語(yǔ)標(biāo)準(zhǔn)化的算法,利用分布式語(yǔ)義相似度計(jì)算方法計(jì)算文本語(yǔ)義相似度,并且基于詞語(yǔ)和漢字構(gòu)建詞向量來(lái)提高性能。黃嘉俊[2]提出了一種基于組合語(yǔ)義相似度技術(shù)進(jìn)行疾病術(shù)語(yǔ)標(biāo)準(zhǔn)化的方法,其主要基于領(lǐng)域知識(shí)庫(kù)結(jié)合分詞、實(shí)體識(shí)別和詞向量表示技術(shù)進(jìn)行臨床術(shù)語(yǔ)相似度計(jì)算。Larkey等[4]通過(guò)組合三種分類器:K-近鄰(K-nearest-neighbor)、相關(guān)性反饋(relevance feedback)以及貝葉斯獨(dú)立分類器(Bayesian independence classifier),對(duì)住院患者的出院記錄實(shí)現(xiàn)臨床術(shù)語(yǔ)自動(dòng)標(biāo)準(zhǔn)化。Shi等[5]提出了一種分層神經(jīng)網(wǎng)絡(luò)模型,可以捕獲到原始詞與標(biāo)準(zhǔn)詞之間的潛在語(yǔ)義信息,并且設(shè)計(jì)了注意力機(jī)制來(lái)解決原始詞對(duì)應(yīng)標(biāo)準(zhǔn)詞數(shù)量和預(yù)測(cè)的標(biāo)準(zhǔn)詞數(shù)量之間的不平衡問(wèn)題。趙等[1]提出了一種基于深度學(xué)習(xí)的電子病歷醫(yī)學(xué)實(shí)體標(biāo)準(zhǔn)化算法,使用Siamese網(wǎng)絡(luò)架構(gòu)和LSTM網(wǎng)絡(luò)搭建模型,采用Pairwise方法訓(xùn)練模型。張等[6]構(gòu)建了一種基于融合條目詞嵌入和注意力機(jī)制的深度學(xué)習(xí)模型,該模型首先對(duì)含有病案條目的文本進(jìn)行融合條目的詞嵌入,并通過(guò)關(guān)鍵詞注意力來(lái)豐富詞級(jí)別的類別表示,然后利用詞語(yǔ)注意力來(lái)突出重點(diǎn)詞語(yǔ)的作用,增強(qiáng)文本表示,最后通過(guò)全連接神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行分類,輸出標(biāo)準(zhǔn)化的結(jié)果。杜等[7]提出了一種基于多尺度殘差圖卷積網(wǎng)絡(luò)的臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化方法,該方法采用多尺度殘差網(wǎng)絡(luò)來(lái)捕獲臨床文本的不同長(zhǎng)度的文本模式,并基于圖卷積神經(jīng)網(wǎng)絡(luò)抽取標(biāo)簽之間的層次關(guān)系,以加強(qiáng)標(biāo)準(zhǔn)化的能力。Xu等[8]充分利用電子病歷中的各種數(shù)據(jù)資源,結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)勢(shì),對(duì)不同類型的數(shù)據(jù)(非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù))學(xué)習(xí)不同的分類器,然后集成起來(lái),實(shí)現(xiàn)基于多模態(tài)的臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化系統(tǒng)。

        從當(dāng)前結(jié)果來(lái)看,三類方法各有所長(zhǎng)和不足。人工加規(guī)則的方法匹配精度較高,但效率低下;機(jī)器學(xué)習(xí)的方法無(wú)法捕獲到文本中隱藏的深層語(yǔ)義信息;深度學(xué)習(xí)在文本建模上具有強(qiáng)大的表征能力,不僅可以更好地表示詞語(yǔ)和文本,還可以學(xué)習(xí)到詞語(yǔ)的上下文關(guān)系和重要詞語(yǔ)的信息,在文本分類領(lǐng)域展現(xiàn)出強(qiáng)大的優(yōu)勢(shì)。因此,深度學(xué)習(xí)成為目前研究臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化的主流方法。

        2 基于BERT的臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化方法

        本文方法首先對(duì)文本進(jìn)行規(guī)范化處理,并根據(jù)規(guī)則對(duì)原始詞對(duì)應(yīng)的標(biāo)準(zhǔn)詞數(shù)量進(jìn)行判斷,將對(duì)應(yīng)多個(gè)標(biāo)準(zhǔn)詞的原始詞進(jìn)行拆分。然后使用相似度算法生成原始詞對(duì)應(yīng)的候選標(biāo)準(zhǔn)詞集合,得到初步的預(yù)測(cè)結(jié)果,然后使用BERT模型對(duì)原始詞進(jìn)行分類,得到最終的預(yù)測(cè)結(jié)果。其系統(tǒng)架構(gòu)如圖1所示,任務(wù)流程如圖2所示。

        圖1 模型的系統(tǒng)架構(gòu)

        2.1 數(shù)據(jù)預(yù)處理

        2.1.1 數(shù)據(jù)規(guī)范化

        由于文本中存在不規(guī)范的非漢字字符,需要將其中的無(wú)關(guān)字符去除,例如,“(右側(cè))顱內(nèi)硬膜下沖洗術(shù)((01.0903))”轉(zhuǎn)化為“(右側(cè))顱內(nèi)硬膜下沖洗術(shù)”。

        2.1.2 基于規(guī)則的標(biāo)準(zhǔn)詞數(shù)量預(yù)測(cè)

        由于手術(shù)原詞存在一個(gè)原詞對(duì)應(yīng)多個(gè)標(biāo)準(zhǔn)詞的情況,本文的處理方式是對(duì)手術(shù)原詞進(jìn)行數(shù)量判斷,將包含多個(gè)標(biāo)準(zhǔn)詞的手術(shù)原詞以“+”或“、”為界進(jìn)行切分,切分成多個(gè)細(xì)粒度的手術(shù)原詞,對(duì)多個(gè)細(xì)粒度原詞進(jìn)行預(yù)測(cè),將預(yù)測(cè)得到的多個(gè)標(biāo)準(zhǔn)詞通過(guò)“##”連接,作為包含多個(gè)標(biāo)準(zhǔn)詞的手術(shù)原詞的預(yù)測(cè)結(jié)果,圖2是任務(wù)流程圖。

        圖2 臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化任務(wù)流程

        2.2 相似度算法

        候選標(biāo)準(zhǔn)詞的生成方式是通過(guò)對(duì)給定的手術(shù)操作原詞與標(biāo)準(zhǔn)詞表中的每一個(gè)標(biāo)準(zhǔn)詞進(jìn)行相似度計(jì)算,通過(guò)相似度值對(duì)標(biāo)準(zhǔn)詞進(jìn)行打分排序得到n個(gè)候選標(biāo)準(zhǔn)詞。

        中文短文本相似度計(jì)算的主流方法有:余弦相似度(cosine)、BM25相關(guān)性評(píng)分、Jaccard系數(shù)、編輯距離(minimum edit distance,MED)、Dice距離等。

        余弦相似度是通過(guò)計(jì)算兩個(gè)向量之間夾角的余弦值來(lái)衡量相似度大小,夾角越小,相似度越高。假設(shè)V1和V2是兩個(gè)n維向量,它們之間的余弦相似度計(jì)算如式(1)所示。

        (1)

        BM25相關(guān)性評(píng)分的主要原理是:對(duì)于句子s1先進(jìn)行分詞,生成詞列表[wi],對(duì)于要與句子s1進(jìn)行比較的句子s2,計(jì)算每個(gè)詞wi與s2的相關(guān)性得分,最后將wi相對(duì)于s2的相關(guān)性得分進(jìn)行加權(quán)求和,計(jì)算方法如式(2)所示。

        式(2)中的idf(wi)為詞wi的idf值,fi為詞wi在句子s2中出現(xiàn)的頻率,k1與b為調(diào)節(jié)因子,通常分別為2和0.75,len(s2)為句子s2的長(zhǎng)度,avgsl是所有句子的平均長(zhǎng)度。

        Jaccard系數(shù)是一個(gè)用于衡量?jī)蓚€(gè)集合相似程度的度量標(biāo)準(zhǔn),對(duì)于給定的兩個(gè)集合A,B,它們之間的Jaccard系數(shù)計(jì)算如式(3)所示。

        (3)

        基于編輯距離(MED)的相似度算法計(jì)算方法,如式(4)所示。

        (4)

        其中,s1和s2為待計(jì)算的兩個(gè)字符串,len(s1)和len(s2)分別是字符串s1和s2的字符個(gè)數(shù),d(s1,s2)是s1和的s2編輯距離,即將s1變成s2的最小操作次數(shù),允許的編輯操作為替換一個(gè)字符、插入一個(gè)字符、刪除一個(gè)字符3種。

        Dice距離用于度量?jī)蓚€(gè)集合的相似性,因?yàn)榭梢园炎址斫鉃橐环N集合,因此Dice距離也會(huì)用于度量字符串的相似性。對(duì)于給定集合C和D,它們之間的Dice距離計(jì)算如式(5)所示。

        (5)

        2.3 候選標(biāo)準(zhǔn)詞匹配

        BERT[9]是Google在2018年推出的預(yù)訓(xùn)練模型,在多項(xiàng)自然語(yǔ)言處理任務(wù)上取得了不凡的表現(xiàn),其模型結(jié)構(gòu)如圖3所示。

        圖3 BERT模型結(jié)構(gòu)圖

        BERT模型使用了雙向Transformer的Encoder作為基本組成單元,BERT的這種結(jié)構(gòu)能夠聯(lián)合所有層中的左右兩個(gè)方向的上下文信息進(jìn)行訓(xùn)練。此外,BERT模型使用的Transformer基于多頭注意力機(jī)制(muli-head attention)。多頭注意力機(jī)制可以幫助模型捕獲更多的語(yǔ)義特征,將各個(gè)注意力頭單獨(dú)進(jìn)行計(jì)算,然后將其結(jié)果進(jìn)行拼接,得到最終的結(jié)果。BERT是通過(guò)大量未標(biāo)注的百科文本語(yǔ)料進(jìn)行訓(xùn)練得到的預(yù)訓(xùn)練語(yǔ)言模型,可針對(duì)特定目標(biāo)任務(wù)對(duì)BERT模型進(jìn)行微調(diào)。

        候選標(biāo)準(zhǔn)詞匹配的過(guò)程是將手術(shù)原詞與候選標(biāo)準(zhǔn)詞用[SEP]分隔符隔開作為BERT的輸入,如圖1中候選標(biāo)準(zhǔn)詞匹配部分所示,然后取BERT輸出中CLS位置對(duì)應(yīng)的向量作為下一個(gè)全連接層的輸入,使用softmax函數(shù)進(jìn)行激活,把手術(shù)原詞與候選標(biāo)準(zhǔn)詞語(yǔ)義相似度計(jì)算問(wèn)題抽象為二分類問(wèn)題。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文使用CHIP2019臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化評(píng)測(cè)任務(wù)的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該評(píng)測(cè)是針對(duì)中文電子病歷挖掘出的真實(shí)手術(shù)原詞進(jìn)行語(yǔ)義標(biāo)準(zhǔn)化,所有手術(shù)原詞均來(lái)自于真實(shí)醫(yī)療數(shù)據(jù),以《ICD9-2017版協(xié)和臨床版》手術(shù)詞表進(jìn)行了標(biāo)注。實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)如表2所示。

        表2 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)

        實(shí)驗(yàn)數(shù)據(jù)樣例如表3所示,對(duì)于一個(gè)手術(shù)原詞包含多個(gè)標(biāo)準(zhǔn)詞的情況,標(biāo)準(zhǔn)詞之間用“##”連接。

        表3 實(shí)驗(yàn)數(shù)據(jù)樣例

        3.2 評(píng)價(jià)指標(biāo)

        候選標(biāo)準(zhǔn)詞生成實(shí)驗(yàn)采用的是召回率(Recall)作為評(píng)價(jià)指標(biāo),其計(jì)算如式(6)所示。

        其中,A和B分別是待預(yù)測(cè)原詞集合和候選標(biāo)準(zhǔn)詞集合。

        分類實(shí)驗(yàn)在數(shù)據(jù)集上的預(yù)測(cè)結(jié)果有以下四種情況:模型把正例預(yù)測(cè)為正例的情況(true positive,TP);模型把負(fù)例預(yù)測(cè)為正例的情況(false positive,F(xiàn)P);模型把負(fù)例預(yù)測(cè)為負(fù)例的情況(true negative,TN);模型把正例預(yù)測(cè)為負(fù)例的情況(false negative,F(xiàn)N)。

        對(duì)于原詞分類實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)是準(zhǔn)確率(accuracy,A)、精確率(precision,P)、召回率(recall,R)和F1值。其計(jì)算如式(7)~式(10)所示。

        其中,pre_T為預(yù)測(cè)正確的手術(shù)原詞加手術(shù)標(biāo)準(zhǔn)詞的組合數(shù)量,N為待預(yù)測(cè)手術(shù)原詞的總數(shù)。準(zhǔn)確率是CHIP2019臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化評(píng)測(cè)任務(wù)使用的評(píng)價(jià)指標(biāo)。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        3.3.1 候選標(biāo)準(zhǔn)詞生成實(shí)驗(yàn)

        針對(duì)圖1中的候選標(biāo)準(zhǔn)詞生成部分,為了對(duì)比分析2.2節(jié)中不同相似度算法對(duì)候選標(biāo)準(zhǔn)詞生成效果的影響,本文設(shè)計(jì)實(shí)現(xiàn)了五種方法進(jìn)行候選標(biāo)準(zhǔn)詞的生成,實(shí)驗(yàn)結(jié)果如表4所示。

        表4 不同方法的候選詞生成Top30結(jié)果比較

        從表4的結(jié)果可以得到以下結(jié)論:

        (1) 基于Jaccard系數(shù)的候選標(biāo)準(zhǔn)詞生成效果優(yōu)于其他四種方法,有助于提高候選標(biāo)準(zhǔn)詞生成的質(zhì)量。

        (2) BM25算法依賴于精準(zhǔn)的醫(yī)學(xué)分詞,Cosine算法依賴于高質(zhì)量的詞向量,本文實(shí)驗(yàn)采用的是通用的分詞工具和詞向量,沒(méi)有進(jìn)行人工特征的構(gòu)建,所以導(dǎo)致二者的效果較差,并且二者的計(jì)算復(fù)雜度明顯高于其他三種方法。

        為了充分利用手術(shù)原詞中隱藏的特征,本文將訓(xùn)練集中的手術(shù)原詞作為偽標(biāo)準(zhǔn)詞,對(duì)于待標(biāo)準(zhǔn)化的手術(shù)原詞,在偽標(biāo)準(zhǔn)詞中生成候選數(shù)據(jù),將該數(shù)據(jù)對(duì)應(yīng)的標(biāo)準(zhǔn)詞作為候選標(biāo)準(zhǔn)詞。針對(duì)候選標(biāo)準(zhǔn)詞的生成范圍(召回范圍),本文設(shè)計(jì)了四個(gè)實(shí)驗(yàn),召回范圍分別為標(biāo)準(zhǔn)詞、偽標(biāo)準(zhǔn)詞、標(biāo)準(zhǔn)詞&偽標(biāo)準(zhǔn)詞和標(biāo)準(zhǔn)詞+偽標(biāo)準(zhǔn)詞。實(shí)驗(yàn)結(jié)果如表5所示。

        表5 不同召回范圍的候選詞生成結(jié)果比較

        表5中,“標(biāo)準(zhǔn)詞&偽標(biāo)準(zhǔn)詞”代表將兩個(gè)詞表融為一體進(jìn)行相似度排序生成候選標(biāo)準(zhǔn)詞,“標(biāo)準(zhǔn)詞+偽標(biāo)準(zhǔn)詞”代表在各自詞表中進(jìn)行相似度排序,將生成的候選標(biāo)準(zhǔn)詞融合在一起。從表5可以得到以下結(jié)論:

        偽標(biāo)準(zhǔn)詞有助于候選標(biāo)準(zhǔn)詞的生成效果,并且“標(biāo)準(zhǔn)詞+偽標(biāo)準(zhǔn)詞”的召回范圍適合于候選標(biāo)準(zhǔn)詞的生成。

        Top30的召回效果達(dá)到了較高的水平,因此本文采用原始詞的Top30候選標(biāo)準(zhǔn)詞集合作為候選標(biāo)準(zhǔn)詞匹配的輸入。

        Top30內(nèi)未召回準(zhǔn)確標(biāo)準(zhǔn)詞的手術(shù)原詞樣例如表6所示。從表6可以看出,對(duì)于復(fù)雜的手術(shù)原詞使用單純的字符相似度算法進(jìn)行召回,忽略了手術(shù)描述的語(yǔ)義信息,導(dǎo)致召回失敗。

        表6 未召回標(biāo)準(zhǔn)詞的手術(shù)原詞樣例

        3.3.2 候選標(biāo)準(zhǔn)詞匹配訓(xùn)練集構(gòu)造

        候選標(biāo)準(zhǔn)詞匹配的過(guò)程是基于BERT模型的0-1分類任務(wù),需要構(gòu)建包含正負(fù)例的訓(xùn)練集用于訓(xùn)練模型。

        正例:<原詞i,標(biāo)準(zhǔn)詞i,1>

        構(gòu)建負(fù)例:原詞i與標(biāo)準(zhǔn)詞詞表中的每一個(gè)標(biāo)準(zhǔn)詞計(jì)算Jaccard相似度系數(shù),取相似度值的Top20作為候選詞表,將標(biāo)準(zhǔn)詞i從候選詞表中去除,剩下的候選詞用作構(gòu)建負(fù)例。

        負(fù)例:<原詞i,標(biāo)準(zhǔn)詞j,0>

        3.3.3 參數(shù)設(shè)置

        本文采用的是Google 提供的 BERT-Base 模型,詳細(xì)訓(xùn)練參數(shù)如表7所示。

        表7 BERT模型參數(shù)設(shè)置

        3.3.4 候選標(biāo)準(zhǔn)詞匹配實(shí)驗(yàn)

        針對(duì)訓(xùn)練集中正負(fù)例1∶19的不平衡,本文設(shè)計(jì)了四種正負(fù)例比例進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表8所示。

        表8 不同正負(fù)例比例實(shí)驗(yàn)結(jié)果比較

        從表8的實(shí)驗(yàn)結(jié)果可以得出結(jié)論:10倍正例加負(fù)例的組合,有助于提高本文方法的性能。

        針對(duì)圖1中的候選詞打分部分,為了對(duì)比分析不同神經(jīng)網(wǎng)絡(luò)模型的性能,本文選取并實(shí)現(xiàn)了以下六種模型進(jìn)行對(duì)比實(shí)驗(yàn)。

        (1) CDSSM[10]:通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)捕獲上下文信息,根據(jù)提取到的特征進(jìn)行手術(shù)原詞分類。

        (2) MVLSTM[11]:基于雙向LSTM網(wǎng)絡(luò)的多語(yǔ)義模型,該模型能夠有效提取句子中的重要特征,根據(jù)提取到的特征進(jìn)行手術(shù)原詞分類。

        (3) Match_pyramid[12]:將文本使用相似度計(jì)算構(gòu)造相似度矩陣,然后使用卷積網(wǎng)絡(luò)來(lái)提取特征,根據(jù)提取到的特征進(jìn)行手術(shù)原詞分類。

        (4) BiMPM[13]:采用了matching-aggregation的結(jié)構(gòu),把兩個(gè)句子之間的單元做相似度計(jì)算,最后經(jīng)過(guò)全連接層與softamx層得到手術(shù)原詞分類結(jié)果;

        (5) DRCN[14]:在特征提取階段結(jié)合了DenseNet的連接策略與注意力機(jī)制,在interaction階段,也采取了多樣化的交互策略來(lái)提取特征,根據(jù)提取到的特征進(jìn)行手術(shù)原詞分類。

        (6) ESIM[15]:通過(guò)使用句子間的注意力機(jī)制(intra-sentence attention)來(lái)提取特征,根據(jù)提取到的特征進(jìn)行手術(shù)原詞分類。

        本文使用了上述六種模型和BERT模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表9所示。

        表9 不同方法的實(shí)驗(yàn)結(jié)果比較

        從表9的實(shí)驗(yàn)結(jié)果可以看出本文方法的實(shí)驗(yàn)結(jié)果均優(yōu)于其他神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果,表明本文方法可以提高臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化的效果。

        3.3.5 結(jié)果分析

        對(duì)于本文方法的預(yù)測(cè)結(jié)果,選取了3個(gè)預(yù)測(cè)正確和3個(gè)預(yù)測(cè)錯(cuò)誤的樣例,如表10所示。

        表10 預(yù)測(cè)結(jié)果樣例

        續(xù)表

        從表10的樣例可以看出,手術(shù)原詞中會(huì)包含“全麻下”和“ORIF”這種醫(yī)生使用的描述,對(duì)于標(biāo)準(zhǔn)化的過(guò)程會(huì)產(chǎn)生干擾。從預(yù)測(cè)正確的樣例來(lái)看,本文方法可以捕獲到手術(shù)原詞中的重點(diǎn)詞匯,從而對(duì)不規(guī)范的手術(shù)原詞預(yù)測(cè)出準(zhǔn)確的標(biāo)準(zhǔn)詞。從表10的預(yù)測(cè)錯(cuò)誤樣例可以得到以下結(jié)論:對(duì)于由“部位+術(shù)式+入路+疾病性質(zhì)”組成的手術(shù)名稱,在使用本文的方法進(jìn)行標(biāo)準(zhǔn)化時(shí),沒(méi)有充分考慮到部位、術(shù)式、入路和疾病性質(zhì)的匹配,導(dǎo)致預(yù)測(cè)結(jié)果錯(cuò)誤。沒(méi)有充分融合“部位、術(shù)式、入路和疾病性質(zhì)”這四類語(yǔ)義特征是本文方法的缺陷,這也是本文方法可以繼續(xù)改進(jìn)和提升之處。

        4 結(jié)論

        臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化任務(wù)旨在將電子病歷中包含的醫(yī)療概念映射到標(biāo)準(zhǔn)的編碼,對(duì)醫(yī)療信息化的建設(shè)具有重要的意義。

        本文提出了一種基于BERT的臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化方法,將臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化任務(wù)轉(zhuǎn)化為二分類問(wèn)題。首先計(jì)算待標(biāo)準(zhǔn)化的手術(shù)原詞與標(biāo)準(zhǔn)詞之間的 Jaccard 相似度系數(shù),生成候選標(biāo)準(zhǔn)詞集合,然后將手術(shù)原詞與候選標(biāo)準(zhǔn)詞使用BERT模型進(jìn)行匹配分類,得到最終的預(yù)測(cè)結(jié)果。本文方法避免了人工構(gòu)建特征的繁瑣,在CHIP2019臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化評(píng)測(cè)數(shù)據(jù)集上準(zhǔn)確率為90.04%,表明本文方法對(duì)臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化任務(wù)是有效的。

        另一方面,本文方法沒(méi)有充分利用醫(yī)療術(shù)語(yǔ)的構(gòu)成信息,導(dǎo)致對(duì)復(fù)雜的手術(shù)原詞預(yù)測(cè)錯(cuò)誤。未來(lái)可以從醫(yī)療術(shù)語(yǔ)的構(gòu)成特點(diǎn)入手,例如,增加“部位、術(shù)式、入路和疾病性質(zhì)”特征,提高本文方法的預(yù)測(cè)準(zhǔn)確率。

        猜你喜歡
        標(biāo)準(zhǔn)化標(biāo)準(zhǔn)實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
        標(biāo)準(zhǔn)化簡(jiǎn)述
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        忠誠(chéng)的標(biāo)準(zhǔn)
        美還是丑?
        標(biāo)準(zhǔn)化是綜合交通運(yùn)輸?shù)谋U稀庾x《交通運(yùn)輸標(biāo)準(zhǔn)化體系》
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長(zhǎng)中的煩惱”
        專用汽車(2016年4期)2016-03-01 04:13:43
        国农村精品国产自线拍| 精品国产一区二区三区18p| 疯狂三人交性欧美| 中文字幕精品一二三四五六七八| 亚洲人成亚洲人成在线观看| 无遮挡很爽视频在线观看| 亚洲av第一区国产精品| 成人网站在线进入爽爽爽| 国产手机在线αⅴ片无码观看| 无码av免费精品一区二区三区| 国产一区二区三区再现| 国产精品国产三级国产av品爱 | 日韩女同精品av在线观看| 久久9精品区-无套内射无码| 国产精品公开免费视频| 亚洲视频一区二区三区免费| 国产内射视频在线免费观看 | 亚洲欧美日韩综合久久久| 国产精品国产午夜免费福利看| 国产亚洲专区一区二区| 日本少妇春药特殊按摩3| 亚洲综合无码一区二区| 五码人妻少妇久久五码| 美女视频一区二区三区在线| wwww亚洲熟妇久久久久| 啪啪无码人妻丰满熟妇| 国产午夜在线观看视频| 亚洲va中文字幕无码一二三区| av蓝导航精品导航| 丁香九月综合激情| 麻神在线观看免费观看| 一品二品三品中文字幕| 九九久久99综合一区二区| 欧美人与动牲交片免费| 国模一区二区三区白浆| 亚洲乱码av中文一区二区 | 亚洲avav天堂av在线网爱情| 又硬又粗又大一区二区三区视频| 亚洲AV秘 片一区二区三区| 日本最新一区二区三区在线| 国产乱码精品一区二区三区四川人 |