亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)MC-Bert 的ICD 編碼映射方法研究

        2023-06-21 01:59:00周浩然鄭建立
        關(guān)鍵詞:語(yǔ)義實(shí)驗(yàn)模型

        周浩然, 鄭建立

        (上海理工大學(xué)健康科學(xué)與工程學(xué)院, 上海 200093)

        0 引 言

        疾病和相關(guān)健康問(wèn)題的國(guó)際統(tǒng)計(jì)分類(lèi)(International Statistical Classification of Diseases and Related Health Problems,ICD)由世界衛(wèi)生組織創(chuàng)立,用來(lái)確定全球衛(wèi)生趨勢(shì)和統(tǒng)計(jì)數(shù)據(jù)的一種醫(yī)療編碼體系國(guó)際標(biāo)準(zhǔn)。 該體系由表1 所示的醫(yī)學(xué)編碼及對(duì)應(yīng)醫(yī)學(xué)名稱(chēng)組成最小描述單元,涉及到手術(shù)、疾病、診斷等醫(yī)療環(huán)節(jié),對(duì)生物醫(yī)學(xué)領(lǐng)域如醫(yī)學(xué)知識(shí)實(shí)體對(duì)齊、醫(yī)療標(biāo)準(zhǔn)化、臨床路徑等研究起著重要作用,同時(shí)也作用于醫(yī)保結(jié)算、醫(yī)療監(jiān)督等領(lǐng)域。

        表1 ICD 編碼示例Tab. 1 Examples of ICD code

        當(dāng)前,國(guó)內(nèi)醫(yī)療體系中存在著多種本地化的ICD 編碼版本,且大部分基于ICD-9 和ICD-10。 雖然部分機(jī)構(gòu)發(fā)布了某版本與另一版本的映射,但不論是從映射版本的數(shù)量以及更新速度都不盡如人意。 除此以外,各個(gè)醫(yī)療機(jī)構(gòu)還存在各自定義的院內(nèi)碼,這更對(duì)醫(yī)療數(shù)據(jù)的一致性提出了挑戰(zhàn)。

        目前,醫(yī)學(xué)編碼相關(guān)的研究大多集中在病案的命名實(shí)體識(shí)別和編碼領(lǐng)域,如夏等[1]基于深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)電子病歷的實(shí)體識(shí)別;厐等[2]基于文本相似度實(shí)現(xiàn)了康復(fù)量表與 ICF ( International Classification of Functioning,Disability and Health)編碼的映射。 此外,專(zhuān)業(yè)醫(yī)生也就各自專(zhuān)業(yè)領(lǐng)域ICD編碼的合理性進(jìn)行了討論,如葉[3]等對(duì)ICD-10 在眼挫傷的分類(lèi)編碼討論;許等[4]對(duì)ICD-10 編碼在癲癇方面的質(zhì)量分析。

        實(shí)現(xiàn)ICD 映射的方式往往需要大量的人工分級(jí)、字典映射等傳統(tǒng)方式,而基于語(yǔ)義相似度的方法較少。 隨著蘊(yùn)含大量生物醫(yī)學(xué)領(lǐng)域先驗(yàn)知識(shí)的預(yù)訓(xùn)練模型MC-Bert(Meta-Controller BERT)的出現(xiàn),中文醫(yī)學(xué)文本可以轉(zhuǎn)化為更加稠密和準(zhǔn)確的向量表示,在此基礎(chǔ)上本文提出一種基于改進(jìn)MC-Bert 的ICD 編碼映射方法,該方法通過(guò)語(yǔ)義相似度在現(xiàn)有的ICD 版本映射庫(kù)中進(jìn)行匹配實(shí)驗(yàn),在不同匹配精度下的準(zhǔn)確率均達(dá)到較高水平。似度,依次進(jìn)行排序獲得Top5,輸出用于驗(yàn)證。

        1 改進(jìn)的MC-Bert 模型

        改進(jìn)的MC-Bert 是一種利用白化處理優(yōu)化MCBert 編碼輸出的無(wú)監(jiān)督學(xué)習(xí)模型,其結(jié)構(gòu)圖如圖1 所示。

        圖1 改進(jìn)的MC-Bert 模型結(jié)構(gòu)圖Fig. 1 Model structure diagram of improved MC-Bert

        首先,由于ICD 中的名稱(chēng)部分既有較短小的詞語(yǔ)如霍亂,也有較長(zhǎng)的句子如“遺傳性腎病伴有輕微的腎小球異常,不可歸類(lèi)在他處者”,本文將其統(tǒng)一填充為相同長(zhǎng)度的句子,輸入MC-Bert 進(jìn)行編碼;其次,將兩個(gè)文檔中編碼名稱(chēng)的輸出矩陣拼接,作為白化處理的輸入,計(jì)算獲得消除各向異性后的句向量;最后,將兩文檔的句向量?jī)蓛捎?jì)算余弦相

        1.1 預(yù)訓(xùn)練語(yǔ)言模型MC-Bert

        MC-Bert 由Zhang 等[5]提出,訓(xùn)練過(guò)程如圖2所示。 以BERT 作為基礎(chǔ)模型,使用大量生物醫(yī)學(xué)領(lǐng)域語(yǔ)料進(jìn)行訓(xùn)練,包含許多生物醫(yī)學(xué)領(lǐng)域先驗(yàn)知識(shí)。 雖然預(yù)訓(xùn)練語(yǔ)言模型在各項(xiàng)語(yǔ)言任務(wù)中性能均有大幅的提升,但Gao 等[6]發(fā)現(xiàn),其在詞向量方面仍存在各向異性,導(dǎo)致模型出現(xiàn)語(yǔ)義表達(dá)的退化問(wèn)題。

        圖2 MC-Bert 的訓(xùn)練過(guò)程Fig. 2 The training process of MC-Bert

        1.2 白化處理

        白化處理是一種預(yù)處理方法,由Su 等[7]首先引入以解決預(yù)訓(xùn)練模型語(yǔ)義表達(dá)的退化問(wèn)題,其具體操作是將文檔中N條句子經(jīng)過(guò)預(yù)訓(xùn)練模型的編碼層輸出為向量集合{xi}N i=1,然后將此集合經(jīng)過(guò)如式(1)的線(xiàn)性變換,轉(zhuǎn)變?yōu)榫禐? 且協(xié)方差矩陣為單位矩陣的向量集合。

        其中,μ代表平移系數(shù),ω代表縮放系數(shù)。

        為了實(shí)現(xiàn)x~i的均值為0,則μ需要滿(mǎn)足式(2):

        而{xi}Ni=1的協(xié)方差矩陣Σ滿(mǎn)足式(3):

        轉(zhuǎn)換后的協(xié)方差矩陣與Σ的關(guān)系為式(4):

        由于為單位矩陣,則式(4)等價(jià)于式(5):

        由此可得到Σ滿(mǎn)足式(6):

        由于協(xié)方差矩陣是正定對(duì)稱(chēng)矩陣,因此Σ滿(mǎn)足式(7)所示的奇異值分解:

        其中,U是ΣΣT的特征向量矩陣,Λ為對(duì)角矩陣

        由式(6)、式(7)聯(lián)立,可以得到式(8):

        最終可得到ω滿(mǎn)足式(9):

        1.3 余弦相似度

        余弦相似度是一種常用的計(jì)算文本相似度的方法,計(jì)算公式(10):

        其中,x,y代表兩條句向量;d代表句向量的長(zhǎng)度;xi,yi代表x,y在下標(biāo)為i處的值。

        余弦相似度的值越接近1,兩個(gè)句子的相似度越高。

        2 實(shí)驗(yàn)方法和評(píng)價(jià)指標(biāo)

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        本文采用ICD-10 國(guó)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)以及ICD-9 團(tuán)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)作為實(shí)驗(yàn)數(shù)據(jù),其實(shí)例見(jiàn)表2。

        表2 實(shí)驗(yàn)數(shù)據(jù)示例Tab. 2 Examples of experimental data

        2.2 實(shí)驗(yàn)環(huán)境及評(píng)價(jià)指標(biāo)

        改進(jìn)的MC -Bert 通過(guò)python 3. 9. 7,基于PyTorch 框架實(shí)現(xiàn);硬件環(huán)境為Intel Core i7-11700,顯卡為RTX 3060,顯存12 G,操作系統(tǒng)為window 10。 運(yùn)用Top-K 準(zhǔn)確率(Accuracy)評(píng)估方法性能,計(jì)算如公式(11)所示:

        其中,nk是前k個(gè)候選項(xiàng)中包含正確項(xiàng)的個(gè)數(shù),N是映射條目的總數(shù)。

        2.3 實(shí)驗(yàn)設(shè)計(jì)

        本文涉及到使用不同版本的ICD 名稱(chēng)進(jìn)行相似度計(jì)算,但不同版本的ICD 之間可能存在大量重復(fù)的醫(yī)學(xué)名稱(chēng),會(huì)干擾不同醫(yī)學(xué)名稱(chēng)間的相似度匹配結(jié)果,因此設(shè)計(jì)實(shí)驗(yàn)(1);ICD 編碼數(shù)據(jù)蘊(yùn)含豐富的醫(yī)學(xué)知識(shí),注入這類(lèi)數(shù)據(jù)或可提高模型匹配的準(zhǔn)確率,因此設(shè)計(jì)實(shí)驗(yàn)(2);為了驗(yàn)證改進(jìn)MC-Bert 與其他模型在匹配準(zhǔn)確率上確有提升,因此設(shè)計(jì)實(shí)驗(yàn)(3)。

        (1)重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾評(píng)估實(shí)驗(yàn):從ICD-10 國(guó)標(biāo)2020 版中篩選出與醫(yī)保2.0 版醫(yī)學(xué)名稱(chēng)不重復(fù)的1 773 條數(shù)據(jù),分別與去除重名項(xiàng)的、包含重名項(xiàng)的醫(yī)保2.0 版數(shù)據(jù)進(jìn)行匹配實(shí)驗(yàn)。

        (2)醫(yī)學(xué)編碼注入與否的對(duì)比實(shí)驗(yàn):編碼部分包含類(lèi)目、亞目、細(xì)目、附加碼,分別代表不同范圍的醫(yī)學(xué)知識(shí)范疇。 ICD-9 團(tuán)標(biāo)版中篩選出非重名項(xiàng)1 289 條,醫(yī)保2.0 版中非重名項(xiàng)1 255 條,分為編碼不注入、整條編碼注入、拆分三類(lèi)編碼分別注入3 種數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn),3 種實(shí)驗(yàn)數(shù)據(jù)示例見(jiàn)表3。

        表3 三組實(shí)驗(yàn)數(shù)據(jù)示例Tab. 3 Three sets of experimental data examples

        (3)改進(jìn)MC-Bert 與其他模型的對(duì)比實(shí)驗(yàn):在數(shù)據(jù)去重和拆分三類(lèi)編碼注入后,在ICD-10 國(guó)標(biāo)2020 版和醫(yī)保2.0 版對(duì)照庫(kù)以及ICD-9 團(tuán)標(biāo)版和醫(yī)保2.0 版對(duì)照庫(kù)中,就改進(jìn)MC-Bert 和TF-IDF(Term Frequency-Inverse Document Frequency)、LSI(Latent Semantic Indexing)、MC-Bert、VSM(Vector Space Model)模型的表現(xiàn)進(jìn)行對(duì)比。

        3 結(jié)果分析和總結(jié)

        3.1 重名項(xiàng)對(duì)非重名項(xiàng)的擾動(dòng)評(píng)估實(shí)驗(yàn)

        ICD-10 國(guó)標(biāo)2020 版與醫(yī)保2.0 版重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾結(jié)果見(jiàn)表4。 由此實(shí)驗(yàn)證明,重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾影響較大,因此需要將不同版本ICD 中的重名項(xiàng)和非重名分開(kāi)匹配。 同時(shí),也驗(yàn)證了改進(jìn)MC-Bert 在非重名項(xiàng)之間依舊保有較高的準(zhǔn)確率。

        表4 重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾結(jié)果Tab. 4 The experimental results of the perturbation evaluation of the duplicated items to the non-duplicated items%

        3.2 醫(yī)學(xué)編碼注入與否的對(duì)比實(shí)驗(yàn)

        CD-9 團(tuán)標(biāo)版中非重名項(xiàng)1 289 條,醫(yī)保2.0 版中非重名項(xiàng)1 255 條分別對(duì)文本中的英文、符號(hào)進(jìn)行預(yù)處理后,分為編碼不注入、整條編碼注入、拆分三類(lèi)編碼注入的性能對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表5。 由此實(shí)驗(yàn)證明,拆分編碼為類(lèi)目、亞目、細(xì)目三級(jí)注入醫(yī)學(xué)名稱(chēng)中可顯著提升準(zhǔn)確率,因而結(jié)合醫(yī)學(xué)名稱(chēng)與三級(jí)編碼是最為合理的語(yǔ)義匹配方案。

        表5 三種實(shí)驗(yàn)數(shù)據(jù)的性能對(duì)比結(jié)果Tab. 5 Comparison of experimental results of three groups of experimental data%

        3.3 改進(jìn)MC-Bert 與其他模型的對(duì)比實(shí)驗(yàn)

        通過(guò)將ICD-9 團(tuán)標(biāo)版中非重名的1 289 條向量進(jìn)行t-SNE 降維,對(duì)降維后的向量進(jìn)行可視化,得到如圖3 所示的向量分布對(duì)比圖,可見(jiàn)改進(jìn)MCBert 相較MC-Bert 能夠有效的將重疊的向量分散開(kāi)來(lái),擁有更好的語(yǔ)義表達(dá)能力,提升語(yǔ)義相似度檢索的敏感度。

        圖3 向量分布對(duì)比圖Fig. 3 Comparison of vector distributions

        同時(shí)本文也對(duì)加進(jìn)MC-Bert 與其他模型在ICD-10 國(guó)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)以及ICD-9團(tuán)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)上非重名項(xiàng)的準(zhǔn)確率進(jìn)行比較,結(jié)果見(jiàn)表6、表7。

        表6 ICD-9 團(tuán)標(biāo)2020 版和醫(yī)保版2.0 映射的對(duì)比實(shí)驗(yàn)結(jié)果Tab. 6 Comparison experiments of ICD-9 group standard 2020 version and medical insurance version 2.0 mapping%

        表7 ICD-10 國(guó)標(biāo)2020 版和醫(yī)保版2.0 映射的對(duì)比實(shí)驗(yàn)結(jié)果Tab. 7 Comparison experiments of ICD-10 national standard 2020 version and medical insurance version 2.0 mapping%

        可以看到改進(jìn)后的MC-Bert 模型與其他模型相比,除了在top1 匹配精度下的準(zhǔn)確率方面低于VSM 模型外,其他匹配精度下的準(zhǔn)確率較其他模型有較大提升。

        4 結(jié)束語(yǔ)

        本文提出來(lái)一種基于改進(jìn)MC-Bert 的ICD 編碼映射方法,通過(guò)實(shí)驗(yàn)證明了該方法相較其他模型在準(zhǔn)確率方面有較大的提升,為醫(yī)學(xué)編碼領(lǐng)域的智能化映射提供了一種思路。

        猜你喜歡
        語(yǔ)義實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        国产精品免费久久久免费| 天堂国产一区二区三区| 久久人人爽人人爽人人片av东京热 | 99久久久国产精品免费蜜臀| 亚洲国产无线乱码在线观看| 无码国产一区二区色欲| 国产精品亚洲一区二区杨幂| 精品久久亚洲一级α| 中文字幕中文字幕三区| 久久国产成人精品av| 东方aⅴ免费观看久久av| 大香视频伊人精品75| 日本中文字幕av网址| 蜜桃臀av一区二区三区| 国产99久久久国产精品免费看| 国产成人v爽在线免播放观看| 一区二区三区在线蜜桃| 国产一区二区三区在线蜜桃| 青春草在线视频免费观看| 久久成年片色大黄全免费网站| 亚洲av第一区综合激情久久久| 可免费观看的av毛片中日美韩| 极品成人影院| 亚洲乱码一区二区三区成人小说 | 三级黄色片一区二区三区| 日韩亚洲一区二区三区四区| 日本免费a级毛一片| 国产精品亚洲A∨天堂不卡| 一区=区三区国产视频| 亚洲中字幕日产av片在线| 国产成人综合在线视频| 国产美女a做受大片免费| 日韩精品一二三区乱码| 色综合色狠狠天天综合色| 四虎成人在线| 视频一区中文字幕在线观看| 国产成人午夜高潮毛片| 波多野结衣免费一区视频| 日本黄色一区二区三区视频| 日韩乱码中文字幕在线| 中文无码一区二区不卡av|