亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于元網(wǎng)絡(luò)的自動國際疾病分類編碼模型

        2023-09-27 07:10:08周曉敏
        計算機應(yīng)用 2023年9期
        關(guān)鍵詞:分類器標簽卷積

        周曉敏,滕 飛,張 藝

        (西南交通大學(xué) 計算機與人工智能學(xué)院,成都 611756)

        0 引言

        國際疾病分類(International Classification of Diseases,ICD)是依據(jù)疾病的某些特征,按規(guī)則將疾病分門別類并用編碼的方法表示的系統(tǒng)。ICD 編碼分配是為患者的診斷和治療數(shù)據(jù)分配編碼的過程,已經(jīng)廣泛地用于臨床研究、醫(yī)療保健、醫(yī)療付費、診斷信息的檢索等問題。然而,手工編碼是勞動密集型任務(wù)并且容易出錯[1]。因此,為了提高ICD 編碼分配的準確性和效率,進行自動ICD 編碼研究十分有必要。

        自動ICD 編碼分配被視為一種多標簽文本分類問題,目的是從電子病歷文本數(shù)據(jù)中提取信息并進行編碼分配。然而,ICD 編碼的分布呈現(xiàn)出長尾分布的問題,給研究帶來了巨大挑戰(zhàn)。具體來說,在臨床中頻繁出現(xiàn)的編碼(本文稱為頻繁編碼——many-shot)只占據(jù)總編碼數(shù)的很少一部分,而臨床中很少出現(xiàn)的編碼(本文稱為少樣本編碼——few-shot)卻占據(jù)了總編碼數(shù)的大部分。根據(jù)Teng 等[2]的統(tǒng)計,在醫(yī)學(xué)數(shù)據(jù)集MIMIC-Ⅲ中共有18 000 多種ICD-9 編碼,按照出現(xiàn)頻率排序的前50 種編碼占總數(shù)據(jù)的93.17%。少樣本編碼的訓(xùn)練樣本是少樣本編碼自動分配研究的瓶頸所在。

        少樣本編碼對于臨床具有相當(dāng)?shù)闹匾?,主要體現(xiàn)在罕見病、醫(yī)學(xué)研究以及醫(yī)療開銷這幾個方面。一方面,在臨床中存在較多罕見疾病,如兒童早衰癥、Cockayne 綜合征等[3],這些疾病發(fā)病幾率非常低,因此不容易觀察到相應(yīng)編碼。罕見疾病的出現(xiàn)事關(guān)每一個患者的健康,正確為該記錄分配正確的編碼對于臨床治療至關(guān)重要。另一方面,隨著醫(yī)療水平的發(fā)展,可能會引入一些新的編碼,在這種情況下臨床觀察到的樣本少,少樣本編碼的預(yù)測性能可能不會對ICD 編碼的總體準確性產(chǎn)生重大影響,但是對于醫(yī)學(xué)研究的發(fā)展可以起到積極的作用。另外,編碼員在給電子病歷分配編碼時,可能更容易給電子病歷分配常遇到的編碼,而忽略或混淆少樣本編碼。例如,如果編碼員在為電子病歷分配編碼時容易選擇經(jīng)常遇到的編碼“Acute myocardial infarction,of other anterior wall,initial episode of care”(410.11:many-shot code),而不是正確的少樣本編碼“Acute myocardial infarction,of anterolateral wall,subsequent episode of care”(410.02:fewshot code)。編碼員對少樣本編碼的錯誤分配會給患者造成不公平的經(jīng)濟負擔(dān),也加大了醫(yī)療機構(gòu)的醫(yī)療投資。綜上所述,本文認為對少樣本編碼的正確預(yù)測進行研究十分重要。

        為了提高ICD 編碼的準確性和效率,學(xué)者們對自動ICD編碼進行了大量研究,包括傳統(tǒng)的機器學(xué)習(xí)和深度學(xué)習(xí)模型。然而,在保持已有學(xué)習(xí)性能的同時,對訓(xùn)練數(shù)據(jù)較少的樣本進行快速泛化仍然是神經(jīng)網(wǎng)絡(luò)模型面臨的一個重大挑戰(zhàn)。現(xiàn)有研究較少關(guān)注少樣本編碼,這些模型在少樣本編碼上的表現(xiàn)仍然不令人滿意。由于ICD 編碼數(shù)據(jù)的長尾分布,使得對少樣本編碼進行準確的多標簽文本分類極具挑戰(zhàn)性。

        本文針對數(shù)據(jù)呈現(xiàn)出的長尾分布問題,提出一種元網(wǎng)絡(luò)模型,在不犧牲整體編碼性能的情況下能提高少樣本編碼的分類準確性。本文的主要工作如下:

        1)提出一種基于元網(wǎng)絡(luò)的ICD 編碼模型(Meta Networkbased ICD Coding model,MNIC)。將頻繁編碼的特征表示映射到分類器權(quán)重上,以學(xué)習(xí)到元知識;同時,將元知識從數(shù)據(jù)豐富的頻繁編碼轉(zhuǎn)移到數(shù)據(jù)貧乏的少樣本編碼,顯著提高了少樣本編碼的性能,實現(xiàn)多標簽文本分類的少樣本學(xué)習(xí)。

        2)對元知識的可轉(zhuǎn)移性和通用性提供解釋,證明了少樣本編碼和頻繁編碼存在通用的元知識。

        3)在MIMIC-Ⅲ數(shù)據(jù)集上進行對比,驗證了元網(wǎng)絡(luò)模型有助于提高少樣本編碼的性能。

        1 相關(guān)工作

        在醫(yī)療保健領(lǐng)域,有關(guān)自動ICD 編碼的研究已有約20 年的歷史[4]。傳統(tǒng)的機器學(xué)習(xí)模型以及深度學(xué)習(xí)模型被應(yīng)用于臨床文本的自動ICD 編碼。Medori 等[5]使用具有不同屬性集的樸素貝葉斯(Naive Bayes)優(yōu)化了自動編碼技術(shù);Huang等[6]使用K 近鄰(K-Nearest Neighbor,KNN)算法利用ICD 編碼相關(guān)性構(gòu)建了臨床決策框架,改進了多標簽分類算法;Koopman 等[7]使用支持向量機(Support Vector Machine,SVM)對死亡證書中癌癥相關(guān)編碼進行自動分類。除此之外,Perotte 等[8]嘗試了平面分類器以及基于SVM 的層次分類器,證實了基于層次的分類器具有更良好的性能;Karimi 等[9]使用了SVM 和邏輯回歸分類器(logistic regression classifiers)對放射學(xué)報告進行了自動ICD 編碼。傳統(tǒng)的機器學(xué)習(xí)為自動ICD 編碼提供了解決思路,但需要手動選擇特征。

        隨著深度學(xué)習(xí)的發(fā)展,許多研究者開始將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[10]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[11]、圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[12]、生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[13]等應(yīng)用于自動ICD 編碼。Mullenbach 等[14]使用CNN 聚合文檔信息,并使用注意力機制為編碼分配提供可解釋性;Chen 等[15]使用醫(yī)學(xué)主題挖掘模型提取病歷中最相關(guān)的片段,并提出一種多通道卷積注意力網(wǎng)絡(luò)實現(xiàn)ICD 編碼的自動預(yù)測;Ji 等[16]提出一種門控卷積神經(jīng)架構(gòu),能夠成功捕獲臨床文本中豐富的語義信息;Catling等[17]使用RNN 改善了醫(yī)學(xué)文本的表示,并利用分層結(jié)構(gòu)的醫(yī)學(xué)知識提升了自動編碼的性能;Yu 等[18]提出一種多層注意力雙向遞歸神經(jīng)網(wǎng)絡(luò)模型,并證實了多層注意力機制的有效性;Cao 等[19]利用GCN 實現(xiàn)了編碼共現(xiàn),并借助編碼的層次結(jié)構(gòu)提升了模型表現(xiàn);Xie 等[20]使用GCN 捕獲編碼間的層級關(guān)系及編碼語義;Teng 等[21]使用GAN 生成對抗性樣本以調(diào)和醫(yī)生的寫作風(fēng)格,并引入知識圖譜提高編碼預(yù)測精度。

        對于醫(yī)療編碼的研究,醫(yī)療實體識別模型也是一大熱點,這些研究主要關(guān)注從電子病歷中識別不同類別醫(yī)療語義的短語。侯旭東等[22]針對深度學(xué)習(xí)技術(shù)在醫(yī)療實體識別問題中隨著網(wǎng)絡(luò)加深識別模型出現(xiàn)的識別精度與算力要求不平衡問題,提出一種基于深度自編碼的醫(yī)療實體識別模型CasSAttMNER(Cascade Self Attention Medical Named Entity Recognition)。CasSAttMNER 模型與本文MNIC 的研究對象均為醫(yī)療文本,兩者都采用自然語言處理提高醫(yī)療編碼和分類的效率。不同的是,CasSAttMNER 模型進行的是實體識別研究,將醫(yī)療文本依據(jù)語義大致分為了6 種類別,而本文需要對醫(yī)療文本分配所有匹配的編碼,編碼的個數(shù)決定了N分類的精度要求。根據(jù)數(shù)據(jù)規(guī)模,本文使用了1 533 個編碼,相當(dāng)于需要分為1 533 個類別,與前者的6 個類別相比,任務(wù)難度不在一個數(shù)量級,因此兩種模型的總體F1 分數(shù)也有顯著差異;同時兩個模型一個利用的是中文數(shù)據(jù)集,另一個是用的英文數(shù)據(jù)集,前者數(shù)據(jù)集文本總數(shù)為1 000 條,后者則為50 000 多條,在數(shù)據(jù)規(guī)模上的差異顯著。

        以上工作專注于提升常見編碼的性能表現(xiàn),忽略了少樣本編碼。Rios 等[23]最先關(guān)注到了ICD 編碼的少樣本及零樣本學(xué)習(xí),將出院摘要與利用具有圖卷積神經(jīng)網(wǎng)絡(luò)(Graph CNN,GCNN)的結(jié)構(gòu)化標簽空間得到的每個編碼的特征向量進行匹配,學(xué)會了預(yù)測少樣本和零樣本編碼;Song 等[24]在他的模型基礎(chǔ)上將GCNN 修改為GRNN(Graph Recurrent Neural Network),并使用GAN 為零樣本編碼生成偽特征,在保證可見編碼性能的前提下提升了零樣本編碼的預(yù)測能力。然而這些模型在預(yù)測時幾乎不會為臨床文本分配少樣本ICD 編碼,目前最優(yōu)模型少樣本編碼的F1 分數(shù)為19.17%。

        以上研究為自動ICD 編碼提供了重要的理論支撐,本文重點討論了數(shù)據(jù)的長尾分布以及預(yù)測多標簽的可解釋性問題,提出了MNIC,捕獲通用元知識以實現(xiàn)少樣本學(xué)習(xí);此外,本文使用T-SNE(T-distributed Stochastic Neighbor Embedding)圖為元知識的通用性提供了有意義的解釋。

        2 模型構(gòu)建

        ICD 編碼任務(wù)是一個多標簽文本分類問題,設(shè)L={l1,l2,…,ls}是所有的ICD 編碼的集合,其中,s為ICD 編碼的數(shù)量。本文的目標是訓(xùn)練s個二元分類器。對于輸入文本,每個分類器預(yù)測結(jié)果為,其中∈{0,1}是L 中的第i個編碼的預(yù)測結(jié)果。每個ICD-9 編碼l都有一個簡短的編碼描述。例如,466.1 的編碼描述為:“急性細支氣管炎”;466.11的編碼描述為:“呼吸道合胞病毒(Respiratory Syncytial Virus,RSV)引起的急性細支氣管炎”。

        由于大部分ICD 編碼并不常出現(xiàn)在臨床文本數(shù)據(jù)中,使得ICD 編碼頻率的分布往往呈現(xiàn)出長尾分布。針對這個問題,本文主要關(guān)注少樣本編碼問題:在不犧牲頻繁編碼性能的情況下,準確預(yù)測少樣本編碼。

        本文提出了一個用于自動ICD 編碼的模型MNIC,整體框架如圖1 所示。MNIC 主要由四個模塊組成:第一個模塊是數(shù)據(jù)輸入;第二個模塊是特征提取器,它從臨床文檔和ICD 編碼描述中為每個編碼提取最相關(guān)的語義信息,并且還訓(xùn)練了一個基礎(chǔ)分類器獲得了每個編碼的初始權(quán)重,該基礎(chǔ)分類器對于頻繁編碼表現(xiàn)良好,但對于少樣本編碼則不能令人滿意;第三個模塊是元網(wǎng)絡(luò),它從頻繁編碼的特征表示和分類器權(quán)重的映射中學(xué)習(xí)元知識,然后將元知識轉(zhuǎn)移到少樣本編碼,并更新少樣本編碼的分類器權(quán)重;第四個模塊是模型輸出,它結(jié)合了頻繁編碼的原始分類器權(quán)重和少樣本編碼更新后的分類器權(quán)重,得到每個編碼的二元分類器,輸出最終的分類結(jié)果。

        圖1 MNIC的框架Fig.1 Framework of MNIC

        2.1 輸入層

        給定一個包含n個單詞的臨床文本矩陣X=[x1,x2,…,xi,…,xn],對于每個單詞xi,使用預(yù)訓(xùn)練的詞嵌入方法得到每個單詞的詞嵌入向量ci(具有相同的維度de),得到輸入文本的詞嵌入向量表示D=(c1,c2,…,ci,…,cn)。

        2.2 特征提取

        給定輸入矩陣D,特征提取模塊旨在從每個輸入中提取每個編碼最相關(guān)的表示。具體來說,本文首先使用卷積層學(xué)習(xí)單詞表示,并且為了更好地提取語義信息,使用編碼描述使編碼在醫(yī)學(xué)領(lǐng)域具有說服力和可解釋性;然后,使用標簽注意力機制來學(xué)習(xí)每個編碼最相關(guān)的特征向量。

        2.2.1 卷積層

        給定輸入數(shù)據(jù)D,卷積層的目標是從數(shù)據(jù)密集且信息豐富的詞嵌入中學(xué)習(xí)文本語義信息。在CNN 中沒有使用池化層,而是通過標簽注意力機制在文檔中找到每個編碼最相關(guān)的特征。使用卷積濾波器組合相鄰詞嵌入,k為濾波器寬度;de為輸入的詞嵌入維度;dc是濾波器輸出大小。計算公式為:

        2.2.2 編碼向量

        每個ICD 編碼l都有一個編碼描述,為了表示l,本文對每個編碼描述進行預(yù)處理。首先將編碼描述中的所有單詞小寫并刪除停止詞,然后通過平均剩余單詞的詞嵌入向量來形成編碼向量

        其中,N是編碼描述中剩余的單詞數(shù)。

        2.2.3 注意力機制

        由于臨床文本很長,并且每個文檔有多個編碼,每個編碼的相關(guān)信息可能分散在整個文檔中。針對這個問題,本文采用標簽注意力機制,使模型可以關(guān)注文本的不同部分。標簽注意力機制的計算公式為:

        2.2.4 基礎(chǔ)分類器

        本文將每個編碼的特征al作為輸入傳遞給全連接神經(jīng)網(wǎng)絡(luò),然后使用Sigmoid 激活函數(shù)生成第i個編碼的概率為所有編碼構(gòu)建一個基本分類器,得到每個代碼l的分類結(jié)果如下:

        其中:yi∈{0,1}是第i個編碼的基本事實是第i個編碼的預(yù)測結(jié)果;lm是頻繁編碼的個數(shù)。

        2.3 元網(wǎng)絡(luò)

        通過特征提取模塊,在每個樣本中可以獲得所有編碼的特征向量,對d個包含r編碼的樣本進行采樣,通過訓(xùn)練好的

        特征提取器,獲得特征表示{ar1,ar2,…,ard}。然后通過取這些向量的平均值,獲得頻繁編碼r和少樣本編碼z的特征表示分別為Mmany聯(lián)系起來。將每個頻繁編碼的特征pr映射到相應(yīng)的頻

        元網(wǎng)絡(luò)將頻繁編碼特征pmany和頻繁編碼分類器參數(shù)繁編碼的分類器參數(shù)mr,通過多任務(wù)學(xué)習(xí)得到一個少樣本編碼模型參數(shù)到頻繁編碼模型參數(shù)的映射關(guān)系,這種映射關(guān)系為少樣本編碼提供了元知識Wknowledge。對于每個頻繁編碼,本文取樣U次(U通常取30 或40),以獲得不同的頻繁編碼的特征表示,這樣可以訓(xùn)練一個可推廣的遷移元網(wǎng)絡(luò)學(xué)習(xí)器,提高模型的泛化性。

        通過最小化損失Lt進行學(xué)習(xí):

        本文可以利用元知識將少樣本編碼特征表示Pfew(fewshot)映射到它的分類器參數(shù)Mmany(many-shot),從而將元知識從頻繁編碼遷移到少樣本編碼,提高少樣本編碼的分類性能。由式(8)能得到少樣本編碼z的編碼特征表示

        2.4 輸出層

        在輸出層將頻繁編碼的分類器權(quán)重Mmany和更新后的少樣本編碼的分類器參數(shù)進行連接,得到用于預(yù)測的整個分類器權(quán)重M。

        給定一個測試文檔,首先通過特征提取器得到它的特征向量g,然后通過Sigmoid 激活函數(shù),產(chǎn)生給定文檔的預(yù)測結(jié)果。

        3 實驗設(shè)置

        3.1 環(huán)境配置

        本文的實驗環(huán)境為Windows10 操作系統(tǒng),CPU 為Intel Core i7-10700,GPU 為Nvidia GeForce RTX3060 12 GB,CUDA11.1。

        3.2 數(shù)據(jù)介紹

        MIMIC-Ⅲ[25]是由麻省理工學(xué)院開發(fā)的公開可用數(shù)據(jù)集,包含了2001—2012 年間在貝斯以色列女執(zhí)事醫(yī)療中心重癥監(jiān)護病房的4 萬多名患者約58×103相關(guān)數(shù)據(jù)。每份病歷的出院小結(jié)中包含主訴、既往病史、診斷結(jié)果等?;颊呙看稳朐憾紩? 組ICD-9 編碼,具有準確性與權(quán)威性。MIMIC-Ⅲ數(shù)據(jù)集經(jīng)常被用于驗證模型的有效性。

        本文參考了文獻[14]中的數(shù)據(jù)預(yù)處理方法。對文本進行分詞,將所有標記轉(zhuǎn)換為小寫,使用“”標記替換不包含字母字符的標記。本文使用患者編號(subject_id)和病案號(hadm_id)進行數(shù)據(jù)集的劃分,最終得到46 067 份出院小結(jié)用于訓(xùn)練,3 270 份用于驗證,3 280 份用于測試。

        3.3 數(shù)據(jù)劃分

        本文采用了Rios 等[23]提出的數(shù)據(jù)劃分方式。少樣本編碼與頻繁編碼劃分的前提是這些編碼存在于驗證集或測試集中。以驗證集為例,在驗證集中具有<5 個數(shù)據(jù)示例的ICD 編碼不參與評估。若某ICD 編碼同時出現(xiàn)在驗證集及訓(xùn)練集中并且在訓(xùn)練集中的數(shù)據(jù)示例≤5,那么將它定義為少樣本編碼;否則將它定義為頻繁編碼。測試集中的編碼劃分標準與驗證集相同。最終的少樣本編碼由驗證集與測試集中少樣本編碼求并集得到。頻繁編碼由驗證集與測試集中的頻繁編碼求交集得到。表1 中展示了編碼劃分后的結(jié)果。

        表1 ICD編碼劃分結(jié)果Tab.1 ICD code division result

        3.4 基線模型

        CNN[26]:使用一維卷積神經(jīng)網(wǎng)絡(luò)進行句子分類。

        雙向門控循環(huán)單元(Bidirectional Gate Recurrent Unit,BiGRU)[14]:執(zhí)行ICD 編碼。

        CAML(Convolutional Attention for Multi-Label classification)[14]:用于多標簽分類的卷積注意力網(wǎng)絡(luò),包含一個單層CNN 和一個注意力層,為每個ICD 編碼生成與標簽相關(guān)的表示。

        ZAGCNN(Zero-shot Attentive Graph Convolutional Neural Network)[23]:利用結(jié)構(gòu)化標簽空間和GCNN 來預(yù)測多標簽集合中的少樣本和零樣本標簽。

        AGM-HT(Adversarial Generative Model conditioned on code descriptions with Hierarchical Tree structure)[24]:利用ICD編碼層次結(jié)構(gòu)和新穎的隱特征生成框架來實現(xiàn)多標簽文本分類的廣義零樣本學(xué)習(xí)。

        3.5 評價指標

        使用精度(precision)、召回率(recall)、F1 分數(shù)、曲線下面積(Area Under Curve,AUC)來評價各模型表現(xiàn)。在Micro 上分別用RMicro-pre、RMicro-rec與RMicro-F1表示:

        其中:n為ICD 編碼總數(shù);TP指預(yù)測為正例,實際也為正例的個數(shù);FP指預(yù)測為正例,實際為負例的個數(shù);FN指預(yù)測為負例,實際為正例的個數(shù)。

        在Macro 上用RMacro-pre、RMacro-rec與RMacro-F1表示:

        3.6 超參數(shù)設(shè)置

        實驗中的參數(shù)為:詞嵌入維度de=200;語義提取器中CNN 的卷積核大小為10;出院小結(jié)文本的最大長度為2 000;dropout 率為0.5;生成特征表示時各類別編碼采樣的文本數(shù)為5,對于文本實例不足5 份的少樣本編碼,則根據(jù)它在訓(xùn)練集中對應(yīng)的文本實例數(shù)確定該值;學(xué)習(xí)率為0.001;batch_size 為8。

        4 實驗與結(jié)果分析

        4.1 實驗結(jié)果

        表2 展示了MNIC 與基線模型在所有編碼上的實驗結(jié)果。可以看出,MNIC 在大部分指標上都有一定提高,說明模型在提升少樣本編碼性能的同時未損害頻繁編碼的性能。表3 展示了MNIC 與基線模型在少樣本編碼上的結(jié)果對比。可以看出,與較先進的AGM-HT 相比,MNIC 將Micro-AUC 和Micro-F1 提高了3.82 和3.77 個百分點。實驗結(jié)果驗證了元網(wǎng)絡(luò)策略的有效性,它將學(xué)到的知識從數(shù)據(jù)豐富的頻繁編碼轉(zhuǎn)移到數(shù)據(jù)貧乏的少樣本編碼。

        表2 各模型在所有編碼上的實驗結(jié)果 單位:%Tab.2 Experimental results of each model on all codes unit:%

        表3 各模型在少樣本編碼上的實驗結(jié)果 單位:%Tab.3 Experimental results of each model on few-shot codes unit:%

        盡管MNIC 的Micro 指標表現(xiàn)出色,但Macro 指標與AGM-HT 差距不大,這是因為少樣本編碼的數(shù)據(jù)量相對較小,樣本間的差異和不確定性較大,這可能導(dǎo)致模型在計算Macro 指標時無法完全捕捉到每個類別的平衡性和整體性能;其次,MNIC 的架構(gòu)和訓(xùn)練策略可能在一些類別上產(chǎn)生了不均衡的學(xué)習(xí)效果,導(dǎo)致Macro 指標沒有顯著提升。在實際情況中,對于大多數(shù)應(yīng)用場景,Micro 指標更重要,因為它們考慮了所有類別的綜合性能。因此,雖然MNIC 在Macro 分數(shù)上略低于AGM-HT,但它仍然是一種有效的模型,能夠在少樣本編碼任務(wù)中取得顯著改進。

        4.2 消融實驗

        消融實驗用于驗證元網(wǎng)絡(luò)模塊的有效性。本文將去除元網(wǎng)絡(luò)模塊的模型稱為MNIC-MN(Meta Network-based ICD Coding model -Meta Network)。在少樣本編碼上的消融實驗結(jié)果如表4 所示。可以看出,MNIC 在所有的評估指標中獲得了最好的結(jié)果,在沒有元網(wǎng)絡(luò)模塊時,與完整的MNIC 相比少樣本編碼的Micro-F1 和Micro-AUC 下降了19.28、7.96個百分點。以上結(jié)果表明,元網(wǎng)絡(luò)學(xué)到的元知識能夠提高少樣本編碼的性能表現(xiàn)。

        表4 消融實驗結(jié)果 單位:%Tab.4 Ablation experimental results unit:%

        4.3 模型可解釋性

        在手動編碼臨床記錄時,編碼人員通常需要尋找相關(guān)疾病描述等證據(jù)來佐證自己的判斷。自動ICD 編碼模型同樣也需要分配編碼的證據(jù),即可解釋性。自動ICD 編碼的可解釋性有助于提高編碼員頻繁編碼的編碼效率,同時也為編碼員提供了少樣本編碼的選擇,避免忽略罕見病的編碼,從而獲得專業(yè)編碼員的支持和信任。

        圖2 為一些頻繁編碼樣本和少樣本編碼樣本的特征和特征表示(特征的平均值)繪制的T-SNE 圖。較淺的色點是頻繁編碼和少樣本編碼特征降維的結(jié)果;較深的點是頻繁編碼和少樣本編碼的特征表示降維的結(jié)果。

        圖2 T-SNE圖Fig.2 T-SNE plots

        圖2(a)為使用部分頻繁編碼及少樣本編碼特征繪制的T-SNE 圖,414.01、530.19 為頻繁編碼,414.19、530.13 為少樣本編碼;圖2(b)為頻繁編碼原型及少樣本編碼原型繪制的T-SNE 圖,410.11、532.40 為頻繁編碼,410.02、532.30 為少樣本編碼。圖2(b)的編碼特征表示2D 降維結(jié)果呈現(xiàn)出聚集性,表明它們具有相似的由少樣本編碼到頻繁編碼的映射轉(zhuǎn)換方式??梢园l(fā)現(xiàn)特征表示使降維結(jié)果更加集中,這是特征表示模塊提高少樣本編碼性能的前提。此外,從圖2 可以看出,頻繁編碼和少樣本編碼的特征表示的2D 降維結(jié)果呈現(xiàn)出一定程度的聚類,這說明相似的頻繁編碼和少樣本編碼具有相似的映射方式,因此可以通過從頻繁編碼學(xué)習(xí)元知識轉(zhuǎn)移到少樣本編碼,從而提高小樣本的編碼性能。頻繁編碼和少樣本編碼可以實現(xiàn)聚類,是由于ICD 編碼存在層次結(jié)構(gòu),相近的兄弟或者父子編碼有相似的編碼描述,這為元知識學(xué)習(xí)和轉(zhuǎn)移提供了基礎(chǔ)。

        5 結(jié)語

        本文提出了一種基于特征表示的元網(wǎng)絡(luò)模型MNIC 用于ICD 編碼的少樣本學(xué)習(xí)。通過元網(wǎng)絡(luò)將元知識從數(shù)據(jù)豐富的頻繁編碼轉(zhuǎn)移到數(shù)據(jù)貧乏的少樣本編碼,在不影響頻繁編碼性能的情況下對少樣本編碼的性能進行了改進。在MIMIC-Ⅲ數(shù)據(jù)集上的實驗結(jié)果表明,與目前最先進的模型相比,MNIC 的表現(xiàn)具有優(yōu)越性。使用MNIC 能夠改善大規(guī)模多標簽數(shù)據(jù)中長尾問題所帶來的影響。盡管本文的實驗結(jié)果相較于同類研究性能大有提升,但是由于本文數(shù)據(jù)規(guī)模較大,訓(xùn)練模型的計算消耗也較大,文獻[22]中的模型減少了編碼深度以及對訓(xùn)練和應(yīng)用上的算力要求,未來對于小樣本分類的研究也可以考慮借鑒該思路,從減少算力要求并且不損失性能的角度入手繼續(xù)優(yōu)化模型。

        猜你喜歡
        分類器標簽卷積
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于傅里葉域卷積表示的目標跟蹤算法
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        標簽化傷害了誰
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        日韩乱码中文字幕在线| 国产一起色一起爱| 人妻熟女妇av北条麻记三级| 91成人黄色蘑菇视频| 国产a国产片国产| 国产成人精品无码播放| 99久久综合国产精品免费| 有码视频一区二区三区| 国产亚洲精品久久久久久国模美| 国产亚洲精品aaaaaaa片 | 欧洲国产精品无码专区影院| 久久精品一区一区二区乱码| 亚洲性色av一区二区三区| 国产高清乱理伦片| 亚洲性69影视| 国产丝袜美腿中文字幕| 狼狼综合久久久久综合网| a国产一区二区免费入口| 国产欧美日本亚洲精品一5区| 亚洲国产区中文在线观看| 国产又粗又猛又黄又爽无遮挡| 老熟女毛茸茸浓毛| 国产精品视频免费一区二区三区| 国产精品一区二区av麻豆日韩| 亚洲av蜜桃永久无码精品| 国产在线视频国产永久视频| 少妇久久一区二区三区| 波多野结衣不打码视频| 丁香五月缴情综合网| 99热久久只有这里是精品| 中文字幕一区二区中文| 亚洲精品无码成人a片| 亚洲国产精品午夜电影| 99久久婷婷亚洲综合国产| 东北少妇不带套对白| 一区一级三级在线观看| 国产一区二区三区特黄| 国产一区二区精品久久岳| 亚洲精品无码高潮喷水在线| 毛片av在线尤物一区二区| 青青草国产在线视频自拍|