亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的北京市三甲醫(yī)院疾病診斷名稱規(guī)范化研究

        2020-08-31 10:47:20李誼澄侯銳志鄒宗毓周子君
        醫(yī)學(xué)與社會 2020年8期
        關(guān)鍵詞:規(guī)范化標(biāo)準(zhǔn)化分類

        李誼澄 侯銳志 鄒宗毓 周子君

        1 北京大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生政策與管理學(xué)系,北京,100191;2 華東師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院基礎(chǔ)數(shù)學(xué)系,上海,200062

        近年來,門診疾病診斷名稱的規(guī)范化是門診處方審核亟需解決的問題。統(tǒng)一規(guī)范的疾病術(shù)語既是診斷的基礎(chǔ)工作,也是做好疾病索引和疾病分類統(tǒng)計以及門診付費的關(guān)鍵[1]。疾病診斷名稱的標(biāo)準(zhǔn)化和規(guī)范化是衛(wèi)生信息化的重要組成部分,對衛(wèi)生信息標(biāo)準(zhǔn)化的實現(xiàn)起著至關(guān)重要的作用[2]。目前,門診疾病診斷名稱的不規(guī)范化情況嚴(yán)重阻礙了計算機(jī)的識別和分類效率,阻礙了醫(yī)保審核和用藥審核的發(fā)展。醫(yī)療機(jī)構(gòu)和衛(wèi)生系統(tǒng)以往主要依靠人力對這些不規(guī)范的疾病診斷名稱進(jìn)行規(guī)范化整理,但隨著不規(guī)范的醫(yī)療文本的積累速度不斷加快[3],人工難以完成對龐大數(shù)據(jù)流的處理。本研究以國際疾病分類(International Classification of Disease, ICD)為基礎(chǔ)標(biāo)準(zhǔn)疾病術(shù)語模板,通過擴(kuò)展ICD-10分類內(nèi)容和機(jī)器學(xué)習(xí)的方法對多樣化和不規(guī)范的疾病診斷名稱進(jìn)行識別,并轉(zhuǎn)化為統(tǒng)一的標(biāo)準(zhǔn)疾病診斷術(shù)語。

        1 資料來源與方法

        1.1 資料來源

        本研究資料來源于北京市城鎮(zhèn)職工基本醫(yī)療保險系統(tǒng)數(shù)據(jù)庫,以2018年上半年北京市22家三甲醫(yī)院上報的門診疾病診斷數(shù)據(jù)作為研究對象,以國家醫(yī)保局發(fā)布的ICD-10為標(biāo)準(zhǔn),從原始診斷數(shù)據(jù)中清洗整理出783364條臨床使用不規(guī)范的疾病診斷數(shù)據(jù)。

        1.2 研究方法

        應(yīng)用Python 3.81對數(shù)據(jù)進(jìn)行處理,處理過程為:數(shù)據(jù)清洗→訓(xùn)練集和測試集選取→規(guī)則設(shè)置→基于模型規(guī)范化→產(chǎn)生映射。ICD-10作為我國疾病分類與編碼的國家標(biāo)準(zhǔn),在住院病案的疾病診斷中應(yīng)用廣泛[4-5]。本模型選取ICD-10中的三位碼、四位碼和六位碼及其診斷名稱作為疾病診斷名稱的標(biāo)準(zhǔn)化框架,同時擴(kuò)充ICD-10中缺失的診斷分類(如:疾病的檢驗、疾病的檢查以及疾病的治療和手術(shù)操作等未具體分類的條目),應(yīng)用基于“規(guī)則-貝葉斯機(jī)器學(xué)習(xí)-懲罰得分機(jī)制”的模型,將多樣化和不規(guī)范的疾病診斷名稱轉(zhuǎn)化為統(tǒng)一標(biāo)準(zhǔn)的疾病診斷術(shù)語。研究流程見圖1。

        圖1 研究流程

        1.2.1 規(guī)則設(shè)置。為減小在數(shù)據(jù)清洗過程中噪聲的影響和數(shù)據(jù)的丟失,本模型設(shè)置了相應(yīng)的處理規(guī)則,用于提高模型的穩(wěn)定性和效率值。

        ①停用詞設(shè)置。停用詞是指文本中的副詞、連詞、介詞和語氣助詞以及一些沒有實際意義或與訓(xùn)練數(shù)據(jù)無關(guān)的詞匯。停用詞設(shè)置用于將與疾病診斷術(shù)語無關(guān)的詞匯過濾掉,減少噪聲的產(chǎn)生。本模型以《哈工大停用詞表》為基礎(chǔ),根據(jù)疾病診斷名稱的特點進(jìn)行了相應(yīng)調(diào)整,剔除了部分疾病相關(guān)詞匯,同時添加了部分與疾病無關(guān)的干擾詞匯。

        ②同義詞映射詞典設(shè)置。同義詞映射主要是將含義相同但表現(xiàn)形式不同的術(shù)語映射到統(tǒng)一規(guī)定的術(shù)語上面。同義詞映射詞典的設(shè)置是一個不斷迭代的過程,詞典的初步設(shè)置為:術(shù)語映射(如俗名映射到通用名)、數(shù)字映射(如漢字形式的數(shù)字、羅馬數(shù)字、全角數(shù)字以及半角數(shù)字等映射到阿拉伯?dāng)?shù)字上面)、解剖部位映射等。

        ③特殊符號過濾。特殊符號主要指文本中的各類分隔符和連接符,如標(biāo)點符號(“,”、“。”“-”等)和一些無實際意義的分隔符(“空格”、“|”等)以及一些其他符號(“*”、“★”等)。在過濾符號的同時,“?”、“+”、“-”分別表示對疾病的懷疑、陽性和陰性,是需要保留的符號。

        ④權(quán)重詞表設(shè)置。本模型將部分疾病診斷名稱中相關(guān)字或詞進(jìn)行了加權(quán)表示,提高了該字或詞的匹配權(quán)重,用以提高模型標(biāo)準(zhǔn)化的準(zhǔn)確率。

        ⑤分詞詞典設(shè)置。本模型選用的分詞模塊為結(jié)巴(jieba)分詞模塊,并在分詞模塊中引入清華大學(xué)整理的《醫(yī)學(xué)專業(yè)術(shù)語詞典》作為分詞詞典,從而提高模型分詞過程的效率。

        1.2.2 機(jī)器學(xué)習(xí)模型設(shè)置。本研究選用的機(jī)器學(xué)習(xí)模型為貝葉斯模型,并在其基礎(chǔ)上添加了懲罰得分機(jī)制。本模型首先通過預(yù)先定義的詞表將輸入中出現(xiàn)的特殊字符與符號轉(zhuǎn)化為漢字,刪除和替換無有效信息的文字;然后通過貝葉斯機(jī)器學(xué)習(xí)模型尋找出與輸入文本相似的100個疾病名稱作為候選答案;最后,通過正向和反向雙向匹配機(jī)制和前后一致性判別等評價規(guī)則篩選評分最高的疾病名稱作為輸出結(jié)果。該模型的特點為:訓(xùn)練速度快,準(zhǔn)確率高,可遷移性強(qiáng)。

        (1)

        (2)

        因此,權(quán)重便可通過隨機(jī)搜索算法如蒙特卡羅、遺傳算法等得到。

        1.2.3 訓(xùn)練集和測試集。①訓(xùn)練集。該模型選用的訓(xùn)練集為疾病診斷名稱的標(biāo)準(zhǔn)化模板,即ICD-10中的標(biāo)準(zhǔn)疾病描述和擴(kuò)充的部分疾病檢查、檢驗和手術(shù)治療措施等的描述。訓(xùn)練集處理:將訓(xùn)練集進(jìn)行向量化,采用one-hot-representation向量表示法,將訓(xùn)練集進(jìn)行1-gram切分,去重后得到一個含有所有疾病相關(guān)表述的單個字的集合,同時對訓(xùn)練集進(jìn)行再分詞(運用的詞典為jieba分詞詞典),得到一個分詞后的集合,將這兩個集合合并成一個集合。然后,將其向量化成一個詞向量矩陣。這樣做既保留了文本的部分語義特征,又能做單個字符之間的相似度計算。②測試集。對783364條不規(guī)范的疾病診斷名稱進(jìn)行清洗,主要包含運用醫(yī)學(xué)專用的切詞詞典進(jìn)行切詞,將多疾病診斷的名稱進(jìn)行切分,同時對非疾病術(shù)語進(jìn)行過濾,最后經(jīng)過去重一共得到220258條非標(biāo)準(zhǔn)化疾病診斷名稱。從中隨機(jī)抽取5個樣本,每個樣本含有1000條疾病診斷術(shù)語,分別用該模型進(jìn)行規(guī)范化和統(tǒng)一化處理,最后請專業(yè)的醫(yī)務(wù)人員對處理結(jié)果進(jìn)行逐一檢查,并做相應(yīng)的統(tǒng)計。

        1.2.4 評價指標(biāo)。由于隨機(jī)抽取的疾病樣本仍然帶有部分與疾病診斷名稱無關(guān)的詞匯,如一些用藥、醫(yī)院信息等,影響了標(biāo)準(zhǔn)化的結(jié)果,故將標(biāo)準(zhǔn)化的結(jié)果用表1表示。

        表1 訓(xùn)練集結(jié)果分類

        模型選取的評價指標(biāo)有3個,準(zhǔn)確率P、召回率R和綜合評價指標(biāo)F,如下表示。

        (3)

        (4)

        (5)

        其中,ca表示模型在測試集中能夠識別和轉(zhuǎn)化為規(guī)范化疾病的個數(shù),cb表示在訓(xùn)練集中轉(zhuǎn)化為錯誤疾病名稱的個數(shù),cn表示在訓(xùn)練集中能夠分離出去的非疾病名稱個數(shù),nn表示在訓(xùn)練集中不能分離和歸類的非疾病名稱個數(shù)。準(zhǔn)確率P表示模型能正確處理非標(biāo)準(zhǔn)化疾病診斷名稱的能力,P值越大,模型標(biāo)準(zhǔn)化的準(zhǔn)確率越高;召回率R表示模型能處理疾病名稱診斷的維度,R值越大,模型可處理的疾病診斷名稱維度越大,非疾病術(shù)語產(chǎn)生的噪聲越??;F值則是模型綜合表現(xiàn)能力的體現(xiàn)。

        2 結(jié)果

        2.1 準(zhǔn)確率P、召回率R和綜合評價指標(biāo)F

        邀請專業(yè)人員對結(jié)果進(jìn)行逐一審核,然后進(jìn)行統(tǒng)計分析,對結(jié)果進(jìn)行比較,見圖2。

        圖2 規(guī)范化結(jié)果比較

        5個樣本的規(guī)范化疾病診斷名稱數(shù)量最多的為894個,最低的為829個,平均為865.4個;準(zhǔn)確率最高為96.24%,最低為93.66%,平均為95.00%,說明在不規(guī)范的疾病診斷名稱中,95.00%的疾病名稱可以通過模型轉(zhuǎn)化為統(tǒng)一規(guī)范的標(biāo)準(zhǔn)疾病術(shù)語,并能與ICD-10產(chǎn)生映射關(guān)系;召回率R最高為95.72%,最低為88.66%,平均為92.65%,說明在樣本的標(biāo)準(zhǔn)化結(jié)果中,疾病術(shù)語占92.65%,仍有7.35%的無關(guān)詞匯沒有被過濾掉,非疾病術(shù)語的影響不可忽視;F值最高為95.56%,最低為91.35%,均值為93.79%,說明模型的綜合效能為93.79%。

        2.2 字形相近的疾病診斷名稱規(guī)范化

        在疾病診斷名稱規(guī)范化的結(jié)果中,本研究提出的模型能夠有效解決疾病診斷描述由于個別字符不一致的多對一問題,將多樣化的疾病描述歸一化為統(tǒng)一標(biāo)準(zhǔn)的疾病描述,并和ICD-10形成相應(yīng)的映射關(guān)系,見表2。

        表2 因字詞不一致的規(guī)范化(樣例)

        其中,“左肺下部腺癌”為明顯的不規(guī)范疾病診斷描述,通過模型規(guī)范化為“左肺下葉惡性腫瘤”,并與ICD-10中的相關(guān)疾病描述形成映射;其次,“不全流產(chǎn)”“變態(tài)反應(yīng)接觸性皮炎”“糖尿病周圍神經(jīng)痛”“多發(fā)壓瘡”“齲齒”“二尖瓣狹窄關(guān)閉不全”等均屬于相對規(guī)范的診斷描述,但是為了使計算機(jī)有效進(jìn)行批量識別和編譯,本模型通過詞向量的學(xué)習(xí)匹配原理將其進(jìn)行了歸一化處理,并與其ICD-10編碼一一對應(yīng)。

        2.3 多樣性的疾病診斷名稱規(guī)范化

        名稱的多樣性問題主要為學(xué)名和俗名、英文命和中文命、簡寫和全寫的轉(zhuǎn)化問題,本研究以ICD-10中的疾病名稱為模板,將簡寫、俗名、英文名以及英文簡寫均轉(zhuǎn)為ICD-10中的標(biāo)準(zhǔn)疾病描述。見表3。

        表3 多樣性的疾病診斷名稱規(guī)范化(樣例)

        其中,“冠心病”和“上感”在醫(yī)院的疾病診斷名稱中非常常見,經(jīng)過模型歸一化之后分別與ICD-10中的“冠狀動脈粥樣硬化性心臟病”、“急性上呼吸道感染”相互對應(yīng);“AECOPD”和“PSVT”分別為“慢性阻塞性肺病伴有急性加重”和“陣發(fā)性室上性心動過速”的英文縮寫;“大脖子病”和“大骨節(jié)病”則是相對常見的俗稱表示。針對這些由簡寫、俗稱以及英文表述等引起的多樣化疾病表述,采用規(guī)則表結(jié)構(gòu)進(jìn)行術(shù)語轉(zhuǎn)換,將這些多樣性的疾病表述轉(zhuǎn)化為統(tǒng)一標(biāo)準(zhǔn)的疾病術(shù)語。

        2.4 不易分類的疾病診斷名稱規(guī)范化

        在疾病診斷描述中,有一部分疾病描述在ICD-10中不易分類,或者很難歸一到ICD-10里面的某一個疾病,這些診斷描述可能是一項檢查、某種疾病的預(yù)防或者一些常規(guī)護(hù)理操作等。根據(jù)這些診斷的描述特點添加了部分自定義分類,專門解決不易分類的診斷描述問題。見表4。

        表4 不易分類的疾病規(guī)范化(樣例)

        其中,主要涉及一些非確切疾病的描述,針對這些描述的特點和可能引發(fā)的相關(guān)疾病對ICD-10進(jìn)行了相關(guān)內(nèi)容的擴(kuò)充,用以解決多樣化的疾病檢查、疾病預(yù)防以及一些身體部位的相關(guān)護(hù)理等診斷描述的規(guī)范化問題。

        3 討論

        3.1 本研究的創(chuàng)新性

        目前,基于計算機(jī)來進(jìn)行疾病診斷名稱規(guī)范化的研究相對較少,疾病診斷名稱規(guī)范化主要依靠人力完成,而提高規(guī)范化效率的方法主要是對臨床醫(yī)師和病案整理人員進(jìn)行相關(guān)的專業(yè)技能培訓(xùn),以減少病案書寫和整理過程中不規(guī)范現(xiàn)象的發(fā)生[6],從而提高臨床診斷的科學(xué)性和實用性[7]。但是,由于門診壓力和工作量的影響,臨床診斷名稱的書寫質(zhì)量難以保持在相同的質(zhì)量水平。本研究嘗試運用計算機(jī)的方法來解決疾病診斷名稱不規(guī)范的問題,為疾病診斷名稱的批量規(guī)范化和實時規(guī)范化提供了可以借鑒的思路。

        3.2 本研究的科學(xué)性

        在已有研究中,基于語義相似度進(jìn)行疾病診斷名稱規(guī)范化的研究準(zhǔn)確率最高為90%左右[8],結(jié)果的準(zhǔn)確率很難滿足大批量文本處理的需求,而且并不能解決不宜分類的問題,仍需要進(jìn)行長時間的人工審核來糾正錯誤。本研究通過貝葉斯模型自學(xué)習(xí)加權(quán),并且添加同義詞映射詞表和ICD-10擴(kuò)充詞表,有效解決了疾病診斷名稱不規(guī)范化常見的三類問題:字形相近問題、名稱多樣問題以及不宜分類問題,并且模型的準(zhǔn)確率達(dá)到95.00%,綜合效能達(dá)到了93.79%,滿足了大批量疾病診斷名稱標(biāo)準(zhǔn)化的需求。此外,本模型所用的詞典設(shè)置均為開放型,每進(jìn)行一次迭代,模型的效率都會相應(yīng)提高。

        3.3 本研究的實用性

        本研究通過機(jī)器學(xué)習(xí)的方法有效解決了疾病診斷名稱不規(guī)范的常見問題,可以將門診中出現(xiàn)的絕大多數(shù)不規(guī)范疾病名稱轉(zhuǎn)化為疾病術(shù)語,并與標(biāo)準(zhǔn)的術(shù)語表形成映射。由于互聯(lián)網(wǎng)醫(yī)療和DRG的不斷發(fā)展,疾病編碼的重要性越來越高[7],建立臨床常用疾病診斷編碼庫也是大勢所趨[9]。臨床常用疾病診斷編碼庫,即臨床常見疾病診斷名稱與ICD形成的映射關(guān)系庫,能夠有效提高病案首頁的編碼效率和質(zhì)量,推動病種統(tǒng)計和醫(yī)教研管理工作的發(fā)展[10-11]。本研究提出的方法不僅可以高效建立疾病診斷編碼庫,節(jié)省了醫(yī)技人員的大量時間,同時為門診處方的批量審核提供了技術(shù)支持。

        3.4 本研究的局限性

        3.4.1 數(shù)字的規(guī)范化問題。當(dāng)涉及一些具體數(shù)字的疾病診斷描述時,如“體表燒傷25%”“孕25+周”等疾病診斷描述,這些數(shù)字在規(guī)范化的過程中需要轉(zhuǎn)化為一個數(shù)字范圍,但是由于數(shù)字的多樣性和不敏感性,可能導(dǎo)致結(jié)果出現(xiàn)相應(yīng)的誤差。

        3.4.2 方位詞和解剖部位詞的規(guī)范化問題。比如:“右手第五掌骨閉合性骨折腱Ⅲ區(qū)斷裂,指神經(jīng)斷裂”在規(guī)范化的過程中將其他信息遺漏,最后規(guī)范化為“手骨折”。所以,當(dāng)涉及一些復(fù)雜的解剖部位的疾病診斷描述時,在疾病診斷名稱統(tǒng)一規(guī)范化的過程中可能會把解剖部位遺漏或者只保留了粗分類,造成疾病信息的丟失。

        4 建議

        4.1 強(qiáng)化培訓(xùn),完善考核

        應(yīng)加強(qiáng)醫(yī)師培訓(xùn),提高醫(yī)師在門診疾病診斷名稱使用的規(guī)范性。同時,需要完善相關(guān)績效考核機(jī)制,尤其是與門診處方質(zhì)量和病案首頁質(zhì)量相關(guān)的績效考核。只有基于內(nèi)在知識的提升和外在機(jī)制的約束,才能有效提高疾病診斷名稱的規(guī)范化程度。

        4.2 建立標(biāo)準(zhǔn)術(shù)語庫,完善編碼體系

        完善疾病診斷名稱的標(biāo)準(zhǔn)化詞庫,細(xì)化ICD編碼體系,提高ICD編碼的實用性。標(biāo)準(zhǔn)化的疾病診斷名稱術(shù)語庫是互聯(lián)網(wǎng)醫(yī)療的基礎(chǔ),同樣也是醫(yī)療信息化的過程。可以將臨床醫(yī)師常用的疾病相關(guān)術(shù)語進(jìn)行整理,建立一套標(biāo)準(zhǔn)術(shù)語庫,并進(jìn)行編碼,或者以ICD為基礎(chǔ)進(jìn)行擴(kuò)編,盡可能囊括各類常見術(shù)語和醫(yī)師常用術(shù)語[12-13]。術(shù)語庫的迭代過程,也是規(guī)范化、信息化的推進(jìn)過程。

        猜你喜歡
        規(guī)范化標(biāo)準(zhǔn)化分類
        標(biāo)準(zhǔn)化簡述
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        價格認(rèn)定的規(guī)范化之路
        商周刊(2017年23期)2017-11-24 03:24:09
        教你一招:數(shù)的分類
        標(biāo)準(zhǔn)化是綜合交通運輸?shù)谋U稀庾x《交通運輸標(biāo)準(zhǔn)化體系》
        中國公路(2017年9期)2017-07-25 13:26:38
        論汽車維修診斷標(biāo)準(zhǔn)化(上)
        狂犬?、蠹壉┞兑?guī)范化預(yù)防處置實踐
        高血壓病中醫(yī)規(guī)范化管理模式思考
        亚洲天堂免费一二三四区| 青青草原精品99久久精品66 | 日韩精品极品视频在线免费| 人妻少妇中文字幕,久久精品| 日本一区二区在线播放| 藏春阁福利视频| 亚洲人成影院在线高清| av男人天堂网在线观看| 18禁免费无码无遮挡不卡网站| 乱人伦中文无码视频在线观看| 麻豆久久五月国产综合| 色老板在线免费观看视频日麻批| 中文字幕人成人乱码亚洲av| 无码精品久久久久久人妻中字| 日韩成人精品在线| 国内偷拍视频一区二区| 久久精品中文少妇内射| 日本一卡2卡3卡四卡精品网站| 调教在线播放黄| 精品中文字幕久久久人妻| 亚洲最新无码中文字幕久久| 日本少妇被黑人xxxxx| 亚洲av日韩片在线观看| 一本色道加勒比精品一区二区| 97人伦影院a级毛片| 97久久超碰国产精品2021| 8090成人午夜精品无码| av中文字幕一区人妻| 国产色xx群视频射精| 青青草视频网站在线观看| 人妻插b视频一区二区三区| 久久国产成人精品国产成人亚洲| 一本色道久久综合亚洲精品蜜臀| 国产91色综合久久免费| 麻豆精品国产精华精华液好用吗| 国产精品久久码一区二区| 日韩字幕无线乱码免费| 国产乡下妇女做爰| 国产女精品视频网站免费| 加勒比东京热久久综合| av影院在线免费观看不卡 |