文/劉源 馮洪海
醫(yī)療糾紛文獻(xiàn)的數(shù)據(jù)挖掘
文/劉源 馮洪海
因?yàn)獒t(yī)療糾紛導(dǎo)致的慘劇近年來頻繁發(fā)生,為了避免此類傷害再次發(fā)生,應(yīng)該從醫(yī)患雙方分析原因。本文中從網(wǎng)上獲取了大量醫(yī)療糾紛案例,通過分析數(shù)據(jù),總結(jié)普遍性規(guī)律,建立模型,編寫相關(guān)的程序,針對(duì)文章內(nèi)容準(zhǔn)確提取出醫(yī)療過錯(cuò)以及損害結(jié)果等。
醫(yī)療糾紛 醫(yī)療過錯(cuò) 損害結(jié)果
近幾年以來,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域有廣泛的應(yīng)用,并逐漸形成了一個(gè)重要的研究分支。據(jù)統(tǒng)計(jì)2016年,通過各方共同努力,全國(guó)法院全年共審結(jié)醫(yī)療損害賠償案件20833件?;ヂ?lián)網(wǎng)中積累了大量關(guān)于醫(yī)療糾紛的案例,為數(shù)據(jù)分析提取提供了資源。當(dāng)前,已經(jīng)有一些學(xué)者對(duì)互聯(lián)網(wǎng)醫(yī)療數(shù)據(jù)進(jìn)行了研究和分析,馮洪海[1]等統(tǒng)計(jì)分析了現(xiàn)階段互聯(lián)網(wǎng)醫(yī)療用戶癥狀和疾病的分布情況,魏強(qiáng)[2]通過研究醫(yī)療數(shù)據(jù)存儲(chǔ)與分析系統(tǒng),分析了疾病間的相互聯(lián)系,但尚沒有文獻(xiàn)關(guān)于醫(yī)療糾紛的挖掘分析。
本文中之前已通過爬蟲軟件獲取了截至2017年各主要相關(guān)網(wǎng)站大量案例數(shù)據(jù),針對(duì)這些數(shù)據(jù)進(jìn)行分析,總結(jié)普遍性規(guī)律,建立模型,編寫相應(yīng)的程序,對(duì)文章內(nèi)容分析準(zhǔn)確提取出醫(yī)療過錯(cuò)(如漏診,錯(cuò)診),損害結(jié)果等內(nèi)容。本文將著重從程序設(shè)計(jì)過程來分析。
本文中設(shè)計(jì)的程序用JAVA語(yǔ)言編寫,通過字符串的查找功能來實(shí)現(xiàn)各關(guān)鍵詞的定位,對(duì)文章內(nèi)容進(jìn)行有效提取。其中,標(biāo)志詞根據(jù)關(guān)鍵詞數(shù)量主要分為單個(gè)和多個(gè)(例如“漏診,過失行為”為單個(gè)標(biāo)志詞,“系....所致”為多個(gè)標(biāo)志詞)。單個(gè)標(biāo)志詞匹配較為容易,多個(gè)標(biāo)志詞匹配主要是通過第一個(gè)關(guān)鍵詞之前的標(biāo)點(diǎn)符號(hào)和最后一個(gè)關(guān)鍵詞之后的標(biāo)點(diǎn)符號(hào)的位置來確定提取內(nèi)容。
文章案例均來源于網(wǎng)上,所以編碼格式主要為“UTF-8”和“GBK”。本文中提取案例均為完整的一個(gè)字符串,不含有“ ”,“ ”等換行符,所以先對(duì)文章進(jìn)行分解。案例標(biāo)題中主要包含一些日期信息,作者信息等,故將該部分舍去。接下來對(duì)文章進(jìn)行分解,分割為獨(dú)立的提取單元。提取單元過大,使得每個(gè)單元中多個(gè)提取結(jié)果,不利于結(jié)果的處理,提取單元過小,每個(gè)單元中無法提取到完整的信息。經(jīng)過反復(fù)試驗(yàn),最終將提取單元設(shè)定為兩個(gè)句號(hào),即兩句話,通??梢员磉_(dá)一個(gè)完整的意思。完整程序流程圖見圖1。
圖1:程序流程圖
通過閱讀大量案例,對(duì)文章中常見的過錯(cuò)表述進(jìn)行總結(jié),建立標(biāo)志詞表,例如,“系.....所致”,“為.....所致”等。接下來,對(duì)每個(gè)提取單元進(jìn)行標(biāo)志詞匹配。匹配范圍大小是該部分的一個(gè)難點(diǎn)之一,為了避免因?yàn)槠ヅ浞秶斐山Y(jié)果偶然性,導(dǎo)致實(shí)際內(nèi)容與目標(biāo)不符。所以,本文將匹配范圍確定到兩個(gè)逗號(hào)之間的內(nèi)容,提取范圍結(jié)果所在的一句話,以此來應(yīng)對(duì)該問題。
對(duì)于過錯(cuò)行為引發(fā)的傷害結(jié)果,由兩部分組成,第一部分用來連接傷害后果的連詞,例如“致使”,“導(dǎo)致”等,或者是用來表示時(shí)間的關(guān)系的連詞,例如“手術(shù)后”,“就醫(yī)后”,“治療后”等,該部分各標(biāo)志詞之間邏輯關(guān)系為或。第二部分是損害結(jié)果。標(biāo)志詞如“死亡”,“殘疾”,“喪失生活能力”等。提取范圍與上部分一致。
每個(gè)提取單元中可能存在多個(gè)標(biāo)志詞,會(huì)造成同一部分內(nèi)容多次提取,需要對(duì)提取結(jié)果進(jìn)行去重和合并。去重相對(duì)容易解決,JAVA中的HashSet類,屬于集合類,容器中只能用來存儲(chǔ)不重復(fù)的對(duì)象,將提取結(jié)果加入到該集合中,來解決該問題。合并對(duì)集合中的提取結(jié)果尋找公共字符串,對(duì)于有公共字符串的提取結(jié)果分到同一組,對(duì)于每一組都可以合并為一個(gè)完整的句子,避免重復(fù)合并,出現(xiàn)多種結(jié)果。
如果過錯(cuò)和傷害結(jié)果在同一個(gè)提取單元中出現(xiàn),可以作為最終結(jié)果之一。對(duì)于一些文檔,過錯(cuò)和傷害結(jié)果不在同一提取單元中,將提取范圍擴(kuò)充到上一提取單元,保存上一提取單元中的提取狀態(tài),若當(dāng)前提取單元中僅存在傷害結(jié)果,而上一單元的提取狀態(tài)中存在過錯(cuò),可作為最終結(jié)果。
本文通過建立模型,標(biāo)志詞表,對(duì)提取結(jié)果進(jìn)行去重合并,獲取了幾個(gè)相關(guān)網(wǎng)站中所涉及案例中出現(xiàn)的過錯(cuò),傷害結(jié)果。未來的研究可以對(duì)該詞表和程序進(jìn)一步完善,對(duì)每個(gè)標(biāo)志詞建立相應(yīng)的排除表,對(duì)一些語(yǔ)境識(shí)別,提高提取結(jié)果的準(zhǔn)確性。針對(duì)這些數(shù)據(jù)應(yīng)用統(tǒng)計(jì)學(xué)方法進(jìn)行分析,統(tǒng)計(jì)當(dāng)前階段醫(yī)療事故中醫(yī)療過失的分布情況,可以有效避免再次發(fā)生。
(通訊作者:馮洪海)
[1]馮洪海,孫遠(yuǎn)燦,李利敏,宋舒晗,黃俊輝.基于Web醫(yī)療數(shù)據(jù)的互聯(lián)網(wǎng)醫(yī)療用戶研究[J].計(jì)算機(jī)時(shí)代,2014(04):41-46.
[2]魏強(qiáng).基于云計(jì)算的醫(yī)療數(shù)據(jù)處理技術(shù)研究[D].貴州大學(xué),2015.
作者單位河南大學(xué)計(jì)算機(jī)與信息工程學(xué)院 河南省開封市 475000
劉源 (1996-),女,山西省呂梁市人。在讀本科。