葉琳 羅鐵清
摘? 要: 為提高臨床智能輔助決策系統(tǒng)輔助醫(yī)生決策的能力,從醫(yī)療數據治理方向入手,采用文獻檢索和網絡調查相結合的方法深入探析醫(yī)療數據的治理、研究動態(tài)、相關技術及應用等內容。結合已有研究,從醫(yī)療數據治理的關鍵問題出發(fā),重點闡述醫(yī)療數據治理技術,包括數據標準化、數據脫敏、數據清洗和數據結構化的具體方法,及其在臨床智能輔助決策系統(tǒng)的數據治理方案中的應用。
關鍵詞: 數據治理; 數據標準化; 數據脫敏; 數據清洗; 數據結構化
中圖分類號:R-05? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)05-10-03
Overview of medical data governance
Ye Lin, Luo Tieqing
(School of Informatics, Hunan University of Chinese Medicine, Changsha, Hunan 410208, China)
Abstract: In order to improve the ability of clinical intelligent decision-making system to assist doctors' decision-making, this paper analyzes the management, research trends, relevant technologies and applications of medical data with the method of combining literature retrieval and network investigation. Combined with the existing research, focusing on the key issues of medical data governance, the medical data governance technologies, including the specific methods of data standardization, data desensitization, data cleaning and data structuring, are described, as well as their application in the data governance scheme of clinical intelligent decision-making system.
Key words: data governance; data standardization; data desensitization; data cleaning; data structuring
0 引言
醫(yī)療衛(wèi)生行業(yè)要想從信息化到智能化轉變,助力實現“健康中國2030”,其發(fā)展模式需從規(guī)模驅動模式轉變?yōu)橐葬t(yī)療質量和服務效率為核心的新模式,醫(yī)療數據是模式轉變的基礎性資源。當前,醫(yī)生需要利用臨床智能輔助決策系統(tǒng)為患者進行診斷和治療,該系統(tǒng)主要承擔數據采集與分析、臨床知識庫檢索、患者信息管理、輔助決策等服務,這些工作都依靠大量醫(yī)療數據才能完成。如果醫(yī)療數據存在問題且缺乏有效的治理方法,最終就會導致系統(tǒng)決策失誤。因此,醫(yī)療數據治理工作勢在必行。
1 醫(yī)療數據治理概述
借鑒文獻[1]中對數據治理本質的闡述,我們可以理解醫(yī)療數據治理工作是在國家衛(wèi)生健康委員會的指導下,對醫(yī)院、體檢、互聯網健康等機構中醫(yī)療數據收集、分析、應用的過程進行監(jiān)督和管理,通過不斷創(chuàng)新和完善治理技術來提高醫(yī)療數據質量,為醫(yī)療行業(yè)創(chuàng)造更大的價值。
2 醫(yī)療數據治理研究動態(tài)
通過檢索相關文獻,跟蹤學術動態(tài)可知,加拿大頒布的《個人健康信息保護法》[2]、美國發(fā)布的《大數據研究和發(fā)展計劃》[3]和《美國聯邦政府醫(yī)療信息化戰(zhàn)略規(guī)劃(2015-2020)》[4],推動了國外醫(yī)療數據治理的發(fā)展。我國國家衛(wèi)生健康委員會發(fā)布《全國醫(yī)院信息化建設標準與規(guī)范(試行)》[5]指出,醫(yī)療信息化建設過程中要依據數據標準和相關技術規(guī)范。我國國務院印發(fā)的《關于促進和規(guī)范健康醫(yī)療大數據應用發(fā)展的指導意見》[6]提出要提升健康醫(yī)療服務效率和質量,擴大資源供給、《“健康中國2030”規(guī)劃綱要》[7]和《關于促進“互聯網+醫(yī)療健康”發(fā)展的意見》[7]為醫(yī)療數據治理工作部署方案。
綜上所述,“數據治理”理念已經涉及醫(yī)療領域,國內外目前還只是對其政策方面展開大量的研究,應用方面如數據治理技術用于提高臨床智能輔助決策系統(tǒng)中數據質量的研究少之又少,這便是我們接下來所要研究的重點。
3 醫(yī)療數據治理的關鍵問題與技術
3.1 醫(yī)療數據標準化
數據標準化是實現醫(yī)療行業(yè)智能化工作的前提條件。目前醫(yī)院內部各信息平臺中數據的標準化程度較低,很大程度上會影響臨床智能輔助決策系統(tǒng)輔助醫(yī)生決策的能力。醫(yī)療數據標準化對象包括診斷名稱、手術名稱、藥品名稱、檢查名稱、檢驗名稱等,這些醫(yī)療術語的表達應參照一些規(guī)范標準,如《電子病歷應用管理規(guī)范(試行)》[8]、《GB/T 14396-2016疾病分類與代碼》[9]、《病歷書寫基本規(guī)范(2010年版)》[10]等。醫(yī)務人員只有按照上述規(guī)范標準來記錄數據,臨床智能輔助決策系統(tǒng)才能獲得標準化程度較高的醫(yī)療數據。
3.2 醫(yī)療數據脫敏
醫(yī)療衛(wèi)生智能化建設高速發(fā)展的同時臨床智能輔助決策系統(tǒng)的安全隱患日益突出。從醫(yī)院內部各信息平臺中獲取的大量文本數據可能涉及患者隱私信息,這些信息對醫(yī)藥公司、廣告、中介、保險等行業(yè)具有商業(yè)價值,那么醫(yī)藥公司、廣告、中介、保險從業(yè)人員可能收買臨床智能輔助決策系統(tǒng)的使用者、系統(tǒng)維護或開發(fā)人員獲取患者隱私數據。因此,臨床智能輔助決策系統(tǒng)需要利用數據脫敏技術對醫(yī)療數據進行脫敏,使能夠接觸到數據的人員無法盜取數據進行非法斂財。系統(tǒng)需要重點脫敏患者信息,包括患者姓名、身份證號、手機號碼、家庭地址等。王卓[11]等人將所有數據脫敏技術歸為靜態(tài)和動態(tài)兩類。佟玲玲[12]等人提出K-匿名、L-多樣性、T-保密等不可恢復脫敏算法以及對稱加密、非對稱加密、保形加密等可恢復脫敏算法。吳克河[13]等人提出一種基于敏感數據度量的改良版數據脫敏技術。葉水勇[14]提出基于Flume和Sqoop數據采集方式的智能化脫敏技術同時與K-Anonymity、L-Diversity、T-Closeness等脫敏算法[15]復用來實現最優(yōu)化脫敏。
文獻[12]中提出自動化數據脫敏算法,其雖是目前主流脫敏技術,但沒有對數據語義予以考慮,為了更好地保護復雜語義下高敏感度的敏感屬性值,可以借鑒文獻[13]提出對敏感屬性值進行分類加權后,使用等價類分裂算法思想實現基于敏感信息度量的脫敏技術來解決此缺陷。文獻[14,15]闡述的機器學習技術與算法結合使用可以更好的實現系統(tǒng)自動化脫敏。未來,臨床智能輔助決策系統(tǒng)的開發(fā)可以借鑒這些算法實現數據自動脫敏。
3.3 醫(yī)療數據清洗
醫(yī)療數據蘊含巨大的價值,其在實際利用過程中有時卻很難體現出來,究其原因是醫(yī)院各信息平臺內部數據質量不高,比如醫(yī)生數據輸入過程中會出現缺錄、同一數據在不同信息平臺中存在不同的表達形式、醫(yī)生在診療過程中采用復制粘貼的方式進行不同維度的數據錄入等情況,那么平臺中就可能存在很多“臟”數據。這些“臟”數據在臨床智能輔助決策系統(tǒng)中利用率不高,此時數據清洗的工作就變得越發(fā)重要了??讱J[16]等人指出利用缺失值填充算法進行挖掘來填補缺失值。林予松[17]等人提出壓縮方法減少無關數據、分詞和權值的字段匹配算法來刪除重復數據,其中分詞和權值的字段匹配算法核心思想是將重心詞后移進行清洗,不適用于重心詞前移的情況,因此該算法數據清洗準確度較低需要改進。
臨床智能輔助決策系統(tǒng)可以參考上述方法對不完整、不相關、重復數據進行清洗。系統(tǒng)可以采用特殊值或者算法模型進行缺失值填補,該方法是系統(tǒng)將從醫(yī)院各信息平臺中獲取的數據進行建模展示出具有缺失值的屬性列,對于屬性列中數值數據,使用者可以在系統(tǒng)中選擇均值、平均值、眾數等特殊值選項進行自動填補,對于屬性列中非數值數據系統(tǒng)設置EM(Expectation-Maximization)或MI(Multiple Imputation)或KNN(K-NearestNeighbor)等算法[16]選項進行建模實現自動化填補。系統(tǒng)采用壓縮方法[17]將數據庫表中與研究結果無關的表、屬性、記錄刪除并保留能夠幫助醫(yī)生輔助決策的數據表,該方法很好的減少無關數據和降低數據復雜度。系統(tǒng)可以采用基于分詞和權值的字段匹配算法[17]計算兩個字段之間相似度來判斷是否為重復數據,首先利用分詞器對兩個字段分別進行分詞處理,將字符串變成分詞串并計算分詞相似度,其次分別按照重心詞前移規(guī)律匹配法和重心詞后移規(guī)律匹配法求權值相似度并將兩次計算的權值相似度加權平均,得出最終的權值相似度,最后觀察兩個字段的分詞相似度和權值相似度是否大于某一閾值來判斷是否是重復數據并將重復數據自動刪除。
3.4 醫(yī)療數據結構化
目前全國多家醫(yī)院使用支持全結構化錄入的醫(yī)療數據采集系統(tǒng),但系統(tǒng)中仍然存在大量計算機無法識別的數據。這些數據中最典型代表是電子病歷中的文本數據,其產生的主要原因是系統(tǒng)的模板限制了醫(yī)生的思維,醫(yī)生仍習慣采用自由文本或半結構化錄入的方式來完成日常病歷書寫工作。因此需要利用結構化技術將非結構化文本數據轉化成計算機能夠識別的語言供決策系統(tǒng)使用,最終系統(tǒng)才能產出精準的決策。
文獻[18]中基于規(guī)則的模式匹配信息提取方法核心是利用正則表達式匹配提取結構化數據,此方法雖然簡單易實現,但前期字段配置依賴臨床經驗進行歸納總結并且配置效果直接影響提取結果,因此該方法通用程度不高。文獻[20]中基于層疊條件隨機場模型方法的信息抽取技術雖然也能準確、快速識別多種文本信息,但其面臨識別詞語的流程較為混亂導致識別率較低、復雜的醫(yī)學報告信息的識別率較低以及語法規(guī)則定義需要有豐富臨床診療經驗的醫(yī)生進行指導等問題,因此該方法也無法通用。文獻[19]中構建的結構化抽取模型在切口數量抽取上對醫(yī)療文本信息抽取有效,但該模型無法驗證其應用在其他類型數據抽取上對醫(yī)療文本信息抽取是否同樣有效,因此該方法是否通用還有待進一步驗證。
由此可見,即使目前研究出許多文本數據結構化方法,由于醫(yī)療文本信息的復雜性和高難度,現有的結構化技術大多不夠成熟和有效,無法進行廣泛的使用,未來需要研究出標桿技術應用到臨床智能輔助決策系統(tǒng)數據結構化處理中去。
4 結束語
本文對醫(yī)療數據治理概述、研究動態(tài)、關鍵問題、相關技術及應用做了詳細的介紹并對目前醫(yī)療數據治理技術提出了改進意見。目前,市面上雖然已開發(fā)出一些輔助決策系統(tǒng),但由于醫(yī)療數據不完整、不正確、重復率較高等問題,數據放入系統(tǒng)中常常導致結果與人工給出的診斷結果和治療方案出入較大,醫(yī)生使用系統(tǒng)給出的決策方案可能會造成很嚴重的醫(yī)療事故。因此,未來將標準化、脫敏、清洗和結構化等數據治理技術應用到臨床智能輔助決策系統(tǒng)的研究具有重要的意義。
參考文獻(References):
[1] 吳信東,董丙冰,堵新政等.數據治理技術[J].軟件學報,2019.30(9):2830-2856
[2] 郭珉江,代濤,萬艷麗等.加拿大衛(wèi)生信息化建設經驗及啟示[J].中國數字醫(yī)學,2015.10(7):15-19
[3] 代濤.健康醫(yī)療大數據發(fā)展應用的思考[J].醫(yī)學信息學雜志,2016.37(2):2-8
[4] 于琦,景勝潔,邰楊芳等.我國健康醫(yī)療大數據政策文獻的多維分析[J].中國全科醫(yī)學,2019.22(26):3209-3216
[5] 明確醫(yī)院信息化建設內容和建設要求[J].醫(yī)學信息學雜志,2018.39(4):94
[6] 何毅,王曙光,劉文浩.健康醫(yī)療大數據的探索與實踐[J].中華骨與關節(jié)外科雜志,2017.10(6):482-487
[7] 吳浩,劉新穎,張世紅等.“互聯網+社區(qū)衛(wèi)生健康管理服務”標準化建設指南(二期)[J].中國全科醫(yī)學,2018.21(16).
[8] 孫慧子,董曉明,張淑英等.《電子病歷應用管理規(guī)范(試行)》對電子病歷法律效力影響[J].中國醫(yī)院管理,2018.38(4).
[9] 謝雨杉,王利亞,李莘等.基于語義相似度的ICD-10編碼歸一化[J].中國病案,2018.19(9):18-21
[10] 阮鶴瑞,劉曉明,金疆山等.病案首頁填寫缺陷分析及對策建議[J].中國病案,2015.16(2):20-24
[11] 王卓,劉國偉,王巖等.數據脫敏技術發(fā)展現狀及趨勢研究[J].信息通信技術與政策,2020.4:18-22
[12] 佟玲玲,李鵬霄,段東圣等.面向異構大數據環(huán)境的數據脫敏模型[J].北京航空航天大學學報,2020.12:1-12
[13] 吳克河,朱海,李為等.基于敏感信息度量的t-保密脫敏技術改良[J].信息技術,2019.43(11):5-9
[14] 葉水勇.數據脫敏技術的探究與實現[J].電力信息與通信技術,2019.17(4):23-27
[15] 葉水勇.數據脫敏系統(tǒng)的研究與實現[J].電力信息與通信技術,2019.17(6):31-36
[16] 孔欽,葉長青,孫赟.大數據下數據預處理方法研究[J].計算機技術與發(fā)展,2018.28(5):1-4
[17] 林予松,王培培,劉煒等.醫(yī)療體檢數據預處理方法研究[J].計算機應用研究,2017.34(4):1089-1092
[18] 吳歡,應俊,王逸飛等.乳腺癌病理文本的結構化信息提取[J].解放軍醫(yī)學院學報,2020.41(7):746-751
[19] 盧淑祺,竇志成,文繼榮.手術病例中結構化數據抽取研究[J].計算機學報,2019.42(12):2754-2768
[20] 梁立榮,李長偉,沈曄等.基于層疊條件隨機場模型的電子病歷文本信息抽取[J].計算機應用與軟件,2019.36(10):47-54,112