亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人工智能的病歷后結(jié)構(gòu)化專病數(shù)據(jù)庫在臨床研究中的價值探討

        2020-09-23 10:02:06榮雯雯朱其立
        關(guān)鍵詞:專病病歷醫(yī)師

        榮雯雯,汪 剛,朱其立

        1. 上海市胸科醫(yī)院,上海交通大學附屬胸科醫(yī)院統(tǒng)計中心,上海 200030;2. 上海交通大學電子信息與電氣工程學院,上海 200240

        在當下的大數(shù)據(jù)時代,數(shù)據(jù)可通過挖掘來實現(xiàn)其自身的價值[1]。作為臨床診療活動的重要場所,醫(yī)院應(yīng)當充分利用其院內(nèi)海量的醫(yī)療數(shù)據(jù),供醫(yī)師開展相關(guān)臨床研究,挖掘出深層次的規(guī)律[2]。有報道[3]顯示,加強與重視醫(yī)院的臨床研究的開展,不僅可以推動臨床上新技術(shù)的發(fā)展,還能夠提高診療水平。目前,絕大多數(shù)醫(yī)師收集科研數(shù)據(jù)仍需要從病案室借閱病歷,再通過手工記錄加以整理;即使部分醫(yī)院已實現(xiàn)了電子病歷無紙化,即將病案首頁中的結(jié)構(gòu)化數(shù)據(jù)整理成數(shù)據(jù)庫,但對于電子病歷文本中的大量非結(jié)構(gòu)化數(shù)據(jù)的使用,仍需要醫(yī)師通過手動來查找。一方面,手工查找費時費力,效率較低[4];另一方面,通過該種方式使用如此海量的醫(yī)療數(shù)據(jù),或?qū)⒔o臨床研究造成極大的信息資源浪費。因此,如何通過人工智能(artificial intelligence,AI)實現(xiàn)對電子病歷文本信息的有效利用,以輔助臨床醫(yī)師挖掘醫(yī)學規(guī)律、提高臨床診療水平成為了當下的研究熱點[5]。基于此,本研究以某三甲專科醫(yī)院為例,通過采用AI 技術(shù)將電子病歷文本信息結(jié)構(gòu)化形成數(shù)據(jù)庫,以期為臨床研究的順利開展提供價值支撐。

        1 資料與方法

        1.1 研究資料

        為進一步提升某三甲??漆t(yī)院臨床研究的廣度和深度,在保障數(shù)據(jù)安全、準確及完整的前提下,收集2007年10 月—2019 年9 月于該三甲??漆t(yī)院就診患者的全部電子病歷文本信息。

        1.2 研究方法

        1.2.1 專病數(shù)據(jù)庫的系統(tǒng)設(shè)計 采用基于容器技術(shù)的分布式架構(gòu)(Kubernetes,K8s)實現(xiàn)對專病數(shù)據(jù)庫的建設(shè)。該平臺能夠采集醫(yī)院現(xiàn)有的業(yè)務(wù)應(yīng)用系統(tǒng)[如醫(yī)院信息系統(tǒng)(hospital information system,HIS)、實驗室信息系統(tǒng)(laboratory information system,LIS)、放射信息系統(tǒng)(radiology information system,RIS)、電子病歷系統(tǒng)(electronic medical record,EMR)等]的臨床數(shù)據(jù),從而實現(xiàn)患者從門診、急診、住院及隨訪等的就診、住院及預(yù)后信息的集成。其臨床數(shù)據(jù)采集范圍包括出院小結(jié)、病案首頁、手術(shù)記錄、檢查檢驗報告、病程記錄等。通過自然語言處理、知識圖譜、機器學習等AI 引擎實現(xiàn)各類醫(yī)學文本數(shù)據(jù)的結(jié)構(gòu)化、標準化和歸一化等處理。該專病數(shù)據(jù)庫的設(shè)計將為臨床研究提供專病概覽、智能科研檢索、隊列發(fā)現(xiàn)、科研統(tǒng)計分析等功能模塊。其系統(tǒng)設(shè)計見 圖1。

        圖1 專病數(shù)據(jù)庫的系統(tǒng)設(shè)計流程圖Fig 1 System design flowchart of specialized disease database

        1.2.2 專病數(shù)據(jù)庫實現(xiàn)的關(guān)鍵技術(shù)

        (1)復(fù)制技術(shù)和變更捕獲技術(shù) 在專病數(shù)據(jù)庫的建設(shè)過程中,需采用數(shù)據(jù)庫復(fù)制技術(shù)和變更數(shù)據(jù)捕獲(change data capture,CDC)技術(shù)建立實時復(fù)制庫,在復(fù)制庫中進行實時數(shù)據(jù)集成。數(shù)據(jù)庫復(fù)制的方式包括2 種,即關(guān)系型數(shù)據(jù)庫SQL Server(structured query language server )利用發(fā)布訂閱的方式進行復(fù)制,以及Oracle GoldenGate[6]數(shù)據(jù)復(fù)制技術(shù)。在復(fù)制數(shù)據(jù)庫的同時,采用CDC 技術(shù)對日志文件(任何操作都會寫進其中)中發(fā)生變更的數(shù)據(jù)進行實時捕獲,如增、刪、改等操作。該技術(shù)會把更改應(yīng)用到數(shù)據(jù)文件中,同時將符合要求的數(shù)據(jù)標記為需要添加跟蹤的項。數(shù)據(jù)實時集成的技術(shù)架構(gòu)見圖2。

        圖2 數(shù)據(jù)實時集成的技術(shù)架構(gòu)圖Fig 2 Technical architecture diagram of real-time data integration

        (2)醫(yī)學自然語言處理 基于醫(yī)院的海量病歷文書,使用無監(jiān)督學習、監(jiān)督式學習、主動學習、遷移學習等機器學習方法建立一整套針對中文醫(yī)學文本的分層式自然語言處理(natural language processing,NLP)系統(tǒng),對醫(yī)學文本進行信息抽取、結(jié)構(gòu)化轉(zhuǎn)換以及標準化處理,包括醫(yī)學文本分詞、醫(yī)學詞性標記、醫(yī)學命名實體識別、實體標準化和實體關(guān)系抽取、醫(yī)學文本語義依存分析等環(huán)節(jié)。① 醫(yī)學文本分詞:對電子病歷文本采用IKAnalyzer 開源分詞工具[7],按照正向最大匹配法將文本中的字符串與充分大的機器詞典的詞條進行匹配。若在詞典中找到某一長度的字符串,則匹配成功。②醫(yī)學詞性標記:采用基于規(guī)則的標注方法[8],對電子病歷文本中的每個詞的詞性加以標注。③醫(yī)學命名實體識別:醫(yī)學領(lǐng)域中的命名實體包括疾病名稱、藥物名稱、檢查項目名稱、手術(shù)操作名稱、癥狀、器官部位等,采用融合注意機制(Attention)的雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,Bi-LSTM)[9]設(shè)計的主動型深度學習對醫(yī)學命名實體進行識別,平均精度可超過97%。④實體標準化和實體關(guān)系抽取:采用機器學習法實現(xiàn)對實體標準化和實體關(guān)系的抽取。⑤醫(yī)學文本語義依存分析:包括確信度分類、時序解析、關(guān)聯(lián)抽取、語義樹構(gòu)建的整套流程,針對各種內(nèi)容和類型的醫(yī)學文本的行文方式建立語言學模型,并以結(jié)構(gòu)學習的形式完成端對端的解析,信息抽取覆蓋度占文本內(nèi)包含可提取信息的96%以上。

        (3)數(shù)據(jù)質(zhì)量評估 專病數(shù)據(jù)庫建成后,定期進行數(shù)據(jù)完整性和準確性評估,即根據(jù)不同病種的實際特點,采用標準化AI 自動糾錯功能,將糾錯后數(shù)據(jù)與原數(shù)據(jù)進行對比查詢,追溯到前端系統(tǒng),以提高數(shù)據(jù)錄入的準確性;同時,還需從專病數(shù)據(jù)庫中隨機抽調(diào)數(shù)據(jù),與目前的病案首頁系統(tǒng)中的數(shù)據(jù)進行比對,以確保數(shù)據(jù)的準 確性。

        2 結(jié)果

        當前,本研究已完成肺癌、食管癌、縱隔腫瘤3 個專病全量數(shù)據(jù)庫的建設(shè),包含2007—2019 年肺癌就診患者71 263 例、食管癌就診患者5 883 例、縱隔腫瘤就診患者5 438 例,住院文書記錄結(jié)構(gòu)化數(shù)量253 000 條,形成3 個專病相關(guān)變量集,即肺癌包含485 個變量、食管癌559 個變量、縱隔腫瘤481 個變量,自動填充率為40%~56%。與傳統(tǒng)的數(shù)據(jù)庫相比,該專病數(shù)據(jù)庫存在如下優(yōu)勢:①實現(xiàn)了臨床文本信息的后結(jié)構(gòu)化,擴大了檢索范圍即支持全文本檢索,解決了臨床研究中數(shù)據(jù)采集范圍受限的問題。②不僅支持按照已設(shè)定的變量進行數(shù)據(jù)檢索,還支持關(guān)鍵字模糊檢索,從而縮短了檢索周期,提升了臨床研究中數(shù)據(jù)檢索的效率。③解決了數(shù)據(jù)沉淀不足導(dǎo)致無法直接使用的問題,滿足了臨床醫(yī)生的科研需求。具體應(yīng)用實例見 圖3 ~圖5。

        截至2019 年底,申請使用該數(shù)據(jù)庫的前3 個科室分別為呼吸科、放療科及腫瘤外科,申請次數(shù)分別為9、4和2 次;已有多位臨床醫(yī)師利用專病數(shù)據(jù)庫中預(yù)處理后的數(shù)據(jù)構(gòu)建臨床事件的預(yù)測模型,并采用機器學習的方式對疾病的發(fā)生及發(fā)展等影響因素進行多因素分析;同時,也有部分臨床醫(yī)師采用數(shù)據(jù)庫中的數(shù)據(jù)進行臨床隊列研究。目前,已有臨床醫(yī)師利用專病數(shù)據(jù)庫中的數(shù)據(jù)進行胸腔鏡肺手術(shù)轉(zhuǎn)開胸的危險因素及影響的研究,并成功發(fā)表文章。

        圖3 專病數(shù)據(jù)庫變量選擇的界面Fig 3 Interface of variable selection of specialized disease database

        圖4 病理報告中關(guān)鍵詞的檢索結(jié)果Fig 4 Retrieval results of key words in pathological reports

        圖5 檢索結(jié)果溯源、定位顯示的界面Fig 5 Interface for tracing and displaying of search results

        3 討論

        本研究就病歷文本信息進行二次利用,構(gòu)建專病數(shù)據(jù)庫。與建設(shè)前相比,該數(shù)據(jù)庫存在如下優(yōu)勢:①支持全文本數(shù)據(jù)檢索及關(guān)鍵字模糊匹配檢索,極大地縮短了檢索周期,減輕了臨床醫(yī)師數(shù)據(jù)整理的負擔。②檢出的數(shù)據(jù)可直接用于基本的統(tǒng)計描述功能如性別比、年齡構(gòu)成等,從而為臨床研究提供了病歷篩選和數(shù)據(jù)分析的模型支持,滿足科研需求。③隨著院外隨訪數(shù)據(jù)與該數(shù)據(jù)庫的成功對接,可直接使用預(yù)處理后的海量原始數(shù)據(jù)進行臨床隊列研究訓練,實現(xiàn)對研究對象的全面分析,獲得更充分的研究結(jié)果。

        然而,在專病數(shù)據(jù)庫的建設(shè)過程中也遇到一些困難:①針對同一種特征描述,醫(yī)師有多種寫法。例如,對于陰性癥狀的描述,則有“否認某癥狀”“無某癥狀”“某癥狀(-)”“未觸及某癥狀”等。需向NLP 系統(tǒng)提供更高的提取精度、歸一化術(shù)語表達,實現(xiàn)醫(yī)學術(shù)語標準化。②提取變量時存在部分字段缺失。需通過缺失值填補形成智能化數(shù)據(jù)庫,以提高數(shù)據(jù)完整性。③在建成初期,數(shù)據(jù)庫系統(tǒng)不穩(wěn)定導(dǎo)致數(shù)據(jù)調(diào)取時間延遲等。需及時向技術(shù)人員進行反饋并加以維護,同時需提高技術(shù)人員工作的嚴謹性。此外,該數(shù)據(jù)庫也存在一些不足,如在數(shù)據(jù)抽取的方法上,未來可采用準確率更高的方法,即考慮結(jié)合深度學習相關(guān)的算法模型等,更加充分地利用數(shù)據(jù)本身的特征實現(xiàn)信息化抽取。綜上,專病數(shù)據(jù)庫的建設(shè)是一個不斷探索的過程,需逐步積累經(jīng)驗、學習新的信息化技術(shù),未來或?qū)榕R床研究提供有力的價值支撐。

        參·考·文·獻

        [1] 劉利釗, 洪江水, 劉莉莉, 等. 面向大數(shù)據(jù)圖像處理的尺度空間挖掘算法及應(yīng)用[J]. 上海交通大學學報, 2015, 49(11): 1731-1735.

        [2] 王忠慶, 邵尉, 彭程, 等. 醫(yī)療大數(shù)據(jù)時代對醫(yī)院統(tǒng)計工作的新思考[J]. 中國衛(wèi)生統(tǒng)計, 2015, 32(3): 542-543.

        [3] 王藜篥. 加強醫(yī)院科研發(fā)展與管理對提升醫(yī)院核心競爭力的影響[J]. 中國衛(wèi)生產(chǎn)業(yè), 2017, 14(16): 126-127.

        [4] 甘霖. 基于云計算的電子病歷全文檢索系統(tǒng)[J]. 中國數(shù)字醫(yī)學, 2016, 11(12): 41-43.

        [5] 彭紅波, 韓晟, 王婷婷. 基于Solr的電子病歷全文檢索系統(tǒng)的設(shè)計與實現(xiàn)[J]. 中國醫(yī)療設(shè)備, 2019, 34(3): 102-105.

        [6] 宓正宇. 基于Goldengate 的數(shù)據(jù)庫異地災(zāi)備實現(xiàn)[J]. 電信科學, 2018, 34(4): 136-143.

        [7] 柴潔. 基于IKAnalyzer和Lucene的地理編碼中文搜索引擎的研究與實現(xiàn)[J]. 城市勘測, 2014(6): 45-50.

        [8] 彭濤, 戴耀康, 朱楓彤, 等. 一種基于規(guī)則的無監(jiān)督詞性標注方法[J]. 吉林大學學報(理學版), 2015, 53(5): 956-962.

        [9] 劉飛龍, 郝文寧, 陳剛, 等. 基于雙線性函數(shù)注意力Bi-LSTM 模型的機器閱讀理解[J]. 計算機科學, 2017, 44(S1): 92-96, 122.

        猜你喜歡
        專病病歷醫(yī)師
        中國醫(yī)師節(jié)
        韓醫(yī)師的中醫(yī)緣
        金橋(2022年8期)2022-08-24 01:33:58
        “互聯(lián)網(wǎng)+醫(yī)療”背景下中醫(yī)專病人工智能診療系統(tǒng)的現(xiàn)狀及探討
        強迫癥病歷簿
        趣味(語文)(2021年9期)2022-01-18 05:52:42
        “大數(shù)的認識”的診斷病歷
        為何要公開全部病歷?
        專病一體化護理對心衰患者營養(yǎng)管理的影響
        村醫(yī)未寫病歷,誰之過?
        醫(yī)師為什么不滿意?
        80位醫(yī)師獲第九屆中國醫(yī)師獎
        深夜爽爽动态图无遮无挡| 另类人妖在线观看一区二区| 日本国产一区二区在线观看| 蜜桃视频插满18在线观看| 久久精品免视看国产成人| 百合av一区二区三区| 国产一区二区三区porn | 91自国产精品中文字幕| 亚洲av色福利天堂久久入口| 人妻洗澡被强公日日澡电影 | 午夜免费福利小电影| 伊人久久综合精品无码av专区| av手机在线天堂网| 青青草手机视频免费在线播放| 免费无码精品黄av电影| 无码一区二区波多野结衣播放搜索 | 日本成人免费一区二区三区| 国产av在线观看一区二区三区| 内地老熟女老少配视频| 欧美一级视频精品观看| 少妇隔壁人妻中文字幕| 99视频在线精品免费观看6| 免费看泡妞视频app| 一区二区三区婷婷在线| 国产美女高潮流白浆视频| 情人伊人久久综合亚洲| yeyecao亚洲性夜夜综合久久| 亚洲日本在线中文字幕| 少妇一级淫片中文字幕| 一本一道久久综合狠狠老| 亚洲色图综合免费视频| 亚洲一区二区三区在线最新| 伊人色综合久久天天五月婷| 五月天久久国产你懂的| 国产成人久久精品二区三区| 日本伊人精品一区二区三区 | 水蜜桃亚洲一二三四在线| 国产成人一区二区三区高清| 国产高清视频在线不卡一区| 丰满人妻一区二区三区视频53| 伊人久久大香线蕉在观看|