亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向臨床數(shù)據(jù)中心的信息檢索研究與應用

        2022-03-01 11:54:48武學鴻朱建平李建華
        醫(yī)學信息 2022年2期
        關(guān)鍵詞:分片分詞病案

        武學鴻,朱建平,李建華

        (1.中南大學計算機學院,湖南 長沙 410083;2.湖南科醫(yī)云健康科技有限公司,湖南 長沙 410012;3.湖南科創(chuàng)信息技術(shù)股份有限公司,湖南 長沙 410012)

        臨床數(shù)據(jù)中心(clinical data centers,CDR)隨著電子病歷應用的不斷豐富而持續(xù)發(fā)展[1-3],其包含了患者所有重要的臨床數(shù)據(jù),可集成院內(nèi)各科室級臨床信息系統(tǒng)(醫(yī)囑、病歷、檢驗、手術(shù)、心電、超聲、病理等),實現(xiàn)所有臨床診療數(shù)據(jù)的整合與集中展現(xiàn),并為醫(yī)療診斷決策提供支持信息。臨床數(shù)據(jù)中心具有數(shù)據(jù)量大、增長快、關(guān)聯(lián)關(guān)系復雜、價值高等特點[4-6]。面對如此龐大的數(shù)據(jù)規(guī)模,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在存儲能力、檢索效率,尤其是多表關(guān)聯(lián)檢索等方面,往往無法有效滿足臨床醫(yī)生、科研人員等對信息獲取的需求[7-9]。本文提出了應用Elasticsearch分布式搜索引擎技術(shù)實現(xiàn)面向臨床數(shù)據(jù)中心的信息檢索方法[10-13],結(jié)合數(shù)據(jù)本身及搜索引擎技術(shù)特性[14],制定相應的優(yōu)化策略,并通過實際檢索場景驗證本方法的效果,現(xiàn)總結(jié)如下。

        1 數(shù)據(jù)模型梳理及索引構(gòu)建

        1.1 數(shù)據(jù)模型梳理 臨床數(shù)據(jù)主要是以患者為中心,本次圍繞患者住院信息選擇了具有代表性的八類數(shù)據(jù)來進行相關(guān)分析,八類數(shù)據(jù)信息分別是:病案首頁、檢驗信息、病歷文書、醫(yī)囑信息、費用信息、手術(shù)信息、診斷信息、檢查信息,其描述見表1。將表1 中八類數(shù)據(jù)以面向主題的方式進行整合,以病案首頁為核心,其他數(shù)據(jù)與之形成關(guān)聯(lián),見圖1。

        圖1 以病案首頁為核心的關(guān)聯(lián)關(guān)系模型

        病案首頁中包含了患者的基本信息,以病案首頁信息為中心,其他數(shù)據(jù)表信息與其構(gòu)成了父子關(guān)聯(lián)模型,即病案首頁信息為父表,檢驗信息、病歷文書、醫(yī)囑信息等都為子表。通過該模型,在檢索的業(yè)務(wù)需求中可以根據(jù)1個或者多個子表中的1個或者多個字段來查詢病案首頁信息或者根據(jù)病案首頁信息來查詢?nèi)我?個子表的信息。上述模型結(jié)構(gòu)在面向極端場景時,即根據(jù)7個子表同時關(guān)聯(lián)來查詢病案首頁信息,尤其是表的數(shù)據(jù)規(guī)模達到億級別以上時,傳統(tǒng)關(guān)系型數(shù)據(jù)庫往往難以支撐。Elasticsearch不僅支持分布式索引數(shù)據(jù)存儲還原生的支持父子關(guān)聯(lián)索引模型,同時在父子關(guān)聯(lián)模型查詢接口上提供了很好的支撐,可實現(xiàn)由父查子以及由子查父的關(guān)聯(lián)檢索場景[15-17]。

        1.2 索引模型的構(gòu)建 結(jié)合數(shù)據(jù)模型間的復雜關(guān)聯(lián)關(guān)系[18,19],基于Elasticsearch 創(chuàng)建索引并配置各索引類型之間的關(guān)聯(lián)關(guān)系映射,形成父子索引模型,索引映射文件配置部分信息見圖2。

        索引模型定義了8 種類型分別對應的8個信息表,各類型包含了一系列屬性對象的定義。其中子表與父表之間的關(guān)聯(lián)關(guān)系是通過表中_parent 屬性定義實現(xiàn),如:病歷文書(docc)表指定其_parent 屬性值為病案首頁(page),即父表是病案首頁(page),子表是病歷文書(docc);其他數(shù)據(jù)表,如檢驗信息、費用信息、診斷信息、醫(yī)囑信息等與病歷文書的定義方式一致。定義完索引模型后,通過Elasticsearch 所提供的索引創(chuàng)建API 實現(xiàn)索引的建立。

        1.3 數(shù)據(jù)索引及分詞 Elasticsearch 提供了bulk 接口支持數(shù)據(jù)索引,即將數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫或者其他數(shù)據(jù)源導入到索引庫中,數(shù)據(jù)索引也有多種工具可選擇,如Elasticsearch river 插件、Logstash 工具等。這些工具都可以解決數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫索引到Elasticsearch 集群的過程,并支持增量索引。Elasticsearch 默認支持英文單詞的分詞方式,通過安裝配置分詞插件可實現(xiàn)中文分詞,本文中采用的是ik 分詞器[13,20],該分詞器目前應用較廣泛,無論是原生的分詞效果還是其擴展性都能夠滿足業(yè)務(wù)檢索的需求。

        2 索引的優(yōu)化方法

        2.1 數(shù)據(jù)索引優(yōu)化 數(shù)據(jù)索引即把數(shù)據(jù)導入到Elasticsearch 的過程,如果數(shù)據(jù)體量較大,那么在不做優(yōu)化方案的情況下往往會導致數(shù)據(jù)索引過慢,而且數(shù)據(jù)的索引過程并不是一次性的工作,當索引字段變更,索引映射文件變更的時候就需要將所有數(shù)據(jù)進行重新索引,每次索引過程都比較耗時。為此,本研究對索引過程進行了優(yōu)化:①在數(shù)據(jù)索引階段禁用數(shù)據(jù)的副本:數(shù)據(jù)副本能夠有效保障數(shù)據(jù)安全性,但是在數(shù)據(jù)索引過程中啟用副本會消耗一定時間在數(shù)據(jù)的復制過程中,通過禁用副本可以提升數(shù)據(jù)索引的效率,當所有數(shù)據(jù)索引完成后即可打開副本;②設(shè)置數(shù)據(jù)提交刷新時間為手動刷新:數(shù)據(jù)索引過程會利用數(shù)據(jù)緩沖策略,數(shù)據(jù)緩沖默認實時刷新緩存到持久化層,通過禁用自動刷新,可以有效利用緩存策略,提升數(shù)據(jù)索引的吞吐量和效率;③設(shè)置增大數(shù)據(jù)索引提交批量:與上一點同原理,通過提升數(shù)據(jù)索引的提交量,可提升數(shù)據(jù)索引的吞吐量;④按需調(diào)整增加分片數(shù):Elasticsearch 原生支持分布式能力,索引分片是其基礎(chǔ)的分布式單元,通過增加分片數(shù),可以提升其并發(fā)處理能力,從而提升數(shù)據(jù)索引的吞吐量;⑤增大Elasticsearch 服務(wù)節(jié)點內(nèi)存:與第③點同原理,啟用緩存,增大提交量就會占用更多服務(wù)節(jié)點內(nèi)存,通過增大內(nèi)存保障吞吐量;⑥原始數(shù)據(jù)不存儲:Elasticsearch 主要是實現(xiàn)倒排索引的構(gòu)建與存儲,其本身默認存儲原始數(shù)據(jù),但是原始數(shù)據(jù)過多會導致無論是內(nèi)存、IO,還是在磁盤空間占用方面都會對索引數(shù)據(jù)形成一定的影響,因此通過禁用原始數(shù)據(jù)存儲可以有效釋放資源,保障數(shù)據(jù)索引效率;⑦提升服務(wù)器硬件配置:從硬件層面來提升數(shù)據(jù)的處理性能,從而保障數(shù)據(jù)索引效率。

        2.2 檢索效率優(yōu)化 采用Elasticsearch 分布式搜索引擎的默認配置信息即可提供有效的數(shù)據(jù)檢索性能,然而在實際應用過程中隨著數(shù)據(jù)量的劇增,默認的配置信息往往無法滿足業(yè)務(wù)檢索的需求,在硬件配置環(huán)境一定情況下可以通過以下方式進行優(yōu)化配置:①采用分索引方案:按時間維度對索引進行分區(qū)劃分,如對臨床數(shù)據(jù)的檢索一般都會有檢索時間段條件,當數(shù)據(jù)體量大時可以將索引數(shù)據(jù)按時間維度劃分索引,2002-2015年共14個索引,其中索引命名方式為index_2002,index_2003....,當業(yè)務(wù)查詢需要查詢2014-2015年的病案首頁信息時,后端執(zhí)行API 只需要查詢index_2014,index_2015 這兩個索引即可,這樣有效縮小了數(shù)據(jù)的檢索范圍,提升了數(shù)據(jù)的檢索效率;②合理設(shè)置索引分片:分片數(shù)越多會帶來越高的并發(fā)度,但并不是分片數(shù)越多越有效,分片數(shù)越多也會帶來檢索過程中數(shù)據(jù)的合并與IO 的消耗,因此需按實際應用情況合理調(diào)整分片的數(shù)量;③根據(jù)實際情況可考慮去除_all 字段:_all 字段是默認啟用,主要用于全文檢索,如果實際場景中只需要實現(xiàn)精確檢索功能,可以去除_all 字段帶來的索引負載;④采用Elasticsearch warmer 實現(xiàn)數(shù)據(jù)熱加載:基于緩存技術(shù)提升檢索效率。

        2.3 檢索準確率優(yōu)化 數(shù)據(jù)檢索的準確率主要是體現(xiàn)在分詞的準確率上,而分詞的準確率需要有業(yè)務(wù)相關(guān)的專有名詞庫支撐。如“門脈高壓”一詞,在ik分詞器默認分詞配置下,ik 分詞器無法識別“門脈高壓”一詞會將其進一步切分,而如果將“門脈高壓”作為專有名詞庫配置到ik 分詞中,其就能準確識別出“門脈高壓”,在檢索時可以準確檢索出該詞所對應的信息。另一類場景是同義詞庫的應用,在實際檢索過程中,檢索的信息不僅要精確出現(xiàn),與檢索信息意思相同或相近的結(jié)果也需要能夠檢索出來,如同樣檢索“門脈高壓”一詞,需要能夠把包含“肝硬化”記錄信息也能夠檢索出來,而通過配置同義詞庫可以實現(xiàn)該效果。

        3 實際檢索場景驗證

        3.1 實驗數(shù)據(jù)與環(huán)境 實驗數(shù)據(jù)采用某醫(yī)院2009年的臨床電子病歷數(shù)據(jù)信息,所有數(shù)據(jù)已經(jīng)過脫敏處理,數(shù)據(jù)總記錄數(shù)為12 696 458 條,其中各個表記錄數(shù)見表2。

        測試所用的Elasticsearch 集群服務(wù)包含3個節(jié)點,其中每個節(jié)點服務(wù)器配置信息為:Centos7 64位操作系統(tǒng)、64 GB 內(nèi)存,CPU 雙路24 核[Intel(R)Xeon (R) CPU E5-2620 v3 @ 2.40GHz],磁盤空間600 GB。

        3.2 數(shù)據(jù)索引性能分析 以記錄數(shù)最多的檢驗信息(lab)數(shù)據(jù)為例,在保證數(shù)據(jù)導入源端一致的情況下,通過優(yōu)化Elasticsearch 集群及索引的配置,分析優(yōu)化操作對數(shù)據(jù)導入性能的影響,形成對比結(jié)果見圖3。圖中A 是采用Elasticsearch 集群默認的服務(wù)節(jié)點及索引配置,其中默認服務(wù)節(jié)點為1 G 內(nèi)存,默認索引配置為啟用1個副本,5個分片,自動索引刷新;B 在A 的基礎(chǔ)上去除分片副本;C 在A 的基礎(chǔ)上取消索引自動刷新并增大索引數(shù)據(jù)提交批量;D在A 的基礎(chǔ)上增大分片數(shù),10個分片;E 在A 基礎(chǔ)上增大各個Elasticsearch 節(jié)點內(nèi)存;F 為所有優(yōu)化集成??梢钥闯?,通過對服務(wù)節(jié)點及索引的配置優(yōu)化,B~F 條件下的數(shù)據(jù)導入性能相較于A 都有明顯提升,F(xiàn) 配置下的數(shù)據(jù)索引性能最優(yōu)。

        圖3 數(shù)據(jù)索引性能分析

        3.3 關(guān)聯(lián)檢索結(jié)果分析 關(guān)聯(lián)檢索主要是針對臨床數(shù)據(jù)中心部分復雜的關(guān)聯(lián)查詢需求,通過父查子/子查父兩類檢索場景驗證Elasticsearch 檢索服務(wù)的有效性。其中“子查父”指根據(jù)檢驗信息、病歷文書、醫(yī)囑信息、費用信息、手術(shù)信息等子表信息,以及病案首頁本身查詢條件來檢索病案首頁信息;“父查子”指根據(jù)病案首頁信息,以及任意子表本身的查詢條件來檢索相應的子表信息。實驗結(jié)果見圖4。

        圖4A 是1個子查父的關(guān)聯(lián)檢索場景,其具體檢索需求為:患者診斷結(jié)果為“慢性腎炎”且手術(shù)中采用了“全身麻醉”的所有病案首頁信息,即根據(jù)診斷信息以及手術(shù)信息來關(guān)聯(lián)檢索病案首頁信息。圖4B 是1個父查子的關(guān)聯(lián)檢索場景,其具體檢索需求為:患者性別為男性,且入院日期為2009年3 月18日至2009年4 月19 日之間的所有診斷記錄信息,即根據(jù)病案首頁信息來檢索診斷信息。兩種檢索場景都準確的檢索出了相關(guān)結(jié)果,并且在千萬級數(shù)據(jù)規(guī)模場景下檢索效率分別為42 ms 以及104 ms。

        圖4 關(guān)聯(lián)檢索分析

        3.4 數(shù)據(jù)檢索效率分析 影響檢索效率的因素有很多,包括硬件設(shè)施配置、集群中節(jié)點內(nèi)存配置等[21]。本次主要從索引角度出發(fā),在保證硬件配置一致,集群環(huán)境配置一致的前提下,通過調(diào)整索引分片的數(shù)量來分析檢索效率。實驗過程中,基于同一份測試數(shù)據(jù)創(chuàng)建了10個索引,其中每個索引依次是1個分片到10個分片。通過模擬客戶端發(fā)起100 次ES 檢索請求,求取所有請求的平均值,分析不同分片索引下的檢索效率,統(tǒng)計結(jié)果見圖5??梢钥闯?,從1 分片到4 分片,分片數(shù)越多檢索效率越高,而從4 分片到10 分片,分片數(shù)越多檢索效率反而有所下降,主要原因是分片增多,數(shù)據(jù)并發(fā)處理能力雖然提升了,但是數(shù)據(jù)IO 以及數(shù)據(jù)的合并所消耗的時間增加了。

        圖5 不同分片下檢索效率分析

        3.5 檢索準確率分析 IK 分詞器支持自定義詞典庫的配置,在臨床檢索需求中,專有名詞的準確識別對于檢索準確率十分重要。使用IK 默認詞典庫,無法達到準確分詞的效果。為了進一步驗證查詢的準確率,本次建立了3個對比測試索引:ik_all,ik_none_all 和ik_zymc_all,其中3個索引的詞庫配置信息見表3。

        表3 索引配置對比

        按照是否配置專有名詞、同義詞庫組合劃分,本應還有1個索引,即只配置了同義詞庫,而沒有配置專有名詞庫的,然而當沒有專有名詞庫時,專有名詞無法劃分,那么僅配置同義詞庫將失去意義,因此用于實驗的索引僅有3個。表中3個索引庫中索引的數(shù)據(jù)一致,分別從3個索引庫中檢索“肝硬化”或“門脈高壓”一詞,查詢統(tǒng)計結(jié)果見表4。

        表4 檢索結(jié)果對比

        可以看出,配置了專有名詞庫和同義詞庫,無論是搜索“肝硬化”,還是“門脈高壓”都可以準確搜索出所有的記錄;而僅使用專有名詞的情況下,檢索結(jié)果的查全率不足;若沒有配置專有名詞庫、以及同義詞庫,那么在檢索時將無法檢索出任何信息。因此,專有名詞庫提升了檢索的準確率,而配合上同義詞庫后進一步提升了檢索結(jié)果的查全率。

        4 總結(jié)

        臨床數(shù)據(jù)中心的建設(shè)為臨床分析、業(yè)務(wù)優(yōu)化、決策支持等提供了良好的數(shù)據(jù)支撐。然而,數(shù)據(jù)持續(xù)增長及業(yè)務(wù)場景的復雜性都使得傳統(tǒng)關(guān)系型數(shù)據(jù)庫無法有效滿足臨床醫(yī)生及科研人員對海量數(shù)據(jù)信息的檢索與分析需求。本研究提出的基于Elasticsearch分布式搜索引擎的臨床信息檢索方法,可實現(xiàn)復雜業(yè)務(wù)關(guān)聯(lián)信息的檢索,同時結(jié)合一系列的優(yōu)化策略進一步提升了臨床信息的索引效率、檢索效率,以及檢索準確率,可快速為臨床醫(yī)生、科研人員等提供準確的臨床信息。

        猜你喜歡
        分片分詞病案
        上下分片與詞的時空佈局
        詞學(2022年1期)2022-10-27 08:06:12
        基于二維碼的病案示蹤系統(tǒng)開發(fā)與應用
        分片光滑邊值問題的再生核方法
        CDN存量MP4視頻播放優(yōu)化方法
        結(jié)巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        基于模糊二分查找的幀分片算法設(shè)計與實現(xiàn)
        值得重視的分詞的特殊用法
        試論病案管理在防范醫(yī)療糾紛中的作用
        新病案首頁中存在的問題及對策
        高考分詞作狀語考點歸納與疑難解析
        亚洲熟女少妇一区二区| 寂寞人妻渴望被中出中文字幕| 日本少妇春药特殊按摩3| 精品久久久中文字幕人妻| 久久久久亚洲AV无码专区喷| 在线免费午夜视频一区二区| 亚洲最大免费福利视频网| 国产成人亚洲精品青草天美| 久久国产自偷自免费一区100| 二区三区亚洲精品国产| 自拍偷自拍亚洲一区二区| 亚洲va久久久噜噜噜久久男同| 91国视频| 黄片午夜免费观看视频国产| 久久久极品少妇刺激呻吟网站| 女人高潮被爽到呻吟在线观看| 图图国产亚洲综合网站| av天堂在线免费播放| 日韩午夜理论免费tv影院| 欧美精品中文字幕亚洲专区| 国产亚洲午夜精品| 国产自拍成人在线免费视频| 4hu四虎永久免费地址ww416| 国产福利姬喷水福利在线观看| www.av在线.com| 国产无套一区二区三区久久| 97在线观看播放| 国产污污视频| 国产av午夜精品一区二区入口| 国产人妻高清国产拍精品| 成人看片黄a免费看那个网址| 91精品欧美综合在线观看| 一区二区三区四区亚洲免费 | 久久精品国产亚洲av日韩一| 又粗又大又硬毛片免费看| 日韩无码无播放器视频| 都市激情亚洲综合一区| 国产精品国产三级国产a| 每天更新的免费av片在线观看| 欧美亚洲另类 丝袜综合网| 45岁妇女草逼视频播放|