亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存關(guān)系和倒排索引的中醫(yī)電子病歷檢索方法

        2020-12-29 12:09:28郭坤丁有偉
        計(jì)算機(jī)時(shí)代 2020年12期
        關(guān)鍵詞:病歷本體檢索

        郭坤 丁有偉

        摘? 要: 醫(yī)療信息化背景下,依托大數(shù)據(jù)的智慧醫(yī)療成為研究熱點(diǎn),而電子病歷檢索作為中醫(yī)數(shù)據(jù)處理的基礎(chǔ)操作,其性能直接影響到上層統(tǒng)計(jì)分析和挖掘應(yīng)用的性能。目前中醫(yī)電子病歷采集和存儲尚未形成統(tǒng)一標(biāo)準(zhǔn),存在大量非結(jié)構(gòu)化數(shù)據(jù),基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的檢索方式已不再適用。文章提出一種基于依存關(guān)系和倒排索引的中醫(yī)電子病歷高效檢索方法,通過挖掘關(guān)鍵詞之間的依存關(guān)系,使用二元組表示,并為二元組建立倒排索引以提高檢索效率。該方法根據(jù)關(guān)鍵詞之間的依存關(guān)系重構(gòu)原文,創(chuàng)建倒排索引提高檢索性能,保證海量數(shù)據(jù)的高效訪問。

        關(guān)鍵詞: 中醫(yī)電子病歷; 依存關(guān)系; 倒排索引; 結(jié)果重構(gòu)

        中圖分類號:TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2020)12-56-04

        Abstract: In the medical informatization, intelligent medical treatment relying on big data has become a research hotspot, and electronic medical record retrieval, as the basic operation of TCM data processing, directly affects the performance of upper statistical analysis and application. At present, the collection and storage of traditional Chinese medicine electronic medical records has not formed a unified standard. There are a lot of unstructured data, and the retrieval methods for traditional relational database are no longer suitable. This paper proposes an efficient retrieval method of TCM electronic medical records based on dependency relationship and inverted index. By mining the dependency relationship between keywords, using binary group to express, and building inverted index for the binary group to improve the retrieval efficiency. This method reconstructs the original text according to the interdependence of keywords, creates inverted index to improve the retrieval performance, which ensures the efficient access of mass data.

        Key words: electronic medical records of Chinese medicine; dependency relationship; inverted index; result reconstruction

        0 引言

        隨著醫(yī)療信息化的不斷推進(jìn),臨床信息系統(tǒng)建設(shè)逐步完善。直到2014年,醫(yī)院臨床醫(yī)療管理信息化(CIS)系統(tǒng)在醫(yī)療信息化解決方案中占比44.4%,預(yù)計(jì)在2021年超過醫(yī)院管理信息化(HIS)的規(guī)模[1]。在人工智能,大數(shù)據(jù)應(yīng)用增加的背景下,中醫(yī)電子病歷已成為各類輔助系統(tǒng)和智能應(yīng)用的數(shù)據(jù)支撐[2],但如何高效利用臨床診療信息對數(shù)據(jù)擁有者和應(yīng)用開發(fā)者而言均是巨大的挑戰(zhàn)。

        現(xiàn)有對電子病歷中非結(jié)構(gòu)化數(shù)據(jù)的檢索方法主要分為兩類:基于查詢重構(gòu)的方法和基于本體的方法。查詢重構(gòu)主要有兩種形式,一是關(guān)鍵詞拓展[3],即依托外部醫(yī)療知識為原檢索擴(kuò)展關(guān)鍵字,如UMLS、ICD-9編碼等。此類方法在實(shí)際應(yīng)用中效果不明顯,且容易發(fā)生查詢漂移的問題;二是關(guān)鍵詞權(quán)重調(diào)整[4],即在原查詢的基礎(chǔ)上,分析關(guān)鍵字在文檔中的貢獻(xiàn)度,查詢重構(gòu)本質(zhì)上是一種基于關(guān)鍵字的方法。而僅僅依賴關(guān)鍵詞作為檢索的標(biāo)準(zhǔn)則存在明顯的弊端。有研究認(rèn)為,關(guān)鍵字之間語法關(guān)系的缺失是造成文本匹配不準(zhǔn)確的重要原因[5]。許多不相關(guān)的文檔之間可能存在相同的關(guān)鍵字[6]。

        基于本體的檢索方法通過定義專業(yè)詞匯和專業(yè)術(shù)語,深層次地理解檢索對象。該方法在電子病歷檢索領(lǐng)域得到廣泛應(yīng)用。曾紅武等人[7]提出一種運(yùn)用模糊向量空間模型的概念,挖掘分析海量電子病歷,建立本體知識庫,能夠高效識別病歷中疾病的診療模式和依據(jù)。鞏沐歌等人[8]結(jié)合高血壓診斷知識與本體庫,構(gòu)造了高可用的高血壓電子病歷庫。但此類方法需要建造健全的本體庫,這使得檢索的效果很大程度上依賴本體庫的質(zhì)量。

        本文提出一種基于依存關(guān)系和倒排索引的中醫(yī)電子病歷檢索方法,提煉關(guān)鍵詞之間的依存關(guān)系,使用依存關(guān)系重構(gòu)原文,并在此基礎(chǔ)上創(chuàng)建倒排索引。該方法兼顧檢索結(jié)果的準(zhǔn)確性和數(shù)據(jù)存儲的高效性。

        1 基于依存關(guān)系的中醫(yī)電子病歷核心語義提取

        依存語法分析的目的是發(fā)掘復(fù)雜文本中關(guān)鍵詞之間的依存關(guān)系。本方法采用了注意力機(jī)和多層感知機(jī)作為實(shí)體關(guān)系的提取模型。模型包含輸入層,抽象層和輸出層。輸入層完成特征編碼,抽象層產(chǎn)生依存關(guān)系矩陣,輸出層解析依存關(guān)系矩陣得到依存關(guān)系向量。

        1.1 輸入層

        輸入層接受三種特征輸入,分別為詞嵌入,詞性和詞類。詞嵌入使用Word2Vec算法,設(shè)每個(gè)詞語256維;詞性和詞類使用人工標(biāo)注的方法,針對兒童哮喘病歷數(shù)據(jù),共使用7種詞性,5種詞類,如表1所示。

        1.2 抽象層

        抽象層由注意力機(jī)制和多層感知器組成,對模型輸入進(jìn)行深度抽象,最終得到依存矩陣。設(shè)存在句子[Sentence=word0,word1,word2,…,wordn],抽象層輸出依存矩陣[D=λ0,0…λ0,n???λn,0…λn,n],其中wordn表示句中第n個(gè)詞,[λx,y]表示[wordx]與[wordy]的依存值。

        對于中醫(yī)病歷中非結(jié)構(gòu)化數(shù)據(jù),具有依存關(guān)系的關(guān)鍵詞并沒有固定的排列規(guī)則,這主要體現(xiàn)在兩個(gè)方面:①關(guān)鍵詞之間的語序不固定,即關(guān)鍵詞之間沒有嚴(yán)格的前后關(guān)系,這主要是由不同的書寫,記錄習(xí)慣導(dǎo)致;②關(guān)鍵詞之間的詞距不固定,尤其當(dāng)出現(xiàn)嵌套關(guān)系時(shí),相關(guān)聯(lián)的詞對可能距離較遠(yuǎn)。而注意力機(jī)制本身對位置信息不敏感,能很好地提取全局特征。

        注意力機(jī)制本質(zhì)上可表示為一個(gè)查詢與一系列鍵值對的映射關(guān)系。

        設(shè)A為注意力函數(shù),S為相似度函數(shù),存在一個(gè)查詢(query)和L組鍵值對(key, value),Source表示鍵值隊(duì)集合,i表示鍵值對的序號,則注意力計(jì)算公式如下:

        1.3 輸出層

        輸出層解析依存矩陣得到依存向量。根據(jù)依存句法分析公理[9],在一個(gè)完整的語句中,任何一個(gè)詞語都不能依存于2個(gè)或2個(gè)以上的其他詞語,進(jìn)而在依存向量中每一個(gè)值可以表示為依存對象在句中的索引。

        輸出層主要采用Esiner算法[10],Esiner算法在每一個(gè)間隔[s,t]計(jì)算最佳結(jié)果。s表示左界的索引t法表示右界的索引且s和t中至少有一個(gè)是頭節(jié)點(diǎn)。

        該算法以哈希表為基本數(shù)據(jù)結(jié)構(gòu),以間隔[s,t]為鍵,數(shù)值分為兩類,即L(頭節(jié)點(diǎn)在s處)和R(頭節(jié)點(diǎn)在t處)。實(shí)際計(jì)算中考慮四種情況,如表2所示。

        1.4 依存向量轉(zhuǎn)子查詢

        依據(jù)依存向量將原始語句分解成多個(gè)子查詢,子查詢記錄成二元組的形式。首部為核心詞,尾部為依存詞。設(shè)對于句子[e0,e1,e2,e3]有依存向量[-1,0,-1,2T],則可以拆分為子查詢集[e0,e1,e2,e3]。表3所示依存向量轉(zhuǎn)子查詢的實(shí)例,該文本包含18個(gè)關(guān)鍵詞,其依存矩陣為D18x18,解析后得到維度為18的依存向量。

        在眾多子查詢中,并非每一個(gè)都需要作為檢索特征,過多地引入非關(guān)鍵子查詢反而會降低查詢地精度。找出關(guān)鍵子查詢可以大大優(yōu)化檢索效率和準(zhǔn)確度[11]。本文篩選出有效的子查詢,例如藥劑與服用量,病癥與患病程度。

        2 基于倒排的索引創(chuàng)建

        正排索引為整個(gè)文檔創(chuàng)建索引,并記錄下文檔中詞語的詞性、詞頻等信息。該方法優(yōu)點(diǎn)在于創(chuàng)建簡單,易于后期維護(hù);缺點(diǎn)表現(xiàn)為,查詢時(shí)需要依次掃描所有文檔,效率低下。倒排索引為文檔中每一個(gè)關(guān)鍵字創(chuàng)建索引。這種方法雖然創(chuàng)建維護(hù)比較復(fù)雜,但在處理海量數(shù)據(jù)時(shí)優(yōu)于正排索引。本文以子查詢?yōu)榛締卧?,?gòu)建倒排索引。根據(jù)電子病歷的需求和數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),設(shè)計(jì)倒排索引的數(shù)據(jù)結(jié)構(gòu)如表4所示。

        3 實(shí)驗(yàn)分析

        實(shí)驗(yàn)數(shù)據(jù)為某名老中醫(yī)診治兒童哮喘的3000份病歷,每次迭代包含4條數(shù)據(jù),總共訓(xùn)練10個(gè)epoch。

        4 結(jié)論

        針對目前中醫(yī)電子病歷中非結(jié)構(gòu)化數(shù)據(jù)檢索效率低的問題,本文引入依存關(guān)系分析,在此基礎(chǔ)上,篩選有效子查詢并創(chuàng)建倒排索引,最大程度還原語義的同時(shí)提高檢索效率。

        實(shí)驗(yàn)表明,本文提出的基于注意力機(jī)制的依存關(guān)系挖掘網(wǎng)絡(luò)較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在收斂速度和準(zhǔn)確率上都有提升,對依存關(guān)系進(jìn)行規(guī)約并創(chuàng)建倒排索引的檢索方式在數(shù)據(jù)容量以及檢索速度方面優(yōu)于傳統(tǒng)的關(guān)系數(shù)據(jù)庫。本研究成果具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值,該方法可廣泛應(yīng)用于醫(yī)院信息系統(tǒng)及中醫(yī)藥大數(shù)據(jù)中心與云平臺領(lǐng)域。

        參考文獻(xiàn)(References):

        [1] 王群.我國醫(yī)療信息化現(xiàn)狀與趨勢分析研究[C]. SingaporeManagement and Sports Science Institute, Singapore、Information Technology Application Research Association, Hong Kong.Proceedings of 2017 2nd International Conference on Education Research and Reform (ERR 2017) V20.Singapore Management and Sports Science Institute, Singapore、Information Technology Application Research Association,Hong Kong:智能信息技術(shù)應(yīng)用學(xué)會,2017:268-272

        [2] 孟巖,羅德芳.基于臨床知識庫的電子病歷智能化應(yīng)用研究[J].中國衛(wèi)生信息管理雜志,2019.16(5):601-604

        [3] Gao J,Xu G,Xu J.Query expansion using path-constrainedrandom walks[C] //Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:563-572

        [4] Chang YC, Chen SM. A new query reweighting methodfor document retrieval based on genetic algorithms[J].IEEE Transactions on Evolutionary Computation,2006.10(5):617-622

        [5] Cui H, Sun R, Li K, et al. Question answering passageretrieval using dependency relations[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. ACM,2005:400-407

        [6] 付鵬斌,陳帥帥,楊惠榮,李建君.結(jié)合依存關(guān)系與同義詞詞林的相似度計(jì)算[J/OL].計(jì)算機(jī)技術(shù)與發(fā)展,2020.1:1-8[2020-01-31].http://kns.cnki.net/kcms/detail/61.1450.TP.20190925.1523.042.html.

        [7] 曾紅武,彭麗.基于本體的電子病歷后結(jié)構(gòu)化模型關(guān)鍵技術(shù)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2017.26(8):13-16

        [8] 鞏沐歌. 基于本體的高血壓電子病歷知識庫研究[D].西安電子科技大學(xué),2010.

        [9] Yaghoobzadeh Y, Schütze, Hinrich. Multi-level Repre-sentations for Fine-Grained Typing of Knowledge Base Entities[J]. 2017

        [10] Eisner, Jason. Three New Probabilistic Models forDependency Parsing: An Exploration[J]. Computer Science,1997:340-345

        [11] Kumaran G , Carvalho V R . Reducing Long QueriesUsing Query Quality Predictors[C]// Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2009, Boston, MA, USA, July 19-23, 2009. ACM,2009.

        猜你喜歡
        病歷本體檢索
        Abstracts and Key Words
        強(qiáng)迫癥病歷簿
        趣味(語文)(2021年9期)2022-01-18 05:52:42
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        “大數(shù)的認(rèn)識”的診斷病歷
        2019年第4-6期便捷檢索目錄
        為何要公開全部病歷?
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        村醫(yī)未寫病歷,誰之過?
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        尤物在线精品视频| 最新国内视频免费自拍一区| 国产激情综合五月久久| 久久精品中文字幕| 国产福利酱国产一区二区| 亚洲成a∨人片在线观看无码 | 亚洲国色天香卡2卡3卡4| 久久永久免费视频| 日韩av不卡一二三区| 日本一区二区三区人妻| 又大又粗又爽18禁免费看| 欧美激情在线不卡视频网站| 精品亚洲一区二区视频| 国产av一区二区三区在线播放 | 日韩av一区二区网址| 亚洲国产精品第一区二区| 欧美国产日本精品一区二区三区| 国产一区二区av在线观看| 成年女人免费v片| 18成人片黄网站www| 91精品91久久久久久| 国产一级黄色片在线播放| 最新日本一道免费一区二区 | 99久久综合国产精品免费| 白嫩少妇高潮喷水av| 亚洲成aⅴ人片久青草影院 | 久久亚洲精品一区二区三区| 97精品人人妻人人| 97人妻熟女成人免费视频| 国产精品国产三级国产an| 日韩人妻中文字幕专区| 天干天干天啪啪夜爽爽av| 国产精品高清视亚洲乱码有限公司| 国产剧情亚洲一区二区三区| 国产av天堂亚洲国产av天堂| 乱码一二三入区口| 日本一区二区三区专区| 日韩av精品视频在线观看| 久久精品人人做人人爽| 无码专区亚洲avl| 亚洲av熟女一区二区三区站|