亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于規(guī)則的臨床病歷感染癥狀的檢測

        2013-08-15 00:54:11王錦
        科技視界 2013年10期
        關(guān)鍵詞:術(shù)語短語規(guī)則

        王錦

        (安徽電子信息職業(yè)技術(shù)學(xué)院,安徽 蚌埠233030)

        0 引言

        大多數(shù)病歷中的臨床信息存儲(chǔ)在自由文本中。然而,以這種方式存儲(chǔ)信息很難在決策支持系統(tǒng)或自動(dòng)監(jiān)護(hù)系統(tǒng)中應(yīng)用。提取計(jì)算機(jī)可讀信息的方式各不相同,許多系統(tǒng)采用字符串匹配的方法提取需要突出的數(shù)據(jù)元素。這種方法非常直接,但這種方法忽略強(qiáng)有力的同義詞和否定詞概念。更高級(jí)的自然語言處理系統(tǒng)已經(jīng)開發(fā)出來,這些系統(tǒng)能夠得到不同程度的成功取決于臨床領(lǐng)域的范圍和所需數(shù)據(jù)的顆粒度。

        臨床癥狀和體征是任何病歷文本中的關(guān)鍵部分,包含與疾病表現(xiàn)形式和藥物治療相關(guān)的信息。從自由文本的癥狀和體征信息中獲取信息是復(fù)雜的,有若干影響因素。這些數(shù)據(jù)在以雙字符串匹配及其概念為基礎(chǔ)的繪圖軟件中經(jīng)常被記錄縮寫詞。審查系統(tǒng)信息中,以簡寫的形式記錄癥狀是普遍存在的。因?yàn)檫@些信息是必要的。此外,這些信息在不同部分的重復(fù)敘述,都有不同的解釋?;蛟S最重要的是頻繁地使用否定詞的臨床癥狀(術(shù)語)。當(dāng)癥狀信息在文本中出現(xiàn)而報(bào)告中不存在時(shí)就可能導(dǎo)致假陽性檢測。

        我們?cè)O(shè)法進(jìn)行以規(guī)則為基礎(chǔ)的算法性能評(píng)估,使用自然語言處理系統(tǒng)作為輸出端,提取一組表現(xiàn)為非特異性的研究結(jié)果的感染性綜合征。這種類型的評(píng)估在急診和初級(jí)衛(wèi)生保健的文檔中尚未完成。此外,我們得出確定、否定或不確定的癥狀,因?yàn)檫@樣的調(diào)查結(jié)果與經(jīng)常使用的否定詞相關(guān)聯(lián)。

        1 方法

        1.1 研究設(shè)置及數(shù)據(jù)源

        采用一個(gè)全國性的電子健康檔案(EHR),提取了大約33000名患者的臨床醫(yī)療記錄,這些患者均是從1999年9月30日至2012年9月30號(hào)在6個(gè)醫(yī)療中心手術(shù)住院的。所有由急診科(ED)、緊急護(hù)理診所(UC)、或一個(gè)初級(jí)保健診所(PCC)抽取的醫(yī)療文檔由醫(yī)師剔除地方和國家的文件標(biāo)題。文檔的標(biāo)題沒有完全符合邏輯觀察的標(biāo)示符名稱和代碼(LOINC)規(guī)定的情況下,從該類別中的幾個(gè)具有代表性的標(biāo)題中手工檢查以確定該類編的資格。然后我們產(chǎn)生不同的訓(xùn)練和測試數(shù)據(jù)集。從數(shù)據(jù)集中采用隨機(jī)分層方式分別抽取ED、UC、PCC的臨床就診記錄20個(gè)共60個(gè)創(chuàng)建一個(gè)訓(xùn)練集。以同樣的方式額外不重復(fù)從數(shù)據(jù)集中分別抽取ED、UC、PCC各148個(gè)共444個(gè)文檔創(chuàng)建一個(gè)測試集。

        1.2 多線程臨床詞匯服務(wù)器

        自然語言處理系統(tǒng)在這次評(píng)價(jià)中已經(jīng)使用很長的一段時(shí)間,并在使用詞匯術(shù)語和術(shù)語之間臨床層次關(guān)系的醫(yī)學(xué)概念上建立索引。在UMLS、HL7、中的術(shù)語結(jié)構(gòu)超過140萬個(gè)字符串,包括縮寫詞、詞匯、同義詞、修飾詞和限定詞。該系統(tǒng)還具有一個(gè)拼寫檢查和修正功能。(MCVS)評(píng)估敘述性文本,以從候選詞中選取最終的概念和主張。這些候選詞根據(jù)每個(gè)字或詞的值的詞義提供的覆蓋范圍和它們?cè)谂R床術(shù)語之間的關(guān)系選取。

        1.3 規(guī)則的演變

        每個(gè)癥狀的檢測規(guī)則演變了三個(gè)迭代。迭代應(yīng)用在訓(xùn)練集文檔,并使用關(guān)鍵詞和概念匹配。精確匹配的字符串在NLP系統(tǒng)中定義成術(shù)語,并定義為關(guān)鍵字。這些規(guī)則可以表示為非展開概念的任何組合,這些概念包括它們的孩子,和(或)關(guān)鍵字匹配法。當(dāng)關(guān)鍵字匹配法包含多個(gè)單詞時(shí),一個(gè)成功的匹配被定義為找出在同一個(gè)句子的跨越兩個(gè)短語以任何順序排列的所有分量的詞。此外,規(guī)則中有被推翻的術(shù)語。這意味著有的否定癥狀術(shù)語當(dāng)作一個(gè)確定的術(shù)語。例如,確定術(shù)語 “無黃疸”和否定術(shù)語“黃疸之間”,“非腹脹”與“腹脹”。因?yàn)槲覀儾荒芨淖僋LP系統(tǒng)的代碼,所以我們無法進(jìn)行迭代改善否定詞的性能。NLP系統(tǒng)分配關(guān)鍵詞和概念的描述。萬一關(guān)鍵詞和概念規(guī)則分量存在描述分歧,概念規(guī)則通常要判斷。

        1.4 數(shù)據(jù)分析

        為了衡量癥狀檢測規(guī)則的性能,我們?cè)谟?xùn)練集中規(guī)則迭代完成后在測試集評(píng)價(jià)規(guī)則的性能。分析單位是短語。在每個(gè)短語中,每個(gè)癥狀可能存在一個(gè)單一的時(shí)間上。一個(gè)癥狀匹配算法在人工審核和以規(guī)則為基礎(chǔ)的自動(dòng)算法中對(duì)一個(gè)癥狀短語(不管描述)的判定是相符的。癥狀匹配法的描述是手動(dòng)審核和自動(dòng)化算法的協(xié)議。

        以規(guī)則為基礎(chǔ)的自動(dòng)化算法從查全率、精確度及F值進(jìn)行評(píng)估,分別用測試集中的結(jié)果真陽性(TP)、假陽性(FP)及假陰性(FN)表示。對(duì)于每個(gè)癥狀,假陽性是由系統(tǒng)查找,沒有通過手動(dòng)標(biāo)注器,而假陰性是通過手動(dòng)標(biāo)注器發(fā)現(xiàn)的。

        2 結(jié)果

        該系統(tǒng)一共分析了12224條句子,這些句子均來自444個(gè)文檔。這些句子分解成28040個(gè)短語,以便將它們映射到SNOMED-CT的概念和關(guān)鍵字中以及檢測概念和關(guān)鍵字描述。這使得90673條短語被映射成概念,其余36410條短語沒有被映射,保留作為關(guān)鍵字。

        一共有2679條癥狀短語在人工評(píng)審和第三方評(píng)審的測試中檢測到。呼吸急促癥狀出現(xiàn)3次,水腫出現(xiàn)343次,可以作為表2中真陽性和假陰性結(jié)果數(shù)的總和。在這些癥狀短語中,976個(gè)癥狀短語(36.4%)為確定性描述,1542個(gè)癥狀短語(57.6%)否定性描述,161個(gè)癥狀短語(6.0%)不確定性描述。有917個(gè)癥狀短語有歧義,913個(gè)癥狀短語由單獨(dú)評(píng)審發(fā)現(xiàn)。有91個(gè)歧義描述由兩個(gè)主要評(píng)審中發(fā)現(xiàn)。所有手工評(píng)審的F度量的平均值為0.805。在第三次評(píng)審判別歧義癥狀短語后,734個(gè)癥狀短語(80%)被評(píng)審人證實(shí)是正確的,183個(gè)癥狀短語是不存在的,6個(gè)屬于不同癥狀的。

        通過以規(guī)則為基礎(chǔ)的自動(dòng)化檢測算法,在測試集中一共檢測出2451個(gè)結(jié)果,分別有2236個(gè)真陽性結(jié)果和215個(gè)假陽性結(jié)果。表2中癥狀的真陽性和假陽性之和可以確定癥狀的出現(xiàn)。1223個(gè)癥狀(49.9%)為確定性描述,1215個(gè)癥狀(49.6%)為否定性描述,13個(gè)癥狀(0.5%)為不確定性描述。

        相比于手工評(píng)審集,自動(dòng)化癥狀檢測算法的整體性能的測量精度為0.91,查全率為0.84,F(xiàn)值為0.87((TP=2236,FP=215,FN=443)。9個(gè)不同變化頻率的癥狀重,黃疸的變化范圍為0.35~1.00?;叵胍幌聫?.30~1.00變化范圍的癥狀(黃疸、打噴嚏和厭食),這些癥狀都是比較特殊的。

        相比于手工評(píng)審集,癥狀檢測算法的整體性能測量精度為0.67,查全率為0.62,F(xiàn)值為0.64(TP=1654,F(xiàn)P=807,F(xiàn)N=1035)。例如,腹脹,19(6+13)情況下被自然語言處理系統(tǒng)發(fā)現(xiàn),并沒有被手工評(píng)審發(fā)現(xiàn)。另外,有NLP系統(tǒng)和手工評(píng)審均通過的34個(gè)癥狀中,NLP系統(tǒng)認(rèn)為是確定性描述,手工評(píng)審認(rèn)為是否定性描述。請(qǐng)注意,由于對(duì)于一個(gè)癥狀的描述,計(jì)算單個(gè)多級(jí)別精度和查全率的測量值是不平衡的算法,所以某些應(yīng)變矩陣的元素的FP和FN應(yīng)計(jì)算多次。表4描述的是每個(gè)癥狀規(guī)則的癥狀檢測描述性能測量值(準(zhǔn)確率、查全率和F值)。該系統(tǒng)正確檢測出84.7%(646/762)的確定性描述、75.1%(1001/1333)的否定描述,和0.7%(1/141)的不確定性描述。

        3 結(jié)論

        總體而言,包含關(guān)鍵字和術(shù)語的檢測規(guī)則的自動(dòng)化算法在臨床記錄中的感染癥狀檢測中的表現(xiàn)非常出色。癥狀檢測算法的表現(xiàn)好壞取決于臨床記錄中不確定性和否定性癥狀的比例。該系統(tǒng)能很好地協(xié)助檢測敘述性文檔的各種臨床癥狀以支持實(shí)時(shí)臨床決策和公共健康活動(dòng)。今后的工作將是系統(tǒng)開發(fā)和以規(guī)則為基礎(chǔ)的癥狀檢測和描述確定算法的改進(jìn)。

        [1]王燦輝,張敏,馬少平.自然語言處理在信息檢索中的應(yīng)用綜述[J].中文信息學(xué)報(bào),2007,21(2):35-45.

        [2]李毅,保鵬飛,薛萬國.中文電子病歷的信息抽取研究[J].生物醫(yī)學(xué)工程學(xué)雜志, 2010,27(4):757-762.

        猜你喜歡
        術(shù)語短語規(guī)則
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對(duì)我國的啟示
        有感于幾個(gè)術(shù)語的定名與應(yīng)用
        從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
        奧運(yùn)術(shù)語
        籃球術(shù)語及游泳術(shù)語
        色哟哟精品中文字幕乱码| 欧美巨大性爽| 久久精品无码一区二区乱片子| 人妻丝袜中文字幕久久| 久久精品中文字幕有码| 日韩人妻ol丝袜av一二区| 一本色道av久久精品+网站 | 三级特黄60分钟在线观看| 97人妻视频妓女网| 性视频毛茸茸女性一区二区| 国产毛女同一区二区三区| 中文字幕肉感巨大的乳专区| 丝袜国产高跟亚洲精品91| 天堂av一区一区一区| 中国国产不卡视频在线观看| 少妇饥渴偷公乱a级无码| 樱花AV在线无码| 一区二区三区观看在线视频| 五月色婷婷丁香无码三级| 波多野结衣乳巨码无在线| 日韩一二三四精品免费| 男男做h嗯啊高潮涩涩| 无码中文字幕日韩专区| 亚洲日本va午夜在线影院| 国产真实老熟女无套内射| 免费一本色道久久一区| 91亚洲精品久久久中文字幕| 亚洲日韩成人无码| 亚洲国产综合精品 在线 一区| 欧美一级视频在线| 人妻少妇艳情视频中文字幕| 国产午夜精品一区二区| 伊人22综合| 久久久人妻丰满熟妇av蜜臀| 午夜精品久久久久久久久| 亚洲学生妹高清av| 国产精品不卡无码AV在线播放 | 性一交一乱一伦一视频一二三区| 国产一级做a爱视频在线| 日本一级二级三级不卡| 久久久www免费人成精品|