亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        醫(yī)療健康知識(shí)挖掘中的語義資源、數(shù)據(jù)集和工具

        2022-05-10 00:02:08張展鵬張明淘
        關(guān)鍵詞:語義文本資源

        張 偉,張展鵬,張明淘,韓 普

        (南京郵電大學(xué) 管理學(xué)院,江蘇 南京 210003)

        0 引 言

        大數(shù)據(jù)時(shí)代,電子病歷、醫(yī)學(xué)文獻(xiàn)以及社會(huì)化媒體中的醫(yī)療健康數(shù)據(jù)呈現(xiàn)出了爆發(fā)式增長,這些數(shù)據(jù)蘊(yùn)含著寶貴的醫(yī)療健康知識(shí)。近些年,如何利用文本挖掘和自然語言處理技術(shù)從各類醫(yī)療健康大數(shù)據(jù)中獲取醫(yī)療健康知識(shí)受到了學(xué)界的極大關(guān)注。與以往研究不同的是,醫(yī)療健康數(shù)據(jù)的多源異構(gòu)性、復(fù)雜性和海量性以及臨床和用戶的信息需求給傳統(tǒng)的數(shù)據(jù)分析和處理帶來了巨大挑戰(zhàn)。隨著大數(shù)據(jù)和人工智能技術(shù)的迅速發(fā)展以及相關(guān)應(yīng)用的日趨成熟,醫(yī)療健康領(lǐng)域的知識(shí)挖掘迫切需要新的突破。目前,計(jì)算資源不再是限制人工智能發(fā)展的最大障礙,而各類語義資源和標(biāo)注數(shù)據(jù)的稀缺已經(jīng)成為影響醫(yī)療健康信息抽取和知識(shí)發(fā)現(xiàn)的最大障礙[1]。

        隨著大數(shù)據(jù)和人工智能時(shí)代的來臨,電子病歷、醫(yī)療健康問答社區(qū)以及醫(yī)學(xué)文獻(xiàn)等非結(jié)構(gòu)化數(shù)據(jù)逐漸成為人們獲取醫(yī)療健康知識(shí)的重要來源。在分詞階段,由于醫(yī)學(xué)詞語構(gòu)成復(fù)雜、專業(yè)性強(qiáng),通用分詞工具表現(xiàn)不佳,而加入詞典后可取得更好的效果[2]。在醫(yī)療實(shí)體識(shí)別研究中,機(jī)器學(xué)習(xí)是目前最為主流的方法,但加入詞典可進(jìn)一步提升識(shí)別的準(zhǔn)確率。不僅如此,詞典優(yōu)勢還在于所匹配的實(shí)體直接對(duì)應(yīng)著標(biāo)準(zhǔn)概念,準(zhǔn)確率非常高,也不需要實(shí)體歸一化等后續(xù)處理步驟[3]。

        人工智能時(shí)代下,深度學(xué)習(xí)所面臨的挑戰(zhàn)之一是大規(guī)模訓(xùn)練數(shù)據(jù)標(biāo)注。和傳統(tǒng)方法相比,雖然采用深度學(xué)習(xí)等機(jī)器學(xué)習(xí)方法可以提升信息抽取和知識(shí)挖掘的效果,但需要依賴人工標(biāo)注數(shù)據(jù)以生成訓(xùn)練模型。2006年起,I2B2等學(xué)術(shù)機(jī)構(gòu)發(fā)起了一系列醫(yī)學(xué)概念抽取及概念關(guān)系評(píng)測的會(huì)議。國內(nèi)不少學(xué)者在醫(yī)療實(shí)體識(shí)別以及實(shí)體關(guān)系計(jì)算研究中常采用I2B2發(fā)布的數(shù)據(jù)進(jìn)行模型對(duì)照實(shí)驗(yàn)[4],也有學(xué)者基于研究需要,自行標(biāo)注所需語料[3,5]。不同于一般的數(shù)據(jù)標(biāo)注任務(wù),醫(yī)療健康文本中的實(shí)體、實(shí)體關(guān)系以及各類語義關(guān)系標(biāo)注需要具有醫(yī)學(xué)背景人員的深入?yún)⑴c[6]。

        從已有研究來看,國內(nèi)外在醫(yī)療健康語義資源建設(shè)和數(shù)據(jù)標(biāo)注方面取得了不少成果,尤其是在英文領(lǐng)域,已經(jīng)具備了非常豐富的醫(yī)學(xué)資源、數(shù)據(jù)集、相關(guān)系統(tǒng)和工具。和國外相比,國內(nèi)這部分研究還存在非常大的提升空間。該文通過系統(tǒng)梳理國內(nèi)外各類醫(yī)療健康語義資源、標(biāo)注數(shù)據(jù)以及相關(guān)系統(tǒng)和工具,以期為國內(nèi)醫(yī)療健康信息抽取和知識(shí)挖掘提供借鑒和思考。

        1 醫(yī)學(xué)詞典和語義資源

        在醫(yī)療健康知識(shí)挖掘研究中,醫(yī)學(xué)詞典和語義資源在不同任務(wù)中發(fā)揮著重要作用,本節(jié)將系統(tǒng)梳理這些醫(yī)學(xué)資源的背景及其適用場景。

        1.1 UMLS

        UMLS(Unified Medical Language System)是美國國家醫(yī)學(xué)圖書館1986年開始研發(fā)的一體化醫(yī)學(xué)語言系統(tǒng)[7-8],是目前醫(yī)學(xué)領(lǐng)域最大的醫(yī)學(xué)本體[9]。在UMLS中,每個(gè)概念都有一個(gè)唯一標(biāo)識(shí)符CUIs。ICD和SNOMED-CT實(shí)際上也是UMLS的子集[9-10]。在醫(yī)療健康文本挖掘研究中,UMLS是常用的語義資源,通常的任務(wù)如疾病名稱識(shí)別[11-12]、醫(yī)療實(shí)體歸一化[13]、語義關(guān)系計(jì)算[14]以及醫(yī)學(xué)問答系統(tǒng)[15]等均需要UMLS資源。

        1.2 MeSH

        醫(yī)學(xué)主題詞表(Medical Subject Headings,MeSH)是由美國國家醫(yī)學(xué)圖書館編制的醫(yī)學(xué)領(lǐng)域主題詞表,該詞表為醫(yī)學(xué)文獻(xiàn)關(guān)鍵詞選取提供了參考標(biāo)準(zhǔn),對(duì)提升醫(yī)學(xué)文獻(xiàn)檢索的準(zhǔn)確率和效率具有重要作用[16-17]。在醫(yī)學(xué)文獻(xiàn)的文本挖掘中,該詞表往往和機(jī)器學(xué)習(xí)方法一起使用,以提高實(shí)體識(shí)別效果[12]。在實(shí)體歸一化中,MeSH通常作為標(biāo)準(zhǔn)概念使用[18-19]。由于MeSH主要應(yīng)用于醫(yī)學(xué)文獻(xiàn)主題詞,因此在面向醫(yī)學(xué)文獻(xiàn)(如PubMed和NCBI疾病語料庫)的實(shí)體識(shí)別、術(shù)語映射等研究中,通常會(huì)選用MeSH[18,20]作為標(biāo)準(zhǔn)語義資源。

        1.3 SNOMED CT

        SNOMED CT最早由美國病理學(xué)家協(xié)會(huì)于1986年開始建設(shè),目前由國際醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化與研發(fā)組織維護(hù)和更新。該詞典是世界上較為全面,也是最大的多語種綜合性臨床術(shù)語集,并且還是臨床術(shù)語的國際標(biāo)準(zhǔn)。美國電子健康檔案規(guī)定記錄問題清單、程序和一些臨床發(fā)現(xiàn)要使用SNOMED CT術(shù)語;英國國家醫(yī)療服務(wù)體系要求在2020年4月1日之前,在所有電子病歷的文字記錄中以及與病人交流時(shí)必須使用SNOMED CT標(biāo)準(zhǔn)術(shù)語[21]。

        醫(yī)療健康文本挖掘研究中,首先需要實(shí)體識(shí)別或概念抽取,接著通過歸一化將這些實(shí)體或概念映射到SNOMED CT等標(biāo)準(zhǔn)的臨床醫(yī)學(xué)詞典上[13,22]。在2013年的ShARe/CLEF eHealth任務(wù)1中,組織方要求參賽團(tuán)隊(duì)識(shí)別臨床文本中精神障礙方面的問題,并將其歸一化為SNOMED-CT認(rèn)知障礙語義組中的標(biāo)準(zhǔn)概念[23]。值得注意的是,2009年后,SNOMED CT 開始采用OWL語言以增加在語義網(wǎng)方面的應(yīng)用,這大大推進(jìn)了SNOMED CT在醫(yī)療健康文本挖掘和自然語言處理中的應(yīng)用。

        1.4 MEDIC

        MEDIC疾病詞典合并了MeSH中的疾病部分以及在線人類孟德爾遺傳術(shù)語庫OMIM。MeSH和OMIM均是包含疾病概念的醫(yī)學(xué)語義資源,合并后的MEDIC詞典在疾病概念的廣度和深度上優(yōu)勢非常明顯,包含約9 700個(gè)疾病名稱和67 000個(gè)同義詞[17]。該詞典提供疾病名稱、概念標(biāo)識(shí)碼、定義、上級(jí)節(jié)點(diǎn)及同義詞,目前是英文領(lǐng)域最為常用的疾病詞典。在醫(yī)學(xué)健康文本挖掘和自然語言處理中,MEDIC通常用于疾病識(shí)別和疾病名稱歸一化等研究[17-18,24]。

        1.5 ICD

        ICD是由世界衛(wèi)生組織制定的國際統(tǒng)一國際疾病分類。在臨床應(yīng)用中,由于ICD手工編碼不僅耗時(shí)耗力并且容易出錯(cuò),Mullenbach等[25]利用卷積神經(jīng)網(wǎng)絡(luò)模型根據(jù)臨床文本內(nèi)容來預(yù)測ICD編碼。

        1.6 RxNorm

        RxNorm是由美國國家醫(yī)學(xué)圖書館編制的臨床藥物術(shù)語標(biāo)準(zhǔn)詞典,它為藥物名稱以及不同系統(tǒng)之間藥物術(shù)語互通和共享提供了標(biāo)準(zhǔn)[26],同時(shí)也是美國政府指定的臨床醫(yī)學(xué)信息交換系統(tǒng)標(biāo)準(zhǔn)。2002年,RxNorm通過UMLS發(fā)布第一版,2008年后該資源每月都會(huì)更新以滿足美國不斷出現(xiàn)的藥物名稱。

        可以發(fā)現(xiàn),英文領(lǐng)域的醫(yī)學(xué)詞典和語義資源非常豐富,除了UMLS這一超級(jí)詞表外,還有不少是針對(duì)領(lǐng)域的詞典。值得注意的是,SNOMED CT和 RxNorm詞典均被整合到UMLS中,這些資源之間通過公共接口進(jìn)行連通[21]。盡管如此,這些資源仍然保持自身特定的概念模型和特色,而相互之間的數(shù)據(jù)共享和整合進(jìn)一步提升了資源的覆蓋面和影響力。

        1.7 中文醫(yī)學(xué)語義資源

        和英文資源相比,中文醫(yī)學(xué)詞典和語義資源非常稀缺,這給中文醫(yī)療健康文本挖掘帶來了非常不利的影響。目前主要有SNOMED-CT中文版、ICD中文版、《中華人民共和國藥典》以及其他在線詞典。2018年,國家衛(wèi)健委組織中華醫(yī)學(xué)會(huì)以及國內(nèi)醫(yī)療機(jī)構(gòu)對(duì)ICD 11進(jìn)行了編譯,形成了ICD 11中文版。在疾病名稱標(biāo)準(zhǔn)化研究中,尹帥龍和夏晨曦[27]利用詞向量將口語化疾病名稱映射到ICD 11中文版的疾病術(shù)語集。另外,國家衛(wèi)健委明確要求在醫(yī)療病案書寫中要采用ICD的疾病名稱和代碼,這不僅有助于構(gòu)建中文的醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)體系,同時(shí)也為臨床疾病名稱提供了統(tǒng)一標(biāo)準(zhǔn)。

        在中文電子病歷的信息抽取研究中,Xu等[28]將SNOMED-CT中文版、ICD中文版、《中華人民共和國藥典》、萬方醫(yī)學(xué)術(shù)語以及搜狗醫(yī)學(xué)術(shù)語整合在一起,構(gòu)建了中文核心醫(yī)學(xué)詞典,實(shí)驗(yàn)中通過詞典遍歷進(jìn)行術(shù)語識(shí)別。在醫(yī)療實(shí)體識(shí)別研究中,Li 等[29]將ICD和搜狗網(wǎng)站提供的醫(yī)學(xué)術(shù)語作為醫(yī)學(xué)詞典。在藥物不良反應(yīng)文本的醫(yī)療實(shí)體識(shí)別研究中,Chen等[30]使用了ICD中文版、中國醫(yī)療保險(xiǎn)藥物術(shù)語以及搜狗醫(yī)學(xué)詞典。Xu等[31]利用SNOMED-CT中文版和搜狗醫(yī)學(xué)詞典用于提升在線文本的實(shí)體識(shí)別效果。和英文相比,在文本預(yù)處理過程中,中文需要分詞,Zhang等[32]在分詞過程中加入了搜狗醫(yī)學(xué)詞典以提高準(zhǔn)確率。相比而言,在線醫(yī)學(xué)術(shù)語影響力要弱一些。由于缺少權(quán)威的詞典,學(xué)者往往將多個(gè)詞典整合起來使用,但涉及到醫(yī)學(xué)概念關(guān)系、醫(yī)學(xué)本體、醫(yī)學(xué)知識(shí)圖譜的語義資源還非常稀缺。盡管國內(nèi)近些年出現(xiàn)不少在線醫(yī)學(xué)詞典,但這些資源的權(quán)威性、系統(tǒng)性、覆蓋面和深度都沒有保障。

        2 醫(yī)療健康文本數(shù)據(jù)集

        大規(guī)模文本標(biāo)注數(shù)據(jù)是機(jī)器學(xué)習(xí)方法中用以生成訓(xùn)練模型的重要驅(qū)動(dòng),在醫(yī)療健康文本挖掘和自然語言處理中扮演著非常重要的角色。本節(jié)主要對(duì)國內(nèi)外一些公開的,在醫(yī)療健康文本的信息抽取和知識(shí)挖掘研究中常用的數(shù)據(jù)集進(jìn)行梳理。

        2.1 英文電子病歷數(shù)據(jù)集

        自2006年起,美國國立衛(wèi)生研究院下的I2B2中心先后組織了多次基于電子病歷的醫(yī)學(xué)概念識(shí)別和概念關(guān)系抽取測評(píng)。目前在臨床文本的信息抽取和知識(shí)挖掘研究中,常用的是I2B2/VA 2010電子病歷數(shù)據(jù)集[4,14,30]。該數(shù)據(jù)集包含871份出院小結(jié),20 000個(gè)句子[33]。臨床文本信息抽取中另一常用數(shù)據(jù)是I2B2 2012年的電子病歷數(shù)據(jù)集[34],組織方對(duì)310篇出院小結(jié)的時(shí)態(tài)信息進(jìn)行了人工標(biāo)注。

        利用I2B2/VA 2010數(shù)據(jù)集,在臨床文本的實(shí)體識(shí)別研究中,Qin和Zeng[4]對(duì)醫(yī)學(xué)問題、治療和檢查實(shí)體進(jìn)行了實(shí)驗(yàn)研究;在醫(yī)療實(shí)體關(guān)系計(jì)算中,文獻(xiàn)[35-36]采用深度學(xué)習(xí)等方法對(duì)語義關(guān)系進(jìn)行了自動(dòng)抽取研究。在英文電子病歷的文本挖掘和信息抽取研究中,I2B2公開的評(píng)測數(shù)據(jù)集最為常用。

        2.2 英文醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)集

        (1)亞利桑那疾病文獻(xiàn)數(shù)據(jù)集。

        I2B2數(shù)據(jù)集標(biāo)注的是臨床文本,而亞利桑那疾病數(shù)據(jù)集(ADZC)標(biāo)注的是醫(yī)學(xué)文獻(xiàn)摘要。ADZC是亞利桑那州立大學(xué)2009年發(fā)布的醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)集[37]。針對(duì)生物醫(yī)學(xué)研究中文本挖掘和機(jī)器學(xué)習(xí)的迫切需求,Leaman等[37]通過人工方法標(biāo)注了PubMed論文摘要中的疾病概念、疾病概念在UMLS中的CUIs,并且建立了與標(biāo)準(zhǔn)語義詞典的語義關(guān)聯(lián)關(guān)系。在疾病名稱歸一化研究中,Kang等[38]將ADZC作為實(shí)驗(yàn)的黃金語料。

        (2)NCBI醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)集。

        2.3 英文在線醫(yī)療健康標(biāo)注數(shù)據(jù)集

        隨著互聯(lián)網(wǎng)在人們生活中的進(jìn)一步滲透,問答社區(qū)、微博、微信等在線平臺(tái)已經(jīng)成為人們獲取、分享和傳播醫(yī)療健康信息的重要渠道,在線醫(yī)療健康數(shù)據(jù)常用來分析患者需求[42]、研究用戶行為[43]、預(yù)測流行病[44]、檢測藥物不良反應(yīng)[24]等。

        針對(duì)在線醫(yī)療健康文本中藥物不良反應(yīng)研究的迫切需求和資源稀缺性,澳大利亞研究組織CSIRO構(gòu)建了CADEC語料庫。該語料庫原始數(shù)據(jù)來自于AskaPatient,是目前為數(shù)不多的可以公開獲取的在線醫(yī)療健康數(shù)據(jù)集。利用CADEC,Tutubalina等[24]采用多個(gè)深度學(xué)習(xí)模型進(jìn)行了實(shí)體歸一化對(duì)比實(shí)驗(yàn);Liu等[45]對(duì)其中的藥物不良反應(yīng)事件進(jìn)行了抽取研究。另外,CADEC的所有實(shí)體由臨床術(shù)語專家將其映射到SNOMED CT和MedDRA等醫(yī)學(xué)詞典,這為使用該語料進(jìn)行實(shí)體歸一化、詞義消歧等提供了統(tǒng)一的訓(xùn)練集和檢驗(yàn)集,具有較高的學(xué)術(shù)應(yīng)用價(jià)值。

        Limsopatham等[46]為了驗(yàn)證社會(huì)化媒體中不同語體的醫(yī)療實(shí)體歸一化效果,使用了TwADR-S、TwADR-L和AskAPatient三個(gè)數(shù)據(jù)集。TwADR-S和TwADR-L的原始數(shù)據(jù)來自Twitter,AskAPatient原始數(shù)據(jù)來自于AskAPatient醫(yī)療健康論壇,所有數(shù)據(jù)均進(jìn)行了人工標(biāo)注。在語義上,將醫(yī)學(xué)短語處理后映射到SNOMED-CT標(biāo)準(zhǔn)術(shù)語詞典。

        2.4 中文電子病歷數(shù)據(jù)集

        電子病歷被認(rèn)為是最能為臨床決策提供支持的數(shù)據(jù)源之一。參照英文電子病歷數(shù)據(jù)標(biāo)注工作,國內(nèi)學(xué)者近些年開始著手中文電子病歷的標(biāo)注和相關(guān)研究[6,47]。哈爾濱工業(yè)大學(xué)關(guān)毅研究團(tuán)隊(duì)參照I2B2 2010標(biāo)注規(guī)范,將醫(yī)療實(shí)體劃分為疾病、自訴癥狀、異常檢查結(jié)果、檢查、治療和疾病診斷六類[6],共標(biāo)注了992篇電子病歷的出院小結(jié)部分。該數(shù)據(jù)集包含了39 511個(gè)醫(yī)療實(shí)體,7 693條語義關(guān)系[48]?;谠摂?shù)據(jù)集,關(guān)毅研究團(tuán)隊(duì)在智能診斷[49]及醫(yī)療知識(shí)發(fā)現(xiàn)方面[50]做了大量的實(shí)驗(yàn)和探索。

        針對(duì)中文電子病歷中醫(yī)療實(shí)體識(shí)別的問題,中文信息學(xué)會(huì)-語言與知識(shí)計(jì)算專家委員會(huì)連續(xù)三年在全國知識(shí)圖譜與語義計(jì)算大會(huì)(CCKS)為電子病歷的醫(yī)療實(shí)體識(shí)別設(shè)定評(píng)測任務(wù),其方式和流程與I2B2測評(píng)類似。參照I2B2在I2B2/VA 2010的標(biāo)注規(guī)范,北京大學(xué)Lei等[47]標(biāo)注了中文電子病歷中入院記錄和出院小結(jié)部分。雖然國內(nèi)學(xué)者標(biāo)注了不少臨床文本,但目前并沒有完整、公開共享的電子病歷數(shù)據(jù)集,不少學(xué)者[5,51-52]在開展臨床文本的信息抽取研究中,仍然需要投入大量時(shí)間和精力進(jìn)行數(shù)據(jù)標(biāo)注。

        2.5 中文在線醫(yī)療健康數(shù)據(jù)集

        近些年,針對(duì)不斷涌現(xiàn)的在線醫(yī)療健康社區(qū),國內(nèi)學(xué)者開展了不少前沿性的探索研究。為了識(shí)別在線醫(yī)療健康文本中的醫(yī)療實(shí)體,蘇婭等[53]獲取了“好大夫在線”的問答數(shù)據(jù),并由人工標(biāo)注了1 000個(gè)問答帖子中五類實(shí)體。類似地,Liu等[54]爬取了中文醫(yī)療問答網(wǎng)站的問答數(shù)據(jù),從中選取了1 500個(gè)帖子作為訓(xùn)練集和檢驗(yàn)集。Xu等[31]從三個(gè)醫(yī)療健康問答網(wǎng)站中獲取了5 000份問答記錄,在未標(biāo)記語料的情況下對(duì)在線文本的醫(yī)療實(shí)體識(shí)別和鏈接進(jìn)行了研究。由于缺少開放共享的醫(yī)療健康在線標(biāo)注數(shù)據(jù),國內(nèi)學(xué)者往往根據(jù)研究需要自行標(biāo)注,并且鮮有文獻(xiàn)詳細(xì)說明其標(biāo)注的規(guī)范和流程。

        3 醫(yī)療健康文本處理工具和系統(tǒng)

        3.1 MetaMap

        MetaMap是由美國醫(yī)學(xué)圖書館下的國家生物醫(yī)學(xué)通訊中心的Aronson開發(fā),2010年由美國醫(yī)學(xué)圖書館公開發(fā)布。在文本處理時(shí),MetaMap首先通過詞典遍歷和淺層句法分析來識(shí)別名詞短語,然后將醫(yī)學(xué)文本與UMLS的CUIs建立映射關(guān)系。目前該工具被廣泛應(yīng)用于實(shí)體歸一化、藥物-疾病關(guān)系挖掘[55]等研究。

        3.2 Peregrine

        和MetaMap一樣,Peregrine也是知名的醫(yī)療實(shí)體識(shí)別和實(shí)體歸一化系統(tǒng)。該系統(tǒng)由荷蘭鹿特丹大學(xué)醫(yī)學(xué)中心開發(fā),它利用詞典資源從文本中識(shí)別出有關(guān)概念,并將其映射到標(biāo)準(zhǔn)語義資源以實(shí)現(xiàn)實(shí)體歸一化[56]。Kang等[38]利用ADZC語料對(duì)比了Peregrine和MetaMap的疾病歸一化效果,發(fā)現(xiàn)在不加入規(guī)則的前提下,前者的F值高出后者2.9%。

        3.3 DNorm

        DNorm[13]是由Leaman等開發(fā)的一款通過Pairwise學(xué)習(xí)算法計(jì)算概念之間相似度以實(shí)現(xiàn)概念(尤其是疾病)歸一化的系統(tǒng)。該系統(tǒng)采用向量空間模型來表示醫(yī)療實(shí)體概念,然后基于句子相似度來計(jì)算實(shí)體概念相似度,使用時(shí)需要依賴MEDIC詞典和NCBI數(shù)據(jù)集。在實(shí)體歸一化對(duì)比實(shí)驗(yàn)中,DNorm在效果上要優(yōu)于MetaMap[24],并且在PubMed摘要、NCBI疾病語料以及電子病歷數(shù)據(jù)集上的歸一化對(duì)比實(shí)驗(yàn)中均取得了較好效果[13]。

        3.4 cTAKES

        cTAKES是哈佛醫(yī)學(xué)院Savova等開發(fā)的針對(duì)臨床文本的自然語言處理和信息抽取系統(tǒng),該系統(tǒng)是符合UIMA架構(gòu)的開源軟件[57]。針對(duì)英文臨床文本,該系統(tǒng)提供詞性標(biāo)注及依存句法分析等處理,目前廣泛應(yīng)用于臨床文本的自然語言處理任務(wù)中?;贗2B2 2008年肥胖和糖尿病患者出院小結(jié)的測評(píng)數(shù)據(jù)集,Reátegui等[58]對(duì)比了MetaMap和cTAKES在醫(yī)療實(shí)體抽取上的效果,結(jié)果發(fā)現(xiàn)二者在召回率、準(zhǔn)確率和F值上均非常接近。

        3.5 中文分詞及詞性標(biāo)注系統(tǒng)

        和英文醫(yī)療健康文本挖掘相比,中文通常還需要分詞等預(yù)處理環(huán)節(jié)。在通用領(lǐng)域已有不少分詞工具,常見的有ICTCLAS、jieba、thulac、pkuseg、哈爾濱工業(yè)大學(xué)的LTP和斯坦福大學(xué)的StanfordCoreNLP。醫(yī)學(xué)詞匯不僅數(shù)量龐大,組詞結(jié)構(gòu)也非常復(fù)雜,通用分詞工具在醫(yī)療健康文本中的效果并不理想。Lei等[47]在中文的臨床文本分詞中,利用StanfordCoreNLP進(jìn)行分詞和詞性標(biāo)注,并整合多個(gè)資源,構(gòu)建了中文醫(yī)學(xué)概念詞典以提升臨床文本的分詞效果。類似地,在電子病歷分詞中,王若佳等[2]通過搜集權(quán)威詞表、官方網(wǎng)站和在線健康網(wǎng)站數(shù)據(jù)構(gòu)建了醫(yī)學(xué)詞典。值得一提的是,北京大學(xué)的PKUSEG分詞系統(tǒng)[59]可根據(jù)領(lǐng)域選擇不同模型,醫(yī)學(xué)健康領(lǐng)域可以采用其醫(yī)療模式,以獲取更準(zhǔn)確的分詞結(jié)果。

        4 結(jié)束語

        隨著互聯(lián)網(wǎng)應(yīng)用在社會(huì)中的日益滲透,各類醫(yī)療健康數(shù)據(jù)呈現(xiàn)出了爆發(fā)式增長,這些海量數(shù)據(jù)蘊(yùn)含著重要的醫(yī)療健康知識(shí)。深度學(xué)習(xí)和大數(shù)據(jù)分析為醫(yī)療健康文本挖掘和知識(shí)發(fā)現(xiàn)提供了技術(shù)條件,但這些技術(shù)離不開語義資源、標(biāo)注數(shù)據(jù)和工具的支撐。在深度學(xué)習(xí)等機(jī)器學(xué)習(xí)任務(wù)中,大部分模型均需要高質(zhì)量、大規(guī)模的標(biāo)注數(shù)據(jù)作為訓(xùn)練集。和英文資源相比,中文醫(yī)學(xué)詞典以及語義資源非常稀缺,醫(yī)療健康文本數(shù)據(jù)集標(biāo)注雖然近些年受到了學(xué)界的重視,各學(xué)術(shù)團(tuán)體不惜投入大量人力物力進(jìn)行數(shù)據(jù)標(biāo)注,但目前國內(nèi)醫(yī)療健康領(lǐng)域缺少數(shù)據(jù)開放共享的環(huán)境。該文主要對(duì)國內(nèi)外的醫(yī)學(xué)詞典及語義資源、標(biāo)注數(shù)據(jù)集、文本處理系統(tǒng)及工具進(jìn)行了系統(tǒng)梳理,并對(duì)其應(yīng)用場景進(jìn)行了分析;針對(duì)當(dāng)前存在的問題,希望國內(nèi)研究機(jī)構(gòu)和相關(guān)領(lǐng)域?qū)W者在資源構(gòu)建和數(shù)據(jù)標(biāo)注方面開展協(xié)作,共同推進(jìn)由數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療健康知識(shí)挖掘和人工智能應(yīng)用研究。

        猜你喜歡
        語義文本資源
        基礎(chǔ)教育資源展示
        一樣的資源,不一樣的收獲
        語言與語義
        在808DA上文本顯示的改善
        資源回收
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        亚洲一区二区懂色av| 日日碰狠狠添天天爽超碰97| 久久精品国产亚洲av高清色欲 | 欧美理论在线| 成人免费丝袜美腿视频| 久久熟女少妇一区二区三区| 国产成人无码精品久久久免费| 国产精品亚洲片在线观看不卡| 久久精品无码av| 男人无码视频在线观看| 狠狠亚洲超碰狼人久久老人| 精品女同一区二区三区免费播放| 日本妇女高清一区二区三区| 白白发在线视频免费观看2| 亚洲av日韩精品久久久久久久| 台湾佬综合网| av一区无码不卡毛片| 极品视频一区二区三区在线观看| 伊人久久亚洲精品中文字幕| 久久久精品视频网站在线观看| 成人精品天堂一区二区三区| 亚洲欧美日韩在线一区| 婷婷成人亚洲| 在线观看中文字幕一区二区三区 | 久久99精品久久久久久9蜜桃| 日韩高清在线观看永久| 囯产精品无码va一区二区| 国产一区二区免费在线观看视频| 亚洲中文字幕日韩综合| 国产成人精品a视频| 精品2021露脸国产偷人在视频| 国产亚洲精选美女久久久久| 丝袜美腿丝袜美腿丝袜美腿丝袜| 国色天香中文字幕在线视频| 欧美freesex黑人又粗又大| 色噜噜狠狠色综合欧洲| 色婷婷久久综合中文蜜桃| 亚洲精品美女久久777777| 在线看亚洲十八禁网站| 视频一区中文字幕亚洲| 精品久久中文字幕系列|