亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集 CMedCausal

2022-02-13 11:09:06李子昊陳漠沙馬鎮(zhèn)新尹康平童毅軒譚傳奇郎珍珍

醫(yī)學(xué)信息學(xué)雜志 2022年12期

關(guān)鍵詞：概念模型

李子昊陳漠沙馬鎮(zhèn)新尹康平童毅軒譚傳奇郎珍珍

(阿里巴巴杭州 310000)

湯步洲徐健

(哈爾濱工業(yè)大學(xué)(深圳)鵬城實(shí)驗(yàn)室深圳518055) (阿里巴巴杭州 310000)

1 引言

互聯(lián)網(wǎng)在線問診文本中包含大量醫(yī)學(xué)相關(guān)概念，如何利用文本挖掘和深度學(xué)習(xí)技術(shù)獲取相關(guān)醫(yī)學(xué)知識近年來受到廣泛關(guān)注[1-2]。然而醫(yī)學(xué)概念的復(fù)雜性和多樣性、醫(yī)療數(shù)據(jù)的隱私性都為相關(guān)研究帶來巨大挑戰(zhàn)。近年來，國際生物與臨床信息學(xué)集成研究項(xiàng)目(Informatics for Integrating Biology and the Bedside，i2b2)以及中國健康信息處理會議(China Health Information Processing Conference，CHIP)等積極倡導(dǎo)從醫(yī)療數(shù)據(jù)中挖掘相關(guān)信息，針對非結(jié)構(gòu)化病歷數(shù)據(jù)組織一系列評測任務(wù)，這些評測任務(wù)和數(shù)據(jù)集在相關(guān)研究社區(qū)中獲得廣泛影響力，在醫(yī)學(xué)信息處理領(lǐng)域發(fā)揮了重要作用。

醫(yī)學(xué)領(lǐng)域的實(shí)體、關(guān)系抽取技術(shù)可識別醫(yī)學(xué)概念以及概念之間的相互關(guān)系，并將這些知識應(yīng)用到醫(yī)療知識圖譜中，從而能有效提升醫(yī)療圖譜的可解釋性。人工標(biāo)注圖譜成本較高，為了獲取更多、更準(zhǔn)確的關(guān)系知識，需要利用實(shí)體關(guān)系聯(lián)合抽取技術(shù)[3-5]。

因果關(guān)系是一種重要的關(guān)系類型，特別是在注重可解釋性的醫(yī)學(xué)領(lǐng)域文本中。目前國外研究人員已提出多個因果關(guān)系抽取數(shù)據(jù)集，如 Dominique M等[6]提出的基于金融領(lǐng)域的因果抽取數(shù)據(jù)集FinCausal，Tan F A等[7]提出的基于新聞領(lǐng)域的因果關(guān)系提取任務(wù)，在醫(yī)療領(lǐng)域 BioCreativeV社區(qū)提出的從生物醫(yī)學(xué)文獻(xiàn)中自動抽取因果關(guān)系實(shí)體并用相關(guān)語句表示的任務(wù)[8]。相較于國外，國內(nèi)醫(yī)學(xué)因果關(guān)系推理方面的公開數(shù)據(jù)集資源還比較匱乏。因此，本文充分利用醫(yī)學(xué)搜索引擎以及在線問診的醫(yī)療回答文本，構(gòu)建首個中文醫(yī)學(xué)因果關(guān)系抽取數(shù)據(jù)集CMedCausal，并依托CHIP 2022會議舉辦“醫(yī)學(xué)因果實(shí)體關(guān)系抽取”評測比賽(http://cips-chip.org.cn/2022/eval2)。研究人員可利用CMedCausal開展醫(yī)學(xué)因果關(guān)系挖掘，因果解釋網(wǎng)絡(luò)構(gòu)建等方向的工作，從而提升醫(yī)療問診結(jié)果的可解釋性。

2 數(shù)據(jù)集構(gòu)建

2.1 數(shù)據(jù)來源

抽取有來醫(yī)生網(wǎng)站(https://m.youlai.cn)上較為工整且長度超過200個中文字符的線上問診及醫(yī)典百科數(shù)據(jù)。所采集大部分網(wǎng)上公開問診數(shù)據(jù)并沒有涉及患者隱私信息，所以不需要進(jìn)行脫敏處理。篩選后的文本共包含9 153段文本，文本平均長度為265個字符。

2.2 任務(wù)定義

2.2.1 概述數(shù)據(jù)集需要對醫(yī)學(xué)概念片段以及醫(yī)學(xué)概念片段之間的關(guān)系進(jìn)行標(biāo)注。醫(yī)學(xué)概念片段指可作為一個獨(dú)立語義單元的連續(xù)字符片段，可以是醫(yī)學(xué)實(shí)體、臨床發(fā)現(xiàn)或者具體疾病癥狀，從因果謂詞表達(dá)上看這些片斷行使條件、原因或者結(jié)果的語義角色，邊界通常采用奧卡姆剃刀原則,保留原始含義的最小片段。標(biāo)注人員限定了以臨床發(fā)現(xiàn)和疾病為中心的醫(yī)學(xué)概念片段內(nèi)容，臨床發(fā)現(xiàn)也包括實(shí)驗(yàn)室檢驗(yàn)結(jié)果以及檢查結(jié)果。醫(yī)學(xué)概念片段之間關(guān)系包括因果關(guān)系、條件關(guān)系、上下位關(guān)系3種類型。

2.2.2 因果關(guān)系指某種原因直接導(dǎo)致某種結(jié)果的關(guān)系。對于醫(yī)學(xué)上常見的疾病和臨床之間的關(guān)系即歸類為因果關(guān)系。例如“人體的胃腸道功能紊亂，導(dǎo)致患者吸收能力變差”。本例中“胃腸道紊亂”是一個醫(yī)學(xué)概念片段，“胃腸道功能紊亂”是“吸收能力變差”的直接原因，“吸收能力變差”是“胃腸功能紊亂”的直接結(jié)果。因果關(guān)系是醫(yī)療問診里最常見的關(guān)系，也是判斷問診回答邏輯性最重要的依據(jù)，對于構(gòu)建整個醫(yī)療知識圖譜、實(shí)現(xiàn)自動診斷、提高醫(yī)療問診可解釋性有重要意義。

2.2.3 條件關(guān)系指醫(yī)學(xué)概念片段中一些特定的條件，用于修飾特定的因果關(guān)系。例如，“對阿莫西林過敏的患者不可以使用,服用阿莫西林可能會引起皮疹、藥物熱和哮喘等過敏反應(yīng),因此使用前一定要做青霉素皮試試驗(yàn)”。本例中“對阿莫西林過敏”是“服用阿莫西林”導(dǎo)致“皮疹”的條件。與因果關(guān)系不同的是，條件概念片段并不能直接導(dǎo)致某個結(jié)果發(fā)生。

2.2.4 上下位關(guān)系指醫(yī)學(xué)概念中的大小和蘊(yùn)含關(guān)系，一般指某個寬泛、總稱概念包含某個具體、特殊概念，例如，“阿爾茨海默癥是一種精神類疾病”，本例中“精神類疾病”包含了“阿爾茨海默癥”這一特定的精神類疾病。上下位關(guān)系是醫(yī)學(xué)概念中較為重要的關(guān)系，對于醫(yī)學(xué)概念的分類、醫(yī)學(xué)圖譜構(gòu)建有重要作用。

2.3 數(shù)據(jù)標(biāo)注

2.3.1 標(biāo)注規(guī)范準(zhǔn)則1：醫(yī)學(xué)概念片段應(yīng)盡可能包含完整有用的信息，包括癥狀的程度、頻率等，無關(guān)信息不在標(biāo)注范圍內(nèi)。如“不及時治療在局部可能會引起疼痛”中需標(biāo)注“局部可能會引起疼痛”，僅標(biāo)注“疼痛”則存在信息丟失；如果涉及人群信息來區(qū)分疾病特點(diǎn)，則需要標(biāo)注人群，如“小兒咳嗽”。準(zhǔn)則2：針對多個醫(yī)學(xué)概念片段組合在一起的長實(shí)體，采用如下約定進(jìn)行標(biāo)注。若每個概念片段具備獨(dú)立意義則分開標(biāo)注，如“過量飲酒、使用激素、勞累等引起的股骨頭缺血性病變”中標(biāo)注(“過量飲酒”，“股骨頭缺血性病變”)(“使用激素”，“股骨頭缺血性病變”)和(“勞累”，“股骨頭缺血性病變”)3對因果關(guān)系；若為非連續(xù)實(shí)體則合并標(biāo)注，如“食用奶酪、巧克力、可樂會導(dǎo)致過度肥胖”中標(biāo)注(“食用奶酪、巧克力、可樂”，“過度肥胖”)這對因果關(guān)系。其中非連續(xù)實(shí)體是指多個實(shí)體共用部分文字進(jìn)而導(dǎo)致實(shí)體不連續(xù)的現(xiàn)象，例如上面例子中，“食用巧克力”和“食用可樂”即屬此類。準(zhǔn)則3：任務(wù)只標(biāo)注直接關(guān)系，不標(biāo)注間接的推導(dǎo)關(guān)系，例如“A 導(dǎo)致 B，B 又導(dǎo)致 C”，則本任務(wù)只標(biāo)注(A，B)和(B，C)兩對因果關(guān)系，(A，C)不做標(biāo)注；同樣的，對于上下位或者別名的情況，僅標(biāo)注最直觀的實(shí)體，如“A，又稱為 B，會導(dǎo)致 C”，只標(biāo)注(A，C)。

2.3.2 標(biāo)注過程本任務(wù)由 1 名醫(yī)學(xué)專家、1 名人工智能算法專家?guī)ьI(lǐng) 8 名醫(yī)學(xué)院本科生基于阿里巴巴夸克內(nèi)部的標(biāo)注平臺完成，前后用時 1.5 個月。標(biāo)注流程分為 4 個主要階段，見圖1。(1)標(biāo)注規(guī)范制定。規(guī)范主要由醫(yī)學(xué)專家制定，在此階段算法專家從模型處理能力的視角對規(guī)范提出優(yōu)化建議，如醫(yī)學(xué)專家傾向于將多個醫(yī)學(xué)概念組合在一起標(biāo)注為一個長實(shí)體片段，算法專家則會根據(jù)模型經(jīng)驗(yàn)建議將其標(biāo)注為獨(dú)立意義的片段(參見標(biāo)注規(guī)范準(zhǔn)則2)。最終目標(biāo)是保證標(biāo)注規(guī)范既符合醫(yī)學(xué)常識，同時也對算法模型友好。(2)試標(biāo)注。在試標(biāo)注階段醫(yī)學(xué)專家會對8名醫(yī)學(xué)院本科生進(jìn)行系統(tǒng)性的任務(wù)講解和規(guī)范培訓(xùn)，并帶領(lǐng)8名醫(yī)學(xué)生每人完成20條數(shù)據(jù)標(biāo)注，目標(biāo)是幫助標(biāo)注人員充分理解任務(wù)，并能快速熟悉標(biāo)注工具。接下來8名醫(yī)學(xué)生和1名算法專家每人要獨(dú)立完成50條數(shù)據(jù)的標(biāo)注，在此期間醫(yī)學(xué)專家會及時跟進(jìn)標(biāo)注人員遇到的問題，確保每位標(biāo)注人員能充分理解任務(wù)并正確完成標(biāo)注工作，同時也會根據(jù)標(biāo)注人員的問題和反饋來優(yōu)化標(biāo)注規(guī)范。試標(biāo)注階段結(jié)束后，標(biāo)注規(guī)范也最終定稿。該階段耗時 1.5 周。(3)正式標(biāo)注。由8名經(jīng)過培訓(xùn)的醫(yī)學(xué)生完成剩余語料標(biāo)注，每人分配1 080條語料，8位標(biāo)注人員虛擬分為4個小組，同組內(nèi)的兩名標(biāo)注同學(xué)之間有100條重復(fù)語料。這樣設(shè)置的目的是為了統(tǒng)計(jì)和評估標(biāo)注一致度。該階段標(biāo)注人員可以在標(biāo)注工作組中提問和討論問題，醫(yī)學(xué)專家每天定時解答標(biāo)注問題，并針對出現(xiàn)的共性問題組織討論會。該階段耗時3周。(4)質(zhì)檢。醫(yī)學(xué)專家從每位標(biāo)注同學(xué)的標(biāo)注結(jié)果中隨機(jī)挑選50條進(jìn)行質(zhì)檢，分析標(biāo)注錯誤類型并要求標(biāo)注人員進(jìn)行修復(fù)。質(zhì)檢階段用時1.5周，經(jīng)過3輪質(zhì)檢后(5名標(biāo)注人員經(jīng)過兩輪質(zhì)檢后驗(yàn)收合格，另3名經(jīng)歷3輪質(zhì)檢后驗(yàn)收合格)，產(chǎn)出最終的 CMedCausal 數(shù)據(jù)集。

圖1 CMedCausal 標(biāo)注過程

2.3.3 標(biāo)注一致性標(biāo)注一致性(Inter-Annotator Agreement，IAA)是通過計(jì)算同一個虛擬小組內(nèi)兩名標(biāo)注人員重疊標(biāo)注的 100 條語料的微平均F1值(Micro-F1)和宏平均F1值(Macro-F1) 指標(biāo)來評估的。取 4 個虛擬小組的平均值得到的結(jié)果是：Micro-F1是0.741，Macro-F1是0.723。

2.3.4 數(shù)據(jù)統(tǒng)計(jì) 因果關(guān)系、條件關(guān)系和上下位關(guān)系3類關(guān)系的標(biāo)注數(shù)量分別為 70 564、3 819 和 4 861,3種關(guān)系占比分布為18.5∶1∶1.3。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

將實(shí)驗(yàn)數(shù)據(jù)按8∶1∶1的比例劃分成訓(xùn)練、驗(yàn)證和測試集，并針對3份數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)，見表1。

表1 實(shí)驗(yàn)數(shù)據(jù)信息統(tǒng)計(jì)

3.2 評價指標(biāo)

本任務(wù)采用準(zhǔn)確率 (Precision, P)、召回率 (Recall, R) 和F1值(F-Measure,F1)作為評估指標(biāo)。考慮到 3 類關(guān)系的比例相差較大，因此本任務(wù)采用Macro-F1作為最終評價標(biāo)準(zhǔn)。具體定義，假設(shè)有n個類別C1、Ci、Cn，計(jì)算公式如下：設(shè)正確預(yù)測為類別Ci的樣本個數(shù)為Tp(i)，預(yù)測為Ci的樣本個數(shù)為Ti，真實(shí)的Ci的樣本個數(shù)為Pi。

(1)

(2)

(3)

3.3 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)計(jì)

本次實(shí)驗(yàn)選擇兩種常用的關(guān)系抽取(Subject-Predict-Object，SPO)模型作為基線(baseline)。OneRel：Shang Y M等[9]提出的一種基于Transformer[10]的BERT[11]編碼，后使用N個矩陣進(jìn)行全局解碼的模型，其中N為關(guān)系數(shù)，矩陣使用3種標(biāo)記類型來記錄S和O的起始終止位置關(guān)系。PRGC：Zheng H等[12]提出的一種基于BERT編碼，后判斷文本的關(guān)系種類，根據(jù)關(guān)系種類預(yù)測S和O，再使用對齊矩陣對相應(yīng)的S和O進(jìn)行對齊。編碼器使用的是bert-base-chinese(https://huggingface.co/bert-base-chinese)模型，每批數(shù)據(jù)量設(shè)置為 6，迭代次數(shù)設(shè)置為200，句子最大長度設(shè)置為512。

3.4 實(shí)驗(yàn)結(jié)果分析

實(shí)體關(guān)系總體抽取結(jié)果,見表2；3類關(guān)系的具體實(shí)驗(yàn)結(jié)果,見表3。

表2 實(shí)驗(yàn)結(jié)果

表3 3類關(guān)系實(shí)驗(yàn)結(jié)果 (OneRel/PRGC)

整體預(yù)測效果OneRel模型F1保持在0.4以上，PRGC由于F1較低。隨機(jī)抽取100條預(yù)測結(jié)果進(jìn)行分析，發(fā)現(xiàn)錯誤類型可歸結(jié)為3類。第1類錯誤是實(shí)體邊界識別錯誤導(dǎo)致的，占比約15%，如“血虛型瘙癢癥”可導(dǎo)致“皮膚可呈現(xiàn)大理石紋樣”和“瘙癢劇烈”，由于這兩個結(jié)果在文中是連在一起出現(xiàn)的，兩種模型均將其識別為“血虛型瘙癢癥”可導(dǎo)致“皮膚可呈現(xiàn)大理石紋樣，瘙癢劇烈”。此類錯誤中模型會將兩個或多個并列實(shí)體片段預(yù)測為一個長實(shí)體，導(dǎo)致召回率降低。第2類錯誤集中在特定修飾語的識別上，如“頸部淋巴結(jié)腫大”導(dǎo)致“脖子結(jié)節(jié)”，模型僅預(yù)測了“結(jié)節(jié)”這個結(jié)果，缺失了發(fā)病部位“脖子”，此類錯誤占比約為20%。第3類錯誤主要分布在條件關(guān)系類別中，條件關(guān)系相比其他兩類關(guān)系構(gòu)成較為復(fù)雜，其尾實(shí)體是一個嵌套定義的因果關(guān)系，兩種模型均無法很好地建模嵌套關(guān)系，如“前列腺增生”會導(dǎo)致“排尿不暢”，標(biāo)注語料中“中老年男性”是該因果關(guān)系的修飾條件，但兩種模型均只預(yù)測了(“前列腺增生”，“排尿不暢”)這對因果關(guān)系，無法準(zhǔn)確捕獲“中老年男性”這個修飾條件。從實(shí)驗(yàn)結(jié)果來看，條件關(guān)系最難預(yù)測，F(xiàn)1分?jǐn)?shù)不到0.1。因此如何能同時正確識別出條件關(guān)系的頭、尾實(shí)體是非常有挑戰(zhàn)性的任務(wù)，進(jìn)一步體現(xiàn)了CMedCausal數(shù)據(jù)集的難度。從整體實(shí)驗(yàn)結(jié)果及錯誤類型分析中可以看出，當(dāng)前深度學(xué)習(xí)模型相比人工標(biāo)注結(jié)果還有較大的提升空間，有待于探索更優(yōu)的模型以及結(jié)合醫(yī)學(xué)知識來達(dá)到更好的識別效果。

4 結(jié)語

醫(yī)療文本的因果實(shí)體關(guān)系抽取技術(shù)有助于提升醫(yī)療診斷整體邏輯性和可解釋性，對于自動化問診有重要作用，在此基礎(chǔ)上可以進(jìn)一步構(gòu)建醫(yī)療知識圖譜，從而挖掘更多的潛在關(guān)系。目前中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集較為缺乏，因此構(gòu)建一個完善的關(guān)系抽取數(shù)據(jù)集對領(lǐng)域技術(shù)的發(fā)展有重要意義。

本文構(gòu)建了一個專門用于醫(yī)療因果推斷領(lǐng)域研究的因果關(guān)系抽取數(shù)據(jù)集CMedCausal，系統(tǒng)地介紹了數(shù)據(jù)來源、標(biāo)注規(guī)范及標(biāo)注過程。數(shù)據(jù)集包含醫(yī)學(xué)因果推斷方面最常見的3類關(guān)系：因果關(guān)系、條件關(guān)系和上下位關(guān)系。CMedCausal的構(gòu)建方法具有一定有效性，為構(gòu)建醫(yī)療知識圖譜、醫(yī)學(xué)因果解釋網(wǎng)絡(luò)、提高醫(yī)療問答可解釋性奠定基礎(chǔ)。

通過實(shí)驗(yàn)結(jié)果可以看出 CMedCausal 具有較高的挑戰(zhàn)性，特別是條件關(guān)系的判斷涉及復(fù)雜的因果關(guān)系推理以及修飾限定詞的識別。同時相較于英文數(shù)據(jù)集，中文數(shù)據(jù)集由于詞語之間無明顯界限使得標(biāo)注較為復(fù)雜，有無修飾語以及實(shí)體片段之間是否并列等情況均會導(dǎo)致預(yù)測結(jié)果與標(biāo)注結(jié)果不一致，但并不能完全表明模型預(yù)測結(jié)果是完全錯誤的，因此如何建立一個合理的適用于醫(yī)學(xué)因果關(guān)系抽取任務(wù)的評價標(biāo)準(zhǔn)也是至關(guān)重要的，有待于進(jìn)一步探索。

?醫(yī)學(xué)信息研究?