李子昊 陳漠沙 馬鎮(zhèn)新 尹康平 童毅軒 譚傳奇 郎珍珍
(阿里巴巴 杭州 310000)
湯步洲 徐 健
(哈爾濱工業(yè)大學(xué)(深圳)鵬城實(shí)驗(yàn)室 深圳518055) (阿里巴巴 杭州 310000)
互聯(lián)網(wǎng)在線問診文本中包含大量醫(yī)學(xué)相關(guān)概念,如何利用文本挖掘和深度學(xué)習(xí)技術(shù)獲取相關(guān)醫(yī)學(xué)知識近年來受到廣泛關(guān)注[1-2]。然而醫(yī)學(xué)概念的復(fù)雜性和多樣性、醫(yī)療數(shù)據(jù)的隱私性都為相關(guān)研究帶來巨大挑戰(zhàn)。近年來,國際生物與臨床信息學(xué)集成研究項(xiàng)目(Informatics for Integrating Biology and the Bedside,i2b2)以及中國健康信息處理會議(China Health Information Processing Conference,CHIP)等積極倡導(dǎo)從醫(yī)療數(shù)據(jù)中挖掘相關(guān)信息,針對非結(jié)構(gòu)化病歷數(shù)據(jù)組織一系列評測任務(wù),這些評測任務(wù)和數(shù)據(jù)集在相關(guān)研究社區(qū)中獲得廣泛影響力,在醫(yī)學(xué)信息處理領(lǐng)域發(fā)揮了重要作用。
醫(yī)學(xué)領(lǐng)域的實(shí)體、關(guān)系抽取技術(shù)可識別醫(yī)學(xué)概念以及概念之間的相互關(guān)系,并將這些知識應(yīng)用到醫(yī)療知識圖譜中,從而能有效提升醫(yī)療圖譜的可解釋性。人工標(biāo)注圖譜成本較高,為了獲取更多、更準(zhǔn)確的關(guān)系知識,需要利用實(shí)體關(guān)系聯(lián)合抽取技術(shù)[3-5]。
因果關(guān)系是一種重要的關(guān)系類型,特別是在注重可解釋性的醫(yī)學(xué)領(lǐng)域文本中。目前國外研究人員已提出多個因果關(guān)系抽取數(shù)據(jù)集,如 Dominique M等[6]提出的基于金融領(lǐng)域的因果抽取數(shù)據(jù)集FinCausal,Tan F A等[7]提出的基于新聞領(lǐng)域的因果關(guān)系提取任務(wù),在醫(yī)療領(lǐng)域 BioCreativeV社區(qū)提出的從生物醫(yī)學(xué)文獻(xiàn)中自動抽取因果關(guān)系實(shí)體并用相關(guān)語句表示的任務(wù)[8]。相較于國外,國內(nèi)醫(yī)學(xué)因果關(guān)系推理方面的公開數(shù)據(jù)集資源還比較匱乏。因此,本文充分利用醫(yī)學(xué)搜索引擎以及在線問診的醫(yī)療回答文本,構(gòu)建首個中文醫(yī)學(xué)因果關(guān)系抽取數(shù)據(jù)集CMedCausal,并依托CHIP 2022會議舉辦“醫(yī)學(xué)因果實(shí)體關(guān)系抽取”評測比賽(http://cips-chip.org.cn/2022/eval2)。研究人員可利用CMedCausal開展醫(yī)學(xué)因果關(guān)系挖掘,因果解釋網(wǎng)絡(luò)構(gòu)建等方向的工作,從而提升醫(yī)療問診結(jié)果的可解釋性。
抽取有來醫(yī)生網(wǎng)站(https://m.youlai.cn)上較為工整且長度超過200個中文字符的線上問診及醫(yī)典百科數(shù)據(jù)。所采集大部分網(wǎng)上公開問診數(shù)據(jù)并沒有涉及患者隱私信息,所以不需要進(jìn)行脫敏處理。篩選后的文本共包含9 153段文本,文本平均長度為265個字符。
2.2.1 概述 數(shù)據(jù)集需要對醫(yī)學(xué)概念片段以及醫(yī)學(xué)概念片段之間的關(guān)系進(jìn)行標(biāo)注。醫(yī)學(xué)概念片段指可作為一個獨(dú)立語義單元的連續(xù)字符片段,可以是醫(yī)學(xué)實(shí)體、臨床發(fā)現(xiàn)或者具體疾病癥狀,從因果謂詞表達(dá)上看這些片斷行使條件、原因或者結(jié)果的語義角色,邊界通常采用奧卡姆剃刀原則,保留原始含義的最小片段。標(biāo)注人員限定了以臨床發(fā)現(xiàn)和疾病為中心的醫(yī)學(xué)概念片段內(nèi)容,臨床發(fā)現(xiàn)也包括實(shí)驗(yàn)室檢驗(yàn)結(jié)果以及檢查結(jié)果。醫(yī)學(xué)概念片段之間關(guān)系包括因果關(guān)系、條件關(guān)系、上下位關(guān)系3種類型。
2.2.2 因果關(guān)系 指某種原因直接導(dǎo)致某種結(jié)果的關(guān)系。對于醫(yī)學(xué)上常見的疾病和臨床之間的關(guān)系即歸類為因果關(guān)系。例如“人體的胃腸道功能紊亂,導(dǎo)致患者吸收能力變差”。本例中“胃腸道紊亂”是一個醫(yī)學(xué)概念片段,“胃腸道功能紊亂”是“吸收能力變差”的直接原因,“吸收能力變差”是“胃腸功能紊亂”的直接結(jié)果。因果關(guān)系是醫(yī)療問診里最常見的關(guān)系,也是判斷問診回答邏輯性最重要的依據(jù),對于構(gòu)建整個醫(yī)療知識圖譜、實(shí)現(xiàn)自動診斷、提高醫(yī)療問診可解釋性有重要意義。
2.2.3 條件關(guān)系 指醫(yī)學(xué)概念片段中一些特定的條件,用于修飾特定的因果關(guān)系。例如,“對阿莫西林過敏的患者不可以使用,服用阿莫西林可能會引起皮疹、藥物熱和哮喘等過敏反應(yīng),因此使用前一定要做青霉素皮試試驗(yàn)”。本例中“對阿莫西林過敏”是“服用阿莫西林”導(dǎo)致“皮疹”的條件。與因果關(guān)系不同的是,條件概念片段并不能直接導(dǎo)致某個結(jié)果發(fā)生。
2.2.4 上下位關(guān)系 指醫(yī)學(xué)概念中的大小和蘊(yùn)含關(guān)系,一般指某個寬泛、總稱概念包含某個具體、特殊概念,例如,“阿爾茨海默癥是一種精神類疾病”,本例中“精神類疾病”包含了“阿爾茨海默癥”這一特定的精神類疾病。上下位關(guān)系是醫(yī)學(xué)概念中較為重要的關(guān)系,對于醫(yī)學(xué)概念的分類、醫(yī)學(xué)圖譜構(gòu)建有重要作用。
2.3.1 標(biāo)注規(guī)范 準(zhǔn)則1:醫(yī)學(xué)概念片段應(yīng)盡可能包含完整有用的信息,包括癥狀的程度、頻率等,無關(guān)信息不在標(biāo)注范圍內(nèi)。如“不及時治療在局部可能會引起疼痛”中需標(biāo)注“局部可能會引起疼痛”,僅標(biāo)注“疼痛”則存在信息丟失;如果涉及人群信息來區(qū)分疾病特點(diǎn),則需要標(biāo)注人群,如“小兒咳嗽”。準(zhǔn)則2:針對多個醫(yī)學(xué)概念片段組合在一起的長實(shí)體,采用如下約定進(jìn)行標(biāo)注。若每個概念片段具備獨(dú)立意義則分開標(biāo)注,如“過量飲酒、使用激素、勞累等引起的股骨頭缺血性病變”中標(biāo)注(“過量飲酒”,“股骨頭缺血性病變”)(“使用激素”,“股骨頭缺血性病變”)和(“勞累”,“股骨頭缺血性病變”)3對因果關(guān)系;若為非連續(xù)實(shí)體則合并標(biāo)注,如“食用奶酪、巧克力、可樂會導(dǎo)致過度肥胖”中標(biāo)注(“食用奶酪、巧克力、可樂”,“過度肥胖”)這對因果關(guān)系。其中非連續(xù)實(shí)體是指多個實(shí)體共用部分文字進(jìn)而導(dǎo)致實(shí)體不連續(xù)的現(xiàn)象,例如上面例子中,“食用巧克力”和“食用可樂”即屬此類。準(zhǔn)則3:任務(wù)只標(biāo)注直接關(guān)系,不標(biāo)注間接的推導(dǎo)關(guān)系,例如“A 導(dǎo)致 B,B 又導(dǎo)致 C”,則本任務(wù)只標(biāo)注(A,B)和(B,C)兩對因果關(guān)系,(A,C)不做標(biāo)注;同樣的,對于上下位或者別名的情況,僅標(biāo)注最直觀的實(shí)體,如“A,又稱為 B,會導(dǎo)致 C”,只標(biāo)注(A,C)。
2.3.2 標(biāo)注過程 本任務(wù)由 1 名醫(yī)學(xué)專家、1 名人工智能算法專家?guī)ьI(lǐng) 8 名醫(yī)學(xué)院本科生基于阿里巴巴夸克內(nèi)部的標(biāo)注平臺完成,前后用時 1.5 個月。標(biāo)注流程分為 4 個主要階段,見圖1。(1)標(biāo)注規(guī)范制定。規(guī)范主要由醫(yī)學(xué)專家制定,在此階段算法專家從模型處理能力的視角對規(guī)范提出優(yōu)化建議,如醫(yī)學(xué)專家傾向于將多個醫(yī)學(xué)概念組合在一起標(biāo)注為一個長實(shí)體片段,算法專家則會根據(jù)模型經(jīng)驗(yàn)建議將其標(biāo)注為獨(dú)立意義的片段(參見標(biāo)注規(guī)范準(zhǔn)則2)。最終目標(biāo)是保證標(biāo)注規(guī)范既符合醫(yī)學(xué)常識,同時也對算法模型友好。(2)試標(biāo)注。在試標(biāo)注階段醫(yī)學(xué)專家會對8名醫(yī)學(xué)院本科生進(jìn)行系統(tǒng)性的任務(wù)講解和規(guī)范培訓(xùn),并帶領(lǐng)8名醫(yī)學(xué)生每人完成20條數(shù)據(jù)標(biāo)注,目標(biāo)是幫助標(biāo)注人員充分理解任務(wù),并能快速熟悉標(biāo)注工具。接下來8名醫(yī)學(xué)生和1名算法專家每人要獨(dú)立完成50條數(shù)據(jù)的標(biāo)注,在此期間醫(yī)學(xué)專家會及時跟進(jìn)標(biāo)注人員遇到的問題,確保每位標(biāo)注人員能充分理解任務(wù)并正確完成標(biāo)注工作,同時也會根據(jù)標(biāo)注人員的問題和反饋來優(yōu)化標(biāo)注規(guī)范。試標(biāo)注階段結(jié)束后,標(biāo)注規(guī)范也最終定稿。該階段耗時 1.5 周。(3)正式標(biāo)注。由8名經(jīng)過培訓(xùn)的醫(yī)學(xué)生完成剩余語料標(biāo)注,每人分配1 080條語料,8位標(biāo)注人員虛擬分為4個小組,同組內(nèi)的兩名標(biāo)注同學(xué)之間有100條重復(fù)語料。這樣設(shè)置的目的是為了統(tǒng)計(jì)和評估標(biāo)注一致度。該階段標(biāo)注人員可以在標(biāo)注工作組中提問和討論問題,醫(yī)學(xué)專家每天定時解答標(biāo)注問題,并針對出現(xiàn)的共性問題組織討論會。該階段耗時3周。(4)質(zhì)檢。醫(yī)學(xué)專家從每位標(biāo)注同學(xué)的標(biāo)注結(jié)果中隨機(jī)挑選50條進(jìn)行質(zhì)檢,分析標(biāo)注錯誤類型并要求標(biāo)注人員進(jìn)行修復(fù)。質(zhì)檢階段用時1.5周,經(jīng)過3輪質(zhì)檢后(5名標(biāo)注人員經(jīng)過兩輪質(zhì)檢后驗(yàn)收合格,另3名經(jīng)歷3輪質(zhì)檢后驗(yàn)收合格),產(chǎn)出最終的 CMedCausal 數(shù)據(jù)集。
圖1 CMedCausal 標(biāo)注過程
2.3.3 標(biāo)注一致性 標(biāo)注一致性(Inter-Annotator Agreement,IAA)是通過計(jì)算同一個虛擬小組內(nèi)兩名標(biāo)注人員重疊標(biāo)注的 100 條語料的微平均F1值(Micro-F1)和宏平均F1值(Macro-F1) 指標(biāo)來評估的。取 4 個虛擬小組的平均值得到的結(jié)果是:Micro-F1是0.741,Macro-F1是0.723。
2.3.4 數(shù)據(jù)統(tǒng)計(jì) 因果關(guān)系、條件關(guān)系和上下位關(guān)系3類關(guān)系的標(biāo)注數(shù)量分別為 70 564、3 819 和 4 861,3種關(guān)系占比分布為18.5∶1∶1.3。
將實(shí)驗(yàn)數(shù)據(jù)按8∶1∶1的比例劃分成訓(xùn)練、驗(yàn)證和測試集,并針對3份數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì),見表1。
表1 實(shí)驗(yàn)數(shù)據(jù)信息統(tǒng)計(jì)
本任務(wù)采用準(zhǔn)確率 (Precision, P)、召回率 (Recall, R) 和F1值(F-Measure,F1)作為評估指標(biāo)。考慮到 3 類關(guān)系的比例相差較大,因此本任務(wù)采用Macro-F1作為最終評價標(biāo)準(zhǔn)。具體定義,假設(shè)有n個類別C1、Ci、Cn,計(jì)算公式如下:設(shè)正確預(yù)測為類別Ci的樣本個數(shù)為Tp(i),預(yù)測為Ci的樣本個數(shù)為Ti,真實(shí)的Ci的樣本個數(shù)為Pi。
(1)
(2)
(3)
本次實(shí)驗(yàn)選擇兩種常用的關(guān)系抽取(Subject-Predict-Object,SPO)模型作為基線(baseline)。OneRel:Shang Y M等[9]提出的一種基于Transformer[10]的BERT[11]編碼,后使用N個矩陣進(jìn)行全局解碼的模型,其中N為關(guān)系數(shù),矩陣使用3種標(biāo)記類型來記錄S和O的起始終止位置關(guān)系。PRGC:Zheng H等[12]提出的一種基于BERT編碼,后判斷文本的關(guān)系種類,根據(jù)關(guān)系種類預(yù)測S和O,再使用對齊矩陣對相應(yīng)的S和O進(jìn)行對齊。編碼器使用的是bert-base-chinese(https://huggingface.co/bert-base-chinese)模型,每批數(shù)據(jù)量設(shè)置為 6,迭代次數(shù)設(shè)置為200,句子最大長度設(shè)置為512。
實(shí)體關(guān)系總體抽取結(jié)果,見表2;3類關(guān)系的具體實(shí)驗(yàn)結(jié)果,見表3。
表2 實(shí)驗(yàn)結(jié)果
表3 3類關(guān)系實(shí)驗(yàn)結(jié)果 (OneRel/PRGC)
整體預(yù)測效果OneRel模型F1保持在0.4以上,PRGC由于F1較低。隨機(jī)抽取100條預(yù)測結(jié)果進(jìn)行分析,發(fā)現(xiàn)錯誤類型可歸結(jié)為3類。第1類錯誤是實(shí)體邊界識別錯誤導(dǎo)致的,占比約15%,如“血虛型瘙癢癥”可導(dǎo)致“皮膚可呈現(xiàn)大理石紋樣”和“瘙癢劇烈”,由于這兩個結(jié)果在文中是連在一起出現(xiàn)的,兩種模型均將其識別為“血虛型瘙癢癥”可導(dǎo)致“皮膚可呈現(xiàn)大理石紋樣,瘙癢劇烈”。此類錯誤中模型會將兩個或多個并列實(shí)體片段預(yù)測為一個長實(shí)體,導(dǎo)致召回率降低。第2類錯誤集中在特定修飾語的識別上,如“頸部淋巴結(jié)腫大”導(dǎo)致“脖子結(jié)節(jié)”,模型僅預(yù)測了“結(jié)節(jié)”這個結(jié)果,缺失了發(fā)病部位“脖子”,此類錯誤占比約為20%。第3類錯誤主要分布在條件關(guān)系類別中,條件關(guān)系相比其他兩類關(guān)系構(gòu)成較為復(fù)雜,其尾實(shí)體是一個嵌套定義的因果關(guān)系,兩種模型均無法很好地建模嵌套關(guān)系,如“前列腺增生”會導(dǎo)致“排尿不暢”,標(biāo)注語料中“中老年男性”是該因果關(guān)系的修飾條件,但兩種模型均只預(yù)測了(“前列腺增生”,“排尿不暢”)這對因果關(guān)系,無法準(zhǔn)確捕獲“中老年男性”這個修飾條件。從實(shí)驗(yàn)結(jié)果來看,條件關(guān)系最難預(yù)測,F(xiàn)1分?jǐn)?shù)不到0.1。因此如何能同時正確識別出條件關(guān)系的頭、尾實(shí)體是非常有挑戰(zhàn)性的任務(wù),進(jìn)一步體現(xiàn)了CMedCausal數(shù)據(jù)集的難度。從整體實(shí)驗(yàn)結(jié)果及錯誤類型分析中可以看出,當(dāng)前深度學(xué)習(xí)模型相比人工標(biāo)注結(jié)果還有較大的提升空間,有待于探索更優(yōu)的模型以及結(jié)合醫(yī)學(xué)知識來達(dá)到更好的識別效果。
醫(yī)療文本的因果實(shí)體關(guān)系抽取技術(shù)有助于提升醫(yī)療診斷整體邏輯性和可解釋性,對于自動化問診有重要作用,在此基礎(chǔ)上可以進(jìn)一步構(gòu)建醫(yī)療知識圖譜,從而挖掘更多的潛在關(guān)系。目前中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集較為缺乏,因此構(gòu)建一個完善的關(guān)系抽取數(shù)據(jù)集對領(lǐng)域技術(shù)的發(fā)展有重要意義。
本文構(gòu)建了一個專門用于醫(yī)療因果推斷領(lǐng)域研究的因果關(guān)系抽取數(shù)據(jù)集CMedCausal,系統(tǒng)地介紹了數(shù)據(jù)來源、標(biāo)注規(guī)范及標(biāo)注過程。數(shù)據(jù)集包含醫(yī)學(xué)因果推斷方面最常見的3類關(guān)系:因果關(guān)系、條件關(guān)系和上下位關(guān)系。CMedCausal的構(gòu)建方法具有一定有效性,為構(gòu)建醫(yī)療知識圖譜、醫(yī)學(xué)因果解釋網(wǎng)絡(luò)、提高醫(yī)療問答可解釋性奠定基礎(chǔ)。
通過實(shí)驗(yàn)結(jié)果可以看出 CMedCausal 具有較高的挑戰(zhàn)性,特別是條件關(guān)系的判斷涉及復(fù)雜的因果關(guān)系推理以及修飾限定詞的識別。同時相較于英文數(shù)據(jù)集,中文數(shù)據(jù)集由于詞語之間無明顯界限使得標(biāo)注較為復(fù)雜,有無修飾語以及實(shí)體片段之間是否并列等情況均會導(dǎo)致預(yù)測結(jié)果與標(biāo)注結(jié)果不一致,但并不能完全表明模型預(yù)測結(jié)果是完全錯誤的,因此如何建立一個合理的適用于醫(yī)學(xué)因果關(guān)系抽取任務(wù)的評價標(biāo)準(zhǔn)也是至關(guān)重要的,有待于進(jìn)一步探索。
?醫(yī)學(xué)信息研究?