王 婷,王 祺,黃越圻,殷亦超,高 炬
(1.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237; 2.上海中醫(yī)藥大學(xué) 附屬曙光醫(yī)院,上海 200021) (*通信作者電子郵箱wangting6524@163.com)
基于癥狀構(gòu)成成分的上下位關(guān)系自動(dòng)抽取方法
王 婷1*,王 祺1,黃越圻1,殷亦超2,高 炬2
(1.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237; 2.上海中醫(yī)藥大學(xué) 附屬曙光醫(yī)院,上海 200021) (*通信作者電子郵箱wangting6524@163.com)
針對(duì)癥狀間上下位關(guān)系具有較強(qiáng)結(jié)構(gòu)特性的問(wèn)題,提出一種基于癥狀構(gòu)成成分的上下位關(guān)系自動(dòng)抽取方法。首先,通過(guò)觀察癥狀實(shí)體,發(fā)現(xiàn)癥狀可以切分為原子癥狀詞、修飾詞等八種成分,且成分的構(gòu)成序列滿足一定的規(guī)則。然后,利用詞法分析系統(tǒng)和條件隨機(jī)場(chǎng)模型對(duì)癥狀進(jìn)行切分和成分標(biāo)注。最后,把癥狀之間的關(guān)系抽取看作一個(gè)分類問(wèn)題,選取癥狀成分的構(gòu)成特征、詞典特征以及通用特征作為分類算法的特征;基于多種分類算法訓(xùn)練模型,將癥狀間的關(guān)系分為上下位關(guān)系和非上下位關(guān)系。實(shí)驗(yàn)結(jié)果表明,當(dāng)選用支持向量機(jī)算法,同時(shí)選用三類特征時(shí),取得了最好的效果,準(zhǔn)確率、召回率和F1值分別達(dá)到了82.68%、82.13%和82.40%。在此基礎(chǔ)上,使用所提出的關(guān)系抽取算法,抽取了20 619條上下位關(guān)系,構(gòu)建了具有上下位關(guān)系的癥狀知識(shí)庫(kù)。
上下位關(guān)系;癥狀構(gòu)成成分;條件隨機(jī)場(chǎng);關(guān)系分類;支持向量機(jī);決策樹;樸素貝葉斯
醫(yī)療行業(yè)蓬勃發(fā)展,對(duì)其研究越來(lái)越多。各種醫(yī)療知識(shí)庫(kù)逐漸被構(gòu)建,如醫(yī)學(xué)主題詞表(Medical Subject Headings, MeSH)、醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(yǔ)(Systematized Nomenclature of Medicine-Clinical Terms, SNOMED-CT)和一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System, UMLS) (https://www.nlm.nih.gov/research/umls/)等醫(yī)療分類體系和標(biāo)準(zhǔn)。更有知識(shí)庫(kù)針對(duì)某類醫(yī)療實(shí)體:疾病有國(guó)際疾病分類(International Classification of Diseases, ICD-10),藥品有DrugBank,臨床觀測(cè)指標(biāo)有觀測(cè)指標(biāo)標(biāo)識(shí)符邏輯命名與編碼(Logical Observation Identifiers Names and Codes, LOINC)系統(tǒng)。但目前沒(méi)有專門的癥狀知識(shí)庫(kù),因此,作者構(gòu)建了一個(gè)癥狀知識(shí)庫(kù)[1]。在構(gòu)建過(guò)程中,發(fā)現(xiàn)癥狀分類體系有重要的意義:在醫(yī)療問(wèn)答和臨床決策系統(tǒng)等應(yīng)用中,通常需要癥狀之間的上下位關(guān)系。例如,患者輸入問(wèn)題“流黃鼻涕該吃什么藥”,雖然問(wèn)答系統(tǒng)中沒(méi)有“流黃鼻涕”的對(duì)癥藥品,但可以找到其上位詞“流鼻涕”的適用藥,將其作為結(jié)果返回給患者。在現(xiàn)有的知識(shí)庫(kù)中,SNOMED-CT中有“臨床發(fā)現(xiàn)”(Clinical Finding)的上下位關(guān)系,但無(wú)中文版本可用。因此,需要依賴于SNOMED-CT在醫(yī)學(xué)上對(duì)“臨床發(fā)現(xiàn)”上下位關(guān)系的認(rèn)知,建立中文的癥狀分類體系。
目前上下位關(guān)系的抽取主要有基于模式匹配[2]、詞典和統(tǒng)計(jì)的方法。基于模式匹配的方法是在大規(guī)模語(yǔ)料中進(jìn)行模式的自動(dòng)匹配,從而挖掘出符合模式的上下位概念。Hearst等[3]利用詞匯-句法模式(Hearst patterns)在文本中自動(dòng)獲取上下位關(guān)系,例如詞匯L0和L1滿足句法模式“L1{,}including{L0,}{or|and}L0”,那么L0就是L1的下位詞。Cederberg等[4]使用潛在語(yǔ)義分析(Latent Semantic Analysis, LSA)對(duì)Hearst提出的方法獲取的候選上下位關(guān)系集合進(jìn)行過(guò)濾,計(jì)算上下位關(guān)系對(duì)的相似度,過(guò)濾掉得分較低的候選上下位關(guān)系對(duì)。中文方面,劉磊等[5]提出基于“是一個(gè)”模式的下位概念獲取方法,利用半自動(dòng)獲取的詞典和句型對(duì)“是一個(gè)”模式進(jìn)行分析,然后根據(jù)規(guī)則獲取下位概念。該方法貼近人們的語(yǔ)言使用習(xí)慣,因此準(zhǔn)確率較高。但模式的適用性與語(yǔ)料密切相關(guān),可移植性差;而且模式的覆蓋范圍有限,關(guān)系獲取的召回率不高。
基于詞典的方法通常是根據(jù)一些現(xiàn)有的詞典中定義的上下位詞等知識(shí)來(lái)獲取概念間的關(guān)系。WordNet[6]被用來(lái)作為上位詞發(fā)現(xiàn)的基準(zhǔn),具有很高的準(zhǔn)確率。Dong[7]編寫的通用領(lǐng)域詞典《知網(wǎng)》用義原樹來(lái)描述詞匯之間的關(guān)系。該方法準(zhǔn)確率高,但詞典的規(guī)模和覆蓋范圍有限。在通用領(lǐng)域詞典中有很多專業(yè)詞匯難以查到,而且構(gòu)建過(guò)程中需要大量專業(yè)知識(shí),維護(hù)和更新的代價(jià)過(guò)高。
基于統(tǒng)計(jì)的方法主要采用聚類、分類等機(jī)器學(xué)習(xí)算法獲取上下位關(guān)系。Caraballo[8]通過(guò)上下文中名詞的連接關(guān)系和同位關(guān)系構(gòu)造特征向量,然后通過(guò)余弦度量以及組平均策略自底向上聚類名詞,最終得到名詞間的上下位關(guān)系。Ritter等[9]基于Hearst patterns找到名詞短語(yǔ)e的候選上位詞集合ci,統(tǒng)計(jì)名詞短語(yǔ)對(duì)〈e,c〉(c∈ci)在每個(gè)Hearst pattern下出現(xiàn)的頻率并轉(zhuǎn)換為特征,訓(xùn)練一個(gè)支持向量機(jī)(Support Vector Machine,SVM)分類器去識(shí)別對(duì)的上位詞。中文方面,黃毅等[10]基于條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)獲取上下位關(guān)系,首先利用術(shù)語(yǔ)在百科名片中的上下文信息,總結(jié)相關(guān)模式;在詞和詞性的基礎(chǔ)之上,增加了特征詞詞典和標(biāo)點(diǎn)信息這兩類特征,用CRF進(jìn)行訓(xùn)練和學(xué)習(xí),建立分類模型。Fu等[11]基于詞匯分布表示(Word Embedding)抽取上下位關(guān)系,利用一個(gè)映射矩陣來(lái)刻畫上下位關(guān)系,即一個(gè)詞匯的分布表示乘以這個(gè)映射矩陣約等于其上位詞的分布表示。該方法適合處理大規(guī)模數(shù)據(jù),覆蓋率高,但準(zhǔn)確率要比基于詞典和模式匹配的方法低。
鑒于癥狀上下位關(guān)系抽取的重要性和現(xiàn)有工作的不足,本文提出了基于癥狀構(gòu)成成分的上下位關(guān)系抽取方法。癥狀之間的關(guān)系只包含三種:上下位關(guān)系、同義關(guān)系和無(wú)關(guān)系,且這三種關(guān)系之間互斥(即兩個(gè)癥狀之間只可能是三種關(guān)系中的一種)。因此,本文把癥狀之間的關(guān)系抽取看作一個(gè)分類問(wèn)題??紤]到本文只需抽取上下位關(guān)系,同義關(guān)系和無(wú)關(guān)系統(tǒng)一看作非上下位關(guān)系。癥狀間的上下位關(guān)系是下位詞E2對(duì)于上位詞E1在發(fā)作程度、發(fā)作頻率、發(fā)作時(shí)間以及發(fā)作部位等方面的細(xì)分。通過(guò)觀察癥狀庫(kù)中的癥狀名,發(fā)現(xiàn)癥狀可以切分成原子癥狀詞、修飾詞等八種成分。本文將這些成分的構(gòu)成特征作為分類器的特征,還增加了成分的上下位詞典特征和通用特征這兩類特征。本文從醫(yī)療健康網(wǎng)站中抽取已有的上下位關(guān)系和同義關(guān)系,通過(guò)隨機(jī)負(fù)采樣得到無(wú)關(guān)系作為訓(xùn)練集來(lái)訓(xùn)練分類算法,并在測(cè)試集上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,在同時(shí)選用三類特征的情況下,基于SVM的分類模型取得了最高的準(zhǔn)確率、召回率和F1值。此外,將本文使用所提出的關(guān)系抽取方法應(yīng)用到癥狀庫(kù)中,抽取了20 619條上下位關(guān)系,構(gòu)建了癥狀上下位關(guān)系知識(shí)庫(kù)。
本文的主要工作有:1)基于SNOMED CT中“臨床發(fā)現(xiàn)”的分類層級(jí)體系和“IS_A”關(guān)系,給出了癥狀上下位關(guān)系的定義和分類;2)提出了利用癥狀構(gòu)成特征來(lái)抽取癥狀之間的上下位關(guān)系,有利于識(shí)別出更多癥狀間的關(guān)系;3)抽取了癥狀之間的上下位關(guān)系,使癥狀不再是獨(dú)立存在,而是具有豐富的層次結(jié)構(gòu),擴(kuò)充已有的醫(yī)療知識(shí)庫(kù),從而優(yōu)化醫(yī)療問(wèn)答和臨床決策系統(tǒng)。
本文參考并擴(kuò)展了SNOMED CT中“臨床發(fā)現(xiàn)”的分類層級(jí)體系和“IS_A”關(guān)系,將上下位關(guān)系定義為:
定義1 下位詞E2對(duì)于上位詞E1在嚴(yán)重程度、發(fā)作頻率、發(fā)作時(shí)間等方面的細(xì)分,記為Hyponymy(E1,E2)。
關(guān)系的劃分依據(jù)主要有以下幾類:嚴(yán)重程度、癥狀頻率、發(fā)作時(shí)間、發(fā)現(xiàn)部位、癥狀性質(zhì)、發(fā)展趨勢(shì)、偏側(cè)方位和誘因。例如,下位詞“運(yùn)動(dòng)后頭痛”是上位詞“頭痛”在發(fā)作時(shí)間方面的細(xì)分,表明“頭痛”是在運(yùn)動(dòng)后發(fā)作的。另外,上位詞的多個(gè)下位詞之間也可以存在上下位關(guān)系,這就構(gòu)成了上下位關(guān)系中的語(yǔ)義層次。以“全身疾病所致牙齦嚴(yán)重出血”為例,其上位詞和劃分類別如圖1所示。
圖1 “全身疾病所致牙齦嚴(yán)重出血”上位詞及劃分類別
上下位關(guān)系具有非對(duì)稱性和傳遞性,即:
癥狀之間上下位關(guān)系抽取的流程如圖2所示。首先利用分詞工具和CRF對(duì)癥狀進(jìn)行切分和成分標(biāo)注,將癥狀切分為自定義的八種構(gòu)成成分;然后將這些成分的構(gòu)成特征作為分類器的特征,還增加了成分的上下位詞典和通用特征這兩類特征;最后訓(xùn)練了樸素貝葉斯(Naive Bayesian)、決策樹(Decision Tree)和支持向量機(jī)等六類分類模型,將癥狀兩兩組合形成的癥狀對(duì)分為上下位關(guān)系和非上下位關(guān)系。分類器的正例來(lái)自于從醫(yī)療健康網(wǎng)站的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取的部分癥狀間的上下位關(guān)系,負(fù)例來(lái)自于醫(yī)療網(wǎng)站中的同義關(guān)系。另外,本文采用隨機(jī)負(fù)采樣[13]將正例中的上位詞進(jìn)行隨機(jī)替換,生成無(wú)關(guān)系也作為負(fù)例。例如,對(duì)于癥狀“發(fā)作性咳嗽”,“咳嗽”是從網(wǎng)站中抽取的已知上位詞,本文從癥狀庫(kù)中選擇“頭痛”進(jìn)行替換,就得到負(fù)例〈頭痛,other,發(fā)作性咳嗽〉。
圖2 癥狀上下位關(guān)系抽取流程
2.2.1 半結(jié)構(gòu)化信息抽取
同一醫(yī)療健康網(wǎng)站對(duì)于癥狀實(shí)體的描述都有固定的格式和內(nèi)容,因此本文從醫(yī)療健康網(wǎng)站的癥狀詳情頁(yè)面中抽取了上下位和同義關(guān)系。詳情頁(yè)面有以下幾部分組成:實(shí)體名、別名、描述、分類、可能疾病以及對(duì)癥藥品。其中,“分類”下的實(shí)體為當(dāng)前實(shí)體的下位詞,“別名”為同義詞。例如,在“腹痛”的頁(yè)面下,存在“腹痛”的別名“肚子疼”,以及“腹痛”的分類:“左上腹壓痛”“急性腹痛”等,可以得到關(guān)于“腹痛”的同義關(guān)系和上下位關(guān)系:〈腹痛,sameAs,肚子疼〉,〈腹痛,Hyponymy,左上腹壓痛〉,〈腹痛,Hyponymy,急性腹痛〉等。
2.2.2 非結(jié)構(gòu)化信息抽取
除上述半結(jié)構(gòu)化信息以外,醫(yī)療健康網(wǎng)站對(duì)于實(shí)體的描述文本中包含了豐富的上下位關(guān)系和同義關(guān)系,而且對(duì)于兩種關(guān)系的表述又有固定格式,因此本文定義了句法模式(如表1所示)來(lái)抽取描述中的上下位和同義關(guān)系。例如,在“胃痛”的描述文本中,有“胃部隱痛是胃痛的一種”,滿足上下位中第一個(gè)模式,因此可以得到上下位關(guān)系〈胃痛, Hyponymy,胃部隱痛〉。
表1 同義關(guān)系和上下位關(guān)系發(fā)現(xiàn)的句法模式
2.3.1 通用特征
Jaccard相似特征:通過(guò)分析醫(yī)療健康網(wǎng)站中已有的上下位關(guān)系,發(fā)現(xiàn)存在上下位關(guān)系的癥狀對(duì)在字形上具有相似性,因此,本文用Jaccard相似系數(shù)來(lái)表示兩個(gè)癥狀實(shí)體E1、E2之間的相似度,系數(shù)值越大,實(shí)體相似度越高,其計(jì)算公式為:
其中:|E1∩E2|表示E1和E2相同文字的個(gè)數(shù);|E1∪E2|表示E1和E2并集文字的個(gè)數(shù)。例如:癥狀“頭痛勞累后加重”和“晨起頭痛加重”之間的Jaccard相似系數(shù)為4/9。
實(shí)體長(zhǎng)度特征:實(shí)體E1和E2的長(zhǎng)度,例如:癥狀“噯氣時(shí)有腐敗雞蛋的氣味”的長(zhǎng)度為11。
2.3.2 癥狀構(gòu)成特征
1)癥狀構(gòu)成成分定義。
癥狀可以切分為原子癥狀詞(AtomSymptom, AS)、中心詞(HeadWord, HW)、性質(zhì)詞(NatureWord, NW)、時(shí)間詞(TimeWord, TW)、修飾詞(AdjWord, AW)、存在詞(ExistWord, EW)、方位詞(PosWord, PW)、連接詞(Conjunction, Conj)八個(gè)類別。即令E為癥狀的構(gòu)成成分集合,E={EAS,EHW,ENW,ETW,EAW,EEW,EPW,EConj},那么對(duì)于癥狀X,可以被形式化地表述為:
X=〈x1,x2,…,xn〉
其中:xi∈E(i=1,2,…,n)。
下面給出各成分類別的定義和示例。
原子癥狀詞:癥狀名中描述患者異常感覺(jué)或體征的關(guān)鍵詞語(yǔ)。它是癥狀名的一部分,可以獨(dú)立表示某一癥狀的具體含義,且不可分成更細(xì)粒度。例如,“耳鳴”是一個(gè)獨(dú)立的癥狀詞,不可以細(xì)分為“耳”和“鳴”,因此“耳鳴”是一個(gè)原子癥狀詞。
中心詞:癥狀發(fā)生的部位或主體,包括人體的部位、器官(如心臟、腰部)以及生理指標(biāo)(如血壓)等。
性質(zhì)詞:反映原子癥狀詞或中心詞的特征和性質(zhì)。例如,“急性背痛”中,“急性”反映了發(fā)病急、變化快的性質(zhì)。
時(shí)間詞:癥狀發(fā)生或依賴的時(shí)間。例如“服藥后頭痛”中,“服藥后”說(shuō)明“頭痛”是在患者服藥后產(chǎn)生的癥狀。
修飾詞:癥狀發(fā)作的頻率、嚴(yán)重程度及發(fā)展趨勢(shì)。例如,對(duì)于“背痛加劇”,“加劇”表明“背痛”正在惡化。
存在詞:表示癥狀的出現(xiàn)和存在。例如,有、可聞及、可觸及等。
方位詞:表示癥狀發(fā)生在某一部位的具體方位。例如,“小腿后側(cè)感覺(jué)障礙”中,“后側(cè)”就是方位詞。
連接詞:連接并列出現(xiàn)的多個(gè)中心詞或原子癥狀詞。例如,“發(fā)熱伴咳嗽”中,“伴”連接了兩個(gè)原子癥狀詞“發(fā)熱”和“咳嗽”。
2)癥狀成分標(biāo)注。
癥狀成分標(biāo)注的流程如圖3所示。本文從《現(xiàn)代漢語(yǔ)八百詞》[14]中收集了19連接詞和11個(gè)單音節(jié)方位詞(用Smpos表示),從《人體解剖學(xué)名詞》[15]中收集身體部位相關(guān)詞匯加入中心詞詞典中,并通過(guò)啟發(fā)式規(guī)則構(gòu)建了癥狀成分詞典。然后基于成分詞典,使用分詞工具和CRF模型[16]對(duì)癥狀進(jìn)行切分和成分標(biāo)注。
圖3 癥狀成分標(biāo)注流程
本文設(shè)計(jì)了一組啟發(fā)式規(guī)則對(duì)分詞產(chǎn)生的短語(yǔ)si(1lt;ilt;m)進(jìn)行分類,并將收集到的詞匯擴(kuò)充到用戶自定義詞典。這些規(guī)則主要依據(jù)詞性、依存關(guān)系和后綴詞等信息。例如,短語(yǔ)“輕度”因其詞性為形容詞而被劃分為修飾詞,“單純性”因其詞性為形容詞,且具有后綴“性”而被劃分為性質(zhì)詞。最終,本文收集到了2 003個(gè)原子癥狀詞、3 893個(gè)中心詞、1 197個(gè)性質(zhì)詞、414個(gè)時(shí)間詞、327個(gè)修飾詞、83個(gè)存在詞、100個(gè)方位詞和11個(gè)連接詞。本文用到的啟發(fā)式規(guī)則如表2所示。
表2 構(gòu)建癥狀成分詞典的啟發(fā)式規(guī)則
用分詞工具進(jìn)行成分標(biāo)注能保證高準(zhǔn)確率,但不能覆蓋所有癥狀。因此,對(duì)于未能被完全標(biāo)注成分的癥狀,本文使用CRF模型進(jìn)行后處理,保證所有癥狀都被劃分為預(yù)定義的成分。用于成分標(biāo)注的特征包括字面特征和詞性特征。
字面特征:出現(xiàn)在上下文的詞語(yǔ)是序列標(biāo)注模型可用的最明顯且信息豐富的特征。由于癥狀實(shí)體的描述語(yǔ)言精練,文獻(xiàn)[17]以漢字為單元,使用Unigram、Bigram和Trigram三種字面特征。它們可以覆蓋癥狀實(shí)體中大部分有意義的短語(yǔ),如癥狀名的前綴、后綴信息。本文也采用這三種字面特征。
詞性特征:根據(jù)癥狀成分詞典可知,構(gòu)成成分與詞性緊密相關(guān)。基于此,本文為成分標(biāo)注模型增加了詞性特征。與字面特征相對(duì)應(yīng),詞性特征同樣包含Unigram、Bigram和Trigram三種特征。本文以字作為標(biāo)注單元時(shí),特征值Pi為Xi所在短語(yǔ)對(duì)應(yīng)的詞性。
3)成分構(gòu)成特征。
本文觀察癥狀的構(gòu)成成分和語(yǔ)法結(jié)構(gòu),定義了癥狀構(gòu)成特征用于上下位關(guān)系的發(fā)現(xiàn)。
成分特征:癥狀實(shí)體中各構(gòu)成成分的個(gè)數(shù)。例如癥狀“脾腎兩虛/NW,夜間/TM,多尿/AS,”中,特征詞、時(shí)間詞和原子癥狀詞的個(gè)數(shù)為1,其余成分的個(gè)數(shù)為0。
位置特征:判斷癥狀E1和E2的公共成分在癥狀實(shí)體中的位置。例如對(duì)于癥狀對(duì)“劇烈的腹部持續(xù)疼痛”和“腹部疼痛”,分別被切分為“劇烈的/AW,腹部/HW,持續(xù)/AW,疼痛/AS”和“腹部/HW,疼痛/AS”,公共成分為“腹部”和“疼痛”,在E1中的位置分別為2和4,在E2中的位置分別為1和2。
(1)MRI檢查:平掃常規(guī)做橫斷面T1WI,橫斷面T2WI,層厚設(shè)置在7mm,層間距設(shè)置為0.7mm;T1WI:冠狀面和矢狀面[1]。靜脈注射0.1mmol/kg釓對(duì)比機(jī),流速控制在每秒2ml;每隔30s,70s和240s給予患者橫斷面增強(qiáng)掃描,層間距設(shè)置為1.6mm,層厚控制在3.2mm。
類別特征:類別特征分為兩類,第一類是公共成分所屬類別,在上例中,公共成分“腹部”和“疼痛”的類別分別是中心詞和原子癥狀詞;第二類是公共成分的前后兩個(gè)成分所屬類別,在上例中,公共成分“腹部”在E1中的前兩個(gè)成分的類別是修飾詞和“Null”,后兩個(gè)成分的類別為修飾詞和原子癥狀詞。
2.3.3 詞典特征
現(xiàn)有的詞典中蘊(yùn)含成分的上下位關(guān)系,本文抽取了《知網(wǎng)》[18]中已有的上下位信息構(gòu)成上下位詞典Dhyp,對(duì)于癥狀對(duì)〈E1,E2〉,基于Dhyp得到的特征為:
1)是否E1中的其他成分?jǐn)?shù)與E2中的其他成分?jǐn)?shù)相同,且在Dhyp中存在對(duì)應(yīng)上下位關(guān)系,是則該特征值為1;否則為0。例如,癥狀“小腹/痛”和“腹/痛”在去掉公共成分后都只剩一個(gè)成分,且“腹”和“小腹”在Dhyp中存在上下位關(guān)系,則特征值為1。
2)是否E1的其他成分?jǐn)?shù)少于E2,且E1的其他成分都是E2其他成分在Dhyp中的上位詞,是則該特征值為1;否則為0。例如“上腹/疼痛”和“腹部/輕微/疼痛”去掉公共成分后還剩“上腹”和“上腹,輕微”,且“上腹”是“腹部”的上位詞,則特征值為1。
3)E2的其他成分?jǐn)?shù)少于E1,且E2的其他成分都是E1其他成分在Dhyp中的上位詞。
3.1.1 實(shí)驗(yàn)設(shè)置
詞性標(biāo)注使用的語(yǔ)料是從醫(yī)療健康網(wǎng)站和百科網(wǎng)站中抽取的癥狀實(shí)體[1],選用中國(guó)科學(xué)院計(jì)算技術(shù)研究所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS 2014對(duì)癥狀進(jìn)行分詞和詞性標(biāo)注等預(yù)處理。從能夠由ICTCLAS完全標(biāo)注的癥狀中,隨機(jī)選取3 000條作為CRF標(biāo)注的訓(xùn)練數(shù)據(jù);從未能進(jìn)行完全標(biāo)注的癥狀中,選取1 000條進(jìn)行人工標(biāo)注,作為測(cè)試數(shù)據(jù)。在人工標(biāo)注時(shí),每條癥狀都由2個(gè)人分別標(biāo)注,結(jié)果不一致的標(biāo)注由第三個(gè)人來(lái)決定。實(shí)驗(yàn)使用了CRF++工具進(jìn)行成分標(biāo)注的后處理,選取的特征為字面特征和詞性特征。用BIE標(biāo)記法進(jìn)行標(biāo)注,這里B表示詞的第一個(gè)字,I代表一個(gè)詞中間的所有字,E代表詞的最后一個(gè)字。上下文窗口為左右1~3個(gè)字(分別對(duì)應(yīng)窗口大小為3、5、7)。
3.1.2 評(píng)價(jià)指標(biāo)
對(duì)于CRF的標(biāo)注結(jié)果,可采用準(zhǔn)確率accuracy作為評(píng)價(jià)指標(biāo),以構(gòu)成成分為單位進(jìn)行評(píng)價(jià):
accuracy=(Ncorrect/Nsum)×100%
其中:Ncorrect表示正確切分和標(biāo)注的成分的數(shù)目;Nsum表示CRF標(biāo)注的成分的總數(shù)目。
表3 不同特征模板的CRF標(biāo)注準(zhǔn)確率比較
3.1.3 實(shí)驗(yàn)結(jié)果
CRF模型在不同特征模板和不同上下文窗口下的標(biāo)注準(zhǔn)確率如表3所示。從實(shí)驗(yàn)結(jié)果可以看出:當(dāng)CRF模型僅使用字面特征時(shí),窗口越大accuracy越高。當(dāng)加入了詞性特征后,accuracy與窗口大小不再正相關(guān),且accuracy比只用字面特征要高,可見(jiàn)詞性特征對(duì)于CRF模型的準(zhǔn)確率有極大的貢獻(xiàn)。最后可以得出結(jié)論:當(dāng)窗口大小為5,同時(shí)采用字面特征和詞性特征時(shí),accuracy最高,達(dá)到了90.06%。因此在后續(xù)實(shí)驗(yàn)時(shí),將窗口大小取為5,此時(shí)Unigram、Bigram和Trigram分別對(duì)應(yīng)5、4和3個(gè)特征,共生成12個(gè)特征。
3.1.4 錯(cuò)誤分析
對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)行分析后,得到了兩類錯(cuò)誤原因:
1)癥狀的表述形式多樣,訓(xùn)練數(shù)據(jù)中很難包含所有的癥狀構(gòu)成序列。對(duì)于未在訓(xùn)練數(shù)據(jù)中出現(xiàn)的序列,CRF難以對(duì)其進(jìn)行正確標(biāo)注。例如“皮膚硬結(jié)冷時(shí)疼痛熱時(shí)瘙癢”的正確切分為“皮膚/HW,硬結(jié)/AS,冷時(shí)/TW,疼痛/AS,熱時(shí)/TW,瘙癢/AS”,訓(xùn)練語(yǔ)句中沒(méi)有這種構(gòu)成序列,CRF標(biāo)注為“皮膚/ HW,硬結(jié)冷時(shí)疼痛熱時(shí)/NW,瘙癢/AS”。
2)醫(yī)療領(lǐng)域有大量專業(yè)術(shù)語(yǔ),如果不加入外部字典,僅依靠CRF訓(xùn)練得到的模型很難對(duì)其識(shí)別。例如對(duì)于“尿道口痛”,CRF無(wú)法將“尿道口”識(shí)別為HW,而導(dǎo)致將癥狀成分標(biāo)注為“尿道/HW,口痛/AS”。
3.2.1 實(shí)驗(yàn)設(shè)置
本文選取六個(gè)醫(yī)療健康網(wǎng)站抽取實(shí)驗(yàn)數(shù)據(jù),分別是:尋醫(yī)問(wèn)藥網(wǎng)(http://www.xywy.com/)、快速問(wèn)醫(yī)生(http://www.120ask.com/)、39健康網(wǎng)(http://www.39.net/)、99健康網(wǎng)(http://www.99.com.cn/)、家庭醫(yī)生在線(http://www.familydoctor.com.cn/)和飛華健康網(wǎng)(http://www.fh21.com.cn/)。從每個(gè)網(wǎng)站的“分類”中抽取實(shí)體的下位詞,并基于2.2.2節(jié)提出的啟發(fā)式規(guī)則從實(shí)體的描述文本中抽取上下位關(guān)系作為正例。從“別名”中抽取實(shí)體的同義詞,并基于啟發(fā)式規(guī)則從“描述”中抽取同義關(guān)系作為負(fù)例,另外,通過(guò)隨機(jī)負(fù)采樣得到癥狀間的無(wú)關(guān)系,同樣作為負(fù)例。最終,本文抽取了6 400條關(guān)系,其中3 300條為正例,3 100條為負(fù)例。
分類器使用Weka3.8.0版本,選取了通用特征Fc、癥狀構(gòu)成特征Fz和詞典特征Fd三大類特征,分別基于樸素貝葉斯、決策樹、AdaBoost、隨機(jī)森林、Bagging和支持向量機(jī)六類模型進(jìn)行關(guān)系分類,然后比較不同分類模型的分類結(jié)果。所有測(cè)試結(jié)果都是通過(guò)十折交叉驗(yàn)證[19]得到,即實(shí)驗(yàn)數(shù)據(jù)被隨機(jī)分成大小相同的10份,訓(xùn)練集和測(cè)試集的比例為9∶1,最終取10次實(shí)驗(yàn)的平均值作為最終結(jié)果。
3.2.2 評(píng)價(jià)指標(biāo)
對(duì)于上下位關(guān)系的分類結(jié)果,本文采用準(zhǔn)確率Precision、召回率Recall和F1值F1-measure作為評(píng)價(jià)指標(biāo),分類結(jié)果的混淆矩陣如表4所示。
表4 分類結(jié)果混淆矩陣
表1中:TP表示分類器將實(shí)際為正例(即上下位關(guān)系)的樣本識(shí)別為正例的數(shù)目,FP表示分類器將實(shí)際為負(fù)例(即非上下位關(guān)系)的樣本識(shí)別為正例的數(shù)目,FN表示分類器將實(shí)際為正例的樣本識(shí)別為負(fù)例的數(shù)目,TN表示分類器將實(shí)際為負(fù)例的樣本識(shí)別為負(fù)例的數(shù)目。根據(jù)混淆矩陣,準(zhǔn)確率、召回率和F1值分別定義如下:
3.2.3 實(shí)驗(yàn)結(jié)果
不同分類模型使用不同特征時(shí)的Precision、Recall和F1值如表5所示。從實(shí)驗(yàn)結(jié)果可以看出,分類模型同時(shí)選用癥狀構(gòu)成特征和通用特征的準(zhǔn)確率和召回率要遠(yuǎn)遠(yuǎn)高于只選用通用特征,說(shuō)明癥狀構(gòu)成對(duì)上下位關(guān)系的發(fā)現(xiàn)有極大貢獻(xiàn)。另外,進(jìn)一步加入詞典特征后,分類模型的準(zhǔn)確率和召回率也都有明顯提升,說(shuō)明詞典中成分的上下位信息有利于發(fā)現(xiàn)更多癥狀之間的上下位關(guān)系。例如對(duì)于癥狀“腹部/HW,疼痛/AS”和“上腹/HW,疼痛/AS”,通過(guò)構(gòu)成特征和通用特征很難找到兩者之間的上下位關(guān)系,需要依靠詞典特征。樸素貝葉斯模型的結(jié)果最差,因?yàn)闃闼刎惾~斯模型假設(shè)特征之間相互獨(dú)立,而這個(gè)假設(shè)在本文方法中是不成立的。在同時(shí)選取三類特征的情況下,基于支持向量機(jī)的分類模型取得了最高的準(zhǔn)確率為82.68%,召回率為82.13%,F(xiàn)1值為82.40%。
表5 不同分類模型使用不同特征的結(jié)果比較 %
3.2.4 錯(cuò)誤分析
關(guān)系抽取錯(cuò)誤的主要原因有:
1)上位詞原本是原子癥狀詞,但在下位詞中,其變成了修飾詞或加上“性”變成了性質(zhì)詞,下位詞的原子癥狀詞并不是上位詞的原子癥狀詞。例如,“瘙癢”是一個(gè)原子癥狀,但在“無(wú)瘙癢、無(wú)肝膽疾病的皮膚黃染”中,“瘙癢”是修飾詞,用來(lái)修飾原子癥狀詞“皮膚黃染”。
2)用分詞工具和CRF進(jìn)行分詞和詞性標(biāo)注時(shí)出現(xiàn)錯(cuò)誤,導(dǎo)致分類結(jié)果錯(cuò)誤。例如,“咳嗽變異性哮喘”的分詞結(jié)果是“咳嗽/AS,變異性/NW,哮喘/AS”,找到了上下位關(guān)系〈咳嗽,Hyponymy,咳嗽變異性哮喘〉,但正確的分詞結(jié)果應(yīng)為“咳嗽變異性/NW,哮喘/AS”,因此找到的上下位關(guān)系是錯(cuò)誤的。
癥狀之間關(guān)系的識(shí)別,可以豐富已有的醫(yī)療知識(shí)庫(kù),使實(shí)體之間的關(guān)系更加豐富?;跀U(kuò)充的醫(yī)療知識(shí)庫(kù),實(shí)現(xiàn)醫(yī)療問(wèn)答系統(tǒng)和臨床決策系統(tǒng)的優(yōu)化,對(duì)輔助診療有重要意義。本文通過(guò)觀察癥狀實(shí)體名,發(fā)現(xiàn)癥狀可以切分成原子癥狀詞、中心詞、修飾詞等八種成分,另外,癥狀構(gòu)成滿足一定的規(guī)則和模式。因此,本文把癥狀成分的構(gòu)成特征作為分類器的特征,還增加了成分的上下位詞典和通用特征這兩類特征。本文把癥狀關(guān)系抽取問(wèn)題看作分類問(wèn)題,基于不同的分類算法訓(xùn)練分類模型。最終,本文獲取了20 619條關(guān)系,得到了很好的準(zhǔn)確率,并構(gòu)建了具有上下位關(guān)系的癥狀知識(shí)庫(kù)。
References)
[1] RUAN T, WANG M, SUN J, et al. An automatic approach for constructing a knowledge base of symptoms in Chinese[C]// Proceedings of the 2016 IEEE International Conference on Bioinformatics and Biomedicine. Washington, DC: IEEE Computer Society, 2016: 1657-1662.
[2] FU R, QIN B, LIU T. Exploiting multiple sources for open-domain hypernym discovery [EB/OL]. [2017- 01- 10]. http://www.aclweb.org/anthology/D13-1122.pdf.
[3] HEARST, MARTI A. Automatic acquisition of hyponyms from large text corpora[C]// COLING 1992: Proceedings of the 14th Conference on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1992, 2: 539-545.
[4] CEDERBERG S, WIDDOWS D. Using LSA and noun coordination information to improve the precision and recall of automatic hyponymy extraction[C]// CONLL 2003: Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. Stroudsburg, PA, USA: Association for Computational Linguistics, 2003, 4: 111-118.
[5] 劉磊, 曹存根, 王海濤, 等.一種基于“是一個(gè)”模式的下位概念獲取方法[J]. 計(jì)算機(jī)科學(xué), 2006, 33(9): 146-151. (LIU L, CAO C G, WANG H T, et al. A method of hyponym acquisition based on “isa” pattern. [J]. Computer Science, 2006, 33(9): 146-151.)
[6] GEORGE A. MILLER, RICHARD B, et al. Introduction to WordNet: an on-line lexical database[J]. International Journal of Lexicography, 1990, 3(4): 235-244.
[7] DONG Z, DONG Q. HowNet — a hybrid language and knowledge resource[C]// Proceedings of the 2003 International Conference on Natural Language Processing and Knowledge Engineering. Piscataway, NJ: IEEE, 2003: 820-824.
[8] CARABALLO S A. Automatic construction of a hypernym-labeled noun hierarchy from text[C]// ACL 1999: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1999: 120-126.
[9] RITTER A, SODERLAND S, ETZIONI O. What is this, anyway: automatic hypernym discovery[C]// Proceedings of the 2009 AAAI Spring Symposium: Learning by Reading and Learning to Read. Menlo Park: AAAI Press, 2009: 88-93.
[10] 黃毅, 王慶林, 劉禹. 一種基于條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)上下位關(guān)系獲取方法[J]. 中南大學(xué)學(xué)報(bào) (自然科學(xué)版), 2013, 44(2): 355-359. (HUANG Y, WANG Q L, LIU Y. An acquisition method of domain-specific terminological hyponymy based on CRF[J]. Journal of Central South University (Science and Technology), 2013, 44(2): 355-359.)
[11] FU R, GUO J, QIN B, et al. Learning semantic hierarchies via word embeddings[EB/OL]. [2017- 01- 10]. https://www.aclweb.org/anthology/P/P14/P14-1113.xhtml.
[12] 郭玉峰, 劉保延, 周雪忠. SNOMED CT的語(yǔ)義關(guān)系與連接概念[J]. 中華中醫(yī)藥學(xué)刊, 2008, 26(10): 2206-2209. (GUO Y F, LIU B Y, ZHOU X Z. Semantic relationship and linkage concept of SNPMED CT[J]. Chinese Archives of Traditional Chinese Medicine, 2008, 26(10): 2206-2209.)
[13] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// NIPS 2013: Proceedings of the 26th International Conference on Neural Information Processing Systems. New York: Curran Associates, 2013: 3111-3119.
[14] 呂叔湘. 現(xiàn)代漢語(yǔ)八百詞[M]. 北京: 商務(wù)印書館, 2005. (LYU S X. Modern Chinese Eight Hundred Words[M]. Beijing: Commercial Press, 2005.
[15] 人體解剖學(xué)與組織胚胎學(xué)名詞審定委員會(huì). 人體解剖學(xué)名詞[M]. 北京: 科學(xué)出版社, 2014. (Committee for the Examination of the Terms of Human Anatomy and Histology and Embryology. Human Anatomy Terms[M]. Beijing: Science Press, 2014.)
[16] LAFFERTY J D, MCCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]// ICML 2001: Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers, 2001: 282-289.
[17] WANG Y, LIU Y, YU Z, et al. A preliminary work on symptom name recognition from free-text clinical records of traditional Chinese medicine using conditional random fields and reasonable features[EB/OL]. [2017- 01- 10]. http://www.aclweb.org/anthology/W12-2428.
[18] 董強(qiáng), 董振東.知網(wǎng)簡(jiǎn)介 [EB/OL]. [2016- 01- 29]. http://www.keenage.com/. (DONG Q, DONG Z D. Introduction of HowNet[EB/OL]. [2016- 01- 29]. http://www.keenage.com/html/c_index.html.)
[19] ARLOT S, CELISSE A. A survey of cross-validation procedures for model selection[J]. Statistics Surveys, 2010, 4: 40-79.
Automatichyponymyextractingmethodbasedonsymptomcomponents
WANG Ting1*, WANG Qi1, HUANG Yueqi1, YIN Yichao2, GAO Ju2
(1.SchoolofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China;2.ShuguangHospitalAffiliatedtoShanghaiUniversityofTraditionalChineseMedicine,Shanghai200021,China)
Since the hyponymy between symptoms has strong structural features, an automatic hyponymy extracting method based on symptom components was proposed. Firstly, it was found that symptoms can be divided into eight parts: atomic symptoms, adjunct words, and so on, and the composition of these parts satisfied certain constructed rules. Then, the lexical analysis system and Conditional Random Field (CRF) model were used to segment symptoms and label the parts of speech. Finally, the hyponymy extraction was considered as a classification problem. Symptom constitution features, dictionary features and general features were selected as the features of different classification algorithms to train the models. The relationship between symptoms were divided into hyponymy and non-hyponymy. The experimental results show that when these features are selected simultaneously, precision, recall andF1-measure of Support Vector Machine (SVM) are up to 82.68%, 82.13% and 82.40%, respectively. On this basis, by using the above hyponymy extracting algorithm, 20 619 hyponymies were extracted, and the knowledge base of symptom hyponymy was built.
hyponymy; symptom component; Conditional Random Field (CRF); relationship classification; Support Vector Machine (SVM); decision tree; Naive Bayesian (NB)
2017- 04- 25;
2017- 06- 12。
國(guó)家863計(jì)劃項(xiàng)目(2015AA020107);國(guó)家科技支撐計(jì)劃項(xiàng)目(2015BAH12 F01-05)。
王婷(1993—),女,山東濰坊人,碩士研究生,CCF會(huì)員,主要研究方向:信息抽取、知識(shí)圖譜; 王祺(1993—),男,江蘇蘇州人,碩士研究生,CCF會(huì)員,主要研究方向:信息抽取、知識(shí)圖譜、機(jī)器翻譯; 黃越圻(1993—),男,浙江紹興人,碩士研究生,CCF會(huì)員,主要研究方向:知識(shí)圖譜、自然語(yǔ)言問(wèn)答; 殷亦超(1983—),男,上海人,工程師,碩士,主要研究方向:醫(yī)院信息化; 高炬(1966—),男,上海人,主任醫(yī)師,碩士,主要研究方向:醫(yī)院行政管理、中西醫(yī)結(jié)合治療肝膽病。
1001- 9081(2017)10- 2999- 07
10.11772/j.issn.1001- 9081.2017.10.2999
TP391.1
A
This work is partially supported by the National High Technology Research and Development Program (863 Program) of China (2015AA020107), the National Key Technology Research and Development Program of the Ministry of Science and Technology of China (2015BAH12F01-05).
WANGTing, born in 1993, M. S. candidate. Her research interests include information extraction, knowledge graph.
WANGQi, born in 1993, M. S. candidate. His research interests include information extraction, knowledge graph and machine translation.
HUANGYueqi, boin in 1993, M. S. candidate. His research interests include knowledge graph and natural-language question answering.
YINYichao, born in 1983, M. S., engineer. His research interests include hospital informatization.
GAOJu, born in 1966, M. S., chief physician. His research interests include hospital administration, treatment of hepatobiliary diseases by integrating traditional Chinese and western medicine.