游正洋++王亞強++舒紅平
摘 要文章對中醫(yī)癥候名語料庫進行研究分析,并建立一個中醫(yī)癥候名的中英文對齊語料庫。該語料庫可以幫助識別中醫(yī)醫(yī)療記錄中易混淆的癥候名。同時設計了一種標注方法對癥候名數(shù)據(jù)集進行標注。語料庫能夠?qū)χ嗅t(yī)臨床癥候名研究提供幫助。
【關鍵詞】自然語言處理 文本挖掘 語料庫 中醫(yī)癥候名 詞性標注
1 前言
在西方國家,中醫(yī)是一種與西醫(yī)互補的、可替代的醫(yī)學系統(tǒng);但是在亞洲國家,中醫(yī)在幾千年前就已經(jīng)被用來治療各種疾病。中醫(yī)是研究人體生理學、病理學和預防治療人類疾病的一門學科。目前的中醫(yī)理論基于宇宙原理和中國哲學,包含了整體論、分化、陰陽和五行理論。中醫(yī)的醫(yī)療方法專注于提高人體自我控制系統(tǒng)和人體內(nèi)部環(huán)境的協(xié)調(diào)來增強人體對疾病的抵抗力。中醫(yī)的治療相對復雜,其醫(yī)學思想與現(xiàn)代西方醫(yī)學有很大不同,因此,在大部分研究者看來中醫(yī)的研究難度相對較大。目前,文本挖掘越來越多地被應用在中醫(yī)臨床記錄地研究中,而自然語言處理方法被考慮作為一種工具來提高文本挖掘在中醫(yī)臨床記錄研究中的潛力。文本挖掘的基本目標是找出文本中的潛在內(nèi)容和萃取潛在知識,如內(nèi)在聯(lián)系、簡潔的用戶模式等。伴隨者中醫(yī)可用數(shù)據(jù)的迅速增加,迫切的需要瀏覽這些從大量文獻中獲取的資源數(shù)據(jù)。中醫(yī)癥候名就是其中最重要的數(shù)據(jù)之一。
然而,中文,尤其是中醫(yī)癥候名,具有非常豐富的語義。在不同的上下文中,一個中文漢字可能含有超過一種語義;不同的中文漢字的組合又會帶來另外的含義。在中醫(yī)癥候名中,一些癥候名的含義相同但是癥候名稱不一致。例如,“腎氣虛證”和“腎氣虧虛證”的癥候名稱不一致,但是含義是相同的。由于癥候名稱的不一致導致醫(yī)生之間的交流效率受到影響。因此,提高中醫(yī)臨床記錄中的癥候名識別程度變得很有必要。
根據(jù)以上需求,研究建立了中醫(yī)癥候名的中英文雙語對齊語料庫。語料庫提供了一種通過英文識別有混淆語義的中醫(yī)臨床癥候名的方法。該語料庫同時也可供中醫(yī)文獻和臨床記錄的文本挖掘使用。
2 語料庫建立方法
2.1 數(shù)據(jù)處理
中醫(yī)癥候名原始數(shù)據(jù)從病人的診斷記錄和治療記錄中獲取。從中共獲取了812個未處理的癥候名稱。為了使數(shù)據(jù)集更簡潔,我們將原始癥候名進行切分。在原始癥候名中包含小括號和中括號兩種類型的詞匯。小括號中的漢字表示可以忽略;中括號中的漢字表示可以進行替換。例如,“心氣(虧)虛證”表示“虧”可以忽略,則可將“心氣(虧)虛證”拆分成“心氣虛證”和“心氣虧虛證”兩個詞;“沖任失[不]調(diào)證”表示“不”可以被替換,則可將“沖任失[不]調(diào)證”拆分為“沖任失調(diào)證”和“沖任不調(diào)證”。經(jīng)過處理,數(shù)據(jù)集一共包含了1129個癥候名。接下來我們分別使用人工翻譯和機器翻譯將每個癥候名翻譯為英文,以便對翻譯質(zhì)量進行對比。我們將一份翻譯標準作為對比依據(jù)。將處理后的癥候名再分割為單個漢字,;例如,“心氣虧虛證”被分割為“心”、“氣”、“虧”、“虛”、“證”5個漢字。
2.2 標注方法
語料庫使用矩陣來對1129個中醫(yī)癥候名進行標注。矩陣的第一列為被分割的中醫(yī)癥候名漢字,第一行為該癥候名的英文翻譯。如果拆分的漢字與英文單詞對應,則標記為“1”;如果在英文翻譯的單詞中沒有與漢字對應則在“null”列標記“1”。圖1為中英文對齊標注矩陣。
我們建立了2個中英文對齊數(shù)據(jù)集用于對比參考。一個數(shù)據(jù)集通過翻譯工具進行翻譯,另一個通過人工進行翻譯。我們對兩者的翻譯質(zhì)量進行實驗對比。
3 實驗
3.1 翻譯質(zhì)量
我們使用一份翻譯標準分別對工具翻譯和人工翻譯進行對比評估。使用翻譯工具對癥候名進行翻譯后與翻譯標準進行對比,在1129個癥候名中工具翻譯與翻譯標準相同的詞為6個,不同的有1123個。使用人工翻譯對癥候名進行翻譯則有1124個詞與翻譯標準相同,5個詞與翻譯標準不同。從統(tǒng)計數(shù)據(jù)可以看出,工具翻譯與翻譯標準對比差距較大,而人工翻譯則與翻譯標準差異較小。說明人工翻譯比工具翻譯更為準確。為了說明語料庫的信度和翻譯難度,我們引入了kappa系數(shù)對數(shù)據(jù)進行分析。
3.2 數(shù)據(jù)集的kappa系數(shù)分析
Kappa系數(shù)是一種廣泛使用的評估者之間的評分一致性的指標。Kappa系數(shù)公式為:
(1)
其中,p0為實際一致率,pe為隨機一致率。如果一致率完全相同則K=1。K值計算結(jié)果為-1到1之間,其絕對值越小說明一致性越低。
為了分別計算工具翻譯與人工翻譯的kappa值,我們分別建立了兩組工具翻譯和人工翻譯的數(shù)據(jù)集。兩組工具翻譯采用不同的翻譯工具,兩組人工翻譯同樣使用不同的翻譯人員進行翻譯。表1展示了工具翻譯的kappa系數(shù)矩陣。從矩陣可計算出工具翻譯的kappa值為0.583,說明不同的工具翻譯具有中等的一致性。表2展示了人工翻譯的kappa系數(shù)矩陣,其kappa值為-0.009,說明不同的人工翻譯之間具有較低的一致性。
4 語料庫相關分析
中醫(yī)癥候名的中英文雙語對齊語料庫共有1129個癥候名、5618個分割漢字和4591個英文翻譯。在語料庫中,我們使每個漢字都與一個英文翻譯對齊,如圖2所示。我們通過中英文的映射標記了中英癥候名之間的聯(lián)系。語料庫提供了中英文的癥候名對齊,該語料庫可以用于具有混淆語義的中醫(yī)臨床癥候名的識別,同時也可用于中醫(yī)文本挖掘的研究。
5 結(jié)論
中醫(yī)癥候名的中英文雙語對齊語料庫完成了3個相關任務:癥候名預處理,翻譯和癥候名分割,癥候名標注與對齊。該語料庫可作為中醫(yī)癥候名研究的基礎,同時可以幫助研究者更有效和更精確地識別臨床中醫(yī)癥候名。語料庫也存在以下不足:語料庫數(shù)據(jù)集數(shù)量偏小。在今后的研究中會不斷的增加新的中醫(yī)癥候名,使識別準確率更加精確。
參考文獻
[1]Fang Y,Huang H,Chen H.TCMGeneDIT:a database for associated traditional Chinese medicine, gene and disease information using text mining[J]. BMC Complementary and Alternative Medicine,2008.endprint
[2]Wang S,Li Y,Devinsky O,et al. Traditional chinese medicine[J]. Complementary and alternative therapies for epilepsy,2005:177-182.
[3]Lu A P,Jia H W,Xiao C,et al.Theory of traditional Chinese medicine and therapeutic method of diseases[J].World journal of gastroenterology:WJG,2004,10(13):1854.
[4]Hafner C.Introduction to Traditional Chinese Medicine (Out of Print)[J]. 2006.
[5]Ananiadou S,Kell DB,Tsujii [J].Text mining and its potential applications in systems biology. Trends Biotechnol.2006(24):571-579.
[6]Feng Y,Wu Z,Zhou X,et al.Knowledge discovery in traditional Chinese medicine: state of the art and perspectives[J].Artificial Intelligence in Medicine,2006,38(03):219-236.
[7]Viera A J,Garrett J M.Understanding interobserver agreement:the kappa statistic[J].Fam Med,2005,37(05):360-363.
[8]Cohen J.A coefficient of agreement for nominal scales[J].Educational and psychological measurement,1960,20(01):37-46.
作者單位
成都信息工程大學軟件工程學院 四川省成都市 610225endprint