于 清,陳亞波,徐 健,常 樂(lè),侯云霞
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830008)
大數(shù)據(jù)、云平臺(tái)、移動(dòng)網(wǎng)絡(luò)、社交媒體、深度學(xué)習(xí)、人工智能等計(jì)算機(jī)技術(shù)迅猛發(fā)展,顛覆了許多傳統(tǒng)行業(yè),行醫(yī)治病模式也發(fā)生巨大變化,醫(yī)學(xué)與計(jì)算機(jī)技術(shù)結(jié)合越來(lái)越緊密。此外,人們生活水平不斷提高,對(duì)健康越來(lái)越重視,加速了醫(yī)療智能化發(fā)展,“互聯(lián)網(wǎng)+健康醫(yī)療”開(kāi)啟了新時(shí)代,穿戴式計(jì)算產(chǎn)品、移動(dòng)醫(yī)療應(yīng)用越來(lái)越多走進(jìn)人們生活[1]。但是,新疆維吾爾自治區(qū)民族居多,語(yǔ)言不通,加之基礎(chǔ)醫(yī)療設(shè)施落后,造成偏遠(yuǎn)地區(qū)看病難,由此,開(kāi)展醫(yī)療衛(wèi)生服務(wù)信息化、翻譯自動(dòng)化研究意義深遠(yuǎn)。
實(shí)現(xiàn)醫(yī)療衛(wèi)生領(lǐng)域信息化、自動(dòng)化,最基礎(chǔ)的技術(shù)研究詞法分析、句法分析、語(yǔ)義分析是關(guān)鍵?,F(xiàn)有分詞工具應(yīng)用于醫(yī)學(xué)文本,出錯(cuò)率高,并且面對(duì)復(fù)雜專(zhuān)業(yè)的醫(yī)學(xué)術(shù)語(yǔ)詞匯,現(xiàn)有標(biāo)注集中的符號(hào),無(wú)法準(zhǔn)確標(biāo)注,目前醫(yī)療衛(wèi)生領(lǐng)域,還沒(méi)有統(tǒng)一標(biāo)準(zhǔn)的詞性標(biāo)注規(guī)范集。
語(yǔ)義依存分析是建立在精確分詞,精準(zhǔn)詞性標(biāo)注以及語(yǔ)義關(guān)系標(biāo)記基礎(chǔ)之上,它融合了句子的依存結(jié)構(gòu)和語(yǔ)義信息,對(duì)高層次應(yīng)用研究如:自動(dòng)問(wèn)答、信息抽取、機(jī)器翻譯、信息檢索、自動(dòng)文摘等有很大幫助。關(guān)于醫(yī)學(xué)文本數(shù)據(jù)語(yǔ)義依存樹(shù)庫(kù)建設(shè),還沒(méi)有檢索到相關(guān)文獻(xiàn)。文章研究目標(biāo)是構(gòu)建醫(yī)學(xué)術(shù)語(yǔ)詞典提高現(xiàn)有分詞系統(tǒng)準(zhǔn)確率;在現(xiàn)有詞性標(biāo)注規(guī)范集基礎(chǔ)上,對(duì)醫(yī)療衛(wèi)生文本數(shù)據(jù)詞性標(biāo)注提出建議;對(duì)語(yǔ)義依存句法分析工具錯(cuò)誤的標(biāo)注結(jié)果進(jìn)行總結(jié),為下一步實(shí)現(xiàn)自動(dòng)化后處理以及探索維語(yǔ)依存樹(shù)庫(kù)建設(shè)奠定基礎(chǔ)。
圖1 研究?jī)?nèi)容設(shè)計(jì)方案
國(guó)內(nèi)比較流行的中文分詞工具有:結(jié)巴、THULAC、LTP[2]、ICTCLAS[3],這些分詞工具在github上已經(jīng)開(kāi)源,對(duì)通用文本如:新聞、體育、政治有較高的自動(dòng)識(shí)別率,但是應(yīng)用于專(zhuān)業(yè)領(lǐng)域,識(shí)別率偏低[4]。
結(jié)巴分詞系統(tǒng)優(yōu)勢(shì)在于支持用戶(hù)添加自定義詞典,并且用戶(hù)添加詞典的優(yōu)先級(jí)高于系統(tǒng)原詞典,根據(jù)第二屆國(guó)際漢語(yǔ)分詞測(cè)評(píng),發(fā)布的國(guó)際中文分詞測(cè)評(píng)標(biāo)準(zhǔn),它的精確率為81.4%,未登錄詞召回率為80.9%,F(xiàn)值為81.1%。它的詞性標(biāo)注集參考了北大詞性標(biāo)注集、清華大學(xué)詞性標(biāo)注集及美國(guó)賓州大學(xué)中文詞性標(biāo)注集。將結(jié)巴分詞工具應(yīng)用于醫(yī)療衛(wèi)生文本數(shù)據(jù),準(zhǔn)確率只有26%,造成切分不準(zhǔn)確的主要原因:大量醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)詞匯,且詞的組合形式多樣,增加了分詞工具識(shí)別難度,構(gòu)建醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)詞典是提高分詞工具切分準(zhǔn)確率的可行方案。
醫(yī)療衛(wèi)生領(lǐng)域疾病種類(lèi)多、藥物名稱(chēng)多、專(zhuān)業(yè)稱(chēng)呼復(fù)雜,專(zhuān)用動(dòng)詞出現(xiàn)頻繁。經(jīng)過(guò)對(duì)醫(yī)學(xué)術(shù)語(yǔ)大量查找、篩選、查重,重點(diǎn)從以下幾方面采集數(shù)據(jù):國(guó)際疾病分類(lèi)標(biāo)準(zhǔn)編碼[5];搜狗醫(yī)學(xué)詞庫(kù);臨床術(shù)語(yǔ);人體器官名;常用藥品名稱(chēng);人體穴位及解剖學(xué)常用詞匯;國(guó)際醫(yī)學(xué)組織、醫(yī)院科室、醫(yī)用工具及醫(yī)護(hù)人員專(zhuān)業(yè)稱(chēng)呼。最終獲得65394個(gè)醫(yī)學(xué)術(shù)語(yǔ)詞匯,其中最長(zhǎng)12字,對(duì)整理后的術(shù)語(yǔ)詞匯進(jìn)行人工詞性標(biāo)注,完成醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)詞典構(gòu)建。
文獻(xiàn)[6]分別應(yīng)用三種分詞方法:基于詞典的分詞方法,基于統(tǒng)計(jì)的分詞方法和詞典與統(tǒng)計(jì)相結(jié)合的分詞方法對(duì)醫(yī)療數(shù)據(jù)進(jìn)行分詞實(shí)驗(yàn),其中,基于詞典的分詞方法準(zhǔn)確率最高。文章深入探索該方法的實(shí)際應(yīng)用,發(fā)現(xiàn)如果合理解決醫(yī)學(xué)術(shù)語(yǔ)中大量組合詞何時(shí)組合、何時(shí)拆分,該方法用于對(duì)醫(yī)療文本數(shù)據(jù)切分,效果明顯提升。提出組合詞切分規(guī)則“如果該詞切分后,每個(gè)詞都有實(shí)際意義,做切分處理,否則組合成一個(gè)詞”[7]。具體實(shí)例如下:
1.“腎上腺利尿激素”這個(gè)組合詞,由“腎上腺”和“利尿激素”兩個(gè)詞構(gòu)成,由于“腎上腺”在醫(yī)學(xué)詞匯中有實(shí)際意義,而“利尿激素”也具有實(shí)際意義,所以對(duì)該類(lèi)詞拆分處理。
2.“阿爾茨海默蛋白”這個(gè)組合詞,分詞系統(tǒng)處理結(jié)果為“阿爾茨海默”(被標(biāo)注為人名(nr))和“蛋白”(名詞,(n))兩個(gè)詞。雖然“阿爾茨海默”表示人名,但在醫(yī)學(xué)用語(yǔ)中,通常見(jiàn)它與“病”,“癥”等詞組合,表示一種疾病或病理。將該類(lèi)詞組合成一個(gè)詞,方能表達(dá)出詞匯真實(shí)含義。
遵循切分規(guī)則,構(gòu)建醫(yī)學(xué)術(shù)語(yǔ)常用詞典,結(jié)巴分詞系統(tǒng)添加了自定義的詞典后,對(duì)醫(yī)療衛(wèi)生文本數(shù)據(jù)再切分,準(zhǔn)確率達(dá)到78.5%,較之前提高了52.5%。
對(duì)中文文本信息化處理過(guò)程中,首要問(wèn)題是分詞,從而需要制訂分詞標(biāo)準(zhǔn)以及詞性標(biāo)注規(guī)范集,判斷詞與詞的分界,以及對(duì)不同詞類(lèi)進(jìn)行詞性標(biāo)注?,F(xiàn)有的標(biāo)注集有:《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》(簡(jiǎn)稱(chēng)國(guó)家規(guī)范)[8],1992年頒布;《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范》,由北京大學(xué)2002年頒布;《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)文本分詞規(guī)范Ver3.0》,由清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系和北京語(yǔ)言文化大學(xué)語(yǔ)言信息處理研究所1998年頒布;《973當(dāng)代漢語(yǔ)文本語(yǔ)料庫(kù)分詞、詞性標(biāo)注加工規(guī)范》,由山西大學(xué)2003年頒布,以及《資訊處理用中文分詞規(guī)范》,由臺(tái)灣1998年頒布。除了臺(tái)灣頒布的規(guī)范集外,其余規(guī)范集都是在大陸規(guī)范的基礎(chǔ)上制定的。但是,對(duì)于醫(yī)療衛(wèi)生領(lǐng)域,目前沒(méi)有統(tǒng)一標(biāo)準(zhǔn)的規(guī)范集。
不同于新聞報(bào)紙?jiān)~匯,醫(yī)療衛(wèi)生領(lǐng)域詞匯有明顯醫(yī)學(xué)特色及特殊含義,如果完全參考原標(biāo)注體系,有些詞將無(wú)法表示出實(shí)際意義。如:“肌力4+級(jí)”,分詞系統(tǒng)對(duì)符號(hào)“+”的標(biāo)注結(jié)果為“x”,而它在句中的真實(shí)含義是“強(qiáng)”,標(biāo)注為“a”形容詞更貼切。諸如此類(lèi)情況,迫切需要醫(yī)療領(lǐng)域信息化進(jìn)程中,基于原有標(biāo)注集,進(jìn)行完善補(bǔ)充。
對(duì)分詞工具處理后的醫(yī)療衛(wèi)生文本進(jìn)行分析發(fā)現(xiàn),一般詞匯都能準(zhǔn)確切分,醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)出錯(cuò)率極高,而包含大量醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)命名實(shí)體,尤其名詞是醫(yī)學(xué)文本主要特征。文章就名詞類(lèi)展開(kāi)研究,綜合上述已有規(guī)范,名詞類(lèi)常見(jiàn)詞性標(biāo)記如表1。
表1 名詞類(lèi)詞性標(biāo)注
細(xì)觀(guān)自動(dòng)分詞標(biāo)注后的醫(yī)療衛(wèi)生文本數(shù)據(jù),大量命名實(shí)體,類(lèi)型繁雜,上述名詞詞性標(biāo)記,不足以反映出醫(yī)學(xué)術(shù)語(yǔ)專(zhuān)有名詞特點(diǎn),建議在原有標(biāo)注集基礎(chǔ)上增加一類(lèi)標(biāo)記,醫(yī)學(xué)術(shù)語(yǔ)專(zhuān)有名詞標(biāo)記“ny”,由名詞代碼n和“醫(yī)”的聲母y并在一起構(gòu)成,ny又可細(xì)分為以下3類(lèi):
(1)“眼眶”、“脊髓”、“靜脈”等器官名稱(chēng),包括中醫(yī)人體穴位,在醫(yī)療衛(wèi)生文本中大量出現(xiàn),建議列為醫(yī)學(xué)術(shù)語(yǔ)專(zhuān)有名詞一個(gè)子類(lèi)——器官類(lèi)“nyq”。
(2)“腦性癱瘓”、“高血壓”為疾??;“CT”、“B超”為檢查;“手術(shù)刀”、“止血鉗”為醫(yī)療器械。醫(yī)療衛(wèi)生文本包含大量疾病治療過(guò)程,其中疾病病理名稱(chēng)、疾病癥狀,所用器械、檢查、手術(shù)名稱(chēng)及治療過(guò)程等與疾病密切相關(guān),建議列為醫(yī)學(xué)術(shù)語(yǔ)專(zhuān)有名詞一個(gè)子類(lèi)——疾病類(lèi)“nyj”。
(3)大量與治療疾病相關(guān)的藥物,不但包括藥物名稱(chēng)(包括通用名,正式商品名,以及藥物主要成分命名的醫(yī)用名),而且包括藥物的施治方式,計(jì)量,用藥頻率等,建議列為醫(yī)學(xué)術(shù)語(yǔ)專(zhuān)有名詞中一個(gè)子類(lèi)——藥物類(lèi)“nyy”。針對(duì)醫(yī)療衛(wèi)生文本數(shù)據(jù)特點(diǎn),醫(yī)學(xué)術(shù)語(yǔ)專(zhuān)有名詞分類(lèi)細(xì)則參見(jiàn)圖2所示。
圖2 醫(yī)學(xué)術(shù)語(yǔ)專(zhuān)有名詞分類(lèi)
以上對(duì)原有標(biāo)注集的補(bǔ)充完善,必將促進(jìn)醫(yī)療領(lǐng)域文本數(shù)據(jù)的自動(dòng)化處理。
語(yǔ)義依存分析的目標(biāo)是跨越句子表層句法結(jié)構(gòu)束縛,分析句子各個(gè)語(yǔ)言單位之間的語(yǔ)義關(guān)聯(lián),并將具有直接語(yǔ)義關(guān)聯(lián)的語(yǔ)言單元直接連接依存弧,并標(biāo)記上相應(yīng)的語(yǔ)義關(guān)系,從而獲取深層語(yǔ)義信息[9]。
語(yǔ)義依存關(guān)系分為三類(lèi),語(yǔ)義角色:包含34種關(guān)系,每一種語(yǔ)義角色對(duì)應(yīng)存在一個(gè)嵌套關(guān)系和反關(guān)系;事件關(guān)系:描述兩個(gè)事件間的關(guān)系,包含19種類(lèi)型;語(yǔ)義依附標(biāo)記:標(biāo)記說(shuō)話(huà)者語(yǔ)氣等依附信息,包含17種標(biāo)記;此外還包含一個(gè)根節(jié)點(diǎn)Root,是全句的核心節(jié)點(diǎn),詳見(jiàn)哈工大LTP語(yǔ)言云,目前已經(jīng)開(kāi)放。
語(yǔ)義依存分析,是用以上制訂的各種關(guān)系標(biāo)記,深刻描述出句子語(yǔ)義信息,人工標(biāo)記費(fèi)時(shí)費(fèi)力耗財(cái),借助語(yǔ)義依存分析平臺(tái),可實(shí)現(xiàn)對(duì)句子的自動(dòng)化標(biāo)記。然而由于醫(yī)學(xué)文本句子有其獨(dú)特風(fēng)格,自動(dòng)化處理結(jié)果往往包含錯(cuò)誤。此外,語(yǔ)義分析是繼分詞,詞性標(biāo)注后的自動(dòng)化處理過(guò)程,如果分詞和詞性標(biāo)注出現(xiàn)錯(cuò)誤,會(huì)導(dǎo)致語(yǔ)義依存分析錯(cuò)誤累積。以上諸因素,自動(dòng)生成的依存樹(shù)庫(kù),需要后處理。
文獻(xiàn)[10]提到,句子太短不能表達(dá)完整語(yǔ)義,句子太長(zhǎng)超過(guò)一定限度,依存句法分析會(huì)產(chǎn)生劃分錯(cuò)誤。句子長(zhǎng)度閾值介于8-40字為合適范圍[11]。于是構(gòu)建了45215條醫(yī)學(xué)文本句子,從中抽取2萬(wàn)條,每條句子長(zhǎng)度介于8-40個(gè)字,先進(jìn)行自動(dòng)化依存句法分析,通過(guò)對(duì)500條標(biāo)注后的句子,人工校對(duì),發(fā)現(xiàn)如下規(guī)律。
人工校對(duì)過(guò)程中,關(guān)于詞切分、詞性標(biāo)注仍然存在大量分歧,通過(guò)搜索和查閱大量文獻(xiàn),信息處理用電子病歷詞性標(biāo)注遵循以下原則:第一,語(yǔ)法功能原則;第二,允許有兼類(lèi)[12]。名詞類(lèi)和動(dòng)詞類(lèi)最容易出錯(cuò),需根據(jù)語(yǔ)法功能,判斷詞性,人工重新標(biāo)注,語(yǔ)義依存關(guān)系自動(dòng)變化。常見(jiàn)標(biāo)注錯(cuò)誤有以下幾方面:
(1)名詞或動(dòng)詞詞性標(biāo)注沖突
如分詞處理結(jié)果:免疫/v抑制劑/n、/wp免疫/v增強(qiáng)劑/n。
其中,“免疫”可為動(dòng)詞也可為名詞。百度搜索后:“免疫是人體的一種生理功能,人體依靠這種功能識(shí)別"自己"和"非己"成分,以維持人體的健康?!痹卺t(yī)學(xué)方面大量使用其名詞屬性。因此將“免疫”重新標(biāo)注為名詞。
(2)分詞歧義造成錯(cuò)誤
如分詞處理結(jié)果:有/v此前/nt驅(qū)/v癥狀/n。/wp
根據(jù)語(yǔ)法、語(yǔ)義,應(yīng)修改為:有/v此/nt前驅(qū)/n癥狀/n。/wp
上述句子屬于交集型歧義。
(3)醫(yī)學(xué)術(shù)語(yǔ)造成的分詞錯(cuò)誤
如分詞處理結(jié)果:口腔/n念/v珠菌病/n
修正①:口腔念珠菌病/nd
修正②:口腔/n念珠菌病/nd
修正③:口腔/n念珠菌/nd病/n
百度搜索:念珠菌病是由念珠菌病主要是白色念珠菌引起的皮膚、粘膜或內(nèi)臟器官真菌病。根據(jù)查詢(xún)結(jié)果及分詞規(guī)則,最終保留第二種糾正結(jié)果。
盡管當(dāng)前語(yǔ)義依存工具強(qiáng)大,但是面對(duì)特定領(lǐng)域,尤其醫(yī)療衛(wèi)生領(lǐng)域,由于語(yǔ)句明顯有醫(yī)學(xué)特點(diǎn),需要進(jìn)一步人工校對(duì)。通過(guò)實(shí)踐,總結(jié)出以下規(guī)律:
(1)主語(yǔ)并列引發(fā)root節(jié)點(diǎn)指向不明
如原句:營(yíng)養(yǎng)不良、變態(tài)反應(yīng)體質(zhì)、不良的衛(wèi)生習(xí)慣及陰暗潮濕的居住環(huán)境等可誘發(fā)本病。
詞法分析后的句子:營(yíng)養(yǎng)/n不良/a、/wp變態(tài)反應(yīng)/i體質(zhì)/n、/wp不良/a的/u衛(wèi)生/a習(xí)慣/n及/c陰暗/a潮濕/a的/u居住/v環(huán)境/n等/u可/v誘發(fā)/v本病/r。/wp
經(jīng)修改后,語(yǔ)義依存分析標(biāo)注為:
圖3 主語(yǔ)并列項(xiàng)的句子標(biāo)注結(jié)果
如圖3所示:本句用到了根節(jié)點(diǎn)(Root)、描寫(xiě)角色(Feat)、當(dāng)事關(guān)系(Exp)、并列關(guān)系(eCoo)、的字標(biāo)記(mAux)、多數(shù)標(biāo)記(mMaj)、情態(tài)標(biāo)記(mMod)和標(biāo)點(diǎn)標(biāo)記(mPunc),共8種語(yǔ)義依存標(biāo)注關(guān)系。圖中“營(yíng)養(yǎng)不良”、“變態(tài)反體質(zhì)”、“不良的衛(wèi)生習(xí)慣”及“陰暗潮濕的居住環(huán)境”作為句子的并列主語(yǔ),引發(fā)root節(jié)點(diǎn)指向“不良”形容詞,在標(biāo)記規(guī)范中root節(jié)點(diǎn)是全句的核心節(jié)點(diǎn),應(yīng)該指向核心詞,本句的核心詞是動(dòng)詞“誘發(fā)”。
(2)缺少主語(yǔ),影響詞間關(guān)系標(biāo)注
如原句:多見(jiàn)于青少年及兒童。
詞法分析后的句子:多/a見(jiàn)于/v青少年/n及/c兒童/n。/wp
句子沒(méi)有主語(yǔ),只有謂語(yǔ)賓語(yǔ),“多”字起修飾作用,與動(dòng)詞的詞間關(guān)系沒(méi)有自動(dòng)生成,經(jīng)討論描寫(xiě)關(guān)系(Feat)為最接近的關(guān)系表示,修改后,語(yǔ)義依存分析標(biāo)注為:
圖4 缺少主語(yǔ)的句子標(biāo)注結(jié)果
如圖4所示:本句用到根節(jié)點(diǎn)(Root)、受事關(guān)系(Pat)、描寫(xiě)角色(Feat)、連詞標(biāo)記(mConj)、并列關(guān)系(eCoo)和標(biāo)點(diǎn)標(biāo)記(mPunc),6種語(yǔ)義依存標(biāo)注關(guān)系。
(3)存在多個(gè)相連動(dòng)詞
如原句:多認(rèn)為是由多種微生物蛋白質(zhì)引起的遲發(fā)型變態(tài)反應(yīng)性疾病。
詞法分析后的句子:多/a認(rèn)為/v是/v由/p多種/m微生物/n蛋白質(zhì)/n引起/v的/u遲發(fā)型/b變態(tài)反應(yīng)性/n疾病/n。/wp
存在多個(gè)相連動(dòng)詞,造成根節(jié)點(diǎn)(Root)指向錯(cuò)誤,修改后,語(yǔ)義依存分析標(biāo)注為:
圖5 存在多個(gè)動(dòng)詞的句子標(biāo)注結(jié)果
(4)醫(yī)療文本中的順承關(guān)系有延伸
如原句:用0.1%利福平眼藥水、0.1%肽丁胺眼藥水或0.5%氯霉素眼藥水等點(diǎn)眼。
詞法分析后的句子:用/p 0.1%/m利福平/v眼藥水/n、/wp 0.1%/m肽丁胺/n眼藥水/n或/c 0.5%/m氯霉素/n眼藥水/n等/u點(diǎn)眼/n。/wp
修改后,語(yǔ)義依存分析標(biāo)注為:
圖6 存在順承關(guān)系的句子的標(biāo)注結(jié)果
順承關(guān)系(eSucc)中,代表性關(guān)鍵詞為“隨后,然后”。順承關(guān)系表示前后兩個(gè)行為之間只有時(shí)間的先后,不一定有程度的加深、范圍的擴(kuò)大。而在醫(yī)療文本中,順承關(guān)系(eSucc)有擴(kuò)張,不僅表現(xiàn)在出現(xiàn)的關(guān)鍵詞,而且表現(xiàn)在動(dòng)詞與動(dòng)詞之間。
文章針對(duì)現(xiàn)有分詞工具對(duì)醫(yī)療衛(wèi)生領(lǐng)域文本分詞、詞性標(biāo)注出現(xiàn)的諸多問(wèn)題進(jìn)行研究,提出擴(kuò)充詞性標(biāo)注集方案,對(duì)詞切分錯(cuò)誤進(jìn)行歸納總結(jié),并構(gòu)建了專(zhuān)業(yè)的醫(yī)學(xué)術(shù)語(yǔ)詞典。進(jìn)一步深入研究了醫(yī)療衛(wèi)生領(lǐng)域句子的依存句法特征,構(gòu)建了小規(guī)模語(yǔ)義依存樹(shù)庫(kù)。這些研究為醫(yī)學(xué)文本信息化處理奠定了基礎(chǔ)。
下一步將繼續(xù)擴(kuò)充語(yǔ)義依存樹(shù)庫(kù),對(duì)醫(yī)療衛(wèi)生領(lǐng)域文本的語(yǔ)義依存特征進(jìn)行更深入分析和總結(jié),實(shí)現(xiàn)用統(tǒng)計(jì)方法對(duì)現(xiàn)有依存工具句法標(biāo)注結(jié)果進(jìn)行自動(dòng)化后處理,擴(kuò)大樹(shù)庫(kù)規(guī)模,達(dá)到高層應(yīng)用需求。
參考文獻(xiàn):
[1]《全國(guó)醫(yī)療衛(wèi)生服務(wù)體系規(guī)劃綱要(2015-2020年)》國(guó)務(wù)院辦公廳(2015)14號(hào)文件[EB/OL].http://www.gov.cn/zhengce/content/2015-03/30/content_9560.htm.
[2]劉挺,車(chē)萬(wàn)翔,等.語(yǔ)言技術(shù)平臺(tái)[J].中文信息學(xué)報(bào),2011,25(6):53-62.
[3]唐濤.面向特定領(lǐng)域的中文分詞技術(shù)的研究[D].沈陽(yáng)航空航天大學(xué),2012.
[4]魏進(jìn).中文分詞技術(shù)在公安信息系統(tǒng)中的應(yīng)用研究[D].解放軍信息工程大學(xué),2007.
[5]卜擎燕,熊寧寧.ICH國(guó)際醫(yī)學(xué)用語(yǔ)詞典[M].上海:上海交通大學(xué)出版社,2007.
[6]于清,陳永杰,等.適用于醫(yī)療衛(wèi)生領(lǐng)域的中文分詞方法研究[J].新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,36(01):62-66.
[7]蔣志鵬,趙芳芳,等.面向中文電子病歷的詞法語(yǔ)料標(biāo)注研究[J].高技術(shù)通訊,2014,24(06):609-615.
[8]楊錦鋒,于秋斌,等.電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J].自動(dòng)化學(xué)報(bào),2014,24(8):1537-1562.
[9]袁毓林.論元角色的層級(jí)關(guān)系和語(yǔ)義特征[J].世界漢語(yǔ)教學(xué),2002,3(002):10-22.
[10]李向宏,王丁,等.自然語(yǔ)言句法分析研究現(xiàn)狀和發(fā)展趨勢(shì)[J].微處理機(jī),2003,1(2):4-12.
[11]孟謠,李生,等.基于統(tǒng)計(jì)的句法綜述分析技術(shù)[J].計(jì)算機(jī)科學(xué),2003,30(9):54-58.
[12]楊梅,白楠.國(guó)內(nèi)語(yǔ)料庫(kù)翻譯研究現(xiàn)狀調(diào)查——基于國(guó)內(nèi)學(xué)術(shù)期刊的數(shù)據(jù)分析[J].中國(guó)翻譯,2010,6(1):46-50.
新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2018年1期