付 興 李芊芊 楊 鳳 周冉冉 侯鑒宸 陶曉華
(北京中醫(yī)藥大學(xué) 北京 102488)
中醫(yī)古籍記載了我國(guó)數(shù)千年來(lái)醫(yī)療實(shí)踐的經(jīng)驗(yàn),是傳承中醫(yī)科學(xué)和醫(yī)療創(chuàng)新的源泉和根基。但中醫(yī)古籍?dāng)?shù)量眾多、門(mén)類(lèi)龐雜,要充分挖掘中醫(yī)古籍的價(jià)值,需要深化基于知識(shí)元理論的中醫(yī)古籍整理挖掘技術(shù)與方法。敘詞表也稱(chēng)主題詞表,以更加規(guī)范化的系統(tǒng)語(yǔ)言代替標(biāo)引人員使用的自然語(yǔ)言,是中醫(yī)古籍文獻(xiàn)檢索中進(jìn)行文獻(xiàn)主題標(biāo)引的檢索工具之一,是中醫(yī)古籍知識(shí)庫(kù)的基石,也是連接中醫(yī)各種專(zhuān)業(yè)詞語(yǔ)與計(jì)算機(jī)系統(tǒng)語(yǔ)言的紐帶。但是,現(xiàn)有詞表無(wú)法滿足現(xiàn)代疾病與中醫(yī)病證名的相關(guān)性研究需求。因此,本研究基于600種中醫(yī)古籍的深度標(biāo)引工作,選取4種中醫(yī)診療具有一定優(yōu)勢(shì)和特色的疾病——腦卒中、心力衰竭、肝硬化和糖尿病,通過(guò)敘詞表構(gòu)建,將相關(guān)中醫(yī)詞匯進(jìn)行集合,用以指導(dǎo)后續(xù)的標(biāo)引和檢索,揭示概念間關(guān)系,也可為后續(xù)4種重大疾病中醫(yī)臨床術(shù)語(yǔ)知識(shí)框架建立奠定基礎(chǔ)。
敘詞表是概括各門(mén)或某一學(xué)科領(lǐng)域并由語(yǔ)義相關(guān)、族性相關(guān)的術(shù)語(yǔ)所組成的、可以不斷補(bǔ)充的規(guī)范化詞表[1]。敘詞表主要由敘詞與敘詞間關(guān)系組成,敘詞間基本語(yǔ)義關(guān)系采用不同的參照符號(hào)以示區(qū)分。中國(guó)《漢語(yǔ)主題詞表》采用“用、代、屬、分、參”結(jié)構(gòu)。一般敘詞表中包括等同關(guān)系、等級(jí)關(guān)系和相關(guān)關(guān)系3種關(guān)系[2]。敘詞表作為一種術(shù)語(yǔ)控制工具,可以通過(guò)將古籍資料、文獻(xiàn)、檢索者的自然語(yǔ)言等轉(zhuǎn)換成相對(duì)規(guī)范化的語(yǔ)言,從而形成某特殊領(lǐng)域內(nèi)的表達(dá)事物概念的詞匯集合;還可以通過(guò)各方式對(duì)各敘詞之間的各種語(yǔ)義聯(lián)系進(jìn)行顯示,是可以不斷補(bǔ)充、完善和調(diào)整的動(dòng)態(tài)詞表[3]。
國(guó)外主要的醫(yī)學(xué)敘詞表包括美國(guó)國(guó)家癌癥研究所的《NCI主題詞表》(NCIt)和美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館(National Library of Medicine,NLM)編制的《醫(yī)學(xué)主題詞表》(MeSH)等,其中MeSH影響力最大[4]。MeSH最早出版于1960年,經(jīng)過(guò)醫(yī)學(xué)學(xué)科專(zhuān)家和MeSH工作人員的不斷修訂和更新,2019版MeSH收錄了29 351個(gè)概念和247 209個(gè)補(bǔ)充概念記錄。這些補(bǔ)充概念來(lái)源于生物醫(yī)學(xué)領(lǐng)域的其他相關(guān)詞表。MeSH具有獨(dú)特的主-副主題詞組配表達(dá)形式,采用樹(shù)狀結(jié)構(gòu)表代替?zhèn)鹘y(tǒng)的分類(lèi)表。MeSH用于標(biāo)引世界領(lǐng)先的生物醫(yī)學(xué)數(shù)據(jù)庫(kù)PubMed的文獻(xiàn),也用于NLM編目數(shù)據(jù)庫(kù)的書(shū)目描述。
2.3.1 中醫(yī)藥學(xué)主要敘詞表 現(xiàn)代中醫(yī)藥詞表的研制工作起步于20世紀(jì)70年代[5]。我國(guó)現(xiàn)有的醫(yī)學(xué)領(lǐng)域敘詞表包括醫(yī)學(xué)(現(xiàn)代醫(yī)學(xué))、藥學(xué)和中醫(yī)藥3個(gè)領(lǐng)域,代表性敘詞表有:中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所將MeSH翻譯為中文,并在此基礎(chǔ)上建立的“中文醫(yī)學(xué)主題詞表檢索系統(tǒng)”(CMeSH)[6],是國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域權(quán)威的敘詞表;國(guó)家食品藥品監(jiān)督管理局于2013年編制出版的《中國(guó)藥學(xué)主題詞表》,共收錄術(shù)語(yǔ)29 000條[7];中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所編制的《中國(guó)中醫(yī)藥學(xué)主題詞表》,1987年出版第1版,2015年發(fā)布網(wǎng)絡(luò)版,目前共收錄術(shù)語(yǔ)21 466條[8]。其中,“中文醫(yī)學(xué)主題詞表檢索系統(tǒng)”和《中國(guó)中醫(yī)藥學(xué)主題詞表》都建立了持續(xù)更新機(jī)制,而且二者還建立了網(wǎng)絡(luò)版服務(wù)系統(tǒng)[9]。此外,中國(guó)中醫(yī)科學(xué)院從2002年開(kāi)始,借鑒統(tǒng)一一體化語(yǔ)言的經(jīng)驗(yàn),研制了“中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)(Traditional Chinese Medicine Language System,TCMLS)”,對(duì)中醫(yī)藥學(xué)的名詞術(shù)語(yǔ)進(jìn)行了系統(tǒng)梳理,構(gòu)建了中醫(yī)藥概念術(shù)語(yǔ)的層次結(jié)構(gòu)和復(fù)雜語(yǔ)義網(wǎng)絡(luò)。已收錄約12萬(wàn)個(gè)概念、30萬(wàn)個(gè)術(shù)語(yǔ)以及127萬(wàn)條語(yǔ)義關(guān)系[10-11]。定位在專(zhuān)門(mén)面向中醫(yī)臨床的大型術(shù)語(yǔ)系統(tǒng)“中醫(yī)臨床術(shù)語(yǔ)集”,已收錄11萬(wàn)多條概念詞,27萬(wàn)多個(gè)術(shù)語(yǔ),內(nèi)容覆蓋臨床所見(jiàn)、病證、操作、治則治法和中藥等中醫(yī)臨床知識(shí)各個(gè)方面[12]。建立了概念與概念之間的層級(jí)關(guān)系、概念與概念之間的相關(guān)關(guān)系。
2.3.2 問(wèn)題分析 目前基于本體技術(shù)的中醫(yī)藥知識(shí)庫(kù)系統(tǒng)成為中醫(yī)藥信息化領(lǐng)域的主流研究方向[13]。敘詞表采用一種樹(shù)形結(jié)構(gòu)方式展現(xiàn)中醫(yī)古籍中的概念結(jié)構(gòu)關(guān)系,表現(xiàn)出來(lái)自于古籍的內(nèi)容與概念,是對(duì)中醫(yī)古籍文獻(xiàn)的客觀反映,也展現(xiàn)了古籍文獻(xiàn)本身的結(jié)構(gòu)。領(lǐng)域本體的編制以敘詞表為依據(jù),繼承了敘詞表的樹(shù)狀結(jié)構(gòu)特征[14]。然而,尚缺乏以現(xiàn)代疾病為研究對(duì)象且基于中醫(yī)古籍詞語(yǔ)的敘詞表,盡管中西醫(yī)是兩種不同的學(xué)科體系,但二者的研究目的與對(duì)象是一致的。因此,為架設(shè)傳統(tǒng)醫(yī)學(xué)與現(xiàn)代醫(yī)學(xué)的研究橋梁,構(gòu)建具有中醫(yī)特色的《4種重大疾病的中醫(yī)古籍?dāng)⒃~表》,具有重要的研究意義與臨床價(jià)值。
為滿足中醫(yī)藥領(lǐng)域內(nèi)4種重大疾病的研究工作需求,采用“以主題為主,主題與學(xué)科相結(jié)合”的原則,突出敘詞表中4種重大疾病的專(zhuān)業(yè)性,保證實(shí)用性,充分考慮地域和時(shí)代。詞表的編制標(biāo)準(zhǔn)參考《漢語(yǔ)敘詞表編制規(guī)則(GB 13190—1991)》和《軍用主題詞表編制規(guī)則(GJB1776A—99)》制定。語(yǔ)料構(gòu)建參考《中國(guó)藥學(xué)主題詞表》《中國(guó)中醫(yī)藥學(xué)主題詞表》《健康信息學(xué)-中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)語(yǔ)義網(wǎng)絡(luò)框架(GB/T 38324—2019)》以及中醫(yī)語(yǔ)言系統(tǒng)發(fā)布平臺(tái)等。
詞表選詞遵循以下3個(gè)原則,一是保證參考標(biāo)引頻率,選用在中醫(yī)藥領(lǐng)域較常出現(xiàn),具有一定使用頻率的名詞術(shù)語(yǔ);二是保證基本詞匯準(zhǔn)確,參考《中國(guó)中醫(yī)藥學(xué)主題詞表》的基礎(chǔ)上,保證與MeSH詞表內(nèi)中醫(yī)藥相關(guān)詞語(yǔ)兼容,同時(shí)以《國(guó)際疾病分類(lèi)第十一次修訂本(ICD11)》《中醫(yī)病證分類(lèi)與代碼(GB/T 15657—2021)》的術(shù)語(yǔ)內(nèi)容為標(biāo)準(zhǔn);三是保證所選詞語(yǔ)概念清晰簡(jiǎn)練,詞義明確。
本研究基于采用“病脈證并治”知識(shí)元標(biāo)引技術(shù)與方法的中醫(yī)古籍標(biāo)引平臺(tái)(http://114.255.40.130:60080/metaservice2/#),在對(duì)中醫(yī)古籍進(jìn)行標(biāo)引時(shí),以“病脈證并治”標(biāo)引模版為首選,并根據(jù)不同類(lèi)別、不同內(nèi)容的古籍配置9種標(biāo)引模版及元數(shù)據(jù)。其中“病脈證并治”標(biāo)引模版以中醫(yī)疾病名為核心,包括病名、病因、病機(jī)、治則、治法、主脈、兼脈、辨證、方劑、藥物、針灸、預(yù)后、宜忌等30個(gè)知識(shí)元,以及59種語(yǔ)義類(lèi)型。9種標(biāo)引模版及元數(shù)據(jù)包括中醫(yī)理論、診法、病證、本草、方劑、醫(yī)案、預(yù)防調(diào)護(hù)、學(xué)術(shù)流派、針灸標(biāo)引模版。
現(xiàn)代疾病與中醫(yī)病名的對(duì)應(yīng)問(wèn)題一直是學(xué)界爭(zhēng)議的關(guān)鍵。首先,本研究以4種重大疾病及其并發(fā)癥為對(duì)象,以現(xiàn)代文獻(xiàn)研究為抓手,以4種重大疾病相關(guān)的中醫(yī)疾病名為核心,在中國(guó)知網(wǎng)文獻(xiàn)數(shù)據(jù)庫(kù)中以腦卒中、心力衰竭、肝硬化、糖尿病、并發(fā)癥及其同義詞為關(guān)鍵詞進(jìn)行精確檢索,共檢索1995年1月1日—2022年2月1日的中文文獻(xiàn)6 003篇,其中腦卒中519篇,心力衰竭445篇,肝硬化947篇,糖尿病4 092篇,提取文中涉及的并發(fā)癥名稱(chēng),將相同病名進(jìn)行合并,如中風(fēng)后抑郁、卒中后抑郁、腦卒中抑郁癥合并為抑郁癥,從中歸納出4種重大疾病及其并發(fā)癥共208種,其中腦卒中76種,心力衰竭15種,肝硬化45種,糖尿病72種;其次,再以篩選出的4種重大疾病及其并發(fā)癥名稱(chēng)、中醫(yī)病名或中醫(yī)為關(guān)鍵詞,在中國(guó)知網(wǎng)文獻(xiàn)數(shù)據(jù)庫(kù)中再次進(jìn)行精確檢索,去除缺乏中醫(yī)認(rèn)識(shí)的部分現(xiàn)代疾病,例如電解質(zhì)紊亂、酸堿失衡等;最后,參考《國(guó)際疾病分類(lèi)第十一次修訂本(ICD11)》和2020年頒布的《中醫(yī)臨床診療術(shù)語(yǔ)第1部分:疾病》以及相關(guān)臨床指南與專(zhuān)著等,剔除部分欠規(guī)范的中醫(yī)病名,最終形成4種重大疾病及其并發(fā)癥相關(guān)的中醫(yī)疾病名318種,其示例,見(jiàn)表1。

表1 4種重大疾病并發(fā)癥中西醫(yī)病名對(duì)應(yīng)
基于中醫(yī)古籍“病脈證并治”知識(shí)元標(biāo)引體系,以中醫(yī)疾病名為導(dǎo)向,突顯“以病為綱”(由于4種重大疾病的并發(fā)癥存在交叉,而其并發(fā)癥的中醫(yī)病名并無(wú)區(qū)別,因此未對(duì)其并發(fā)癥的中醫(yī)病名進(jìn)行區(qū)分),同時(shí)參考《中國(guó)中醫(yī)藥學(xué)主題詞表》等現(xiàn)有敘詞表,制定現(xiàn)代醫(yī)學(xué)病名、中醫(yī)疾病名、中醫(yī)理論、病因病機(jī)、診法、癥狀體征、推薦方劑、中藥、治療、預(yù)防調(diào)護(hù)、古籍書(shū)目、學(xué)術(shù)流派及醫(yī)家共12個(gè)范疇。以4種重大疾病及其并發(fā)癥相關(guān)的中醫(yī)疾病名遴選知識(shí)體,將其中的知識(shí)元與語(yǔ)義提取出來(lái),將不同類(lèi)型語(yǔ)義歸入不同范疇類(lèi)目中,如語(yǔ)義類(lèi)型為治法的語(yǔ)義“滋陰”歸入“治療”范疇下的“治法”中,從而形成4種重大疾病相關(guān)的中醫(yī)古籍?dāng)⒃~表語(yǔ)料庫(kù)。
構(gòu)建中醫(yī)古籍?dāng)⒃~表流程包括選詞過(guò)程、編制主表、編制詞族表、編制范疇表、編制英漢索引表等內(nèi)容,見(jiàn)圖1。

圖1 《4種重大疾病的中醫(yī)古籍?dāng)⒃~表》構(gòu)建流程
4.3.1 選詞過(guò)程 對(duì)中醫(yī)古籍進(jìn)行原始版本數(shù)字化處理,形成計(jì)算機(jī)可讀文本文件,并按“病脈證并治”知識(shí)元核心要素進(jìn)行深度標(biāo)引加工,遵循“一標(biāo)、二查、三復(fù)審、四抽檢”的原則,對(duì)標(biāo)引后的條目進(jìn)行人工和機(jī)器“病脈證并治”知識(shí)元核心要素雙分析,利用自然語(yǔ)言處理等技術(shù)手段,對(duì)數(shù)字化后的古籍原文內(nèi)容進(jìn)行機(jī)器分析挖掘,提取出其中的詞匯及詞匯出現(xiàn)的頻次,構(gòu)建4種重大疾病中醫(yī)古籍?dāng)⒃~表的基本素材詞庫(kù)。采用自然語(yǔ)言處理等技術(shù)提取詞匯(尤其是高頻詞匯)。參考各類(lèi)文獻(xiàn)數(shù)據(jù)庫(kù),以及中醫(yī)敘詞表與詞典工具書(shū)等傳統(tǒng)紙質(zhì)文獻(xiàn)和書(shū)籍資料,如《中國(guó)中醫(yī)藥學(xué)主題詞表》《中醫(yī)大辭典》等,并保證與MeSH詞表內(nèi)中醫(yī)藥相關(guān)詞語(yǔ)兼容。
4.3.2 編制主表 通過(guò)以上選詞來(lái)源,基于網(wǎng)絡(luò)關(guān)鍵字統(tǒng)計(jì)系統(tǒng)統(tǒng)計(jì)期刊的關(guān)鍵字,在分詞結(jié)果和關(guān)鍵字統(tǒng)計(jì)結(jié)果中,通過(guò)制定詞頻閾值、詞匯過(guò)濾規(guī)則、選詞范圍、選詞原則來(lái)選取正式主題詞。
4.3.3 編制詞族表 采用本課題合作單位搭建的“知識(shí)組織系統(tǒng)管理與構(gòu)建平臺(tái)”構(gòu)建詞匯語(yǔ)義成族的結(jié)構(gòu)體系,其中包括展示詞匯的范疇號(hào)、英漢對(duì)照關(guān)系、同義關(guān)系、等級(jí)關(guān)系、關(guān)聯(lián)關(guān)系等內(nèi)容。在編制主表過(guò)程中,制定正式主題詞與非正式主題詞的編制結(jié)構(gòu)體系。在編制詞族表過(guò)程中,制定詞匯語(yǔ)義成族的結(jié)構(gòu)體系,屬、分、族項(xiàng)通過(guò)導(dǎo)入詞族表的等級(jí)關(guān)系來(lái)實(shí)現(xiàn),范疇號(hào)由導(dǎo)入范疇表中設(shè)定的類(lèi)別號(hào)來(lái)實(shí)現(xiàn)。
4.3.4 編制范疇表、編制英漢索引表 制定范疇表編排的結(jié)構(gòu)體系,制定漢語(yǔ)拼音索引、英漢對(duì)照索引的結(jié)構(gòu)體系。本敘詞表研究旨在中醫(yī)古籍知識(shí)分類(lèi)體系下進(jìn)行擴(kuò)展與深化,尤其關(guān)注以疾病為綱的中醫(yī)古籍?dāng)⒃~編著與研究。建立敘詞的概念關(guān)系,借鑒詞表概念間的邏輯關(guān)系,結(jié)合古籍知識(shí)庫(kù)語(yǔ)義元數(shù)據(jù),參考中醫(yī)藥一體化語(yǔ)言系統(tǒng),采用自下而上與自上而下相結(jié)合的方法,構(gòu)建中醫(yī)疾病古籍?dāng)⒃~表的概念語(yǔ)義網(wǎng)絡(luò)。
《4種重大疾病的中醫(yī)古籍?dāng)⒃~表》包括主表、范疇表、詞族表和索引表(漢語(yǔ)拼音索引、英漢對(duì)照索引)。其中范疇表類(lèi)目,見(jiàn)表2。該詞表涵蓋現(xiàn)代醫(yī)學(xué)病名、中醫(yī)疾病名、中醫(yī)理論、病因病機(jī)、診法、癥狀體征、推薦方劑、中藥、治療、預(yù)防調(diào)護(hù)、古籍書(shū)目、學(xué)術(shù)流派及醫(yī)家共12個(gè)范疇,在各類(lèi)目之下,再按中醫(yī)理論逐項(xiàng)細(xì)分,最深達(dá)7級(jí),見(jiàn)表3。目前收錄包含樹(shù)形號(hào)、中文、英文、拼音、定義或簡(jiǎn)介以及范疇號(hào)的正式主題詞7 234個(gè),非正式主題詞5 255個(gè)。語(yǔ)義關(guān)系參考《健康信息學(xué)-中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)語(yǔ)義網(wǎng)絡(luò)框架(GB/T 38324—2019)》,包括上下位關(guān)系、相關(guān)關(guān)系、分支、包含等10余種。

表2 《4種重大疾病的中醫(yī)古籍?dāng)⒃~表》范疇表類(lèi)目

續(xù)表2

表3 范疇各級(jí)數(shù)目(個(gè))
綜上所述,基于中醫(yī)古籍的4種重大疾病敘詞表旨在立足于中醫(yī)古籍知識(shí)分類(lèi)體系下進(jìn)行擴(kuò)展與深化,探索性試以現(xiàn)代文獻(xiàn)研究為依據(jù),尋求現(xiàn)代醫(yī)學(xué)病名與中醫(yī)疾病名的連接。采用具有“病脈證并治”特色的中醫(yī)古籍知識(shí)元標(biāo)引方法,完善以中醫(yī)疾病名為綱的中醫(yī)古籍?dāng)⒃~編著與研究,從而形成4種重大疾病的中醫(yī)古籍?dāng)⒃~表。構(gòu)建4種重大疾病的中醫(yī)古籍?dāng)⒃~表后,為其他現(xiàn)代疾病的敘詞表建立提供范本與參考,或可為構(gòu)建4種重大疾病的中醫(yī)臨床術(shù)語(yǔ)知識(shí)框架奠定良好基礎(chǔ)。