中國(guó)中醫(yī)科學(xué)院中國(guó)醫(yī)史文獻(xiàn)研究所(北京,100700)
丁 侃 張麗君△
中醫(yī)學(xué)術(shù)的傳承,離不開“書”與“人”,即大致依靠了“文獻(xiàn)整理”和“師徒授受”兩種傳承方式。因此我們認(rèn)為中醫(yī)學(xué)所有的文獻(xiàn)以及知識(shí)的源與流,均可以歸結(jié)到這兩大脈絡(luò)上。本研究基于本體的理論和方法,對(duì)中醫(yī)學(xué)術(shù)傳承涉及的“書”與“人”的概念和關(guān)系進(jìn)行知識(shí)組織,對(duì)概念所涉及的屬性應(yīng)用元數(shù)據(jù)進(jìn)行語(yǔ)義描述,從而全方位地關(guān)聯(lián)出中醫(yī)學(xué)術(shù)傳承的脈絡(luò),并嘗試通過此脈絡(luò),對(duì)異構(gòu)的中醫(yī)古籍?dāng)?shù)字資源進(jìn)行深度聚合。
中醫(yī)古籍?dāng)?shù)字化工作,起步于20世紀(jì)80年代,經(jīng)過30余年的發(fā)展,積累了相當(dāng)數(shù)量的數(shù)字資源。然而相關(guān)的資源可能分散在異構(gòu)的多個(gè)數(shù)據(jù)庫(kù)中,難以實(shí)現(xiàn)一體化獲取和利用,同一數(shù)據(jù)庫(kù)中的資源,也未必做到了合理的“整序”。
以中醫(yī)經(jīng)典著作《傷寒論》相關(guān)的資源為例:①古籍原物衍生的數(shù)字資源,至少包括“明萬歷二十七年己亥(1599年)趙開美??讨倬叭珪尽?、“日本寬政三年辛亥(1791年)觀理藥室影刻本”、“清光緒二十五年己亥(1899年)石印本”等;②古籍點(diǎn)校本原物衍生的數(shù)字資源,至少包括人民衛(wèi)生出版社、中醫(yī)古籍出版社等出版的眾多點(diǎn)校本;③參照不同底本、校本點(diǎn)校的諸多《傷寒論》全文文本資源;④《注解傷寒論》、《傷寒來蘇集》等《傷寒論》相關(guān)的注釋文獻(xiàn)的資源;⑤從《傷寒論》中抽取出的桂枝湯、小柴胡湯、太陽(yáng)中風(fēng)證、陽(yáng)明經(jīng)證等碎片化(結(jié)構(gòu)化)的方劑、病證等資源;⑥《傷寒論》中的病證、方劑知識(shí)在后世文獻(xiàn)中被反復(fù)轉(zhuǎn)載、注釋、發(fā)揮、應(yīng)用(可視為《傷寒論》知識(shí)的傳承過程)產(chǎn)生的相關(guān)資源;⑦另外還包括與《傷寒論》相關(guān)的人物,如張仲景、王叔和、林億的信息。這些相關(guān)資源如同“孤島”分布在不同的數(shù)據(jù)庫(kù)中,難以被有效地利用。只有將組織松散、異地分布的異構(gòu)資源進(jìn)行有序化再組織,才能實(shí)現(xiàn)一體化獲取和利用。
關(guān)于資源的再組織,近年來有學(xué)者提出了“資源聚合”的概念,資源聚合側(cè)重于基于知識(shí)的內(nèi)容發(fā)現(xiàn)和數(shù)據(jù)管理,強(qiáng)調(diào)通過概念分析、引證關(guān)系等手段發(fā)現(xiàn)并用可視化手段呈現(xiàn)出數(shù)字資源中蘊(yùn)含的知識(shí)結(jié)構(gòu)[1]。其中所強(qiáng)調(diào)的“引證關(guān)系”,正是中醫(yī)學(xué)術(shù)傳承的表征。
中醫(yī)古籍?dāng)?shù)字資源深度聚合以何種方式展開,聚合的資源、知識(shí)如何組織序化,這是領(lǐng)域?qū)<倚枰伎嫉膯栴},由此我們提出了按照傳承脈絡(luò)進(jìn)行聚合的思路。而傳承脈絡(luò)的構(gòu)建,需要借助本體的理論和方法。
本體(Ontology)一詞源于哲學(xué)領(lǐng)域,是關(guān)于存在的理論。在信息科學(xué)領(lǐng)域,定義為概念體系的明確的、形式化、可共享的規(guī)范說明[2]。元數(shù)據(jù)(Metadata)是描述其他數(shù)據(jù)的數(shù)據(jù),或者說是用于提供某種資源的有關(guān)信息的結(jié)構(gòu)數(shù)據(jù)[3]。
資源的組織在微觀層面都是依據(jù)各種規(guī)范的元數(shù)據(jù)方案,資源之間的宏觀聯(lián)系依據(jù)知識(shí)本體所形式化的聯(lián)系模型,知識(shí)本體使各類元數(shù)據(jù)方案聯(lián)系成一個(gè)立體的知識(shí)網(wǎng)絡(luò)[4]。
不同時(shí)期、不同主體,在不同理念、參數(shù)、標(biāo)準(zhǔn)指導(dǎo)下建設(shè)起來的諸多中醫(yī)古籍?dāng)?shù)據(jù)平臺(tái),其元數(shù)據(jù)方案設(shè)計(jì)、元素設(shè)置各不相同。為此,我們首先參考了《國(guó)家圖書館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則》[5]、“中醫(yī)古籍書目元數(shù)據(jù)”[6]、“中醫(yī)古籍元數(shù)據(jù)”、“中醫(yī)語(yǔ)義元數(shù)據(jù)”[7],張文勇的“人物數(shù)據(jù)庫(kù)元數(shù)據(jù)設(shè)計(jì)規(guī)范”[8]、王楠定義的“人物概念及屬性”[9]這些已有的元數(shù)據(jù)方案,同時(shí)梳理總結(jié)了眾多數(shù)字化平臺(tái)、產(chǎn)品的數(shù)據(jù)結(jié)構(gòu)、資源特色,最終確定了本研究文獻(xiàn)、人物本體構(gòu)建中采用的元數(shù)據(jù)方案。
通過構(gòu)建基于元數(shù)據(jù)的本體,對(duì)各種現(xiàn)有異構(gòu)的元數(shù)據(jù)規(guī)范進(jìn)行語(yǔ)義強(qiáng)化,以實(shí)現(xiàn)語(yǔ)義層面的資源關(guān)聯(lián)和知識(shí)聚合。
在中醫(yī)文獻(xiàn)本體構(gòu)建過程中,我們以《中醫(yī)文獻(xiàn)辭典》作為參考。該書由余瀛鰲先生主編,收錄了重要的中醫(yī)文獻(xiàn)6100余條,對(duì)于少數(shù)民族醫(yī)藥文獻(xiàn)亦有收載。每一條目相當(dāng)于該書的內(nèi)容提要,提綱挈領(lǐng),盡舉特長(zhǎng)優(yōu)點(diǎn),敘述十分醇正[10]。該書尤其重視考證文獻(xiàn)學(xué)術(shù)傳承的關(guān)系,對(duì)于醫(yī)學(xué)人物之間的關(guān)系,亦有所涉獵。
書名:文獻(xiàn)的名稱,包括異名以及卷數(shù)和存佚情況。
主要責(zé)任者:對(duì)創(chuàng)建古籍負(fù)主要責(zé)任的實(shí)體。此項(xiàng)著錄主要責(zé)任者名稱、別稱、國(guó)別、所處時(shí)代以及責(zé)任方式。此項(xiàng)可鏈接人物本體。
其他責(zé)任者:對(duì)古籍資源的創(chuàng)建有貢獻(xiàn)的實(shí)體。此項(xiàng)可鏈接人物本體。
成書時(shí)間:古籍結(jié)集成書的時(shí)間。此項(xiàng)著錄古籍成書的朝代、年號(hào)紀(jì)年、公元紀(jì)年。
主題:使用特定詞匯對(duì)古籍資源內(nèi)容的歸納描述。分類參考《中國(guó)中醫(yī)古籍總目》,包括:醫(yī)經(jīng)、基礎(chǔ)理論、傷寒金匱、診法、針灸推拿、本草、方書、臨證各科、養(yǎng)生、醫(yī)案醫(yī)話醫(yī)論、醫(yī)史、綜合性著作。有些一級(jí)分類下有二級(jí)乃至三級(jí)分類。
時(shí)空范圍:文獻(xiàn)內(nèi)容所涉及的地域范圍和時(shí)間范圍。此項(xiàng)著錄地名、年代。
相關(guān)文獻(xiàn):鏈接與所著錄文獻(xiàn)相關(guān)聯(lián)的其他文獻(xiàn)本體。此項(xiàng)著錄書名及相應(yīng)的文獻(xiàn)關(guān)系。定義的文獻(xiàn)關(guān)系:引錄、選錄、增編、續(xù)編、改編、仿體例、注釋、全注、分類注釋、集注、發(fā)揮、影響、評(píng)述、單行、翻譯、歌訣化、圖表化、并稱、比較。
附注:記錄未在其他元素項(xiàng)著錄又有必要補(bǔ)充說明的內(nèi)容。包括著錄附注、叢編附注、子目附注、合刊附注等。
現(xiàn)存資源:鏈接文獻(xiàn)現(xiàn)存的資源。
語(yǔ)種:文獻(xiàn)內(nèi)容所使用的語(yǔ)言種類。
參考:著錄文獻(xiàn)所參考的資料。
通過時(shí)代、分類、分科、分級(jí)、時(shí)空范圍等信息,展示文獻(xiàn)在各個(gè)維度上的分布情況。通過文獻(xiàn)之間的關(guān)系,諸如引錄、注釋、發(fā)揮等展示文獻(xiàn)之間的傳承脈絡(luò),以及通過同一文獻(xiàn)的多個(gè)責(zé)任者,發(fā)現(xiàn)學(xué)者的合作及傳承關(guān)系。通過一本一本的書,構(gòu)建學(xué)術(shù)傳承的脈絡(luò),其中每本書(文獻(xiàn)本體)作為脈絡(luò)上的節(jié)點(diǎn)。
在中醫(yī)人物本體構(gòu)建過程中,我們以《中醫(yī)人物詞典》作為參考。該書由李經(jīng)緯先生主編,收錄人物多達(dá)6200余條,每位醫(yī)家詳述其履歷籍貫、醫(yī)術(shù)淵源及其世系師承、醫(yī)學(xué)思想及貢獻(xiàn)、醫(yī)學(xué)著述及其卷數(shù)存佚等。后附有“人名字號(hào)、別名及師徒、后裔索引”、“中醫(yī)書名索引”[11]。
人名:人物的名稱,包括字、號(hào)等別稱。
生卒:人物所處的朝代,以及生卒年份。
類別:根據(jù)人物的性別、信仰、民族、專業(yè)、職業(yè)等人物特征進(jìn)行的分類。通過對(duì)《中醫(yī)人物詞典》數(shù)據(jù)的分析,確定的類別包括:女性、儒醫(yī)、釋醫(yī)、道醫(yī)、醫(yī)官、官員、圣賢帝王、藏醫(yī)、維醫(yī)、蒙醫(yī)、巫醫(yī)、法醫(yī)。
里籍:人物籍貫以及經(jīng)常活動(dòng)的地域。涉及的古地名參考《中國(guó)古今地名大辭典》。
學(xué)派:人物所屬的學(xué)術(shù)流派。
??疲喝宋锼鶎俚目苿e。
專長(zhǎng):人物擅長(zhǎng)治療的疾病種類。
著述:人物所著述的文獻(xiàn)。此項(xiàng)可鏈接與人物責(zé)任相關(guān)的文獻(xiàn)本體。
相關(guān)人物:鏈接與所著錄人物相關(guān)聯(lián)的其他人物本體。此項(xiàng)著錄人名及相應(yīng)的人物關(guān)系。定義的人物關(guān)系:師承、門人、推崇、影響、祖先、后人。
收載:收載人物信息的文獻(xiàn)。
通過時(shí)代、類別、里籍、學(xué)派、???、專長(zhǎng)等信息,展示人物各個(gè)維度上的分布情況。通過人物之間的關(guān)系,諸如師承、門人、推崇、影響、祖先、后人等展示人物之間的傳承脈絡(luò)。通過一個(gè)一個(gè)的人,構(gòu)建學(xué)術(shù)傳承的脈絡(luò),其中每個(gè)人(人物本體)作為脈絡(luò)上的節(jié)點(diǎn),相關(guān)資源、知識(shí)聚合到相應(yīng)節(jié)點(diǎn)上。
深度聚合,不僅要揭示概念實(shí)體與實(shí)例之間、實(shí)例與實(shí)例之間的關(guān)系,即揭示資源在外延上的相似關(guān)系,特別是同一資源在不同層級(jí)的關(guān)系,更要通過共同屬性元素的挖掘,發(fā)現(xiàn)更多相似屬性的內(nèi)部和外部資源,揭示概念實(shí)體之間的關(guān)系,實(shí)現(xiàn)從資源整合向知識(shí)聚合的轉(zhuǎn)變[12]。
基于中醫(yī)學(xué)術(shù)傳承的兩大脈絡(luò)——“人”與“書”,本研究探討如何將不同來源、多種類型、各種模式的中醫(yī)古籍?dāng)?shù)字化資源,尤其是經(jīng)過深度加工碎片化的知識(shí)(知識(shí)體),在這兩條脈絡(luò)上建立起多層面的關(guān)聯(lián),以實(shí)現(xiàn)資源整合與共享(被整合)。從而梳理傳承脈絡(luò),定位各類中醫(yī)知識(shí)在學(xué)術(shù)發(fā)展過程中時(shí)間、空間、來源坐標(biāo),達(dá)到知識(shí)序化的目的。
本研究中,本體構(gòu)建采用了循環(huán)獲取法(Cyclic Acquisition Process)[13]。由于中醫(yī)古籍領(lǐng)域數(shù)據(jù)開放程度不高,前期研究過程中未找到合適復(fù)用的本體和敘詞表,因此我們采用了手工構(gòu)建的方式。一般的知識(shí)獲取手段不能確保領(lǐng)域知識(shí)的完備性,因此選用專業(yè)詞典,利用詞典的定義和分類體系,進(jìn)行知識(shí)獲取,是手工建立本體常采用的方案[14]?!吨嗅t(yī)文獻(xiàn)辭典》與《中醫(yī)人物詞典》互為姐妹篇,前者側(cè)重文獻(xiàn),后者側(cè)重人物,同時(shí)又互為補(bǔ)充,作為領(lǐng)域權(quán)威的資源,可以滿足我們構(gòu)建初級(jí)本體的需要。
在文獻(xiàn)本體的構(gòu)建過程中,對(duì)于文獻(xiàn)間關(guān)系的定義是本研究的難點(diǎn);在人物本體的構(gòu)建過程中,人物相關(guān)屬性的定義是本研究的難點(diǎn),關(guān)于人物間關(guān)系的定義,我們參考了何時(shí)希先生的《中國(guó)歷代醫(yī)家傳錄》中總結(jié)的“十種關(guān)系”。
本體的開發(fā)和完善是一個(gè)反反復(fù)復(fù)不斷補(bǔ)充的迭代過程[15]。IDEF- 5方法和循環(huán)獲取法等經(jīng)典的本體構(gòu)建方法,均提到了本體優(yōu)化的觀點(diǎn)。
本研究?jī)H是提出了基于《中醫(yī)文獻(xiàn)辭典》與《中醫(yī)人物詞典》構(gòu)建文獻(xiàn)和人物初級(jí)本體的方案,在此基礎(chǔ)上還要經(jīng)過反復(fù)的迭代過程,才能貼近于專業(yè)領(lǐng)域中的客觀實(shí)體和關(guān)系法則。在今后的工作中,我們還需要參考更多的領(lǐng)域內(nèi)權(quán)威的辭典資料,以及復(fù)用可能的相關(guān)本體和敘詞表,更為重要的是在資源聚合的實(shí)踐中驗(yàn)證并修正本體,使得文獻(xiàn)人物本體日臻完善,才能使由此勾畫出的中醫(yī)學(xué)術(shù)傳承的脈絡(luò),日益清晰豐富。