趙 陽(yáng)
(南京林業(yè)大學(xué)人文學(xué)院,江蘇 南京210036)
古籍?dāng)嗑?,是古籍整理?shí)踐中重要的組成部分。通過(guò)標(biāo)點(diǎn)原文,能夠區(qū)分出原文字句段落,厘清上下文關(guān)聯(lián),從而引導(dǎo)讀者理解內(nèi)容。這是非常有助于古籍的傳播和閱讀的。中國(guó)林業(yè)類古籍的整理主要功在收集,但其中僅有少量的文獻(xiàn)被標(biāo)點(diǎn)。那么如果希望更多的林業(yè)古籍被有效利用,就必須加大古籍整理的力度。中文信息處理技術(shù)的介入,提高了該領(lǐng)域的工作效率,這其中尤以自動(dòng)化標(biāo)點(diǎn)的實(shí)現(xiàn)最為緊要。目前已有不少這樣的研究成果:有古籍?dāng)嗑涞南到y(tǒng)結(jié)構(gòu)圖以及基于模式匹配的斷句方法;有基于前后n-gram模型的古漢語(yǔ)斷句算法和一種可用于古文自動(dòng)斷句的以兩個(gè)統(tǒng)計(jì)量互信息和測(cè)試差為特征的條件隨機(jī)場(chǎng)模型;另外2011年國(guó)學(xué)網(wǎng)還開放了一個(gè)古籍?dāng)嗑湓u(píng)測(cè)系統(tǒng)。但是林業(yè)古籍有其專業(yè)性,有該領(lǐng)域獨(dú)特的表達(dá)和術(shù)語(yǔ),與一般的古籍是存在區(qū)別的。這就需要我們對(duì)林業(yè)古籍自動(dòng)化斷句方式進(jìn)行研究。而這其中的關(guān)鍵,就是建立斷句模式語(yǔ)料庫(kù)。
斷句模式語(yǔ)料庫(kù),是實(shí)現(xiàn)林業(yè)古籍自動(dòng)化斷句的基礎(chǔ),是建立識(shí)別特征的規(guī)則、數(shù)量、質(zhì)量的關(guān)鍵所在。這里對(duì)斷句模式語(yǔ)料庫(kù)的研究,特別強(qiáng)調(diào)林業(yè)古籍本身特征的提取,而不完全依賴于計(jì)算機(jī)識(shí)別程序的運(yùn)用。因?yàn)橛?jì)算機(jī)識(shí)別程序,有其基本的功能模塊,也能進(jìn)行專門的文本處理,但是如上所述,林業(yè)古籍與一般古籍的確實(shí)存在區(qū)別,所以應(yīng)該設(shè)置出更具針對(duì)性的模式語(yǔ)料庫(kù),然后再結(jié)合計(jì)算機(jī)模式識(shí)別程序進(jìn)行操作。這里語(yǔ)料庫(kù)建設(shè)不是古籍原文的整體輸入,而是從事理邏輯、敘事層次、語(yǔ)義層次、語(yǔ)詞特征等性質(zhì)入手,建立起識(shí)別規(guī)則和模式,同時(shí)要兼顧古籍整理標(biāo)點(diǎn)中的諸多規(guī)定和限制,最終形成一套可以按照一定規(guī)則進(jìn)行優(yōu)化、合并,歸類的體系。這對(duì)林業(yè)古籍自動(dòng)點(diǎn)校的實(shí)現(xiàn)是非常重要的。
在文本對(duì)象的選擇上,本文選擇《樹藝篇》為實(shí)驗(yàn)對(duì)象?!稑渌嚻繁涣腥胱硬哭r(nóng)家類,共33卷。整部書先列總目,后分列谷部、蔬部、草部、草藥部,木部、果部共六類。本論文主要以木部為研究對(duì)象,其中木部包含有合歡、榆 楊柳、綿柳、白楊、黃楊等14種中國(guó)常見的樹種。木部的資料收集時(shí)間上跨越性較大,上及漢代,下迄明代。從材料性質(zhì)上看,不僅涉及到樹木的基本介紹、還有技術(shù)性指導(dǎo),甚至還有文學(xué)材料的介入;因此,選擇本書作為研究個(gè)案,具有較好的代表性。另外這部書到目前為止,沒(méi)有任何單行本或者合集的方式做過(guò)點(diǎn)校,相對(duì)選擇已有過(guò)點(diǎn)校本的古籍來(lái)說(shuō)難度更大,從語(yǔ)料學(xué)角度看,具有代表性,從實(shí)踐意義來(lái)說(shuō),具有較大的開拓價(jià)值。
斷句模式語(yǔ)料庫(kù)的建設(shè),必須結(jié)合林業(yè)古籍本身特點(diǎn)來(lái)設(shè)計(jì),這里提出以下幾點(diǎn)難點(diǎn)問(wèn)題:第一,重視林業(yè)古籍中的專門詞匯的分割。詞匯的分割一直也是人工古籍標(biāo)點(diǎn)的難點(diǎn)之一,有語(yǔ)言學(xué)者提出“語(yǔ)言中存在大量的復(fù)音詞語(yǔ)。它們無(wú)論是合成詞、聯(lián)綿詞還是短語(yǔ),都作為一個(gè)造句單位使用,不容許割裂。如果在中間加上標(biāo)點(diǎn),就把它們一分為二,也就是點(diǎn)破了詞語(yǔ),從而破壞了意義的完整,改變了整段乃至全篇文字的意旨。這也是句讀標(biāo)點(diǎn)中常見的錯(cuò)誤?!雹俣偶械脑~匯由于時(shí)代的變遷,詞匯的含義及使用都發(fā)生了變化。這樣的特征,再加上林業(yè)類詞匯有其專業(yè)性,所以詞匯的分割正確與否,直接關(guān)系到全文的連貫性。第二,注意詞句位置及歸屬。詞句的位置及歸屬判斷直接影響到閱讀者對(duì)文章的理解。一般古籍,可以借助上下文理解,或者借助史料背景去解決詞句歸屬的難點(diǎn),而林業(yè)古籍,從現(xiàn)代圖書分類來(lái)看,屬于技術(shù)類文本,所以出現(xiàn)詞句位置判斷失誤或者誤判歸屬的問(wèn)題會(huì)更多。這其中必須加強(qiáng)對(duì)關(guān)鍵詞的判斷,如若關(guān)鍵詞判斷失誤,那么接下里的斷句也會(huì)產(chǎn)生較大的偏差。第三,注意林業(yè)古籍中的引文、補(bǔ)遺、注釋等文字。這類文字是引自各種方志類書,不同朝代,不同性質(zhì),甚至有些引用文獻(xiàn)都已亡佚。以《樹藝篇》為例,書后有章鈺手寫目錄,統(tǒng)計(jì)193種文獻(xiàn)。如木部榆這一條的論述中,所引各種文獻(xiàn)若干條,涉及到《爾雅》、《廣志》、《云山志》、《九華志》、《武夷志》、《九江府志》、《興化府志》、《松江府志》等等,這其中涉及到很豐富的背景知識(shí),有典章制度,官制,地理、風(fēng)俗習(xí)慣,典故等等,所以這是一個(gè)非常值得關(guān)注的問(wèn)題。
傳統(tǒng)計(jì)算語(yǔ)言學(xué)基本離不開語(yǔ)料統(tǒng)計(jì),但是面對(duì)復(fù)雜的文本,還需要有針對(duì)性地結(jié)合一些規(guī)則。這里結(jié)合林業(yè)古籍的特征以及上述難點(diǎn),在古籍人工點(diǎn)校和計(jì)算機(jī)處理的雙重技術(shù)支撐下,考慮在普通古籍語(yǔ)料庫(kù)模式類型基礎(chǔ)上,著重以下幾條識(shí)別規(guī)則。識(shí)別規(guī)則實(shí)際上與標(biāo)注方式有關(guān),關(guān)鍵是將林業(yè)古籍文本的特色融合到標(biāo)注過(guò)程中,在此基礎(chǔ)上取得最優(yōu)的標(biāo)注效果。
在林業(yè)詞匯中,不少專業(yè)詞匯與普通古籍中的詞匯可能字面一樣,但是卻有獨(dú)特的含義。所以在林業(yè)古籍文獻(xiàn)的語(yǔ)料庫(kù)中,有必要將專業(yè)詞匯列入分詞識(shí)別規(guī)則中,否則會(huì)大大增加標(biāo)點(diǎn)的誤差率。目前有關(guān)命名實(shí)體化的方法日漸成熟,這里在技術(shù)上借鑒半監(jiān)督的中文信息處理手段,來(lái)實(shí)現(xiàn)林業(yè)專業(yè)術(shù)語(yǔ)的標(biāo)注。林業(yè)類詞匯可以分為直接表述性詞匯和簡(jiǎn)介表述性詞匯。直接表述性詞匯包括植物類,植物部位詞,加工模式詞等,而間接表述性詞匯包括色彩詞、形狀詞、時(shí)間詞、地點(diǎn)詞等。林業(yè)類專業(yè)詞匯的特別處理,有助于標(biāo)注的效率。如《樹藝篇》中有一段文字:“圖經(jīng)曰合歡夜合也生益州山谷今近京雍洛間皆有之人家多植于庭除間木似梧桐枝甚柔弱葉似皂莢槐等極細(xì)而繁密互相交結(jié)每一風(fēng)來(lái)輒似相解了不相牽綴其葉至暮而合古一名合昏五月花發(fā)紅白色瓣上至秋而實(shí)作莢子極薄細(xì)采皮及藥用不抱時(shí)月?!边@段話中,“合歡”、“梧桐”、“皂莢”、“槐”、“合昏”、等是直接表述性詞匯中的植物類名稱(簡(jiǎn)稱ZM),“花”、“枝”、“葉”、“瓣”、““莢子”、“皮“等屬于植物部位詞(簡(jiǎn)稱ZB)?!敝病?、”交結(jié)“、”牽綴“、”采“為加工模式詞等(簡(jiǎn)稱JG)。這些專業(yè)詞匯可以作為斷句的輔助依據(jù)。一般來(lái)說(shuō),如果ZM(ZB)后面是JG,那么考慮在ZM(ZB)前面做斷句;如果JG后面是ZM(ZB),一般在ZM(ZB)后面做斷句。
林業(yè)古籍中的語(yǔ)言敘述的事理邏輯,與現(xiàn)代語(yǔ)言中的科技語(yǔ)體有部分相似。他的描述基本無(wú)贅語(yǔ),簡(jiǎn)約而規(guī)范。以《樹藝篇》中的“柳”為例。柳樹是中國(guó)傳統(tǒng)的樹種,早在先秦時(shí)期就有相關(guān)記錄?!稑渌嚻分杏嘘P(guān)于柳樹栽培技術(shù)的敘述:“種柳正月二月中取弱柳枝大如臂長(zhǎng)一尺半燒下頭二三寸埋之令沒(méi)常足水以澆之必?cái)?shù)條俱生留一根茂者余悉掐去別豎一柱以為依主每一尺以長(zhǎng)繩柱欄之若不欄必為風(fēng)所摧不能自立一年中即高一丈余其旁生枝葉即掐去令直聳上高下任人取足便掐去正心即四散下垂婀娜可愛若不掐心則枝不四散或斜或曲生亦不佳也”。 這里有一些關(guān)鍵性的詞語(yǔ) “種”、“取”、“燒”、“埋”、“澆”、“留”、“掐”、“豎”等詞,還有數(shù)量單位 “尺”、“寸”、“條”、“根”、“柱”、“丈”等。這里主要依賴于概念分類和概念之間的關(guān)系的判斷,在一大段話中,根據(jù)動(dòng)詞出現(xiàn)的位置,在前后考慮這里有可分割的片段,以此形成邏輯子語(yǔ)言來(lái)提供判定。比如在動(dòng)詞前或者后是否存在某相關(guān)概念,而關(guān)鍵詞語(yǔ)概念之間是否存在一定的關(guān)系。這樣的片段邏輯模式積累到一定程序,可以去歸納類型,最終在此基礎(chǔ)上構(gòu)造邏輯模型。
在古籍文本中有豐富的引文資料存在,衡中青等學(xué)者針對(duì)引文的標(biāo)點(diǎn)問(wèn)題構(gòu)建了一種引書挖掘系統(tǒng)。他提出若是作者直接稱引的可以將文本生成電子文本后,計(jì)算機(jī)直接抽?。蝗羰菦](méi)有任何標(biāo)注的引文,可以使用模式識(shí)別方法加n-gram分詞法。②這種方法并不是針對(duì)斷句功能建立的,他主要是用于后期的文獻(xiàn)計(jì)量分析,不過(guò)對(duì)斷句模式有一定的啟發(fā)。我們可以建立引文識(shí)別的邏輯語(yǔ)言模式:如“某某曰”、“某某記”、“某某志”,那么在此前或者此后,就應(yīng)該考慮斷句。這里特別注意的是,因?yàn)榱謽I(yè)古籍中有時(shí)候會(huì)重復(fù)引用同一部文獻(xiàn),那么在上面已經(jīng)引用過(guò)的情況下,后面的書名可能是簡(jiǎn)稱?!稑渌嚻分幸母┦敖允牵绕湟⒁?。
需要注意的是,這幾種模式是相輔相成,不可偏缺的。以《樹藝篇》作為訓(xùn)練文本對(duì)象,有其代表意義和價(jià)值,但是也有局限性。雖然書中涉及文獻(xiàn)約有200篇,但是與浩如煙海的林業(yè)古籍總數(shù)相比,還是相去甚遠(yuǎn)。另外林業(yè)古籍還有其他一些特征有待挖掘,這是在后面的研究中亟待補(bǔ)充的。
[1]胡古愚.樹藝篇[M]//續(xù)修四庫(kù)全書977冊(cè).上海:上海占籍出版社,2002
[2]引文索引法的理論及應(yīng)用[M].北京:北京圖書館出版社,2004.
[3]吳小如.古籍整理中的點(diǎn)校注譯問(wèn)題[M]//古籍點(diǎn)校疑誤匯錄北京:中華書局,1989.
[4]昌寧,李涓子,等.語(yǔ)料庫(kù)語(yǔ)言學(xué)[M].商務(wù)印書館,2002.
[5]劉開瑛.中文文本 自動(dòng)分詞和標(biāo)注[M].北京:商務(wù)印書館,2000.
注釋:
①葛本儀,主編.漢語(yǔ)詞匯學(xué)[M].山東大學(xué)出版社,2003:1013.
②衡中青.《方志物產(chǎn)》引書挖掘及分析研究[J].中華農(nóng)史,2007,3.