常 娥 李慧芳
(東南大學(xué)圖書館 南京 210096)
古籍版本研究是一門古老而又年輕的學(xué)科,其古老在于古籍版本研究最早可追溯到先秦時期孔子、子夏等人對于書籍版本的異同研究,至今已有兩千多年的歷史[1]1-11;其年輕在于當前網(wǎng)絡(luò)數(shù)字環(huán)境為古籍版本研究賦予了全新的時代內(nèi)涵。隨著古籍數(shù)字化工程的建設(shè)與發(fā)展,古籍本身的載體除了傳統(tǒng)的甲骨、竹簡、絲綢、紙張外,又增加了新的載體,增添了古籍數(shù)字版本這一重要的形態(tài)。但由于古籍數(shù)字化建設(shè)缺乏國家標準,圖書館、出版社、研究所以及商業(yè)公司等各單位間缺乏科學(xué)統(tǒng)籌和協(xié)商合作,多為獨立開發(fā),導(dǎo)致古籍數(shù)字版本種類繁多,質(zhì)量良莠不齊。經(jīng)筆者統(tǒng)計發(fā)現(xiàn),《文淵閣四庫全書》有3種數(shù)字版,《二十五史》的數(shù)字版本多達7種[2]。由于目前各種古籍數(shù)據(jù)庫錯漏訛誤較多,缺少學(xué)術(shù)引用信譽,因此學(xué)者們在研讀、參考和引用時,大多會將數(shù)字版古籍與紙質(zhì)版古籍進行核對,最終引文注釋的出處仍使用紙質(zhì)版古籍,這大大削弱了古籍數(shù)據(jù)庫本來應(yīng)該起到的作用。
造成這一現(xiàn)象的原因在于,在近30年的古籍數(shù)字化建設(shè)進程中,學(xué)者們的研究重點主要集中在古籍數(shù)字化的意義、問題與困難、進展報告、檢索技術(shù)以及研究支持功能開發(fā)等層面[3],較少關(guān)注古籍數(shù)字版本問題。因此,從理論上對古籍數(shù)字版本及其衍生的一系列現(xiàn)象進行深入研究,進而討論古籍數(shù)字版本權(quán)威定本及引用問題顯得十分必要,比如研究古籍數(shù)字版本與傳統(tǒng)版本有何區(qū)別、古籍數(shù)字版本的優(yōu)勢與劣勢、古籍數(shù)字版本如何高度還原傳統(tǒng)紙質(zhì)版本的特點等等。有鑒于此,文章在闡釋古籍數(shù)字版本基本概念和分析古籍數(shù)字版本特點的基礎(chǔ)上,以6大數(shù)據(jù)庫中的《老子·道德經(jīng)》數(shù)字版本為例,對其進行比較和評鑒,提出了古籍數(shù)字版本權(quán)威定本及引用的方法和策略。
“版”與“本”二字合為一詞,始于宋代,最初指用雕刻文字的木版印制而成的圖書本子,俗稱雕版印本即刻本,其目的是區(qū)分當時流行的寫本、拓本(碑本、石本)等[4]。隨著活字印刷技術(shù)的發(fā)明和普及,印制圖書的“版”已不限于木質(zhì)雕版一種,除雕版印本之外,其他各種類型的印本如活字本、鉛印本、石印本、膠印本以及各種影印本等,逐漸被包括在版本范圍之類,甚至連早期的稿本、抄本等各種手寫本也均成為圖書的不同版本類型。雖然迄今為止,關(guān)于版本的概念學(xué)界還沒有形成統(tǒng)一的認識,存在著“印本說”“合稱說”“總稱說”“形態(tài)說”等說法,聚訟紛紜,但學(xué)者們普遍認同“版本”一詞的含義在逐漸擴大,已成為一部圖書各種表現(xiàn)形態(tài)的總稱[1]1-11。古籍數(shù)字化工程改變了古籍原本的實物版本形態(tài),一部圖書的表現(xiàn)形態(tài)既可以是實際物品,也可以是數(shù)字信號,因此數(shù)字版本成為一種新型古籍版本表現(xiàn)形態(tài)。
伴隨著數(shù)字化技術(shù)手段的不斷更新與變化,古籍數(shù)字化經(jīng)歷了較長時間發(fā)展。起初,商業(yè)公司將古籍掃描成圖像制作成光盤發(fā)行銷售,稱其為“光盤版”或“電子版”古籍。杜澤遜先生指出,“電子版”的提出開拓了數(shù)字時代古籍版本學(xué)研究新視野[5]。后來,隨著網(wǎng)絡(luò)技術(shù)、掃描技術(shù)和OCR技術(shù)的不斷發(fā)展,科研機構(gòu)、圖書館、商業(yè)公司等開始將古籍資料加工成計算機可編輯的文本字符形式,并利用計算機網(wǎng)絡(luò)進行傳播和利用,以文本字符為基礎(chǔ)產(chǎn)生了word、pdf、txt、html等多種格式的古籍版本。綜合借鑒古籍數(shù)字化領(lǐng)域研究成果,文章認為所謂古籍數(shù)字版是指利用拍照、掃描、OCR識別等技術(shù)將紙質(zhì)古籍資料轉(zhuǎn)變成計算機可讀取、顯示與編輯的版本形式。古籍數(shù)字版本有廣義和狹義之分,廣義上的古籍數(shù)字版本,既包括縮微膠卷版、掃描圖像版古籍,也包括文本字符版古籍,可以稱之為光盤版、電子版、網(wǎng)絡(luò)版古籍等;狹義上的古籍數(shù)字版本,一般僅指文本字符型的古籍版本,強調(diào)計算機對古籍文字內(nèi)容的可編輯性,以及可實現(xiàn)全文檢索的功能,主要以古籍全文數(shù)據(jù)庫或網(wǎng)頁形式存在。
雖然古籍原典含有其數(shù)字化拷貝不能承載的信息,古籍數(shù)字版本永遠不可能取代原典,但從利用古籍文字內(nèi)容進行學(xué)術(shù)研究來看,古籍數(shù)字版本是可以作為古籍的一種版本形式被引用和評鑒的,因此古籍數(shù)字版本有其獨立存在的意義。古籍全文數(shù)據(jù)庫擁有的強大檢索功能是紙本古籍所不具備的,如果能確定古籍數(shù)字版本的權(quán)威定本,并在古籍版本流傳譜系中對其進行歷史定位,學(xué)者們可以直接進行研讀、參考和引用,這無疑將極大推進人文社科研究進展。
統(tǒng)計表明,目前我國公藏機構(gòu)已擁有超過20億字的數(shù)字版本古籍,常見古籍基本可以在互聯(lián)網(wǎng)上找到數(shù)字版本[6]。近年來,以國家圖書館為代表的文化機構(gòu),通過與國外典藏機構(gòu)合作,將流散海外的古籍文獻數(shù)字化,其代表性項目有“國際敦煌項目”“海外古籍善本項目”等[7]。但由于種種原因,我國至今尚未完成一份完整的古籍數(shù)字化資源普查報告,無法準確統(tǒng)計被數(shù)字化古籍的存量??梢钥隙ǖ氖牵壳肮偶當?shù)字版本類型非常豐富,很多古籍,尤其是善本古籍的數(shù)字版本遠不止一種格式。相比于傳統(tǒng)版本,古籍數(shù)字版本具有鮮明特點,歸納起來有以下幾點。
第一,古籍數(shù)字版本格式多樣。常見數(shù)字版本格式除txt、doc、html外,還有exe、pdf、wdl、pdg、ebk、edb等,不同古籍全文數(shù)據(jù)庫平臺格式各異。盡管古籍數(shù)字版本格式繁雜,但就古籍全文數(shù)據(jù)庫處理版本選擇問題的模式而言,目前主要存在兩種形式[8]:一是影像版古籍,又稱圖像版,主要利用掃描技術(shù),通過保存古籍影像的方式保留古籍文獻原貌,為數(shù)據(jù)庫提供古籍文獻版本的直觀依據(jù);二是文本版古籍,主要利用OCR識別技術(shù),將影像版古籍轉(zhuǎn)化為文本字符,從而便于全文檢索和更新內(nèi)容文字排版等。無論是影像版,還是文本版,將古籍原典進行數(shù)字化的過程類似于一種電子“謄抄”過程,而無論哪家機構(gòu)都不能保證百分百“謄抄”正確。
第二,古籍數(shù)字版本復(fù)雜多樣。由于古籍數(shù)字化建設(shè)初期缺乏統(tǒng)一規(guī)劃與部署,同一版本原典會被不同機構(gòu)選中并進行數(shù)字化。不同機構(gòu)采用不同分辨率的掃描技術(shù),OCR識別準確率亦不盡相同,最終形成了同一版本原典的不同數(shù)字版本,例如紙質(zhì)版《老子·道德經(jīng)》(河上公注)在不同古籍數(shù)據(jù)庫中有多種數(shù)字版本。此外,由于某一種古籍本身具有多種紙質(zhì)版本,同一機構(gòu)選擇其不同版本進行數(shù)字化,從而形成了該古籍的不同數(shù)字版本,例如在“古籍基本數(shù)據(jù)庫”中有13種《老子·道德經(jīng)》的數(shù)字版本。兩種原因相疊加,使得古籍數(shù)字版本變得更加復(fù)雜多樣。因此,針對古籍數(shù)字版本亂象叢生的現(xiàn)象亟需解決權(quán)威定本問題,以進一步提升古籍數(shù)據(jù)庫的應(yīng)用價值。
第三,古籍數(shù)字版本承載信息量減少。承載古籍的甲骨、金石、竹簡、木牘、絹帛和紙張等具有物質(zhì)形態(tài),這些物質(zhì)形態(tài)本身也能傳達很多信息。例如竹簡的長度不一,含義不同,長簡用于寫經(jīng)典,短簡則用于記雜文,而木牘則多用于寫書信[9]。紙本古籍的版本信息更加豐富,有稿本、刻本、抄本之別,每種版本所傳達出來的外部信息差異甚大。以刻本為例,以時代、地域和刻版形式等不同視角可以觀察出不同的信息。遺憾的是,這些版本信息在目前的文本版古籍數(shù)據(jù)庫中基本上無法獲知。因此,研究數(shù)字版古籍如何最大限度地保留傳統(tǒng)版本所承載的各類信息是非常必要的,這也是比較和評鑒各種古籍數(shù)字版本、確定權(quán)威定本時需要重點考量的因素。
第四,古籍數(shù)字版本具有不穩(wěn)定性。相比于紙本文獻,數(shù)字文獻最大優(yōu)點在于一篇文檔可以隨時修訂、補充和完善。但是對于古籍數(shù)字化文檔而言,這極易造成古籍所承載的歷史記憶信息被修改。由于古籍數(shù)據(jù)庫在開發(fā)制作時存在粗疏、校對不嚴謹、缺乏專業(yè)性等問題,古籍數(shù)據(jù)庫在提供強大檢索功能的同時,也失去了原紙質(zhì)版本的穩(wěn)定性,變得不那么可靠。嚴謹?shù)膶W(xué)者在使用古籍數(shù)據(jù)庫時,通常會與原紙質(zhì)版本進行核對,這實質(zhì)上是針對古籍數(shù)字版本的??毙袨?。同一種古籍的不同數(shù)字版本所承載的信息有同有異,選擇精良版本、經(jīng)過??笨急娴冗M一步提高某種數(shù)字版本的質(zhì)量和可信度、標注出數(shù)字版本的版本信息,這將成為古籍數(shù)字化未來著力發(fā)展的方向。
《老子·道德經(jīng)》,又稱《道德經(jīng)》《道德真經(jīng)》《老子》《五千言》《老子五千文》等,是中國古代先秦諸子的一部經(jīng)典著作,傳說是春秋時期的老子(李耳)所撰寫,是道家哲學(xué)思想的重要來源?!独献印さ赖陆?jīng)》分上下兩篇,原文上篇《德經(jīng)》、下篇《道經(jīng)》,不分章;后改為《道經(jīng)》(前37章),第38章之后為《德經(jīng)》,并分為81章。由于《老子·道德經(jīng)》寫于2000多年前,主要靠手寫傳抄流傳,難免有被改動,或者錯寫、漏寫的地方,導(dǎo)致當前流傳于世的《老子·道德經(jīng)》版本約有300多種,目前比較有影響力的三個版本為王弼通行本、馬王堆帛書甲乙本以及郭店出土的楚簡本。
《老子·道德經(jīng)》在流傳過程中,由于增、刪、改等錯誤抄寫,導(dǎo)致不同版本間存在差異,最直接的表現(xiàn)為總字數(shù)上的不同。據(jù)統(tǒng)計,馬王堆帛書,甲本為5 344字,乙本為5 342字(外加重文124字);今本,河上公《道德經(jīng)章句》為5 201字(外加重文94字),傅奕《道德經(jīng)古本》為5 450字(外加重文106字),現(xiàn)代《老子·道德經(jīng)》通行本,以王弼所注,總字數(shù)為5 162字(外加重文106字)[10]。
古籍數(shù)字版本優(yōu)劣問題已引起學(xué)界關(guān)注,有學(xué)者就分析了古籍數(shù)字版本的各種查找、排版、統(tǒng)計以及是否有讀書筆記注釋功能等。只是既有研究大多從圖像版、文本版的宏觀整體層面進行分析與對比,缺乏細致深入的古籍數(shù)字版本評鑒,有鑒于此,文章以《老子·道德經(jīng)》為研究對象,開展細致深入的古籍數(shù)字版本比較與評鑒研究。
文章選擇國內(nèi)6大知名古籍數(shù)據(jù)庫進行摸底調(diào)研,包括“中國基本古籍庫”(簡稱“基本古籍庫”)、“鼎秀古籍全文數(shù)據(jù)庫”(簡稱“鼎秀古籍庫”)、“大成故紙堆”(簡稱“故紙堆庫”)、“中美百萬圖書全文數(shù)據(jù)庫”(簡稱“CADAL庫”)、“中華古籍資源庫”(簡稱“中華古籍庫”)和“國學(xué)大師網(wǎng)”(簡稱“大師網(wǎng)”)。筆者發(fā)現(xiàn)《老子·道德經(jīng)》數(shù)字版本主要呈現(xiàn)出3大特點:第一,就數(shù)字版本所選紙質(zhì)底本來看,不同古籍數(shù)據(jù)庫間并不相同,原因在于《老子·道德經(jīng)》紙質(zhì)版本資源豐富,可選擇范圍廣泛;第二,就數(shù)字版本總體形式來看,《老子·道德經(jīng)》的數(shù)字版本主要有圖像版和文本版兩種形式,圖像版是各數(shù)據(jù)庫的首選數(shù)字版本形式,而文本版制作成本高昂,主要存在于商業(yè)數(shù)據(jù)庫中;第三,各古籍數(shù)據(jù)庫收藏《老子·道德經(jīng)》的數(shù)字版本數(shù)量差異較大,例如“基本古籍庫”包含13種數(shù)字版本,“中華古籍庫”包含49種數(shù)字版本。
通過摸底調(diào)研,筆者最終發(fā)現(xiàn)《老子·道德經(jīng)》(河上公注,四部叢刊景宋本)可以滿足文章研究的數(shù)據(jù)可獲得性要求。文章對《老子·道德經(jīng)》數(shù)字版本的評鑒研究主要從文本版質(zhì)量和圖像版質(zhì)量這兩個方面展開,具體分析維度包括文本版字符異文錯訛情況、是否可變換排版、有無標點符號,圖像版本圖像清晰度、完整度、有無封面等幾個方面,詳細比較結(jié)果如表1所示。
表1 《老子·道德經(jīng)》數(shù)字版本分析評鑒表
根據(jù)評鑒研究結(jié)果,各古籍數(shù)據(jù)庫的圖像版本質(zhì)量較高,基本實現(xiàn)了掃描圖像清晰、完整且平整規(guī)范,無翻折痕跡等,其中“故紙堆庫”完整掃描了《老子·道德經(jīng)》的封面頁,使得其圖像版本形態(tài)更加完整。文本版由于制作成本高,主要存在于“基本古籍庫”“鼎秀古籍庫”“大師網(wǎng)”中,其中“基本古籍庫”文本版的質(zhì)量最高,不僅用不同字體顏色區(qū)分原文章句和注釋文本,并且可以變化文本字符的排版方式,便于閱讀。為了對比分析《老子·道德經(jīng)》不同文本版的異文錯訛情況,文章采用人工方式將《老子·道德經(jīng)》數(shù)字版本中的原文章句與紙質(zhì)底本進行逐字符比較,分別就增、刪、改動文字情況進行統(tǒng)計。針對古籍數(shù)字化繁簡體字符問題,由于目前學(xué)界大多支持采用繁體字制作古籍文本,以盡可能保留原典信息。因此繁簡體、通假字等變化,文章在統(tǒng)計過程中均視為文字改動。
統(tǒng)計結(jié)果顯示,“基本古籍庫”中的文本質(zhì)量高,錯字率為3.65‰,其次為“鼎秀古籍庫”,錯字率為6.92‰,而“大師網(wǎng)”中的文本質(zhì)量較低,錯字率為37.88‰。筆者進一步分析各數(shù)據(jù)庫中的文本版《老子·道德經(jīng)》的文字改動情況,發(fā)現(xiàn)大多為繁簡體、通假字的改動,主要包括“旣改既”“巳改已”“衆(zhòng)改眾”“兊改兌”等,文章重點統(tǒng)計了《老子·道德經(jīng)》各數(shù)字版本文字改動頻次在2次及以上的異文情況,具體如表2所示。
表2 各數(shù)字版本《老子·道德經(jīng)》的文字改動情況統(tǒng)計
傳統(tǒng)古籍版本鑒定是指辨識、鑒定古籍以確定其刻印或抄寫的年代、版本源流及其價值的工作。古籍數(shù)字版本形態(tài)完全不同于傳統(tǒng)紙質(zhì)古籍,因此對其進行鑒定不能照搬傳統(tǒng)古籍版本鑒定方法。鑒于每一個古籍數(shù)字版本的生成均可以找到其對應(yīng)的傳統(tǒng)紙質(zhì)古籍,因此文章將古籍數(shù)字版本和與其對應(yīng)傳統(tǒng)紙質(zhì)古籍的接近程度作為古籍數(shù)字版本權(quán)威定本的核心考量因素,綜合上述《老子 ·道德經(jīng)》數(shù)字版本比較結(jié)果,提出確定古籍數(shù)字版本權(quán)威定本及引用的方法和策略。
第一,圖像版古籍可視為數(shù)字權(quán)威定本,可以用作文獻引用。目前計算機掃描技術(shù)已經(jīng)非常成熟,采用光電、拍照等方式將古籍紙質(zhì)原典轉(zhuǎn)化為數(shù)字版本時,可以清晰記錄下古籍原典所包含的各種版本信息,例如版面、印章、批點、劃線等,因此制作圖像版古籍是最接近紙質(zhì)古籍原典的數(shù)字化方式,可用作文獻引用。圖像版古籍的版本權(quán)威性可以根據(jù)數(shù)字化掃描底本的版本價值來判斷,如果是善本古籍,其圖像版可視為其數(shù)字權(quán)威定本,例如《老子·道德經(jīng)》(河上公注,四部叢刊景宋本)的圖像版可視為數(shù)字權(quán)威定本。為了增加圖像版古籍的信任度,使其成為像紙質(zhì)古籍那樣可靠的信息來源,除了掃描正文頁外,還應(yīng)該掃描封面、封底和版權(quán)信息頁,并標注數(shù)字版本信息。標注古籍數(shù)字版本信息應(yīng)包含兩個方面內(nèi)容,其一為原始古籍的版本,其二為數(shù)字化以后的版本,以備文獻核查與引用。
第二,文本版古籍暫不適合做數(shù)字權(quán)威定本,無法用作文獻引用。由于文本版古籍生成的特殊性,OCR轉(zhuǎn)換過程中不可避免存在增、刪、改、字庫不兼容等情況,產(chǎn)生錯訛,加上文本版制作成本高,并不是每一個古籍數(shù)據(jù)庫都有文本版,因此盡管文本版古籍底本可能為善本,但是仍然不適合做數(shù)字權(quán)威定本,亦不能單獨用作文獻引用。根據(jù)比較結(jié)果,《老子·道德經(jīng)》(河上公注,四部叢刊景宋本)在各大古籍數(shù)據(jù)庫中的文本版錯字率均高于萬分之五,因此學(xué)界不得不面對的現(xiàn)實是,目前文本版古籍質(zhì)量仍有待提高。文本版古籍的存在價值在于快速檢索全文,節(jié)省用戶查找和閱覽古籍資料的時間,可以與其圖像版古籍結(jié)合使用,形成圖文對照,提高學(xué)術(shù)引用正確率。
降低文本版古籍的錯訛率,使其能夠被學(xué)術(shù)研究所引用并形成文獻學(xué)意義上的古籍版本,是古籍數(shù)字化領(lǐng)域未來值得持續(xù)探索的研究方向。文本版古籍數(shù)字權(quán)威定本的形成,除了依賴于漢字字庫的進一步發(fā)展和文字識別錄入準確率的提高外,還需要研究數(shù)字文本固化保存技術(shù),例如數(shù)字簽名、區(qū)塊鏈技術(shù)等,以防止文本內(nèi)容的刪改。
古籍數(shù)據(jù)庫規(guī)模龐大,種類繁多,百萬字文本資料的檢索可在瞬間完成,是文史研究的重要工具。然而,目前古籍數(shù)據(jù)庫文本字符準確度明顯不足,在論文、著作中引證古籍文獻時,學(xué)界仍要求使用公認權(quán)威版本的古籍紙書,更突顯了數(shù)字化古籍版本問題。針對目前各種古籍數(shù)據(jù)庫錯漏訛誤較多、缺少學(xué)術(shù)引用信譽的弊端,古籍版本學(xué)亟需解決數(shù)字化古籍的權(quán)威定本問題,使其能夠被學(xué)術(shù)研究所引用并形成文獻學(xué)意義上的古籍版本。有鑒于此,文章提出了古籍數(shù)字版本概念,并分析了古籍數(shù)字版本特點,最后以《老子·道德經(jīng)》為例,比較分析了包括“基本古籍庫”“中華古籍庫”“鼎秀古籍庫”等在內(nèi)的6大主流古籍數(shù)據(jù)庫中數(shù)字版本情況,認為善本古籍的圖像版可視為該古籍的數(shù)字權(quán)威定本并用作文獻引用,而文本版古籍尚無法認定為權(quán)威版本。但由于文本版古籍在信息深入檢索和知識挖掘上具有圖像版古籍無可比擬的優(yōu)勢,因此可通過更加嚴格的質(zhì)量控制,使其成為數(shù)字版本權(quán)威定本。