李明杰,方 正,宋時雨
中國古代文獻整理以其悠久的歷史形成了一系列優(yōu)良的學術(shù)傳統(tǒng),筆者將其歸納為五個方面:一是在底本選擇時“廣勘異本,擇善而從”的傳統(tǒng);二是在文字校注時“述而不作,信而好古”的傳統(tǒng);三是在版本源流考訂時“萬流同歸,百慮一致”的傳統(tǒng);四是在書目編制時“辨章學術(shù),考鏡源流”的傳統(tǒng);五是在文獻編纂時“會通”的傳統(tǒng)[1]。這些優(yōu)良的學術(shù)傳統(tǒng)是文獻整理長期實踐經(jīng)驗的總結(jié)和理論升華,對當今的古籍整理及古籍數(shù)字化工作仍具有重要的借鑒意義。之前筆者曾撰文[2]探討“會通觀”對古籍數(shù)字化的認識論和方法論價值,今接續(xù)前文,探討“述而不作”的涵義及其對古籍數(shù)字化的參照意義。
“述而不作”語自《論語·述而》:“述而不作,信而好古,竊比我于老彭?!盵3]74對這句話的本義,后世有不同的解讀,歧義主要體現(xiàn)在對“述”和“作”的理解。對于“述”,一說“循舊”,以清劉寶楠《論語正義》為代表;一說“闡述舊章經(jīng)典”,以皇侃《論語集解義疏》和朱熹《論語集注》為代表。事實上,循舊是“述”的本義,如許慎《說文解字》的解釋:“述,循也?!倍鴱摹抖Y記》《詩經(jīng)》《左傳》《尚書》等先秦典籍使用“述”字的義項來看,亦都作“循”解。
對于“作”,一說為“新制禮樂”,以皇侃《論語集解義疏》為代表;一說“創(chuàng)作”,以朱熹《論語集注》和今人楊伯峻《論語譯注》為代表。然而,戰(zhàn)國之前并無私人著述,如章學誠《文史通義·詩教》指出:“至戰(zhàn)國而官守師傳之道廢,通其學者,述舊聞而著于竹帛焉……不知古初無著述,而戰(zhàn)國始以竹帛代口耳?!盵4]63因此,將“作”解釋為創(chuàng)作,是行不通的。但是否就是“新制禮樂”呢?據(jù)《中庸》第二十七章載:“非天子,不議禮,不制度,不考文。”[5]95可見制定禮樂是天子之事,對信守周禮的孔子來說,不可能僭越為之。既然以上兩種說法都不準確,那孔子所謂的“作”是什么意思呢?周遠斌[6]從《中庸》第十章“索隱行怪”這段話得到啟示:“子曰:索隱行怪,后世有述焉,吾弗為之矣。君子遵道而行,半涂而廢,吾弗能已矣?!盵5]57“作”就是舍棄王道而別立他道之義。反之,“不作”就是“遵道而行”,即遵循、繼承先王的事業(yè)。筆者贊同周遠斌說,“述而不作”的本義是孔子政治理想的表達,而非專指對典籍的因循守舊。
“述而不作”的本義是繼承往圣、不改“王道之業(yè)”??鬃訛榱送菩兴簧顬橹恋赖闹芏Y,廣收門徒,講學杏壇,編訂教材,相傳曾刪《詩》《書》,定《禮》《樂》,贊《周易》,修《春秋》。如何看待孔子整理文獻典籍與繼承“王道之業(yè)”的關(guān)系?章學誠認為:“故夫子述而不作,而表章六藝,以存周公之舊典也,不敢舍器而言道也?!盵4]133也就是說,孔子以保存周公的舊典作為“器”,通過六經(jīng)的“述而不作”來實現(xiàn)恢復周制的“道”,兩者是“道器合一”、不可分割的關(guān)系。正因為如此,隨著歷史的車輪滾滾向前,周禮雖一去不復返,但“述而不作”的理念卻被引申為文獻整理的圭臬,成為后人所理解的孔子治學精神的精髓。
何謂文獻學意義上的“述而不作”?結(jié)合“信而好古”來理解,就是遵從歷史的本來面目,表現(xiàn)在文獻整理程序和方法上,就是尊重文獻原文,不臆測和妄改文字,以求文獻原本之真;在闡釋文義時,不以己意強加作者,以求作者原說之真。最能體現(xiàn)孔子這種治學思想的例子已為大家所熟知:《春秋·昭公十二年》記“齊高偃帥師納北燕伯于陽”,孔子明知“伯于陽”為“公子陽生”之誤,但為了慎重,沒有徑改。東漢何休《解詁》曰:“此夫子欲為后人法,不欲令人妄臆錯?!盵7]孔子在不同場合多次強調(diào)治學要信守原文的原則,這在《論語》中亦有記載,如《為政》篇云:“多聞闕疑,慎言其余?!盵3]20《子罕》篇又云:“子絕四:毋意,毋必,毋固,毋我?!盵3]100
強調(diào)“不作”并不代表孔子沒有自己的思想主張,只是他認為,與其空講道理,不如擺事實,于是將自己要表達的觀點隱藏在文字和史實后面,讓讀者自己去體會。所謂春秋筆法、微言大義,講的就是這個意思。因此朱熹說:“然當是時,作者略備,夫子蓋集群圣之大成而折衷之。其事雖述,而功則倍于作矣,此又不可不知也?!盵5]221而且,在孔子所處的時代,他是不可能主張“作”而不“述”的,正如《中庸》所云:“雖有其位,茍無其德,不敢作禮樂焉。雖有其德,茍無其位,亦不敢作禮樂焉?!盵5]95孔子就屬于有德無位的情況,自然不具備大張旗鼓地“作”的條件。何況《禮記》又說:“作者之謂圣,述者之謂明。明圣者,述作之謂也?!盵8]可見,能做到“祖述堯舜,憲章文武”(《禮記·中庸》)就已經(jīng)很了不起了。如果以“作者”自居,豈非自詡為圣人?這在當時是絕無可能的。因此,后世有學者將“述”與“作”對立起來,認為孔子只提倡“述”而否定“作”,進而認為孔子思想守舊、抵制創(chuàng)新,這種看法是有失偏頗的。
自孔子提出“述而不作”以后,后世學者莫不以之為標榜?!笆龆蛔鳌睅缀醭蔀橐环N學術(shù)話語方式,深深植入了中國文化的土壤,對傳統(tǒng)學術(shù)的發(fā)展產(chǎn)生了深刻的影響。
“述而不作”引入史學領(lǐng)域,開創(chuàng)了秉筆直書的“實錄”派風格,如司馬遷作《史記》,上大夫壺遂將他與孔子修《春秋》相提并論,但司馬遷卻在《太史公自序》里鄭重其事地說:“余所謂述故事,整齊其世傳,非所謂作也。而君比之于《春秋》,謬矣?!盵9]可見,司馬遷認為自己的工作性質(zhì)只是“整齊其世傳”的“述”,而非創(chuàng)作意義的“作”。這決非司馬遷的自謙之詞,反倒是“其文直,其事核,不虛美,不隱惡”[10]的“實錄”精神的體現(xiàn)。
“述而不作”引入文學領(lǐng)域,產(chǎn)生了文學評論“推源溯流”的崇古情節(jié),如鐘嶸《詩品》評論前人,常用“其源出于某某”“頗似”“祖襲”“憲章”之類的語言,如評李陵“其源出于楚辭”,評沈約“憲章鮑明遠”,故章學誠認為鐘嶸《詩品》堪稱文學評論“推源溯流”的典范:“《詩品》之于論詩,視《文心雕龍》之于論文,皆專門名家,勒為成書之初祖也。《文心》體大而慮周,《詩品》思深而意遠。蓋《文心》籠罩群言,而《詩品》深從六藝溯流別也。”[4]559鐘嶸的方法與孔子提倡“祖述堯舜,憲章文武”、對圣人之道采取“述而不作”的思想是一脈相承的。另外,“述而不作”在對儒學、釋學、道學的闡發(fā)和發(fā)展過程中,也都產(chǎn)生過重要影響,此不一一贅述。
“述而不作”引入文獻學領(lǐng)域,在編纂、校勘、注釋等學術(shù)活動中發(fā)展出了尊重歷史原貌、信守典籍原文、遵從作者原義的文獻整理基本原則,并為歷代學者所尊崇。
在文獻編纂領(lǐng)域,東漢的許慎編《說文解字》,信守孔子的闕疑之法,必遵舊文而不穿鑿;西晉時對發(fā)掘出土的《汲冢竹書》的整理,遇到的首要問題就是將戰(zhàn)國時的文字改譯成今文隸書,荀勖等人對原文意義把握不定的則留其真,遇有奪文,便在譯本相同的位置用方括號代替。為保持原書格式,“謹以二尺黃紙寫上”,目的是仿照戰(zhàn)國竹簡古式;南梁釋僧祐在整理佛經(jīng)時,對難以擇取的同書異本,不以一己之意斷版本之是非,而以存疑之法“新舊兩存”。
在文獻??鳖I(lǐng)域,鄭玄?!度Y》,如無確鑿證據(jù),絕不輕改原文,遇有今古之異文,則存古字而不改;南宋彭叔夏年少時,手抄《宋太祖實錄》,“其間云:‘興衰治□之源。’闕一字,意謂必是‘治亂’。后得善本,乃作‘治忽’。三折肱為良醫(yī),信知書不可以意輕改”[11]。清乾嘉時期的顧廣圻、黃丕烈,校書時主張“據(jù)此本以校彼本,一行幾字,鉤乙如其畫,一點一畫,照錄而不改。雖有誤字,必存原本”[12],由此形成??绷髋芍械摹八佬!币慌伞1M管歷史上曾發(fā)生過段(玉裁)、顧(廣圻)之爭,但也正是通過“理?!焙汀八佬!钡膶W術(shù)論辯,促進了校勘學理論的發(fā)展,如段玉裁提出了“以孔還孔”“以賈還賈”的著名觀點,而顧廣圻則發(fā)展了“以不校校之”的理論,兩者雖然在路徑上有所不同,但歸途都是“述而不作”。
在文獻注釋領(lǐng)域,以儒家經(jīng)典為例,從最初的六經(jīng)、五經(jīng),發(fā)展到后來的九經(jīng)、十二經(jīng)、十三經(jīng),再到清乾隆時修《四庫全書總目》(含存目)著錄的1,773種經(jīng)書,儒家文獻體系的演變和發(fā)展壯大,差不多都是“祖述六經(jīng)”的結(jié)果。期間雖然也發(fā)生過“我注六經(jīng)”與“六經(jīng)注我”的方法之爭,但最終都要以先賢典籍為根本,故清人戴震在闡釋注經(jīng)的方法時說:“然尋求而獲,有十分之見,有未至十分之見。所謂十分之見,必征之古而靡不條貫,合諸道而不留余議,巨細畢究,本末兼察?!盵13]注重對古代經(jīng)典本義的闡發(fā),就是“述而不作”原則在注釋領(lǐng)域的體現(xiàn)。
文獻整理發(fā)展到今天,文獻記錄符號、文獻載體、文獻整理方法都已經(jīng)發(fā)生了巨大變化,特別是古籍數(shù)字化的概念提出來以后,不斷有新的信息技術(shù)應用到古籍數(shù)字化領(lǐng)域,用戶從古籍數(shù)字化中不僅能獲得古籍的文獻信息、文本內(nèi)容,甚至還能獲得加工好的古籍知識產(chǎn)品和成熟的研究工具。那么,“述而不作”的文獻整理原則是否還適用于今天的古籍數(shù)字化實踐?數(shù)字環(huán)境下古籍整理(“述”)與古籍學術(shù)研究(“作”)的邊界在哪?
人們對古籍數(shù)字化的認識是一個隨著信息技術(shù)進步而不斷深化的過程,這個過程大致經(jīng)歷了3個階段。
第一階段為“存儲介質(zhì)轉(zhuǎn)換說”。最初人們認為,古籍數(shù)字化是出于保護古籍內(nèi)容的目的,對古籍內(nèi)容的存儲介質(zhì)進行數(shù)碼轉(zhuǎn)換,如李運富稱:“所謂古籍電子化(筆者注:早期‘數(shù)字化’與‘電子化’是混用的),是指利用現(xiàn)代信息技術(shù),將歷來以抄寫本、刻鑄本、雕版、活字本、套版及鉛字印刷等方式所呈現(xiàn)的古代文獻,轉(zhuǎn)化為電子媒體的形式?!盵14]這個定義,實際上是從保護古籍文本的角度對古籍的版本類別進行了擴展。從數(shù)字版本與紙質(zhì)版本的古籍的對照來看,前者的文本內(nèi)容要求與后者必須保持一致。而事實上,除了掃描成圖像格式外,經(jīng)過文本轉(zhuǎn)換后的內(nèi)容或多或少都會因為簡繁字體、俗體字、異體字、避諱字,甚至額外加入的標點符號等復雜的原因產(chǎn)生與原文語義上的偏差。但從整體要求上來說,古籍存儲介質(zhì)的轉(zhuǎn)換與許慎《說文解字》對“述”的定義“循也”是完全吻合的,即“述而不作”。
第二階段為“信息資源揭示說”。機讀目錄編制技術(shù)和計算機檢索技術(shù)引入古籍數(shù)字化之后,經(jīng)過存儲介質(zhì)轉(zhuǎn)換的古籍數(shù)字文本,相比傳統(tǒng)的紙質(zhì)文本更便于進行有序化的組織和檢索,不但能實現(xiàn)傳統(tǒng)書目索引的檢索功能(如書名檢索、作者名檢索、分類檢索、關(guān)鍵詞檢索等),還能提供便捷高效的全文檢索服務。因此,有學者認為,古籍數(shù)字化在實現(xiàn)存儲介質(zhì)轉(zhuǎn)換的同時,還應深入揭示古籍的內(nèi)容資源,按用戶的需求提供信息檢索和原文呈現(xiàn)的功能。如毛建軍認為:“古籍數(shù)字化就是從利用和保護古籍的目的出發(fā),采用計算機技術(shù),將常見的語文文字或圖形符號轉(zhuǎn)化為能被計算機識別的數(shù)字符號,從而制成古籍文獻書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻信息資源的一項系統(tǒng)工作?!盵15]因此,該階段對古籍數(shù)字化的定義可稱為“信息資源揭示說”,即古籍保護不再是古籍數(shù)字化的唯一目的,揭示古籍的信息資源是同樣重要的任務。此階段對古籍數(shù)字化的學術(shù)定位仍是清晰的,即為讀者揭示古籍信息或提供古籍原文。即便是計算機自動標點、自動???、自動編纂等新的古籍文本加工形式的出現(xiàn),也只是加工工具和手段的不同而已,其對象都是對古籍原文的加工,亦即“述而不作”。
第三階段為“數(shù)據(jù)深度加工說”。古籍在完成了文本內(nèi)容的轉(zhuǎn)換、信息資源的組織之后,形成了海量的數(shù)據(jù),而這些數(shù)據(jù)還可以成為下一步加工整理的對象。隨著新型數(shù)字人文技術(shù),如社會網(wǎng)絡分析、文本挖掘與聚類、地理信息系統(tǒng)(GIS)、知識可視化、機器學習等技術(shù)在古籍數(shù)字化中的應用,古籍數(shù)字化又向前邁進了一大步,進入了以數(shù)據(jù)加工為手段的知識深度開發(fā)階段,如范佳提出,“古籍數(shù)字化應充分占有數(shù)字人文研究成果,從文本挖掘、GIS技術(shù)、文本可視化和古籍語料庫四個方面進行古籍數(shù)字化的深度開發(fā)”[16]。數(shù)字技術(shù)與人文科學研究的融合,在帶來人文科學研究方法變革的同時,也加深了學界對古籍數(shù)字化技術(shù)功能的迷信,模糊了“述”與“作”的邊界。
“述而不作”對古籍數(shù)字化學術(shù)定位的價值就在于,無論數(shù)字化技術(shù)如何發(fā)展,其技術(shù)功能如何強大,古籍數(shù)字化都屬于古籍整理(即“述”)的范疇,而不可能取代利用古籍從事具有獨創(chuàng)性的學術(shù)研究(即“作”)。在紙質(zhì)文獻環(huán)境下,學界對古籍整理與利用古籍從事學術(shù)研究有著十分嚴格的界限,如已故著名史學家黃永年教授稱:“古籍整理,是對原有的古籍作種種加工,而這些加工的目的是使古籍更便于今人以及后人閱讀利用,這就是古籍整理的涵義,或者可以說是古籍整理的領(lǐng)域。超越這個領(lǐng)域,如撰寫講述某種古籍的論文,以及撰寫對某種古籍的研究專著,盡管學術(shù)價值很高,也不算古籍整理而只能算古籍研究?!盵17]進入數(shù)字環(huán)境以后,古籍數(shù)字化進入了數(shù)據(jù)加工層次,通過數(shù)據(jù)挖掘和知識加工,雖可生成更多知識性的研究工具,如社會網(wǎng)絡、知識圖譜、地理信息系統(tǒng)等,但只是將隱性的歷史事實和數(shù)據(jù)顯性化,其本身并不具備獨立的價值理性,終歸是輔助學術(shù)研究的工具。因此,在筆者看來,無論是古籍存儲介質(zhì)的轉(zhuǎn)換、古籍信息資源的揭示,還是古籍知識的深度開發(fā),都只不過是古籍整理在信息技術(shù)發(fā)展的不同階段的不同表現(xiàn)形式而已,是傳統(tǒng)的古籍整理范式在數(shù)字環(huán)境下的傳承與拓展[18]。數(shù)字環(huán)境下古籍整理(“述”)與古籍學術(shù)研究(“作”)的邊界依然沒有改變,即古籍整理是對古籍原文(數(shù)字環(huán)境下的古籍原文變成了文本數(shù)據(jù))所作的種種加工,它是為學術(shù)研究服務的,而不是取代學術(shù)研究。
古籍數(shù)字化是一種學術(shù)活動,為保證其學術(shù)品質(zhì),必然要以相應的學術(shù)規(guī)范約束之。古籍數(shù)字化學術(shù)規(guī)范是包括操作程序、技術(shù)標準、內(nèi)容質(zhì)量、管理制度等在內(nèi)的一個體系。古籍數(shù)字化屬于古籍整理范疇的學術(shù)屬性,決定了其學術(shù)規(guī)范的建立必然要以“述而不作”為原則,這就要求古籍數(shù)字化產(chǎn)品必須從學術(shù)品質(zhì)上做到尊重歷史原貌、信守典籍原文、遵從作者原義。古籍數(shù)字化管理制度規(guī)范,主要是解決古籍數(shù)字化不同主體之間的協(xié)作和資源共享問題,筆者曾撰文提出建立古籍數(shù)字產(chǎn)品信息發(fā)布平臺、古籍數(shù)字化項目招標制度、古籍底本使用補償機制等建議[19],此不贅述。“述而不作”對構(gòu)建古籍數(shù)字化學術(shù)規(guī)范的意義,主要體現(xiàn)在操作程序、技術(shù)標準和內(nèi)容質(zhì)量三個方面。
(1)版本遴選規(guī)范。古籍在傳寫、翻刻過程中,通常都形成了復雜的版本系統(tǒng),各版本與祖本的關(guān)系親疏不同,質(zhì)量參差不齊。古籍整理的第一步就是要選擇與祖本盡可能接近的存本作為校勘的底本。對古籍數(shù)字化而言,如果沒有現(xiàn)成的整理本,那么選擇底本就要格外慎重,因為一旦選用了劣本,不僅使善本因無法入選數(shù)據(jù)庫而被湮沒,還會將劣本的錯訛放大和擴散,導致貽誤后學。然而目前的古籍數(shù)字化實踐中,往往是哪個版本更容易獲取就選用哪個版本,如唐張鷟《朝野僉載》有寶顏堂秘笈本,宋魏慶之《詩人玉屑》有古松堂本,清劉寶楠《論語正義》有清同治五年刊本,版本都要優(yōu)于四庫本,“鼎秀古籍庫”卻選用了四庫本,原因就在于《四庫全書》經(jīng)數(shù)字化之后更容易獲得。而對很多古籍而言,因內(nèi)容經(jīng)過四庫館臣的篡改和抽換,四庫本并不是最好的版本。因此,在數(shù)字化之前非常有必要建立版本遴選程序,通過對古籍版本源流的考訂和梳理,從眾多存本中選擇與祖本最接近的版本作為數(shù)字化的底本。
(2)信息登記規(guī)范。選定版本之后的古籍,在數(shù)字化之前還應登記古籍信息,登記的內(nèi)容包括書名、卷數(shù)、責任者、版本、裝訂形式、冊數(shù)、頁數(shù)、幅面開本、館藏地址、保存狀況等。這樣做的目的:一是為古籍數(shù)字化建立底本檔案,方便日后查核底本;二是可以據(jù)此決定古籍數(shù)字化的優(yōu)先順序?,F(xiàn)行古籍定級有善本之一、二、三級和普本的四級,其中善本、孤本和瀕危版本是數(shù)字化的優(yōu)先對象。此外,對有特殊情況的古籍應當予以備注,以便選取合適的數(shù)字化手段。如書葉有輕度破損、字跡漫漶的,在數(shù)字化之前還需進行必要的修復。
(3)底本保護規(guī)范。數(shù)字化掃描過程中應遵循古籍底本保護的規(guī)范。首先在程序上,古籍的交付應依照清單登記書名、編號、責任人、出入庫時間等項,需由館方負責人簽名許可方能允許古籍出入書庫。出入庫前后應進行相應的檢查,保證古籍完好無損。其次在方法上,古籍數(shù)字化過程中要求操作人員全程戴手套或使用指套,以避免汗?jié)n污染古籍。古籍圖像的采集應盡量采用冷光源、無接觸、零邊距的專用掃描儀,以減少對書葉的損傷。有縮微膠片的可優(yōu)先嘗試將縮微膠片轉(zhuǎn)換成高清圖像,不行的話再考慮掃描古籍原本。古籍的掃描應遵循一次加工完成的準則,對中縫夾字等難以掃描的情況,要慎重對待拆書這一選項。若萬不得已一定要拆書,必須要求按原裝訂形式重裝。
(4)學術(shù)質(zhì)量審查規(guī)范。每種古籍在數(shù)字化完成后,都應對其學術(shù)質(zhì)量進行審查。一是對內(nèi)容的完整性進行審查,除核對正文卷數(shù)、頁碼外,應特別注意序跋、牌記、藏印、批注、刻工等副文本信息是否有遺漏。若原書缺頁,需在數(shù)據(jù)庫內(nèi)予以標明。二是對其內(nèi)容的準確性進行審查。應將數(shù)字文本、圖像版本與紙質(zhì)底本進行仔細核對,檢查并糾正脫漏、錯訛、衍文、顛倒、中縫不全等情況。古籍數(shù)字文本的錯誤率評估,可采取抽樣檢查的方法,每卷書隨機連續(xù)抽取10,000字,參照《圖書質(zhì)量管理規(guī)定(2015修訂版)》的規(guī)定,差錯率應當不超過萬分之一。圖像應與頁面同比例放大或縮小,字跡清晰可辨,頁面內(nèi)沒有扭曲的現(xiàn)象。
首先是字符集的規(guī)范問題。古籍用字數(shù)量遠超當今通行漢字規(guī)模,現(xiàn)有的編碼字符集包括GB2312、BIG5、Unicode、GBK等,都存在收字不全、字跡關(guān)系不清的問題。如Unicode 12.0版2019年3月發(fā)布,字符總數(shù)達137,929個,但仍有不少古籍用字沒有納入。古籍數(shù)字化過程中遇到字符集之外無法錄入的生僻字、異體字、俗體字時,通行的做法是利用Unicode私用區(qū)碼位新造漢字。這在一定程度上解決了單個古籍數(shù)字化項目缺字的問題,但由于缺乏統(tǒng)一規(guī)劃,各個古籍數(shù)字化系統(tǒng)之間的碼位和字形關(guān)系無法一一對應。如果要對古籍數(shù)字資源進行后期整合,會造成很多漢字無法顯示和檢索。為了降低字符集外造字的成本,還有一種做法是將集外漢字認同為集內(nèi)漢字,但這樣做的結(jié)果必然改變古籍原來的文字面貌,從而丟失許多有價值的歷史信息。這顯然有違“述而不作”的原則,是不可接受的。為建立古籍用字的字符集規(guī)范,《國家“十一五”時期文化發(fā)展規(guī)劃綱要》提出實施“中華字庫工程”,目標是建立收錄和兼容全部漢字及少數(shù)民族文字的編碼字符集。
其次是古籍數(shù)字化格式的規(guī)范問題。由于我國在古籍數(shù)字產(chǎn)品知識產(chǎn)權(quán)保護方面的滯后,各大古籍數(shù)字化主體出于保護自己權(quán)利的目的,都傾向于開發(fā)專屬于自己產(chǎn)品的古籍數(shù)字圖書閱覽器,這樣既可以擴大自己的市場份額,也能在古籍數(shù)字出版物市場上擁有更大的話語權(quán),但也造成了數(shù)據(jù)格式各異、古籍數(shù)字資源不能互通共享的局面。數(shù)字古籍常見的格式有TXT、DOC、HTML、PDF, 此外還 有 EXE、 EBK、 EDB、WDL、PDG等多種格式,如天安億友公司開發(fā)的《二十五史》和《資治通鑒》采用的是EXE格式,“書格”提供的古籍是PDF格式,超星公司開發(fā)的電子圖書使用的是PDG格式,“國學大師網(wǎng)”則是PDF與DJVU兩種格式并存。這種混亂的局面給古籍數(shù)字化帶來的負面影響有兩個方面:一是不同格式的古籍數(shù)字資源被分隔成一個個“信息孤島”,彼此之間難以共享;二是強行對不同格式的古籍數(shù)據(jù)進行轉(zhuǎn)換時,極容易發(fā)生差錯,導致古籍信息失真。因此,在加強古籍數(shù)字產(chǎn)品知識產(chǎn)權(quán)保護的同時,還需要建立古籍數(shù)據(jù)存儲格式的規(guī)范。
再次是古籍數(shù)字資源的組織和檢索規(guī)范問題。古籍文本在完成數(shù)字化轉(zhuǎn)錄之后,也面臨和紙質(zhì)古籍同樣的組織和檢索問題。自2002 年始,中國科學院文獻情報中心、中國科學技術(shù)信息研究所、國家圖書館、CALIS管理中心等多家單位聯(lián)合研制了普通古籍、拓片、家譜、輿圖、地方志的相關(guān)著錄規(guī)則和元數(shù)據(jù)規(guī)范。至2012年,逐漸形成了CALIS所采用的CDLS元數(shù)據(jù)標準,CADAL項目的元數(shù)據(jù)標準、國家圖書館的元數(shù)據(jù)標準三大主流著錄標準。但由于很多圖書館將古籍元數(shù)據(jù)標引工作外包給第三方,導致元數(shù)據(jù)質(zhì)量難以控制,有的雜糅了三家不同的元數(shù)據(jù)格式。而在進行檢索時,由于標引的不規(guī)范,導致對同一對象的繁簡字體、同一事物的不同名稱、相同名稱的不同事物的漏檢或誤檢。例如,筆者利用“鼎秀古籍庫”檢索“瀛寰志略”,得55 條記錄,而檢索“瀛環(huán)志畧”只得15 條記錄;檢索“論語註疏”得63條記錄,檢索“論語注疏”則有133條。太平天國領(lǐng)袖洪秀全,其名字在清代實錄的諭旨中常記為“洪秀泉”,利用“中國基本古籍庫”檢索關(guān)鍵詞“洪秀全”,得527條記錄,而檢索“洪秀泉”,只得99條記錄。魏何晏《論語注疏》又名《論語正義》,利用“鼎秀古籍庫”分別檢索這兩個書名,得到的結(jié)果也不相同。上海圖書館古籍聯(lián)合目錄及循證平臺檢索“論語??庇洝?,清阮元《論語校勘記》之異名《論語注疏??庇洝穫渥⒂诶ㄌ栔校罢撜Z注疏”與其異名“論語正義”的檢索結(jié)果各不相關(guān)。古籍中的名物存在大量同名異物、同物異名的情況,漏檢和誤檢都會給讀者帶去不全或錯誤的原始文本信息,這就要求在標引和檢索時能在同一名物之間建立語義關(guān)聯(lián)。
古籍數(shù)字化最終是以文本或圖像呈現(xiàn),若不能做到尊重古籍的原貌,就違背了再生性保護的本意。就筆者對古籍數(shù)字化學術(shù)質(zhì)量的調(diào)查所見,古籍數(shù)字化內(nèi)容規(guī)范應從以下幾方面著手:
第一,加強校勘數(shù)字文本。采用OCR(光學字符識別)技術(shù),文字識別錯誤不可避免。最常見的是訛文,如“鼎秀古籍庫”收錄的《出三藏記集》,卷一“出三藏記集序”中“銓名錄”,“銓”誤作“鈴”;“緣記撰則原始之本克昭”,“昭”誤作“月召”。再就是出現(xiàn)脫文,如“中國基本古籍庫”收錄的《周易注疏》,卷三觀卦底本原文為:“陳薦籩豆之事,其禮卑也。今所觀宗廟之祭,但觀其盥禮,不觀在后籩豆之事故云觀盥而不薦也?!倍鴶?shù)字版本的文字“陳薦籩豆之事”與“故云觀盥而不薦也”之間脫文24字?!岸π愎偶畮臁笔珍浀摹对娙擞裥肌芬运膸毂緸榈妆?,原目錄頁中“詩法”右下方有小字“第二”,數(shù)字版脫去。其他衍文、倒文、錯簡等情況也都存在,茲不一一舉例。如果能依照底本對數(shù)字文本進行逐頁逐行的比對,即可發(fā)現(xiàn)此類錯誤。可見,在提高OCR識別率的同時,還應加強古籍數(shù)字化之后的??惫ぷ?。
第二,保留底本的各種字體。對古籍原文的繁體字,有學者主張一律轉(zhuǎn)換成簡體字,其本意是為讀者著想,但這樣做有時會帶來歧義,甚至是混亂。比如,沈括《夢溪筆談》卷十八記有發(fā)明活字印刷術(shù)的“畢昇”,卷二十記有老鍛工(即鐵匠)“畢升”,這是名字音同而形異的兩個人,但因為數(shù)字化之后“畢昇”也簡化成了“畢升”,結(jié)果使讀者誤以為是同一人,甚至還有人據(jù)此提出畢昇繼發(fā)明泥活字之后又發(fā)明了銅活字,簡直荒謬之極。反之,如果古籍原文中就有簡化字,也不可轉(zhuǎn)換成繁體字。比如,《禮記·月令》原文為:“修宮室,壞墻垣,補城郭?!贝颂帯皦摹弊x為péi,意為“用泥土封塞空隙”,如果轉(zhuǎn)換為“壞”,就是破壞墻垣,文意正好相反。古籍中避諱字、俗體字、假借字及不規(guī)范的簡體字都是特定歷史時期的產(chǎn)物,有其特定的歷史涵義,對鑒別和研究古籍版本源流極有價值,如果一律簡單粗暴地轉(zhuǎn)換成現(xiàn)今通行的簡體字,勢必會造成歷史信息的遺失。規(guī)范的做法是,在正文中悉數(shù)保留這些字體,然后用加注的方式說明其本字。
第三,保持古籍原有的體式結(jié)構(gòu)。古籍數(shù)字化中肆意刪除原書的序跋、目錄或校記,或?qū)⒃瓡恼呐c注文、批點文字混在一起,不加形式上的區(qū)分,都有違“述而不作”基本原則。例如,“鼎秀古籍庫”收錄的梁釋僧祐《出三藏記集》,全書十五卷的所有內(nèi)容都編輯在卷一目錄之下?!逗鴪D志》的數(shù)字版本刪去了魏源原序。清人葉奕苞的《金石錄續(xù)跋》,左側(cè)目錄欄無書籍目錄,而其他書籍目錄完備;北京書同文公司開發(fā)的“明清兩朝邊塞海疆地理文獻匯編全文檢索系統(tǒng)”收錄的《海國圖志》,刪去了總目錄;“中國基本古籍庫”收錄的《周易注疏》,采用的是清嘉慶二十年江西南昌府學刻本《重刊宋本周易注疏附??庇洝罚珨?shù)字版刪去了原書卷末的??庇洝_@些做法都應予以糾正。
第四,留存古籍的副文本信息。古籍正文之外的序言、題跋、注文、牌記、刻工等,以及傳讀過程中前人留下的批注、評點、藏印等,稱為副文本信息。這些信息雖不屬正文的內(nèi)容,但對研究古籍的相關(guān)內(nèi)涵及其傳播史具有非常重要的價值,因而也要原樣保存。然而,有的古籍數(shù)字化項目對此沒有足夠的重視,如“鼎秀古籍庫”收錄的《春秋左傳正義》,序文天頭處的眉批就沒有轉(zhuǎn)錄至數(shù)字版的文本中?!逗鴪D志》原書底本卷三首頁有一枚藏書印,而在數(shù)字版和圖像版中均無此印。這可能是因為藏書印的位置在邊欄之外,而數(shù)據(jù)庫采集圖像的范圍僅限于邊欄內(nèi),造成了邊欄外信息的丟失。
第五,圖文對照應合乎規(guī)范。早期開發(fā)的古籍數(shù)字化系統(tǒng),大多只有文字版而沒有圖像版,如天津永川公司開發(fā)的“二十五史全文閱讀檢索系統(tǒng)”以及國學時代公司開發(fā)的“國學寶典”即是如此;有的古籍數(shù)據(jù)庫只提供底本圖像的樣頁,如北京愛如生公司開發(fā)的“中國古籍基本庫”只附卷一首頁的圖像,其他頁碼則沒有對應的圖像;還有的古籍原版是圖文對照的,但數(shù)字化之后卻把插圖刪除了,如明人王圻、王思義父子編纂的《三才圖會》,原書“宮室”“器用”“身體”“衣服”“人事”“珍寶”“鳥獸”“草木”等各卷配有大量插圖,“鼎秀古籍庫”將之數(shù)字化后,所有的插圖都沒保留,只是在原插圖的位置留有一個相應的空位。
孔子的“述而不作”最初是作為政治理想提出的,本義是繼承往圣、不改“王道之業(yè)”。為推行該政治主張,孔子做了大量整理“先王舊典”的工作,并將“述而不作”的理念滲透其中,使之與中國傳統(tǒng)學術(shù)緊密結(jié)合起來,反映到文獻整理層面,就是尊重歷史原貌、信守典籍原文、遵從作者原義。我國古籍數(shù)字化雖經(jīng)歷了“存儲介質(zhì)轉(zhuǎn)換說”“信息資源揭示說”“數(shù)據(jù)深度加工說”等不同階段的演變,但其古籍整理的本質(zhì)屬性并沒有發(fā)生變化。古籍數(shù)字化無論如何發(fā)展,都是為學術(shù)研究服務的,而不是取代學術(shù)研究。“述而不作”的文獻整理傳統(tǒng)對古籍數(shù)字化的現(xiàn)實意義就在于,古籍數(shù)字化必須以不破壞古籍原貌、原文、原義為基本準則,這就要求在古籍數(shù)字化的操作程序、技術(shù)標準、內(nèi)容質(zhì)量等各方面建立起相應的學術(shù)規(guī)范。惟有如此,數(shù)字化之后的古籍才可能在被征引時取得與傳統(tǒng)古籍一樣的學術(shù)地位,贏得專業(yè)研究者的信任。