李明杰 謝慶標(biāo)
摘 要:學(xué)術(shù)質(zhì)量規(guī)范和行業(yè)管理規(guī)范是古籍?dāng)?shù)字出版良性發(fā)展的兩大保障。當(dāng)前古籍?dāng)?shù)字出版已經(jīng)從原文提供和信息檢索,深入到數(shù)據(jù)加工和知識(shí)挖掘?qū)用?,成果頗豐,但各種失范問(wèn)題也與日俱增,其根本原因在于缺失一套完整的出版規(guī)范體系。本文基于古籍整理的學(xué)術(shù)傳統(tǒng)、古籍利用的現(xiàn)實(shí)需求以及對(duì)古籍出版的效益預(yù)期,提出了構(gòu)建古籍?dāng)?shù)字出版規(guī)范體系的保真性、共享性和協(xié)同性原則,并從學(xué)術(shù)質(zhì)量規(guī)范和行業(yè)管理規(guī)范兩個(gè)方面,探討了古籍?dāng)?shù)字出版規(guī)范體系的建設(shè)內(nèi)容。
關(guān)鍵詞:數(shù)字出版 古籍出版 古籍?dāng)?shù)字化 學(xué)術(shù)規(guī)范
我國(guó)古籍?dāng)?shù)字出版從最初的文本錄入、索引編制,發(fā)展到如今的各類型古籍?dāng)?shù)據(jù)庫(kù)的建設(shè),其功能也從簡(jiǎn)單的提供古籍原文、檢索文獻(xiàn)信息,深入到更加復(fù)雜的文本數(shù)據(jù)加工和知識(shí)挖掘?qū)用妗H欢?,隨著古籍?dāng)?shù)字出版的發(fā)展,暴露的問(wèn)題也越來(lái)越多,如因?qū)W術(shù)失范造成古籍內(nèi)容的錯(cuò)訛和失真、因文件格式不同致使古籍資源難以共享、因選題重復(fù)導(dǎo)致行業(yè)無(wú)序競(jìng)爭(zhēng),等等。為使古籍?dāng)?shù)字出版走向良性發(fā)展的軌道,當(dāng)前亟需從學(xué)術(shù)質(zhì)量規(guī)范和行業(yè)管理規(guī)范兩個(gè)方面,建立一套完整的古籍?dāng)?shù)字出版規(guī)范體系。
一、古籍?dāng)?shù)字出版規(guī)范體系的構(gòu)建原則
古籍?dāng)?shù)字出版不是古籍內(nèi)容存儲(chǔ)介質(zhì)的簡(jiǎn)單轉(zhuǎn)換,而是傳統(tǒng)古籍整理范式在現(xiàn)代信息技術(shù)條件下的拓展和延伸,因此它必須遵從古籍整理的學(xué)術(shù)規(guī)范,盡可能為讀者提供真實(shí)、完整、可靠的版本;古籍?dāng)?shù)字出版的目的不僅僅是長(zhǎng)期保存古籍內(nèi)容,還在于更高效地深入開(kāi)發(fā)古籍文獻(xiàn)資源,使之能為讀者無(wú)差別地共享和利用;古籍?dāng)?shù)字出版是一種出版行為,牽涉收藏和保存古籍的圖書(shū)館、整理和研究古籍的學(xué)術(shù)機(jī)構(gòu)、出版和發(fā)行古籍的出版單位等多個(gè)不同性質(zhì)的主體,存在多方利益博弈,為使之發(fā)揮最大的社會(huì)效益和經(jīng)濟(jì)效益,必須建立一種協(xié)作機(jī)制?;谝陨险?、利用和管理的三個(gè)環(huán)節(jié),古籍?dāng)?shù)字出版規(guī)范體系的構(gòu)建,需要兼顧古籍整理的保真性原則、古籍?dāng)?shù)字資源的共享性原則和古籍?dāng)?shù)字出版的協(xié)同性原則。
(一)保真性原則
古籍原本具有“物質(zhì)易損性”和“內(nèi)容可復(fù)制性”,通過(guò)影印、縮微復(fù)制、數(shù)字化等方式進(jìn)行內(nèi)容的再生,可實(shí)現(xiàn)古籍內(nèi)容的長(zhǎng)期保存,以解決古籍“藏”與“用”的矛盾,但最終目的還是在于利用,這就要求古籍?dāng)?shù)字化必須保持古籍的原貌,即保真性原則。我國(guó)文獻(xiàn)整理的一項(xiàng)優(yōu)良傳統(tǒng)就是“述而不作,信而好古”,[1]孔子當(dāng)年提出這一口號(hào)的初衷是恢復(fù)周禮,但因其以治六經(jīng)為手段,這一理念經(jīng)后人的闡發(fā)和弘揚(yáng)后,被引申到文獻(xiàn)???、注釋、辨?zhèn)巍⑤嬝?、編纂等各個(gè)環(huán)節(jié),進(jìn)而發(fā)展成為文獻(xiàn)整理的一項(xiàng)基本原則,即尊重歷史原貌、信守典籍原文、遵從作者原意。[2]古籍?dāng)?shù)字化的本質(zhì)既然是古籍整理在數(shù)字環(huán)境下的發(fā)展和延伸,就必須遵守這一原則。
然而,當(dāng)前古籍?dāng)?shù)字出版實(shí)踐領(lǐng)域一味地強(qiáng)調(diào)信息技術(shù)的進(jìn)步,對(duì)文獻(xiàn)整理的學(xué)術(shù)傳統(tǒng)的傳承和借鑒不足,古籍?dāng)?shù)字出版物學(xué)術(shù)質(zhì)量不高,甚至出現(xiàn)了很多學(xué)術(shù)失范的現(xiàn)象。有的在轉(zhuǎn)錄古籍文本內(nèi)容時(shí),不僅沒(méi)有按照原樣保留諱字、異體字、俗體字、假借字,還經(jīng)常遺失夾注、眉批、鈐印、圖片等副文本信息,甚至任意刪除原書(shū)的序跋、注釋和校記,認(rèn)為正文之外的內(nèi)容都是沒(méi)有必要保存的,如“鼎秀古籍庫(kù)”收錄的《海國(guó)圖志》,[3]數(shù)字版刪去了底本的書(shū)名頁(yè)、牌記和序文;北京書(shū)同文公司開(kāi)發(fā)的“明清兩朝邊塞海疆地理文獻(xiàn)匯編全文檢索系統(tǒng)”收錄的《海國(guó)圖志》[4]刪去了書(shū)中總目,亦無(wú)書(shū)名頁(yè)。有的還變亂古籍體例,改變?cè)瓡?shū)的分卷方式和順序,如“鼎秀古籍庫(kù)”中的《出三藏記集》[5]分卷混亂,卷一至卷十五的內(nèi)容在數(shù)字版目錄中全被編入了卷一;“萬(wàn)方地方志知識(shí)服務(wù)系統(tǒng)”中舊方志左右頁(yè)面順序顛倒。至于通過(guò)OCR識(shí)別古籍原文出現(xiàn)的各種錯(cuò)誤,未經(jīng)仔細(xì)校對(duì)就發(fā)布出來(lái)的例子,更是不勝枚舉。這些有違保真性原則的種種紕漏,嚴(yán)重削弱了古籍?dāng)?shù)字出版的品質(zhì),也降低了學(xué)者對(duì)數(shù)字古籍的信任度和學(xué)術(shù)引用意愿。
(二)共享性原則
古籍?dāng)?shù)字出版的相關(guān)技術(shù)發(fā)展至今,已經(jīng)能夠滿足讀者日常的基本需要。但由于人為設(shè)置的技術(shù)壁壘,經(jīng)常導(dǎo)致古籍?dāng)?shù)字資源難以共享,也為下一步的大規(guī)模的古籍文本數(shù)據(jù)加工和知識(shí)挖掘制造了障礙。這既有數(shù)字出版單位(機(jī)構(gòu))保護(hù)自己合法權(quán)益的原因,也與古籍?dāng)?shù)字出版缺乏統(tǒng)一的技術(shù)標(biāo)準(zhǔn)有關(guān)。
首先,通行的漢字字符集不統(tǒng)一,有GB2312、BIG5、
Unicode、GBK等,且都或多或少存在收字不全和字跡不清的問(wèn)題。即便是收錄漢字最多的Unicode 13.0版,字符總數(shù)多達(dá)143859個(gè),仍有些古籍用字沒(méi)有收入。對(duì)于一些生僻字、不規(guī)范的異體字,以及缺筆的避諱字等,仍無(wú)法處理。利用區(qū)位私造漢字雖能臨時(shí)解決單個(gè)古籍?dāng)?shù)字出版項(xiàng)目缺字的問(wèn)題,但在后期資源整合階段會(huì)無(wú)法顯示和檢索,從而遺失一些有價(jià)值的歷史信息。其次,不同古籍?dāng)?shù)字出版物的數(shù)據(jù)格式混亂,各種閱讀器之間不能兼容,既有像Pdf、Doc、Txt、Html、Png這類常見(jiàn)的文件格式,也有像Exe、Wdl、Pdg、DjVu、Ebk、Edb、Nlc等相對(duì)少見(jiàn)的格式,導(dǎo)致讀者在閱讀不同的古籍?dāng)?shù)字出版物時(shí)需要打開(kāi)不同的瀏覽器,不同格式的古籍?dāng)?shù)字資源不能互通共享。而利用相關(guān)軟件進(jìn)行格式轉(zhuǎn)換時(shí),又容易產(chǎn)生新的信息失真。最后,我國(guó)古籍著錄缺乏統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),目前古籍?dāng)?shù)字資源描述與組織常用的是CALIS所采用的CDLS元數(shù)據(jù)標(biāo)準(zhǔn)、CADAL項(xiàng)目的元數(shù)據(jù)標(biāo)準(zhǔn)、國(guó)家圖書(shū)館的元數(shù)據(jù)標(biāo)準(zhǔn),雖說(shuō)大同小異,但因?yàn)楹芏鄨D書(shū)館都愿意將古籍元數(shù)據(jù)標(biāo)引外包出去,造成元數(shù)據(jù)格式不一致,標(biāo)引質(zhì)量難以保障,容易造成漏檢或誤檢。
針對(duì)以上情況,一方面需要從法律層面明確參與古籍?dāng)?shù)字出版各方的知識(shí)產(chǎn)權(quán)的權(quán)屬關(guān)系,切實(shí)保障數(shù)字出版單位(機(jī)構(gòu))的合法權(quán)益;另一方面,需要從古籍?dāng)?shù)據(jù)的存儲(chǔ)、組織和檢索等各個(gè)環(huán)節(jié),大力推進(jìn)古籍?dāng)?shù)字出版的標(biāo)準(zhǔn)化建設(shè),最終實(shí)現(xiàn)古籍?dāng)?shù)字資源的無(wú)障礙共享。
(三)協(xié)同性原則
古籍?dāng)?shù)字出版與傳統(tǒng)的古籍整理的最大區(qū)別是其已經(jīng)脫離了純粹的學(xué)術(shù)路線,需要全面協(xié)調(diào)不同參與主體的利益訴求,考慮不同來(lái)源、不同類型的古籍特點(diǎn),才能取得最大的社會(huì)效益和經(jīng)濟(jì)效益。從古籍?dāng)?shù)字出版的參與主體來(lái)說(shuō),作為古籍收藏單位的圖書(shū)館,由其事業(yè)單位的公益性決定,追求的是保護(hù)和開(kāi)發(fā)古籍資源以服務(wù)讀者,提倡公藏公用,它們?cè)诎姹捐b定和古籍編目方面具有人才優(yōu)勢(shì);作為古籍整理研究的學(xué)術(shù)機(jī)構(gòu),其參與古籍?dāng)?shù)字出版實(shí)踐是在數(shù)字環(huán)境下探索新的古籍整理方法,服務(wù)于人文歷史研究,它們?cè)谶x題策劃、內(nèi)容整理、系統(tǒng)功能規(guī)劃等方面是無(wú)可替代的;數(shù)字出版單位(機(jī)構(gòu))追逐的是商業(yè)利益的最大化和產(chǎn)業(yè)規(guī)模的擴(kuò)張,關(guān)注知識(shí)產(chǎn)權(quán)的保護(hù),它們?cè)诠偶當(dāng)?shù)字出版技術(shù)、資本運(yùn)作和產(chǎn)品營(yíng)銷等方面具有獨(dú)特的競(jìng)爭(zhēng)力。同時(shí),古籍資源的分布不均衡,除了國(guó)內(nèi)各大系統(tǒng)的圖書(shū)館外,在民間和海外也有收藏。古籍類型既有普通古籍,也有善本、珍本古籍,還有各類少數(shù)民族古籍和特種古籍,它們?cè)跀?shù)字出版方面的要求也各不相同。因此,協(xié)同性也是古籍?dāng)?shù)字出版必須要遵循的原則。
二、古籍?dāng)?shù)字出版規(guī)范體系的建設(shè)內(nèi)容
古籍?dāng)?shù)字出版規(guī)范體系主要由學(xué)術(shù)質(zhì)量規(guī)范和行業(yè)管理規(guī)范兩部分組成。其中學(xué)術(shù)質(zhì)量規(guī)范包括操作程序規(guī)范、技術(shù)標(biāo)準(zhǔn)規(guī)范和質(zhì)量控制規(guī)范;行業(yè)管理規(guī)范包括行業(yè)協(xié)作規(guī)范、信息搜集和發(fā)布規(guī)范、古籍征集與底本使用補(bǔ)償規(guī)范、知識(shí)產(chǎn)權(quán)保護(hù)規(guī)范、安全管理規(guī)范等。
(一)古籍?dāng)?shù)字出版的學(xué)術(shù)質(zhì)量規(guī)范
第一,操作程序規(guī)范。古籍?dāng)?shù)字出版的操作程序規(guī)范,是指將紙本古籍轉(zhuǎn)換成數(shù)字古籍的過(guò)程中要嚴(yán)格遵守的一系列操作準(zhǔn)則,主要包括以下內(nèi)容。
①底本遴選規(guī)范。古籍通常有多種版本,良莠不齊,數(shù)字化之前如不加審慎考察,誤選了劣本,不僅擴(kuò)散了錯(cuò)訛的文本,還可能使得善本因無(wú)法入選數(shù)據(jù)庫(kù)而致湮沒(méi)。這就要通過(guò)版本源流的梳析,辨明各版本之間的關(guān)系,從中發(fā)現(xiàn)最接近祖本的存本,把它作為數(shù)字化的底本。有的情況,甚至要在這個(gè)底本基礎(chǔ)上,參校其他的版本,整理出一個(gè)新的善本,或直接選用經(jīng)過(guò)??钡恼肀咀鳛榈妆?。對(duì)于內(nèi)容殘缺、文字漫漶以至于難以掃描和轉(zhuǎn)錄的版本,應(yīng)剔除在外。
②信息登記規(guī)范。對(duì)于選定的古籍版本,應(yīng)登記相關(guān)文獻(xiàn)信息,主要包括書(shū)名、卷數(shù)、責(zé)任者、責(zé)任方式、版本類型、版式特征、裝訂形式、冊(cè)數(shù)、頁(yè)數(shù)、館藏來(lái)源等。這實(shí)際上是為古籍?dāng)?shù)字出版建立可供核查的底本檔案,方便日后出現(xiàn)任何問(wèn)題時(shí)有源可溯。
③古籍掃描規(guī)范。有縮微膠片的古籍可參照《GB/T 7517-2004縮微攝影技術(shù)在16mm卷片上拍攝古籍的規(guī)定》《GB/T 7518-2005縮微攝影技術(shù)在35mm卷片上拍攝古籍的規(guī)定》和文化行業(yè)標(biāo)準(zhǔn)《WH/T 46-2012圖像數(shù)據(jù)加工規(guī)范》等標(biāo)準(zhǔn),優(yōu)先將縮微膠片轉(zhuǎn)換成高清圖像。沒(méi)有縮微膠片的,再考慮掃描古籍原本,盡量采用專用掃描儀,保證冷光源、無(wú)接觸、零邊距,減少掃描時(shí)有可能發(fā)生的損傷。掃描順序依據(jù)古籍閱讀順序從右至左、大幅面輿圖等另計(jì);掃描時(shí)遇到缺頁(yè)的情況,以顏色相近的空白頁(yè)補(bǔ)足,說(shuō)明缺頁(yè)的文字、圖片或水印占位情況。
④文字轉(zhuǎn)錄規(guī)范。通常使用OCR技術(shù)將古籍圖像轉(zhuǎn)錄成文本,并輔之以嚴(yán)格的人工校對(duì)。首先,要規(guī)范文本內(nèi)容標(biāo)識(shí)。注釋、評(píng)點(diǎn)等副文本信息應(yīng)與正文在標(biāo)識(shí)上有所區(qū)分,以免相互混淆。正文大字與注文小字在系統(tǒng)里以不同方法做標(biāo)識(shí),使其在閱讀界面的展示效果不同,并在復(fù)制時(shí)用符號(hào)隔開(kāi)。其次,要規(guī)范文本內(nèi)容的字體。數(shù)字版古籍的功能菜單可以是簡(jiǎn)體,但古籍的文字內(nèi)容推薦以繁體呈現(xiàn),以便于呈現(xiàn)古籍原貌和減小文字認(rèn)讀的難度。選用Unicode字符集以包括盡可能多的漢字,使用支持超大字符集、能夠利用字符集內(nèi)不常見(jiàn)漢字的輸入法進(jìn)行文字輸入。因?yàn)閭鞒e(cuò)誤、后世避諱改字等原因產(chǎn)生的通假字、避諱字,依照古籍整理專家的意見(jiàn),在統(tǒng)一的信息平臺(tái)上進(jìn)行造字工作,并以注釋的形式說(shuō)明原字;異體字、異形字、俗體字則以正體字輸入,但需留下編輯標(biāo)記,以便與圖像版對(duì)照。
⑤圖像處理規(guī)范。插圖是古籍不可分割的一部分,在數(shù)字化過(guò)程中必須保留。有的古籍由于字跡模糊、書(shū)體以篆書(shū)或草書(shū)為主、版式歪斜錯(cuò)位或頁(yè)內(nèi)分兩三欄的,也可以只保留圖像。圖像的拍攝應(yīng)該注意光源清楚、設(shè)備清潔,書(shū)封放置的直尺位置準(zhǔn)確、色卡無(wú)褪色污染;拍攝過(guò)程中同步展開(kāi)圖像質(zhì)量檢查,拍完一定數(shù)量就檢查有無(wú)順序錯(cuò)誤、缺頁(yè)、重頁(yè)、漏掃、圖像模糊、頁(yè)面不完整、中縫夾字等情況,及時(shí)做好補(bǔ)掃、糾偏等處理工作,如原書(shū)有缺頁(yè)情況,則對(duì)缺頁(yè)進(jìn)行標(biāo)記??勺裱囊?guī)范有《GB/T 31219.3-2014圖書(shū)館館藏資源數(shù)字化加工規(guī)范第3部分:圖像資源》《WH/T 46-2012 圖像數(shù)據(jù)加工規(guī)范》。
⑥輔助功能添加規(guī)范。除基本的閱讀、檢索功能外,數(shù)字古籍通常需要添加一些輔助學(xué)術(shù)研究的功能??筛鶕?jù)對(duì)讀者需求調(diào)研的實(shí)際情況,由淺入深地添加諸如布爾邏輯檢索、詞典、年表、職官表、繁簡(jiǎn)關(guān)聯(lián)、實(shí)體關(guān)聯(lián)、地理信息分析、人際網(wǎng)絡(luò)分析等功能。輔助功能的設(shè)計(jì)也要遵循“述而不作”的基本原則,主要以提供查檢性的名物典制知識(shí)為主,或是提供根據(jù)詞頻統(tǒng)計(jì)、信息分析得出的數(shù)據(jù)和事實(shí),而不提供主觀性、誘導(dǎo)性的結(jié)論。
第二,技術(shù)標(biāo)準(zhǔn)規(guī)范。古籍?dāng)?shù)字出版在漢字的顯示、古籍資源的描述、存儲(chǔ)、組織和檢索時(shí),必須有一套通用的元數(shù)據(jù)標(biāo)準(zhǔn),這樣才能消除古籍?dāng)?shù)據(jù)資源交換和共享的障礙。本文參照國(guó)家標(biāo)準(zhǔn)《GB/T 13016-2018 標(biāo)準(zhǔn)體系構(gòu)建原則和要求》,提出了古籍元數(shù)據(jù)標(biāo)準(zhǔn)體系的框架。
①字符集標(biāo)準(zhǔn)。對(duì)古籍?dāng)?shù)字出版而言,首先是文字顯示的字符集標(biāo)準(zhǔn)。如前所述,古籍?dāng)?shù)字化還沒(méi)有統(tǒng)一的字符集,這成了制約古籍?dāng)?shù)字出版漢字處理的瓶頸。2006年《國(guó)家“十一五”時(shí)期文化發(fā)展規(guī)劃綱要》和2009年《文化產(chǎn)業(yè)振興規(guī)劃》提出要建設(shè)“中華字庫(kù)”工程,重點(diǎn)研發(fā)漢字輸入、輸出、存儲(chǔ)、傳輸以及兼容等關(guān)鍵技術(shù),預(yù)計(jì)將建成全部漢字及少數(shù)民族文字的編碼和主要字體字符庫(kù),可編碼字符數(shù)達(dá)到50萬(wàn)左右,其中古漢字約10萬(wàn)、楷書(shū)漢字約30萬(wàn)、各少數(shù)民族文字約10萬(wàn)字符數(shù)。[6]“中華字庫(kù)”解決了古籍生僻字、異形字不能顯示和檢索的問(wèn)題,應(yīng)成為我國(guó)古籍?dāng)?shù)字出版的字符集標(biāo)準(zhǔn)。此外,在文字顯示方面還有《WH/T 91-2020漢文古籍集外字描述規(guī)范》《WH/T 90-2020 漢文古籍文字認(rèn)同描述規(guī)范》等標(biāo)準(zhǔn)。
②古籍著錄標(biāo)準(zhǔn)。這類標(biāo)準(zhǔn)主要描述古籍資源的內(nèi)容和外形特征。在古籍著錄方面,目前已經(jīng)形成了系列標(biāo)準(zhǔn),可供參照的有《GB/T 3792.7-2008古籍著錄規(guī)則》《WH/T 66-2014古籍元數(shù)據(jù)規(guī)范》《WW/T 0093-2018拓片元數(shù)據(jù)著錄規(guī)則》《DB32/T 3485-2018地方志著錄元數(shù)據(jù)規(guī)范》《國(guó)家圖書(shū)館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則》《國(guó)家圖書(shū)館輿圖元數(shù)據(jù)規(guī)范與著錄規(guī)則》《國(guó)家圖書(shū)館家譜元數(shù)據(jù)規(guī)范與著錄規(guī)則》《國(guó)家圖書(shū)館拓片元數(shù)據(jù)規(guī)范與著錄規(guī)則》等,其中既有國(guó)家標(biāo)準(zhǔn)、原文化部標(biāo)準(zhǔn)、原國(guó)家文物局標(biāo)準(zhǔn),也有地方質(zhì)量技術(shù)監(jiān)督局標(biāo)準(zhǔn)、圖書(shū)館標(biāo)準(zhǔn),雖大同小異,但還是存在不統(tǒng)一的問(wèn)題。
③古籍分類和控制詞表標(biāo)準(zhǔn)。目前古籍的分類比較混亂,多數(shù)古籍?dāng)?shù)據(jù)庫(kù)仍采用傳統(tǒng)的四庫(kù)分類法,但也有古籍?dāng)?shù)據(jù)庫(kù)采用《中國(guó)圖書(shū)館圖書(shū)分類法》等新式分類法。這兩種分類方式對(duì)于古籍而言各有利弊,但長(zhǎng)期各行其是很不利于古籍?dāng)?shù)字資源的交流與共享。1996年,北京大學(xué)姚伯岳課題組曾參考數(shù)十種古籍分類目錄和圖書(shū)分類法,研制出結(jié)合現(xiàn)代圖書(shū)分類技術(shù)與傳統(tǒng)分類法特點(diǎn)的《中國(guó)古籍分類法》。該分類法按照人文社會(huì)科學(xué)、自然科學(xué)、綜合性圖書(shū)的序列,將古籍分為20個(gè)大類,采用混合制號(hào)碼,吸取了新式分類法中的復(fù)分、仿分、參見(jiàn)等分類技術(shù),既照顧了現(xiàn)代人的思維方式,又盡可能地保留了傳統(tǒng),適用于古代的中、西圖書(shū)的分類,[7]但在推廣使用過(guò)程中遭遇了很大阻力。古籍中的人名、地名、書(shū)名、職官、年號(hào)、廟號(hào)、謚號(hào)等名物典制是古籍知識(shí)組織的重要實(shí)體,但在不同種類的古籍中的表述差異很大,且普遍存在同人異名、同名異人等情況,而像《漢語(yǔ)主題詞表》《中國(guó)分類主題詞表》這類綜合性的控制詞表并不完全適用,還需要專門(mén)編制用于古籍主題標(biāo)引和檢索的控制詞表。
④古籍加工、存儲(chǔ)和交換標(biāo)準(zhǔn)。這方面還沒(méi)有專門(mén)針對(duì)古籍制定的技術(shù)標(biāo)準(zhǔn),只有相關(guān)的行業(yè)標(biāo)準(zhǔn)可供參考,如文本加工方面有《WH/T 45-2012文本數(shù)據(jù)加工規(guī)范》《GB/T 31219.2-2014 圖書(shū)館館藏資源數(shù)字化加工規(guī)范第2部分:文本資源》;圖像數(shù)據(jù)加工方面,有《WH/T 51-2012圖像元數(shù)據(jù)規(guī)范》《國(guó)家圖書(shū)館圖像資源元數(shù)據(jù)規(guī)范和著錄規(guī)則》《IPTC圖像元數(shù)據(jù)(IPTC Photo Metadata)》等,古籍圖像保存通常采用TIFF或JPEG2000格式,后者支持無(wú)損壓縮;音視頻數(shù)據(jù)加工方面,有《WH/T 51-2012 音頻數(shù)據(jù)加工規(guī)范》《國(guó)家圖書(shū)館視頻資源元數(shù)據(jù)規(guī)范與著錄規(guī)則》《國(guó)家圖書(shū)館音頻資源元數(shù)據(jù)規(guī)范與著錄規(guī)則》等;在數(shù)據(jù)保存方面,可參照《WH/T 72-2015 圖書(shū)館數(shù)字資源長(zhǎng)期保存信息包封裝規(guī)范》《國(guó)家數(shù)字圖書(shū)館長(zhǎng)期保存元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范與應(yīng)用指南》等;在數(shù)據(jù)交換方面,有《YD/T 2915-2015集中式遠(yuǎn)程數(shù)據(jù)備份技術(shù)要求》《METS元數(shù)據(jù)編碼與傳輸規(guī)范》等。顯然,古籍?dāng)?shù)據(jù)加工、存儲(chǔ)和交換方面的標(biāo)準(zhǔn)化建設(shè)還需加強(qiáng)。
第三,質(zhì)量控制規(guī)范。古籍?dāng)?shù)字出版過(guò)程中需全程對(duì)出版物的學(xué)術(shù)質(zhì)量進(jìn)行監(jiān)控,特別是在數(shù)字化之后,要對(duì)其進(jìn)行系統(tǒng)性的審查,以確保古籍?dāng)?shù)字出版的項(xiàng)目完整、文字準(zhǔn)確、圖像清晰、功能完備。
①審查內(nèi)容的完整性,保持原有的體式結(jié)構(gòu)。古籍掃描和轉(zhuǎn)錄完成后,要保證正文無(wú)缺卷、不缺頁(yè),中縫完整,頁(yè)碼順序無(wú)錯(cuò)亂;原書(shū)的書(shū)名頁(yè)、序言、目錄、注釋、評(píng)點(diǎn)、校記、題跋、附錄、牌記、刻工、藏印等內(nèi)容信息,應(yīng)予以全部保留,且原書(shū)的體裁、結(jié)構(gòu)、篇卷順序在數(shù)字化之后不得隨意改變;正文與注文、批語(yǔ)、校記等副文本信息應(yīng)嚴(yán)格區(qū)分,不可雜糅在一起。
②審查文字的準(zhǔn)確性,將差錯(cuò)率降至合格水平。對(duì)照古籍原版,仔細(xì)核對(duì)數(shù)字文本是否存在訛文、脫文、衍文、倒文、錯(cuò)簡(jiǎn)等情況。參照2005年頒布實(shí)施的《圖書(shū)質(zhì)量管理規(guī)定》,差錯(cuò)率低于萬(wàn)分之一的圖書(shū)編校質(zhì)量認(rèn)定為合格,因古籍的特殊性,建議根據(jù)其字體漫漶、缺損等情況,將差錯(cuò)率放寬至萬(wàn)分之三至萬(wàn)分之五。生僻字、異體字無(wú)法顯示的一般用方框、黑塊表示空缺,但應(yīng)計(jì)入差錯(cuò)率中,超過(guò)一定比例則判定為編校質(zhì)量不合格。圖像版保留底本的各種生僻字、諱字、異體字等,以方便讀者比照。
③審查圖像的清晰度及插圖的位置。古籍掃描分辨率大小的選擇,原則上以圖像清晰、完整、不影響瀏覽和利用為準(zhǔn)。依照CADAL的經(jīng)驗(yàn),可采用600DPI分辨率。文件格式使用TIFF或JPG2000,最終成品建議生成一個(gè)平臺(tái)通用的PDF格式。圖像色彩可采用黑白為主,對(duì)于套印本、插圖、藏印等特殊情況則使用彩色方案。古籍由圖像轉(zhuǎn)換成數(shù)字文本格式后,有的數(shù)據(jù)庫(kù)將書(shū)中的插圖刪除,只保留了文本,涉嫌變亂原書(shū)體例。審慎的做法是,對(duì)照?qǐng)D像版古籍中的插圖,在數(shù)字文本版頁(yè)面相應(yīng)的位置附上插圖。如原書(shū)插圖失真未能保留,也應(yīng)在插圖對(duì)應(yīng)的位置留出空位,用文字說(shuō)明原書(shū)插圖的情況。
④審查古籍?dāng)?shù)據(jù)庫(kù)的系統(tǒng)功能。古籍?dāng)?shù)字出版主要是以數(shù)據(jù)庫(kù)的形式呈現(xiàn)。首先,古籍?dāng)?shù)據(jù)庫(kù)應(yīng)具備基本的瀏覽、閱讀和檢索功能。對(duì)于每種古籍而言,數(shù)據(jù)庫(kù)都應(yīng)提供圖像、繁體、簡(jiǎn)體三套不同的版本。圖像版既方便瀏覽和欣賞古籍原版的風(fēng)貌,滿足版本專業(yè)研究的需要,也便于將文本版與之比對(duì)書(shū)中的文字和插圖;繁、簡(jiǎn)兩種字體的版本,則主要供讀者閱讀原文和檢索相關(guān)文獻(xiàn)信息。系統(tǒng)檢索效率的評(píng)價(jià),一是要全,二是要準(zhǔn),三是要快。當(dāng)前,大部分古籍?dāng)?shù)據(jù)庫(kù)都能實(shí)現(xiàn)書(shū)名、作者、全文檢索,但在知識(shí)語(yǔ)義層面的關(guān)聯(lián)性檢索還存在明顯不足。其次,古籍?dāng)?shù)據(jù)庫(kù)應(yīng)嵌入配套的知識(shí)工具。傳統(tǒng)工具書(shū)中的人名詞典、地名詞典、職官表、年號(hào)表、歷代書(shū)目等,是古籍閱讀中經(jīng)常要查閱的資料,應(yīng)與古籍一道數(shù)字化,并以超鏈接的方式嵌入正文中,方便讀者隨時(shí)利用。最后,古籍?dāng)?shù)據(jù)庫(kù)應(yīng)提供輔助學(xué)術(shù)研究的功能。數(shù)字人文研究中的知識(shí)信息工具可以實(shí)現(xiàn)對(duì)古籍文本的知識(shí)挖掘、重組和可視化,還可以對(duì)相關(guān)主題和人物進(jìn)行地理、時(shí)空和社會(huì)網(wǎng)絡(luò)分析,并以可視化的形式呈現(xiàn)。
(二)古籍?dāng)?shù)字出版的行業(yè)管理規(guī)范
古籍?dāng)?shù)字出版是一個(gè)多部門(mén)、多行業(yè)、多機(jī)構(gòu)共同參與的文化產(chǎn)業(yè),牽涉各方參與主體的利益分配,為了形成有序的市場(chǎng)環(huán)境,必須建立一套行之有效的行業(yè)管理規(guī)范。
第一,古籍?dāng)?shù)字出版行業(yè)協(xié)作規(guī)范。古籍?dāng)?shù)字出版需要出版機(jī)構(gòu)、古籍資源提供方、古籍整理專家、數(shù)字技術(shù)開(kāi)發(fā)商等多方協(xié)作來(lái)完成,因?yàn)楦鞣侥繕?biāo)和利益不同,如果缺少長(zhǎng)期規(guī)劃和彼此之間的協(xié)作,必然會(huì)導(dǎo)致無(wú)序競(jìng)爭(zhēng)、零和博弈的情況發(fā)生,因此需要有一個(gè)統(tǒng)一的行業(yè)協(xié)作規(guī)范來(lái)指導(dǎo)古籍?dāng)?shù)字出版產(chǎn)業(yè)的發(fā)展。首先,古籍?dāng)?shù)字出版應(yīng)以項(xiàng)目為單位,建立完善的項(xiàng)目選題報(bào)送、評(píng)審、招標(biāo)制度。建議成立類似全國(guó)古籍整理出版規(guī)劃領(lǐng)導(dǎo)小組的機(jī)構(gòu),由它負(fù)責(zé)制訂古籍?dāng)?shù)字出版的中長(zhǎng)期發(fā)展規(guī)劃、年度工作計(jì)劃、項(xiàng)目評(píng)選方案、項(xiàng)目招標(biāo)實(shí)施方案,嚴(yán)格評(píng)審古籍?dāng)?shù)字出版選題,優(yōu)先立項(xiàng)亟需搶救、學(xué)術(shù)價(jià)值高、具有學(xué)科基礎(chǔ)性和學(xué)派代表性、用戶需求強(qiáng)烈的選題,適當(dāng)照顧冷門(mén)選題,避免重復(fù)選題。其次,各地方新聞出版局應(yīng)推進(jìn)出版社與圖書(shū)館、古籍所、數(shù)字技術(shù)開(kāi)發(fā)商的合作,在古籍?dāng)?shù)字出版的資源保障、平臺(tái)開(kāi)發(fā)、市場(chǎng)營(yíng)銷、利益分配等方面形成持續(xù)、穩(wěn)定的協(xié)作機(jī)制。
第二,古籍?dāng)?shù)字出版信息搜集和發(fā)布規(guī)范。為了解讀者和專業(yè)研究人員不同的古籍需求,消除信息不暢帶來(lái)的各自為政、重復(fù)出版的局面,有必要建立一個(gè)統(tǒng)一的古籍?dāng)?shù)字出版信息搜集和發(fā)布平臺(tái)。從出版的角度講,古籍的普通讀者和專業(yè)研究人員的不同需求,是古籍?dāng)?shù)字出版物功能差異化設(shè)計(jì)的依據(jù);用戶使用古籍?dāng)?shù)字出版物后反饋的意見(jiàn),也是改進(jìn)古籍?dāng)?shù)字出版質(zhì)量的重要參考。因此,這個(gè)平臺(tái)應(yīng)具有征集用戶需求和反饋意見(jiàn)的功能。平臺(tái)上還可發(fā)布全國(guó)古籍?dāng)?shù)字出版中長(zhǎng)期規(guī)劃、當(dāng)年的選題計(jì)劃、古籍?dāng)?shù)字出版項(xiàng)目招標(biāo)方案,以及每年新出版的古籍?dāng)?shù)字出版成果,讓各個(gè)古籍?dāng)?shù)字出版商之間能彼此互通聲參考、信息共享。同時(shí),平臺(tái)還應(yīng)建立古籍?dāng)?shù)字資源導(dǎo)航系統(tǒng),便于整合現(xiàn)有的古籍?dāng)?shù)字資源。張力元和王軍曾選取主題、類型、格式、地區(qū)、建置主體和權(quán)限六個(gè)緯度構(gòu)建古籍?dāng)?shù)據(jù)庫(kù)分面分類體系,以此來(lái)分類、描述、瀏覽、檢索和鏈接互聯(lián)網(wǎng)上的古籍?dāng)?shù)字資源。[8]這一理論研究成果,可以應(yīng)用于古籍?dāng)?shù)字出版資源導(dǎo)航系統(tǒng)的建設(shè)。
第三,古籍征集和底本使用補(bǔ)償規(guī)范。圖書(shū)館是古籍的主要收藏部門(mén),此外還有民間收藏者及海外收藏機(jī)構(gòu)。這些機(jī)構(gòu)和個(gè)人為古籍的采集、收藏和保護(hù)都付出了一定的經(jīng)濟(jì)成本。數(shù)字出版雖是古籍保護(hù)事業(yè)的一部分,具有一定的公益性,但同時(shí)具有商業(yè)價(jià)值,出版機(jī)構(gòu)在使用這些機(jī)構(gòu)和個(gè)人提供的古籍底本時(shí),支付一定的費(fèi)用是合理的。不過(guò),也有圖書(shū)館常以此為借口限制底本使用,或收取高額的底本使用費(fèi)。為保障古籍?dāng)?shù)字出版的底本來(lái)源,特別是鼓勵(lì)民間收藏者獻(xiàn)出孤本、珍本,促使海外漢籍的回歸,建立一項(xiàng)古籍征集和底本使用補(bǔ)償制度是非常有必要的。應(yīng)根據(jù)所獻(xiàn)古籍的等級(jí)、品相和珍稀程度,確定補(bǔ)償?shù)姆绞胶蛿?shù)額。只有這樣,才能保證古籍善本獲取渠道暢通,最大范圍完成古籍的保護(hù)和出版。
第四,古籍?dāng)?shù)字出版知識(shí)產(chǎn)權(quán)保護(hù)規(guī)范。古籍本身沒(méi)有版權(quán),但點(diǎn)校、注釋的古籍整理成果及開(kāi)發(fā)的數(shù)據(jù)庫(kù)是受知識(shí)產(chǎn)權(quán)法保護(hù)的。古籍?dāng)?shù)字出版面臨的知識(shí)產(chǎn)權(quán)問(wèn)題主要有兩個(gè)方面:一是古籍?dāng)?shù)據(jù)庫(kù)建設(shè)過(guò)程中,如何合理使用已有的古籍整理成果和古籍?dāng)?shù)字資源;二是古籍?dāng)?shù)字出版物上市后,如何保護(hù)自己的合法權(quán)益不受侵害。2004年南開(kāi)大學(xué)在學(xué)校網(wǎng)站傳播“國(guó)學(xué)寶典”,被北京國(guó)學(xué)時(shí)代文化傳播有限公司訴諸法庭;[9]2005年,中華書(shū)局狀告天津索易數(shù)據(jù)技術(shù)有限公司、天津電子出版社和北京中基偉業(yè)科技發(fā)展中心未經(jīng)許可,在互聯(lián)網(wǎng)上傳播其點(diǎn)校的《二十四史》和《清史稿》,北京市第一中級(jí)人民法院判決3名被告立即停止復(fù)制、出版、發(fā)行和銷售“二十五史”全文檢索閱讀系統(tǒng)及該系統(tǒng)的網(wǎng)絡(luò)版,并賠償中華書(shū)局125萬(wàn)元。[10]鑒于此類案例經(jīng)常發(fā)生,古籍?dāng)?shù)字出版在利用古籍整理成果和他人建成的古籍?dāng)?shù)字資源時(shí),應(yīng)通過(guò)版權(quán)商或有關(guān)知識(shí)產(chǎn)權(quán)集體管理組織取得法律許可,避免侵權(quán)行為發(fā)生。同時(shí),古籍?dāng)?shù)字出版商也應(yīng)聯(lián)合相關(guān)單位,推進(jìn)古籍?dāng)?shù)字出版物版權(quán)聯(lián)合體的建立,以維護(hù)自身的合法權(quán)益。
第五,古籍?dāng)?shù)字資源安全管理規(guī)范。古籍?dāng)?shù)字資源由于存儲(chǔ)密度大,存儲(chǔ)介質(zhì)壽命短,在建設(shè)的各個(gè)階段都有必要做好安全防護(hù)措施。首先,應(yīng)建立古籍?dāng)?shù)字出版物繳送制度,保證國(guó)家古籍資源庫(kù)的完整性和權(quán)威性,從戰(zhàn)略上保證我國(guó)古籍?dāng)?shù)字資源的安全;其次,要建立數(shù)字安全機(jī)制,控制不同級(jí)別的訪問(wèn)權(quán)限,賬號(hào)使用強(qiáng)口令,內(nèi)容傳輸進(jìn)行加密解密操作,以解決古籍?dāng)?shù)字資源可能失竊、內(nèi)容損壞、內(nèi)容外泄等問(wèn)題;最后,建立即時(shí)的數(shù)據(jù)備份機(jī)制,以應(yīng)對(duì)病毒和黑客攻擊、誤操作以及斷電、天災(zāi)等意外情況造成古籍?dāng)?shù)字資源的丟失。為應(yīng)對(duì)傳統(tǒng)數(shù)據(jù)存儲(chǔ)的不足,可以選擇網(wǎng)絡(luò)存儲(chǔ)服務(wù)代理。網(wǎng)絡(luò)存儲(chǔ)服務(wù)提供商以先進(jìn)的設(shè)備、可靠的技術(shù),提供安全的信息內(nèi)容存儲(chǔ)、備份服務(wù)。從國(guó)外的情況看,通過(guò)接受網(wǎng)絡(luò)存儲(chǔ)服務(wù)可以節(jié)約4%—8%的成本。[11]
三、結(jié)語(yǔ)
我國(guó)古籍?dāng)?shù)字出版規(guī)范體系的建設(shè)仍處在初級(jí)階段,遠(yuǎn)落后于古籍?dāng)?shù)字出版技術(shù)取得的進(jìn)展。從當(dāng)前古籍?dāng)?shù)字出版的實(shí)踐情況來(lái)看,學(xué)術(shù)質(zhì)量規(guī)范和行業(yè)管理規(guī)范的不健全已成為制約古籍?dāng)?shù)字出版業(yè)發(fā)展的瓶頸。筆者從整理、利用和管理的三個(gè)環(huán)節(jié)入手,提出了構(gòu)建古籍?dāng)?shù)字出版規(guī)范體系的保真性原則、共享性原則和協(xié)同性原則,并初步構(gòu)建了包括操作程序規(guī)范、技術(shù)標(biāo)準(zhǔn)規(guī)范、質(zhì)量控制規(guī)范在內(nèi)的古籍?dāng)?shù)字出版學(xué)術(shù)規(guī)范;包括行業(yè)協(xié)作規(guī)范、信息搜集和發(fā)布規(guī)范、古籍征集與底本使用補(bǔ)償規(guī)范、知識(shí)產(chǎn)權(quán)保護(hù)規(guī)范、安全管理規(guī)范在內(nèi)的古籍?dāng)?shù)字出版行業(yè)管理規(guī)范。需要說(shuō)明的是,古籍?dāng)?shù)字出版規(guī)范體系的建立是一項(xiàng)長(zhǎng)期的制度建設(shè)工作,本文提出的只是一種理論上的構(gòu)想,還需要在實(shí)踐中不斷驗(yàn)證和改進(jìn)。
(作者單位系武漢大學(xué)信息管理學(xué)院、武漢大學(xué)文化遺產(chǎn)智能計(jì)算實(shí)驗(yàn)室)