趙海良
(浙江省人民政府地方志辦公室 浙江 杭州 310012)
地方志緣起于何時,學(xué)術(shù)界一直爭議頗多,各學(xué)者也是眾說紛紜。《山海經(jīng)》《周官》《史記》等各類古籍均被認(rèn)為是方志之起源。劉緯毅所著《中國地方志》一書更是詳細(xì)列舉了多種關(guān)于方志起源的說法。不管方志起源于何時,有一點是眾人公認(rèn)的,就是中國地方志歷史悠久,地方志文獻卷帙浩繁、種類繁多、內(nèi)容豐富。各類地方志文獻不僅僅是記載某一時期某一地域的自然、社會、政治、經(jīng)濟、文化等方面情況或特定事項的書籍文獻,更是地方歷史文化的積淀。而如何合理利用地方志資源,充分發(fā)揮其“存史、資政、教化”的作用,是地方志工作者面臨的難題。
現(xiàn)代信息技術(shù)的迅猛發(fā)展,改變了人們傳統(tǒng)的通過紙質(zhì)文獻來獲取信息、傳播信息的方式。據(jù)調(diào)查,以互聯(lián)網(wǎng)為代表的信息化手段,已成為人們獲取信息的主要方式[1]。地方志文獻的數(shù)字化建設(shè)也日益被重視,全國各地方志工作機構(gòu),都在建設(shè)自己的“文獻數(shù)據(jù)庫”、“省情數(shù)據(jù)庫”,“自20世紀(jì)90年代以來,我國地方志網(wǎng)絡(luò)建設(shè)在各地逐步開展起來。據(jù)有關(guān)方面統(tǒng)計,目前全國已建地情庫(網(wǎng))省級7個,市級63個,縣級154個。在建地情庫(網(wǎng))省級4個,市級21個,縣級54個。籌建地情庫(網(wǎng))省級2個,市級28個,縣級42個”[2]。同時,隨著新一輪修志工作的深入開展,信息化已成為重要的手段,以作者所在的浙江省為例,為《浙江通志》編纂工作專門開發(fā)了編纂信息系統(tǒng),從資料收集一直到審稿均在網(wǎng)上完成,這些信息化的手段為地方志文獻的數(shù)字化建設(shè)提供了基礎(chǔ)。
地方志文獻資源的數(shù)字化,不是簡單的將志書通過技術(shù)化手段放在計算機上進行瀏覽,其本質(zhì)是對方志文獻資源利用手段的深度開發(fā),這需要全國方志工作者的共同努力,但目前各地方志工作機構(gòu)的數(shù)字化建設(shè)都是“各自為戰(zhàn)”、“單打獨斗”,沒有統(tǒng)一的標(biāo)準(zhǔn)。
目前數(shù)字化后的地方志文獻資源存儲格式種類繁多,有常見的 txt、doc、pdf等,也有 chm、hlp、exe、html、txt、xml等較少見的格式。這些不同格式的文件格式,往往都需要各自專門的閱讀器才能進行瀏覽,相互之間難以兼容。即使同一種文件,也因編碼風(fēng)格的不同,導(dǎo)致無法兼容。例如txt格式的文件,既有用ANSI編碼的,也有用Unicode、UTF-8編碼的。不同的編碼風(fēng)格導(dǎo)致了即使看上去是同一種文件類型,也無法實現(xiàn)資源共享。
地方志文獻種類繁多,時間跨度大,既有舊志古籍,又有通志、年鑒,既有繁體字,又有簡體字、異體字。這導(dǎo)致各地對地方志文獻的數(shù)字化程度不一樣,有的在數(shù)字化的過程中,簡單的將地方志文獻數(shù)字化成全文格式,這樣方便于做志書的全文檢索,但無法有效展示志書的原貌,有些因為技術(shù)經(jīng)費等原因,將部分難以數(shù)字化,或者數(shù)字化技術(shù)要求高的舊志古籍簡單的做成圖片格式,這樣做雖然保留了志書的原貌,但無法做志書的全文檢索。
各類完成數(shù)字化的地方志文獻資源,需要一個專門的數(shù)據(jù)庫來存儲。而目前數(shù)據(jù)庫軟件種類繁多,有免費開源的數(shù)據(jù)庫軟件,例如MySQL,有需要付費的數(shù)據(jù)庫軟件,例如Oracle、MS SQL Server等,各地因為經(jīng)費、數(shù)據(jù)庫容量、技術(shù)難度等各方面情況不同,所采用的數(shù)據(jù)庫軟件也不盡相同。
地方志文獻資源數(shù)字化后,如何將其有效的利用起來是關(guān)鍵,志書的全文檢索是重要的手段之一,其可以將存儲于數(shù)據(jù)庫中整本志書的任意內(nèi)容快速準(zhǔn)確的查找出來。但目前各地的全文檢索平臺也各自為用,有自己開發(fā)的、有購買第三方平臺的,雖然各全文檢索平臺的技術(shù)實現(xiàn)大同小異,但底層數(shù)據(jù)的存儲方式卻截然不同,這為不同檢索平臺的數(shù)字資源共享帶來了障礙。
以上幾個地方志文獻數(shù)字化關(guān)鍵技術(shù)規(guī)范的不統(tǒng)一,已然成為全國方志資源信息共享,自動化網(wǎng)絡(luò)系統(tǒng)建立,文獻資源廣泛傳播的重要阻礙。
在地方志文獻數(shù)字化技術(shù)規(guī)范的建設(shè)中,存儲格式、數(shù)字化程度、數(shù)據(jù)庫軟件、全文檢索平臺等幾個要素,看似毫無關(guān)系,其實是密切相聯(lián)系的,一個要素技術(shù)規(guī)范的建設(shè),涉及其他幾個要素。這幾個要素之間,即相互支持,又相互制約。
地方志文獻數(shù)字化后,該存儲為何種格式,這是數(shù)字化規(guī)范建設(shè)的關(guān)鍵,上文提到過,在存儲格式上,有常見的 txt、doc、pdf等,也有 chm、hlp、exe、html、txt、xml等較少見的格式。每種格式都有其特點,各有優(yōu)劣,對于數(shù)據(jù)存儲格式的標(biāo)準(zhǔn),筆者認(rèn)為不能一刀切的說一定要采用某一種格式,而是應(yīng)該根據(jù)所要數(shù)字化的地方志文獻的類型來選擇。
對于新編志書,年鑒等可以采用txt、doc等格式,因為此類文獻基本都是當(dāng)代所編,無需對文獻外觀原貌進行真實還原,只需確保文獻內(nèi)容準(zhǔn)確無誤即可,且當(dāng)代所編志書基本都有電子版本,無需繁瑣的數(shù)字化過程,即節(jié)約成本又節(jié)省時間。
對于文獻原貌保存要求較高,不需要全文檢索的舊志古籍,可以采用圖片、pdf或者DjVu格式。但長久以來,圖像類文件都有一個清晰度與文件大小之間的平衡關(guān)系,就是如果要保證文字和影像的清晰效果,就必須要用較高的分辨率來進行掃描,其所得文件往往十分巨大,需要占用很大的存儲空間。想要減小文件的大小,就不得不降低分辨率,這也意味著圖像質(zhì)量和可辨性得不到保證。pdf又稱便攜文件格式,是由Adobe公司所開發(fā)的獨特的跨平臺文件格式,其主要特點是會忠實地再現(xiàn)原稿的每一個字符、顏色以及圖象[3]。DjVu是由AT&T實驗室自1996年起開發(fā)的一種圖像壓縮技術(shù),已發(fā)展成為標(biāo)準(zhǔn)的圖像文檔格式之一,國際上大量應(yīng)用實例已證明,DjVu可替代PDF成為網(wǎng)絡(luò)傳輸掃描文檔、數(shù)碼照片、圖像文件的主流技術(shù)[4]。相對于pdf格式,DjVu格式即保證了文件的清晰度,又可以減少文件的大小,例如一份60頁A4大小公司報告用PDF格式來發(fā)布,其大小大概在4MB左右,而掃描之后以 DjVu格式保存,其文件大小則不超過 800K[5]。
對于文獻原貌保存要求較高,同時又要進行全文檢索的部分舊志古籍,可以采用雙層pdf格式。所謂雙層pdf是指將文獻掃描成jpg、png等圖像格式,然后加工輸出為雙層(圖象層和文字層)PDF文件。雙層PDF文件其圖文位置上下一一相對應(yīng),既可以完整保留原始版面效果,又可以通過下層的文字信息支持選擇、復(fù)制、全文檢索等功能。雙層pdf相較于單層圖片形式的pdf文件,其主要優(yōu)點是可以提供全文檢索功能,但工序是最為繁瑣的。
相對于數(shù)據(jù)存儲格式的五花八門,數(shù)據(jù)庫軟件的選擇性就比較單一,目前主流的數(shù)據(jù)庫軟件基本就 MySQL、Oracle、MS SQL Server三分天下,其中MySQL和Oracle同屬于甲骨文公司,MSSQL Server屬于微軟公司。各有各的優(yōu)點和缺點,且最重要的是,存儲在這三種數(shù)據(jù)庫中的數(shù)據(jù),可以通過技術(shù)手段互相導(dǎo)入和導(dǎo)出。但實現(xiàn)這一功能的前提,就是文獻數(shù)字化后存儲在數(shù)據(jù)庫中的字段需統(tǒng)一。所謂字段,可以理解為對文獻的一種描述要素,例如作者為一個要素,出版社為一個要素,出版時間為一個要素,將所有要素集合在一起,就可以詳細(xì)的描述一本文獻。同時,當(dāng)我們提供準(zhǔn)確、詳細(xì)的要素后,即可以快速的定位一本文獻。北京大學(xué)數(shù)字圖書館研究所曾專門對中文元數(shù)據(jù)標(biāo)準(zhǔn)做過研究[6],參照其研究成果,筆者認(rèn)為地方志文獻的要素(字段)設(shè)計規(guī)范,可以如表1所示。
表1 地方志文獻的要素(字段)設(shè)計規(guī)范
規(guī)范、統(tǒng)一的要素設(shè)計,是不同數(shù)據(jù)庫數(shù)據(jù)互導(dǎo)的關(guān)鍵,以上設(shè)計規(guī)范,只是筆者本人粗略的設(shè)計,如何借鑒中文圖書電子數(shù)據(jù)的要素設(shè)計規(guī)范,制定一套符合地方志文獻特色的要素規(guī)范,需要全國方志工作者的共同努力。
地方志文獻數(shù)字化一個重要的目的是為了更加方便的“用志”,而志書的全文檢索平臺,是最便捷的手段。一套優(yōu)秀的檢索平臺,不僅需要提供全庫或分庫、單本圖書的全文檢索功能,同時還需提供基于文章標(biāo)題、文章內(nèi)容、作者等的智能分項檢索功能。同時由于方志文獻的特點,需要滿足大字符集支持。
目前全文檢索平臺種類很多,有地方志工作機構(gòu)自己研發(fā)的,也有專門軟件公司研發(fā)的,常見的有清華同方異構(gòu)統(tǒng)一檢索平臺、CALIS統(tǒng)一檢索平臺、TRS資源整合門戶、復(fù)鑫跨庫檢索平臺、天宇異構(gòu)資源統(tǒng)一檢索平臺等[7]。因為利益、技術(shù)整合難度等各方面原因,全文檢索平臺的標(biāo)準(zhǔn)是最難統(tǒng)一的。對于此項規(guī)范的建立,應(yīng)遵循以下幾個原則:
1.開放性
在全文檢索平臺的標(biāo)準(zhǔn)的制定過程中,應(yīng)首先考慮采用已經(jīng)成熟的、被用戶廣泛接受的開放標(biāo)準(zhǔn)。此舉既可以有效避免無用的重復(fù)勞動,又能保證較高的技術(shù)水平。
2.實用性
地方志數(shù)字化后,最終還是需要給人“用”,全文檢索平臺是“用”的關(guān)鍵手段,系統(tǒng)在開發(fā)的時候,應(yīng)注重實用性,易用性,在滿足基本基礎(chǔ)上,應(yīng)根據(jù)地方志文獻的自身特點,設(shè)置符合實際需求的功能。
3.前瞻性
科技的發(fā)展日新月異,同樣,全文檢索平臺在制定的過程中,也應(yīng)充分跟上時代的步伐,為以后新技術(shù)的支持提供預(yù)留的接口。
近些年來,圖書館界的文獻數(shù)字化標(biāo)準(zhǔn)制定工作在一定程度上受到了重視。從2002年開始,由科技部委托國家科技圖書文獻中心協(xié)調(diào)中國科學(xué)院文獻情報中心、中國科學(xué)技術(shù)信息研究所、國家圖書館、中國高等教育文獻保障系統(tǒng)管理中心、北京大學(xué)圖書館、上海圖書館等21家單位聯(lián)合進行了圖書文獻數(shù)字化的相關(guān)標(biāo)準(zhǔn)規(guī)范研究[8]。作為與地方志工作部門類似的檔案部門,很早就注意到了檔案文獻數(shù)字化標(biāo)準(zhǔn)建設(shè)的重要性,相繼出臺了《電子文件歸檔與管理規(guī)范》《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》《縮微膠片檔案數(shù)字化技術(shù)規(guī)范》等規(guī)范性的文件。但目前在全國的方志系統(tǒng)內(nèi)尚未形成一個統(tǒng)一的強制性文獻數(shù)據(jù)化的標(biāo)準(zhǔn),一些信息化建設(shè)走在前列的省份已經(jīng)建設(shè)成了規(guī)模龐大的文獻數(shù)據(jù)庫,形成了自己的一套數(shù)據(jù)庫標(biāo)準(zhǔn)。國務(wù)院辦公廳于2007年1月發(fā)布了《關(guān)于進一步加強古籍保護工作的意見》,文件明確指出:“進一步加強古籍整理、出版和研究利用、制訂古籍?dāng)?shù)字化標(biāo)準(zhǔn),規(guī)范古籍?dāng)?shù)字化工作,建立古籍?dāng)?shù)字資源庫”,對全國地方志志工作機構(gòu)而言,建立一套全國性的地方志文獻資源數(shù)字化標(biāo)準(zhǔn),已經(jīng)是迫在眉睫的事情。
[1]《中國互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計報告》2014年7月.
[2]《中國新編地方志二十多年輝煌成就》,《中國地方志》.2006年第6期.
[3]百度百科,http://baike.baidu.com/view/15963.htm?fr=aladdin.
[4]百度百科,http://baike.baidu.com/view/69557.htm?fr=aladdin.
[5]梁民,王北.《DJVU格式與PDF格式的比較》,《電腦知識與技術(shù)》.2009年第1期.
[6]肖瓏,陳凌等.《中文元數(shù)據(jù)標(biāo)準(zhǔn)框架及其應(yīng)用》,《大學(xué)圖書館學(xué)報》.2001年第5期.
[7]胡娟.《數(shù)據(jù)庫統(tǒng)一檢索平臺的功能比較》,《現(xiàn)代情報》.2005年第4期.
[8]周琳結(jié).《我國古籍書目數(shù)據(jù)庫建設(shè)標(biāo)準(zhǔn)規(guī)范探討》,《圖書館建設(shè)》.2010年第2期.