周錄祥
(韓山師范學(xué)院 中文系,廣東 潮州 521041)
所謂廣東文獻(xiàn)數(shù)字化建設(shè),是指將紙質(zhì)的廣東地方文獻(xiàn)通過拍照、掃描、文本化,轉(zhuǎn)換成數(shù)字化的電子文獻(xiàn)資源(電子圖書或數(shù)據(jù)庫)。廣東文獻(xiàn)的數(shù)字化,是時代的趨勢,也必將是廣東文獻(xiàn)建設(shè)的主要方向之一,它使廣東文獻(xiàn)保存更加方便、傳播更加便捷、共享更加廣泛,必將使嶺南文化輻射力更強,影響力更大,也會進一步提升嶺南文化研究的水平。
廣東文獻(xiàn)從地域上講,包括廣府文獻(xiàn)、潮汕文獻(xiàn)、客家文獻(xiàn)等;從形態(tài)上分,包括圖書、報紙、期刊,還有地圖、圖片、傳單告示、票據(jù)、手稿、墨跡,拓片、唱片等;從時間上看,包括古代文獻(xiàn)、近現(xiàn)代文獻(xiàn)、當(dāng)代文獻(xiàn),至于館藏地,則既包括省內(nèi)各公立圖書館、博物館、高校圖書館及其他藏書機構(gòu)、私人所藏,也包括省外、國外所藏。廣東文獻(xiàn)不僅數(shù)量眾多,而特色明顯。廣東雖偏處南國,歷代人文、著述不算豐富,但也有唐張九齡、明湛若水、翁萬達(dá)、清屈大均等文化名人,他們都留下了豐厚的著述,而自清末、近代起,廣東得風(fēng)氣之先,先后涌現(xiàn)出鄭觀應(yīng)、康有為、梁啟超等政治家、黃遵憲、丘逢甲、吳沃堯等文學(xué)家、孫中山、胡漢民、廖仲愷等民國政治家,可謂才俊輩出,群星璀璨,對于中國現(xiàn)代化進程的推動,對中國文化的發(fā)揚光大厥功至偉,在全國各省市中也是首屈一指。他們的光輝著述,都是寶貴的人類精神財富,構(gòu)成了極富特色的廣東文獻(xiàn)群組,是嶺南文化研究乃至于中國文化研究的重要材料。僅廣東中山圖書館特藏部(廣東地方文獻(xiàn)中心)就收藏有廣東地方文獻(xiàn)、孫中山文獻(xiàn)、粵人文庫、東南亞華僑史料、南海諸島資料以及清代史料、民國時期書刊等一大批史料價值高、學(xué)術(shù)性強的文獻(xiàn)資料。其中廣東地方文獻(xiàn)和孫中山文獻(xiàn)著稱尤為豐富,現(xiàn)收藏有廣東地方志、族譜、廣東史料、粵人著述、報紙、期刊、輿圖、圖片等地方史料8萬余種、30余萬冊,其中圖書約6萬多種,14萬多冊,報刊1萬多種,輿圖2千多種;孫中山著作、傳記、評論研究、手跡、圖片、唱片及有關(guān)辛亥革命資料等4000余冊(件)①。這些文獻(xiàn)資料,很大一部分都是國內(nèi)其他館稀有罕見的,在提倡信息共享的今天,有必要以數(shù)字化的形式傳播。而散藏于省外的廣東文獻(xiàn)也為數(shù)不少,本省學(xué)者借閱不便,也有必要組織力量,進行數(shù)字化,以利閱讀與研究。
1.廣東文獻(xiàn)數(shù)字化可有效保護珍貴文獻(xiàn)。傳統(tǒng)紙質(zhì)文獻(xiàn)的大量閱讀必然或多或少造成損傷。許多廣東文獻(xiàn)年代久遠(yuǎn),其狀態(tài)岌岌可危,即使是民國的圖書報刊,也多是或紙質(zhì)脆化,或斷線散頁,翻閱稍有不當(dāng),便會帶來無法挽回的損害,亟需加強保護。而一味地提高借閱條件,設(shè)置借閱障礙,以減少借閱帶來的損傷,又違背圖書館文獻(xiàn)收藏的初衷。怎樣才能兩全其美?一個最佳的解決方案就是,將這些廣東文獻(xiàn)數(shù)字化,向讀者提供數(shù)字化的版本,則可減少對原件的借閱,既保護珍貴文獻(xiàn),又不影響讀者的閱讀和研究,誠為一勞永逸。
2.廣東文獻(xiàn)數(shù)字化便于存儲、閱讀與共享。數(shù)字化文獻(xiàn)利用計算機技術(shù)進行存儲,占用空間很小,一塊硬盤,即可存儲G級數(shù)據(jù)、數(shù)以萬計的書籍。而電子數(shù)據(jù)的復(fù)制、傳播非常便捷,較之以往紙質(zhì)文獻(xiàn)的掃描、復(fù)印、影印,都方便得多。且可利用網(wǎng)絡(luò)進行遠(yuǎn)程傳輸,提供方便而及時的文獻(xiàn)服務(wù)(必要時,可以收取適當(dāng)?shù)馁M用),這樣異地讀者可以足不出戶,可以獲取相關(guān)的廣東文獻(xiàn)資料。文獻(xiàn)資源利用更加頻繁,充分發(fā)揮了其價值,客觀上也省去了讀者來往交通的時間、金錢,節(jié)約了大量的社會成本,同時提高了研究效率。
3.廣東文獻(xiàn)數(shù)字化有利于嶺南文化的傳播與研究。嶺南文化的核心是敢為人先、天下為公、開放多元,廣東文獻(xiàn)的數(shù)字化建設(shè),與嶺南文化的理念頗有異曲同工之妙。廣東文獻(xiàn)研究和文化研究不能光靠省內(nèi)學(xué)者,而是要面向全國乃至世界。數(shù)字化后的廣東文獻(xiàn),其傳播與共享方式突破了空間與傳統(tǒng)介質(zhì)的限制,具有傳統(tǒng)文獻(xiàn)載體無法企及的便捷性與發(fā)散性,直接面向受眾,而不是資料獨享,有利于打破閱讀壁壘,將廣東文獻(xiàn)迅捷地傳播開來,既可使海內(nèi)外眾多研究者快速獲得大量文獻(xiàn)資料,進一步拓寬研究的范圍,提升研究的水平;又可以帶動數(shù)字化廣東文獻(xiàn)上所承載的嶺南文化、嶺南人自信、包容與開放的心態(tài)向全國乃至世界輻射傳播,擴大嶺南文化的影響力,將嶺南文化發(fā)揚光大,將嶺南精神彰顯無遺。
1.文獻(xiàn)數(shù)字化技術(shù)已經(jīng)成熟。
經(jīng)過多年的探索與發(fā)展,時至今日,文獻(xiàn)數(shù)字化技術(shù)已經(jīng)相當(dāng)成熟。電子古籍的掃描與制作方面,“中美百萬”可謂其代表。2000年12月中美兩國計算機專家共同發(fā)起了“中美百萬冊數(shù)字圖書館合作計劃(China-US Million Book Digital Library Project)”。該計劃由中美兩國共建達(dá)百萬冊中英文圖書的數(shù)字圖書館,以提供便捷的全球可訪問的全文圖書瀏覽服務(wù)。與中國高等學(xué)校文獻(xiàn)保障體系(CALIS)一起,構(gòu)成中國高等教育數(shù)字化圖書館的框架。同時項目名稱定為“高等學(xué)校中英文圖書數(shù)字化國際合作計劃”(英文簡稱CADAL)。百萬冊圖書規(guī)模的數(shù)字資源建設(shè)主要服務(wù)于高校的教學(xué)和科研,同時兼顧到民族優(yōu)秀文化遺產(chǎn)的保存與傳承。截至2007年10月,該數(shù)據(jù)庫里有古籍190405冊、民國圖書114202冊、民國期刊6578冊、現(xiàn)代圖書401550冊、學(xué)位論文136098冊、繪畫3427件、視頻69種、英文44338冊②。 文獻(xiàn)數(shù)據(jù)庫建設(shè)方面,上海人民出版社和迪志公司出品的文淵閣《四庫全書》全文電子版、愛如生公司的《中國基本古籍庫》可謂佼佼者。前者可收書3千多種,可實現(xiàn)7億字的全文檢索,后者總計收書約16萬卷,版本12800多個,全文約17億字,影像約1千萬頁,擁有強大的檢索系統(tǒng)、完備的功能平臺和靈活的糾錯機制,可通過多條路徑、采用多種方法進行快速海量檢索,可輕松實現(xiàn)古籍瀏覽、???、標(biāo)注、分類、編輯、下載、打印的全電子化作業(yè),并可隨時進行軟件升級和數(shù)據(jù)更新以確保在持續(xù)改進中日臻完善③??傊?,各種方式的文獻(xiàn)數(shù)字化技術(shù)已經(jīng)日臻成熟,廣東文獻(xiàn)的數(shù)字化建設(shè)在技術(shù)上沒有太多的難題。
2.廣東省財政可為廣東文獻(xiàn)數(shù)字化提供必要資金保障。
文獻(xiàn)數(shù)字化建設(shè)需要必要的資金、經(jīng)費支持,主要是三個方面:一是購置設(shè)備所需費用,如掃描儀、相機等。二是勞務(wù)費,從事規(guī)劃、掃描、制作的工作人員報酬。三是底本費或信息費。使用某些圖書館、博物館的文獻(xiàn)資料,照例會要求付給一定的費用。這個費用應(yīng)作統(tǒng)一規(guī)定,或統(tǒng)籌之后適當(dāng)減免,或以交換文獻(xiàn)的方式抵充。數(shù)量眾多的廣東文獻(xiàn),要全部實現(xiàn)數(shù)字化,必須有足夠的財政、經(jīng)費投入作為支撐。廣東處于中國改革開放的前沿,三十年來經(jīng)濟持續(xù)繁榮,社會各項事業(yè)蒸蒸日上。近年廣東省國民經(jīng)濟持續(xù)、快速、健康發(fā)展,綜合經(jīng)濟實力連續(xù)多年居全國前列,生產(chǎn)總值、社會消費品零售總額、工業(yè)增加值、居民儲蓄存款、稅收、財政收入、全社會固定資產(chǎn)投資額、貨運量、科技發(fā)明專利申請量等重要經(jīng)濟指標(biāo)均居全國第一。據(jù)《關(guān)于廣東省2011年度省級預(yù)算執(zhí)行和其他財政收支的審計工作報告》,2011年“省級預(yù)算執(zhí)行和其他財政收支情況總體較好,省級財政收入1220.86億元……加上上級補助、下級上解、債券收入、上年結(jié)余(結(jié)轉(zhuǎn))、調(diào)入資金等,省級財政總收入3479.83億?!雹茉趧?chuàng)建經(jīng)濟強省的同時,廣東省也在爭創(chuàng)文化大省,不斷加大對科教文化方面建設(shè)的撥款力度。所以廣東文獻(xiàn)數(shù)字化建設(shè)所需的相關(guān)資金資金、經(jīng)費完全可以保證。
3.大型文獻(xiàn)數(shù)字化項目可提供寶貴經(jīng)驗。
除上述“中美百萬”項目外,國內(nèi)外不少大型文獻(xiàn)數(shù)字化項目都已成功組織多個部門,匯集各方資料,建設(shè)海量文獻(xiàn)數(shù)據(jù)庫,可以為廣東文獻(xiàn)數(shù)字化建設(shè)提供寶貴經(jīng)驗。如“IDP”(international dunhuang project,國際敦煌項目),“是一個開創(chuàng)性的國際性協(xié)作項目,目標(biāo)是使敦煌及絲綢之路東段其他考古遺址出土的寫本、繪畫、紡織品以及藝術(shù)品的信息與圖像能在互聯(lián)網(wǎng)上自由地獲取,并通過教育與研究項目鼓勵使用者利用這些資源?!雹菟狭酥?、英、法、俄、日、德等多國文獻(xiàn)資料,截止2009年10月7日,已存儲并開放247712幅圖片資料,極大地促進了國際敦煌學(xué)的發(fā)展。又如愛如生系列數(shù)據(jù)庫·地方文獻(xiàn)系列中的《浙江文獻(xiàn)》數(shù)據(jù)庫,網(wǎng)羅浙江區(qū)域相關(guān)之歷史文獻(xiàn),包括記述浙江歷史地理之史籍志書,以及歷代浙江籍貫人之著述和在浙江建功立業(yè)人之著述,共計800種。每種皆據(jù)善本制成數(shù)碼全文,附以原版影像,配備可以進行條目檢索、全文檢索、高級檢索的快速檢索系統(tǒng)和可以進行版本對照、標(biāo)點批注、分類收集、編輯下載、原文打印等作業(yè)的功能平臺,為浙江文獻(xiàn)研究提供了重要的資料保證⑥。此外,許多圖書館及高校藏書都已經(jīng)數(shù)字化,如國家圖書館的部分方志、上海圖書館的部分善本古籍,都通過拍照等方式數(shù)字化,讀者可在其網(wǎng)站瀏覽閱讀,美國哈佛燕京圖書館、日本東京大學(xué)、早稻田大學(xué)等高校的古籍,都已經(jīng)制成電子掃描本,發(fā)布于網(wǎng)站,可供讀者方便獲取。以上皆可為廣東文獻(xiàn)數(shù)字化建設(shè)提供借鑒。
一是鍵盤輸入,形成文本。將文獻(xiàn)內(nèi)容,逐字通過鍵盤錄入,其優(yōu)勢是以文本方式存儲文獻(xiàn)信息,一是形成的文本可方便進行復(fù)制等操作,二是所需存儲空間較小,三是檢索非常方便,可以逐字檢索,查全率、查準(zhǔn)率高,且檢索速度快。但此種方式有明顯的缺點,一是轉(zhuǎn)換速度較慢,需要大量人力投入,二是錄入過程中會有較多的文字錯誤,需要較大的校對工作量。三是不能保留文獻(xiàn)的原貌以及原文獻(xiàn)的字體。這種方式比較適合一些部頭較小的廣東文獻(xiàn),或散見于大部頭典籍中的單篇廣東文獻(xiàn)。
二是圖像掃描后制作成電子古籍。將每頁紙質(zhì)文獻(xiàn)用掃描儀掃描成圖片格式保存,再合并,制作成PDG、PDF或DJVU格式的電子書籍,既可方便復(fù)制、傳輸與閱讀,也可保護紙本文獻(xiàn)。中美百萬等已經(jīng)大量運作,某些電子文獻(xiàn)愛好者個人也可制作,比較方便易行。大量的嶺南文獻(xiàn)可通過這種方式化身億萬,出現(xiàn)在省內(nèi)大小圖書館,乃至于供省外、國外機構(gòu)使用。采用圖像格式的優(yōu)點是可以再現(xiàn)其原貌,制作技術(shù)相對簡單,制作成本相對低。缺點是占用存貯空間較大,影響傳遞速度,不過隨著存儲技術(shù)、網(wǎng)絡(luò)寬帶的發(fā)展,這些問題將逐步解決。大多數(shù)廣東文獻(xiàn),尤其是難以識別的手寫體文獻(xiàn)、圖表較多的文獻(xiàn)都適合采用圖像掃描的方式完成數(shù)字化。
三是圖像掃描后OCR識別。先以圖像格式保存數(shù)字化文獻(xiàn),并通過OCR轉(zhuǎn)換成文本形式,并編制自動索引,輔以人工標(biāo)引。尤其是全息文件技術(shù)的發(fā)展,以文件格式保存數(shù)字化文獻(xiàn),能夠較為全面地將印刷型文獻(xiàn)的內(nèi)容、版面版式信息都體現(xiàn)出來,可完成自動標(biāo)引,并提供讀者摘錄功能,具有很強的優(yōu)越性。缺點是制作難度很大,主要原因是各種文獻(xiàn)字體不一、大小迥異,掃描后難以識別,且古籍中用字復(fù)雜,異體字、繁難字難以納入普通字庫,所以制作過程中非常容易出現(xiàn)訛字,處理不好,文獻(xiàn)價值大打折扣。采用鉛字印刷的清末、民國廣東文獻(xiàn)和刻印比較工整、字體比較規(guī)范、易于識別的明清刻本,比較適合采用這種方式實現(xiàn)數(shù)字化,但后期的??睆?fù)核工作需尤為仔細(xì)。
四是將多個文本整合成數(shù)據(jù)庫。通過OCR技術(shù)轉(zhuǎn)換大量文獻(xiàn)后,精心???,可按各種目的,整合成各種數(shù)據(jù)庫,能夠?qū)崿F(xiàn)全數(shù)據(jù)庫的單字檢索、組合檢索,如陜西師范大學(xué)歷史文化學(xué)院袁林、張宇等開發(fā)的《漢籍全文檢索系統(tǒng)》,可實現(xiàn)千余種圖書的全文檢索與組合查詢,復(fù)制也很方便。而文淵閣《四庫全書》全文檢索版則更是典范之作,可實現(xiàn)7億字文獻(xiàn)的全文檢索,非常便捷。這種方式是文獻(xiàn)數(shù)字化的最高境界,也應(yīng)是廣東文獻(xiàn)資源數(shù)字化的方向,目前廣東的歷代方志可以再全文掃描識別后,制成廣東方志數(shù)據(jù)庫;也可以整合部分民國圖書、報刊,制成民國文獻(xiàn)數(shù)據(jù)庫。
1.摸清家底,擬定目錄,避免重復(fù)。需將廣東文獻(xiàn)的具體情況先掌握清楚,具體可以《廣東文獻(xiàn)綜錄》⑦為基礎(chǔ),再增加該書未收的報紙、期刊、碑帖等文獻(xiàn)。其中有些廣東文獻(xiàn),已經(jīng)有數(shù)字化版本的,則不必重復(fù)勞動。如收入《四庫》系列叢書(《四庫全書》、《續(xù)修四庫全書》、《四庫全書存目叢書》、《四庫禁毀書叢刊》、《四庫未收書輯刊》等)的粵人著述,都已有PDF或DJVU格式的電子版,不必再重新數(shù)字化。又如屈大均編《廣東文選》、明萬歷鄒守愚刻本翁萬達(dá)《東涯集》等,已收入《北京圖書館古籍珍本叢刊》,已有電子版,則不必重復(fù)勞動。凡此,皆需專人對網(wǎng)絡(luò)已有傳播的廣東文獻(xiàn)作詳細(xì)調(diào)查,屆時可避免重復(fù)勞動,這樣事半功倍,既能加快速度,又可節(jié)約成本。
2.精選內(nèi)容,分清緩急,按期進行。廣東文獻(xiàn)數(shù)量眾多,具體數(shù)字化操作時,如果沒有統(tǒng)一規(guī)劃,而是隨機掃描、制作,必然雜亂無序,不成體系。所以分清輕重緩急,制定分期規(guī)劃很有必要。具體原則應(yīng)有兩個,一是重要性原則,二是稀缺度原則。具體說,首先要精選出影響較大的、使用比較頻繁的、具有代表性的特色廣東文獻(xiàn),優(yōu)先掃描、制作、數(shù)字化,這樣短期內(nèi)即可初顯廣東文獻(xiàn)的概貌。另一方面,部分廣東文獻(xiàn)非常稀缺,存世量極少,可以同時優(yōu)先數(shù)字化??上日湎”?、后易見本;先善本,后普本。往往普本存量較大,各地圖書館多有收藏,查閱相對方便。而善本、珍本、稿本、抄本等,存世數(shù)量較少,甚至僅有孤本行世,彌足珍貴,讀者查閱、研究不便,應(yīng)優(yōu)先進行數(shù)字化,以便化身億萬,既保護文獻(xiàn)原本,又滿足讀者借閱與研究需要。分清輕重緩急后,根據(jù)不同選擇,安排數(shù)字化的先后次序,制定具體時期,有條不紊地進行,可以充分滿足社會需要,既有鮮明的廣東文獻(xiàn)特色,又能面向全國、全球,有步驟、有計劃地建設(shè),可使有限的人力物力發(fā)揮最大效果。
3.統(tǒng)籌安排,統(tǒng)一認(rèn)識,調(diào)集書籍。政府文化部分和相關(guān)機構(gòu)要充分認(rèn)識到廣東文獻(xiàn)數(shù)字化對于保存廣東地方文獻(xiàn)、促進學(xué)術(shù)交流、弘揚嶺南文化的意義,積極牽頭,籌措資金,加大投入,并協(xié)調(diào)各館藏單位,統(tǒng)一調(diào)集圖書。圖書館、博物館等藏書單位要顧全大局,服從安排,不得壟斷資源,而應(yīng)該革除以往某些圖書館將館藏的古籍視為本館私有物品,甚至囤積居奇,或收取高昂閱覽費的現(xiàn)象,方不至于妨礙文獻(xiàn)流通和學(xué)術(shù)研究的開展,違背了公共圖書館設(shè)立的本意。當(dāng)然,是調(diào)集圖書集中數(shù)字化,還是分配任務(wù),各收藏單位分別進行,需視具體技術(shù)力量和文獻(xiàn)數(shù)量而定,收藏文獻(xiàn)較少較為零散的單位,技術(shù)力量不足,可統(tǒng)一集中數(shù)字化;而收藏文獻(xiàn)較多較集中的單位,有條件的話,可通過培訓(xùn),在本館完成,以免大規(guī)模調(diào)書造成散失與損傷。
4.認(rèn)真制作,查漏補缺,實現(xiàn)提升。文獻(xiàn)逐頁掃描與OCR識別過程是艱巨而枯燥的任務(wù),稍一疏忽,就容易造成漏掃缺頁、誤掃重復(fù)的現(xiàn)象,所以在制作過程中,需認(rèn)真仔細(xì),每件文獻(xiàn)掃制完成后,要認(rèn)真查漏補缺,力求盡善盡美。如人力物力充足,可以投入編輯力量,進行二次文獻(xiàn)、三次文獻(xiàn)的創(chuàng)作與組合,根據(jù)具體需要,將零散的多個文獻(xiàn)整合成專題數(shù)據(jù)庫或大型數(shù)據(jù)庫,這樣才能夠進一步提升紙質(zhì)文獻(xiàn)的利用價值,而不是單純的把紙質(zhì)文獻(xiàn)轉(zhuǎn)為數(shù)字信息。
5.創(chuàng)建平臺,提供下載,促進傳播。最終數(shù)字化形態(tài)是電子圖書或數(shù)碼照片格式的廣東文獻(xiàn),可存儲于服務(wù)器中,并建立相應(yīng)的網(wǎng)站,提供下載,并鼓勵下載者發(fā)表研究成果,互相討論、交流。如將部分廣東文獻(xiàn)制成數(shù)據(jù)庫形式,也應(yīng)面向互聯(lián)網(wǎng)開放,提供遠(yuǎn)程檢索功能,最好既能提供文本格式,又能提供對應(yīng)的圖像格式,以便檢核。當(dāng)然也可講數(shù)據(jù)庫制作成光盤形式,提供給相關(guān)的科研機構(gòu),以便于廣東文獻(xiàn)的研究與嶺南文化的傳播。
總之,廣東文獻(xiàn)的數(shù)字化對于文獻(xiàn)的保藏、傳播、共享,對于嶺南文化的傳播、弘揚與研究,都有著積極而深遠(yuǎn)的意義。作為經(jīng)濟強省、文化大省的廣東,完全有能力,也有責(zé)任,積極推行廣東文獻(xiàn)數(shù)字化建設(shè),為信息共享工程作出應(yīng)有的貢獻(xiàn)。
注釋:
①詳見廣東省立中山圖書館介紹:http://www.zslib.com.cn/html/lib_jianjie/20081014/67.html.
②詳見http://www.cadal.zju.edu.cn/Index.action.
③詳見愛如生網(wǎng)站介紹:http://www.er07.com/article/notice.jsp?typeId=23.
④藍(lán)佛安.關(guān)于廣東省2011年度省級預(yù)算執(zhí)行和其他財政收支的審計工作報告[N].見網(wǎng)頁:http://www.rd.gd.cn/rdgz/jdgk/201207/t20120731_125789.html.
⑤詳見其網(wǎng)站:http://idp.nlc.gov.cn/.
⑥詳見http://www.er07.com/article/notice.jsp?typeId=378.
⑦駱偉.廣東文獻(xiàn)綜錄[M].廣東:中山大學(xué)出版社,2000.