李寶金,藍韶清,張曉旭
(1.廣州中醫(yī)藥大學,510006;2.廣東中醫(yī)藥博物館,廣州 510006)
古籍屬于不可再生的文化資源,具有文物價值與文獻價值的雙重屬性,盡管我國加大了對古籍的保護力度,但隨著歷史的推進,古籍還是會悄無聲息、不可避免地出現損毀,乃至消亡。一般古籍保護分為原生性保護和再生性保護,所謂原生性保護,是對古籍原件的保存與養(yǎng)護,包括修復殘破古籍、改善保護環(huán)境。再生性保護是指通過影印、掃描和數字化處理等現代技術手段,將古籍的形式和內容進行復制轉移和再發(fā)展[1]。伴隨著數字化、網絡等技術的發(fā)展,古籍的數字化發(fā)展逐漸起步,古籍數字化,就是利用計算機等數字化技術將古籍進行掃描、文字識別與轉換或錄入,并使之結構化,建立古籍數據庫,其目的在于保護古籍和揭示古籍文獻信息,最終實現古籍的保存和利用。古籍的數字化是中華文化由紙質媒介向現代化傳播方式的重要轉變,是中醫(yī)藥文化傳播方式的一次革命。
目前,中醫(yī)藥古籍數字化取得了一定進展,在保護與利用中醫(yī)藥古籍的矛盾中取得了相對的平衡,例如:中國中醫(yī)科學院中醫(yī)藥信息研究所利用其資源優(yōu)勢,構建了“中醫(yī)藥古籍資源數據庫”,現已收錄1500種中醫(yī)古籍的元數據信息和其中的850種中醫(yī)古籍的原文圖像,已經可以通過中醫(yī)古籍閱覽系統(tǒng)實現電子閱覽[2],為中醫(yī)藥古籍數字化保護和利用開辟了途徑。
廣東中醫(yī)藥博物館成立于2006年,前身是廣州中醫(yī)藥大學中國傳統(tǒng)醫(yī)藥文化博物館,保存主要包括嶺南地區(qū)的醫(yī)史文物、動植物標本等,藏有豐富的中醫(yī)藥古籍,形成了華南地區(qū)最大的中藥標本中心,是廣東省中醫(yī)藥強省建設的重點項目之一。
廣東中醫(yī)藥博物館的中醫(yī)藥古籍數字化總體建設目標是:針對廣東中醫(yī)藥博物館內古籍的特色,利用計算機、數據庫、多媒體和網絡等技術,采集中醫(yī)藥古籍數字化信息,并進行存儲、加工,完成古籍數字化,搭建古籍數字化資源保護、研究、展示、傳播的平臺,以期達到向公眾提供中醫(yī)藥博物館的全方位信息服務、傳播中醫(yī)藥文化和保護中醫(yī)藥非物質文化遺產的最終目標。
中醫(yī)藥古籍的數字化內容主要包括:書目元數據庫、原文圖像、全文文本、研究支持功能等,具體建設的總體框架圖如圖1所示:
圖1 中醫(yī)藥古籍數字化建設總體架構圖
2.2.1 中醫(yī)藥古籍書目元數據庫
元數據是用來定義存儲在數據庫中數據形式的數據,是指提供關于信息資源或數據的一種關于結構化的數據,其功能為描述數據本身之特征或屬性[3]。每一條中醫(yī)藥古籍的元數據基本上應包括該中醫(yī)藥古籍的所有特征或者屬性。廣東中醫(yī)藥博物館根據中醫(yī)藥古籍的特點以及館內管理的需要,每一條元數據都需包括:入館登記號、入館日期、入館名稱、作者、類別、出版者、出版年代、征集人、征集日期、質地、功能、完殘、顏色、題識內容、征集經過、流傳經歷、備注、登記人、登記日期等二十多個屬性。
2.2.2 中醫(yī)藥古籍原文圖像
將中醫(yī)藥古籍以圖像形式掃描,全文錄入計算機,這種方法就是將古籍文獻的文字包括圖表、針灸圖譜、拓片等皆以圖像形式錄入計算機,然后用Photoshop等圖片處理軟件進行處理,實現數字化。它的最大優(yōu)點是,既能保持古籍的“原貌”,內容又不會錯訛,同時錄入也方便省力。
2.2.3 中醫(yī)藥古籍全文文本
將紙質中醫(yī)藥古籍文本通過掃描、識別轉換成數字文本,或者通過人工將中醫(yī)藥古籍中的文字通過鍵盤輸入計算機中,完成中醫(yī)藥古籍全文文本數據庫。全文文本的古籍數字化要比單純的原文圖像更進一步,它的優(yōu)點在于全文文本數據庫可以方便地用于檢索、統(tǒng)計、編輯等,且儲存空間小。當然其缺點也是相當明顯,全文輸入不僅量大、難度高,而且錯訛難免,無??眱r值,有失原貌,特別是中醫(yī)藥古籍中的生僻字、繁簡字、通假字特別多,不方便錄入。
2.2.4 中醫(yī)藥古籍研究支持功能
中醫(yī)藥古籍的原文圖像和全文文本都只是古籍的一種原版,缺乏一定的研究支持功能,所謂研究支持功能是指能夠提供有關中醫(yī)藥古籍內容本身或者相關的參考信息、數據、輔助工具等,這些都是中醫(yī)藥古籍內容的擴展或補充[4]。中醫(yī)藥古籍具有非常高的文獻研究價值,其研究支持功能應更強大。除常用的中醫(yī)古籍研究輔助工具外,還應具有不同版本和相關數據的鏈接。對相關內容進行標注,對生僻字進行注解等都是研究支持功能的重要組成部分,而目前的中醫(yī)藥古籍數字化的研究支持功能尚顯薄弱。
2.3.1 保真原則
因中醫(yī)藥古籍具有文物價值,那么數字化過程中除了對其進行原生性保護,還必須進行再生性保護,數字化產品再生性保護的“復制轉移”中必須保護其原貌,即保真原則。所謂保真原則是指數字化中醫(yī)藥古籍產品應該具有重現作為歷史文物的古籍原貌的功能,具體表現是數字化古籍產品應該具有原文圖像。原文圖像主要滿足版本研究、文物鑒賞、書史研究、文字???、原件對照等特殊需要。
2.3.2 整理原則
因中醫(yī)藥古籍又具有文獻價值,那么數字化過程中的再生性保護除了保護其原貌,還必須“再發(fā)展”,即整理原則。所謂整理原則是指數字化古籍產品應該具有文獻資料的應用性,追求的不再是形式上的保真,而是內容的保真。古籍的數字化并不只是對古籍進行掃描在計算機中存儲而后能瀏覽就可以了,還必須對古籍進行相關整理,具體表現是數字化古籍產品應具有全文文本,并對文本進行整理、校對、注釋、補充等,對中醫(yī)藥古籍進行深度的挖掘和開發(fā)。
2.3.3 實用原則
中醫(yī)藥古籍的數字化其實就是中醫(yī)藥古籍在保護與應用這一矛盾中尋求的一條合適之路,數字化既能保護古籍“永不消失”,又能使古籍的原文圖像、全文文本能為研究者、公眾所利用。中醫(yī)藥古籍數字化最終所形成的中醫(yī)藥古籍數據庫管理系統(tǒng)必須具有瀏覽閱讀、全文檢索、研究支持等功能,能給管理者、研究者、公眾的管理、研究和閱讀提供幫助,具有一定的實用性,因此數字化過程中的實用原則是非常重要的。
2.4.1 平臺的搭建
廣東中醫(yī)藥博物館的中醫(yī)藥古籍數字化的整個系統(tǒng)基于JSP的WEB應用開發(fā)技術,采用B/S(瀏覽器/服務器)模式、SQL Server數據庫系統(tǒng),構建了跨平臺、可維護和可擴展的中醫(yī)藥古籍數字化系統(tǒng)。
2.4.2 圖像掃描與拍攝
中醫(yī)藥古籍數字化的一項非常重要的內容就是原文圖像的掃描和拍攝,對于大部分的古籍都可以使用A3掃描儀進行全彩掃描,對于部分特大版本的古籍或者大型字畫等則需要使用數碼相機進行拍攝,從而獲得其原文圖像。之后則需要對圖像進行編目,并通過Photoshop等圖像處理軟件進行糾偏、去污、裁邊等處理。當然掃描儀也有其不足之處,那就是古籍與掃描儀接觸過近,仍避免不了紫外線的照射,會對古籍產生一定的損傷,因此對于古籍是拍攝還是掃描就要有所選擇。
2.4.3 文字輸入與轉換
中醫(yī)藥古籍的數字化涉及到大量的文本輸入及轉換,在中醫(yī)藥古籍中存在大量的繁簡字、生僻字、古今字、通假字等,這對文本的錄入帶來一定的障礙,生僻字等文本的錄入需要有很深中醫(yī)文獻功底的工作人員才能做到。在文字的輸入與轉換中主要使用Unicode字符編碼和OCR技術。Unicode的統(tǒng)一編碼有效地解決了在此之前各種編碼系統(tǒng)存在的明顯缺陷,即沒有包含足夠的字符,以及存在的統(tǒng)一編碼值代表不同字符或者是用不同的編碼值代表相同字符。OCR(Optical Character Recognition,光學字符識別)是指對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。當然,OCR軟件對中醫(yī)藥古籍中部分繁體字和不規(guī)則用字的識別效果不是很理想,需要輔以人工校對。
標準化是中醫(yī)藥古籍數字化的基礎,只有符合公認的統(tǒng)一標準,數字化的古籍文獻信息才能在不同的計算機系統(tǒng)之間交換數據,才能實現用戶和系統(tǒng)以及系統(tǒng)與系統(tǒng)之間的有效溝通。目前,參與中醫(yī)藥古籍數字化的單位很多,但幾乎都是各自為戰(zhàn),缺乏相互之間的溝通和交流,缺乏統(tǒng)一的數字化標準,難以實現資源共享,因此,有必要建立統(tǒng)一的標準,包括中醫(yī)藥古籍的分類法、著錄規(guī)則、軟件和數據庫的使用、數字化加工標準、加工和利用平臺等。統(tǒng)一的標準是實現中醫(yī)藥古籍數字化資源共享的基礎,也是促進中醫(yī)古籍數字化建設進程的有力保障。
中醫(yī)藥古籍數字化不應僅僅滿足于對古籍的閱覽和查詢。中國中醫(yī)藥古籍是一個知識寶庫、是中華民族幾千年來防病治病寶貴經驗的結晶,古籍中蘊含著大量的隱藏信息等待研究者去挖掘開發(fā)。在數字化的基礎上利用相關數據挖掘工具進行研究和挖掘古籍中的寶貴知識財富,實現知識的再發(fā)現和拓展,使其更好地為中醫(yī)藥事業(yè)的發(fā)展和人類健康服務。
中醫(yī)藥古籍的數字化產品不同于一般圖書的數字出版,一方面要考慮開發(fā)者的成本和積極性,畢竟這些數字化產品是大批工作人員對古籍進行整理、登記、掃描、錄入、校勘等一系列艱苦工作的結晶;另一方面還要考慮中醫(yī)藥古籍的普及推廣、中醫(yī)藥文化的傳播,這就需要政府加大對數字化中醫(yī)藥古籍市場的監(jiān)管力度,加強版權保護,保證中醫(yī)藥古籍數字化事業(yè)的順利開展。
中醫(yī)藥古籍的數字化工作對工作人員提出了更高要求,它是一項集計算機知識、醫(yī)史文獻知識等多種知識于一體的工程,它不僅要求工作人員要掌握中醫(yī)藥古籍的分類、版本鑒定、編目,還要會設計數據庫,懂得計算機網絡、多媒體等現代技術,因此盡快培養(yǎng)一批具有醫(yī)史文獻專長、信息技術素養(yǎng)較高、技術熟練、善于合作的復合型人才顯得極為重要而又迫切。
中醫(yī)藥古籍數字化是中醫(yī)藥文化與現代技術的結合,對中醫(yī)藥古籍的保護與利用提出了更高的要求。廣東中醫(yī)藥博物館的中醫(yī)藥古籍數字化工作雖有一定成績,但仍屬起步階段,在中醫(yī)藥古籍的數字化建設中仍需要和各界同仁共同努力探索,完善數字化工作的建設體系、共享體系和服務體系,為中醫(yī)藥事業(yè)的發(fā)展、中醫(yī)藥文化的傳播和中醫(yī)藥非物質文化遺產的保護貢獻自己的力量。
[1]祁雪麗.芻議數字化背景下的古籍保護[J].絲綢之路,2011,(14):102 -103.
[2]李 兵,劉國正,符永馳等.從中醫(yī)古籍數據庫建設看中醫(yī)古籍數字化[J].中國中醫(yī)藥信息雜志,2009,(16):92-93.
[3]熊 靜.元數據在漢語文古籍數字化中的應用[J].圖書與情報,2010,(1):89 -92.
[4]楊繼紅.中醫(yī)古籍數字化資源建設概述[J].現代情報,2008,(28):136 -138.