張文玥(西南大學(xué) 漢語言文獻(xiàn)研究所,重慶 400715)
?
數(shù)字化背景下古籍整理展望
張文玥
(西南大學(xué) 漢語言文獻(xiàn)研究所,重慶 400715)
摘 要:目前中文古籍整理的方式方法逐步走向數(shù)字化。在此背景下,展望古籍?dāng)?shù)字化在理論和實(shí)踐層面的發(fā)展方向,分析其發(fā)展過程中需要面對(duì)的變革迅速、資源整合、版權(quán)、參與主體等問題,以期古籍?dāng)?shù)字化的理論建設(shè)得到進(jìn)一步完善,數(shù)據(jù)庫建設(shè)在職能化、智能化上能夠進(jìn)一步深入。
關(guān)鍵詞:數(shù)字化;中文古籍;古籍整理;資源整合
古籍是一個(gè)民族歷史和思想的載體[1]。對(duì)它們的利用和保護(hù),是古籍整理工作的重心所在。如今,用數(shù)字化手段進(jìn)行古籍整理已經(jīng)不新鮮。早在1988年,曹書杰先生對(duì)采用新技術(shù)整理古籍的新方法進(jìn)行了初步分析[2]。1997年劉煒先生則正式使用了“古籍?dāng)?shù)字化”這一術(shù)語[3]?!肮偶?dāng)?shù)字化”,是從利用和保護(hù)古籍的目的出發(fā),采用計(jì)算機(jī)技術(shù),將常見的語言文字或圖形符號(hào)轉(zhuǎn)化成能被計(jì)算機(jī)識(shí)別的數(shù)字符號(hào),從而支撐古籍文獻(xiàn)書目數(shù)據(jù)庫和古文全文數(shù)據(jù)庫,用以揭示古籍文獻(xiàn)信息資源的一項(xiàng)系統(tǒng)性工作[4]。可以說這是古籍整理范疇的一個(gè)問題。
計(jì)算機(jī)硬件和互聯(lián)網(wǎng)技術(shù)的發(fā)展是重要的技術(shù)變革,將此種新方法新手段應(yīng)用到中文古籍的研究中,無疑能夠推動(dòng)學(xué)術(shù)的進(jìn)步。而數(shù)字化在現(xiàn)階段已經(jīng)不僅作為古籍整理的一種手段,在一定程度上也成為古籍整理的大背景。
(一)職能化
樓宇烈先生從使用者的身份出發(fā)將中文古籍?dāng)?shù)據(jù)庫分為版本庫,專題庫和普及庫三種,分別對(duì)應(yīng)著為了保護(hù)古籍,為專業(yè)研究者提供古籍?dāng)?shù)據(jù)和為一般讀者提供最基本額古籍讀本這三種職能[5]。這三種數(shù)據(jù)庫并不是平行的概念,而是涵蓋了不同年代不同質(zhì)量,不同主題不同載體,不同用途不同目標(biāo)人群的多個(gè)層次。為此,有必要按照這三個(gè)大類的方向進(jìn)行具體的細(xì)致的建設(shè),做好職能的區(qū)分,塑造多層次的立體化中文古籍?dāng)?shù)據(jù)庫網(wǎng)絡(luò)。
1. 版本庫
2. 專題庫
主要是為了向研究者提供研究資料,這也是我們建設(shè)數(shù)據(jù)庫的重要意義所在。除了按照主題分類(如中醫(yī)古籍、農(nóng)業(yè)古籍、宗教經(jīng)籍)和體裁分類(如地方志、家譜)等進(jìn)行建設(shè),筆者認(rèn)為有兩個(gè)專題尤需重視:一是出土文獻(xiàn)數(shù)據(jù)庫。出土文獻(xiàn)相對(duì)于傳世文獻(xiàn),“更為真實(shí)地保留著當(dāng)時(shí)的面貌,具有極強(qiáng)的文獻(xiàn)真實(shí)性(authenticity)”[7],具有重大的文化價(jià)值。此外,它們更含有巨大的文物價(jià)值,所以,建立專門的出土文獻(xiàn)數(shù)據(jù)庫,不但有利于傳承文化信息,開放研究資料,更有利于它們的保護(hù)。而且,出土文獻(xiàn)的時(shí)間跨度極大,載體多樣,從商代甲骨,到周代青銅器,到戰(zhàn)國秦漢簡帛,到歷代碑刻,無疑值得細(xì)加分化和詳加考究。僅以簡帛數(shù)據(jù)庫而言,就將是一個(gè)巨大而艱難的工程,已有學(xué)者進(jìn)行過相關(guān)討論,如張顯成的設(shè)想之一便是建設(shè)以圖版和釋文為主要組成部分的電子文字?jǐn)?shù)據(jù)庫[7];二是少數(shù)民族古文獻(xiàn)數(shù)據(jù)庫。中國是一個(gè)多民族國家,雖然漢族占主體地位,但中華文化的輝煌離不開不同民族的碰撞與交融。而我們對(duì)漢族經(jīng)典文獻(xiàn)的重視雖然必要,但也絕不可忽視少數(shù)民族古籍文獻(xiàn),尤其在如今漢族趨于西化、少數(shù)民族趨于漢化的情況下,少數(shù)民族文化和文獻(xiàn)的保護(hù)更是尤為緊迫。以云南納西族為例,納西東巴文作為世界上唯一還活著的象形字,其研究意義不言而喻,但納西族東巴文的載體——各種經(jīng)書,有相當(dāng)一部分尚未得到徹底的整理,在現(xiàn)今的整理過程中,我們應(yīng)緊跟潮流,及時(shí)進(jìn)行數(shù)字化,建立納西東巴文(經(jīng)書)數(shù)據(jù)庫。最早對(duì)納西東巴文字進(jìn)行計(jì)算器處理的當(dāng)屬云南啄木鳥計(jì)算機(jī)工作室楊曉輝開發(fā)的“東巴象形文字計(jì)算器處理系統(tǒng)”軟件。雖說納西東巴文的數(shù)字化已有一定進(jìn)展,但繼續(xù)大膽設(shè)想、踏實(shí)建設(shè)仍是我們要不懈努力的。
3. 普及庫
主要是面向普通讀者,以普及古典知識(shí),傳承中華文化。所以,我們需要注意以下幾個(gè)方面:一是降低閱讀障礙。版本庫和專題庫在整理未覆蓋到位的情況下可以暫緩斷句標(biāo)點(diǎn)和文字的通俗化(古體字變今體,異體字變通行字等)等工作,畢竟它們的使用者多為具有一定古文閱讀修養(yǎng)的研究人員,但普及庫卻一定要進(jìn)行,甚至對(duì)文言文內(nèi)容進(jìn)行今譯。二是形式更加多樣。在電子計(jì)算器普及、移動(dòng)終端泛濫的當(dāng)代,開發(fā)相應(yīng)閱讀軟件,讓古籍?dāng)?shù)據(jù)以第三方應(yīng)用軟件(Application)等形式面向手機(jī)、平板計(jì)算機(jī)開放,將極其有利于傳統(tǒng)文化的普及。除此,還可擴(kuò)展古籍文獻(xiàn)的有聲化工作,如鍾華先生,長期致力于“中國古典文學(xué)全文朗讀”,已經(jīng)完成了《漢書》《三國志》《封神演義》《儒林外史》等多部古典文獻(xiàn)的朗讀工作,并開放在網(wǎng)絡(luò)上無償提供下載,目前可下載的有1 000多小時(shí)[8]。三是數(shù)據(jù)分析。中文古籍本身是一個(gè)巨大的數(shù)據(jù)信息庫,同時(shí),利用各種電子設(shè)備瀏覽古籍?dāng)?shù)據(jù)的閱讀者們,利用古籍書目數(shù)據(jù)庫和全文數(shù)據(jù)庫進(jìn)行檢索的用戶們,他們?cè)诓僮鬟^程中留下的數(shù)據(jù)信息也十分龐大,在一定權(quán)限內(nèi),收集這些動(dòng)態(tài)數(shù)據(jù),并用云計(jì)算(Cloud Computing)對(duì)這些數(shù)據(jù)進(jìn)行分析,以向潛在讀者推薦相關(guān)的文獻(xiàn)資料,既有利于達(dá)到普及的初衷,又可減少讀者的時(shí)間成本提高其學(xué)習(xí)效率[9];四是從學(xué)術(shù)到公益和從公益到商業(yè)。中文古籍的數(shù)字化,首先受益的是學(xué)術(shù)研究,在此基礎(chǔ)上強(qiáng)化普及庫的建設(shè),進(jìn)行文化的宣傳,則很大程度上是一項(xiàng)公益性事業(yè),有賴于國家的支持和志愿者的奉獻(xiàn)。此外,我們還要致力于挖掘中文古籍?dāng)?shù)據(jù)庫的經(jīng)濟(jì)價(jià)值,推進(jìn)商業(yè)性運(yùn)作,樹立市場意識(shí)、銷售意識(shí)、品牌意識(shí)。這也是促進(jìn)中文古籍?dāng)?shù)據(jù)化整理可持續(xù)發(fā)展的途徑之一。
(二)智能化
人工智能(Artificial intelligence)是計(jì)算機(jī)應(yīng)用的一個(gè)重要分支,通過使計(jì)算機(jī)具有智能化的功能,來達(dá)到模擬人類的某些智能行為的目的[9]。人工智能使計(jì)算器模擬人類思維,延伸人腦功能,在多種學(xué)科領(lǐng)域都有廣闊的發(fā)展前景。具體到中文古籍?dāng)?shù)字整理的智能化,也可以大大節(jié)省人力資源,提高工作的效率和準(zhǔn)確性。它可以分為自動(dòng)化處理和自動(dòng)化分析兩大方面。
1. 文獻(xiàn)的自動(dòng)化處理
一是字體轉(zhuǎn)換。包括繁簡轉(zhuǎn)換、古今字轉(zhuǎn)換、異體字轉(zhuǎn)換、不同書體的轉(zhuǎn)換等,它的實(shí)現(xiàn)前提之一是字庫的健全,這也是一個(gè)龐大的工作,需要文字學(xué)理論和字形收集整理工作的支撐,而且,鑒于中文字形、詞義的復(fù)雜性,自動(dòng)化處理的錯(cuò)誤非常難免,所以一定的檢查工作也是需要的。二是自動(dòng)標(biāo)點(diǎn)(斷句)?,F(xiàn)有相關(guān)研究多集中在中醫(yī)古籍和農(nóng)業(yè)古籍等專業(yè)特征明顯的主題上。標(biāo)點(diǎn)涉及到我們對(duì)中文語言結(jié)構(gòu)的認(rèn)知,需要對(duì)古籍文獻(xiàn)的語法特征、關(guān)聯(lián)詞、同義語標(biāo)識(shí)、反義復(fù)合詞等進(jìn)行梳理,先做到斷句。且標(biāo)點(diǎn)一定意義上反映的是古籍文本內(nèi)容的邏輯,有時(shí)專家尚且不能輕易判斷,所以這也必定成為自動(dòng)化處理的一大難點(diǎn)。三是自動(dòng)???。在20世紀(jì)90年代初,國內(nèi)便有研究人員開始探索使用計(jì)算器進(jìn)行中文自動(dòng)校對(duì)[10],由于自動(dòng)分詞問題是個(gè)難點(diǎn),所以現(xiàn)在的處理還十分簡單。期盼今后可以在簡單上下文匹配的基礎(chǔ)上,進(jìn)一步延伸到詞切上下文匹配、自然語言理解上下文匹配。四是自動(dòng)編纂。主要包括自動(dòng)分詞、自動(dòng)文摘、篇章分割和段落檢索等幾個(gè)方面[11],我國古書命名的方式十分多樣,而隱括內(nèi)容為名者較少,且古代學(xué)者的作品多為文集,其內(nèi)容包羅萬象而少有內(nèi)部編目,即便有編綱目也幾無統(tǒng)一標(biāo)準(zhǔn),十分隨意,急需整理。而這是一個(gè)非常龐大的工作,若能采用自動(dòng)編纂技術(shù),將減輕很多負(fù)擔(dān)。除以上四個(gè)方面外,文獻(xiàn)的自動(dòng)化處理還有很多方面可以探討,如自動(dòng)翻譯、主動(dòng)注釋、自動(dòng)糾錯(cuò)等等,足以專門做一番論述,在此就不再一一說明了。
權(quán)責(zé)發(fā)生制,又稱“應(yīng)收應(yīng)付制”或“應(yīng)計(jì)制”,指以取得收取款項(xiàng)的權(quán)利或支付款項(xiàng)的義務(wù)為標(biāo)志來確定本期收入和費(fèi)用的會(huì)計(jì)核算基礎(chǔ)。凡是當(dāng)期已經(jīng)實(shí)現(xiàn)的收入和已經(jīng)發(fā)生的或應(yīng)當(dāng)負(fù)擔(dān)的費(fèi)用,不論款項(xiàng)是否收付,都應(yīng)當(dāng)作為當(dāng)期的收入和費(fèi)用;凡是不屬于當(dāng)期的收入和費(fèi)用,即使款項(xiàng)已在當(dāng)期收付,也不應(yīng)當(dāng)作為當(dāng)期的收入和費(fèi)用。
2. 文獻(xiàn)的自動(dòng)化分析
現(xiàn)在計(jì)算器只能進(jìn)行字符簡的簡單比較,尚不能完全模仿人的邏輯。人具有主觀能動(dòng)性,可以對(duì)客體進(jìn)行分析作出判斷,雖然我們?cè)谂帉懰惴?,設(shè)計(jì)應(yīng)用程序,賦予計(jì)算器一定的邏輯分析能力,以解放人力,幫助中文古籍整理,初衷雖好,前途雖亮,但卻需要具體的龐大的基礎(chǔ)準(zhǔn)備工作,并要仰賴技術(shù)的進(jìn)步?,F(xiàn)階段下,我們可以初步藉助計(jì)算器對(duì)中文古籍進(jìn)行字頻、用韻的統(tǒng)計(jì),并探索用典、語句(語言結(jié)構(gòu))等方面的自動(dòng)化分析。而主要難點(diǎn)是如何設(shè)計(jì)合理的算法,即程序編輯問題。程序編輯問題除了涉及電子語言的轉(zhuǎn)化和軟件的建設(shè)外,其基礎(chǔ)為語言的梳理。在現(xiàn)階段,我們還是要著力進(jìn)行準(zhǔn)備工作,完善語料,充實(shí)數(shù)據(jù),為程序的編寫提供素材。
(一)變化的挑戰(zhàn)
1. 跟進(jìn)信息
信息時(shí)代的特點(diǎn)除了信息量上的龐大外,還表現(xiàn)在信息更迭速率的迅速上。所以,面對(duì)不斷在更新的信息,中文古籍?dāng)?shù)據(jù)庫也要及時(shí)進(jìn)行更新。不過鑒于中文古籍資源總體上是穩(wěn)定的,所以需要跟進(jìn)的主要為出土文獻(xiàn)的新發(fā)現(xiàn)新材料。
2. 跟進(jìn)技術(shù)
中文古籍的數(shù)字化整理的產(chǎn)生無疑是源于計(jì)算器和電子信息技術(shù)的發(fā)展。在短短幾十年里,計(jì)算器脫去了神秘高科技面紗,飛入尋常百姓家,信息技術(shù)更是變更了我們的生活狀態(tài),不敢想象以后還會(huì)發(fā)生什么,不論如何,中文古籍的數(shù)字化整理都要、也會(huì)緊跟技術(shù)的革新,不斷完善。
3. 跟進(jìn)政策
我國政策的發(fā)展總體宏觀上具有連貫性,但微觀政策的變化也會(huì)對(duì)我們產(chǎn)生一些影響。例如,《文學(xué)遺產(chǎn)》2014年第6期發(fā)表的鄭永曉先生《加快“數(shù)字化”向“數(shù)據(jù)化”轉(zhuǎn)變》一文尙可檢索維基百科,并引用其對(duì)“大數(shù)據(jù)”一詞的解釋[12],但2015年國內(nèi)網(wǎng)絡(luò)環(huán)境下已經(jīng)無法在線使用維基百科。
(二)資源整合的挑戰(zhàn)
幾十年來,中文古籍?dāng)?shù)字化整理工作是參差發(fā)展的,首先是開發(fā)主體的不同:大學(xué)研究機(jī)構(gòu),館藏機(jī)構(gòu),私營企業(yè),乃至私人個(gè)體;還有地域的不同,不同開發(fā)主體,在不同的地域不同的時(shí)間,采取不盡相同的標(biāo)準(zhǔn)和技術(shù),導(dǎo)致了中文古籍?dāng)?shù)字化整理質(zhì)量的參差不齊,也給研究者和使用者帶來了很大不便。所以,這要求我們進(jìn)行資源的整合。
在國內(nèi)范圍中,我們有必要強(qiáng)化古籍?dāng)?shù)字化控制主體的地位[13],以促進(jìn)中文古籍?dāng)?shù)字化整理工作有序、高效的進(jìn)行;在國際范圍內(nèi),我們有必要增進(jìn)不同地區(qū)不同國家的交流合作,協(xié)商統(tǒng)一的標(biāo)準(zhǔn),以方便研究者和使用者的檢索和查閱。
(三)版權(quán)與壁壘的挑戰(zhàn)
隨著數(shù)字化的發(fā)展,不少著作被整本掃描、公布在網(wǎng)上,雖然在一定程度上便利了大家獲取數(shù)據(jù),但這種版權(quán)意識(shí)的淡漠長遠(yuǎn)來看是不利于學(xué)術(shù)發(fā)展,也不利于中文古籍?dāng)?shù)字化整理的市場化的,所以,保護(hù)版權(quán)十分重要。首先,我們觀念上就應(yīng)該重視版權(quán)問題;其次,保護(hù)智力成果的法律法規(guī)也需要完善;另外,還可以從技術(shù)層面,在電子書和數(shù)據(jù)庫的制作中加入保護(hù)程序。
但另一層面上,保護(hù)版權(quán)不能成為獨(dú)占材料、壟斷資源的借口。直面這一挑戰(zhàn),努力在保護(hù)和開放中尋找平衡,既尊重智力勞動(dòng)成果,又避免學(xué)術(shù)壁壘的產(chǎn)生,才能更長遠(yuǎn)的維護(hù)學(xué)者權(quán)益,促進(jìn)學(xué)術(shù)發(fā)展。
(四)人的挑戰(zhàn)
首先,顯而易見,是建設(shè)者的挑戰(zhàn)。面對(duì)浩浩蕩蕩的數(shù)字化浪潮,如果更好地融入并促進(jìn)中文古籍文獻(xiàn)的整理工作,是一大挑戰(zhàn)。其次,是使用者的挑戰(zhàn)。數(shù)據(jù)庫的建立和數(shù)字化檢索的完善,對(duì)研究和閱讀中文古籍的用戶們而言,大家都平等地使用數(shù)據(jù)庫,而在同一起跑上如何更深一步,進(jìn)行有價(jià)值的研究,將是隨之而來的挑戰(zhàn)。所以,未來的用戶需要在組織和架構(gòu)信息,揀選和分析信息等方面,更努力地發(fā)揮自己的能動(dòng)性。
[參考文獻(xiàn)]
[1] 朱成林,袁曦臨.中國古籍的數(shù)字化導(dǎo)讀研究[J].圖書館建
設(shè),2014(11):50-55.
[2] 曹書杰.古籍整理與電子計(jì)算機(jī)應(yīng)用研究的思考[J].古籍整理研究學(xué)刊,1988(1):44-49.
[3] 劉煒.上海圖書館古籍?dāng)?shù)字化的初步嘗試[J].圖書館雜志, 1997(4):33-34.
[4] 毛建軍.古籍?dāng)?shù)字化理論與實(shí)踐[M].北京:航空工業(yè)出版社, 2009:6.
[5] 樓宇烈.漢文化數(shù)據(jù)庫不同層次的實(shí)用需求[J].北京:古籍整理出版情況簡報(bào),2003(8):2-6.
[6] 杜澤遜.文獻(xiàn)學(xué)概要[M].北京:中華書局,2008:104-105.
[7] 張顯成.簡帛文獻(xiàn)學(xué)通論[M].北京:中華書局,2004:3.
[8] 白云出岫.中國古典文學(xué)全文朗讀[EB/OL].http://weibo.co m/baiyuncx?from=profile&wvr=6,2015-12-01.
[9] 林闖,蘇文博,等.云計(jì)算安全:構(gòu)架,機(jī)制與模型評(píng)價(jià)[J].計(jì)算器學(xué)報(bào),2013(9):1765-1766.
[10] 杜瑞芝.數(shù)學(xué)史辭典[M].山東:山東教育出版社,2000:538-541.
[11] 常娥.古籍自動(dòng)??焙途幾胙芯縖M].合肥:安徽師范大學(xué)出版社,2012:41-56.
[12] 鄭永曉.加快“數(shù)字化”向“數(shù)據(jù)化”轉(zhuǎn)變[J].文學(xué)遺產(chǎn),2014, (6):141-148.
[13] 王立清.中文古籍?dāng)?shù)字化研究[M].北京:國家圖書館出版社,2011:106.
(責(zé)任編輯、校對(duì):郭萬青)
The Expectation of Ancient Books’ Arrangement under Digitalization Background
ZHANG Wen-yue
(Research Institution of Chinese Language Documents, Southwest University, Chongqing 400715, China)
Abstract:At the information and network age, the arrangement of ancient books is on the way of digitalization. Under such background, the developmental direction of the digitalization of ancient books is discussed from the perspectives of theory and practice. The problems in its development such as the great change, resource integration, copyright, participate subject and so on are discussed. As a result, it is hoped that the theory of the digitalization of ancient books can get further development and improvement and that the database can also get further development both in its functions and capacity.
Key Words:digital; Chinese ancient books; the arrangement of ancient books; resource integration
作者簡介:張文玥(1992-),女,浙江杭州人,碩士研究生,研究方向?yàn)闈h語言文字學(xué)。
收稿日期:2015-07-30
DOI:10.3969/j.issn.1009-9115.2016.01.012
中圖分類號(hào):G255.1
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-9115(2016)01-0045-03