在廣義上,漢文古籍包括散布于中國周邊及海外其他國家的“域外漢籍”部分。其中,尤以日本、越南、韓國等地漢籍為代表,這些地區(qū)通常被冠以“漢文化圈”之稱。域外漢籍絕大部分是以漢字為書寫語言,具有較高的文化內(nèi)涵和學(xué)術(shù)研究價值,其重要性已引起學(xué)界極大的關(guān)注。傳統(tǒng)的歷史、文獻等研究方法從不同視角對域外漢籍的版本內(nèi)容、語言文字和材料運用等進行了探索,取得了豐碩成果。如何進一步挖掘并利用域外漢籍中重要的內(nèi)容信息,如時空坐標(biāo)、文本邏輯、人物關(guān)系、社會網(wǎng)絡(luò),是需要思考的方向。本文嘗試以越南漢喃文獻為考察對象,探討漢喃文獻的數(shù)字化途徑、信息構(gòu)架和特色資源開發(fā)等問題,揭示進一步挖掘漢喃文獻蘊含信息的路徑和方法。
越南現(xiàn)存大量漢文歷史典籍,以及以越南特有的“喃字”書寫的文獻,統(tǒng)稱為“漢喃文獻”。有相當(dāng)數(shù)量的漢喃文獻用以描述歷史上中越兩國之間的政治、經(jīng)濟、文化交往等,不但對研究越南歷史,而且對從不同視角審視中國歷史都具有不可估量的價值。這些漢喃文獻的來源途徑大致有4類:(1)歷史上由中國刻印或者抄寫成書,通過各種方式傳到越南的文獻;(2)歷史上曾經(jīng)歸附中國各王朝的越南士人撰寫的文獻,如15世紀(jì)初歸附明朝的黎澄撰寫的《南翁夢錄》;(3)越南各時期文人士子編撰的漢喃文獻,這部分典籍占據(jù)了漢喃文獻的絕大多數(shù);(4)歷史上越南基層社會產(chǎn)生的鄉(xiāng)約、地簿、契約文書、家譜等民間文獻。
目前越南漢喃文獻收藏比較豐富的主要有越南國家社會科學(xué)院翰林院漢喃研究院(以下簡稱“漢喃研究院”)、越南國家圖書館、越南國家第四檔案館(主藏阮朝檔案文獻)、法國遠(yuǎn)東學(xué)院圖書館、法國國家圖書館東方寫本部、法國亞洲學(xué)會圖書館、日本東洋文庫等。其中,漢喃研究院是越南漢喃文獻收藏和研究重鎮(zhèn),所藏文獻中古籍多達2萬多件,還有5萬多件石碑、銅鐘、磬、木牌等銘文拓片。這些漢喃文獻為該類資源的數(shù)字化建設(shè)提供了文本保障。
相較于中國、日本等國,越南漢喃文獻數(shù)字化較為落后,但還是取得了一定發(fā)展。2006年“喃字遺存保護會”(The Vietnamese N?m Preservation Foundation,VNPF,美國一所非營利性語言保護組織)聯(lián)合越南國家圖書館,創(chuàng)立“漢喃古籍文獻典藏數(shù)位化計劃”項目,將越南國家圖書館所藏部分漢喃文獻進行掃描存儲,截至2013年完成超過2000份漢喃文獻的數(shù)字化工作并免費提供在線查詢和閱讀服務(wù)。日本東京大學(xué)東洋文化研究所及日本國會圖書館等機構(gòu)不同程度地對所藏越南漢喃文獻進行了數(shù)字化整理。這些數(shù)字資源建設(shè)的共同特點是以保存和閱讀為目標(biāo)的漢喃文獻“數(shù)字化存儲庫”(見表1)。
表1 越南漢喃文獻數(shù)字化存儲庫項目
對比表1所列的幾種越南漢喃文獻數(shù)據(jù)庫,分析其數(shù)字化方式和途徑,可以管中窺豹。作為漢喃文獻存量最為豐富的越南尚未有專門的數(shù)據(jù)庫,不得不說是遺憾。表1中的幾種數(shù)字化資料呈現(xiàn)方式也存在弊端:首先,數(shù)字化理念僅停留在以文本保存為目的、以文本共享為基礎(chǔ)的初級階段。無法對資源進行檢索、整合及分析等操作,無法體現(xiàn)文獻資料的優(yōu)勢和特色,也不利于挖掘文本深度信息。其次,數(shù)字化量級有限。目前數(shù)字資源最為豐富的“漢喃古籍文獻典藏數(shù)位化計劃”也只是將越南國家圖書館所藏的部分漢喃文獻進行掃描和分類存儲,越南漢喃研究院等其他機構(gòu)仍有數(shù)量巨大的漢喃文獻有待進一步挖掘利用。最后,數(shù)量豐富的民間文獻尚有很大開發(fā)空間。鑒于上述,不論從越南漢喃文獻保護層面,還是資源共享和學(xué)術(shù)研究層面,加強漢喃文獻數(shù)字化建設(shè)很迫切。
越南漢喃文獻除了具有中國古籍和其他域外漢籍的共同特性外,還兼有自身特點。這些特點既是漢喃文獻獨特價值的體現(xiàn),又是其數(shù)字化的重點和難點。充分利用這些特點,構(gòu)建越南漢喃文獻數(shù)據(jù)庫的基本功能,有利于深度挖掘這類文獻的數(shù)據(jù)信息。
越南漢喃文獻中,有數(shù)量可觀的以“喃字”書寫的文獻,是越南特有的“漢籍”。喃字是越南在歷史上為了適應(yīng)本民族語言表達需要,以漢字為素材,運用漢字形聲、會意、假借等造字方式來表達越南語的文字。喃字構(gòu)造原理有獨特的方式,主要有假借字和自創(chuàng)字兩大類[1]。其中,一部分是用漢字對越南語進行表音和表意。比如,,對應(yīng)越南語為“Ba”,意為“三”,越南語讀音即ba(巴),該喃字的構(gòu)造方式為:用漢字“巴”表音,用漢字“三”表意,從而構(gòu)造表述越南語發(fā)音和含義的新字體。再如,“,越南語含義是“向下、下”,該喃字用“下”表意,用“吹”表音,構(gòu)造出一個新含義的字。還有一部分會意字。比如,,其構(gòu)造方式用“天+上”來表示“天”的意思。再如,“ ”,以“人+上”組成一個新字體,表示“頭目”之意,而其讀音與任何一個漢字部首均無關(guān),主要是利用組合字的意思進行表意。
現(xiàn)存的越南漢喃文獻中,以喃字書寫的文獻占五分之一多,還有數(shù)量可觀的正規(guī)漢字和喃字夾雜書寫的文獻[2]。與越南正史不同,喃字文獻以描寫普通民眾的宗教和社會生活為主,具有社會史和經(jīng)濟史研究價值。因此,以數(shù)字化為問題導(dǎo)向,深入挖掘和利用漢喃文獻,具有很高的學(xué)術(shù)和現(xiàn)實意義。
由于越南歷史上儒學(xué)盛行,除卻喃字文獻,越南在文獻刊刻、傳抄流通過程中,也會因避諱對一些字進行處理,包括改字、空字、缺筆、拆字等,從而出現(xiàn)一些特殊字。比如,陳朝時期避諱“月”字,因此“月”字中少一橫;因?qū)Α白凇北苤M,同樣以缺筆形式將其變成。越南漢喃文獻中還存在一定數(shù)量的俗字、異體字或俗語表達,這些字體沒有嚴(yán)格規(guī)范,詞匯傾向于民間口語化,目前尚未有系統(tǒng)的整理研究成果,多數(shù)是靠研究者在閱讀文獻過程中依據(jù)經(jīng)驗等加以識讀。比如,“咱”和“聽”,在越南刻本和抄本中就存在差別,刻本中通常使用規(guī)范的字體“聽”,如“聽命”;而在抄本中有時候習(xí)慣用“咱”,書寫為“咱命”,表達的依然是“聽命”之意。
上述因為使用喃字、避諱、俗語等造成的新字體和詞匯,有別于傳統(tǒng)漢字結(jié)構(gòu),無法用目前的漢字識別系統(tǒng)進行辨識和數(shù)字化,所以建立越南漢喃文獻專屬的字庫和詞庫就顯得尤為重要。在這方面,需要加強漢喃文獻中喃字、俗字、俗詞的研究和整理。目前越南喃字研究已經(jīng)較為深入,出版了不少喃字研究成果和字典,亦建立了喃字字庫。以此為依托,建立相應(yīng)的越南漢喃文獻專業(yè)字庫和詞庫在理論上成為可能。
越南漢喃文獻作為域外漢籍的重要組成部分,若得到充分挖掘和利用,可以促使研究者從不同視角探析研究對象。葛兆光提出,利用域外漢籍“從周邊看中國”就是一種外部視角[3]。憑藉越南漢喃文獻,以不同的事件記錄視角和歷史承載方式反觀中國歷史發(fā)展,不但可以擴大研究視閾,而且可以客觀審視歷史發(fā)展脈絡(luò),其核心問題是如何利用越南漢喃文獻的數(shù)字資源建立外部視角模型。筆者構(gòu)建兩個途徑。
(1)建立事件軸和時間軸的對比分析模型。文本比較分析是研究文獻的重要方法,通過文本內(nèi)容或?qū)懽黠L(fēng)格的對比分析,可探析文獻之間的繼承關(guān)系和簡單脈絡(luò)。以數(shù)字化文本為基礎(chǔ),進行大量數(shù)據(jù)分析,可窺視傳統(tǒng)分析方法難以發(fā)現(xiàn)的內(nèi)在邏輯關(guān)系,思考文本出現(xiàn)異同的深層原因。歷史文獻的比較研究需要滿足若干基本條件,否則缺乏可比性和可信度。概而言之,版本可信度是文獻比較的核心要素,時間、地點、人物、事件這四個確定歷史脈絡(luò)的基本信息點至少要滿足其中的一項或多項才具有對比分析的可能性。
歷史文獻的版本可信度對歷史研究分析準(zhǔn)確性至關(guān)重要。例如,對陳荊和校合本《大越史記全書》和西南師范大學(xué)出版的點校本《大越史記全書》(以內(nèi)閣官版為底本)進行初步全文詞頻分類和權(quán)重分析,發(fā)現(xiàn)“天下”一詞在兩個版本中運用次數(shù)不一,但均出現(xiàn)了400多次,屬高頻詞匯。如果簡單憑藉該高頻詞匯探究作者吳士連的著史理念等問題,很容易得出錯誤的信息導(dǎo)向。現(xiàn)存《大越史記全書》版本眾多(如正和本、內(nèi)閣官版、引田利章本、陳荊和校合本),就吳士連的《大越史記全書》而言,僅有前15卷為其所撰,此后經(jīng)過多位史家擴充,最后形成24卷正和本《大越史記全書》。這其中后來者對吳士連原文本作了哪些調(diào)整和篡改不得而知,“天下”一詞的使用是吳士連本意使然還是后來者觀念的表達則難以確定。如果選擇的版本無法提供準(zhǔn)確的信息,會導(dǎo)致相關(guān)分析結(jié)果失之千里。因此,版本可靠度的意義不言而喻。建立包括不同版本的數(shù)據(jù)庫,方便研究者對比分析顯得尤為重要。
(2)歷史基本信息點的滿足。以越南漢籍《大越史記全書》和《大越史略》對比分析為例,《大越史記全書》是越南編年體通史,以古漢語文言文編撰,是研究越南歷史最重要的史書之一,全書編撰架構(gòu)以時間為順序,以敘事為主體;《大越史略》同樣采用編年體方式編撰,以時間為順序,每個時間段后以敘述歷史事件為主體。兩部歷史文獻所描述的歷史發(fā)展脈絡(luò)和時間段具有重合點,因此具有相同的對比要素,分別為時間(Time)和事件(Event)。在此基礎(chǔ)上,可選擇相同要素進行定位,對比相同時段內(nèi)歷史事件敘述的異同,或者同一事件兩者之間存在的時間記載差異等。另外,又可將《大越史記全書》和《大越史略》記載的諸多歷史事件和脈絡(luò)與中國史籍中的記載對應(yīng),通過數(shù)據(jù)庫構(gòu)建的對比分析框架,初步了解同一事件雙方記載的不同視角和不同觀點。以問題導(dǎo)向作為基本理念,以數(shù)據(jù)分析結(jié)果為視角,展開深入研究,想必會進一步擴大研究視域并提供新的研究思路。
關(guān)鍵詞信息定位的準(zhǔn)確性直接關(guān)系到獲取文本的準(zhǔn)確性和充分性。不同研究者對關(guān)鍵詞的需求和要求不一,不同的文獻側(cè)重點亦不同,研究者對于文獻的把握也至關(guān)重要。建立一種關(guān)系型信息查詢功能,或許可以最大限度地解決關(guān)鍵詞涵蓋范圍問題。由于研究者自身學(xué)術(shù)視野和學(xué)術(shù)積累不同,關(guān)鍵詞信息定位也存在差異。研究者對熟悉的文本可以通過自身主觀判斷,迅速定位所需信息,剝離無效信息。然而面對信息量龐大的文獻,研究者無法全部了解,因此需要定位輔助。歷史研究注重時間、人物、事件等信息,在關(guān)鍵詞定位的時候,相應(yīng)的信息應(yīng)當(dāng)能全部提取出來,以便使用。對搜索出來的信息,可按時間進行排序,然后根據(jù)研究需要,將不符合的時間段剔除,如此獲取的信息會更精確并更具針對性。同時,還可以根據(jù)地點信息,將不符合要求的地理信息剔除。
在慣用的關(guān)鍵詞檢索中,關(guān)鍵詞少則單字,多則詞組或短句,蘊含信息量有限。譬如,研究者需要了解《大越史記全書》中有關(guān)“黎圣宗”的資料信息,若以詞組“黎圣宗”進行檢索,所得結(jié)果均是以“黎圣宗”為詞眼的信息文本。但是,《大越史記全書》中涉及“黎圣宗”的信息并非都以此名進行敘述,因此傳統(tǒng)的關(guān)鍵詞檢索弊端在于檢索手段單一,需要研究者具備充足的史料基礎(chǔ),對檢索的信息有深刻的認(rèn)識和理解,否則就容易出現(xiàn)上述信息搜羅不全的情況。事實上,研究者對于很多文本信息或者核心信息并非完全掌握,甚至完全陌生。此時研究者需要通過某一個關(guān)鍵詞定位與此有關(guān)的所有信息去同時也希望借助關(guān)鍵詞定位的信息去發(fā)現(xiàn)日常閱讀文本時未能發(fā)現(xiàn)的新問題。因此,建立一種關(guān)聯(lián)性信息定位理念,比如,將“黎圣宗”的名稱、字號、謚號以及人物事件信息等進行關(guān)聯(lián),可實現(xiàn)有用信息迅速定位,既擴大了信息定位的準(zhǔn)確度和廣泛度,又提高了文獻的利用價值。
任何歷史都發(fā)生在一定的時空范圍內(nèi),具有時間和空間二維性,因此可將人物、事件、地點與具體的地理坐標(biāo)結(jié)合,以數(shù)字地圖的方式直觀呈現(xiàn),建立起立體的時空數(shù)據(jù)模型。目前將地理信息系統(tǒng)(Geographic Information System,GIS)運用到歷史研究中比較成功的案例有“中國歷史地理信息系統(tǒng)”(China Historical Geographic Information System,CHGIS)和“中國歷代人物傳記資料庫”(China Biographical Database Project,CBDB),兩者都將文獻中的地理描述轉(zhuǎn)化為GIS上可顯示的地理實體標(biāo)識。GIS不僅成為歷史研究的可視化工具,也在歷史研究中起到輔助思考、發(fā)現(xiàn)問題的作用。歷史文獻中蘊含的地理信息轉(zhuǎn)化成數(shù)字地圖上的具體坐標(biāo)實體,其分布態(tài)勢和規(guī)律也就顯而易見。以某種分布態(tài)勢或規(guī)律作為問題導(dǎo)向,可深入探討現(xiàn)象背后的形成要素,剖析現(xiàn)象產(chǎn)生過程,構(gòu)建新的解讀路徑。在此,筆者以越南碑銘文獻和燕行文獻為例,闡述漢喃文獻數(shù)據(jù)與時空坐標(biāo)疊合的途徑、價值及機制等。
越南碑銘文獻不僅數(shù)量龐大,而且較之紙質(zhì)文本可追溯年代更早。以越南10世紀(jì)后期建立自主政權(quán)開始算起,歷經(jīng)丁、李、陳、黎、阮等朝,皆有碑銘文獻發(fā)現(xiàn),可以說碑銘文獻構(gòu)成了越南歷史文化研究最為寶貴的第一手材料。越南碑銘文獻內(nèi)容涉及民間活動、官方文件、宗族世系、寺廟活動等社會、政治、經(jīng)濟的各個層面,包羅萬象,具有極高的史料價值。
越南已整理出版《李陳詩文》《河內(nèi)碑文》《諒山碑文》《莫代碑文》《河西碑文》等碑銘文獻,而《越南漢喃銘文匯編》《越南漢喃銘文拓片總集》的出版進一步豐富了越南漢喃銘文的數(shù)量。這些碑銘可彌補其他史籍記載之闕失,糾正傳世文獻之戕誤,而且這些碑銘文獻中同樣蘊含著豐富的人物、時間、事件以及地點等信息。以《越南漢喃銘文拓片總集》為例,這套碑刻文獻搜羅了22000個單位的碑銘拓片,主要內(nèi)容有規(guī)約類、寄忌類、頌德類、事功類、詩歌類和其他[4]。以時間和空間為基本框架,越南漢喃碑銘文獻數(shù)字化架構(gòu)可從兩方面考量。
借鑒“中國歷史地理信息系統(tǒng)”(CHGIS)構(gòu)建經(jīng)驗,以時間和空間為坐標(biāo)軸,對碑銘文獻進行時空坐標(biāo)的定位。這些碑銘文獻的發(fā)現(xiàn)和搜集都有具體的時間和地點要素,輔之以GIS手段,碑銘的分布地域、分布規(guī)律,以及分布差異等信息便可呈現(xiàn)出來。通過這一途徑,既加深了對碑銘產(chǎn)地的直觀認(rèn)識,明確不同地域碑銘數(shù)量分布的異同,又可以將大量碑銘固有的地理信息呈現(xiàn)出來,而其中的某種分布規(guī)律和現(xiàn)象即是進一步研究的思考路徑之一。
越南漢喃碑銘文獻涵蓋了當(dāng)?shù)厣鐣⒔?jīng)濟、生活、祭祀、鄉(xiāng)約、田丁簿等各方面內(nèi)容,蘊含著豐富的時間和地理信息,通過深入挖掘這些信息,可進一步了解地方社會組織結(jié)構(gòu)、運作機制,以及土地開發(fā)模式等問題。在此基礎(chǔ)上,又可進一步窺見古代越南普通百姓的日常生活、地方與“中央”的關(guān)系,以及構(gòu)建基層組織結(jié)構(gòu)時的政治因素、路徑方法、區(qū)域形成模式等。
越南漢喃文獻中,另一類比較有特色的為燕行文獻。以《越南漢文燕行文獻集成(越南所藏編)》為例,該書共收錄了53位越南歷代文人的79部作品,時間跨度為14-19世紀(jì)。其中,一部分作品不但記錄了沿途各種人文和自然景觀,還繪制了從越南升龍城(今越南河內(nèi)市)到中國北京的路線圖,以及沿途的景觀圖,當(dāng)中的一部分詩文也是應(yīng)景詩或者旅途有感而作,這些作品蘊含了豐富的時空信息。結(jié)合數(shù)字人文理念和相關(guān)技術(shù)手段,以文本數(shù)據(jù)為基礎(chǔ),燕行文獻可進一步挖掘的信息途徑或有3種。
借鑒“中國歷代人物傳記資料庫”(CBDB)構(gòu)建理念和組織架構(gòu),以人為核心,構(gòu)建群體人物的個體屬性(出生、死亡、家庭、教育等)和社會屬性(職業(yè)、地位、仕途等)框架,進而以人物信息為基礎(chǔ),構(gòu)建社會關(guān)系網(wǎng)絡(luò)分析模型。突出人物核心地位,建立燕行文獻的人物信息庫,一方面可以展開人物的社會關(guān)系、親屬關(guān)系、仕途脈絡(luò)等研究;另一方面也可進行人物籍貫的地域分布等拓展研究。
部分越南燕行文獻保留有繪制精美的地圖,客觀反映了當(dāng)時的地理信息。結(jié)合“地理信息系統(tǒng)”(GIS)技術(shù),通過研究將地圖中的各類地理信息準(zhǔn)確定位在GIS平臺上,輔以其他技術(shù)手段,使靜態(tài)的文字和圖畫資料以動態(tài)化的模式呈現(xiàn)出來,既可以生動直觀地發(fā)現(xiàn)今昔異同,亦可以發(fā)現(xiàn)文字或圖畫中不易為人察覺的地理分布現(xiàn)象和規(guī)律,為進一步挖掘文本信息提供導(dǎo)向。
越南燕行文獻大都記載了行程沿途各地的社會組織、人物習(xí)俗、建筑風(fēng)格、河流峰巒等人文和自然景觀,通過數(shù)字化途徑統(tǒng)合此類信息,以相關(guān)研究為基礎(chǔ),以計算機技術(shù)為手段展開研究,對進一步探討人文和自然景觀形成背后的邏輯思路、方式途徑、視角觀念等大有裨益。
數(shù)字化不僅是提高文獻資源保存和利用率、實現(xiàn)資源共享的有效途徑,更是一種研究視角和思路的擴展——以問題意識為導(dǎo)向,發(fā)現(xiàn)新的問題和矛盾點。技術(shù)手段所要達到的目標(biāo)并非直接展示研究成果或歷史原貌,而是將某種未能發(fā)現(xiàn)的潛在規(guī)律及現(xiàn)象呈現(xiàn)出來。這種規(guī)律或現(xiàn)象的形成原因、條件及其他要素則需要歷史研究者以科學(xué)的研究方法深入探討。越南漢喃文獻是域外漢籍的重要組成部分,以漢喃文獻為中心,擴大至域外漢籍,通過不同國家、不同地區(qū)、不同文本數(shù)據(jù)庫的建立,增強域外漢籍文獻的共享程度,開發(fā)互為兼容的數(shù)據(jù)庫,使數(shù)據(jù)之間可以互相利用。不可置否,數(shù)字人文技術(shù)的發(fā)展,使得歷史文獻的利用方式和路徑發(fā)生了質(zhì)的改變,也促使研究者對數(shù)字文獻的利用程度進一步加深。文獻資源的數(shù)字化過程是一個漫長而艱巨的任務(wù),筆者在此僅希望拋磚引玉,引起學(xué)界對越南漢喃文獻乃至域外漢籍?dāng)?shù)據(jù)庫建設(shè)的重視。不同學(xué)科對于數(shù)據(jù)庫的需求和使用存在差異,構(gòu)建一個適合學(xué)科研究需求的數(shù)據(jù)庫不僅是技術(shù)人員的責(zé)任,也是人文學(xué)科研究者需要面對的課題。
參考文獻
[1] 祁廣謀.越南喃字的發(fā)展演變及其文化闡釋[J].解放軍外國語學(xué)院學(xué)報,2003(1):103-107.
[2] 劉玉珺.越南漢喃古籍的文獻學(xué)研究[M].北京:中華書局,2007.
[3] 復(fù)旦大學(xué)文史研究院.從周邊看中國[M].北京:中華書局,2009.
[4] 陳日紅,劉國樣.《越南漢喃銘文拓片總集》述要[J].中南大學(xué)學(xué)報,2013(12):269-273.
[5] 吳士連.大越史記全書[M].陳荊和,校.東京:東京大學(xué)東洋文化研究所,1984-1986.
[6] 復(fù)旦大學(xué)文史研究院.越南漢文燕行文獻集成(越南所藏篇)[M].上海:復(fù)旦大學(xué)出版社,2010.
[7] 林基中.燕行錄全編[M].首爾:東國大學(xué)出版社,2001.
[8] 林基中.燕行錄續(xù)編[M].首爾:東國大學(xué)出版社,2008.
[9] 杜氏清水.越南數(shù)字圖書館信息資源共享研究[D].武漢:武漢大學(xué),2015.
[10]杜氏清水,羅博.越南國家圖書館與東盟國家數(shù)字資源共享實踐與建議[J].圖書館學(xué)研究,2015(6):79-84.
[11]戴洪霞.數(shù)字圖書館信息資源建設(shè)研究[D].長春:東北師范大學(xué),2002.