康寧 陳冰云
[摘 要]基于敦煌文獻電子化、數(shù)字化所取得的成果,提出將敦煌文獻的轉(zhuǎn)錄文本和相關圖像資料以數(shù)字化手段按照統(tǒng)一的標準和格式整合成數(shù)據(jù)庫,即建設包含文獻文本數(shù)據(jù)及相關圖像的敦煌文獻多模態(tài)語料庫。據(jù)此探討敦煌文獻多模態(tài)語料庫的設計目標與原則,以及語料庫維護、檢索和輸出多功能系統(tǒng)的開發(fā)。該語料庫的開發(fā)和建設既有利于研究人員從多個角度開展敦煌文獻語言文字研究,也可以應用于中古漢語文獻的語言教學,幫助學生進行相關的數(shù)據(jù)驅(qū)動學習。
[關鍵詞]敦煌文獻;多模態(tài)語料庫;語料庫設計;語料庫多功能系統(tǒng)
[中圖分類號]TP391 [文獻標識碼]A [文章編號]1671-8372(2018)04-0110-05
On the construction of multi-modal corpus of Dunhuang literature
KANG Ning1, CHEN Bing-yun2
(1. School of Foreign Languages, Qingdao University of Science and Technology, Qingdao 266061, China; 2. Library, Qingdao University of Science and Technology, Qingdao 266061, China)
Abstract:Based on the electronic and digital achievements of Dunhuang literature, it is proposed to integrate the transcripts and relevant image data of Dunhuang literature into a database by means of digitization in accordance with the unified standard and format, that is to construct a multi-modal corpus of Dunhuang literature, which includes the transcribed texts of Dunhuang literature and the relevant images. And accordingly, the design principles and objectives of the corpus have been discussed, as well as the development of corpus multi-functional system, including corpus maintenance, corpus query and the output of analysis results. The development and construction of this corpus can be used not only in the linguistic study of Dunhuang literature, but also in the teaching of ancient Chinese, by which students can use the corpus data to carry out data-driven study.
Key words:Dunhuang literature; multi-modal corpus; corpus design; corpus multi-functional system
隨著計算機科學與技術和多媒體技術的發(fā)展,以及人們對語言活動本質(zhì)的認識不斷加深,多模態(tài)語料庫作為新一代語料庫應運而生。多模態(tài)語料庫包含了經(jīng)過掃描、轉(zhuǎn)錄、加工、標注的文本語料,以及與該文本語料密切相關的圖像、音視頻等數(shù)據(jù)文件,建設多模態(tài)語料庫是為了采用實證的方法,對語言符號與非語言符號之間的相互作用進行系統(tǒng)的研究[1]。嚴格來講,多模態(tài)語料庫已不再是傳統(tǒng)意義上的語料庫,傳統(tǒng)的語料庫一般只包含文本語料,而多模態(tài)語料庫則既包含文本語料又包含與其相關聯(lián)的多媒體文件。與其說它是語料庫(corpus),不如說是數(shù)據(jù)庫(Database)。事實上,許多國外多模態(tài)語料庫的命名并未采用傳統(tǒng)的“語料庫”一詞,而采用了“數(shù)據(jù)庫”的概念[2]?;诒疚氖菍μ囟悇e的敦煌石窟文獻資料的語言文字進行研究,因此仍使用“語料庫”一詞,旨在對敦煌石窟文獻多模態(tài)語料庫建設提出一些建議和思考。同時,基于樊錦詩教授提出的“把佛教文獻的研究與通過解讀石窟圖像來研究佛教信仰及思想的學者聯(lián)合起來,把兩個方向研究的成果結(jié)合起來,發(fā)揮各自的特長和優(yōu)勢”的倡議[3],也希望該敦煌文獻多模態(tài)語料庫的建設能夠?qū)Υ似鸬揭欢ǖ耐苿幼饔谩?/p>
一、敦煌文獻數(shù)據(jù)庫的建設現(xiàn)狀
敦煌文獻又稱敦煌遺書、敦煌文書、敦煌寫本,是對1900年發(fā)現(xiàn)于敦煌莫高窟一批書籍的總稱。該批文獻均為公元2—14世紀的古寫本和刻印本,蘊藏著大量的政治、經(jīng)濟、文學、語言、音樂、舞蹈、宗教、民俗、軍事、科技以及中西交通等方面的信息,總數(shù)6萬余卷,目前由于歷史原因散落在世界各地。敦煌遺書兼具文物、文獻、文字三方面的研究價值,蘊藏的研究信息量極為龐大[4],是研究我國中古時期社會全貌不可多得的一手資料。因此敦煌文獻數(shù)據(jù)庫建設一直以來受到國內(nèi)外學者、研究機構及國際組織的高度重視,特別是進入信息化時代以來,數(shù)字技術得到快速發(fā)展,建設高質(zhì)量的敦煌文獻數(shù)據(jù)庫成為可能,并且發(fā)展迅速。
韓春平教授將當前涉及敦煌文獻的數(shù)據(jù)庫分為三種:單一型、復合型和智能型。單一型數(shù)據(jù)庫建設的時間較早,建成的數(shù)量較多,一般為目錄庫、影像庫或錄文庫,如上海師范大學方廣锠教授個人創(chuàng)建的“諸經(jīng)起訖”“英國敦煌遺書人名索引”,臺灣成功大學創(chuàng)建的《老子化胡經(jīng)》等特定敦煌文獻全文錄文數(shù)據(jù)庫,以及蘭州大學青年教師創(chuàng)建的“敦煌文獻中的佛教人物數(shù)據(jù)庫系統(tǒng)”等。單一型數(shù)據(jù)庫規(guī)模較小,結(jié)構簡單,功能較少,一般為個人研究者開發(fā)。復合型數(shù)據(jù)庫規(guī)模較大,數(shù)據(jù)類型多樣,結(jié)構復雜,功能大幅增多。最早的復合型數(shù)據(jù)庫被認為是“國際敦煌項目”(IDP)專屬數(shù)據(jù)庫[5]。國際敦煌項目(IDP)創(chuàng)立于1994年,是一個國際合作組織,其目的在于在聯(lián)合各國共同建立網(wǎng)上數(shù)據(jù)庫,以促進敦煌文獻資料和藏品的保護與研究。該項目由英國國家圖書館主持,中國、俄羅斯、法國、德國等國家圖書館和科研機構共同參與。目前該數(shù)據(jù)庫收錄了5萬余件中亞刻本和印本以及3萬余件中國國家圖書館館藏敦煌文獻資源數(shù)據(jù)。用戶可以登錄中國國家圖書館的IDP主頁和英國國家圖書館IDP主頁,輸入題名、關鍵詞等信息進行檢索查看。蘭州大學約于2000年推出綜合型敦煌學資料數(shù)據(jù)庫“敦煌學數(shù)字圖書館”,其中的敦煌文獻子庫由文獻目錄和影像兩部分構成,入庫數(shù)據(jù)包括國家圖書館的館藏敦煌文獻、甘肅省內(nèi)藏品,以及英國、法國的部分藏品。
由陜西師范大學主持創(chuàng)建、陜西師范大學出版總社出版運營的“敦煌文獻庫”于2016年8月正式上線,該庫是《漢籍數(shù)字圖書館》2.0版專庫之一,內(nèi)含兩個子庫,即目錄庫和圖版庫。目前已收錄7萬余條敦煌文獻,50多萬個圖版。該庫最顯著的特色是圖版清晰,有的彩色圖版能夠充分展現(xiàn)敦煌文獻的原貌,為研究者提供詳盡的文獻信息。不足之處是目錄庫的信息過于簡略,且由于沒有文獻的錄文,不能進行全文檢索,從而限制了文獻的利用價值。
智能型數(shù)據(jù)庫的代表成果當屬北京愛如生數(shù)字化技術研究中心研制的“敦煌文獻庫”。該庫由北京大學教授劉俊文總纂,收錄了中國大陸和臺灣地區(qū)以及英、法、俄、德、日等國收藏的敦煌漢文文獻30000余件,分為佛書編(佛教經(jīng)卷)、遺書編(經(jīng)史子集四部典籍寫本)、文書編(官文書、私文書及寺院文書殘卷),以及根據(jù)原件照片或影本制成的高精度數(shù)碼影像。該數(shù)據(jù)庫配備了強大的檢索系統(tǒng)和完備的功能平臺,圖文對照逐行可勘,而且可以進行全文檢索。該庫于2006年啟動,計劃分5集上線,初集包含四部經(jīng)籍寫本、官私和寺院文書,共2882件,已于2009年上線;2—5集為佛經(jīng)寫本,共27000件,定于2020—2025年上線。此外,在2012年,由敦煌研究院和上海師范大學共同申報的國家社科基金重大招標項目—“敦煌遺書數(shù)據(jù)庫建設”中標。敦煌研究院項目組聯(lián)合浙江大學和蘭州大學,重點集成和優(yōu)化各種類型的數(shù)據(jù)。該數(shù)據(jù)庫建設的目標是向用戶提供高質(zhì)量的敦煌文獻的全文錄文,實現(xiàn)用戶與文獻的高清圖版進行對照閱讀,同時提供詳細的目錄數(shù)據(jù)和大量的相關研究的文獻數(shù)據(jù)。上海師范大學的項目組旨在打造高端學術平臺,從文物、文獻、文字三個層面采集所有敦煌文獻的各種知識點,從不同角度展示平臺內(nèi)在的網(wǎng)狀知識結(jié)構。數(shù)據(jù)庫的第一期工程已經(jīng)完成。
綜上可見,敦煌文獻數(shù)據(jù)庫的建設隨著計算機技術和數(shù)字化技術的發(fā)展而方興未艾,但已取得了顯著的成績,在文獻保護和研究方面做出了巨大貢獻。但通過調(diào)研也發(fā)現(xiàn),敦煌數(shù)據(jù)庫的建設尚缺乏系統(tǒng)理論語言學原則指導下建立的、面向敦煌文獻語言文字研究而創(chuàng)建的深加工研究型語料庫?,F(xiàn)有的敦煌文獻電子化、數(shù)字化工作取得的顯著成果,為建設這種深加工多模態(tài)語料庫提供了有利條件。
二、敦煌文獻多模態(tài)語料庫的設計目標與原則
敦煌文獻出自于莫高窟,大部分為東晉至北宋初年的寫本,也包含少量的刻印本。寫本以漢文為主,也有以古代少數(shù)民族文字和西域文字如吐蕃文、回鶻文、于闐文、龜茲文、梵文等寫成的文本。因此敦煌文獻除了具有極高的史料價值外,還具有極為豐富的語言學價值。
敦煌文獻多模態(tài)語料庫的根本目標是通過服務于敦煌文獻語言文字的研究,促進中古漢語①的語音、詞匯、語法、句法、方言學、語用學及社會語言學方面的研究。因此,敦煌文獻多模態(tài)語料庫的建設目標包括:
1.語料庫能夠提供典型、有代表性并且經(jīng)過權威??钡亩鼗臀墨I純文本語料,從而為中古漢語的語言學研究提供真實鮮活的語言實例。
2.語料庫能夠提供與敦煌文獻純文本語料相對應的全文影像,便于研究者實時對照開展研究。通過使用掃描儀將入庫文獻掃描成圖像,使研究者在研究過程中可以快速定位到文獻的原版圖像,實現(xiàn)文本與圖像合二為一。
3.語料庫中的語料數(shù)據(jù)經(jīng)過元信息(包括文獻編目、館藏地、成書年代等)標記、切詞、詞性與句法標注等精細加工處理,提高研究的深度和廣度。
4.編制語料庫多功能檢索系統(tǒng),能夠根據(jù)研究目的導入所需要的文本語料和相應圖像,按元數(shù)據(jù)標記信息和詞性標注信息進行全文檢索,并能夠輸出統(tǒng)計和分析結(jié)果。
敦煌文獻可以用“浩如煙海”來形容,佛教文獻約占90%,涉及經(jīng)、律、論;非佛教文獻涵蓋面更廣,涉及經(jīng)、史、子、集和大量的官私文書等。要想實現(xiàn)上述目標確實存在相當大的難度,需要敦煌石窟文獻研究專家、中古漢語研究專家、語料庫語言學專家、計算語言學專家等各方面的共同努力。因此,在開發(fā)建設敦煌文獻多模態(tài)語料庫時應遵循以下原則:
1.語料庫的設計和建設必須在現(xiàn)代語言學理論的指導下進行,尤其是要充分利用語料庫語言學方面的最新理論和前沿技術。近年來,國外語料庫語言學理論和技術都得到了長足發(fā)展,這些都為本項目的順利實施奠定了一定的基礎。國內(nèi)也相繼建成了多個中古漢語文獻語料庫,如“中古漢語研究型語料庫”[6]、《論語》與其注疏文獻對齊語料庫[7]、“漢語史語料庫”[8]等,這些語料庫的建成為敦煌文獻多模態(tài)語料庫建設提供了寶貴的經(jīng)驗。
2.入庫文獻的選擇必須遵循完整性原則。不采用傳統(tǒng)語料庫建設中隨機擇句或擇段的方式選擇語料,不論文獻長短都進行全文收錄,確保古籍文獻的全貌;不要求語料庫規(guī)模和入庫語料追求“大而全”,反對不加選擇地簡單堆砌羅列所有文獻。
3.入庫文獻必須準確,努力做到文獻“保真”。首先,入庫文獻須是經(jīng)過權威校勘過的文獻,例如《敦煌社邑文書輯?!穂9]、《敦煌契約文書輯?!穂10]等。其次,入庫文獻須配有相對應的高清圖像,便于研究者隨時比對。由于敦煌文獻大多為寫本,年代久遠,轉(zhuǎn)錄時會遇到異體字、生僻字、俗體字等特殊情況,高清圖像可以幫助研究者進行辨識和分析,而這也正是本項目的優(yōu)勢所在。
4.語料庫設計須遵循開放性原則。敦煌文獻多模態(tài)語料庫應該是一個開放的資源平臺,它可以與其他系統(tǒng)、軟件關聯(lián)和配合,并可由其他軟件對其進行修改、升級、組裝[6]4-5。因此應采用國際統(tǒng)一的編碼體系和通用置標語言。
5.入庫語料必須經(jīng)過深加工處理。由于當前建立的中古漢語語料庫多沒有進行分詞、標注等深層加工,所以語料庫的整體使用價值難以充分體現(xiàn)。為使敦煌文獻的研究走向縱深,建設深加工的敦煌文獻語料庫十分必要。在這方面,我們可以參考南京師范大學承擔的國家社科基金重大課題“漢語史語料庫建設研究”所構建的“信息處理用中古漢語分詞規(guī)范”的整體框架[11],詳見圖1[12]21。
三、敦煌文獻多模態(tài)語料庫多功能系統(tǒng)的開發(fā)
本文所倡導建立的敦煌文獻多模態(tài)語料庫并非單純文本和圖像的集合,我們還將開發(fā)該語料庫的檢索、維護和管理多功能系統(tǒng),使其具備良好的存儲、反饋、修正、檢索、統(tǒng)計、分析、結(jié)果輸出等性能,以便各領域研究人員都能從語料庫中獲取自己所需要的信息。其主要功能如圖 2[12]24所示。
多功能系統(tǒng)主要由三個模塊組成:語料庫維護、語料庫檢索、分析與結(jié)果輸出。
(一)語料庫維護系統(tǒng)
維護系統(tǒng)是面向管理員(通常是語料庫建設團隊的技術人員,也可以是具有一定語料庫技術水平的用戶,即科研人員)的系統(tǒng),以便于維護和管理整個語料庫的內(nèi)容。主要功能有文獻文本和圖像的查詢、增刪,文獻和圖像元信息及語法標注的編輯等。此外,該語料庫維護系統(tǒng)還擬實現(xiàn)對敦煌文獻文本語料的部分自動勘校功能。由于語料庫創(chuàng)建時遵循開放性原則,從而增強了該語料庫的數(shù)據(jù)維護性。用戶在使用檢索系統(tǒng)和輸出系統(tǒng)時,可將其使用體驗反饋給語料庫管理員,以實現(xiàn)語料庫的即時維護和管理。
(二)語料庫檢索系統(tǒng)
檢索系統(tǒng)是面向各領域研究者(語料庫的最終用戶)的系統(tǒng),是為了研究者能順利訪問語料庫內(nèi)容,對其感興趣的語言現(xiàn)象進行分析研究。為發(fā)揮語料庫的應有價值,不管什么類型的語料庫都必須實現(xiàn)全文檢索,語料庫檢索功能越完備,語料庫的價值也就越高。多樣化的查詢條件能夠提升檢索系統(tǒng)的使用體驗。敦煌文獻多模態(tài)語料庫的檢索系統(tǒng)具有五種主要的查詢方式(見圖2):。
1.按元信息標記查詢。查詢條件為預設的文獻文本和圖像的元信息編碼。
2.按語法標注信息查詢。查詢條件為預設的詞性、語義等語法信息編碼。
3.按邏輯查詢。查詢條件可選擇“和”“或” “是”“否”等邏輯語句,對元信息編碼和語法標注信息編碼進行組合查詢。
4.按正則表達式(regex)查詢。這是目前大多數(shù)語料庫檢索系統(tǒng)都支持的檢索方式,具有非常強的靈活性、邏輯性和功能性。
5.按通配符(wildcard)查詢。這是一種基于詞的底層模糊查詢,可結(jié)合正則查詢使用,使用戶快速定位自己感興趣的語言信息。
(三)分析與結(jié)果輸出系統(tǒng)
分析與結(jié)果輸出系統(tǒng)也是面向語料庫用戶的系統(tǒng),能幫助研究人員統(tǒng)計分析檢索結(jié)果,并能夠?qū)⒔Y(jié)果輸出到單獨文件,保存?zhèn)溆谩6鼗臀墨I多模態(tài)語料庫系統(tǒng)可將輸出結(jié)果以網(wǎng)頁形式(HTML)加以呈現(xiàn),并可保存為文本格式。
四、敦煌文獻多模態(tài)語料庫的應用展望
時至今日,圍繞敦煌石窟和出土遺書的敦煌學研究早已發(fā)展成為一門國際性的顯學。經(jīng)過演變發(fā)展,敦煌學的研究范圍和內(nèi)容已經(jīng)拓展到五個分支領域:敦煌石窟考古、敦煌石窟文物保護、敦煌藝術(敦煌彩塑、壁畫、書法、音樂、舞蹈和建筑藝術等)、出土敦煌文獻(各種寫本和刻印本)和敦煌學理論。其中敦煌文獻的研究領域最大,涉及天文、地理、政治、哲學、宗教、文學、語言、文字、藝術等諸多方面,其研究方法多樣,成果也最多。敦煌文獻時間跨度較長、覆蓋領域廣,蘊含了豐富的知識內(nèi)容,以往對敦煌文獻語言學方面的研究多基于文本細讀這種古籍利用方法,對文獻中知識內(nèi)容的理解有較為深刻的把握。若能借助語料庫語言學的方法與技術,則可以將文獻所蘊含的各種語言知識與使用規(guī)律變得更加清晰、直觀。然而,基于語料庫方法的研究尚不多見。
本文倡導建立的敦煌文獻多模態(tài)語料庫可通過服務于敦煌文獻語言文字的研究,來促進中古漢語的語音、詞匯、語法、句法、方言學、語用學及社會語言學方面的研究。
首先,由于入庫文獻的轉(zhuǎn)錄文本和實物圖像都經(jīng)過精加工處理,并支持多種檢索方式,所以研究人員可以利用檢索結(jié)果進行多角度的語言學研究。例如對文獻中典型的句法、特定詞匯的研究,對不同類別文獻、不同時期文獻或不同作者文獻的語言風格進行對比研究等。
其次,該語料庫在中古漢語文獻的語言教學方面也可以發(fā)揮作用。譬如,教師可以利用語料庫向?qū)W生展示某些特定語法范疇、詞匯在敦煌文獻中的使用實例,而學生也可以利用該語料庫進行數(shù)據(jù)驅(qū)動學習,因為語料庫本身就是一個真實的語境。
再次,有學者設想能將古籍語料庫中耗時、耗力的??惫ぷ鳎瑢Ρ日Z料庫中的字、詞匯及語法等對古籍文獻進行部分輯校[13],提高古籍文獻的校勘效率。這個想法有實現(xiàn)的可能。敦煌文獻多模態(tài)語料庫維護系統(tǒng)的開發(fā)設計中已考慮這一功能,但技術上需要計算語言學技術、計算機技術,甚至人工智能技術的支持。
五、結(jié)語
中古漢語語料庫的建設在我國大陸及港臺地區(qū)都積累了不少經(jīng)驗,古漢分詞規(guī)范得到進一步細化,分詞一致性和自動分詞的正確率也在逐步提高,尤其在中古時期專書、詞匯、語法等方面的研究產(chǎn)生了一批優(yōu)秀成果。然而由轉(zhuǎn)錄文本與相應的高清影像集合而成的多模態(tài)語料庫尚不多見,這種語料庫無疑對于研究中國古籍文獻具有更重要的意義。本文嘗試探討建設敦煌文獻多模態(tài)語料庫,開發(fā)語料庫檢索、維護系統(tǒng),可以預見在建庫和開發(fā)過程中,還有很多技術上以及對文獻本身理解上的難題需要克服。但隨著計算機、計算語言學、語料庫語言學、語言智能等方面技術的不斷發(fā)展,加上各方面專家的共同努力,一定能夠建成一個數(shù)據(jù)完整、圖文對照、檢索功能完善的多模態(tài)敦煌文獻語料庫。
[參考文獻]
[1]Valentini C. Forlixt 1 - The Forlì corpus of screen translation: exploring microstructures [M]// Chiaro D, Heiss C, Bucaria C. Between Text and Image: Updating Research in Screen Translation. Amsterdam/Philadelphia: John Benjamins, 2008: 37-50.
[2]劉劍.國外多模態(tài)語料庫建設及相關研究述評[J].外語教學,2017(4):40-45.
[3]樊錦詩.關于敦煌石窟研究的一些思考[J].中國史研究,2009(3):91-94.
[4]方廣锠,朱雷.談敦煌遺書數(shù)據(jù)庫[J].敦煌研究,2010(5):119-124
[5]韓春平.敦煌遺書數(shù)字化演進史[N].中國社會科學報,2017-06-28(007).
[6]董志翹.為中古漢語研究夯實基礎—“中古漢語研究型語料庫”建設瑣議[J].燕山大學學報(哲學社會科學版),2011(1):1-6.
[7]馬創(chuàng)新,陳小荷.基于XML的《論語》與其注疏文獻對齊語料庫的知識表示[J].圖書情報知識,2013(1):107-113.
[8]趙紅.吐魯番文獻與漢語語料庫建設的若干思考[J].南京師范大學文學院學報,2014(3):155-158.
[9]寧可.敦煌社邑文書輯校[M].南京:江蘇古籍出版社出版,1997.
[10]沙知.敦煌契約文書輯校[M].南京:江蘇古籍出版社出版,1998.
[11]化振紅.深加工中古漢語語料庫建設的若干問題[J].西南大學學報(社會科學版),2014(3):136-142,184.
[12]王曉玉.中古漢語語料庫的設計與實現(xiàn)[J].辭書研究,2017(3):17-26.
[13] 楊賢林.古籍整理中數(shù)字化技術的應用實踐與展望[J].圖書館學刊,2014(3):51-53.