何志麗 陳子丹
(云南大學(xué)歷史與檔案學(xué)院,昆明 650091)
滇緬抗戰(zhàn)指第二次世界大戰(zhàn)期間發(fā)生在中緬印戰(zhàn)區(qū)的抗日戰(zhàn)爭,是中國國民政府正面戰(zhàn)場唯一獲得徹底勝利的大規(guī)模進(jìn)攻作戰(zhàn)。滇緬抗戰(zhàn)留下了浩如煙海的珍貴史料,散存于中國、日本、美國、英國、緬甸、印度及其他相關(guān)國家與地區(qū)。本文以中國內(nèi)地所存的滇緬抗戰(zhàn)史料為研究對象。這些史料客觀還原了滇緬抗戰(zhàn)的歷史現(xiàn)場,對后人了解、銘記、研究和反思?xì)v史具有重要價值。然而,目前滇緬抗戰(zhàn)史料的資源分布與管理呈條塊分割狀,史料信息資源平臺建設(shè)較為滯后,無法體現(xiàn)本該具有的價值,難以滿足數(shù)字時代歷史人文學(xué)者的研究需求。因此,如何將滇緬抗戰(zhàn)史料進(jìn)行有效整合與開發(fā),使之完整傳承與再煥生機(jī),成為亟需解決的問題。
數(shù)字人文視域下滇緬抗戰(zhàn)史料數(shù)據(jù)庫的構(gòu)建,為解決上述問題提供了一種全新思路。數(shù)字人文是指用計算機(jī)技術(shù)處理和分析傳統(tǒng)的人文研究資料,并將人文學(xué)科方法論和計算機(jī)工具相結(jié)合進(jìn)行人文研究[1]。本文提出構(gòu)建數(shù)字人文視域下的滇緬抗戰(zhàn)史料數(shù)據(jù)庫,是“數(shù)字人文方法論+特定領(lǐng)域知識組織”的一次有益嘗試,前者強(qiáng)調(diào)方法與技術(shù),后者注重滇緬抗戰(zhàn)史料領(lǐng)域的知識重組與人文解釋,二者相互結(jié)合,形成一種全新的數(shù)據(jù)庫構(gòu)建方式。本文將在梳理相關(guān)研究和實踐現(xiàn)狀的基礎(chǔ)上,探析該數(shù)據(jù)庫構(gòu)建的必要性,并從數(shù)據(jù)庫的建設(shè)思路、主要內(nèi)容和建設(shè)步驟三方面來探討數(shù)字人文視域下滇緬抗戰(zhàn)史料數(shù)據(jù)庫的建設(shè)。
目前,學(xué)術(shù)界取得了部分滇緬抗戰(zhàn)史料整合與開發(fā)的研究成果。如趙周等[2]從理論和實踐層面闡述如何建設(shè)滇西抗戰(zhàn)資源總庫,論述建庫原則、建庫意義、建庫思路和建庫框架,并介紹了建立滇西抗戰(zhàn)資源總庫的機(jī)遇和挑戰(zhàn);華林等[3]對南僑機(jī)工文獻(xiàn)遺產(chǎn)數(shù)字資源整合進(jìn)行研究,提出建立統(tǒng)一的南僑機(jī)工文獻(xiàn)遺產(chǎn)數(shù)字平臺;鄒緒先[4]提出通過開展編纂、編史修志、撰寫論著、拍攝專題紀(jì)錄片、舉辦展覽等活動來進(jìn)行滇緬抗戰(zhàn)檔案的發(fā)掘利用。總體來看,滇緬抗戰(zhàn)史料整合與開發(fā)的理論研究成果數(shù)量不多,研究質(zhì)量有待提升,研究存在較大空白。
與此同時,國內(nèi)也開展了一些滇緬抗戰(zhàn)史料的實踐工作,主要是進(jìn)行了大量史料的全文數(shù)字化工作。如中國第二歷史檔案館完成涉及滇緬抗戰(zhàn)的“國防部史政局和戰(zhàn)史編纂委員會”全宗檔案的數(shù)字化工作,對其所保存的350卷、7萬多頁滇緬抗戰(zhàn)時期相關(guān)檔案進(jìn)行了數(shù)字化處理。又如,云南省保山市中國遠(yuǎn)征軍滇西抗戰(zhàn)檔案史料中心所存的滇緬抗戰(zhàn)檔案史料除少量實物外,絕大部分紙質(zhì)史料和聲像資料均被數(shù)字化。但是,目前仍有大量滇緬抗戰(zhàn)史料尚未數(shù)字化,更未出現(xiàn)一個以知識服務(wù)為核心的滇緬抗戰(zhàn)史料信息資源平臺,系統(tǒng)化和數(shù)據(jù)化的滇緬抗戰(zhàn)史料信息資源整合與開發(fā)項目在國內(nèi)尚屬空白。
一方面,滇緬抗戰(zhàn)史料仍處于分散保存狀態(tài),資源分布不集中,缺乏協(xié)同管理。目前,國內(nèi)數(shù)字化和實體形態(tài)的滇緬抗戰(zhàn)史料主要散存于:①中國第二歷史檔案館;②重慶市圖書館與重慶市檔案館;③云南省檔案館;④保山市及各縣區(qū)的檔案館、圖書館、史志辦、紀(jì)念館;⑤德宏傣族景頗族自治州(德宏州)及少部分縣區(qū)的檔案館、圖書館、史志辦;⑥怒江傈僳族自治州(怒江州)及少部分縣區(qū)的檔案館、圖書館、史志辦;⑦大理白族自治州(大理州)及少部分縣區(qū)的檔案館、圖書館、史志辦;⑧民間組織和收藏家手中。同時,管理滇緬抗戰(zhàn)史料的相關(guān)機(jī)構(gòu)受限于行政歸屬與權(quán)限,掣肘于理念、技術(shù)、資金、人才的匱乏,在管理上各自為政,缺乏對滇緬抗戰(zhàn)史料資源的交流,亦沒有資源建設(shè)上的共建共享。
另一方面,滇緬抗戰(zhàn)史料資源的信息化程度遠(yuǎn)遠(yuǎn)不夠。雖然大量滇緬抗戰(zhàn)史料已進(jìn)行數(shù)字化工作,但仍有部分滇緬抗戰(zhàn)史料未實現(xiàn)數(shù)字化,導(dǎo)致滇緬抗戰(zhàn)史料形態(tài)不一、結(jié)構(gòu)復(fù)雜,難以進(jìn)行有效的資源整合與開發(fā)。同時,已經(jīng)數(shù)字化的滇緬抗戰(zhàn)史料基本上處于粗粒度的“數(shù)字態(tài)”,遠(yuǎn)遠(yuǎn)達(dá)不到更細(xì)粒度的“數(shù)據(jù)態(tài)”,無法進(jìn)行史料數(shù)據(jù)的關(guān)聯(lián)、挖掘、分析與處理,難以滿足數(shù)字時代人文學(xué)者對滇緬抗戰(zhàn)史料利用的更高要求。
目前,在滇緬抗戰(zhàn)相關(guān)數(shù)據(jù)庫建設(shè)層面,具有典型性的是云南省保山學(xué)院圖書館構(gòu)建上線的滇西抗戰(zhàn)資源總庫。該庫涵蓋了滇緬抗戰(zhàn)相關(guān)的圖書、檔案和其他資源,分為九大板塊,初步構(gòu)建了一個Web特色資源數(shù)據(jù)庫。它是國內(nèi)滇緬抗戰(zhàn)研究中較具創(chuàng)新的探索,提供了該領(lǐng)域進(jìn)一步研究與實踐的新思路。但是,該庫亦存在一定不足,具體表現(xiàn)為三方面。
一是目前保山學(xué)院圖書館館藏相關(guān)滇緬抗戰(zhàn)圖書680本(部分為檔案匯編)、影印版日文檔案56本、圖片(含照片)1 000多張、日記10本(包括未出版的),還有大量相關(guān)舊期刊、舊報紙等,但是受限于版權(quán)、資金、技術(shù)和理念等因素,這些資源僅少部分上傳至數(shù)據(jù)庫中,導(dǎo)致該數(shù)據(jù)庫各板塊下所涵蓋的內(nèi)容較為薄弱單一,與館藏的豐富性不成正比。
二是由于滇緬抗戰(zhàn)史料資源的管理各自為政,滇西抗戰(zhàn)資源總庫所涵蓋的資源大多局限于保山學(xué)院一地所藏,缺乏機(jī)構(gòu)間、地區(qū)間資源的交流互通與共建共享,客觀上成為一座“信息孤島”。
三是該數(shù)據(jù)庫是傳統(tǒng)型數(shù)據(jù)庫,基本功能圍繞“檢索”展開,雖然方便圖書、檔案等資源的搜集與碎片式查閱,但無法彰顯出滇緬抗戰(zhàn)史料之間的種種關(guān)聯(lián),無法使用戶進(jìn)入身臨其境的史料利用環(huán)境。
針對以上滇緬抗戰(zhàn)史料資源及相關(guān)數(shù)據(jù)庫建設(shè)情況,筆者認(rèn)為數(shù)字人文視域能夠為滇緬抗戰(zhàn)史料數(shù)據(jù)庫建設(shè)提供新的思路和方法,提高滇緬抗戰(zhàn)史料的資源整合與深層開發(fā)程度,其具體優(yōu)勢如下。
一是數(shù)字人文是一種全新的方法論。針對目前滇緬抗戰(zhàn)史料資源分散、多方管理、數(shù)據(jù)粗粒度、缺乏相互關(guān)聯(lián)的現(xiàn)狀,以知識本體為核心的數(shù)字人文,將碎片化的史料信息資源進(jìn)行全新組配與整合后,使相關(guān)信息全部涵括在特定的實體中,并通過技術(shù)手段進(jìn)行全景式的可視化呈現(xiàn),這對目前散存的滇緬抗戰(zhàn)史料來說是全新的思路與模式。
二是數(shù)字人文帶來了全新的技術(shù)工具。數(shù)字人文所涉及的知識本體、關(guān)聯(lián)數(shù)據(jù)、數(shù)據(jù)挖掘及可視化等技術(shù),貫穿滇緬抗戰(zhàn)史料信息資源的整合與開發(fā)全過程,帶來了史料數(shù)據(jù)處理技術(shù)上的更新?lián)Q代。
三是數(shù)字人文視域符合滇緬抗戰(zhàn)史料數(shù)據(jù)庫的全新角色定位。傳統(tǒng)數(shù)據(jù)庫建設(shè)的著力點在于史料的保存與檢索,而數(shù)字人文視域下的數(shù)據(jù)庫建設(shè)則更強(qiáng)調(diào)數(shù)據(jù)的挖掘與分析。滇緬抗戰(zhàn)史料數(shù)據(jù)庫不僅是幫助學(xué)者找到相關(guān)資料,它所扮演的角色應(yīng)當(dāng)是建設(shè)新的研究環(huán)境,幫助使用者發(fā)現(xiàn)、觀察、分析資料[5]。以“檢索—獲取”為核心的傳統(tǒng)數(shù)據(jù)庫無法承載這樣的功能與使命,而以關(guān)聯(lián)、挖掘、分析、可視化為核心話語的數(shù)字人文數(shù)據(jù)庫,則能促進(jìn)滇緬抗戰(zhàn)史料的高度關(guān)聯(lián)、充分整合與深層開發(fā),形成一幅關(guān)于滇緬抗戰(zhàn)的全景式史料畫卷。
滇緬抗戰(zhàn)史料資源具有內(nèi)容復(fù)雜、類別多樣和保存分散的特點,筆者采取了多種途徑獲取數(shù)據(jù):對云南省保山市、騰沖市和龍陵縣等地的檔案館、圖書館、博物館、紀(jì)念館和史志辦實地調(diào)研;對相關(guān)文獻(xiàn)進(jìn)行文本調(diào)研;對相關(guān)權(quán)威網(wǎng)站進(jìn)行網(wǎng)絡(luò)調(diào)研;對無法親至的相關(guān)機(jī)構(gòu)(如中國第二歷史檔案館)進(jìn)行電話調(diào)研。在初步摸清國內(nèi)滇緬抗戰(zhàn)史料的資源情況后確立了該數(shù)據(jù)庫建設(shè)的總體思路(見圖1),具體包括六大板塊主要內(nèi)容和五個階段建設(shè)步驟。
圖1 滇緬抗戰(zhàn)史料數(shù)據(jù)庫建設(shè)的總體思路
3.2.1 原生檔案
筆者通過各種途徑與方式,對國內(nèi)滇緬抗戰(zhàn)原生檔案的現(xiàn)狀進(jìn)行調(diào)研,獲知滇緬抗戰(zhàn)原生檔案主要集中在中國第二歷史檔案館、重慶市檔案館、云南省檔案館、保山市檔案館的“中國遠(yuǎn)征軍滇西抗戰(zhàn)檔案史料中心”及保山市轄區(qū)內(nèi)部分縣區(qū)檔案館、騰沖市檔案館、滇西地區(qū)的一些市縣兩級檔案館。筆者認(rèn)為,應(yīng)將現(xiàn)行政策允許公開的滇緬抗戰(zhàn)原生檔案盡可能全面收錄入庫。首先,中國第二歷史檔案館是目前國內(nèi)存有滇緬抗戰(zhàn)原生檔案最為豐富的機(jī)構(gòu),所存滇緬抗戰(zhàn)檔案主要集中在全宗號為787的“國防部史政局和戰(zhàn)史編纂委員會”民國檔案中,內(nèi)容主要涉及中國遠(yuǎn)征軍軍事活動與戰(zhàn)時國民政府、地方政府的各種行政活動,應(yīng)在政策法規(guī)允許的前提下入庫。其次,保山市檔案館中國遠(yuǎn)征軍滇西抗戰(zhàn)檔案史料中心藏有滇緬抗戰(zhàn)文書檔案647卷、5 448件、68 728頁,照片檔案45盒、2 743張,光盤檔案188盤、縮微膠片20盤,圖書資料171冊,也應(yīng)入庫。再次,云南省檔案館保存著大量的滇緬抗戰(zhàn)相關(guān)檔案,內(nèi)容主要涉及滇緬公路的修筑與管理,它們分散在館藏民國檔案中的近30個全宗中,也應(yīng)大量收錄至數(shù)據(jù)庫中。最后,散存于滇西各市縣區(qū)檔案館的滇緬抗戰(zhàn)原生檔案,也需應(yīng)收盡收,錄入庫中。
3.2.2 檔案匯編
檔案匯編是目前滇緬抗戰(zhàn)史料的重要組成部分。中國第二歷史檔案館、云南省檔案館、滇西各市縣的史志部門等都先后編纂出版了眾多的滇緬抗戰(zhàn)檔案匯編。這部分編纂成果也應(yīng)作為滇緬抗戰(zhàn)史料數(shù)據(jù)庫的重要組成部分。首先,中國第二歷史檔案館近年來出版的最具價值的兩部滇緬抗戰(zhàn)檔案匯編——《滇緬抗戰(zhàn)檔案》和《國民政府抗戰(zhàn)時期軍事檔案選輯》,涵蓋了中國遠(yuǎn)征軍從出征、失利、轉(zhuǎn)移、重組、整訓(xùn)到反攻勝利的全過程,具有重要的史料價值,應(yīng)收入庫中。其次,云南省檔案館編纂出版了一些滇緬抗戰(zhàn)相關(guān)的檔案匯編,其中代表性的是《抗戰(zhàn)時期的云南——檔案史料匯編》和《南僑機(jī)工檔案史料選編——云南省檔案館館藏部分》,這兩部匯編均體現(xiàn)了檔案的原始性、真實性和權(quán)威性,具有很高的歷史價值,應(yīng)收入數(shù)據(jù)庫。最后,云南省保山市、德宏州、怒江州、大理州作為滇緬抗戰(zhàn)發(fā)生的主陣地,其史志系統(tǒng)多年來一直在進(jìn)行滇緬抗戰(zhàn)史料的收集、整理、編纂和出版工作,成果較為豐富,其中值得一提的是中共保山市委黨史地方志工作委員會2015年12月編纂出版的《滇西抗日戰(zhàn)爭史集》,全書共180多萬字,分為九大板塊,是目前滇西地區(qū)史志系統(tǒng)滇緬抗戰(zhàn)檔案匯編的集大成者,具有重要價值,也應(yīng)收錄入庫。
3.2.3 戰(zhàn)史紀(jì)要
滇緬抗戰(zhàn)的主力部隊是中國遠(yuǎn)征軍第十一集團(tuán)軍和第二十集團(tuán)軍、國民革命軍第八軍和中國駐印軍,他們都留下了各自的戰(zhàn)史紀(jì)要。但是,戰(zhàn)史紀(jì)要的原版大多未在中國內(nèi)地翻印出版,而多以復(fù)印版形式流傳于各網(wǎng)絡(luò)平臺,亟需規(guī)范化整合,將其收錄至史料數(shù)據(jù)庫不失為一種解決思路。目前,滇緬抗戰(zhàn)中國軍隊?wèi)?zhàn)史紀(jì)要主要有《第十一集團(tuán)軍滇西龍芒地區(qū)作戰(zhàn)經(jīng)過報告》《第二十集團(tuán)軍騰沖會戰(zhàn)概要》《陸軍第八軍怒江西岸松山圍攻戰(zhàn)斗經(jīng)過概要報告書》《中國駐印軍緬北戰(zhàn)役戰(zhàn)斗紀(jì)要》等。這部分史料雖存在部分觀點有失公正、撰寫者有爭功推諉傾向等缺陷,但它們是當(dāng)時公開的權(quán)威資料,是研究滇緬抗戰(zhàn)歷史的第一手資料,也應(yīng)成為滇緬抗戰(zhàn)史料數(shù)據(jù)庫的重要組成部分。
3.2.4 回憶錄與日記
滇緬抗戰(zhàn)結(jié)束后,部分遠(yuǎn)征軍將士撰寫了回憶著作(文章)和日記,這些回憶錄和日記,由“親歷者”撰寫,是現(xiàn)存滇緬抗戰(zhàn)史料的有益補(bǔ)充,亦應(yīng)收錄至數(shù)據(jù)庫中。代表性滇緬抗戰(zhàn)將士回憶錄有《中國遠(yuǎn)征軍入緬對日作戰(zhàn)述略》《回憶滇西抗戰(zhàn)》《中國駐印軍始末》《第八軍松山戰(zhàn)役述略》《八年抗戰(zhàn)小史》《滇西作戰(zhàn)實錄》《親歷中國遠(yuǎn)征軍》等。其中《中國遠(yuǎn)征軍入緬對日作戰(zhàn)述略》由中國遠(yuǎn)征軍副司令長官杜聿明親撰,《回憶滇西抗戰(zhàn)》節(jié)選自中國遠(yuǎn)征軍第十一集團(tuán)軍總司令宋希濂回憶錄《鷹犬將軍宋希濂自述》,均具有很高的歷史價值。代表性滇緬抗戰(zhàn)日記有中國遠(yuǎn)征軍第十一集團(tuán)軍第二軍軍長王凌云的《王凌云機(jī)密作戰(zhàn)日記》、中國遠(yuǎn)征軍第十一集團(tuán)軍副總司令兼第六軍軍長黃杰的《滇西作戰(zhàn)日記》、中國遠(yuǎn)征軍第二百師師長戴安瀾的《戴安瀾將軍日記》、中國遠(yuǎn)征軍第十一集團(tuán)軍第七十一軍、軍長陳明仁的《陳明仁日記》等。這些將士回憶錄與日記價值高、意義強(qiáng)、作用大,亦應(yīng)是滇緬抗戰(zhàn)史料數(shù)據(jù)庫的重要內(nèi)容之一。
3.2.5 口述資料
口述資料指留存于世的親歷滇緬抗戰(zhàn)遠(yuǎn)征軍老兵、南僑機(jī)工與各界民眾等以親身經(jīng)歷講述當(dāng)時的戰(zhàn)爭狀況、社會生活和相關(guān)重大歷史事件而形成的文字、錄音、錄像等資料,是留存和傳承滇緬抗戰(zhàn)歷史的重要補(bǔ)充,應(yīng)摘選其中有價值的部分收入數(shù)據(jù)庫。例如,《見證歷史——滇緬抗戰(zhàn)見聞實錄》一書分為上、下兩集,上集為20位滇緬抗戰(zhàn)親歷者的回憶,下集是云南省保山市李義欽先生歷時經(jīng)年采訪滇緬抗戰(zhàn)老兵的口述記錄。又如,《劉放吾將軍與緬甸仁安羌大捷》由中國遠(yuǎn)征軍新三十八師一百一十三團(tuán)團(tuán)長劉放吾將軍次子劉偉民編著,內(nèi)容由其父親口述、再由劉偉民整理成文出版。再如,從2009年開始,云南省保山廣播電視臺《讓我們銘記——尋訪遠(yuǎn)征軍老兵》大型電視節(jié)目,先后尋找并采訪了50多位當(dāng)時還健在的中國遠(yuǎn)征軍老兵,制作了由親歷者口述滇緬抗戰(zhàn)歷史的23集大型紀(jì)實節(jié)目。這部分口述資料,也應(yīng)摘其重點,收錄入庫。
3.2.6 聲像資料
第一,滇緬抗戰(zhàn)期間,美國第164照相聯(lián)隊拍攝了約2.3萬張關(guān)于這場戰(zhàn)事的照片,它們一直沉睡在美國國家檔案館,直到2010年才由章東磐團(tuán)隊復(fù)制部分回國,并精選其中500張整理出版了《國家記憶》一書。該書內(nèi)容的重要性不言而喻,需全部收錄入滇緬抗戰(zhàn)史料數(shù)據(jù)庫中。第二,國內(nèi)還有部分關(guān)于滇緬抗戰(zhàn)的老照片原件或復(fù)制件分散在各相關(guān)檔案館和民間收藏家手中,至今尚未經(jīng)過系統(tǒng)性整理,也應(yīng)盡快進(jìn)行資源整合與處理,收錄入庫。第三,國內(nèi)根據(jù)滇緬抗戰(zhàn)拍攝了一些紀(jì)實性的紀(jì)錄片,用影像的手段整合歷史資源,還原歷史真相,如《記憶的傷痕——日軍慰安婦滇西大揭秘》《尋找少?!贰端缮剑缮健贰厄v沖騰沖》《中國遠(yuǎn)征軍滇西抗日戰(zhàn)爭紀(jì)實》等,也應(yīng)收錄至數(shù)據(jù)庫中。
以上滇緬抗戰(zhàn)史料數(shù)據(jù)庫的六大主要內(nèi)容構(gòu)成了滇緬抗戰(zhàn)史料數(shù)據(jù)庫的六大板塊。如何對這些史料數(shù)據(jù)進(jìn)行關(guān)聯(lián)、挖掘、分析與處理,使該數(shù)據(jù)庫成為一個滇緬抗戰(zhàn)大型知識服務(wù)平臺,是我們要解決的關(guān)鍵問題。
數(shù)字人文視域下滇緬抗戰(zhàn)史料數(shù)據(jù)庫的建設(shè)是以滇緬抗戰(zhàn)史料的知識本體(knowledge ontology)為核心,以關(guān)聯(lián)數(shù)據(jù)、數(shù)據(jù)挖掘和可視化等信息技術(shù)為支撐,依次構(gòu)建一個集成化、數(shù)字化、數(shù)據(jù)化、知識化、平臺化的滇緬抗戰(zhàn)史料信息平臺。
3.3.1 集成化:滇緬抗戰(zhàn)史料的資源整合
建設(shè)一個數(shù)字人文視域下的滇緬抗戰(zhàn)史料數(shù)據(jù)庫,首先要進(jìn)行滇緬抗戰(zhàn)史料的資源整合工作,但目前此項工作由各機(jī)構(gòu)分條塊進(jìn)行,因此需從四個方面推進(jìn)資源整合。
(1)進(jìn)行資源整合的頂層設(shè)計。滇緬抗戰(zhàn)史料分散在國內(nèi)多個省市,其資源整合應(yīng)由國家檔案局進(jìn)行統(tǒng)籌設(shè)計,由其出臺相應(yīng)的法規(guī)制度,制定一系列配套政策,并在資源配置、機(jī)構(gòu)設(shè)置、協(xié)調(diào)機(jī)制等方面進(jìn)行統(tǒng)一規(guī)劃,才能推進(jìn)滇緬抗戰(zhàn)史料資源整合的廣度與深度。
(2)明確資源整合的領(lǐng)導(dǎo)機(jī)構(gòu)。應(yīng)由國家檔案局出面組建由圖書館、檔案館、博物館等相關(guān)文化事業(yè)單位人員、領(lǐng)域?qū)<?、技術(shù)專家共同組成的“滇緬抗戰(zhàn)史料資源整合工作委員會”,作為滇緬抗戰(zhàn)史料資源整合的領(lǐng)導(dǎo)機(jī)構(gòu),并由其確立資源整合的原則、方法與政策,制定資源整合的標(biāo)準(zhǔn)與規(guī)范。
(3)建立資源整合的執(zhí)行機(jī)構(gòu)。在資源整合的具體執(zhí)行層面,應(yīng)依托“滇緬抗戰(zhàn)史料資源整合工作委員會”,組成“滇緬抗戰(zhàn)史料資源整合領(lǐng)導(dǎo)小組”,在該領(lǐng)導(dǎo)小組下設(shè)辦公室,辦公室設(shè)在云南省檔案館,由該辦公室牽頭負(fù)責(zé)進(jìn)行滇緬抗戰(zhàn)史料資源整合的具體工作,統(tǒng)籌協(xié)調(diào)南京市、重慶市、昆明市、保山市、德宏州、怒江州、大理州聯(lián)動進(jìn)行滇緬抗戰(zhàn)史料的資源整合。
(4)創(chuàng)建資源整合的協(xié)同機(jī)制。應(yīng)在國家檔案局制定的法律法規(guī)和規(guī)劃指導(dǎo)下,盡可能加強(qiáng)各地檔案館、圖書館、博物館、紀(jì)念館的合作,建議各地、各機(jī)構(gòu)的滇緬抗戰(zhàn)史料資源,特別是數(shù)字史料資源,逐步匯總至云南省檔案館,其間涉及的管理權(quán)屬問題、版權(quán)問題、涉密問題、資金問題等,由“滇緬抗戰(zhàn)史料資源整合工作委員會”按國家檔案局所制定法規(guī)制度進(jìn)行統(tǒng)一協(xié)調(diào)與處理。
3.3.2 數(shù)字化:滇緬抗戰(zhàn)史料的數(shù)字化加工
完成滇緬抗戰(zhàn)史料的資源整合之后,數(shù)字化是構(gòu)建該數(shù)據(jù)庫的關(guān)鍵性基礎(chǔ)工作,是完成后續(xù)一系列工作的必由之路,需做好以下工作。
(1)遵循統(tǒng)一的數(shù)字化標(biāo)準(zhǔn)。滇緬抗戰(zhàn)史料數(shù)字化工作要遵循已有的檔案、圖書、聲像數(shù)字化標(biāo)準(zhǔn),所依據(jù)的標(biāo)準(zhǔn)有《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(DA/T 31—2005)、《照片檔案管理規(guī)范》(GB/T 11821—2002)、《圖書館館藏資源數(shù)字化加工規(guī)范》(GB/T 31219.2—2014)等,所遵循的數(shù)字化標(biāo)準(zhǔn)須涵蓋著錄格式、標(biāo)引規(guī)則、數(shù)據(jù)指標(biāo)、符號表達(dá)與轉(zhuǎn)換、流通規(guī)則、軟件和硬件系統(tǒng)的兼容性[6]等內(nèi)容。
(2)利用數(shù)字技術(shù)進(jìn)行各種形式的數(shù)字化工作。一是利用掃描技術(shù)和照相技術(shù),將滇緬抗戰(zhàn)紙質(zhì)史料和老照片全部掃描,將原來在紙質(zhì)載體上存儲的文本和圖像信息形成計算機(jī)可識別的圖片格式,最終做成PDF格式的數(shù)字文本。二是利用OCR技術(shù)進(jìn)行滇緬抗戰(zhàn)史料的識別和轉(zhuǎn)換。傳統(tǒng)的史料數(shù)字化通過人工錄入,采集十分緩慢,滇緬抗戰(zhàn)史料數(shù)字化利用OCR技術(shù)快速掃描識別,其管理、編輯、存儲工作都將更加輕松,并為后續(xù)的內(nèi)容校勘和知識重組提供極大便利。
3.3.3 數(shù)據(jù)化:滇緬抗戰(zhàn)史料素材庫的構(gòu)建
在完成集成化和數(shù)字化的基礎(chǔ)上,將數(shù)字化文本轉(zhuǎn)化為數(shù)據(jù)化語料庫,可實現(xiàn)對史料的智能化整理,目的是實現(xiàn)機(jī)器的可閱讀、可計算,從而保證滇緬抗戰(zhàn)史料數(shù)字資源的完整性、真實性和數(shù)據(jù)性。
首先,建立滇緬抗戰(zhàn)史料數(shù)據(jù)化的標(biāo)準(zhǔn)和規(guī)范。即從自動斷句、標(biāo)簽和詞匯標(biāo)注的角度,探索滇緬抗戰(zhàn)史料數(shù)據(jù)化的標(biāo)注標(biāo)準(zhǔn)、標(biāo)注層級、標(biāo)注流程等問題,最終形成一系列史料數(shù)據(jù)化的標(biāo)準(zhǔn)和規(guī)范。其次,在數(shù)字化形成的基礎(chǔ)素材庫之上,構(gòu)建一個滇緬抗戰(zhàn)史料素材的數(shù)據(jù)集。即由數(shù)據(jù)科學(xué)家針對詞匯的顯性與隱性語義知識,通過人工標(biāo)注、機(jī)器學(xué)習(xí)的策略,進(jìn)行數(shù)字化文本的分詞、詞性、命名實體和斷句的自動標(biāo)注[7],并通過構(gòu)建與修正這些標(biāo)注的模型,進(jìn)一步提升數(shù)據(jù)質(zhì)量,最終得到一個數(shù)據(jù)集。最后,進(jìn)行一體化標(biāo)注。即對史料中涵蓋的“人、時、地、物、事”等命名實體進(jìn)行一體化標(biāo)注,得到一個多層級標(biāo)注、結(jié)構(gòu)化的史料語料庫[7]。
傳統(tǒng)史料數(shù)據(jù)庫的素材是數(shù)字化的史料,是以“文獻(xiàn)”為最小描述單位,而數(shù)字人文視域下的滇緬抗戰(zhàn)史料數(shù)據(jù)庫,其素材是更加細(xì)粒度的數(shù)據(jù),其知識描述單位更細(xì)致,能解釋史料中的“人、時、地、事、物”的內(nèi)容特征及其相互關(guān)系,真正做到機(jī)器可讀,為下一步的知識化奠定基礎(chǔ)。
3.3.4 知識化:滇緬抗戰(zhàn)史料知識庫的構(gòu)建
滇緬抗戰(zhàn)史料的知識化主要是在滇緬抗戰(zhàn)史料數(shù)據(jù)化的基礎(chǔ)上,進(jìn)行數(shù)據(jù)的處理與分析,實現(xiàn)滇緬抗戰(zhàn)史料的知識重組,目的是讓機(jī)器能夠理解數(shù)據(jù)中蘊(yùn)含的語義,能夠基于大規(guī)模的關(guān)聯(lián)關(guān)系推算出新的知識,并且能夠?qū)崿F(xiàn)機(jī)器的可自主學(xué)習(xí),最終實現(xiàn)知識增長的自動化。滇緬抗戰(zhàn)史料的知識化需做好以下工作。
(1)構(gòu)建滇緬抗戰(zhàn)史料的知識本體。知識本體,指某一領(lǐng)域內(nèi)可共享的概念及概念間關(guān)系的形式化定義[8]。所謂滇緬抗戰(zhàn)史料的知識本體是基于通用資源標(biāo)識(URI)和資源描述框架(RDF)來完成滇緬抗戰(zhàn)知識領(lǐng)域建模的一種技術(shù)。滇緬抗戰(zhàn)史料知識庫的構(gòu)建,需利用本體對所有數(shù)字資源進(jìn)行語義標(biāo)注,建立詞匯間的語義關(guān)系,并存儲對象類、屬性及對象之間的語義關(guān)系,為后續(xù)滇緬抗戰(zhàn)史料知識庫提供深度的語義層面知識[7]。這一環(huán)節(jié)的工作是讓機(jī)器能夠理解已多層標(biāo)注的結(jié)構(gòu)化語料庫,促使機(jī)器的理解能夠跨越領(lǐng)域和系統(tǒng)的限制,真正做到機(jī)器對機(jī)器的理解,實現(xiàn)滇緬抗戰(zhàn)史料信息資源的高度關(guān)聯(lián)與整合。
(2)利用關(guān)聯(lián)數(shù)據(jù)(Link Data)技術(shù),建立滇緬抗戰(zhàn)史料信息資源的知識單元之間的關(guān)聯(lián),并將結(jié)果進(jìn)行可視化呈現(xiàn),實現(xiàn)機(jī)器的可推理。關(guān)聯(lián)數(shù)據(jù)就是在知識之間建立可被機(jī)器理解的關(guān)聯(lián)關(guān)系技術(shù)[8]。在滇緬抗戰(zhàn)史料數(shù)據(jù)庫構(gòu)建領(lǐng)域的實現(xiàn)機(jī)制是:由于關(guān)聯(lián)數(shù)據(jù)技術(shù),滇緬抗戰(zhàn)史料知識單元之間的關(guān)聯(lián)呈豐富多樣性,因此這種關(guān)聯(lián)越多,越能促進(jìn)機(jī)器可推理的實現(xiàn),越能幫助用戶自動獲取由機(jī)器提供的滇緬抗戰(zhàn)領(lǐng)域的初步研究結(jié)果??傮w而言,滇緬抗戰(zhàn)史料知識庫的構(gòu)建就是利用關(guān)聯(lián)數(shù)據(jù)技術(shù)的一整套技術(shù)、方法和流程,依靠上述滇緬抗戰(zhàn)史料素材庫,建立一個為用戶提供各種深度語義層面知識的知識系統(tǒng),并在此過程中不斷提升滇緬抗戰(zhàn)史料的共享程度。
(3)引入機(jī)器學(xué)習(xí)方法,逐步實現(xiàn)滇緬抗戰(zhàn)史料數(shù)據(jù)庫的人工智能化。其中最重要的就是引入基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù),它是一種實現(xiàn)機(jī)器學(xué)習(xí)的技術(shù),更是一種實現(xiàn)人工智能的途徑,它能使所有的機(jī)器輔助功能都變?yōu)榭赡?。在滇緬抗?zhàn)史料數(shù)據(jù)庫的構(gòu)建中,引入深度學(xué)習(xí)技術(shù),可以在自然語言處理(NLP)、名稱實體識別(NEI)、自動標(biāo)引和自動分類等領(lǐng)域[8],大有可為。
3.3.5 平臺化:滇緬抗戰(zhàn)史料數(shù)據(jù)庫的形成
平臺化是滇緬抗戰(zhàn)史料數(shù)據(jù)庫的“門戶”建設(shè)過程,即在實現(xiàn)上述知識庫的基礎(chǔ)上,著力構(gòu)建一個為用戶提供滇緬抗戰(zhàn)史料的知識服務(wù)平臺。為此,需做好兩項工作。
(1)進(jìn)行滇緬抗戰(zhàn)史料數(shù)據(jù)庫系統(tǒng)的設(shè)計與開發(fā)。首先,在本體建模過程中得到經(jīng)過清洗與加工的RDF數(shù)據(jù),是滇緬抗戰(zhàn)史料數(shù)據(jù)庫構(gòu)建的資源基礎(chǔ),整個數(shù)據(jù)庫系統(tǒng)的設(shè)計與開發(fā)需在此基礎(chǔ)上進(jìn)行;其次,在滇緬抗戰(zhàn)史料數(shù)據(jù)庫開發(fā)過程中,需要對知識本體再進(jìn)行調(diào)整或修改,使之能夠符合系統(tǒng)性能的需求;最后,雖然目前國內(nèi)數(shù)據(jù)庫建設(shè)領(lǐng)域處于主流地位的是關(guān)系型數(shù)據(jù)庫,但由于滇緬抗戰(zhàn)史料數(shù)據(jù)資源中非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)眾多,且從數(shù)字人文跨領(lǐng)域、大范圍、大規(guī)模的特性出發(fā),利用非關(guān)系型數(shù)據(jù)庫進(jìn)行滇緬抗戰(zhàn)史料數(shù)據(jù)庫的構(gòu)建,在操作的擴(kuò)展性和大數(shù)據(jù)量處理方面將具有優(yōu)勢。
(2)基于滇緬抗戰(zhàn)史料信息平臺開展面向用戶的知識服務(wù)。知識服務(wù)是指以用戶需求為導(dǎo)向,從知識資源中提煉信息內(nèi)容,搭建知識網(wǎng)絡(luò),為用戶提供解決方案的信息服務(wù)過程。如在滇緬抗戰(zhàn)史料數(shù)據(jù)庫建設(shè)中,針對部分用戶對檢索結(jié)果可視化的強(qiáng)烈需求,可以利用虛擬現(xiàn)實(VR)技術(shù),在滇緬抗戰(zhàn)史料數(shù)據(jù)庫平臺上重現(xiàn)中國遠(yuǎn)征軍戰(zhàn)爭狀況的實景,讓用戶有身臨其境之感。數(shù)字人文視域下的滇緬抗戰(zhàn)史料數(shù)據(jù)庫,應(yīng)該是一個以用戶需求為導(dǎo)向、以服務(wù)為核心的,具備數(shù)據(jù)存儲、知識檢索與可視化、眾包編輯、專題服務(wù)及社交化應(yīng)用等功能的大型知識服務(wù)平臺。
數(shù)字人文作為“方法論共同體”空前促進(jìn)了研究方法的交叉滲透,且為公藏機(jī)構(gòu)的資源挖掘帶來了新的空間,使得文獻(xiàn)利用本身即創(chuàng)造文獻(xiàn)的價值[9]。數(shù)字人文在滇緬抗戰(zhàn)史料數(shù)據(jù)庫建設(shè)領(lǐng)域的引入,將改變傳統(tǒng)的史料數(shù)據(jù)庫構(gòu)建模式,促進(jìn)方法的革新和技術(shù)的迭代。該數(shù)據(jù)庫的構(gòu)建,不僅是對滇緬抗戰(zhàn)史料深層次整合與開發(fā)的一次嘗試,更豐富了歷史人文學(xué)科的研究范式,具有一定的開拓意義。
不過,數(shù)字人文視域下滇緬抗戰(zhàn)史料數(shù)據(jù)庫的構(gòu)建亦存在諸多問題亟待解決。例如,部分文化事業(yè)機(jī)構(gòu)滇緬抗戰(zhàn)史料的信息公開程度較低,限制了滇緬抗戰(zhàn)史料的資源集成化;部分滇緬抗戰(zhàn)史料存在機(jī)構(gòu)之間的歸屬爭議,容易產(chǎn)生推諉扯皮現(xiàn)象,導(dǎo)致史料無法上傳至數(shù)據(jù)庫中;滇緬抗戰(zhàn)史料數(shù)據(jù)庫與其他抗戰(zhàn)文獻(xiàn)數(shù)據(jù)的關(guān)聯(lián)還未被充分考慮,各個抗戰(zhàn)文獻(xiàn)數(shù)據(jù)庫之間未充分共享資源;在利用滇緬抗戰(zhàn)史料數(shù)據(jù)庫的過程中,用戶可能會因為資料獲取的便利性和快捷性,忽視了傳統(tǒng)史學(xué)功底的訓(xùn)練,忽視了深度閱讀等。這些問題的解決,還有待學(xué)界和業(yè)界的持續(xù)關(guān)注與努力。
雖然面臨諸多問題,但筆者希望能拋磚引玉,通過構(gòu)建數(shù)字人文視域下滇緬抗戰(zhàn)史料數(shù)據(jù)庫,推動滇緬抗戰(zhàn)史料的資源整合與開發(fā)朝著縱深方向發(fā)展,真正體現(xiàn)出滇緬抗戰(zhàn)史料所具有的歷史價值與重要意義,為傳統(tǒng)的抗戰(zhàn)史料研究注入新活力、提供新視角,促進(jìn)對這段歷史的更深層次的解讀。