劉圣嬰 王麗華 劉煒 劉倩倩
(1.華東師范大學(xué)圖書館,上海,200062; 2.上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院,上海,200444; 3.上海圖書館,上海,200031)
人文學(xué)科是所有科學(xué)之肇始,是人文精神之依托,被稱為知識分子的必備和基礎(chǔ)素養(yǎng)。無論是古希臘的七藝(文法、修辭、邏輯、算數(shù)、幾何、天文、音樂),還是春秋的六藝(詩、書、禮、樂、易、春秋),其所創(chuàng)立的知識教育體系在今天多歸屬于人文學(xué)科范疇,致力于培養(yǎng)區(qū)別于萬物的所謂“人性”。而當(dāng)今社會建立起與工業(yè)文明相匹配的極其復(fù)雜又高深的現(xiàn)代教育,看似造就了大量知識豐富的“專家”,但卻帶來了知識分子整體上的消失,不僅缺乏對人的價值以及人類未來命運的思考者,連培養(yǎng)基本的責(zé)任與擔(dān)當(dāng)都成了奢望。在這個機器智能和生命編輯的時代,人文主義遭遇越來越嚴重的危機,我們比任何時候都更加需要和呼喚世界意義的守護者[1]。
在這樣的背景下,數(shù)字人文誕生了。
作為信息技術(shù)在人文領(lǐng)域的應(yīng)用,數(shù)字人文目前仍處于非常早期的發(fā)展階段。雖然其歷史可以追溯到計算機剛開始用來做文字處理的上世紀中葉,迄今已有七十余年,但“數(shù)字人文”一詞是2004年隨著A Companion to Digital Humanities一書的出版才得以定名的,當(dāng)前還不具有公認的定義,甚至連邊界在哪里也眾說紛紜、莫衷一是。即便如此,鑒于數(shù)字化社會的到來已勢不可擋,印刷品不再是知識生產(chǎn)與傳播的主要媒介。在這個背景下,圖靈獎獲得者Tony Hey等敏銳地提出“科學(xué)研究的第四范式”概念[2],指出當(dāng)所有的研究素材和方法都數(shù)字化之后,“數(shù)據(jù)驅(qū)動型研究”就水到渠成,人文科學(xué)也概莫能外,數(shù)字人文必然是人文研究的未來。
數(shù)字人文是各門具體人文科學(xué)采用數(shù)字方法的匯聚和總結(jié),是一種“方法論共同體”(Methodological Commons)。目前這個共同體已開始具備庫恩所說的共同的“學(xué)科范式”特征,隨著專業(yè)教育和學(xué)科體系的建立,數(shù)字人文逐漸從各種方法、技術(shù)的大雜燴,開始形成具有一定理論結(jié)構(gòu)和研究規(guī)律的獨特領(lǐng)域,該領(lǐng)域的研究者正在從對數(shù)字人文能不能成為一門“學(xué)科”心存疑慮而爭論不休,轉(zhuǎn)而開始專注于各類專門問題的探討和整體共性方法論的總結(jié)。當(dāng)然這與近年來數(shù)字人文研究基礎(chǔ)設(shè)施的不斷完善有關(guān),除了大量的數(shù)據(jù)資源以最新的技術(shù)不斷賦能研究人員之外,我們還擁有了頗具影響力的協(xié)會、學(xué)會和專業(yè)期刊,定期召開國際或地區(qū)性會議,具有穩(wěn)定的基金支持,尤其是形成了本-碩-博的專業(yè)教育體系。目前的薄弱環(huán)節(jié)是基礎(chǔ)設(shè)施的建設(shè)和提供者與新興的數(shù)字人文研究者之間缺乏溝通對話,導(dǎo)致數(shù)據(jù)資源相關(guān)的平臺建設(shè)和系統(tǒng)的標(biāo)準(zhǔn)規(guī)范尚未建立,正在成形的方法論體系缺乏實踐檢驗,因此未能盡快成熟并得到公認。
以漢學(xué)(中國傳統(tǒng)學(xué)術(shù))研究為代表的中文數(shù)字人文研究也處在一個剛剛起步的階段。早期的數(shù)字圖書館或數(shù)字典藏成果為當(dāng)下的數(shù)字人文研究提供了重要的數(shù)據(jù)支持,然而從整體上看仍不系統(tǒng),缺乏規(guī)劃,各學(xué)科發(fā)展也很不平衡,研究成果較為零散、微觀,多是對數(shù)字技術(shù)的簡單應(yīng)用、對過去研究的重復(fù)驗證,或者是對西方研究的一種單純模仿,還缺乏有影響力的、獨創(chuàng)性的成果。究其原因,圖書館等人類記憶機構(gòu)在數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)方面的滯后是一個重要瓶頸[3]。相比西方國家,我們在數(shù)據(jù)獲取方面的困難要大得多:數(shù)據(jù)系統(tǒng)之間缺乏聯(lián)通,付費墻壁壘高聳,造成數(shù)據(jù)獲取的不充分和不完整,或者缺乏必須的數(shù)據(jù)格式(如中文文獻大多以圖像方式提供,文本奇缺),影響到項目的成本、成果的水平,以及對數(shù)字人文研究方法的歸納總結(jié)和教育機構(gòu)相關(guān)人才的培養(yǎng)等,這已成為中文數(shù)字人文發(fā)展的嚴重制肘。
本文試圖基于中國目前對于數(shù)字人文的理論研究,探討一種開放的數(shù)字人文服務(wù)平臺設(shè)計,將數(shù)字人文研究范式與提供其支撐的基礎(chǔ)設(shè)施建設(shè)聯(lián)系起來,使其互相借鑒和促進,不僅滿足一般人類記憶機構(gòu)將數(shù)字典藏系統(tǒng)升級為基于數(shù)據(jù)的服務(wù)設(shè)施,發(fā)揮其全部潛能。重點在通過靈活可遷移的云平臺架構(gòu)設(shè)計,以及可互操作、熱插拔、容器化的應(yīng)用App生態(tài)建設(shè),使所有機構(gòu)的平臺之間能夠?qū)崿F(xiàn)互聯(lián)互通,并探討應(yīng)用關(guān)聯(lián)數(shù)據(jù)、知識圖譜、實體識別、機器學(xué)習(xí)等技術(shù),提供人文研究各類文本、圖像、社交網(wǎng)絡(luò)、地理信息和可視化等通用工具的支持,長遠支持數(shù)字人文項目的全生命周期管理。相信這樣的總體性設(shè)計能夠有助于數(shù)字人文方法論體系的豐富探索和盡快成型,從而幫助數(shù)字人文研究范式盡早確立。
人文研究一般是人文學(xué)者針對特定問題,綜合利用各種材料,透過一定方法,經(jīng)過研究過程而得出結(jié)論并發(fā)表交流的完整流程。素材和方法是人文研究的兩大要素。傳統(tǒng)人文研究的素材可分為文獻(文本或圖像)、實物和抽象物(概念、角色等)等。傳統(tǒng)人文研究的方法通常不是非常嚴格,一般依靠思辨和寫作就能得出結(jié)論、完成研究,這也是為什么人們經(jīng)常詬病“人文學(xué)科”缺乏科學(xué)性的原因。數(shù)字人文帶來了方法學(xué)的進步,我們首先可以從方法研究入手,從中找出數(shù)字人文研究可重復(fù)、可循證的一般規(guī)律。
數(shù)字人文來自于對人文研究進入數(shù)字時代所產(chǎn)生的方法學(xué)共同體的歸納,而根據(jù)提出科學(xué)范式概念的科學(xué)哲學(xué)大師托馬斯·庫恩的理論,學(xué)科共同體是學(xué)科范式的主要特征,因此我們可以認為,研究數(shù)字人文方法其實就是在探討人文科學(xué)研究的一種新范式。從分析人文研究的素材和方法入手,我們可以初步掌握數(shù)字人文研究范式的基本輪廓。
把人文研究方法分為技術(shù)、行為和過程三個方面,有助于考察人文研究的基本方法范式。傳統(tǒng)人文研究雖然很少涉及技術(shù),但也絕非沒有,例如考古研究中的探方、測量,以及在人文研究中被普遍采用的卡片摘錄技術(shù)等,如果把社會科學(xué)也算上(社會科學(xué)與人文科學(xué)本身并無明顯界限),各類調(diào)查、訪談、口述歷史、民族志等研究方法都涉及大量的技術(shù),早期數(shù)字人文的許多方法其實都來自于用計算機實現(xiàn)手工的工作。研究過程可以認為是研究行為的按一定順序的組合,相同的技術(shù)和行為可以組合成不同的過程,對不同人文學(xué)科研究所產(chǎn)生的效果是不同的。以下會有文字專門討論具體的研究“行為”(見2.3)。
圖1 ?人文研究的基本范式:數(shù)據(jù)+方法Fig. 1 Fundamental Paradigms of Humanities Research: Data + Method
人文研究方法的技術(shù)、行為和過程在數(shù)字人文中借助信息技術(shù)的進步得到很大的發(fā)展,尤其是層出不窮的信息處理技術(shù),可以說這三個部分正在成為數(shù)字人文研究新范式的重要內(nèi)容,成為數(shù)字人文領(lǐng)域最重要的主題之一。圖1展示了對這種人文研究范式的解構(gòu)。
數(shù)字人文研究的“原料”可以分為數(shù)字文本、數(shù)碼圖像或由數(shù)字對象構(gòu)成的“模型”,有學(xué)者稱之為“數(shù)據(jù)態(tài)”。其中數(shù)字模型可以很簡單,某個文本數(shù)據(jù)庫可以代表某個人文主題的全部素材,也可以很復(fù)雜,復(fù)雜到作為某個真實系統(tǒng)的模擬(即所謂數(shù)字孿生,Digital Twins)。
數(shù)字人文的方法有兩類,一是傳統(tǒng)方法的計算機實現(xiàn),例如搜索、分析、比較等,利用計算機只是比傳統(tǒng)方法要快很多而已,最著名的數(shù)字人文研究案例—羅伯特·布薩神父編制托馬斯·阿奎納全集索引就是這樣的例子;二是由計算機技術(shù)產(chǎn)生的特殊方法,例如統(tǒng)計、分析、聚類和可視化等,布薩神父最后建立了托馬斯·阿奎納索引服務(wù),就屬于對傳統(tǒng)人文方法的一種突破。
從研究過程來看,數(shù)字技術(shù)和網(wǎng)絡(luò)交流對過去從收集資料到成果發(fā)表簡單的線性過程帶來了很大沖擊,其過程比傳統(tǒng)人文研究要復(fù)雜得多,可以是來回反復(fù)的交互過程,成果發(fā)表和交流形式也多利用網(wǎng)絡(luò)或社交媒體,具有迅速、便捷、容易追蹤但轉(zhuǎn)瞬即逝的特點,目前甚至還沒有很好的計量與評價方法[4]。
無論是傳統(tǒng)方法的計算機實現(xiàn),還是由于計算機技術(shù)發(fā)展帶來的新方法,如果從目前各類具體數(shù)字人文研究項目來考察,或者從不同具體人文學(xué)科在走向數(shù)字人文過程中的表現(xiàn)來看,其技術(shù)、過程和行為三個方面都可以歸納出許多不同的特征。圖1雖然呈現(xiàn)了包括傳統(tǒng)人文和數(shù)字人文在內(nèi)的人文研究的統(tǒng)一范式,然而它并沒有區(qū)分這些不同特征。應(yīng)該說不同人文學(xué)科在邁向數(shù)字人文過程中的不同特點,不同學(xué)科在使用素材或研究方法方面的不同,都會對該學(xué)科領(lǐng)域基于數(shù)據(jù)的研究范式帶來影響。例如文學(xué)或語言學(xué)偏重于利用文本處理技術(shù),歷史學(xué)則關(guān)注實體對象的時空呈現(xiàn)及相互關(guān)系,哲學(xué)需要將文本抽象為特定語義的概念,等,當(dāng)然這類不同可以看成是數(shù)字人文通用方法細分要素的不同配方組合。這里引入圖2,就是要展示數(shù)字人文方法受到技術(shù)體系和方法體系(指過程和行為)的雙重影響,而作用于各門不同人文學(xué)科。當(dāng)然這里討論的還只是數(shù)字人文研究方法的一個一般性思考框架,目前無論是具體的人文學(xué)科,還是一般性的數(shù)字人文,其方法體系都沒有定型,還處在發(fā)展變化中,也有待進一步挖掘整理。
(1)研究過程方面
圖2 ?數(shù)字人文相關(guān)技術(shù)體系和方法體系 Fig. 2 Technology System and Method System Related to Digital Humanities
傳統(tǒng)人文研究對于素材的收集、加工、處理是研究過程的開始,這是人文研究很重要的有機組成部分;而數(shù)字人文可以將資料匯集、處理的通用部分獨立出來,作為研究基礎(chǔ)設(shè)施的一部分,由專門的圖書館、檔案館等相關(guān)機構(gòu)去完成,這就區(qū)分了基礎(chǔ)設(shè)施建設(shè)工作和數(shù)字人文研究工作。目前數(shù)字人文領(lǐng)域大量的工作其實是基礎(chǔ)設(shè)施建設(shè)工作,可以看到中文期刊數(shù)字人文的論文發(fā)表中大量來自圖書館信息檔案學(xué)科,就是這個道理。但基礎(chǔ)設(shè)施建設(shè)并不能代替數(shù)字人文研究,前者的目的是為了促進后者。
(2)素材內(nèi)容方面
傳統(tǒng)人文通常通過管理和操控載體化的文獻取得內(nèi)容,限于手工處理的效率,研究的廣度、深度都受到限制;而數(shù)字人文研究基于數(shù)據(jù),平臺通常就能提供細粒度的知識組織,甚至建立了語義聯(lián)系,使得材料的操控變得較為容易,能夠進行更大范圍深入研究,跨學(xué)科研究也更為容易。
(3)研究方法方面
傳統(tǒng)人文研究大都采用定性的思辨方法,通過聯(lián)想、比較、邏輯推理、思想實驗等進行敘事或闡釋;而數(shù)字人文可以采用建立模型和定量方法,進行文本分析、內(nèi)容分析、時空分析、社會關(guān)系分析、統(tǒng)計聚類、可視化展示等,從某種程度上為人文研究提供了一定的可重復(fù)可驗證的科學(xué)性保證。
(4)技術(shù)應(yīng)用方面
傳統(tǒng)人文研究可能會采用田野調(diào)查、問卷訪談等;而數(shù)字人文可以運用更多計算機技術(shù),如機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、語義標(biāo)注、文本分析、量化分析、聚類算法等。
(5)科研協(xié)作方面
傳統(tǒng)的人文研究大多是學(xué)者個人或小規(guī)模團隊透過多年皓首窮經(jīng)、苦思冥想,忽然頓悟,取得些許進展;而數(shù)字人文更強調(diào)大規(guī)模協(xié)同和社會網(wǎng)絡(luò)交互,甚至大量采用眾包方式,網(wǎng)絡(luò)平臺能否提供相應(yīng)能力就顯得非常重要。
(6)成果交流方面
傳統(tǒng)人文基本上以出版圖書或發(fā)表論文為最高標(biāo)準(zhǔn);而數(shù)字人文可以同時推出網(wǎng)站、數(shù)據(jù)集、工具、軟件、課件、博客文章、可視化作品、多媒體電子書等,專著和論文可以只是副產(chǎn)品。當(dāng)然數(shù)字人文的基礎(chǔ)設(shè)施可以更豐富和全面,包含計算設(shè)施、云平臺、資源庫、語料庫等。
人文學(xué)者的研究行為可以類比于自然科學(xué)研究中的實驗行為,是數(shù)字人文研究范式的重要來源。本文把數(shù)字人文方法區(qū)分成技術(shù)、過程和行為三個方面,研究方法是由研究行為在技術(shù)的支持下通過一定的過程組合和迭代而實現(xiàn),因此人文學(xué)者的行為范式非常值得研究,可以認為人文學(xué)者在使用數(shù)字方法進行學(xué)科問題的研究過程中,其共性的行為方式就構(gòu)成了行為范式。傳統(tǒng)人文研究者可能都有獨特的行為方式,同一個學(xué)派可能會基于相同的方式,而數(shù)字人文的價值就在于將其一般化,提取出共性的行為并以一定的技術(shù)進行實現(xiàn),同時進行標(biāo)準(zhǔn)化。因此研究行為成為數(shù)字人文研究范式中非常獨特的組成部分,本文稱之為數(shù)字人文研究的行為范式,具體的行為國外稱為“學(xué)術(shù)原語”(scholarly primitives)[5],可區(qū)分為搜索、收集、閱讀、協(xié)作、比較、發(fā)布等類型,每一種行為類型還可進一步分為子行為,例如搜索可以分直接搜索、瀏覽、探索、存取、鏈接等;收集可以分為爬取、匯聚、組織等;閱讀有瀏覽、評價、遠讀、細讀、互讀等;協(xié)作有建立網(wǎng)絡(luò)、咨詢、分享等,如表1所示。
人文研究的具體行為在數(shù)字人文平臺中都可以以一定的技術(shù)加以實現(xiàn),這些行為與實現(xiàn)技術(shù)之間的關(guān)系參見表2。每一個子行為都可以開發(fā)成目前業(yè)界流行的“微服務(wù)”,以更加適應(yīng)靈活先進的云原生計算環(huán)境。
傳統(tǒng)人文的研究過程通常是從占有材料開始,然后經(jīng)過發(fā)現(xiàn)事實、提出假設(shè)、收集資料、分析比較、歸納整理,得出結(jié)論并進行發(fā)表交流。數(shù)字人文研究由于素材更多、數(shù)據(jù)量更大、時空跨度都可能不同以往,因此研究過程可能會變得非常復(fù)雜,更多的在提出假設(shè)之后需要建立模型,然后將分析比較等研究過程,透過技術(shù)手段操控模型中的數(shù)據(jù)和各類參數(shù)來驗證、修改或推翻假設(shè),最后得出結(jié)論。因而如何利用計算技術(shù)實現(xiàn)研究目標(biāo)也需要有一定的計算思維基礎(chǔ)。當(dāng)然,其前提是數(shù)字人文平臺能夠支持這樣的復(fù)雜性。
表1 ?基本的研究行為Table 1 Basic Research Behaviors
表2 ?數(shù)字人文研究行為及其技術(shù)實現(xiàn)Table 2 Digital Humanities Research Behavior and CorrespondingTechnical Implementation
什么是數(shù)字人文或什么是好的數(shù)字人文,目前還很難劃定一個清晰的邊界或給出明確的標(biāo)準(zhǔn)。盡管很多人認為,僅僅采用搜索引擎查找資料,或用文字處理軟件從事研究而撰寫的人文研究成果并不能算是數(shù)字人文,但為什么搜索了專門的數(shù)據(jù)庫、用了可視化軟件或一些分析工具就可以是數(shù)字人文成果呢?Unsworth認為[6]需要利用數(shù)字技術(shù)對人文問題進行“表征、建?;蚰7隆保╝ practice of representation, a form of modeling or mimicry),才算數(shù)字人文(人文計算),然而這個界線也是模糊的,可能未來我們能夠劃清界線,但那時可能設(shè)定界線已經(jīng)變得沒有意義了。但無論如何我們可以認為,從現(xiàn)在開始,人文研究賴以進行的基礎(chǔ)已經(jīng)不是“文獻”,而是數(shù)據(jù),由此帶來基礎(chǔ)設(shè)施、平臺方法乃至評價標(biāo)準(zhǔn)都開始完全不同。我們現(xiàn)在還站在數(shù)字人文的門口,新的“范式”正在成型,生逢其時,這是我們的幸運。
數(shù)字人文平臺是為數(shù)字人文研究服務(wù)的,也是實現(xiàn)數(shù)字人文研究范式的重要的基礎(chǔ)設(shè)施之一。平臺建得好不好最終要通過數(shù)字人文研究成果來檢驗。因此在建立之初首先需要了解數(shù)字人文研究人員的需求,了解數(shù)字人文研究的一般規(guī)律,以及方法、過程和行為,否則也無法設(shè)計出好的數(shù)字人文平臺。當(dāng)然,數(shù)字人文平臺“兼容”傳統(tǒng)的人文研究是一個前提條件,在很大程度上數(shù)字典藏系統(tǒng)應(yīng)該就能滿足需求,然后可以進一步升級開發(fā)“真正的”數(shù)字人文平臺,向人文學(xué)者全面提供基于數(shù)據(jù)的研究基礎(chǔ)設(shè)施服務(wù)。
目前的數(shù)字圖書館系統(tǒng)可以看成是一種初級版本的數(shù)字人文平臺。由于其大都只是將傳統(tǒng)的文獻掃描成圖像,結(jié)合元數(shù)據(jù)庫提供有限途徑的查詢,功能十分有限,基本上只是傳統(tǒng)圖書館的一種載體轉(zhuǎn)換,無法滿足數(shù)字人文研究的進一步需要。雖然有一些平臺已開始提供一些工具,例如分詞、標(biāo)點、批注、詞云、格式轉(zhuǎn)換、實體提取、人物關(guān)系呈現(xiàn)及可視化等,并采用了眾包理念,但總體上還較為簡單,集成了一些成熟度不一的功能,沒有結(jié)合人文學(xué)者的領(lǐng)域和場景,用戶體驗不夠好。
現(xiàn)有的數(shù)字人文平臺存在的最大問題還是技術(shù)上的,在內(nèi)容管理上尚未采用知識圖譜為代表的語義數(shù)據(jù)管理技術(shù),還是關(guān)系數(shù)據(jù)庫或者全文數(shù)據(jù)庫;在體系結(jié)構(gòu)上雖然已注意借鑒云計算技術(shù),但還沒有充分考慮以微服務(wù)和容積技術(shù)為基礎(chǔ)的云原生架構(gòu),也沒有考慮技術(shù)架構(gòu)和內(nèi)容架構(gòu)分離的設(shè)計。因此很難滿足人物、地點、時代、事件或特定事實主題的資料查詢需求,人物或?qū)嶓w之間邏輯或關(guān)聯(lián)關(guān)系的延伸查詢需求,時空主題范圍的統(tǒng)計分析需求以及可視化呈現(xiàn)的需求等?,F(xiàn)在的認知計算技術(shù)結(jié)合了機器學(xué)習(xí)和人工智能,已經(jīng)能夠提供語詞概念或圖像實體的提取與分析、特征比較、相似性聚類等,數(shù)字人文平臺完全可以應(yīng)用最新技術(shù),實現(xiàn)最新功能。從平臺的角度來看,還有較大的提升空間。
人工智能專家李飛飛曾說:“作為科學(xué)家,最吸引我的是能夠不斷去拓寬人類知識的邊界,不斷問新的問題,并且發(fā)明工具來解決這些問題”。數(shù)字人文帶給人文研究最有價值的地方,也就是它能夠極大地拓展我們提問題的能力,從而拓展人文研究的新疆域。它使研究者能夠面對海量甚至是“全量”數(shù)據(jù)進行研究,能夠利用各種工具對數(shù)據(jù)進行分析、比較、挖掘、關(guān)聯(lián)。這些數(shù)據(jù)是傳統(tǒng)人文學(xué)者終其一生都不可能看完的,方法手段也是傳統(tǒng)手工所無法想象的。因此,數(shù)字人文的價值不僅在于它提供了研究的素材,同時也給予了強大的工具和新的方法。以下從中文研究資源和方法兩個角度,簡述數(shù)字人文相關(guān)情況。
史料乃人文研究之本,而所有人類活動紀錄皆可為史料。圖書館等記憶機構(gòu)自古以來不僅是人類思想紀錄的保留地,也同時是人文思想的孵化所。著名的亞歷山大圖書館以收藏人類所有知識為己任,但其鴻富的收藏是為了聚集天下英才從事研究寫作和知識傳授,在其不長的歷史時期聚集了數(shù)百位先賢哲人,為中世紀乃至一千多年后的文藝復(fù)興留下了非常寶貴的知識財富。海量的資源提供了極其豐富的知識基礎(chǔ),使暢游其中的學(xué)者具有完全不同的起點,站在巨人的肩上他們才更有智慧。中文資源亦是如此,淵遠流長,歷經(jīng)兩千余年流傳,培育并滋養(yǎng)了燦爛的中華文明。
自上世紀九十年代以來,中國傳統(tǒng)學(xué)術(shù)相關(guān)資源的數(shù)字化已獲得長足發(fā)展,目前通過網(wǎng)絡(luò)已基本上皆可盡知。然而中文數(shù)字典藏的最大特點是以掃描圖像為主,總體上轉(zhuǎn)換成文本的數(shù)量不及三成,且質(zhì)量良莠不齊;另一個特點是大多數(shù)典藏資源都分散于各家出版機構(gòu)或數(shù)據(jù)庫廠商,研究機構(gòu)很少提供典藏資源的開放服務(wù);第三個特點是所有系統(tǒng)提供的功能都很簡單,大多只能進行少量字段的查檢。雖然也有部分商業(yè)化特藏庫做得不錯,提供全文搜索,并且從文本質(zhì)量到圖文對照都比較人性化,然而總體來說與國外一些數(shù)字人文平臺的水平無法比肩。當(dāng)下的技術(shù)已經(jīng)提供了可能性,我們理應(yīng)做得更好。
2018年3月,哈佛大學(xué)包弼德教授在上海哈佛中心組織召開了“中國歷史研究的網(wǎng)絡(luò)基礎(chǔ)設(shè)施國際研討會(International Conference on a Cyberinfrastructure for Historical China Studies)”[7],遍請當(dāng)今與中文資源及平臺界相關(guān)人士和機構(gòu)代表,進行了為期三天的研討,共有近60場各類會議(sessions and panel discussions),142人次發(fā)言,幾乎將中文傳統(tǒng)學(xué)術(shù)資源一網(wǎng)打盡。包教授將主要的中文傳統(tǒng)學(xué)術(shù)資源庫分為三類(見文末附表1):平臺與工具類、文字/文本圖像數(shù)據(jù)庫類以及數(shù)據(jù)庫類(主要是專題或文本庫),悉數(shù)邀請其代表參會。
包弼德教授的列表展示了中文數(shù)字人文資源的建設(shè)現(xiàn)狀,應(yīng)該是非常全面了。傳統(tǒng)人文學(xué)者在從事研究時大部分時間都在遍訪資源,常常必須通過打聽或者高人指點,有時是偶然機緣,才有可能獲得一些線索,是不是合用還要經(jīng)過人工實際翻看,查找資料與研究者本人的學(xué)養(yǎng)、經(jīng)驗都很有關(guān)系,沒有經(jīng)驗的初學(xué)者甚至都無法查到合適的資料,查到了有時也不能判斷。對于傳統(tǒng)人文研究來說,檢索材料的過程經(jīng)常是作為正式研究過程的一部分,而不是準(zhǔn)備。
中文傳統(tǒng)學(xué)術(shù)資源其實是有限的,轉(zhuǎn)換成數(shù)據(jù)庫之后也不會增加。但是轉(zhuǎn)化成數(shù)據(jù)庫之后能夠在很大程度上降低人工檢索的難度。因此數(shù)字人文學(xué)者能夠在更大范圍、更準(zhǔn)確地查到所需資料,消除專家與普通研究者存在的信息不對稱,讓“資料(平臺)面前人人平等”。這樣的話,查找資料的過程可以從研究過程中獨立,學(xué)者能夠把更多的時間和精力花在本學(xué)科的問題研究上,而不是數(shù)據(jù)獲取上。這是數(shù)字人文的最大好處之一。
據(jù)筆者不完全估計,目前中國傳統(tǒng)學(xué)術(shù)研究常用的資源大致有:
古籍:根據(jù)目前對于古籍的定義,不重復(fù)的應(yīng)不超過20萬種,版本數(shù)不超過50萬種,已基本完成數(shù)字化掃描,其中四分之一(約5-6萬種)大致完成了文本化,約不超過100億字。已實現(xiàn)文本化的古籍有很多失去了版本信息(或被加工出版機構(gòu)根據(jù)一種或數(shù)種所謂“權(quán)威版本”進行加工)。
民國圖書:保守估計不重復(fù)約有15萬種,已基本完成數(shù)字化掃描,文本化數(shù)量應(yīng)在300-400億字,但大多分散在各出版機構(gòu)。
現(xiàn)代圖書:不重復(fù)至少500萬種,基本都有數(shù)字化版本,但并非文本化,其中一多半以CEBX(Common e-Document of Blending XML,基于混合XML的公共電子文檔)格式存在,總量約上千億字。
近代期刊:至少2萬種,約800萬頁,基本完成數(shù)字化掃描,但文本化只有50億字左右。
近代報紙:總量約100萬拍,基本完成數(shù)字化、文本化(如申報等一些大報)約30億字左右。
現(xiàn)代期刊:近30年的期刊基本都已經(jīng)文本化,主要為CNKI等數(shù)據(jù)庫商所掌握。
現(xiàn)代報紙:近30年經(jīng)漢字照排的報紙基本都有文本,一些大報(如人民日報)也已完成了文本化,但因格式和版權(quán)問題,能得到開放應(yīng)用的很少。
檔案館藏:經(jīng)過近十多年來國家的大力投入,數(shù)字化已基本完成,而且絕大多數(shù)在數(shù)字化時已經(jīng)完成了文本化。
博物館(美術(shù)館)館藏:真正的數(shù)字化(保存級)近年來剛剛開始,許多藏品需要3D建模,隨著技術(shù)的成熟成本逐漸降低,規(guī)模逐漸增大。
如果說包弼德教授的中文傳統(tǒng)學(xué)術(shù)資源列表還不能包羅萬象的話,近年來各類收藏機構(gòu)的中國傳統(tǒng)學(xué)術(shù)資源數(shù)字化已經(jīng)全面展開,數(shù)據(jù)庫已成為中國傳統(tǒng)學(xué)術(shù)研究者檢索資料的主要途徑。但矛盾的是學(xué)者們并沒有感到查找資料比以往更方便。這主要有如下問題:
(1)系統(tǒng)較為封閉。就如同古代藏書樓,寶貝秘不示人,是無法得到充分利用的。很多系統(tǒng)甚至不開放元數(shù)據(jù),無法讓學(xué)者查詢是否有某些資料。雖然大量的中國傳統(tǒng)學(xué)術(shù)資料都已過了版權(quán)保護期,但國內(nèi)的公藏機構(gòu)也大都不開放,恐怕被人盜取,還有不少出版機構(gòu)拿來影印或重新出版,使其又變成“有版權(quán)”出版品,依舊在“付費墻”后面,依然沒解決開放問題。而中國大陸以外地區(qū)的典藏機構(gòu)近年來逐漸公開了大量資源(見附表2)。
(2)系統(tǒng)之間互不聯(lián)通。資料分散在各處,必須分別去查,很多甚至沒有上網(wǎng),尋訪依舊不易,找到后經(jīng)常需要手工抄錄,然后再進行對比、分析等工作,有時只查元數(shù)據(jù)并不能滿足需求,系統(tǒng)中缺乏研究所需的關(guān)鍵信息,如版本、格式等。
(3)資料準(zhǔn)確率低。訛誤很多,數(shù)字化會放大錯誤,且缺少修正機制。
(4)使用便捷性差。只是解決了“知道”和“得到”問題,后續(xù)所有工作都還是手工的,并不能體驗到計算機能夠提供的更多好處,例如保存、統(tǒng)計分析等。
以中文數(shù)字圖書館(或稱為數(shù)字典藏)建設(shè)為主的數(shù)字人文基礎(chǔ)設(shè)施建設(shè)正方興未艾,目前幾乎所有的人文研究都需要從數(shù)據(jù)獲取和整理開始做起,因此大量的數(shù)字人文項目其實還是數(shù)字典藏項目,這類項目被David Golumbia稱為狹義的數(shù)字人文,是最容易獲得資助的。我們從2020年中國數(shù)字人文年會(2020 China Digital Humanities Conference ,CDH2020)的獲獎項目(見表3)中可以看到這類項目的一些特點:
(1)數(shù)字化逐漸讓位于數(shù)據(jù)化;知識庫逐漸增多。
(2)獨特的領(lǐng)域應(yīng)用做得更好,利用技術(shù)也很到位,能夠提供更多的研究支持。
(3)“低端果實”(low hanging fruit)較多,主要是一些以數(shù)字化方式重復(fù)已知的結(jié)果,或以可視化方式展示歷史、人物、事件等主題等。當(dāng)然其中做得好的,也包含大量的研究成份,以及很多設(shè)計和數(shù)據(jù)處理工作量,也不是沒有意義。
(4)以教育、普及和技術(shù)培訓(xùn)為目的的項目也有不少。這類項目經(jīng)常會曇花一現(xiàn),無法在基礎(chǔ)設(shè)施中沉淀下來。
從總體上看,當(dāng)前中國傳統(tǒng)學(xué)術(shù)研究相關(guān)材料分布極廣,技術(shù)各異,標(biāo)準(zhǔn)不一,數(shù)據(jù)質(zhì)量良莠不齊,整合有相當(dāng)難度,利用極為不便。
數(shù)字人文研究的素材其實不止于歷史資料。當(dāng)今數(shù)字時代大量的數(shù)字原生材料,例如美國國會圖書館收藏的Twitter檔案和中國國家圖書館保存的新浪微博,都是很有價值的資源,很多人文社會科學(xué)研究都可以在其中找到寶貴的數(shù)據(jù)資料,但對這些原生數(shù)字資源如何收集組織管理,并提供利用,目前似乎并沒有找到很好的方法,而且從各國的實踐來看當(dāng)前也不是圖書館檔案館等人類記憶機構(gòu)當(dāng)然的職責(zé)所在,將來有可能與傳統(tǒng)數(shù)字人文素材之間的歷史聯(lián)系會中斷,產(chǎn)生一段材料的真空期。我們現(xiàn)在應(yīng)該開始重視這個問題,把數(shù)字資源的保存組織也納入到數(shù)字人文平臺建設(shè)的內(nèi)容中去統(tǒng)一考量。
表3 ?CDH2020獲獎項目情況Table 3 Some Information about the Award-winning Projects at CDH2020
分析CDH2020的獲獎優(yōu)秀論文(見表4),可以大致了解目前國內(nèi)數(shù)字人文研究通常采用的方法和研究水平。年會一共評出18篇獲獎?wù)撐?,其中一等?篇,二等獎5篇,三等獎10篇。18篇獲獎?wù)撐闹杏?0篇關(guān)于基礎(chǔ)設(shè)施或技術(shù)研究,后者涉及建模技術(shù)、語義化聚類等,只有8篇可以算做人文主題的探討,包括闡釋學(xué)或敘事研究、色彩研究、文化批評等,其中有一篇嚴格算來也并非數(shù)字人文研究,只是它以“數(shù)字人文研究”這一現(xiàn)象作為研究的對象,是一篇以非數(shù)字人文方法研究數(shù)字人文主題的文章。
從表中可以看到,有不少論文是關(guān)于資料收集、建庫、開發(fā)系統(tǒng)、提供功能或方法研究的論文,如編號09130001、06190011等,其中一等獎的三篇論文都是關(guān)于數(shù)字人文方法、平臺和框架研究,并深入到具體人文學(xué)科內(nèi)部,以學(xué)科特征為立足點的探討,比過去泛泛而談數(shù)字化、平臺開發(fā)或研究方法進了一步,但依舊是數(shù)字人文基礎(chǔ)設(shè)施建設(shè)探討,而不是嚴格意義上的、以數(shù)字方法針對人文問題的研究。這些論文也呈現(xiàn)了一個有意思的現(xiàn)象,即基礎(chǔ)設(shè)施與技術(shù)探討常常是由跨學(xué)科團隊完成,而人文主題則多由領(lǐng)域?qū)<要氉詫崿F(xiàn)。
這種以基礎(chǔ)設(shè)施和方法探討為主的研究現(xiàn)象說明,當(dāng)前的數(shù)字人文研究還處于一個尚未成熟的初始階段,說明基礎(chǔ)設(shè)施建設(shè)尚未到位,數(shù)字人文方法也沒有系統(tǒng)成型。不論是人文學(xué)者、技術(shù)專家,還是資源提供者,都熱衷于探討如何建立更好的研究平臺。目前數(shù)據(jù)獲取、加工、組織和平臺工具的開發(fā)和提供還是主要矛盾,在可以預(yù)見的未來,一旦基礎(chǔ)設(shè)施基本到位,數(shù)字人文的研究將真正由人文學(xué)者主導(dǎo),并以人文學(xué)科的問題為引領(lǐng)。
當(dāng)然這也要求基礎(chǔ)設(shè)施建設(shè)與人文學(xué)者研究之間逐漸形成一個明確的界線,人文研究的一般方法與具體人文學(xué)科的特定方法之間也需要有一定的分野,這樣才有利于形成規(guī)模和分工協(xié)作,而傳統(tǒng)人文研究是沒有這個界線的,人文學(xué)者承擔(dān)了從資料收集整理到結(jié)果交流發(fā)布的所有過程,使得研究一直處于零散、瑣碎、憑借個體經(jīng)驗和難以合作的原始狀態(tài)。
表4 ?CDH2020獲獎?wù)撐闹黝}及研究方法Table 4 Topics and Research Methods of the Award-winning Papers at CDH2020
不同人文學(xué)科的研究對象和問題不同,對應(yīng)于計算機所存儲的媒體類型和處理方式也不同,這或許是造成研究方法是否具有通用性的根本分歧。例如文本是幾乎所有人文學(xué)科進行研究最常用的材料類型,它也是計算機所能處理的最常見的信息類型,這一點數(shù)字人文界毫不陌生,因為羅伯特·布撒神父的工作幾乎伴隨了計算機文本處理技術(shù)進步的全過程,而布撒神父的專業(yè)是神學(xué),卻是利用計算機實現(xiàn)了屬于圖書館學(xué)的索引編制技術(shù)。文本對于語言學(xué)來說就是最直接的素材,理所當(dāng)然地會利用各類查詢(例如追溯肇始源頭)、統(tǒng)計(頻度研究如詞云,或共現(xiàn)研究)、比較(詞性、變化)等“行為”來研究語言現(xiàn)象,中文自然就有切詞、句讀的需求;文學(xué)稍有不同,它更多地涉及文體、風(fēng)格、修辭、情感方面的問題,有時也會引伸出去,探討作者或虛構(gòu)人物的關(guān)系、時代背景或文學(xué)批評;文學(xué)有時也會涉及到文獻版本的比較、考證、鑒定等,這卻又是圖書館學(xué)的傳統(tǒng)內(nèi)容;哲學(xué)、神學(xué)、政治學(xué)等雖然也是通過文本進行研究,但更多的卻是將文本當(dāng)作一種抽象概念,思想史、觀念史研究中需要應(yīng)用大量的抽象概念,這些概念常常可以建立起一種復(fù)雜的語義或邏輯聯(lián)系,從而辨別社團、思潮及流派譜系等,這種聯(lián)系正好是語義技術(shù)的強項,應(yīng)用本體語言完全可以將復(fù)雜的語義聯(lián)系進行代碼化,從而就具備了“機讀”的能力,可以充分利用計算機的優(yōu)勢進行管理和利用。歷史學(xué)、考古學(xué)等相對來說就更加復(fù)雜,它們通常是將文本作為實體對象及其關(guān)系的容器,從中可以提取豐富的場景和事件,提供敘事和闡釋的根據(jù),或構(gòu)建社群、譜系。對于這類文本,計算機也可以利用機器學(xué)習(xí)和知識圖譜等技術(shù),構(gòu)建一系列“數(shù)字孿生”模型,從而可以讓歷史學(xué)家像坐上時光機器一般穿越到歷史故事中去,甚至可以利用不同的假設(shè)來推演可能的結(jié)果。
圖像是藝術(shù)、考古、人類學(xué)、民族學(xué)等人文學(xué)科不可或缺的資源類型,計算機可以從色彩、圖案、紋理等風(fēng)格特點進行研究,也可以對其進行模式識別,或者對各類實體對象進行識別、比較、分析統(tǒng)計等,幫助得出結(jié)論。圖像資源尤其對于中國傳統(tǒng)學(xué)術(shù)研究有著無比重要的意義,比西方數(shù)字人文研究的意義要大很多。首先,因為中文傳統(tǒng)學(xué)術(shù)典籍目前還不可能都轉(zhuǎn)為文字,OCR的準(zhǔn)確度不夠,成本巨大,而且操作系統(tǒng)對漢字標(biāo)準(zhǔn)字符集的支持數(shù)量也不夠用;其次,中文數(shù)字人文研究通常只依靠純文本是不夠的,還需要有圖像所負載的豐富信息作為輔佐,才具有“循證”價值;最后,最新數(shù)字人文平臺如IIIF所提供的圖像管理能力,能夠使圖像比純文本更方便研究。IIIF對圖像的管理方式還可以進一步應(yīng)用于視頻、音頻等媒體形態(tài),將來還可以有3D模型、交互式數(shù)據(jù)格式等,這樣就完全超越了僅僅由文本組成的平臺,成為一個多模態(tài)服務(wù)平臺,數(shù)字技術(shù)提供的強大工具能夠使人文學(xué)者超越傳統(tǒng)人文研究基本上只是依賴文本和少量圖像的局限,對素材的操控能力得到很大的增強。
大數(shù)據(jù)技術(shù)目前在社會關(guān)系分析和可視化呈現(xiàn)方面已經(jīng)非常成熟,另外機器學(xué)習(xí)及人工智能技術(shù)提供了大量數(shù)據(jù)加工的自動化能力,這使得數(shù)字人文更適合進行跨學(xué)科、地域、族裔、語言的大規(guī)模比較和綜合研究,這在傳統(tǒng)人文的研究中是不可想象的。
上述討論的大多是計算機技術(shù)賦能人文研究的通用能力,這種通用與專用的分野是不確定的,隨著計算機信息處理能力的提高,所能提供的工具肯定會發(fā)生變化,最極端的方式說不定是人工智能方法能夠取代一切,學(xué)者所需做的只是提出并闡釋問題而已,余下的工作都交給機器即可,或者至少可以半自動地幫助學(xué)者一步步獲得結(jié)論或解決問題。
當(dāng)今時代已不再可能舉全國之力窮天下收藏,興建四庫全書那樣的項目,開發(fā)包羅萬象的知識平臺,現(xiàn)在甚至連某一學(xué)科或主題領(lǐng)域的資源都不可能一網(wǎng)打盡。因此我們在構(gòu)建數(shù)字人文平臺或開發(fā)人文資料數(shù)據(jù)庫時首先應(yīng)考慮自身的優(yōu)勢和特點,選取一定的文獻類型或?qū)W科主題,充分考慮服務(wù)對象特點和需求,設(shè)定有限目標(biāo),并做好長期建設(shè)的準(zhǔn)備。
目前很多中文傳統(tǒng)學(xué)術(shù)資源收藏機構(gòu)已經(jīng)開發(fā)了一些頗具特色的數(shù)字人文平臺,如CBDB、DocuSky、MARKUS等,應(yīng)用了許多先進理念和最新技術(shù)。本文希望著眼于未來互聯(lián)互通,對構(gòu)建一個整體化的中文數(shù)字人文研究的基礎(chǔ)設(shè)施提出一些設(shè)想。包弼德教授曾在2018年提出過類似的想法,他建議構(gòu)建一個“中國研究的基礎(chǔ)設(shè)施網(wǎng)絡(luò)”,希望通過各國中文資料收藏機構(gòu)的密切合作,開發(fā)一個通用平臺[3],使中文資源能夠互聯(lián)互通,進一步促成共建共享。
這是一個非常有遠見、有現(xiàn)實意義和可行的建議,但這個平臺不必是“一個”平臺,而可以是整個中文基礎(chǔ)設(shè)施共同構(gòu)成的分布式網(wǎng)絡(luò)服務(wù),即可以由相關(guān)中文資源收藏和研究機構(gòu)各自建設(shè),但遵循共同制訂的技術(shù)標(biāo)準(zhǔn)和互操作協(xié)議,這樣就保證了資源獲取和服務(wù)的互聯(lián)互通;同時制訂一定的合作機制和業(yè)務(wù)模式,這樣又能夠促進互惠互利和可持續(xù)發(fā)展。
因此,本文探討的平臺即是一個在功能上力求完善、能夠滿足當(dāng)下需求的獨立的數(shù)字人文平臺,又同時在體系架構(gòu)上兼顧了基于最新語義互聯(lián)網(wǎng)技術(shù)的互聯(lián)互通,是一個尚未實現(xiàn)但完全具有可操作性的設(shè)計方案(如圖3所示)。以下分系統(tǒng)先進性(4.1)、資源完整性(4.2.1)、功能完備性(4.2.2)、用戶友好性(4.2.3)和工具豐富性(4.3)等5個方面進行闡述。
應(yīng)用系統(tǒng)的先進性可以從兩個維度來考察:系統(tǒng)維度和應(yīng)用維度。系統(tǒng)維度主要指系統(tǒng)架構(gòu)的先進性,又可以分為技術(shù)架構(gòu)和內(nèi)容架構(gòu)。應(yīng)用維度是指所開發(fā)的應(yīng)用系統(tǒng)是否能提供滿足機構(gòu)需求的完整的解決方案。技術(shù)架構(gòu)提供基于計算機技術(shù)的功能實現(xiàn),內(nèi)容架構(gòu)主要提供基于數(shù)據(jù)管理的知識視圖,這兩者共同滿足數(shù)字人文研究需求,解決數(shù)字人文研究的痛點問題。應(yīng)用系統(tǒng)則主要包括館藏業(yè)務(wù)管理系統(tǒng)、長期保存/典藏系統(tǒng)、知識庫系統(tǒng)、服務(wù)應(yīng)用展示系統(tǒng)四個方面(見圖4)。
圖3 ?數(shù)字人文平臺的需求設(shè)計Fig. 3 Demand Design of the Digital Humanities Platforms
圖4 應(yīng)用系統(tǒng)先進性Fig. 4 Advanced Systems of the Digital Humanities Platforms
4.1.1 系統(tǒng)維度
(1)技術(shù)架構(gòu)
系統(tǒng)維度首先看技術(shù)架構(gòu)。目前以微服務(wù)、容器、容器編排、服務(wù)網(wǎng)格、開發(fā)運維一體化(DevOps)、無服務(wù)器架構(gòu)等理念為特征的新一代“云原生”技術(shù)正在席卷互聯(lián)網(wǎng)應(yīng)用。擁有傳統(tǒng)IT無法比擬的優(yōu)勢,可以幫助用戶高效享受云技術(shù)的靈活性,使應(yīng)用進一步微型化、輕型化,支持更加靈活的松散耦合,更加獨立于底層基礎(chǔ)設(shè)施平臺,從而能實現(xiàn)熱插拔、平滑、快速開發(fā)、迅速擴展、穩(wěn)定運維、高容錯等,大大降低應(yīng)用成本,提高運行效率。目前云原生已經(jīng)成為云時代最新的技術(shù)標(biāo)準(zhǔn)。
當(dāng)前還沒有數(shù)字人文機構(gòu)采用云原生技術(shù),但圖書館領(lǐng)域正在流行的“下一代圖書館服務(wù)平臺”(Next Generation Library Service Platform,NGLSP)普遍采用微服務(wù)架構(gòu),尤其是美國開放圖書館基金會(Open Library Foundation,OLF)支持的開源FOLIO平臺(Future of Libraries Is Open,F(xiàn)OLIO)更是支持了云原生技術(shù)進行部署實施,其前后臺分離的設(shè)計和“平臺+App”的架構(gòu)有助于形成一個開放的軟件應(yīng)用生態(tài)(見圖5),數(shù)字人文平臺可以作為圖書館服務(wù)平臺的一個有機組成部分,共用其中某些模塊(例如用戶管理、資源管理等),也可以單獨拆分出去完全獨立,通過API進行互操作。
該設(shè)計可以進一步支持目前如日中天的技術(shù)概念,即“中臺”技術(shù)(見圖6),可形成獨立的業(yè)務(wù)中臺、技術(shù)中臺、數(shù)據(jù)中臺和AI中臺。所謂中臺,可以理解為將一些能夠重復(fù)調(diào)用的系統(tǒng)資源(數(shù)據(jù)資源、計算資源、軟件及算法模塊等資源)獨立并共享出來,支持平臺中的各類前臺或其他應(yīng)用模塊靈活調(diào)用,在技術(shù)架構(gòu)上具有無可比擬的先進性。當(dāng)然該技術(shù)畢竟發(fā)展還不到十年,其成熟度和標(biāo)準(zhǔn)化程度還不是太高,微服務(wù)帶來的應(yīng)用復(fù)雜性還難以預(yù)料和掌控,這也是新技術(shù)必然帶來的風(fēng)險。
參考上述圖書館服務(wù)平臺的系統(tǒng)架構(gòu),一個獨立的數(shù)字人文平臺可以包含文獻層、數(shù)據(jù)層、接口層、業(yè)務(wù)層(或稱服務(wù)層,包含各類工具調(diào)用)以及展現(xiàn)層等,依次提供技術(shù)、資源、平臺、服務(wù)和界面等相關(guān)功能,如圖7所示。隨著基于文獻的數(shù)字人文服務(wù)逐漸向基于數(shù)據(jù)的服務(wù)轉(zhuǎn)變,文獻也可以看成一種特殊的數(shù)據(jù)類型,納入數(shù)據(jù)管理統(tǒng)一的數(shù)據(jù)格式模塊,內(nèi)外部文獻和數(shù)據(jù)可以通過一定的協(xié)議規(guī)則進行發(fā)現(xiàn)和獲取,并通過標(biāo)準(zhǔn)接口進行整合,各類平臺內(nèi)服務(wù)和外部服務(wù)也可以通過制定行業(yè)標(biāo)準(zhǔn)進行規(guī)范化整合,從而達成數(shù)字人文平臺的互操作,于是可以很好地實現(xiàn)包弼德教授關(guān)于人文資源互聯(lián)互通、共建共享的設(shè)想。
圖5 ?下一代圖書館服務(wù)平臺FOLIO的系統(tǒng)架構(gòu)Fig. 5 System Architecture of the Next Generation Library Service Platform FOLIO
圖6 ?下一代圖書館服務(wù)平臺FOLIO的中臺設(shè)計Fig. 6 The Middle Platform Design of the Next Generation Library Service Platform FOLIO
圖7 ?數(shù)字人文平臺系統(tǒng)架構(gòu)圖示Fig. 7 System Architecture of the Digital Humanities Platforms
從數(shù)字人文的應(yīng)用場景來看,上述系統(tǒng)架構(gòu)有一定的獨特性,可以很好地支持和解決一些其它技術(shù)很難解決的問題:
① 知識單元的標(biāo)識及其管理問題。所有對人文研究具有獨立意義的實體或信息單元,如文獻,或人、地、時、事、物、事件、概念,以及各類屬性和取值詞表等,都需要有獨立的標(biāo)識(即ID),并統(tǒng)一ID編碼標(biāo)準(zhǔn),通常用http URI,其相互之間的關(guān)系如有必要可以通過建立本體知識庫來管理。當(dāng)然建立過程可以采用自動抽取加人工輔助校驗方式。
② 支持多種協(xié)議的跨網(wǎng)域搜索發(fā)現(xiàn)或獲取鏈接。例如OAI-PMH規(guī)范,各類RESTful+JSON的API規(guī)范、聯(lián)邦檢索頁面分析規(guī)范等。
③ 微服務(wù)的容器及編排規(guī)范。
④ 多種數(shù)據(jù)類型的管理,包括底層關(guān)系數(shù)據(jù)庫、圖數(shù)據(jù)庫(包括三元組語義數(shù)據(jù))、對象數(shù)據(jù)、流媒體的管理。
⑤ 復(fù)雜但統(tǒng)一的用戶及授權(quán)管理,包括遠程訪問管理。
云計算的極致狀態(tài)是完全去中心化的分布式計算,目前的最新發(fā)展是以區(qū)塊鏈應(yīng)用為特征、被稱為Web3.0的一套新的網(wǎng)絡(luò)平臺,這使得所有人文資源在底層都可以應(yīng)用區(qū)塊鏈技術(shù)進行確權(quán)和保護,包括二次文獻上鏈,對象數(shù)據(jù)采用IPFS、Arweave等去中心化網(wǎng)絡(luò)存儲方式提供永久存儲,同時對每一個館藏單元賦予非同質(zhì)化通證(Non-Fungible Token,NFT),這就解決了既要保護,又要最大程度開放的矛盾。只要設(shè)計出合理的運作模式,就能以某種智能合約方式形成去中心化自治組織(Decentralized Autonomous Organization,DAO),從而實現(xiàn)完全的自我運作,其他對于數(shù)字人文平臺所有的附加需求都可以圍繞這個Web3.0的資源體系進行設(shè)計開發(fā)。目前這種設(shè)計還十分超前,雖然技術(shù)都已成熟,但應(yīng)用尚屬首次,有些還是紙上談兵,尤其在文化遺產(chǎn)領(lǐng)域尚未有任何具體實現(xiàn)。目前整個以Web3.0為基礎(chǔ)的元宇宙應(yīng)用非常缺乏具體的應(yīng)用場景,人類記憶機構(gòu)的文化資源正好可以為其提供豐富的想象和精彩的實現(xiàn)。
(2)內(nèi)容架構(gòu)
內(nèi)容架構(gòu)是數(shù)字人文應(yīng)用系統(tǒng)非常獨特的架構(gòu),也是語義技術(shù)逐漸成熟帶來的一種能力,它通常通過領(lǐng)域驅(qū)動設(shè)計(Domain Driven Design,DDD)而獲得。數(shù)字人文平臺的內(nèi)容架構(gòu)反映了平臺中的數(shù)字化知識內(nèi)容的語義結(jié)構(gòu),這個結(jié)構(gòu)可以以知識本體、關(guān)聯(lián)數(shù)據(jù)、知識圖譜等方式進行形式化描述和表達,例如以各類描述詞表對人物、地點、時間、事件和各類對象的各類屬性和關(guān)系進行編碼,使計算機可以對表達知識的這些語義數(shù)據(jù)(可以理解為RDF數(shù)據(jù))進行操作,從而可以認為這些數(shù)據(jù)是機器可“理解”的,以至于可以認為整個知識庫中的大量內(nèi)容都是真實世界的一種映射,甚至可以能夠讓機器進行一定的“事實推理”。傳統(tǒng)的數(shù)據(jù)庫只能對字符串或二進制數(shù)據(jù)(如圖像數(shù)據(jù))進行操控,如全文檢索也就是一種完全基于字符的匹配。數(shù)字人文平臺對于信息資源的描述和組織可以認為是一種“數(shù)據(jù)化”過程,這一過程不一定完全依靠人類來做,很多都可以通過目前越來越成熟的機器學(xué)習(xí)和人工智能來實現(xiàn)。一旦機器能夠讀“懂”存儲的信息所蘊含的知識內(nèi)容,數(shù)字人文平臺就能幫人文學(xué)者做很多事情,可以成為能力超強的“研究助理”,它不會遺忘任何一個知識細節(jié),并且具有超快的計算能力。
有這樣一些需求涉及內(nèi)容框架:
① 一致性/相似性計算。
② 工作流定義對研究流程的支持。
③ 各類圖像功能(如圖像查詢、對比、標(biāo)注等)的支持。
④ 文本與圖像關(guān)聯(lián)(可提供加工平臺,或研究對比)。
⑤ 提供證據(jù)鏈服務(wù)(記錄從底層文獻到研究結(jié)果的整個過程中實體來源及變化,包括引用參考等)。
⑥ 海量數(shù)據(jù)可視化支持(遠讀)。
⑦ 事實的可信度計算及排序(需建立可迭代的可信度模型)。
⑧ 眾包數(shù)據(jù)加工平臺的數(shù)據(jù)管理。
⑨ 數(shù)據(jù)系統(tǒng)迭代進化的支持(數(shù)字化、文本化、數(shù)據(jù)化(實體提取、建立關(guān)聯(lián)等))。
內(nèi)容架構(gòu)是以“數(shù)據(jù)”為基本單位,這里的數(shù)據(jù)是指能夠被計算機處理的(即經(jīng)過形式化,或至少是代碼化的)、具有獨立標(biāo)識(例如URI)的最小語義單元,目前表示為RDF的關(guān)聯(lián)數(shù)據(jù)是一種最佳實踐,其它有不少簡化方法(例如采用圖數(shù)據(jù)庫技術(shù)實現(xiàn)的、不要求數(shù)據(jù)有全網(wǎng)域唯一標(biāo)識的“知識圖譜”)雖然也能實現(xiàn)一些功能,但并不屬于具有一定完備性的知識庫系統(tǒng)?;跀?shù)據(jù)的系統(tǒng)能夠進行組合、嵌套、遞歸從而成為更大的“數(shù)據(jù)”,也可以有自己的標(biāo)識,從而可以以各種格式組合成各種知識單元發(fā)布于各類媒體中。
人文平臺中的知識內(nèi)容既然以“數(shù)據(jù)”的方式存在,就應(yīng)該符合當(dāng)前在研究數(shù)據(jù)管理實踐中被廣泛認可的FAIR原則,即科學(xué)數(shù)據(jù)應(yīng)具有可查詢(Findable)、可 獲 ?。ˋccessible)、可 互 操 作(Interoperable)并且可重利用(Reusable)等性質(zhì):
① 可查詢指數(shù)字人文平臺中的數(shù)據(jù)應(yīng)該很容易被人或者機器查詢到。這有賴于相關(guān)的數(shù)據(jù)集或者數(shù)據(jù)服務(wù)是否以清晰明確的方式進行標(biāo)識、描述、注冊和索引。給數(shù)字資源分配一個唯一永久標(biāo)識符是一項基本要求,同時數(shù)字資源應(yīng)該有充分的元數(shù)據(jù)注釋,數(shù)字資源的主要特征應(yīng)該以標(biāo)準(zhǔn)格式被記錄,應(yīng)該在公開的數(shù)據(jù)庫存儲和索引等。
② 可獲取指數(shù)字人文平臺中的數(shù)字資源的獲取方式應(yīng)該進行清晰定義,包括如何獲得受保護數(shù)據(jù)的使用授權(quán)。在理想情況下應(yīng)該是一種自動化的方式進行獲取數(shù)據(jù)的驗證,判斷是否符合授權(quán)條件,至少元數(shù)據(jù)應(yīng)該是無條件可獲取的,即使在原始數(shù)據(jù)已經(jīng)不再提供服務(wù)的情況下也應(yīng)該能夠獲取元數(shù)據(jù)。
③ 可互操作是指如果同一個實體對象有兩個或者更多的數(shù)據(jù)進行表達,系統(tǒng)應(yīng)該可以自動進行指代或整合。網(wǎng)絡(luò)服務(wù)可以自動判斷它與目標(biāo)數(shù)據(jù)之間是否兼容。這要求數(shù)據(jù)資源或者網(wǎng)絡(luò)服務(wù)的描述具有語義上足夠的清晰度。
④ 可重用是指要根據(jù)研究領(lǐng)域的標(biāo)準(zhǔn),對數(shù)據(jù)的來源信息進行記錄和跟蹤。這些來源出處信息包括準(zhǔn)確的數(shù)據(jù)描述、取用方式和應(yīng)用許可等。這樣,無論人還是機器都可以判斷目標(biāo)數(shù)據(jù)資源是否可以重用,可以以怎樣的方式進行重用等。
這四個原則與關(guān)聯(lián)數(shù)據(jù)的五星原則很類似,因此如果采用關(guān)聯(lián)數(shù)據(jù)技術(shù),則很容易滿足FAIR原則。但并不是所有數(shù)字人文平臺都能夠很方便地利用關(guān)聯(lián)數(shù)據(jù)技術(shù),其中涉及實現(xiàn)的復(fù)雜性、效率和成本等問題,以及語義技術(shù)本身的成熟度問題,因此目前的數(shù)字人文平臺大多采用最成熟可用的技術(shù),以關(guān)聯(lián)數(shù)據(jù)甚至智慧數(shù)據(jù)為代表的語義技術(shù)是一個未來發(fā)展方向。
4.1.2 應(yīng)用維度
數(shù)字人文平臺大多由人類記憶機構(gòu),如圖書館、博物館、美術(shù)館、檔案館等進行建設(shè)和維護。作為數(shù)字人文基礎(chǔ)設(shè)施的主要組成機構(gòu),他們的主要業(yè)務(wù)和服務(wù)都是圍繞人文資源展開的,一個較為完整的平臺通常可以分為四個層次:
(1)館藏業(yè)務(wù)管理系統(tǒng)
這主要指對物理藏品或數(shù)字藏品的載體,從收集、入藏到轉(zhuǎn)移、剔除或損毀的整個生命周期過程的管理,包括藏品管理系統(tǒng)。它提供了所有館藏內(nèi)容最初的來源和版本信息,是循證研究的源頭,并通過業(yè)務(wù)過程的管理保證整個館藏體系是一個不斷發(fā)展變化的“活”的有機體。
(2)長期保存/典藏系統(tǒng)
即上述業(yè)務(wù)管理系統(tǒng)中的藏品管理系統(tǒng)的數(shù)字化版本,通常是能夠保留最真實和完整信息的保存級數(shù)字文件,借助顯示或其它設(shè)備,能夠還原物理藏品的內(nèi)容或形態(tài),高級形式可以看成是每個館藏的“數(shù)字孿生”,可供研究人員進行各種實驗、模擬和深度研究。當(dāng)然,任何數(shù)字化版本都不可能保留原始對象的所有信息,總是會有所損失,所以依賴技術(shù)的不斷進步,未來可能需要對館藏進行再次數(shù)字化。這類系統(tǒng)目前主要采用關(guān)系型數(shù)據(jù)庫加文件系統(tǒng)的方式實現(xiàn),更為先進的采用了NoSQL數(shù)據(jù)庫的大數(shù)據(jù)方式,基于云服務(wù)架構(gòu)。而現(xiàn)在應(yīng)該采用云原生架構(gòu)加數(shù)據(jù)中臺方式,這樣就能夠提供底層藏品管理系統(tǒng)與上層知識庫系統(tǒng)之間的橋梁,同時提供大量的API供知識庫系統(tǒng)和服務(wù)應(yīng)用展示前臺調(diào)用[8],這些API可以以標(biāo)準(zhǔn)方式發(fā)布于互聯(lián)網(wǎng),從而實現(xiàn)數(shù)字人文平臺的全網(wǎng)域互操作。鑒于將來的數(shù)字人文研究都是基于數(shù)據(jù)的研究,有了這樣的典藏系統(tǒng),就可以解決絕大多數(shù)人文學(xué)者在研究、教學(xué)中的需要。
(3)知識庫系統(tǒng)
目前似乎還沒有一個恰當(dāng)?shù)男g(shù)語來描述這樣一種系統(tǒng),最接近的詞匯可能就是“語義知識庫系統(tǒng)”,指應(yīng)用了語義萬維網(wǎng)技術(shù)對領(lǐng)域知識建立相互關(guān)聯(lián)的知識體系,其知識單元是采用RDF形式(即主-謂-賓結(jié)構(gòu))描述的語義判斷,而整個知識大廈是用知識本體語言O(shè)WL或OWL2組織起來,其背后的數(shù)學(xué)基礎(chǔ)是一元謂詞邏輯。數(shù)字人文平臺的內(nèi)容架構(gòu)主要是由知識庫系統(tǒng)提供的。其簡化版就是采用關(guān)聯(lián)數(shù)據(jù)的系統(tǒng),更簡化的一個版本是目前十分熱門的利用“知識圖譜”技術(shù)所支持的系統(tǒng)。這類系統(tǒng)在人工智能領(lǐng)域?qū)儆凇胺枌W(xué)派”,與過去的專家系統(tǒng)同屬一類,是將人的知識代碼化形成規(guī)模之后,就具備了某種智能,現(xiàn)在與連結(jié)學(xué)派和概率學(xué)派有融合的趨勢,作為人工標(biāo)注或結(jié)構(gòu)化的數(shù)據(jù)提供機器學(xué)習(xí),從而具有自動獲取知識的能力。數(shù)字人文平臺需要大量的底層“知識庫”來支撐各類數(shù)據(jù)的語義解釋和關(guān)聯(lián)關(guān)系,例如人名、地名、機構(gòu)名、朝代、官職、譜系、辭典、詞表等,幾乎所有的工具書都可以提供知識關(guān)聯(lián),所有的知識生產(chǎn)都是建立在過去知識的基礎(chǔ)上,與這些底層知識庫都可以建立起邏輯聯(lián)系,最強大的是這些知識庫都是以某種方式在整個互聯(lián)網(wǎng)上提供共享,所有基于知識庫和標(biāo)準(zhǔn)描述方式的術(shù)語詞表都可以達成全網(wǎng)域的語義互操作。
(4)服務(wù)應(yīng)用展示系統(tǒng)
這是數(shù)字人文平臺中絕大多數(shù)功能得以實現(xiàn)和展現(xiàn)的前臺,也是各類工具與后臺數(shù)據(jù)進行連結(jié)的中介,通常以桌面或移動應(yīng)用,以及瀏覽器方式提供。所有的搜索、瀏覽、展示(包括可視化)、眾包和用戶空間功能都在這里以App方式提供,這樣有助于達成大量的第三方應(yīng)用App的開發(fā)和發(fā)布,形成一個開放強大的數(shù)字人文應(yīng)用和工具的生態(tài)環(huán)境,從而很容易實現(xiàn)包弼德教授提出的為第三方數(shù)據(jù)、第三方工具、第三方圖書館定制免費公開的元數(shù)據(jù)訪問和數(shù)據(jù)共享的規(guī)范和方案[3]。
資源完整、功能完備、界面友好,是任何一個信息系統(tǒng)的基本要求。當(dāng)然,不同的系統(tǒng)對這三個方面的具體需求是不同的。一個好的數(shù)字人文平臺至少要在這三個方面達到最低要求,同時要注意三者之間的平衡。
4.2.1 資源完整性
人文研究者在選定了研究問題之后,第一步就是要查詢資料。很多機構(gòu)在建設(shè)數(shù)據(jù)庫或提供查詢時只從自己已有的或訂購的資源入手,這是不夠的,還必須考慮到是否有辦法提供外部資源的發(fā)現(xiàn),甚至直接獲取。要實現(xiàn)這一點,就要應(yīng)用元數(shù)據(jù)收割方案,例如OAI-PMH,或開發(fā)標(biāo)準(zhǔn)或個性化的API,其中涉及很多考慮因素和資源互操作的具體技術(shù),包括利用知識庫系統(tǒng)實現(xiàn)不同系統(tǒng)間的語義互操作,如圖8所示。
4.2.2 功能完備性
數(shù)字人文平臺需要考慮很多與過去數(shù)據(jù)庫檢索系統(tǒng)不同的功能,過去的系統(tǒng)主要是以文獻為主要內(nèi)容,根據(jù)數(shù)據(jù)庫字段(即高級檢索)或全文檢索能夠定位到具體的文獻,再通過鏈接解析或其他方式獲得原文。而數(shù)字人文系統(tǒng)由于提供了以“數(shù)據(jù)”為基礎(chǔ)的存儲、關(guān)聯(lián)和查詢能力,因此多了與“知識庫”相關(guān)的很多語義功能,而且在搜索、瀏覽、管理等方面都能夠全面支持基于知識的操作(例如SPARQL查詢、分面組配等),有時甚至還包含邏輯推理的功能實現(xiàn)(如啟發(fā)式搜索),如圖9所示。
圖8 ?數(shù)字人文平臺的資源要素Fig.8 Resources Constituents of the Digital Humanities Platforms
數(shù)字人文平臺還有一個特質(zhì)是要利用眾包讓用戶參與到系統(tǒng)的建設(shè)中來,這是當(dāng)前幾乎所有數(shù)字人文應(yīng)用都采取的方式,因為僅僅通過圖書館或相關(guān)機構(gòu)工作人員的工作是不可能實現(xiàn)海量高質(zhì)量數(shù)據(jù)加工的。
4.2.3 用戶友好性
當(dāng)前的信息系統(tǒng)對用戶友好性的要求越來越高,這也是對系統(tǒng)界面提出的要求,除了一般的方便友好、美觀簡潔之外,能否提供良好的個性化服務(wù)成為系統(tǒng)能否留住用戶的重要特性,而且個性化服務(wù)大量采用了人工智能技術(shù)(見圖10)。當(dāng)然,由于個性化的前提是需要有用戶注冊登錄等用戶管理功能,且對用戶的行為也會進行一定的收集,這涉及到用戶隱私問題,平臺在設(shè)計開發(fā)時必須考慮到隱私保護與個性化之間的平衡,很多研究工具的提供應(yīng)該能同時支持本地脫機版和上傳網(wǎng)絡(luò)版兩種不同的運行方式,當(dāng)然兩者在功能細節(jié)上可以有所不同。
圖9 ?數(shù)字人文平臺的功能Fig. 9 Comprehensive Functions of the Digital Humanities Platformst
利用大量的數(shù)字人文工具進行研究是數(shù)字人文區(qū)別于傳統(tǒng)人文最重要的特點之一。工具是方法的重要組成,成熟的方法往往通過工具的開發(fā)而得以固化,并且負載了大量前人的經(jīng)驗總結(jié)。傳統(tǒng)人文研究能夠獨立的工具不多,且資料的收集、閱讀和加工處理往往是一體化、個人化的,工具很難獨立于資料,有的甚至很難獨立于研究團隊。這也是為什么有許多人文社會科學(xué)學(xué)派往往是得益于獨特的方法。
工具要求越豐富越好,但這里討論的只是人文研究可能用到的具有一定通用性的工具,以及這些工具的常見功能,數(shù)字人文學(xué)者可以通過這些工具的組合,結(jié)合資源和研究過程,發(fā)展出自己獨特的方法。這些工具可以有一定的獨立性,但依附于平臺能夠更好地發(fā)揮作用,因此平臺將致力于深入研究人文學(xué)者的需求,推出大量的標(biāo)準(zhǔn)規(guī)范,從而讓大量第三方都能夠開發(fā)自己的獨特工具,甚至工具與資源或知識庫的結(jié)合體,從而有助于形成一個應(yīng)用生態(tài),以及工具App市場。
這里將工具劃分為平臺性工具(包括數(shù)據(jù)工具、IIIF、GIS、文獻計量工具、閱讀工具、社會關(guān)系工具)、文本工具、圖像工具、知識圖譜工具、機器學(xué)習(xí)工具和可視化工具等六大類(如圖11所示)。上述分類的合理性需要進一步探討,其中涉及的內(nèi)容也遠不是對各類工具的窮盡例舉,僅僅作為一個討論的基礎(chǔ),供具體進行工具開發(fā)和平臺建設(shè)時參考。
(1)平臺性工具
這里的平臺是指網(wǎng)絡(luò)上可以實現(xiàn)一定的功能、有特定輸入輸出的環(huán)境,平臺性工具就是依附于平臺的軟件工具,或自身就是一個獨立的工具,它通常需要結(jié)合一定的數(shù)據(jù),與一些組件配合,并經(jīng)過一定的流程才能達到目的。例如IIIF(國際圖像互操作框架)就是一個功能強大的綜合性圖片平臺,由多個服務(wù)器靈活組合而成,它本身就可以成為數(shù)字人文的服務(wù)平臺,這里之所以作為一種工具,因為它提供了大量的關(guān)于圖像的操作功能,如搜索、縮放、旋轉(zhuǎn)、標(biāo)注、比較等,可以應(yīng)用于人文研究,非常強大。類似的還有數(shù)據(jù)處理平臺工具、GIS平臺工具、文獻計量平臺工具、社會網(wǎng)絡(luò)分析工具以及閱讀平臺工具等。
(2)文本工具
文本是數(shù)字人文利用最多的資源類型,文本工具也是數(shù)字人文工具中種類最多、使用最頻繁的工具,也是目前開發(fā)最成熟的工具類型。上圖列出的是常用工具,一些綜合性的文本工具,如“遠讀”“細讀”則列在平臺性工具類目下。
(3)圖像工具
通常所有的圖像掃描、處理軟件都可以作為數(shù)字人文的圖像工具,這里僅列出數(shù)字人文項目非常常用的工具類型,如圖像特征提取工具、圖像分類/聚類工具和基于圖像的搜索工具等,圖像平臺IIIF已作為平臺類工具列出。
(4)知識圖譜工具
知識圖譜是數(shù)字典藏向數(shù)字人文進化的關(guān)鍵技術(shù)之一,這里將關(guān)聯(lián)數(shù)據(jù)、語義萬維網(wǎng)技術(shù)都歸入知識圖譜。這類工具包括了實體提取、URI賦值、詞表模式、本體構(gòu)建等語義化工具,本體/詞表管理、語義映射、RDF語義數(shù)據(jù)存儲等語義管理工具以及SPARQL、啟發(fā)式搜索、分面呈現(xiàn)等語義搜索、展示和利用工具等。
(5)機器學(xué)習(xí)工具
當(dāng)前,數(shù)字人文的大量應(yīng)用都用到了人工智能領(lǐng)域的機器學(xué)習(xí)技術(shù)。從OCR到實體提取,從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí),無一不能應(yīng)用于數(shù)字人文研究的各個過程。機器學(xué)習(xí)最大的特點是離不開數(shù)據(jù),尤其是海量的數(shù)據(jù),因此數(shù)字人文平臺中的數(shù)據(jù)是其產(chǎn)生作用的前提條件,而由數(shù)據(jù)訓(xùn)練出來的機器學(xué)習(xí)模型又可以應(yīng)用于更廣泛的數(shù)據(jù)中,這是它的運作方式,也是它的價值所在。
(6)可視化工具
可視化是數(shù)字人文進行數(shù)據(jù)操控、展示和結(jié)果呈現(xiàn)必不可少的工具,也是數(shù)字人文區(qū)別于傳統(tǒng)人文的重要特質(zhì)??梢暬m然有很多工具,但現(xiàn)在基于互聯(lián)網(wǎng)的工具已成為主流,正在成熟起來。它后臺連接的數(shù)據(jù)可以是平臺上已有的數(shù)據(jù),或者挖掘出來的數(shù)據(jù),或者是用戶上載的數(shù)據(jù),是否支持多種應(yīng)用方式取決于平臺架構(gòu)設(shè)計的靈活性。
圖10 ?數(shù)字人文平臺的用戶體驗Fig. 10 User Experience of the Digital Humanities Platforms
圖11 ?數(shù)字人文研究工具Fig. 11 Tools of the Digital Humanities Research Platforms
上海圖書館正在建設(shè)的歷史人文大數(shù)據(jù)平臺,就是應(yīng)用上述理念和技術(shù),依托自身資源,向全社會提供一個先進、開放、全面的數(shù)字人文服務(wù)平臺。打造這個平臺主要有三個目的:一是升級原有的數(shù)字圖書館系統(tǒng);二是提供基于“知識”的數(shù)字人文服務(wù);三是試驗一些互聯(lián)互通共建共享的新協(xié)議與新模式。其實就是作為對前述數(shù)字人文發(fā)展趨勢進行應(yīng)對的一種嘗試。
實現(xiàn)這三個目的有兩條現(xiàn)實可行的路徑:其一,從現(xiàn)有的數(shù)字圖書館系統(tǒng)出發(fā),也就是從目前上海圖書館館藏特色資源出發(fā),升級技術(shù)架構(gòu)和內(nèi)容架構(gòu):技術(shù)架構(gòu)全面微服務(wù)化、容器化和平臺化,支持外部資源與服務(wù)通過各種標(biāo)準(zhǔn)或非標(biāo)準(zhǔn)方式(推薦RESTful API)接入;內(nèi)容架構(gòu)進行“數(shù)據(jù)化”改造,支持“基于知識的服務(wù)”。其二,從數(shù)字人文研究者的角度出發(fā),規(guī)劃所有人文資源的整合方案,從提供資源到提供平臺環(huán)境(包括工具),努力實現(xiàn)主要數(shù)字人文應(yīng)用場景的“一站式”服務(wù)。
上海圖書館走上數(shù)字化道路已經(jīng)有四分之一個世紀。從1996年位于上海淮海中路的“新館”開館,就開始古籍?dāng)?shù)字化項目,并且參與了中國最早的由國家圖書館牽頭的“試驗性數(shù)字圖書館計劃”,成立專門部門,每年耗費巨資進行特色資源的數(shù)字化工作,從無間斷。
僅僅數(shù)字化是不夠的,提供知識服務(wù)是圖書館的根本宗旨。早期重視數(shù)字化,但對于數(shù)字典藏系統(tǒng)的建設(shè)并沒有充分重視,因此數(shù)字資源的整合服務(wù)一直沒有充分開展。到2016年,上海圖書館嘗試以最具特色的館藏家譜資源為案例,開始了以服務(wù)為導(dǎo)向的系統(tǒng)開發(fā)嘗試,取得了不錯的效果,迄今家譜系統(tǒng)一直是數(shù)字典藏中利用效果最好的資源之一。
為了建設(shè)具有知識關(guān)聯(lián)的數(shù)字人文服務(wù)系統(tǒng),底層知識庫平臺建設(shè)是必不可少的,這也是數(shù)字人文基礎(chǔ)設(shè)施最困難的內(nèi)容。近幾年我們還陸續(xù)構(gòu)建了人名規(guī)范、地名規(guī)范、地理名稱規(guī)范、機構(gòu)規(guī)范等規(guī)范知識庫,可以支持目前列入計劃的特色資源庫的底層知識關(guān)聯(lián),并開始開發(fā)一些工具,提供眾包、標(biāo)注、分析、可視化等功能。
正是由于有了底層知識庫的支持,上海圖書館的特色資源庫才有可能做一個全面規(guī)劃,將來各類數(shù)字人文系統(tǒng)可以在一個統(tǒng)一的平臺上,我們稱之為歷史人文大數(shù)據(jù)平臺。雖然這一平臺尚未建成,但已經(jīng)經(jīng)過了初步嘗試,證明了技術(shù)和工程上的可行性和可能性,且數(shù)據(jù)也有一定規(guī)模。目前,我們除家譜庫外,正在開發(fā)的還有古籍庫(包括精品善本庫)、碑帖庫、地方志庫、手稿尺牘庫、名人檔案庫(如盛宣懷檔案、張佩綸檔案等)、民國資源庫(包括書刊報)等,這些文獻如按照數(shù)字人文研究的要求,可以建立無數(shù)個基于各類學(xué)科或主題的知識庫,可以匯總在一個平臺上提供滿足各類需求的統(tǒng)一服務(wù),通過一定的開放鏈接協(xié)議,可以將全網(wǎng)域的各類資源連為一體,組成一個虛擬中文數(shù)字人文平臺。
對于一個資源眾多、用戶復(fù)雜、目標(biāo)多重的服務(wù)平臺來說,“主頁”概念是不適用的。歷史人文大數(shù)據(jù)平臺雖然設(shè)計了一個主入口,但它的作用只相當(dāng)于“游客中心”甚至是“疏散中心”,主要起到宣傳、導(dǎo)航、資源發(fā)現(xiàn)和用戶培訓(xùn)的作用。任何一個簡單的搜索,都可以返回所有資源庫中(甚至外部聯(lián)邦檢索或搜索引擎)的命中內(nèi)容,這樣能夠讓隨便逛逛的讀者也有所收獲,同時用戶對自己感興趣的主題可以通過哪些資源庫獲得有一個非常直觀的認識,使帶有目的的讀者能夠迅速找到屬于自己的入口。
平臺對所有的專題庫(包括文獻庫、知識庫和工具庫三類)都有一個入口,其中大多數(shù)文獻庫都以元數(shù)據(jù)庫加掃描圖片方式提供,個別有全文,知識庫和工具庫都支持響應(yīng)式H5接口,可嵌入各類App。
我們把平臺用戶分為四類:普通用戶、專業(yè)用戶、系統(tǒng)用戶和機器用戶,普通用戶是無需用戶認證即可來“隨便逛逛”的用戶,平臺會有很多線上展覽、人文講座、推廣活動、技能培訓(xùn)等內(nèi)容發(fā)布。專業(yè)用戶是平臺服務(wù)的主體,通常是經(jīng)過注冊的研究人員或大學(xué)師生,也可能是相關(guān)機構(gòu)中的個人用戶(登錄為單位用戶或以IP控制方式提供權(quán)限管理),這類用戶除非使用主頁中的搜索框進行資源發(fā)現(xiàn)(搜索框在各相關(guān)頁面也都會出現(xiàn)),一般無須從主入口進入,只要瀏覽器保留了登錄Cookie,域名會直接將其定位到他自己的個性化頁面,該頁面已經(jīng)將其經(jīng)常使用或可能用到的專業(yè)資源入口與各類服務(wù)功能集成在一起了,每個用戶的專業(yè)入口都是個性化的,與“我的空間”捆綁,用戶如果不滿意,也可以在“我的空間”中修改參數(shù)設(shè)定。系統(tǒng)用戶是那種參與數(shù)據(jù)加工或項目研發(fā)的用戶,這是“平臺性”的具體體現(xiàn),作為平臺,不是一個私有的封閉系統(tǒng),而應(yīng)該有一定的開放性,屬于整個社區(qū),允許大家參與共建、分享成果,因此必然有一類用戶通過貢獻內(nèi)容、參與數(shù)據(jù)加工或功能開發(fā)而具有更多的權(quán)限。最后一類“機器用戶”就是指通過API或其他接口直接消費數(shù)據(jù)的計算機程序,這樣能將平臺與互聯(lián)網(wǎng)上其他應(yīng)用連為一體,使“一站式”服務(wù)成為可能。
表5 ?歷史人文大數(shù)據(jù)平臺提供的服務(wù)Table 5 Services Provided by the Digital Humanities Platform of Shanghai Library
續(xù)表5
平臺提供的所有服務(wù)可以分為“場景”“故事”和“功能”三個層次,分別對應(yīng)三類用戶,提供不同的功能組合,詳細如表5所示?!皥鼍啊笨纱致缘貙?yīng)于前述數(shù)字人文研究的“行為”,例如搜索、瀏覽、下載、閱讀等,故事是組成場景的若干種應(yīng)用,而“功能”是平臺提供的最小單位的模塊,通常對應(yīng)于目前云原生應(yīng)用架構(gòu)中的“微服務(wù)”。這里的服務(wù)基本都還是用戶直接可用的部分內(nèi)容,后臺其實還有大量的微服務(wù),由于與平臺用戶并無直接關(guān)系,這里就不詳述了。
數(shù)字人文平臺建設(shè)的愿景是讓人文研究不再困難。從雅典學(xué)園到文藝復(fù)興,從魯國杏壇到康梁變法,兩千年來人文學(xué)者的創(chuàng)造性思考從來都是依靠個體的博覽群書與博聞強記,依靠師徒私授或?qū)W派論戰(zhàn),思想的誕生、學(xué)說的完善,以及對社會實踐的影響主要依靠的是個人的能力,人文知識的產(chǎn)生、發(fā)展和傳播的整個過程是偶然、不清晰和不確定的,每位學(xué)者都要從最原始的篇章學(xué)起,遍歷所有典籍并考察整個源流,窮極一生只能成為專家而無法成就大家,而數(shù)字人文正在第一次給人文研究帶來革命。針對人文研究的完整過程,數(shù)字人文已能夠分而治之:首先,使資料查詢和獲取不再困難,然后使知識存儲、傳播和利用不再困難;其次,讓分析、比較,形成觀點不再困難;最后,使結(jié)果展示、交流和爭鳴不再困難。人文學(xué)者不再是單打獨斗而是集團作戰(zhàn),無須管中窺豹而是直接綜攬全局盡情把握,人文研究的規(guī)律與方法將得到更好的揭示,人文成果的發(fā)表形式將不限于書刊,人文學(xué)說的比較與評價將更方便地在實踐中得到檢驗和反饋,為人文研究提供的服務(wù)能力將更快地得到迭代和提高。照此發(fā)展下去,那么問題來了:如果數(shù)字人文充分采用了人工智能技術(shù),推向極致,可能機器也能自動進行人文研究。此時的人文,還是人文嗎?其實數(shù)字人文的終極意義還是在于以科技強化人文,而不是將人文變成被動機械的對象,進行去價值化和無意義化。最終的意義呈現(xiàn),其主體是人類自身。當(dāng)所有的人文都是數(shù)字人文時,“數(shù)字”與“人文”才能夠真正合為一體,那時“數(shù)字”的工具性特征便不再重要,人文研究此時便能回歸本源,真正彰顯人類的價值和生命的意義。這也是我們要用盡所有先進技術(shù),推進數(shù)字人文平臺的開發(fā)與建設(shè)的根本原因所在。
作者貢獻說明
劉圣嬰,王麗華:提出研究思路,論文撰寫與修改;
劉煒:論文擬題,修改與定稿;
劉倩倩:收集資料,撰寫論文。
附表1?中文數(shù)字人文代表性數(shù)據(jù)庫和資源網(wǎng)站Appendix 1 Representative Digital Humanities Databases and Sites for China Studies
續(xù)附表1
續(xù)附表1
附表2?中國大陸以外地區(qū)主要數(shù)字人文數(shù)據(jù)庫名錄Appendix 2 List of Major Digital Humanities Databases Outside China's Mainland