文/趙薇
20世紀(jì)末以來(lái),飛速發(fā)展的數(shù)據(jù)科學(xué)和信息網(wǎng)絡(luò)技術(shù),越來(lái)越普遍地影響了人文知識(shí)的獲取、管理、分析、闡釋、共享和再生產(chǎn)等基本環(huán)節(jié),深刻重塑了人文社會(huì)科學(xué)的方法基礎(chǔ)和研究形態(tài)。由人文計(jì)算(Humanities Computing)轉(zhuǎn)化而來(lái)的數(shù)字人文(Digital Humanities,DH)成為全球范圍內(nèi)興起的知識(shí)生產(chǎn)范型。盡管數(shù)字人文的基本界定尚處于廣泛爭(zhēng)議和多元發(fā)展中,在中國(guó),這一領(lǐng)域仍以其鮮明的實(shí)踐性特色,吸引了不同學(xué)科的學(xué)者投身其中,形成了跨學(xué)科、跨地域,甚至跨文化和語(yǔ)言共生的協(xié)作型研究社群。數(shù)字人文項(xiàng)目從無(wú)到有,相繼孵育成熟,紛紛進(jìn)入頗為可觀的成果產(chǎn)出期。
中國(guó)大陸數(shù)字化和文獻(xiàn)計(jì)量的歷史,可追溯至20世紀(jì)80—90年代古籍?dāng)?shù)字化的先驅(qū)工作。這些工作充分借助紙本索引,為數(shù)字化查詢積累了經(jīng)驗(yàn),尤其處理了早期數(shù)字化過(guò)程中的中文編碼和字符集受限等問(wèn)題。錢鍾書先生早在1984年就開(kāi)始在中國(guó)社會(huì)科學(xué)院倡導(dǎo)把計(jì)算機(jī)技術(shù)引入中國(guó)古典文獻(xiàn)的搜集、疏證和整理中。90年代中期后,隨著 GBK字符集擴(kuò)展到兩萬(wàn)多個(gè)漢字并可支持繁體,OCR技術(shù)成熟,互聯(lián)網(wǎng)興起,各種通用的電子文獻(xiàn)整理平臺(tái)應(yīng)運(yùn)而生。1996年,上海圖書館率先建成“中國(guó)古籍善本查閱系統(tǒng)”,隨后國(guó)家圖書館正式啟動(dòng)“中國(guó)數(shù)字圖書館工程”。中文自然語(yǔ)言處理利用語(yǔ)料統(tǒng)計(jì)來(lái)建立算法模型,完成音素、字詞、句子、段落、篇章等不同單位上的詞頻統(tǒng)計(jì)、標(biāo)注和分析等任務(wù)。2003年以后,機(jī)器學(xué)習(xí)在一些任務(wù)上的測(cè)評(píng)顯示出優(yōu)于人工規(guī)則的效果。清華大學(xué)、哈爾濱工業(yè)大學(xué)、南京師范大學(xué)等相關(guān)團(tuán)隊(duì)機(jī)構(gòu)在漢語(yǔ)自動(dòng)分詞、語(yǔ)義計(jì)算、文本分類、意見(jiàn)挖掘、實(shí)體識(shí)別等典型任務(wù)上有了重要突破,形成了一個(gè)個(gè)可持續(xù)發(fā)展的技術(shù)熱區(qū),為后來(lái)數(shù)字人文中文本挖掘的研究面向積累了關(guān)鍵經(jīng)驗(yàn)。文史領(lǐng)域仍傾向于采取簡(jiǎn)單易行的計(jì)量方法。如陳大康在20世紀(jì)80年代中期用耗時(shí)的人工統(tǒng)計(jì)步驟,對(duì)《紅樓夢(mèng)》作者統(tǒng)一性問(wèn)題進(jìn)行再檢驗(yàn),反駁了陳炳藻利用計(jì)算機(jī)得出的結(jié)論等。
中國(guó)的量化史學(xué)悄然復(fù)興。蜚聲海內(nèi)外的李中清-康文林團(tuán)隊(duì),自1979年起逐步建立基于八旗戶口冊(cè)和清代皇室族譜資料的“中國(guó)多代人口系列數(shù)據(jù)庫(kù)”。還有90年代初興起,由哈佛大學(xué)、臺(tái)灣“中研院”、北京大學(xué)合建,2007年正式對(duì)外開(kāi)放的“中國(guó)歷代人物傳記資料庫(kù)”(CBDB);復(fù)旦大學(xué)歷史地理研究中心和哈佛大學(xué)共建的“中國(guó)歷史地理信息系統(tǒng)”(CHGIS)等。
2009年,“數(shù)字人文”第一次以今天的義涵出現(xiàn)在中國(guó)大陸學(xué)界。2011年,大陸首個(gè)數(shù)字人文研究中心落戶武漢大學(xué)。大陸學(xué)者開(kāi)始有意識(shí)地發(fā)表相關(guān)文章,對(duì)圖書檔案情報(bào)和信息管理學(xué)界而言,數(shù)字人文將成為超越數(shù)字圖書館的下一個(gè)“大趨勢(shì)”。王曉光團(tuán)隊(duì)對(duì)敦煌壁畫圖像語(yǔ)義描述層次模型的實(shí)證研究,包平團(tuán)隊(duì)對(duì)農(nóng)業(yè)物產(chǎn)類方志古籍地名識(shí)別系統(tǒng)的研究和建構(gòu),郭金龍、許鑫等對(duì)文本挖掘的初步探索,黃水清、王東波、陳小荷等關(guān)于先秦文獻(xiàn)的分詞、命名實(shí)體識(shí)別,以及多位學(xué)者使用聚類方法研究作者歸屬問(wèn)題等都取得了令人矚目的進(jìn)展。在傳統(tǒng)文史哲等學(xué)科,只有零星學(xué)者關(guān)注數(shù)字人文,2013年陳靜翻譯了蘇珊·霍基等人的文章,并對(duì)數(shù)字人文在英美的發(fā)展和爭(zhēng)論作了檢討性綜述。綜論性文章有陳剛《“數(shù)字人文”與歷史地理信息化》(2014),王濤《挑戰(zhàn)與機(jī)遇:“數(shù)字史學(xué)”與歷史研究》(2015),王兆鵬《建設(shè)中國(guó)文學(xué)數(shù)字化地圖平臺(tái)的構(gòu)想》(2012),鄭永曉《情感計(jì)算應(yīng)用于古典詩(shī)詞研究芻議》(2012),劉京臣《大數(shù)據(jù)時(shí)代的古典文學(xué)研究——以數(shù)據(jù)分析、數(shù)據(jù)挖掘與圖像檢索為中心》(2015)等。地理信息系統(tǒng)、文本挖掘、文體測(cè)量、網(wǎng)絡(luò)分析等方法與傳統(tǒng)問(wèn)題結(jié)合,產(chǎn)生了一些頗有創(chuàng)建的應(yīng)用個(gè)案,如許超《〈左傳〉的語(yǔ)言網(wǎng)絡(luò)與社會(huì)網(wǎng)絡(luò)研究》(2014),趙思淵《19世紀(jì)徽州鄉(xiāng)村的土地市場(chǎng)、信用機(jī)制與關(guān)系網(wǎng)絡(luò)》(2015),趙薇《“社會(huì)網(wǎng)絡(luò)分析”在現(xiàn)代漢語(yǔ)歷史小說(shuō)研究中的應(yīng)用初探——以李劼人的〈大波〉三部曲為例》(2015)等。
被視為標(biāo)桿的“中國(guó)歷代人物傳記資料庫(kù)”項(xiàng)目由包弼德(Peter K.Bol)教授牽頭,經(jīng)過(guò)10多年辛苦的元數(shù)據(jù)標(biāo)注,為目前世界上最大的中國(guó)歷史人物傳記資料分析數(shù)據(jù)庫(kù)。臺(tái)灣地區(qū)在這一時(shí)期也經(jīng)歷了由“數(shù)位典藏”向“數(shù)位人文”的轉(zhuǎn)型,由單純的資料檢索向更深入的文本挖掘思維進(jìn)步。2012年“臺(tái)灣大學(xué)數(shù)位人文研究中心”的成立亦標(biāo)志著臺(tái)灣地區(qū)數(shù)字人文學(xué)自主性的形成。
2016年起,數(shù)字人文在中國(guó)大陸進(jìn)入加速發(fā)展的建制化階段,相關(guān)論文的發(fā)表量呈直線遞增趨勢(shì)。數(shù)字人文的基本內(nèi)涵、應(yīng)用實(shí)踐和未來(lái)走向獲得了圖博檔領(lǐng)域的高度關(guān)注,迅速成為當(dāng)下最受歡迎的科際整合新方向。人文學(xué)者的參與度和熱情大幅提高,“方法共同體”初步顯形,網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)和由研究性問(wèn)題驅(qū)動(dòng)的數(shù)字人文研究之間的分野漸漸清晰起來(lái)。數(shù)字人文的學(xué)術(shù)交流和出版活動(dòng)日益繁榮。2016年起北京大學(xué)連續(xù)3年舉辦數(shù)字人文論壇,2017年清華大學(xué)舉辦“數(shù)字人文與文學(xué)研究國(guó)際工作坊”,2018年數(shù)字人文創(chuàng)研中心在南京大學(xué)成立。中國(guó)人民大學(xué)清史研究中心的“數(shù)字人文與清史研究工作坊”,中國(guó)社會(huì)科學(xué)院文學(xué)研究所2019年“數(shù)字人文時(shí)代的中國(guó)文史研究”工作坊,清華大學(xué)2019年“《數(shù)字人文》創(chuàng)刊儀式暨數(shù)字人文國(guó)際工作坊”等,均產(chǎn)生較大影響。2019年中國(guó)人民大學(xué)信息管理系牽頭建立校級(jí)數(shù)字人文研究中心,在圖書情報(bào)與檔案管理學(xué)科下設(shè)全國(guó)首個(gè)數(shù)字人文碩士點(diǎn),北京大學(xué)的數(shù)字人文中心于2021年1月正式宣告成立。此外,南京農(nóng)業(yè)大學(xué)、中南民族大學(xué)等多個(gè)高校擁有自己的相關(guān)中心。中國(guó)社會(huì)科學(xué)情報(bào)學(xué)會(huì)數(shù)字人文專委會(huì)和中國(guó)索引學(xué)會(huì)數(shù)字人文專委會(huì)先后成立,自2019年起負(fù)責(zé)召集、舉辦全國(guó)數(shù)字人文年會(huì),評(píng)出年度優(yōu)秀項(xiàng)目和優(yōu)秀論文。
2016年起,戴安德、姜文濤在《山東社會(huì)科學(xué)》上主持“數(shù)字人文:觀其大較”欄目。2019年12月,清華大學(xué)與中華書局創(chuàng)辦中國(guó)大陸第一個(gè)數(shù)字人文學(xué)術(shù)刊物《數(shù)字人文》(Journal of Digital Humanities)。一年后,中國(guó)人民大學(xué)信息資源管理學(xué)院推出《數(shù)字人文研究》。
近年來(lái)機(jī)器學(xué)習(xí)有了長(zhǎng)足進(jìn)步,以深度學(xué)習(xí)為代表的數(shù)據(jù)驅(qū)動(dòng)范式在業(yè)界取得了成功,人文學(xué)者開(kāi)始希冀基于大數(shù)據(jù)的“計(jì)算智能”為傳統(tǒng)學(xué)術(shù)帶來(lái)翻天覆地的變化。在研究實(shí)際中,好的人文學(xué)者大都堅(jiān)持“問(wèn)題取向”,帶著強(qiáng)烈的問(wèn)題意識(shí)來(lái)構(gòu)建數(shù)據(jù)集,尋求能夠契合研究性問(wèn)題的一兩種主要技術(shù)手段,如此便在處理人文問(wèn)題的同時(shí),也完成了一項(xiàng)應(yīng)用性的技術(shù)探索。
文本挖掘是“遠(yuǎn)讀”海量文獻(xiàn)時(shí)采用的一系列技術(shù)“集合”的統(tǒng)稱,早期應(yīng)用中有代表性的是對(duì)古代作品的作者歸屬研究。近年來(lái)的文史研究中,對(duì)文本挖掘倚重較多且能行之有效的,是金觀濤、劉青峰、鄭文惠、劉昭麟、邱偉云、梁穎誼等的“數(shù)字觀念史研究”。他們以“中國(guó)近代思想史專業(yè)數(shù)據(jù)庫(kù)(1830—1930)”為對(duì)象,運(yùn)用詞頻統(tǒng)計(jì)、自然語(yǔ)言分布定律、詞共現(xiàn)網(wǎng)絡(luò)等方法,從海量語(yǔ)料中自動(dòng)生成關(guān)鍵詞群,對(duì)詞群和網(wǎng)絡(luò)所表征的價(jià)值體系進(jìn)行歷史語(yǔ)義學(xué)的描述,以之勾勒近現(xiàn)代思想觀念的結(jié)構(gòu)轉(zhuǎn)型和演化趨勢(shì)。此外,高劍波、趙思淵、胡恒、王濤、申斌等都取得了引人注目的成績(jī)。臺(tái)灣大學(xué)項(xiàng)潔團(tuán)隊(duì)近年來(lái)注重以基于特征的算法,發(fā)掘巨量文檔間的多重知識(shí)脈絡(luò)和關(guān)聯(lián)結(jié)構(gòu),如對(duì)兩部官修類書和淡新檔案的研究。南京師范大學(xué)先后建設(shè)了《左傳》《史記》《資治通鑒》等語(yǔ)料庫(kù)平臺(tái),實(shí)現(xiàn)了詞語(yǔ)概念的本體化檢索,可用于更精準(zhǔn)的數(shù)字人文研究。無(wú)監(jiān)督的聚類和分類算法最近被用于古代文類和類書,甚至現(xiàn)代文類的研究,借此與一些文學(xué)史命題形成對(duì)話。前者如諸雨辰、李坤、胡韌奮對(duì)《漢書·藝文志》中的存世文獻(xiàn)進(jìn)行自動(dòng)聚類實(shí)驗(yàn),后者如芝加哥大學(xué)文本光學(xué)實(shí)驗(yàn)室與上海圖書館合作的“民國(guó)時(shí)期期刊語(yǔ)料庫(kù)(1918—1949)”項(xiàng)目,采用樸素貝葉斯分類器、層次聚類和網(wǎng)絡(luò)分析等多種方式,對(duì)近現(xiàn)代期刊中“新文類”的構(gòu)型因素進(jìn)行多層面研究。
深度學(xué)習(xí)和大規(guī)模語(yǔ)料結(jié)合,特別是近來(lái)預(yù)訓(xùn)練模型(如BERT)的提出和發(fā)布,使得“大數(shù)據(jù)預(yù)訓(xùn)練”加上“小數(shù)據(jù)微調(diào)”的做法在中文古籍處理方面擁有眾多應(yīng)用場(chǎng)景。清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室曾以80余萬(wàn)首舊體詩(shī)語(yǔ)料和標(biāo)注知識(shí)庫(kù),來(lái)訓(xùn)練專門的詞匯句法模型,研發(fā)“九歌人工智能詩(shī)歌寫作系統(tǒng)”。北京師范大學(xué)中文信息處理團(tuán)隊(duì)利用BERT成功提升了命名實(shí)體的準(zhǔn)確率,開(kāi)發(fā)古詩(shī)文斷句和多元古籍標(biāo)注系統(tǒng)。中華書局古聯(lián)公司、龍泉寺和北京大學(xué)也上線了高效的自動(dòng)標(biāo)點(diǎn)和專名識(shí)別系統(tǒng)。清華大學(xué)鄧柯團(tuán)隊(duì)的無(wú)監(jiān)督中文文本分詞方法TopWORDS系統(tǒng),可以用極低的人力成本從海量經(jīng)典古文獻(xiàn)中快速建立專名索引。
社會(huì)網(wǎng)絡(luò)分析是很多關(guān)系型數(shù)據(jù)庫(kù)的方法論基礎(chǔ)。在“中國(guó)歷代人物傳記資料庫(kù)”中,各類實(shí)體間的關(guān)系經(jīng)過(guò)人工編碼,依靠算法來(lái)衡量,可在瞬間獲得歷代人物的生平資料,對(duì)其所置身的親屬、官僚、師門、著述、通信等社會(huì)關(guān)系一目了然,如包弼德、魏希德對(duì)宋代士人網(wǎng)絡(luò)的研究。嚴(yán)承希、王軍從CBDB中抽取數(shù)據(jù),設(shè)計(jì)算法來(lái)表示宋代政治黨群網(wǎng)絡(luò)。徐永明利用數(shù)據(jù)庫(kù),將湯顯祖的社會(huì)關(guān)系準(zhǔn)確投射到地理坐標(biāo)圖上。王濤充分利用《德意志人物志》中人物的生卒地信息,繪制出15、18世紀(jì)德意志人物的“出生地圖”和“死亡地圖”。陳松對(duì)現(xiàn)存宋代地方官學(xué)碑記的作者進(jìn)行網(wǎng)絡(luò)分析,揭示宋代四川與其他地區(qū)在思想觀念交流上的結(jié)構(gòu)性鴻溝,以及理學(xué)思想在官學(xué)碑記寫作中與日俱增的影響力。嚴(yán)程建立了以顧太清為中心的閨閣詩(shī)人交游網(wǎng)絡(luò),解釋了“秋紅詩(shī)社”的“中斷之謎”。許超等在《左傳》標(biāo)注語(yǔ)料庫(kù)基礎(chǔ)上,將“人物”與“事件”實(shí)體通過(guò)共現(xiàn)網(wǎng)絡(luò)表示出來(lái),發(fā)現(xiàn)了春秋網(wǎng)絡(luò)的小世界性。
圖像與視覺(jué)化是數(shù)字人文研究不可或缺的重要手段。向帆、朱舜山采用“中國(guó)歷代人物傳記資料庫(kù)”中的家族關(guān)系數(shù)據(jù),結(jié)合上海圖書館的家譜數(shù)據(jù)和可視化、3D技術(shù)及其交互性,建構(gòu)中國(guó)古代皇室家譜巨大的樹(shù)狀立體網(wǎng)絡(luò)。王軍、李曉煜的“宋元學(xué)案知識(shí)圖譜系統(tǒng)”將《宋元學(xué)案》中的人物、時(shí)間、地點(diǎn)、著作以及它們之間的復(fù)雜語(yǔ)義關(guān)系提取出來(lái)構(gòu)造成知識(shí)圖譜。由萊斯大學(xué)Tani Barlow和南京大學(xué)陳靜合作的“中國(guó)商業(yè)廣告數(shù)據(jù)庫(kù)”,對(duì)海量商業(yè)廣告進(jìn)行數(shù)字化和元數(shù)據(jù)標(biāo)注,結(jié)合文本挖掘及圖像自動(dòng)聚類工具,完成廣告內(nèi)容和圖像的量化分析,并將其放置于其他信息關(guān)聯(lián)的節(jié)點(diǎn)上,來(lái)追蹤廣告業(yè)發(fā)展與中國(guó)近現(xiàn)代社會(huì)思想之間的關(guān)系。
歷史地理信息化與空間人文研究可看作數(shù)字人文中技術(shù)性最強(qiáng)、科學(xué)化程度最高的分支體系。“中國(guó)歷史地理信息系統(tǒng)”(CHGIS)使用典型的矢量化數(shù)據(jù),以點(diǎn)—線—面的組合來(lái)描述現(xiàn)實(shí)地理世界信息,對(duì)后續(xù)歷史地理信息化產(chǎn)生深遠(yuǎn)影響。2013年后,復(fù)旦大學(xué)、首都師范大學(xué)和陜西師范大學(xué)、云南大學(xué)等均發(fā)布了“絲綢之路”的地理信息平臺(tái)。其他獨(dú)立的平臺(tái)還有南京大學(xué)陳剛團(tuán)隊(duì)于2006年開(kāi)發(fā)的“六朝建康歷史地理信息系統(tǒng)”,上海交通大學(xué)曹樹(shù)基主持的“中國(guó)歷史地圖地理信息平臺(tái)”等。南京師范大學(xué)“華夏家譜GIS平臺(tái)”,致力于以通用型GIS數(shù)據(jù)模型和標(biāo)準(zhǔn)來(lái)處理歷史文獻(xiàn),將家族、人口、遷移等多方面問(wèn)題相關(guān)聯(lián)。中國(guó)人民大學(xué)歷史地理學(xué)團(tuán)隊(duì)借助“《縉紳錄》數(shù)據(jù)庫(kù)”,發(fā)揮GIS在清史研究中的功用。中南民族大學(xué)王兆鵬團(tuán)隊(duì)“唐宋文學(xué)編年地圖”將GIS、電子地圖與唐宋作家作品編年信息深度融合,提出“系地”的概念。浙江大學(xué)徐永明主持的“學(xué)術(shù)地圖發(fā)布平臺(tái)”,支持用戶個(gè)人上傳數(shù)據(jù),生成學(xué)術(shù)地圖,包括歷史人物行跡圖和各類實(shí)體定位查詢圖等,提供了一個(gè)友好、專業(yè)的信息共享環(huán)境。臺(tái)灣“中山大學(xué)”簡(jiǎn)錦松教授倡導(dǎo)的“現(xiàn)地研究”、何捷在天津大學(xué)籌建的SHAPC Lab,近年來(lái)貢獻(xiàn)了頗多開(kāi)創(chuàng)性成果。
近年來(lái)信息管理學(xué)界提出了一套“智慧數(shù)據(jù)”的解決方案,為鋪設(shè)全面的人文網(wǎng)絡(luò)基礎(chǔ)設(shè)施,特別是提升文化遺產(chǎn)保存和研究領(lǐng)域的價(jià)值提供了保障。武漢大學(xué)王曉光團(tuán)隊(duì)與敦煌研究院合作,圍繞“敦煌智慧數(shù)據(jù)”建設(shè)和敦煌文化遺產(chǎn)保護(hù)、研究和傳播,建構(gòu)了敦煌壁畫的圖像增強(qiáng)展示和敘事系統(tǒng)。中國(guó)人民大學(xué)馮惠玲團(tuán)隊(duì)的工作以“高遷古村數(shù)字記憶網(wǎng)站項(xiàng)目”為代表,為用戶提供了一個(gè)可檢索和呈現(xiàn)、富含語(yǔ)義關(guān)聯(lián)的沉浸式知識(shí)庫(kù),完成了多種文本的再媒介化和交互式詮釋。
數(shù)字人文學(xué)界已經(jīng)普遍認(rèn)識(shí)到,一方面,有必要盡快確立技術(shù)和元數(shù)據(jù)的統(tǒng)一規(guī)范,實(shí)現(xiàn)全國(guó)乃至全球范圍內(nèi)的數(shù)據(jù)、技術(shù)資源共享;另一方面,要為專業(yè)人文學(xué)者賦能,增強(qiáng)大型通用研究平臺(tái)的建構(gòu)能力。其代表,如上海圖書館的“歷史人文大數(shù)據(jù)平臺(tái)”,整合了“中國(guó)家譜知識(shí)服務(wù)平臺(tái)”“中文古籍聯(lián)合目錄及征詢平臺(tái)”“人名規(guī)范庫(kù)”“中國(guó)近代報(bào)刊庫(kù)”等前期資源,建立起有關(guān)人物、機(jī)構(gòu)、事件、物品、時(shí)空、領(lǐng)域概念等詞表體系及知識(shí)圖譜,實(shí)現(xiàn)了對(duì)掃描圖片的互操作管理,數(shù)據(jù)中臺(tái)和算法中臺(tái)具有共享數(shù)據(jù)和計(jì)算的能力。與此同時(shí),劉煒、夏翠娟、王曉光、陳濤、張春景、張磊、黃水清、朱慶華、王東波、趙宇翔、許鑫、包平、李斌、歐陽(yáng)劍、趙生輝、張衛(wèi)東、裴雷、聶華、王麗華、張衛(wèi)東、左娜、徐晨飛、張永娟、朱鎖玲、李欣、單蓉蓉等諸多學(xué)者在基礎(chǔ)設(shè)施的設(shè)計(jì)和理論方面都發(fā)表了奠基性成果。朱本軍、張久珍等較早意識(shí)到國(guó)家基礎(chǔ)設(shè)施建設(shè)的文化戰(zhàn)略意義,敦促中國(guó)學(xué)者牢牢把握數(shù)字基礎(chǔ)設(shè)施建設(shè)的主動(dòng)權(quán),同時(shí)吸引海外學(xué)者進(jìn)駐參與。臺(tái)灣大學(xué)項(xiàng)潔教授主持的“Docusky數(shù)位人文學(xué)術(shù)研究平臺(tái)”,整合了個(gè)人文本的格式轉(zhuǎn)換、標(biāo)記與建庫(kù)、探勘與分析,以及視覺(jué)化觀察、GIS整合等數(shù)字人文的工具模塊,致力于為人文學(xué)者提供個(gè)人化的資料儲(chǔ)存和分析平臺(tái)。此類平臺(tái)也提供API接口,可以獲得外部資源,讓人文研究者不必再步步仰賴信息科技專家,自主且自由地融合數(shù)字科技進(jìn)行人文研究。
中國(guó)古典文獻(xiàn)學(xué)的資深學(xué)者們則就當(dāng)下古籍由數(shù)字化向數(shù)據(jù)化再向知識(shí)化的進(jìn)程提出激蕩人心的宏大構(gòu)想。清華大學(xué)劉石、孫茂松教授提出建設(shè)“中國(guó)古典知識(shí)庫(kù)”(CCKB)的構(gòu)想,即以20多萬(wàn)種全部存世古籍為基礎(chǔ),輔之以相應(yīng)的工具,在保障古籍文獻(xiàn)內(nèi)容完整性及內(nèi)部邏輯性的基礎(chǔ)上突破文獻(xiàn)原有結(jié)構(gòu),通過(guò)實(shí)體及相互關(guān)系對(duì)文獻(xiàn)進(jìn)行深層組織和知識(shí)管理。
2019年以來(lái),適逢中國(guó)教育部力推“新文科”建設(shè),數(shù)字人文在中國(guó)被寄予厚望。數(shù)字人文帶來(lái)了材料和議題的擴(kuò)展,一些在前數(shù)字環(huán)境下無(wú)從觀察的現(xiàn)象、難以想象和處理的議題得以展開(kāi)。在學(xué)科區(qū)分日趨細(xì)密的今天,數(shù)字人文重新喚起人文學(xué)者思考和解決“大問(wèn)題”和“綜合問(wèn)題”的雄心。在數(shù)字人文的背景下,學(xué)科的固化、社會(huì)科學(xué)與人文學(xué)術(shù)間的壁壘和禁忌將被進(jìn)一步破除,量化實(shí)證的方法將進(jìn)一步得到規(guī)范化的運(yùn)用,跨學(xué)科、多學(xué)科協(xié)作的知識(shí)生產(chǎn)方式將重塑人文社科領(lǐng)域。中文數(shù)字人文的推進(jìn)有望觸發(fā)中國(guó)人文學(xué)科在知識(shí)基礎(chǔ)、認(rèn)識(shí)論、方法論和評(píng)價(jià)體系等多方面的反思,一個(gè)學(xué)科大碰撞大融通的時(shí)代終將來(lái)臨。
媒介變革使得整個(gè)學(xué)術(shù)界進(jìn)入“后數(shù)字社會(huì)”,開(kāi)放獲取的學(xué)術(shù)出版和發(fā)表方式,將逐步影響學(xué)術(shù)生產(chǎn)方式。文獻(xiàn)基礎(chǔ)設(shè)施已經(jīng)深入人文學(xué)科的每個(gè)分支,新時(shí)代的學(xué)者人人都要成為懂?dāng)?shù)據(jù)的文獻(xiàn)學(xué)家。對(duì)單個(gè)命題有意義的自建專題數(shù)據(jù)集將與大數(shù)據(jù)對(duì)接,能夠滿足多樣化的研究需求,可以展開(kāi)有問(wèn)題針對(duì)性的研究。同時(shí),這些小型數(shù)據(jù)也將被使用者公開(kāi),源源不斷地匯入全球數(shù)據(jù)海洋,在一種開(kāi)放、共享的數(shù)字情境下,承擔(dān)起連接更廣泛的公共文化的橋梁作用。未來(lái)將有越來(lái)越多的文獻(xiàn)數(shù)據(jù)庫(kù)按照語(yǔ)義單元來(lái)組織領(lǐng)域知識(shí),能夠模擬領(lǐng)域應(yīng)用的知識(shí)環(huán)境,促使研究者徹底擺脫紙質(zhì)文獻(xiàn)的存儲(chǔ)和利用思維,實(shí)現(xiàn)真正高效、共享的資源“數(shù)據(jù)化”,促進(jìn)文獻(xiàn)學(xué)的“現(xiàn)代轉(zhuǎn)型”。
從另一方面說(shuō),數(shù)字人文是將對(duì)象和歷史材料數(shù)字化之后,在虛擬世界里建立起一套相應(yīng)的映射和模擬系統(tǒng),可以視之為一種典型的“再現(xiàn)實(shí)踐”。因而,計(jì)算不可避免地具有“壓縮效果”,數(shù)字人文無(wú)法自動(dòng)獲得批判性的維度,由“算法優(yōu)化”主導(dǎo)的諸多數(shù)字人文研究,會(huì)將其進(jìn)一步抽離具體社會(huì)、文化甚至技術(shù)語(yǔ)境。在“數(shù)據(jù)驅(qū)動(dòng)”與“知識(shí)驅(qū)動(dòng)”、“問(wèn)題意識(shí)”之間,人文學(xué)者還需要把握平衡點(diǎn),發(fā)展作為一種闡釋和批評(píng)手段的數(shù)字人文,使其具有反思性的向度。在這方面,一部分人文學(xué)者作出了清晰的思考,認(rèn)為數(shù)字人文須超越“工具角色”的階段,反對(duì)數(shù)字人文的學(xué)科化,或?qū)⒅鲗?dǎo)權(quán)交給僅僅在技術(shù)上占有優(yōu)勢(shì)的學(xué)科,提倡開(kāi)放邊界和“復(fù)數(shù)的數(shù)字人文”(陳靜,姜文濤,但漢松)。未來(lái)應(yīng)有更多的量化成果以“計(jì)算批評(píng)”的面貌出現(xiàn)——人文學(xué)者能夠從自身的領(lǐng)域知識(shí)和細(xì)讀體驗(yàn)出發(fā),巧妙地利用數(shù)字工具設(shè)計(jì)實(shí)驗(yàn),和數(shù)據(jù)驅(qū)動(dòng)的結(jié)果交流對(duì)話,從而達(dá)到破除算法黑箱,揭示現(xiàn)象背后的文化邏輯的目的(趙薇)。同時(shí),人文學(xué)者能夠有效參與到搭建、部署、運(yùn)行和評(píng)判復(fù)雜的計(jì)算和實(shí)驗(yàn)的系統(tǒng)工作中去,而不是“外包”給技術(shù)團(tuán)隊(duì),如此才不會(huì)割裂實(shí)踐的各個(gè)環(huán)節(jié)。從現(xiàn)實(shí)來(lái)看,踏實(shí)投入實(shí)踐也是避免數(shù)字人文的泡沫化和過(guò)分虛熱的唯一有效辦法。
必須承認(rèn),數(shù)字人文絕非無(wú)所不能,總的看來(lái),中國(guó)數(shù)字人文在很長(zhǎng)一段時(shí)間內(nèi)都將處于探索階段,它所面臨的問(wèn)題也是顯而易見(jiàn)的。其一,中國(guó)大陸的數(shù)字人文學(xué)術(shù)進(jìn)展到今天,搖旗吶喊者居多,但真正投身實(shí)踐的并不多。其二,缺乏規(guī)范,數(shù)字人文的標(biāo)準(zhǔn)和共識(shí)亟待形成。已發(fā)表的量化成果也面臨嚴(yán)重的評(píng)價(jià)問(wèn)題。在問(wèn)題定義、數(shù)據(jù)集建構(gòu)、技術(shù)實(shí)現(xiàn)、問(wèn)題求解和結(jié)果評(píng)價(jià)諸環(huán)節(jié)都缺乏規(guī)范化的方法。其三,數(shù)字人文的評(píng)價(jià)體系建設(shè)任重道遠(yuǎn)。其四,來(lái)自國(guó)家、社會(huì)的決策和支撐體系也需要機(jī)制創(chuàng)新。其五,對(duì)于大量潛在的自發(fā)研究者來(lái)說(shuō),發(fā)展“微型數(shù)字人文”可能是別無(wú)選擇的選擇。