陳靜
南京大學(xué)藝術(shù)學(xué)院,江蘇 南京 210031
長(zhǎng)期以來(lái),人文學(xué)者習(xí)慣稱呼其研究對(duì)象為文本、圖像,或是音樂(lè)、電影,而非數(shù)據(jù)。他們主要通過(guò)書(shū)籍、圖書(shū)館、檔案館、博物館,甚至是手工記錄和拍攝等途徑獲取材料,再通過(guò)經(jīng)驗(yàn)性閱讀、主觀分析和語(yǔ)言解釋的方式加以研究。盡管人文研究中也會(huì)涉及一定的信息采集和基于數(shù)據(jù)分析的定量研究,但人文學(xué)者習(xí)慣處理基于印刷(print-based)或者實(shí)物的材料,并將之視為唯一可信且權(quán)威的依據(jù),再以經(jīng)多年訓(xùn)練和研究獲得的學(xué)識(shí)為基礎(chǔ),展開(kāi)具有強(qiáng)烈經(jīng)驗(yàn)色彩的個(gè)人研究。這種傳統(tǒng)研究除了強(qiáng)調(diào)人文研究需要長(zhǎng)時(shí)間知識(shí)生產(chǎn)的積累、承襲外,還高度依賴學(xué)者作為個(gè)體對(duì)材料的占有和處理能力,以及材料本身的原真性和有效性。甚至在一定意義上,材料的質(zhì)量、真假以及豐富性對(duì)于一項(xiàng)研究具有決定性的意義。然而,從20世紀(jì)中葉以來(lái),信息通信技術(shù)(information and communications technology,ICT)及相關(guān)基礎(chǔ)設(shè)施已經(jīng)深刻地改變了人文學(xué)者獲取材料、分析內(nèi)容、書(shū)寫(xiě)文本、組織學(xué)術(shù)交流的方式,重塑了當(dāng)前的學(xué)術(shù)生態(tài)環(huán)境。數(shù)字技術(shù)及數(shù)字化使印刷物、手寫(xiě)書(shū)稿、非正式出版檔案、繪畫(huà)、照片、視頻、聲音文件、建筑、雕塑、壁畫(huà)、紡織物、器物等多種材質(zhì)、多種類型的人造物從物質(zhì)實(shí)體變成了虛擬數(shù)字,與大量數(shù)字生成(digital-born)的內(nèi)容一起成為人文學(xué)者的新研究對(duì)象。數(shù)字檔案庫(kù)、文本和圖像數(shù)據(jù)庫(kù)的出現(xiàn)使人文學(xué)者可以不用親自到訪千里之外的圖書(shū)館、博物館、檔案館就可以獲取所需要的信息;搜索和下載功能使研究者可以在成千上萬(wàn)的資料中快速地瀏覽和找到有效信息并“據(jù)為己有”;文本處理和管理軟件改變了研究者組織材料、撰寫(xiě)文章的方式,使研究過(guò)程更多地成了“界面操作”;甚至研究者的思考方式也受網(wǎng)絡(luò)化知識(shí)組織方式的影響而變得超文本化,使研究者更多地關(guān)注到不同議題和材料之間的關(guān)聯(lián)性[1]。這樣的新一輪知識(shí)生產(chǎn)方式的變革最集中的體現(xiàn)就是“數(shù)字人文”(digital humanities)作為一種跨學(xué)科研究領(lǐng)域的出現(xiàn)。數(shù)字人文強(qiáng)調(diào)將數(shù)字科技與人文研究進(jìn)行結(jié)合以推動(dòng)人文研究轉(zhuǎn)型,“其面對(duì)的是未來(lái)的知識(shí)體系及方法的構(gòu)建,其回應(yīng)的是大數(shù)據(jù)時(shí)代基于學(xué)者導(dǎo)向(research oriented)的研究需求與基于資源共享的網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)(cyberinfrastructure),其建設(shè)的是面向數(shù)字出生(born-digital)新生代人類的認(rèn)知方式系統(tǒng)與路徑”[2]。盡管作為一個(gè)新興的研究領(lǐng)域,“數(shù)字人文”諸多議題尚在討論之中,但從其發(fā)展歷程來(lái)看,數(shù)據(jù)的獲取和數(shù)據(jù)本身都對(duì)相關(guān)研究的開(kāi)展及研究方法的提出起到了至關(guān)重要的作用。特別是大數(shù)據(jù)和人文數(shù)據(jù)的關(guān)系,以及大數(shù)據(jù)研究方法在數(shù)字人文研究領(lǐng)域中的應(yīng)用,也是近年來(lái)數(shù)字人文研究中的焦點(diǎn)問(wèn)題。本文將聚焦“人文大數(shù)據(jù)”這一具體對(duì)象,將之放置于“數(shù)字人文”的研究框架與范圍內(nèi),對(duì)其來(lái)源及產(chǎn)生方式進(jìn)行描述,并通過(guò)與自然科學(xué)和社會(huì)科學(xué)數(shù)據(jù)進(jìn)行比較,對(duì)其特點(diǎn)進(jìn)行說(shuō)明,進(jìn)而對(duì)數(shù)字人文因人文大數(shù)據(jù)及其方法的特殊性而呈現(xiàn)出的多樣性問(wèn)題進(jìn)行探討。
大數(shù)據(jù)指的是超出了常用軟件工具在可容忍的時(shí)間內(nèi)捕獲、管理和處理數(shù)據(jù)能力的數(shù)據(jù)集。自21世紀(jì)中葉以來(lái),數(shù)據(jù)的收集和處理已經(jīng)成為計(jì)算機(jī)、生物醫(yī)學(xué)、信息科學(xué)、經(jīng)濟(jì)金融等學(xué)科的基本研究手段。甚至有學(xué)者指出,大數(shù)據(jù)帶來(lái)的是一次新的認(rèn)識(shí)論和范式轉(zhuǎn)型,從知識(shí)驅(qū)動(dòng)(knowledge-driven)轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)(data-driven)。而數(shù)據(jù)驅(qū)動(dòng)的主要特征就是數(shù)據(jù)密集(data-intensive)、統(tǒng)計(jì)探索(statistical exploration)和數(shù)據(jù)挖掘(data mining)[3]。套用“大數(shù)據(jù)”的通用定義,即“超出了常用軟件工具在可容忍的時(shí)間內(nèi)捕獲、管理和處理數(shù)據(jù)能力的數(shù)據(jù)集”,人文大數(shù)據(jù)可以被定義為“基于數(shù)字化或者數(shù)字生成的,被認(rèn)為是人文藝術(shù)范疇的大規(guī)模數(shù)據(jù)集”。人文領(lǐng)域中的大數(shù)據(jù)可以分為兩類:一類是通過(guò)對(duì)人文對(duì)象數(shù)字化(數(shù)據(jù)采集)的方式獲取的各類數(shù)據(jù),這類數(shù)據(jù)以美術(shù)館、圖書(shū)館、檔案館和博物館等文化機(jī)構(gòu)的文化遺產(chǎn)數(shù)據(jù)為代表,規(guī)模龐大且類型多樣,在被數(shù)字化之前就已經(jīng)具備了體量大、數(shù)據(jù)類型多樣且價(jià)值高等特點(diǎn),這些數(shù)據(jù)主要來(lái)自手抄或印刷文獻(xiàn)、器物、建筑、繪畫(huà)、模擬方式記錄的聲音、視頻等人造物,代表人類物質(zhì)與精神文明的歷史成就;另一類則是數(shù)字技術(shù)出現(xiàn)以后不斷生成的數(shù)字文本、圖像、視頻、音頻以及3D模型等基于各類數(shù)字軟件的多媒體數(shù)據(jù),這類數(shù)據(jù)以博客、Facebook、Instagram這類網(wǎng)絡(luò)社交媒體的文本和圖像為代表,體現(xiàn)了更寬泛意義上的“數(shù)字文化”(digital culture),是數(shù)字化時(shí)代對(duì)人類文化藝術(shù)活動(dòng)的記錄。此外,還有一些數(shù)據(jù),在傳統(tǒng)意義上被認(rèn)為是非人文社會(huì)科學(xué)領(lǐng)域的數(shù)據(jù),但其被應(yīng)用到了人文研究之中,因此也開(kāi)始被研究者認(rèn)為是人文大數(shù)據(jù),如地理及空間信息數(shù)據(jù)。歷史地理信息系統(tǒng)早在20世紀(jì)90年代已經(jīng)出現(xiàn),其旨在運(yùn)用地理信息系統(tǒng)(geographic information system,GIS)來(lái)研究歷史問(wèn)題。近年來(lái)歷史地理信息系統(tǒng)得到了進(jìn)一步發(fā)展,從社會(huì)史向其他人文科學(xué)領(lǐng)域拓展,形成“人文GIS”,與“空間人文”形成了共謀。后者主要的特征之一就是向人文內(nèi)容進(jìn)行滲透,更深一步地對(duì)人文材料內(nèi)部進(jìn)行挖掘(如對(duì)文學(xué)作品中蘊(yùn)含的地理及空間特征進(jìn)行的研究)。而在人文研究領(lǐng)域,也有學(xué)者開(kāi)始將地理系統(tǒng)或者空間作為研究方法,開(kāi)展“文學(xué)地圖”或“在地研究”。這些都是人文研究在數(shù)字技術(shù)時(shí)代,尤其是大數(shù)據(jù)時(shí)代出現(xiàn)的新現(xiàn)象。
人文數(shù)據(jù)可以很大。若將人文藝術(shù)領(lǐng)域跨越千年的各種類型的材料都加以數(shù)字化,那所形成的數(shù)據(jù)集將相當(dāng)可觀。以世界上最大的圖書(shū)館——美國(guó)國(guó)會(huì)圖書(shū)館為例,截至2021年,該館館藏超過(guò)17.3億件,其中2 200萬(wàn)件藏品在“美國(guó)記憶”(American memory)項(xiàng)目的資助下被數(shù)字化,按照估算大概是9 PB,包括從公元10世紀(jì)至今的、來(lái)自66個(gè)國(guó)家的印刷書(shū)籍、期刊、照片、錄音、報(bào)紙、地圖、電影、手稿、法律文書(shū)、個(gè)人敘述、軟件、網(wǎng)頁(yè)、網(wǎng)絡(luò)檔案庫(kù)和3D對(duì)象等多種格式的文件。盡管這個(gè)數(shù)字化數(shù)量已經(jīng)相當(dāng)驚人,但尚不能代表人類文明的總量。類似“美國(guó)記憶”的數(shù)字化項(xiàng)目在過(guò)去幾十年間一直在進(jìn)行中,積累了大量的人文大數(shù)據(jù),也為相關(guān)研究者開(kāi)展進(jìn)一步的數(shù)據(jù)分析提供了基礎(chǔ)條件。另一個(gè)人文大數(shù)據(jù)的例子是谷歌的N-gram項(xiàng)目,以讓·巴蒂斯特·米歇爾為首的研究團(tuán)隊(duì)與谷歌圖書(shū)合作開(kāi)展的“基于百萬(wàn)數(shù)字圖書(shū)的文化量化分析”基于谷歌大規(guī)模數(shù)字化書(shū)籍的語(yǔ)料庫(kù)開(kāi)展計(jì)算分析,并以可視化方式呈現(xiàn)人類文化的發(fā)展趨勢(shì)。研究團(tuán)隊(duì)使用自然語(yǔ)言處理中較常用的N-gram模型,以單個(gè)詞或多個(gè)詞為單位,對(duì)來(lái)自全世界的大學(xué)圖書(shū)館的1 500萬(wàn)本數(shù)字化圖書(shū)中的,從1800年到2000年的500萬(wàn)本,共計(jì)7種語(yǔ)言500億字的文本進(jìn)行了統(tǒng)計(jì)分析,對(duì)英語(yǔ)詞匯量變化、英語(yǔ)語(yǔ)法的變遷、集體記憶與健忘、大眾聲望、審查檢測(cè)等文化議題進(jìn)行解讀。由于該項(xiàng)目是基于200年間的詞頻波動(dòng)進(jìn)行觀察的,因此得出的一些結(jié)果是非常具有啟發(fā)性的。例如英語(yǔ)書(shū)籍中最常使用的詞匯實(shí)際上比權(quán)威字典的要多,而且常用詞中大約63%的英文詞匯在齊夫定律(Zipf’s law)的測(cè)量下是低頻使用詞,更有52%的詞匯是沒(méi)有被收錄到詞典中的。這種通過(guò)對(duì)大數(shù)據(jù)集進(jìn)行定量分析,從而學(xué)習(xí)人類文化的方式被命名為“文化測(cè)量”(cultural analytics)模式,相關(guān)成果于2011年在Science上發(fā)表[4]。此后,不少學(xué)者也將此模式用于不同的文化數(shù)據(jù)集[5-6]。例如卡萊弗·李塔魯(Kalev Leetaru)對(duì)30年間全球的本地新聞進(jìn)行了調(diào)性和地理分析,并成功預(yù)測(cè)了2011年在阿拉伯半島發(fā)生的重大政治事件及該事件發(fā)生的地點(diǎn)[7]。這種規(guī)模的數(shù)據(jù)集使從大規(guī)模尺度上對(duì)文化事件、趨勢(shì)、變化進(jìn)行計(jì)算測(cè)量成為可能,實(shí)現(xiàn)了傳統(tǒng)人文學(xué)科無(wú)法企及的效果。
“我也要親一下那個(gè)白大褂衣襟上總愛(ài)插一朵花的護(hù)士!”恭建兵一蹦三尺高,將隨身攜帶的軍用水壺敲得當(dāng)當(dāng)作響,“我都想了好長(zhǎng)時(shí)間!”
但對(duì)于人文數(shù)據(jù)而言,大數(shù)據(jù)的5個(gè)V(volume、variety、veracity、value、velocity)中的“volume”(體量大)是一個(gè)相對(duì)的概念。對(duì)于很多人文研究來(lái)說(shuō),數(shù)據(jù)集不會(huì)很大(如文本數(shù)據(jù)),幾十萬(wàn)字甚至上百萬(wàn)字的文本也不過(guò)以KB為單位,相比生物數(shù)據(jù)之類的大數(shù)據(jù)而言,算得上小。但是,這些文本包含的內(nèi)容及其可供研究的問(wèn)題,并不能用體量來(lái)衡量?;仡檾?shù)字人文的發(fā)展歷史,很多“小”文本語(yǔ)料扮演了非常重要的角色。
“數(shù)字人文”在西方一般被認(rèn)為有兩個(gè)源頭:人文計(jì)算(humanities computing)與文本批評(píng)(textual critics)。而文本批評(píng)以電子編輯(electronic editing)為代表[8]。人文計(jì)算的開(kāi)創(chuàng)往往會(huì)追溯到意大利神父羅伯托·布薩(Roberto Busa)在1949年開(kāi)啟的、與國(guó)際商業(yè)機(jī)器公司(International Business Machines Corporation,IBM)合作的The Index Thomisticus項(xiàng)目。這個(gè)項(xiàng)目主要是利用IBM當(dāng)時(shí)基于穿孔卡和磁帶存儲(chǔ)的計(jì)算機(jī)對(duì)中世紀(jì)神學(xué)家托馬斯·阿奎納(Thomas Aquinas)寫(xiě)作的及與其相關(guān)的179部、1 000多萬(wàn)字古典文本進(jìn)行處理,半自動(dòng)地生成中世紀(jì)拉丁文字詞的索引[9]。該項(xiàng)目在20世紀(jì)70年代出版了56卷7萬(wàn)多頁(yè)的印刷物,其中包括10卷索引(index)、31卷托馬斯·阿奎納作品索引大全(concordances)、8卷相關(guān)作者的索引大全以及7卷原初文本的重印本。該項(xiàng)目在1989年以CD-ROM形式出版后,在2005年發(fā)布了在線版本,在2006年啟動(dòng)了對(duì)全部語(yǔ)料庫(kù)的語(yǔ)義分析。整個(gè)項(xiàng)目持續(xù)多年,耗費(fèi)巨大,除了成噸的卡片以外,還有長(zhǎng)度達(dá)到1 500 km的磁帶、1萬(wàn)小時(shí)的計(jì)算機(jī)工作時(shí)長(zhǎng)和100萬(wàn)小時(shí)的人工工作時(shí)長(zhǎng)[10]。無(wú)論是從文本還是從技術(shù)上而言,這個(gè)項(xiàng)目都是具有開(kāi)創(chuàng)性意義的, 其塑造了一種新型的人文學(xué)者與科學(xué)家(工程師)合作模式的典范,也奠定了計(jì)算機(jī)處理人文文本的一些共性,如文本分析以語(yǔ)料分析為基礎(chǔ)、半自動(dòng)化或者自動(dòng)化程序處理、索引作為語(yǔ)料的基礎(chǔ)數(shù)據(jù)、多學(xué)科的跨學(xué)科性等。但倘若純粹地從數(shù)據(jù)量上來(lái)看,這個(gè)“不僅是第一個(gè),也是有史以來(lái)最大的數(shù)字人文項(xiàng)目之一,盡管按照今天的標(biāo)準(zhǔn),其結(jié)果可能被認(rèn)為是‘小’”[9]——其光盤(pán)內(nèi)的數(shù)據(jù)不過(guò)1.4 GB。但可以確定的是,由此開(kāi)啟的是人文研究,乃至知識(shí)生產(chǎn)歷史中的一個(gè)新時(shí)代。托馬斯·阿奎納項(xiàng)目的開(kāi)啟和實(shí)施,不僅標(biāo)志著人文計(jì)算作為一個(gè)新興領(lǐng)域的出現(xiàn),更標(biāo)志著人文研究中使用計(jì)算機(jī)運(yùn)算的技術(shù)已經(jīng)形成一套理論化的思考,也開(kāi)啟了一系列基于文本索引的語(yǔ)料庫(kù)和程序的計(jì)算語(yǔ)言學(xué)項(xiàng)目,其中包括倫敦大學(xué)學(xué)院(University College London)和擎天計(jì)算實(shí)驗(yàn)室(The Atlas Computer Laboratory)開(kāi)發(fā)的COCOA二代、牛津語(yǔ)匯索引程序OCP和希臘語(yǔ)庫(kù)TLG等。這些文本處理程序主要致力于語(yǔ)料庫(kù)的建設(shè)與對(duì)文本創(chuàng)建、維護(hù)和存儲(chǔ)方面的程序進(jìn)行聯(lián)合開(kāi)發(fā)與推廣。這種取向在1950—1960年影響了不少文學(xué)研究者利用計(jì)算機(jī)處理機(jī)器可讀文本的內(nèi)容,對(duì)大體量的作品做出分析,如關(guān)于聯(lián)邦黨人信件的作者研究堪稱經(jīng)典。
由另一個(gè)源頭即文本批評(píng)所延伸出來(lái)的數(shù)字人文脈絡(luò)則更關(guān)注從文獻(xiàn)學(xué)的角度利用信息技術(shù)對(duì)文本進(jìn)行深度編輯與標(biāo)注。最重要的成果是文本編碼倡議(Text Encoding Initiative,TEI)的《電子文本編碼和交換指南》(guidelines for electronic text encoding and interchange)。TEI是一個(gè)集體開(kāi)發(fā)和維護(hù)數(shù)字形式的文本表示標(biāo)準(zhǔn)的聯(lián)盟,其主要成果是一套規(guī)定了機(jī)器可讀文本的編碼方法的準(zhǔn)則。該準(zhǔn)則主要被應(yīng)用于人文學(xué)科、社會(huì)科學(xué)和語(yǔ)言學(xué)領(lǐng)域。對(duì)于數(shù)字人文領(lǐng)域而言,TEI提供了一種機(jī)器讀取人文文本的規(guī)范標(biāo)準(zhǔn),因其靈活性、綜合性和可擴(kuò)展性等特點(diǎn),在很多圖博檔機(jī)構(gòu)中得到了應(yīng)用。此外,文本批評(píng)非常重視對(duì)文本的深度挖掘,因此尤其強(qiáng)調(diào)通過(guò)標(biāo)注的方式對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,或生成元數(shù)據(jù),在元數(shù)據(jù)的基礎(chǔ)上進(jìn)行數(shù)字存檔和知識(shí)再生產(chǎn)。例如羅塞蒂檔案(the Rossetti Archire)或威廉姆·布萊克(William Blake)檔案這樣的項(xiàng)目就很好地踐行了這樣的路徑。特別是對(duì)于文本物質(zhì)性的重視,使這些檔案在數(shù)字化的過(guò)程中盡可能地考慮到了印刷文本的專有屬性,并通過(guò)數(shù)字標(biāo)注的方式加以呈現(xiàn)[11]。在此類項(xiàng)目中,對(duì)象本身的數(shù)量并不多(如威廉姆·布萊克檔案中收錄的作品數(shù)量不過(guò)100多幅),但每一幅的元數(shù)據(jù)不僅包括了作品信息數(shù)據(jù),還包括對(duì)圖像內(nèi)容的標(biāo)注和文本內(nèi)容的轉(zhuǎn)錄。這種對(duì)小數(shù)據(jù)集展開(kāi)的深度標(biāo)引和研究,也形成了數(shù)字人文中的重要內(nèi)容。特別是隨著20世紀(jì)90年代中后期數(shù)字技術(shù)的更新迭代、數(shù)字化內(nèi)容的不斷增加,計(jì)算語(yǔ)言學(xué)逐漸從人文計(jì)算中獨(dú)立出去,這種研究趨勢(shì)得到了更廣泛的應(yīng)用,影響遍及各個(gè)人文學(xué)科,也顯示著“數(shù)字人文”新階段不再延續(xù)早期的發(fā)展路徑。大約在2000年以后,“數(shù)字轉(zhuǎn)向”(digital turn)時(shí)代到來(lái),個(gè)人計(jì)算機(jī)變得十分普遍,成為大多學(xué)者可以方便使用的設(shè)備,如OMEKA、Voyant這樣的專門(mén)面向人文學(xué)者的數(shù)據(jù)檔案化、文本分析可視化的工具也被開(kāi)發(fā)了出來(lái)。
從西方形成的人文計(jì)算到數(shù)字人文這個(gè)脈絡(luò)來(lái)看,實(shí)際上我國(guó)在20世紀(jì)下半葉就開(kāi)展了大量基于語(yǔ)料庫(kù)的計(jì)算語(yǔ)言學(xué)研究,如從1979年到1983年,就有4個(gè)大型的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)項(xiàng)目在我國(guó)落地,即武漢大學(xué)的漢語(yǔ)現(xiàn)代文學(xué)作品語(yǔ)料庫(kù)(1979年,527萬(wàn)字)、北京航空航天大學(xué)的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(1983年,2 000萬(wàn)字)、北京師范大學(xué)的中學(xué)語(yǔ)文教材語(yǔ)料庫(kù)(1983年,106.8萬(wàn)字)和北京語(yǔ)言學(xué)院(1996年更名為北京語(yǔ)言大學(xué))的現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料庫(kù)(1983年,182萬(wàn)字)[12]。這些數(shù)據(jù)庫(kù)和之后的國(guó)家級(jí)語(yǔ)料庫(kù)、大規(guī)模真實(shí)文本語(yǔ)料庫(kù)等專業(yè)數(shù)據(jù)庫(kù)主要針對(duì)語(yǔ)言學(xué)方面的研究。面向更多領(lǐng)域?qū)W者的中文學(xué)術(shù)數(shù)據(jù)庫(kù)多為圖博檔甚至是商業(yè)公司開(kāi)發(fā)的基于典籍的文本圖像或者全文數(shù)據(jù)庫(kù),如由香港迪志文化出版有限公司推出的文淵閣四庫(kù)全書(shū)的電子版、由北京大學(xué)等高校與北京愛(ài)如生數(shù)字化技術(shù)研究中心合作建立的“中國(guó)基本古籍庫(kù)”[13]。與此同時(shí),還有一些人文學(xué)者從研究需求出發(fā)開(kāi)發(fā)的數(shù)字項(xiàng)目,如北京大學(xué)中文系開(kāi)發(fā)的全唐詩(shī)分析系統(tǒng)與全宋詩(shī)分析系統(tǒng)、先在香港中文大學(xué)后遷至臺(tái)灣政治大學(xué)的“中國(guó)近現(xiàn)代思想史研究專業(yè)數(shù)據(jù)庫(kù)(1830—1930)”等。在這些項(xiàng)目中,數(shù)據(jù)規(guī)模雖大,類型各有不同,但數(shù)據(jù)庫(kù)限定性比較強(qiáng),往往只能進(jìn)行檢索,無(wú)法下載或者進(jìn)行更深入的研究。關(guān)于此類問(wèn)題,在近年來(lái)關(guān)于文獻(xiàn)數(shù)字化的相關(guān)討論中已經(jīng)非常多了。尤其是研究者們已經(jīng)關(guān)注到了以往數(shù)字化工作中的一些問(wèn)題,如傳統(tǒng)的古籍?dāng)?shù)字化大多是對(duì)原始紙質(zhì)文獻(xiàn)的圖片展示,僅可檢索編目數(shù)據(jù),對(duì)內(nèi)容僅以瀏覽為主,缺少全文提供,用戶也無(wú)法按照自身的研究需求對(duì)數(shù)據(jù)進(jìn)行深度挖掘和再利用等[14]。相較而言,“中國(guó)歷代人物傳記數(shù)據(jù)庫(kù)”(China biographical database,CBDB)和德龍(Donald Sturgeon)開(kāi)發(fā)的“中國(guó)哲學(xué)書(shū)電子化計(jì)劃”(Chinese text,Ctext)則兼顧了大數(shù)據(jù)與人文研究的屬性。雖然CBDB的單機(jī)下載版總共不過(guò)幾十MB(SQlite格式),但其中收錄了超過(guò)52萬(wàn)位歷史人物的傳記資料,每個(gè)人物條目都包含了人名、時(shí)間、地址、職官、入仕途徑、著作、社會(huì)區(qū)分、親屬關(guān)系、社會(huì)關(guān)系、財(cái)產(chǎn)、事件等數(shù)據(jù),可供學(xué)者們開(kāi)展統(tǒng)計(jì)分析、地理空間分析與社會(huì)網(wǎng)絡(luò)分析等[15]。值得一提的是,CBDB不僅涉及了中文文獻(xiàn)的數(shù)字化、數(shù)據(jù)化(datafication)、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)庫(kù)搭建、軟件開(kāi)發(fā)以及數(shù)據(jù)可視化等一系列的數(shù)據(jù)全流程工作,而且非常仔細(xì)、詳盡地記錄和說(shuō)明了整個(gè)數(shù)據(jù)庫(kù)的發(fā)展歷史、技術(shù)開(kāi)發(fā)和數(shù)據(jù)處理過(guò)程,對(duì)其他人文大數(shù)據(jù)項(xiàng)目的建設(shè)極具參考價(jià)值。
葛劍雄教授曾經(jīng)在講座中提到,“運(yùn)用現(xiàn)代科學(xué)技術(shù),我有兩個(gè)衡量標(biāo)準(zhǔn),那就是,首先它最后的精確度有沒(méi)有其他方法加以驗(yàn)證,其次它的結(jié)果有沒(méi)有意義,能不能改變一個(gè)重大的學(xué)術(shù)論斷。我發(fā)現(xiàn)大數(shù)據(jù)在歷史研究中還是沒(méi)有太大必要,因?yàn)槲覀冋莆盏臄?shù)據(jù)不夠,而且很多是二手甚至三手?jǐn)?shù)據(jù),盲目運(yùn)用的結(jié)果就是可信度越來(lái)越低,誤差也會(huì)越來(lái)越大,到最后還是需要人來(lái)做出判斷和取舍,這是沒(méi)有必要的”[16]。這里他談到關(guān)于大數(shù)據(jù)應(yīng)用于歷史研究的必要性,首先談到的是數(shù)據(jù)的量不足,其次是數(shù)據(jù)的可信度低。關(guān)于數(shù)據(jù)的量,這點(diǎn)前文已經(jīng)討論過(guò),對(duì)于人文數(shù)據(jù)而言,量并不是最重要的,過(guò)度強(qiáng)調(diào)大,其實(shí)是對(duì)大數(shù)據(jù)的一種化約式(reductive)的誤讀。實(shí)際上,大數(shù)據(jù)的多樣性(variety)和真實(shí)性(veracity)往往發(fā)揮著更加重要的作用。
首先,人文大數(shù)據(jù)的來(lái)源決定了這些數(shù)據(jù)從一開(kāi)始就會(huì)是多種多樣的。例如美國(guó)國(guó)會(huì)圖書(shū)館在線上發(fā)布時(shí),不僅考慮到原真性,發(fā)布了文件數(shù)字化后的圖像文件,還考慮到了人文研究者的分析需要,提供了數(shù)字文件的元數(shù)據(jù),以及包括了XML格式的標(biāo)記數(shù)據(jù)和TXT格式的全文數(shù)據(jù),這體現(xiàn)了人文數(shù)據(jù)的多樣性和特殊性。異質(zhì)的數(shù)據(jù)往往同時(shí)被應(yīng)用于同一個(gè)人文研究項(xiàng)目中,而學(xué)者就是要利用這些異質(zhì)數(shù)據(jù)集之間的聯(lián)系和重疊進(jìn)行各種推斷。對(duì)于人文大數(shù)據(jù)而言,多樣性還意味著這些數(shù)據(jù)集結(jié)構(gòu)的多樣性。很多時(shí)候,這些不同的數(shù)據(jù)集無(wú)法被整合成一個(gè)統(tǒng)一的數(shù)據(jù)集,然后用一種方法來(lái)分析。甚至,同一種算法針對(duì)不同的數(shù)據(jù)集也可能需要訓(xùn)練不同的模型。但人文數(shù)據(jù)的異質(zhì)性是人文大數(shù)據(jù)最明顯的優(yōu)勢(shì),也是人文學(xué)科數(shù)據(jù)最大的挑戰(zhàn)。有了這些來(lái)源不同、格式不同的數(shù)據(jù),研究者才能更加靈活地組合,以便從中獲取最大的研究效果。這也是人文大數(shù)據(jù)與社會(huì)科學(xué)大數(shù)據(jù)、科學(xué)大數(shù)據(jù)的區(qū)別之一。
其次,大數(shù)據(jù)的真實(shí)性和準(zhǔn)確性需要一定的人工干預(yù)。雖然更大量、多樣的數(shù)據(jù)才可以彌補(bǔ)以往小樣本、抽樣數(shù)據(jù)的片面與偏差,但正如葛劍雄教授所言,對(duì)數(shù)據(jù)的盲目應(yīng)用往往是導(dǎo)致數(shù)據(jù)誤差的重要原因。布薩神父在論及他為何在阿奎那項(xiàng)目開(kāi)始后試圖引入計(jì)算機(jī)時(shí)回憶說(shuō),“我相信計(jì)算機(jī)的速度和準(zhǔn)確度將對(duì)這項(xiàng)研究中涉及的數(shù)據(jù)匯編工作有很大幫助”,但他也關(guān)注到了任何關(guān)于語(yǔ)言學(xué)數(shù)據(jù)的解釋都是歸納式的,更多的是基于已有的經(jīng)驗(yàn)證據(jù)及支持可靠結(jié)論的文獻(xiàn)的完整度,因此布薩非常關(guān)注源數(shù)據(jù)的質(zhì)量[9]。中國(guó)學(xué)者在處理大規(guī)模真實(shí)文本語(yǔ)料時(shí)也發(fā)現(xiàn)了類似的問(wèn)題,如宋柔在統(tǒng)計(jì)語(yǔ)料庫(kù)中的詞語(yǔ)接續(xù)對(duì)時(shí)發(fā)現(xiàn),隨著語(yǔ)料庫(kù)規(guī)模的增大,新增加的接續(xù)對(duì)中的垃圾逐漸會(huì)占大部分甚至絕大部分。垃圾主要分布在統(tǒng)計(jì)到的低頻度接續(xù)對(duì)中,主要來(lái)源是分詞中專名識(shí)別錯(cuò)誤[12]。實(shí)際上數(shù)據(jù)一旦達(dá)到一定的規(guī)模,其中難免存在錯(cuò)誤、冗余數(shù)據(jù),對(duì)于傳統(tǒng)的統(tǒng)計(jì)學(xué)或者數(shù)據(jù)科學(xué)來(lái)說(shuō),合理范圍內(nèi)的偏差是可以接受的,但對(duì)于人文研究而言,會(huì)因?yàn)槲谋驹诠鈱W(xué)字符識(shí)別(optical character recognition,OCR)過(guò)程中出現(xiàn)的亂碼而被批評(píng)。在這個(gè)問(wèn)題上,如何在盡可能擴(kuò)大數(shù)據(jù)規(guī)模的同時(shí),兼顧數(shù)據(jù)的多樣性,并確保其真實(shí)性,就成為人文大數(shù)據(jù)處理中的關(guān)鍵。大部分的數(shù)字人文項(xiàng)目會(huì)特別關(guān)注數(shù)據(jù)準(zhǔn)確性的問(wèn)題。
再次,人文數(shù)據(jù)需要語(yǔ)境。這種語(yǔ)境一方面體現(xiàn)在人文數(shù)據(jù)不僅僅是被提取和計(jì)算的對(duì)象,也要被放回原初語(yǔ)境,如放回文本的上下文中進(jìn)行觀察和解讀;另一方面則是因?yàn)槿宋难芯空劶暗纳鐣?huì)或歷史“語(yǔ)境”是非常大的范圍。在概念史研究學(xué)界曾經(jīng)有過(guò)一場(chǎng)爭(zhēng)論。金觀濤、劉青峰兩位老師在1997年啟動(dòng)了一個(gè)名為“特定現(xiàn)代中文政治概念形式的量化研究”的項(xiàng)目,意圖對(duì)新文化運(yùn)動(dòng)期間最具代表性的12個(gè)中文期刊中的文章進(jìn)行量化統(tǒng)計(jì)和分析。隨后,兩位老師意識(shí)到現(xiàn)代重要政治觀念的研究開(kāi)展是可以通過(guò)對(duì)更大范圍內(nèi)的文本進(jìn)行檢索和分析進(jìn)行的,由此建立了“中國(guó)近現(xiàn)代思想史研究專業(yè)數(shù)據(jù)庫(kù)(1830—1930)”,并將基于該數(shù)據(jù)庫(kù)的相關(guān)研究以《觀念史研究:中國(guó)現(xiàn)代重要政治術(shù)語(yǔ)的形成》為名出版,其中包括了對(duì)近代思想史中多個(gè)(組)現(xiàn)代重要觀念進(jìn)行的基于關(guān)鍵詞的研究。此后有學(xué)者提出,基于數(shù)據(jù)庫(kù)對(duì)歷史進(jìn)行研究受到數(shù)據(jù)庫(kù)收錄資料的限制,其中很多資料沒(méi)有被收錄,會(huì)影響到研究的真實(shí)性。很多語(yǔ)境化的信息,如信息及觀念的傳播方式、物質(zhì)構(gòu)成、商業(yè)運(yùn)作、讀者獲得途徑、讀者的閱讀接受情況等,無(wú)法用精準(zhǔn)的時(shí)間或數(shù)字來(lái)表現(xiàn),企圖用數(shù)據(jù)多少或出現(xiàn)頻率來(lái)揭示,不但存在極大的難度,更存在致命的缺陷。兩位老師隨后在回應(yīng)中明確回復(fù),其所做的研究也都是在數(shù)據(jù)庫(kù)所收錄的文獻(xiàn)范圍內(nèi)開(kāi)展的,因此如若認(rèn)為更大規(guī)模資料的收錄會(huì)影響目前的研究結(jié)果,則需要進(jìn)行實(shí)際的研究加以驗(yàn)證。而且,以關(guān)鍵詞為中心的觀念史研究是典型的人文學(xué)科,只不過(guò)引進(jìn)了數(shù)據(jù)庫(kù)方法:“數(shù)據(jù)庫(kù)在人文研究中只有輔助作用,它為研究者提供了極大的便利,也提出了更高的要求。它只是在對(duì)關(guān)鍵詞的使用情況和類型分析這一素材收集和整理環(huán)節(jié)上提供了工具,而研究者在此基礎(chǔ)上,要以人文學(xué)科的基本范式和自己的研究素養(yǎng)來(lái)分析這些資料”[17-18]。這場(chǎng)論辯中批評(píng)者的主要懷疑點(diǎn)在于一定數(shù)量的數(shù)據(jù)(哪怕是一億兩千字的數(shù)據(jù)量)及基于該數(shù)據(jù)集的一種統(tǒng)計(jì)分析能否體現(xiàn)歷史的真實(shí)?其實(shí)回到大數(shù)據(jù)本身,或許就能有更好的理解。不存在任何數(shù)據(jù)集是“全數(shù)據(jù)”,事實(shí)上,可能永遠(yuǎn)都沒(méi)有辦法做到全數(shù)據(jù)。那么基于大數(shù)據(jù)的研究與所有以往的研究一樣,都是在一定的范圍內(nèi)基于一定的對(duì)象進(jìn)行的研究,因此局限性是不可避免的。那么這里實(shí)際上要回答的是,基于部分?jǐn)?shù)據(jù),而且是相當(dāng)大的數(shù)據(jù)集的研究是否有效?這個(gè)答案也是毋庸置疑的,實(shí)際上,哪怕是基于某一種單一來(lái)源的數(shù)據(jù)集,當(dāng)體量大到一定程度時(shí),從數(shù)據(jù)的角度而言,其與基于多個(gè)數(shù)據(jù)來(lái)源的小數(shù)據(jù)集的研究都一樣具有意義。衡量的標(biāo)準(zhǔn)不在于數(shù)據(jù)本身,而在于研究的結(jié)論本身。而驗(yàn)證結(jié)論的方法是定量還是定性也是沒(méi)有唯一性的。但提出批評(píng)是需要一定的條件的,尤其是對(duì)定量分析的批評(píng),最好是要建立在對(duì)同樣數(shù)據(jù)集的驗(yàn)證實(shí)驗(yàn)的基礎(chǔ)上,而這一點(diǎn)往往更多地體現(xiàn)在自然科學(xué)研究中,而非人文研究。同時(shí),數(shù)據(jù)、文本的語(yǔ)境與歷史、社會(huì)的語(yǔ)境并非同一層面。正如批評(píng)者所言,并非所有的歷史、社會(huì)語(yǔ)境都可以文本化、數(shù)據(jù)化,因此,也并非所有的人文研究都需要依賴數(shù)據(jù)分析。在這個(gè)意義上,有學(xué)者在討論“什么不是數(shù)字人文”“什么是數(shù)字人文”以及“什么是好的數(shù)字人文”中都提到了,數(shù)字人文或者說(shuō)基于人文大數(shù)據(jù)的人文研究,重要的并不是工具或者方法論本身,而是究竟用這樣的數(shù)據(jù)和工具解決什么樣的人文問(wèn)題。人文性在數(shù)字人文研究中是第一位的。可以說(shuō),這樣的討論體現(xiàn)了人文學(xué)界對(duì)于大數(shù)據(jù)及大數(shù)據(jù)研究方法的一種內(nèi)省和警覺(jué)。正如葛劍雄教授提出的,要考量“它的結(jié)果有沒(méi)有意義,能不能改變一個(gè)重大的學(xué)術(shù)論斷”,人文研究的問(wèn)題還是要回到人文的領(lǐng)域里進(jìn)行檢驗(yàn)。
那么,理想的人文大數(shù)據(jù)是什么樣的?不妨從與社會(huì)科學(xué)的比較開(kāi)始分析。通常社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)、傳播研究和營(yíng)銷研究被認(rèn)為更適合使用定量方法(即用于分析數(shù)據(jù)的統(tǒng)計(jì)、數(shù)學(xué)或計(jì)算技術(shù)),而人文學(xué)科,如文學(xué)研究、藝術(shù)史、電影研究和歷史,則傾向于使用詮釋學(xué)、參與觀察、厚重描述、符號(hào)學(xué)和細(xì)讀等方法。對(duì)于社會(huì)科學(xué)和人文研究而言,數(shù)字技術(shù)與大數(shù)據(jù)所帶來(lái)的學(xué)科影響則以計(jì)算社會(huì)學(xué)(computational social science)和數(shù)字人文為代表。盡管兩者在研究對(duì)象和研究方法上有相同與交叉,如皆以數(shù)字技術(shù)及數(shù)字文化為對(duì)象、都會(huì)涉及數(shù)據(jù)處理方法的應(yīng)用,但兩者也存在區(qū)別,如數(shù)據(jù)獲取和處理的方式、研究問(wèn)題的提出等。而從數(shù)據(jù)的層面來(lái)說(shuō),列夫·馬諾維奇(Lev Manovich)將前一類可以適用于定量分析的,與大群人或團(tuán)體有關(guān)的數(shù)據(jù)稱為“表層數(shù)據(jù)”,將后一類與更為小眾的群體有關(guān)的數(shù)據(jù)稱為“深層數(shù)據(jù)”[19]。他指出盡管基于大規(guī)模數(shù)據(jù)的社會(huì)計(jì)算(social computing)研究往往能提供關(guān)于人類在數(shù)字文化時(shí)代的行為和表現(xiàn)得更廣泛的數(shù)字圖景(digital landscape),但計(jì)算機(jī)在理解文本、圖像、視頻和其他媒介意義與語(yǔ)境方面具有的局限性,使這些研究都只能是基于簡(jiǎn)化維度的分析,甚至?xí)艿藉e(cuò)誤數(shù)據(jù)的影響。而他所設(shè)想的理想狀態(tài)則是將人所具有而計(jì)算機(jī)所不具有的理解和解釋能力與計(jì)算機(jī)運(yùn)用算法處理大規(guī)模數(shù)據(jù)的能力結(jié)合起來(lái)。這一點(diǎn)其實(shí)在有關(guān)“智慧數(shù)據(jù)”的討論中也有所體現(xiàn)。
曾蕾、王曉光、范煒與克里斯托弗·紹什(Christof Sch?ch)分別曾撰文討論過(guò)智慧數(shù)據(jù)。曾蕾等指出智慧數(shù)據(jù)是“實(shí)現(xiàn)大數(shù)據(jù)特征中最后一個(gè)‘V’——價(jià)值(value)的方法,即通過(guò)對(duì)任何規(guī)模的可信的、情境化的、相關(guān)切題的、可認(rèn)知的、可預(yù)測(cè)的和可消費(fèi)的數(shù)據(jù)的使用來(lái)獲得重大的見(jiàn)解和洞察力,揭示規(guī)律,給出結(jié)論和對(duì)策”。借此他們提出,“智慧數(shù)據(jù)通常帶有自描述機(jī)制,背后有領(lǐng)域本體作支撐,使這些數(shù)據(jù)符合特定的邏輯結(jié)構(gòu)和形式規(guī)范,而且可以支持推理,由此形成智慧的基礎(chǔ),產(chǎn)生可預(yù)測(cè)和可消費(fèi)的數(shù)據(jù)”。同時(shí),還因?yàn)椤爸腔蹟?shù)據(jù)較強(qiáng)的可解釋性,支持邏輯推理從而使之可以用于多種用途和支持多種互操作,并且具有很強(qiáng)的可追溯能力,能夠滿足人文研究范式的需要。”他們通過(guò)圖博檔中關(guān)于關(guān)聯(lián)數(shù)據(jù)、圖像深度標(biāo)引和非物質(zhì)文化遺產(chǎn)數(shù)據(jù)的元數(shù)據(jù)等議題來(lái)說(shuō)明智慧數(shù)據(jù)具有的特性。紹什關(guān)于智慧數(shù)據(jù)的定義則更加簡(jiǎn)潔,即“我建議首先將大數(shù)據(jù)看作相對(duì)非結(jié)構(gòu)化的、混亂的和隱含的、體積相對(duì)較大的、形式多樣的。相反地,我建議將智能數(shù)據(jù)看作半結(jié)構(gòu)化或結(jié)構(gòu)化的、干凈的和明確的,以及體積相對(duì)較小、異質(zhì)性有限的?!眱煞N定義從不同方面指向了智慧數(shù)據(jù)的價(jià)值和屬性,可以幫助人們理解為什么在人文研究中學(xué)者會(huì)強(qiáng)調(diào)智慧數(shù)據(jù)。這恰恰是因?yàn)槿宋难芯繉?duì)數(shù)據(jù)的要求更高、更加苛刻,而人文數(shù)據(jù),尤其是第一類通過(guò)數(shù)字化生成的人文數(shù)據(jù),其數(shù)據(jù)的結(jié)構(gòu)化程度、清潔度和可量化效果都是由數(shù)據(jù)生成過(guò)程,甚至是投入人力的多少來(lái)決定的。
隨著大規(guī)模數(shù)據(jù)集的出現(xiàn)和數(shù)據(jù)分析方法的更新,計(jì)算的問(wèn)題也越來(lái)越多地受到了學(xué)者的關(guān)注。在文學(xué)界,以佛朗哥·莫雷蒂(Franco Moretti)為代表的學(xué)者,包括馬修·喬克斯(Matthew Jockers)、馬修·威爾肯斯(Matthew Wilkens)和安德魯·派珀(Andrew Piper)等在內(nèi),支持運(yùn)用主題建模、網(wǎng)絡(luò)分析等從海量數(shù)字化文學(xué)資料庫(kù)中挑選出的語(yǔ)言與形式的宏觀模式。尤其是莫雷蒂基于對(duì)大量小說(shuō)文本信息(如標(biāo)題)的統(tǒng)計(jì)分析形成的“遠(yuǎn)讀”(distant reading)理論及研究方法對(duì)數(shù)字人文乃至整個(gè)人文學(xué)界影響深遠(yuǎn)。但從實(shí)際效果而言,莫雷蒂的“遠(yuǎn)讀”方法也并沒(méi)有真正從根本上解決布薩1949年提出的問(wèn)題:如何用計(jì)算機(jī)使學(xué)者們快速而準(zhǔn)確地深入研究諸如真實(shí)性、文本批評(píng)、風(fēng)格、年代和翻譯等一系列問(wèn)題。在美國(guó)現(xiàn)代文學(xué)協(xié)會(huì)出版物(Publication of the Modern Language Association,PMLA)2017年組織的一次關(guān)于“遠(yuǎn)讀”的討論中,莫雷蒂對(duì)此作出了回應(yīng)。他部分地贊同了蘇真(Richard Jean So)教授對(duì)其的批評(píng)——“(莫雷蒂)所做的不過(guò)是對(duì)其語(yǔ)料的一個(gè)統(tǒng)計(jì)描述”,同時(shí)還指出安德魯·派珀所提出的實(shí)現(xiàn)一種“模型的模型”(model of a model)是未來(lái)必然的發(fā)展路徑。他指出,蘇真等人及芝加哥大學(xué)文學(xué)實(shí)驗(yàn)室正在進(jìn)行的“模式”的研究將完全改變理論所具有的可能性,將會(huì)改變歷史與文學(xué)研究的關(guān)系,尤其是改變文學(xué)研究的時(shí)間性框架,歷史將成為文學(xué)研究的前提[20]。而“模型的模型”或者說(shuō)“模式”正是計(jì)算文學(xué)努力通過(guò)量化計(jì)算實(shí)現(xiàn)的方法論嘗試。趙薇指出,從莫雷蒂的概念模型到后來(lái)的文學(xué)實(shí)驗(yàn)室的計(jì)算批評(píng),“實(shí)證研究”與文學(xué)闡釋、文化批評(píng)被有機(jī)地融合在一起。量化文學(xué)研究的本質(zhì)是根據(jù)研究的需要,選取合適的測(cè)量尺度和有效的測(cè)量手段,只有這樣才能真正發(fā)現(xiàn)問(wèn)題[21]。
然而,并非所有的學(xué)者都能接受對(duì)人文數(shù)據(jù)進(jìn)行量化分析。一篇于2017年10月15日發(fā)表在美國(guó)《高等教育紀(jì)事報(bào)》網(wǎng)站上名為《數(shù)字人文搞砸了》(The digitalhumanities bust)的文章引發(fā)了廣泛爭(zhēng)論[22]。作者提摩太·布倫南是明尼蘇達(dá)大學(xué)雙城分校的文化研究、比較文學(xué)及英語(yǔ)系教授。在布倫南教授看來(lái),英國(guó)劍橋分析公司Ada算法事件體現(xiàn)的是對(duì)“數(shù)據(jù)”和“算法”的盲目樂(lè)觀主義在現(xiàn)實(shí)社會(huì)中的受挫。布倫南指出,算法不僅是一系列失敗事件背后的推手,也是隱藏在數(shù)字人文研究及其20年蓬勃發(fā)展的邏輯,數(shù)字人文也在這種“非常公開(kāi)和尷尬”的結(jié)果中面臨危機(jī)與反思。他在歷數(shù)了這些年來(lái)數(shù)字人文學(xué)者得到的諸多好處(如美國(guó)國(guó)家人文基金、梅隆基金會(huì)提供的大量資金資助,一流期刊文章的背書(shū)以及得到晉升終身教職崗位等)之后,提出質(zhì)疑:數(shù)字人文到底有什么成就?布倫南教授認(rèn)為,數(shù)字人文研究對(duì)算法的依賴使數(shù)字人文學(xué)者在面對(duì)文本時(shí)只看到了通過(guò)算法所呈現(xiàn)出的文本的特點(diǎn)(如詞頻),卻無(wú)法觸及文本中有價(jià)值的內(nèi)容;也同時(shí)因?yàn)閷?duì)算法的依賴,數(shù)字人文學(xué)者無(wú)法擺脫計(jì)算的局限性,而以此局限性為探尋研究問(wèn)題的限定。尤其針對(duì)書(shū)籍內(nèi)容的量化分析、文學(xué)批評(píng)中的“遠(yuǎn)讀”策略和“文學(xué)模式識(shí)別”等,布倫南認(rèn)為數(shù)字人文學(xué)者只是看到了表層的數(shù)字和數(shù)據(jù),但卻不能像使用大腦那樣使用計(jì)算機(jī)進(jìn)行深入的思考:“由于其自身機(jī)制,數(shù)字‘閱讀’從根本上將大腦自然產(chǎn)生的智慧靈感,建立價(jià)值形式的建立,以及本能沖動(dòng)都徹底排除在外。”論其原因,一是因?yàn)閷ⅰ案嘈畔⒒煜秊楦嘀R(shí)”,數(shù)字人文學(xué)者無(wú)法在其所施用的方法之外進(jìn)行反思,認(rèn)識(shí)到該方法在認(rèn)識(shí)論上的意義和方法論上的價(jià)值;二是“對(duì)科學(xué)的迷戀,新自由主義的撤資”,占有少量資源或者長(zhǎng)期處于學(xué)界邊緣的年輕學(xué)者通過(guò)新科技在已經(jīng)劃定格局的學(xué)術(shù)場(chǎng)域內(nèi)爭(zhēng)取更多的文化資本,獲取地位提升。因此,“與其說(shuō)數(shù)字人文是一場(chǎng)革命,不如說(shuō)數(shù)字人文是為了反對(duì)主流形式,從而強(qiáng)行將人文從其存在原因中剝離出來(lái)的那個(gè)楔子”。
文中提到的關(guān)于數(shù)字人文中的某些局限性也確實(shí)是數(shù)字人文學(xué)界普遍存在的問(wèn)題,如部分研究還停留在詞頻的程度上,而且有些數(shù)據(jù)本身也是經(jīng)過(guò)預(yù)先加工的,因而有“作弊”嫌疑,同時(shí)很多數(shù)據(jù)處理的過(guò)程也是在人工監(jiān)督下完成的,因此結(jié)果也不那么令人驚喜等。但布倫南一文中的問(wèn)題也是非常明顯的,如“數(shù)字人文”在文中被簡(jiǎn)化為了關(guān)于數(shù)字的“量化”,而抹殺掉了數(shù)字人文中學(xué)科、研究問(wèn)題和領(lǐng)域的多樣性;再如蘇真和霍伊特·朗(Hoyt Long)關(guān)于日本俳句的“文學(xué)模式識(shí)別”(literary pattern recognition)研究并非只是在檢驗(yàn)一個(gè)已知結(jié)果的正確性,而是通過(guò)一種新的計(jì)算方式挑戰(zhàn)及改變以往對(duì)于俳句的認(rèn)知及研究思考。對(duì)于這種誤讀或者攻擊,包括被批評(píng)對(duì)象特德·安德伍德(Ted Underwood)和霍伊特·朗在內(nèi)的3位學(xué)者在2017年11月1日的《“數(shù)字”與“人文”不對(duì)立》(“digital” is not the opposite of “humanities”)[23]中做出了回應(yīng):首先,量化研究在經(jīng)濟(jì)、社會(huì)學(xué)乃至人文研究中應(yīng)用已久,數(shù)字人文因此“獲罪”實(shí)在是作者有意為之;其次,僅就量化或者說(shuō)數(shù)字而言,數(shù)字人文中所說(shuō)的“數(shù)字”也比作者所說(shuō)的簡(jiǎn)單計(jì)算詞頻要廣泛得多,例如之前提到的“文學(xué)模式識(shí)別”,“就已經(jīng)被用來(lái)探討虛構(gòu)的本質(zhì)、文類的周期,以及塑造角色的性別假設(shè)等”。這些問(wèn)題是文學(xué)史的核心問(wèn)題,并且因數(shù)字人文得以從一個(gè)新的尺度進(jìn)行討論。最后作者還指出,數(shù)字人文不僅僅意指新的研究手段,也影響到博物館、新聞、圖書(shū)館等機(jī)構(gòu)面向公眾傳播的新形式。類似的討論還出現(xiàn)在了歷史研究、藝術(shù)史研究等領(lǐng)域。以大數(shù)據(jù)和計(jì)算的方式進(jìn)行人文研究受到了普遍的爭(zhēng)議。但正如埃里克·威斯科特(Eric Weiskott)在對(duì)此的回應(yīng)中提到的,數(shù)字技術(shù)正在重新創(chuàng)造歷史,這個(gè)過(guò)程和16世紀(jì)印刷技術(shù)在歐洲出現(xiàn)時(shí)發(fā)生的情況類似,也同樣引起了質(zhì)疑。而作為一種不可逆轉(zhuǎn)的過(guò)程的結(jié)果,數(shù)字技術(shù)改變的不僅僅是知識(shí)傳遞,更是一種新的知識(shí)形式的體制建構(gòu),并非僅僅是認(rèn)識(shí)論的改變[24]。確實(shí)如此,對(duì)于數(shù)字人文而言,計(jì)算并非僅有的手段,但人文大數(shù)據(jù)卻是已經(jīng)存在且必須要面對(duì)的現(xiàn)象。如何更好地利用數(shù)字技術(shù)與方法對(duì)人文大數(shù)據(jù)開(kāi)展多角度的研究是比爭(zhēng)論是否可以使用數(shù)字技術(shù)或方法更為實(shí)際和迫切的問(wèn)題。
以上關(guān)于人文大數(shù)據(jù)的討論,多將人文大數(shù)據(jù)看作為達(dá)到某種研究目的所使用的材料,但事實(shí)上大數(shù)據(jù)本身及大數(shù)據(jù)分析過(guò)程中產(chǎn)生的一系列倫理問(wèn)題,如ImgaeNet這樣的大規(guī)模圖像數(shù)據(jù)集中具有的性別、種族偏見(jiàn)問(wèn)題以及這些問(wèn)題引發(fā)的相關(guān)算法缺陷問(wèn)題、數(shù)據(jù)收集及清理背后的數(shù)據(jù)勞動(dòng)問(wèn)題等,引發(fā)了人文學(xué)者的普遍關(guān)注。人文大數(shù)據(jù)帶來(lái)的問(wèn)題不僅僅是研究范式的轉(zhuǎn)變,其更成為研究問(wèn)題本身。但很遺憾的是,目前從事數(shù)據(jù)科學(xué)的研究者們卻較少與人文學(xué)者就人文大數(shù)據(jù)及大數(shù)據(jù)在人文研究中的價(jià)值展開(kāi)直接而深入的討論,期待此次專題能開(kāi)啟如此契機(jī)。