量化數字人文綜述

2020-01-09 05:46:36高瑾

圖書館論壇 2020年1期

高瑾

在過去幾十年中，數字人文獲得許多學術領域的關注，并為日益增長的數字文化發(fā)展做出了巨大貢獻(Siemens，2016)[1]xxi。相較文學、哲學或藝術等傳統(tǒng)人文學科，數字人文的歷史較短，學科發(fā)展迅，研究內容多變。隨著其全球影響力的逐漸擴大，數字人文從深層次改變著人文學、社會學等一系列相關學科的研究方法與思維方式(de Smedt，2002)[2]，并不斷為人文學和計算機科學等領域的科研和教學開拓新的思路(Terras，2012)[3]。在數字人文的“大帳篷”之下，科研設施、研究中心、出版物、學術交流和教學計劃等一系列學科建設不斷增長，涵蓋了各種快速發(fā)展的多元研究主題，從研究項目的開展到具體技術的開發(fā)，百花齊放(Weingart and Eichmann-Kalwara，2017)[4]。然而，在如此蓬勃發(fā)展的形勢之下，我們對數字人文本身的學科結構卻知之甚少，連對其歷史的探究也因高度的跨學科性和邊界模糊的學術范疇而止步不前。雖然數字人文作為一個“大帳篷”可以被看作一個整體，但其中究竟是支離破碎的零散研究論題還是在交流鞏固之下形成的成熟學科體系也不得而知。

有學者嘗試通過尋找數字人文的定義而解決上述問題，然而定義數字人文并厘定其知識邊界的任務同樣十分艱難。從Rockwell在1999年提出定義的必要(Rockwell，1999)[5]，到2009年的“數字人文日”將“定義數字人文”正式搬上國際論壇，過去20年間，眾多學者從不同角度出發(fā)，紛紛對其進行了定義，由此而引發(fā)的討論和批評更是數不勝數。“定義數字人文”這一現象也因此成為了數字人文的核心問題之一。直到今日，雖然仍沒有得到普遍認同的結論(Svensson，2010)[6]，不過大多數學者都接受了McCarty對于定義的態(tài)度——“這是一個無法得出確切答案但是可以隨著學科發(fā)展不斷探索和完善的問題”(McCarty，2005；Terras et al.，2013)[7-8]。為了方便本文的論述，筆者將其定義為：數字技術與人文學科不斷發(fā)展的一個交叉領域，其內容涉及兩者間的相互作用，即人文學中數字資源的應用，以及數字時代人文角度的探討(Siemens，2016；Nyhan and Flinn，2016)[1]xxi[9]1-2。

本文旨在回顧和討論以歐美學者為主的針對數字人文學科結構和歷史的相關量化研究，以期從前人關于數字人文的統(tǒng)計研究中歸納其知識范疇、評價出版物、概述社交媒體使用，從而嘗試解答“何為數字人文”這一核心問題，并將其置于更廣泛的學科知識地圖中，幫助學界理解數字人文與其他學科間的聯系。

1 數字人文

中國大陸“數字人文”這一學科名詞屬于翻譯詞匯，由英文詞“Digital Humanities”直譯而來。其學科名稱在其他大多數語言環(huán)境中也都由英文詞衍變而來，如德語(Digital Humanities①)、法語(Humanités Numériques)、西班牙語(Humanidades Digitales)。由于不同的翻譯傳統(tǒng)，全球不同漢語區(qū)域所使用的中文學科名稱也有所不同。例如，中國大陸使用“數字人文”，中國臺灣多使用“數位人文”，而中國香港多使用“數碼人文”。同時，翻譯工作也無法借鑒日語漢字翻譯，因為日本學者選擇了使用假名以直接音譯的方式，避免了漢字的使用(即，“デジタル·ヒューマニティーズ”)。

然而，“數字人文”并不是這一領域唯一的名稱，它還有許多“曾用名”，如“人文計算”(Humanities Computing)(Nyhan et al.， 2013)[10]。從“人文計算”到“數字人文”的轉變通常由2005 年劃分開來，前者多用于1949-2005 年，而后者多出現于2006年至今。這一劃分不光在時間線上切割出學科歷史的不同階段，也展示了學科發(fā)展從最初的“技術服務于人文”逐步向“領域內獨特創(chuàng)新的方法和研究”的質的轉變(Hayles，2012)[11]。雖然2006 年之后仍有聲音挑戰(zhàn)“數字人文”學術名稱的地位，例如，批評該詞匯“毫無含義”(Dinsman，2016)[12]，提出各種新名稱，諸如“數字研究”(Digital Studies)(Stiegler，2012)[13]、“數字自由藝術”(Digital Liberal Arts)(Pannapacker，2013)[14]、“計算批評”(Computational Criticism)(Dinsman， 2016)[12]，提出數字人文的反義詞“模擬人文”(Analog Humanities) (Sterne，2015)[15]等，然而這些討論并未能撼動“數字人文”被大多數學者、機構和組織所接受并使用。這一學科標簽的使用不僅給傳統(tǒng)人文學帶來深遠的影響，而且為學者們創(chuàng)造了各種各樣研究、教學、項目資金等機會，還促進了數字人文學者群體、科研社區(qū)、共同價值文化，以及學科范疇和歷史的形成。

雖然數字人文作為一個研究領域持續(xù)快速地發(fā)展著，但它是否已經具有一門學科的地位和屬性仍然存在爭議(Schreibman et al.，2016)[16]。這不僅影響著大學人文學科的基礎建設和圖書館、博物館等一系列機構的工作，而且對研究相關題目的學者來說，也是重要的科研前提和方法論對象(Nyhan and Flinn，2016)[9]1-2。從學科設置、科研開展、資金啟動等務實的角度來看，數字人文早已具備了作為一門學科的各種屬性(如學者群體、出版物、國際學術活動)，并發(fā)展為一個“學術生態(tài)系統(tǒng)”(Svensson，2016)[17]。

具體來說，首先，數字人文在世界范圍內有完善的學者社區(qū)和定期交流活動，如最大的國際交流平臺——數字人文組織聯盟(Alliance of Digital Humanities Organization，ADHO)及其區(qū)域成員組織。從1964年首次在美國約克敦高地舉辦的“文學數據處理會議”(Literary Data ProcessingConference)(BessingerandParrish，1965)[18]，到ADHO 每年最大規(guī)模的全球會議，再到北京大學舉辦的年度數字人文論壇(朱本軍和聶華，2016，2017a，2017b)[19-21]，各種規(guī)模的數字人文會議遍布全球每個大陸。各類數字人文組織、機構、活動和教學計劃構建起一套完整的學科生態(tài)系統(tǒng)，不僅鞏固了數字人文的學科地位和科研意義，而且為掌握新技術、創(chuàng)造新知識的學者提供更多的工作崗位和研究機會。

其次，數字人文從1966年開始就有了學科的正式期刊——《計算機與人文學》(Computers and the Humanities，CHum)。其后，其他有影響力的期刊也層出不窮，如ADHO直屬的3種期刊：一是牛津大學出版社出版的《人文數字學術期刊》(Digital Scholarship in the Humanities，DSH)(原刊名為《文學與語言計算》，Literary and Linguistic Computing，LLC)，成立于1986年，現已成為數字人文最核心的刊物；二是2007 年創(chuàng)刊且全文開放存取的《數字人文季刊》(Digital Humanities Quarterly，DHQ)；三是加拿大數字人文學會1992 年創(chuàng)立的以法語為主的多語言期刊《數字研究》(Digital Studies/LeChamp Numérique)。此外，數字人文還擁有其他相關期刊和出版物，以協助研究、開展項目、幫助教學、管理圖書館和建設基礎設施等，如《數字人文伴侶》《數字人文爭論》《數字人文讀本》(Schreibman et al.，2004；Gold，2012；Terras et al.，2013)[22-23，8]。

數字人文可以通過常規(guī)的定性定量方法進行學科監(jiān)測和評估，這也從旁力證了數字人文日趨完善的學科屬性。例如，英國的研究卓越框架(Research Excellence Framework，REF)就被用來評價數字人文的學科建設，以期分析出版物、發(fā)掘學科強項和出現的問題，從而使科研和教學活動健康發(fā)展(Nyhan and Flinn，2016)[9]1-2。

數字人文的“學術生態(tài)系統(tǒng)”為當前發(fā)展提供了新的思路，并反過來影響“數字”和“人文”這兩個領域(Gold，2012)[23]1-2。雖然數字人文已經具備上述學科屬性并且日趨成熟，但很多關于其學科范疇和歷史等學科研究的問題依然亟待解決。例如，數字人文包含哪些子領域？它們之間的關系是什么？哪個影響力最大？早期的數字人文研究內容和現在有什么不同？研究內容如何隨著時間推移而變化？誰是數字人文最有影響力的學者？他們之間有哪些合作模式？數字人文學者地理分布是否具有全球化特點？在性別和語言方面是否足夠多樣化？學者的性別和地理因素會對數字人文社區(qū)產生哪些結構性的影響？從1966 年開始到現在，學者們持續(xù)不斷地根據個人經驗和主觀討論來嘗試回答這些問題。作為CHum主編，Raben描述了數字人文的學科范圍(Raben，1966)[24]。但他當時并未將其與傳統(tǒng)人文學區(qū)分開，而只是歸為“使用計算機的廣泛人文學研究領域”。直到2003年，McCarty根據經驗繪制了數字人文的第一張知識結構圖(2005年重新修訂)，從而將數字人文中“數字”與“人文”的部分以圖解的方式各自獨立出來，以幫助了解其研究主題和內在聯系(McCarty，2003)[25]1233。該結構圖不僅展示了各類研究方法、關鍵要素、核心主題“知識云”和它們之間存在的互相作用，而且提供了以圖像定義數字人文的新思想，為其后的研究奠定了一個堅實的起點。

2004年Hockey出版了最具影響力的數字人文歷史研究(Hockey，2004)[26]，從個人觀察出發(fā)，以回顧學科重要事件為主線將歷史分為4個時期。然而，這一歷史總結也隨著文章的出版在2004年戛然而止，使得它沒能涵蓋“數字人文”作為學科名稱出現后的15年歷史。為補全歷史，Nyhan 等以口述歷史的方法采訪40 位早期的數字人文先驅(Nyhan and Flinn，2016)[9]，不僅從歷史親歷者的個人視野出發(fā)帶來了詳盡描述和第一手數據，還創(chuàng)建了對公眾開放的訪談文本和語音數據庫，為之后的數據分析和量化歷史研究提供了豐富素材。但是在過去幾年間，特別是在《數字人文讀本》(Defining Digital Humanities：A Reader)于 2013 年 12 月出版之后(Terras et al.，2013)[8]，越來越多的聲音不斷強調數字人文的多樣變化和持續(xù)發(fā)展的特點，這使得像以上這樣用傳統(tǒng)的文獻回顧、個案分析、主觀總結等方式進行的研究，不再能勝任厘清學科范疇和匯編學科歷史的任務。

2 量化研究綜述

如上所述，雖然早期基于個人主觀總結的學科研究為探索數字人文做出了開創(chuàng)性的貢獻，但是這些研究相對零散，通常點到為止，無法結合大量的數據進行全面回顧。而量化研究則可以有效解決這些因主觀原因所產生的局限性。量化方法是數字人文領域最常使用的研究方法之一，而應用該方法來研究其本身不僅能夠更周詳地揭示學科本質，還可以為科研發(fā)展帶來新的思路。

科學技術和科研方法的不斷進步也為收集大量數據提供了技術前提，使量化數字人文的概念得以實踐。從2006年至今的13年間，不斷有學者使用數據代替描述來勾畫數字人文的知識脈絡和學者群體。這些統(tǒng)計和計算數據通過各種可視化方法，不僅宏觀地展現了數字人文的總體概貌，而且還能夠將前人所回顧的具體事件、個別案例、詳細信息進行系統(tǒng)地串連，補充缺失的知識和來源，還原數字人文完整的“學科生態(tài)系統(tǒng)”(B?rner，2011)[27]。

這些量化數字人文的研究，不僅可以使我們了解前人在學科研究方面做出的努力，而且能為未來全面解析和認識數字人文提供理論基礎和實踐經驗。Weingart 與Earhart 等學者都曾收集和列舉過相關的研究(Weingart，2018；Earhart，2018)[28-29]。本文在他們的收集基礎上，對量化數字人文的研究進行系統(tǒng)性回顧與綜述。除了補充更多相關研究，并分別從文獻計量學和社會計量學兩個方面來分析之外，本文對量化方法、數據收集，以及結果分析也進行了比對討論，以期從量化的角度逐步劃清數字人文的學科范圍和發(fā)展歷史。此外，通過分析這些定量研究，能夠在對歷史和學科發(fā)展有新理解的基礎上，超越前人的努力來填補歷史的缺失和知識結構的空白。

2.1 文獻計量學

過去10年間，與數字人文有關的各種期刊和會議出版物增長迅速，為文獻計量學研究提供了豐富的研究資料(Hellqvist，2010)[30]。通過收集標題、作者、關鍵詞、參考文獻等各類文獻數據，文獻計量(又稱“信息計量”或“科學計量”)方法能夠幫助我們發(fā)掘并構建數據間的聯系，以此分析數字人文的科學產出、學科(知識)結構和子領域、社會環(huán)境、學術信息交流渠道，并預測未來發(fā)展趨勢，等等(Tang et al.，2017)[31]。

2.1.1 知識結構

研究表明，數字人文知識結構在不斷變化發(fā)展，量化研究的樣本大小也對結果起著決定性影響。從定量的角度來看，數字人文的研究主題并沒有學者們所認為的那樣多元化。

2006 年，Terras 對 1996-2005 年間 ACH/ALLC會議②(ADHO會議的前身)的摘要和作者數據進行了詞頻和作者研究(Terras，2006)[32]。結果顯示，這10年間文本分析主題占到絕大部分，同時與會者主要來自圖書館信息學、英語研究、語言學等學科。

2009年，王曉光和Inaba在Terras的基礎上加入了期刊的數據。除了ADHO會議集，他們還將兩種期刊(LLC和DHQ)納入研究范疇。3項數據來源共計得到548 篇文獻，時間跨度5 年(2005-2009)。通過對應分析和共詞分析，他們對提取的1，219 個詞匯進行網絡可視化(Wang and Inaba，2009)[33]處理，發(fā)現數字人文內部并沒有明顯的子領域。這一令人驚訝的結論與大多數之前的學科概述(McCarty，2003；Hockey，2004)[25-26]并不相符。

緊接著Leydesdorff 和Salah 也發(fā)現了數字人文的知識結構過于單一。2010年1月他們通過關鍵詞檢索，對829篇來自81種不同期刊1975-2009 年的文獻構建期刊共引網絡(Leydesdorff and Salah，2010)[34]，發(fā)現這些期刊只來自幾個固定的領域，如圖書館信息學(34.6%)、計算語言學(10.9%)，以及計算機和文學的交叉學科(6.1%)。該結果證實數字人文研究僅僅與計算語言學和文本分析兩個核心主題相關，并且出版物只集中在兩種期刊聚類上，即圖書館信息學期刊和數字人文期刊。這與號稱具有廣泛包容性和多樣性的數字人文“大帳篷”特征相差甚遠。這或許是由于數據樣本太小，因此2015年Salah等擴大數據量，重新構建期刊網絡圖(Salah et al.，2015)[35]78-89，見圖1。這一次結果稍有好轉，圖1展示了數字人文在更廣泛的學術環(huán)境中的定位，以及它與圖書館、計算機、信息學、媒體、文學史、藝術等其他領域更完整的關系。隨著數據量的增加，與數字人文有關的文章除了發(fā)表在圖書館信息學和計算機兩個學科的期刊上之外，還出現在文學、語言學、教育研究和歷史等領域出版物上。當然，該研究的數據規(guī)模依然偏小，時間跨度也有局限。

圖1 數字人文在廣泛學術環(huán)境中的期刊網絡圖[35]83

2012-2017 年，Weingart 收集整理了ADHO 舉辦的6 年會議文獻數據，不僅補充了Terras以及王曉光和Inaba停留在DH2009的分析，而且發(fā)現了更多的子領域。首先，與Terras的結論相似，Weingart 發(fā)現從DH2012 到DH2014，研究主題大多集中在“文學研究”和“文本挖掘”(Weingart，2014a，2013a，2013b，2012)[36-39]上。然而，從DH2015 開始，研究重點逐漸多元化，由基于文本的項目轉向以創(chuàng)新方法和學科發(fā)展為中心，如應用新技術方法的歷史研究(Weingart and Eichmann-Kalwara，2017)[4]。

2017 年，高瑾等繼續(xù)對數字人文的各個子領域進行了深化研究。他們通過對3 種期刊(CHum，LLC/DSH，DHQ)的3，251篇時間跨度52年(1966-2017)的文獻進行作者共被引網絡分析，發(fā)現了數字人文的6大研究主題，即：先驅及歷史研究、計算語言學、圖書館信息學、統(tǒng)計文學、新媒體、數據挖掘與技術分析(Gao et al.，2017；高瑾，2017)[40-41]。

這些定量研究結果為數學人文學者提供了有數據支持的可視化知識結構，使我們能夠清晰地認識到數字人文的知識范圍和重點研究內容。同時，加上時間這一新的維度，則可以更明確地探索數字人文領域的發(fā)源、形成、發(fā)展以及內容演變。

2.1.2 內容演變

數字人文的研究內容在其發(fā)展過程中動態(tài)變化著。王曉光和Inaba在2009年的工作不僅是首例數字人文網絡化研究，而且是首個通過數據結果證實數字人文內容演變的研究。他們發(fā)現2005～2009 年間學科名稱從“人文計算”轉移到“數字人文”的明顯趨勢(Wang and Inaba，2009)[33](見圖2)。在圖2中，紫色的“人文計算”(Humanities Computing)一詞在文章標題中的使用越來越少，并且其網絡核心地位逐漸被棕色的“數字人文”(Digital Humanities)一詞所取代。這些網絡可視圖印證了LLC/DSH主編Vanhoutte提出的以2005-2006年作為兩個學科名稱分水嶺時間點(Vanhoutte，2013)[42]的論斷，并為這一論斷提供了可視化定量網絡圖作為有力證據。

之后，Spiro對2005-2011年間134個世界各地的數字人文教學大綱(及其相關項目)進行了分析，包括教育水平、學科分布、技術技能、需求模式。她發(fā)現，在這7年間，數字人文的教學內容不斷吸納各種新的元素(如視覺圖像、音樂、視頻、游戲、地圖、模擬、3D 建模)(Spiro，2011)[43]。這一統(tǒng)計展現了數字人文內容演變新階段的概況，不僅提供了不同類型的課程建設和實例指導，而且還用數據重點論述了這一領域的教學價值觀(如開放性、網絡化、互動性)。

圖2 2005-2009年高頻詞共現網絡[33]18

此外，不同文獻來源也會對內容有影響。DHQ是領域內的新刊，2007年創(chuàng)刊，旨在鼓勵多樣化的數字人文研究。而正因為這一創(chuàng)刊目的，該期刊比其他期刊包含更多元的研究主題。De la Cruz等分析了DHQ8年來(2007-2014)文章關鍵詞的變化趨勢(De la Cruz et al.，2015)[44]，發(fā)現其中的絕大多數研究與數字人文最新涌現的主題有關，如對數字人文及學者的討論和新媒體研究。這一結果表明了DHQ的學術前沿性和突出的多樣化主題出版偏好，以及不同數據樣本對量化數字人文研究所產生的影響。

在DH2015 會議上，由Tang 領導的一組學者介紹了對數字人文期刊內容演變的分析(Tang et al.，2015)[45]。此后，他們通過搜索關鍵詞，進行文檔共引分析及網絡可視化分析(見圖3)。從圖3看到，被引用最多的期刊是網絡底部的LLC，然后是左邊的A Companon to Digital Humanities(與書籍Defining Digital Humanities：A Reader緊密相連)。 Tang等將數據時間(1989～2014)分為每5年一段，通過對每個時間段單獨進行網絡分析，驗證了數字人文正朝著主題多樣化、作者全球化的方向發(fā)展。

隨后，高瑾等(Gao et al.，2018)[46]也對52年來(1966-2017)的期刊數據進行了5個時間段的切分，并通過每段的作者共被引可視化，將數字人文的學科發(fā)展細化為5 個具體的階段(見圖4)。這一量化結果與Hockey提出的經典數字人文歷史階段契合(Hockey，2004)[26]。1966-1970 年為發(fā)源階段，主題集中于文本的機器輸入；1971-1985 年為鞏固階段，各個數字人文先驅為人熟知的索引項目逐漸引起高度關注(如Busa)，數字人文由此形成了一個領域；1986-1990 年為發(fā)展階段，計算語言學主題成為最主要的研究核心；1991-2005 年為互聯網階段，科技的進步給圖書館信息學、文學統(tǒng)計研究、歷史研究、多語言研究等帶來了新的研究主題，而計算語言學主題逐漸退出核心舞臺；2006-2017年為后互聯網階段，雖然各種新媒體內容層出不窮，但圖書館文本分析依然有著巨大影響力，數字人文呈現出百花齊放的繁榮趨勢。

圖3 數字人文1989-2014年文檔共引分析[31]

圖4 1966-2017年數字人文作者共被引網絡的5個發(fā)展階段[46]

2.1.3 合作模式

量化研究除了可以展現知識結構和內容的演變之外，還可以對學者合作模式進行探索。以“多樣化和包容性”為核心價值觀的數字人文，一直以區(qū)別于人文學單一作者模式的多作者合作模式作為其獨特標志。而量化研究不僅能夠用數據對此進行驗證，而且可以揭示數字人文與其它傳統(tǒng)學科間的差異性。

Spiro 發(fā)現LLC期刊 2004-2008 年間 48%文章為多作者合作出版。這一結果遠遠大于同時期的傳統(tǒng)人文學期刊《美國文學史》(American Literary History，ALH)的(合著)結果(僅有 1.93%文章由多個作者合作完成)。另一數字人文期刊DHQ2007-2014年間也有逾36%文章為合作出版(De la Cruz et al.，2015)[44]。另外，數字人文作者所在國家更為多樣化。例如，LLC中16%文章為國際間合作(即作者來自不同國家)，而ALH一篇也沒有。Spiro 將這一重要合作模式差異解釋為數字人文和傳統(tǒng)人文學對學術實踐的不同需求。例如，數字人文項目需要更多的合作、不同類型的專業(yè)知識和技術、各種設備資料；而傳統(tǒng)人文學科更重視個體研究，其科研活動可以由單一學者獨自完成，即完全獨立地進行閱讀、思考和寫作。這一特點在歐洲區(qū)域性的數字人文會議中更加明顯。Henny-Krahmer 與Sahle 分析德語地區(qū)的數字人文會議DHd2018的論文，發(fā)現72.7%論文由多位學者共同撰寫[47]。

然而，在數字人文與其它非人文學領域的對比中，作者合作模式沒有顯著區(qū)別。2014 年Nyhan和Duke-Williams分析了2，291篇發(fā)表在CHum和LLC上的論文，并將其與《美國地理學家協會年刊》 (Annals of the Association of American Geographers，AAAG)上的文章進行對比，發(fā)現合作出版論文在數字人文兩刊中分別占31%(CHum)和35%(LLC)，而AAAG為40%。這與Spiro 的結論有些出入(Spiro，2009)[48]。究其原因，可能是因為Spiro只分析了非常小的一部分數字人文論文(145篇)，而Nyhan 和Duke-Williams 搜集了相對全面的論文(2，291 篇)，更完整地展示了作者合作度。Nyhan 和Duke-Williams也改進了Spiro對數字人文作者合作模式過于積極的肯定。當然，通過時間切片分析，他們的研究也正面地反映出多作者合作的趨勢和科研合作現象在數字人文領域中日漸增加。

2.1.4 學者背景統(tǒng)計

在數字人文多樣化和全球化浪潮下，各國各類研究中心和交流活動層出不窮，這吸引了量化分析的關注熱點。學者們通過數據可視化考察了“大帳篷”下不同學者背景的客觀分布情況。

(1)地理分布。從國家分布來說，以ADHO為代表的國際數字人文社區(qū)仍然以歐美學者為主。2006 年，Terras 發(fā)現 ADHO 會議 1996-2005 年間幾乎所有參會者都來自西方國家，且北美占到一半以上(美國37%、加拿大24%)(Terras，2006)[32]。隨后期刊DHQ的出版數據也得出相同的結果，2007-2014年間有大約75%作者來自北美科研機構(De la Cruz et al.，2015)[44]。Weingart在對比了2013-2015年的ADHO會議數據之后，發(fā)現在澳大利亞舉辦的DH2015因為大洋洲獨特的地理位置而吸引到了比前兩屆(美國與瑞士)更為多樣化的參會群體，如圖5所示[49]。

圖5 DH2013-2015作者地理分布[50]

圖6 1966-2017年數字人文被引用量排名前三千的作者國別分布[46]

在DH2018會議上，高瑾等對CHum、LLC/DSH、DHQ等3種期刊1966-2017年所有被引作者進行了地理分析，并將被引用量排名最前的三千位作者進行了共被引網絡可視化分析(Gao et al.，2018)[46](見圖6)，發(fā)現在被引用作者中，美國、英國、德國、加拿大等歐美國家的作者依然占據著絕大多數的被引用量。

除參與ADHO的歐美主流數字人文學者外，各種區(qū)域性的數字人文科研活動也成為人口統(tǒng)計研究的重要對象。區(qū)域性學術活動不僅參加者更為本地化，研究題目也更具地方特色。

在西班牙舉辦的數字人文會議上(如HDH 2015和第一屆歐洲數字人文日EADH Day 2015)，絕大多數參會者來自歐洲(Tello，2015)[51]。在德國舉辦的針對德國及德語區(qū)域的數字人文會議(DHd2016 和DHd2018)上，德國參會者分別占80%(Tello，2016)[52]和81.9%(Henny-Krahmer and Sahle，2018)[47]。荷蘭語數字人文會議(DHBenelux2014-2018)和北歐地區(qū)數字人文會議(DHN2016-2018)也有著很大的本地學者參會比例(Kemman，2016a，2016b，2017，2018；M?kel? and Tolonen，2018)[53-57]。

華語地區(qū)同樣具有這一特點，詳見朱本軍和聶華對兩屆北京大學數字人文論壇(簡稱“北大論壇”)的學者分析(朱本軍和聶華，2016，2017a)[19-20]。此外，Chen和Hsueh研究中國臺灣最大數字人文會議——數位典藏與數位人文國際研討會(DADH)2009-2012 年的會議論文(Chen and Hsueh，2013)[58]，發(fā)現盡管來自日本、中國大陸、泰國、英國和美國的與會者數量逐年增加，但幾乎所有論文都集中在研究中國相關問題上(70.8%)。

(2)性別分布。學者性別在數字人文領域尤為重要，然而在絕大多數歐美數字人文出版物中，很難找到女性學者。最近女性主義研究在數字人文領域引起越來越多的關注，很大一部分原因是由于這一極度不平衡的性別比例所帶來的各種批評與辯論(Liu，2012；Nyhan and Terras，2017；Wernimont，2018)[59-61]。這使得“女權數字人文”(Feminist Digital Humanities)一詞成為數字人文(至少在其英語出版物)討論的熱詞之一。

圖7 1966-2017年數字人文被引用量排名前三千的作者性別分布[46]

Weingart 發(fā)現ADHO 會議中存在極度不平衡的性別比例(DH2010-2013每年參會的女學者僅約占30%)(Weingart，2014d)[62]。之后高瑾等擴大數據量，對CHum、LLC/DSH、DHQ等3種期刊1966～2017 引用量最高的 3，118 名被引作者進行性別分析(Gao et al.，2018)[46](見圖7)，發(fā)現只有21%的作者為女性，但其中很大一部分有顯著的引用數量，并位居引用排名前列。

然而，男性并不是一直在數字人文學者中占據主導地位。在歐洲的區(qū)域性學者群中，則有更多女性學者的身影。Tello 發(fā)現參加西班牙會議HDH2015 和 EADH Day 2015 的229名與會者中，約有55%的女學者(Tello，2015)[51]。

近年，筆者與Nyhan 和Duke-Williams 繼續(xù)合作，深入研究其他特征對數字人文作者間合作關系的影響(如性別、國家、語言)。通過對新增數據的分析，發(fā)現女性學者在數字人文作者合著網絡中起到顯著且重要的“橋梁作用”(Nyhan et al.，forthcoming)[63]。也就是說，在多作者團隊研究的環(huán)境下，女性數字人文學者通常是啟發(fā)交流、建立關系、主導合作的人，在團隊合作中起到關鍵的“橋梁作用”。

2.2 社會計量學

2009年，Borgman指出社會研究在數字人文中的重要性和短缺現象(Borgman，2009)[64]，Leydesdorff和Salah提出單從出版物角度分析，無法全面涵蓋數字人文的知識范疇和歷史發(fā)展(Leydesdorff and Salah，2010)[34]。因此，有必要尋找其他形式的數據來源和分析角度。利用社會學方法對社交媒體進行定量研究能從更具互動性的角度對復雜的跨學科屬性和高度合作的社會屬性進行分析(Witting，2018)[65]，因而被廣泛應用于各領域，如人際關系研究(Jones et al.，2012)[66]、群體合作研究 (Kim et al.，2008)[67]、引文研究(Anheier et al.，1995)[68]、數字人文社區(qū)研究(Quan-Haase et al.，2015；Grandjean，2016)[69-70]。學者們的社交媒體使用行為，可為研究和理解其社會活動與學術生活之間的關系提供數據基礎(Choo et al.，2015)[71]。學者的在線社交活動還可以揭示學者之間的非正式交流，如哪些學者是社交媒體上最活躍的用戶、他們如何在網絡上互動以協同工作、社交媒體活動和學術生產力有無聯系。

2.2.1 推特(Twitter)研究

在所有在線應用中，推特(Twitter)是數字人文學術圈(至少是西方學術圈)最受歡迎的社交網絡平臺，不僅支持學者間的學術交流，而且還支持學術活動的實時討論，即“后臺渠道”(backchannel)(Ross et al.，2011)[72]。

雖然并非所有學者都使用Twitter(Van Noorden，2014)[73]，但自2006年推出以來，它已被越來越多的學者接受，甚至成為進入歐美數字人文學術圈的必備技能之一(C?té and Darling，2018)[74]。很多數字人文Twitter“大號”擁有10萬以上的關注人數。例如，截至2018 年底，Digital Humanities Now(@dhnow)擁有27，954名關注者，這一數字在過去6 年內增了10 倍(2012年為2，794人)(Terras，2012)[3]。

Twitter 因為對數據下載的開放和友好，逐漸成為研究在線社交網絡的完美數據源。它歡迎各種API(應用程序編程接口)，使數據下載和處理更加容易，也提供相對干凈的量化數據(如“關注”“轉發(fā)”“提到”“@”等學者間的網絡關系)，從而簡化繁瑣的數據清理難題(Eysenbach，2011；Peoplesetal.，2016；Thelwalletal.，2013)[75-77]。

(1)使用目的。數字人文學者使用Twitter的目的并不是唯一的，它隨著時間和用戶量的擴大而不斷發(fā)展。2009年，French對兩個數字人文會議(THATcamp 和MLA2009)的學者數據進行分析，發(fā)現學者在開會期間上Twitter主要是為了分享和閱讀有關會議的新聞，而非點對點地在線聊天(French，2009)[78]。其中，在 Twitter 上推送THATcamp 會議信息的用戶數甚至比實際參會的人數還多出1倍。兩年后，在擴大會議數據量的情況下，Ross等發(fā)現除了分享新聞和資源之外，學者主要的Twitter社交需要還包括另外6類，即：對演講的評論、討論和對話、會議筆記、建立公關、詢問問題以及其他；她們不僅首次提出了Twitter在數字人文交流中“后臺渠道”的概念，而且還發(fā)現使用Twitter可以增強數字人文的會議體驗，加強會后的學術合作關系(Ross et al.，2011)[72]。此外，她們用數據證實了學者使用Twitter的行為是隨著時間不斷變化的。以2009年為界，此前大多數用戶只發(fā)送原創(chuàng)推文(90%)，不喜歡轉發(fā)他人的信息。但幾年之后，轉發(fā)量占到用戶活動的大部分，而且含有網址鏈接的推文(24%)也在迅速增長。

數字人文的科研發(fā)展已經越來越依賴于Twitter 上的交流活動。2014 年Holmberg 和 Thelwall 通過比較 Twitter上的10 個學科(數字人文、天體物理學、生物化學、經濟學、科學史、化學信息學、認知科學、藥學、社會網絡分析和社會學)447 位學者的賬戶活動(Holmberg and Thelwall，2014)[79]，發(fā)現學術圈的學者比一般用戶更喜歡轉發(fā)資源和鏈接。此外，相較于其他學科，數字人文學者不僅互動更活躍、更依賴平臺、更多線上對話和討論(占推文的38%)，而且學術地位越高的學者越喜歡使用Twitter。

2015 年， Quan-Haase 等采訪25位歐美數字人文學者，對他們使用Twitter的滿意度進行調查(Quan-Haase et al.，2015)[69]，發(fā)現Twitter上的數字人文社區(qū)正向著穩(wěn)定的社會關系發(fā)展，并且數字人文研究的很多主題反過來開始很大程度上依賴于Twitter 而展開。這與Holmberg和Thelwall 提出的依賴關系不謀而合(Holmberg and Thelwall，2014)[79]。

(2)地理分布。2014 年墨西哥學者Galina 指出數字人文Twitter 社區(qū)地理和語言多元化的缺失(Galina，2014)[80]312-313，提出歐洲、拉美等西班牙語地區(qū)學者在Twitter上也非?；钴S，只是因為語言不通而被英語主流學者忽視。該情況在其他非英語的數字人文社交網絡群體中也屢見不鮮。 2013-2016 年，瑞士學者Grandjean先后收集大量關于數字人文的Twitter數據，發(fā)現兩個活躍且突出的法語和德語學者群體(Grandjean，2016)[70]。通過對 2，538 名數字人文Twitter用戶構建“關注與被關注”的關系網絡，Grandjean首次繪制全球視角下的Twitter數字人文可視化圖像(見圖8)。由圖8可見清晰的英語(白色)、法語(藍色)、德語(黃色)、西班牙語(紅色)和其他語言(黑色)的集群，其中27%用戶使用非英語在Twitter上進行交流，說同一種語言的用戶更可能在網絡圖上聚集在一起。

圖8 基于2，538名用戶互相關注數據繪制的Twitter數字人文網絡[70]

(3)性別分布。Twitter環(huán)境下的性別平衡也是數字人文研究關注的重點之一。比如，以Twitter 話題標簽 #transformDH 和 #femDH 為代表的相關討論引起眾多數字人文學者的參與(Bailey et al.，2016)[81]。2010年，Fluharty分析164位數字人文Twitter用戶的性別分布，發(fā)現只有 40%為女性(65 人)(Fluharty，2010)[82]?？紤]到數字人文與人文學之間緊密的相關性，女性理論上應該占據非常重要的部分(如在現實行業(yè)中，女性圖書館員占80%、檔案管理員66%、公共歷史學家66%)。但參照2009年Twitter上所有用戶的性別統(tǒng)計，發(fā)現整個女性用戶群體只占到43%(Nielsen Mobile，2009)[83]。此外，Fluharty[82]還發(fā)現數字人文女性用戶的平均關注人數(564)低于平均值(779)，而男性用戶往往對他們所關注的用戶“過于挑剔”，即他關注的用戶數總是少于關注他的人數(比例為0.57，而女性比例為0.69)。

總的來說，對Twitter的量化研究為了解數字人文知識結構和學者群體提供了另一個角度。通過對前人研究的梳理，我們能看到了一個溝通方式、地理語言更加多樣化，并且性別更加平衡的社交環(huán)境，這與文獻計量結果形成對比。

2.2.2 博客和論壇

除Twitter 外，博客也是數字人文學術傳播的主要渠道。正因為對博客的依賴，數字人文甚至被McPherson描述為“博客人文”(Blogging Humanities)(McPherson，2009)[84]。博客圈與數字人文學者的日?；用芮邢嚓P，是學科發(fā)展的重要組成部分。博客交流介于文獻出版和Twitter 對話之間，既不需要通過正式出版物出版，也不像推文那樣短小而無法延展思想、深入論述。由此，博客這種非正式的傳播方式正改變著學術出版的傳統(tǒng)，同時也提升了數字技術在學術交流中的地位。此外，以郵件推送為主的論壇也為數字人文發(fā)展提供了肥沃的土壤，如數字人文最大的論壇Humanist。論壇在數字人文社區(qū)的形成和演變中也發(fā)揮著不容忽視的作用。

2011年Meeks邁出數字人文博客量化研究的第一步(Meeks，2011)[85]。通過收集博客文章、期刊和書籍內容，繪制了粗淺的數字人文主題詞網絡圖(見圖9)。

受 Meeks 啟發(fā)，Burton 進一步對 396 個數字人文博客的106，804篇博文(1995-2013)構建模型，發(fā)現博客在數字人文學術交流中具有“基礎設施”一般的重要性，其中32%的內容關于主流數字人文研究、20%學科建設、14%學科管理、10%博客技巧等(Burton，2015)[86]。

2015年，Puschmann和Bastos研究兩個權威的數字人文博客HASTAC 和Hypotheses(PuschmannandBastos，2015)[87]。通過構造術語共生矩陣，他們的研究揭示了數字人文學者喜歡使用“人文”而不是“數字”的相關術語進行主題討論，并發(fā)現了不同術語之間的不同用法，繪制了可視化網絡圖(見圖10)。不同的主題術語聚類在一起，形成整個數字人文知識地圖。在圖10的4個集群中，最大的是左上方的檔案館和圖書館、右上方是教育和學習主題、右下方是一般人文、文化和藝術主題，而小部分的人類學和歷史集群位于圖中的左下方。

圖9 數字人文主題和文檔之間的可視化網絡[85]

圖10 數字人文相關術語的共現網絡圖③

除博客外，論壇也是進行學術交流的重要地方。1987年McCarty創(chuàng)立了現今依然十分活躍的郵件推送論壇Humanist(Rockwell and Sinclair，2012)[88]，為數字人文學者提供一個“持久、溫暖、非正式”的交流場所。

Rockwell 和 Sinclair 對 Humanist(1987～2008)進行分析 (Rockwell and Sinclair，2016)[89]，發(fā)現其發(fā)展經歷3 個焦點時期：1987-1995 年(人文計算)、1996-2000 年(過渡時期)、2001-2008年(向數字網絡服務和合作項目轉變)。這些結果與Wang和Inaba的結論一致，即該領域的名稱明顯從“人文計算”轉向“數字人文”(Wang and Inaba，2009)[33]。此外，他們發(fā)現“數字人文”一詞的使用不僅引發(fā)學校行政體系的改變，而且改變了數字內容的消費方式?；ヂ摼W為Humanist 在1990年代中期發(fā)布和傳播數字內容提供了更多的機會，從而改變了“人文計算”領域(關鍵詞顯示，論壇從對“硬件”和“軟件”的討論轉變?yōu)殛P于“服務”的討論)的發(fā)展方向。

2014 年 McClure 繼續(xù)對Humanist 總計 27 年(1987-2014)1，150 萬字的數據進行全面研究(McClure，2014)[90]，并將這些單詞歸納為138，476種類型，然后生成論壇主題的“概念圖集”(見圖11)。從圖11可清楚地看到不同時期的討論主題。例如，1980年代的“硬件”和“軟件”就與Rockwell和Sinclair 的研究結果一致(Rockwell and Sinclair，2016)[89]；1990年代的各種地名與當時全球化的數字人文中心和機構建設聯系緊密；2000年之后出現許多將數字人文作為獨立學科看待的主題詞，標志著學科管理建設的開始；從2011年開始，出現了許多與新媒體相關的主題詞，揭示了這一時期的各種新型研究項目。

對博客和論壇的量化研究是了解數字人文非常重要的一部分。一方面，相較文獻來說，博客和論壇基本都是數字文本，便于進行文本處理；另一方面，相較社交媒體來說，博客和論壇有著深入的研究和充分展開的討論，便于探索內容。這些研究不僅展示了數字人文“大帳篷”下各種主題術語的使用情況，并且反映出構成數字人文的具體內容及其與其它學科的關聯性。

圖11 Humanist論壇主題詞網絡可視化(1987-2014)

3 討論

本文通過對數字人文定量分析的相關研究進行回顧，從文獻和社交兩個角度來揭示數字人文的學科(知識)結構、(內容)歷史演變、合作模式和學者背景。通過分析研究學者間正式和非正式的交流渠道，本文旨在從數據的新角度幫助讀者理解關于數字人文的一系列問題。

盡管量化研究存在誤差而且只能通過數據對這些問題進行統(tǒng)計表述，但它們可以成為定性研究有力的數據線索，同時從宏觀和個案角度為我們了解學科領域和學者群體奠定客觀基礎，甚至可以使我們“對研究的看法發(fā)生根本性的轉變”(Bboyd and Crawford，2012)[91]。而且，它們還可以幫助我們填補還未認識到的數字人文歷史和結構空白。這不僅方便我們了解“我們是誰”，同時將學科歷史上的零散個例串聯成整體脈絡。從事這項工作的學者們站在“數字”和“人文”兩個領域的十字路口，研究著這一雙向關系中的聯系和差異，探索著其學科目標和本質在當前數字時代的定位(Svensson，2010)[6]。

然而需要承認的是，量化研究也有許多局限性。高度跨學科的數字人文領域有很多無法用數據分析來解決的矛盾。雖然量化可以展示數字人文的主題分布、揭示“數字”和“人文”的占比，但不能僅僅依靠統(tǒng)計來解決真實環(huán)境下更加復雜的數字人文爭論和批評，例如，仍有待加強的多樣化學者群體和研究內容、對實事政治的較少關注、研究和教學的不平衡、仍需拓寬的開放存取的版權意識，以及對高科技高資金項目的趨之若鶩(Gold，2012)[23]。

其中，對地理分布和性別分布的統(tǒng)計雖然為案例研究提供了宏觀脈絡，但現實中區(qū)域發(fā)展和性別分配的缺陷依然存在。改善這些問題除了需要更頻繁且有質量的學術交流之外，也需要認清數字人文在各國的發(fā)展并不一定代表著全球化。正如Mahony所指出的，并非所有區(qū)域的學術活動都與主流的ADHO 組織相關聯(比如，北大論壇就沒有)，但對數字人文學者地理及性別分布多樣化的研究填補了數字人文區(qū)域化發(fā)展缺失的空白，由此可以為未來解決地理和性別的不平衡提供數據指南(Mahony，2018)[92]。同時，也正因為這些不同背景的學者群體所起到的橋梁作用，使得原本充斥著不同語言、不同學術傳統(tǒng)、不同研究范式的子集得以匯聚在一個具有包容特點的“大帳篷”之下。而目前的量化研究在分析“大帳篷”復雜的學術環(huán)境問題上，還停留在表層的統(tǒng)計階段。

此外，數字人文中“數字”與“人文”的雙向融合問題則更體現出定量研究的不足，需要大量的定性研究加以深入分析。數字人文整體上對科技相關主題趨利避害的缺點使得傳統(tǒng)人文研究變得束手束腳，甚至有些人文學者開始懷疑和否定他們在這個數字時代開展研究的本質目的(Berry and Fagerjord，2017)[93]1。會不會編程的技能甚至一度成為進入數字人文學術圈的門檻；人們重視技術有時片面地超過了重視人文主題。部分大學管理制度盲目地將數字人文誤認為人文學科新的替代領域，認為它能夠帶來新的技術、工作、資金和利益。這種“市場化”的數字人文因此被傳統(tǒng)人文學科所排斥(McGann，2014)[94]，并出現了很多批評的聲音，認為這種現象會將高等教育推向經濟利益最大化的價值觀(Grusin，2013)[95]。當然，這種被計算技術所“威脅”的想法是非常片面的。數字人文不僅以各種方式為傳統(tǒng)人文做出貢獻，而人文社會學科歡迎和使用計算機進行文本處理的歷史遠早于其他大部分學科。在對計算機的應用做出貢獻的同時，數字人文學者更應該與相對應的人文學科加強聯系(Drucker，2012)[96]，以回歸研究的初衷，堅定人文內容的核心地位(Siemens，2016)[1]。

在量化基礎上，對數字人文的進一步了解可以緩和人文學者對“數字”相關研究的負面印象，并且可幫助人文學研究合理發(fā)展新的研究模式(Berry and Fagerjord，2017)[93]1。反過來從“數字”角度講，隨著數字人文的發(fā)展，越來越多的計算機學者加入到促進人文學科技和新模式發(fā)展的潮流中。計算機專業(yè)的許多機構和院系，都聘請了數字人文專家或人文學者來協助他們開展人文主題中的數字應用工作和研究，如阿蘭圖靈大數據研究所(The Alan Turing Institute，2018)[97]以及谷歌數字博物館。此外，許多著名的國際計算機會議也逐漸涌現數字人文研究的相關主題，如WWW 2018會議(WWW2018，2018)[98]。

為適應數字人文的發(fā)展潮流，人文學、社會學、計算機科學等相關學科需要建立對數字人文更全面的理解。這樣不僅可以避免人文學與大眾化的數字應用社區(qū)隔離開來(Berry and Dieter，2015)[99]，也可以使計算機學者獲得必備的人文學應用知識，并依此迎接新技術新思路的來臨。

注釋

①“數字人文”德語直譯應該是“Digitale Geisteswissenschaften”，但是在德語語境下，大部分學者和機構都使用“Digital Humanities”。

②ACH/ALLC 會議為ADHO 會議的前身，此后的ADHO 會議以“DH+年份”（如DH2016）的格式表示。