徐志瑋(天津理工大學(xué)圖書館)
大數(shù)據(jù)時(shí)代,人文社科研究數(shù)據(jù)量增長迅速,如何創(chuàng)新地運(yùn)用基于計(jì)算的研究方法對這些數(shù)據(jù)進(jìn)行智能搜索和深度解析,改變和拓寬人文社科的研究思維和方向是目前的重要課題之一。同時(shí),網(wǎng)絡(luò)化平臺(tái)連接著世界各地的用戶,從國際化的宏觀視角探討人文社科課題,得到新的國際觀點(diǎn),也是目前的重要課題。為此,本文分析了美國國家人文基金會(huì)(National Endowment for the Humanities,NEH)專為數(shù)字人文研究設(shè)立的國際合作項(xiàng)目“挖掘數(shù)據(jù)挑戰(zhàn)”,為我國的相關(guān)研究提供參考。
基于數(shù)字人文的大數(shù)據(jù)挖掘研究帶有明顯的應(yīng)用性特點(diǎn),大部分以軟件開發(fā)和升級、工具使用、算法優(yōu)化和實(shí)驗(yàn)等成果為主,部分已發(fā)表在學(xué)術(shù)期刊上。本文以SCI、SSCI和中國知網(wǎng)為數(shù)據(jù)來源進(jìn)行檢索,盡管不能涵蓋所有研究成果,但也能了解目前的研究現(xiàn)狀。
① 從學(xué)科分布看,國外利用歷史數(shù)據(jù)開展的實(shí)證性研究最多。Phillips MG等[1]利用數(shù)字技術(shù)和傳統(tǒng)定性研究方法,挖掘20世紀(jì)初澳大利亞婦女通過遠(yuǎn)程方式進(jìn)行閱讀的特點(diǎn);Hinrichs U等[2]聯(lián)合環(huán)境歷史學(xué)家、計(jì)算語言學(xué)家和可視化專家,挖掘了四個(gè)世界知名歷史數(shù)據(jù)集中收藏的商品交易數(shù)據(jù);Linn AR[3]利用在線3D虛擬技術(shù),繪制了挪威人移民到美國的歷史路徑;Van Eijnatten J等[4]解析了1863-1940年間荷蘭和德國出版的有關(guān)毒品、販毒和吸毒者內(nèi)容的報(bào)紙,挖掘了整個(gè)跨大西洋地區(qū)存在的毒品問題;Grubert E等[5]探討了文本挖掘分析技術(shù)在人文環(huán)境科學(xué)和國家政策相互影響方面的價(jià)值。② 從數(shù)據(jù)來源看,針對社交媒體開展的大數(shù)據(jù)挖掘是熱點(diǎn)之一。Hsu WF[6]以一個(gè)著名的朋克樂隊(duì)Kominas在社交媒體Myspace和Twitter上進(jìn)行互動(dòng)的數(shù)據(jù)為對象,研究音樂數(shù)據(jù)的地理空間可視化技術(shù)的實(shí)現(xiàn),以及數(shù)據(jù)的標(biāo)注和分析。③ 從技術(shù)層面看,語義元數(shù)據(jù)成為數(shù)據(jù)挖掘的關(guān)鍵技術(shù)之一。Van Hooland S等[7]探討了“描述”等非結(jié)構(gòu)化元數(shù)據(jù)在數(shù)據(jù)挖掘中的命名實(shí)體識(shí)別和術(shù)語提取方面的問題。
國外圖書館也在嘗試實(shí)驗(yàn)性的實(shí)踐研究。Green HE[8]對伊利諾伊大學(xué)圖書館研發(fā)的數(shù)據(jù)挖掘軟件MONK進(jìn)行實(shí)證研究,揭示人文學(xué)者使用數(shù)字工具追求創(chuàng)新研究方法的能力;Morgan EL[9]分析了將文本挖掘和其他數(shù)字人文計(jì)算技術(shù)整合到圖書館目錄和“發(fā)現(xiàn)系統(tǒng)”中的可能性。
國內(nèi)的主要研究者為圖書館館員。① 歷史學(xué)科方面,Zhu SL等[10]將地理信息系統(tǒng)應(yīng)用于我國古代地方志的開發(fā)和利用,實(shí)現(xiàn)了“廣東地方志”產(chǎn)品分布?xì)v史數(shù)據(jù)的挖掘和可視化;趙思淵[11]介紹了《中國地方歷史文獻(xiàn)數(shù)據(jù)庫》的元數(shù)據(jù)結(jié)構(gòu)、交叉導(dǎo)航和數(shù)據(jù)統(tǒng)計(jì)等功能。② 古籍方面,歐陽劍[12,13]對古籍文本的數(shù)據(jù)挖掘進(jìn)行了探索。③ 藝術(shù)史方面,范楨[14]利用計(jì)算機(jī)自然語言處理工具對《白石老人自傳》進(jìn)行詞頻統(tǒng)計(jì)、高頻分布和語義網(wǎng)絡(luò)的細(xì)讀,確認(rèn)《白石老人自傳》的核心內(nèi)容;夏翠娟等[15,16]探討了家譜和地理數(shù)據(jù)在圖書館數(shù)字人文項(xiàng)目的應(yīng)用,以及關(guān)聯(lián)數(shù)據(jù)在家譜服務(wù)中的應(yīng)用。
綜上所述,國內(nèi)外都取得了一些實(shí)踐成果。國內(nèi)基本上是以圖書館和歷史專業(yè)為主導(dǎo)的實(shí)踐研究,國外涉及的學(xué)科范圍更加寬泛,數(shù)據(jù)來源也更加豐富。
“挖掘數(shù)據(jù)挑戰(zhàn)”(Digging into Data Challenge,DiD)是NEH于2009年設(shè)立的一個(gè)資助數(shù)字人文研究的國際合作項(xiàng)目,[17]由美國、英國、加拿大、德國等11個(gè)歐美國家的18個(gè)國家級別的基金組織提供資助(見表1),基本上每兩年舉行一輪,目前已經(jīng)成功舉辦4輪,共有50個(gè)項(xiàng)目獲得了大額資金的支持。2016年,DiD被重新命名為“T-AP數(shù)據(jù)挖掘挑戰(zhàn)”,T-AP即根據(jù)歐盟第七框架研究與開發(fā)框架計(jì)劃(授權(quán)號613167)而建立的“跨大西洋平臺(tái)Trans-Atlantic Platform”。
DiD會(huì)在網(wǎng)站上公布已經(jīng)完成項(xiàng)目的最終成果白皮書(2016年獲得資助的14個(gè)項(xiàng)目只有標(biāo)題和摘要),筆者對全部項(xiàng)目進(jìn)行了仔細(xì)閱讀及分析。由于篇幅有限,本文只列出2016年公布的14個(gè)最新獲獎(jiǎng)項(xiàng)目的名稱、合作單位和研究內(nèi)容摘要(見表2)。
表1 DiD合作國家和資助組織名稱表
2009年,DiD規(guī)定每個(gè)項(xiàng)目要有2個(gè)及以上國家的3個(gè)機(jī)構(gòu)參與,2016年變?yōu)槊總€(gè)項(xiàng)目至少需要3個(gè)國家的合作。申請機(jī)構(gòu)需要在國際人文社科領(lǐng)域有顯著的影響力,且希望項(xiàng)目最終能夠達(dá)到世界領(lǐng)先水平。如,“挖掘符號:制定針對符號語言數(shù)據(jù)進(jìn)行交叉語言量化分析的標(biāo)準(zhǔn)注釋實(shí)踐”項(xiàng)目(Digging into Signs:Developing Standard Annotation Practices for Cross-Linguistic Quantitative Analysis of Sign Language Data)的目的在于打造世界最大的聾啞語言語料庫并制定世界標(biāo)準(zhǔn);“挖掘生物多樣性”項(xiàng)目(Mining Biodiversity)對當(dāng)前世界最大生物多樣性系統(tǒng)“生物多樣性文獻(xiàn)圖書館”(Biodiversity Heritage Library,BHL)進(jìn)行升級,以期將其打造成下一代生物多樣性社會(huì)數(shù)字資源平臺(tái);“Field Mapping:An Archival Protocol for Social Science Research Findings”項(xiàng)目的目標(biāo)則是構(gòu)建世界上最全面的全球跨學(xué)科科學(xué)發(fā)現(xiàn)的搜索引擎。
值得一提的是,“中文文本自動(dòng)化數(shù)據(jù)抽取”項(xiàng)目 (Automating Data Extraction from Chinese Texts) 是來源于十年前由哈佛大學(xué)費(fèi)正清研究中心、北京大學(xué)中國古代史中心和臺(tái)灣“中央研究院”歷史語言研究所聯(lián)合主持的“中國歷代人物傳記數(shù)據(jù)庫”的一個(gè)子課題,旨在解決數(shù)據(jù)采集、整理和轉(zhuǎn)換等方面遇到的難點(diǎn)。
(1)明顯的跨學(xué)科研究范式。DiD項(xiàng)目往往由多個(gè)學(xué)科的專家共同參與。如,“挖掘考古學(xué)數(shù)據(jù):圖像搜索和標(biāo)記”項(xiàng)目(Digging Archaeological Data:Image Search and Marking,DADAISM)集合了考古學(xué)、圖像處理和檢索、文本挖掘技術(shù)等專家,開發(fā)了一個(gè)序列模型的人機(jī)交互系統(tǒng);“Analyzing Child Language Experiences Around the World(ACLEW)”項(xiàng)目由語言學(xué)、語音科學(xué)工程、計(jì)算機(jī)技術(shù)等專家參與,開發(fā)自動(dòng)標(biāo)注大規(guī)模嬰兒語料庫的軟件;“Understanding Opinion and Language Dynamics Using Massive Data”項(xiàng)目的研究團(tuán)隊(duì)擁有數(shù)據(jù)科學(xué)、物理、語言學(xué)、哲學(xué)和法律等領(lǐng)域?qū)I(yè)人才。
表2 獲得2016年DiD資助的14個(gè)項(xiàng)目
(2)開拓人文社科研究的創(chuàng)新思路和方法。研究人員將數(shù)字技術(shù)運(yùn)用到人文社科研究中,就是希望得到手工模式無法獲得的信息。如,“Analyzing Child Language Experiencesaround the World(ACLEW)”項(xiàng)目挖掘海量嬰兒語言,探討文化/跨國文化和語言之間的相互關(guān)系,并預(yù)測這種關(guān)系對嬰兒語言成長過程中所造成的影響和差異;“Cascades,Islands,or Streams?Time,Topic,and Scholarly Activities in Humanities and Social Science Research”項(xiàng)目挖掘社交媒體上那些被忽視、但有價(jià)值的非正式學(xué)術(shù)活動(dòng)數(shù)據(jù),預(yù)測未來的創(chuàng)新研究課題;“全球趨勢:文學(xué)網(wǎng)絡(luò)文化(1050-1900)”項(xiàng)目 (Global Currents:Culturesof Literary Networks(1050-1900))運(yùn)用圖像處理技術(shù)和社會(huì)網(wǎng)絡(luò)分析方法,研究不同文化時(shí)期的知識(shí)交流網(wǎng)絡(luò)特點(diǎn),揭示世界文化的差異;“Digging by Debating”項(xiàng)目運(yùn)用主題建模和半形式的話語分析技術(shù),自動(dòng)抽取HathiTrust學(xué)術(shù)論文中的論據(jù),并以可視化方式標(biāo)識(shí)哲學(xué)和科學(xué)之間的關(guān)系。
NEH要求數(shù)字人文項(xiàng)目的申請者承諾免費(fèi)公開研究成果。NEH認(rèn)為,研究成果的開放獲取有助于其他學(xué)者開展相似研究,同時(shí),能夠培養(yǎng)公眾的人文素養(yǎng),提高其哲學(xué)批判思維的能力。獲得DiD資助的已完成項(xiàng)目開發(fā)的軟件都可以免費(fèi)下載,且研究者必須在項(xiàng)目結(jié)束后公開一份詳細(xì)說明研究成果的白皮書。如,“Trees and Tweets:Mining Billions to Understand Human Migration and Regional Linguistic Variation”項(xiàng)目允許公眾免費(fèi)使用研發(fā)的軟件Word Mapper,并承諾會(huì)公開完整的定量數(shù)據(jù)集。
DiD是一個(gè)跨大西洋的國際合作專項(xiàng)基金,因此,探討歐美在文化、經(jīng)濟(jì)、法律等人文社科方面的國家級問題是其主要研究課題之一。如,“Digging into High Frequency Data:Present and Future Risks and Opportunities(Atlantis)”項(xiàng)目建立了一個(gè)整合的歐美股市高頻交易數(shù)據(jù)模型,以便在全球范圍內(nèi)控制股市風(fēng)險(xiǎn);“Intelligent Search Engine for Belief Legends(ISEBEL)”項(xiàng)目對荷蘭、丹麥和美國三國收藏的本國最大的民間傳說數(shù)據(jù)庫進(jìn)行搜索和分析,比較三國民眾在文化信仰方面的差異;“SPeech Across Dialects of English(SPADE):Large-Scale Digital Analysis of A Spoken Language across Space and Time”項(xiàng)目對英國、加拿大和美國三國不同的英語系語言的語音數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析,探討英語語言的變化規(guī)律;“Trees and Tweets:Mining Billions to Understand Human Migration and Regional Linguistic Variation”項(xiàng)目分析英國和美國在社交媒體上的語言變化,了解英美兩國語言變遷的形成過程和原因,以及語言變化和移民之間的關(guān)系,“Digging into Linked Parliamentary Data”項(xiàng)目對加拿大、荷蘭和英國的議會(huì)數(shù)據(jù)進(jìn)行分析,闡述不同國家在政治和制度方面的發(fā)展和異同。
手稿、古籍和報(bào)紙等紙質(zhì)資源是人文社科研究中最有價(jià)值的紙本資源,也是DiD項(xiàng)目的主要數(shù)據(jù)來源。如,“An Epidemiology of Information:Data Mining the 1918 Influenza Pandemic,”項(xiàng)目對美國國會(huì)圖書館和阿爾伯塔省圖書館收藏的1918年發(fā)表的有關(guān)西班牙流感疫情的100多份報(bào)刊進(jìn)行數(shù)據(jù)挖掘,探索疾病和信息傳播之間的關(guān)系;“Digging into the Enlightenment:Mapping the Republic of Letters”項(xiàng)目對18世紀(jì)以紙質(zhì)信件進(jìn)行通訊的數(shù)據(jù)進(jìn)行分析,得到知識(shí)史網(wǎng)絡(luò)圖,并解析知識(shí)傳播的軌跡;“Oceanic Exchanges:Tracing Global Information Networks in Historical Newspaper Repositories,1840-1914(OcEx)”項(xiàng)目對 1840-1914年,美國、德國、墨西哥、芬蘭、英國、荷蘭六國報(bào)紙上的消息、流行信息、詩歌和小說等內(nèi)容進(jìn)行大數(shù)據(jù)分析,探索文化的世界傳播特點(diǎn)。
除了對紙本資源進(jìn)行數(shù)據(jù)挖掘,DiD還非常重視兩類網(wǎng)絡(luò)資源的研究:學(xué)術(shù)數(shù)據(jù)庫和網(wǎng)絡(luò)化社交媒體。
數(shù)字圖書館、檔案館和博物館是創(chuàng)建、存儲(chǔ)、管理和保存學(xué)術(shù)性數(shù)字?jǐn)?shù)據(jù)的重要平臺(tái),是數(shù)據(jù)挖掘的重要數(shù)據(jù)來源,DiD一直鼓勵(lì)申請者對這些重要的且已經(jīng)數(shù)字化的數(shù)據(jù)庫進(jìn)行深度挖掘。為此,DiD專門在網(wǎng)站上發(fā)布了重要數(shù)據(jù)倉庫的列表:ARTstor、Biodiversity Heritage Library、 JSTOR、 National Library of Medicine(NLM)、National Science Digital Library(NSDL)、National Technical Information Service(NTIS)、Pro ject MUSE等。如,“Digging by Debating”項(xiàng)目以Hathi Trust Digital Library收藏的數(shù)字資源為數(shù)據(jù)來源;“Integrating Data Mining and Data Management Technologies for Scholarly Inquiry”項(xiàng)目對JSTOR進(jìn)行分析;“Mining Biodiversity”項(xiàng)目對Biodiversity Heritage Library平臺(tái)進(jìn)行升級改造;“THEMIS.COG:Theoretical and Empirical Modeling of Identity and Sentiments in Collaborative Groups”項(xiàng)目對世界上最大的社交編程和托管平臺(tái)GitHub的用戶進(jìn)行研究,“Dig That Lick:Analysing Large-Scale Data for Melodic Patternsin Jazz Performances”項(xiàng)目對世界知名爵士樂數(shù)據(jù)庫開展跨學(xué)科的音樂分析。
社交媒體是最大的公眾在線交流平臺(tái),對這些大數(shù)據(jù)進(jìn)行用戶行為研究,能從公眾視角分析世界格局。DiD主要采用三種研究方法。① 傳統(tǒng)媒體和社交媒體的比較研究?!癠nderstanding Opinion and Language Dynamics Using Massive Data”項(xiàng)目比較了傳統(tǒng)雜志《紐約時(shí)報(bào)》和新型在線媒體Twitter上發(fā)表的政治新聞數(shù)據(jù),探討大數(shù)據(jù)信息環(huán)境改變?nèi)祟惖幕顒?dòng)、行為和決策過程,尤其是意見擴(kuò)散和語言演變的軌跡。② 專業(yè)學(xué)者的用戶研究?!癉igging by Debating”項(xiàng)目對學(xué)術(shù)書目數(shù)據(jù)庫和專家撰寫的綜述論文進(jìn)行研究,分析學(xué)者在跨學(xué)科研究方面的行為特點(diǎn);“Cascades,Islands,or Streams?Time,Topic,and Scholarly Activities in Humanities and Social Science Research”項(xiàng)目探討了學(xué)者使用Twitter社交媒體開展非正式學(xué)術(shù)活動(dòng)的特點(diǎn),探討社交媒體對學(xué)術(shù)研究的影響。③ 一般公眾的用戶行為研究。“Treesand Tweets:Mining Billionsto Understand Human Migration and Regional Linguistic Variation”項(xiàng)目比較了美國和英國公眾利用Twitter的語言差異,探討語言和移民之間的關(guān)系。
目前,國內(nèi)還沒有一個(gè)國家級別的數(shù)字人文資助機(jī)構(gòu),沒有統(tǒng)一的宏觀布局,缺乏國際合作的條件和資金支持。國家自然科學(xué)基金委員會(huì)在2015年設(shè)立了“大數(shù)據(jù)驅(qū)動(dòng)的管理與決策研究”重大研究基金,2017年該基金在指南中指出:“在大數(shù)據(jù)背景下,傳統(tǒng)的管理與決策正從以管理流程為主的線性范式逐漸向以數(shù)據(jù)為中心的扁平化范式轉(zhuǎn)變,管理與決策中各參與方的角色和相關(guān)信息流向更趨于多元和交互”,[18]這說明,國家已經(jīng)意識(shí)到大數(shù)據(jù)研究的重要性,只是該基金主要面向自然科學(xué)研究領(lǐng)域。筆者也查詢過國家人文社科基金,有關(guān)數(shù)字人文和大數(shù)據(jù)的項(xiàng)目近年來增長較快,但是還沒有基于人文社科的數(shù)據(jù)挖掘?qū)嵺`內(nèi)容的基金立項(xiàng),更沒有國際合作項(xiàng)目。為此,需從國家層面進(jìn)行宏觀規(guī)劃,建立國際合作專項(xiàng)基金,有效利用全球的數(shù)字資源,打造國際化的創(chuàng)新團(tuán)隊(duì),增強(qiáng)國家層面的人文社科研究實(shí)力。
數(shù)據(jù)挖掘研究一般以實(shí)踐應(yīng)用為目標(biāo),軟件是最普遍的研究成果,如何對這種成果進(jìn)行學(xué)術(shù)評價(jià),國內(nèi)還沒有一套完善的評價(jià)標(biāo)準(zhǔn),也就難以鼓勵(lì)研究者開展相關(guān)的實(shí)踐探索。2017年9月,浙江大學(xué)頒布了《優(yōu)秀網(wǎng)絡(luò)文化成果認(rèn)定實(shí)施辦法(試行)》,提出將優(yōu)秀網(wǎng)絡(luò)文化成果納入學(xué)??蒲谐晒y(tǒng)計(jì)、各類晉升評聘和評獎(jiǎng)評優(yōu)范圍,但這也只是少數(shù)高校的嘗試性做法,還未普及,不足以激勵(lì)技術(shù)人員和人文社科研究者的合作意向。因此,需要改變國內(nèi)學(xué)術(shù)評價(jià)機(jī)制,并鼓勵(lì)跨學(xué)科的研究者開展創(chuàng)新性實(shí)踐探索。
數(shù)字資源的長期保存、復(fù)用和增值日益受到學(xué)術(shù)界的重視。數(shù)據(jù)挖掘研究勢必產(chǎn)生大量計(jì)算生成的非線性、多維度的“大數(shù)據(jù)”,需要對這些數(shù)據(jù)進(jìn)行合理的管護(hù)。美國國立衛(wèi)生研究院要求,2003年開始,申請經(jīng)費(fèi)在50萬美元以上的申請者必須提交一份數(shù)據(jù)共享管理計(jì)劃;美國國家科學(xué)基金會(huì)在2011年要求申請者提交“數(shù)據(jù)管理計(jì)劃”;[19]NEH在資助數(shù)字人文項(xiàng)目時(shí),明確提出申請者需要附上2頁的“數(shù)據(jù)管理計(jì)劃”。在數(shù)據(jù)管護(hù)越來越受到重視的學(xué)術(shù)研究背景下,國內(nèi)基金管理部門應(yīng)積極設(shè)立類似的數(shù)據(jù)保護(hù)計(jì)劃。
開放獲取模式對培養(yǎng)公眾的人文素養(yǎng)有積極作用,基于數(shù)字人文的數(shù)據(jù)挖掘項(xiàng)目往往涉及公眾的文化、生活、經(jīng)濟(jì)、法律等內(nèi)容,這些研究成果對公眾開放,可以提高公眾對人文社科問題的批判思維能力,也能了解公眾對這些問題的認(rèn)知程度,還能掌握學(xué)者和公眾對這些問題的理解差異。同時(shí),對人文社科學(xué)者也有幫助。大部分?jǐn)?shù)據(jù)挖掘項(xiàng)目的研究成果是軟件和工具,這些成果可以幫助其他學(xué)者分析數(shù)據(jù),而無需投入精力開發(fā)系統(tǒng),起到了事半功倍的效果。
網(wǎng)絡(luò)時(shí)代,圖書館需要把數(shù)字資源的管護(hù)納入自己的服務(wù)范圍。數(shù)字人文研究讓數(shù)據(jù)管護(hù)工作變得更加重要,尤其是人文社科研究者經(jīng)常使用計(jì)算建模方法開展數(shù)字人文研究,會(huì)產(chǎn)生很多數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行合理的存檔、保存、監(jiān)護(hù)和管理,是圖書館參與數(shù)字人文實(shí)踐研究的一個(gè)重要職責(zé)。另外,圖書館一直承擔(dān)著信息素養(yǎng)的培訓(xùn)工作,有豐富經(jīng)驗(yàn)。大數(shù)據(jù)時(shí)代,數(shù)據(jù)素養(yǎng)教育可以作為圖書館的一個(gè)服務(wù)方向。首先,對館員進(jìn)行數(shù)據(jù)素養(yǎng)教育,鼓勵(lì)館員學(xué)習(xí)信息技術(shù)知識(shí),有條件的圖書館可以設(shè)立數(shù)據(jù)館員職位,與其他專業(yè)的學(xué)者進(jìn)行數(shù)據(jù)管護(hù)合作;其次,對人文社科研究者和公眾進(jìn)行數(shù)據(jù)素養(yǎng)培訓(xùn),幫助用戶提高數(shù)據(jù)管護(hù)的能力。另外,高校圖書館還可以拓寬學(xué)科服務(wù)范圍,如搜集整理學(xué)科科研數(shù)據(jù)、分析學(xué)科的學(xué)術(shù)發(fā)展態(tài)勢等。
社交網(wǎng)絡(luò)平臺(tái)是目前大數(shù)據(jù)研究的重要數(shù)據(jù)來源。社交媒體將人類信息傳播的速度帶入了一個(gè)嶄新的時(shí)代,也為人文社科研究貢獻(xiàn)了大量的網(wǎng)絡(luò)數(shù)據(jù)。為此,圖書館可以拓寬以下兩方面的研究。①社交媒體環(huán)境下的學(xué)術(shù)性評價(jià)研究。目前,大量學(xué)術(shù)活動(dòng)通過社交媒體進(jìn)行傳播,這些數(shù)據(jù)能洞察創(chuàng)新性學(xué)術(shù)內(nèi)容的最初端倪,屬于有學(xué)術(shù)價(jià)值的早期指標(biāo)。但是,至今還沒有太多的科學(xué)證據(jù)對此予以證明。因此,對于社交媒體產(chǎn)生的非正式性學(xué)術(shù)傳播數(shù)據(jù)進(jìn)行學(xué)術(shù)性評價(jià)研究,可以在一定程度上成為網(wǎng)絡(luò)資源評價(jià)機(jī)制的依據(jù)。② 社交媒體情景下的公眾輿情研究。公眾利用社交媒體發(fā)表大量有關(guān)人文社科問題的數(shù)據(jù),社交媒體成為學(xué)者和公眾知識(shí)分享的平臺(tái)。通過數(shù)據(jù)挖掘,可以獲得公眾對人文社科問題的認(rèn)知,掌握學(xué)者與公眾在人文社科問題理解上的差異。
同時(shí),圖書館也要加強(qiáng)對已有數(shù)字語料庫的研究。開放獲取數(shù)據(jù)庫、企業(yè)數(shù)據(jù)庫、數(shù)字圖書館、檔案館和博物館等都保存了大量有學(xué)術(shù)價(jià)值的數(shù)字資源,圖書館不僅要對這些資源進(jìn)行合理管理,還需要加強(qiáng)對這些數(shù)據(jù)的分析研究,開展知識(shí)發(fā)現(xiàn)的咨詢服務(wù)和情報(bào)分析。為此,圖書館主管部門可以列出一些高質(zhì)量的數(shù)字語料庫,尤其是具有中國特色的語料庫,鼓勵(lì)人文社科專家、計(jì)算機(jī)專家和圖書館等合作開展數(shù)字人文挖掘研究。
目前,圖書館與信息技術(shù)的關(guān)系越來越緊密,圖書館的技術(shù)人員和管理者需要了解數(shù)字技術(shù)的內(nèi)容和發(fā)展趨勢,才能更好地開展創(chuàng)新的服務(wù)工作。筆者對DiD項(xiàng)目運(yùn)用的數(shù)字技術(shù)進(jìn)行歸類,發(fā)現(xiàn)常用的技術(shù)包括文本挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)模型、聚類、神經(jīng)機(jī)器翻譯、光學(xué)字符識(shí)別、可視化、圖像處理技術(shù)、地理信息系統(tǒng)和關(guān)聯(lián)數(shù)據(jù)等,機(jī)器學(xué)習(xí)技術(shù)中的自然語言處理和自動(dòng)語義標(biāo)注是關(guān)鍵技術(shù)。這些技術(shù)的專業(yè)性很強(qiáng),圖書館需要與專業(yè)人員開展合作才能開展數(shù)字人文研究。同時(shí),圖書館可以在元數(shù)據(jù)技術(shù)方面開展研究,如,元數(shù)據(jù)的自動(dòng)標(biāo)注技術(shù)、異構(gòu)元數(shù)據(jù)的互操作技術(shù)、關(guān)聯(lián)數(shù)據(jù)技術(shù)等。