于英香 于志瑩/上海大學圖書情報檔案系
“實際上研究主題本身是不分學科的,按學科研究是人為制造出來的”[1]。大數(shù)據(jù)背景下,發(fā)展跨學科研究是發(fā)揮知識效用的應然之舉。2019年,教育部、科技部等13個部門聯(lián)合啟動“六卓越一拔尖”計劃2.0,發(fā)展“新文科”建設[2],有效推動了人文社科領域的跨學科研究。近年來,在大數(shù)據(jù)、人工智能等新興技術的推動下,國內外跨學科研究成為新的熱點。計算檔案學(Computational Archival Science,簡稱CAS)正是研究檔案學如何跨學科的新興學科領域,相關理論研究與實踐探索在歐美國家盛行。如,傅天珍、鄭江平將國外計算檔案學的概念及研究進展引進我國[3];周文泓等在案例分析的基礎上明晰了數(shù)字技術與檔案領域融合的理論框架及實踐內涵[4],并對計算檔案學的要義進行了邏輯揭示[5]。但總體來看,目前我國的計算檔案學研究尚處于概念內涵闡釋以及案例分析的初級階段,在越來越多的問題需要自然科學與社會科學相融合才能解決的當下,站在跨學科的角度看待計算檔案學這一新興學科領域,既符合時代熱點,又能為計算檔案學提供新的研究視角。本文擬從跨學科的角度審視計算檔案學,探究計算檔案學與相關學科的跨學科融合,以促進新文科建設背景下檔案學的創(chuàng)新發(fā)展。
計算檔案學的提出有兩大背景,即技術背景和學科背景。從技術背景看,大數(shù)據(jù)時代,檔案界積極探索云計算、大數(shù)據(jù)、區(qū)塊鏈、人工智能等新一代信息技術在檔案領域的應用,近五年的國家檔案局科技項目以及國家社科基金項目的選題指南中,與新一代信息技術有關的選題越來越多、占比越來越高。與此同時,以新一代信息技術為主要技術方法的跨學科數(shù)字人文項目在世界范圍展開,如我國的“數(shù)字敦煌項目”[6]、美國弗吉尼亞大學的“影谷項目”[7]、歐洲的“威尼斯時光機項目”[8]等。隨著研究和實踐的推進,信息技術在檔案領域的嵌入越來越深,為計算檔案學的提出奠定了技術基礎。從學科背景看,計算檔案學提出之前,在人文社會科學領域,許多“計算+”學科已然興起。2007年,吉姆·格雷(Jim Gray)提出了科學數(shù)據(jù)背景下“數(shù)據(jù)密集型科學研究的第四范式”[9];2009年,以大衛(wèi)·拉澤爾(David Lazer)教授為代表的15位美國學者在《科學》雜志正式提出“計算社會科學”概念[10];隨后,計算法學、計算廣告學、計算教育學、計算歷史學等研究也次第展開。人文社科領域中出現(xiàn)的“計算+”學科現(xiàn)象,對檔案學也產(chǎn)生了沖擊。隨著新文科建設的推進,文理融合成為大趨勢,計算思維不斷深入檔案領域,計算思維與檔案學的融合需要一種正式的表達與更加深入的研究。2016年4月,在馬里蘭大學舉辦的“發(fā)現(xiàn)新知識:大數(shù)據(jù)時代的檔案記錄”研討會上,計算檔案學被正式提出[11]。
計算檔案學提出之后,IEEE大數(shù)據(jù)國際會議連續(xù)5年召開計算檔案學研討會,此舉有效提升了計算檔案學的知名度,計算檔案學成為新的研究熱點,得到廣泛關注。在計算檔案學概念的不斷發(fā)展完善中,一個顯著變化就是計算檔案學超越已有的多學科特征,轉向跨學科。自計算檔案學提出之后,研究者和實踐應用者從未停止對其跨學科的探索。2018年,Marciano等學者發(fā)現(xiàn)數(shù)字記錄的生產(chǎn)和消費受社會和工業(yè)趨勢以及計算機和數(shù)據(jù)方法的影響,而這些與檔案學幾乎沒有聯(lián)系,并認為這種情況需要一種新的跨學科的正式表達,提出將計算檔案學定義中的“多學科”改為“跨學科”[12];2018年,第三屆CAS研討會對計算檔案學的概念進行了重新定義,強調了其跨學科特質[13]。由此,真正意義上跨學科的計算檔案學產(chǎn)生。在此之后的研究中,“跨學科”更是計算檔案學的顯著標簽。
從跨學科概念看,計算檔案學的學科定位是計算科學、信息科學與檔案學的跨學科交叉研究,學科邊界容易與相關學科的多學科研究混淆。多學科強調不同領域知識的組合,每個領域的邊界都保持穩(wěn)定,這意味著學科之間是合作,而不是協(xié)同[14]??鐚W科更多的是形式的結合,通過模糊領域的界限,在不同領域的交叉點創(chuàng)造新的思維方式或者新的專業(yè)。如,若一項研究使用了諸如自然語言處理(NLP)和機器學習之類的高級計算方法,但沒有在問題空間中建立共同的目標和自己的專業(yè),則可以將其描述為多學科協(xié)作;若一個研究融合了檔案與計算的問題并開始產(chǎn)生新的目標、專業(yè)和理論,那么它將成為跨學科研究,即CAS的核心研究[15]?,F(xiàn)有的CAS項目就是融合了檔案與計算問題的跨學科研究。
計算檔案學的概念強調了相關學科之間的融合,2018年第三屆CAS研討會對計算檔案學的定義為:“一個跨學科領域,整合了計算和檔案理論、方法和資源,既支持可靠和真實地創(chuàng)建與保存記錄或檔案,又解決大規(guī)模記錄或檔案的處理、分析、存儲和獲取,旨在提高效率、生產(chǎn)力和精確度,支持記錄、評估、整理和描述、保存和獲取決策,以及利用檔案資料從事研究。”[16]可以發(fā)現(xiàn),概念中將檔案學、信息科學、計算機科學三個學科的相關理論、技術與方法融合,如“計算和檔案理論”是計算科學和檔案學的融合,而“檔案的處理、分析、描述”等需要信息科學與檔案學的協(xié)同。一個學科領域的建立需要有自己的特色,計算檔案學是檔案科學、信息科學、計算機科學三個學科融合發(fā)展的領域,運用這三個相關學科的知識研究三個學科之間的綜合問題,這就是計算檔案學不同于其他學科之處。
追溯計算檔案學的相關研究項目,可以發(fā)現(xiàn)計算檔案學的實踐應用很早就已開展,只是當時還沒有用“計算檔案學”命名。計算檔案學實踐的潛在模塊,包括計算語言學、數(shù)字人文和圖形分析、計算發(fā)現(xiàn)輔助工具、數(shù)字策展、公眾參與檔案內容、檔案理論與計算方法的融合、網(wǎng)絡基礎設施和記錄連續(xù)性、空間和時間分析等內容[17];計算檔案學的應用領域,包括運輸?shù)貓D、網(wǎng)絡金融服務和銀行、自然資源和物理學、新聞學、心理學、認知科學、法律、司法、社會學與社區(qū)研究、數(shù)字化轉型、企業(yè)風險管理、數(shù)據(jù)倉儲與數(shù)據(jù)庫系統(tǒng)、業(yè)務技術管理等[18]。根據(jù)計算檔案學的潛在模塊以及應用領域,國內外所開展的諸多跨學科實踐項目均可歸于計算檔案學研究領域,如荷蘭的“記憶宮殿”項目[19]、美國的“奴隸制遺留”項目[20]、我國的中石化電子文件歸檔管理區(qū)塊鏈應用試點項目[21]等。
計算檔案學的實踐范圍廣泛,但并非所有運用計算思維來解決檔案問題的研究都屬于計算檔案學領域的研究,正如Bundy所言,計算思維幾乎影響著包括人文學科的所有學科的研究,從物理、生物、醫(yī)學到哲學、建筑和教育等都有所涉及[22]。也就是說,許多學科嵌入計算思維已經(jīng)常態(tài)化,而不能將這種常態(tài)都歸為跨學科研究。Lee等構建了CAS譜圖模型,用來判定哪些研究屬于計算檔案學的核心研究[23]。該模型由兩個雙向箭頭橫縱交叉組成,以箭頭為邊界將平面分為四個區(qū)域,類似于數(shù)學的直角坐標系,其中橫向箭頭可看作X軸,縱向箭頭可看作Y軸,四個區(qū)域可看作四個象限。X軸正方向為跨學科程度,負方向為多學科程度,Y軸正方向為高級的計算思維與方法,負方向為傳統(tǒng)的檔案學研究??梢园l(fā)現(xiàn),第一象限表示運用跨學科研究與高級計算思維與方法的實踐,越遠離原點,其跨學科程度越高,運用的計算思維和方法也越高級,越接近計算檔案學的核心研究。第二象限表示運用了高級計算思維與方法但為多學科的實踐,第四象限表示運用了跨學科研究但為傳統(tǒng)計算思維與方法的實踐,這兩類實踐都部分與計算檔案學的核心研究交叉,但不是純粹的計算檔案學核心實踐與應用。第三象限為既沒有運用高級計算思維與方法又沒有運用跨學科的研究,表示遠離計算檔案學的實踐運用。CAS譜圖模型將計算檔案學的核心實踐與多學科的實踐進行了區(qū)分,認為越貼近計算檔案學核心研究的實踐越趨于跨學科研究,這也進一步論證了計算檔案學實踐的跨學科性。
計算檔案學融合了檔案學、信息科學、計算機科學等學科的理論和方法,學科融合并不是單純的學科交疊結合,而是在跨界思維下沒有限制的學科關聯(lián)以及協(xié)同[24]。在學科關聯(lián)與協(xié)同的過程中,不宜過于強調某個學科在計算檔案學中的重要性。若過于強調檔案學的重要性,會使檔案學發(fā)展處于故步自封的狀態(tài);若過于強調計算科學或信息科學的重要性,會增加“計算檔案學”演變?yōu)椤皺n案計算學”的風險。這些都不是計算檔案學創(chuàng)建的初衷。筆者認為,計算檔案學的跨學科融合可在理論、技術和實踐三個維度展開。
伴隨著信息技術的發(fā)展,檔案學學者不斷探索技術嵌入背景下檔案學理論的創(chuàng)新之路。大數(shù)據(jù)時代,計算檔案學的出現(xiàn)推動了計算科學、信息科學與檔案學的跨學科融合,計算檔案學理論又面臨著新的重構與轉型。
利用跨學科平臺創(chuàng)新發(fā)展計算檔案學理論,提高檔案學的學科認同,促進檔案學學科發(fā)展,是計算檔案學的核心要義。Payne運用Max-Neef的學科評價模型,結合計算檔案學的概念,提出計算檔案學在必須做、想要做、可以做、可以知道等維度應考慮的理論問題[25]。他發(fā)現(xiàn)在計算檔案學的定義中,僅“存取決策”一詞與信息科學相關,信息科學在研究由于技術更新而產(chǎn)生的用戶信息行為變化尤其是操作者的利用體驗方面的學科優(yōu)勢卻被忽略;同樣,該定義僅關注計算科學在計算方法和資源的應用方面的專長,卻忽略了其在最佳實踐計算和系統(tǒng)設計等方面的優(yōu)勢[26]。用戶行為以及用戶體驗、最佳實踐計算和系統(tǒng)設計恰恰是計算檔案學實踐中不能回避的問題,也是計算檔案學發(fā)展過程中的理論追問,新問題為后續(xù)研究者提供無限想象和研究空間,在對相關學科理論追問的研究過程中,計算檔案學跨學科理論將不斷創(chuàng)新發(fā)展。
技術嵌入是檔案學發(fā)展的重要推動力量,計算科學的計算機技術與信息科學的信息組織、數(shù)據(jù)分析等技術與檔案學研究的融合已是大勢所趨,但面對日新月異的技術發(fā)展,對技術如何選擇以及如何選優(yōu)是計算檔案學技術嵌入的重要課題。
首先,計算檔案學所選擇的技術應被計算檔案學研究人員接受。有學者在數(shù)字人文技術研究者接受數(shù)字人文技術的影響因素研究中指出,系統(tǒng)質量、社群影響和個體創(chuàng)新對數(shù)字人文研究者的采納行為有重要影響[27]。那么,計算檔案學研究者的技術接受影響因素有哪些?這是計算檔案學技術不斷嵌入過程中研究者需要思考的新問題。其次,計算檔案學的技術選擇是一個動態(tài)變化的過程。計算機技術與信息組織、數(shù)據(jù)分析技術的發(fā)展與迭代越來越快,計算檔案學項目的技術采納也會不斷更迭,在技術的迭代與技術采納的更迭過程中,檔案學的技術取向不斷強化,技術的選擇與選優(yōu)將會內化為計算檔案學的核心內容,計算檔案學中的技術應用也會由量變向質變轉化,融合相關學科的元技術研究將成為計算檔案學的重要組成部分。
作為一門新興的學科領域,實踐推廣是支持計算檔案學不斷前行的重要推力,筆者選取IEEE Big Data大會CAS研討會上探討的典型計算檔案學實踐案例進行跨學科分析,闡明計算檔案學實踐中的跨學科協(xié)同,并可作為未來計算檔案學實踐推廣的參照。
依據(jù)典型實踐案例的目的和內容,可將其分為兩類。一類主要融合三個學科的理論、技術與方法解決檔案領域的問題,如案例“奴隸制遺產(chǎn)遺留項目”在土地記錄、遺囑清單的保存和使用中,應用了檔案學在保障檔案記錄的真實性、完整性、安全性和可用性方面的優(yōu)勢[28];在奴隸制關系網(wǎng)絡的數(shù)據(jù)轉錄、數(shù)據(jù)清洗、數(shù)據(jù)轉換與數(shù)據(jù)可視化處理中,應用了信息科學中的技術方法,計算機科學的優(yōu)勢體現(xiàn)在數(shù)據(jù)庫處理技術的應用中[29]。另一類為應用相關學科理論、技術與方法解決跨學科的綜合性問題,尤其是將檔案思維與計算思維相結合。如案例“利用檔案和計算機工程方法開發(fā)框架檢測和防止虛假視頻”,以檔案學的真實性、可靠性、準確性原理等來判定視頻的虛假性;應用計算工程方法開發(fā)六種獨特的檢測假視頻的測試,探討將檔案思維和計算思維融為一體的計算檔案學方法[30]。
實踐案例直觀地反映了計算檔案學跨學科應用的進展與創(chuàng)新,也說明了計算檔案學跨學科協(xié)同合作不僅在檔案領域發(fā)揮了重要作用,在相關學科領域也產(chǎn)生了較大影響,得到了學界與業(yè)界的認同。大數(shù)據(jù)時代,跨學科的計算檔案學實踐項目將會不斷推廣,以促進計算檔案學相關理論、技術與方法的融合,助力計算檔案學的發(fā)展;而計算檔案學研究的不斷深入,反過來又能促進相關實踐項目的開展。正是在這種雙向互動中,計算檔案學煥發(fā)出無盡的生命力。