周耀林 劉夢穎 楊文睿 費丁俊
摘? 要:進入后疫情時代反思發(fā)現(xiàn),抗疫數(shù)字檔案資源還處于一個分散管理的狀態(tài),有待于系統(tǒng)地進行整合。本文從多個方面簡要論述了抗疫數(shù)字檔案資源整合的動因、內(nèi)容及方法,旨在通過科學(xué)、系統(tǒng)地整合抗疫數(shù)字檔案資源,為政府公共衛(wèi)生決策提供參考。
關(guān)鍵詞:抗疫數(shù)字檔案;資源整合;后疫情時代
Abstract: After entering the post-epidemic time, it has been noted that the anti-epidemic digital archives resources are still in a state of decentralization and need to be systematically integrated. This article briefly discussed the motivation, content and method of the integration of anti-epidemic digital archives resources from multiple aspects, aiming to provide a reference for governments public health decision-making by integrating the anti-epidemic digital archives resources scientifically and systematically.
Keywords: Anti-epidemic digital archives; Resources integration; Post-epidemic time
進入后疫情時代,[1]檔案部門如何建設(shè)抗疫數(shù)字檔案資源,如何整合這類檔案資源,為公共部門服務(wù),為政府公共衛(wèi)生決策提供參考是迫切需要考慮的問題。
1 抗疫數(shù)字檔案資源整合動因
整合抗疫檔案資源,就基于抗疫檔案資源自身的特點和后疫情時代外部環(huán)境的變化兩個方面的考慮。
1.1 內(nèi)因:抗疫數(shù)字檔案資源的特點
1.1.1 抗疫數(shù)字檔案資源具有分散性。由于疫情防控工作的復(fù)雜性和動態(tài)性,抗疫數(shù)字檔案資源在來源、內(nèi)容和載體形態(tài)上具有明顯的分散性。
在來源方面,數(shù)字檔案資源牽涉主體和來源途徑多,碎片化特點顯著,保存在不同機構(gòu),例如政府部門、醫(yī)療衛(wèi)生部門、企業(yè)、檔案館及圖書館等;在內(nèi)容方面,抗疫數(shù)字檔案不僅包括疫情本身的信息,還涉及到不同視角下不同主體在抗疫過程中形成的信息[2];在載體形態(tài)方面,不僅包括醫(yī)療數(shù)據(jù)庫和統(tǒng)計系統(tǒng)等結(jié)構(gòu)化數(shù)據(jù),還包括網(wǎng)頁、圖片和多媒體等非結(jié)構(gòu)化數(shù)據(jù),[3]且分屬于不同平臺或系統(tǒng),呈現(xiàn)分散管理的特征。
1.1.2 抗疫數(shù)字檔案資源具有動態(tài)性。動態(tài)性主要體現(xiàn)在抗疫數(shù)字檔案資源的形成過程及其內(nèi)容上。抗擊疫情是一個動態(tài)發(fā)展的過程,其應(yīng)對和處置有不同的階段,因此抗疫數(shù)字檔案資源的形成過程也具有階段性、動態(tài)性特征。
同時,不同于常規(guī)檔案形成時的規(guī)律性和周期性,疫情的動態(tài)發(fā)展使得新的數(shù)據(jù)不斷產(chǎn)生,部分?jǐn)?shù)據(jù)被更新替代,所以檔案內(nèi)容也具有動態(tài)性。目前借助5G、大數(shù)據(jù)、人工智能和區(qū)塊鏈等技術(shù)可以對抗疫數(shù)字檔案資源進行實時補充、更新和修正,從而反映事件發(fā)展變化的全貌,有利于拓展認(rèn)知、靠近真實。
1.1.3 抗疫數(shù)字檔案資源具有公共性。疫情防控工作的總體性和全民性決定了抗疫數(shù)字檔案資源具有公共性特征。一方面,抗疫數(shù)字檔案資源是黨、國家、社會組織以及人民在抗擊疫情過程中形成的真實記錄,是中國智慧、中國力量的體現(xiàn),具有極大的公共價值。另一方面,數(shù)字時代構(gòu)建了參與式信息領(lǐng)域,開放互動的網(wǎng)絡(luò)平臺使得人人都能記錄抗疫過程中社會和個人的活動,抗疫數(shù)字檔案資源不再是檔案部門控制主導(dǎo)的單一主體資源,而是廣大群眾共同參與構(gòu)建的記憶??挂邤?shù)字檔案資源的這些特征增加了其分類整合的困難度和復(fù)雜度,也凸顯了整合共享的必要性和緊迫性。
1.2 外因:后疫情時代社會環(huán)境的變化
1.2.1 公共文化機構(gòu)服務(wù)方式向線上轉(zhuǎn)變。移動互聯(lián)網(wǎng)的普及和抗擊疫情的需要使得無接觸的在線化服務(wù)浪潮興起,公共文化機構(gòu)的服務(wù)方式迅速從線下轉(zhuǎn)為線上。檔案館、圖書館、博物館等文化事業(yè)機構(gòu)紛紛將服務(wù)拓展至網(wǎng)絡(luò)并創(chuàng)新服務(wù)內(nèi)容。
例如,沈陽市檔案館將檔案應(yīng)用數(shù)據(jù)庫與移動客戶端相連,推出了線上超媒體檔案文化產(chǎn)品《印象沈陽》,拓展了公眾在線了解檔案文史的方式。疫情導(dǎo)致的公共文化服務(wù)方式的變化影響了人們的文化生活方式,檔案館應(yīng)整合好抗疫數(shù)字檔案資源,豐富并創(chuàng)新在線服務(wù)的內(nèi)容和方式,積極應(yīng)對線上服務(wù)的趨勢。
1.2.2 公眾數(shù)字文化需求持續(xù)增長。保持社交距離的防疫方式使公民生活方式和文化習(xí)慣發(fā)生改變,導(dǎo)致其數(shù)字文化需求急劇增長。疫情期間很多知名博物館例如中國國家博物館、三星堆博物館等通過直播的形式實現(xiàn)了在線開館,累計吸引近千萬人次在線參觀。
同時,人們對與疫情相關(guān)的信息抱有很高的關(guān)注度,各地紛紛推出抗疫專題展,吸引了眾多市民捐贈抗疫實物、參觀展覽。檔案館將抗疫數(shù)字檔案資源收集整合后反饋給公眾,可以滿足公眾的數(shù)字文化需求,重視人文關(guān)懷,建構(gòu)有溫度的集體記憶。
1.2.3 數(shù)字記憶建構(gòu)需要逐漸凸顯。中國人民抗擊疫情的偉大歷程是一項值得建設(shè)的記憶工程,而收集整合抗疫數(shù)字檔案資源是建設(shè)前提。
檔案館作為記憶機構(gòu)的主體之一,承擔(dān)著守護社會記憶的責(zé)任,在信息時代更是順勢成為數(shù)字記憶項目的主要承擔(dān)方,[4]在此環(huán)境下,檔案館利用信息加工組織能力將抗疫數(shù)字檔案資源整合,是在為構(gòu)建抗疫數(shù)字記憶打下堅實基礎(chǔ)。
正是因為上述原因,抗疫數(shù)字檔案資源整合成為后疫情時代檔案工作中不可缺少的基礎(chǔ)性環(huán)節(jié)。對抗疫數(shù)字檔案資源進行整合有利于這些檔案資源長期保存,從而挖掘其中的深層價值和效益,不僅能為疫情時代的抗疫工作消除信息孤島,而且有助于為今后類似的公共衛(wèi)生事件提供服務(wù)和參考。
2 抗疫數(shù)字檔案資源整合內(nèi)容
2.1 整合主體??挂邤?shù)字檔案資源的主體是一切直接或間接參與抗擊疫情活動的承擔(dān)者和執(zhí)行者,[5]包括政府部門、科研機構(gòu)、醫(yī)療機構(gòu)、企事業(yè)單位、社區(qū)、新聞媒體乃至個人。
抗疫數(shù)字檔案資源整合需要對這些參與的多元主體進行整合,各主體之間不應(yīng)各自為政,要厘清主次關(guān)系,確立多元合作模式,通過“一核多元”的社會協(xié)作模式發(fā)揮社會群體力量共同促使異構(gòu)資源整合目標(biāo)實現(xiàn),[6]充分發(fā)揮各個主體的優(yōu)勢,明確各個主體的責(zé)任地位。
第一,確立檔案部門作為后疫情時代抗疫數(shù)字檔案資源整合的核心力量。在疫情暴發(fā)初期國家檔案局就發(fā)文要求將檔案工作納入防控工作的總體部署,將疫情防控檔案應(yīng)收盡收、應(yīng)歸盡歸,[7]各地檔案館、企事業(yè)單位檔案部門、高校檔案館等應(yīng)充分發(fā)揮自身優(yōu)勢,主動承擔(dān)抗疫數(shù)字檔案資源整合的重要責(zé)任。
第二,聯(lián)合博物館、圖書館等文化事業(yè)機構(gòu)進行資源共享。除檔案館之外,博物館、圖書館等單位也在向社會各界收集征集抗疫資料。[8]按照《中華人民共和國檔案法》第十八條規(guī)定,[9]檔案館應(yīng)主動與其他文化機構(gòu)保持交流和合作,形成資源互補,共同做好抗疫記憶建設(shè)工作。
第三,倡導(dǎo)公共部門、行業(yè)協(xié)會和公眾積極配合參與,協(xié)同做好抗疫數(shù)字檔案資源整合的頂層設(shè)計工作、資金支持、技術(shù)支持和人才支持等工作,搭建專門的整合平臺。
最后,公眾是抗擊新冠肺炎疫情過程中最直接的參與者、目擊者,他們在社交媒體上的記錄為抗疫數(shù)字檔案資源建設(shè)提供了新的視角,如多名視頻博主通過實地探訪用鏡頭記錄下武漢封城后的狀況。將公眾納入整合體系有利于豐富數(shù)字檔案資源內(nèi)容,拓展數(shù)字檔案資源價值。
2.2 整合客體。整合客體是整合主體施動的對象,是整合活動的核心內(nèi)容,整合客體的完整程度、內(nèi)容的豐富程度直接影響著整合工作的安排。[10]數(shù)字檔案資源整合客體的內(nèi)容是指將分散的抗疫檔案及相關(guān)技術(shù)、人員等資源進行重組,達到資源有效配置的目的。[11]
整合客體所包含對象包括散落在各處的抗疫檔案資源、標(biāo)準(zhǔn)規(guī)范和信息技術(shù)等。[12][13]
3 抗疫數(shù)字檔案資源整合實現(xiàn)
抗疫數(shù)字檔案資源整合是一個從資源獲取到內(nèi)容整合、信息重構(gòu)、知識發(fā)現(xiàn)和價值應(yīng)用的連續(xù)過程,涉及到使用多種信息整合技術(shù)對多源異構(gòu)的數(shù)字檔案資源進行一體化處理。[14]
在明晰了抗疫數(shù)字檔案資源整合內(nèi)容的基礎(chǔ)上,本文將從項目借鑒、整合流程及實現(xiàn)策略三方面討論如何實現(xiàn)抗疫數(shù)字檔案資源的整合。
3.1 項目借鑒。GitHub開源項目2019nCovMemory是專門記錄新冠肺炎疫情的記憶項目,它收錄了兩類記憶并持續(xù)更新。
一是可信賴的媒體或公眾號上與疫情有關(guān)的新聞報道、紀(jì)實作品。
二是微信公眾號上發(fā)表的親歷者的個人敘述,旨在提供一個供網(wǎng)絡(luò)用戶和研究人士取用資料的資料庫。[15]GitHub上還有一些類似的開源項目,如記錄疫情進展的2019-nCoV時間線、新冠病毒防疫信息平臺,但目前均處于網(wǎng)頁無法打開的狀態(tài)。
3.2 整合流程
3.2.1 數(shù)據(jù)整合。數(shù)據(jù)整合就是基于數(shù)據(jù)的抗疫數(shù)字檔案資源整合,即對多源異構(gòu)的抗疫數(shù)字檔案資源,即紙質(zhì)檔案數(shù)字復(fù)制品、數(shù)字資源兩個層面的資源進行采集和預(yù)處理,實現(xiàn)邏輯或者物理上資源實體的聚集,解決多源異構(gòu)數(shù)據(jù)互聯(lián)和共享困難問題。[16]
對于資源采集工作,可以采用使用率很高的Heritrix以及HTTrack工具進行。[17]對于數(shù)據(jù)資源預(yù)處理,可以借助一些ETL工具,ETL是指從數(shù)據(jù)源抽取數(shù)據(jù)出來,進行清洗加工轉(zhuǎn)換,最后加載到數(shù)據(jù)倉庫中,以供分析處理和數(shù)據(jù)挖掘使用。[18]
3.2.2 信息整合。數(shù)據(jù)整合只是實現(xiàn)了抗疫數(shù)字檔案資源的簡單疊加,將資源匯集到了一起,而信息整合是在數(shù)據(jù)整合的基礎(chǔ)上揭示數(shù)據(jù)資源之間的關(guān)聯(lián),對抗疫數(shù)字檔案資源進行組織和重構(gòu)。
抗疫數(shù)字檔案資源進行信息整合的重要工具是借助“語義網(wǎng)”技術(shù),語義網(wǎng)技術(shù)中的關(guān)聯(lián)數(shù)據(jù)能夠解決非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)字檔案資源語義異構(gòu)問題,實現(xiàn)數(shù)字檔案的關(guān)聯(lián)和整合。
在規(guī)范并統(tǒng)一信息描述標(biāo)準(zhǔn)的基礎(chǔ)上,利用關(guān)聯(lián)數(shù)據(jù)技術(shù)建立抗疫數(shù)字檔案多維語義關(guān)聯(lián)框架,實現(xiàn)異構(gòu)數(shù)字檔案資源的關(guān)聯(lián)聚合和語義化組織。[19]
最后,采用RDF鏈接聚合機制自動在不同的信息單元之間建立各種關(guān)系,以靜態(tài)RDF/XML文件形式發(fā)布關(guān)聯(lián)數(shù)據(jù)[20], 實現(xiàn)異構(gòu)資源無縫性整合。
3.2.3 知識整合。知識整合是在信息整合的基礎(chǔ)上通過數(shù)據(jù)挖掘、知識抽取等技術(shù),不斷發(fā)現(xiàn)抗疫數(shù)字檔案資源中的隱性知識和深層價值的過程,這一過程旨在實現(xiàn)知識發(fā)現(xiàn)和價值應(yīng)用。
檔案部門可以借助可視化技術(shù)呈現(xiàn)抗疫數(shù)字檔案資源內(nèi)容,挖掘、分析、構(gòu)建、繪制和顯示其中各個要素的關(guān)聯(lián)關(guān)系,通過構(gòu)建知識圖譜模型實現(xiàn)抗疫數(shù)字檔案資源的深層次整合與共享。
可以借鑒的有Allhistory.com網(wǎng)站的AI知識圖譜核心引擎技術(shù)。該網(wǎng)站實現(xiàn)了時空化、關(guān)聯(lián)化的方式構(gòu)造及展現(xiàn)歷史知識間的關(guān)聯(lián),具有以時間節(jié)點為索引的知識信息組織、自然語言處理和時空地圖繪制功能。[21]
數(shù)據(jù)整合、信息整合及知識整合反映了抗疫數(shù)字檔案資源一體化程度的高低。[22] 數(shù)據(jù)整合關(guān)注的是異構(gòu)資源的共享互通、數(shù)字檔案資源實體之間的邏輯關(guān)聯(lián)和語義組織和數(shù)字檔案資源的內(nèi)容進行了深度分析等三個層次。
這三階段層次鮮明,密不可分,通過這種層級遞進式的數(shù)據(jù)處理方式,能夠?qū)崿F(xiàn)抗疫數(shù)字檔案資源的有序化、組織和體系的優(yōu)化,在資源整合和服務(wù)協(xié)同的基礎(chǔ)上最終實現(xiàn)抗疫數(shù)字檔案資源的共建共享。
3.3 實現(xiàn)策略
3.3.1 基于資源外部環(huán)境做好頂層設(shè)計。2019nCovMemory項目經(jīng)驗告訴我們抗疫數(shù)字檔案資源的整合過程具有長期性和復(fù)雜性特點,應(yīng)做好頂層設(shè)計工作,自上而下統(tǒng)籌規(guī)劃。即給予整合工作政策支持、打造主體協(xié)作的局面、搭建公共平臺等。
3.3.2 基于資源內(nèi)部特點做好資源建設(shè)。資源整合工作的重點策略在于保證資源采集的全面性、整合標(biāo)準(zhǔn)的規(guī)范性以及整合技術(shù)的可行性。包括推動資源全面采集、保證整合標(biāo)準(zhǔn)的規(guī)范性、確保整合技術(shù)實用可行三個方面。
4 結(jié)語
“人類能在這場病毒和生活的賭博中,贏得的全部東西,就是知識和記憶?!盵23]抗疫過程中產(chǎn)生的數(shù)字檔案資源記錄了政府工作人員、科研工作者、醫(yī)護人員、社區(qū)工作者以及普通民眾等不同角色的使命與擔(dān)當(dāng),是不可或缺的記憶載體,能夠為記憶建構(gòu)提供資源基礎(chǔ)。將抗疫數(shù)字檔案資源整合的理念和方法落到實處,是當(dāng)前國家政策層面上需要優(yōu)先考慮的問題之一。
*本文是教育部人文社會科學(xué)重點研究基地重大項目“大數(shù)據(jù)資源規(guī)劃理論與統(tǒng)籌發(fā)展研究(16JJD870001)”研究成果之一。
參考文獻:
[1]新華網(wǎng).習(xí)近平的2020·六月:“后疫情時代”彰顯“中國策”[EB/OL]. (2020-07-14)[2020-08-02]. http://www.xinhuanet.com/politics/xxjxs/2020-07/14/c_1126236129.htm.
[2]周耀林,楊文睿,姬榮偉,丁玲.基于群體智慧的抗疫檔案資源庫建設(shè)研究[J].檔案學(xué)研究,2020(02): 4-11.
[3]張衛(wèi)東,左娜,陸璐.數(shù)字時代的檔案資源整合:路徑與方法[J].檔案學(xué)通訊,2018(05):46-50.
[4]馮惠玲.數(shù)字記憶:文化記憶的數(shù)字宮殿[J].中國圖書館學(xué)報,2020,46(03): 4-16.
[5]胡瑩.論東巴古籍文獻保護主體及其整合[J].廣西師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2018,54(05): 1-7.
[6]牛力,趙迪,韓小汀.“數(shù)字記憶”背景下異構(gòu)數(shù)據(jù)資源整合研究探析[J].檔案學(xué)研究,2018(06): 52-58.
[7]中華人民共和國國家檔案局.國家檔案局關(guān)于做好新型冠狀病毒感染肺炎疫情防控期間檔案工作的通知[EB/OL]. (2020-02-07)[2020-08-08]. http://www.saac.gov.cn/daj/tzgg/202002/fd8abfed55c54443a8a71214fbe42e5d.shtml.
[8]搜狐網(wǎng).訴說抗疫記憶,征集電子版抗擊新冠肺炎疫情資料啟事[EB/OL]. (2020-04-22)[2020-08-09].https://www.sohu.com/a/390076539_805974.
[9]中國人大網(wǎng).中華人民共和國檔案法[EB/OL]. (2020-06-20)[2020-08-09]. http://www.npc.gov.cn/npc/c30834/202006/14a5f4f6452a420a97ccf2d3217f6292.shtml.
[10]唐義,肖希明,周力虹.我國公共數(shù)字文化資源整合模式構(gòu)建研究[J].圖書館雜志,2016,35(07): 12-25.
[11]陳慧,王曉曉,南夢潔,安小米.數(shù)字檔案資源整合與服務(wù)過程中的隱性知識分類——以賦能思維為視角[J].圖書與情報,2019(06): 118-124.
[12]趙紅穎.圖書檔案資源數(shù)字化融合服務(wù)實現(xiàn)研究[D].吉林大學(xué),2015.
[13][17]黃新平,王萍.國內(nèi)外近年Web Archive技術(shù)研究與應(yīng)用進展[J].圖書館學(xué)研究,2016(18): 30-35+19.
[14]周耀林,常大偉.國家重點檔案信息資源融合及其實現(xiàn)策略研究[J].檔案學(xué)研究,2018(02): 14-20.
[15]碼云.2020新冠肺炎記憶:報道、非虛構(gòu)與個人敘述[EB/OL].[2020-08-08].https://gitee.com/dark.H/nCovMemory#%E5%B7%A5%E5%85%B7.
[16]肖希明,唐義.國外多領(lǐng)域數(shù)字資源整合研究進展[J].中國圖書館學(xué)報,2013,39(04): 26-35.
[18]中國專業(yè)IT社區(qū).幾款開源的ETL工具及ELT初探[EB/OL]. (2018-08-06)[2020-08-10].https://blog.csdn.net/juceli/article/details/81448224.
[19]王志宇,熊華蘭.語義網(wǎng)環(huán)境下數(shù)字檔案資源關(guān)聯(lián)與共享模式研究[J].檔案學(xué)研究,2019.
[20]劉愛琴,劉潔,尚珊.基于知識集成的LAM數(shù)字資源整合模型設(shè)計[J].圖書館學(xué)研究,2018(04): 73-79.
[21]全歷史[EB/OL].[2020-08-10].https://www.allhistory.com/.
[22]趙生輝,朱學(xué)芳.圖書、檔案、博物數(shù)字化服務(wù)融合策略探析[J].情報資料工作,2014(04): 68-74.
[23]阿爾貝·加繆.局外人·鼠疫[M].譯林出版社,2013.
(作者單位:1.武漢大學(xué)政務(wù)管理研究中心;2.武漢大學(xué)信息管理學(xué)院;3.武漢市自然資源和規(guī)劃信息中心? ? 來稿日期:2020-08-19)