文·董聰穎 金軼瑩
新型冠狀病毒疫情發(fā)生后,國家檔案局《關(guān)于做好新型冠狀病毒感染肺炎疫情防控期間檔案工作的通知》(以下簡稱《通知》)指出:要服務(wù)大局,充分發(fā)揮檔案政資作用,特別是2003年抗擊“非典”疫情的有關(guān)重要工作情況,匯總編輯成檔案參考材料。[1]
檔案數(shù)據(jù)作為社會公共資源,實現(xiàn)檔案數(shù)據(jù)價值、促進檔案數(shù)據(jù)價值最大化是適應(yīng)政府數(shù)據(jù)開放的有效舉措。在數(shù)字化浪潮席卷社會的今天,檔案人不得不緊跟時代,及時向社會提供檔案數(shù)據(jù)服務(wù),高效跟進政府、社會的改革與建設(shè)需求,重新將檔案數(shù)據(jù)管理、檔案數(shù)據(jù)服務(wù)、檔案數(shù)據(jù)價值實現(xiàn)等問題納入思考范疇。檔案數(shù)據(jù)價值是指檔案數(shù)據(jù)對于社會的積極意義和有用性,檔案數(shù)據(jù)價值的實現(xiàn)是一個動態(tài)過程,是人對檔案數(shù)據(jù)加以動作,使檔案數(shù)據(jù)“活起來”,從案牘上或者數(shù)據(jù)庫中的靜態(tài)數(shù)據(jù)變成信息甚至知識并為人所用的過程。
《數(shù)據(jù)資產(chǎn)管理實踐白皮書4.0》明確提出:“將數(shù)據(jù)轉(zhuǎn)變?yōu)閿?shù)據(jù)資產(chǎn),要掌握豐富的高價值數(shù)據(jù)資源。”檔案數(shù)據(jù)和政府數(shù)據(jù)聯(lián)系密切,政府部門存有大量的公共數(shù)據(jù)資源,這些資源大多存放在原有的數(shù)據(jù)庫中或堆積在各部門檔案室或文件柜里,并沒有得到很好的利用,對這些數(shù)據(jù)資源進行開發(fā)服務(wù)將是未來數(shù)據(jù)開放工作的重心。[2]政府數(shù)據(jù)開放力求通過帶動社會開展大數(shù)據(jù)增值性、公益性開發(fā)和創(chuàng)新應(yīng)用,充分釋放數(shù)據(jù)紅利?!洞龠M大數(shù)據(jù)發(fā)展行動綱要》(以下簡稱《綱要》)明確指出:“構(gòu)建電子健康檔案,加強數(shù)字圖書館、檔案館等公益設(shè)施建設(shè),構(gòu)建文化傳播大數(shù)據(jù)綜合服務(wù)平臺”,由此可見,增強檔案數(shù)據(jù)服務(wù)是推動政府數(shù)據(jù)開發(fā)的重要因素之一。
截至2018年底,全國各級國家綜合檔案館館藏檔案75051.1萬卷、件,全國各級國家綜合檔案館紙質(zhì)館藏資料3883.1萬冊(不包含照片、影片檔案、電子檔案等)。[3]隨著大數(shù)據(jù)、社交媒體的發(fā)展,檔案數(shù)據(jù)的外延不斷擴展,如此海量的檔案數(shù)據(jù)中蘊藏的價值不可估量。另一方面,政府數(shù)據(jù)開放的深入開展,引發(fā)了檔案領(lǐng)域?qū)n案價值的思考,理論層面關(guān)于檔案數(shù)據(jù)價值實現(xiàn)的研究也不斷增多。馬海群指出在數(shù)據(jù)開放的研究與實踐潮流下,進一步關(guān)注檔案數(shù)據(jù)開放將成為檔案數(shù)據(jù)研究的最新前沿問題。[4]Ahmed Elragal, Tero Paivarinta等學(xué)者尋求運用數(shù)據(jù)挖掘技術(shù)實現(xiàn)檔案數(shù)據(jù)價值增值,提出通過新興的大數(shù)據(jù)分析手段來開展數(shù)字檔案和館藏的開發(fā)工作,從而為社會提供知識服務(wù)。[5]王向女、袁倩指出數(shù)據(jù)科學(xué)主要解決了檔案數(shù)據(jù)的快速增長和精準有效利用之間的矛盾問題,創(chuàng)新之處在于數(shù)據(jù)科學(xué)實現(xiàn)了檔案數(shù)據(jù)的數(shù)量“增殖”和價值“增值”之間的和諧。[6]
首先,檔案數(shù)據(jù)服務(wù)的開展。疫情防控期間,《通知》指示各級檔案部門要充分利用現(xiàn)代通訊技術(shù),靈活采用電話、辦公網(wǎng)、短信、微信、移動客戶端等適宜方式,加強對疫情防控材料收集歸檔工作的業(yè)務(wù)指導(dǎo),做到疫情防控檔案應(yīng)收盡收、應(yīng)歸盡歸。許多檔案館紛紛制定策略,保障檔案數(shù)據(jù)服務(wù)的有序開展。第二,檔案數(shù)據(jù)服務(wù)網(wǎng)站的不斷完善。截至目前,一些省市已經(jīng)建成檔案數(shù)據(jù)服務(wù)網(wǎng)站,如上海市將檔案數(shù)據(jù)服務(wù)融入“一網(wǎng)通辦”工程、浙江檔案服務(wù)網(wǎng)增設(shè)“開放檔案”欄目。第三,數(shù)據(jù)挖掘技術(shù)的應(yīng)用。政府數(shù)據(jù)開放動員社會利用數(shù)據(jù)挖掘技術(shù)來開發(fā)數(shù)據(jù)價值,真正實現(xiàn)數(shù)據(jù)來源于民用之于民,這對檔案數(shù)據(jù)價值實現(xiàn)提供了諸多可鑒之處。
大數(shù)據(jù)背景下,檔案數(shù)據(jù)價值可以挖掘出三個層次,一是檔案數(shù)據(jù)內(nèi)容的憑證價值和情報價值;二是檔案數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)挖掘以及數(shù)據(jù)融合產(chǎn)生的二次價值;三是無法立即判斷其價值的數(shù)據(jù)的潛在價值。[7]檔案數(shù)據(jù)價值可以分為三類,即檔案數(shù)據(jù)內(nèi)容價值、檔案數(shù)據(jù)增值價值、檔案數(shù)據(jù)潛在價值。
1.檔案數(shù)據(jù)內(nèi)容價值
檔案數(shù)據(jù)內(nèi)容價值是指不經(jīng)過任何加工直接用肉眼或者簡單分析就可獲取的憑證和情報價值。新型冠狀病毒防控期間,各級部門及時公布“非典”檔案和新型冠狀病毒的對比數(shù)據(jù),防治“非典”病毒的檔案為新型冠狀病毒的防控提供了可鑒之處,如當時北京小湯山醫(yī)院的建設(shè)對遏制病毒起到了重要作用,截止到2020年2月7日,火神山醫(yī)院已經(jīng)開始收治病人,雷神山醫(yī)院也即將完工,這些都充分發(fā)揮了檔案數(shù)據(jù)的憑證和情報價值。
2.檔案數(shù)據(jù)增值價值
在數(shù)據(jù)科學(xué)的大背景下,檔案數(shù)據(jù)的價值在于海量數(shù)據(jù)基礎(chǔ)上的價值增值。[8]《通知》指出:“各級檔案局、檔案館要根據(jù)疫情防控工作實際需要,組織檔案編研人員,深入挖掘館藏檔案資源。”檔案數(shù)據(jù)增值價值又稱檔案數(shù)據(jù)附加價值,不易直接獲得,通常和數(shù)據(jù)量、技術(shù)手段相匹配,同一問題數(shù)據(jù)規(guī)模越龐大,數(shù)據(jù)分析技術(shù)越精進,檔案數(shù)據(jù)增值價值越容易體現(xiàn)。檔案數(shù)據(jù)增值價值包括定量和定性兩個層面。定量是可見的、真實的、可以測量的價值;定性更帶有主觀色彩和不確定性,如通過“非典”檔案和新型冠狀病毒對比數(shù)據(jù)的公布,緩解了社會對新型冠狀病毒的恐懼,發(fā)揮了穩(wěn)定社會秩序的作用,這很難用確切的數(shù)據(jù)來衡量,但也是檔案數(shù)據(jù)增值價值的體現(xiàn)。
3.檔案數(shù)據(jù)潛在價值
檔案數(shù)據(jù)潛在價值是還未發(fā)現(xiàn)的價值,一經(jīng)發(fā)現(xiàn)它既可以轉(zhuǎn)化為內(nèi)容價值也可以轉(zhuǎn)化為增值價值。在新型冠狀病毒未發(fā)生前,“非典”檔案只作為相關(guān)科研人員研究所用,其他憑證價值、情報價值以及經(jīng)過數(shù)據(jù)分析的價值則不會顯現(xiàn)。因此,檔案數(shù)據(jù)潛在價值需要一定條件去發(fā)現(xiàn)和實現(xiàn)。對于檔案館而言,從大量數(shù)據(jù)中分析潛在的價值決定著大數(shù)據(jù)時代檔案館的發(fā)展水平及方向。[9]當前檔案數(shù)據(jù)仍有無數(shù)潛在價值等待我們?nèi)グl(fā)掘,需要檔案人敏銳的目光,需要整個社會的參與。
1.檔案數(shù)據(jù)價值實現(xiàn)的主體
2018年5月24日,馮惠玲在上海大學(xué)《新時代 新趨向 新思考——信息資源管理發(fā)展創(chuàng)新論壇》報告中提到,檔案管理與開發(fā)呈現(xiàn)出檔案主客體多元化、檔案實踐多元化等特點。政府數(shù)據(jù)開放背景下檔案數(shù)據(jù)價值實現(xiàn)主體是指開放檔案數(shù)據(jù)和挖掘數(shù)據(jù)價值的部門、機構(gòu)或者個人。檔案部門是開放檔案、提供檔案數(shù)據(jù)服務(wù)的主力;第三方服務(wù)機構(gòu)在技術(shù)、知識挖掘等層面占據(jù)優(yōu)勢,是挖掘數(shù)據(jù)價值的重要力量;掌握數(shù)據(jù)挖掘技術(shù)的個人在檔案數(shù)據(jù)價值開發(fā)方面也可發(fā)揮其特長。
2.檔案數(shù)據(jù)價值的服務(wù)對象
檔案數(shù)據(jù)價值的服務(wù)對象是接受檔案價值的用戶,是價值受眾。檔案數(shù)據(jù)管理的整個生命周期都圍繞用戶展開,是檔案數(shù)據(jù)價值實現(xiàn)的主要推動力。2018年末,我國總?cè)丝?39,538萬人,2018年度,全國各級國家綜合檔案館接待利用者724.9萬人次。每一個人都是檔案數(shù)據(jù)的潛在用戶,由數(shù)據(jù)可知,我國檔案數(shù)據(jù)用戶的增長空間巨大。隨著信息的高速發(fā)展,用戶對檔案數(shù)據(jù)的利用需求也在改變,用戶關(guān)注的已不再是簡單地獲取文獻,而是如何從繁雜的信息環(huán)境中捕獲和析取解決所面臨問題的信息內(nèi)容,并將這些信息融化或重組為相應(yīng)的知識或解決方案。[10]
3.開放的檔案數(shù)據(jù)
政府數(shù)據(jù)開放的重心在“開放”一詞,開放的政府數(shù)據(jù)具有自由訪問、規(guī)模大、種類齊全等特點。自由訪問代表任何人都可以獲取,無權(quán)限設(shè)置;《綱要》提出2020年前,實現(xiàn)信用、交通、醫(yī)療等20多個相關(guān)領(lǐng)域的政府數(shù)據(jù)集向社會開放,“數(shù)據(jù)集”是政府數(shù)據(jù)開放的單位之一,是海量數(shù)據(jù)組成的集合。開放的檔案數(shù)據(jù)是利用檔案數(shù)據(jù)的前提,大規(guī)模的數(shù)據(jù)開放是開展數(shù)據(jù)挖掘的基礎(chǔ),是促進數(shù)據(jù)—信息—知識轉(zhuǎn)變的有效舉措。
除上述因素外,技術(shù)條件的成熟和引用、政策法規(guī)的出臺完善、逐步增強的社會檔案數(shù)據(jù)利用意識等也是檔案數(shù)據(jù)價值實現(xiàn)的要素。只有各要素相互配合,相輔相成,才能實現(xiàn)檔案數(shù)據(jù)價值最大化。
1.提高檔案數(shù)據(jù)內(nèi)容質(zhì)量
檔案數(shù)據(jù)價值開發(fā)的對象是檔案數(shù)據(jù),檔案數(shù)據(jù)內(nèi)容質(zhì)量的高低決定了檔案數(shù)據(jù)價值的可信性。電子文件歸檔有效解決了紙質(zhì)檔案保存對空間的特定要求,但是目前,電子文件的格式多樣、重復(fù)存儲,不同系統(tǒng)的文件沒有接口,文件之間、類別之間、館際之間等形式及內(nèi)容間的深層次關(guān)聯(lián)仍未建立,限制了檔案價值的挖掘與利用。另外,不少檔案館采用數(shù)字外包的形式,檔案數(shù)字化質(zhì)量難以保證。因此,加快建設(shè)檔案數(shù)據(jù)共享平臺、完善電子文件標準建設(shè)、提高檔案數(shù)子化水平、做好元數(shù)據(jù)著錄和保存工作是提高檔案數(shù)據(jù)內(nèi)容質(zhì)量的重要因素。
2.擴大檔案數(shù)據(jù)開放格局
檔案數(shù)據(jù)不是為了保存而保存,對檔案進行一系列的管理活動,其最終目的是為了發(fā)揮檔案的作用。政府數(shù)據(jù)開放背景下,檔案數(shù)據(jù)更應(yīng)緊跟時代,擴大檔案數(shù)據(jù)開放范圍,加大檔案數(shù)據(jù)開放格局。首先,促進全方位的開放服務(wù),即面向用戶,無差別地提供服務(wù);其次,實行多層次的開放服務(wù),即檔案數(shù)據(jù)的開放由國家到省市、由較發(fā)達地區(qū)到經(jīng)濟相對落后地區(qū)依次推進;最后,寬領(lǐng)域的開放服務(wù),包括兩個方面,一是內(nèi)容領(lǐng)域更加廣泛,如開放種類增多、開放數(shù)據(jù)集,二是檔案數(shù)據(jù)的利用除憑證價值外,其增值價值也會激活市場某一領(lǐng)域的活力。
3.開展檔案數(shù)據(jù)化服務(wù)
開放的政府數(shù)據(jù)都是以數(shù)據(jù)化的形式向社會提供,檔案數(shù)據(jù)價值挖掘技術(shù)的應(yīng)用需要數(shù)據(jù)化為前提。檔案數(shù)據(jù)化是檔案數(shù)據(jù)的結(jié)構(gòu)化解析、應(yīng)用級封裝、媒體化組織和全鏈式管理過程。[11]檔案數(shù)據(jù)化是檔案數(shù)字化建設(shè)的發(fā)展方向。[12]我國檔案數(shù)字化已開展多年,但數(shù)字程度較高的檔案館多是經(jīng)濟發(fā)達城市,經(jīng)濟相對落后的市、縣數(shù)字化任務(wù)仍十分艱巨,加快這些地區(qū)的數(shù)字化進程,是開展檔案數(shù)據(jù)化服務(wù)的重要因素。
1.充分借助政府數(shù)據(jù)開放平臺
《綱要》明確提出2018年底前建成國家政府數(shù)據(jù)統(tǒng)一開放平臺。目前,各省市政府數(shù)據(jù)開放平臺建設(shè)已比較成熟,如上海市“一網(wǎng)通辦”、貴州政府數(shù)據(jù)開放平臺等。政府數(shù)據(jù)和檔案數(shù)據(jù)聯(lián)系密切,檔案包含經(jīng)處理歸檔的政府公開信息,不少地區(qū)檔案數(shù)據(jù)服務(wù)借助政府數(shù)據(jù)開放平臺來開展,如《福建省數(shù)字檔案共享管理辦法》指出:“綜合檔案館基于省市兩級電子政務(wù)云計算平臺,統(tǒng)籌建立數(shù)字檔案的目錄數(shù)據(jù)庫、全文數(shù)據(jù)庫、專題數(shù)據(jù)庫等數(shù)據(jù)庫?!币虼?,檔案部門應(yīng)抓住數(shù)據(jù)開放機遇,充分借助政府數(shù)據(jù)開放平臺,推動檔案數(shù)據(jù)服務(wù),促進檔案數(shù)據(jù)價值的實現(xiàn)。
2.促進檔案數(shù)據(jù)服務(wù)網(wǎng)站建設(shè)
檔案數(shù)據(jù)服務(wù)網(wǎng)站是影響檔案數(shù)據(jù)價值實現(xiàn)的重要因素,是用戶獲取檔案數(shù)據(jù)的關(guān)鍵渠道,服務(wù)網(wǎng)站及其內(nèi)容的完善與否決定了檔案數(shù)據(jù)的獲取量。政府數(shù)據(jù)開放背景下,檔案數(shù)據(jù)服務(wù)網(wǎng)站應(yīng)更加完善,但是實踐中仍存在一些問題,如網(wǎng)站建設(shè)多處于初步階段,經(jīng)濟相對落后地區(qū)甚至還未開始建設(shè)檔案數(shù)據(jù)開放平臺、網(wǎng)站訪問量有待提升等。因此,檔案部門應(yīng)加強舉措,繼續(xù)關(guān)注已經(jīng)有所發(fā)展的檔案數(shù)據(jù)服務(wù)網(wǎng)站,推動其向更完善更豐富的方向發(fā)展;加大對經(jīng)濟相對落后和偏遠地區(qū)檔案數(shù)據(jù)服務(wù)網(wǎng)站的資金投入,從而盡快實現(xiàn)檔案數(shù)據(jù)服務(wù)平臺的互聯(lián)互通,為檔案數(shù)據(jù)價值實現(xiàn)提供更多契機。
數(shù)據(jù)挖掘技術(shù)的應(yīng)用是開發(fā)檔案數(shù)據(jù)價值的關(guān)鍵。使用人工智能、文本挖掘、語義分析等大數(shù)據(jù)挖掘技術(shù)可以分析海量數(shù)據(jù)資源背后蘊藏的潛在價值,將數(shù)據(jù)轉(zhuǎn)化為知識以滿足檔案用戶的需求;利用VR、AR、MR等大數(shù)據(jù)可視化技術(shù)可以使結(jié)構(gòu)復(fù)雜、類型多樣的檔案數(shù)據(jù)資源以清晰、明朗、更為直觀高效的方式呈現(xiàn)出來,便于檔案用戶的利用,提高檔案資源的利用率。[13]目前,檔案數(shù)據(jù)挖掘技術(shù)在檔案數(shù)據(jù)價值實現(xiàn)方面的應(yīng)用還不廣泛,有關(guān)部門可以借鑒政府數(shù)據(jù)價值實現(xiàn)的成功案例,加大投入力度,加強數(shù)據(jù)存儲、整理、分析處理、可視化、信息安全與隱私保護等領(lǐng)域技術(shù)產(chǎn)品的研發(fā),突破關(guān)鍵環(huán)節(jié)技術(shù)瓶頸,形成一批有代表性的應(yīng)用案例,以應(yīng)用帶動檔案數(shù)據(jù)價值開發(fā)。
相關(guān)檔案數(shù)據(jù)標準制度的完善和實現(xiàn)檔案數(shù)據(jù)價值密切相關(guān)。首先,完善檔案數(shù)據(jù)標準,一是檔案數(shù)據(jù)著錄標準,包括電子文件主題著錄、元數(shù)據(jù)著錄等,便于相關(guān)數(shù)據(jù)的識別和開發(fā);二是檔案數(shù)據(jù)存儲標準,促進電子文件存儲格式的統(tǒng)一,便于數(shù)據(jù)挖掘技術(shù)的開展。其次,健全檔案數(shù)據(jù)保密制度。大數(shù)據(jù)背景下,檔案數(shù)據(jù)的外延不斷擴展,哪些屬于檔案數(shù)據(jù),哪些不屬于檔案數(shù)據(jù)還沒有明確的界定,這給檔案數(shù)據(jù)的安全帶來了一定風(fēng)險。因此,完善檔案數(shù)據(jù)保密制度,明確檔案數(shù)據(jù)保密內(nèi)容,是保障檔案數(shù)據(jù)安全的基礎(chǔ)。最后,強化檔案數(shù)據(jù)人才培訓(xùn)制度。檔案數(shù)據(jù)價值的開發(fā)需要更多的技術(shù)人才參與進來,加大對檔案管理人員和相關(guān)領(lǐng)域人員的培訓(xùn),提高其檔案數(shù)據(jù)價值開發(fā)意識,增強檔案數(shù)據(jù)價值挖掘機會。