李彥
(湖南師范大學檔案館長沙410081)
對檔案大數(shù)據(jù)的思考
李彥
(湖南師范大學檔案館長沙410081)
檔案與大數(shù)據(jù)既密切聯(lián)系又相互區(qū)別。本文從檔案大數(shù)據(jù)的內(nèi)涵、生成機制及對檔案職業(yè)發(fā)展的影響等方面對檔案大數(shù)據(jù)進行闡述。
檔案大數(shù)據(jù)檔案大數(shù)據(jù)檔案職業(yè)
近年來,研究檔案大數(shù)據(jù)成了熱點。有人甚至認為,學界對檔案大數(shù)據(jù)的研究存在過度解讀。2017年4月20日,筆者在中國期刊網(wǎng)上搜索篇名含“大數(shù)據(jù)”、“檔案”關鍵詞的論文有619篇,含“檔案大數(shù)據(jù)”關鍵詞的論文有20篇。就統(tǒng)計數(shù)據(jù)來看,從大數(shù)據(jù)的視角來探討檔案問題的研究確實不少,但具體到以“檔案大數(shù)據(jù)”為對象的研究,我們還看不到解讀過度的場面,檔案大數(shù)據(jù)研究仍任重道遠。
數(shù)據(jù)是反映客觀事物屬性的記錄。在計算機科學中,數(shù)據(jù)是指所有能被計算機程序處理的具有一定意義的數(shù)字、字母、符號和模擬量等介質的總稱。
大數(shù)據(jù)是指規(guī)模巨大到無法在一定時間內(nèi)用常有軟件對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)具備體量巨大(Volume)、類型繁多(Variety)、存取速度快(Velocity)、價值密度低(Value)的基本特征。鄭金月認為,這些特征都不是大數(shù)據(jù)的本質,其本質“在于大數(shù)據(jù)的分析和應用,在于創(chuàng)造新價值”[1]38。事實上,無論是大數(shù)據(jù)、還是傳統(tǒng)意義上的數(shù)據(jù),其終極價值都在于分析與應用,并創(chuàng)造新價值。因此,筆者認為,掌握海量的信息數(shù)據(jù),并對這些數(shù)據(jù)進行專業(yè)化快速處理,發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,只是大數(shù)據(jù)的戰(zhàn)略價值所在,而不是其本質所在。大數(shù)據(jù)從本質上講仍是數(shù)據(jù),只是它已不再局限于通過傳統(tǒng)的“因果關系”來分析數(shù)據(jù),而是采取“關聯(lián)分析”的組織結構技術與方法,實現(xiàn)實時的數(shù)據(jù)處理。
大數(shù)據(jù)不僅是一個技術性名詞概念,它還蘊含了人們認識世界的思維方式、技術手段,是一種新的價值觀和方法論,更是“正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進行采集、存儲和關聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術和服務業(yè)態(tài)”[2]。
《檔案法》規(guī)定,檔案是指過去和現(xiàn)在的國家機構、社會組織以及個人從事政治、軍事、經(jīng)濟、科學、技術、文化、宗教等活動直接形成的對國家和社會有保存價值的各種文字、圖表、聲像等不同形式的歷史記錄。檔案具有社會實踐性、歷史性、確定性和原始記錄性等基本特征,原始記錄性是檔案的本質屬性,檔案價值是檔案存在的意義所在。
檔案與大數(shù)據(jù)聯(lián)系密切。兩者盡管表現(xiàn)形式不同,但都是整個社會記憶的重要組成部分,都是作為主體的人在社會實踐活動中產(chǎn)生的、用于表示客觀事物的信息。檔案、大數(shù)據(jù)均是信息的表現(xiàn)形式與載體,經(jīng)過特定的加工處理,都能轉化為有用的信息。在一定的條件下,檔案、大數(shù)據(jù)也能相互轉化。
檔案與大數(shù)據(jù)差別顯著。主要表現(xiàn)在三個方面。
1.價值取向的背離。價值篩選是檔案形成的基本前提,沒有保存價值的東西不能成為檔案。而從大數(shù)據(jù)視角,任何數(shù)據(jù)都是有價值的信息資產(chǎn),只是價值的大小有所不同。大數(shù)據(jù)本身就是一些價值密集度低的數(shù)據(jù)集合,數(shù)據(jù)價值趨向極小值發(fā)展。檔案注重價值的大小,大數(shù)據(jù)則關注數(shù)據(jù)的齊全。由于價值取向的不同,在龐大的資料體系中,檔案被鑒定保存的規(guī)模、質量都受到了環(huán)境的制約和人為的影響,而大數(shù)據(jù)的廣度遠大于檔案。
2.存在形態(tài)的差異。檔案既有實物的實體形態(tài)存在,也有電子檔案等數(shù)據(jù)形式的存在。從整體上講,在各種形態(tài)的檔案中,數(shù)據(jù)檔案只占小部分。當然,通過一定的技術手段,占據(jù)主體的實體檔案能被轉化為數(shù)據(jù)檔案。
3.處理時效的差異。大數(shù)據(jù)要求數(shù)據(jù)的在線開放性、實時動態(tài)性,不在線的數(shù)據(jù)不屬于大數(shù)據(jù)。檔案往往具有滯后、靜止和穩(wěn)定性,即使是電子檔案的生成與收集,也是對確定內(nèi)容的在線歸檔,很少具備動態(tài)變化。由于一些特殊的原因,有些檔案只能局部開放,不宜全部向社會公開,有些檔案數(shù)據(jù)不能公開在線利用。因此,即使是檔案數(shù)據(jù),也不完全具備大數(shù)據(jù)的基本特征。
檔案與大數(shù)據(jù)的諸多差別,充分表明檔案不是大數(shù)據(jù),大數(shù)據(jù)也不是檔案。大數(shù)據(jù)時代,一些分散狀態(tài)下價值密度低的大數(shù)據(jù)在應用中產(chǎn)生了巨大的價值,有了檔案的完全屬性。筆者認為,大數(shù)據(jù)太大,且它們多是開放環(huán)境中在線的、實時的、動態(tài)的數(shù)據(jù)分析與應用。因此,即使起了作用,也不一定非要作為檔案長期保存下來?,F(xiàn)實生活中,各行各業(yè)產(chǎn)生的各種結構化、半結構化和非結構化數(shù)據(jù)也并沒有全部納入檔案管理。許多企業(yè),他們更關注數(shù)據(jù)的存儲、分析與應用,對數(shù)據(jù)是否要變?yōu)闄n案并不注重。當然,隨著數(shù)字存儲技術的發(fā)展,數(shù)據(jù)存儲成本一旦小于數(shù)據(jù)的利用價值,就具備了作為檔案保存的可能性。如果解決存儲問題,理論上大數(shù)據(jù)都能轉化為檔案,檔案的概念也將重新被定義。
鑒于檔案與大數(shù)據(jù)的顯著差異,研究檔案大數(shù)據(jù)似乎是一個悖論性話題。筆者認為,從屬性認知出發(fā),用“檔案數(shù)據(jù)”的表述比用“檔案大數(shù)據(jù)”更為合適。如果我們堅持使用“檔案大數(shù)據(jù)”這一熱門術語,首先必須澄清它的基本內(nèi)涵——它不是特指大數(shù)據(jù)中具有檔案屬性的數(shù)據(jù),它只是一個“屬加種差”的名稱定義,如同經(jīng)濟領域的大數(shù)據(jù)、氣象領域的大數(shù)據(jù)不能說明大數(shù)據(jù)具有經(jīng)濟性、氣象性一樣,檔案大數(shù)據(jù)就是各行業(yè)中的涉檔大數(shù)據(jù),并不說明大數(shù)據(jù)具有檔案屬性。例如,高校檔案大數(shù)據(jù)可以理解為高校檔案工作中生成的大數(shù)據(jù),這些數(shù)據(jù)有的具有檔案屬性,有的只是檔案工作中形成的大數(shù)據(jù),不具有檔案屬性。
檔案大數(shù)據(jù)的生成主要有兩大來源,其一是檔案工作系統(tǒng)內(nèi)部生成的檔案大數(shù)據(jù),包括檔案工作中形成的大數(shù)據(jù)和檔案部門管理的各類實體檔案轉化的大數(shù)據(jù)。前者主要有檔案管理系統(tǒng)生成記錄、日志、報表等信息,檔案網(wǎng)站建設數(shù)據(jù)信息、智能檔案庫房監(jiān)控視頻數(shù)據(jù)等,這些數(shù)據(jù)有的本身就能作為檔案保存下來,有的也許不具有檔案的特征,但它們是檔案業(yè)務管理的必然結果,分析挖掘這些數(shù)據(jù),有利于改進檔案管理、提高檔案服務,理所當然構成檔案大數(shù)據(jù)。后者主要是實體檔案通過諸如紙質檔案數(shù)字化掃描,檔案目錄庫、多媒體數(shù)據(jù)庫和全文數(shù)據(jù)庫建設等技術處理后,轉化生成的數(shù)字化檔案?!皺n案數(shù)字化不等同于檔案數(shù)據(jù)化”[3]6,數(shù)字化檔案如果以圖像形式存在,就很難通過檢索詞進行檢索,只有對圖像文本內(nèi)容進行識別、分類、著錄和標引,對目錄與全文進行了掛接等,檔案的數(shù)字化才能實現(xiàn)數(shù)據(jù)化。檔案數(shù)據(jù)化后,一些具備大數(shù)據(jù)特征的檔案數(shù)據(jù)才能真正成為檔案大數(shù)據(jù)。其二是檔案工作系統(tǒng)外部生成的檔案大數(shù)據(jù)。大數(shù)據(jù)時代,各行業(yè)均會產(chǎn)生許多結構化、半結構化和非結構化數(shù)據(jù)。如在高校,行政、黨群、教學科研、學生、基建、財會等不同業(yè)務系統(tǒng)均會產(chǎn)生大量的數(shù)據(jù)。只有一部分在線的、開放的大數(shù)據(jù),因為存儲價值大于存儲成本,而被篩選為檔案集中管理起來,成為檔案大數(shù)據(jù)。絕大多數(shù)的數(shù)據(jù)只能分散保存在不同的業(yè)務管理系統(tǒng)里。
與大數(shù)據(jù)一樣,檔案大數(shù)據(jù)也是一種新的檔案思維分析方式和技術手段,它對檔案職業(yè)發(fā)展產(chǎn)生深遠影響。
1.促使檔案觀念變革。檔案大數(shù)據(jù)帶來檔案研究的思維革命。筆者認為,堅持大數(shù)據(jù)與檔案的無限漸近,是檔案大數(shù)據(jù)研究帶來的基本判斷,“一切歸檔”的“大檔案理念”強烈沖擊傳統(tǒng)檔案理論,促成檔案概念、特性、價值、安全、技術、利用等“檔案學術歸約的重建”[4]16,如文件生命周期理論在大數(shù)據(jù)動態(tài)環(huán)境中還有意義嗎?檔案利用服務的私密安全邊界能拓展到什么地步?電子檔案的動態(tài)性數(shù)據(jù)能否作為大數(shù)據(jù)保存?在線大數(shù)據(jù)如何作檔案性質判斷?怎樣控制檔案大數(shù)據(jù)的管理權限?等等。
檔案大數(shù)據(jù)研究還將改變傳統(tǒng)的檔案處理與管理思維,進一步促成檔案資源信息化、數(shù)據(jù)信息共享化、檔案服務網(wǎng)絡化、檔案管理技術化思維的樹立。
2.推動檔案技術進步。傳統(tǒng)的檔案技術已無法適應以數(shù)據(jù)關聯(lián)、組合創(chuàng)新為模式的檔案大數(shù)據(jù)需要?;诨ヂ?lián)網(wǎng)、云計算發(fā)展,在檔案大數(shù)據(jù)理論與實踐領域,實體檔案數(shù)字化、大數(shù)據(jù)倉庫構建、大數(shù)據(jù)資源攫取、數(shù)據(jù)存儲、智能知識挖掘分析檢索、離線與實時數(shù)據(jù)分析、大數(shù)據(jù)運維及云計算、數(shù)據(jù)層交換和高性能并發(fā)處理、數(shù)據(jù)安全管理等技術不斷應用,先進的檔案設施設備、智能化的檔案管理平臺不斷完善,檔案技術進步的軟、硬件環(huán)境更加夯實。
3.引領檔案服務創(chuàng)新。大數(shù)據(jù)時代,“檔案館的傳統(tǒng)業(yè)務將向檔案資源的數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉移,對大量數(shù)據(jù)的分析與處理將成為檔案館的主要業(yè)務”[5]7,檔案服務方式正從憑證服務升級為數(shù)據(jù)服務。檔案服務內(nèi)容在增多,不僅提供所需要的檔案信息,實現(xiàn)檔案的傳統(tǒng)價值——信息價值,還要挖掘基于用戶需要的知識,實現(xiàn)檔案的“數(shù)據(jù)價值”[6]12。檔案服務對象在擴大,不僅面向檔案形成者、涉檔用戶,更要面向社會多元化用戶;檔案服務手段更加多元化,檔案服務朝著個性化、網(wǎng)絡化、開放性、智能化和交互式發(fā)展。檔案大數(shù)據(jù)要求加大檔案數(shù)據(jù)的公開與公布力度,創(chuàng)新檔案技術與服務手段,構建智能檔案館平臺,加大云服務建設,提高資源共享程度。
4.提升檔案科學管理。更加注重檔案數(shù)據(jù)標準化建設。為有效管理來源廣泛、結構各異的信息數(shù)據(jù),要堅持“數(shù)字檔案資源格式統(tǒng)一、數(shù)據(jù)規(guī)范、長期可讀,便于共享”原則,積極制訂統(tǒng)一的檔案數(shù)據(jù)資源管理標準,引導規(guī)范各業(yè)務系統(tǒng)生成檔案數(shù)據(jù)。
更加注重檔案管理體制完善?!敖y(tǒng)一領導、分級管理”檔案管理模式是檔案工作的基本原則,極大保障了檔案事業(yè)持續(xù)發(fā)展。當然,這種模式也受到很多批評。受傳統(tǒng)檔案管理體制思維影響,檔案大數(shù)據(jù)研究主要圍繞檔案館這個組織實體進行。在大數(shù)據(jù)背景下,檔案數(shù)據(jù)產(chǎn)生、存儲、利用的多元性、便利性、實時性弱化了檔案館的保管實體地位,“數(shù)字檔案將越來越趨于由該檔案原始數(shù)據(jù)生產(chǎn)者進行動態(tài)管理與維護,并向其他社會組織或個人提供訪問服務”[4]16?!皺n案館主體”向“數(shù)據(jù)源主體”的轉變是檔案大數(shù)據(jù)的基本趨勢,這必然要求改革傳統(tǒng)檔案管理模式,探討“分類管理”、“分工管理”等模式,將“分級管理”無法觸及的檔案工作納入管理,加強各部門、行業(yè)的溝通與協(xié)調(diào),提高資源共享的期待與責任。
更加注重檔案法制建設。將“依法治檔”融入“依法治國”戰(zhàn)略,用大數(shù)據(jù)思維來構建保障檔案數(shù)據(jù)的法規(guī)體系,重點規(guī)范檔案數(shù)據(jù)的生產(chǎn)、儲存、利用,合理界定數(shù)據(jù)安全、隱私保護、數(shù)據(jù)權益的邊界,非法使用數(shù)據(jù)的處理等。
更加注重檔案人才智力建設。大數(shù)據(jù)時代,檔案工作者不再局限于傳統(tǒng)的檔案專業(yè)人才,它要求更多的熟悉大數(shù)據(jù)知識與技術的數(shù)據(jù)工程師、數(shù)據(jù)分析師、高級管理師等數(shù)字技術人才加入檔案職業(yè)。當然,檔案管理部門的專長不在于大數(shù)據(jù)處理,創(chuàng)新“不為所有、但為所用”的人才智力模式,加大與專業(yè)的檔案數(shù)字化企業(yè)、大數(shù)據(jù)技術企業(yè)合作,利用其人才智力優(yōu)勢服務檔案大數(shù)據(jù)建設。
總之,檔案大數(shù)據(jù)不是顛覆檔案,而是發(fā)展檔案。它為檔案賦予了大數(shù)據(jù)時代特征,開啟了檔案職業(yè)發(fā)展的新方向。
[1]鄭金月.關于檔案與大數(shù)據(jù)關系問題的思辯[J].檔案學研究,2016(6).
[2]國務院.促進大數(shù)據(jù)發(fā)展的行動綱要[Z].2015-09-05.
[3]于英香.檔案大數(shù)據(jù)研究熱的冷思考[J].檔案學通訊,2015(2).
[4]葉大鳳等.當前檔案大數(shù)據(jù)研究的誤區(qū)與重點研究領域思考[J].北京檔案,2015(7).
[5]周楓.大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J].檔案與建設,2013(8).
[6]鄭金月.數(shù)據(jù)價值:大數(shù)據(jù)時代檔案價值的新發(fā)現(xiàn)[J].浙江檔案,2015(12).
10.16565/j.cnki.1006-7744.2017.17.18
湖南省教育廳科研項目資助(項目編號16C1020)。
李彥,湖南師范大學檔案館講師,管理學碩士,研究方向為檔案管理。
G270.7
A
2017-04-12