康蠡+周銘
摘要:本文借鑒生態(tài)系統(tǒng)和大數據生態(tài)系統(tǒng)的定義,對檔案大數據生態(tài)系統(tǒng)作出界定,認為檔案大數據生態(tài)系統(tǒng)由檔案大數據、檔案大數據主體及檔案大數據環(huán)境構成,其結構主要體現(xiàn)在系統(tǒng)要素的組合排列和作用范圍兩個層面,大數據技術和理念賦予檔案大數據生態(tài)系統(tǒng)一系列新的特征。
關鍵詞:檔案大數據生態(tài)系統(tǒng)構成結構
Abstract: Based on the definition of ecosystem and big data ecosystem, we define the archival big data ecosystem, which is composed of archival big data, archival big data master and archival big data en? vironment. Its structure is mainly embodied in two levels——the combination of system elements and the scope of functions.Owing to the application of big data technology and thinking, archival big data ecosystem has a series of new features.
Keywords: Archival big data; Ecosystem; Compo? sition; Structure
隨著大數據理念和技術在檔案領域的應用日益深化,檔案大數據已逐步由概念論說走向嘗試應用階段,由此給檔案部門帶來了巨大挑戰(zhàn)。從對象上來看,檔案大數據的開發(fā)應用既涉及多種體量巨大的數據,又涉及處理這些數據的技術、人員、設施等,因而要充分發(fā)揮檔案大數據的價值,就不能單純地將檔案大數據作為一個獨立對象來分析,而必須以系統(tǒng)的眼光對與之相關的所有要素進行通盤考慮。鑒于此,本文將生態(tài)學觀點引入檔案大數據領域,在借鑒生態(tài)系統(tǒng)和大數據生態(tài)系統(tǒng)定義的基礎上,對檔案大數據生態(tài)系統(tǒng)的定義、構成及其結構加以探討,以助益人們更好地理解檔案大數據。
一、檔案大數據生態(tài)系統(tǒng)的涵義
生態(tài)系統(tǒng)這一概念最早由英國生態(tài)學家坦斯利(A. G.Tansley)于1935年提出,其含義是指一定空間中共同棲居著的所有生物(即生物群落)與其環(huán)境之間由于不斷地進行物質和能量流動過程而形成的統(tǒng)一整體。[1]生態(tài)系統(tǒng)概念的核心強調的是自然生物界與環(huán)境之間不可分割的整體性,蘊含著關聯(lián)、共生、統(tǒng)一等思想,因而具有很強的普適性,被廣泛應用于自然、經濟、社會研究的各個領域。
近幾年,應大數據研究和實踐的需要,有學者開始將其與大數據結合起來,使得大數據生態(tài)系統(tǒng)研究快速興起。但筆者梳理文獻發(fā)現(xiàn),目前學界對大數據生態(tài)系統(tǒng)的探索尚處于起步階段,就其定義僅初步形成了兩種觀點。
一種觀點以IBM的架構師史蒂芬·沃特(Stephen Watt)為代表,認為大數據生態(tài)系統(tǒng)實際上就是數據的生命周期,即數據采集、存儲、查找、分析和可視化的過程。[2]另一種則以國內學者郭自寬等為代表,認為大數據生態(tài)系統(tǒng)是用來描述圍繞大數據管理的共存共生的各類技術和工具。[3]兩種定義分別從過程和器物的角度來描述大數據生態(tài)系統(tǒng),雖然沒有完整地揭示大數據生態(tài)系統(tǒng)的內涵,但為認識大數據生態(tài)系統(tǒng)打下了基礎。
作為數據管理理論和實踐的新發(fā)展,大數據開啟了一次重大的時代轉型,對包括政府、教育、金融、醫(yī)療等在內的各個領域產生了深遠影響。而伴隨著大數據體系與檔案工作的融合不斷加深,來自檔案領域的數據在數量與種類上以空前的速度急劇增加,并帶來了一系列新的數據處理技術與方法,這些要素借由“檔案人”的數據處理活動,通過物能流和數據流彼此作用、有機結合,從而催生出檔案大數據生態(tài)系統(tǒng)。
檔案大數據生態(tài)系統(tǒng)的提出源于檔案大數據處理實踐的急切需求以及大數據生態(tài)與檔案工作的整合,故而可借鑒生態(tài)系統(tǒng)和大數據生態(tài)系統(tǒng)的概念對其進行界定。根據前述生態(tài)系統(tǒng)和大數據生態(tài)系統(tǒng)的定義,可以認為檔案大數據生態(tài)系統(tǒng)就是:在一定時空內,檔案大數據主體之間及其與檔案大數據環(huán)境之間基于檔案大數據活動而形成的功能統(tǒng)一體。
就其實質而言,檔案大數據生態(tài)系統(tǒng)實際上是從生態(tài)學的角度對檔案大數據主體與其所處環(huán)境之間相互關系和狀態(tài)的一種隱喻,其主旨在于倡導以生態(tài)系統(tǒng)的視角和方法來看待和探究檔案大數據現(xiàn)象及本質,更好地促進檔案大數據的管理與應用。
檔案大數據生態(tài)系統(tǒng)的定義表明:一方面,從形式上看,檔案大數據生態(tài)系統(tǒng)實際上是以“人”為中心、以檔案大數據為紐帶、以大數據技術等為支撐而形成的人工系統(tǒng),組成系統(tǒng)的各個要素相互關聯(lián)、相互依存,構成一個不可分割的有機整體,共同推動檔案大數據生態(tài)系統(tǒng)的形成與健康成長。另一方面,就歸屬和價值來講,檔案大數據生態(tài)系統(tǒng)以檔案大數據的流動、轉化和利用為核心職能,其構成了大數據生態(tài)整體的子系統(tǒng)。雖然檔案大數據生態(tài)系統(tǒng)乃是大數據生態(tài)體系與檔案工作交融的產物,但其絕不等于二者的簡單疊加,而是代表了檔案業(yè)務活動在大數據時代管理數據、利用數據的新模式,代表著對以往檔案管理服務模式、技術體系、價值觀念的創(chuàng)新、超越和發(fā)展。[4]
二、檔案大數據生態(tài)系統(tǒng)的構成
由其形態(tài)來看,檔案大數據生態(tài)系統(tǒng)是一個典型的復雜系統(tǒng),完整的檔案大數據生態(tài)系統(tǒng)包括了眾多生物成分(統(tǒng)稱檔案大數據主體)和非生物成分(即檔案大數據環(huán)境),同時還包括了兼具主客觀屬性的檔案大數據。
(一)檔案大數據
所謂檔案大數據,即是指在檔案業(yè)務活動中形成和采集的,跟檔案及檔案業(yè)務活動密切相關的各種有價值的、難以在可接受時間內分析處理的數據集。其主要來自如下方面[5]:1.檔案本身。也就是檔案管理機構收集的電子檔案、音視頻檔案以及傳統(tǒng)載體檔案數字化成品所記錄的內容數據(原始記錄)、管理檔案的元數據及反映檔案形式的電子數據,如檔案載體材質、規(guī)格的數據、檔案管理系統(tǒng)的數據等,以及由檔案內容數據加工生成的電子檔案目錄、文摘、指南等數據。這些數據是檔案大數據中最具檔案特色的部分,也是檔案大數據的核心。2.檔案部門的業(yè)務活動。此類數據一部分由檔案業(yè)務部門自己生成,一部分則由檔案業(yè)務部門通過各種途徑收集而來,主要涵蓋檔案部門的概況數據、檔案政策數據、法律數據、館藏結構數據、行業(yè)動態(tài)數據等。3.檔案用戶。具體如用戶的個人情況、位置數據、查詢?yōu)g覽數據、需求偏好數據、向檔案服務部門發(fā)送的服務請求數據以及對檔案服務的評價反饋數據等。與以往的大規(guī)模檔案數據、海量檔案數據相比,檔案大數據具有數據體量大、處理速度快、數據類型多、時效性強、復雜程度高等特點,[6]它們構成了檔案大數據生態(tài)系統(tǒng)的資源基礎,同時也是檔案大數據生態(tài)系統(tǒng)價值的源泉。endprint
(二)檔案大數據主體
檔案大數據主體也叫檔案大數據人,是指需要檔案大數據并參與檔案大數據活動的個人、團體或組織。作為物能轉換和數據流轉的節(jié)點,檔案大數據主體可謂檔案大數據生態(tài)系統(tǒng)中最活躍、最關鍵的因素,其數量與質量不僅直接決定著檔案大數據生態(tài)系統(tǒng)的形成,也影響著它的演化與發(fā)展。在檔案大數據生態(tài)系統(tǒng)中,不同節(jié)點的主體通常扮演著不同的角色,承擔著不同的職能,根據職能和角色差異可將其分為:1.檔案大數據生產者。他們占據著檔案大數據源頭的位置,主要發(fā)揮檔案大數據生產和創(chuàng)造功能,其生產的大數據不僅能為自身帶來價值,而且為其他主體的活動提供數據支撐,因此他們也是檔案大數據生態(tài)系統(tǒng)中最基本的行為主體。在大數據時代,由于參與檔案活動的任何主體都可以制造大量數據,故而檔案大數據生產者與檔案形成者的范疇幾乎是一樣的,其既可以是政府機關,也可以是社會組織和個人,只是他們產生的數據并不最終都轉化為檔案。2.檔案大數據管理者。具體又有檔案大數據監(jiān)管者和檔案大數據組織分解者之分。其中,檔案大數據監(jiān)管者是指為了保證檔案大數據活動有序、規(guī)范地進行,而對參與檔案大數據活動的主體進行監(jiān)督、管理和控制的個人和組織,如制定相關政策和法律,進行檔案大數據行政管理和數據安全管理的機構及其工作人員。[7]檔案大數據組織分解者則是直接從事檔案大數據處理活動的主體,其基本職能是對檔案大數據進行采集、清洗、存儲、挖掘、分析,并以適當的方式傳遞給檔案大數據消費者,其主要包括歸檔部門、檔案室、電子文件中心、檔案館、社會企業(yè)等機構及其工作人員等。3.檔案大數據消費者。也就是以檔案大數據消費為目的,通過有償或無償方式獲取檔案大數據并加以利用的個人或組織。就作用而言,檔案大數據消費者以其廣泛多樣的需求從源頭上牽引著系統(tǒng)內的數據開發(fā)、業(yè)務創(chuàng)新和服務策略,因而被視為檔案大數據生態(tài)系統(tǒng)進化的前導性力量。
(三)檔案大數據環(huán)境
檔案大數據環(huán)境指的是圍繞檔案大數據主體并對其產生影響的各種因素的總和。作為檔案大數據活動的依托與場所,檔案大數據環(huán)境決定著檔案大數據主體的生存條件、情感認知、價值取向和行為活動等,從而影響著檔案大數據生態(tài)系統(tǒng)的形成和發(fā)展。如若環(huán)境有利于檔案大數據主體的活動及其成長,就能夠在特定的區(qū)域聚集功能各異的檔案大數據人種群,促進檔案大數據生態(tài)系統(tǒng)的生成;反之,就將抑制檔案大數據生態(tài)系統(tǒng)的產生。從范圍上看,可把檔案大數據環(huán)境分為外部環(huán)境和內部環(huán)境兩個范疇。外部環(huán)境意指宏觀的政策環(huán)境、社會環(huán)境、經濟環(huán)境、教育環(huán)境以及行業(yè)環(huán)境等,屬于系統(tǒng)發(fā)展變化的外生變量,對檔案大數據主體的活動起著間接的支撐、引導和制約作用。內部環(huán)境則是指檔案大數據主體生存、活動的微觀空間,主要由檔案大數據基礎設施、檔案大數據技術、檔案大數據制度以及檔案大數據文化等組成。其中,基礎設施主要涉及通用硬件設施、數據生成設施、數據捕獲設施、數據存儲設施、數據處理設施以及數據傳輸設施等,它們構成了檔案大數據生態(tài)系統(tǒng)的物質基礎。檔案大數據技術則涉及數據生成技術、數據采集技術、數據存儲技術、分布式處理技術、可視化技術以及數據傳遞技術等,其既是檔案大數據生產、處理的工具支撐,又是推動檔案大數據生態(tài)系統(tǒng)進化的直接力量,檔案大數據生態(tài)系統(tǒng)因大數據技術的出現(xiàn)而出現(xiàn),也因大數據技術的進化而進化。檔案大數據制度主要包括數據安全制度、數據共享制度以及數據標準制度等,作為系統(tǒng)內各主體及其與環(huán)境互動博弈后達成的規(guī)范體系,其可為檔案大數據生態(tài)系統(tǒng)提供有序化運行的規(guī)則框架,為檔案大數據活動的合法化提供制度保障,對于優(yōu)化檔案大數據環(huán)境、促進檔案大數據生態(tài)系統(tǒng)的健康運行和發(fā)展意義重大。而檔案大數據文化則是指彌漫于整個系統(tǒng)的大數據理念,它能夠讓系統(tǒng)內各主體高度認識數據對自身乃至整個系統(tǒng)的重要性,并將以往的因果思維轉向用數據作預測、找出最佳解決方案的思維模式。
三、檔案大數據生態(tài)系統(tǒng)的結構
生態(tài)系統(tǒng)結構反映了系統(tǒng)內各組成要素在連續(xù)時空中的排列組合方式、相互作用形式以及相互聯(lián)系規(guī)則,[8]表征的是生態(tài)系統(tǒng)構成要素的組織秩序。在檔案大數據生態(tài)系統(tǒng)內,其構成要素通過相互作用與排列組合,形成既與其他大數據生態(tài)系統(tǒng)相似、又具有自我特色的結構。具體言之:針對某個特定的檔案大數據生態(tài)系統(tǒng),其結構主要體現(xiàn)在系統(tǒng)內各要素所處的位置及其相互關系上(圖1,見第13頁)。從圖1來看,檔案大數據生態(tài)系統(tǒng)各要素及其與環(huán)境之間通過物質流、能量流和數據流結成了復雜的非線性關系。首先,處于同一生態(tài)鏈上的檔案大數據的生產者、組織分解者與消費者之間基于數據生產、采集、分解、傳遞與消費而結成了互利共生關系,并且各自與檔案大數據監(jiān)管者形成被監(jiān)管與監(jiān)管的關系。其次,系統(tǒng)中的同種檔案大數據人(如數據生產者、數據管理者)之間,一方面為了獲得更多的用戶、數據、影響力等資源會產生不同程度的競爭,另一方面由于自身能力、資源局限,基于實現(xiàn)各自利益的最大化,彼此之間(或與第三方)又會采取合作(如協(xié)同服務、業(yè)務外包、大數據眾包等)的方式形成合作關系。其三,檔案大數據生態(tài)系統(tǒng)本身是一個相對開放的系統(tǒng),其需要不斷從外界吸入物質、能量和數據(信息),同時又不斷向界輸出數據產品和廢棄物,以此維持系統(tǒng)的穩(wěn)定與平衡。因此,檔案大數據生態(tài)系統(tǒng)既受到外部環(huán)境的影響,同時也能對環(huán)境做出適應和反饋。
以更寬廣的視野來看,檔案大數據生態(tài)系統(tǒng)的結構還體現(xiàn)在其層次的分化上。根據系統(tǒng)的作用范圍,其可分為微觀、中觀和宏觀三個層次(圖2,見第13頁)。其中,微觀系統(tǒng)是指由單個檔案數據機構(如數字檔案館、數字檔案室)內部各要素通過檔案大數據相互聯(lián)系和作用發(fā)展而來的數據生態(tài)系統(tǒng),它是檔案大數據生態(tài)系層次結構最基礎、最常見的單元。中觀系統(tǒng)指的是介于宏觀和微觀檔案大數據生態(tài)系統(tǒng)之間的一種系統(tǒng)形態(tài),其通常由一定區(qū)域內的檔案數據機構通過數據聯(lián)盟、互利合作而形成。宏觀系統(tǒng)則是指一個國家或國際間的檔案數據機構通過檔案大數據共享、彼此關聯(lián)以實現(xiàn)共同發(fā)展而形成的數據生態(tài)系統(tǒng),它構成了檔案大數據生態(tài)系統(tǒng)層次結構的最高形態(tài)??傮w而言,以上三個層次的檔案大數據生態(tài)系統(tǒng)呈現(xiàn)出從微觀到中觀再到宏觀的擴張規(guī)律,因為構成要素的數量不斷增多,三者的運行機制也呈現(xiàn)出復雜性遞增的態(tài)勢。endprint
綜合圖1、圖2來看,由于檔案大數據生態(tài)系統(tǒng)內嵌于大數據生態(tài)環(huán)境,其與傳統(tǒng)的檔案生態(tài)系統(tǒng)相比,除具有整體性、層次性等基本屬性外,又具有了諸多新特征:1.數據種群的多樣性。與小數據時代的檔案生態(tài)系統(tǒng)以結構化的數據為主不同,由于數據生成手段的豐化與更新,檔案大數據生態(tài)系統(tǒng)中的數據種群變得更加多樣化。這種多樣化不僅體現(xiàn)在前文所述的數據來源方面(數據產生、分布于多個不同的生態(tài)位),更體現(xiàn)在數據類型上:檔案大數據既包括了大量的結構化數據,也包括了大量的半結構化、非結構化數據,呈現(xiàn)出多類數據種群共生共長的局面。2.基于對物聯(lián)網、傳感器、移動互聯(lián)網以及云計算等技術的深入應用,檔案大數據生態(tài)系統(tǒng)具備高度的可擴展性和靈活性,支持PB級甚至更大規(guī)模數據的獲取、存儲、組織、分析和決策;能夠有效解決傳統(tǒng)的大數據處理方式面臨的結構化、半結構化以及非結構化數據的復雜處理需求,[9]致使檔案資源得到更加深入廣泛的挖掘和開發(fā)。3.大數據技術使得系統(tǒng)內的各種數據得以互聯(lián)互通與高度共享,以檔案知識應用為核心的活動在系統(tǒng)內不間斷展開,系統(tǒng)內主體之間及其與環(huán)境之間的各種數據以數據流的形式動態(tài)地生成和流轉,[10]數據的交換更加頻繁,彼此間的互動碰撞更加激烈,同時也更容易受到外部環(huán)境變遷的沖擊,[11]整個系統(tǒng)因而表現(xiàn)出更強的關聯(lián)性、動態(tài)性、開放性和協(xié)同性。4.在檔案大數據生態(tài)系統(tǒng)中,因為分析處理技術的精進,檔案大數據消費者和管理者可分別基于對檔案數據、用戶數據及業(yè)務數據的關聯(lián)、整合與分析,發(fā)現(xiàn)社會、組織、個人歷史活動或檔案利用活動的客觀規(guī)律,從而察覺新的問題,做出新的決策,創(chuàng)造新的知識。這就使系統(tǒng)主體由關注技術轉向關注數據,讓數據成為系統(tǒng)運作的指南針和變革的觸發(fā)器,而不是輔助決策的工具。同時,由于系統(tǒng)內外各要素的高度關聯(lián)和互動,檔案管理者能夠全面感知整個檔案數據流轉過程的動態(tài)變化,掌握上游檔案數據生產者的數據形成狀況和下游檔案消費者的個性化需求,從而優(yōu)化檔案數據采集、開發(fā)和傳遞等流程,實現(xiàn)檔案數據與主體需求以及各主體之間的精準對接,大大提高檔案工作效率和效益。
*本文為海南省哲學社會科學規(guī)劃課題“生態(tài)文明發(fā)展中海南生態(tài)檔案資源體系構建與應用研究”[項目編號:HNSK(QN)15-45]的階段性成果。
注釋及參考文獻:
[1]牛翠娟,婁安如,孫儒泳,等.基礎生態(tài)學(第2版)[M].北京:高等教育出版社,2014:208.
[2]Stephen Watt.Deriving new business insights with big data[EB/OL]. [2017-3-18].http://www.ibm.com/de? veloperworks/library/os-bigdata.
[3][9]郭自寬,張興旺,麥范金.大數據生態(tài)系統(tǒng)在圖書館中的應用[J].情報資料工作,2013(2):23-28.
[4]張興旺.圖書館大數據體系構建的學術環(huán)境和戰(zhàn)略思考[J].情報資料工作,2013(2):12-17.
[5]康蠡,金慧.檔案大數據定義與內涵解析[J].檔案管理,2017(1):24-26.
[6]孟歆.大數據時代檔案數字資源整合的難點及對策分析[J].山西檔案,2015(1):78-81.
[7]婁策群,楊小溪,周承聰.論信息生態(tài)系統(tǒng)中信息人的相互作用[J].圖書情報工作,2010,54(20):23-27.
[8]戈峰.現(xiàn)代生態(tài)學[M].北京:科學出版社,2008:368, 559.
[10]葉大鳳,黃思棉,劉龍君.當前檔案大數據研究的誤區(qū)與重點研究領域思考[J].北京檔案,2015(7):14-17.
[11]資武成.“大數據”時代企業(yè)生態(tài)系統(tǒng)的演化與建構[J].社會科學,2013(12):55-62.endprint