文·丁枚
大數(shù)據(jù)檔案開發(fā)利用起步戰(zhàn)略
文·丁枚
本文分析了當(dāng)下大數(shù)據(jù)檔案開發(fā)利用特點(diǎn)及影響大數(shù)據(jù)檔案開發(fā)利用的有利、不利因素,探討了大數(shù)據(jù)檔案開發(fā)利用起步戰(zhàn)略。
大數(shù)據(jù) 開發(fā)利用戰(zhàn)略
自美國2012年啟動大數(shù)據(jù)研究開發(fā)計(jì)劃,尤其是2015年國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》以來,大數(shù)據(jù)成為政府、企業(yè)、科研部門關(guān)注的焦點(diǎn),檔案界、學(xué)術(shù)界也感受到了大數(shù)據(jù)戰(zhàn)略帶來的機(jī)遇,發(fā)表了幾百篇關(guān)于大數(shù)據(jù)背景下檔案開發(fā)利用新趨勢的文章。近一、二十年來,社會進(jìn)入了信息化時代,檔案信息呈現(xiàn)出數(shù)量大、增長快、載體形式多樣化、時效性強(qiáng)的特點(diǎn),這幾乎與大數(shù)據(jù)4V特征相同。部分檔案信息具備了大數(shù)據(jù)特征,通過一定的收集、整合方式其將成為大數(shù)據(jù)檔案。大數(shù)據(jù)檔案的開發(fā)利用也就提到了議事日程。大數(shù)據(jù)檔案開發(fā)利用能夠產(chǎn)生巨大的經(jīng)濟(jì)效益和社會效益,這正是幾十年來檔案界孜孜以求的目標(biāo)。搞好大數(shù)據(jù)檔案的開發(fā)利用,將使整個檔案開發(fā)利用工作產(chǎn)生重大突破,將對我國經(jīng)濟(jì)、科技、社會發(fā)展起到巨大的推動作用,檔案機(jī)構(gòu)也將由一般的文化事業(yè)單位轉(zhuǎn)變?yōu)橹匾慕?jīng)濟(jì)科技文化事業(yè)單位。目前,大數(shù)據(jù)檔案的開發(fā)利用工作還沒有開展起來,全面論述大數(shù)據(jù)檔案開發(fā)利用戰(zhàn)略的時機(jī)尚未成熟。本文將在分析當(dāng)下大數(shù)據(jù)檔案開發(fā)利用特點(diǎn)、影響大數(shù)據(jù)檔案開發(fā)利用有利因素、不利因素情況下,結(jié)合檔案機(jī)構(gòu)、檔案工作者的現(xiàn)有條件,探討大數(shù)據(jù)檔案開發(fā)利用起步戰(zhàn)略。
了解大數(shù)據(jù)檔案首先要搞清楚數(shù)據(jù)、傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù),傳統(tǒng)檔案與大數(shù)據(jù)檔案的概念與區(qū)別。
數(shù)據(jù)是計(jì)算機(jī)語言,指對客觀事件進(jìn)行記錄并可鑒別的符號。雖然數(shù)據(jù)概念的產(chǎn)生只是近幾十年的事情,但它與已經(jīng)產(chǎn)生幾千年的檔案概念基本相同,都是對客觀事件的記錄。檔案也是數(shù)據(jù)。
傳統(tǒng)數(shù)據(jù)又稱小數(shù)據(jù),是相對于大數(shù)據(jù)而言的。大數(shù)據(jù)指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合,而傳統(tǒng)數(shù)據(jù)也就是用常規(guī)方法獲得的數(shù)據(jù),例如用抽樣調(diào)查方法獲得的數(shù)據(jù)就是傳統(tǒng)數(shù)據(jù)。
傳統(tǒng)檔案指用常規(guī)方法獲得數(shù)據(jù)形成的檔案,例如檔案形成單位向檔案館移交的紙質(zhì)檔案。大數(shù)據(jù)檔案主要指用感應(yīng)技術(shù)、存儲技術(shù)、云計(jì)算等非常規(guī)方法獲得數(shù)據(jù)形成的檔案。在實(shí)際工作中,可以用兩種方法判斷大數(shù)據(jù)檔案,除了看是否是用非常規(guī)方法獲得的數(shù)據(jù)外,還可以用大數(shù)據(jù)4V特征來判斷,一般來說滿足數(shù)據(jù)量巨大和應(yīng)用價值大這兩個特征,就是大數(shù)據(jù)檔案。像會計(jì)報(bào)表、查體報(bào)告這樣的傳統(tǒng)檔案在數(shù)量非常大且具有應(yīng)用價值的情況下,也成為大數(shù)據(jù)檔案。應(yīng)用價值大是判斷大數(shù)據(jù)檔案的必要條件,如果僅僅是數(shù)量大,但無應(yīng)用價值,也不是大數(shù)據(jù)檔案。
目前,我國檔案機(jī)構(gòu)中基本上還不存在現(xiàn)成的大數(shù)據(jù)檔案,也還沒有見到大數(shù)據(jù)檔案開發(fā)利用的報(bào)道,從整體上看,我國大數(shù)據(jù)檔案的開發(fā)利用還沒有起步。
(一)檔案界自身開發(fā)利用大數(shù)據(jù)檔案的能力不足,采用聯(lián)合模式有利于起步。從開發(fā)利用經(jīng)驗(yàn)看,檔案部門不僅缺乏大數(shù)據(jù)檔案開發(fā)利用的經(jīng)驗(yàn),就連傳統(tǒng)檔案開發(fā)利用的經(jīng)驗(yàn)也不足。從技術(shù)條件看,大數(shù)據(jù)開發(fā)利用的優(yōu)勢部門是互聯(lián)網(wǎng)企業(yè)和電信企業(yè),以及少量的用戶單位,檔案機(jī)構(gòu)在這方面的能力是比較弱的。當(dāng)下檔案機(jī)構(gòu)靠自身的能力開發(fā)利用大數(shù)據(jù)檔案面臨諸多困難,起步時,宜與其它機(jī)構(gòu)合作,采用聯(lián)合模式。
(二)大數(shù)據(jù)檔案不是現(xiàn)成的,需要把部分符合一定條件的傳統(tǒng)檔案通過一定方式集合起來作為大數(shù)據(jù)檔案使用。目前,我國檔案館館藏的主要是傳統(tǒng)檔案。但部分傳統(tǒng)檔案,如會計(jì)報(bào)表、查體報(bào)告等,通過一定方式集合起來可以做為大數(shù)據(jù)檔案使用。現(xiàn)在,這些傳統(tǒng)檔案分散在全國4000多家檔案館中,有的還由檔案形成單位保管。起步時,需要先做統(tǒng)一檔案標(biāo)準(zhǔn)格式,以及檔案館之間互聯(lián)互通等基礎(chǔ)性工作。
(三)互聯(lián)網(wǎng)企業(yè)、電信企業(yè)開發(fā)利用的主要是反映最近行為的新鮮大數(shù)據(jù),而檔案部門在起步時,則需要從開發(fā)利用反映歷史行為的大數(shù)據(jù)開始。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的,互聯(lián)網(wǎng)上的數(shù)據(jù)每年增長50%,兩年就翻一番。盡可能使用新鮮度高的大數(shù)據(jù)是大數(shù)據(jù)開發(fā)利用的一個重要原則。然而,對檔案機(jī)構(gòu)而言,一是不具備收集新鮮大數(shù)據(jù)的技術(shù)條件,二是受檔案開放時限的制約,一些檔案還沒有達(dá)到開放時限,或者還沒有移交給檔案館,使即時開發(fā)受到限制,開發(fā)利用新鮮大數(shù)據(jù)不是檔案機(jī)構(gòu)的優(yōu)勢。一般來說,相對于新鮮大數(shù)據(jù)而言,歷史大數(shù)據(jù)的價值是低一些,但對某些研究項(xiàng)目來說,是必須使用歷史大數(shù)據(jù)的,其在某些情況下的價值也是非常大的,例如研究幾十年前人們的生活方式對人體血脂、血糖的影響,就必須使用幾十年前的查體數(shù)據(jù)。
(四)大數(shù)據(jù)開發(fā)利用的用戶主體是企業(yè),而大數(shù)據(jù)檔案的開發(fā)利用在起步階段宜面向政府部門和科研單位。市場化的大數(shù)據(jù)開發(fā)利用的主要目的是取得經(jīng)濟(jì)效益,其用戶主要是企業(yè),如百度、騰訊、阿里巴巴等互聯(lián)網(wǎng)企業(yè)、中國移動、中國聯(lián)通、中國電信等電信企業(yè)。例如電信企業(yè)通過把開發(fā)的大數(shù)據(jù)用于改善自身的經(jīng)營管理或賣給其它企業(yè)的方式獲得收益。檔案機(jī)構(gòu)目前不具備這樣的條件,搞不了這樣的服務(wù)。政府部門、科研單位也是大數(shù)據(jù)開發(fā)利用的服務(wù)對象。政府部門通過大數(shù)據(jù)分析實(shí)現(xiàn)決策科學(xué)化??蒲袉挝煌ㄟ^大數(shù)據(jù)分析進(jìn)行科學(xué)研究。雖然這兩個部門不是大數(shù)據(jù)開發(fā)利用的最重要用戶,但檔案機(jī)構(gòu)在開發(fā)利用大數(shù)據(jù)檔案的起步階段,主要面向政府部門和科研單位,符合檔案機(jī)構(gòu)的實(shí)際情況。
(一)有利因素
1.社會環(huán)境發(fā)生了重大變化,國家支持大數(shù)據(jù)檔案開發(fā)利用。2015年8月31日,國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》。《綱要》指出,運(yùn)用大數(shù)據(jù)推動經(jīng)濟(jì)發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能力正成為趨勢。還提出要實(shí)行政產(chǎn)學(xué)研用相結(jié)合的協(xié)同創(chuàng)新模式,推動大數(shù)據(jù)的開發(fā)利用。我國經(jīng)濟(jì)發(fā)展持續(xù)向好,大數(shù)據(jù)開發(fā)利用技術(shù)迅速發(fā)展,各地積極建設(shè)數(shù)字城市以及國家鼓勵智庫建設(shè)等,也都是有利于大數(shù)據(jù)開發(fā)利用的社會環(huán)境因素。
2.進(jìn)入大數(shù)據(jù)時代后,檔案所具有的原始數(shù)據(jù)屬性,大大提升了檔案的價值和檔案部門的地位。在小數(shù)據(jù)時代,檔案的價值與圖書、情報(bào)的價值相差不大,進(jìn)入大數(shù)據(jù)時代后,情況發(fā)生了根本性的變化,檔案是原始數(shù)據(jù),圖書、情報(bào)不是原始數(shù)據(jù),只有原始數(shù)據(jù)才有可能成為大數(shù)據(jù),圖書、情報(bào)與大數(shù)據(jù)無緣。這樣檔案的價值就大大高于圖書、情報(bào)了。這是有利于大數(shù)據(jù)檔案開發(fā)利用的最根本因素。
3.《檔案法修訂草案》送審稿和檔案事業(yè)十三五規(guī)劃對大數(shù)據(jù)檔案的開發(fā)利用提供了法律、法規(guī)保障。修訂草案對檔案的開放、利用做出了重大改革,原來檔案的開放期限是自形成之日起滿30年,現(xiàn)在取消了對檔案開放期限的限制,提出“開放為原則,不開放為例外”的精神,并規(guī)定國家檔案館保管的檔案,開放日最晚不遲于形成后20年。這對需要快速處理的大數(shù)據(jù)檔案而言是重大利好?,F(xiàn)行的《檔案法》沒有關(guān)于信息化建設(shè)的內(nèi)容,修訂草案專門增設(shè)了“檔案信息化與電子檔案管理”一章,對電子檔案管理系統(tǒng)的建立、電子檔案的安全及檔案數(shù)字化都做出了明確的法律規(guī)定,這有利于大數(shù)據(jù)檔案的形成和開發(fā)利用。檔案事業(yè)十三五規(guī)劃確定到2020年全面推進(jìn)檔案資源存量數(shù)字化、增量電子化、利用網(wǎng)絡(luò)化的管理模式,還提出探索電子檔案與大數(shù)據(jù)行動融合,采用大數(shù)據(jù)、智慧管理等技術(shù),提高檔案館業(yè)務(wù)信息化和檔案信息資源深度開發(fā)與服務(wù)水平的要求,這更是對大數(shù)據(jù)檔案的開發(fā)利用做出了具體規(guī)定。
4.大數(shù)據(jù)的廣泛傳播,提升了人們的大數(shù)據(jù)意識,形成了一批大數(shù)據(jù)檔案開發(fā)利用的潛在用戶,這是大數(shù)據(jù)檔案開發(fā)利用的市場基礎(chǔ)。近幾年,大數(shù)據(jù)作為重要信息資源、重要資產(chǎn)的理念已經(jīng)深入人心。雖然一些機(jī)構(gòu)暫時還沒有認(rèn)識到檔案里面也有大數(shù)據(jù),但只要認(rèn)可大數(shù)據(jù)的開發(fā)利用價值,就是大數(shù)據(jù)檔案開發(fā)利用的潛在用戶。
5.檔案機(jī)構(gòu)兼有政府部門角色,具有整合資源能力強(qiáng)的優(yōu)勢。檔案機(jī)構(gòu)既是檔案館又是檔案局,既具有文化事業(yè)單位的性質(zhì),又具有政府部門的角色。檔案機(jī)構(gòu)與政府部門、科研單位、互聯(lián)網(wǎng)企業(yè)、電信企業(yè)以及用戶單位合作,共同對檔案資源進(jìn)行開發(fā)利用的聯(lián)合模式是檔案開發(fā)利用的一個很重要的模式。檔案機(jī)構(gòu)所具有的政府部門角色對聯(lián)合開發(fā)利用大數(shù)據(jù)檔案是十分有利的。
(二)不利因素
1.檔案界在整體上缺乏開發(fā)利用檔案信息資源的經(jīng)驗(yàn)。檔案界對傳統(tǒng)檔案的開發(fā)利用一直滯后于經(jīng)濟(jì)科技社會發(fā)展的需要,現(xiàn)在又面臨開發(fā)利用難度更高的大數(shù)據(jù)檔案的任務(wù),存在先天經(jīng)驗(yàn)不足的問題。從近幾年發(fā)表的幾百篇涉及大數(shù)據(jù)檔案的論文就可以看出這一點(diǎn),這些論文大都注意到進(jìn)入大數(shù)據(jù)時代后,將出現(xiàn)大數(shù)據(jù)檔案的開發(fā)利用問題,但對如何開發(fā)利用基本上都沒有提及。
2.檔案機(jī)構(gòu)收集新鮮大數(shù)據(jù)的能力,無法與互聯(lián)網(wǎng)企業(yè)、電信企業(yè)相比。新鮮大數(shù)據(jù)主要來自互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和移動電話,在當(dāng)今時代,人們在頻繁地打電話、瀏覽網(wǎng)頁、網(wǎng)上購物、發(fā)微信等,都在不停地產(chǎn)生著新鮮大數(shù)據(jù),互聯(lián)網(wǎng)企業(yè)、電信企業(yè)具有收集新鮮大數(shù)據(jù)的天然優(yōu)勢,檔案機(jī)構(gòu)在這方面處于弱勢。
3.檔案工作者的觀念、素質(zhì)不適應(yīng)大數(shù)據(jù)檔案開發(fā)利用的需要。檔案工作者是大數(shù)據(jù)檔案開發(fā)利用的重要主體之一,但其在觀念、素質(zhì)等方面還存在一些問題。例如,進(jìn)入大數(shù)據(jù)時代后,檔案所具有的原始數(shù)據(jù)屬性,使檔案工作搭上了大數(shù)據(jù)的快車,但在調(diào)研中發(fā)現(xiàn)檔案工作者普遍沒有認(rèn)識到這個機(jī)遇;很多檔案工作者也不知道通過一定方式能夠把部分傳統(tǒng)檔案整合成大數(shù)據(jù)檔案。
4.檔案館藏狀態(tài)不適合大數(shù)據(jù)檔案開發(fā)利用的需要。目前,各級各地檔案館館藏主要是傳統(tǒng)檔案,還沒有現(xiàn)成的大數(shù)據(jù)檔案。一些能夠整合成大數(shù)據(jù)檔案的傳統(tǒng)檔案,也因檔案館之間互聯(lián)互通做的不夠,檔案館之間形成了信息孤島,增加了把傳統(tǒng)檔案整合成大數(shù)據(jù)檔案的難度。
5.檔案用戶的大數(shù)據(jù)檔案信息素質(zhì)尚需提高。雖然部分檔案用戶認(rèn)識到了大數(shù)據(jù)的重要性,但在調(diào)研中了解到,大多數(shù)用戶單位還不了解檔案里面也有大數(shù)據(jù),還沒有想到開發(fā)利用大數(shù)據(jù)檔案。
(一)以開發(fā)利用歷史大數(shù)據(jù)檔案為主。檔案機(jī)構(gòu)目前總體上不掌握感應(yīng)技術(shù)、存儲技術(shù)、云計(jì)算等用于收集大數(shù)據(jù)的非常規(guī)方法,不具備收集新鮮大數(shù)據(jù)的能力。而通過整合歷史檔案中的傳統(tǒng)數(shù)據(jù)獲得歷史大數(shù)據(jù)是檔案機(jī)構(gòu)的優(yōu)勢。這一點(diǎn)又恰恰是互聯(lián)網(wǎng)企業(yè)、電信企業(yè)等具有收集新鮮大數(shù)據(jù)優(yōu)勢的企業(yè)所不具備的。起步時應(yīng)揚(yáng)長避短,以開發(fā)利用歷史大數(shù)據(jù)檔案為主,例如開發(fā)利用幾十年前的人體查體數(shù)據(jù)等。
(二)以一次性項(xiàng)目合作為主。目前檔案機(jī)構(gòu)不具備持續(xù)開發(fā)利用大數(shù)據(jù)檔案的能力,能夠整合成大數(shù)據(jù)檔案的傳統(tǒng)檔案分散保存在眾多檔案館中,檔案館之間的互聯(lián)互通比例還不高,廣泛、持續(xù)開發(fā)利用大數(shù)據(jù)檔案受到了限制。起步階段的主要任務(wù)是試點(diǎn)、總結(jié)經(jīng)驗(yàn),從一個具體項(xiàng)目開始比較適宜,這類項(xiàng)目多是科研項(xiàng)目。
(三)以采用聯(lián)合模式為主。檔案機(jī)構(gòu)存在收集大數(shù)據(jù)能力差、分析大數(shù)據(jù)能力弱等問題,同時具有整合資源能力強(qiáng)的優(yōu)勢。在起步階段,檔案機(jī)構(gòu)與互聯(lián)網(wǎng)企業(yè)、電信企業(yè)、政府部門、科研單位聯(lián)合,有利于更好地完成大數(shù)據(jù)檔案的開發(fā)利用任務(wù)。
(四)以為政府和科研單位服務(wù)為主。檔案機(jī)構(gòu)是政府部門,也是文化事業(yè)單位,這一點(diǎn)與科研單位相同。它們的運(yùn)轉(zhuǎn)資金性質(zhì)也類似,因此檔案機(jī)構(gòu)具有與政府和科研單位方便溝通、方便合作、方便為它們服務(wù)的優(yōu)勢。政府、科研單位、企業(yè)都是檔案機(jī)構(gòu)的服務(wù)對象,但在起步階段,把政府和科研單位作為主要服務(wù)對象比較有利,這樣還有利于獲得政府資金的支持。
(作者單位:濟(jì)南市技師學(xué)院)