藺文卓
摘 要:檔案數(shù)據(jù)化是大數(shù)據(jù)時(shí)代的必然發(fā)展趨勢(shì),隨著5G時(shí)代的到來(lái),必將加快檔案數(shù)據(jù)化的進(jìn)程。檔案界要獨(dú)立潮頭,就必須融入數(shù)據(jù)化的大潮,步入數(shù)據(jù)化時(shí)代。為了加快數(shù)據(jù)化步伐提供借鑒,筆者對(duì)數(shù)據(jù)化的理念、檔案數(shù)據(jù)化國(guó)家戰(zhàn)略、實(shí)現(xiàn)路徑進(jìn)行了粗淺的分析,提出了建立管理數(shù)據(jù)庫(kù)、增量檔案數(shù)據(jù)化、采用挖掘技術(shù)等建議。
關(guān)鍵詞:檔案;數(shù)據(jù)化;發(fā)展;路徑
DOI:10.12249/j.issn.1005-4669.2020.25.075
隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,我國(guó)的檔案工作經(jīng)歷了三個(gè)階段:第一階段是以紙質(zhì)檔案為核心的紙質(zhì)檔案開發(fā)利用階段,第二階段是以數(shù)字化為核心的數(shù)字檔案開發(fā)利用階段,第三階段是數(shù)據(jù)化檔案開發(fā)利用階段。就目前的檔案管理情況看,我國(guó)現(xiàn)階段仍處在第一階段或第一或第二階段相融合的時(shí)期,即紙質(zhì)檔案與數(shù)字化檔案并存時(shí)期。未來(lái),我國(guó)的檔案工作將進(jìn)入數(shù)據(jù)化時(shí)代,并對(duì)其進(jìn)行全面的數(shù)據(jù)化研究,為國(guó)家經(jīng)濟(jì)建設(shè)和行政管理提供全新的借鑒。
1 數(shù)據(jù)化的核心理念
近年來(lái),隨著大數(shù)據(jù)技術(shù)的出現(xiàn),數(shù)字革命的到來(lái),引發(fā)了數(shù)據(jù)化浪潮。數(shù)據(jù)化的直接結(jié)果是,推動(dòng)了文化革命和產(chǎn)業(yè)革命,使得各項(xiàng)決策均以數(shù)據(jù)為依托,以數(shù)據(jù)模型的分析結(jié)果為依據(jù),進(jìn)而實(shí)現(xiàn)科學(xué)決策。那么,什么才是真正意義上的數(shù)據(jù)化呢?
從檔案管理的視角看,我認(rèn)為檔案數(shù)據(jù)化的實(shí)質(zhì)是將檔案信息轉(zhuǎn)化為計(jì)算機(jī)可以閱讀和理解的檔案信息資源的過(guò)程,將利用檔案的途徑由“頁(yè)面閱讀”轉(zhuǎn)化為“內(nèi)容控制”“信息開發(fā)”。實(shí)質(zhì)是,將數(shù)字檔案資源轉(zhuǎn)換為可供閱讀、分析和處理的數(shù)據(jù)資源的過(guò)程,并進(jìn)一步轉(zhuǎn)化為可制表分析的數(shù)據(jù)形態(tài),進(jìn)而實(shí)現(xiàn)檔案服務(wù)模式的創(chuàng)新。如何實(shí)現(xiàn)由數(shù)字化向數(shù)據(jù)化的轉(zhuǎn)換呢?這就要求我們引入智能化的技術(shù),通過(guò)OCR光學(xué)字符識(shí)別技術(shù)對(duì)紙質(zhì)檔案進(jìn)行掃描,然后將圖片的文字轉(zhuǎn)化為數(shù)字化格式,形成文字集合;對(duì)于圖像、音視頻文件可通過(guò)音頻的文字轉(zhuǎn)換,形成文字?jǐn)?shù)據(jù),建立數(shù)據(jù)化文字形態(tài)。
2 檔案數(shù)據(jù)化的國(guó)家戰(zhàn)略
我國(guó)的檔案數(shù)據(jù)化戰(zhàn)略,經(jīng)歷了從管理到實(shí)際應(yīng)用轉(zhuǎn)化的認(rèn)知過(guò)程。尤其是運(yùn)用大數(shù)據(jù)后給工作帶來(lái)的效益,對(duì)它的認(rèn)識(shí)空前提高,歷經(jīng)12年的發(fā)展逐漸實(shí)現(xiàn)了由數(shù)據(jù)到數(shù)據(jù)化的轉(zhuǎn)變,并上升為國(guó)家戰(zhàn)略。2011年,《全國(guó)檔案事業(yè)發(fā)展“十二五”規(guī)劃》指出,“加強(qiáng)檔案信息系統(tǒng)安全技術(shù)防范技術(shù)管理……,確保檔案數(shù)據(jù)及檔案網(wǎng)絡(luò)設(shè)備設(shè)施安全?!笔菍?duì)檔案數(shù)據(jù)的首次提及。
2016年國(guó)家檔案局頒布的《全國(guó)檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》提出“建立開放檔案信息資源社會(huì)化共享服務(wù)平臺(tái),制定檔案數(shù)據(jù)開放計(jì)劃。”這一時(shí)期,國(guó)家層面的部署直接轉(zhuǎn)入到數(shù)據(jù)服務(wù)
領(lǐng)域。
2017年,國(guó)家檔案局局長(zhǎng)李明華在全國(guó)檔案安全工作會(huì)議上強(qiáng)調(diào),“做好檔案數(shù)據(jù)的安全備份,確保檔案數(shù)據(jù)、信息系統(tǒng)及網(wǎng)絡(luò)始終可用可控?!边@里有兩層意思:一是要保證數(shù)據(jù)安全,二是要保證數(shù)據(jù)的網(wǎng)絡(luò)化,提高數(shù)據(jù)的可利用性。
2019年,國(guó)家檔案局原局長(zhǎng)楊冬權(quán)在檔案從業(yè)者安全保護(hù)專題研討會(huì)上的講話則實(shí)現(xiàn)了從檔案數(shù)據(jù)到數(shù)據(jù)化的升華。楊冬權(quán)強(qiáng)調(diào),“過(guò)去我們搞檔案數(shù)字化,是把紙質(zhì)檔案掃描成圖片,這些圖片上的檔案還需要人來(lái)讀,不能夠成為數(shù)據(jù),由電腦來(lái)處理。今后,我們還應(yīng)該把這些圖片轉(zhuǎn)化為電腦可以讀的字,變成電腦可以任意檢索的數(shù)據(jù),讓它和其他的大數(shù)據(jù)一樣,進(jìn)入大數(shù)據(jù)系統(tǒng),可以任意的檢索、主動(dòng)的推送、深度的挖掘,變成人工智能、人的智慧、人的外腦?!边@里雖然沒(méi)有提及數(shù)據(jù)化的概念,但其中提到的將數(shù)字化的圖片轉(zhuǎn)化為電腦可以讀的字,變成電腦可以任意檢索的數(shù)據(jù),并實(shí)現(xiàn)主動(dòng)推送、深度挖掘,則集中體現(xiàn)檔案數(shù)據(jù)化的根本要義。
同年,國(guó)家檔案局制定了DA/T75—2019和DA/T82—2019兩項(xiàng)檔案專業(yè)標(biāo)準(zhǔn),分別對(duì)檔案數(shù)據(jù)硬磁盤離線存儲(chǔ)和基于文檔型非關(guān)系型數(shù)據(jù)庫(kù)的檔案數(shù)據(jù)存儲(chǔ)進(jìn)行規(guī)范。這兩個(gè)專業(yè)標(biāo)準(zhǔn)雖然只規(guī)定了檔案數(shù)據(jù)硬磁盤離線存儲(chǔ)和非關(guān)系型檔案數(shù)據(jù)存儲(chǔ),但卻從根本上彰顯了我國(guó)檔案數(shù)據(jù)化管理和應(yīng)用的戰(zhàn)略步驟,使檔案數(shù)據(jù)化邁上了國(guó)家戰(zhàn)略的快車道。
3 檔案數(shù)據(jù)化的實(shí)現(xiàn)路徑
自我國(guó)工業(yè)和信息化部2016年12月印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020)》,標(biāo)志著我國(guó)大數(shù)據(jù)時(shí)代的到來(lái)。歷經(jīng)5年的融合發(fā)展,截至目前,大數(shù)據(jù)已經(jīng)在電商、城市規(guī)劃、科學(xué)研究等領(lǐng)域大有作為,并開始介入檔案信息資源領(lǐng)域,成為檔案工作創(chuàng)新的引擎。為了實(shí)現(xiàn)檔案資源的數(shù)據(jù)化目標(biāo),筆者認(rèn)為檔案界應(yīng)采取一系列措施,進(jìn)行全新的數(shù)據(jù)化實(shí)踐。
1)建立數(shù)據(jù)化關(guān)聯(lián)數(shù)據(jù)庫(kù),實(shí)現(xiàn)存量檔案數(shù)據(jù)化。以往的檔案信息資源是互不關(guān)聯(lián)的獨(dú)信息,很難為大數(shù)據(jù)技術(shù)所應(yīng)用。這就要求檔案部門,從檔案工作的實(shí)際出發(fā),在數(shù)字化檔案數(shù)據(jù)庫(kù)的基礎(chǔ)上,通過(guò)OCR光學(xué)字符識(shí)別技術(shù)、音視頻文字轉(zhuǎn)換技術(shù),對(duì)數(shù)字化的JPG圖形檔案進(jìn)行格式轉(zhuǎn)換,形成適應(yīng)大數(shù)據(jù)利用的數(shù)據(jù)化的數(shù)據(jù)庫(kù)。根據(jù)大數(shù)據(jù)分析體系的要求,檔案資源的數(shù)據(jù)化一是要能夠?qū)崿F(xiàn)互聯(lián)網(wǎng)平臺(tái)的分享和瀏覽;二是要適應(yīng)數(shù)據(jù)挖掘的需要,在數(shù)據(jù)之間建立相應(yīng)的關(guān)聯(lián),為數(shù)據(jù)挖掘、分析提供數(shù)據(jù)支撐;三是數(shù)據(jù)的類型要符合可制表分析的數(shù)據(jù)形態(tài)。
2)做好增量檔案數(shù)據(jù)化。增量檔案是檔案大家族中不可或缺的重要資源,是保持檔案資源連續(xù)性的重要步驟。由于增量檔案大多是現(xiàn)實(shí)工作中形成的、具有保存價(jià)值的歷史記錄,其形成過(guò)程既有紙質(zhì)文件,又有電子文件,要做足數(shù)據(jù)化的工作比以前要輕松得多。但是在數(shù)據(jù)化的進(jìn)程中,數(shù)字化并不等于數(shù)據(jù)化。因?yàn)橹挥袑呙韬笮纬傻膱D片實(shí)現(xiàn)智能識(shí)讀,并進(jìn)入可列表分析、挖掘才能說(shuō)是實(shí)現(xiàn)了初步的數(shù)據(jù)化。因此,做好增量檔案的數(shù)據(jù)化同樣是一項(xiàng)艱苦、繁復(fù)的工作。為了實(shí)現(xiàn)上述目標(biāo),一是要做足增量檔案的數(shù)字化,二是要加快管理數(shù)據(jù)庫(kù)的建設(shè),三是要加快光學(xué)字符識(shí)別技術(shù)、音視頻文字轉(zhuǎn)換技術(shù)的應(yīng)用,四是要加快挖掘技術(shù)的應(yīng)用,進(jìn)而實(shí)現(xiàn)一切皆數(shù)據(jù),數(shù)據(jù)源可追溯的目標(biāo)。
3)利用挖掘技術(shù)實(shí)施挖掘分析。挖掘技術(shù)是互聯(lián)網(wǎng)時(shí)代,尤其是云計(jì)算時(shí)代的核心技術(shù),旨在通過(guò)對(duì)海量數(shù)據(jù)對(duì)某一經(jīng)濟(jì)現(xiàn)象和社會(huì)現(xiàn)象的智能分析,找出事物的規(guī)律性,對(duì)政治、經(jīng)濟(jì)、文化、社會(huì)的走勢(shì)、動(dòng)態(tài)提供理論模型,為未來(lái)事態(tài)發(fā)展提供掌控依據(jù)。檔案數(shù)據(jù)挖掘工作,就是要對(duì)數(shù)據(jù)化的檔案進(jìn)行智能化、情報(bào)化檢索,并利用數(shù)據(jù)之間的關(guān)聯(lián)性,實(shí)現(xiàn)精細(xì)化分析,進(jìn)而找出事物間的規(guī)律,服務(wù)社會(huì)。
4 結(jié)束語(yǔ)
檔案數(shù)據(jù)化是檔案數(shù)字化的子集,數(shù)據(jù)化是數(shù)字化進(jìn)程中的一個(gè)方向。只有實(shí)現(xiàn)數(shù)據(jù)化,浩繁的檔案才能為廣大的群眾所利用。檔案作為一個(gè)龐大的系統(tǒng),必將在未來(lái),尤其是在21世紀(jì)的互聯(lián)網(wǎng)時(shí)代發(fā)揮更大的作用。這就依賴于檔案的數(shù)據(jù)化,尤其是存、增量數(shù)據(jù)庫(kù)的建設(shè)和挖掘技術(shù)的全面應(yīng)用。