文/鹽城師范學院 劉露
21世紀,數(shù)據(jù)已經(jīng)滲透到各行各業(yè)并成為重要的生產(chǎn)資料,社會各界已經(jīng)認識到數(shù)據(jù)的價值。2012年大數(shù)據(jù)成為各界關(guān)注的熱點話題,各大網(wǎng)站、媒體、報紙均對大數(shù)據(jù)開展報道,眾多行業(yè)相繼提出大數(shù)據(jù)發(fā)展戰(zhàn)略,大數(shù)據(jù)開啟了繼云計算、物聯(lián)網(wǎng)之后的新一輪技術(shù)革命。不同學科領(lǐng)域包括檔案學都想要在大數(shù)據(jù)研究熱潮中占有一席之地。檔案學者們致力于將大數(shù)據(jù)技術(shù)應用于學科信息化建設(shè)之中,自此大數(shù)據(jù)研究在檔案學領(lǐng)域逐步發(fā)展起來,這也引起學者們對檔案大數(shù)據(jù)研究熱的思考和質(zhì)疑。
以“大數(shù)據(jù)”為篇名在中國學術(shù)期刊全文數(shù)據(jù)庫進行檢索(檢索時間2020年5月14日),2011年相關(guān)研究文獻量為192篇、2012年為820篇,到2013年達到了2615篇,說明2013年以后關(guān)于大數(shù)據(jù)研究的文獻數(shù)量急劇增加,多學科躋身大數(shù)據(jù)研究熱潮。截至2020年5月14日,在中國學術(shù)期刊全文數(shù)據(jù)庫以“大數(shù)據(jù)”和“檔案”為篇名進行精確檢索,時間跨度為2012~2019年,2020年文獻數(shù)量不完整,故不列入分析范圍,共獲得檢索結(jié)果2075條(如圖1所示)。根據(jù)檢索結(jié)果,我國檔案學者關(guān)注大數(shù)據(jù)是在2012年以后,最早為施永利的《大數(shù)據(jù)時代背景下的檔案利用服務探討》一文,分析了大數(shù)據(jù)時代對檔案管理和服務帶來的挑戰(zhàn)并提出利用數(shù)據(jù)挖掘技術(shù)來提高檔案服務質(zhì)量。從圖1中可以看出2014年以后檔案領(lǐng)域關(guān)于大數(shù)據(jù)研究文獻數(shù)量明顯增加。2016年4月國家檔案局發(fā)布了《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》,4次提到大數(shù)據(jù),為檔案界主動加入大數(shù)據(jù)研究提供了方向。2016~2019年文獻數(shù)量逐年劇增,可以看出國內(nèi)檔案學界關(guān)于大數(shù)據(jù)研究始于2012年,2016年以后呈現(xiàn)爆發(fā)趨勢并正穩(wěn)步發(fā)展。研究內(nèi)容主要集中在:檔案大數(shù)據(jù)4V特征分析,大數(shù)據(jù)對檔案利用、信息化等管理工作帶來的機遇和挑戰(zhàn),數(shù)字檔案館服務新模式以及大數(shù)據(jù)技術(shù)在檔案學研究中的應用等方面,學者普遍認同傳統(tǒng)檔案工作需要轉(zhuǎn)變思維方式、工作方式,利用數(shù)據(jù)挖掘、數(shù)據(jù)分析等服務于檔案工作,跟上大數(shù)據(jù)的潮流。
圖1 2012~2019年中國檔案領(lǐng)域大數(shù)據(jù)發(fā)文量年度趨勢
(一)強調(diào)共享,忽視檔案開放利用。自國際掀起大數(shù)據(jù)研究熱潮后,幾乎席卷了各行各業(yè)各領(lǐng)域,似乎不談論大數(shù)據(jù)就是不與時俱進,不與大數(shù)據(jù)扯上關(guān)系就不是創(chuàng)新。當大數(shù)據(jù)概念被引入檔案學研究時,學者紛紛提出檔案數(shù)據(jù)符合大數(shù)據(jù)4V特征,要擁抱大數(shù)據(jù)時代。同時也有諸如于英香等專家學者對大數(shù)據(jù)被過度神化的現(xiàn)象提出了質(zhì)疑。大數(shù)據(jù)時代的一個基本特點是數(shù)據(jù)開放與共享,檔案館擁有巨量檔案資源,只有實現(xiàn)檔案開放才能實現(xiàn)大數(shù)據(jù)技術(shù)在檔案領(lǐng)域的廣泛應用。檔案開放是發(fā)揮和呈現(xiàn)檔案價值的直接方式,但目前檔案開放存在鑒定責任主體模糊、開放程度低、檔案利用與隱私保護不平衡、缺少補救保障機制等問題。根據(jù)國家統(tǒng)計局統(tǒng)計年鑒中的統(tǒng)計數(shù)據(jù),國家綜合檔案館檔案開放率由2008年的24.2%降到2018年的15%,如圖2所示。
圖2 2008~2018年國家綜合檔案館檔案開放率(%)
(二)強調(diào)融合,忽視學科之間內(nèi)在聯(lián)系。黨的十八大習近平總書記提出構(gòu)建人類命運共同體,為治國理政提供了新思想,也為跨界合作提供了新視角。學科之間不是反對、排斥關(guān)系,而是一種對話、合作、互利、共贏的關(guān)系,開放融合成為各學科發(fā)展的趨勢和學者鼓勵的方向。追求融合不是兩個或多個學科的簡單嫁接,需要找到契合點,找出學科融合過程中可能出現(xiàn)的短路問題,將其他學科中有價值的、經(jīng)過驗證的理念、技術(shù)通過契合點與檔案學科聯(lián)系在一起,實現(xiàn)無縫連接的融合,而不是將所有主流觀點、理念、思想、技術(shù)、手段等都強加到檔案學中,否則只會帶來檔案學與其他學科的脫節(jié)。融合發(fā)展可以借助雙方力量,不單是數(shù)量的簡單疊加,更是質(zhì)量的融合,2018年在黨和國家深化機構(gòu)改革的背景下,各級國家綜合檔案館推行局館分離,檔案館只擁有保管利用的職能,其行政職能歸屬黨委管理。檔案館要明確自己的核心職能,檔案學科要明確發(fā)展方向,在自身發(fā)展的基礎(chǔ)上,擁抱大數(shù)據(jù)技術(shù),形成學科發(fā)展的有效性連接,實現(xiàn)兩個學科在融合中的一體化成長。
(一)立足學科根本,追求大發(fā)展。大數(shù)據(jù)技術(shù)已經(jīng)被交通、醫(yī)療、教育、媒體、金融等眾多行業(yè)接受并得到廣泛傳播和應用,但大數(shù)據(jù)時代對檔案開放、鑒定等方面提出了更高的要求,大數(shù)據(jù)技術(shù)及在檔案領(lǐng)域的應用還沒有成熟,因此,檔案部門不應過多強調(diào)大數(shù)據(jù)技術(shù)和應用的追逐,而應關(guān)注數(shù)據(jù)時代的到來給檔案工作內(nèi)外部帶來的變化,明確學科在大數(shù)據(jù)熱潮中的方向。
檔案學科自成立以來,理論和實踐方面一直存在難以攻關(guān)的重點和難點問題,如檔案開放、鑒定該如何把握一直是實際工作中的難題。檔案開放是檔案開發(fā)、利用、服務民眾等各項工作的基礎(chǔ)。檔案館作為國家、機關(guān)、社會組織、企事業(yè)單位社會實踐活動原始記錄的保管基地,掌握著巨大的數(shù)據(jù)資源,是擁有覆蓋歷史、現(xiàn)在和未來數(shù)據(jù)資源的寶庫。大數(shù)據(jù)研究需要以海量數(shù)據(jù)為基礎(chǔ),檔案開放是前提更是基礎(chǔ),只有解決學科發(fā)展中的重難點問題、核心問題,抓住主要矛盾,由小見大,完善學科體系,才能有序推進研究,推動學科長遠發(fā)展。2019年10月,十三屆全國人大常委會第十四次會議初次審議《中華人民共和國檔案法(修訂草案)》,我國檔案封閉期擬由30年縮短為25年。加大檔案信息開放力度,由內(nèi)而外先解決檔案學科自身的基礎(chǔ)性問題已經(jīng)成為大數(shù)據(jù)應用到檔案領(lǐng)域的基礎(chǔ)性工作和條件。一個學科的發(fā)展要注重廣度,更要注重深度。求小放大和求大放小相結(jié)合,以檔案學自身發(fā)展為前提,放眼未來,逐步實現(xiàn)與其他學科融合的大發(fā)展趨勢。
(二)夯實數(shù)字化,邁向數(shù)據(jù)化。檔案數(shù)據(jù)化被認為是檔案數(shù)字化發(fā)展的新階段,它是指檔案部門以用戶需求和業(yè)務需要為導向,將數(shù)字檔案資源轉(zhuǎn)換為可供閱讀、分析和處理的檔案數(shù)據(jù)資源的過程。檔案數(shù)字化是數(shù)據(jù)化的基礎(chǔ),數(shù)據(jù)化是在對數(shù)據(jù)信息進行識別和處理的基礎(chǔ)上完善的。目前我國檔案數(shù)字化工作還停留在對數(shù)字化檔案資源的組織、檢索層面,通過互聯(lián)網(wǎng)已經(jīng)實現(xiàn)主題檢索、關(guān)鍵詞檢索、全文檢索等基礎(chǔ)操作,但對檔案內(nèi)容信息挖掘并不深入,檔案中所包含的復雜信息內(nèi)容、信息間隱含的語義關(guān)系等都無法得到識別和分析,對檔案內(nèi)容的組織和檢索服務不夠智能化、智慧化。通過數(shù)據(jù)化,對數(shù)字檔案資源和歸檔電子文件的數(shù)字內(nèi)容進行識別、分類、著錄和標引,對其包含的數(shù)據(jù)信息進行重新分割和關(guān)聯(lián)分析,從中提取關(guān)鍵數(shù)據(jù)成分,將非結(jié)構(gòu)化的檔案數(shù)據(jù)和文檔數(shù)據(jù)實現(xiàn)結(jié)構(gòu)化分析,可以實現(xiàn)檔案資源由可讀模式轉(zhuǎn)變?yōu)榭煞治?、可計算模式?/p>
在完善數(shù)字化工作的基礎(chǔ)上部署實施檔案數(shù)據(jù)化工作,有助于進一步推進檔案信息資源在數(shù)據(jù)層級的深度開發(fā),實現(xiàn)檔案數(shù)據(jù)資源的融合、關(guān)聯(lián)、挖掘與分析,推動檔案知識發(fā)現(xiàn)和知識服務的開展。檔案部門保存著大量有價值的一手檔案資源,作為檔案資源大戶,檔案部門要善于運用數(shù)據(jù)分析、數(shù)據(jù)挖掘技術(shù)分析檔案數(shù)據(jù),對其進行聚類、分類和相關(guān)性分析,找到數(shù)據(jù)間的關(guān)系,建立數(shù)據(jù)模型,從海量數(shù)據(jù)中揭示出隱含潛在價值的信息,從檔案本身獲取檔案數(shù)據(jù),為社會公眾提供智能化、智慧化檔案服務。
(三)積累小數(shù)據(jù),放眼大數(shù)據(jù)。大數(shù)據(jù)時代,有人說一切文件和記錄都將成為檔案,確實給檔案學科發(fā)展帶來了影響,但并沒有改變檔案原始記錄性,只是出現(xiàn)了更多新興檔案門類。面對新事物新概念的出現(xiàn),需要重新思考檔案學的概念系統(tǒng)和研究范疇,明確哪些數(shù)據(jù)流具有檔案特征,傳統(tǒng)的管理理論是否適用。檔案是一種重要的社會信息資源,其中蘊藏著無法估量的社會價值,已經(jīng)成為大數(shù)據(jù)時代最重要的信息源之一。檔案數(shù)據(jù)來源于檔案本身,必須做好檔案基礎(chǔ)性管理工作,積累檔案資源,才能從檔案資源中獲取檔案數(shù)據(jù)信息。大數(shù)據(jù)與統(tǒng)計學、數(shù)學等知識相關(guān),單一數(shù)據(jù)無法發(fā)現(xiàn)其中規(guī)律,對大量數(shù)據(jù)進行搜集和分析才能發(fā)現(xiàn)數(shù)據(jù)本身蘊含的價值。
小數(shù)據(jù)就是每份檔案所包含的時間、人物、事件、作者等內(nèi)容信息和背景信息,這些數(shù)據(jù)信息不僅能展示過去發(fā)生的事件,也能通過數(shù)據(jù)之間的重組、關(guān)聯(lián)找到某種規(guī)律,甚至預測未來的發(fā)展趨勢。立足于小數(shù)據(jù),可以更好地根據(jù)用戶需求提供需要的數(shù)據(jù),能根據(jù)用戶的特征提供個性化數(shù)據(jù)。不積跬步,無以至千里,以小數(shù)據(jù)積累用戶,以大數(shù)據(jù)洞察外部環(huán)境,依托先進的技術(shù)手段實現(xiàn)檔案智能化管理,共同助力檔案學科發(fā)展。
大數(shù)據(jù)研究熱潮持續(xù)升溫,檔案學應在夯實檔案開放利用、數(shù)字化等工作的基礎(chǔ)上,充分運用大數(shù)據(jù)技術(shù)挖掘數(shù)據(jù)資源,放眼大數(shù)據(jù),追求既有專業(yè)深度又有跨學科研究廣度的發(fā)展趨勢,與大數(shù)據(jù)及其他學科開展跨學科的研究和合作,以期在社會轉(zhuǎn)型期依然能夠應對各種挑戰(zhàn),實現(xiàn)檔案學科的大融合、大發(fā)展和跨越式進步。