文 / 范桂紅
大數(shù)據(jù)以數(shù)據(jù)量化、挖掘數(shù)據(jù)潛在價(jià)值等特征成為社會關(guān)注新焦點(diǎn)。信息與技術(shù)深度融合的大數(shù)據(jù)技術(shù)引起檔案管理從數(shù)據(jù)采集、挖掘、分析及管理思維范式的轉(zhuǎn)變,這要求檔案工作者具有更強(qiáng)的數(shù)據(jù)分析能力、信息洞察力及業(yè)務(wù)流程重組與優(yōu)化能力。本文擬運(yùn)用Cite Space III軟件對CNKI中檢索到928篇大數(shù)據(jù)檔案研究文獻(xiàn)進(jìn)行可視化分析,通過文獻(xiàn)時(shí)間分布、作者及機(jī)構(gòu)、關(guān)鍵詞共現(xiàn)、研究前沿時(shí)區(qū)等分析,以量化、動態(tài)的方式探討大數(shù)據(jù)檔案研究的熱點(diǎn)主題及其演化趨勢。
本研究的數(shù)據(jù)來源于CNKI中與大數(shù)據(jù)檔案相關(guān)文獻(xiàn)。檢索式為“主題=大數(shù)據(jù)”并含“檔案”,發(fā)表時(shí)間為2012年1月1日到2017年12月31日,文獻(xiàn)來源、支持基金設(shè)置為模糊檢索,共檢索到1031篇,剔除論文集、增刊、碩博論文等,共得到符合條件文獻(xiàn)928篇。選中文獻(xiàn)后,導(dǎo)出Refworks格式,命名為download_2018文件,為本研究的數(shù)據(jù)源。
本研究利用CiteSpaceIII可視化軟件探討大數(shù)據(jù)檔案研究熱點(diǎn)及隨時(shí)間的變化前沿趨勢。分別對作者共引、機(jī)構(gòu)合作、關(guān)鍵詞共現(xiàn)、研究熱點(diǎn)及前沿進(jìn)行透視,并對數(shù)據(jù)結(jié)果進(jìn)行綜合分析。通過關(guān)鍵詞聚類、時(shí)區(qū)視圖識別該領(lǐng)域科學(xué)發(fā)展的新趨勢。
對文獻(xiàn)時(shí)間分布情況分析可以得到該領(lǐng)域2012—2017年理論動態(tài)變化及受關(guān)注情況。2012年檔案學(xué)領(lǐng)域開始對大數(shù)據(jù)進(jìn)行理論研究,但關(guān)注度仍然較弱,成果較少。由于大數(shù)據(jù)技術(shù)加速融合到檔案數(shù)據(jù)采集、存儲與利用之中,從2013年起研究開始繁榮起來,發(fā)文數(shù)量呈倍數(shù)增長的趨勢,于2017年達(dá)到發(fā)文最高值。這表明,大數(shù)據(jù)檔案研究逐漸成為熱點(diǎn),受到廣泛關(guān)注。究其原因:一是數(shù)據(jù)信息安全需要,數(shù)據(jù)采集、數(shù)據(jù)隱私挖掘等技術(shù)為檔案數(shù)據(jù)信息安全提供保障;二是國家層面的重視。2016年國家檔案局印發(fā)《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》,探討數(shù)字檔案與大數(shù)據(jù)融合,深刻影響檔案工作的理念、技術(shù)、方法及模式,給信息安全、隱私保護(hù)和數(shù)字記憶留存帶來挑戰(zhàn),為大數(shù)據(jù)時(shí)代檔案資源整合與服務(wù)利用提供機(jī)遇。
隨著大數(shù)據(jù)研究的深入進(jìn)行,該領(lǐng)域研究的成果逐漸增多。張倩、周楓、田偉、王蘭成、席暢等作者為該主題研究的中堅(jiān)力量。數(shù)據(jù)分析表明:(1)第一作者發(fā)文量 3 篇以上的作者有 21 人,占論文總數(shù)的6.9%,表明該領(lǐng)域作者集中度較弱;(2)從合作強(qiáng)度來看,田偉、韓海濤、陳靜合作5次,成為大數(shù)據(jù)檔案研究合作最多的組合。作者之間的合作一般只限于本研究機(jī)構(gòu)或者同一地區(qū)的不同高校,內(nèi)部合作強(qiáng)度較大,研究團(tuán)隊(duì)之間處于獨(dú)立狀態(tài),未形成較強(qiáng)凝聚力的科研群體及核心作者。
通過分析,該領(lǐng)域研究機(jī)構(gòu)具有以下特點(diǎn):(1)發(fā)文量7篇及以上的機(jī)構(gòu)6個(gè),發(fā)文量占論文總量的7.1%。上海大學(xué)、黑龍江大學(xué)、天津工業(yè)大學(xué)、遼寧大學(xué)、南京政治學(xué)院上海校區(qū)等分列前五位。整體看來,該領(lǐng)域的研究機(jī)構(gòu)主要集中在高校檔案學(xué)專業(yè)和高校綜合檔案館(室),這表明高校在該領(lǐng)域研究較為活躍;(2)研究機(jī)構(gòu)分布相對零散,只有極少數(shù)研究結(jié)構(gòu)之間存在合作,其中,天津工業(yè)大學(xué)與天津師范大學(xué)、遼寧大學(xué)與中國人民大學(xué)之間合作最密切。該領(lǐng)域研究機(jī)構(gòu)分布廣泛,但合作意識薄弱,機(jī)構(gòu)之間缺乏緊密合作,且處于獨(dú)立分散的狀況,規(guī)模化合作網(wǎng)絡(luò)未形成。
關(guān)鍵詞是對文章研究內(nèi)容的高度凝練及概括。通過對文獻(xiàn)關(guān)鍵詞共現(xiàn)聚類可以分析出該領(lǐng)域研究熱點(diǎn)。[1]對出現(xiàn)頻次(見圖1)在 20 次以上的大數(shù)據(jù)檔案研究關(guān)鍵詞進(jìn)行統(tǒng)計(jì),共有大數(shù)據(jù)時(shí)代、檔案管理、信息化建設(shè)、檔案信息資源、大數(shù)據(jù)技術(shù)、高校檔案、數(shù)字檔案館、檔案數(shù)據(jù)、電子檔案、數(shù)據(jù)挖掘等10個(gè)高頻關(guān)鍵詞。筆者認(rèn)為,大數(shù)據(jù)背景下的檔案管理、檔案館建設(shè)、高校檔案管理、檔案數(shù)據(jù)挖掘分析等為該領(lǐng)域的研究熱點(diǎn)。
圖1 關(guān)鍵詞共現(xiàn)知識
圖2 關(guān)鍵詞聚類的時(shí)區(qū)
1.大數(shù)據(jù)背景下檔案管理研究。當(dāng)前,以數(shù)據(jù)收集、挖掘技術(shù)為切入點(diǎn)對檔案管理進(jìn)行研究,由管理理論、數(shù)據(jù)安全、服務(wù)創(chuàng)新、數(shù)據(jù)法律法規(guī)、數(shù)據(jù)資源建設(shè)等五個(gè)方面構(gòu)成檔案管理新模式。檔案管理部門樹立大數(shù)據(jù)觀、大服務(wù)觀及大價(jià)值觀等管理理念,優(yōu)化檔案業(yè)務(wù)流程,挖掘檔案增值信息,加強(qiáng)檔案管理機(jī)構(gòu)的職能建設(shè)。[2]用大數(shù)據(jù)的視角來審視檔案管理工作,構(gòu)建服務(wù)網(wǎng)絡(luò)化思維、信息化思維、技術(shù)性思維及共享性思維四種檔案管理新思維方式。[3]對大數(shù)據(jù)檔案涵義、技術(shù)及趨勢進(jìn)行剖析,探討大數(shù)據(jù)關(guān)鍵技術(shù)的實(shí)質(zhì),最大限度地發(fā)揮檔案數(shù)據(jù)價(jià)值,成為大數(shù)據(jù)檔案當(dāng)前研究的熱點(diǎn)。
2.大數(shù)據(jù)背景下檔案館建設(shè)研究。當(dāng)前,基于用戶需求角度,檔案館構(gòu)建需求感知引擎、拓展深化數(shù)據(jù)服務(wù)內(nèi)涵、推進(jìn)個(gè)性化服務(wù)等模式;[4]基于利用服務(wù)角度,搭建個(gè)性化服務(wù)、智能化服務(wù)、知識化服務(wù)等四種模式。[5]檔案館依托大數(shù)據(jù)技術(shù)創(chuàng)新檔案管理與服務(wù)模式,有利于提升檔案館核心競爭力,具有重要的理論意義與現(xiàn)實(shí)意義。檔案館作為存儲檔案實(shí)體和提供信息服務(wù)的部門,必須主動利用機(jī)遇進(jìn)行戰(zhàn)略性創(chuàng)新。檔案館建設(shè)應(yīng)以智慧化、知識化、生態(tài)化為理念,深化檔案數(shù)據(jù)挖掘、優(yōu)化專業(yè)隊(duì)伍建設(shè)、完善數(shù)字資源整合力度,構(gòu)建智慧檔案館、數(shù)字檔案館。
3.大數(shù)據(jù)背景下高校檔案管理工作研究。高校檔案管理工作需提升大檔案服務(wù)理念、大資源觀念來實(shí)現(xiàn)檔案大數(shù)據(jù)共享、建設(shè)數(shù)據(jù)資源集成庫,為學(xué)校其他工作提供數(shù)據(jù)支撐。向澤紅提出,用跨界·融合·聯(lián)動理念指導(dǎo)高校檔案信息的開發(fā),提供高效檔案服務(wù),可以使高校檔案管理能夠更好地為師生服務(wù)。[6]周美蘭分析了大數(shù)據(jù)特征,構(gòu)建了以數(shù)字檔案資源建設(shè)為核心的現(xiàn)代化高校檔案資源管理體系。[7]大數(shù)據(jù)時(shí)代,高校檔案管理工作需要注重檔案信息資源管理,加強(qiáng)檔案信息歸檔存儲、數(shù)據(jù)知識挖掘、信息讀取與利用、轉(zhuǎn)變工作思路。
4.大數(shù)據(jù)背景下檔案數(shù)據(jù)挖掘研究。探討大數(shù)據(jù)檔案管理系統(tǒng)、數(shù)據(jù)挖掘、數(shù)據(jù)分析、云計(jì)算等技術(shù)的研究成果較多,大量結(jié)構(gòu)化和非結(jié)構(gòu)化的大數(shù)據(jù)檔案需要數(shù)據(jù)技術(shù)來處理。周楓認(rèn)為,大數(shù)據(jù)技術(shù)將從檔案資源挖掘、用戶數(shù)據(jù)挖掘、關(guān)系洞察三個(gè)方面實(shí)現(xiàn)檔案信息資源與用戶需求的雙向理想控制。[8]王蘭成結(jié)合檔案網(wǎng)站知識服務(wù)功能,對大數(shù)據(jù)知識挖掘處理中的數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)分析、語義處理與可視化數(shù)據(jù)挖掘問題進(jìn)行探討,為檔案大數(shù)據(jù)的分析挖掘提供了啟示。[9]數(shù)據(jù)分析技術(shù)有利于深層次檔案知識挖掘,提升檔案價(jià)值。檔案信息安全與檔案實(shí)體安全是大數(shù)據(jù)條件下我們需要關(guān)注問題。
運(yùn)用關(guān)鍵詞共現(xiàn)時(shí)區(qū)視圖,可以在時(shí)間維度上掌握大數(shù)據(jù)檔案知識聚類演進(jìn)動態(tài)過程。[10]由圖2可以總結(jié)出,2012年研究熱點(diǎn)為數(shù)據(jù)挖掘、檔案利用服務(wù)、大數(shù)據(jù)時(shí)代,檔案學(xué)者開始轉(zhuǎn)向本領(lǐng)域研究;被稱為“大數(shù)據(jù)元年”的2013年,在以往熱點(diǎn)的基礎(chǔ)上增加了檔案管理、大數(shù)據(jù)技術(shù)、檔案數(shù)據(jù)、電子文件、檔案信息化建設(shè)、企業(yè)檔案管理等,表明大數(shù)據(jù)時(shí)代已經(jīng)到來;2014年,大數(shù)據(jù)首次正式寫入《政府工作報(bào)告》。于是,在以往熱點(diǎn)的基礎(chǔ)上增加了檔案服務(wù)、檔案信息資源、檔案管理系統(tǒng)、信息安全、數(shù)據(jù)安全及高校檔案、醫(yī)院檔案、國土檔案等,這源于國家政策的引領(lǐng)。2015年國務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》《國務(wù)院關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》,數(shù)據(jù)成為國家基礎(chǔ)性戰(zhàn)略資源。于是,在以往熱點(diǎn)的基礎(chǔ)上增加了云計(jì)算、智慧檔案館、物聯(lián)網(wǎng)、人事檔案、檔案開發(fā)與利用、檔案資源共享等。2016年在以往熱點(diǎn)的基礎(chǔ)上增加了檔案大數(shù)據(jù)、數(shù)據(jù)化、數(shù)據(jù)分析等;2017年在以往研究熱點(diǎn)的基礎(chǔ)上增加了檔案價(jià)值、檔案文化、數(shù)據(jù)優(yōu)化等熱點(diǎn)。
以后學(xué)者在關(guān)注大數(shù)據(jù)、云計(jì)算、數(shù)據(jù)挖掘、數(shù)據(jù)分析的同時(shí),也應(yīng)該從技術(shù)角度進(jìn)行探討。究其原因,一是數(shù)據(jù)挖掘、數(shù)據(jù)分析、云計(jì)算等新技術(shù)與傳統(tǒng)檔案信息采集與存儲技術(shù)相融合;二是大數(shù)據(jù)理念逐漸滲透到檔案信息資源開發(fā)與利用、檔案信息資源共享建設(shè)、檔案信息服務(wù)過程中,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,大數(shù)據(jù)思維、大數(shù)據(jù)觀、大服務(wù)觀必將影響檔案管理工作;三是大數(shù)據(jù)的數(shù)據(jù)價(jià)值拓展了檔案文化價(jià)值、檔案信息價(jià)值、檔案數(shù)據(jù)價(jià)值,為檔案利用工作提供了多元化發(fā)展方向。