李曉明+宮啟生+謝靜靜
摘 要:為客觀反映我國檔案數(shù)字化研究的相關(guān)情況,促進數(shù)字檔案館建設(shè),運用文獻計量和可視化分析方法,對CNKI收錄的2001年以來有關(guān)檔案數(shù)字化研究的期刊論文從時間、來源、作者、機構(gòu)、主題和熱點等角度,結(jié)合CiteSpace繪制的知識圖譜進行統(tǒng)計及可視化分析。結(jié)果表明,檔案數(shù)字化期刊論文持續(xù)增長,高發(fā)文作者數(shù)量較少,作者及機構(gòu)間合作不多,檔案數(shù)字化、對策、高校檔案等是研究的熱點。
關(guān)鍵詞:檔案數(shù)字化;計量分析;可視化分析;CiteSpace;知識圖譜;CNKI;2001~2013
1 引言
檔案數(shù)字化是將傳統(tǒng)的紙質(zhì)檔案、圖像照片、聲像檔案和縮微膠片等通過掃描、攝錄、采集等手段轉(zhuǎn)化為數(shù)字形式的計算機文件的過程。[1]檔案數(shù)字化對提高檔案信息利用效果、確保傳統(tǒng)載體檔案安全、節(jié)省存儲空間、實現(xiàn)檔案精細(xì)化和自動化管理、建設(shè)現(xiàn)代新型檔案館等具有重要意義,是檔案信息化、網(wǎng)絡(luò)化的要求,更是數(shù)字檔案館建設(shè)的首要任務(wù)。[2]
上世紀(jì)后期,我國開始了檔案數(shù)字化的研究和實踐,隨著時代的發(fā)展和技術(shù)的進步,特別是國家相關(guān)政策、標(biāo)準(zhǔn)的陸續(xù)完善,有力地促進了檔案數(shù)字化工作。國家檔案局2005年發(fā)布了標(biāo)準(zhǔn)《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(DA/T 31-2005),2011年印發(fā)了《全國檔案事業(yè)發(fā)展“十二五”規(guī)劃》,要求“加快推進傳統(tǒng)載體檔案數(shù)字化”。[3]為加快檔案數(shù)字化,推進數(shù)字檔案館建設(shè),去年10月,國家檔案局局長楊冬權(quán)在全國數(shù)字檔案館(室)建設(shè)推進會上發(fā)表了重要講話,將“按照‘存量數(shù)字化的要求,大力推進傳統(tǒng)載體檔案數(shù)字化”作為實現(xiàn)未來15年我國數(shù)字檔案館(室)建設(shè)目標(biāo)必須重點抓好的第一項工作。[2]
為客觀總結(jié)我國檔案數(shù)字化研究的情況,探析研究熱點、前沿和趨勢,本文以從中國知網(wǎng)(CNKI)收集的有關(guān)期刊文獻為數(shù)據(jù)源,利用計量和可視化方法對檔案數(shù)字化相關(guān)研究進行統(tǒng)計和知識圖譜分析。
2 文獻來源、數(shù)據(jù)處理與研究工具
以檢索式“TI=‘檔案 /AFT 0 數(shù)字化 OR KY=‘檔案 /AFT 0 數(shù)字化 OR KY=‘檔案*數(shù)字化”對中國知網(wǎng)的學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫、特色期刊、學(xué)術(shù)輯刊三個庫進行專業(yè)檢索,時間范圍為2001年~2013年,檢索時間為2014年1月15日,檢索結(jié)果為1716篇。
為確保分析結(jié)果準(zhǔn)確,作者對檢索獲取的所有文獻的篇名、作者、機構(gòu)、關(guān)鍵詞等字段逐一進行了核對,剔除了重復(fù)文獻和消息、動態(tài)、講話、書評等非學(xué)術(shù)研究類文獻,相關(guān)性不強且內(nèi)容僅1頁的文獻。經(jīng)整理后,用于分析的文獻共計1369篇。
研究工具采用自編的數(shù)據(jù)統(tǒng)計軟件和美籍華人陳超美開發(fā)的信息可視化軟件CiteSpace Ⅲ(版本號3.7.R7),該軟件可用于探測和分析學(xué)科研究前沿隨著時間相關(guān)的變化趨勢以及研究前沿與其知識基礎(chǔ)之間的關(guān)系,辨識出學(xué)科前沿的演化路徑及學(xué)科領(lǐng)域的經(jīng)典基礎(chǔ)文獻。[4]由于CNKI的數(shù)據(jù)沒有參考文獻,因而無法充分利用CiteSpace的一些功能。
盡管CiteSpace可對CNKI下載的題錄數(shù)據(jù)通過轉(zhuǎn)換進行處理,但由于用于分析的數(shù)據(jù)量較大,難以從中剔除無效數(shù)據(jù),同時也無法對關(guān)鍵詞、機構(gòu)、地域等進行規(guī)范處理,無法補充部分可以完善的缺項,無法區(qū)分同名作者。為此,作者利用自編的程序?qū)?shù)據(jù)進行了相應(yīng)處理,生成了可供CiteSpace利用的數(shù)據(jù)格式文件,導(dǎo)入軟件生成知識圖譜進行分析。
3 文獻相關(guān)統(tǒng)計和知識圖譜分析
運用相關(guān)計算機軟件和可視化工具,對文獻分布、作者和機構(gòu)發(fā)文、關(guān)鍵詞等進行統(tǒng)計與分析,可以開展知識發(fā)展脈絡(luò)、熱點前沿等研究。為更好地促進國內(nèi)檔案數(shù)字化研究,對已有研究成果進行總結(jié),這對我國加快檔案數(shù)字化進程,實現(xiàn)數(shù)字檔案館的建設(shè)目標(biāo)具有一定的參考價值。本研究中利用自編軟件對機構(gòu)名稱、機構(gòu)地域、關(guān)鍵詞進行了統(tǒng)一和規(guī)范,對同名作者進行了區(qū)分,相關(guān)統(tǒng)計數(shù)據(jù)也由自編軟件統(tǒng)計得出,同時利用CiteSpace軟件繪制了作者合著網(wǎng)絡(luò)圖譜、機構(gòu)合著網(wǎng)絡(luò)圖譜和研究熱點主題圖譜。
3.1 文獻的時間分布與來源分布。本文中用于分析的文獻年度分布如圖1所示,圖中清晰地顯示出國內(nèi)檔案數(shù)字化研究的文獻數(shù)量逐年增長,2007年發(fā)文數(shù)量超過100篇,近兩年更是突破了200篇。
圖1 分析文獻數(shù)量的年度分布(單位:篇)
經(jīng)統(tǒng)計,以上文獻來源于413種期刊,表1列示了載文前20位的期刊和發(fā)文量。發(fā)文5篇及以下的刊物多達372種(其中僅1篇的280種,2篇的55種),發(fā)文超過10篇的28種期刊的發(fā)文數(shù)達746篇,占發(fā)文總數(shù)的54.5%,可見國內(nèi)檔案數(shù)字化的研究成果大量集中在檔案及相關(guān)期刊上,檔案類核心期刊的發(fā)文量都在前20位,是發(fā)文的主體。
表1 發(fā)文數(shù)量前20位期刊統(tǒng)計表(單位:篇)
3.2 文獻的作者分布。利用自編軟件區(qū)分同名作者后統(tǒng)計,1369篇文獻由1624位作者獨自或合作貢獻,發(fā)文作者共計1770人次,篇均作者1.29人,其中獨著文獻1084篇,兩人合著201篇,3人合著61篇。將處理生成的數(shù)據(jù)導(dǎo)入CiteSpace,選擇網(wǎng)絡(luò)節(jié)點為Author,設(shè)置相關(guān)閾值,運行后得到作者合著網(wǎng)絡(luò)共現(xiàn)圖譜(圖2,左上角為調(diào)試后設(shè)定的參數(shù),下同),圖中作者姓名后的字母為區(qū)分同名作者的標(biāo)記。
圖2 作者合著網(wǎng)絡(luò)圖譜
圖中圓內(nèi)的色環(huán)和連線的顏色對應(yīng)上方的時區(qū)色帶所表示的年份(年輪,本文中時區(qū)均為1年);圓為作者節(jié)點,圓越大,表明作者發(fā)文越多,如張照余、項文新、卞咸杰等;圓中不同的色環(huán)體現(xiàn)的是相應(yīng)年份的發(fā)文量,色環(huán)越厚,對應(yīng)年份的發(fā)文越多;節(jié)點間連線的顏色對應(yīng)的是作者間首次合作相關(guān)論文的時區(qū),線條粗細(xì)與其聯(lián)系緊密程度成正比。[5]從圖中還可看出,整個合著網(wǎng)絡(luò)比較零散,作者間的連線較少,表明作者多為獨立研究,作者間的合作不多。
表2列示了高產(chǎn)作者及發(fā)文量(“+”號后為第二作者發(fā)文數(shù)),與圖2基本一致。圖2中個別圓環(huán)較大但未列在表2中的作者,是由于非第一作者發(fā)文數(shù)較多所致,CiteSpace不區(qū)分作者排序,只計算發(fā)文數(shù)量,如趙紅穎、史江在CiteSpace中統(tǒng)計的發(fā)文總數(shù)為4篇,但以第一作者的發(fā)文數(shù)均為1篇。
表2 高發(fā)文作者及發(fā)文量(單位:篇)
3.3 文獻的機構(gòu)分布。利用自編軟件對機構(gòu)規(guī)范后進行統(tǒng)計,1369篇文獻由1056個機構(gòu)的作者獨自或合作貢獻,可見發(fā)文機構(gòu)比較分散。將處理生成的數(shù)據(jù)導(dǎo)入CiteSpace,選擇網(wǎng)絡(luò)節(jié)點為Institution,設(shè)置相關(guān)閾值,得到機構(gòu)合著網(wǎng)絡(luò)共現(xiàn)圖譜(圖3)。
圖3 機構(gòu)合著網(wǎng)絡(luò)圖譜
圖中圓內(nèi)的不同色環(huán)對應(yīng)上方時區(qū)色帶所代表的年份;圓為機構(gòu)節(jié)點,圓越大,表明發(fā)文越多,如蘇州大學(xué)、中國人民大學(xué)、云南大學(xué)等;圓中色環(huán)呈現(xiàn)的是相應(yīng)年份的發(fā)文量,色環(huán)越厚,對應(yīng)年份發(fā)文越多。圖中節(jié)點間沒有連線,表明機構(gòu)間沒有合作(如調(diào)低閾值,有連線)。高發(fā)文機構(gòu)及發(fā)文量統(tǒng)計如表3所示,發(fā)文量靠前的機構(gòu)中高等院校比重較大。
表3 高發(fā)文機構(gòu)及發(fā)文數(shù)量(單位:篇)
表4列示了第一作者機構(gòu)類型及發(fā)文統(tǒng)計。統(tǒng)計文獻中,高等院校及其檔案館發(fā)文量較多,加上高校圖書館,發(fā)文量占四成多;各級各類檔案館發(fā)文量也較多,表明這些檔案館都關(guān)注檔案數(shù)字化工作。
表4 第一作者機構(gòu)類型及發(fā)文數(shù)量(單位:篇)
3.4 主題與熱點分析。關(guān)鍵詞是從文獻的標(biāo)題和正文中抽取的最能夠反映文獻內(nèi)容的詞,通過分析關(guān)鍵詞的變化可以全面把握該學(xué)科發(fā)展的動態(tài)過程、特點和規(guī)律,反映科研的研究熱點和發(fā)展動向。CiteSpace不僅能進行詞頻統(tǒng)計,并能以圖譜顯示和體現(xiàn)詞間的共現(xiàn)關(guān)系,而且還可對關(guān)鍵詞進行中心性計算,突出顯示關(guān)鍵點,便于辨析和進行深度分析。
選用關(guān)鍵詞進行主題分析時,未使用機標(biāo)關(guān)鍵詞。選擇網(wǎng)絡(luò)節(jié)點為Keyword,設(shè)置相關(guān)閾值,運行CiteSpace后得到研究熱點主題圖譜(圖4)。圖中圓表示關(guān)鍵詞節(jié)點,圓越大,說明對應(yīng)主題出現(xiàn)的頻次越高;圓內(nèi)色環(huán)越厚,表明該顏色對應(yīng)年份出現(xiàn)的頻次越高;圓間連線的顏色對應(yīng)關(guān)鍵詞間首次共現(xiàn)的時間,連線粗細(xì)體現(xiàn)出關(guān)鍵詞間共現(xiàn)的次數(shù)。圖中部分節(jié)點出現(xiàn)了不同厚度的紫色外環(huán),表明它們的突顯度或中心性高,如檔案數(shù)字化、對策、高校檔案等。
圖4 檔案數(shù)字化研究熱點主題圖譜
表5列出了20個高頻關(guān)鍵詞及其中心性。對比表5的中心性值和詞頻可以發(fā)現(xiàn),除管理、企業(yè)檔案、城建檔案、紙質(zhì)檔案、信息、掃描、檔案信息6個關(guān)鍵詞外,其余14個關(guān)鍵詞的中心性均大于0.1,且除這14個關(guān)鍵詞外,在CiteSpace導(dǎo)出的相關(guān)數(shù)據(jù)統(tǒng)計表中再無中心性大于0.1的關(guān)鍵詞。詞頻和中心性高的關(guān)鍵詞可以認(rèn)為是研究的熱點,根據(jù)這些熱點可以歸納出檔案數(shù)字化研究的主題大類包括:檔案數(shù)字化、檔案數(shù)字化建設(shè)的問題與對策、高校檔案數(shù)字化、檔案數(shù)字化與管理、檔案數(shù)字化與信息化。
表5 高頻關(guān)鍵詞的中心性及詞頻數(shù)
值得注意的是,CiteSpace導(dǎo)出的數(shù)據(jù)統(tǒng)計表中“對策、掃描、信息資源(詞頻為12)”三個關(guān)鍵詞具有突變性,突變值分別為3.73、2.82和2.92。出現(xiàn)頻次增長率快速增加的專業(yè)術(shù)語將被確定為研究前沿術(shù)語,[6]可以據(jù)此預(yù)測,檔案數(shù)字化對策、數(shù)字化掃描相關(guān)問題和數(shù)字化檔案信息資源的管理與利用應(yīng)當(dāng)是檔案數(shù)字化的研究前沿。
4 總結(jié)
檔案數(shù)字化的實質(zhì)是將紙質(zhì)、音像等傳統(tǒng)載體檔案加工成數(shù)字形態(tài)的電子檔案。檔案數(shù)字化已成為當(dāng)前我國各級各類檔案機構(gòu)的一項迫切任務(wù)。本文通過利用自編軟件及CiteSpace軟件對國內(nèi)期刊文獻進行計量分析和可視化分析,可以得出以下結(jié)論。
1.2001年以來,有關(guān)檔案數(shù)字化的期刊論文發(fā)文量逐年上升,檔案類期刊特別是核心期刊是發(fā)文的主體,表明檔案數(shù)字化是檔案研究和檔案工作實踐的重要內(nèi)容。
2.檔案數(shù)字化研究高發(fā)文作者和機構(gòu)數(shù)量偏少,作者及機構(gòu)間的合作次數(shù)不多,說明缺乏一批專注于檔案數(shù)字化相關(guān)研究的作者或機構(gòu),自由探索式的分析與研究多。
3.具有較強科研能力的專業(yè)教育機構(gòu)及其下屬機構(gòu)發(fā)文數(shù)量多,高校是檔案數(shù)字化研究的主力;各級各類檔案館發(fā)文數(shù)量也較多,表明全國檔案界對檔案數(shù)字化工作高度重視,積極開展相關(guān)研究和實踐。
4.從高詞頻和高中心性關(guān)鍵詞看,檔案數(shù)字化、高校檔案、數(shù)字化建設(shè)、檔案管理、高等學(xué)校、信息化、數(shù)字檔案、數(shù)字化管理等關(guān)鍵詞所涉及的研究是檔案數(shù)字化的研究熱點,而對策、掃描、檔案信息等關(guān)鍵詞所涉及的研究是檔案數(shù)字化的研究前沿。
2013年10月全國數(shù)字檔案館(室)建設(shè)推進會的召開,無疑將更加有力地推動全國的檔案數(shù)字化工作。借鑒已有的研究成果,總結(jié)檔案數(shù)字化的經(jīng)驗,更加深入地研究檔案數(shù)字化中遇到的各類問題,尋求數(shù)字化外包的安全之策、完善數(shù)字化的過程管理和數(shù)據(jù)管理、數(shù)字化掃描質(zhì)量的保障、云技術(shù)等嶄新的信息技術(shù)的應(yīng)用將是未來幾年檔案數(shù)字化建設(shè)實踐和研究的重點內(nèi)容。加快完成各類檔案的數(shù)字化,迎接大數(shù)據(jù)時代的挑戰(zhàn),是檔案界共同的使命與責(zé)任。
*本文系中央高?;究蒲袠I(yè)務(wù)費資助項目“檔案數(shù)字化的管理與應(yīng)用研究”(BESTI-JBKY-201104)成果之一。
參考文獻:
[1]張照余. 檔案信息化理論與實踐[M]. 北京:中國檔案出版社,2007:229.
[2]楊冬權(quán).在全國數(shù)字檔案館(室)建設(shè)推進會上的講話[N].中國檔案報,2013-10-18(1).
[3]國家檔案局,中央檔案館. 關(guān)于印發(fā)《全國檔案事業(yè)發(fā)展“十二五”規(guī)劃》的通知[EB/OL](2011-01-14)[2014-01-15]. http://61.135.203. 75/zt/2011-01/14/content_12721.htm.
[4]劉則淵,陳悅,侯海燕,等. 科學(xué)知識圖譜:方法與應(yīng)用[M]. 北京:人民出版社,2008:167~168.
[5]宗乾進,等. 2009年中國情報學(xué)研究熱點的知識圖譜分析[J]. 情報雜志,2011,30(5):33~37.
[6]陳超美. CiteSpace Ⅱ:科學(xué)文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009(3):401~421.
(作者單位:北京電子科技學(xué)院圖書館(檔案館) 來稿日期:2014-04-07)
表2列示了高產(chǎn)作者及發(fā)文量(“+”號后為第二作者發(fā)文數(shù)),與圖2基本一致。圖2中個別圓環(huán)較大但未列在表2中的作者,是由于非第一作者發(fā)文數(shù)較多所致,CiteSpace不區(qū)分作者排序,只計算發(fā)文數(shù)量,如趙紅穎、史江在CiteSpace中統(tǒng)計的發(fā)文總數(shù)為4篇,但以第一作者的發(fā)文數(shù)均為1篇。
表2 高發(fā)文作者及發(fā)文量(單位:篇)
3.3 文獻的機構(gòu)分布。利用自編軟件對機構(gòu)規(guī)范后進行統(tǒng)計,1369篇文獻由1056個機構(gòu)的作者獨自或合作貢獻,可見發(fā)文機構(gòu)比較分散。將處理生成的數(shù)據(jù)導(dǎo)入CiteSpace,選擇網(wǎng)絡(luò)節(jié)點為Institution,設(shè)置相關(guān)閾值,得到機構(gòu)合著網(wǎng)絡(luò)共現(xiàn)圖譜(圖3)。
圖3 機構(gòu)合著網(wǎng)絡(luò)圖譜
圖中圓內(nèi)的不同色環(huán)對應(yīng)上方時區(qū)色帶所代表的年份;圓為機構(gòu)節(jié)點,圓越大,表明發(fā)文越多,如蘇州大學(xué)、中國人民大學(xué)、云南大學(xué)等;圓中色環(huán)呈現(xiàn)的是相應(yīng)年份的發(fā)文量,色環(huán)越厚,對應(yīng)年份發(fā)文越多。圖中節(jié)點間沒有連線,表明機構(gòu)間沒有合作(如調(diào)低閾值,有連線)。高發(fā)文機構(gòu)及發(fā)文量統(tǒng)計如表3所示,發(fā)文量靠前的機構(gòu)中高等院校比重較大。
表3 高發(fā)文機構(gòu)及發(fā)文數(shù)量(單位:篇)
表4列示了第一作者機構(gòu)類型及發(fā)文統(tǒng)計。統(tǒng)計文獻中,高等院校及其檔案館發(fā)文量較多,加上高校圖書館,發(fā)文量占四成多;各級各類檔案館發(fā)文量也較多,表明這些檔案館都關(guān)注檔案數(shù)字化工作。
表4 第一作者機構(gòu)類型及發(fā)文數(shù)量(單位:篇)
3.4 主題與熱點分析。關(guān)鍵詞是從文獻的標(biāo)題和正文中抽取的最能夠反映文獻內(nèi)容的詞,通過分析關(guān)鍵詞的變化可以全面把握該學(xué)科發(fā)展的動態(tài)過程、特點和規(guī)律,反映科研的研究熱點和發(fā)展動向。CiteSpace不僅能進行詞頻統(tǒng)計,并能以圖譜顯示和體現(xiàn)詞間的共現(xiàn)關(guān)系,而且還可對關(guān)鍵詞進行中心性計算,突出顯示關(guān)鍵點,便于辨析和進行深度分析。
選用關(guān)鍵詞進行主題分析時,未使用機標(biāo)關(guān)鍵詞。選擇網(wǎng)絡(luò)節(jié)點為Keyword,設(shè)置相關(guān)閾值,運行CiteSpace后得到研究熱點主題圖譜(圖4)。圖中圓表示關(guān)鍵詞節(jié)點,圓越大,說明對應(yīng)主題出現(xiàn)的頻次越高;圓內(nèi)色環(huán)越厚,表明該顏色對應(yīng)年份出現(xiàn)的頻次越高;圓間連線的顏色對應(yīng)關(guān)鍵詞間首次共現(xiàn)的時間,連線粗細(xì)體現(xiàn)出關(guān)鍵詞間共現(xiàn)的次數(shù)。圖中部分節(jié)點出現(xiàn)了不同厚度的紫色外環(huán),表明它們的突顯度或中心性高,如檔案數(shù)字化、對策、高校檔案等。
圖4 檔案數(shù)字化研究熱點主題圖譜
表5列出了20個高頻關(guān)鍵詞及其中心性。對比表5的中心性值和詞頻可以發(fā)現(xiàn),除管理、企業(yè)檔案、城建檔案、紙質(zhì)檔案、信息、掃描、檔案信息6個關(guān)鍵詞外,其余14個關(guān)鍵詞的中心性均大于0.1,且除這14個關(guān)鍵詞外,在CiteSpace導(dǎo)出的相關(guān)數(shù)據(jù)統(tǒng)計表中再無中心性大于0.1的關(guān)鍵詞。詞頻和中心性高的關(guān)鍵詞可以認(rèn)為是研究的熱點,根據(jù)這些熱點可以歸納出檔案數(shù)字化研究的主題大類包括:檔案數(shù)字化、檔案數(shù)字化建設(shè)的問題與對策、高校檔案數(shù)字化、檔案數(shù)字化與管理、檔案數(shù)字化與信息化。
表5 高頻關(guān)鍵詞的中心性及詞頻數(shù)
值得注意的是,CiteSpace導(dǎo)出的數(shù)據(jù)統(tǒng)計表中“對策、掃描、信息資源(詞頻為12)”三個關(guān)鍵詞具有突變性,突變值分別為3.73、2.82和2.92。出現(xiàn)頻次增長率快速增加的專業(yè)術(shù)語將被確定為研究前沿術(shù)語,[6]可以據(jù)此預(yù)測,檔案數(shù)字化對策、數(shù)字化掃描相關(guān)問題和數(shù)字化檔案信息資源的管理與利用應(yīng)當(dāng)是檔案數(shù)字化的研究前沿。
4 總結(jié)
檔案數(shù)字化的實質(zhì)是將紙質(zhì)、音像等傳統(tǒng)載體檔案加工成數(shù)字形態(tài)的電子檔案。檔案數(shù)字化已成為當(dāng)前我國各級各類檔案機構(gòu)的一項迫切任務(wù)。本文通過利用自編軟件及CiteSpace軟件對國內(nèi)期刊文獻進行計量分析和可視化分析,可以得出以下結(jié)論。
1.2001年以來,有關(guān)檔案數(shù)字化的期刊論文發(fā)文量逐年上升,檔案類期刊特別是核心期刊是發(fā)文的主體,表明檔案數(shù)字化是檔案研究和檔案工作實踐的重要內(nèi)容。
2.檔案數(shù)字化研究高發(fā)文作者和機構(gòu)數(shù)量偏少,作者及機構(gòu)間的合作次數(shù)不多,說明缺乏一批專注于檔案數(shù)字化相關(guān)研究的作者或機構(gòu),自由探索式的分析與研究多。
3.具有較強科研能力的專業(yè)教育機構(gòu)及其下屬機構(gòu)發(fā)文數(shù)量多,高校是檔案數(shù)字化研究的主力;各級各類檔案館發(fā)文數(shù)量也較多,表明全國檔案界對檔案數(shù)字化工作高度重視,積極開展相關(guān)研究和實踐。
4.從高詞頻和高中心性關(guān)鍵詞看,檔案數(shù)字化、高校檔案、數(shù)字化建設(shè)、檔案管理、高等學(xué)校、信息化、數(shù)字檔案、數(shù)字化管理等關(guān)鍵詞所涉及的研究是檔案數(shù)字化的研究熱點,而對策、掃描、檔案信息等關(guān)鍵詞所涉及的研究是檔案數(shù)字化的研究前沿。
2013年10月全國數(shù)字檔案館(室)建設(shè)推進會的召開,無疑將更加有力地推動全國的檔案數(shù)字化工作。借鑒已有的研究成果,總結(jié)檔案數(shù)字化的經(jīng)驗,更加深入地研究檔案數(shù)字化中遇到的各類問題,尋求數(shù)字化外包的安全之策、完善數(shù)字化的過程管理和數(shù)據(jù)管理、數(shù)字化掃描質(zhì)量的保障、云技術(shù)等嶄新的信息技術(shù)的應(yīng)用將是未來幾年檔案數(shù)字化建設(shè)實踐和研究的重點內(nèi)容。加快完成各類檔案的數(shù)字化,迎接大數(shù)據(jù)時代的挑戰(zhàn),是檔案界共同的使命與責(zé)任。
*本文系中央高?;究蒲袠I(yè)務(wù)費資助項目“檔案數(shù)字化的管理與應(yīng)用研究”(BESTI-JBKY-201104)成果之一。
參考文獻:
[1]張照余. 檔案信息化理論與實踐[M]. 北京:中國檔案出版社,2007:229.
[2]楊冬權(quán).在全國數(shù)字檔案館(室)建設(shè)推進會上的講話[N].中國檔案報,2013-10-18(1).
[3]國家檔案局,中央檔案館. 關(guān)于印發(fā)《全國檔案事業(yè)發(fā)展“十二五”規(guī)劃》的通知[EB/OL](2011-01-14)[2014-01-15]. http://61.135.203. 75/zt/2011-01/14/content_12721.htm.
[4]劉則淵,陳悅,侯海燕,等. 科學(xué)知識圖譜:方法與應(yīng)用[M]. 北京:人民出版社,2008:167~168.
[5]宗乾進,等. 2009年中國情報學(xué)研究熱點的知識圖譜分析[J]. 情報雜志,2011,30(5):33~37.
[6]陳超美. CiteSpace Ⅱ:科學(xué)文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009(3):401~421.
(作者單位:北京電子科技學(xué)院圖書館(檔案館) 來稿日期:2014-04-07)
表2列示了高產(chǎn)作者及發(fā)文量(“+”號后為第二作者發(fā)文數(shù)),與圖2基本一致。圖2中個別圓環(huán)較大但未列在表2中的作者,是由于非第一作者發(fā)文數(shù)較多所致,CiteSpace不區(qū)分作者排序,只計算發(fā)文數(shù)量,如趙紅穎、史江在CiteSpace中統(tǒng)計的發(fā)文總數(shù)為4篇,但以第一作者的發(fā)文數(shù)均為1篇。
表2 高發(fā)文作者及發(fā)文量(單位:篇)
3.3 文獻的機構(gòu)分布。利用自編軟件對機構(gòu)規(guī)范后進行統(tǒng)計,1369篇文獻由1056個機構(gòu)的作者獨自或合作貢獻,可見發(fā)文機構(gòu)比較分散。將處理生成的數(shù)據(jù)導(dǎo)入CiteSpace,選擇網(wǎng)絡(luò)節(jié)點為Institution,設(shè)置相關(guān)閾值,得到機構(gòu)合著網(wǎng)絡(luò)共現(xiàn)圖譜(圖3)。
圖3 機構(gòu)合著網(wǎng)絡(luò)圖譜
圖中圓內(nèi)的不同色環(huán)對應(yīng)上方時區(qū)色帶所代表的年份;圓為機構(gòu)節(jié)點,圓越大,表明發(fā)文越多,如蘇州大學(xué)、中國人民大學(xué)、云南大學(xué)等;圓中色環(huán)呈現(xiàn)的是相應(yīng)年份的發(fā)文量,色環(huán)越厚,對應(yīng)年份發(fā)文越多。圖中節(jié)點間沒有連線,表明機構(gòu)間沒有合作(如調(diào)低閾值,有連線)。高發(fā)文機構(gòu)及發(fā)文量統(tǒng)計如表3所示,發(fā)文量靠前的機構(gòu)中高等院校比重較大。
表3 高發(fā)文機構(gòu)及發(fā)文數(shù)量(單位:篇)
表4列示了第一作者機構(gòu)類型及發(fā)文統(tǒng)計。統(tǒng)計文獻中,高等院校及其檔案館發(fā)文量較多,加上高校圖書館,發(fā)文量占四成多;各級各類檔案館發(fā)文量也較多,表明這些檔案館都關(guān)注檔案數(shù)字化工作。
表4 第一作者機構(gòu)類型及發(fā)文數(shù)量(單位:篇)
3.4 主題與熱點分析。關(guān)鍵詞是從文獻的標(biāo)題和正文中抽取的最能夠反映文獻內(nèi)容的詞,通過分析關(guān)鍵詞的變化可以全面把握該學(xué)科發(fā)展的動態(tài)過程、特點和規(guī)律,反映科研的研究熱點和發(fā)展動向。CiteSpace不僅能進行詞頻統(tǒng)計,并能以圖譜顯示和體現(xiàn)詞間的共現(xiàn)關(guān)系,而且還可對關(guān)鍵詞進行中心性計算,突出顯示關(guān)鍵點,便于辨析和進行深度分析。
選用關(guān)鍵詞進行主題分析時,未使用機標(biāo)關(guān)鍵詞。選擇網(wǎng)絡(luò)節(jié)點為Keyword,設(shè)置相關(guān)閾值,運行CiteSpace后得到研究熱點主題圖譜(圖4)。圖中圓表示關(guān)鍵詞節(jié)點,圓越大,說明對應(yīng)主題出現(xiàn)的頻次越高;圓內(nèi)色環(huán)越厚,表明該顏色對應(yīng)年份出現(xiàn)的頻次越高;圓間連線的顏色對應(yīng)關(guān)鍵詞間首次共現(xiàn)的時間,連線粗細(xì)體現(xiàn)出關(guān)鍵詞間共現(xiàn)的次數(shù)。圖中部分節(jié)點出現(xiàn)了不同厚度的紫色外環(huán),表明它們的突顯度或中心性高,如檔案數(shù)字化、對策、高校檔案等。
圖4 檔案數(shù)字化研究熱點主題圖譜
表5列出了20個高頻關(guān)鍵詞及其中心性。對比表5的中心性值和詞頻可以發(fā)現(xiàn),除管理、企業(yè)檔案、城建檔案、紙質(zhì)檔案、信息、掃描、檔案信息6個關(guān)鍵詞外,其余14個關(guān)鍵詞的中心性均大于0.1,且除這14個關(guān)鍵詞外,在CiteSpace導(dǎo)出的相關(guān)數(shù)據(jù)統(tǒng)計表中再無中心性大于0.1的關(guān)鍵詞。詞頻和中心性高的關(guān)鍵詞可以認(rèn)為是研究的熱點,根據(jù)這些熱點可以歸納出檔案數(shù)字化研究的主題大類包括:檔案數(shù)字化、檔案數(shù)字化建設(shè)的問題與對策、高校檔案數(shù)字化、檔案數(shù)字化與管理、檔案數(shù)字化與信息化。
表5 高頻關(guān)鍵詞的中心性及詞頻數(shù)
值得注意的是,CiteSpace導(dǎo)出的數(shù)據(jù)統(tǒng)計表中“對策、掃描、信息資源(詞頻為12)”三個關(guān)鍵詞具有突變性,突變值分別為3.73、2.82和2.92。出現(xiàn)頻次增長率快速增加的專業(yè)術(shù)語將被確定為研究前沿術(shù)語,[6]可以據(jù)此預(yù)測,檔案數(shù)字化對策、數(shù)字化掃描相關(guān)問題和數(shù)字化檔案信息資源的管理與利用應(yīng)當(dāng)是檔案數(shù)字化的研究前沿。
4 總結(jié)
檔案數(shù)字化的實質(zhì)是將紙質(zhì)、音像等傳統(tǒng)載體檔案加工成數(shù)字形態(tài)的電子檔案。檔案數(shù)字化已成為當(dāng)前我國各級各類檔案機構(gòu)的一項迫切任務(wù)。本文通過利用自編軟件及CiteSpace軟件對國內(nèi)期刊文獻進行計量分析和可視化分析,可以得出以下結(jié)論。
1.2001年以來,有關(guān)檔案數(shù)字化的期刊論文發(fā)文量逐年上升,檔案類期刊特別是核心期刊是發(fā)文的主體,表明檔案數(shù)字化是檔案研究和檔案工作實踐的重要內(nèi)容。
2.檔案數(shù)字化研究高發(fā)文作者和機構(gòu)數(shù)量偏少,作者及機構(gòu)間的合作次數(shù)不多,說明缺乏一批專注于檔案數(shù)字化相關(guān)研究的作者或機構(gòu),自由探索式的分析與研究多。
3.具有較強科研能力的專業(yè)教育機構(gòu)及其下屬機構(gòu)發(fā)文數(shù)量多,高校是檔案數(shù)字化研究的主力;各級各類檔案館發(fā)文數(shù)量也較多,表明全國檔案界對檔案數(shù)字化工作高度重視,積極開展相關(guān)研究和實踐。
4.從高詞頻和高中心性關(guān)鍵詞看,檔案數(shù)字化、高校檔案、數(shù)字化建設(shè)、檔案管理、高等學(xué)校、信息化、數(shù)字檔案、數(shù)字化管理等關(guān)鍵詞所涉及的研究是檔案數(shù)字化的研究熱點,而對策、掃描、檔案信息等關(guān)鍵詞所涉及的研究是檔案數(shù)字化的研究前沿。
2013年10月全國數(shù)字檔案館(室)建設(shè)推進會的召開,無疑將更加有力地推動全國的檔案數(shù)字化工作。借鑒已有的研究成果,總結(jié)檔案數(shù)字化的經(jīng)驗,更加深入地研究檔案數(shù)字化中遇到的各類問題,尋求數(shù)字化外包的安全之策、完善數(shù)字化的過程管理和數(shù)據(jù)管理、數(shù)字化掃描質(zhì)量的保障、云技術(shù)等嶄新的信息技術(shù)的應(yīng)用將是未來幾年檔案數(shù)字化建設(shè)實踐和研究的重點內(nèi)容。加快完成各類檔案的數(shù)字化,迎接大數(shù)據(jù)時代的挑戰(zhàn),是檔案界共同的使命與責(zé)任。
*本文系中央高?;究蒲袠I(yè)務(wù)費資助項目“檔案數(shù)字化的管理與應(yīng)用研究”(BESTI-JBKY-201104)成果之一。
參考文獻:
[1]張照余. 檔案信息化理論與實踐[M]. 北京:中國檔案出版社,2007:229.
[2]楊冬權(quán).在全國數(shù)字檔案館(室)建設(shè)推進會上的講話[N].中國檔案報,2013-10-18(1).
[3]國家檔案局,中央檔案館. 關(guān)于印發(fā)《全國檔案事業(yè)發(fā)展“十二五”規(guī)劃》的通知[EB/OL](2011-01-14)[2014-01-15]. http://61.135.203. 75/zt/2011-01/14/content_12721.htm.
[4]劉則淵,陳悅,侯海燕,等. 科學(xué)知識圖譜:方法與應(yīng)用[M]. 北京:人民出版社,2008:167~168.
[5]宗乾進,等. 2009年中國情報學(xué)研究熱點的知識圖譜分析[J]. 情報雜志,2011,30(5):33~37.
[6]陳超美. CiteSpace Ⅱ:科學(xué)文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009(3):401~421.
(作者單位:北京電子科技學(xué)院圖書館(檔案館) 來稿日期:2014-04-07)