摘 要:本文針對檔案館非結(jié)構(gòu)化數(shù)據(jù)存在數(shù)據(jù)來源及特點,研究如何將其與結(jié)構(gòu)化數(shù)據(jù)融合,為非結(jié)構(gòu)化數(shù)據(jù)分類管理尋找理論依據(jù)和技術(shù)手段,探討高校檔案館非結(jié)構(gòu)化大數(shù)據(jù)管理的解決方法。
關(guān)鍵詞:大數(shù)據(jù);檔案;非結(jié)構(gòu)化;檔案管理系統(tǒng)
一、引言
美國信息與技術(shù)相關(guān)的公司,包括麥肯錫,國際數(shù)據(jù)公司(IDC)與IBM,在2011年提出大數(shù)據(jù)相關(guān)概念后已經(jīng)有越來越多的學(xué)術(shù)機(jī)構(gòu)、企業(yè)包括政府機(jī)構(gòu)開始關(guān)注大數(shù)據(jù)。經(jīng)過不到7年的發(fā)展,目前以“大數(shù)據(jù)”作為關(guān)鍵詞檢索國內(nèi)外前沿數(shù)據(jù)庫,可得到數(shù)不清的相關(guān)報告、論文和新聞。根據(jù)2015年國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展的相關(guān)工作,特別提出要加強(qiáng)檔案館等公益設(shè)施建設(shè),構(gòu)建文化傳播大數(shù)據(jù)服務(wù)平臺。上述文件對大數(shù)據(jù)的定義是“以容量大、類型多、存取速度快、應(yīng)用價值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)”。檔案數(shù)據(jù)正符合以上大數(shù)據(jù)定義,因此是大數(shù)據(jù)的重要組成部分。
與此同時,國家電子文件管理“十三五”規(guī)劃對電子文件的管理提升到國家治理層面。在移動互聯(lián)、云計算、大數(shù)據(jù)等新技術(shù)的迅猛發(fā)展時代,各種海量電子文件的歸檔與電子檔案的管理已成為各級檔案館(室)所必須面對的難題,其中最難把握的是對非結(jié)構(gòu)化數(shù)據(jù)的管理。
二、高校檔案館非結(jié)構(gòu)化數(shù)據(jù)的含義及特點
1.高校檔案館非結(jié)構(gòu)化數(shù)據(jù)的來源與定義
高校是一個多學(xué)科相融合的集聚地,學(xué)校里的教學(xué)活動和科研活動均圍繞著各種層次的學(xué)科和專業(yè)開展。而高校檔案館作為收集、存儲、傳播和利用學(xué)校各種數(shù)據(jù)的機(jī)構(gòu),需要處理的數(shù)據(jù)種類和數(shù)量都在飛速增長。尤其伴隨著高校信息化校園的建設(shè),校園內(nèi)無線網(wǎng)絡(luò)等技術(shù)的普及,檔案館接收的檔案除了原有的紙質(zhì)檔案和聲像實體檔案,越來越多的WORD文件、EXCEL表格、電子郵件、HTML文檔、音視頻文件等結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)也在呈指數(shù)增長。高校檔案館因此進(jìn)入到了“大數(shù)據(jù)”時代。
檔案館結(jié)構(gòu)化數(shù)據(jù),是指存儲在數(shù)據(jù)庫里,可以用二維結(jié)構(gòu)表來邏輯表達(dá)的數(shù)據(jù),由若干個層次結(jié)構(gòu)明確的關(guān)聯(lián)組成部分,按照一定的操作規(guī)范使用和維護(hù)數(shù)據(jù)庫,主要是檔案目錄及原文數(shù)據(jù),檔案館業(yè)務(wù)流程、服務(wù)、系統(tǒng)日志、用戶信息、庫房管理等方面的記錄。非結(jié)構(gòu)化數(shù)據(jù)是指不方便使用二維邏輯表來表現(xiàn)的數(shù)據(jù),每個字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成數(shù)據(jù)庫。其中,非結(jié)構(gòu)化數(shù)據(jù)占檔案館大數(shù)據(jù)總量的85%以上,是圖書館大數(shù)據(jù)的主要形式。
本文針對高校各業(yè)務(wù)系統(tǒng)產(chǎn)生的非結(jié)構(gòu)化多來源數(shù)據(jù),進(jìn)行融合管理研究。針對非結(jié)構(gòu)化的數(shù)據(jù),需要在充分收集多種來源信息的基礎(chǔ)上,綜合運用多種方法進(jìn)行分析與判斷,找出具有存檔價值的信息,予以整理和保管,以備將來為教職工和其他社會人士提供利用。
2.檔案館非結(jié)構(gòu)化大數(shù)據(jù)的特點
高校檔案館面臨的非結(jié)構(gòu)化數(shù)據(jù)存在著數(shù)據(jù)來源眾多,數(shù)據(jù)格式不同,數(shù)據(jù)信息內(nèi)容不重復(fù)等多種特點。這些特點可以成為非結(jié)構(gòu)化數(shù)據(jù)分類管理的依據(jù)。
(1)數(shù)據(jù)來源多樣性
非結(jié)構(gòu)化的數(shù)據(jù)來源于校內(nèi)和校外的多種活動,其中大部分都是校內(nèi)產(chǎn)生。高校的教學(xué)、科研和管理活動產(chǎn)生了核心的檔案信息,如教學(xué)課件、教學(xué)視頻、圖像、論文、專利、產(chǎn)品、電子郵件、網(wǎng)頁、及時通訊信息等數(shù)據(jù)。校外產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)有重大活動報道網(wǎng)頁、音頻視頻文件、照片、往來電子郵件、電子發(fā)票、申報信息等數(shù)據(jù)。信息來源不同的非結(jié)構(gòu)化數(shù)據(jù)在檔案的四性(即真實性、完整性、可用性和安全性)方面存在著巨大的差異,檔案工作針對不同來源的數(shù)據(jù)應(yīng)改進(jìn)行分類收集、整理、存儲、管理和提供利用。
(2)多數(shù)據(jù)格式的并存
由于目前多數(shù)高校已經(jīng)開展數(shù)字化校園建設(shè),各項工作的開展都離不開業(yè)務(wù)系統(tǒng)的輔助,而每種業(yè)務(wù)系統(tǒng)可能是針對不同的工作內(nèi)容開發(fā),因此這些業(yè)務(wù)系統(tǒng)往往生成對應(yīng)格式的非結(jié)構(gòu)化數(shù)據(jù),包括版式文件、圖片、二維矢量文件、三維矢量文件、XML、HTML、音頻、視頻、報表等。每種格式的數(shù)據(jù)類型、數(shù)據(jù)大小、通用性等均不盡相同,而且還會出現(xiàn)因業(yè)務(wù)系統(tǒng)的更替,數(shù)據(jù)格式前后不一致的可能。在當(dāng)前的環(huán)境下,仍沒有出現(xiàn)一種技術(shù)可以處理所有格式的數(shù)據(jù)。因此,高校檔案館必須根據(jù)學(xué)校的發(fā)展、用戶的需求及提供服務(wù)利用的多重角度考慮,制定各種檔案數(shù)據(jù)格式的存檔標(biāo)準(zhǔn),對應(yīng)地進(jìn)行設(shè)計標(biāo)準(zhǔn)化存儲或者兼容式存儲的分層級存儲系統(tǒng),以實現(xiàn)不同數(shù)據(jù)格式的自由轉(zhuǎn)換,最終才能充分利用這些非結(jié)構(gòu)化數(shù)據(jù)檔案。
(3)數(shù)據(jù)主體特指性強(qiáng)
在高校檔案館中,產(chǎn)生非結(jié)構(gòu)化數(shù)據(jù)的主體主要是檔案館專兼職檔案員,在校師生及校友。還有極少量的學(xué)校外部參與者,校外參與者利用檔案資源的頻率遠(yuǎn)遠(yuǎn)低于前者。因而,從用戶的角度有效分析檔案館專兼職檔案員,在校師生及校友的數(shù)據(jù)需求,將已經(jīng)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)進(jìn)行分類,就能夠把握非結(jié)構(gòu)化數(shù)據(jù)發(fā)展的規(guī)模和質(zhì)量,再經(jīng)過分析便可得出當(dāng)前用戶的需求。
(4) 數(shù)據(jù)內(nèi)容不重復(fù)
與傳統(tǒng)的檔案的收集有一點不同的是,非結(jié)構(gòu)化的數(shù)據(jù)內(nèi)容不應(yīng)重復(fù),傳統(tǒng)紙質(zhì)檔案和實物檔案允許保存多份實體作為副本,但非結(jié)構(gòu)化數(shù)據(jù)因為其計算機(jī)復(fù)制技術(shù)十分便捷,占用的存儲空間又十分龐大,因此為了給檔案系統(tǒng)的運行減輕冗余,原則上不應(yīng)該重復(fù)。對整個檔案館的電子數(shù)據(jù)在保管過程中可以做雙份異地備份。
三、高校檔案館非結(jié)構(gòu)化大數(shù)據(jù)的融合機(jī)制
由于非結(jié)構(gòu)化數(shù)據(jù)的以上特性,需要對數(shù)據(jù)進(jìn)行融合管理??扇诤系臄?shù)據(jù)必須具有以下共性,一般是同一個主題的數(shù)據(jù)。數(shù)據(jù)往往會具有互補(bǔ)性,不同信息源的數(shù)據(jù)從著錄字段上或者記錄上具有互補(bǔ)性,以保證數(shù)據(jù)的完整性與覆蓋面。將收集的非結(jié)構(gòu)化數(shù)據(jù)分為3個方面:數(shù)據(jù)濾重、數(shù)據(jù)拆分、數(shù)據(jù)統(tǒng)計,每個方面都涉及到具體的技術(shù)細(xì)節(jié)與不同的處理方法。
1.部分非結(jié)構(gòu)化數(shù)據(jù)可轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)
在搜集的非結(jié)構(gòu)化數(shù)據(jù)中,許多都可以轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理。如圖片、XML、HTML、報表、電子郵件等靜態(tài)數(shù)據(jù),可通過截圖的形式轉(zhuǎn)換為JPG或PDF格式,用原文的形式存儲于檔案管理系統(tǒng)內(nèi),這樣就可以實現(xiàn)此部分的非結(jié)構(gòu)化數(shù)據(jù)與已有的結(jié)構(gòu)化數(shù)據(jù)融合。
2.無法轉(zhuǎn)換的非結(jié)構(gòu)化數(shù)據(jù)采用特殊數(shù)據(jù)庫單獨管理
非結(jié)構(gòu)化中的大量組成部分是音頻、視頻等數(shù)據(jù),它們盡管無法保存在已有的檔案系統(tǒng)統(tǒng)一管理,但與結(jié)構(gòu)化的數(shù)據(jù)是息息相關(guān)的,因此需要采用特殊的數(shù)據(jù)庫單獨管理,并與結(jié)構(gòu)化的檔案信息系統(tǒng)對應(yīng)的字段建立聯(lián)系。在提取的非結(jié)構(gòu)化數(shù)據(jù)時,有可能出現(xiàn)一個文件包括多個主題的情況,這時需要對其進(jìn)行著錄字段的拆分,將主題進(jìn)行歸類。數(shù)據(jù)查重過濾,指數(shù)據(jù)融合過程中的許多字段表達(dá)含義相同,但卻說法不一,可以選用其中一個字段來代替,或者為字段另外選一個名字,例如“70年校慶”與“七十年校慶”,我們可以都確定為“七十周年校慶”,也都定位到“校慶”。經(jīng)過數(shù)據(jù)的拆分、查重過濾后,我們可以利用統(tǒng)計軟件,分析出某一時間段內(nèi)高校檔案利用的熱點,提高服務(wù)水平。
3.需針對動態(tài)的非結(jié)構(gòu)化數(shù)據(jù)開發(fā)相應(yīng)的管理程序
除以上非結(jié)構(gòu)化數(shù)據(jù),還有一部分通過視頻、微博、微信公眾號、QQ咨詢等各網(wǎng)絡(luò)媒體產(chǎn)生的信息日益增加,數(shù)據(jù)的類型更加復(fù)雜,數(shù)據(jù)的融合更加重要。因為這些數(shù)據(jù)具有及時性、動態(tài)性和不確定性,目前流行的可視化軟件和工具很難套用管理。針對這類非結(jié)構(gòu)化數(shù)據(jù),需要研究開發(fā)出相應(yīng)的程序來管理,能夠自動調(diào)整以滿足動態(tài)的、不確定的特點。
參考文獻(xiàn):
[1]What is Big Data [EB/OL] [20141007] .Http://www.amchamchina.org/article/102
[2]郭春霞.大數(shù)據(jù)環(huán)境下高校圖書館非結(jié)構(gòu)化數(shù)據(jù)融合分析[J].圖書館學(xué)研究,2015(05)
[3]沈紅雨.高校非結(jié)構(gòu)化檔案數(shù)據(jù)的數(shù)據(jù)庫管理技術(shù)應(yīng)用與比較研究[J].浙江檔案,2016(01)
[4]陳 臣.基于Hadoop的圖書館非結(jié)構(gòu)化大數(shù)據(jù)分析與決策系統(tǒng)研究[J].情報科學(xué),2017(01)
[5]李翠萍,常 娥.大數(shù)據(jù)時代數(shù)字圖書館發(fā)展淺析[J].江蘇技術(shù)師范學(xué)院學(xué)報,2013年05期
[6]李小剛,謝詩藝,程 舒.大數(shù)據(jù)時代檔案館服務(wù)創(chuàng)新研究[J];北京檔案,2013年11期
[7]黃少芳,劉曉鴻,張俊芳.論高校檔案信息化與數(shù)字檔案館建設(shè)[J];中國地質(zhì)教育,2013年02期
[8]郭振橋,王新玲.淺論大數(shù)據(jù)在未來圖書館服務(wù)中的應(yīng)用[J];內(nèi)蒙古科技與經(jīng)濟(jì),2013年16期
作者簡介:彭柳,館員,中南民族大學(xué)檔案館(校史館)信息與技術(shù)室負(fù)責(zé)人,主要從事檔案數(shù)字化建設(shè)技術(shù)研究。
基金項目:本文由中南民族大學(xué)中央高??蒲袠I(yè)務(wù)費社科專項資金項目資助(CSQ19039)