亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高校檔案館非結(jié)構(gòu)化大數(shù)據(jù)融合機(jī)制研究

        2019-09-10 07:22:44彭柳
        蘭臺內(nèi)外 2019年5期
        關(guān)鍵詞:檔案大數(shù)據(jù)

        摘 要:本文針對檔案館非結(jié)構(gòu)化數(shù)據(jù)存在數(shù)據(jù)來源及特點,研究如何將其與結(jié)構(gòu)化數(shù)據(jù)融合,為非結(jié)構(gòu)化數(shù)據(jù)分類管理尋找理論依據(jù)和技術(shù)手段,探討高校檔案館非結(jié)構(gòu)化大數(shù)據(jù)管理的解決方法。

        關(guān)鍵詞:大數(shù)據(jù);檔案;非結(jié)構(gòu)化;檔案管理系統(tǒng)

        一、引言

        美國信息與技術(shù)相關(guān)的公司,包括麥肯錫,國際數(shù)據(jù)公司(IDC)與IBM,在2011年提出大數(shù)據(jù)相關(guān)概念后已經(jīng)有越來越多的學(xué)術(shù)機(jī)構(gòu)、企業(yè)包括政府機(jī)構(gòu)開始關(guān)注大數(shù)據(jù)。經(jīng)過不到7年的發(fā)展,目前以“大數(shù)據(jù)”作為關(guān)鍵詞檢索國內(nèi)外前沿數(shù)據(jù)庫,可得到數(shù)不清的相關(guān)報告、論文和新聞。根據(jù)2015年國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展的相關(guān)工作,特別提出要加強(qiáng)檔案館等公益設(shè)施建設(shè),構(gòu)建文化傳播大數(shù)據(jù)服務(wù)平臺。上述文件對大數(shù)據(jù)的定義是“以容量大、類型多、存取速度快、應(yīng)用價值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)”。檔案數(shù)據(jù)正符合以上大數(shù)據(jù)定義,因此是大數(shù)據(jù)的重要組成部分。

        與此同時,國家電子文件管理“十三五”規(guī)劃對電子文件的管理提升到國家治理層面。在移動互聯(lián)、云計算、大數(shù)據(jù)等新技術(shù)的迅猛發(fā)展時代,各種海量電子文件的歸檔與電子檔案的管理已成為各級檔案館(室)所必須面對的難題,其中最難把握的是對非結(jié)構(gòu)化數(shù)據(jù)的管理。

        二、高校檔案館非結(jié)構(gòu)化數(shù)據(jù)的含義及特點

        1.高校檔案館非結(jié)構(gòu)化數(shù)據(jù)的來源與定義

        高校是一個多學(xué)科相融合的集聚地,學(xué)校里的教學(xué)活動和科研活動均圍繞著各種層次的學(xué)科和專業(yè)開展。而高校檔案館作為收集、存儲、傳播和利用學(xué)校各種數(shù)據(jù)的機(jī)構(gòu),需要處理的數(shù)據(jù)種類和數(shù)量都在飛速增長。尤其伴隨著高校信息化校園的建設(shè),校園內(nèi)無線網(wǎng)絡(luò)等技術(shù)的普及,檔案館接收的檔案除了原有的紙質(zhì)檔案和聲像實體檔案,越來越多的WORD文件、EXCEL表格、電子郵件、HTML文檔、音視頻文件等結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)也在呈指數(shù)增長。高校檔案館因此進(jìn)入到了“大數(shù)據(jù)”時代。

        檔案館結(jié)構(gòu)化數(shù)據(jù),是指存儲在數(shù)據(jù)庫里,可以用二維結(jié)構(gòu)表來邏輯表達(dá)的數(shù)據(jù),由若干個層次結(jié)構(gòu)明確的關(guān)聯(lián)組成部分,按照一定的操作規(guī)范使用和維護(hù)數(shù)據(jù)庫,主要是檔案目錄及原文數(shù)據(jù),檔案館業(yè)務(wù)流程、服務(wù)、系統(tǒng)日志、用戶信息、庫房管理等方面的記錄。非結(jié)構(gòu)化數(shù)據(jù)是指不方便使用二維邏輯表來表現(xiàn)的數(shù)據(jù),每個字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成數(shù)據(jù)庫。其中,非結(jié)構(gòu)化數(shù)據(jù)占檔案館大數(shù)據(jù)總量的85%以上,是圖書館大數(shù)據(jù)的主要形式。

        本文針對高校各業(yè)務(wù)系統(tǒng)產(chǎn)生的非結(jié)構(gòu)化多來源數(shù)據(jù),進(jìn)行融合管理研究。針對非結(jié)構(gòu)化的數(shù)據(jù),需要在充分收集多種來源信息的基礎(chǔ)上,綜合運用多種方法進(jìn)行分析與判斷,找出具有存檔價值的信息,予以整理和保管,以備將來為教職工和其他社會人士提供利用。

        2.檔案館非結(jié)構(gòu)化大數(shù)據(jù)的特點

        高校檔案館面臨的非結(jié)構(gòu)化數(shù)據(jù)存在著數(shù)據(jù)來源眾多,數(shù)據(jù)格式不同,數(shù)據(jù)信息內(nèi)容不重復(fù)等多種特點。這些特點可以成為非結(jié)構(gòu)化數(shù)據(jù)分類管理的依據(jù)。

        (1)數(shù)據(jù)來源多樣性

        非結(jié)構(gòu)化的數(shù)據(jù)來源于校內(nèi)和校外的多種活動,其中大部分都是校內(nèi)產(chǎn)生。高校的教學(xué)、科研和管理活動產(chǎn)生了核心的檔案信息,如教學(xué)課件、教學(xué)視頻、圖像、論文、專利、產(chǎn)品、電子郵件、網(wǎng)頁、及時通訊信息等數(shù)據(jù)。校外產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)有重大活動報道網(wǎng)頁、音頻視頻文件、照片、往來電子郵件、電子發(fā)票、申報信息等數(shù)據(jù)。信息來源不同的非結(jié)構(gòu)化數(shù)據(jù)在檔案的四性(即真實性、完整性、可用性和安全性)方面存在著巨大的差異,檔案工作針對不同來源的數(shù)據(jù)應(yīng)改進(jìn)行分類收集、整理、存儲、管理和提供利用。

        (2)多數(shù)據(jù)格式的并存

        由于目前多數(shù)高校已經(jīng)開展數(shù)字化校園建設(shè),各項工作的開展都離不開業(yè)務(wù)系統(tǒng)的輔助,而每種業(yè)務(wù)系統(tǒng)可能是針對不同的工作內(nèi)容開發(fā),因此這些業(yè)務(wù)系統(tǒng)往往生成對應(yīng)格式的非結(jié)構(gòu)化數(shù)據(jù),包括版式文件、圖片、二維矢量文件、三維矢量文件、XML、HTML、音頻、視頻、報表等。每種格式的數(shù)據(jù)類型、數(shù)據(jù)大小、通用性等均不盡相同,而且還會出現(xiàn)因業(yè)務(wù)系統(tǒng)的更替,數(shù)據(jù)格式前后不一致的可能。在當(dāng)前的環(huán)境下,仍沒有出現(xiàn)一種技術(shù)可以處理所有格式的數(shù)據(jù)。因此,高校檔案館必須根據(jù)學(xué)校的發(fā)展、用戶的需求及提供服務(wù)利用的多重角度考慮,制定各種檔案數(shù)據(jù)格式的存檔標(biāo)準(zhǔn),對應(yīng)地進(jìn)行設(shè)計標(biāo)準(zhǔn)化存儲或者兼容式存儲的分層級存儲系統(tǒng),以實現(xiàn)不同數(shù)據(jù)格式的自由轉(zhuǎn)換,最終才能充分利用這些非結(jié)構(gòu)化數(shù)據(jù)檔案。

        (3)數(shù)據(jù)主體特指性強(qiáng)

        在高校檔案館中,產(chǎn)生非結(jié)構(gòu)化數(shù)據(jù)的主體主要是檔案館專兼職檔案員,在校師生及校友。還有極少量的學(xué)校外部參與者,校外參與者利用檔案資源的頻率遠(yuǎn)遠(yuǎn)低于前者。因而,從用戶的角度有效分析檔案館專兼職檔案員,在校師生及校友的數(shù)據(jù)需求,將已經(jīng)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)進(jìn)行分類,就能夠把握非結(jié)構(gòu)化數(shù)據(jù)發(fā)展的規(guī)模和質(zhì)量,再經(jīng)過分析便可得出當(dāng)前用戶的需求。

        (4) 數(shù)據(jù)內(nèi)容不重復(fù)

        與傳統(tǒng)的檔案的收集有一點不同的是,非結(jié)構(gòu)化的數(shù)據(jù)內(nèi)容不應(yīng)重復(fù),傳統(tǒng)紙質(zhì)檔案和實物檔案允許保存多份實體作為副本,但非結(jié)構(gòu)化數(shù)據(jù)因為其計算機(jī)復(fù)制技術(shù)十分便捷,占用的存儲空間又十分龐大,因此為了給檔案系統(tǒng)的運行減輕冗余,原則上不應(yīng)該重復(fù)。對整個檔案館的電子數(shù)據(jù)在保管過程中可以做雙份異地備份。

        三、高校檔案館非結(jié)構(gòu)化大數(shù)據(jù)的融合機(jī)制

        由于非結(jié)構(gòu)化數(shù)據(jù)的以上特性,需要對數(shù)據(jù)進(jìn)行融合管理??扇诤系臄?shù)據(jù)必須具有以下共性,一般是同一個主題的數(shù)據(jù)。數(shù)據(jù)往往會具有互補(bǔ)性,不同信息源的數(shù)據(jù)從著錄字段上或者記錄上具有互補(bǔ)性,以保證數(shù)據(jù)的完整性與覆蓋面。將收集的非結(jié)構(gòu)化數(shù)據(jù)分為3個方面:數(shù)據(jù)濾重、數(shù)據(jù)拆分、數(shù)據(jù)統(tǒng)計,每個方面都涉及到具體的技術(shù)細(xì)節(jié)與不同的處理方法。

        1.部分非結(jié)構(gòu)化數(shù)據(jù)可轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)

        在搜集的非結(jié)構(gòu)化數(shù)據(jù)中,許多都可以轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理。如圖片、XML、HTML、報表、電子郵件等靜態(tài)數(shù)據(jù),可通過截圖的形式轉(zhuǎn)換為JPG或PDF格式,用原文的形式存儲于檔案管理系統(tǒng)內(nèi),這樣就可以實現(xiàn)此部分的非結(jié)構(gòu)化數(shù)據(jù)與已有的結(jié)構(gòu)化數(shù)據(jù)融合。

        2.無法轉(zhuǎn)換的非結(jié)構(gòu)化數(shù)據(jù)采用特殊數(shù)據(jù)庫單獨管理

        非結(jié)構(gòu)化中的大量組成部分是音頻、視頻等數(shù)據(jù),它們盡管無法保存在已有的檔案系統(tǒng)統(tǒng)一管理,但與結(jié)構(gòu)化的數(shù)據(jù)是息息相關(guān)的,因此需要采用特殊的數(shù)據(jù)庫單獨管理,并與結(jié)構(gòu)化的檔案信息系統(tǒng)對應(yīng)的字段建立聯(lián)系。在提取的非結(jié)構(gòu)化數(shù)據(jù)時,有可能出現(xiàn)一個文件包括多個主題的情況,這時需要對其進(jìn)行著錄字段的拆分,將主題進(jìn)行歸類。數(shù)據(jù)查重過濾,指數(shù)據(jù)融合過程中的許多字段表達(dá)含義相同,但卻說法不一,可以選用其中一個字段來代替,或者為字段另外選一個名字,例如“70年校慶”與“七十年校慶”,我們可以都確定為“七十周年校慶”,也都定位到“校慶”。經(jīng)過數(shù)據(jù)的拆分、查重過濾后,我們可以利用統(tǒng)計軟件,分析出某一時間段內(nèi)高校檔案利用的熱點,提高服務(wù)水平。

        3.需針對動態(tài)的非結(jié)構(gòu)化數(shù)據(jù)開發(fā)相應(yīng)的管理程序

        除以上非結(jié)構(gòu)化數(shù)據(jù),還有一部分通過視頻、微博、微信公眾號、QQ咨詢等各網(wǎng)絡(luò)媒體產(chǎn)生的信息日益增加,數(shù)據(jù)的類型更加復(fù)雜,數(shù)據(jù)的融合更加重要。因為這些數(shù)據(jù)具有及時性、動態(tài)性和不確定性,目前流行的可視化軟件和工具很難套用管理。針對這類非結(jié)構(gòu)化數(shù)據(jù),需要研究開發(fā)出相應(yīng)的程序來管理,能夠自動調(diào)整以滿足動態(tài)的、不確定的特點。

        參考文獻(xiàn):

        [1]What is Big Data [EB/OL] [20141007] .Http://www.amchamchina.org/article/102

        [2]郭春霞.大數(shù)據(jù)環(huán)境下高校圖書館非結(jié)構(gòu)化數(shù)據(jù)融合分析[J].圖書館學(xué)研究,2015(05)

        [3]沈紅雨.高校非結(jié)構(gòu)化檔案數(shù)據(jù)的數(shù)據(jù)庫管理技術(shù)應(yīng)用與比較研究[J].浙江檔案,2016(01)

        [4]陳 臣.基于Hadoop的圖書館非結(jié)構(gòu)化大數(shù)據(jù)分析與決策系統(tǒng)研究[J].情報科學(xué),2017(01)

        [5]李翠萍,常 娥.大數(shù)據(jù)時代數(shù)字圖書館發(fā)展淺析[J].江蘇技術(shù)師范學(xué)院學(xué)報,2013年05期

        [6]李小剛,謝詩藝,程 舒.大數(shù)據(jù)時代檔案館服務(wù)創(chuàng)新研究[J];北京檔案,2013年11期

        [7]黃少芳,劉曉鴻,張俊芳.論高校檔案信息化與數(shù)字檔案館建設(shè)[J];中國地質(zhì)教育,2013年02期

        [8]郭振橋,王新玲.淺論大數(shù)據(jù)在未來圖書館服務(wù)中的應(yīng)用[J];內(nèi)蒙古科技與經(jīng)濟(jì),2013年16期

        作者簡介:彭柳,館員,中南民族大學(xué)檔案館(校史館)信息與技術(shù)室負(fù)責(zé)人,主要從事檔案數(shù)字化建設(shè)技術(shù)研究。

        基金項目:本文由中南民族大學(xué)中央高??蒲袠I(yè)務(wù)費社科專項資金項目資助(CSQ19039)

        猜你喜歡
        檔案大數(shù)據(jù)
        拓展節(jié)能檔案數(shù)字化利用的探索
        時代金融(2016年23期)2016-10-31 13:17:24
        芻議供電單位檔案管理
        如何做好鄉(xiāng)鎮(zhèn)計劃生育檔案管理工作
        檔案的開發(fā)利用在供電公司全面管理中的作用
        淺談北京衛(wèi)視《檔案》的敘述方式
        新聞世界(2016年10期)2016-10-11 20:31:45
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        新常態(tài)下高校檔案工作發(fā)展研究
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        久久久久久久一线毛片| 亚洲中文字幕亚洲中文| 久久精品国产亚洲综合av| 中文字幕女同人妖熟女| 亚洲综合日韩一二三区| 少妇被猛烈进入到喷白浆| 女人喷潮完整视频| 国产suv精品一区二区| 久久一日本道色综合久久大香| 亚洲成熟丰满熟妇高潮XXXXX| 亚洲av乱码国产精品观| 极品粉嫩小仙女高潮喷水网站 | 欧美 国产 日产 韩国 在线 | 美女扒开腿露内裤免费看| 激情人妻另类人妻伦| 亚洲av日韩综合一区二区三区| 手机看片福利一区二区三区| 初尝黑人巨砲波多野结衣| 精品乱子伦一区二区三区 | 日韩久久免费精品视频| 日韩精品人妻视频一区二区三区| 亚洲中字幕日产av片在线| 久久精品国产亚洲av蜜臀| 亚洲第一网站免费视频| 国产亚洲精品hd网站| 男男做h嗯啊高潮涩涩| 国产va免费精品观看精品| 伊人久久大香线蕉av一区| 亚洲一区爱区精品无码| 日韩极品视频在线观看免费| 亚洲美女一区二区三区三州| 国产精品蝌蚪九色av综合网| 久久人与动人物a级毛片| 91精品国产免费青青碰在线观看| 中文字幕熟女激情50路| 国产亚洲美女精品久久久2020| 亚洲欧美精品伊人久久| 国产aⅴ天堂亚洲国产av| 亚洲黄色官网在线观看| 国产69精品麻豆久久| 欧美人牲交|