亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        檔案工作中大數(shù)據(jù)框架構(gòu)建及應(yīng)用思考

        2014-03-10 11:55:40劉國華,李澤鋒
        檔案管理 2014年2期
        關(guān)鍵詞:檔案信息化大數(shù)據(jù)

        劉國華,李澤鋒

        摘 要:依據(jù)大數(shù)據(jù)定義,簡要分析檔案資源符合大數(shù)據(jù)特征,構(gòu)建檔案工作中的大數(shù)據(jù)框架,指出目前檔案工作開展大數(shù)據(jù)條件尚不具備,但應(yīng)從服務(wù)觀念、檔案信息質(zhì)量、檔案資源云平臺構(gòu)建三個方面為大數(shù)據(jù)應(yīng)用做好準(zhǔn)備,并以鄭州市為案例分析了大數(shù)據(jù)試點的研究思路與實施路徑。

        關(guān)鍵詞:大數(shù)據(jù);檔案信息化;主動服務(wù)

        1 大數(shù)據(jù)研究現(xiàn)狀

        1.1 大數(shù)據(jù)含義。大數(shù)據(jù)(big data),或稱“巨量資料”,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到獲取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的數(shù)據(jù),即不能用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法。[1]亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser提到一個簡單定義:大數(shù)據(jù)就是任何超過一臺計算機處理能力的龐大數(shù)據(jù)量。[2]

        上述定義盡管表述不完全一致,如何定義大數(shù)據(jù)到目前為止仍然沒有具體的標(biāo)準(zhǔn)形態(tài),但基本體現(xiàn)了大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

        1.2 研究現(xiàn)狀。通過對CNKI以大數(shù)據(jù)為主題詞檢索,得到相關(guān)文獻(xiàn)4434條。進一步縮小范圍,在圖書情報與檔案一級學(xué)科中檢索,獲得文獻(xiàn)39篇,其中檔案學(xué)方面文章2篇。這些文章研究角度各異,或從圖書館服務(wù)角度,或從競爭情報角度等,偏重于圖書情報二級學(xué)科。檔案學(xué)方面,周楓[3]剖析了大數(shù)據(jù)給檔案館帶來的影響,并據(jù)此提出了大數(shù)據(jù)時代檔案館生存與發(fā)展的相關(guān)策略;李小晨[4]介紹了在檔案管理中運用大數(shù)據(jù)技術(shù)的策略。

        國外對大數(shù)據(jù)研究較深,檔案領(lǐng)域中也已有實際應(yīng)用。如EMC與梵蒂岡檔案館合作將82000件珍貴古代手稿數(shù)字化,通過大數(shù)據(jù)讓更多人通過互聯(lián)網(wǎng)閱讀原版手稿。[5]

        從以上分析可以看出,大數(shù)據(jù)已成為我國信息研究方面的熱點,但在檔案學(xué)方面的研究尚未開始。本文擬從大數(shù)據(jù)與檔案工作的關(guān)系、架構(gòu)、實施可行性等方面進行分析,并就大數(shù)據(jù)在檔案工作進行試點展開討論。

        2 大數(shù)據(jù)框架構(gòu)建

        2.1 檔案資源符合大數(shù)據(jù)特征

        (1)檔案數(shù)據(jù)體量巨大(Volume)。目前,單個國家綜合檔案館檔案資源總量基本達(dá)到了TB級,考慮到每個檔案館檔案資源的不同,以及各類檔案部門保存的檔案數(shù)量,必將達(dá)到PB級甚至EB級。據(jù)統(tǒng)計,2011年,各級國家檔案館館藏已達(dá)3.3億卷,到2020年,館藏將達(dá)到6億多卷。[6]如果加上企事業(yè)各類檔案部門館藏,將是一個海量資源庫。

        目前,各類檔案館正在開展數(shù)字化建設(shè)與電子文件管理,進行資源整合。如,鄭州市檔案館擬對850萬卷檔案進行數(shù)字化,并對鄭州市所屬5區(qū)6縣的檔案資源建設(shè)統(tǒng)一的資源整合平臺。

        (2)檔案資源種類繁多(Variety)。檔案資源以文本類為主,還有大量的音視頻檔案、照片圖片檔案、圖紙、憑證檔案、地理信息、網(wǎng)絡(luò)日志等,都是非結(jié)構(gòu)化數(shù)據(jù),描述這些檔案資源的元數(shù)據(jù)又是結(jié)構(gòu)化數(shù)據(jù)。海量結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的混合正是傳統(tǒng)數(shù)據(jù)處理難以解決的問題,符合大數(shù)據(jù)的多樣性特征。

        (3)檔案價值高,但價值密度低。檔案留存著社會的歷史記憶,具有很高的歷史價值。然而對當(dāng)前應(yīng)用來說,海量檔案信息,每次可能利用的數(shù)據(jù)非常少,存在著價值密度低的特點。如視頻,連續(xù)不間斷攝制過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。這些檔案信息蘊含著巨大潛能,需要人員、流程與技術(shù)的密切配合,方能將其轉(zhuǎn)化為更大的真正價值。

        (4)處理速度要求高。大數(shù)據(jù)要求實時或近乎實時的處理速度,這對企事業(yè)單位來說沒問題,對于國家檔案館來說好像要求過高,其實不然。傳統(tǒng)檔案利用方式是被動等待用戶來查找原始信息,給社會留下“故紙堆”印象。如果改被動服務(wù)為及時、準(zhǔn)確的主動服務(wù),這種主動服務(wù)不僅提供檔案原始信息,還應(yīng)提供BI、預(yù)測分析、內(nèi)容分析、輔助決策分析等。

        2.2 檔案工作中大數(shù)據(jù)架構(gòu)分析。其實大數(shù)據(jù)并不是現(xiàn)在才有的,也并不神秘,古已有之。檔案學(xué)中的檔案編纂與編研實際上就是大數(shù)據(jù)的處理過程,如,檔案編研工作的一般程序是選題、選材、加工編輯、總纂與審核。其中選材包括搜集素材、確定素材與考訂素材三個步驟。這個過程是人工處理,在浩瀚的檔案中選取合適的數(shù)據(jù)不是一件容易的事,有時還需要到其他檔案館去查找,這是一個長期而艱巨的任務(wù),往往需要幾個月甚至數(shù)年去完成。

        在信息化時代,可以依托信息技術(shù)構(gòu)建大數(shù)據(jù)處理流程,如圖1所示。

        圖1 大數(shù)據(jù)處理流程

        圖1中,數(shù)據(jù)源是各檔案館館藏檔案資源,這些館藏資源應(yīng)該是數(shù)字化結(jié)果或電子文件。目前,各級各類檔案館正在大力開展檔案數(shù)字化與電子文件管理項目建設(shè),為大數(shù)據(jù)數(shù)據(jù)源奠定了基礎(chǔ)。為順利實現(xiàn)下一步信息整合與治理,應(yīng)在標(biāo)準(zhǔn)基礎(chǔ)上構(gòu)建全國性電子文件與數(shù)字化成果管理與服務(wù)體系,如基于OAIS的全國性管理體系。[7]

        高速網(wǎng)絡(luò)則是為了海量檔案資源的傳輸。以TB甚至PB級的數(shù)據(jù)依賴Internet傳輸將耗費太長時間,數(shù)據(jù)容易丟失,必須以High-Performance Networks(如UltraScience Net、ESnet5/OSCARS等)為基礎(chǔ),以便順利將數(shù)據(jù)傳輸集中于一個大的服務(wù)器集群進行信息整合與治理、大數(shù)據(jù)處理。

        信息整合與治理則是在超級計算機或服務(wù)器集群中對傳輸來的各級各類檔案數(shù)據(jù)進行數(shù)據(jù)質(zhì)量治理并管理信息生命周期。通過聚類、相似性分析等分析檔案數(shù)據(jù)間的有機聯(lián)系。

        大數(shù)據(jù)處理包含語境搜索、數(shù)據(jù)倉庫、Hadoop系統(tǒng)。語境搜索指對檔案信息進行索引與聯(lián)邦搜索,在上一步信息整合基礎(chǔ)上進一步實現(xiàn)上下文協(xié)作洞察。數(shù)據(jù)倉庫是檔案數(shù)據(jù)按照預(yù)定規(guī)則進行存儲,進行先進的數(shù)據(jù)庫內(nèi)分析。Hadoop系統(tǒng)是一個分布式基礎(chǔ)架構(gòu),實現(xiàn)一個分布式文件系統(tǒng),適合超大數(shù)據(jù)集即大數(shù)據(jù),可以經(jīng)濟高效方式分析PB級的結(jié)構(gòu)化與非結(jié)構(gòu)化信息。

        可視化顯示利用最佳的可視化組合,收集、提取并探索大數(shù)據(jù)的處理結(jié)果。

        數(shù)據(jù)分析包括BI報告、預(yù)測分析、內(nèi)容分析、輔助決策分析等。在國家級檔案館,內(nèi)容分析是主要工作;在企事業(yè)單位,預(yù)測、BI、輔助決策更為有幫助。

        將上面內(nèi)容整合,可以得到圖2所示的檔案信息大數(shù)據(jù)平臺框架。

        圖2 檔案信息大數(shù)據(jù)平臺框架

        3 大數(shù)據(jù)在檔案信息化工作中應(yīng)用的思考

        3.1 可行性分析。盡管從理論上分析了檔案信息大數(shù)據(jù)平臺框架,但目前實施還是有相當(dāng)?shù)碾y度。實施大數(shù)據(jù)戰(zhàn)略需要“數(shù)據(jù)到位+應(yīng)用明確+手段成熟”的三位一體的戰(zhàn)略。這三個條件缺一不可,也即大數(shù)據(jù)發(fā)展的關(guān)鍵要素一是要擁有足夠多的大數(shù)據(jù),二是要有迫切且明確的大數(shù)據(jù)研究需求推動,三是要有一定的技術(shù)積累和成熟度。

        從這三個條件來看,檔案部門準(zhǔn)備得并不充分。檔案館具有足夠多的數(shù)據(jù),但這些數(shù)據(jù)大部分以傳統(tǒng)介質(zhì)存在,檔案數(shù)字化并沒有覆蓋所有館藏,電子文件管理剛開始走上正軌起步,大數(shù)據(jù)收集最重要,但這是一件長期且困難的事情。檔案部門長期以來利用思想是提供原始信息的被動查詢,還談不上迫切且明確的大數(shù)據(jù)研究需求,即使在企事業(yè)單位,檔案部門也很難做到主動提供服務(wù),利用好大數(shù)據(jù),依然需要敏銳的洞察和創(chuàng)新的思維,這是檔案部門比較欠缺的。一定的技術(shù)積累與成熟度對于檔案部門目前更是困難。

        綜合上述分析,大數(shù)據(jù)目前在我國檔案部門開展有相當(dāng)大的難度。如果依靠檔案部門自己,目前幾乎是不可行的。但并不表示面對大數(shù)據(jù),檔案部門無所作為,可以做好迎接大數(shù)據(jù)的準(zhǔn)備工作,同時借助外力開展試點工作。

        3.2 做好大數(shù)據(jù)應(yīng)用準(zhǔn)備

        (1)轉(zhuǎn)變服務(wù)觀念。目前大多數(shù)檔案部門依然是幾十年前的服務(wù)觀念:被動等待利用者。提供的服務(wù)主要還是檔案信息內(nèi)容。隨著檔案信息化工作的開展,檔案目錄、部分檔案全文經(jīng)數(shù)字化后上網(wǎng)供利用者瀏覽,這是主動服務(wù)思想的體現(xiàn)。一些檔案部門也在嘗試開展進一步的主動服務(wù)工作,如,北京房山區(qū)提出“基于數(shù)據(jù)挖掘的檔案信息資源深度開發(fā)與利用”等,盡管是傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,但服務(wù)的主動性已有了很大提升。

        面對大數(shù)據(jù),這種轉(zhuǎn)變尚不夠。大數(shù)據(jù)數(shù)據(jù)量大、查詢分析復(fù)雜,更重要的是精準(zhǔn)把握利用者的需求。然而利用者很多時候并不知道準(zhǔn)確的需求,需要檔案管理人員主動深入了解業(yè)務(wù),明確需求,準(zhǔn)備相應(yīng)數(shù)據(jù),尤其對企事業(yè)單位檔案部門更應(yīng)該如此。

        (2)治理檔案質(zhì)量。治理檔案質(zhì)量,首先是數(shù)量。各級檔案館應(yīng)繼續(xù)大力開展檔案數(shù)字化項目,盡可能將館藏傳統(tǒng)檔案進行數(shù)字化,如果數(shù)字化率較低,數(shù)據(jù)肯定不全有遺漏;抓緊實施電子文件管理工程,進行電子文件收集管理與保存工作。

        由于與載體的不可分離,同一份傳統(tǒng)檔案可能在多個全宗或立檔單位都存在,在大數(shù)據(jù)處理前需要查重,以免增加超級計算機或服務(wù)器集群的負(fù)擔(dān)。查重有兩種方法,一是利用檔案目錄。各檔案部門基本都已建設(shè)自己館藏的檔案條目,先把條目上傳,根據(jù)條目比對檔案的重復(fù)性,將結(jié)果反饋給相應(yīng)檔案部門。以一個檔案部門為主進行數(shù)字化,其他部門或下載拷貝或通過鏈接關(guān)聯(lián)相應(yīng)檔案。該方法條目上傳到上一級檔案部門(如省級檔案館甚至國家檔案局),由上級檔案部門統(tǒng)籌安排數(shù)字化。該方法優(yōu)點是節(jié)省資源,有限的資源可以盡可能多地數(shù)字化,缺點是協(xié)調(diào)、統(tǒng)籌不容易。另一種方法則是各部門分別數(shù)字化自己的館藏,將數(shù)字化結(jié)果全部上傳到數(shù)據(jù)治理計算機,由數(shù)據(jù)治理計算機進行全文比對查重。該方法優(yōu)點是比對準(zhǔn)確,缺點是資源有所浪費,同時加重了數(shù)據(jù)治理服務(wù)器的負(fù)擔(dān)。

        (3)規(guī)劃全國性或區(qū)域性的檔案資源云服務(wù)。

        大數(shù)據(jù)的基礎(chǔ)是云計算,同時檔案信息資源的整合也應(yīng)該建立在云計算基礎(chǔ)之上,可以考慮建設(shè)全國或區(qū)域性的公有云,實現(xiàn)全國或區(qū)域內(nèi)檔案條目的集中與共享,實現(xiàn)查重檔案的存放與共享,甚至可以實現(xiàn)區(qū)域內(nèi)所有電子文件、數(shù)字檔案的存儲,下級檔案部門保留檔案鏈接地址即可。這樣的前提是訪問公有云是高速網(wǎng)絡(luò)。公有云下,區(qū)域內(nèi)檔案部門可以建設(shè)自己的私有云。檔案云資源的建設(shè)使得大數(shù)據(jù)平臺有了強有力的數(shù)據(jù)支撐。

        (4)借助外力,試點開展大數(shù)據(jù)研究。本文以鄭州市為案例,簡要分析開展大數(shù)據(jù)的試點研究路徑。鄭州市新檔案館2011年建成,信息化建設(shè)較為完備,構(gòu)建了涵蓋鄭州市下轄6區(qū)5縣的檔案信息整合平臺??梢钥紤]以此為公有云基礎(chǔ),將6區(qū)5縣檔案館藏目錄及數(shù)字化成果納入進來,對檔案信息進行整合。鄭州大學(xué)建設(shè)了高性能計算中心,包含90個瘦計算節(jié)點、10個胖計算節(jié)點,共2336個計算核心,理論峰值49.7萬億次,56GbIB計算網(wǎng)絡(luò),以此作為服務(wù)器集群硬件進行信息治理與大數(shù)據(jù)計算。河南教育網(wǎng)(Hernet)于2014年建設(shè)成10G光網(wǎng)絡(luò),鄭州市新檔案館通過Hernet(河南教育網(wǎng))將數(shù)據(jù)傳輸?shù)洁嵵荽髮W(xué),依托鄭州大學(xué)進行大數(shù)據(jù)試點處理。處理結(jié)果通過河南教育網(wǎng)傳輸?shù)洁嵵菔袡n案局,提請專家分析數(shù)據(jù)。假定要分析研究鄭州市霧霾形成原因及變化,可采取以下大數(shù)據(jù)試點研究路徑:6區(qū)5縣的工業(yè)信息、汽車信息等理論上形成霧霾原因的相關(guān)信息—河南教育網(wǎng)—鄭州市新館信息平臺—查重—河南教育網(wǎng)—鄭州大學(xué)高性能計算中心—河南教育網(wǎng)—鄭州市新館服務(wù)器集群—專家分析—分析報告、輔助決策。這樣一個過程還需要分析建模,并作更進一步的研究。

        ﹡本文是國家社科基金項目“檔案網(wǎng)站信息資源開發(fā)與服務(wù)(09BTQ029)”階段性成果。

        參考文獻(xiàn):

        [1]維克托·邁爾-舍爾維恩、肯尼斯·庫克耶.《大數(shù)據(jù)時代》[M].杭州:浙江人民出版社,2013:39.

        [2]一個亞馬遜數(shù)據(jù)科學(xué)家關(guān)于大數(shù)據(jù)時代的職業(yè)分析.http://www.i#cn/article/0Z22H12013.html(檢索日期:2013年12月20日).

        [3]周楓.大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8).

        [4]李小晨.大數(shù)據(jù)時代背景下的檔案管理探討[J].云南檔案,2013(6).

        [5]EMC:大數(shù)據(jù)先鋒,http://china.emc.com/microsites/bigdata2013W3/index.htm?reg=IN1&M=06388987-2697-4CE4-A2E0-764926E1C82F.

        [6]楊冬權(quán).關(guān)于隨館藏數(shù)量增加而相應(yīng)增加各級國家檔案館人員編制的提案[N].中國檔案報,2013-3-7,第001版.

        [7]李澤鋒.基于OAIS的電子文件服務(wù)體系構(gòu)建[J].檔案學(xué)通訊,2011(7).

        (作者單位:鄭州航空工業(yè)管理學(xué)院 來稿日期:2013-12-20)

        猜你喜歡
        檔案信息化大數(shù)據(jù)
        信息時代高校檔案信息化建設(shè)研究
        中職院校檔案管理工作存在的問題及措施
        青春歲月(2016年22期)2016-12-23 10:11:49
        淺析高校檔案信息化建設(shè)
        醫(yī)院檔案信息化管理存在的問題與對策
        檔案信息化的思考
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        對檔案信息化管理的理性思考
        未來英才(2016年1期)2007-12-26 00:35:15
        粉嫩的18在线观看极品精品| 麻豆影视视频高清在线观看| 国产精品久久久久久影视| 久久久久久久中文字幕| 亚洲国色天香卡2卡3卡4| 少妇人妻真实偷人精品视频| 国产精品系列亚洲第一| 日韩精品免费一区二区中文字幕| 91偷自国产一区二区三区| 极品老师腿张开粉嫩小泬| 最近最新中文字幕| 日韩欧美国产丝袜视频| 中文字幕成人乱码亚洲| 亚洲熟女乱一区二区三区| 国产日韩欧美一区二区东京热| 成人免费一区二区三区| 9久久精品视香蕉蕉| 亚洲av精品一区二区| 国内自拍速发福利免费在线观看 | 亚洲妇熟xxxx妇色黄| 成人欧美一区二区三区的电影| 欧美日韩精品一区二区三区高清视频| 在线免费观看国产视频不卡| 日韩av天堂一区二区| 久久久久久久久毛片精品| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 国产一区二区三区免费在线视频| 日韩va高清免费视频| 久久久国产精品无码免费专区| 欧美成人精品午夜免费影视| 精品无码av不卡一区二区三区| 国产av一区二区三区国产福利| 国产精品熟女一区二区三区| 亚洲国产精品无码专区在线观看 | 欧美激情肉欲高潮视频| 国产又爽又粗又猛的视频| 亚洲欧美日韩中文字幕网址| 一本久道在线视频播放| 日本av在线一区二区| 被黑人猛躁10次高潮视频| 亚洲欧美日韩国产综合久|