亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        檔案部門(mén)大數(shù)據(jù)初探

        2014-12-04 12:29:30鐘奕思
        辦公室業(yè)務(wù) 2014年16期
        關(guān)鍵詞:數(shù)據(jù)量結(jié)構(gòu)化檔案館

        文/鐘奕思

        2010 年,全球數(shù)據(jù)量跨入了ZB時(shí)代,根據(jù)國(guó)際數(shù)據(jù)資訊(IDC)公司監(jiān)測(cè),全球數(shù)據(jù)量大約每?jī)赡攴环?,預(yù)計(jì)到2020 年,全球?qū)碛?5ZB的數(shù)據(jù)量,信息數(shù)據(jù)以驚人的速度爆炸式地增長(zhǎng)。同時(shí),信息數(shù)據(jù)已經(jīng)滲透到社會(huì)生活的方方面面,深刻影響著我們的生活工作乃至國(guó)家經(jīng)濟(jì)、社會(huì)發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。

        一、大數(shù)據(jù)的概念、內(nèi)涵

        大數(shù)據(jù)是以目前的工具和信息處理能力無(wú)法有效采集、管理、處理和分析的信息或數(shù)據(jù)集合。一般認(rèn)為,大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)和交互數(shù)據(jù)。大數(shù)據(jù)是數(shù)字化信息時(shí)代的產(chǎn)物。伴隨著信息數(shù)據(jù)爆炸性增長(zhǎng)、數(shù)據(jù)類型增加、信息流動(dòng)速度增快,人們面臨著信息數(shù)據(jù)處理難度增大的狀況。

        大數(shù)據(jù)的特點(diǎn)可用“4V”來(lái)描述:(1)Volume(體量),數(shù)據(jù)量龐大是大數(shù)據(jù)最明顯的特征,數(shù)據(jù)規(guī)模往往達(dá)到PB 級(jí)。(2)Variety(多樣化),大數(shù)據(jù)包括了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)以及交互數(shù)據(jù),而且以非結(jié)構(gòu)化數(shù)據(jù)為主;不同類型數(shù)據(jù)在數(shù)據(jù)來(lái)源、編碼方式、數(shù)據(jù)格式、應(yīng)用特征等多個(gè)方面存在差異。(3)Velocity(速度),大數(shù)據(jù)快速動(dòng)態(tài)變化,形成流式數(shù)據(jù),要求實(shí)時(shí)處理,快速反應(yīng)。(4)Vitality(密度),大數(shù)據(jù)規(guī)模龐大、增長(zhǎng)速度快,但信息價(jià)值密度反而降低,隱藏在海量數(shù)據(jù)中的有用信息并沒(méi)有隨著數(shù)據(jù)量的增長(zhǎng)相應(yīng)增長(zhǎng),反而使我們獲取有用信息的難度加大。

        二、檔案部門(mén)的大數(shù)據(jù)

        在大數(shù)據(jù)時(shí)代背景下,檔案部門(mén)、檔案管理工作也受到“大數(shù)據(jù)”洪潮的影響,出現(xiàn)了新變化。檔案部門(mén)面臨著大數(shù)據(jù)帶來(lái)的挑戰(zhàn)。

        (一)檔案部門(mén)大數(shù)據(jù)的來(lái)源。檔案部門(mén)保管的數(shù)據(jù)信息主要來(lái)源于兩方面:一是檔案館(室)收集的檔案資源,包括檔案館(室)接收的電子文件、數(shù)碼照片、音頻、視頻,以及紙質(zhì)檔案、傳統(tǒng)載體聲像檔案數(shù)字化轉(zhuǎn)換形成的數(shù)字資源等。二是檔案部門(mén)管理檔案、開(kāi)展業(yè)務(wù)過(guò)程中產(chǎn)生的數(shù)據(jù),包括檔案管理系統(tǒng)數(shù)據(jù)庫(kù)文件、備份數(shù)據(jù),檔案管理系統(tǒng)與各業(yè)務(wù)系統(tǒng)對(duì)接形成的交換數(shù)據(jù),智能庫(kù)房傳感器收集到的庫(kù)房監(jiān)控?cái)?shù)據(jù),檔案網(wǎng)站、官方微博數(shù)據(jù)等。在大數(shù)據(jù)時(shí)代,各種機(jī)構(gòu)在業(yè)務(wù)活動(dòng)中產(chǎn)生的數(shù)據(jù)和信息大量增長(zhǎng),導(dǎo)致最終作為檔案保存下來(lái)的文件及信息數(shù)據(jù)相應(yīng)增多;檔案館(室)收集的檔案資源增加,進(jìn)而導(dǎo)致檔案部門(mén)在管理活動(dòng)中產(chǎn)生的信息數(shù)據(jù)也隨之增加。檔案部門(mén)保管的檔案資源和檔案管理信息數(shù)據(jù)增長(zhǎng)迅速、數(shù)量巨大,這些構(gòu)成了檔案部門(mén)的大數(shù)據(jù)。

        (二)檔案部門(mén)大數(shù)據(jù)的特征。

        1.信息數(shù)據(jù)量劇增。各機(jī)構(gòu)在業(yè)務(wù)活動(dòng)中產(chǎn)生的信息數(shù)據(jù)急劇增長(zhǎng),導(dǎo)致檔案部門(mén)收集保管的檔案資源快速增加。據(jù)統(tǒng)計(jì),2008年,全國(guó)各級(jí)國(guó)家檔案館共保存檔案1.93億卷,較上年增加1769萬(wàn)卷,增幅達(dá)10%,而到2011 年,各級(jí)國(guó)家檔案館館藏已達(dá)3.3億卷,到2020 年,各級(jí)國(guó)家檔案館館藏將達(dá)到6 億多卷。檔案數(shù)字資源和信息化檔案數(shù)據(jù)增長(zhǎng)更是迅速。在“十一五”期間,某特大型企業(yè)檔案館在信息化規(guī)劃項(xiàng)目中統(tǒng)一推廣實(shí)施檔案管理系統(tǒng),目前已建成的檔案目錄中心覆蓋集團(tuán)各單位,保存數(shù)據(jù)量高達(dá)400余萬(wàn)卷案卷、4000 余萬(wàn)件檔案,館藏存儲(chǔ)量已由GB 向TB 級(jí)和PB級(jí)轉(zhuǎn)變。隨著檔案信息化的開(kāi)展、數(shù)字檔案館(室)的建設(shè)以及檔案信息資源整合,各地各級(jí)檔案館(室)保存的檔案目錄信息和全文數(shù)據(jù)呈幾何級(jí)數(shù)增長(zhǎng),存儲(chǔ)數(shù)據(jù)量達(dá)到海量規(guī)模,形成一個(gè)巨大的檔案資源庫(kù)。

        2.信息數(shù)據(jù)類型多樣化。一方面,就檔案部門(mén)管理的檔案資源而言:傳統(tǒng)的檔案管理,管理對(duì)象以紙質(zhì)檔案為主,檔案部門(mén)對(duì)檔案信息的管理也是對(duì)檔案實(shí)體的管理。而在現(xiàn)今大數(shù)據(jù)時(shí)代,檔案部門(mén)管理的檔案類型多樣化,不但有傳統(tǒng)的紙質(zhì)檔案,還有大量的數(shù)字資源。檔案部門(mén)保管的信息數(shù)據(jù)范圍不僅包括數(shù)字資源本身的信息內(nèi)容,還包括其結(jié)構(gòu)、背景信息、元數(shù)據(jù)。檔案部門(mén)保管的檔案信息數(shù)據(jù)范圍擴(kuò)大了。另一方面,從檔案部門(mén)日常管理、提供服務(wù)產(chǎn)生的信息數(shù)據(jù)而言:隨著檔案信息化的開(kāi)展,檔案部門(mén)日常管理活動(dòng)形成大量的信息數(shù)據(jù),如檔案管理系統(tǒng)數(shù)據(jù)庫(kù)文件、備份數(shù)據(jù),檔案管理系統(tǒng)與各業(yè)務(wù)系統(tǒng)對(duì)接形成的交換數(shù)據(jù),智能庫(kù)房傳感器收集到的庫(kù)房監(jiān)控?cái)?shù)據(jù)等;檔案部門(mén)通過(guò)網(wǎng)站建設(shè)、官方微博等渠道開(kāi)展網(wǎng)絡(luò)服務(wù),與利用者進(jìn)行交互交流,從中搜集到的利用者信息(如利用者的地理位置、搜索歷史、搜索時(shí)間、瀏覽記錄等數(shù)據(jù))也越來(lái)越多。檔案部門(mén)管理的信息數(shù)據(jù)來(lái)源拓寬,類型多樣化。而且,檔案部門(mén)管理的信息數(shù)據(jù)結(jié)構(gòu)也在逐漸發(fā)生變化,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)類型增多。網(wǎng)頁(yè)、音頻、圖像和視頻等數(shù)字資源在檔案館(室)藏中的比重逐漸增加,成為未來(lái)館藏的重要來(lái)源。大量增加的利用者信息數(shù)據(jù)也將在利用服務(wù)中發(fā)揮重要作用。

        3.信息數(shù)據(jù)流動(dòng)速度快。以紙質(zhì)檔案為主的傳統(tǒng)檔案管理中,信息數(shù)據(jù)的流動(dòng)往往與紙質(zhì)檔案實(shí)體的傳遞同步,信息數(shù)據(jù)的流動(dòng)基本依附于實(shí)體,因此信息數(shù)據(jù)的流動(dòng)速度受到限制。而在大數(shù)據(jù)時(shí)代,檔案信息數(shù)據(jù)的傳播、傳遞并不依附于載體,尤其對(duì)于數(shù)字化的檔案資源,借助計(jì)算機(jī)網(wǎng)絡(luò)傳播,信息數(shù)據(jù)流動(dòng)速度大大加快,甚至可以實(shí)現(xiàn)網(wǎng)絡(luò)上的實(shí)時(shí)交互。

        4.信息價(jià)值密度降低,有用信息獲取難度增大。隨著檔案信息數(shù)據(jù)急劇增長(zhǎng)、類型多樣化,隱藏在海量數(shù)據(jù)中的有用信息卻沒(méi)有隨著數(shù)據(jù)量的增長(zhǎng)而相應(yīng)增長(zhǎng),反而使我們獲取有用信息的難度加大。我們感受最為明顯的是,隨著檔案管理系統(tǒng)數(shù)據(jù)量的增大,在進(jìn)行檔案查詢時(shí),需要的信息容易埋沒(méi)在大量的不需要的數(shù)據(jù)中,增加了查詢的時(shí)間,降低檢索性能。單一檔案館(室)內(nèi)保存的檔案信息數(shù)據(jù)格式、編碼方式、應(yīng)用特征等形式多樣化,各館(室)之間更是差異明顯,從而形成了大量的異構(gòu)數(shù)據(jù),使得“信息孤島”問(wèn)題突出,檔案信息數(shù)據(jù)共享、異構(gòu)數(shù)據(jù)信息整合面臨困難。檔案部門(mén)與利用者網(wǎng)絡(luò)交互產(chǎn)生的大量數(shù)據(jù),以非結(jié)構(gòu)化、半結(jié)構(gòu)化的形式存在,如何從中提取出有用的信息、提升檔案服務(wù)質(zhì)量,也是我們面臨的難題。

        三、大數(shù)據(jù)給檔案部門(mén)帶來(lái)的挑戰(zhàn)

        檔案部門(mén)收集管理的檔案資源以及管理檔案、開(kāi)展業(yè)務(wù)活動(dòng)過(guò)程中產(chǎn)生的龐大數(shù)據(jù)信息,構(gòu)成了檔案部門(mén)大數(shù)據(jù)的來(lái)源。這些數(shù)據(jù)信息增長(zhǎng)迅速、類型多樣化、流動(dòng)速度加快、價(jià)值密度降低的特點(diǎn)和變化,給檔案部門(mén)在檔案保管、鑒定、利用等環(huán)節(jié)帶來(lái)了新的挑戰(zhàn)。

        (一)大數(shù)據(jù)帶來(lái)的檔案保管壓力。與檔案信息數(shù)據(jù)急劇增長(zhǎng)伴隨而來(lái)的是檔案保管的壓力。目前,不僅傳統(tǒng)檔案管理會(huì)出現(xiàn)“脹庫(kù)”,即由于庫(kù)房容量有限導(dǎo)致新增加的檔案無(wú)法正常存儲(chǔ)到庫(kù)房中,而且數(shù)字資源的保存也面臨著類似的問(wèn)題,常常會(huì)碰到無(wú)法向數(shù)據(jù)庫(kù)中增加新的檔案數(shù)據(jù)的情況。近年來(lái),在各級(jí)檔案工作評(píng)估檢查中,由于檔案庫(kù)房緊張導(dǎo)致檔案未能集中統(tǒng)一管理、整理質(zhì)量不夠規(guī)范的問(wèn)題已時(shí)有出現(xiàn)。隨著電子文件的廣泛應(yīng)用、數(shù)字檔案館(室)建設(shè)的逐步推進(jìn),各級(jí)各類檔案館(室)保管的數(shù)字資源急劇增長(zhǎng),存儲(chǔ)數(shù)據(jù)量達(dá)到海量規(guī)模,對(duì)檔案信息數(shù)據(jù)存儲(chǔ)設(shè)備的存儲(chǔ)空間、運(yùn)算速度提出了更高的要求。伴隨著檔案管理大數(shù)據(jù)時(shí)代的到來(lái),檔案信息數(shù)據(jù)存儲(chǔ)空間的問(wèn)題日益嚴(yán)峻。

        (二)大數(shù)據(jù)帶來(lái)的鑒定難題。在大數(shù)據(jù)時(shí)代,檔案信息數(shù)據(jù)總量大,而且增長(zhǎng)速度快,尤其是電子文件以指數(shù)級(jí)的驚人速度增長(zhǎng)。雖然我們知道這些浩瀚的信息數(shù)據(jù)中蘊(yùn)藏著巨大的“金礦”,但我們想要從中“淘金”比以往針對(duì)紙質(zhì)文件的傳統(tǒng)檔案鑒定更為困難。一方面,各機(jī)構(gòu)業(yè)務(wù)活動(dòng)形成的信息數(shù)據(jù)增加,在歸檔保存時(shí),檔案人員需要鑒定判斷的文件量隨之增大。面對(duì)著巨量的電子文件,檔案人員逐一閱讀每一份電子文件的原文恐怕實(shí)在是無(wú)能為力。而另一方面,大數(shù)據(jù)時(shí)代檔案信息數(shù)據(jù)存儲(chǔ)空間緊張,合理準(zhǔn)確判斷文件的去留顯得更為重要。只有把好鑒定這一關(guān),將有保存價(jià)值的文件留存下來(lái)、不具備保存價(jià)值的文件剔除掉,才能保障有限的儲(chǔ)存空間用于保存真正具有價(jià)值的信息數(shù)據(jù),最大限度地發(fā)揮檔案信息數(shù)據(jù)存儲(chǔ)空間的作用。因此,怎樣讓有限的存儲(chǔ)空間得到更為有效的利用,也對(duì)檔案人員的鑒定提出了更高的要求。合理、準(zhǔn)確、快速地鑒定檔案文件、信息數(shù)據(jù)的存毀,成為檔案部門(mén)和檔案人員在大數(shù)據(jù)時(shí)代面臨的嚴(yán)峻挑戰(zhàn)。

        (三)大數(shù)據(jù)帶來(lái)的信息有效利用挑戰(zhàn)。檔案作為一種原始信息記錄,是國(guó)家、社會(huì)、機(jī)構(gòu)歷史的重要見(jiàn)證,在大數(shù)據(jù)時(shí)代,其價(jià)值與作用更加凸顯。信息的價(jià)值在于利用,面對(duì)海量的檔案信息數(shù)據(jù),只有通過(guò)開(kāi)發(fā)和利用,才能使檔案信息的價(jià)值得以體現(xiàn)和發(fā)揮。但數(shù)據(jù)爆炸式增長(zhǎng)和數(shù)據(jù)類型多樣化,給檔案利用開(kāi)發(fā)帶來(lái)檢索難題和開(kāi)發(fā)困境。

        隨著機(jī)構(gòu)保存檔案數(shù)據(jù)量的增長(zhǎng),在進(jìn)行檔案查詢時(shí),需要的信息容易被淹沒(méi)在大量不需要的數(shù)據(jù)中。運(yùn)用過(guò)去傳統(tǒng)的檔案檢索手段,依靠手工著錄、卡片檢索已經(jīng)難以實(shí)現(xiàn)海量信息檢索的要求;即使借助于現(xiàn)代化的檔案管理系統(tǒng),面對(duì)海量數(shù)據(jù)時(shí),檢索性能常常急劇下降,容易出現(xiàn)查詢時(shí)間長(zhǎng)、響應(yīng)速度慢的情況,甚至無(wú)法響應(yīng)。因此,如何在大量的檔案中快速而準(zhǔn)確地找到所需的信息,是大數(shù)據(jù)時(shí)代檔案利用中需要解決的首要問(wèn)題。

        更進(jìn)一步講,目前知識(shí)管理已經(jīng)成為檔案管理發(fā)展的趨勢(shì)和方向,檔案利用者的利用需求已不僅限于數(shù)據(jù)或文件的利用,更希望能夠獲得數(shù)據(jù)背后的信息以及信息蘊(yùn)藏的知識(shí)。因此,檔案利用服務(wù)也應(yīng)由提供數(shù)據(jù)、信息轉(zhuǎn)變?yōu)樘峁┲R(shí)。然而,知識(shí)不是自然生成的,也不會(huì)簡(jiǎn)單地存在于信息集合中,需要經(jīng)過(guò)抽取和挖掘才能展示出來(lái)。在傳統(tǒng)紙質(zhì)檔案時(shí)代,檔案數(shù)量不多,依靠人工抽取、挖掘知識(shí)還可實(shí)行,但在大數(shù)據(jù)時(shí)代海量檔案存在、非結(jié)構(gòu)化數(shù)據(jù)、異構(gòu)數(shù)據(jù)盛行的狀況下,則會(huì)變得心有余而力不足。

        隨著檔案網(wǎng)絡(luò)服務(wù)、數(shù)字檔案館、社交網(wǎng)絡(luò)等興起,檔案部門(mén)收集到的利用者個(gè)人信息、檢索歷史、瀏覽記錄等數(shù)據(jù)將越來(lái)越多。通過(guò)對(duì)這些數(shù)據(jù)的分析,檔案部門(mén)可以更好地了解利用者偏好,推測(cè)其利用需求,這對(duì)于檔案部門(mén)以利用者需求為導(dǎo)向、提高服務(wù)質(zhì)量具有重要意義。但這些數(shù)據(jù)信息大多以非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)形式存在。相對(duì)于結(jié)構(gòu)化數(shù)據(jù),非機(jī)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的開(kāi)發(fā)挖掘難度更大。要對(duì)利用者數(shù)據(jù)進(jìn)行分析挖掘,檔案部門(mén)需要足夠的技術(shù)支持。而且,對(duì)于這些數(shù)據(jù)的應(yīng)用,還會(huì)涉及到利用者的隱私問(wèn)題,例如個(gè)人數(shù)據(jù)能夠保存多久,保存后被用于何種用途,怎樣保證個(gè)人數(shù)據(jù)不會(huì)泄露等,這些都是檔案部門(mén)需要考慮和注意的問(wèn)題。

        因此,如何合理利用大數(shù)據(jù),分析推測(cè)利用者需求,在海量數(shù)據(jù)中抽取和挖掘有用的信息和知識(shí),整合異構(gòu)信息,共享館際間資源,有針對(duì)性地為利用者提供深層次的信息和知識(shí),是大數(shù)據(jù)時(shí)代檔案利用服務(wù)工作需要努力解決的問(wèn)題。

        檔案管理迎來(lái)了大數(shù)據(jù)時(shí)代。檔案部門(mén)保管和保存的信息數(shù)據(jù)數(shù)量劇增、類型多樣化、流動(dòng)速度加快、有用信息提取難度增大,這些給檔案工作帶來(lái)挑戰(zhàn)。檔案部門(mén)必須增強(qiáng)信息意識(shí),重視蘊(yùn)藏在海量檔案信息數(shù)據(jù)中的“寶藏”,積極采取有效策略,做好基礎(chǔ)平臺(tái)建設(shè),重視技術(shù)研發(fā)與應(yīng)用,提高檔案信息數(shù)據(jù)有效保存、快速鑒定、合理開(kāi)發(fā)的能力,應(yīng)對(duì)大數(shù)據(jù)給檔案部門(mén)帶來(lái)的挑戰(zhàn),讓檔案資源和檔案工作在大數(shù)據(jù)時(shí)代實(shí)現(xiàn)價(jià)值,煥發(fā)活力。

        猜你喜歡
        數(shù)據(jù)量結(jié)構(gòu)化檔案館
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        關(guān)于縣級(jí)檔案館館藏檔案開(kāi)發(fā)利用的思考
        全省部分檔案館新館掠影
        浙江檔案(2017年10期)2017-03-31 06:27:31
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        when與while檔案館
        一区二区三区中文字幕p站| 亚洲成在人网av天堂| 亚洲国产免费公开在线视频| 成人国产一区二区三区av| 国产日产亚洲系列最新| 亚洲av纯肉无码精品动漫| 亚洲区偷拍自拍29p| 国产美女一区三区在线观看| 欧美精品欧美人与动人物牲交| 国产免费丝袜调教视频| 国产无码十八禁| 亚洲精品中文字幕乱码3| 欧美牲交a欧美牲交aⅴ免费下载| 欧美亚洲国产片在线播放| 一区二区三区不卡在线| 亚洲高清精品一区二区| 四虎成人精品在永久免费| 国产久热精品无码激情| 国产va在线播放| 一卡二卡国产av熟女| 精品露脸国产偷人在视频| 在线亚洲人成电影网站色www| 欧美激情精品久久999| 不卡视频在线观看网站| 亚洲精品久久久久久久蜜桃| 韩日美无码精品无码| 欧美xxxxx精品| 亚洲中文av中文字幕艳妇| 日本免费a级毛一片| 天天躁日日操狠狠操欧美老妇| 国内精品少妇久久精品| 久久99国产精品久久| 国产一在线精品一区在线观看 | 亚洲第一页综合av免费在线观看| 免费亚洲一区二区三区av| 美女视频黄的全免费视频网站| 女同性恋精品一区二区三区| 亚洲av色在线播放一区| 国产亚洲一本大道中文在线| 成人激情四射网| 在线亚洲妇色中文色综合|