魏濤
【摘要】本文首先介紹了在當(dāng)今大數(shù)據(jù)背景下,存儲(chǔ)與復(fù)制材料資料,從實(shí)體到數(shù)據(jù)信息的轉(zhuǎn)變到管理資料數(shù)據(jù)的方式等這些方面皆有大數(shù)據(jù)有關(guān)技術(shù)的引入與幫助;然后解釋了參考大數(shù)據(jù)技術(shù)方向和具體內(nèi)容來管理資料數(shù)據(jù)的方法和注意事項(xiàng)。
【關(guān)鍵詞】重要性;大數(shù)據(jù)之應(yīng)用;資料數(shù)據(jù)管理;方法
一、引入大數(shù)據(jù)相關(guān)技術(shù)在資料分析中是不可或缺的
2012年5月29日,國家土地管理有關(guān)部門公布了國家首批近百個(gè)智慧城市試點(diǎn),所謂智慧城市,很大一方面就是指應(yīng)用新技術(shù)在大數(shù)據(jù)背景下革新管理和統(tǒng)計(jì)數(shù)據(jù)資料,然后合理規(guī)劃和發(fā)展城鄉(xiāng)建設(shè),提高人民生活水平,促進(jìn)城鎮(zhèn)發(fā)展達(dá)到一定的成績。這也說明國家非常重視該方面的建設(shè)與運(yùn)用和重要性,國家也在穩(wěn)步推行和鼓勵(lì)該型城市的發(fā)展,推行聰明城市、聰明建設(shè)等方向,運(yùn)用大數(shù)據(jù)等新型方法方式等等。之所以被稱作智慧城市,就是要遵循以下幾個(gè)原則,分別是:多用數(shù)據(jù)少用資源、多用數(shù)據(jù)多干活、多用數(shù)據(jù)少犯錯(cuò)誤等原則。
(一)現(xiàn)在電子文件急需大數(shù)據(jù)技術(shù)做支撐。當(dāng)今時(shí)代背景下,電子文件增長迅速,應(yīng)對(duì)這些大量的電子類文件,我國長期以來往往采用直接鑒定的方式,但這種方式往往已經(jīng)不能適應(yīng)時(shí)代的需求,將受到嚴(yán)重的挑戰(zhàn)。相關(guān)人員逐一鑒定每一份文件的原始文件有些不太現(xiàn)實(shí)了,所以此方面也向我們提出了更高的要求。此后,有人提出宏觀鑒定的方法。但困難的是無法快速的篩選出有價(jià)值的有用的文件類型與種類和具體內(nèi)容。還有怎么對(duì)這些電子文件進(jìn)行快速分類是個(gè)棘手的問題,怎樣保存有用的文件也是個(gè)重要的問題。
為了解決上述問題,檔案工作者除了革新管理方法之外,還可以應(yīng)用大數(shù)據(jù)的相關(guān)技術(shù),創(chuàng)新式大膽使用最新的方式方法。在通常的設(shè)備設(shè)施上安裝升級(jí)數(shù)據(jù)傳感器,就可以海量的接受和處理數(shù)據(jù),擴(kuò)大儲(chǔ)存數(shù)據(jù)的存量。這個(gè)量級(jí)的大小可以達(dá)到每天TB,甚至每天PB的大小,是非??捎^的。
(二)大數(shù)據(jù)技術(shù)同樣需要應(yīng)用于非電子類文件的處理與應(yīng)用。大數(shù)據(jù)包括很多種類,其中有結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)類型,當(dāng)然還有非結(jié)構(gòu)類型的數(shù)據(jù)。非結(jié)構(gòu)型數(shù)據(jù)的應(yīng)用目前有大幅增長的趨勢(shì),尤其是在互聯(lián)網(wǎng)普遍應(yīng)用的今天。至 2012 年末,非結(jié)構(gòu)類型的數(shù)據(jù)已經(jīng)超過一般,并有增長的趨勢(shì)。同時(shí),數(shù)據(jù)不是單獨(dú)存在的。長期以來,人們對(duì)資料文件管理采用的是有關(guān)系類型的資料庫,IOE是最有代表性的之一:(I指IBM的硬件設(shè)施,O指Oracle的資料庫,E指EMC的存放方式)的方法,這同樣適用于檔案資料的管理行業(yè),這種模式,指IOE似乎有些不能適應(yīng)當(dāng)今大數(shù)據(jù)處理的方式方法,顯得有些力不從心。這是因?yàn)榇髷?shù)據(jù)處理不僅僅指的是數(shù)據(jù)數(shù)量巨大,數(shù)據(jù)類型繁多,同時(shí)文件的數(shù)量也是空前的數(shù)不勝數(shù),不再是隨隨便便幾個(gè)簡單的文件了,這就對(duì)傳統(tǒng)技術(shù)提出了挑戰(zhàn)。為此,怎樣處理文件相關(guān)系統(tǒng)層存下的元數(shù)據(jù)是一個(gè)問題,如果處理不好,會(huì)直接影響文件的處理效果和硬件的性能。為了應(yīng)對(duì)快速增加的非結(jié)構(gòu)化數(shù)據(jù)資料,相關(guān)資料工作人員在進(jìn)行電子或非電子資料處理應(yīng)用時(shí)出現(xiàn)了很大的問題,但當(dāng)下基于應(yīng)用大數(shù)據(jù)相關(guān)技術(shù)數(shù)據(jù)庫的優(yōu)勢(shì),如SQ L等數(shù)據(jù)處理方法不僅僅可以處理簡單的相關(guān)數(shù)據(jù),同樣也應(yīng)用于空間數(shù)據(jù)資料、數(shù)據(jù)流、圖形等相關(guān)方面,并且基本應(yīng)用于相關(guān)內(nèi)容的存下結(jié)構(gòu)能夠在一個(gè)系統(tǒng)中處理十億等級(jí)別資料的相關(guān)數(shù)據(jù),并且還不能類似于以前常用的存儲(chǔ)那樣遇見的原始數(shù)據(jù)處理的麻煩,大數(shù)據(jù)相關(guān)技術(shù)作為相關(guān)工作人員處理非結(jié)構(gòu)化的電子或非電子資料的麻煩提出了解決方法。
二、檔案管理運(yùn)用大數(shù)據(jù)的策略
(一)資料數(shù)據(jù)需要備份復(fù)制和統(tǒng)一管理。依據(jù)計(jì)劃,灃東大數(shù)據(jù)產(chǎn)業(yè)園區(qū)將會(huì)實(shí)行數(shù)據(jù)的大規(guī)模統(tǒng)一化集中吸收發(fā)出、深度的整理處理、逐步變成國家政務(wù)材料幕后整理與復(fù)制中心。當(dāng)前,中國聯(lián)通公司、中國移動(dòng)公司和中國電信公司三大通信商家和國家人口數(shù)量數(shù)據(jù)產(chǎn)生與復(fù)制(古城西安)中心,這個(gè)例子對(duì)檔案資料管理部門及相關(guān)人員提供了很大的啟發(fā)。當(dāng)今前檔案中心采取的是資料用電子設(shè)備備份,這樣既安全又方便。
(二)要積極尋找和尋求大數(shù)據(jù)相關(guān)技術(shù)公司。爭取與它們合作,從而積極發(fā)明開展適合資料檔案分析整理的工具技術(shù)。大數(shù)據(jù)相關(guān)技術(shù)內(nèi)容涉及很廣,很寬泛,包括很多方面,如果某個(gè)行業(yè)想要應(yīng)用大數(shù)據(jù)相應(yīng)技術(shù),就要打破傳統(tǒng)思想,不要受專業(yè)限制的束縛,積極尋求合作,尤其是和大公司合作專業(yè)大數(shù)據(jù)業(yè)務(wù),避免許多事。比如一家石油相關(guān)的公司,采油探油是他們的特長,但是對(duì)石油行業(yè)也有不懂的方面,到最后不得不請(qǐng)來一位北京大學(xué)的博士,他既懂石油,又知道未來發(fā)展的前景,最終構(gòu)成了三方合作三足鼎立的狀況,如果缺少開放、協(xié)同創(chuàng)造,共同創(chuàng)新的思想,想達(dá)到這樣的目的,得到這樣的結(jié)果太難了。
三、檔案處理用大數(shù)據(jù)相關(guān)技術(shù)一定要有明確的目標(biāo)和標(biāo)準(zhǔn)
在運(yùn)用大數(shù)據(jù)相關(guān)技術(shù)時(shí),在整理和處理相關(guān)檔案數(shù)據(jù)時(shí),一定要清楚自己需要什么,需要在數(shù)據(jù)中提取什么,否則就是純屬浪費(fèi)時(shí)間和精力來處理數(shù)據(jù)。因此,首先要定義使用大數(shù)據(jù)的目標(biāo)和標(biāo)準(zhǔn),此后再找到合適的工具技術(shù)來處理數(shù)據(jù)、分析數(shù)據(jù)。
【參考文獻(xiàn)】
[1]張欣.解讀大數(shù)據(jù)時(shí)代下檔案管理的價(jià)值提升[J].理論觀察,2014(01):108-109.