李迪
摘 要:2012年“大數據”一詞被介紹到中國,中國如何在大數據時代取得更大的發(fā)展,成為社會各界探討的熱點,在閱讀完涂子沛先生寫的《大數據:正在到來的數據革命》一書后,對大數據有了簡單的了解,本文主要介紹了“大數據”的內涵,從大數據的概念、價值作用以及大數據的特點三個方面介紹大數據,讓大家對大數據有一個簡單的了解,在此基礎上,結合檔案館的發(fā)展,對大數據背景下檔案工作遇到的機遇和挑戰(zhàn)做簡單的分析,真正了解大數據對檔案發(fā)展的影響。
關鍵詞:大數據;信息;檔案館
2012年3月29日,美國政府推出“大數據的研究和發(fā)展計劃”,將大數據提升到了全球性戰(zhàn)略發(fā)展的高度。中國,自古以來就不太注重對事物的定量研究, “差不多”、“大約”、“左右”等模糊性詞語經常出現在公眾的眼球中,致使中國人落下了“差不多先生”的叫法。如今,中國正處于經濟、技術發(fā)展的黃金時期,中國要想在世界發(fā)展中取得更大的成就,就必須摘掉“差不多先生”的帽子,讓數據說話,將科學的數據作為研究的保障,而“大數據”時代正為中國的發(fā)展提供了極大的機遇。要想在此次信息革命中取得成績,首先我們要了解“大數據”究竟是什么,究竟能為我們的生活帶來何種改變。
1 “大數據”的內涵
1.1 “大數據”的概念
2011年5月,全球知名咨詢公司麥肯錫 (Mckinsey and Company)發(fā)布了 《大數據 :創(chuàng)新 、競爭和生產力的下一個前沿領域》報告,首次提出了“大數據”的概念,從“大數據”一詞被提出以來,人們對大數據的概念就存在不同的理解,各個定義雖然在具體的表達中存在不同,但其都有一個共識,即:大數據不是對數據量大小的定量描述,而是一種在種類繁多、數量龐大的多樣數據中進行的快速信息獲取。大數據是對海量數據的管理,其核心是基于數據的決策。之所以稱其為“大數據”,一是其數據量大,更大一部分原因是因其數據管理的價值大。
大數據是結構化數據、半結構化數據與非結構化數據的總和,主要來源于海量交互數據、海量數據處理以及海量交易數據,而我們在日常生活中,智能設備、物聯網、社交網站等產生的半結構化數據、非機構化數據量更是遠遠大于在學習、工作中產生的結構化數據。 如何處理這些占據了主要份額的半結構化數據與非結構化數據也因此成為大數據的主要業(yè)務與內容,進而對數據分析與數據挖掘產業(yè)提出了更多的要求。因此大數據的“數據”不是指數據的存儲,而是數據的獲取和數據的分析應用。
通過對大數據的了解,大數據的概念可以總結為:大數據是指通過對結構化、半結構化、非結構化數據的挖掘、分析,進而為社會決策提供數據依據一種數據研究。
1.2 “大數據”的作用、價值
之所以稱其為“大數據”的一個主要原因是因為其含有“大價值”,通過大數據中的數據,我們可以了解客戶行為習慣,可以對市場發(fā)展進行預測,可以了解一個行業(yè)的發(fā)展趨勢等各種有價值的信息,不僅可以促進商業(yè)、經濟的發(fā)展,更能為政府決策體統可靠的依據,使政府決策更加貼近民心,順應民意,使政府更加了解民意等??梢哉f大數據能夠對一個地區(qū)的政治、經濟、社會的發(fā)展發(fā)揮更大的作用和價值。
“大數據”的價值可以歸納為以下幾個方面:
(1)通過數據的分析、挖掘,為企業(yè)的可持續(xù)發(fā)展做出科學預測,減小企業(yè)發(fā)展風險,實現企業(yè)的科學發(fā)展。為社會經濟的發(fā)展提供科學的分析依據。
(2)對用戶的研究分析,通過從海量數據中的深度分析,挖掘利用者的行為習慣和愛好,充分了解利用者的需求。
(3)有助于提高信息安全,為信息安全部門應對安全威脅提供有效途徑。
(4)通過對公共大數據的分析、挖掘,可提高公共機構的執(zhí)行能力,減少錯誤數據的負面作用,幫助政府節(jié)省開支,為政府決策體統可靠依據。
1.3 “大數據”的特點
“種類多 、流量大 、容量大、價值高”被稱為“大數據”的4V特性:
(1)容量大:數據量級已從TB(1012字節(jié))發(fā)展至PB乃至ZB,可稱海量、巨量乃至超量。
(2)多樣化:數據類型繁多,愈來愈多為網頁、圖片、視頻、圖像與位置信息等半結構化和非結構化數據信息。
(3)快速化:數據流往往為高速實時數據流,而且往往需要快速、持續(xù)的實時處理;處理工具亦在快速演進,軟件工程及人工智能等均可能介入。
(4)價值高和密度低:以視頻安全監(jiān)控為例,連續(xù)不斷的監(jiān)控流中,有重大價值者可能僅為一兩秒的數據流;360°全方位視頻監(jiān)控的“死角”處,可能會挖掘出最有價值的圖像信息。
2 大數據背景下的檔案
2.1 復雜數據的處理將成為大數據時代檔案工作的發(fā)展方向
當前環(huán)境下,檔案信息的數據處理主要是將檔案信息等進行數字化、電子化處理,并在此基礎上最大程度地滿足用戶的利用,數據庫、檔案網站、檔案公眾號等都為檔案信息的開發(fā)利用提供更多的途徑。這也使得檔案資源的處理范圍、處理方式、對象等都發(fā)生了巨大的變化,例如根據利用者的利用數據了解利用者的需求、愛好,為用戶提供推動服務、知識服務等。
此外,大數據對檔案館的數據分析、挖掘能力提出更高的要求,從大量數據中發(fā)現其中的規(guī)律,找出隱藏在數據中的潛在價值,才能提高檔案館的服務質量,才能帶來服務方式的轉變,這樣才能更大限度地發(fā)揮檔案的社會功能,為社會提供更多更有價值的信息資源。
2.2 快速增長的復雜海量數據為檔案信息的存儲能力提出更高的要求
隨著數據庫、檔案網站、電子文件的不斷發(fā)展和完善,檔案信息資源的種類、信息類型越來越豐富,大數據背景下人們的一舉一動都將產生出大量結構化、半結構化的信息數據,在如此復雜的數據中進行分析、挖掘,對檔案信息的存儲能力提出了更大的挑戰(zhàn),甚至會影響檔案信息資源的建設模式的轉變。
此外,大數據背景下不僅是對檔案存儲能力提出更高的要求,更對數據的分析、挖掘能力提出更生層次的挑戰(zhàn),如何從如此復雜大量的數據中找出有效的信息,分析出有效的數據,為用戶提供更加準確的信息服務都將是檔案工作面臨的問題。
2.3 大數據背景下信息資源管理面臨的挑戰(zhàn)
我們知道信息管理面臨眾多的挑戰(zhàn)和難題,而在大數據背景下,在如此復雜、大量的數據中,信息管理面臨著以下幾方面的挑戰(zhàn):
1.數據多,數據質量良莠不齊,真?zhèn)坞y辨,如何判斷檔案信息資源的真?zhèn)我恢笔菣n案界討論的熱點。
2.信息領域技術日新月異,高度復雜,對工作者的技術要求越來越高。
3.大數據背景下,用戶的要求越來越高,用戶的需求也在不斷的增多,如何更好的滿足用戶的需求,成為檔案館以及信息服務機構需要解決的重要問題之一。
4.市場經濟條件下,信息產品和信息服務的價值越來越難在市場上實現。這就為信息機構如何實現其市場價值提出了要求。
5.檔案信息的安全問題越來越重要。大數據背景下,如何確保海量存儲信息的安全,如何確保信息系統的安全等問題,仍需要人們深入的研究。
參考文獻
[1]韓翠峰.大數據帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012.5.
[2]楊海燕.大數據時代的圖書館服務淺析[J].圖書與情報,2012.4.
[3]樊偉紅,李晨輝,張興旺,秦曉珠,郭自寬.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012.11.
[4]劉琪.大數據能改變什么[J].IT經理世界,2011.8
[5]陳如明. 大數據時代的挑戰(zhàn)、價值與應對策略[J]. 移動通信,2012.11
[6]涂子沛.大數據:正在到來的數據革命[M].廣西:廣西師范大學出版社,2012.