魯惠林
(安徽大學商學院,安徽 合肥 230601)
上世紀80年代,大數據這個詞匯就已經出現。但是,一開始它僅是用來形容數據量大。而計算機技術的不斷發(fā)展,數據不在是簡單的數字集合,而是指無法在有限時間內用傳統的IT技術和軟硬件工具對其進行感知、獲取、管理、處理的方式。但對于“大數據”的具體定義,目前學術界尚未形成明確統一的定義。2012年高德納咨詢公司認為:大數據是非常重要的信息資產,但它需要新的運算方式來處理,以期提高這項信息資產的決策力、洞察力,并用這些特征來描述大數據。麥肯錫(McKinsey)認為:想要在特定時間內對大數據的內容進行搜集、存儲、分析運用,依靠過去傳統的數據處理方式已不能解決。
關于“大數據”的特征描述,代表性的觀點有,IBM將“大數據”的特點總結為“3V”,即大量化(Volume)、多樣化(Variety)和快速化(Velocity);著名的數據管理大師維克托·邁爾-舍恩伯格則認為大數據具有4個特點,即“4V”,在前面的基礎上增加了Value(價值密度低)。目前,“4V”特征已成最基本的共識,這些特性使得大數據區(qū)別于傳統的數據概念。
1.2.1 數據規(guī)模大
數據量大是大數據的基本屬性。想要收集大量數據是十分困難的,只有部分機構會采取抽樣調查,而現在,互聯網的普及,用戶通過智能化的媒介有意的分享或無意的點擊、瀏覽都會產生大量數據;數據量大還體現在人們處理數據的方法和理念發(fā)生了改變。早期,人們對事物的認知一直依據抽樣調查,以部分數據來描述整體事物。但在某些領域這種方法顯然不能完整的描述,可能會忽略很多重要信息。甚至得到的結果都是相反的。而現在,在大多數領域,大數據依托云計算不需要只采取部分樣本來反映總體數據。這樣,不刪減數據能提高準確性。從更多方面來分析事物,這樣的結果必然是處理數據增多。
1.2.2 數據種類多
數據類型多,復雜多變是大數據的另一重要特性。雖然以往數據量也不小,但大多數數據都是結構化數據。這種類型的數據存儲、處理、查詢方按事先定義的方法,抽取有用信息,簡單易于人們操作。而現在大數據涌現,呈現的都是非結構化數據,它沒有固定的結構屬性,數據及它的結構都需要存儲。增加了數據處理的難度。各種半結構化、非結構化數據遍及工作、生活中各個角落,這些結構復雜,其增長速度比結構化數據快10倍到50倍。
1.2.3 數據處理速度快
要利用好大數據,就必須要求對其進行快速處理。大數據區(qū)別于傳統海量數據處理的重要特性之一是要求數據的快速處理。數據增長速度十分之快,這么多激增數據需要更快的數據處理速度,否則這些數據不僅未得到充分利用,不能解決問題,反而可能因為龐大的數據使問題變得復雜。也是大數據區(qū)別于傳統數據的特點之一也是對爆炸式增長的數據要求實時處理。
1.2.4 數據價值密度低
大數據包含事物各個細節(jié),并未進行刪減、歸納、處理,直接是原始的全部數據,所以它也包含了大量的可能無用的信息。對于這種非結構化數據,未了保證它對于新產生的應用有足夠的有效信息,就必須為此保留全部數據。這樣激增的數據中所含有效信息量的比例在減少,數據價值密度偏低。
學術界認為“大數據”概念的提出始于上世紀80年代,但起源尚未有嚴謹權威的考證。有資料說“大數據”概念最早是由麥肯錫公司提出,沒有提及具體的時間。從現有研究文獻或研究動態(tài)來看,美國《Nature》早在2008年就推出了Big Data專刊,從互聯網技術、網絡經濟學、環(huán)境科學、生物醫(yī)藥等多個方面介紹了海量數據帶來的挑戰(zhàn),《Science》在2011年2月推出專刊“Dealing with Data”,主要圍繞著科學研究中的大數據的問題展開討論,說明大數據對于科學研究的重要性。
國外學者對“大數據”展開的相關研究逐漸引起了國內學者的高度重視,圍繞“大數據”的研究工作也全面展開。李國杰、程學旗等為核心的計算機學科專家學者等對其進行了綜述性的歸納研究與探討,闡述了大數據的研究現狀與意義,介紹了大數據應用與研究所面臨的問題與挑戰(zhàn),并對大數據發(fā)展戰(zhàn)略提出了建議。
在學者們的不斷研究探索中,在理論研究方面,2013年孟小峰、覃雄派等在《大數據管理:概念與挑戰(zhàn)》論文中主要是在數據分析、理論和數據查詢處理技術的相關研究中,列舉了一個數據分析平臺需要有幾個重要的特點,并對當前主流的數據管理平臺進行了歸納。馬帥等就“大數據”的異構數據模型和存儲復雜的數據智能分析、數據質量以及大數據安全等方面的問題進行了分析與研究。朱志軍等人在《大數據、大機遇、大變革》中介紹數據生成的背景、特點和發(fā)展趨勢,并從實證的角度討論了對社會和商業(yè)智能數據的巨大影響,即數據可能給企業(yè)帶來巨大的商機。
綜上所述,隨著互聯網的發(fā)展,物聯網的發(fā)展,我們的大部分工作和生活都可以用數據信息來代表,所以大數據時代已經悄然到來。目前學術界的研究主要集中在基礎研究上,即更多研究是數據的收集、傳輸、存儲和處理技術和基礎設施建設,也有一些學者開始在各個領域的實證應用研究數據。但在實踐研究和探索領域仍明顯小于理論研究。在大數據領域,多學科交叉及其應用研究的基礎理論研究和應用也開始了。
從國內外研究現狀來看,“大數據”研究顯然是是當前學術界關注的熱點問題。事實上,對大數據的認識是逐漸清晰的。從現有可以依據的學術成果來看,明確以“大數據”為主題詞的文獻研究是近5年來陸續(xù)產生的,時間較短,從現狀來看,主要有如下特點。
一是大數據的挖掘和處理技術,很大程度上停留在理論研究階段。大數據研究關注地更多的是數據收集、傳輸、存儲、處理等技術問題以及相應基礎平臺的構建上。從其發(fā)展脈絡來看,已逐漸呈現出由理論研究到實踐運用的轉變,但大數據核心處理技術尚未成熟。
二是如何把“大數據”研究更好地應用于實際,大數據在各個領域內的實證應用與研究分析開始受到關注,尤其是受到政府的關注。隨著社會、經濟的發(fā)展,各行業(yè)各類用戶對于智能化的要求將越來越高,大數據公共領域、醫(yī)療衛(wèi)生、地礦能源、行業(yè)管理、營銷與客戶分析等各行各業(yè)的應用研究逐步興起,目前這些應用研究屬初始階段,簡單、分散、理論不穩(wěn)定,尚未有主流觀點出現。
三是對于大數據的相關理論與研究方法基本上處于認知階段,比如、概念、特征、現象、問題等,在管理科學領域,大數據在營銷、客戶分析、綜合評價等方面的研究有文獻成果,但數量很少,這些前瞻性研究由于缺乏系統理論和化學技術的支撐,遠遠不能撼動對傳統的管理理論與方法的影響。
本文從幾個常見的大數據概念的描述,分析了大數據的典型特征,在此基礎上討論了大數據技術解決問題的核心問題。大數據時代已經到來,要想更好地從大數據中受益,我們必須充分利用大數據,發(fā)揮其社會價值和科學價值。大數據的發(fā)展還處于初級階段,還有很多領域還需要我們積極探索,我們不斷開拓空間,如何快速有效地處理大數據,合理利用大數據還需要不斷探索和發(fā)現。
[1] Manyika J,Chui M Brown J,etal.Big Data: The Next Frontier for Innovation,Competition and Productivity[R].McKinsey Global Institute,2011.
[2] 維克托·邁爾·舍恩伯格.大數據時代[M].杭州:浙江人民出版社,2013.
[3] Specials Archive. Big data[DB/OL].[2008-09-03].Nature,http://www.nature.com/news/.
[4] 李國杰.大數據研究:未來科技及經濟社會發(fā)展的重大戰(zhàn)略領域-大數據的研究現狀與科學思考[J].中國科學院院刊,2012,27(06):647-657.
[5] 覃雄派,王會舉,杜小勇,王珊.大數據分析——RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,23(01):32-45.
[6] 馬帥,李建欣,胡春明.大數據科學與工程的挑戰(zhàn)與思考[J].中國計算機學會通訊,2012,8(09):22-30.
[7] 朱志軍,佘叢國,閆蕾等.大數據、大機遇、大變革[M].北京:電子工業(yè)出版社,2012.