大數(shù)據(jù)真是“大”嗎?
數(shù)據(jù)并不只是因為成為了“大數(shù)據(jù)”才有了價值,“小數(shù)據(jù)”就沒有價值嗎?而是只要是數(shù)據(jù)都是有價值的。
山東省威海市經(jīng)濟和信息化委員會副主任,多年在地方負責推進信息化工作。
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊(見百度百科)。業(yè)界將其歸納為4“V”—Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實性)。大數(shù)據(jù)的“大”,目前應該是指與計算機為代表的信息設備誕生以來這70年所產(chǎn)生的信息數(shù)據(jù)相比是“大”了,即與歷史產(chǎn)生的信息數(shù)據(jù)相比是“巨量”了。但若我們將其放在縱、橫兩個維度上去比,大數(shù)據(jù)還“大”嗎?
從數(shù)據(jù)產(chǎn)生的過程看。目前的大數(shù)據(jù)(從TB級別,躍升到了PB級別)與以往的MB、GB級別相比確實大了,但與未來的EB、ZB級別相比還只能稱之為“小數(shù)據(jù)”。從數(shù)據(jù)以外方面看。首先與同為IT概念的IP地址的IPv6相比,即使目前定義數(shù)據(jù)量最大計量單位DB,與其相比還差近2個級別。再與信息(在此信息即為數(shù)據(jù),下同)共同構(gòu)成世界的物質(zhì)、能量三要素的其他二要素物質(zhì)、能量相比,地球的質(zhì)量約為5.98×1027克,世界探明煤炭資源可采儲量約為9.84×1017克,10TB大約等于一個人腦的存儲量,全球70億人的腦存儲量約為6.52×270Byte,相對應來看目前所說的大數(shù)據(jù)也并不“大”。但我們也還沒有稱IPv6為“大IP地址”,沒有稱物質(zhì)、能量為“大物質(zhì)”、“大能量”等等。
在物質(zhì)世界有“大”就有“小”,如物質(zhì)就計量單位從小到大有克、十克、百克、千克……,從大到小有克、分克、厘克、毫克……。而數(shù)據(jù),目前計量單位只能從小到大有bit、Byte、KB、MB……,但卻不能從大到小。而我們知道數(shù)據(jù)計量單位每縮小一個級別,則數(shù)據(jù)量就可增加1024即210倍。
物質(zhì)有限可分還是無限可分雖然還將爭論下去,但就當今理論和實踐的發(fā)展看物質(zhì)是可分的,就物質(zhì)的計量單位而言是具有雙向性的(能大能?。?。而數(shù)據(jù)似乎是不可分的,就數(shù)據(jù)的計量單位而言似乎是單向性的(只能大)。
若將物質(zhì)資源的計量單位定為“克”,則煤炭儲量的數(shù)值可與數(shù)據(jù)資源數(shù)值的EB對應;而若將物質(zhì)資源的計量單位定為“毫克”,則煤炭儲量的數(shù)值就可與數(shù)據(jù)資源數(shù)值的ZB對應。就當今理論和實踐的發(fā)展看物質(zhì)是可分的,則物質(zhì)資源的數(shù)值相較數(shù)據(jù)資源就計量單位而言似乎是無限大的,數(shù)據(jù)資源的“大”就更待商榷了。
人類利用物質(zhì)和能量資源的過程是:自然產(chǎn)生物質(zhì)和能量資源(軟件),人類發(fā)明工具開發(fā)物質(zhì)和能量資源(硬件),人類改進工藝利用物質(zhì)和能量資源。即先有物質(zhì)和能量資源,再有開發(fā)物質(zhì)和能量資源的硬、軟件工具。
而人類利用數(shù)據(jù)資源的過程是:人類發(fā)明了計算機等信息設備來承載數(shù)據(jù)資源(硬件),人類設計了軟件來處理數(shù)據(jù)資源(軟件),數(shù)據(jù)才向人類展現(xiàn)出其資源的特性(資源)。即先有了開發(fā)數(shù)據(jù)資源的硬、軟件工具,再有數(shù)據(jù)資源。
物質(zhì)和能量資源的產(chǎn)生經(jīng)過了億萬年自然的進化,其產(chǎn)生與人類沒有關(guān)系,即不已人類的意志而轉(zhuǎn)移。而數(shù)據(jù)資源的產(chǎn)生只有短短的幾十年時間(該數(shù)據(jù)資源是指計算機誕生以后產(chǎn)生的信息數(shù)據(jù)資源),其產(chǎn)生與人類有直接關(guān)系,即其會隨著人類的意志而轉(zhuǎn)移。這種根本性的不同,對人類意味著什么?目前我們不得而知。物質(zhì)不滅定律(又稱“質(zhì)量守恒定律”)告訴我們“物質(zhì)雖然能夠變化,但不能消滅或憑空產(chǎn)生”。數(shù)據(jù)是否也是不滅的,數(shù)據(jù)又將如何變化呢?這些,我們都是無法回答的。
目前,“大數(shù)據(jù)”的核心只是改變了人類以前的理解,即承載數(shù)據(jù)的硬件有價值,處理數(shù)據(jù)的軟件有價值,而數(shù)據(jù)本身卻不具有價值。由此,呈現(xiàn)了數(shù)據(jù)本身也是具有價值這一理念。
“大數(shù)據(jù)”一詞,目前還只是IT界自說自話的技術(shù)術(shù)語,并沒有體現(xiàn)出其價值所在,百姓并不明白它有什么用處。其實還不如稱“大數(shù)據(jù)”為“數(shù)據(jù)資源”或“資源數(shù)據(jù)”。以突出“資源”一詞所蘊含的價值,以體現(xiàn)數(shù)據(jù)的資源特性。