哪門新興學(xué)科將深刻影響人類未來(lái)?數(shù)據(jù)學(xué)或者數(shù)據(jù)科學(xué)肯定是其中之一。2002年數(shù)據(jù)學(xué)已被國(guó)際科學(xué)委員會(huì)確立為不同于計(jì)算機(jī)科學(xué)的獨(dú)立學(xué)科。近年,作為科學(xué)的數(shù)據(jù)學(xué)體系越來(lái)越清晰、完整,在實(shí)用中越來(lái)越重要。
一些人士和組織認(rèn)識(shí)到數(shù)據(jù)對(duì)未來(lái)的重要性,在數(shù)據(jù)學(xué)認(rèn)知缺位的情況下,或自已臆想,或引用別人并不正確說(shuō)法,濫用數(shù)據(jù)學(xué)的概念和理論。在這種情況下,知識(shí)界需要對(duì)作為科學(xué)的數(shù)據(jù)學(xué)較有嚴(yán)肅的認(rèn)知。
進(jìn)入信息社會(huì)以后,數(shù)據(jù)以自然方式增長(zhǎng),其產(chǎn)生不以人的意志為轉(zhuǎn)移。數(shù)據(jù)學(xué)最重要的基礎(chǔ)在于定義了數(shù)據(jù)自然(data nature)。數(shù)據(jù)自然是所有存入信息系統(tǒng)的數(shù)據(jù)總集合,包括數(shù)字、字符、音視頻以及計(jì)算機(jī)程序等。與大自然一樣,數(shù)據(jù)自然也有未知、復(fù)雜、多樣等屬性。
在數(shù)據(jù)自然的視角下,人、社會(huì)、大自然及其歷史,都將轉(zhuǎn)變成數(shù)據(jù)自然,人類同時(shí)生活在大自然和數(shù)據(jù)自然之中。人類將通過(guò)探索數(shù)據(jù)自然來(lái)了解大自然,了解社會(huì)和人類行為。在數(shù)據(jù)自然的視角下,數(shù)據(jù)學(xué)被定義為研究探索數(shù)據(jù)自然奧秘的理論、方法和技術(shù),通過(guò)研究數(shù)據(jù)自然,揭示大自然和人類行為的規(guī)律。
在數(shù)據(jù)學(xué)的體系中,要在數(shù)據(jù)自然中獲得收益,與在大自然中獲得收益類似,需要采用一系列技術(shù)方法。
首先要對(duì)數(shù)據(jù)自然進(jìn)行數(shù)據(jù)勘探,探查數(shù)據(jù)集的總體特征和數(shù)據(jù)集的結(jié)構(gòu),判斷數(shù)據(jù)集的價(jià)值,為下一步開(kāi)發(fā)利用該數(shù)據(jù)集提供依據(jù)。數(shù)據(jù)抽樣和數(shù)據(jù)分析是數(shù)據(jù)勘探的基本方法。
完成數(shù)據(jù)勘探,與采礦、洗礦類似,可將相關(guān)數(shù)據(jù)集從數(shù)據(jù)自然中提取出來(lái)并加以清洗,稱之為數(shù)據(jù)獲取。數(shù)據(jù)再通過(guò)整合,使之在邏輯上相關(guān)聯(lián)并使之便于訪問(wèn),就可存入數(shù)據(jù)倉(cāng)庫(kù)。接著,可采用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行處理,尋找數(shù)據(jù)的內(nèi)在規(guī)律并以可視化的形態(tài)展示。數(shù)據(jù)獲取、數(shù)據(jù)整合、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘均經(jīng)過(guò)多年發(fā)展,比較成熟,現(xiàn)在都可以歸入數(shù)據(jù)學(xué)的范疇。
面對(duì)大自然,人類可以用科學(xué)實(shí)驗(yàn)的方法,通過(guò)有控制的干預(yù),發(fā)現(xiàn)對(duì)象的新特點(diǎn)、新規(guī)律,從而加以利用,獲得收益。例如在實(shí)驗(yàn)室中可以合成新的化合物,培養(yǎng)新的物種,再將其量產(chǎn)。
按數(shù)據(jù)學(xué)理論,面對(duì)數(shù)據(jù)自然,也可以采用數(shù)據(jù)實(shí)驗(yàn)的方法,通過(guò)干預(yù)和控制數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)自然、人類社會(huì)和大自然的新規(guī)律,新特點(diǎn),并設(shè)計(jì)出將其轉(zhuǎn)化為生產(chǎn)性活動(dòng)模式。
數(shù)據(jù)實(shí)驗(yàn)可以模擬企業(yè)運(yùn)行、政府運(yùn)作、社會(huì)現(xiàn)象。比如,可以模擬新產(chǎn)品投產(chǎn)上市后的運(yùn)行,模擬不同氣候條件下流感的傳播等。在數(shù)據(jù)實(shí)驗(yàn)中,可以輸入不同參數(shù),對(duì)數(shù)據(jù)模型調(diào)優(yōu)。數(shù)據(jù)實(shí)驗(yàn)還可以模擬自然現(xiàn)象,比如極端氣候,用來(lái)評(píng)估災(zāi)害。
數(shù)據(jù)實(shí)驗(yàn)是數(shù)據(jù)學(xué)最主要的研究方法,用來(lái)模擬大自然和人文社會(huì),用來(lái)驗(yàn)證假說(shuō)和規(guī)律。它比用于發(fā)現(xiàn)數(shù)據(jù)相關(guān)性的數(shù)據(jù)勘探和數(shù)據(jù)挖掘,在探索數(shù)據(jù)自然的深度上又前進(jìn)了一大步。
近年,一些先進(jìn)的企業(yè)設(shè)立了首席數(shù)據(jù)官(CDO),招聘數(shù)據(jù)科學(xué)家,成立與IT部門并立的數(shù)據(jù)部,試圖在企業(yè)運(yùn)營(yíng)中運(yùn)用數(shù)據(jù)學(xué)的方法。未來(lái),我們可以期待數(shù)據(jù)學(xué)將像從前的IT一樣,對(duì)企業(yè)和人類社會(huì)產(chǎn)生極為深遠(yuǎn)的影響。