【摘要】 大數(shù)據(jù)的理想形態(tài)應(yīng)是不用構(gòu)建算法模型,不用根據(jù)具體的問(wèn)題再單獨(dú)建立模型,數(shù)據(jù)自身便會(huì)從數(shù)據(jù)特性和規(guī)律進(jìn)行統(tǒng)計(jì)分析。但現(xiàn)實(shí)情況下,這種不依賴(lài)具體算法的大數(shù)據(jù)分析實(shí)現(xiàn)起來(lái)還有一定難度。缺乏延展性分析的結(jié)果,無(wú)疑會(huì)使我們錯(cuò)失更多的問(wèn)題域。因此,大數(shù)據(jù)環(huán)境下,我們更應(yīng)該注重?cái)?shù)據(jù)與算法的融合。
【關(guān)鍵詞】 大數(shù)據(jù) 算法模型
大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集[1]。隨著產(chǎn)業(yè)數(shù)據(jù)量的種類(lèi)和規(guī)模的爆炸式增長(zhǎng),大數(shù)據(jù)概念受到越來(lái)越多的關(guān)注,各種云計(jì)算、物聯(lián)網(wǎng)、智能系統(tǒng)等新興服務(wù)促使社會(huì)以前所未有的速度跨步發(fā)展。
鑒于大數(shù)據(jù)的海量,復(fù)雜多樣,信息的維度多,顆粒度細(xì),信息更非結(jié)構(gòu)化等特性,使得大數(shù)據(jù)環(huán)境的構(gòu)建頗為復(fù)雜。大數(shù)據(jù)時(shí)代數(shù)據(jù)的收集問(wèn)題不再成為我們的困擾,采集全量的數(shù)據(jù)成為現(xiàn)實(shí)。全量數(shù)據(jù)帶給我們視角上的宏觀與高遠(yuǎn),這將使我們可以站在更高的層級(jí)全貌看待問(wèn)題,看見(jiàn)曾經(jīng)被淹沒(méi)的數(shù)據(jù)價(jià)值,發(fā)現(xiàn)藏匿在整體中有趣的細(xì)節(jié)。因?yàn)閾碛腥炕驇缀跞康臄?shù)據(jù),就能使我們獲得從不同的角度更細(xì)致更全面的觀察研究數(shù)據(jù)的可能性,從而使得大數(shù)據(jù)的分析過(guò)程成為驚喜的發(fā)現(xiàn)過(guò)程和問(wèn)題域的拓展過(guò)程。很多人自始至終都認(rèn)為數(shù)據(jù)是越多越好,那么理想中的大數(shù)據(jù)是更多的數(shù)據(jù),還是由各種算法構(gòu)成智能處理技術(shù)。
大數(shù)據(jù)的理想形態(tài)是不用構(gòu)建算法模型,也可以說(shuō)已經(jīng)構(gòu)建了完整的統(tǒng)計(jì)模型,不用根據(jù)具體的問(wèn)題再單獨(dú)建立模型,數(shù)據(jù)自身會(huì)從數(shù)據(jù)特性,規(guī)律去進(jìn)行統(tǒng)計(jì)分析,人們只需要將所有數(shù)據(jù)輸入,計(jì)算機(jī)就能利用完整的統(tǒng)計(jì)模型,決策出哪些數(shù)據(jù)適用哪個(gè)模型,解決了哪些數(shù)據(jù)的問(wèn)題。最后大數(shù)據(jù)的輸出成果將不是一份報(bào)告,而是一個(gè)完整的體系,給出了在各種條件下的結(jié)論的體系。這個(gè)體系沒(méi)有一份報(bào)告能容納如此多的結(jié)果。大數(shù)據(jù)給出的體系具有普遍性,客觀性,解決了人們片面的使用數(shù)學(xué)模型,得出片面結(jié)果的問(wèn)題。
當(dāng)然,這是一種理想的智能環(huán)境模式。智能環(huán)境的理想狀態(tài)就是,計(jì)算機(jī)能夠自己的進(jìn)行推理,能夠自適應(yīng)數(shù)據(jù)的維度、結(jié)構(gòu)。到了那個(gè)時(shí)候,更多的數(shù)據(jù)將勝過(guò)更好的算法,因?yàn)槟菚r(shí)候已經(jīng)沒(méi)有了算法,沒(méi)有什么是不能計(jì)算的。
但現(xiàn)實(shí)是,我們目前的大數(shù)據(jù)離理想中的大數(shù)據(jù)形態(tài)還有很遠(yuǎn)的距離。首先,模型本身就是大數(shù)據(jù)的一部分,各種不同模型都有各自的適用范圍;其次,已有的模型可能不適合新的數(shù)據(jù),那么就要構(gòu)建新的模型,這都給大數(shù)據(jù)環(huán)境的架構(gòu)帶來(lái)很大的困難。
數(shù)據(jù)分析員總是習(xí)慣帶著預(yù)先設(shè)定的結(jié)論去分析,這是統(tǒng)計(jì)學(xué)隨機(jī)樣本檢測(cè)的特點(diǎn),隨機(jī)樣本帶給我們的只能是事先預(yù)設(shè)問(wèn)題的答案。他們會(huì)不自覺(jué)地以對(duì)自己有利的方式對(duì)這些數(shù)據(jù)進(jìn)行分析和解釋?zhuān)词惯@些方式很可能與這些數(shù)據(jù)所代表的客觀現(xiàn)實(shí)不相吻合。出于各種原因,數(shù)據(jù)分析員很難從干擾他們的噪聲中分辨出有用的信號(hào),甚至?xí)o(wú)視這些真實(shí)有用的信號(hào)。
于是,數(shù)據(jù)展示給他們的通常都是他們想要的結(jié)果,而且他們通常也能確保這些數(shù)據(jù)令大家皆大歡喜。同時(shí),我們有時(shí)天真的相信各種預(yù)測(cè)分析模型,卻沒(méi)有人認(rèn)真地去驗(yàn)證這些模型是否科學(xué)合理,是否與事實(shí)相符,也許這些模型在進(jìn)行架設(shè)選擇時(shí)根本不堪一擊。這種缺乏延展性的結(jié)果,無(wú)疑會(huì)使我們錯(cuò)失更多的問(wèn)題域。
大數(shù)據(jù)時(shí)代,算法不再受限于傳統(tǒng)的思維模式和先驗(yàn)的假定,數(shù)據(jù)會(huì)為我們呈現(xiàn)出新的深刻洞見(jiàn)和釋放出巨大的價(jià)值,只有更好的使數(shù)據(jù)和算法融合,才能在隨時(shí)接收著來(lái)自數(shù)據(jù)的同時(shí)做出快速的決策,這樣效率會(huì)大大提升,大數(shù)據(jù)的價(jià)值也正是在于將及時(shí)的信息及時(shí)的傳遞給需要的人手中并及時(shí)的做出決策。
筆者認(rèn)為數(shù)據(jù)只是基礎(chǔ),而更多的是如何建構(gòu)起有效的算法、模型,這比數(shù)據(jù)本身更重要,網(wǎng)絡(luò)中有時(shí)更多的數(shù)據(jù)意味著更多的噪聲。信號(hào)是真相,噪聲卻使我們離真相越來(lái)越遠(yuǎn)。
目前的大數(shù)據(jù)與理想中的大數(shù)據(jù)形態(tài)的距離并不在于數(shù)據(jù)源的多少上,數(shù)據(jù)源從來(lái)不是問(wèn)題,問(wèn)題是在于我們?nèi)绾稳?gòu)建一個(gè)科學(xué)合理的分析模型,并堅(jiān)信分析模式的輸出結(jié)果。通過(guò)不斷地修正、累積各種正確的分析模型,我們將不斷接近理想形態(tài)。
我們以為自己需要更多的信息,但其實(shí)我們真正需要的是知識(shí),需要的是更多的解決問(wèn)題的模型。所以,大數(shù)據(jù)是一種理想的智能環(huán)境,目前我們只是站在一個(gè)很長(zhǎng)過(guò)程的起點(diǎn)上。
參 考 文 獻(xiàn)
[1] Big data[EB/OL]. [2012-10-02]. http://en.wikipedia.org/wiki/Big_data.
[2]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望.計(jì)算機(jī)學(xué)報(bào),2013(6):1125-1138.
[3] 李德仁.數(shù)字城市+物聯(lián)網(wǎng)+云計(jì)算=智慧城市.中國(guó)新通信,2011(20):46.