大數(shù)據(jù)改變了人們對于數(shù)據(jù)結果的認識,拋卻了對數(shù)據(jù)精確的要求,而更注重結果的“明確”和“準確”。比如,很多電商或商業(yè)企業(yè)利用大數(shù)據(jù)來優(yōu)化自己的庫存,在構建這個應用的同時,必須把商品需求彈性的問題考慮進去,如果想很有效地控制成本,還需要考慮產(chǎn)品的供給彈性,否則很難做到“明確”和“準確”。為實現(xiàn)這一目的,要求底層的IT基礎架構必須有足夠的彈性,而且足夠靈活,可以支持應用的創(chuàng)新。新一代的基礎架構應該由商業(yè)環(huán)境的復雜性和大數(shù)據(jù)使用者對于創(chuàng)新應用的不斷探索共同決定的。
大數(shù)據(jù)考驗底層架構
現(xiàn)實的市場環(huán)境是競爭激烈的,更是多變的,以Hadoop為代表的非結構化數(shù)據(jù)技術的誕生更是加劇了這種競爭。商業(yè)行為中每一個細小的變化對應的都是一次數(shù)據(jù)的補充、一次算法的調整,結果造成了一次數(shù)據(jù)流的加速,而提升數(shù)據(jù)的利用率也是提升商業(yè)價值最有效的方法。而從另一個角度來說,很多商業(yè)企業(yè)更熱衷于用增加有創(chuàng)造性的大數(shù)據(jù)應用來強調自己的競爭優(yōu)勢,眾所周知的亞馬遜產(chǎn)品推薦就是相當?shù)湫偷囊粋€例子。
面對大數(shù)據(jù)時代,大數(shù)據(jù)的使用者通常會選擇在追求數(shù)據(jù)的多樣性的同時,采用有創(chuàng)造性的算法,來實現(xiàn)對于多來源、多格式數(shù)據(jù)的價值提取。這種以“數(shù)據(jù)為核心”的思考方式,決定了將運算推到數(shù)據(jù)方的產(chǎn)業(yè)技術趨勢。
大數(shù)據(jù)基礎架構必須學會“海納百川”。在大數(shù)據(jù)的來源上,大多使用的是廣泛存在于我們周圍的數(shù)據(jù),比如來自互聯(lián)網(wǎng)、社交網(wǎng)絡等移動應用的數(shù)據(jù),或是企業(yè)在商業(yè)活動過程中積累下來的業(yè)務數(shù)據(jù),就連抽樣數(shù)據(jù)痛恨不已的錯誤數(shù)據(jù),大數(shù)據(jù)也照單全收!這個并不難理解,從唯物主義角度講,數(shù)據(jù)沒有絕對的完整,更沒有絕對的完美,錯誤數(shù)據(jù)也是數(shù)據(jù)的一部分。所以對于一個大數(shù)據(jù)基礎架構來說,必須保證各種數(shù)據(jù)都能夠存儲下來,并且隨時以供調用,而在很多有創(chuàng)意的應用中,這一點甚至會比架構的數(shù)據(jù)存儲量更重要,因為在大多數(shù)情況下,考慮的因素越多,結果就會更加“準確”。
同時大數(shù)據(jù)基礎架構應該是性能卓越、身手敏捷的,無論多么有想法的應用都需要通過算法實現(xiàn),都需要有一個能令自己大展身手的平臺,在復雜數(shù)據(jù)融合復用的前提下,更加強調了大數(shù)據(jù)基礎架構對于數(shù)據(jù)的適應能力和數(shù)據(jù)利用的效率。
合適才是最好
對于我們來說,大數(shù)據(jù)的應用可以說“只有想不到,沒有做不到”,再加上復雜多樣的數(shù)據(jù),注定大數(shù)據(jù)年代沒有通用的底層平臺產(chǎn)品,而只有符合創(chuàng)新應用需求和“全數(shù)據(jù)”處理的大數(shù)據(jù)基礎架構。
且不說應用算法,就在Hadoop族群本身也有很挑剔的角色:如果和Hive配合的計算密度不夠,會造成集群大面積宕機;Hbase能輕而易舉地拿下任何格式的數(shù)據(jù),存再多都沒問題,但面對表單交互運算卻無能為力;而storm\Spark、內存數(shù)據(jù)庫,種種大數(shù)據(jù)處理技術層出不窮,從基礎平臺、分析、存儲到事實運算等不同層面發(fā)揮著自己的優(yōu)勢,在大數(shù)據(jù)這個大話題里,平臺與應用之間沒有對錯,只有是否合適、是否相得益彰,每一個大數(shù)據(jù)的使用者都需要視自己應用的需求,選擇適合自己的基礎架構。
另外,由于以Hadoop為代表的大數(shù)據(jù)處理技術,大多來自互聯(lián)網(wǎng),在對技術優(yōu)化的同時,卻在一定程度上欠缺了企業(yè)用戶必不可少的安全、穩(wěn)定和可管理性,在一方面我們還有很長的路要走。
面對數(shù)據(jù)的不斷增長、應用的不斷翻新,大數(shù)據(jù)不斷挑戰(zhàn)我們創(chuàng)造力的極限,在這個產(chǎn)業(yè)生態(tài)系統(tǒng)中,底層基礎平臺如何不斷刷新創(chuàng)新應用和海量數(shù)據(jù)的價值,也一定將會是相當重要的環(huán)節(jié)之一。