“這些年IT技術(shù)最重要的一個進(jìn)步之一就是從原本的單機(jī)處理變成了多臺電腦同時處理,從原本只有超級計算機(jī)才能夠完成到可用多臺普通電腦來完成。正是得益于這樣的技術(shù),今天的大數(shù)據(jù)分析對很多人不再是可望不可及的一件事情了。”SAS公司大數(shù)據(jù)研究與發(fā)展全球副總裁Paul Kent在日前舉行的SAS第二屆用戶大會期間接受記者采訪時表示,人們對大數(shù)據(jù)的分析和利用才剛剛開始,未來會有越來越多的人從中受益,SAS以及眾多公司正在一起努力。
“傳統(tǒng)建立在數(shù)據(jù)倉庫基礎(chǔ)上的數(shù)據(jù)分析以及更為人廣泛認(rèn)知的商務(wù)智能投資都很昂貴,千萬級的項目也不稀奇,基本上都是大企業(yè)的專屬工具。在今天這個大數(shù)據(jù)時代,人人都想擁有數(shù)據(jù)分析能力,這樣高昂的投資是難以接受的?!盨AS公司大中華區(qū)總裁吳輔世對Paul的觀點表示高度認(rèn)同。
Hadoop就是Paul Kent提到的這樣一種分布式處理技術(shù)。作為一種開源框架,Hadoop采用了海量并行集群技術(shù)。通過將數(shù)據(jù)分布到多個節(jié)點完成分析計算,這樣不用其他傳統(tǒng)技術(shù)就可以快速擁有極為強大的計算能力。不過,Hadoop只是一個大數(shù)據(jù)存儲和處理的平臺,完成大數(shù)據(jù)的分析和建模還需要借助更為專業(yè)的工具。
“對于SAS來說,我們技術(shù)實力就體現(xiàn)在集群環(huán)境下的運算和算法,這正是SAS的核心競爭力所在。SAS是第一家把大量且復(fù)雜的精密數(shù)據(jù)分析運算應(yīng)用到Hadoop集群?,F(xiàn)在通過軟件就能夠很輕易地讓很多人做到過去只有數(shù)據(jù)科學(xué)家才能做到的事情,比如建立很好的模型或?qū)ξ磥磉M(jìn)行預(yù)測等。”Paul Kent介紹說。
據(jù)悉,為了幫助用戶更好地對大數(shù)據(jù)進(jìn)行分析和處理,SAS在與Hadoop之間的溝通上做了大量工作,包括可以從Hadoop讀取數(shù)據(jù)和向Hadoop寫入數(shù)據(jù)以及執(zhí)行MapReduce程序的能力;通過SAS程序和HiveQL完成管理和操作Hadoop數(shù)據(jù);SAS高性能分析以及SAS的可視化分析也能在Hadoop集群上運行等。
“過去一些傳統(tǒng)的主機(jī)和大型數(shù)據(jù)倉庫平臺做的工作現(xiàn)在正在逐步地遷移到Hadoop當(dāng)中去,SAS看到了這一變化,我們在Hadoop平臺上所做的工作讓客戶的大數(shù)據(jù)應(yīng)用能更快速的部署、更少的投資,同時得到更多的效益?!眳禽o世表示。
據(jù)吳輔世介紹,目前國內(nèi)已經(jīng)有很多企業(yè)開始探索基于Hadoop進(jìn)行數(shù)據(jù)分析試驗、測試和演講,其中包括電信業(yè)、零售業(yè)和金融業(yè)的傳統(tǒng)企業(yè)。不久前有一個銀行的客戶對大約1億條的記錄進(jìn)行做風(fēng)險管理回歸分析的測試,用SAS的高性能分析技術(shù)在4臺的PC服務(wù)器上花3分鐘時間完成了分析。過去沒有這種高性能分析,即使是SAS軟件也要花2、3個小時才能解決,而其他一些廠商的軟件也許根本算出不來結(jié)果,因為數(shù)據(jù)量太大。
當(dāng)然,要降低大數(shù)據(jù)的門檻簡化數(shù)據(jù)分析的操作,也非常重要。在SAS第二屆用戶大會期間,記者注意到了SAS的一款可視化分析工具SAS Visual Analytics,它通過轉(zhuǎn)變成這種新型的計算方式,可以在全量數(shù)據(jù)上展開交互式的可視化數(shù)據(jù)探索,同時輕松使用那些以前難以駕馭的先進(jìn)分析模型。值得一提的是,SAS與Hadoop生態(tài)系統(tǒng)中知名公司Cloudera和Hortonworks展開了戰(zhàn)略合作,客戶還可以在云環(huán)境中使用可視化分析。