趙艷秋
“大數(shù)據(jù)過熱了”是華為FusionInsight大數(shù)據(jù)平臺總經(jīng)理朱照生在訪談中的第一句話,這有些令人出乎意料。朱照生2000年進入華為做研發(fā),就開始與通信主機系統(tǒng)中實時、海量的數(shù)據(jù)處理打交道,那時,還沒有“大數(shù)據(jù)”這個詞。
“任何人都必須用數(shù)據(jù)來說話”——朱照生非常認可世界質(zhì)量管理大師愛德華·戴明的這一金句。但數(shù)據(jù)本身不會說話,如何讓數(shù)據(jù)會說話,并且具備智慧呢?朱照生談起了他心中的大數(shù)據(jù)哲學(xué):數(shù)據(jù)是一個個的比特位。本質(zhì)上,大數(shù)據(jù)就是現(xiàn)實物理世界在數(shù)字空間的一個映射。數(shù)據(jù)要說話,前提是要有可以說話的平臺,通過平臺把各類數(shù)據(jù)有效組織起來,來表現(xiàn)出它在物理世界的屬性。自然而然的,利用的數(shù)據(jù)維度越多,就越發(fā)能精準地反映出物理世界,這就是智慧的基礎(chǔ)。
大數(shù)據(jù)可以利用各種維度的數(shù)據(jù),分析的維度可以是數(shù)十萬、百萬維,甚至是全量的分析,而不僅依賴于少量的抽樣。這就像黑白照相、彩色照相一直到數(shù)千萬像素的高清照相一樣,而大數(shù)據(jù)平臺就如同照相機中的鏡頭和CCD,大數(shù)據(jù)平臺可處理的維度越多、越精細,你所擁有的數(shù)據(jù)就越會說話了,應(yīng)該是“慧”說話了。
大數(shù)據(jù)是一種觀念轉(zhuǎn)變
從事了10多年數(shù)據(jù)工作的朱照生觀察到,現(xiàn)在大家對大數(shù)據(jù)的反應(yīng)有些過熱——似乎一夜之間,每個人都需要大數(shù)據(jù)。但從他個人接觸的行業(yè)狀況看,數(shù)據(jù)的積累量、采集量還遠遠沒有達到生產(chǎn)巨大價值的量級。他估計,現(xiàn)在企業(yè)或者行業(yè)采集來的數(shù)據(jù),只有20%到30%會被用來分析,而采集的數(shù)據(jù)又遠遠小于企業(yè)或行業(yè)實際產(chǎn)生的數(shù)據(jù)。以發(fā)動機為例,一個發(fā)動機每天產(chǎn)生的數(shù)據(jù)在20TB以上,但這些數(shù)據(jù)大部分被扔掉了?!叭绻麤]有從源頭拉動數(shù)據(jù)的采集、沒有把采集的各類數(shù)據(jù)加以分析,大數(shù)據(jù)將是一個童話。要避免在概念上‘橫看成嶺側(cè)成峰,現(xiàn)在大數(shù)據(jù)應(yīng)用還處于早期”。
那么,華為為什么會投入大數(shù)據(jù)?這與華為多年聚焦的通信業(yè)務(wù)相關(guān)。通信業(yè)一直是個海量數(shù)據(jù)行業(yè),華為也就自然而然地介入進來。
實際上,大數(shù)據(jù)也是一種文化觀念的轉(zhuǎn)變。大數(shù)據(jù)的重要意義在于,它不是用來堆積的,而是用來分析和服務(wù)現(xiàn)實世界。
以華為大數(shù)據(jù)業(yè)務(wù)近兩年服務(wù)的銀行業(yè)為例,金融行業(yè)正在積極發(fā)掘大數(shù)據(jù)的兩類價值:一是通過把各類數(shù)據(jù)整合在一起,去發(fā)現(xiàn)以前被忽略的機會,另一類則是降低曾被忽略掉的風(fēng)險。就拿信用卡盜刷現(xiàn)象為例,如果銀行能結(jié)合用戶行為信息,像位置信息,發(fā)現(xiàn)客戶已回國,信用卡卻在海外被刷,就可以在授權(quán)之前攔住這筆交易,而不是亡羊補牢。
無論電信和金融,很多業(yè)務(wù)背后都越來越需要一個大數(shù)據(jù)平臺支撐。朱照生說,華為就是要形成這樣一個平臺,能夠讓“數(shù)據(jù)慧說話”,能夠讓數(shù)據(jù)幫助人們智慧地洞察,所以這個平臺最終取名Fusionlnsight。
不只是Hadoop發(fā)行版
從2006年到現(xiàn)在,華為大數(shù)據(jù)業(yè)務(wù)一直處于投入期。除了數(shù)百人的產(chǎn)品團隊,華為各類基礎(chǔ)實驗室也開展算法、機器語言、自然語言處理等基礎(chǔ)研究。
華為的大數(shù)據(jù)業(yè)務(wù)定位與業(yè)界其他一些企業(yè)有所不同。它不像一些StartUp公司,做一段時間就賣掉;也沒有歷史包袱,因此可以采用新架構(gòu)、新技術(shù)。華為希望通過這個數(shù)據(jù)平臺,能夠改善客戶的業(yè)務(wù),幫助客戶更好地利用數(shù)據(jù),這是一個長期戰(zhàn)略。
雖然采用了Hadoop開源技術(shù),但從模塊占比來看,Hadoop僅是Fusionlnsight中的一個分布式引擎,F(xiàn)usionlnsight包含Hadoop,但不僅僅是Hadoop的發(fā)行版。
在Fusionlnsight平臺中,有兩大創(chuàng)新之處。一是提供完全開放的API接口,如SQL、NoSQL等,能讓現(xiàn)有的應(yīng)用廠商和ISV基于開放接口做應(yīng)用,也能實現(xiàn)現(xiàn)有應(yīng)用的無縫遷移,以快速培育大數(shù)據(jù)生態(tài);另一個是全量數(shù)據(jù)分析平臺。傳統(tǒng)的商業(yè)智能基于抽樣數(shù)據(jù),而大數(shù)據(jù)則基于全量數(shù)據(jù)。全量數(shù)據(jù)有數(shù)百萬個、數(shù)千萬個維度,這導(dǎo)致原來的數(shù)據(jù)分析模型失效。全球頂級互聯(lián)網(wǎng)公司現(xiàn)在可實現(xiàn)1000萬維度甚至1億個維度的數(shù)據(jù)分析,這在傳統(tǒng)數(shù)據(jù)分析行業(yè)是不可想象的。為此,華為團隊有很多數(shù)據(jù)科學(xué)家,構(gòu)筑全量數(shù)據(jù)模型能力。Fusionlnsight最終是讓傳統(tǒng)行業(yè)也能享受到互聯(lián)網(wǎng)行業(yè)所擁有的數(shù)據(jù)洞察力。