何春濤
Forester曾有一份調(diào)查報(bào)告顯示,在擁有傳統(tǒng)BI的企業(yè)或機(jī)構(gòu)中,大約83%的數(shù)據(jù)分析需求未能得到滿足。甚至,大多數(shù)時(shí)候,用戶還是會(huì)用Excel等工具去分析數(shù)據(jù)。這是一個(gè)可怕的現(xiàn)象,它說明了企業(yè)或機(jī)構(gòu)投資建設(shè)的BI系統(tǒng)只滿足了少量需求。
彌補(bǔ)傳統(tǒng)BI的短板
傳統(tǒng)BI系統(tǒng)的經(jīng)典架構(gòu)是這樣的,底層是數(shù)據(jù)源,中層是ETL(抽取、轉(zhuǎn)換、裝載),上層的數(shù)據(jù)倉庫形成DWD。為了進(jìn)行數(shù)據(jù)分析,用戶一般會(huì)把數(shù)據(jù)預(yù)先匯總,形成DWA(匯總數(shù)據(jù)層),或者抽取到數(shù)據(jù)集市,或者抽取到Cube Server打Cube,然后再通過前端展現(xiàn)工具讓用戶進(jìn)行數(shù)據(jù)分析。
那么,傳統(tǒng)BI架構(gòu)在處理企業(yè)數(shù)據(jù)時(shí)存在哪些短板呢?首先,整個(gè)系統(tǒng)由諸多個(gè)單獨(dú)產(chǎn)品組成,總體擁有成本比較昂貴。其次,建好一套BI系統(tǒng)通常需要幾個(gè)月甚至跨年,上線周期太長(zhǎng)。第三,完成系統(tǒng)計(jì)劃之后,實(shí)施人員開始從前往后的瀑布式實(shí)施,但是,每一步都涉到比較“重”的數(shù)據(jù)形態(tài)轉(zhuǎn)變。這種情況有點(diǎn)類似于我國多年前提出的“計(jì)劃經(jīng)濟(jì)”,不夠靈活。
而對(duì)于傳統(tǒng)BI面臨的這些短板,敏捷BI都能夠有針對(duì)性地提出解決方案。敏捷BI直接把數(shù)據(jù)裝載到內(nèi)存數(shù)據(jù)集市中,內(nèi)存數(shù)據(jù)集市存儲(chǔ)的是細(xì)節(jié)數(shù)據(jù)而不是匯總數(shù)據(jù),所以不存在DWA或Cube,然后用戶就能直接在前端BI平臺(tái)上開始數(shù)據(jù)分析了。另外,基于細(xì)節(jié)數(shù)據(jù),用戶就能做探索式分析了。TDWI一旦有數(shù)據(jù),用戶就可以在數(shù)據(jù)中做探索式分析,而不是僅僅地利用現(xiàn)有的分析模型,將用戶找到答案的成功率從原本的23%提升近50%。
對(duì)比傳統(tǒng)BI,敏捷BI的特點(diǎn)在于:整個(gè)敏捷BI系統(tǒng),只需要一個(gè)產(chǎn)品,成本一般會(huì)低很多;由于數(shù)據(jù)集市中存儲(chǔ)的是細(xì)節(jié)數(shù)據(jù),建模工作比較輕量級(jí),BI系統(tǒng)的上線周期大大縮短;實(shí)施過程是自下而上,由業(yè)務(wù)來驅(qū)動(dòng)。
敏捷BI快速步入成熟期
2006年,Gartner公布的BI魔力象限中,標(biāo)榜為領(lǐng)導(dǎo)者區(qū)域的第一象限還看不到一家敏捷BI廠商,全部是大家熟知的傳統(tǒng)BI廠商,例如Cognos、Business Objects等。直到2012年,Gartner公布的BI魔力象限第一象限中才見到第一家敏捷BI廠商QlikTech。但是,到了2014年,Gartener的BI魔力象限的第一象限中就已經(jīng)出現(xiàn)三家敏捷BI廠商了,在數(shù)量上占據(jù)了近半數(shù)的規(guī)模。
在傳統(tǒng)BI增長(zhǎng)勢(shì)頭依舊非常強(qiáng)勁的今天,敏捷BI的發(fā)展速度令業(yè)界感到驚訝。這種趨勢(shì)也說明了,不管從廠商還是從用戶的角度來看,敏捷BI都已經(jīng)步入了成熟期,成為一種主流的BI系統(tǒng)建設(shè)方法。
目前,中國市場(chǎng)上已經(jīng)涌入了一些敏捷BI廠商,比較活躍的有三家,它們分別是Tableau、QlikView和永洪BI??傮w來看,這三家廠商各有優(yōu)勢(shì)。首先,在計(jì)算方面,Tableau可基于數(shù)據(jù)庫和本地緩存,QlikView可基于數(shù)據(jù)庫和內(nèi)存計(jì)算,永洪BI可基于數(shù)據(jù)庫、內(nèi)存計(jì)算,或者分布式的集群。其次,在支持的操作系統(tǒng)平臺(tái)方面,Tableau和QlikView都是基于桌面操作系統(tǒng)產(chǎn)品起家的,也正是由于這個(gè)歷史原因,大量代碼集都運(yùn)營(yíng)在Windows上,永洪BI可以兼容Windows和Linux兩種操作系統(tǒng)。
綜合來看,Tableau在數(shù)據(jù)可視化方面很突出,QlikView則在內(nèi)存計(jì)算方面是強(qiáng)項(xiàng),永洪BI在內(nèi)存計(jì)算和分布式計(jì)算方面都不錯(cuò)。
“計(jì)劃經(jīng)濟(jì)”與“市場(chǎng)經(jīng)濟(jì)”
如果說傳統(tǒng)BI是一種類似“計(jì)劃經(jīng)濟(jì)”的理念,那么,敏捷BI更像是“市場(chǎng)經(jīng)濟(jì)”。
一方面,企業(yè)用類似“計(jì)劃經(jīng)濟(jì)”的那套理念建設(shè)BI系統(tǒng),因?yàn)榉治鼋M合和分析指標(biāo)是之前已經(jīng)確定的,用它們來決定明天的決策,顯然缺少實(shí)效性;另一方面,經(jīng)濟(jì)建設(shè)如果一味地開放市場(chǎng),而不做引導(dǎo)和監(jiān)管,整個(gè)系統(tǒng)又有失控的風(fēng)險(xiǎn)。因此,傳統(tǒng)BI與敏捷BI分不清孰優(yōu)孰劣,它們適用于不同需求的企業(yè)而已。
同時(shí),傳統(tǒng)BI存在了幾十年,最初建設(shè)時(shí),企業(yè)可選取的信息技術(shù)并不多,硬件水平低,軟件系統(tǒng)一般都基于關(guān)系型數(shù)據(jù)庫,所以數(shù)據(jù)科學(xué)家想了很多辦法來把數(shù)據(jù)分析推動(dòng)起來,比如數(shù)據(jù)層可能有這些步驟:Stage、ODS、DWA、DWD、OLAP等。
隨著硬件水平的大幅提升:內(nèi)存和CPU的價(jià)格逐漸下降、計(jì)算能力提升非常大,分布式存儲(chǔ)和計(jì)算技術(shù)都開始走向成熟期。因此,現(xiàn)在要建設(shè)一個(gè)數(shù)據(jù)分析系統(tǒng),企業(yè)有很多的辦法可以選用。
那么,傳統(tǒng)BI與敏捷BI兩者的差異到底在哪里呢?第一,傳統(tǒng)BI一般會(huì)建立統(tǒng)一視圖,這是一個(gè)重量級(jí)的建模工作;而敏捷BI一般不會(huì)試圖建立統(tǒng)一視圖,而是按主題分類,給每個(gè)分析主題分別建一個(gè)視圖。
綜合看來,兩者的做法對(duì)于企業(yè)來說各有利弊。傳統(tǒng)BI建立的統(tǒng)一試圖,更有利于用戶宏觀地把握數(shù)據(jù),但是工作量會(huì)很大;敏捷BI建立的按主題分類的視圖,建立的速度比較快,但是缺乏整體感。
第二,傳統(tǒng)BI一般會(huì)分層次處理數(shù)據(jù),例如預(yù)先把處理好的數(shù)據(jù)匯總存儲(chǔ)到DWA中,或在Cube Server中打Cube。而敏捷BI一直都是基于細(xì)節(jié)數(shù)據(jù),所以最終用戶能用的數(shù)據(jù)依舊是細(xì)節(jié)數(shù)據(jù)。從數(shù)據(jù)分析的角度來說,匯總數(shù)據(jù)基本已經(jīng)固化了分析組合和分析指標(biāo),而敏捷BI的細(xì)節(jié)數(shù)據(jù)將給業(yè)務(wù)帶來更大的靈活性。從理論上來說,分析組合可以隨意,分析指標(biāo)可以隨意,最終用戶的決定空間較大,可以做探索式分析。
知名雜志DM Review(數(shù)據(jù)管理評(píng)論)在美國曾做的一份調(diào)查報(bào)告顯示,敏捷BI在部署周期、項(xiàng)目成本、成功率、用戶覆蓋等方面完勝傳統(tǒng)BI。
那么,用戶應(yīng)該如何看待傳統(tǒng)BI和敏捷BI的關(guān)系呢?筆者的建議是“守正出奇”。用戶應(yīng)該融合傳統(tǒng)BI和敏捷BI的各自優(yōu)勢(shì)為我所用。
一方面,傳統(tǒng)BI發(fā)展多年,其經(jīng)驗(yàn)成熟、產(chǎn)品穩(wěn)定,不能否定更不能拋棄,可將其用于企業(yè)決策、洞察、監(jiān)控整體業(yè)務(wù)狀況,尤其是那些較少變化的宏觀指標(biāo)。
另一方面,敏捷BI可以提升企業(yè)洞察力和決策力,讓更多的人擁抱BI。企業(yè)需要更快地實(shí)現(xiàn)BI,快速而準(zhǔn)確地開展商業(yè)工作。
兩個(gè)角度開啟敏捷BI之旅
傳統(tǒng)BI系統(tǒng)一般用于監(jiān)控相對(duì)靜態(tài)的指標(biāo),也提供一些基于模型的數(shù)據(jù)分析工作,只要運(yùn)行良好就可以保留。為了提升內(nèi)部的數(shù)據(jù)分析工作,提升大家的洞察力,提升企業(yè)的決策力,企業(yè)可以從部門級(jí)和企業(yè)級(jí)兩個(gè)角度考慮建設(shè)敏捷BI系統(tǒng)。
對(duì)于部門級(jí)BI應(yīng)用。如果部門級(jí)數(shù)據(jù)量不大,直接基于數(shù)據(jù)庫進(jìn)行分析既對(duì)業(yè)務(wù)沒有太大影響,而且性能也足夠好,企業(yè)則可以直接基于數(shù)據(jù)庫搭建分析系統(tǒng)。當(dāng)然,有些部門級(jí)應(yīng)用數(shù)據(jù)量不一定小,有的可能達(dá)到TB級(jí)甚至PB級(jí)。對(duì)于這種情況,企業(yè)可以把細(xì)節(jié)數(shù)據(jù)直接抽取到敏捷BI系統(tǒng)自帶的數(shù)據(jù)集市中,解決性能問題。
同時(shí),對(duì)于部門級(jí)應(yīng)用,由于數(shù)據(jù)層比較簡(jiǎn)單,部門人員也不多,因而計(jì)算和分析資源分配起來比較簡(jiǎn)單。不過,敏捷BI也應(yīng)該提供比較完備的Audit機(jī)制,讓企業(yè)可以知道在數(shù)據(jù)和計(jì)算上有沒有錯(cuò)配,如果有的話及時(shí)做一些小調(diào)整即可。
對(duì)于企業(yè)級(jí)BI應(yīng)用,筆者比較認(rèn)同F(xiàn)orester推崇的一種架構(gòu)。這種典型的架構(gòu)被稱為“Hub & Spoke”,意思是輻射狀架構(gòu)。
該架構(gòu)的最中央是一個(gè)大型數(shù)據(jù)中心(Hub),最底部是各種數(shù)據(jù)源。通過選取各種合理的ETL途徑,企業(yè)將各個(gè)數(shù)據(jù)源的細(xì)節(jié)數(shù)據(jù)抽取到數(shù)據(jù)中心里。數(shù)據(jù)中心甚至可以存儲(chǔ)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而且是非常輕量級(jí)的建模,主要是做好數(shù)據(jù)管理。數(shù)據(jù)中心的建設(shè)可以采用商業(yè)產(chǎn)品也可以用開源產(chǎn)品。
同時(shí),該架構(gòu)的兩側(cè)是部門級(jí)BI應(yīng)用和企業(yè)級(jí)BI應(yīng)用,頂部是分析師工作臺(tái)。部門級(jí)BI應(yīng)用和企業(yè)級(jí)BI應(yīng)用,都可以把數(shù)據(jù)從數(shù)據(jù)中心抽取到敏捷BI系統(tǒng)自帶的數(shù)據(jù)集市中并做輕量建模,實(shí)現(xiàn)快速發(fā)布和快速應(yīng)對(duì)變化。分析師工作臺(tái)的工作者是數(shù)據(jù)科學(xué)家,他們會(huì)做一些挖掘、預(yù)測(cè)、探索式的分析工作,數(shù)據(jù)可以移入專用工具里計(jì)算,也可以直接在數(shù)據(jù)中心進(jìn)行計(jì)算。endprint