王雄
提到“數(shù)據(jù)中臺”4個字,很多人都會“不明覺厲”。有意思的是,國外并沒有“數(shù)據(jù)中臺”這個詞,那么,為什么中國企業(yè)如此看重數(shù)據(jù)中臺?中臺是如何產(chǎn)生并被發(fā)現(xiàn)進(jìn)而現(xiàn)價值的?這是一個值得分析的現(xiàn)象。
數(shù)據(jù)中臺的重要性
不管企業(yè)業(yè)務(wù)規(guī)模大還是小、不管公司成立得早還是晚,或多或少地都會對數(shù)據(jù)進(jìn)行投資,除了基礎(chǔ)的數(shù)據(jù)系統(tǒng)建設(shè),還包括數(shù)據(jù)湖、數(shù)據(jù)倉庫等。但實際上,這些已有的數(shù)據(jù)投入并沒有產(chǎn)生理想的業(yè)務(wù)價值。
為什么會出現(xiàn)這種現(xiàn)象?Gartner研究總監(jiān)孫鑫一語道破,在他看來,企業(yè)已有的數(shù)據(jù)投入是割裂狀態(tài),有嚴(yán)重的數(shù)據(jù)孤島問題。雖然,企業(yè)在后端已經(jīng)部署了大量與數(shù)據(jù)管理相關(guān)的應(yīng)用,但與前端數(shù)據(jù)消費(fèi)者以及應(yīng)用之間存在著巨大的價值鴻溝。
有些企業(yè)為了實現(xiàn)數(shù)字化轉(zhuǎn)型戰(zhàn)略目標(biāo),只是借用了數(shù)據(jù)湖概念,采購了交易型數(shù)據(jù)庫、分析型數(shù)據(jù)庫以及數(shù)倉等,并且會考慮未來幾年實現(xiàn)云轉(zhuǎn)型目標(biāo),或者說現(xiàn)在已經(jīng)在向云化方向發(fā)展。但由于企業(yè)規(guī)模不同、戰(zhàn)略目標(biāo)不同、對數(shù)字化的理解不一樣,它們對數(shù)據(jù)分析、數(shù)據(jù)庫和數(shù)據(jù)資產(chǎn)的投入順序也會千差萬別。但相同的目標(biāo)是,企業(yè)建立數(shù)據(jù)中臺最直接的動因是希望讓現(xiàn)有的數(shù)據(jù)投資產(chǎn)生價值。
然而,放眼市場,中國雖然有很多“中臺生意”,但真正做數(shù)據(jù)整合的廠商卻不多,當(dāng)企業(yè)做了大量BI、數(shù)據(jù)庫的工作后,才開始意識到ETL的重要性。尤其是大數(shù)據(jù)時代,隨著企業(yè)數(shù)據(jù)量的持續(xù)增加,數(shù)據(jù)整合的需求變得越來越強(qiáng)烈。所以,數(shù)據(jù)中臺解決方案的最首要任務(wù)是,通過數(shù)據(jù)整合實現(xiàn)數(shù)據(jù)的快速交付,并且還要找到真正可復(fù)用的數(shù)據(jù),從根本上解決數(shù)據(jù)孤島問題。
如何建立數(shù)據(jù)中臺
建數(shù)據(jù)中臺并不是一件容易的事情,失敗的數(shù)據(jù)中臺會給企業(yè)帶來負(fù)面效果,這也是“數(shù)據(jù)中臺干跑了很多CIO”的最重要原因。所以,在企業(yè)搭建數(shù)據(jù)中臺之前,要多問自己幾個為什么,比如,如何決定是否要做這件事兒,如果要做,最需要注意的問題是什么……
Gartner建議,企業(yè)在部署數(shù)據(jù)中臺之前,先要從端到端的數(shù)據(jù)能力來評估,看看到底缺少哪一塊,而不是盲目上一個中臺。數(shù)據(jù)中臺一定在“技術(shù)成熟度曲線”的頂峰,雖然不管是 BI廠商,還是數(shù)據(jù)庫廠商都稱自己提供的是中臺解決方案,但作為選型決策者,一定要準(zhǔn)確判斷,找到能解決問題的廠商,有時候選型過程可能比部署還難。
另外,如何與業(yè)務(wù)部門進(jìn)行深度溝通,也是上中臺前要考慮的重要事項之一。因為,企業(yè)的數(shù)據(jù)大多與核心業(yè)務(wù)系統(tǒng)有關(guān),比如ERP、CRM;然后再考慮如何建立數(shù)倉、數(shù)據(jù)湖,如果技術(shù)和業(yè)務(wù)不統(tǒng)一,這樣的中臺很難直擊痛點,產(chǎn)生價值。
很多人都認(rèn)為,數(shù)據(jù)中臺是一個技術(shù)問題,其實更多的時候它是一種戰(zhàn)略決策。尤其對于大型互聯(lián)網(wǎng)企業(yè)來說,數(shù)據(jù)中臺來自業(yè)務(wù)需求,業(yè)務(wù)部門希望對日益增長的數(shù)據(jù)進(jìn)行有效管理,并利用這些數(shù)據(jù)指導(dǎo)決策。所以,好的數(shù)據(jù)分析團(tuán)隊?wèi)?yīng)該是“聯(lián)邦”關(guān)系,通過中央團(tuán)隊、中央IT人員,對數(shù)據(jù)分析進(jìn)行延展,確保企業(yè)數(shù)據(jù)擁有強(qiáng)一致性。同時,還要聯(lián)合業(yè)務(wù)側(cè)的成員,一起關(guān)注快速部署與價值輸出的問題。
值得一提的是,搭建數(shù)據(jù)中臺,還要考慮以往數(shù)據(jù)資產(chǎn)投入產(chǎn)出比的問題。要知道,無論企業(yè)做不做中臺,企業(yè)的業(yè)務(wù)量和數(shù)據(jù)量都在飛速增長,對于早已投入生產(chǎn)的數(shù)倉、數(shù)據(jù)湖的處理是企業(yè)在數(shù)字化轉(zhuǎn)型背景下,必須要解決的問題。如果企業(yè)過去津津樂道的“數(shù)據(jù)資產(chǎn)”并沒有與現(xiàn)有業(yè)務(wù)實現(xiàn)共享,這其實是數(shù)據(jù)中臺在設(shè)計方面的“不完整”。如果企業(yè)把大量的時間都花在尋找數(shù)據(jù)上,而沒有用在分析數(shù)據(jù)上,這說明沒有在投資回報率(ROI)上得到更好的體現(xiàn)。
讓數(shù)據(jù)中臺建設(shè)為業(yè)務(wù)賦能,其實有很多相應(yīng)的解決方案和實操工具。比如:通過元數(shù)據(jù)的自動發(fā)現(xiàn),企業(yè)可以搜索到更好的數(shù)據(jù),找到更符合企業(yè)業(yè)務(wù)情境的數(shù)據(jù),并轉(zhuǎn)化為企業(yè)智能生產(chǎn)的語意。換言之,通過智能搜索,可以讓企業(yè)快速尋找到相關(guān)的數(shù)據(jù)源,讓藏在各個系統(tǒng)中的數(shù)據(jù)更直觀地送到用戶手中,最終通過不斷優(yōu)化和演進(jìn),形成企業(yè)最核心的數(shù)據(jù)資產(chǎn)。
有哪些可落地的方案
有人可能會問,數(shù)據(jù)中臺要想成功落地,有沒有可參考的模型?
Gartner把數(shù)據(jù)分析或者說任何關(guān)于數(shù)據(jù)的投入,都分成了2個維度。一個是從數(shù)據(jù)的角度看(也是IT的角度),分為已知數(shù)據(jù)和未知數(shù)據(jù);另一個是從問題的角度看(也是業(yè)務(wù)角度),分為“已知問題”和“未知問題”。
首先,很多企業(yè)建中臺是為了復(fù)用數(shù)據(jù),并且把這些數(shù)據(jù)放在數(shù)據(jù)資產(chǎn)庫中,Gartner把這個數(shù)據(jù)資產(chǎn)庫稱之為數(shù)據(jù)目錄,大多屬于“未知的數(shù)據(jù)”和“未知的問題”。那么,問題來了,過去做的數(shù)據(jù)自檢,難道不算數(shù)據(jù)目錄嗎?當(dāng)然也算,只不過是IT導(dǎo)向,真正的數(shù)據(jù)目錄,應(yīng)該有業(yè)務(wù)部門參與,然后共同完善,實現(xiàn)業(yè)務(wù)語義的逐步凈化。
其次,通過ETL工具實現(xiàn)數(shù)據(jù)整合,包括數(shù)據(jù)的批處理、數(shù)據(jù)的復(fù)制、流數(shù)據(jù)管理等,解決的是“已知的數(shù)據(jù)”和“已知的問題”。在數(shù)據(jù)整合過程中,要讓業(yè)務(wù)側(cè)用戶有獲得數(shù)據(jù)的能力,并產(chǎn)生實際價值。所以,數(shù)據(jù)中臺要具備自助部署能力,這一點非常重要,決定了數(shù)據(jù)中臺項目的成敗。
其三,是數(shù)據(jù)虛擬化,這是很多數(shù)據(jù)中臺解決方案或者產(chǎn)品欠缺的一點。所謂的數(shù)據(jù)虛擬化就是在數(shù)據(jù)還沒有或不用物理位置移動的情況下,依舊可以在一個虛擬層進(jìn)行分析和應(yīng)用。一旦市場有了A廠商和B廠商的產(chǎn)品,企業(yè)想把這兩家廠商的數(shù)據(jù)源整合到數(shù)據(jù)中臺時,就需要通過數(shù)據(jù)虛擬化來實現(xiàn),在虛擬層上完成可復(fù)用的數(shù)據(jù)能力建設(shè)。
基于這個模型,去選擇所需要的產(chǎn)品和解決方案,結(jié)果一定不會太差。只是,現(xiàn)在很多人都在提數(shù)據(jù)智能,這一概念是怎么來的?數(shù)據(jù)智能化和中臺有哪些相關(guān)性?
數(shù)據(jù)智能化和中臺是什么關(guān)系
其實,數(shù)據(jù)呈智能化方向發(fā)展,還是和企業(yè)的業(yè)務(wù)變化密切相關(guān)。過去,企業(yè)的很多決策都由領(lǐng)導(dǎo)“拍腦袋”決定。但是,隨著企業(yè)業(yè)務(wù)的規(guī)?;l(fā)展,業(yè)務(wù)決策不再是一個人的事情,而是由數(shù)據(jù)決定,需要幾個部門共同決策。
更準(zhǔn)確的說法是,在數(shù)據(jù)驅(qū)動下,業(yè)務(wù)決策不再僅是一次性行為,還要強(qiáng)調(diào)連接和連續(xù)性,要更具情境化。
如果用一句話總結(jié),就是企業(yè)決策不再是“一碼通吃”,而是需要把更多小決策關(guān)聯(lián)起來,形成一個大決策。同時,前一個決策還會影響后面的決策,所有決策都要通過情境化的分析能力作為輔助。這時,以知識圖譜為代表的產(chǎn)品,就成為數(shù)據(jù)智能化的重要工具。
至于,數(shù)據(jù)智能化和數(shù)據(jù)中臺是怎樣一種關(guān)系?也并不難理解,數(shù)據(jù)智能化提升了數(shù)據(jù)中臺建設(shè)的難度。
企業(yè)在數(shù)據(jù)智能化背景下,數(shù)據(jù)中臺建設(shè)也要順應(yīng)形勢,滿足更高要求。首先,中臺要能夠連接更復(fù)雜的數(shù)據(jù)源;其次,要能夠根據(jù)用戶需求,給出更具情境化的數(shù)據(jù);其三,能以更連接、更連續(xù)、更快速的形式,給決策者提供想要的數(shù)據(jù)。
不管是交易型數(shù)據(jù)庫、傳統(tǒng)數(shù)倉、數(shù)據(jù)湖,還是云端數(shù)據(jù)存儲,企業(yè)在數(shù)據(jù)端的應(yīng)用非常豐富,構(gòu)成了屬于企業(yè)組織之上的一張?zhí)摂M的網(wǎng)。但是,虛擬化不應(yīng)該只是單純地把數(shù)據(jù)收集在一起,而是應(yīng)該以更具情境化的工具或者方案(知識圖譜)對數(shù)據(jù)進(jìn)行編織。在數(shù)據(jù)編織過程中,不僅涉及每個和消費(fèi)行為相關(guān)的數(shù)據(jù),還包括元數(shù)據(jù)的管理與關(guān)聯(lián)。
從某種角度來說,知識圖譜或圖技術(shù)的最核心內(nèi)容就是以業(yè)務(wù)視角來關(guān)聯(lián)數(shù)據(jù),且數(shù)據(jù)存儲是以點和邊的形式實現(xiàn)。過去,企業(yè)的中臺或者數(shù)據(jù)管理模式比較偏I(xiàn)T;但現(xiàn)在有了“圖”能力,企業(yè)可以對各個領(lǐng)域的業(yè)務(wù)進(jìn)行關(guān)聯(lián),通過建模來統(tǒng)一數(shù)據(jù)交互語言。這是從采集和連接的角度,來看待數(shù)據(jù)智能化帶來的變化。
組裝式數(shù)據(jù)分析給企業(yè)帶來哪些價值
接下來的問題是,企業(yè)如何建立數(shù)據(jù)中臺才能滿足數(shù)據(jù)智能化時代的需求?Gartner認(rèn)為,組裝式數(shù)據(jù)分析架構(gòu)是中臺建設(shè)未來的方向。
組裝式分析架構(gòu),是基于智能化的采集和連接,幫助用戶實現(xiàn)自助式分析。
什么意思呢?就是當(dāng)數(shù)據(jù)編織可以給用戶提供合適數(shù)據(jù),能夠建立一些分析型應(yīng)用的時候,企業(yè)便可以通過組裝的形式把一個個和數(shù)據(jù)相關(guān)的產(chǎn)品直接整合,而不是每次都從零開始。所以,中臺建設(shè)的最終目標(biāo),其實是讓用戶基于數(shù)據(jù)進(jìn)行組裝。
成功的數(shù)據(jù)中臺,應(yīng)該是一個組裝型能力平臺,帶來的是一個個和數(shù)據(jù)分析相關(guān)的能力,而不僅僅只是數(shù)據(jù)的復(fù)用。企業(yè)可以通過自助式分析,找到可復(fù)用的數(shù)據(jù)分析模塊,并以組裝的形式構(gòu)建符合業(yè)務(wù)需求的分析型應(yīng)用。
具體而言,組裝式分析架構(gòu)的底層依賴于數(shù)據(jù)編織設(shè)計模式,上一層是企業(yè)已購買的類似于報表平臺、分析工作站、自助式分析平臺或數(shù)據(jù)科學(xué)平臺,且這些能力平臺被微服務(wù)以及容器化,以高度開放性確保用戶上了中臺后,可以獲得組裝式體驗。
此外,組裝式數(shù)據(jù)分析架構(gòu)的底層,還會涵蓋在應(yīng)用開發(fā)過程中經(jīng)常用到的一個概念———DevOps。隨著企業(yè)應(yīng)用搭建的加快,或者說建立數(shù)據(jù)產(chǎn)品需求的不斷上漲、越來越多地把DevOps實踐放到與數(shù)據(jù)相關(guān)的應(yīng)用上,業(yè)內(nèi)稱之為DataOps。包括版本控制、持續(xù)集成、持續(xù)開發(fā)和CAID理論等,在智能數(shù)據(jù)時代同樣適用,可以助力數(shù)據(jù)應(yīng)用開發(fā)快速走向生產(chǎn)階段。
毫不夸張地說,組裝式數(shù)據(jù)分析正在重塑數(shù)據(jù)分析應(yīng)用的未來,把數(shù)據(jù)中臺提升到一個新的高度。