邰芷卉
研究發(fā)現(xiàn),37 %的企業(yè)將數(shù)據(jù)驅(qū)動思維列為業(yè)務(wù)關(guān)鍵的優(yōu)先事項,而另有57 %的企業(yè)將其列為中等或高度優(yōu)先事項。該研究還發(fā)現(xiàn),80 %的企業(yè)已經(jīng)實施了大數(shù)據(jù)分析。然而,目前從數(shù)據(jù)中看到真正價值的公司比例仍然低得驚人,56 %的高管沒有從大數(shù)據(jù)分析項目中察覺到價值。同樣,根據(jù)普華永道的數(shù)據(jù),到目前為止,只有16 %的企業(yè)通過在云端實施數(shù)據(jù)和分析項目實現(xiàn)了商業(yè)價值。
那么,為什么這么多企業(yè)在數(shù)據(jù)和分析項目實際運作中遇到困難呢?因為不同的用例和應(yīng)用利用不同類型的數(shù)據(jù),適用于一種情況的方法并不適用于另一種情況。要知道什么會起作用,同樣,什么不會起作用,必須了解有關(guān)這些數(shù)據(jù)集如何隨著時間的推移而創(chuàng)建、存儲和訪問的一些關(guān)鍵細(xì)節(jié)。
其中一種數(shù)據(jù)集通常被稱為“大數(shù)據(jù)”。在過去的10年中,這個術(shù)語被用于描述服務(wù)于在線客戶服務(wù)的應(yīng)用創(chuàng)建的數(shù)據(jù)集。圍繞大數(shù)據(jù)建立的技術(shù)是為了處理一直在流動的大量數(shù)據(jù)而創(chuàng)建的。
如今,創(chuàng)建和使用這類數(shù)據(jù)集的企業(yè)數(shù)量有所增加。這類數(shù)據(jù)并不是大型社交媒體和網(wǎng)絡(luò)企業(yè)的專利,而是在數(shù)千家企業(yè)中涌現(xiàn)出來。大數(shù)據(jù)這個稱呼現(xiàn)在已經(jīng)成為很多人的常態(tài),這些數(shù)據(jù)集很大,更新速度很快,而且有序。這使得數(shù)據(jù)分析更容易,pb級的信息可以被快速掃描和使用。
然而,并不是所有的數(shù)據(jù)集都遵循這種模式。運營數(shù)據(jù)是業(yè)務(wù)應(yīng)用在接受訂單時創(chuàng)建的數(shù)據(jù),并通過運行業(yè)務(wù)的企業(yè)資源計劃(ERP)應(yīng)用進行管理。這包括財務(wù)和會計系統(tǒng)、供應(yīng)鏈運營和其他流程。操作數(shù)據(jù)集不是可以快速大規(guī)模處理的有序數(shù)據(jù),而是高度連接且極其密集的數(shù)據(jù)。
這里的挑戰(zhàn)是,建立ERP系統(tǒng)是為了從交易中獲得每一點性能。每個業(yè)務(wù)職能部門都有自己的交易記錄系統(tǒng),這些系統(tǒng)經(jīng)過優(yōu)化以提高特定功能的性能。例如,客戶銷售將導(dǎo)致創(chuàng)建付款發(fā)票、制造和生產(chǎn)中的銷售訂單,以及內(nèi)部帳戶中的供應(yīng)鏈流程和財務(wù)分類系統(tǒng)所需的訂單。這些系統(tǒng)都相互連接,每個客戶記錄都必須在每個系統(tǒng)中更新。
實際上,跟蹤業(yè)務(wù)數(shù)據(jù)元素和關(guān)系的數(shù)以萬計的數(shù)據(jù)庫表必須隨著時間的推移進行更新。因為這種優(yōu)化通常發(fā)生在每個領(lǐng)域,所以沒有一個ERP提供整個業(yè)務(wù)的聯(lián)合視圖。
分析運營數(shù)據(jù)可以幫助了解業(yè)務(wù)的運行情況。然而,數(shù)據(jù)集的分離使其很難回答業(yè)務(wù)想要問的問題。例如,適用于大數(shù)據(jù)集的方法通常會在相互關(guān)聯(lián)的ERP數(shù)據(jù)中失敗。我們今天所知道和使用的數(shù)據(jù)管道模型是為大數(shù)據(jù)而建立的,而不是為ERP數(shù)據(jù)構(gòu)建的。
數(shù)據(jù)管道是團隊用來從數(shù)據(jù)中獲取價值的一組工具和過程。它從商業(yè)應(yīng)用程序中獲取信息,然后清理、組織并將數(shù)據(jù)呈現(xiàn)給需要的人。對于操作數(shù)據(jù),試圖以這種方式應(yīng)用管道是無效的。
ERP系統(tǒng)用于提高交易速度并保持跨多個表更新客戶記錄的方法,與使用數(shù)據(jù)管道實現(xiàn)分析的方法并不真正兼容。操作數(shù)據(jù)不是已經(jīng)組織好的直接數(shù)據(jù),而是分布在多個不同的系統(tǒng)中。
所需的信息可能分布在50個或更多不同的表中,而不是能夠在一個地方查看單個事務(wù)。這些表可能需要多次查找和計算,以創(chuàng)建分析師想要的最終結(jié)果。
要將數(shù)據(jù)放入數(shù)據(jù)管道,需要理解所有這些不同的連接。為了建立這種關(guān)系,分析師通常試圖將這些聯(lián)系分解成越來越小的部分。這里的目的是創(chuàng)建一個簡化的數(shù)據(jù)視圖,然后可以運行查詢,而不是試圖一次性處理所有連接。
這種方法的問題是它過度簡化了數(shù)據(jù),這意味著分析師只能回答預(yù)定義的問題。如果他們還需要其他東西,那意味著需要返回源系統(tǒng)以獲取數(shù)據(jù),并將其調(diào)整到合適狀態(tài)的漫長過程。這意味著獲得見解的時間更慢,因此實現(xiàn)結(jié)果的時間也更慢。
要解決這個問題,必須停止把每個數(shù)據(jù)分析問題都看成一個更復(fù)雜的解決方案,相反,必須考慮如何從一開始就處理連接的數(shù)據(jù)集。這意味著讓用戶可以訪問數(shù)據(jù),而無需管理將數(shù)據(jù)傳輸?shù)剿麄兊墓艿?。它還包括在進行任何查詢之前有正確的分析方法。Gartner將這種方法定義為查詢加速,即在創(chuàng)建任何查詢之前掃描整個數(shù)據(jù)集進行分析。它把所有的數(shù)據(jù)都帶到了問題上,以便快速回答問題。這也改善了查詢過程,因為分析師可以隨著時間的推移提出他們想要問的問題,而不是拘泥于既定的問題。
為了使數(shù)據(jù)分析項目成功,我須考慮要達(dá)到的目標(biāo)和存在的目標(biāo)。少數(shù)成功實施數(shù)據(jù)和分析項目的企業(yè)表明,我們必須觀察我們在整個業(yè)務(wù)中擁有的數(shù)據(jù)類型,然后在需要的地方應(yīng)用正確的工具和方法。隨著越來越多的企業(yè)利用數(shù)據(jù)來創(chuàng)造競爭優(yōu)勢,并幫助決策過程,做好這方面的工作將變得至關(guān)重要。