Bob+Violino+楊勇
請遵循這六個最佳實踐,超越競爭,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
大數(shù)據(jù)和分析能夠改變游戲規(guī)則,為您提供深度分析,幫助您在競爭中領(lǐng)先,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
大數(shù)據(jù)和分析也可能導(dǎo)致巨大的失敗,浪費大量的時間和金錢——更不用說會失去才華橫溢的技術(shù)專家,他們厭倦了那些令人失望的管理失誤。
怎樣避免大數(shù)據(jù)失敗呢?從基本的業(yè)務(wù)管理角度來看,一些最好的做法是顯而易見的:一定要有公司最高級別的行政人員參與,確保需要的所有技術(shù)投資獲得足夠的資金,并引入所需的專業(yè)知識和/或良好的培訓。如果不先解決這些基本問題,其他的什么都不重要。
假設(shè)您已經(jīng)解決了這些基本問題,那么大數(shù)據(jù)分析成功與失敗的區(qū)別在于您怎樣處理大數(shù)據(jù)分析的技術(shù)問題和挑戰(zhàn)。下面介紹的最佳實踐可以幫助您站在成功的一邊。
1.仔細選擇您的大數(shù)據(jù)分析工具
很多技術(shù)的失敗源于這樣一個事實,即企業(yè)購買和實施的產(chǎn)品好像正是他們想要的。任何廠商都可以把“大數(shù)據(jù)”或者“高級分析”之類的詞用在產(chǎn)品描述上,利用這些術(shù)語來進一步炒作。
但是產(chǎn)品不僅在質(zhì)量和效果上有很大的差別,而且應(yīng)用重點也不同。因此,即使您選擇了技術(shù)含量很高的產(chǎn)品,也未必是您真正需要的。
幾乎所有的大數(shù)據(jù)分析都有一些基本功能,比如圍繞數(shù)據(jù)轉(zhuǎn)換和存儲架構(gòu)(想想Hadoop和Apache Spark)的功能。而在大數(shù)據(jù)分析中也有很多細分功能,您應(yīng)該選擇能夠滿足自己技術(shù)戰(zhàn)略要求的細分產(chǎn)品。這些細分功能包括挖掘、預(yù)測分析、實時解決方案,人工智能和商業(yè)智能儀表板等。
在決定購買任何大型數(shù)據(jù)分析產(chǎn)品或者存儲平臺之前,您需要弄清楚真正的業(yè)務(wù)需求和問題是什么,選擇能夠有效解決這些具體問題的產(chǎn)品。
例如,由于編譯龐大的數(shù)據(jù)集會非常復(fù)雜,您會選擇使用人工智能來分析非結(jié)構(gòu)化數(shù)據(jù)的認知大數(shù)據(jù)產(chǎn)品。電信公司沃達豐大數(shù)據(jù)全球業(yè)務(wù)主管Israel Exposito說,但您不會針對結(jié)構(gòu)化和標準化數(shù)據(jù)使用認知工具,您可以從眾多的分析產(chǎn)品中選擇一款并部署它,以更合理的價格實時獲得高質(zhì)量的深度分析結(jié)果。
Exposito說,明智的做法是,在為您的產(chǎn)品環(huán)境選擇一款產(chǎn)品之前,使用至少兩款產(chǎn)品來驗證概念。該產(chǎn)品還應(yīng)該與您相關(guān)的企業(yè)平臺有接口。
每一大數(shù)據(jù)分析工具都需要在后端系統(tǒng)中開發(fā)數(shù)據(jù)模型。這是項目中最重要的部分。因此,您一定要讓系統(tǒng)集成商和業(yè)務(wù)領(lǐng)域?qū)<以陧椖抗ぷ髦袛y手合作。不要急,第一次就把它做好。
重要的是要記住,始終要提供正確的數(shù)據(jù),并轉(zhuǎn)換成業(yè)務(wù)語言,這樣用戶就可以完全理解輸出,從而可以使用它來發(fā)現(xiàn)機會,或者改進流程。
2.這些工具一定要易于使用
大數(shù)據(jù)和高級分析非常復(fù)雜,但業(yè)務(wù)用戶所采用的,并用于理解數(shù)據(jù)的產(chǎn)品沒必要這么復(fù)雜。
為業(yè)務(wù)分析部門提供用于數(shù)據(jù)發(fā)現(xiàn)以及分析和可視化功能的簡單、有效的工具。
域名注冊商GoDaddy商業(yè)智能工具拓展專員Sharon Graves說,自己的公司很難找到合適的組合工具。它必須能夠簡單方便地快速實現(xiàn)可視化,而且有足夠的能力進行深度分析。GoDaddy能夠找到產(chǎn)品,這些產(chǎn)品讓企業(yè)用戶很容易找到相應(yīng)的數(shù)據(jù),然后自己生成數(shù)據(jù)可視化。這使得分析部門能騰出時間去進行更高級的分析工作。
最重要的是,不要給非技術(shù)業(yè)務(wù)用戶提供程序員級的工具。不然,他們會變得沮喪,可能會再去使用以前的工具,而這些工具并不能勝任工作(否則,您就不會有大數(shù)據(jù)分析項目)。
3.項目和數(shù)據(jù)要與實際業(yè)務(wù)需求相一致
大數(shù)據(jù)分析工作可能失敗的另一個原因是,它最終成了一個要去解決不存在問題的解決方案。信息服務(wù)提供商Experian全球數(shù)據(jù)實驗室首席科學家Shanji Xiong說,這就是為什么您必須把要滿足的業(yè)務(wù)挑戰(zhàn)和需求納入到相應(yīng)的分析問題中的原因。
關(guān)鍵的一點是,在項目早期就要讓具有很強的分析背景的領(lǐng)域?qū)<覅⑴c進來,與數(shù)據(jù)科學家合作來確定問題。
下面是Experian自己的大數(shù)據(jù)分析計劃的一個例子。當開發(fā)打擊身份欺騙的分析解決方案時,難點在于評估姓名、地址和社會保障號碼等個人身份信息(PII)是否合法。還有一個難點是,當一名客戶申請貸款時,所使用的一組身份是否是合法擁有者的身份。這些難點可能會同時存在。
第一個難點是“合成身份”的問題,Xiong說,這需要一個分析模型在客戶級或者PII級評估身份合成的風險。第二個難點是應(yīng)用程序欺騙問題,需要在應(yīng)用程序級開發(fā)用于評估欺騙風險的評分系統(tǒng)。Experian必須理解這些不同的問題——即使這些問題最初被認為是表現(xiàn)不一樣的同一問題,然后建立合適的模型,進行分析以解決問題。
Xiong說,當把一組PII提交給兩家金融機構(gòu)申請貸款時,通常要求是針對合成風險應(yīng)返回相同的得分,但這通常不是應(yīng)用程序欺騙評分系統(tǒng)所必須的功能。
必須把正確的算法應(yīng)用于正確的數(shù)據(jù),才能實現(xiàn)商業(yè)智能,做出準確的預(yù)測。在建模過程中,收集并包含相關(guān)的數(shù)據(jù)集總是比精確的調(diào)整機器學習算法更重要,因此應(yīng)把數(shù)據(jù)處理工作視為頭等大事。
4.建立數(shù)據(jù)湖,不要舍不得帶寬
顧名思義,大數(shù)據(jù)涉及到大量的數(shù)據(jù)。在過去,很少有企業(yè)能夠存儲這么多的數(shù)據(jù),更不用說組織這些數(shù)據(jù)并進行分析了。但是今天,高性能存儲技術(shù)和大規(guī)模并行處理技術(shù)已經(jīng)應(yīng)用得非常廣泛了——即在云中,也在本地系統(tǒng)中。
然而,存儲本身是不夠的。您需要一種方法來處理輸入到大數(shù)據(jù)分析系統(tǒng)中的各種類型的數(shù)據(jù)。這就是Apache的Hadoop發(fā)揮其天才之處,它能夠存儲和映射龐大的、不同的數(shù)據(jù)集。這種存儲庫通常被稱為數(shù)據(jù)湖。實際的湖泊一般有多條河流流入,會有很多種類的植物、魚和其他動物;數(shù)據(jù)湖一般有多個數(shù)據(jù)源輸入,含有多種類型的數(shù)據(jù)。endprint
但是數(shù)據(jù)湖不應(yīng)該成為數(shù)據(jù)的垃圾場。亞利桑那州國家大學計算研究主任Jay Etchings說,您應(yīng)該想好怎樣匯集數(shù)據(jù),以有意義的方式增加數(shù)據(jù)價值。數(shù)據(jù)可以是完全不同的,但是使用MapReduce和Apache Spark等工具進行分析時,就應(yīng)該使用可靠的數(shù)據(jù)架構(gòu)對數(shù)據(jù)進行轉(zhuǎn)換。
創(chuàng)建一個數(shù)據(jù)湖,其中,輸入、索引和標準化等都是大數(shù)據(jù)策略精心設(shè)計好的組成部分。Etchings說,如果沒有一個清晰的認識和明確的藍圖,大多數(shù)數(shù)據(jù)密集型的計劃注定要失敗。
同樣,擁有足夠的帶寬是非常重要的;否則數(shù)據(jù)不可能從各種來源流入到數(shù)據(jù)湖中,業(yè)務(wù)用戶也不能很快地使用數(shù)據(jù)。Etchings說,要實現(xiàn)擁有大量數(shù)據(jù)資源的承諾,不僅需要支持每秒數(shù)百萬次I/O操作(IOPS)的高速硬盤,而且還需要連接節(jié)點和處理引擎,這些節(jié)點和處理引擎可以在生成數(shù)據(jù)時方便地訪問數(shù)據(jù)。
從社交媒體到數(shù)據(jù)流路由,速度對于實時分析尤其重要。因此,用最快的互連構(gòu)建您的數(shù)據(jù)湖。
5.把安全設(shè)計到大數(shù)據(jù)的各個方面中
計算基礎(chǔ)設(shè)施組件的高度異構(gòu)性極大地提高了企業(yè)從數(shù)據(jù)中獲取有意義的深度分析結(jié)果的能力。但有一個缺點:Etchings說,系統(tǒng)在管理和安全上會非常復(fù)雜。很多大數(shù)據(jù)分析系統(tǒng)都涉及到巨量的數(shù)據(jù),其任務(wù)也都是非常關(guān)鍵的,如果不能在保護系統(tǒng)和數(shù)據(jù)方面采取足夠的預(yù)防措施,那在很大程度上就是自找麻煩。
企業(yè)采集、存儲、分析和共享的大部分數(shù)據(jù)都是客戶信息——其中一些是個人信息和身份信息。如果這些數(shù)據(jù)落入別人手中,結(jié)果是可以預(yù)測的:法律上的損失是訴訟,可能還有監(jiān)管罰款,品牌和聲譽受損,客戶也不會滿意。
您的安全措施應(yīng)包括部署基本的企業(yè)工具:實用的數(shù)據(jù)加密、身份和訪問管理,以及網(wǎng)絡(luò)安全。您的安全措施還應(yīng)包括為能夠正確訪問和使用數(shù)據(jù)所要遵從的政策以及相關(guān)的培訓。
6.把數(shù)據(jù)管理和質(zhì)量放在首位
確保良好的數(shù)據(jù)管理和質(zhì)量應(yīng)該是所有大數(shù)據(jù)分析項目的標志——否則會很有可能失敗。
您應(yīng)該做好控制工作,以確保數(shù)據(jù)是最新的、準確的,并能夠及時交付。作為其大數(shù)據(jù)計劃的一部分,GoDaddy提供了報警功能,如果數(shù)據(jù)更新失敗或者運行推遲,會通知管理員。此外,GoDaddy對關(guān)鍵指標進行數(shù)據(jù)質(zhì)量檢查,當這些指標不符合預(yù)期時,會發(fā)送警報。
確保數(shù)據(jù)質(zhì)量和治理的一個關(guān)鍵點是聘請技術(shù)熟練的數(shù)據(jù)管理專家,其中包括數(shù)據(jù)管理主管以及監(jiān)管這些領(lǐng)域的高管??紤]到這些舉措的戰(zhàn)略重要性,企業(yè)在數(shù)據(jù)管理、治理和政策方面確實應(yīng)擁有數(shù)據(jù)所有權(quán)。endprint