丁晨
大數(shù)據(jù)是大事務(wù)數(shù)據(jù)(即關(guān)系數(shù)據(jù)庫(kù))、大交互數(shù)據(jù)(即社交數(shù)據(jù)、網(wǎng)站日志、傳感設(shè)備、電子郵件),以及大數(shù)據(jù)處理(即Hadoop)的大綜合。大數(shù)據(jù)處理主要源自于社會(huì)化媒體、移動(dòng)應(yīng)用以及云計(jì)算。通過(guò)以更快的速度對(duì)更多的數(shù)據(jù)值,更多類(lèi)型的數(shù)據(jù)進(jìn)行分析,大數(shù)據(jù)可以驅(qū)動(dòng)快速創(chuàng)新。
實(shí)踐表明,大數(shù)據(jù)項(xiàng)目中80%的工作都和數(shù)據(jù)集成有關(guān)。我所說(shuō)的數(shù)據(jù)集成是指訪問(wèn)、解析、規(guī)范化、標(biāo)準(zhǔn)化、集成、清洗、抽取、匹配、分類(lèi)、修飾以及交付數(shù)據(jù)等功能。如D.J.Patil在他的書(shū)《Data Jujitsu》(數(shù)據(jù)柔術(shù))中所說(shuō)的那樣,大數(shù)據(jù)項(xiàng)目中80%的工作都是清洗數(shù)據(jù)。)最近在針對(duì)來(lái)自25個(gè)公司的35名數(shù)據(jù)科學(xué)家的一次調(diào)研中,其中一個(gè)參與者說(shuō)道:“還沒(méi)有開(kāi)始做任何實(shí)際的分析之前,我在集成、清洗,以及轉(zhuǎn)換數(shù)據(jù)上花費(fèi)了一半以上的時(shí)間。很多時(shí)候,在開(kāi)始數(shù)據(jù)分析的工作的時(shí)候,我都感到非常慶幸。”(Kandel等,企業(yè)數(shù)據(jù)分析和可視化:一項(xiàng)調(diào)研訪談。IEEE可視化科學(xué)和技術(shù)(VAST),2012)。換句話說(shuō),在利用大數(shù)據(jù)做任何有意義的事情之前,必須首先進(jìn)行集成。這是因?yàn)榇髷?shù)據(jù)來(lái)自于如此眾多的不同類(lèi)型是數(shù)據(jù)源,數(shù)據(jù)格式也千變?nèi)f化。
不僅僅是因?yàn)橛泻芏鄶?shù)據(jù),而且由于有很多不同類(lèi)型的數(shù)據(jù)源、不同類(lèi)型的結(jié)構(gòu)和格式。在企業(yè)內(nèi)外來(lái)自客戶和供應(yīng)商交易的數(shù)據(jù)正在被大規(guī)模地產(chǎn)生和使用,例如互聯(lián)網(wǎng)、社交、云以及傳感器設(shè)備等。為了從大數(shù)據(jù)中發(fā)現(xiàn)價(jià)值,就需要將數(shù)據(jù)從發(fā)源地和源系統(tǒng)中移動(dòng)到大數(shù)據(jù)平臺(tái),經(jīng)過(guò)集成、分析之后就可以交付這些原始數(shù)據(jù)中的價(jià)值。
在某些情況下,可以使用數(shù)據(jù)虛擬化技術(shù)以避免移動(dòng)數(shù)據(jù),利用數(shù)據(jù)虛擬化可以創(chuàng)建一個(gè)數(shù)據(jù)抽象層以隱藏底層數(shù)據(jù)源的復(fù)雜性。基于這個(gè)數(shù)據(jù)抽象層,可以決定是否需要連接不同的數(shù)據(jù)源或者將合并后的數(shù)據(jù)移動(dòng)到一個(gè)屋里目標(biāo)存儲(chǔ)。
數(shù)據(jù)集成另外一個(gè)重要的方面就是元數(shù)據(jù)管理和數(shù)據(jù)治理。元數(shù)據(jù)管理為更好地理解數(shù)據(jù)創(chuàng)建了一個(gè)語(yǔ)義層,并且可以更好地支持?jǐn)?shù)據(jù)治理活動(dòng)。
確實(shí)有不同的考慮。但是,我發(fā)現(xiàn)詳細(xì)比較傳統(tǒng)的行列格式的關(guān)系數(shù)據(jù)以及平面文件數(shù)據(jù)和多結(jié)構(gòu)(即層次式、圖形)以及非結(jié)構(gòu)化數(shù)據(jù)會(huì)比較有用。前者很多情況下只能被傳統(tǒng)的數(shù)據(jù)平臺(tái)(即關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng))所處理,而后者可以使用新出現(xiàn)的NoSQL技術(shù)進(jìn)行更為經(jīng)濟(jì)高效的存儲(chǔ)和處理,例如Hadoop,還可以進(jìn)一步區(qū)分高密度、高價(jià)值的數(shù)據(jù)(例如存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng))和低密度的原始數(shù)據(jù)(例如:網(wǎng)站日志、社會(huì)化媒體文本),以便決定如何以最佳的方式存儲(chǔ),集成和處理數(shù)據(jù)。
如果數(shù)據(jù)集成沒(méi)有做好,那么總會(huì)導(dǎo)致項(xiàng)目延期、項(xiàng)目失敗、最終用戶的參與程度降低等結(jié)果,并且直接影響業(yè)務(wù),導(dǎo)致較差的客戶服務(wù)、低劣的產(chǎn)品質(zhì)量、低效運(yùn)營(yíng),以及不成熟的決策。考慮到不完全、不一致、不精確,以及不能準(zhǔn)時(shí)交付給業(yè)務(wù)的數(shù)據(jù),影響可能是跨越多個(gè)訂單通道的不一致的客戶體驗(yàn),由于訂單錯(cuò)誤或者延期交付所導(dǎo)致的忠誠(chéng)度下降,或者由于缺乏優(yōu)化的交叉銷(xiāo)售、縱深銷(xiāo)售而導(dǎo)致現(xiàn)金流的損失。
大數(shù)據(jù)項(xiàng)目中數(shù)據(jù)集成的最佳過(guò)程就是包含了訪問(wèn)和挖掘、解析和準(zhǔn)備、發(fā)現(xiàn)和概要分析、轉(zhuǎn)換和清洗,以及抽取和交付數(shù)據(jù)等功能的過(guò)程。如前所述,大數(shù)據(jù)項(xiàng)目中80%的工作都是數(shù)據(jù)集成。例如,大型跨國(guó)銀行將數(shù)據(jù)集成應(yīng)用于和欺詐檢測(cè)、風(fēng)險(xiǎn)和投資組合分析、投資建議、法規(guī)復(fù)符合性,以及積極的客戶開(kāi)拓等相關(guān)的大數(shù)據(jù)項(xiàng)目中。大數(shù)據(jù)不僅僅是分析。而是整個(gè)流水線。因此,當(dāng)提到大數(shù)據(jù)方案的時(shí)候,就必須考慮到所有的過(guò)程:收集、存儲(chǔ)、組織、分析、以及分享。
數(shù)據(jù)集成常常被忽略,這是因?yàn)橐粋€(gè)快速但粗劣的集成方式實(shí)施起來(lái)阻力會(huì)小些。在這些項(xiàng)目中,沒(méi)有全面考慮到在大數(shù)據(jù)項(xiàng)目中位了支持和維護(hù)生產(chǎn)環(huán)境中不斷增加的數(shù)據(jù)量和數(shù)據(jù)類(lèi)型所必要的范圍和需求。組織需要一個(gè)可以線性擴(kuò)展、具備24x7可靠性的數(shù)據(jù)集成平臺(tái),以支持一個(gè)靈活可變的架構(gòu),同時(shí)提供工具以增強(qiáng)生產(chǎn)率,提高協(xié)作。
總的來(lái)說(shuō),大數(shù)據(jù)的元數(shù)據(jù)處理確實(shí)存在一些需要特別考慮之處。并不是所有的數(shù)據(jù)都以與大數(shù)據(jù)項(xiàng)目相關(guān)的方式進(jìn)行建模。原始的交互數(shù)據(jù)(即社會(huì)化數(shù)據(jù)、網(wǎng)頁(yè)日志、傳感器設(shè)備、電子郵件等)是以讀取模式而不是以寫(xiě)入模式進(jìn)行處理的。因此,在大數(shù)據(jù)項(xiàng)目中,元數(shù)據(jù)的缺失是其固有屬性。這也是數(shù)據(jù)治理在大數(shù)據(jù)項(xiàng)目中發(fā)揮著關(guān)鍵作用的原因。元數(shù)據(jù)可以通過(guò)數(shù)據(jù)發(fā)現(xiàn)(即領(lǐng)域、關(guān)系)以及數(shù)據(jù)管理來(lái)逐漸完善(即規(guī)范化、清洗)。有些元數(shù)據(jù)可以隨著數(shù)據(jù)在企業(yè)范圍內(nèi)被訪問(wèn)、集成、分析和使用的過(guò)程而自動(dòng)逐漸完善。例如,法規(guī)符合性審計(jì)數(shù)據(jù)的歷史以及使用模式可以通過(guò)某些集成工具而自動(dòng)獲取。大數(shù)據(jù)項(xiàng)目中有多種不同類(lèi)型且非常有用的元數(shù)據(jù)(技術(shù)型、業(yè)務(wù)型、操作型)這些元數(shù)據(jù)有助于增強(qiáng)搜索、簡(jiǎn)化數(shù)據(jù)審計(jì)、增強(qiáng)信任、提高協(xié)作、減少返工并增加安全性。
大數(shù)據(jù)需要一個(gè)經(jīng)過(guò)優(yōu)化的數(shù)據(jù)集成平臺(tái),以支持一個(gè)異構(gòu)的數(shù)據(jù)環(huán)境,其中包括生產(chǎn)效率工具,這個(gè)工具必須具備一定的可擴(kuò)展性,既可以用生產(chǎn)環(huán)境,也可以用于其他多個(gè)項(xiàng)目,并且易于在整個(gè)生命周期中對(duì)項(xiàng)目進(jìn)行管理。大數(shù)據(jù)項(xiàng)目需要的集成工具必須能夠針對(duì)交易和交互數(shù)據(jù)提供一致、穩(wěn)定的連接;預(yù)先構(gòu)建的ETL和數(shù)據(jù)質(zhì)量轉(zhuǎn)換;解析庫(kù)(解析器);一個(gè)用于構(gòu)建數(shù)據(jù)流的可視集成開(kāi)發(fā)環(huán)境(IDE);以及數(shù)據(jù)概要分析功能。組織需要一個(gè)可以支持所有數(shù)據(jù)量和數(shù)據(jù)類(lèi)型的集成平臺(tái),這一平臺(tái)應(yīng)當(dāng)能夠通過(guò)數(shù)據(jù)復(fù)制、數(shù)據(jù)流,以及復(fù)雜事件流程(CEP)對(duì)實(shí)時(shí)和批處理過(guò)程提供支持。數(shù)據(jù)集成應(yīng)當(dāng)被作為完整的大數(shù)據(jù)參考架構(gòu)的一部分來(lái)考慮 ,這一架構(gòu)也包括了MDM。
批處理數(shù)據(jù)集成主要用于對(duì)大量數(shù)據(jù)進(jìn)行預(yù)處理,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析,并從中識(shí)別出模式和趨勢(shì)為業(yè)務(wù)開(kāi)發(fā)提供服務(wù)。批處理集成通過(guò)更快地處理更多類(lèi)型的數(shù)據(jù),從而實(shí)現(xiàn)其業(yè)務(wù)價(jià)值。實(shí)時(shí)數(shù)據(jù)集成有不少應(yīng)用場(chǎng)合:通過(guò)只捕獲和集成那些發(fā)生了變化的數(shù)據(jù)以避免不必要的數(shù)據(jù)暫存和很長(zhǎng)的批處理窗口,從而使大數(shù)據(jù)處理的負(fù)載更為均衡;以及根據(jù)不同的情境積極響應(yīng)事件。批處理和實(shí)時(shí)數(shù)據(jù)集成都可以提供一些非常有用的大數(shù)據(jù)方案。例如:在欺詐檢測(cè)中很常見(jiàn)的一種做法就是以批處理的方式對(duì)大量的歷史數(shù)據(jù)進(jìn)行分析,識(shí)別出欺詐的模式,然后使用實(shí)時(shí)數(shù)據(jù)集成來(lái)建立情境上下文,并以一種實(shí)時(shí)的方式來(lái)判斷某一欺詐事件發(fā)生的可能性,然后據(jù)此產(chǎn)生報(bào)警。
大數(shù)據(jù)的技術(shù)變化很快。但是,就新技術(shù)和趨勢(shì)而言常常就是這樣的在等式的另一邊,即人和流程,并沒(méi)有足夠快地采用最佳實(shí)踐,因此沒(méi)有充分吸收大數(shù)據(jù)所提供的好處。從根本上說(shuō),成功取決于業(yè)務(wù)和信息技術(shù)更高效的工作和相互協(xié)作。數(shù)據(jù)科學(xué)團(tuán)隊(duì)致力于管理數(shù)據(jù)資產(chǎn),創(chuàng)建新穎的數(shù)據(jù)產(chǎn)品和服務(wù),這些需要多種不同的技能,其中有些可以從外部購(gòu)買(mǎi)或者通過(guò)培訓(xùn)而獲得。大數(shù)據(jù)項(xiàng)目和傳統(tǒng)的商務(wù)智能不同之處在于,組織需要一個(gè)更為一致的自上而下的業(yè)務(wù)技術(shù)策略,持續(xù)不斷地尋求各種方法以從大數(shù)據(jù)上獲得最大的回報(bào),通過(guò)引人新產(chǎn)品和服務(wù)從而變現(xiàn)數(shù)據(jù)資產(chǎn),同時(shí)提升業(yè)務(wù)運(yùn)營(yíng)能力。我們可以期望見(jiàn)到管理層對(duì)數(shù)據(jù)科學(xué)團(tuán)隊(duì)支持與戰(zhàn)略性的業(yè)務(wù)措施保持一致(即增加客戶認(rèn)知和粘性)。
大數(shù)據(jù)技術(shù)正在快速的變化和發(fā)展。開(kāi)源社區(qū)和商業(yè)開(kāi)發(fā)商都在和他們的客戶一起工作,以便令新出現(xiàn)的技術(shù)更為成熟,從而確保這些新技術(shù)可以用于現(xiàn)有的數(shù)據(jù)管理基礎(chǔ)設(shè)施。我們將會(huì)看到更多的基于通用設(shè)計(jì)模式構(gòu)建的具有特定用途的應(yīng)用(例如推薦引擎),以及特定的垂直大數(shù)據(jù)應(yīng)用案例(例如風(fēng)險(xiǎn)和組織分析、預(yù)測(cè)病患結(jié)果、車(chē)輛遠(yuǎn)程信息處理)。很多新技術(shù)需要專(zhuān)業(yè)化的技能,從而給大數(shù)據(jù)項(xiàng)目增加了復(fù)雜性。因此,我們將看到 開(kāi)發(fā)商們將這些新技術(shù)進(jìn)行集成,并創(chuàng)建一個(gè)抽象層,從而隱藏 了這些技術(shù)的底層復(fù)雜性。(作者單位:齊齊哈爾工程學(xué)院)