伊燁然
據(jù)調(diào)查,56 %的組織面臨至少4種不同類型的數(shù)據(jù)質(zhì)量問(wèn)題,而71 %的組織面臨至少3種不同類型的問(wèn)題。組織在設(shè)計(jì)數(shù)據(jù)質(zhì)量框架和解決數(shù)據(jù)質(zhì)量問(wèn)題時(shí)花費(fèi)了大量時(shí)間和資源。但要獲得良好的結(jié)果,了解這些問(wèn)題的確切性質(zhì)并確定它們?nèi)绾巫罱K出現(xiàn)在系統(tǒng)中是很重要的。
數(shù)據(jù)質(zhì)量問(wèn)題是指數(shù)據(jù)集中存在無(wú)法容忍的缺陷,從而降低了該數(shù)據(jù)的可靠性和可信度。
跨不同來(lái)源存儲(chǔ)的數(shù)據(jù)必然包含數(shù)據(jù)質(zhì)量問(wèn)題,由于多種原因,這些問(wèn)題可能會(huì)被引入系統(tǒng),例如人為錯(cuò)誤、不正確的數(shù)據(jù)、過(guò)時(shí)的數(shù)據(jù)或組織中缺乏數(shù)據(jù)素養(yǎng)技能。由于數(shù)據(jù)為關(guān)鍵業(yè)務(wù)提供動(dòng)力,因此此類問(wèn)題可能會(huì)給公司帶來(lái)一些嚴(yán)重的風(fēng)險(xiǎn)和損害。
在所有業(yè)務(wù)流程中利用高質(zhì)量數(shù)據(jù)的需求非常明顯。領(lǐng)導(dǎo)者正在投資招聘數(shù)據(jù)質(zhì)量團(tuán)隊(duì),因?yàn)樗麄兿胱屓藗冐?fù)責(zé)獲得和維持?jǐn)?shù)據(jù)質(zhì)量。并且設(shè)計(jì)了復(fù)雜的數(shù)據(jù)質(zhì)量框架,采用先進(jìn)的技術(shù),確保數(shù)據(jù)質(zhì)量管理快速準(zhǔn)確。所有這些努力都是為了讓清潔數(shù)據(jù)夢(mèng)想成真。
但是,如果不首先了解是什么污染了數(shù)據(jù)以及它究竟來(lái)自何處,這一切都是不可能的。
一個(gè)擁有200~500名員工的普通組織使用大約123個(gè)SaaS應(yīng)用程序,用于捕獲、管理、存儲(chǔ)和使用數(shù)據(jù)的應(yīng)用程序數(shù)量龐大且種類繁多,是導(dǎo)致數(shù)據(jù)質(zhì)量差的主要原因。在這種情況下最常見(jiàn)的問(wèn)題是為同一實(shí)體存儲(chǔ)多個(gè)記錄,例如,將客戶在購(gòu)買(mǎi)過(guò)程中與品牌進(jìn)行的所有互動(dòng)都記錄在數(shù)據(jù)庫(kù)中的某個(gè)位置。這些記錄可能來(lái)自網(wǎng)站、登陸頁(yè)面表格、社交媒體廣告、銷售記錄、賬單記錄、營(yíng)銷記錄和購(gòu)買(mǎi)點(diǎn)記錄等領(lǐng)域。如果沒(méi)有系統(tǒng)的方法來(lái)識(shí)別客戶身份并將新信息與現(xiàn)有信息合并,最終可能會(huì)在整個(gè)數(shù)據(jù)集中出現(xiàn)重復(fù)信息。要修復(fù)重復(fù),必須運(yùn)行高級(jí)數(shù)據(jù)匹配算法來(lái)比較2個(gè)或多個(gè)記錄并計(jì)算它們屬于同一實(shí)體的可能性。
一個(gè)數(shù)據(jù)集通常引用多個(gè)數(shù)據(jù)。但是,當(dāng)2個(gè)或多個(gè)不同的數(shù)據(jù)之間沒(méi)有定義和強(qiáng)制執(zhí)行任何關(guān)系時(shí),最終可能會(huì)得到很多不正確和不完整的信息。
以這種情況為例:含今年贏得的新業(yè)務(wù)以及從去年升級(jí)的現(xiàn)有客戶的記錄。除了基本客戶信息外,肯定有一些客戶字段僅適用于New Business或僅適用于New Customer??梢允褂孟嗤耐ㄓ脭?shù)據(jù)模型處理這2種情況,但它可能會(huì)導(dǎo)致許多數(shù)據(jù)質(zhì)量問(wèn)題,例如缺少必要的信息,以及客戶記錄中的模糊或不正確的信息。
要處理此類情況,應(yīng)該始終創(chuàng)建特定的數(shù)據(jù)模型并加強(qiáng)它們之間的關(guān)系。通過(guò)在實(shí)體之間強(qiáng)制執(zhí)行父/子(超類型/子類型)關(guān)系,可以使處理此信息的人員更好地捕獲、更新和理解數(shù)據(jù)。需要將基本Customer字段與其子子類型(即New Business和Existing Customer)分開(kāi)。
參照完整性意味著數(shù)據(jù)記錄與其引用對(duì)應(yīng)物是真實(shí)的。要了解由于缺乏參照完整性而產(chǎn)生的問(wèn)題,假設(shè)有一家零售公司可能將他們的銷售記錄存儲(chǔ)在Sales表中,每條記錄都提到在進(jìn)行銷售時(shí)售出的產(chǎn)品,因此,希望可以在Sales表中找到銷售ID和產(chǎn)品ID。但是,如果Sales記錄引用Product表中不存在的ProductID,則很明顯,數(shù)據(jù)集缺乏引用完整性。
這些問(wèn)題可能會(huì)導(dǎo)致團(tuán)隊(duì)創(chuàng)建不正確的報(bào)告、運(yùn)送不正確的產(chǎn)品或?qū)a(chǎn)品運(yùn)送給不存在的客戶等。
關(guān)系基數(shù)是指2個(gè)實(shí)體之間可以擁有的最大關(guān)系數(shù)。通常,可以在數(shù)據(jù)對(duì)象之間創(chuàng)建不同類型的關(guān)系,這取決于公司允許如何進(jìn)行業(yè)務(wù)交易。
參考以下示例以了解不同數(shù)據(jù)對(duì)象之間的基數(shù),例如客戶、購(gòu)買(mǎi)、位置、產(chǎn)品:
一個(gè)客戶一次只能有一個(gè)位置;
一個(gè)客戶可以進(jìn)行多次購(gòu)買(mǎi);
許多客戶可以來(lái)自一個(gè)位置;
許多客戶可以購(gòu)買(mǎi)許多產(chǎn)品。
如果基數(shù)約束沒(méi)有明確定義,它可能會(huì)在數(shù)據(jù)集中引起許多數(shù)據(jù)質(zhì)量問(wèn)題。
我們經(jīng)常發(fā)現(xiàn)與數(shù)據(jù)集屬性或列相關(guān)的問(wèn)題,很多時(shí)候數(shù)據(jù)模型沒(méi)有明確定義,因此結(jié)果信息被認(rèn)為是不可用的。發(fā)現(xiàn)的常見(jiàn)問(wèn)題有:
存在具有相同名稱的多個(gè)列,其中包含一條記錄的不同信息;
存在具有不同名稱的多個(gè)列,這在技術(shù)上意味著相同的事物,因此存儲(chǔ)相同的信息;
列標(biāo)題不明確,會(huì)使數(shù)據(jù)輸入操作者混淆要在列中存儲(chǔ)的內(nèi)容;
有些列總是留空;要么是因?yàn)樗鼈円驯粭売?,要么是沒(méi)有獲取此類信息的來(lái)源;
有些列從未使用過(guò),因此被不必要地存儲(chǔ)。
所有這些場(chǎng)景都描述了數(shù)據(jù)集中的屬性管理不善,并增加了數(shù)據(jù)質(zhì)量問(wèn)題的數(shù)量。
大多數(shù)數(shù)據(jù)質(zhì)量問(wèn)題都是由于缺乏驗(yàn)證約束造成的。驗(yàn)證約束確保數(shù)據(jù)值有效且合理,并根據(jù)定義的要求進(jìn)行標(biāo)準(zhǔn)化和格式化。例如,缺少對(duì)CustomerName的驗(yàn)證約束檢查會(huì)導(dǎo)致以下錯(cuò)誤:
名稱中的額外空格(前導(dǎo)、尾隨或中間的雙空格);
使用不適當(dāng)?shù)姆?hào)和字符;
名稱的長(zhǎng)度太長(zhǎng);
單字母中間名不大寫(xiě)或不以句號(hào)結(jié)尾,名字、中間名和姓氏的所有字母都大寫(xiě),而不是僅將第一個(gè)字母大寫(xiě)。
此外,某些字段可能包含不正確的縮寫(xiě)和代碼,或其他不屬于屬性域的值。如果這些約束未在數(shù)據(jù)模型中定義并在數(shù)據(jù)入口點(diǎn)上強(qiáng)制執(zhí)行,最終會(huì)在數(shù)據(jù)集最關(guān)鍵和最基本的字段(例如客戶姓名)中出現(xiàn)大量驗(yàn)證錯(cuò)誤。
數(shù)據(jù)集中的許多字段是從其他字段派生或計(jì)算得出的。因此,每次在相關(guān)字段中輸入或更新新數(shù)據(jù)時(shí),都會(huì)設(shè)計(jì)、實(shí)施并自動(dòng)執(zhí)行公式。公式或計(jì)算中存在的任何錯(cuò)誤都可能導(dǎo)致數(shù)據(jù)集的整個(gè)列中獲得不正確的信息。這會(huì)使用于任何預(yù)期目的的字段無(wú)效。
根據(jù)其他字段計(jì)算的字段示例包括根據(jù)生日計(jì)算的年齡、根據(jù)購(gòu)買(mǎi)產(chǎn)品數(shù)量計(jì)算的適用折扣或任何其他百分比計(jì)算。
與數(shù)據(jù)相關(guān)的最常見(jiàn)挑戰(zhàn)之一是在所有節(jié)點(diǎn)或數(shù)據(jù)源中維護(hù)關(guān)于同一“事物”的一個(gè)定義。例如,如果一家公司使用CRM和一個(gè)單獨(dú)的計(jì)費(fèi)應(yīng)用程序,則客戶的記錄將出現(xiàn)在這2個(gè)應(yīng)用程序的數(shù)據(jù)庫(kù)中。隨著時(shí)間的推移,在所有數(shù)據(jù)庫(kù)中保持一致的客戶信息視圖是一項(xiàng)艱巨的任務(wù)。
缺乏一致性可能會(huì)擾亂企業(yè)所有職能和運(yùn)營(yíng)的報(bào)告。一致性不僅與數(shù)據(jù)值的含義有關(guān),還與它們的表示有關(guān)。例如,當(dāng)值不適用或不可用時(shí),必須使用一致的術(shù)語(yǔ)來(lái)表示所有來(lái)源的數(shù)據(jù)不可用。
數(shù)據(jù)完整性是指數(shù)據(jù)集中存在必要的字段。數(shù)據(jù)集的完整性可以垂直(屬性級(jí)別)或水平(記錄級(jí)別)計(jì)算。通常,字段被標(biāo)記為必填以確保數(shù)據(jù)集的完整性,因?yàn)椴⒎撬凶侄味际潜匦璧摹?/p>
通常會(huì)在大量字段留空的數(shù)據(jù)集中發(fā)現(xiàn)此數(shù)據(jù)質(zhì)量問(wèn)題———大量空格,但空并不一定意味著不完整。數(shù)據(jù)集的完整性只能通過(guò)首先對(duì)數(shù)據(jù)模型的每個(gè)字段進(jìn)行如下分類來(lái)準(zhǔn)確衡量:
字段是必填項(xiàng)嗎?是否不能留空,例如,客戶的名稱;
該字段是可選的嗎?是否必須要填寫(xiě),例如,客戶的愛(ài)好字段。
該字段在某些情況下不適用嗎?根據(jù)記錄的上下文,它是否變得無(wú)關(guān)緊要,應(yīng)該留空,例如,未婚客戶的配偶姓名。
數(shù)據(jù)老化得非常快———無(wú)論客戶是否更換了他們的住址、電子郵件地址、聯(lián)系電話等。此類更改可能會(huì)影響數(shù)據(jù)集的流通性,并導(dǎo)致產(chǎn)生數(shù)周或數(shù)月的舊數(shù)據(jù),從而導(dǎo)致根據(jù)過(guò)時(shí)的信息做出關(guān)鍵決策。為確保數(shù)據(jù)集的流通性,可以設(shè)置提醒以更新數(shù)據(jù),或?qū)傩缘哪挲g設(shè)置限制,以確保所有值在給定時(shí)間內(nèi)接受審查和更新。
盡管為保護(hù)數(shù)據(jù)及其跨數(shù)據(jù)集的質(zhì)量做出了所有正確的努力,但組織中缺乏數(shù)據(jù)素養(yǎng)技能仍然會(huì)對(duì)數(shù)據(jù)造成很大的損害。員工經(jīng)常存儲(chǔ)錯(cuò)誤的信息,因?yàn)樗麄儾焕斫饽承傩缘暮x。此外,他們不知道自己行為的后果,例如在某個(gè)系統(tǒng)或某個(gè)記錄中更新數(shù)據(jù)會(huì)產(chǎn)生什么影響。
這種差異只能通過(guò)創(chuàng)建和設(shè)計(jì)數(shù)據(jù)素養(yǎng)計(jì)劃與課程來(lái)消除,這些計(jì)劃和課程向團(tuán)隊(duì)介紹組織數(shù)據(jù)并解釋:
它包含什么;
每個(gè)數(shù)據(jù)屬性的含義;
其質(zhì)量的可接受標(biāo)準(zhǔn)是什么;
輸入/操作數(shù)據(jù)的錯(cuò)誤和正確方法是什么;
使用什么數(shù)據(jù)來(lái)實(shí)現(xiàn)給定的結(jié)果。
錯(cuò)誤輸入或拼寫(xiě)錯(cuò)誤是最常見(jiàn)的數(shù)據(jù)質(zhì)量錯(cuò)誤來(lái)源之一,人類在輸入10 000個(gè)數(shù)據(jù)時(shí)至少會(huì)犯400個(gè)錯(cuò)誤。這表明即使存在唯一標(biāo)識(shí)符、驗(yàn)證檢查和完整性約束,人為錯(cuò)誤仍有可能產(chǎn)生并使數(shù)據(jù)質(zhì)量下降。