劉妍東
摘 要:隨著云時(shí)代的來(lái)歷,大數(shù)據(jù)技術(shù)也越來(lái)越引起人們的關(guān)注。大數(shù)據(jù)帶來(lái)的巨大的技術(shù)和商業(yè)機(jī)遇使眾多的企業(yè)趨之若鶩。大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來(lái)巨大的商業(yè)價(jià)值,但隨著數(shù)據(jù)規(guī)模的急劇劇增,數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多,數(shù)據(jù)的價(jià)值參差不齊,在數(shù)據(jù)分析時(shí)將導(dǎo)致分析偏差。所以在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的質(zhì)量問(wèn)題也是重中之重。通過(guò)分析,數(shù)據(jù)的質(zhì)量問(wèn)題主要存在這六大方面的問(wèn)題:準(zhǔn)確性、完整性、一致性、相關(guān)性、時(shí)效性、可信性和可解釋性。
關(guān)鍵詞:大數(shù)據(jù);質(zhì)量問(wèn)題
中圖分類號(hào):TB ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ?doi:10.19311/j.cnki.1672-3198.2020.04.092
1 從采集的角度劃分質(zhì)量問(wèn)題
1.1 準(zhǔn)確性
準(zhǔn)確性是指數(shù)據(jù)是否正確的,數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中的值是否對(duì)應(yīng)于真實(shí)世界的值。例如,某用戶在使用支付寶綁定銀行卡時(shí),網(wǎng)站要求驗(yàn)證用戶的真實(shí)姓名和身份證號(hào)碼。如果用戶提供的證件號(hào)碼與實(shí)際號(hào)碼一致,那么該號(hào)碼存儲(chǔ)在數(shù)據(jù)庫(kù)中的值就是正確的。
數(shù)據(jù)的不準(zhǔn)確由如下原因造成:一是在收集數(shù)據(jù)時(shí),設(shè)備出現(xiàn)故障,導(dǎo)致數(shù)據(jù)存儲(chǔ)的值出現(xiàn)亂碼。二是在數(shù)據(jù)輸入時(shí),人為的輸入不準(zhǔn)確的信息,或者計(jì)算機(jī)內(nèi)部出錯(cuò)導(dǎo)致錄入的信息有誤,比如我們上網(wǎng)注冊(cè)一些信息時(shí),出于隱私考慮,用戶會(huì)故意輸入不正確的信息,包括年齡、地址、手機(jī)號(hào)等。 三是在數(shù)據(jù)傳輸?shù)倪^(guò)程中出現(xiàn)錯(cuò)誤。比如,超出了傳輸緩沖區(qū)的大小,數(shù)據(jù)會(huì)出現(xiàn)截?cái)嗟痊F(xiàn)象。最后一種是命名約定、數(shù)據(jù)代碼、輸入字段的格式不一致導(dǎo)致出錯(cuò)。其中,最常見(jiàn)的是:不按格式輸入導(dǎo)致出錯(cuò),例如輸入字段為日期時(shí),多個(gè)用戶輸入日期的格式不一致。
1.2 完整性
完整性是指信息具有一個(gè)實(shí)體描述的所有必需的部分。在傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)中,完整性通常與空值(NULL)有關(guān)??罩凳侵溉笔Щ虿恢谰唧w的值,可能是一條記錄中的某個(gè)屬性缺失,也可能是整條記錄都丟失。
不完整的數(shù)據(jù)對(duì)數(shù)據(jù)分析會(huì)產(chǎn)生影響,比如考慮構(gòu)造一個(gè)預(yù)測(cè)交通事故發(fā)生率的模型。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過(guò)其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的數(shù)據(jù)信息。
1.3 一致性
數(shù)據(jù)一致性是指在數(shù)據(jù)庫(kù)中,不同表中存儲(chǔ)和使用的同一數(shù)據(jù)應(yīng)當(dāng)是等價(jià)的,表示數(shù)據(jù)有相等的值和相同的含義。
比如表1描述學(xué)生的基本信息,包括學(xué)號(hào)、姓名、性別、出生日期和所在專業(yè),而所在專業(yè)必須從專業(yè)信息表獲取。表2描述了專業(yè)的基本信息。從這兩個(gè)表可以看到,表1中的學(xué)生李想所在的專業(yè)號(hào)并沒(méi)有出現(xiàn)在表2中,說(shuō)明該條記錄的專業(yè)號(hào)有誤,必須修改正確,才能保證兩張表對(duì)應(yīng)字段的正確性,這是數(shù)據(jù)的邏輯不一致。 數(shù)據(jù)不一致還體現(xiàn)在記錄的不規(guī)范上,比如兩個(gè)表中對(duì)日期的格式記錄不一致,如20100405和2019年4月5日這兩種格式,會(huì)導(dǎo)致在數(shù)據(jù)集成中造成數(shù)據(jù)沖突。
另外在數(shù)據(jù)出現(xiàn)冗余的情況下,數(shù)據(jù)內(nèi)容由于各種原因比如并發(fā)控制不當(dāng),或程序故障導(dǎo)致前后數(shù)據(jù)不一樣也是造成數(shù)據(jù)不一致的原因。
2 從應(yīng)用的角度劃分質(zhì)量問(wèn)題
2.1 相關(guān)性
數(shù)據(jù)的相關(guān)性是指數(shù)據(jù)與特定的應(yīng)用和領(lǐng)域有關(guān)。與數(shù)據(jù)相關(guān)的應(yīng)用場(chǎng)景一般有,比如進(jìn)行數(shù)據(jù)挖掘或構(gòu)造模型預(yù)測(cè)時(shí),需要采集相關(guān)的數(shù)據(jù)。例如考慮構(gòu)造一個(gè)模型,預(yù)測(cè)交通事故發(fā)生率。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過(guò)其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的相關(guān)的數(shù)據(jù)信息。
另外一個(gè)相關(guān)性的質(zhì)量問(wèn)題表現(xiàn)在相同的數(shù)據(jù),在不同的應(yīng)用領(lǐng)域中,相關(guān)性也是不一樣的。例如,對(duì)于某個(gè)公司的大型客戶數(shù)據(jù)庫(kù),由于時(shí)間和統(tǒng)計(jì)的原因,顧客地址列表的正確性為80%,其他地址可能過(guò)時(shí)或不正確。當(dāng)市場(chǎng)分析人員訪問(wèn)公司的數(shù)據(jù)庫(kù),獲取顧客地址列表時(shí),基于目標(biāo)市場(chǎng)營(yíng)銷考慮,市場(chǎng)分析人員對(duì)于該數(shù)據(jù)庫(kù)的準(zhǔn)確性滿意度較高。而當(dāng)銷售經(jīng)理訪問(wèn)該數(shù)據(jù)庫(kù)時(shí),由于地址的缺失和過(guò)時(shí),對(duì)該數(shù)據(jù)庫(kù)的滿意度較低。
2.2 時(shí)效性
數(shù)據(jù)的時(shí)效性是指有些數(shù)據(jù)會(huì)隨時(shí)間而變化的,這些數(shù)據(jù)收集后就開(kāi)始老化,使用老化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)挖掘,將會(huì)產(chǎn)生不同的分析結(jié)果。 如商品推薦。顧客的當(dāng)時(shí)購(gòu)買(mǎi)行為或Web瀏覽行為稱為快照,它只代表有限時(shí)間內(nèi)的真實(shí)情況。如果數(shù)據(jù)已經(jīng)過(guò)時(shí),則基于它的模型和模式也就已經(jīng)過(guò)時(shí),所以進(jìn)行商品推薦需要采集當(dāng)前的數(shù)據(jù)進(jìn)行分析和推薦。在這種情況下,我們需要考慮重新采集數(shù)據(jù)信息,及時(shí)對(duì)數(shù)據(jù)進(jìn)行更新。
另應(yīng)用場(chǎng)景是城市的智能交通管理。以前沒(méi)有智能手機(jī)和智能汽車(chē),很多大城市雖然有交管中心,但它們收集的路況信息非常滯后。用戶看到的,可能已經(jīng)是半小時(shí)前的路況了,那這樣的信息就沒(méi)有什么價(jià)值。但是,能定位的智能手機(jī)普及以后可就不同。很多用戶開(kāi)放了實(shí)時(shí)位置信息,做地圖服務(wù)的公司,就能實(shí)時(shí)得到人員流動(dòng)信息,并且根據(jù)流動(dòng)速度和所在位置,區(qū)分步行的人群和汽車(chē),然后提供實(shí)時(shí)的交通路況信息,給用戶帶來(lái)便利。這就是大數(shù)據(jù)的時(shí)效性帶來(lái)的好處。
3 從用戶的角度劃分質(zhì)量問(wèn)題
3.1 可信性
數(shù)據(jù)的可信性由三個(gè)因素決定:數(shù)據(jù)來(lái)源的權(quán)威性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)產(chǎn)生的時(shí)間。例如新浪微博某一用戶發(fā)布的微博內(nèi)容是否具有可信性,首先確定數(shù)據(jù)來(lái)源是否具有權(quán)威性,如果是權(quán)威機(jī)構(gòu)的數(shù)據(jù),那么可信度比較高。如果微博字?jǐn)?shù)較長(zhǎng)且敘述比較詳細(xì),可信度也會(huì)增加。同時(shí)微博的發(fā)布時(shí)間是否接近實(shí)時(shí),也影響數(shù)據(jù)的可信度。
3.2 可解釋性
數(shù)據(jù)的可解釋性,也稱為可讀性,是指數(shù)據(jù)被人理解的難易程度,如果數(shù)據(jù)具有解釋性或包含有注釋性信息,而且數(shù)據(jù)書(shū)寫(xiě)規(guī)范,則數(shù)據(jù)的可解釋性越高。相反如果數(shù)據(jù)晦澀難懂就根本不具備分析的條件。
當(dāng)我們?cè)跀?shù)據(jù)采集和處理時(shí)能處理好這六種數(shù)據(jù)質(zhì)量問(wèn)題,則在大數(shù)據(jù)分析中,就會(huì)得到正確及實(shí)用的信息。
參考文獻(xiàn)
[1]朱慧明.大數(shù)據(jù)背景下電商運(yùn)營(yíng)課程教學(xué)改革研究[J].現(xiàn)代商貿(mào)工業(yè),2019,(32).
[2]張余丹.大數(shù)據(jù)時(shí)代在線教育平臺(tái)商業(yè)模式淺析[J].現(xiàn)代商貿(mào)工業(yè),2019,(21).