李默涵++李建中
摘要: 當(dāng)前,隨著大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)質(zhì)量問題受到越來越多的關(guān)注。數(shù)據(jù)質(zhì)量會(huì)隨著時(shí)間的流逝迅速下降,因此在數(shù)據(jù)質(zhì)量的各個(gè)維度中,數(shù)據(jù)時(shí)效性扮演的角色至關(guān)重要。判定一個(gè)給定的數(shù)據(jù)集合的時(shí)效性是確保數(shù)據(jù)時(shí)效性是第一步,但數(shù)據(jù)時(shí)效性的判定并非易事,其面臨極大挑戰(zhàn)。本文針對(duì)時(shí)效性判定問題面臨的各個(gè)挑戰(zhàn),綜述了當(dāng)前該領(lǐng)域針對(duì)絕對(duì)時(shí)效性判定和相對(duì)時(shí)效性判定的關(guān)鍵理論和技術(shù),分析了現(xiàn)有的各方法的優(yōu)缺點(diǎn),并對(duì)未來的研究方向給出了建議。
關(guān)鍵詞:數(shù)據(jù)質(zhì)量; 數(shù)據(jù)時(shí)效性; 時(shí)效性判定
中圖分類號(hào): TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號(hào): 2095-2163(2016)06-0072-04
0引言
隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)的“量”在飛速增長,但與此同時(shí),數(shù)據(jù)的“質(zhì)”的下降也成為了不可忽視的問題。多家機(jī)構(gòu)的統(tǒng)計(jì)數(shù)據(jù)表明,當(dāng)前各行各業(yè)中信息的可用性(即數(shù)據(jù)質(zhì)量)問題亟待解決。在美國,企業(yè)中有1%~30%的數(shù)據(jù)存在各種質(zhì)量問題[1],醫(yī)療中有13.6%~81%的組成是不完整、或過時(shí)數(shù)據(jù)[2]。同時(shí),根據(jù)國際著名科技咨詢機(jī)構(gòu)Gartner的調(diào)查結(jié)果,即使是在那些著名企業(yè),如全球財(cái)富1 000強(qiáng)的企業(yè)中,也有超過25%的企業(yè)其信息系統(tǒng)中的關(guān)鍵信息不正確或不準(zhǔn)確[3]。如果不能夠及時(shí)有效地針對(duì)這些數(shù)據(jù)質(zhì)量問題提供全面完整解決,就必將會(huì)對(duì)國民生活和企業(yè)決策形成不可預(yù)知的惡劣影響。事實(shí)上,已有多次調(diào)查結(jié)果陸續(xù)表明,如上的數(shù)據(jù)質(zhì)量問題每年都會(huì)在全球范圍內(nèi)造成重大不良效應(yīng)后果:數(shù)據(jù)質(zhì)量問題在美國引發(fā)的醫(yī)療事故所導(dǎo)致的死亡人數(shù)高達(dá)98 000名,約等于總醫(yī)療事故致死人數(shù)的一半[4];數(shù)據(jù)過時(shí)和錯(cuò)誤將使得美國工業(yè)企業(yè)損失高達(dá)6 110億美元,這一數(shù)值幾乎可占美國GDP的6%[5];標(biāo)價(jià)錯(cuò)誤還會(huì)導(dǎo)致美國零售業(yè)損失25億美元[6];數(shù)據(jù)中的不一致錯(cuò)誤則會(huì)導(dǎo)致信用卡欺詐問題的深度隱藏,這在2006年曾造成48億美元的財(cái)產(chǎn)損失[7]。由此,根據(jù)推算,劣質(zhì)數(shù)據(jù)的處理需要花費(fèi)30%~80%的開發(fā)時(shí)間和預(yù)算[8],進(jìn)而數(shù)據(jù)質(zhì)量問題通常給企業(yè)增加獲得同等產(chǎn)值約10%~20%的成本[9]。這也隨即推動(dòng)了數(shù)據(jù)質(zhì)量工具市場的飛速增長,甚至遠(yuǎn)超IT行業(yè)的平均增長率[10]。劣質(zhì)數(shù)據(jù)無時(shí)無刻都將通過網(wǎng)絡(luò)在不同數(shù)據(jù)源之間傳播,因此對(duì)數(shù)據(jù)可用性的研究已經(jīng)成為數(shù)據(jù)管理領(lǐng)域中的首要問題內(nèi)容之一。近幾年來,數(shù)據(jù)庫領(lǐng)域的頂級(jí)國際會(huì)議及期刊每年都會(huì)達(dá)成和開展多項(xiàng)關(guān)系著數(shù)據(jù)質(zhì)量方面的相關(guān)議程和研究工作。
一般說來,要從下述5個(gè)維度來保證數(shù)據(jù)可用性[11]?,F(xiàn)作如下論述:
1)時(shí)效性。保證數(shù)據(jù)與時(shí)俱進(jìn),不陳舊過時(shí)。例如,某數(shù)據(jù)庫中的用戶地址在2010年是正確的,但在2011年未必正確,即存在過時(shí)數(shù)據(jù)。
2) 一致性。保證數(shù)據(jù)不違背某些特定約束。例如,記錄(郵編=“150000”,城市=“上海”)就違背了郵編和城市的對(duì)應(yīng)關(guān)系,因?yàn)?50000是哈爾濱的郵編、而非上海郵編。
3) 完整性。保證數(shù)據(jù)不存在缺失。例如,醫(yī)療數(shù)據(jù)庫遺失某患者病史就會(huì)導(dǎo)致數(shù)據(jù)不完整,進(jìn)而可能妨礙醫(yī)生正確診斷病情。
4) 精確性。保證數(shù)據(jù)能夠準(zhǔn)確地描述對(duì)應(yīng)實(shí)體。例如,哈爾濱全市總面積約為5.384萬平方公里,但數(shù)據(jù)庫中記錄卻為5萬平方公里,這雖在宏觀來看是合理的,但不精確。精確性和一致性并不相同,一致的信息也可能含有誤差,即未必精確。
5) 實(shí)體同一性。保證描述同一實(shí)體的數(shù)據(jù)在不同數(shù)據(jù)源上是統(tǒng)一的。例如,可以通過對(duì)比個(gè)人信息來判斷信用卡的使用者和持有者是否為同一人,從而防止欺詐。
在數(shù)據(jù)可用性的5個(gè)維度中,數(shù)據(jù)時(shí)效性的作用地位至關(guān)重要。據(jù)統(tǒng)計(jì),在商業(yè)和醫(yī)療信息數(shù)據(jù)庫中,約有2%的客戶信息會(huì)在一個(gè)月內(nèi)變得陳舊失效[5],如果這些數(shù)據(jù)未獲修復(fù),那么在2年內(nèi),就將有近50%的記錄會(huì)因?yàn)檫^時(shí)而使其可用性受到影響,而過時(shí)數(shù)據(jù)將會(huì)導(dǎo)致嚴(yán)重后果。在企業(yè)決策時(shí),企業(yè)往往會(huì)因?yàn)槭褂昧岁惻f的數(shù)據(jù)而做出錯(cuò)誤的決策,而在日常生活中,銀行可能會(huì)將信用卡賬單寄送到持有人搬家前的舊地址。同時(shí),有相當(dāng)一部分?jǐn)?shù)據(jù)的不一致、不精確、不完整等都是由數(shù)據(jù)過時(shí)失效引起的。例如,銀行未能及時(shí)更新客戶的地址信息將會(huì)導(dǎo)致同一客戶的住址和郵編難以匹配;隨著人口的增長和流動(dòng),數(shù)據(jù)庫中各城市的人口數(shù)會(huì)因?yàn)檫^時(shí)變得不再精確;新入學(xué)的學(xué)生的學(xué)籍信息未及時(shí)錄入會(huì)導(dǎo)致記錄學(xué)生信息的數(shù)據(jù)庫無法趨于完整。因此,確保數(shù)據(jù)的時(shí)效性已成為熱點(diǎn)與焦點(diǎn)。
判定一個(gè)給定的數(shù)據(jù)集合的時(shí)效性是確保數(shù)據(jù)時(shí)效性的第一步。只是數(shù)據(jù)時(shí)效性的判定卻并非易事。同一記錄的不同屬性隨時(shí)間變化的頻率不同,使得同一記錄的不同屬性的新舊程度也會(huì)不同,這即使得數(shù)據(jù)時(shí)效性判定問題的研究面臨嚴(yán)峻挑戰(zhàn)。首先,數(shù)據(jù)庫中通常沒有完整、可用、精確的時(shí)間戳[12],此時(shí)就需要建立一個(gè)不依賴于時(shí)間戳的數(shù)據(jù)時(shí)效性度量模型。使用該模型,可以對(duì)一個(gè)給定數(shù)據(jù)庫,形式化地表示單個(gè)數(shù)據(jù)項(xiàng)、元組以及數(shù)據(jù)庫整體的時(shí)效性(稱為絕對(duì)時(shí)效性),并定量地判定其時(shí)效性。其次,數(shù)據(jù)庫的絕對(duì)時(shí)效性可能無法直接判定,又或者判定結(jié)果不能有效地表達(dá)用戶需求。為此,則需要針對(duì)該數(shù)據(jù)庫上的常用查詢或用戶的特定需求,設(shè)計(jì)數(shù)據(jù)庫的相對(duì)時(shí)效性度量模型。該模型能夠度量數(shù)據(jù)庫中較重要部分的時(shí)效性,如某些重要查詢的提供結(jié)果的時(shí)效性,或者用戶最常使用的數(shù)據(jù)集合的時(shí)效性。
基于如上的論證分析,本文將綜述當(dāng)前數(shù)據(jù)時(shí)效性判定的關(guān)鍵理論和技術(shù),包括數(shù)據(jù)的絕對(duì)時(shí)效性和相對(duì)時(shí)效性判定模型,數(shù)據(jù)時(shí)效性修復(fù)算法及查詢相關(guān)的數(shù)據(jù)時(shí)效性研究等。
[BT4]1絕對(duì)時(shí)效性判定
當(dāng)前的時(shí)效性判定工作大致可以分為2類:基于時(shí)間戳的時(shí)效性判定和基于規(guī)則的時(shí)效性判定。其中,基于時(shí)間戳的時(shí)效性判定要求數(shù)據(jù)庫中對(duì)每個(gè)待判定的值都存有完整、清潔、可用的時(shí)間戳,通常是事務(wù)時(shí)間,根據(jù)事務(wù)時(shí)間和數(shù)值有效性的衰減來判定當(dāng)前值是否過時(shí)失效,即推斷有效時(shí)間。該方法的優(yōu)點(diǎn)是能夠?qū)τ诮o定的時(shí)間點(diǎn),判定數(shù)據(jù)在該時(shí)刻過時(shí)失效,但缺點(diǎn)卻在于其需要大量的輔助信息,如每個(gè)值的事務(wù)時(shí)間和每個(gè)值的有效性衰減規(guī)律。由于各種屬性的不同特性,這些輔助信息在真實(shí)應(yīng)用中很難獲得精煉提取,因此基于時(shí)間戳的時(shí)效性判定方法的適用范圍隨之受到一定限制。為了克服基于時(shí)間戳的方法的缺點(diǎn)與不足,基于規(guī)則的方法相應(yīng)地?fù)?jù)此而獲提出。這類方法只需要根據(jù)少量的由領(lǐng)域知識(shí)得到的時(shí)效規(guī)則,就可以判斷描述同一實(shí)體的不同屬性值的時(shí)序關(guān)系,從而判定哪些值是過時(shí)失效的。這類方法所需的輔助信息大大減少,但其缺點(diǎn)卻表現(xiàn)在當(dāng)前的基于規(guī)則的方法仍不能判定某個(gè)值在給定的時(shí)間點(diǎn)是否過時(shí)失效。下面,即對(duì)這2類判定方法展開分析與討論。
[BT5]1.1基于時(shí)間戳的絕對(duì)時(shí)效性判定
文獻(xiàn)[13–18] 定義數(shù)據(jù)從上一次更新到本次使用的時(shí)間間隔為數(shù)據(jù)年齡(age()),從不同角度定義了數(shù)據(jù)的時(shí)效性。文獻(xiàn)[13]和文獻(xiàn)[16]均假設(shè)數(shù)據(jù)有一個(gè)確定的保質(zhì)期(ShelfLife()),當(dāng)數(shù)據(jù)的年齡大于保質(zhì)期時(shí)認(rèn)為數(shù)據(jù)過時(shí)失效。給定值A(chǔ),文獻(xiàn)[13]將其時(shí)效性定義為過期概率(ShelfLife(A)-age(A)>0),而文獻(xiàn)[16]則直接使用age(A)作為數(shù)據(jù)的時(shí)效性,同時(shí)要求數(shù)據(jù)滿足ShelfLife(A)-age(A)>0的約束。文獻(xiàn)[14, 15]假設(shè)對(duì)于設(shè)定值A(chǔ),A的時(shí)效性隨時(shí)間流逝的減弱程度可以用時(shí)效性衰減函數(shù)decline(A)刻畫,并進(jìn)一步地定義A的時(shí)效性為exp(-decline(A)×age(A))。文獻(xiàn)[17]與文獻(xiàn)[16]類似,簡單地使用數(shù)據(jù)年齡作為數(shù)據(jù)的時(shí)效性。并且,文獻(xiàn)[18]又提出了一種基于模糊邏輯來推斷時(shí)效性衰減函數(shù)的時(shí)效性判定方法,與前述工作相同,該方法也假定數(shù)據(jù)庫有完整可用的時(shí)間戳來表示數(shù)據(jù)的存儲(chǔ)時(shí)間。
文獻(xiàn)[13–18] 提出的數(shù)據(jù)絕對(duì)時(shí)效性判定模型在數(shù)據(jù)庫中有完整、清潔、可用的時(shí)間戳,且用戶對(duì)數(shù)據(jù)的語義了解較為充分時(shí)可以有效地判定數(shù)據(jù)的時(shí)效性,但這些模型存在一定不足。具體闡析描述如下:
1)在實(shí)際應(yīng)用中,數(shù)據(jù)庫中不一定存在有效的時(shí)間戳,這就使得計(jì)算數(shù)據(jù)的年齡在多數(shù)情況下趨于困難。
2)上述工作均認(rèn)為最近更新的數(shù)據(jù)就一定是最新的,這在實(shí)際應(yīng)用中也不會(huì)一定成立,數(shù)據(jù)庫管理人員可能只是用一個(gè)舊值替代了另一個(gè)舊值。
3)文獻(xiàn)[13]和[16]均假設(shè)數(shù)據(jù)的保質(zhì)期總是能被用戶預(yù)先知曉,這在實(shí)際應(yīng)用中也并不合理,而且文獻(xiàn)[13]也沒有確切給出該文獻(xiàn)定義的數(shù)據(jù)時(shí)效性的計(jì)算方法。
4)文獻(xiàn)[14, 15]要求數(shù)據(jù)的時(shí)效性減弱程度可以用decline()刻畫,卻沒有提出decline()的獲得方法,同時(shí)文獻(xiàn)中也沒有完整的理論分析來證實(shí)其時(shí)效性定義的合理性。文獻(xiàn)[18]給出了decline()的推斷方法,卻又需要額外的數(shù)據(jù)存儲(chǔ)時(shí)間來輔助支持推斷。
5)文獻(xiàn)[16, 17]中僅用數(shù)據(jù)的年齡作為數(shù)據(jù)的時(shí)效性是遠(yuǎn)遠(yuǎn)不夠的,不同數(shù)據(jù)表示的具體含義也各有不同,年齡長的數(shù)據(jù)其時(shí)效性也未必就會(huì)較差。
[BT5]1.2基于規(guī)則的絕對(duì)時(shí)效性判定
文獻(xiàn)[19, 20]首次研究了在數(shù)據(jù)庫中不存在時(shí)間戳?xí)r,如何使用規(guī)則來幫助判定數(shù)據(jù)的時(shí)效性。這些工作首次給出了不依賴于時(shí)間戳的數(shù)據(jù)時(shí)效性度量模型。該文獻(xiàn)分3部分對(duì)數(shù)據(jù)的時(shí)效性來實(shí)現(xiàn)建模:時(shí)序關(guān)系(Currency Order)、時(shí)效約束(Currency Constraint)、不同數(shù)據(jù)源間的拷貝函數(shù)(Copy Function)。具體地,時(shí)序關(guān)系tiAtj表示元組ti在屬性A上比元組tj舊。時(shí)效約束定義為一階邏輯語句t1,…,tj: R(∧j∈[1,k]t1[EID]=tj[EID]∧φ→tuAtv),能夠描述數(shù)據(jù)的語義信息。該約束表示如果一組元組t1,…,tj描述的實(shí)體相同(即EID相同),且滿足特定條件φ,那么就有結(jié)論tuAtv。當(dāng)數(shù)據(jù)來自于多個(gè)數(shù)據(jù)源時(shí),拷貝函數(shù)R1[A→]←R2[B→]可以描述不同數(shù)據(jù)源間的依賴關(guān)系,如數(shù)據(jù)源R1的A→向量表示的屬性可能就是拷貝自數(shù)據(jù)源R2的B→。
上述研究實(shí)現(xiàn)首次提出了時(shí)間戳不可用情況下的數(shù)據(jù)絕對(duì)時(shí)效性模型,其中雖然給出了較完整的數(shù)據(jù)時(shí)效性定義,但仍有許多問題沒有解決:
1)沒有給出定量地確定數(shù)據(jù)時(shí)效性的方法,僅能對(duì)給定的實(shí)體推測其屬性值是否為最新。
2)沒有給出任何能夠判定數(shù)據(jù)庫時(shí)效性的算法,而且上述工作定義的判定問題多為NP-完全或更難,這將給該模型進(jìn)入實(shí)際工作帶來相關(guān)困難,因此需要尋找快速的數(shù)據(jù)時(shí)效性判定算法。
3)提出的模型準(zhǔn)確性依賴于時(shí)效約束,但是在實(shí)際應(yīng)用中,用戶很難給出完整正確的時(shí)效約束,該工作也沒有討論時(shí)效約束的獲得方法。
4)提出的模型依賴于數(shù)據(jù)庫中的冗余元組,當(dāng)冗余元組不存在時(shí),該模型就無法就直接使用。
5)文中提出的模型只能夠針對(duì)不同屬性值間的序關(guān)系進(jìn)行建模,但是在實(shí)際應(yīng)用中,數(shù)據(jù)時(shí)效性往往和具體的時(shí)間點(diǎn)有關(guān),因此需要借助與時(shí)間點(diǎn)有關(guān)的數(shù)據(jù)語義來判定數(shù)據(jù)是否過時(shí)。
[BT5]1.3小結(jié)
綜上可知,在數(shù)據(jù)絕對(duì)時(shí)效性的研究中,仍有如下關(guān)鍵問題亟待解決。首先應(yīng)建立不依賴于時(shí)間戳和冗余元組的,能夠定量度量數(shù)據(jù)絕對(duì)時(shí)效性的模型,該模型不僅要能夠推斷數(shù)據(jù)之間的時(shí)序關(guān)系,還要能夠推斷數(shù)據(jù)在給定時(shí)刻是否失效。而在此模型構(gòu)建的基礎(chǔ)上,還應(yīng)給出多項(xiàng)式時(shí)間的數(shù)據(jù)時(shí)效性判定算法。
[BT4]2相對(duì)時(shí)效性判定
[BT5]2.1相對(duì)時(shí)效性判定方法研究
目前,相對(duì)時(shí)效性的研究工作非常有限,僅在分布式數(shù)據(jù)庫環(huán)境下有類似的研究,即文獻(xiàn)[21]。該工作研究數(shù)據(jù)分布式存儲(chǔ)的環(huán)境下,查詢結(jié)果的時(shí)效性度量,具體是將數(shù)據(jù)的更新建模為泊松過程,并計(jì)算當(dāng)前查詢能夠用最新數(shù)據(jù)回答的概率,并以之作為數(shù)據(jù)的時(shí)效性。查詢能夠用最新數(shù)據(jù)回答的概率等于查詢?cè)跀?shù)據(jù)過期之前發(fā)出的概率。文獻(xiàn)[21]能夠一定程度上解決相對(duì)時(shí)效性判定問題,但其不足卻在于,只是考慮了數(shù)據(jù)分布式存儲(chǔ)的情況,且假設(shè)2次更新的時(shí)間間隔長度的概率分布已知,而若數(shù)據(jù)的更新規(guī)律未知時(shí)則不可能知道更新時(shí)間間隔長度的概率分布,因此算法的使用也還未形成廣泛拓展的新格局。
盡管相對(duì)時(shí)效性的研究工作迄今仍然限量可數(shù),但是在數(shù)據(jù)可用性管理的其他領(lǐng)域,卻也存在一些針對(duì)相對(duì)數(shù)據(jù)可用性的特征研究,這些進(jìn)展成果對(duì)于相對(duì)時(shí)效性研究頗具啟發(fā)意義。文獻(xiàn)[22]是較早期的度量結(jié)果可信度的研究工作,通過將數(shù)據(jù)庫構(gòu)建為一個(gè)圖,結(jié)點(diǎn)代表數(shù)據(jù)庫中的元組,邊表示元組間關(guān)系,邊權(quán)值表示2個(gè)元組存在關(guān)系的概率。給定數(shù)據(jù)庫以及特定關(guān)系R,查詢要求返回那些有可能滿足R的元組集合,而查詢的結(jié)果可信度則定義為該結(jié)果滿足R的概率。分析這一設(shè)計(jì)實(shí)現(xiàn)的不足可知,該文獻(xiàn)本質(zhì)上只是研究一個(gè)不確定數(shù)據(jù)庫上的查詢回答問題,并沒有給出邊權(quán)值的定義方法及來源,因此也未從本質(zhì)上解決相對(duì)數(shù)據(jù)質(zhì)量的判定問題。文獻(xiàn)[23–25]研究不確定數(shù)據(jù)上查詢結(jié)果的質(zhì)量判定問題。文獻(xiàn)[23, 24]均從結(jié)果二義性的角度出發(fā),以信息熵的相反數(shù)為查詢結(jié)果的質(zhì)量度量指標(biāo),該指標(biāo)取值范圍為(-∞,0],結(jié)果質(zhì)量越接近于0,則其二義性越弱,質(zhì)量越好。其中,文獻(xiàn)[23]研究了不確定數(shù)據(jù)上的范圍查詢(Range Query)和最大值查詢(MAX Query)的結(jié)果質(zhì)量度量方法,文獻(xiàn)[24]研究了不確定數(shù)據(jù)上的Top-k查詢的結(jié)果質(zhì)量度量方法。并且,文獻(xiàn)[25]則重點(diǎn)結(jié)合了skyline和Top-k查詢來對(duì)復(fù)雜情況下不確定數(shù)據(jù)的查詢給出一個(gè)可信結(jié)果?,F(xiàn)結(jié)合這部分工作可提出2點(diǎn)存在問題:首先,文中提出的度量在施于數(shù)據(jù)二義性時(shí),本質(zhì)上是考察查詢的可能結(jié)果的數(shù)目,結(jié)果數(shù)越多,則二義性越大,但事實(shí)上,某些查詢雖然會(huì)得到較多可能的查詢結(jié)果,但各個(gè)查詢結(jié)果之間呈現(xiàn)了顯著可觀的相似度,此時(shí),將無法簡單地?cái)喽ㄔ摬樵兘Y(jié)果具有較高的二義性;其次,因?yàn)橥耆珱]有考慮查詢?cè)跁r(shí)間維度的特點(diǎn),即使得文中提出的二義性的定義也無法直接用來解析數(shù)據(jù)的相對(duì)時(shí)效性。此外,文獻(xiàn)[26–28]又深入研究了數(shù)據(jù)的相對(duì)完整性問題。文獻(xiàn)[26, 27]研究了給定主數(shù)據(jù)(Master Data)Dm、約束集合V、查詢Q以及數(shù)據(jù)庫實(shí)例T時(shí),T在Dm和V的約束下的相對(duì)完整性判定問題。文獻(xiàn)[28]則代表性地給出了完整度度量模型,一方面可以表示數(shù)據(jù)集合中特定部分的完整性,稱為表完整性(Table Completeness),另一方面也可以表示查詢結(jié)果的完整性,稱為查詢完整性(Query Completeness)。這部分技術(shù)進(jìn)展均能從不同角度判定數(shù)據(jù)相對(duì)完整性,但由于數(shù)據(jù)時(shí)效性與時(shí)序密切相關(guān),則決定了這些工作仍然未能真正解決相對(duì)時(shí)效性判定問題。
[BT5]2.2小結(jié)
綜上所述,目前相對(duì)數(shù)據(jù)質(zhì)量判定方面的研究仍處在萌芽階段,現(xiàn)有工作大多關(guān)注模型定義和問題復(fù)雜度,關(guān)鍵算法的研究相對(duì)匱乏。在數(shù)據(jù)相對(duì)時(shí)效性的研究中,必須考慮到查詢與時(shí)序密切相關(guān)這一特點(diǎn),根據(jù)查詢?cè)跁r(shí)間維度的特性,一方面給出合理的相對(duì)時(shí)效性的定量度量,另一方面也需給出判定相對(duì)時(shí)效性的迅捷有效的關(guān)鍵算法。
[BT4〗3結(jié)束語
本文討論了當(dāng)前數(shù)據(jù)時(shí)效性判定的關(guān)鍵理論和技術(shù),分析了當(dāng)前理論和技術(shù)的優(yōu)點(diǎn)及不足。通過分析可知,當(dāng)前數(shù)據(jù)質(zhì)量領(lǐng)域?qū)τ跁r(shí)效性的研究已經(jīng)有一些不同角度的較為成型的理論和方法,但綜合看來此領(lǐng)域的研究仍然不成體系,解決時(shí)效性維度的質(zhì)量問題需依次解決以下幾個(gè)問題:絕對(duì)時(shí)效性判定模型、多項(xiàng)式時(shí)間的絕對(duì)時(shí)效性判定算法、相對(duì)時(shí)效性的形式化定義以及相應(yīng)的相對(duì)時(shí)效性判定算法。在必要時(shí),還需給出時(shí)效性修復(fù)策略以及判定和修復(fù)結(jié)果的整合策略。因此,數(shù)據(jù)時(shí)效性的研究任重而道遠(yuǎn),仍需不斷推進(jìn)探索。
[HS1*2][HT5H]參考文獻(xiàn):[HT]
[WTBZ][ST6BZ][HT6SS][1] [ZK(#〗
[HJ*2]
REDMAN T C. The impact of poor data quality on the typical enterprise[J]. Commun. ACM, 1998, 41(2):79-82.
[2] MILLER Jr D W, YEAST J D, EVANS R L. Missing prenatal records at a birth center: A communication problem quantified[C]//AMIA Annual Symposium Proceedings. Bethesda, MD, USA: American Medical Informatics Association, 2005:535.
[3] SWARTZ N. Gartner warns firms of ”dirty data”[J]. Information Management Journal, 2007, 41(3):6-7.
[4] KOHN L T, CORRIGAN J M, DONALDSON M S, et al. To err is human: Building a Safer Health System[M]. Washington, D.C.: National Academies Press, 2000.
[5] Eckerson W. Data Warehousing Special Report: Data quality and the bottom line[R]. Washington: The Data Warehouse Institute, 2002.
[6] ENGLISH L P. Information quality management: The next frontier[C]//ASQ World Conference on Quality and Improvement Proceedings. Milwaukee, Wisconsin: American Society for Quality, 2001:529.
[7] Ben W, Schulz S. Credit card statistics, industry facts, debt statistics[EB/OL]. [2010-06-04]. http://www.creditcards.com.
[8] Christopher S, Julie T. Enterprise information portals[R]. New York, NY, USA: Merrill Lynch, 1998.
[9] RAHM E, DO H H. Data cleaning: Problems and current approaches[J]. IEEE Data Eng. Bull., 2000, 23(4):3-13.
[10]FLESCA S, FURFARO F, GRECO S, et al. Querying and repairing inconsistent XML data[C]//Proceedings of Web Information Systems Engineering (WISE). Berlin, Heidelberg,Germany: Springer, 2005:175-188.
[11]李建中, 劉顯敏. 大數(shù)據(jù)的一個(gè)重要方面: 數(shù)據(jù)可用性[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 50(6):1147-1162.
[12]ZHANG H, DIAO Y, IMMERMAN N. Recognizing patterns in streams with imprecise timestamps[J]. Information Systems, 2013, 38(8):1187-1211.
[13]GRZ Q. An economicsdriven decision model for data quality improvement: A contribution to data currency[C]//AMCIS. Atlanta, Georgia, USA: AIS, 2011:1-8.
[14]HEINRICH B, KLIER M. Assessing data currency: A probabilistic approach[J]. Journal of Information Science, 2011, 37(1):86-100.