當前大數(shù)據(jù)對科學和產(chǎn)業(yè)產(chǎn)生了巨大影響,大數(shù)據(jù)的質(zhì)量對其有效應用起著至關(guān)重要的作用。大數(shù)據(jù)的規(guī)模性、高速性和數(shù)據(jù)來源及形式上的多樣,使數(shù)據(jù)有更大可能產(chǎn)生不一致和沖突。這些都導致大數(shù)據(jù)存在質(zhì)量問題,需要對大數(shù)據(jù)進行質(zhì)量管理。目前大數(shù)據(jù)的質(zhì)量管理包括:實體識別和基于規(guī)則、基于主數(shù)據(jù)的錯誤發(fā)現(xiàn)等。然而,大數(shù)據(jù)的特點為數(shù)據(jù)質(zhì)量管理帶來很多技術(shù)挑戰(zhàn)。眾多學者提出了解決方法:針對計算困難,采取并行化技術(shù)實施數(shù)據(jù)質(zhì)量管理,為數(shù)據(jù)清洗設(shè)計線性、亞線性的算法;針對混雜錯誤,進行復合類型錯誤的檢測和修復;針對知識缺少,通過眾包技術(shù)進行數(shù)據(jù)質(zhì)量管理。但是,大數(shù)據(jù)質(zhì)量管理仍存在不足:缺乏對數(shù)據(jù)質(zhì)量多維度相互影響的深入認識,尚無高效數(shù)據(jù)錯誤檢測與修復算法設(shè)計,劣質(zhì)數(shù)據(jù)近似計算理論與算法有待進一步研究。