王雷
摘 要:在信息技術(shù)高速發(fā)展的時(shí)代背景下,大數(shù)據(jù)發(fā)揮了重要的作用,通過(guò)對(duì)總體數(shù)據(jù)的處理與分析,能夠?qū)κ挛锏陌l(fā)展趨勢(shì)進(jìn)行分析預(yù)測(cè),有助于決策制定的科學(xué)性和合理性。由于大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類(lèi)型繁多的特點(diǎn),所以在處理的過(guò)程中任何一個(gè)環(huán)節(jié)出現(xiàn)失誤,都會(huì)對(duì)最終的數(shù)據(jù)質(zhì)量產(chǎn)生影響,降低大數(shù)據(jù)的應(yīng)用價(jià)值。文章主要對(duì)大數(shù)據(jù)處理流程中影響數(shù)據(jù)質(zhì)量的因素進(jìn)行分析,然后有針對(duì)性的提出改進(jìn)措施,為提升大數(shù)據(jù)應(yīng)用價(jià)值創(chuàng)造良好的基礎(chǔ)。
關(guān)鍵詞:大數(shù)據(jù);處理流程;數(shù)據(jù)質(zhì)量;改進(jìn)措施
大數(shù)據(jù)技術(shù)是指通過(guò)對(duì)海量的數(shù)據(jù)信息進(jìn)行處理,然后獲取事物之間的關(guān)聯(lián)程度以及未來(lái)的發(fā)展預(yù)測(cè),通過(guò)大數(shù)據(jù)分析,能夠?yàn)楦黜?xiàng)決策的制定提供更加科學(xué)合理的依據(jù),這就要求大數(shù)據(jù)在整個(gè)處理流程中能夠保證較高的質(zhì)量。大數(shù)據(jù)質(zhì)量主要指適合于進(jìn)行數(shù)據(jù)分析、處理、預(yù)測(cè)等使用過(guò)程并滿(mǎn)足用戶(hù)需求的特征,所以大數(shù)據(jù)質(zhì)量貫穿于整個(gè)大數(shù)據(jù)流程中。為了更加有效的控制大數(shù)據(jù)質(zhì)量,從大數(shù)據(jù)處理流程的層面出發(fā),本文主要對(duì)數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理與存儲(chǔ)、數(shù)據(jù)處理與分析、數(shù)據(jù)應(yīng)用等各個(gè)環(huán)節(jié)影響大數(shù)據(jù)質(zhì)量的因素進(jìn)行分析,然后提出改進(jìn)措施,提高數(shù)據(jù)質(zhì)量的可控性和精準(zhǔn)性,提高數(shù)據(jù)結(jié)果的應(yīng)用價(jià)值,促進(jìn)大數(shù)據(jù)技術(shù)在我國(guó)經(jīng)濟(jì)發(fā)展中發(fā)揮更大的作用。
1.數(shù)據(jù)收集環(huán)節(jié)影響數(shù)據(jù)質(zhì)量的因素及改進(jìn)措施
數(shù)據(jù)收集是獲取原始大數(shù)據(jù)集合的過(guò)程,從不同的數(shù)據(jù)源實(shí)時(shí)或及時(shí)的收集各種類(lèi)型的數(shù)據(jù)。在數(shù)據(jù)收集過(guò)程中,不同的數(shù)據(jù)源、收集方式和收集技術(shù)都會(huì)對(duì)大數(shù)據(jù)質(zhì)量的真實(shí)性、完整性、一致性、精確性、時(shí)效性和安全性產(chǎn)生影響。如果網(wǎng)站、系統(tǒng)和傳感器設(shè)備在運(yùn)行過(guò)程中出現(xiàn)安全威脅,就會(huì)導(dǎo)致數(shù)據(jù)信息被惡意攻擊與篡改。在采用網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行數(shù)據(jù)收集時(shí),如果在設(shè)定的時(shí)間內(nèi)沒(méi)有完成規(guī)定數(shù)據(jù)的收集,就會(huì)影響到數(shù)據(jù)收集的時(shí)效性。為了保證數(shù)據(jù)收集環(huán)節(jié)的數(shù)據(jù)質(zhì)量,企業(yè)應(yīng)該對(duì)數(shù)據(jù)來(lái)源進(jìn)行甄別和驗(yàn)證,保證數(shù)據(jù)的真實(shí)性和有效性,對(duì)關(guān)系到用戶(hù)隱私的敏感信息采取不收集處理,合理選擇數(shù)據(jù)收集技術(shù),做好各項(xiàng)網(wǎng)絡(luò)安全防護(hù)措施,確保數(shù)據(jù)收集質(zhì)量。
2.數(shù)據(jù)預(yù)處理與存儲(chǔ)環(huán)節(jié)影響數(shù)據(jù)質(zhì)量的因素及改進(jìn)措施
大數(shù)據(jù)預(yù)處理和存儲(chǔ)是進(jìn)行數(shù)據(jù)處理與分析的重要基礎(chǔ),因?yàn)榇髷?shù)據(jù)來(lái)源廣,為了保證大數(shù)據(jù)分析與預(yù)測(cè)結(jié)果的準(zhǔn)確性和價(jià)值性,需要對(duì)收集到的大數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)轉(zhuǎn)換等環(huán)節(jié)。在預(yù)處理過(guò)程中,任何一個(gè)環(huán)節(jié)的操作失誤,都會(huì)影響到數(shù)據(jù)質(zhì)量。數(shù)據(jù)存儲(chǔ)是通過(guò)不同的存儲(chǔ)介質(zhì)和組織管理形式對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)和管理,不同的數(shù)據(jù)存儲(chǔ)技術(shù)都有自身的優(yōu)點(diǎn)和缺陷,對(duì)大數(shù)據(jù)的時(shí)效性、安全性等質(zhì)量會(huì)產(chǎn)生影響。為了提高數(shù)據(jù)預(yù)處理和存儲(chǔ)質(zhì)量,應(yīng)該完善預(yù)處理的管理,不斷提升各項(xiàng)處理技術(shù)水平。根據(jù)數(shù)據(jù)形式和數(shù)據(jù)儲(chǔ)存技術(shù)特點(diǎn),選擇適宜的存儲(chǔ)技術(shù),保證數(shù)據(jù)的安全性和可用性。
3.數(shù)據(jù)處理與分析環(huán)節(jié)影響數(shù)據(jù)質(zhì)量的因素及改進(jìn)措施
大數(shù)據(jù)處理是對(duì)海量的數(shù)據(jù)進(jìn)行分析與處理,大數(shù)據(jù)的存儲(chǔ)形式和業(yè)務(wù)數(shù)據(jù)類(lèi)型不同,處理效率和方式也不相同,為了保證大數(shù)據(jù)的價(jià)值性、可用性、時(shí)效性和準(zhǔn)確性,應(yīng)該根據(jù)大數(shù)據(jù)類(lèi)型選擇適宜的存儲(chǔ)形式和數(shù)據(jù)處理系統(tǒng),確保大數(shù)據(jù)質(zhì)量的最優(yōu)化。數(shù)據(jù)分析直接關(guān)系到大數(shù)據(jù)集合的價(jià)值性和可用性,在數(shù)據(jù)處理環(huán)節(jié)即可完成對(duì)已有數(shù)據(jù)的分布式統(tǒng)計(jì)分析,對(duì)于未知數(shù)據(jù)進(jìn)行的聚類(lèi)和分類(lèi)、關(guān)聯(lián)分析和深度學(xué)習(xí)等,需要通過(guò)數(shù)據(jù)分析技術(shù)完成。應(yīng)該根據(jù)大數(shù)據(jù)的應(yīng)用情境和決策需求來(lái)選擇適宜的數(shù)據(jù)分析技術(shù),從而提升數(shù)據(jù)分析環(huán)節(jié)的數(shù)據(jù)質(zhì)量。
4.大數(shù)據(jù)應(yīng)用環(huán)節(jié)影響數(shù)據(jù)質(zhì)量的因素及改進(jìn)措施
在大數(shù)據(jù)經(jīng)過(guò)分析處理等一系列過(guò)程中,會(huì)將所得到的結(jié)果提供給用戶(hù)進(jìn)行應(yīng)用,這是對(duì)大數(shù)據(jù)分析的結(jié)果進(jìn)行檢驗(yàn)和驗(yàn)證的重要環(huán)節(jié),可直接反應(yīng)出大數(shù)據(jù)處理結(jié)果的可用性和價(jià)值性。為提高大數(shù)據(jù)應(yīng)用質(zhì)量,在數(shù)據(jù)收集和處理之前,應(yīng)該對(duì)數(shù)據(jù)的用途和用戶(hù)的需求進(jìn)行深入的調(diào)查分析,然后為大數(shù)據(jù)的收集、存儲(chǔ)、處理、分析等環(huán)節(jié)提供有力的保障,確保目標(biāo)的明確性,最終保證大數(shù)據(jù)處理結(jié)果具有較高的應(yīng)用價(jià)值。
5.結(jié)語(yǔ)
在競(jìng)爭(zhēng)激烈的時(shí)代背景下,數(shù)據(jù)信息成為企業(yè)制定各項(xiàng)決策和方案的重要依據(jù),為了保證決策和方案的科學(xué)性、合理性,就需要有高質(zhì)量的數(shù)據(jù)信息的支持。大數(shù)據(jù)技術(shù)是對(duì)海量數(shù)據(jù)信息進(jìn)行綜合處理后得到的結(jié)果,可為企業(yè)制定決策和方案提供重要的數(shù)據(jù)支持。大數(shù)據(jù)具有規(guī)模性、高速性和數(shù)據(jù)來(lái)源多樣性的特點(diǎn),所以導(dǎo)致數(shù)據(jù)處理流程中可能產(chǎn)生不一致和沖突,進(jìn)而影響到數(shù)據(jù)質(zhì)量,降低數(shù)據(jù)結(jié)果的應(yīng)用價(jià)值。通過(guò)對(duì)大數(shù)據(jù)處理流程中數(shù)據(jù)的質(zhì)量控制,可切實(shí)提升大數(shù)據(jù)的應(yīng)用價(jià)值。
參考文獻(xiàn):
[1]孫敏,王琳.大數(shù)據(jù)時(shí)代下的數(shù)據(jù)可視化方法分析[J].軟件,2019-09-15.
[2]劉梅招,羅慧,付彬宏,周鈺山,張宸.基于大數(shù)據(jù)分析的動(dòng)態(tài)傳輸數(shù)據(jù)質(zhì)量自適應(yīng)監(jiān)測(cè)[J].自動(dòng)化與儀器儀表,2019-08-25.
[3]裴文華.對(duì)大數(shù)據(jù)審計(jì)中數(shù)據(jù)質(zhì)量控制的幾點(diǎn)探討[J].中國(guó)審計(jì)報(bào),2019-08-21.