亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)處理流程中的數(shù)據(jù)質(zhì)量影響分析

        2017-04-07 22:25:54莫祖英
        現(xiàn)代情報 2017年3期
        關(guān)鍵詞:數(shù)據(jù)質(zhì)量影響因素

        莫祖英

        〔摘要〕大數(shù)據(jù)的規(guī)模性、高速性和數(shù)據(jù)來源的多樣性,使數(shù)據(jù)更可能產(chǎn)生不一致和沖突,這會導(dǎo)致大數(shù)據(jù)質(zhì)量問題。本文在界定大數(shù)據(jù)質(zhì)量內(nèi)涵及其維度的基礎(chǔ)上,分析大數(shù)據(jù)處理流程中數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化及應(yīng)用等環(huán)節(jié)對大數(shù)據(jù)質(zhì)量的影響及關(guān)鍵因素,構(gòu)建大數(shù)據(jù)流程的質(zhì)量影響模型,并提出大數(shù)據(jù)質(zhì)量保障的建議與措施。

        〔關(guān)鍵詞〕數(shù)據(jù)質(zhì)量;大數(shù)據(jù)流程;質(zhì)量影響模型;影響因素

        DOI:10.3969/j.issn.1008-0821.2017.03.013

        〔中圖分類號〕G203〔文獻標(biāo)識碼〕A〔文章編號〕1008-0821(2017)03-0069-04

        〔Abstract〕The large scale,high-speed and diversity of data sources in big data,make it more likely to have inconsistency and conflict,which lead to quality issues of big data.In this article,the paper defined connotation of big data quality and its dimensions,and then analyzed the influence that data collection,data preprocessing,data storage,data processing and analysis,data visualization and its application in the procedure of big data processing exerted on big data quality and key factors;finally,the paper constructed a quality influencing model in big data process,and put forwards suggestions on quality assurance of big data.

        〔Key words〕data quality;big data process;quality influencing model;influence factors

        大數(shù)據(jù)時代,強調(diào)對總體數(shù)據(jù)的處理與分析,關(guān)注事物之間的相關(guān)關(guān)系,以及對發(fā)展趨勢的分析預(yù)測。大數(shù)據(jù)的規(guī)模性、高速性和數(shù)據(jù)來源及形式上的多樣性,使數(shù)據(jù)更可能產(chǎn)生不一致和沖突,這些都會導(dǎo)致大數(shù)據(jù)質(zhì)量問題,因此需要對大數(shù)據(jù)進行質(zhì)量管理。大數(shù)據(jù)主要由社交網(wǎng)絡(luò)、移動計算、監(jiān)控設(shè)備和傳感器等信息源產(chǎn)生,包括用戶多媒體服務(wù)數(shù)據(jù)、服務(wù)系統(tǒng)監(jiān)控與管理數(shù)據(jù)、用戶行為數(shù)據(jù)、服務(wù)市場環(huán)境和客戶關(guān)系數(shù)據(jù)等。大數(shù)據(jù)的來源復(fù)雜性和類型多樣性造成價值密度低、提取難度大等特點,同時也給大數(shù)據(jù)質(zhì)量管理帶來了困擾。

        在大數(shù)據(jù)質(zhì)量的相關(guān)研究中,宗威等[1]在分析大數(shù)據(jù)特點的基礎(chǔ)上,提出了大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的重要性及其挑戰(zhàn),并分別從大數(shù)據(jù)流程、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)管理3個視角提出如何保證大數(shù)據(jù)質(zhì)量,尤其在大數(shù)據(jù)流程方面,主要從數(shù)據(jù)收集、存儲和使用3個階段提出了質(zhì)量保證的建議。胡雄偉等[2]提出大數(shù)據(jù)中的數(shù)據(jù)質(zhì)量問題涉及數(shù)據(jù)收集、使用、發(fā)布的整個過程,貫穿數(shù)據(jù)管理工作的始終,并分析了美國頒布的《數(shù)據(jù)質(zhì)量法》中的3個數(shù)據(jù)質(zhì)量原則——數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)、質(zhì)量管理流程和數(shù)據(jù)質(zhì)量救助機制。Vijay Khatri等[3]設(shè)計了大數(shù)據(jù)治理的5個決策領(lǐng)域,包括數(shù)據(jù)準(zhǔn)則、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)、數(shù)據(jù)訪問和數(shù)據(jù)生命周期。Sharma等[4]提出有效的數(shù)據(jù)資產(chǎn)管理,必須涉及元數(shù)據(jù)管理(Meta Data)、數(shù)據(jù)質(zhì)量(Data Quality)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)架構(gòu)、數(shù)據(jù)權(quán)限(Right)、數(shù)據(jù)安全性(Safety)、數(shù)據(jù)生命周期(Data Lifecycle)、主數(shù)據(jù)管理(Master Data Management)等各個方面。王宇德[5]提出利用信息架構(gòu)原則和實踐,實現(xiàn)大數(shù)據(jù)與企業(yè)數(shù)據(jù)的靈活集成,達到大數(shù)據(jù)治理的目標(biāo)。其中大數(shù)據(jù)信息架構(gòu)的主要原則是通過價值、成本和風(fēng)險透鏡將數(shù)據(jù)視為資產(chǎn),并確保數(shù)據(jù)的時效性、質(zhì)量和準(zhǔn)確性;由于大數(shù)據(jù)的質(zhì)量和準(zhǔn)確性要求存在巨大差異,需要對其進行合適的取舍以滿足實際需求。馬曉亭[6]以圖書館大數(shù)據(jù)為研究對象,提出為保證圖書館大數(shù)據(jù)的價值分析與服務(wù)質(zhì)量,需進行大數(shù)據(jù)質(zhì)量管理,如管理員從全局層面挖掘數(shù)據(jù)間的相關(guān)關(guān)系,加強對讀者閱讀行為、閱讀關(guān)系和閱讀社交輿情等大數(shù)據(jù)資源的質(zhì)量管理,注重大數(shù)據(jù)質(zhì)量管理中的用戶隱私保護等,實現(xiàn)以讀者個性化需求為中心的圖書館大數(shù)據(jù)價值發(fā)現(xiàn)。本文將在界定大數(shù)據(jù)質(zhì)量內(nèi)涵及其維度的基礎(chǔ)上,分析大數(shù)據(jù)處理流程中數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化及應(yīng)用等環(huán)節(jié)對大數(shù)據(jù)質(zhì)量的影響及其因素,構(gòu)建大數(shù)據(jù)流程的質(zhì)量影響模型,并提出大數(shù)據(jù)質(zhì)量保障的建議與措施。

        1大數(shù)據(jù)質(zhì)量的界定

        11大數(shù)據(jù)質(zhì)量

        美國著名咨詢公司麥肯錫給出的大數(shù)據(jù)定義(2011)是“數(shù)據(jù)規(guī)模超出典型數(shù)據(jù)庫軟件工具收集、存儲、管理和分析能力的數(shù)據(jù)集”,維基百科給出的定義是“大數(shù)據(jù)指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理的時間內(nèi)達到截取、管理、處理并整理成為人類所能解讀的信息”。由此可見,大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的本質(zhì)特征在于大數(shù)據(jù)已超出了傳統(tǒng)常規(guī)軟件的數(shù)據(jù)處理能力,只有采用新平臺、新技術(shù)才能有效處理的數(shù)據(jù)集,因而催生了大數(shù)據(jù)技術(shù)、大數(shù)據(jù)平臺和大數(shù)據(jù)應(yīng)用等的發(fā)展。

        業(yè)界普遍認(rèn)可的國際數(shù)據(jù)公司IDC定義的大數(shù)據(jù)具有4V特征,即數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快和價值密度低。其中數(shù)據(jù)量大和數(shù)據(jù)類型繁多是大數(shù)據(jù)的表現(xiàn)形式,而處理速度快和價值密度低是大數(shù)據(jù)處理過程和結(jié)果的體現(xiàn)。大數(shù)據(jù)通常是由網(wǎng)站、傳感器、系統(tǒng)等設(shè)備自動生成,故具有真實性特征。大數(shù)據(jù)類型多樣,既包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),又包括系統(tǒng)生成的數(shù)據(jù)、傳感器產(chǎn)生的數(shù)據(jù)和社交媒體數(shù)據(jù)等;從數(shù)據(jù)格式上看,包括文本數(shù)據(jù)、圖片數(shù)據(jù)、數(shù)值數(shù)據(jù)、音頻視頻數(shù)據(jù)等類型。

        基于以上大數(shù)據(jù)的定義和特征,對大數(shù)據(jù)質(zhì)量進行分析。借鑒Juran提出的質(zhì)量就是“適合于使用”這一定義,那么大數(shù)據(jù)質(zhì)量即是大數(shù)據(jù)中適合于進行數(shù)據(jù)分析、處理、預(yù)測等使用過程并滿足用戶需求的特征。大數(shù)據(jù)處理流程主要包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展示(可視化過程)、大數(shù)據(jù)應(yīng)用等環(huán)節(jié),數(shù)據(jù)質(zhì)量貫穿于整個大數(shù)據(jù)流程,故可將大數(shù)據(jù)質(zhì)量分為原始質(zhì)量、過程質(zhì)量和結(jié)果質(zhì)量。大數(shù)據(jù)原始質(zhì)量是指數(shù)據(jù)采集過程中采集到的原始大數(shù)據(jù)的質(zhì)量,包括數(shù)據(jù)完整性、一致性、準(zhǔn)確性、時效性等方面;大數(shù)據(jù)過程質(zhì)量指經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲等環(huán)節(jié)后的大數(shù)據(jù)質(zhì)量,它為大數(shù)據(jù)分析與挖掘提供準(zhǔn)備,其質(zhì)量高低直接關(guān)系到大數(shù)據(jù)分析結(jié)果的價值;大數(shù)據(jù)結(jié)果質(zhì)量指經(jīng)過數(shù)據(jù)分析與挖掘、數(shù)據(jù)展示后產(chǎn)生的最終結(jié)果的質(zhì)量,包括分析結(jié)果的價值性、直觀性等,與用戶的需求與感知有關(guān)。大數(shù)據(jù)應(yīng)用是直接檢驗大數(shù)據(jù)結(jié)果質(zhì)量的重要環(huán)節(jié)。

        12大數(shù)據(jù)質(zhì)量維度

        根據(jù)大數(shù)據(jù)質(zhì)量的內(nèi)涵及大數(shù)據(jù)特征可知,大數(shù)據(jù)質(zhì)量維度包括以下幾個方面:

        121數(shù)據(jù)真實性

        大數(shù)據(jù)是由系統(tǒng)、傳感器、網(wǎng)站等設(shè)備自動生成的,它真實記錄了數(shù)據(jù)對象的變化狀態(tài)及其運行方式,體現(xiàn)了原始大數(shù)據(jù)的真實性質(zhì)量。根據(jù)Yuri Demchenko等人提出的大數(shù)據(jù)5V特征,真實性特征主要包括數(shù)據(jù)的可信性、真?zhèn)涡?、來源和信譽、有效性和可審計性等特征。值得注意的是,大數(shù)據(jù)主要存在于虛擬網(wǎng)絡(luò)環(huán)境下,一些惡意攻擊性的“數(shù)據(jù)污染”會影響組織決策,需要采取必要的措施保證其真實性和客觀性,它是實現(xiàn)大數(shù)據(jù)價值挖掘與趨勢預(yù)測的前提。

        122數(shù)據(jù)完整性

        主要指大數(shù)據(jù)采集的完整性,包括數(shù)據(jù)采集時間段的完整性、數(shù)據(jù)屬性值的完備性、數(shù)據(jù)值的無缺失等方面。大數(shù)據(jù)的一個主要特征就是通過大量數(shù)據(jù)甚至是海量數(shù)據(jù)來全面、完整地刻畫事物,并通過海量數(shù)據(jù)分析獲取事物的本質(zhì)與規(guī)律,故數(shù)據(jù)完整性也是實現(xiàn)大數(shù)據(jù)價值的重要質(zhì)量屬性。

        123數(shù)據(jù)一致性

        主要包括同構(gòu)/異構(gòu)來源數(shù)據(jù)的一致性、數(shù)據(jù)格式的一致性、數(shù)據(jù)編碼的一致性等方面[7],可在預(yù)處理階段通過數(shù)據(jù)不一致檢測技術(shù)進行過濾,以確保數(shù)據(jù)的一致性。數(shù)據(jù)一致性是實現(xiàn)數(shù)據(jù)準(zhǔn)確性的前提,也是保障大數(shù)據(jù)分析結(jié)果質(zhì)量的重要屬性。

        124數(shù)據(jù)準(zhǔn)確性

        既包括采集到的原始大數(shù)據(jù)的準(zhǔn)確性,也包括經(jīng)過預(yù)處理的過程大數(shù)據(jù)的準(zhǔn)確性,還包括大數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,即在整個大數(shù)據(jù)采集、處理、分析、顯示等過程中均涉及數(shù)據(jù)的準(zhǔn)確性特征。數(shù)據(jù)準(zhǔn)確性是決定大數(shù)據(jù)分析結(jié)果價值大小的關(guān)鍵屬性。不同的大數(shù)據(jù)應(yīng)用對數(shù)據(jù)準(zhǔn)確度的要求也不盡相同,這取決于應(yīng)用目標(biāo)與決策需求。

        125數(shù)據(jù)時效性

        大數(shù)據(jù)是信息的一種,同樣具有生命周期性。時效性指大數(shù)據(jù)在時間方面的質(zhì)量,即數(shù)據(jù)時效性越高,則數(shù)據(jù)分析結(jié)果的準(zhǔn)確性越高。大數(shù)據(jù)的時效性主要體現(xiàn)在原始大數(shù)據(jù)和結(jié)果大數(shù)據(jù)兩個方面。原始大數(shù)據(jù)的時效性,指超出一定時間范圍的原始大數(shù)據(jù)在分析與預(yù)測結(jié)果上會出現(xiàn)數(shù)據(jù)“過期”問題,即預(yù)測結(jié)果與事實不符。而且,由于大數(shù)據(jù)多是由機器、系統(tǒng)、網(wǎng)站等自動采集或存儲的,其產(chǎn)生速度快、流通快,時間上呈現(xiàn)連續(xù)性特征,使原始大數(shù)據(jù)具有更強的時效性。因此時間越近的原始大數(shù)據(jù),其分析與預(yù)測的結(jié)果越接近事實。結(jié)果大數(shù)據(jù)的時效性指大數(shù)據(jù)的分析預(yù)測結(jié)果只在一定時間范圍內(nèi)有效,故需要持續(xù)地數(shù)據(jù)更新與預(yù)測,以保證預(yù)測結(jié)果數(shù)據(jù)的價值性。

        126數(shù)據(jù)安全性

        包括數(shù)據(jù)來源的安全性、數(shù)據(jù)存取的安全性、權(quán)限管理、訪問控制等方面,數(shù)據(jù)安全性是實現(xiàn)大數(shù)據(jù)分析處理與預(yù)測的基本要求,對大數(shù)據(jù)的可用性、真實性和機密性具有保障作用。

        127數(shù)據(jù)可用性

        包括兩個方面:一是經(jīng)過采集、預(yù)處理并進行存儲的過程數(shù)據(jù)可用于大數(shù)據(jù)分析、預(yù)測而獲取有價值信息的屬性;二是經(jīng)過一系列大數(shù)據(jù)處理而得到的結(jié)果數(shù)據(jù)可實現(xiàn)大數(shù)據(jù)應(yīng)用的屬性。即過程數(shù)據(jù)和結(jié)果數(shù)據(jù)的可用性。過程數(shù)據(jù)的可用性指可用于進一步的數(shù)據(jù)分析與處理,實現(xiàn)大數(shù)據(jù)價值;結(jié)果數(shù)據(jù)的可用性是可將分析結(jié)果用于管理決策、趨勢預(yù)測等,是大數(shù)據(jù)分析結(jié)果的價值轉(zhuǎn)化過程。

        128數(shù)據(jù)價值性

        即經(jīng)過大數(shù)據(jù)分析處理后的最終結(jié)果數(shù)據(jù)的價值性,這一價值性主要體現(xiàn)在大數(shù)據(jù)應(yīng)用上,接受應(yīng)用實踐的檢驗。通過對海量數(shù)據(jù)的分析處理,大數(shù)據(jù)預(yù)測結(jié)果相比于傳統(tǒng)的抽樣調(diào)查結(jié)果,其準(zhǔn)確性和可信性要高,同樣其數(shù)據(jù)價值也更高。大數(shù)據(jù)分析與預(yù)測結(jié)果的價值由企業(yè)應(yīng)用實踐和用戶感知來衡量。

        129易于理解性

        指大數(shù)據(jù)處理結(jié)果的展現(xiàn)是否便于用戶理解與使用,主要體現(xiàn)在大數(shù)據(jù)的結(jié)果質(zhì)量方面,與用戶感知相關(guān)。

        2基于處理流程的大數(shù)據(jù)質(zhì)量影響分析

        大數(shù)據(jù)處理流程主要包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析、數(shù)據(jù)展示/數(shù)據(jù)可視化、數(shù)據(jù)應(yīng)用等環(huán)節(jié),其中數(shù)據(jù)質(zhì)量貫穿于整個大數(shù)據(jù)流程,每一個數(shù)據(jù)處理環(huán)節(jié)都會對大數(shù)據(jù)質(zhì)量產(chǎn)生影響作用。通常,一個好的大數(shù)據(jù)產(chǎn)品要有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)處理、精確的數(shù)據(jù)分析與預(yù)測、優(yōu)秀的可視化圖表以及簡練易懂的結(jié)果解釋,本節(jié)將基于以上環(huán)節(jié)分別分析不同階段對大數(shù)據(jù)質(zhì)量的影響及其關(guān)鍵影響因素。

        21數(shù)據(jù)收集環(huán)節(jié)

        數(shù)據(jù)收集是獲取原始大數(shù)據(jù)集合的過程。大數(shù)據(jù)通常由不同數(shù)據(jù)源產(chǎn)生,且由機器自動生成,然后通過網(wǎng)絡(luò)傳輸?shù)街付ǖ奈恢?,這是一種大數(shù)據(jù)生成即收集的方式;或者由企業(yè)或組織根據(jù)自身需求,有針對性地從各種來源收集所需數(shù)據(jù),如用戶的各種數(shù)據(jù)等。總之,數(shù)據(jù)收集需從不同數(shù)據(jù)源實時地或及時地收集各種類型數(shù)據(jù),并發(fā)送給存儲系統(tǒng)或數(shù)據(jù)中間件系統(tǒng)進行后續(xù)處理。數(shù)據(jù)收集可分為設(shè)備數(shù)據(jù)收集和Web數(shù)據(jù)爬取兩種,由各種數(shù)據(jù)收集軟件和網(wǎng)絡(luò)爬蟲完成。數(shù)據(jù)收集環(huán)節(jié)對大數(shù)據(jù)質(zhì)量的真實性、完整性、一致性、準(zhǔn)確性、時效性、安全性等維度均產(chǎn)生影響作用。

        211數(shù)據(jù)源

        在數(shù)據(jù)收集過程中,數(shù)據(jù)源會影響大數(shù)據(jù)質(zhì)量的真實性、完整性、一致性、準(zhǔn)確性和安全性。大數(shù)據(jù)的數(shù)據(jù)源主要指各種網(wǎng)站、系統(tǒng)、傳感器設(shè)備等,這些數(shù)據(jù)源的安全運行、防止惡意攻擊與篡改是保障大數(shù)據(jù)真實性、準(zhǔn)確性和安全性質(zhì)量的重要條件。同時,數(shù)據(jù)源運行的穩(wěn)定性、無間斷性是保障大數(shù)據(jù)完整性的重要條件。不同數(shù)據(jù)源之間的統(tǒng)一編碼、相互協(xié)調(diào)是保障同構(gòu)或異構(gòu)大數(shù)據(jù)的一致性質(zhì)量的重要前提,它要求數(shù)據(jù)源之間的同步與協(xié)作。故在數(shù)據(jù)收集環(huán)節(jié),數(shù)據(jù)源是影響大數(shù)據(jù)真實性、完整性、一致性、準(zhǔn)確性和安全性質(zhì)量的重要因素之一。

        212數(shù)據(jù)收集方式

        數(shù)據(jù)的實時收集方式可有效保障大數(shù)據(jù)的時效性質(zhì)量,確保大數(shù)據(jù)分析與預(yù)測結(jié)果的時效性和價值性。設(shè)備收集多為實時的數(shù)據(jù)收集,且以流式數(shù)據(jù)進行采集、處理與分析,從而確保大數(shù)據(jù)的時效性質(zhì)量。對于Web數(shù)據(jù),多采用網(wǎng)絡(luò)爬蟲方式進行收集,這需要對爬蟲軟件進行時間設(shè)置以保障收集到的數(shù)據(jù)時效性質(zhì)量。故數(shù)據(jù)收集方式是影響大數(shù)據(jù)時效性質(zhì)量的重要因素之一。

        213數(shù)據(jù)收集技術(shù)

        數(shù)據(jù)收集技術(shù)在這一階段是非常重要的技術(shù)因素,收集技術(shù)的好壞直接決定了數(shù)據(jù)收集的速度和質(zhì)量。通常數(shù)據(jù)收集分為兩種——設(shè)備數(shù)據(jù)收集和互聯(lián)網(wǎng)數(shù)據(jù)爬取,常用的收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網(wǎng)絡(luò)爬蟲,如Heritrix、Nutch等[8],這些軟件是大數(shù)據(jù)發(fā)展與應(yīng)用的重要一環(huán),也是英特爾、Facebook、谷歌等公司可以獲取大量數(shù)據(jù)的直接原因。故數(shù)據(jù)收集技術(shù)是影響大數(shù)據(jù)原始質(zhì)量的重要因素之一。

        22數(shù)據(jù)預(yù)處理與存儲環(huán)節(jié)

        221數(shù)據(jù)預(yù)處理

        大數(shù)據(jù)采集過程中通常有一個或多個數(shù)據(jù)源,這些數(shù)據(jù)源包括同構(gòu)或異構(gòu)的數(shù)據(jù)庫、文件系統(tǒng)、服務(wù)接口等,易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失、數(shù)據(jù)沖突等影響,因此需首先對收集到的大數(shù)據(jù)集合進行預(yù)處理,以保證大數(shù)據(jù)分析與預(yù)測結(jié)果的準(zhǔn)確性與價值性。大數(shù)據(jù)的預(yù)處理環(huán)節(jié)主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等內(nèi)容,可以大大提高大數(shù)據(jù)的總體質(zhì)量,是大數(shù)據(jù)過程質(zhì)量的體現(xiàn)。

        數(shù)據(jù)清理技術(shù)包括對數(shù)據(jù)的不一致檢測、噪聲數(shù)據(jù)的識別、數(shù)據(jù)過濾與修正等方面,有利于提高大數(shù)據(jù)的一致性、準(zhǔn)確性、真實性和可用性等方面的質(zhì)量;數(shù)據(jù)集成則是將多個數(shù)據(jù)源的數(shù)據(jù)進行集成,從而形成集中、統(tǒng)一的數(shù)據(jù)庫、數(shù)據(jù)立方體等,這一過程有利于提高大數(shù)據(jù)的完整性、一致性、安全性和可用性等方面質(zhì)量;數(shù)據(jù)歸約是在不損害分析結(jié)果準(zhǔn)確性的前提下降低數(shù)據(jù)集規(guī)模,使之簡化,包括維歸約、數(shù)據(jù)歸約、數(shù)據(jù)抽樣等技術(shù),這一過程有利于提高大數(shù)據(jù)的價值密度,即提高大數(shù)據(jù)存儲的價值性。數(shù)據(jù)轉(zhuǎn)換處理包括基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換、基于模型與學(xué)習(xí)的轉(zhuǎn)換等技術(shù),可通過轉(zhuǎn)換實現(xiàn)數(shù)據(jù)統(tǒng)一,這一過程有利于提高大數(shù)據(jù)的一致性和可用性??傊?,數(shù)據(jù)預(yù)處理環(huán)節(jié)有利于提高大數(shù)據(jù)的一致性、準(zhǔn)確性、真實性、可用性、完整性、安全性和價值性等方面質(zhì)量,而大數(shù)據(jù)預(yù)處理中的相關(guān)技術(shù)是影響大數(shù)據(jù)過程質(zhì)量的關(guān)鍵因素。

        222數(shù)據(jù)存儲

        在大數(shù)據(jù)存儲中,分布式存儲與訪問是其關(guān)鍵技術(shù),它具有高效、經(jīng)濟、容錯性好等特點。分布式存儲技術(shù)與數(shù)據(jù)存儲介質(zhì)的類型和數(shù)據(jù)的組織管理形式直接相關(guān)。數(shù)據(jù)存儲介質(zhì)的類型主要有內(nèi)存、磁盤、磁帶等,數(shù)據(jù)組織管理形式主要包括以行、列、鍵值、關(guān)系等進行組織,不同的存儲介質(zhì)和組織管理形式對應(yīng)于不同的大數(shù)據(jù)特征和應(yīng)用。

        分布式文件系統(tǒng),它是大數(shù)據(jù)領(lǐng)域最基礎(chǔ)、最核心的功能組件之一,其關(guān)鍵在于實現(xiàn)分布式存儲的高性能、高擴展和高可用性。文檔存儲,支持對結(jié)構(gòu)化數(shù)據(jù)的訪問,支持嵌套結(jié)構(gòu)、二級索引,以實現(xiàn)數(shù)據(jù)的高效查詢。列式存儲可減少數(shù)據(jù)存取量、提高數(shù)據(jù)處理效率。鍵值存儲可有效減少讀寫磁盤的次數(shù),但不提供事務(wù)處理機制。圖形數(shù)據(jù)庫可實現(xiàn)事物之間相關(guān)關(guān)系的存儲,并使用圖模型來映射這些網(wǎng)絡(luò)關(guān)系,實現(xiàn)對真實世界中各種對象的建模存儲。內(nèi)存存儲是將數(shù)據(jù)庫的工作版本放在內(nèi)存中,其設(shè)計目標(biāo)是提高數(shù)據(jù)庫的效率和存儲空間的利用率。總之,不同的數(shù)據(jù)存儲技術(shù)具有不同的特征與優(yōu)勢,它們對于提高大數(shù)據(jù)的時效性、安全性、可用性和準(zhǔn)確性等質(zhì)量維度具有重要影響。

        23數(shù)據(jù)處理與分析環(huán)節(jié)

        231數(shù)據(jù)處理

        大數(shù)據(jù)的分布式處理技術(shù)與存儲形式、業(yè)務(wù)數(shù)據(jù)類型等相關(guān),針對大數(shù)據(jù)處理的主要計算模型有MapReduce分布式計算框架、分布式內(nèi)存計算系統(tǒng)、分布式流計算系統(tǒng)等。MapReduce是一個批處理的分布式計算框架,可對海量數(shù)據(jù)進行并行分析與處理,它適合對各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理。分布式內(nèi)存計算系統(tǒng)可有效減少數(shù)據(jù)讀寫和移動的開銷,提高大數(shù)據(jù)處理性能。分布式流計算系統(tǒng)則是對數(shù)據(jù)流進行實時處理,以保障大數(shù)據(jù)的時效性和價值性。總之,無論哪種大數(shù)據(jù)分布式處理與計算系統(tǒng),都有利于提高大數(shù)據(jù)的價值性、可用性、時效性和準(zhǔn)確性。大數(shù)據(jù)的類型和存儲形式?jīng)Q定了其所采用的數(shù)據(jù)處理系統(tǒng),而數(shù)據(jù)處理系統(tǒng)的性能與優(yōu)劣直接影響大數(shù)據(jù)質(zhì)量的價值性、可用性、時效性和準(zhǔn)確性。因此在進行大數(shù)據(jù)處理時,要根據(jù)大數(shù)據(jù)類型選擇合適的存儲形式和數(shù)據(jù)處理系統(tǒng),以實現(xiàn)大數(shù)據(jù)質(zhì)量的最優(yōu)化。

        232數(shù)據(jù)分析

        大數(shù)據(jù)分析技術(shù)主要包括已有數(shù)據(jù)的分布式統(tǒng)計分析技術(shù)和未知數(shù)據(jù)的分布式挖掘、深度學(xué)習(xí)技術(shù)。分布式統(tǒng)計分析可由數(shù)據(jù)處理技術(shù)完成,分布式挖掘和深度學(xué)習(xí)技術(shù)則在大數(shù)據(jù)分析階段完成,包括聚類與分類、關(guān)聯(lián)分析、深度學(xué)習(xí)等,可挖掘大數(shù)據(jù)集合中的數(shù)據(jù)關(guān)聯(lián)性,形成對事物的描述模式或?qū)傩砸?guī)則,可通過構(gòu)建機器學(xué)習(xí)模型和海量訓(xùn)練數(shù)據(jù)提升數(shù)據(jù)分析與預(yù)測的準(zhǔn)確性。數(shù)據(jù)分析是大數(shù)據(jù)處理與應(yīng)用的關(guān)鍵環(huán)節(jié),它決定了大數(shù)據(jù)集合的價值性和可用性,以及分析預(yù)測結(jié)果的準(zhǔn)確性。在數(shù)據(jù)分析環(huán)節(jié),應(yīng)根據(jù)大數(shù)據(jù)應(yīng)用情境與決策需求,選擇合適的數(shù)據(jù)分析技術(shù),提高大數(shù)據(jù)分析結(jié)果的可用性、價值性和準(zhǔn)確性質(zhì)量。

        24數(shù)據(jù)可視化與應(yīng)用環(huán)節(jié)

        數(shù)據(jù)可視化是指將大數(shù)據(jù)分析與預(yù)測結(jié)果以計算機圖形或圖像的直觀方式顯示給用戶的過程,并可與用戶進行交互式處理。數(shù)據(jù)可視化技術(shù)有利于發(fā)現(xiàn)大量金融、通信、商業(yè)等業(yè)務(wù)數(shù)據(jù)中隱含的規(guī)律性信息,以支持管理決策。數(shù)據(jù)可視化環(huán)節(jié)可大大提高大數(shù)據(jù)分析結(jié)果的直觀性,便于用戶理解與使用,故數(shù)據(jù)可視化是影響大數(shù)據(jù)可用性和易于理解性質(zhì)量的關(guān)鍵因素。

        大數(shù)據(jù)應(yīng)用是指將經(jīng)過分析處理后挖掘得到的大數(shù)據(jù)結(jié)果應(yīng)用于管理決策、戰(zhàn)略規(guī)劃、市場營銷等的過程,它是對大數(shù)據(jù)分析結(jié)果的檢驗與驗證,大數(shù)據(jù)應(yīng)用過程直接體現(xiàn)了大數(shù)據(jù)分析處理結(jié)果的價值性和可用性。大數(shù)據(jù)應(yīng)用對大數(shù)據(jù)的分析處理具有引導(dǎo)作用。在大數(shù)據(jù)收集、處理等一系列操作之前,通過對應(yīng)用情境的充分調(diào)研、對管理決策需求信息的深入分析,可明確大數(shù)據(jù)處理與分析的目標(biāo),從而為大數(shù)據(jù)收集、存儲、處理、分析等過程提供明確的方向,并保障大數(shù)據(jù)分析結(jié)果的可用性、價值性和用戶需求的滿足。

        3大數(shù)據(jù)流程的質(zhì)量影響模型

        由以上分析可知,大數(shù)據(jù)質(zhì)量與其整個數(shù)據(jù)流程有關(guān),影響大數(shù)據(jù)質(zhì)量的重要因素包括數(shù)據(jù)源、數(shù)據(jù)收集方式與技術(shù)、預(yù)處理技術(shù)、存儲系統(tǒng)與技術(shù)、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)分析技術(shù)、數(shù)據(jù)可視化技術(shù)等,技術(shù)性是大數(shù)據(jù)質(zhì)量影響因素的主要特征。它們的影響關(guān)系如圖1所示。

        由圖1可知,大數(shù)據(jù)流程中的前期處理環(huán)節(jié)對大數(shù)據(jù)質(zhì)量的影響較大,尤其是大數(shù)據(jù)收集和預(yù)處理階段,影響最大。而在大數(shù)據(jù)質(zhì)量的各維度中,數(shù)據(jù)可用性、數(shù)據(jù)準(zhǔn)確性和數(shù)據(jù)價值性受大數(shù)據(jù)處理流程的影響較大,這說明通過對大數(shù)據(jù)流程的管理與控制,可有效保障大數(shù)據(jù)的可用性、準(zhǔn)確性和價值性。

        最后,根據(jù)以上分析,提出保障大數(shù)據(jù)質(zhì)量的建議與措施,主要包括:

        1)大數(shù)據(jù)采集中的數(shù)據(jù)保護和數(shù)據(jù)源甄別。在數(shù)據(jù)采集過程中,尤其是對他人數(shù)據(jù)的采集中,企業(yè)應(yīng)注意不收集、統(tǒng)計敏感信息以保護用戶隱私;同時,需注意對數(shù)據(jù)來源進行甄別和驗證,保證數(shù)據(jù)的真實性和有效性。

        2)大數(shù)據(jù)存儲中的技術(shù)保障手段。可參考傳統(tǒng)的信息技術(shù)手段,以保證數(shù)據(jù)的可用性、完整性和私密性。如通過冗余設(shè)置以保障數(shù)據(jù)的可用性,采用校驗技術(shù)保障數(shù)據(jù)的完整性,使用訪問控制技術(shù)、安全審計功能保障數(shù)據(jù)安全性等。

        3)大數(shù)據(jù)處理分析中的質(zhì)量保障措施??赏ㄟ^對大數(shù)據(jù)讀寫操作的權(quán)限設(shè)置實現(xiàn)安全性管理,通過對不同分析策略產(chǎn)生的結(jié)果進行相互驗證來保障分析結(jié)果的準(zhǔn)確性和可用性,通過不斷優(yōu)化分析策略以提高大數(shù)據(jù)處理的性能和效率。

        4)大數(shù)據(jù)可視化中的結(jié)果安全性保護??赏ㄟ^設(shè)置訪問控制、認(rèn)證授權(quán)等策略對分析結(jié)果進行保護。

        5)大數(shù)據(jù)處理流程的全局管理。大數(shù)據(jù)處理流程經(jīng)過了數(shù)據(jù)采集、預(yù)處理、存儲、處理與分析、可視化等一系列環(huán)節(jié),在這些環(huán)節(jié)中要注重全局管理和不同環(huán)節(jié)之間的協(xié)調(diào)與連貫。如數(shù)據(jù)存儲形式的選擇要考慮采集到的大數(shù)據(jù)類型、后期分析處理可用的數(shù)據(jù)處理系統(tǒng),以及分析結(jié)果的準(zhǔn)確性和可用性,以實現(xiàn)大數(shù)據(jù)質(zhì)量的最優(yōu)化。

        總之,在大數(shù)據(jù)浪潮下企業(yè)是否能把握機遇,數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理正成為重要的工具和手段。大數(shù)據(jù)商業(yè)價值在于不斷開發(fā)與分析,這一過程中離不開數(shù)據(jù)質(zhì)量管理與治理的持續(xù)與循環(huán),以保障大數(shù)據(jù)價值的挖掘。

        參考文獻

        [1]宗威,吳鋒.大數(shù)據(jù)時代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報:社會科學(xué)版,2013,(5):38-43.

        [2]胡雄偉,張寶林,李抵飛,等.大數(shù)據(jù)研究與應(yīng)用綜述(上)[J].標(biāo)準(zhǔn)科學(xué),2013,(9):29-34.

        [3]Vijay Khatri,Carol V.Brown communications of the ACM[J].January,2010,53(1):148-153.

        [4]Sharma S,Tim U S,Wong J,et al.A brief review on leading big data models[J].Data Science Journal,2014,13(0):138-157.

        [5]王宇德.企業(yè)大數(shù)據(jù)治理研究[J].互聯(lián)網(wǎng)天地,2014,(1):20-24.

        [6]馬曉亭.基于用戶服務(wù)價值的圖書館大數(shù)據(jù)價值分析與服務(wù)質(zhì)量保證研究[J].圖書館,2014,(5):95-98.

        [7]桑尼爾·索雷斯.大數(shù)據(jù)治理[M].北京:清華大學(xué)出版社,2014.

        [8]中國電子技術(shù)標(biāo)準(zhǔn)化研究院.大數(shù)據(jù)標(biāo)準(zhǔn)化白皮書V20[EB/OL].http:∥www.cesi.ac.cn/cesi/guanwanglanmu/biaozhunhuayanjiu/2015/1224/12264.html,2015-12-29.

        (本文責(zé)任編輯:郭沫含)

        猜你喜歡
        數(shù)據(jù)質(zhì)量影響因素
        電子商務(wù)平臺數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
        強化統(tǒng)計執(zhí)法提高數(shù)據(jù)質(zhì)量
        淺析統(tǒng)計數(shù)據(jù)質(zhì)量
        中國市場(2016年40期)2016-11-28 04:58:19
        金融統(tǒng)計數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實踐
        時代金融(2016年27期)2016-11-25 19:02:25
        淺談統(tǒng)計數(shù)據(jù)質(zhì)量控制
        提高政府統(tǒng)計數(shù)據(jù)質(zhì)量,增強政府公信力
        水驅(qū)油效率影響因素研究進展
        突發(fā)事件下應(yīng)急物資保障能力影響因素研究
        中國市場(2016年36期)2016-10-19 03:54:01
        環(huán)衛(wèi)工人生存狀況的調(diào)查分析
        中國市場(2016年35期)2016-10-19 02:30:10
        農(nóng)業(yè)生產(chǎn)性服務(wù)業(yè)需求影響因素分析
        商(2016年27期)2016-10-17 07:09:07
        亚洲乱码av中文一区二区 | 妺妺窝人体色www聚色窝韩国| 国产精品三级自产拍av| 亚洲国产av一区二区三区| 国内熟女啪啪自拍| 国产人澡人澡澡澡人碰视频| 欧洲国产精品无码专区影院| 日本精品人妻一区二区| 极品粉嫩嫩模大尺度无码视频| 久久久噜噜噜www成人网| 香蕉国产人午夜视频在线观看| 国产av精品一区二区三区不卡| 韩国av一区二区三区不卡| 亚洲日韩精品无码专区网站| 国产最新AV在线播放不卡| 亚洲一区二区三区资源| 国产成人精品无码片区在线观看| 精品亚洲成a人7777在线观看| 日韩av一区二区三区四区av| 亚洲av综合av国一区二区三区 | 精品乱码久久久久久中文字幕| 日韩不卡无码三区| 亚洲乱码中文字幕综合久久| gv天堂gv无码男同在线观看| 久久狠狠第一麻豆婷婷天天| 色av色婷婷18人妻久久久| 免费a级毛片高清在钱| 中文字幕日韩精品无码内射| 国产av一区二区三区丝袜| 熟女一区二区国产精品| 日本肥老妇色xxxxx日本老妇| 亚洲最新偷拍网站| 久久国产亚洲av高清色| 国产内射爽爽大片| 日本高清www无色夜在线视频| 无码AV午夜福利一区| 精品人妻一区二区三区视频| 国产精品午夜爆乳美女视频| 国产在线视欧美亚综合| 亚洲精品国产综合久久| 熟妇人妻久久中文字幕|