亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云計(jì)算的海量大數(shù)據(jù)智能清洗系統(tǒng)設(shè)計(jì)

        2020-08-04 12:27:53黃正鵬王力張明富
        現(xiàn)代電子技術(shù) 2020年3期
        關(guān)鍵詞:查準(zhǔn)率云計(jì)算

        黃正鵬 王力 張明富

        摘? 要: 大數(shù)據(jù)資源是企業(yè)擁有的最重要的戰(zhàn)略資源之一,也是管理層制定遠(yuǎn)景規(guī)劃,提高市場(chǎng)競(jìng)爭(zhēng)力的主要方式和途徑,但大數(shù)據(jù)中會(huì)存在錯(cuò)誤、冗余和不完整的數(shù)據(jù),降低了大數(shù)據(jù)的總體質(zhì)量。為此設(shè)計(jì)一種基于云計(jì)算的海量大數(shù)據(jù)智能清洗系統(tǒng),改善現(xiàn)有大數(shù)據(jù)清洗系統(tǒng)在臟數(shù)據(jù)處理性能上的不足。分析了基于云計(jì)算的大數(shù)據(jù)智能清洗系統(tǒng)的總體框架和硬件構(gòu)成,數(shù)據(jù)清洗系統(tǒng)的硬件部分由數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)云聚類模塊、數(shù)據(jù)識(shí)別模塊和實(shí)體劃分模塊等部分組成;給出了智能大數(shù)據(jù)清洗系統(tǒng)的總體軟件工作流程,并重點(diǎn)分析大數(shù)據(jù)空間聚類、相似度計(jì)算等關(guān)鍵的數(shù)據(jù)處理技術(shù)。驗(yàn)證結(jié)果表明,提出的基于云計(jì)算的海量大數(shù)據(jù)智能清洗系統(tǒng)設(shè)計(jì)的總體功能性較為完善,在系統(tǒng)性能測(cè)試方面也能夠保持95%以上的數(shù)據(jù)查準(zhǔn)率和召回率。

        關(guān)鍵詞: 云計(jì)算; 海量大數(shù)據(jù); 智能清洗系統(tǒng); 云聚類; 查準(zhǔn)率; 召回率

        中圖分類號(hào): TN02?34? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)03?0116?05

        Design of intelligent cleaning system for massive data based on cloud computing

        HUANG Zhengpeng, WANG Li, ZHANG Mingfu

        (School of Information Engineering, Guizhou University of Engineering Science, Bijie 551700, China)

        Abstract: Big data resource is one of the most important strategic resources owned by the enterprise. It is also the main way and approach for the management to make long?term plans and improve market competitiveness of the enterprise. However, there are errors, redundancies and incomplete data in big data, which reduces the overall quality of big data. For this reason, an intelligent cleaning system for massive data based on cloud computing is designed to improve the shortcomings of the dirty data processing performance in the existing big data cleaning system. The overall framework and hardware structure of the intelligent cleaning system for big data based on cloud computing are analyzed. The hardware of the system consists of data preprocessing module, data cloud clustering module, data identification module and entity partition module. The overall software workflow of the intelligent cleaning system for big data is provided, and the key data processing technologies like big data clustering and similarity calculation are emphatically analyzed. The verification results show that the proposed intelligent cleaning system for massive data based on cloud computing has perfect overall functions and the precision and recall rate of data can be kept above 95% in the system performance testing.

        Keywords: cloud computing; massive data; intelligent cleaning system; cloud clustering; precision; recall rate

        0? 引? 言

        當(dāng)前大數(shù)據(jù)已經(jīng)成為企業(yè)重要的戰(zhàn)略資源和決勝未來的關(guān)鍵因素,大數(shù)據(jù)具有海量性的特征,但只有真實(shí)、完整的大數(shù)據(jù)才有價(jià)值[1?2]。大數(shù)據(jù)體系內(nèi)包含大量冗余、錯(cuò)誤的干擾性臟數(shù)據(jù),降低了數(shù)據(jù)整體質(zhì)量的同時(shí)還會(huì)干擾管理者的決策。由此可見,數(shù)據(jù)質(zhì)量將會(huì)對(duì)企業(yè)現(xiàn)有數(shù)據(jù)的分析、整合及應(yīng)用產(chǎn)生十分重要的影響,在大數(shù)據(jù)的使用之前必須對(duì)全部數(shù)據(jù)進(jìn)行系統(tǒng)清洗和處理,以提高大數(shù)據(jù)的總體質(zhì)量。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展[3?5],人們對(duì)于大數(shù)據(jù)的質(zhì)量要求越來越高,但數(shù)據(jù)庫中不完整的數(shù)據(jù)和臟數(shù)據(jù)會(huì)誤導(dǎo)決策,從使用成本和效率的角度來考慮,如果系統(tǒng)數(shù)據(jù)庫中存在大量的臟數(shù)據(jù),會(huì)拖慢系統(tǒng)的響應(yīng)時(shí)間,增加數(shù)據(jù)處理的成本費(fèi)用[6?7]。影響數(shù)據(jù)質(zhì)量的原因主要包括兩點(diǎn):在數(shù)據(jù)錄入系統(tǒng)時(shí)即存在缺陷或完整程度不高;隨著數(shù)據(jù)庫系統(tǒng)軟硬件的升級(jí),原有的過期數(shù)據(jù)也會(huì)轉(zhuǎn)變成為干擾數(shù)據(jù),需要及時(shí)地清除掉釋放系統(tǒng)的內(nèi)存空間,以保證系統(tǒng)的整體功能性不被破壞。目前主要的臟數(shù)據(jù)清洗系統(tǒng)設(shè)計(jì)包括單機(jī)式清洗方案[8?9]和集中式處理方案[10?11]兩種。其中,單機(jī)式大數(shù)據(jù)清洗系統(tǒng)是一種孤立式的數(shù)據(jù)清理方案,即直接在單機(jī)上運(yùn)行相關(guān)的大數(shù)據(jù)清理程序,對(duì)現(xiàn)有的數(shù)據(jù)庫的冗余、錯(cuò)誤進(jìn)行處理,清理完成后形成數(shù)據(jù)庫的狀態(tài)報(bào)告。這種數(shù)據(jù)清理系統(tǒng)運(yùn)行較為靈活,但數(shù)據(jù)處理能力有限。集中式大數(shù)據(jù)清理方案是以局域網(wǎng)為單位,整合局域網(wǎng)范圍內(nèi)的數(shù)據(jù)處理資源,與單機(jī)式系統(tǒng)相比,集中數(shù)據(jù)清洗方案的數(shù)據(jù)處理能力能夠得到本質(zhì)上的提升,但面對(duì)海量大數(shù)據(jù)處理任務(wù)時(shí)仍舊無能為力。針對(duì)現(xiàn)有數(shù)據(jù)清洗系統(tǒng)存在的數(shù)據(jù)處理能力弱,清洗效率低下的不足,本文設(shè)計(jì)一種基于云計(jì)算的海量數(shù)據(jù)清洗系統(tǒng),利用云計(jì)算強(qiáng)大的云端空間并行計(jì)算能力[12?13],提高大數(shù)據(jù)清洗系統(tǒng)的數(shù)據(jù)處理能力、效率和準(zhǔn)確性,同時(shí)也能夠避免在大數(shù)據(jù)清洗過程中過濾掉部分關(guān)鍵有用數(shù)據(jù)。

        1? 大數(shù)據(jù)智能清洗系統(tǒng)總體框架設(shè)計(jì)

        隨著信息產(chǎn)業(yè)和網(wǎng)絡(luò)技術(shù)的發(fā)展,企業(yè)的經(jīng)營決策越來越依賴于大數(shù)據(jù),規(guī)模較大的企業(yè)擁有企業(yè)級(jí)數(shù)據(jù)庫,并有專業(yè)人員進(jìn)行數(shù)據(jù)管理,而規(guī)模較小的企業(yè)可以將本企業(yè)的數(shù)據(jù)存儲(chǔ)于云端,由云端專業(yè)的數(shù)據(jù)存儲(chǔ)企業(yè)或部門進(jìn)行數(shù)據(jù)維護(hù)和綜合管理。目前,對(duì)企業(yè)運(yùn)營大數(shù)據(jù)的分析,已經(jīng)成為企業(yè)經(jīng)營決策的主要依據(jù),大數(shù)據(jù)的質(zhì)量從某種程度上說將決定企業(yè)的經(jīng)營業(yè)績。在數(shù)據(jù)庫的建立和維護(hù)中,各種異構(gòu)的數(shù)據(jù)源將被不斷地加載到本地?cái)?shù)據(jù)庫中,因此數(shù)據(jù)庫的規(guī)模將會(huì)不斷增大。在數(shù)據(jù)的存儲(chǔ)和維護(hù)中,數(shù)據(jù)的錯(cuò)誤錄入、關(guān)鍵數(shù)據(jù)遺失、個(gè)別數(shù)據(jù)過期及惡意數(shù)據(jù)攻擊等問題都會(huì)頻繁發(fā)生。因此,在數(shù)據(jù)導(dǎo)入和使用前必須對(duì)全部數(shù)據(jù)進(jìn)行清洗和維護(hù),去除干擾的冗余錯(cuò)誤數(shù)據(jù),提高海量大數(shù)據(jù)的價(jià)值。

        大數(shù)據(jù)的清洗過程具體包括海量冗余數(shù)據(jù)的識(shí)別與剔除、錯(cuò)誤數(shù)據(jù)的糾正、不完整數(shù)據(jù)的補(bǔ)充、不規(guī)范數(shù)據(jù)的格式轉(zhuǎn)換等。處理海量大數(shù)據(jù)最有效的方式是云計(jì)算,因?yàn)樵剖且环N多配置、擴(kuò)展性極強(qiáng)的虛擬化資源處理系統(tǒng),能夠提供硬件構(gòu)建、軟件開發(fā)等云端服務(wù),并且具有強(qiáng)大的并行數(shù)據(jù)計(jì)算和處理能力。云計(jì)算以互聯(lián)網(wǎng)為中心,將虛擬資源進(jìn)行了深度整合,并按照用戶的需求提供多樣化的服務(wù)。云計(jì)算的大數(shù)據(jù)處理方式是一種廣義上的并行計(jì)算方式,能夠同時(shí)處理多用戶的海量數(shù)據(jù)資源。云計(jì)算平臺(tái)基于云資源而建立,云平臺(tái)的網(wǎng)絡(luò)兼容性十分強(qiáng)大,針對(duì)用戶的不同需求提供多樣化的定制服務(wù)。鑒于海量大數(shù)據(jù)智能化清洗處理的需要,本文設(shè)計(jì)一種基于云計(jì)算平臺(tái)的數(shù)據(jù)清洗系統(tǒng),用戶通過云端向云平臺(tái)的開發(fā)者提出大數(shù)據(jù)處理要求,云端針對(duì)用戶的數(shù)據(jù)清洗要求整合虛擬的硬件、軟件資源,為用戶提供個(gè)性化的服務(wù),基于云計(jì)算平臺(tái)的海量大數(shù)據(jù)清理系統(tǒng)總體框架設(shè)計(jì)如圖1所示。

        云平臺(tái)的基礎(chǔ)服務(wù)層是總體框架的核心部分,能夠?qū)⒃贫颂摂M化的硬件和軟件資源整合,為用戶提供全方位、便捷的數(shù)據(jù)清洗服務(wù)。本文分別從硬件結(jié)構(gòu)設(shè)計(jì)和軟件流程設(shè)計(jì)兩個(gè)方面,系統(tǒng)闡述了基于云計(jì)算的海量大數(shù)據(jù)智能清洗系統(tǒng)。

        2? 基于云計(jì)算的大數(shù)據(jù)智能清洗系統(tǒng)硬件設(shè)計(jì)

        大數(shù)據(jù)清洗的主要目的是清除冗余、錯(cuò)誤的干擾數(shù)據(jù),提高大數(shù)據(jù)的總體質(zhì)量,以便更好地為數(shù)據(jù)的使用者服務(wù)。數(shù)據(jù)清洗系統(tǒng)硬件模塊的設(shè)計(jì)圍繞著大數(shù)據(jù)的云端聚類、特征提取、分體識(shí)別等要求執(zhí)行,而數(shù)據(jù)清洗過程中最重要的環(huán)節(jié)是數(shù)據(jù)重復(fù)記錄或相似記錄檢測(cè)與消除。冗余的錯(cuò)誤數(shù)據(jù)指數(shù)據(jù)庫中表達(dá)方式雷同或拼寫錯(cuò)誤的數(shù)據(jù),這些數(shù)據(jù)存在于數(shù)據(jù)庫系統(tǒng)中會(huì)干擾正常數(shù)據(jù)的分類和識(shí)別。為消除海量大數(shù)據(jù)中的冗余錯(cuò)誤數(shù)據(jù),本文在硬件模塊設(shè)計(jì)中增加了大數(shù)據(jù)預(yù)處理模塊,對(duì)進(jìn)入云端的海量大數(shù)據(jù)采用字符區(qū)位定碼策略,降低字符或符號(hào)的錯(cuò)誤率,降低數(shù)據(jù)的匹配難度并提高對(duì)臟數(shù)據(jù)的檢測(cè)率?;谠朴?jì)算的海量大數(shù)據(jù)清洗系統(tǒng)的硬件模塊構(gòu)成,如圖2所示。

        未經(jīng)過處理的海量大數(shù)據(jù)進(jìn)入清洗系統(tǒng)后,首先到達(dá)數(shù)據(jù)預(yù)處理模塊,數(shù)據(jù)預(yù)處理模塊的最主要功能是去除冗余干擾,并對(duì)整個(gè)數(shù)據(jù)進(jìn)行降維處理,降低后續(xù)數(shù)據(jù)聚類分析的難度。造成數(shù)據(jù)庫中出現(xiàn)冗余的主要原因是不同輸入源頭的同一數(shù)據(jù)的格式存在差異,而且在數(shù)據(jù)的傳遞、存儲(chǔ)和交互中也容易發(fā)生錯(cuò)誤。預(yù)處理模塊將輸入清洗系統(tǒng)的每一條數(shù)據(jù)都進(jìn)行了模式的匹配與變換,大數(shù)據(jù)的格式變換后有助于后續(xù)模塊的聚類分析及特種識(shí)別,也能夠減少后續(xù)數(shù)據(jù)處理的代價(jià)。云計(jì)算數(shù)據(jù)處理中常用多條屬性值來表示一個(gè)實(shí)體,基于這種特性云端聚類模塊采用索引列表的方式,將具有同一字段特征的數(shù)據(jù)進(jìn)行初步歸類,依靠同屬性索引歸類的方式將相同字段的冗余數(shù)據(jù)匯聚到同一個(gè)索引下,進(jìn)而刪除字段雷同但不完整或不合理的干擾數(shù)據(jù),以達(dá)到大數(shù)據(jù)智能清洗的目的。

        在實(shí)體屬性識(shí)別中,不同實(shí)體描述的重要性程度不同,貢獻(xiàn)率也不同。為此,基于云計(jì)算的海量大數(shù)據(jù)清洗系統(tǒng)臟數(shù)據(jù)識(shí)別模塊為每一類輸入系統(tǒng)的數(shù)據(jù)都匹配了不同的權(quán)值。權(quán)值的比重由相關(guān)大數(shù)據(jù)專家按照領(lǐng)域知識(shí)而設(shè)定,本文模塊還可以按照索引的類別進(jìn)行模塊類別的劃分,得到實(shí)體模塊的相似度,再通過數(shù)據(jù)分類閾值大小判斷冗余刪除結(jié)果是否輸出。采用大數(shù)據(jù)實(shí)體模塊劃分的方法進(jìn)行錯(cuò)誤數(shù)據(jù)和冗余數(shù)據(jù)的刪除降低了數(shù)據(jù)處理的成本,也有效地縮小了函數(shù)閾值的邊界,適用于海量大數(shù)據(jù)的清洗處理要求。

        3? 系統(tǒng)總體實(shí)現(xiàn)流程設(shè)計(jì)與關(guān)鍵技術(shù)研究

        根據(jù)海量大數(shù)據(jù)智能清洗系統(tǒng)硬件結(jié)構(gòu)規(guī)劃的總體性要求,設(shè)計(jì)了基于云計(jì)算技術(shù)的系統(tǒng)總體軟件工作流程,如圖3所示。

        當(dāng)智能清洗系統(tǒng)開始運(yùn)行后,將原始的大數(shù)據(jù)信息輸入預(yù)處理模塊,數(shù)據(jù)的原始信息要經(jīng)過系統(tǒng)的初步審核,審核成功后將大數(shù)據(jù)導(dǎo)入系統(tǒng)。數(shù)據(jù)導(dǎo)入后系統(tǒng)要基于云計(jì)算平臺(tái)對(duì)原始大數(shù)據(jù)進(jìn)行聚類分析,識(shí)別出異常的風(fēng)險(xiǎn)數(shù)據(jù)。風(fēng)險(xiǎn)數(shù)據(jù)的識(shí)別與處理要依據(jù)大數(shù)據(jù)聚類的相似度計(jì)算,通常將風(fēng)險(xiǎn)數(shù)據(jù)或異常數(shù)據(jù)視為缺失數(shù)據(jù)處理。設(shè)大數(shù)據(jù)類[A]和[B]分別為兩個(gè)不同的數(shù)據(jù)實(shí)體,那么[A]和[B]之間的實(shí)體相似度函數(shù)[GA,B]可以表示為:

        大數(shù)據(jù)導(dǎo)入智能清洗系統(tǒng)后,按照數(shù)據(jù)實(shí)體之間的相似度先判斷實(shí)體之間的相似程度,進(jìn)行初步的數(shù)據(jù)聚類。之后再分析實(shí)體內(nèi)部冗余數(shù)據(jù)的關(guān)鍵字段特征,對(duì)于缺失的數(shù)據(jù)而言可以直接進(jìn)行數(shù)據(jù)同步,而對(duì)于不完整的大數(shù)據(jù)而言要按照一定標(biāo)準(zhǔn)將不完整的部分補(bǔ)充完整,經(jīng)初步聚類后的MAP輸出屬性索引與索引值見表1。

        大數(shù)據(jù)的云端聚類分析按照數(shù)據(jù)實(shí)體之間的相似度與索引值,對(duì)進(jìn)入智能清洗系統(tǒng)的大數(shù)據(jù)進(jìn)行類別劃分。對(duì)于數(shù)據(jù)聚類分析模塊而言,每輸入一組數(shù)據(jù)將要確定一個(gè)數(shù)據(jù)相似性的分類標(biāo)準(zhǔn)。數(shù)據(jù)聚類分析需要經(jīng)過多次反復(fù)分組和聚類才能實(shí)現(xiàn),大數(shù)據(jù)聚類分析方法是基于一種數(shù)據(jù)收斂變化的思想,利用多次大數(shù)據(jù)聚類實(shí)現(xiàn)在全局范圍內(nèi)尋優(yōu),對(duì)于每次不符合數(shù)據(jù)聚類的冗余數(shù)據(jù)、殘缺數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)予以清洗和消除?;谠朴?jì)算的數(shù)據(jù)清洗系統(tǒng)在數(shù)據(jù)聚類和實(shí)體模塊劃分中,將每一個(gè)輸入系統(tǒng)的數(shù)據(jù)集都作為一個(gè)初始的類別,然后按照數(shù)據(jù)集的閾值范圍與特性,對(duì)數(shù)據(jù)集進(jìn)行多次拆分與合并,最后將特性相近的數(shù)據(jù)集歸于一類,在按照聚類索引值分類的過程中,逐步清洗掉不完整和冗余的數(shù)據(jù),以達(dá)到縮小大數(shù)據(jù)規(guī)模的目的。云計(jì)算能夠利用其強(qiáng)大的空間并行計(jì)算能力,在整個(gè)輸入大數(shù)據(jù)范圍內(nèi)尋優(yōu),數(shù)據(jù)聚類與實(shí)體模塊劃分的主要步驟如下:

        Step1:確定大數(shù)據(jù)聚類分析的準(zhǔn)則,并按照實(shí)體間的相似度初步分組。

        Step2:確定數(shù)據(jù)類別的重心與索引值,并確定其他分組數(shù)據(jù)與重心的距離。

        Step3:清洗掉離重心距離過遠(yuǎn)的干擾數(shù)據(jù)和冗余數(shù)據(jù)并重新分組計(jì)算。

        Step4:重復(fù)上述步驟,直到得到與實(shí)體重心數(shù)據(jù)特征一致的數(shù)據(jù)集合,即通過多次性能收斂在全局范圍內(nèi)得到最優(yōu)解。

        對(duì)于非缺陷數(shù)據(jù)而言,直接將這些安全數(shù)據(jù)存儲(chǔ)于系統(tǒng)數(shù)據(jù)庫,并進(jìn)行數(shù)據(jù)的更新與同步;而對(duì)于冗余、有缺陷和不完整的數(shù)據(jù)而言,與在數(shù)據(jù)導(dǎo)入時(shí)識(shí)別出的數(shù)據(jù)一并清洗處理,并將清洗的結(jié)果顯示出來。系統(tǒng)管理員可以對(duì)清洗結(jié)果的滿意程度做出判斷,如果對(duì)于清洗的結(jié)果不滿意,系統(tǒng)可以返回到缺失數(shù)據(jù)處理步驟重新處理。如果大數(shù)據(jù)清洗程序能夠達(dá)到滿意的效果,直接同步清洗結(jié)果并輸出打印報(bào)告,方便后續(xù)的查詢及使用操作。

        4? 結(jié)果驗(yàn)證

        4.1? 系統(tǒng)功能測(cè)試

        基于云計(jì)算的海量大數(shù)據(jù)系統(tǒng)功能實(shí)驗(yàn),主要考慮到對(duì)系統(tǒng)整體功能的驗(yàn)證,系統(tǒng)各模塊接口功能列表和實(shí)驗(yàn)環(huán)境設(shè)置如表2所示。

        大數(shù)據(jù)清洗系統(tǒng)的功能測(cè)試能夠保證系統(tǒng)的可靠運(yùn)行,模塊的功能測(cè)試環(huán)節(jié)與系統(tǒng)的軟件工作流程趨于一致,包括用戶登錄、信息輸入、數(shù)據(jù)導(dǎo)入、數(shù)據(jù)處理等環(huán)節(jié),基于云計(jì)算的海量大數(shù)據(jù)清洗系統(tǒng)的功能測(cè)試結(jié)果,如表3所示。對(duì)數(shù)據(jù)清洗系統(tǒng)每個(gè)模塊的基礎(chǔ)性功能都進(jìn)行驗(yàn)證,全部測(cè)試項(xiàng)目都通過了驗(yàn)證,表明系統(tǒng)的功能性較為穩(wěn)定。

        4.2? 系統(tǒng)性能測(cè)試

        系統(tǒng)性能方面的測(cè)試主要檢測(cè)基于云計(jì)算的大數(shù)據(jù)智能清洗系統(tǒng),在清洗臟數(shù)據(jù)方面的能力,取一個(gè)實(shí)驗(yàn)用的樣本數(shù)據(jù)集包括數(shù)據(jù)29 812條,人為添加重復(fù)性干擾臟數(shù)據(jù)188條,每2 500條數(shù)據(jù)檢測(cè)一次檢測(cè)系統(tǒng)的查準(zhǔn)率[ξ]和召回率[ζ]:

        式中:[Nc]為準(zhǔn)確識(shí)別并清洗的數(shù)據(jù)條目;[Na]為臟數(shù)據(jù)的總條目;[Ntal]為總數(shù)據(jù)數(shù)量。分別驗(yàn)證傳統(tǒng)集中式大數(shù)據(jù)清洗系統(tǒng)與本文基于云計(jì)算的數(shù)據(jù)處理系統(tǒng)的數(shù)據(jù)清洗查準(zhǔn)確和召回率,30 000條數(shù)據(jù)的性能測(cè)試結(jié)果如圖4,圖5所示。

        從傳統(tǒng)大數(shù)據(jù)清洗系統(tǒng)與基于云計(jì)算的大數(shù)據(jù)清洗系統(tǒng)查準(zhǔn)率對(duì)比結(jié)果可知,隨著查詢條件的增加,傳統(tǒng)集中式大數(shù)據(jù)清洗系統(tǒng)的查準(zhǔn)率呈現(xiàn)出快速下降的趨勢(shì),當(dāng)查詢30 000條數(shù)據(jù)記錄時(shí),查準(zhǔn)率已經(jīng)跌至90.36%;而文中基于云計(jì)算的大數(shù)據(jù)清洗系統(tǒng)的臟數(shù)據(jù)查準(zhǔn)率始終保持在98%以上。在大數(shù)據(jù)清洗召回率的對(duì)比方面,當(dāng)查詢30 000條數(shù)據(jù)記錄時(shí),傳統(tǒng)數(shù)據(jù)清洗系統(tǒng)的召回率已經(jīng)低于90%,且在整個(gè)大數(shù)據(jù)的查詢清洗過程中召回率出現(xiàn)了波動(dòng)的情況;而文中提出基于云計(jì)算的大數(shù)據(jù)清洗系統(tǒng)的召回率,盡管也出現(xiàn)了下降的情況,但總體數(shù)據(jù)清洗處理召回率仍可以保持在95%以上,具有傳統(tǒng)清洗系統(tǒng)所不可比擬的優(yōu)勢(shì)。

        5? 結(jié)? 論

        大數(shù)據(jù)在企業(yè)決策與管理層戰(zhàn)略制定中發(fā)揮著越來越重要的作用,但數(shù)據(jù)庫中冗余、錯(cuò)誤和不完整的數(shù)據(jù)會(huì)對(duì)大數(shù)據(jù)的真實(shí)性和完整性造成不利的影響。云計(jì)算是處理大數(shù)據(jù)問題最有效的方法之一,本文基于云計(jì)算設(shè)計(jì)了一種海量大數(shù)據(jù)智能清洗系統(tǒng),能夠改善數(shù)據(jù)清洗的效率和效果。大數(shù)據(jù)在未來的市場(chǎng)競(jìng)爭(zhēng)中將會(huì)發(fā)揮越來越重要的作用,而保證大數(shù)據(jù)的真實(shí)、完整和有效,并不斷提高企業(yè)大數(shù)據(jù)的質(zhì)量,是發(fā)揮出大數(shù)據(jù)資源優(yōu)勢(shì)的必要條件之一。

        參考文獻(xiàn)

        [1] 陶盈春,張紅麗,徐健.異常值探測(cè)在大數(shù)據(jù)分析中的應(yīng)用研究[J].情報(bào)科學(xué),2018,36(3):75?80.

        [2] 柴謙益,鄭文斌,潘捷凱,等.基于大數(shù)據(jù)分析的智能配電網(wǎng)狀態(tài)監(jiān)測(cè)與故障處理方法研究[J].現(xiàn)代電子技術(shù),2018,41(4):105?108.

        [3] 顏磊,祁冰.基于Android平臺(tái)的移動(dòng)學(xué)習(xí)系統(tǒng)大數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2017,40(19):142?144.

        [4] 王磊,陳青,高洪雨,等.基于大數(shù)據(jù)挖掘技術(shù)的智能變電站故障追蹤架構(gòu)[J].電力系統(tǒng)自動(dòng)化,2018(3):84?91.

        [5] 劉炳含,付忠廣,王永智,等.基于并行計(jì)算的大數(shù)據(jù)挖掘技術(shù)及其在電站鍋爐性能優(yōu)化中的應(yīng)用[J].動(dòng)力工程學(xué)報(bào),2018,38(6):431?439.

        [6] 朱會(huì)娟,蔣同海,周喜,等.基于動(dòng)態(tài)可配置規(guī)則的數(shù)據(jù)清洗方法[J].計(jì)算機(jī)應(yīng)用,2017,37(4):1014?1020.

        [7] 潘瑋,牟冬梅,李茵,等.關(guān)鍵詞共現(xiàn)方法識(shí)別領(lǐng)域研究熱點(diǎn)過程中的數(shù)據(jù)清洗方法[J].圖書情報(bào)工作,2017,61(7):111?117.

        [8] 馬平全,宋凱,紀(jì)建偉.基于N?Gram算法的數(shù)據(jù)清洗技術(shù)[J].沈陽工業(yè)大學(xué)學(xué)報(bào),2017,39(1):67?72.

        [9] 王沖,鄒瀟.基于Spark框架的電力大數(shù)據(jù)清洗模型[J].電測(cè)與儀表,2017,54(14):33?38.

        [10] 林峻,嚴(yán)英杰,盛戈皞,等.考慮時(shí)間序列關(guān)聯(lián)的變壓器在線監(jiān)測(cè)數(shù)據(jù)清洗[J].電網(wǎng)技術(shù),2017(11):3733?3740.

        [11] 曲朝陽,張藝競(jìng),王永文,等.基于spark框架的能源互聯(lián)網(wǎng)電力能源大數(shù)據(jù)清洗模型[J].電測(cè)與儀表,2018,55(2):39?44.

        [12] 周東清,彭世玉,程春田,等.梯級(jí)水電站群長期優(yōu)化調(diào)度云計(jì)算隨機(jī)動(dòng)態(tài)規(guī)劃算法[J].中國電機(jī)工程學(xué)報(bào),2017,37(12):79?90.

        [13] 閆明,王秀芬,李強(qiáng),等.基于數(shù)據(jù)對(duì)稱打包的云計(jì)算并行核心失敗校驗(yàn)緩解[J].微電子學(xué)與計(jì)算機(jī),2017(5):73?78.

        猜你喜歡
        查準(zhǔn)率云計(jì)算
        海量圖書館檔案信息的快速檢索方法
        中國最具影響力的綜合搜索引擎比較研究
        基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計(jì)
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        基于深度特征分析的雙線性圖像相似度匹配算法
        志愿服務(wù)與“互聯(lián)網(wǎng)+”結(jié)合模式探究
        云計(jì)算與虛擬化
        基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
        實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
        云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
        科技視界(2016年20期)2016-09-29 13:34:06
        国产麻豆一精品一AV一免费软件 | 亚洲av无码xxx麻豆艾秋| 国产精品久久久久久妇女6080| 在线观看国产三级av| 国产av一区麻豆精品久久| 综合色免费在线精品视频| 亚洲欧美日韩在线不卡 | 丰满少妇被爽的高潮喷水呻吟| 日本韩国三级在线观看| 极品美女扒开粉嫩小泬图片| 久久99热久久99精品| 亚洲日韩欧美一区二区三区| 全程国语对白资源在线观看| 亚洲国产av自拍一区| 国产一区二区三精品久久久无广告 | 蜜臀人妻精品一区二区免费 | 免费少妇a级毛片人成网| 欧美日韩精品福利在线观看| 久久99精品免费国产| 亚洲天堂精品成人影院| 国产精品午夜爆乳美女视频| 亚洲AV秘 无码一区二区三区臀| 青青草最新在线视频观看| 91九色成人蝌蚪首页| 人妻少妇边接电话边娇喘| 亚洲AⅤ精品一区二区三区| 视频一区中文字幕日韩| 色婷婷一区二区三区四区成人网| 精品久久人人爽天天玩人人妻| 国产精品一卡二卡三卡| 男女啪啪动态视频在线观看| 色综合久久久无码中文字幕| 狠狠躁夜夜躁人人爽天天不卡软件| 国产三级视频在线观看视主播| 久久精品av一区二区免费| 91精品国产92久久久| 成人综合婷婷国产精品久久蜜臀 | 国产麻豆久久av入口| 亚洲精品一区久久久久久| 91亚洲国产三上悠亚在线播放| 国产黄色一级大片一区二区|