亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)在電力企業(yè)的實(shí)踐和應(yīng)用

        2016-06-13 10:44:00李遠(yuǎn)寧劉森張?jiān)娷?/span>陳豐王志英
        電信科學(xué) 2016年4期
        關(guān)鍵詞:集中式引擎校驗(yàn)

        李遠(yuǎn)寧,劉森,張?jiān)娷?,陳豐,王志英

        (中國南方電網(wǎng)有限責(zé)任公司信息部,廣東 廣州 510623)

        分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)在電力企業(yè)的實(shí)踐和應(yīng)用

        李遠(yuǎn)寧,劉森,張?jiān)娷?,陳豐,王志英

        (中國南方電網(wǎng)有限責(zé)任公司信息部,廣東 廣州 510623)

        隨著企業(yè)信息化水平和企業(yè)精細(xì)化管理要求的不斷提高,企業(yè)對數(shù)據(jù)管理的需求也隨之增強(qiáng),如何提高企業(yè)數(shù)據(jù)質(zhì)量更是需要重點(diǎn)解決的問題。 針對電力企業(yè)數(shù)據(jù)質(zhì)量管理面臨的挑戰(zhàn),創(chuàng)新提出了分布式數(shù)據(jù)質(zhì)量管理解決方案。 針對集中式數(shù)據(jù)質(zhì)量系統(tǒng)的性能瓶頸,在研究數(shù)據(jù)質(zhì)量系統(tǒng)特點(diǎn)并借鑒國內(nèi)外對大數(shù)據(jù)的解決方案后,提出了基于 Hadoop 分布式處理框架的解決方案。 利用 Hadoop 集群,可以把缺陷數(shù)據(jù)從 Oracle中抽離,分散存儲在集群里多臺服務(wù)器上,以有效提高磁盤 I/O 性能和數(shù)據(jù)分析性能。

        數(shù)據(jù)質(zhì)量管理;分布式;Hadoop

        1 引言

        隨著企業(yè)信息化水平和精細(xì)化管理要求的不斷提高,數(shù)據(jù)已成為企業(yè)的重要資源和核心資產(chǎn),深刻影響企業(yè)的業(yè)務(wù)管理模式。企業(yè)數(shù)據(jù)質(zhì)量水平,將關(guān)系到企業(yè)數(shù)據(jù)化管理、決策的效率和成效。

        為促進(jìn)數(shù)據(jù)質(zhì)量水平的提升,電力行業(yè)開展了數(shù)據(jù)質(zhì)量管理工作,并完成了數(shù)據(jù)質(zhì)量管理系統(tǒng)的建設(shè)與推廣,生產(chǎn)、營銷、財(cái)務(wù)、人力資源等業(yè)務(wù)域的數(shù)據(jù)質(zhì)量得到了顯著提升,但也面臨如下一些挑戰(zhàn):

        · 涉及范圍廣,涉及各分省公司的營銷、生產(chǎn)、人力資源、財(cái)務(wù)等業(yè)務(wù)領(lǐng)域;

        · 校驗(yàn)規(guī)則繁多,各業(yè)務(wù)域都有相應(yīng)的數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則,涵蓋非空、長度、格式、一致性、準(zhǔn)確性等類型的 規(guī) 則 ,共 計(jì) 4 000 多 條 ;

        · 數(shù)據(jù)量大,經(jīng)統(tǒng)計(jì),全網(wǎng)月增量數(shù)據(jù)為 8 億筆,問 題數(shù) 據(jù) 為 3 000 萬 筆 ;

        · 數(shù)據(jù)校驗(yàn)耗時(shí)長,以營銷域?yàn)槔?,?dāng)校驗(yàn)數(shù)據(jù)量達(dá)到 10億筆或以上規(guī)模時(shí),原基于集中式數(shù)據(jù)存儲和計(jì)算架構(gòu)的數(shù)據(jù)質(zhì)量管理系統(tǒng)由于數(shù)據(jù)讀寫和數(shù)據(jù)統(tǒng)計(jì)操作瓶頸,完成數(shù)據(jù)質(zhì)量校驗(yàn)和問題分析需 耗 費(fèi) 70 h 以 上 的 系 統(tǒng) 運(yùn) 行 時(shí) 間 ;

        · 需要在短時(shí)間內(nèi)執(zhí)行大量的校驗(yàn)規(guī)則,對磁盤讀寫性能、CPU 和內(nèi)存性能要求較高。

        2 傳統(tǒng)的數(shù)據(jù)質(zhì)量管理模式

        傳統(tǒng)集中式數(shù)據(jù)質(zhì)量管理系統(tǒng)可以規(guī)范化管理校驗(yàn)規(guī)則、調(diào)度規(guī)則的執(zhí)行時(shí)間、統(tǒng)一管理數(shù)據(jù)質(zhì)量報(bào)告,大大提高了數(shù)據(jù)質(zhì)量校驗(yàn)的效率,并規(guī)范了數(shù)據(jù)質(zhì)量的管理。數(shù)據(jù)量在千萬級以內(nèi)時(shí),可以穩(wěn)定高效地完成數(shù)據(jù)質(zhì)量校驗(yàn)。

        集中式數(shù)據(jù)質(zhì)量管理系統(tǒng) (以下簡稱集中式系統(tǒng))主要包括兩大模塊,如圖 1所示。

        圖1 集中式數(shù)據(jù)質(zhì)量管理系統(tǒng)架構(gòu)

        (1)系統(tǒng)配置層

        用于配置校驗(yàn)規(guī)則、執(zhí)行策略、元數(shù)據(jù)等信息,查看數(shù)據(jù)質(zhì)量分析結(jié)果。

        (2)系統(tǒng)執(zhí)行層

        負(fù)責(zé)規(guī)則的執(zhí)行和問題數(shù)據(jù)的存儲。質(zhì)量校驗(yàn)引擎采用 Oracle 存 儲 過 程 實(shí) 現(xiàn) ,通 過 database link(DBlink)鏈 接 到“被校驗(yàn)庫”執(zhí)行預(yù)先配置好的校驗(yàn)規(guī)則,統(tǒng)計(jì)并抽取查詢出來的問題數(shù)據(jù)。問題數(shù)據(jù)存儲在集中式系統(tǒng)數(shù)據(jù)庫里進(jìn)行進(jìn)一步的過濾、合并和分析,最終生成數(shù)據(jù)質(zhì)量報(bào)告。

        集中式系統(tǒng)使用關(guān)系型數(shù)據(jù)庫存儲和分析數(shù)據(jù),當(dāng)面對海量數(shù)據(jù)時(shí)數(shù)據(jù)庫服務(wù)器的性能往往會成為瓶頸。只 能 通 過 提 高 CPU 處 理 速 度 和 磁 盤 I/O 速 度 來 提 高 數(shù)據(jù)庫性能,但這意味著系統(tǒng)成本的增加,并且隨著數(shù)據(jù)的不斷增長,數(shù)據(jù)庫服務(wù)器很快又會成為性能瓶頸。圖 2展示了不使用索引和使用索引時(shí),SQL 執(zhí)行時(shí)間隨著數(shù)據(jù) 量 增 長 的 變 化 情 況 ???以 看 出 ,數(shù) 據(jù) 量 在 500 GB 時(shí) 已出現(xiàn)瓶頸。

        圖2 SQL 查詢性能

        由此可見,傳統(tǒng)的集中式系統(tǒng)仍存在不足,需要引入新的解決方案,以提升企業(yè)在數(shù)據(jù)質(zhì)量管理方面的能力。

        3 數(shù)據(jù)質(zhì)量管理的實(shí)踐

        3.1 設(shè)計(jì)思路

        針對集中式數(shù)據(jù)質(zhì)量系統(tǒng)的性能瓶頸,本文在研究數(shù)據(jù)質(zhì)量系統(tǒng)特點(diǎn)并借鑒國內(nèi)外對大數(shù)據(jù)的解決方案后,提出 了 基 于 Hadoop 分 布 式 處 理 框 架 的 解 決 方 案 。 利 用Hadoop 集 群 ,可 以 把 缺 陷 數(shù) 據(jù) 從 Oracle 中 抽 離 ,分 散 存 儲在 集 群 里 的 多 臺 服 務(wù) 器 上 ,從 而 可 以 有 效 提 高 磁 盤 I/O 性能和數(shù)據(jù)分析性能。該方案具有以下優(yōu)點(diǎn):

        · 基于 x86 服務(wù)器,可使用較廉價(jià)的服務(wù)器組建集群;

        · 具有良好的可擴(kuò)展性,當(dāng)業(yè)務(wù)增長,需要處理更多的數(shù)據(jù)時(shí),可以水平擴(kuò)展和增加更多的節(jié)點(diǎn);

        · 集群的每個(gè)節(jié)點(diǎn)都可用于計(jì)算和存儲數(shù)據(jù),可應(yīng)對PB級別數(shù)據(jù)的存儲和分析。

        3.2 分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)

        分布式數(shù)據(jù)質(zhì)量系統(tǒng)采用 J2EE 架構(gòu)開發(fā) ,可邏輯劃分為用戶交互層、數(shù)據(jù)處理層和數(shù)據(jù)存儲層,如圖 3 所示。

        3.2.1 用戶交互層

        用戶交互層即用戶界面,通過界面可以進(jìn)行系統(tǒng)配置、規(guī)則管理、報(bào)告導(dǎo)出等操作。主要功能包括以下幾方面。

        · 元數(shù)據(jù)管理:管理被校驗(yàn)庫的元數(shù)據(jù),包括表名、字段名、字段類型等信息。

        · 模型管理:管理被校驗(yàn)庫表之間的關(guān)聯(lián)關(guān)系。

        · 規(guī)則配置:管理質(zhì)量校驗(yàn)規(guī)則,包括規(guī)則名稱、規(guī)則描述以及校驗(yàn)?zāi)_本。

        · 策略管理:管理校驗(yàn)規(guī)則的執(zhí)行時(shí)間和執(zhí)行參數(shù)。

        · 報(bào)表管理:管理數(shù)據(jù)質(zhì)量報(bào)告,包括生成、上報(bào)、查看等功能。

        · 平臺管理:管理組織機(jī)構(gòu)、用戶信息、系統(tǒng)日志等。

        用戶交互層是用戶與系統(tǒng)交互的界面,在進(jìn)行系統(tǒng)設(shè)計(jì)時(shí)充分考慮了界面的可用性和 便 利性,結(jié)合 AJAX 技術(shù)降低系統(tǒng)的響應(yīng)時(shí)間,提升了用戶使用體驗(yàn);為簡化校驗(yàn)規(guī)則的配置工作,系統(tǒng)可根據(jù)元數(shù)據(jù)自動生成校驗(yàn)規(guī)則的功 能 ,并 采 用 AJAX 技術(shù) 預(yù) 加 載 元 數(shù) 據(jù) ,提 高 用 戶 操 作 流暢度,大大提高規(guī)則配置的效率;還提供規(guī)則參數(shù)的功能。利用該功能可以把規(guī)則中相似的部分抽取出來,配置成若干個(gè)規(guī)則參數(shù),因此可以減少規(guī)則的數(shù)量,降低規(guī)則變更的響應(yīng)時(shí)間。

        3.2.2 數(shù)據(jù)處理層

        數(shù)據(jù)處理層是整個(gè)系統(tǒng)的核心,負(fù)責(zé)規(guī)則執(zhí)行、缺陷數(shù)據(jù)查詢分析等任務(wù),主要功能包括以下幾方面。

        ·執(zhí)行策略任務(wù)調(diào)度:負(fù)責(zé)控制執(zhí)行策略的任務(wù)調(diào)度,按周期定時(shí)啟動執(zhí)行策略。

        · 缺陷數(shù)據(jù)分析:負(fù)責(zé)缺陷明細(xì)的分析,并生成數(shù)據(jù)質(zhì)量報(bào)告。

        · 規(guī)則執(zhí)行引擎:負(fù)責(zé)執(zhí)行規(guī)則腳本,記錄執(zhí)行日志。

        ·缺陷明細(xì)查詢和導(dǎo)出:為用戶交互層提供從Hadoop 集群里查詢數(shù)據(jù)的接口。

        圖3 分布式數(shù)據(jù)質(zhì)量技術(shù)架構(gòu)

        作為數(shù)據(jù)處理層的兩大核心組件之一,規(guī)則執(zhí)行引擎是數(shù)據(jù)質(zhì)量管理系統(tǒng)的關(guān)鍵所在,直接影響了校驗(yàn)的效率。在設(shè)計(jì)規(guī)則執(zhí)行引擎時(shí)主要考慮以下幾點(diǎn)因素。

        性能是首先要考慮的問題。本系統(tǒng)的規(guī)則執(zhí)行引擎采用 開 源 ETL 工 具 Kettle 作 為 缺 陷 數(shù) 據(jù) 抽 取 引 擎 ,Kettle 可以把一個(gè)表的數(shù)據(jù)“切片”進(jìn)行多線程分段抽取,因此可以比較高效地把問題數(shù)據(jù)抽取到質(zhì)量管理系統(tǒng)里。另外,執(zhí)行引擎還采用緩存機(jī)制,執(zhí)行規(guī)則時(shí)會優(yōu)先從緩存中獲取結(jié)果以提高執(zhí)行效率。

        其次,穩(wěn)定性是另一個(gè)重要因素。在數(shù)據(jù)質(zhì)量管理系統(tǒng)里面,執(zhí)行引擎里包含了大量的容錯(cuò)處理機(jī)制。例如,在規(guī)則執(zhí)行失敗后,執(zhí)行引擎可以判斷失敗的原因并決定是否需要重試,如果遇到不可恢復(fù)的異常,則直接把規(guī)則標(biāo)記為失敗并繼續(xù)執(zhí)行下一條規(guī)則。

        最后,還要考慮對數(shù)據(jù)源的適應(yīng)性。為了擴(kuò)大數(shù)據(jù)質(zhì)量管理系統(tǒng)的使用范圍,執(zhí)行引擎需要兼容多種主流的數(shù)據(jù) 庫 。目 前 已 兼 容 MySQL、SQL Server 和 Oracle,日 后 會 兼容更多類型的數(shù)據(jù)庫。

        缺陷數(shù)據(jù)分析引擎是數(shù)據(jù)處理層的另一個(gè)核心組件。缺陷明細(xì)數(shù)據(jù)采集到 Hadoop 后 ,該引擎 對數(shù)據(jù)進(jìn)行分析,生成并匯總結(jié)果,最終生成數(shù)據(jù)質(zhì)量報(bào)告。為了加快數(shù)據(jù)分析的效率,系統(tǒng)把分析任務(wù)細(xì)分成多個(gè)更小規(guī)模的任務(wù),當(dāng)所有任務(wù)完成后再匯總生成最終的結(jié)果。

        3.2.3 數(shù)據(jù)存儲層

        數(shù)據(jù)存儲層由統(tǒng)一數(shù)據(jù)訪問接口以及數(shù)據(jù)存儲(含系統(tǒng)數(shù)據(jù)和缺陷明細(xì)數(shù)據(jù))組成。其中,系統(tǒng)數(shù)據(jù)庫采用傳統(tǒng)的 關(guān) 系 型 數(shù) 據(jù) 庫 Oracle,用 于 存 放 系 統(tǒng) 配 置 、執(zhí) 行 日 志 、規(guī)則信息和缺陷數(shù)據(jù)分析結(jié)果;而缺陷數(shù)據(jù)明細(xì)存儲采用Hadoop 分布式處理框架。

        (1)統(tǒng)一數(shù)據(jù)訪問接口

        系統(tǒng)使用 Hadoop 集群存儲缺陷 明細(xì)數(shù)據(jù) ,為了能 更簡 單 、快 捷 地 分 析 數(shù) 據(jù) ,基 于 Impala 框 架 封 裝 了 通 用 數(shù) 據(jù)訪 問 接 口 ,兼 容 Oracle 和 分 布 式 架 構(gòu) 下 的 數(shù) 據(jù) 訪 問 ,能 在Hadoop 集 群 上 運(yùn) 行 本 地 SQL, 可 以 為 存 儲 在 HDFS 或HBase 中 的 Hadoop 數(shù) 據(jù) 提 供 快 速 、交 互 式 的 SQL 查 詢 ,查詢 效 率 比 基 于 MapReduce 的 Hive 有 數(shù) 量 級 的 提 升 。

        (2)資源監(jiān)控

        由于集群用到多臺服務(wù)器,因此如何便捷、直觀地監(jiān)控每臺服務(wù)器當(dāng)前的狀態(tài),成為系統(tǒng)實(shí)施與維護(hù)首先要考慮 的 問 題 。數(shù) 據(jù) 質(zhì) 量 管 理 系 統(tǒng) 使 用 Cloudera Manager(免 費(fèi)版)作為 Hadoop 集群管理和監(jiān)控的工具 ,并進(jìn)行了適當(dāng)優(yōu)化 ,提 供 了 一 個(gè) B/S 結(jié) 構(gòu) 的 管 理 界面 ,用戶 可 以 實(shí) 時(shí) 查 看到集群里每一臺服務(wù)器的健康狀況、資源使用率、任務(wù)執(zhí)行情況等信息。

        3.3 主要創(chuàng)新點(diǎn)

        (1)利用分布式技術(shù)解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫的性能瓶頸

        數(shù)據(jù)質(zhì)量管理系統(tǒng)具有數(shù)據(jù)量大、數(shù)據(jù)增長快以及分析任務(wù)繁重等特點(diǎn)。傳統(tǒng)關(guān)系型數(shù)據(jù)庫在應(yīng)對這樣的大數(shù)據(jù)量場景時(shí),數(shù)據(jù)分析性能迅速下降,已難以滿足實(shí)際的應(yīng)用需求。本研究提出使用 Hadoop 分布式架構(gòu)重構(gòu)系統(tǒng)中數(shù)據(jù)量較大的模塊,關(guān)系型數(shù)據(jù)庫只用于存儲分析結(jié)果。本系統(tǒng)采用了基于 Impala 框架封裝的數(shù)據(jù)分析引擎,開發(fā)人 員可以使 用熟悉的 SQL 語言進(jìn)行數(shù) 據(jù)分 析 ,以降低 Hadoop集群的應(yīng)用門檻。利用 Hadoop 集群可以輕易實(shí)現(xiàn)數(shù)據(jù)的水平分布,從而大大提高系統(tǒng)的可用性和數(shù)據(jù)分析性能。

        (2)使用多線程并行技術(shù)提高數(shù)據(jù)質(zhì)量校驗(yàn)引擎的性能

        為了能最大限度地利用分布式系統(tǒng)的硬件資源,提出了基于多線程的校驗(yàn)規(guī)則執(zhí)行引擎。執(zhí)行引擎能根據(jù)規(guī)則數(shù)量和當(dāng)前系統(tǒng)負(fù)載情況動態(tài)創(chuàng)建線程池,其中包括問題數(shù)據(jù)查找和問題數(shù)據(jù)寫入兩種。在進(jìn)行數(shù)據(jù)質(zhì)量校驗(yàn)的過程中,系統(tǒng)根據(jù)問題數(shù)據(jù)寫入和問題數(shù)據(jù)查找的情況自動創(chuàng)建或銷毀線程,同時(shí)應(yīng)用“數(shù)據(jù)切片”技術(shù)把數(shù)據(jù)按照線程的數(shù)量平均切分,配送到不同的線程以提升數(shù)據(jù)處理效率。利用多線程技術(shù)可以充分利用服務(wù)器的硬件資源,極大地提升性能。

        (3)基于元數(shù)據(jù)自動生成數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則

        數(shù)據(jù)質(zhì)量管理系統(tǒng)需要管理成千上萬的校驗(yàn)規(guī)則,在提高校驗(yàn)性能的同時(shí)也需要提高校驗(yàn)規(guī)則配置的效率。元數(shù)據(jù)描述了數(shù)據(jù)庫表關(guān)系以及數(shù)據(jù)表字段的詳細(xì)信息,如字段類型、長度、數(shù)據(jù)來源、加密等級、數(shù)據(jù)質(zhì)量要求等。本文創(chuàng)新提出了基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則自動生成功能,用戶只需在界面選擇需要進(jìn)行校驗(yàn)的表和字段,系統(tǒng)即可根據(jù)元數(shù)據(jù)中的數(shù)據(jù)質(zhì)量要求自動生成校驗(yàn)規(guī)則,提高了規(guī)則配置的準(zhǔn)確性,并且大大節(jié)省了人工成本,提高了規(guī)則配置效率。目前,營銷、生產(chǎn)、財(cái)務(wù)、人力資源等業(yè)務(wù)領(lǐng)域約 3 255 條 校 驗(yàn) 規(guī) 則 均 通 過 此 方 法 生 成 。

        4 系統(tǒng)實(shí)踐

        4.1 性能對比測試

        實(shí)際測試表明,分布式系統(tǒng)具有優(yōu)秀的水平擴(kuò)展性,隨著 數(shù)據(jù)量 的增長,Hadoop 集群的執(zhí) 行時(shí)間 幾 乎 呈 線 性增 長 。 應(yīng) 用 集 中 式 架 構(gòu) 的 平 均 數(shù) 據(jù) 讀 取 速 度 為 150 MB/s,讀 取 1 TB 的 數(shù) 據(jù) 需 要 約 2 h;Oracle 的 處 理 時(shí) 間 則 呈 指 數(shù)級增加,如 圖 4 所 示 ???以 看 出 ,當(dāng)數(shù)據(jù)量達(dá)到 500 GB 時(shí) ,在 Oracle 上執(zhí)行 SQL 已出現(xiàn)性能瓶頸。

        圖4 關(guān) 系型數(shù)據(jù)庫與 Hadoop 集群執(zhí)行時(shí)間對比

        4.2 應(yīng)用情況

        目前分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)已完成開發(fā),并在廣西電網(wǎng)公司、廣東電網(wǎng)公司試運(yùn)行,根據(jù)現(xiàn)場收集的運(yùn)行數(shù)據(jù),應(yīng)用分布式數(shù)據(jù)質(zhì)量管理系統(tǒng),最高可實(shí)現(xiàn)數(shù)據(jù)質(zhì)量校驗(yàn)效率比原集中式系統(tǒng)提升 15倍左右。

        服務(wù)器配置信息見表 1。

        表1 服務(wù)器配置信息

        數(shù)據(jù)質(zhì)量校驗(yàn)情況見表 2。

        表2 數(shù)據(jù)質(zhì)量校驗(yàn)性能對比

        從表 2可以看出,分布式系統(tǒng)的性能比集中式系統(tǒng)有數(shù)量級的提升。 由于客觀因素的限制,廣東電網(wǎng)公司的被校驗(yàn)庫和 Hadoop 集群部署在 不同的子網(wǎng)絡(luò),受到網(wǎng)絡(luò)和防火墻的影響,校驗(yàn)時(shí)間要長于廣西電網(wǎng)公司。

        5 結(jié)束語

        本文針對電力企業(yè)數(shù)據(jù)質(zhì)量管理工作的現(xiàn)狀和難點(diǎn),提出了分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)解決方案,通過開展分布式存儲和計(jì)算關(guān)鍵技術(shù)研究,初步搭建大數(shù)據(jù)存儲及計(jì)算平臺,并針對數(shù)據(jù)質(zhì)量管理子系統(tǒng)進(jìn)行了技術(shù)架構(gòu)升級和試 點(diǎn) 應(yīng) 用 ,原 需 45 h 的 數(shù) 據(jù) 質(zhì) 量 校 驗(yàn) 工 作 時(shí) 間 縮 短 至 3 h以內(nèi),有效提升了系統(tǒng)處理和分析效率,同時(shí)為中國南方電網(wǎng)公司數(shù)據(jù)中心架構(gòu)升級工作儲備了技術(shù)基礎(chǔ)。

        [1] 田 秀 霞 , 周 耀 軍. 基 于 Hadoop 架 構(gòu) 的 分 布 式 計(jì) 算 和 存 儲 技 術(shù)及其應(yīng)用[J]. 上海電力學(xué)院學(xué)報(bào),2011,27(1):70-75. TIAN X X,ZHOU Y J.The technology and application of distributed computing and storage based on Hadoop architecture[J]. Journal of Shanghai University of Electric Power,2011,27 (1):70-75.

        [2] BIRMAN K P,GANESH L,RENESSE R.Running smart grid control software on cloud computing architectures[C]/Workshop on Computational Needs for the Next Generation Electric Grid,April 19-20,2011,Cornell University,Ithaca.[S.l.:s.n.],2011:1-28.

        [3] 劉 鵬. 云 計(jì) 算 [M]. 北 京 :電 子 工 業(yè) 出 版 社 ,2010. LIU P.Cloud computing [M ].Beijing:Publishing House of Electronics Industry,2010.

        [4] REESE G.Cloud application architectures:building applications and infrastructure in the cloud [M].New York:OˊReilly Media,2009.

        [5] 辛 軍 ,陳 康 ,鄭 緯 民. 虛 擬 化 集 群 管 理 技 術(shù) 研 究 [J]. 計(jì) 算 機(jī) 科學(xué)與探索,2010(4):325-327. XIN J,CHEN K,ZHENG W M.Studies on virtualization of cluster resource management technology[J].Journal of Frontiers of Computer Science and Technology,2010(4):325-327.

        [6] HDFS scalability with multiple NameSpaces [EB/OL].[2015-09-20].http:/issues.apache.org/jira/browse/HDFS-1052.

        [7] WHITE T.Hadoop:the definitive gide[M].New York:OˊReilly Media,2009.

        [8] Hadoop apache project [EB/OL]. [2015-09-20].http:/hadoop. apache.org.

        [9] GHEMAWAT S,GOBIOFF H,LEUNG S T.The Google file system [C]/SOSP,October 19-22,2003,Bolton Landing,New York,USA.New York:ACM Press,2003.

        [10]陳 遠(yuǎn) ,羅 琳. 信 息 系 統(tǒng) 中 的 數(shù) 據(jù) 質(zhì) 量 問 題 研 究 [J]. 中 國 圖 書館學(xué)報(bào),2004(1):48-50. CHEN Y,LUO L.Research on data quality in information system[J].Journal of Library Science in China,2004(1):48-50.

        [11]胡 金林,梅士 員. 基 于 元 數(shù) 據(jù) 擴(kuò) 展 的 空 間 數(shù) 據(jù) 質(zhì) 量 管 理 方 法[J]. 現(xiàn) 代 測 繪 ,2004,27(3):21-24. HU J L,MEI S Y.The extended metadata method of spatial data quality management [J].Modern Surveying and Mapping,2004,27(3):21-24.

        Practice and application of distributed data quality management system in power enterprise

        LI Yuanning,LIU Sen,ZHANG Shijun,CHEN Feng,WANG Zhiying
        Information Department of China Southern Power Grid Co.,Ltd.,Guangzhou 510623,China

        As the improvement of the enterprise’s informationalization level and the increasing management requirement of enterprise refinement,the demand of data management of enterprise is becoming greater and greater,how to improve the data quality of the enterprise is the key problem needed to be solved.Aiming at the challenges of data quality management that the power enterprise faces,some solutions for distributed data quality management were proposed.After researching the system features of data quality,some foreign and domestic cases of big data were analyzed as reference,and a solution based on Hadoop distributed processing framework was given to solve the performance bottleneck of centralized data quality system.Hadoop clustering could dissociate defect data from Oracle and the data would be stored separately on multiple servers of the clustering,which could improve the I/O performance and data analysis performance of the magnetic disk effectively.

        data quality management,distributed,Hadoop

        TP391

        :A

        10.11959/j.issn.1000-0801.2016104

        李遠(yuǎn)寧(1981-),男,博士,中國南方電網(wǎng)有限責(zé)任公司信息部高級工程師,主要從事大數(shù)據(jù)分析及應(yīng)用工作。

        張?jiān)娷姡?973-),男,中國南方電網(wǎng)有限責(zé)任公司信息部高級工程師,主要從事數(shù)據(jù)管理、管理信息化工作。

        陳豐(1973-),男,中國南方電網(wǎng)有限責(zé)任公司信息部工程師,主要從事管理信息化、架構(gòu)設(shè)計(jì)工作。

        劉森(1983-),男,博士,中國南方電網(wǎng)有限責(zé)任公司信息部工程師,主要從事大數(shù)據(jù)分析及應(yīng)用工作。

        王志英(1962-),男,中國南方電網(wǎng)有限責(zé)任公司信息部教授級高級工程師,主要從事管理信息化、架構(gòu)設(shè)計(jì)工作。

        2015-09-20;

        2016-03-11

        猜你喜歡
        集中式引擎校驗(yàn)
        光伏:分布式新增裝機(jī)規(guī)模首次超越集中式
        能源(2018年8期)2018-09-21 07:57:16
        爐溫均勻性校驗(yàn)在鑄鍛企業(yè)的應(yīng)用
        藍(lán)谷: “涉藍(lán)”新引擎
        商周刊(2017年22期)2017-11-09 05:08:31
        組串式、集中式逆變器的評估選定淺析
        電子測試(2017年23期)2017-04-04 05:07:46
        接觸網(wǎng)隔離開關(guān)集中式控制方案研究
        電氣化鐵道(2016年5期)2016-04-16 05:59:55
        光伏集中式逆變器與組串式逆變器
        無形的引擎
        河南電力(2015年5期)2015-06-08 06:01:46
        大型電動機(jī)高阻抗差動保護(hù)穩(wěn)定校驗(yàn)研究
        電測與儀表(2015年1期)2015-04-09 12:03:02
        基于加窗插值FFT的PMU校驗(yàn)方法
        鍋爐安全閥在線校驗(yàn)不確定度評定
        国产精品国产三级国产专播 | 夜夜未满十八勿进的爽爽影院| 久久久国产精品麻豆| 亚洲AV色欲色欲WWW| 特级国产一区二区三区| 国产精品人人做人人爽人人添| 无码人妻精品一区二区三区下载| 99精品热6080yy久久| 国产精品午夜福利天堂| 日韩中文在线视频| 午夜在线观看一区二区三区四区| 国产午夜在线视频观看| 无码人妻久久一区二区三区蜜桃| 少妇高潮潮喷到猛进猛出小说| 美女一级毛片免费观看97| 日本在线观看一区二区三区视频 | 亚洲av无码片vr一区二区三区| 日产无人区一线二线三线新版| 2021久久精品国产99国产| 成人国产高清av一区二区三区| 国产不卡视频一区二区三区| 一本无码av中文出轨人妻| 精品手机在线视频| 国产一区二区三区日韩精品| 亚洲偷自拍国综合第一页| 国产天美传媒性色av| 亚洲一区二区三区av在线免费| 亚洲成在人线天堂网站| 国产乱妇无码大片在线观看| av大片在线无码免费| 日本专区一区二区三区| 久久精品这里就是精品| 一区二区三区天堂在线| 国产精品三级av及在线观看| 少妇高潮喷水正在播放| 久久精品国产亚洲av热九| 蜜桃视频在线免费观看| 全部孕妇毛片| 国产成人自产拍免费视频| 91亚洲国产成人精品一区.| 国产成人亚洲综合色婷婷|