亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類分析的離群檢測(cè)方法在電網(wǎng)數(shù)據(jù)質(zhì)量管理中的應(yīng)用研究

        2016-04-12 00:00:00嚴(yán)宇平蕭展輝
        現(xiàn)代電子技術(shù) 2016年15期

        摘 要: 隨著各種技術(shù)在電力企業(yè)信息系統(tǒng)數(shù)據(jù)質(zhì)量檢測(cè)中的應(yīng)用,企業(yè)數(shù)據(jù)質(zhì)量得到大幅度提升。然而,當(dāng)前的數(shù)據(jù)質(zhì)量檢測(cè)方法一般只是針對(duì)數(shù)據(jù)缺失、亂碼、特殊字符等淺表的顯性數(shù)據(jù)質(zhì)量問(wèn)題提出了解決方案,對(duì)于沒(méi)有明顯業(yè)務(wù)規(guī)則、隱性的數(shù)據(jù)質(zhì)量問(wèn)題仍然缺少有效的技術(shù)檢測(cè)手段。以廣東電網(wǎng)公司生產(chǎn)設(shè)備臺(tái)帳數(shù)據(jù)質(zhì)量檢測(cè)為例,提出了基于聚類分析的數(shù)據(jù)異常值樣本離群檢測(cè)技術(shù),探索該技術(shù)在數(shù)據(jù)質(zhì)量提升中的典型應(yīng)用方法,為不斷完善數(shù)據(jù)質(zhì)量檢測(cè)規(guī)則提供了技術(shù)支撐。

        關(guān)鍵詞: 數(shù)據(jù)質(zhì)量; 聚類分析; 離群檢測(cè); 設(shè)備臺(tái)帳; 異常值

        中圖分類號(hào): TN915?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)15?0137?03

        Abstract: With the application of various techniques in information system data quality detection of power enterprise, the enterprise data quality is improved shapely. The current data quality detection methods only can provide the solutions for the obvious data quality problems, such as data missing, messy code, special character, and lack the effective technical detection means for the unobvious business rules and recessive data quality problems. In this paper, the production equipment account data quality detection of Guangdong Power Grid Corporation is taken as an example, and the sample outlier detection technology of data abnormal value based on cluster analysis is proposed. The typical application method of this technology in data quality promotion is explored to provide the technical support for the constant improvement of data quality detection rules.

        Keywords: data quality; cluster analysis; outlier detection; equipment account; abnormal value

        0 引 言

        近年來(lái),隨著信息化建設(shè)進(jìn)程的加快和信息系統(tǒng)的長(zhǎng)期運(yùn)行,廣東電網(wǎng)公司積累了大量在線數(shù)據(jù),為業(yè)務(wù)指導(dǎo)和經(jīng)營(yíng)決策奠定了基礎(chǔ)。為了提升信息系統(tǒng)數(shù)據(jù)質(zhì)量,加速信息系統(tǒng)的實(shí)用化,廣東電網(wǎng)公司建立了數(shù)據(jù)質(zhì)量檢測(cè)平臺(tái),平臺(tái)運(yùn)行后,數(shù)據(jù)質(zhì)量的檢測(cè)效率、檢測(cè)覆蓋面和準(zhǔn)確率都得到大幅提升[1]。然而,當(dāng)前的數(shù)據(jù)質(zhì)量檢測(cè)方法一般只是針對(duì)數(shù)據(jù)缺失、亂碼、特殊字符等淺表的顯性數(shù)據(jù)質(zhì)量問(wèn)題提出了解決方案,對(duì)于沒(méi)有明顯業(yè)務(wù)規(guī)則、隱性的數(shù)據(jù)質(zhì)量問(wèn)題仍然缺少有效的技術(shù)檢測(cè)手段。如對(duì)于涉及復(fù)雜場(chǎng)景的潛在數(shù)據(jù)質(zhì)量問(wèn)題,如線路長(zhǎng)度、設(shè)備電流值、缺陷類別等,校驗(yàn)規(guī)則比較寬泛,大多數(shù)情況只考慮單個(gè)字段,缺少對(duì)指標(biāo)間關(guān)聯(lián)規(guī)則的考慮,造成數(shù)據(jù)質(zhì)量問(wèn)題挖掘不全面、不到位。

        基于聚類分析的離群檢測(cè)數(shù)據(jù)挖掘方法能夠根據(jù)數(shù)據(jù)支撐的業(yè)務(wù)目標(biāo),對(duì)海量數(shù)據(jù)進(jìn)行快速、高效、準(zhǔn)確的提取,有效挖掘出隱藏的離群數(shù)據(jù)點(diǎn),分析其背后的原因,結(jié)合實(shí)際業(yè)務(wù)規(guī)則判定是否為壞數(shù)據(jù),有針對(duì)性的進(jìn)行處理,進(jìn)而提高數(shù)據(jù)質(zhì)量水平。本文將基于該方法在數(shù)據(jù)質(zhì)量檢測(cè)中的應(yīng)用展開(kāi)研究。

        1 基于聚類分析的離群檢測(cè)關(guān)鍵技術(shù)研究

        離群點(diǎn)檢測(cè)是數(shù)據(jù)挖掘技術(shù)的重要研究領(lǐng)域之一,用來(lái)發(fā)現(xiàn)數(shù)據(jù)明顯偏離于其他數(shù)據(jù),不滿足數(shù)據(jù)的一般行為或模式的數(shù)據(jù)。離群點(diǎn)的挖掘方法很多,可分為基于統(tǒng)計(jì)的、基于深度的、基于聚類的、基于距離的和基于密度的分析方法[2?3]。本文主要研究基于聚類分析的離群檢測(cè)方法。

        聚類的思想主要是利用數(shù)據(jù)點(diǎn)和聚簇間的相互關(guān)系,通過(guò)把數(shù)據(jù)集分為多個(gè)不同的簇,使得聚簇內(nèi)的數(shù)據(jù)點(diǎn)相似度最高,而不同聚簇間的差異度最大。主要算法[4?5]包括CLIQUE,CLARAN,K?means,F(xiàn)indCBLOF等。

        根據(jù)數(shù)據(jù)點(diǎn)和聚簇的關(guān)系,可分為是否屬于聚簇、遠(yuǎn)離聚簇、屬于稀疏或較小的聚簇,基于聚類的離群檢測(cè)包括以下三種思路[4]:

        (1) 正常數(shù)據(jù)屬于某個(gè)類簇,而離群數(shù)據(jù)不屬于任何一個(gè)類簇。這類聚類方法不同之處在于,其不強(qiáng)制每個(gè)數(shù)據(jù)對(duì)象歸為一個(gè)類簇。典型算法是CLARANS。

        (2) 正常數(shù)據(jù)與離其較近的類簇中心距離較近,而離群數(shù)據(jù)遠(yuǎn)離與其最近的類簇中心?;谶@種假設(shè)的離群檢測(cè)方法通常包括兩個(gè)階段:第一階段采用聚類算法對(duì)數(shù)據(jù)進(jìn)行聚類;第二階段針對(duì)每個(gè)數(shù)據(jù)對(duì)象,計(jì)算每個(gè)對(duì)象到其最近的類簇中心的距離,并將這個(gè)距離作為離群度量。典型算法為K?means。

        (3) 正常數(shù)據(jù)屬于較大且較密的類簇,而離群數(shù)據(jù)位于較小和較為稀疏的類簇。該方法首先給出一個(gè)關(guān)于類簇大小和密度的閾值,小于此閾值的類簇整體都被認(rèn)為是離群數(shù)據(jù)。典型算法是FindCBLOF。

        針對(duì)廣東電網(wǎng)公司的數(shù)據(jù)現(xiàn)狀,選取K?means聚類算法作為離群點(diǎn)檢測(cè)的主要算法。

        1.1 K?means聚類算法原理

        K?means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離相近的對(duì)象組成,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。

        1.2 K?means聚類算法特點(diǎn)

        K?means聚類算法快速、簡(jiǎn)單;對(duì)大數(shù)據(jù)集有較高的效率并且是可伸縮的;時(shí)間復(fù)雜度近似于線性,而且適合挖掘大規(guī)模數(shù)據(jù)集。

        1.3 K?means聚類算法規(guī)則

        2 基于聚類分析的離群點(diǎn)檢測(cè)方法在數(shù)據(jù)質(zhì)量

        檢測(cè)中的典型應(yīng)用

        通過(guò)對(duì)數(shù)據(jù)的初步探索可知,斷路器重量的數(shù)值在數(shù)據(jù)錄入過(guò)程中容易被忽視,部分?jǐn)?shù)據(jù)存在錄入不準(zhǔn)確的問(wèn)題,由于斷路器的重量沒(méi)有明確的技術(shù)規(guī)范來(lái)確定數(shù)值范圍,基本的統(tǒng)計(jì)分析方法難以較好地定位異常值。同時(shí)絕大部分重量的錄入值是正確的,異常數(shù)據(jù)屬于少數(shù),符合利用基于聚類分析的離群點(diǎn)檢測(cè)方法進(jìn)行數(shù)據(jù)質(zhì)量問(wèn)題的檢測(cè)。利用聚類的方法可自動(dòng)識(shí)別相似性較高的數(shù)據(jù),自動(dòng)按相似性分割為不同的簇,樣本數(shù)較少的簇往往存在數(shù)據(jù)質(zhì)量問(wèn)題。因此,選取斷路器相關(guān)數(shù)據(jù)質(zhì)量檢測(cè)作為基于聚類分析的離群點(diǎn)檢測(cè)方法的典型應(yīng)用場(chǎng)景。主要應(yīng)用步驟包含:確定數(shù)據(jù)源、進(jìn)行數(shù)據(jù)探索、確定建模數(shù)據(jù)、進(jìn)行聚類分析、識(shí)別異常數(shù)據(jù)。

        算法執(zhí)行過(guò)程中,初步設(shè)定聚類數(shù)為20,通過(guò)聚類指標(biāo)和觀測(cè)實(shí)際評(píng)估聚類效果,重復(fù)設(shè)定合理的聚類數(shù),不斷優(yōu)化聚類模型。根據(jù)聚類的相關(guān)指標(biāo)評(píng)估原理,若偽[F]統(tǒng)計(jì)量較大而分類數(shù)較少,且[R]方不再大幅度增加,則可表明聚類效果良好,并且通過(guò)進(jìn)一步查看原觀測(cè)分群情況,把數(shù)據(jù)集分為15類較為合理,加上剔除的缺失值,共16類。分析相關(guān)指標(biāo)如表1所示。

        建模結(jié)束后,尚需對(duì)斷路器重量數(shù)據(jù)進(jìn)行業(yè)務(wù)特征刻畫(huà),從而反映不同電壓等級(jí)的斷路器重量的特征差別。目前廣東電網(wǎng)數(shù)據(jù)質(zhì)量管理系統(tǒng)未設(shè)定規(guī)則對(duì)主網(wǎng)斷路器重量字段進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè),由聚類結(jié)果可知,主網(wǎng)斷路器重量的聚類結(jié)果與電壓等級(jí)具有較強(qiáng)相關(guān)性。進(jìn)一步分析正常數(shù)據(jù)各電壓等級(jí)的重量范圍,500 kV及以上斷路器重量可考慮設(shè)定為2 000~13 000 kg;220~252 kV斷路器重量可考慮設(shè)定為500~8 000 kg;35~145 kV斷路器重量可考慮設(shè)定為200~6 000 kg。針對(duì)各電壓等級(jí)下斷路器的重量,建議進(jìn)行數(shù)據(jù)質(zhì)量問(wèn)題檢測(cè)的規(guī)則如表3所示。

        選取主網(wǎng)斷路器的重量字段9 190條非缺失且電壓等級(jí)在合理范圍內(nèi)的數(shù)據(jù)作為模型驗(yàn)證集,應(yīng)用上述案例聚類模型形成的規(guī)則進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè),可以發(fā)現(xiàn)1 032條存在潛在問(wèn)題的記錄,模型實(shí)際檢測(cè)效果良好,能夠有效地發(fā)現(xiàn)主網(wǎng)斷路器重量字段的數(shù)據(jù)質(zhì)量問(wèn)題。為了進(jìn)一步提升檢測(cè)有效性,需進(jìn)行實(shí)地調(diào)研和專家訪談,對(duì)檢測(cè)規(guī)則進(jìn)行評(píng)估,進(jìn)一步細(xì)化和補(bǔ)充模型檢測(cè)規(guī)則。

        3 結(jié) 語(yǔ)

        本文針對(duì)廣東電網(wǎng)公司數(shù)據(jù)質(zhì)量檢測(cè)中存在的問(wèn)題,通過(guò)對(duì)基于聚類分析的離群檢測(cè)方法關(guān)鍵技術(shù)進(jìn)行研究,以斷路器重量等相關(guān)數(shù)據(jù)質(zhì)量檢測(cè)為典型應(yīng)用場(chǎng)景,建立了該方法的應(yīng)用解決方案,并提出了數(shù)據(jù)檢測(cè)規(guī)則固化的建議。對(duì)于那些沒(méi)有明確技術(shù)規(guī)范來(lái)確定數(shù)據(jù)取值范圍的連續(xù)數(shù)值類字段,可結(jié)合實(shí)際業(yè)務(wù)場(chǎng)景,采用聚類方法發(fā)現(xiàn)潛在數(shù)據(jù)質(zhì)量問(wèn)題,如設(shè)備的重量、線路長(zhǎng)度、桿塔數(shù)量等。經(jīng)應(yīng)用校驗(yàn)表明基于聚類分析離群檢測(cè)數(shù)據(jù)挖掘方法在數(shù)據(jù)質(zhì)量檢測(cè)方面的應(yīng)用效果顯著。有效提升了廣東電網(wǎng)公司數(shù)據(jù)質(zhì)量和信息系統(tǒng)實(shí)用化水平。

        參考文獻(xiàn)

        [1] 楊浩,徐暉,蕭展輝,等.廣東電網(wǎng)公司生產(chǎn)管理信息系統(tǒng)實(shí)用化評(píng)價(jià)研究[J].廣東電力,2010,23(4):29?34.

        [2] 薛安榮,姚林,鞠時(shí)光,等.離群點(diǎn)挖掘算法綜述[J].計(jì)算機(jī)科學(xué),2008,35(11):13?18.

        [3] RAMASWAMY S, RASTOGI R, SHIM K. Efficient algorithms for mining outliers from large data sets [J]. ACM SIGMOD record, 2000, 29(2): 427?438.

        [4] 雷大江.離群檢測(cè)與離群釋義算法研究[D].重慶:重慶大學(xué),2012.

        [5] SMITH R, BIVENS A, EMBRECHTS M, et al. Clustering approaches for anomaly based intrusion detection [J]. Proceedings of intelligent engineering systems through artificial neural networks, 2002, 12: 579?584.

        [6] 范明,范宏建.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2012.

        [7] HAN J, KAMBER M, PEI J. Data mining: concepts and techniques [M]. San Francisco: Morgan Kaufmann, 2006.

        亚洲国产中文在线二区三区免| 成人国产精品一区二区八戒网| 男人的天堂中文字幕熟女人妻| 精品深夜av无码一区二区| 青青操国产在线| 国产av91在线播放| 国产亚洲精品在线视频| 人妻体内射精一区二区三四| 中文字幕+乱码+中文字幕无忧| 亚洲αv在线精品糸列| 丰满又紧又爽又丰满视频| 人人人妻人人澡人人爽欧美一区 | 人妻少妇偷人精品无码 | 国产女人91精品嗷嗷嗷嗷| 亚洲情精品中文字幕99在线| 风韵丰满熟妇啪啪区老老熟妇| 日韩人妻无码一区二区三区| 91国在线啪精品一区| 情头一男一女高冷男女| 久久99精品久久久久久琪琪| 风韵饥渴少妇在线观看| 91热国内精品永久免费观看| 一区二区精品天堂亚洲av| 私人vps一夜爽毛片免费| 破了亲妺妺的处免费视频国产| 漂亮的小少妇诱惑内射系列| 国产激情自拍在线视频| 亚洲av中文无码乱人伦在线播放| 日韩我不卡| 91亚洲夫妻视频网站| 亚洲自偷自拍另类第1页| 国产乱人伦偷精品视频| 久久久精品国产亚洲麻色欲| 一区二区三区激情免费视频| 人人爽久久涩噜噜噜av| 国产在线视欧美亚综合| 国产人妖在线观看一区二区三区| 挺进邻居丰满少妇的身体| 亚洲精品成人专区在线观看| 都市激情亚洲综合一区| 日本真人添下面视频免费 |