亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于降維聚類技術(shù)的電力負(fù)荷數(shù)據(jù)挖掘研究

        2021-11-29 05:24:04萬嘉琳
        能源與環(huán)保 2021年11期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        郭 璟,萬嘉琳,劉 凱,秦 玥,金 晶,曾 斐

        (國網(wǎng)上海浦東供電公司,上海 200122)

        隨著社會經(jīng)濟的高速發(fā)展,各類數(shù)據(jù)的規(guī)模急劇增加,得出數(shù)據(jù)背后的有效信息是十分艱巨而有用的工作,數(shù)據(jù)挖掘技術(shù)是必要的方法。數(shù)據(jù)挖掘技術(shù)在信息提取、信息預(yù)測方面體現(xiàn)出強有力的技術(shù)支持。而電力行業(yè)是國家發(fā)展的支柱性產(chǎn)業(yè),電力負(fù)荷數(shù)據(jù)作為電力產(chǎn)業(yè)的寶貴信息,在向智慧電網(wǎng)發(fā)展轉(zhuǎn)變過程中,電力網(wǎng)絡(luò)規(guī)模越來越大,電力負(fù)荷數(shù)據(jù)爆炸性增長[1],利用數(shù)據(jù)挖掘技術(shù)對電力負(fù)荷數(shù)據(jù)進行有效挖掘,是十分必要的。而利用聚類分析和降維算法對電力負(fù)荷數(shù)據(jù)進行研究,解決行業(yè)面臨的痛點,具有重要的現(xiàn)實價值。

        1 數(shù)據(jù)挖掘理論

        1.1 數(shù)據(jù)挖掘的功能與常用技術(shù)

        數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中提取出有價值、有意義的信息,然后將這類信息用以指導(dǎo)實踐工作。數(shù)據(jù)挖掘的步驟比較簡單,主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、模式評估以及知識表示[2]。數(shù)據(jù)挖掘主要的實現(xiàn)方式如圖1所示,其整個過程包括7個不同的階段,某一個階段一旦出現(xiàn)問題就會導(dǎo)致整個挖掘過程失敗。數(shù)據(jù)挖掘的功能很多,最直接的功能就是對數(shù)據(jù)進行類別的劃分,也可以對海量數(shù)據(jù)進行聚類和趨勢分析,然后結(jié)合當(dāng)前的知識,根據(jù)歷史有用信息實現(xiàn)數(shù)據(jù)預(yù)測,提高效率。

        圖1 數(shù)據(jù)挖掘過程示意

        數(shù)據(jù)挖掘所包含的技術(shù)十分繁多,包含有關(guān)聯(lián)分析、人工神經(jīng)網(wǎng)絡(luò)、聚類分析、決策樹技術(shù)、統(tǒng)計分析方法以及遺傳算法等[3]。本文主要以聚類分析為主,聚類分析就是通過算法學(xué)習(xí)的方式,將海量數(shù)據(jù)進行分類,讓數(shù)據(jù)依照預(yù)定的指標(biāo)歸納為不同的類別,在該種劃分依據(jù)下,具有相同或者相似屬性的數(shù)據(jù)相互靠近,集合成一類數(shù)據(jù)。使具有不同屬性的數(shù)據(jù)不斷調(diào)整相互遠(yuǎn)離。

        1.2 數(shù)據(jù)挖掘在電力負(fù)荷數(shù)據(jù)中的應(yīng)用

        隨著電力行業(yè)的變革,對電力負(fù)荷數(shù)據(jù)的有效信息提取也是十分有價值的,利用數(shù)據(jù)挖掘技術(shù)對電力負(fù)荷數(shù)據(jù)進行分析,以某種度量方式將數(shù)據(jù)進行無監(jiān)督的歸納,以共性抽取的方式提取出共同模式信息[4]。根據(jù)數(shù)據(jù)差異性的不同找出主要影響因素,依靠聚類分析的方法,可以從宏觀和微觀2種角度出發(fā),觀察電力負(fù)荷數(shù)據(jù)的分布情況,并能定位異常電力負(fù)荷數(shù)據(jù)[5]。然后,將歷史數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)模型對進行輸入,對數(shù)據(jù)模型進行訓(xùn)練和優(yōu)化測試。通過不斷更新的數(shù)據(jù),將最新的電力負(fù)荷數(shù)據(jù)放置到模型中,從而達(dá)到對未來電力負(fù)荷的準(zhǔn)確預(yù)測。

        2 K-means聚類分析算法

        2.1 K-means聚類算法

        聚類分析算法具有廣泛的應(yīng)用,諸多類型的聚類分析算法被研究學(xué)者提出,聚類分析算法一般有劃分聚類、層次聚類、基于密度、網(wǎng)格和基于模型的算法[6]。本文主要是基于劃分聚類算法,劃分聚類算法是根據(jù)定義的度量距離對數(shù)據(jù)進行劃分,該距離被定義為歐式距離,劃分聚類算法包括常見的CLARANS算法、K-means算法以及K-means各種改進算法[7]。

        K-means算法的實現(xiàn)步驟如圖2所示。

        圖2 K-means算法流程

        假設(shè)某一個數(shù)據(jù)集合里面具有N個數(shù)據(jù)對象,聚類數(shù)目為K個。首先遵照隨機性原則,從N個數(shù)據(jù)對象中抽取出K個聚類數(shù)目作為初始的聚類中心。其次,比較其他剩余數(shù)據(jù)對象與初始聚類中心的距離,距離最近的數(shù)據(jù)對象將被劃分到聚類中心所在類別中,當(dāng)全部數(shù)據(jù)對象劃分后,發(fā)生變化的類簇的聚類中心發(fā)生了更新。然后,測量計算結(jié)果是否符合預(yù)期效果,一旦發(fā)生不符合的結(jié)果,重新進行距離計算,劃分類別,直至達(dá)到設(shè)計要求。通過分析算法實現(xiàn)過程就可以了解,該算法簡單高效、數(shù)據(jù)均勻性好、空間復(fù)雜度低、算法可伸縮性較好。但其缺點也比較明顯,容易受到異常點的干擾和噪聲影響,不適用于非凸數(shù)據(jù)集合。聚類分析的評價指標(biāo)主要為戴維森堡丁(DBI)指數(shù),DBI為指標(biāo)考量類內(nèi)聚合度和類間的分散度[8],DBI指數(shù)的計算公式分別見式(1)、式(2)。

        (1)

        (2)

        式中,d(xk)和d(xj)分別為類內(nèi)數(shù)據(jù)到類別中心的距離;d(ck,cj)為不同類別的向量距離。

        2.2 數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理

        實驗數(shù)據(jù)取自美國代頓市某一年的居民住宅用戶1 436條的年度電力負(fù)荷數(shù)據(jù),該數(shù)據(jù)存儲于美國開放能源信息網(wǎng)站,該網(wǎng)站致力于數(shù)據(jù)開放功能[9]。通過篩取1 395條數(shù)據(jù)組成有效的負(fù)荷曲線,從而構(gòu)建出本文的實驗數(shù)據(jù)集。首先,將電力負(fù)荷數(shù)據(jù)集轉(zhuǎn)換成矩陣形式,將包含12個月的原始1 436條電力負(fù)荷曲線數(shù)據(jù),構(gòu)建成1 436×12維的數(shù)據(jù)矩陣,用x(i,r)表示第i條負(fù)荷曲線在r月上的電力負(fù)荷數(shù)據(jù)值。其數(shù)據(jù)矩陣形式X如公式(3)所示。

        (3)

        為了剔除異常數(shù)據(jù)值,針對一條曲線中12位數(shù)據(jù)值,如果缺失數(shù)值連續(xù)2位以及2位以上缺失或者數(shù)值不連續(xù)且不少于3位,則直接將該條數(shù)據(jù)刪除。對于原始數(shù)值中的異常篩選采用式(4)和式(5)分析曲線的組內(nèi)均值和方差。而對于異常點的判斷標(biāo)準(zhǔn)是組內(nèi)均值變化幅度超過了組內(nèi)標(biāo)準(zhǔn)差的3倍以上,則判定為異常數(shù)值點,判別公式見式(6),經(jīng)過上述的處理與剔除,篩選出1 395條數(shù)據(jù),構(gòu)建出1 395×12的實驗數(shù)據(jù)集矩陣。

        (4)

        (5)

        (6)

        為了保證減小數(shù)據(jù)量綱的復(fù)雜性同時提高計算效率[10],采用歸一化處理,將上述數(shù)據(jù)采取歸一化,使數(shù)值全部映射到0~1的統(tǒng)一區(qū)間,歸一化處理數(shù)據(jù)的公式見式(7):

        xs=(x-xmin)/(xmax-xmin)

        (7)

        便于對數(shù)據(jù)的觀察和處理,也降低了實際計算成本。歸一化后電力負(fù)荷曲線的樣本分布情況如圖3所示。

        圖3 電力負(fù)荷曲線總體分布情況

        圖3中,數(shù)據(jù)體現(xiàn)出雜亂無章的分布情形,并且無法挖掘出有效的信息,需要進一步對數(shù)據(jù)進行降維處理,通過適當(dāng)?shù)木垲惙治?,得出客戶的用電分析行為模式?/p>

        3 電力負(fù)荷數(shù)據(jù)降維聚類分析

        3.1 降維算法分析

        數(shù)據(jù)體量的增加往往伴隨著數(shù)據(jù)維度的增加,數(shù)據(jù)維度的增加導(dǎo)致高位空間的數(shù)據(jù)稀疏性增加[11],導(dǎo)致數(shù)據(jù)價值的降低,利用數(shù)據(jù)挖掘技術(shù)獲取有用數(shù)據(jù)信息的成本增加,產(chǎn)生“維度災(zāi)難”。所以針對高維度數(shù)據(jù)的降維處理是十分必要的。降維有助于減少數(shù)據(jù)存儲空間[12],利于分清數(shù)據(jù)背后的規(guī)律,并且有效去除冗余特征。其主要分為線性降維和非線性降維[13],其算法分類如圖4所示。

        圖4 降維算法分類

        選取降維算法PCA、KPCA、LLE、MDS、ISOMAP進行對照,將電力負(fù)荷數(shù)據(jù)進行壓縮。然后利用K-means算法進行最佳聚類,選取最佳聚類數(shù)K′=2,得到不同維度與DBI指標(biāo)的關(guān)系,如圖5所示。同時,上述5種降維算法對應(yīng)DBI的組內(nèi)方差見表1。由表1的數(shù)據(jù)可知,線性降維算法與非線性降維算法在對聚類精度的影響方面顯示出不同。當(dāng)維度為11時,PCA算法的DBI值對應(yīng)組內(nèi)方差為0.692 3,是非線性降維算法均值的2.46倍。由此,可以看出線性降維算法處理本文的實驗數(shù)據(jù)集效果比較差。并且5種算法在維度D=2時DBI的值都處于最小值,此時的聚類精度最高,那么輸出維度為2時可以作為該數(shù)據(jù)集的最佳輸出維度。由圖5和表1可以看出,KPCA算法和ISOMAP算法的降維效果最好,同時KPCA、ISOMAP的降維精度比較高。

        圖5 不同降維算法在不同維度上的降維聚類精度對比

        表1 不同降維算法對應(yīng)DBI的組內(nèi)方差

        3.2 結(jié)合降維技術(shù)的聚類分析組合算法

        選取降維算法KPCA和ISOMAP兩種方式,將實驗數(shù)據(jù)集合降維至維度為2。然后利用K-means聚類到最佳聚類數(shù)K′=2。將12維的電力負(fù)荷數(shù)據(jù)在二維平面展開后如圖6和圖7所示。

        圖6 KPCA+K-means組合算法聚類結(jié)果

        圖7 ISOMAP+K-means組合算法聚類結(jié)果

        KPCA+K-means組合算法的聚類結(jié)果分布均勻,深色點表示聚類中心,淺色點表示電力負(fù)荷曲線平面點。而ISOMAP+K-means結(jié)果顯示數(shù)據(jù)稀疏區(qū)和數(shù)據(jù)密集區(qū)對比區(qū)分明顯。為了對比加入聚類分析方法,以及降維方法的對照,采用K-means、KPCA+K-means、ISOMAP+K-means三種算法,比較聚類精度和不同聚類數(shù)目下的時間,其對比如圖8和圖9所示。

        圖8 3種算法在不同聚類數(shù)的聚類精度對比

        圖9 3種算法在不同聚類數(shù)目下的聚類時間對比

        對比KPCA+K-means組合算法與K-means的DBI指標(biāo),組合算法的聚類精度有所降低,而相比較下,ISOMAP+K-means組合算法的聚類精度比K-means的精度提升很多,大約為24.31%。KPCA+K-means組合算法會在提取數(shù)據(jù)的特征過程中造成部分信息的丟失。而在不同聚類數(shù)目下,計算時間最長的是ISOMAP+K-means組合算法,相比于K-means和KPCA+K-means組合算法的時間增加65.61%和74.89%,ISOMAP+K-means組合算法的計算效率最快。

        綜上所述,由于ISOMAP+K-means組合算法將實驗數(shù)據(jù)集分為稀疏區(qū)和密集區(qū)分離開,聚類精度較高,但是計算速度不快。相比而言,KPCA+K-means組合算法數(shù)據(jù)分布均勻,可以有效地使計算速度提高。

        4 結(jié)論

        本文針對高維度的電力負(fù)荷數(shù)據(jù)作為分析對象,采用聚類分析作為挖掘技術(shù)的主要手段,對數(shù)據(jù)進行降維。采用美國開放能源信息網(wǎng)站的電力數(shù)據(jù)作為初始實驗數(shù)據(jù)集,然后對數(shù)據(jù)進行預(yù)處理。選取聚類能力最強的K-means算法作為聚類的主要手段。然后通過對比5種降維技術(shù),采納ISOMAP和KPCA降維算法與K-means分別組合。通過綜合分析,得出結(jié)論:結(jié)合降維算法,聚類分析的聚類精度和聚類效率都會有所增強。在未來的研究中,提高K-means的并行算法能力是十分重要的研究方向,將是后續(xù)研究的重點。

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        AV中文字幕在线视| 真人新婚之夜破苞第一次视频| 亚洲精品久久久久久动漫 | 国产成人精品免费视频大全| 国产精品一区二区蜜臀av| 亚洲国产精品久久精品| 美女又色又爽视频免费| 国产精品国产三级在线高清观看 | 亚洲国产精品成人av在线不卡| 国产精品亚洲а∨天堂2021| 久久99精品久久久久久| 中文字幕麻豆一区二区| 国产精品人妻熟女男人的天堂| 国产人妻熟女高跟丝袜图片| 国产在线白丝DVD精品| 人妻中文字幕一区二区二区| 好看的日韩精品视频在线| 7m精品福利视频导航| 国产2021精品视频免费播放| 成人影院免费视频观看| 蜜桃视频在线观看免费亚洲| 少妇下蹲露大唇无遮挡| ZZIJZZIJ亚洲日本少妇| 91青青草手机在线视频| 国产中文三级全黄| 国产成人无码精品午夜福利a| 亚洲AV秘 片一区二区三区| av在线播放免费网站| 人妻少妇偷人精品无码| 亚洲AV无码专区一级婬片毛片| 国产视频在线播放亚洲| 亚洲欧洲日产国码av系列天堂| 国产96在线 | 欧美| 在线偷窥制服另类| 一本色道久在线综合色| 18禁真人抽搐一进一出在线| 2021年国产精品每日更新| 女同亚洲一区二区三区精品久久| 成人中文乱幕日产无线码| 中文在线天堂网www| 少妇久久高潮不断免费视频|