黃純德 陳曉亮 朱珊珊 王晶華 郭光
摘要:隨著智能電網(wǎng)的不斷優(yōu)化擴展及數(shù)據(jù)集的沉淀,海量大數(shù)據(jù)因為數(shù)據(jù)量太大、維數(shù)太高而陷入了“維數(shù)災(zāi)難”中,在工程實踐中難以對其進行有效的研究。提出了運用拉普拉斯特征映射(Laplacian Eigenmaps)對電網(wǎng)大數(shù)據(jù)進行自適應(yīng)學(xué)習(xí)并降維,運用降維后的數(shù)據(jù)在Hadoop平臺上進行實驗分析,證明其能有效地應(yīng)用于智能電網(wǎng)大數(shù)據(jù)的降維運算。
關(guān)鍵詞:智能電網(wǎng)大數(shù)據(jù);機器學(xué)習(xí);拉普拉斯特征映射;數(shù)據(jù)降維
中圖分類號:TP30文獻標志碼:A文章編號:1008-1739(2018)18-69-3
Big Data Dimensionality Reduction Method for Grid Based on Machine Learning
HUANG Chunde1, CHEN Xiaoliang2, ZHU Shanshan2, WANG JingHua2, GUO Guang3(1. Shanxi Electric Power Research Institute, Electric Power Company of State Grid, TaiYuan Shanxi 030001, China; 2. Shanxi Electric Power Company of State Grid, TaiYuan Shanxi 030001, China; 3. Beijing Zhongke Chuangyi Technology Co., Ltd., BeiJing 100198, China)
0引言
智能電網(wǎng)在電力網(wǎng)絡(luò)運行、用電信息收集、儀器儀表狀態(tài)檢測及計費營銷記錄系統(tǒng)等多個方面會產(chǎn)生大量的數(shù)據(jù),有效地從這些數(shù)據(jù)中挖掘有價值的信息具有重要的意義。雖然這些海量大數(shù)據(jù)中包含了智能電網(wǎng)運行的重要信息,但是卻因為數(shù)據(jù)量太大、維數(shù)太大而陷入了“維數(shù)災(zāi)難”中,在工程實踐中難以對其進行有效的研究。周國亮等人[1-2]針對輸變電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)價值密度低的特點,利用分形理論對監(jiān)測數(shù)據(jù)做降維處理,對提高設(shè)備的狀態(tài)評估及故障診斷水平具有一定的輔助作用。趙慶周等人[3]根據(jù)網(wǎng)絡(luò)關(guān)聯(lián)矩陣以及區(qū)域差分規(guī)則,對各節(jié)點測控一體化終端采集的電流、功率數(shù)據(jù)進行預(yù)處理,生成高維時空狀態(tài)監(jiān)測矩陣來分析智能電網(wǎng)的運行狀態(tài)。這些方法對智能電網(wǎng)大數(shù)據(jù)預(yù)處理有一定的效果,但是其前期需要做大量的準備和篩選工作,不利于工程實踐的應(yīng)用。因此,本文提出一種基于機器學(xué)習(xí)的智能電網(wǎng)大數(shù)據(jù)預(yù)處理方法,能有效地實現(xiàn)對智能電網(wǎng)的海量大數(shù)據(jù)進行降維處理。
1智能電網(wǎng)大數(shù)據(jù)
大數(shù)據(jù)處理是指運用各類數(shù)學(xué)分析理論和方法,對各類軟硬件系統(tǒng)中的數(shù)據(jù)集合進行感知、獲取、管理、處理和分析的過程。從電力企業(yè)的角度對從智能電網(wǎng)中采集到的海量大數(shù)據(jù)按照數(shù)據(jù)來源進行劃分,可以分成企業(yè)內(nèi)部數(shù)據(jù)和企業(yè)外部數(shù)據(jù)2類:①內(nèi)部數(shù)據(jù):大多來自于電網(wǎng)的技術(shù)及應(yīng)用系統(tǒng),主要包含電力生產(chǎn)及管理系統(tǒng)、電網(wǎng)數(shù)據(jù)獲取及監(jiān)控系統(tǒng)、配電輸電控制系統(tǒng)及客戶信息和服務(wù)系統(tǒng)等;②企業(yè)外部數(shù)據(jù)則比較分散,數(shù)據(jù)的形式及管理單位也不統(tǒng)一,其主要來自于地理信息系統(tǒng)、氣象信息系統(tǒng)以及互聯(lián)網(wǎng)等。智能電網(wǎng)大數(shù)據(jù)具有數(shù)據(jù)形式多樣、數(shù)據(jù)來源廣泛等特性,并且半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)數(shù)量也在一直增加。
智能電網(wǎng)的大數(shù)據(jù)主要有以下4個特點[4],如圖1所示。①來源多重性:數(shù)據(jù)源是多種多樣的,且大小不一的系統(tǒng)并存;②空間分布性:數(shù)據(jù)源在空間中的分布各不相同,從家庭智能電表,到各級變壓器及變電站等,無處不在;③時間多尺度性:數(shù)據(jù)時間跨度大,差別很大;④實時交互性:SCADA數(shù)據(jù)、智能電表數(shù)據(jù)及PMU數(shù)據(jù)等可以實時反應(yīng)電網(wǎng)的運行狀態(tài)。
2拉普拉斯特征映射數(shù)據(jù)降維
從智能電網(wǎng)中采集到的高維樣本數(shù)據(jù)(維)實際上是在一個低維流形中(維,≤)并且該流形結(jié)構(gòu)保留了原始數(shù)據(jù)的幾何特征,而為樣本數(shù)據(jù)的本征維數(shù)。作為有效的機器學(xué)習(xí)大數(shù)據(jù)降維方法,拉普拉斯特征映射是一種從局部的角度去構(gòu)建數(shù)據(jù)間關(guān)系的非線性降維方法[5],其思想是計算和尋找出相互間有關(guān)系的點在降維后的低維空間中盡可能地靠近,并能保留高維數(shù)據(jù)中的有用信息,反映出數(shù)據(jù)內(nèi)在的流形結(jié)構(gòu)。
3實驗分析
Laplacian Eigenmaps電網(wǎng)大數(shù)據(jù)降維算法將采用Java語言進行編碼,在Hadoop平臺中進行實驗驗證。Hadoop[6]是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),其采用Master/Slave模式,其中一個Master節(jié)點統(tǒng)一管理一個或多個Slaves節(jié)點,實驗中采用Hadoop2.2.0版系統(tǒng)。
將采用2類數(shù)據(jù)對Laplacian Eigenmaps算法的性能進行分析,這2類數(shù)據(jù)來自西南某地區(qū)智能電網(wǎng),其中,變壓器故障檢測數(shù)據(jù)Data1包括7個條件屬性和1個決策屬性,而智能變電站通信網(wǎng)絡(luò)實時性和可靠性預(yù)測數(shù)據(jù)Data2包括9個條件屬性和1個決策屬性,其數(shù)據(jù)集容量均為15 GB。對這2類數(shù)據(jù)集的條件屬性進行降維約簡,來比較不同屬性情況下Laplacian Eigenmaps算法的降維效率,然后針對加速比把該算法與常用并行降維算法進行性能比較分析。如表1所示,從時間復(fù)雜度、空間復(fù)雜度及算法準確性3個方面分析了Laplacian Eigenmaps算法與常用并行降維算法的性能優(yōu)劣。為了進一步證明本文方法的有效性,又從約簡效率和加速比這2個方面比較了本文方法與主流降維方法的性能,其結(jié)果如表2所示。
如圖3所示,Data1為15 GB的變壓器故障檢測數(shù)據(jù),Data2為15 GB的變電站通信網(wǎng)絡(luò)實時性和可靠性預(yù)測數(shù)據(jù),該圖表示這2類數(shù)據(jù)運用Laplacian Eigenmaps算法的降維效率。從圖中可以發(fā)現(xiàn),數(shù)據(jù)Data2降維所用的時間略多于Data1,這是由于Data2包含了9個條件屬性和1個決策屬性,多于Data1的7個條件屬性和1個決策屬性。
算法的降維約簡效率會隨著其并行化程度的升高而增加,為了驗證Laplacian Eigenmaps算法的約簡效率,利用15 GB的變壓器故障檢測數(shù)據(jù),對搭建的Hadoop平臺分別選取節(jié)點數(shù)為5,10和15進行等規(guī)模數(shù)據(jù)集的時效對比實驗,其實驗結(jié)果如圖4所示,可以看出,在數(shù)據(jù)規(guī)模不變的情況下,當節(jié)點數(shù)不斷地增加,Laplacian Eigenmaps算法的約簡效率也會相應(yīng)地提升。
4結(jié)束語
提出了一種基于機器學(xué)習(xí)的智能電網(wǎng)大數(shù)據(jù)預(yù)處理方法,用Laplacian Eigenmaps來對電網(wǎng)大數(shù)據(jù)進行自適應(yīng)學(xué)習(xí)并降維,然后運用降維后的數(shù)據(jù)來進行分析,在Hadoop平臺上進行了實驗分析,結(jié)果證明Laplacian Eigenmaps算法能有效地應(yīng)用于智能電網(wǎng)大數(shù)據(jù)的降維運算,提高了數(shù)據(jù)挖掘水平,具有非常廣闊的應(yīng)用前景。
參考文獻
[1]周國亮,宋亞奇,王桂蘭,等.狀態(tài)監(jiān)測大數(shù)據(jù)存儲及聚類劃分研究[J].電工技術(shù)學(xué)報,2013,28(S2):337-344.
[2]李澤文,鄧拓夫,曾祥君,等.智能電網(wǎng)能量流的時空多尺度大數(shù)據(jù)探討[J].電力科學(xué)與技術(shù)學(xué)報,2015,30(1):22-27.
[3]趙慶周,李勇,田世明,等.基于智能配電網(wǎng)大數(shù)據(jù)分析的狀態(tài)監(jiān)測與故障處理方法[J].電網(wǎng)技術(shù),2016,40(3):774-780.
[4]劉廣一,朱文東,陳金祥,等.智能電網(wǎng)大數(shù)據(jù)的特點、應(yīng)用場景與分析平臺[J].南方電網(wǎng)技術(shù),2016,10(5):102-110.
[5] Belkin M,Niyogi P.Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering[J]. Advances In Neural Information Processing Systems,2002,14(9):585-591.
[6]崔杰,李陶深,蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲平臺設(shè)計與開發(fā)[J].計算機研究與發(fā)展,2012,49(S1):12-18.