亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式計(jì)算的海量用電數(shù)據(jù)分析技術(shù)研究

        2016-02-23 12:12:10王旭東于建成袁曉冬
        關(guān)鍵詞:智能用戶

        蔣 菱,王旭東,于建成,袁曉冬

        (1.國(guó)網(wǎng)天津市電力公司,天津 300010;2.江蘇省電力科學(xué)研究院,江蘇 南京 210036)

        基于分布式計(jì)算的海量用電數(shù)據(jù)分析技術(shù)研究

        蔣 菱1,王旭東1,于建成1,袁曉冬2

        (1.國(guó)網(wǎng)天津市電力公司,天津 300010;2.江蘇省電力科學(xué)研究院,江蘇 南京 210036)

        用電行為分析技術(shù)對(duì)供電企業(yè)掌握用戶用能方式、調(diào)整生產(chǎn)計(jì)劃以及進(jìn)行電網(wǎng)規(guī)劃有著較大的現(xiàn)實(shí)意義。傳統(tǒng)用電行為分析多利用少量樣本數(shù)據(jù),由于數(shù)據(jù)源覆蓋面的問(wèn)題往往容易造成結(jié)果偏差。借助大數(shù)據(jù)技術(shù),可以利用海量用電數(shù)據(jù)提高用電行為分析的準(zhǔn)確性。針對(duì)用電行為分析在處理海量數(shù)據(jù)時(shí)效率低下的問(wèn)題,提出了基于MapReduce技術(shù)的模糊C均值聚類(FCM)并行算法,通過(guò)將FCM算法的迭代過(guò)程分解到Map和Reduce兩個(gè)步驟中,可以有效地提高聚類過(guò)程中數(shù)據(jù)對(duì)象和聚類中心的相似度計(jì)算效率。在此基礎(chǔ)上,利用所提出的FCM并行算法對(duì)居民用電數(shù)據(jù)的四個(gè)特征進(jìn)行聚類分析。實(shí)驗(yàn)結(jié)果表明,所提算法可以提高海量用電數(shù)據(jù)聚類分析的效率,證明了計(jì)算模型的可行性。

        MapReduce;模糊C均值聚類;用電行為分析;大數(shù)據(jù)

        0 引 言

        隨著國(guó)家電網(wǎng)公司智能電網(wǎng)建設(shè)的不斷深入推進(jìn),先進(jìn)的信息技術(shù)和數(shù)字通信技術(shù)在電力網(wǎng)絡(luò)的發(fā)電、輸電、配電、調(diào)度、用電和客戶服務(wù)等各個(gè)環(huán)節(jié)得到了應(yīng)用[1]。同時(shí),隨著經(jīng)濟(jì)的快速發(fā)展和居民生活水平的日益提高,一方面居民用電量在不斷增長(zhǎng),另一方面,居民用戶對(duì)用電服務(wù)的個(gè)性化要求也在逐漸提高。電力企業(yè)除了向客戶提供電能產(chǎn)品之外,還承擔(dān)著對(duì)用電行為進(jìn)行專業(yè)化指導(dǎo),提高電能利用效率和利用水平的任務(wù)[2]。這些需求的滿足依賴于用電數(shù)據(jù)采集和用電數(shù)據(jù)分析技術(shù)。

        國(guó)網(wǎng)天津市電力公司于2010年1月啟動(dòng)智能電網(wǎng)綜合示范工程“中新天津生態(tài)城智能電網(wǎng)創(chuàng)新示范區(qū)”建設(shè)。工程于2011年9月建成投運(yùn),建設(shè)內(nèi)容包括分布式發(fā)電、微電網(wǎng)、配電自動(dòng)化等12個(gè)子項(xiàng),集中示范智能配電、智能發(fā)電、智能用電和信息通信領(lǐng)域的先進(jìn)技術(shù)。在發(fā)電側(cè)、電網(wǎng)側(cè)、用戶側(cè)的信息通信方面、技術(shù)儲(chǔ)備方面以及政策支持方面均已取得顯著進(jìn)展[3-5]。其中,雙向智能電表和用戶與電網(wǎng)雙向互動(dòng)技術(shù)的應(yīng)用可以使天津生態(tài)城中的居民用戶和企業(yè)大用戶能夠獲取用電量、費(fèi)率等用電信息,同時(shí)接收電力企業(yè)下達(dá)的用電指導(dǎo)和負(fù)荷控制指令,這使得通過(guò)提高終端用電效率和優(yōu)化用電方式,滿足用戶用電需求的同時(shí)減少電量消耗,從而達(dá)到節(jié)約能源和保護(hù)環(huán)境的目的成為可能。

        基于智能電表數(shù)據(jù),統(tǒng)計(jì)并挖掘電力客戶的用電模式,是電力企業(yè)掌握客戶構(gòu)成,了解用電行為特征的基礎(chǔ),也是提供個(gè)性化、精細(xì)化用電服務(wù),實(shí)現(xiàn)客戶智能化、精益化管理的先決條件。近年來(lái),已經(jīng)有一些專家學(xué)者對(duì)用電行為分析進(jìn)行了研究。文獻(xiàn)[6]提出了基于k-means算法的用電負(fù)荷特性分析算法,實(shí)現(xiàn)了依據(jù)負(fù)荷特性對(duì)用戶負(fù)荷的分類。針對(duì)傳統(tǒng)的單一聚類分析方法對(duì)于具有不平衡性以及時(shí)序特性的負(fù)荷曲線數(shù)據(jù)存在泛化能力不強(qiáng)、穩(wěn)健性不高的問(wèn)題,文獻(xiàn)[7]提出利用多種聚類融合的方法獲得更優(yōu)的聚類結(jié)果。文獻(xiàn)[8]提出了基于模糊聚類的電力負(fù)荷特性的分類與綜合算法,并通過(guò)實(shí)驗(yàn)證明基于模糊C均值法的聚類能力明顯優(yōu)于基于等價(jià)關(guān)系的聚類法,而且聚類結(jié)果更為合理有效。而文獻(xiàn)[9]構(gòu)建了基于k-means、k-medoids、SOM以及FCM等聚類算法的聚類分析模型,實(shí)現(xiàn)了對(duì)數(shù)據(jù)集的智能化聚類的分析功能,實(shí)驗(yàn)結(jié)果表明FCM模型對(duì)用電行為特征的聚類結(jié)果更具歸納性。但是,隨著電力通信技術(shù)的發(fā)展,用電信息采集系統(tǒng)每天產(chǎn)生的用電數(shù)據(jù)是高頻海量的,這就對(duì)用戶行為特征分析技術(shù)提出了要求,即能夠高速、高精度處理數(shù)量龐大且數(shù)據(jù)類型眾多的用電數(shù)據(jù),從中發(fā)掘高價(jià)值信息。這符合典型的大數(shù)據(jù)應(yīng)用特征,同時(shí)也意味著使用傳統(tǒng)聚類算法無(wú)法直接滿足上述要求,需要針對(duì)大數(shù)據(jù)的特點(diǎn)進(jìn)行并行化改進(jìn),以適應(yīng)分布式計(jì)算的需求。文獻(xiàn)[10]提出利用MapReduce計(jì)算模型實(shí)現(xiàn)k-means聚類算法,但是未實(shí)現(xiàn)對(duì)于用電數(shù)據(jù)的分析。文獻(xiàn)[11-12]均提出了在MapReduce模型下基于k-means的用電數(shù)據(jù)分析算法,但是無(wú)法直接應(yīng)用于聚類效果更好的模糊聚類算法中。

        針對(duì)智能用電領(lǐng)域?qū)A繑?shù)據(jù)進(jìn)行用電行為特征分析的需求,文中提出了一種基于模糊C均值聚類(FuzzyC-Meansclustering,FCM)的并行計(jì)算算法。該算法在MapReduce框架下實(shí)現(xiàn),可以利用FCM算法的模糊分析特性對(duì)用戶用電行為進(jìn)行更為全面地分析,并利用并行計(jì)算提高對(duì)海量數(shù)據(jù)進(jìn)行分析的效率和可行性。實(shí)驗(yàn)結(jié)果表明,該算法可以精確用于居民用戶用電數(shù)據(jù)的分析統(tǒng)計(jì),以及對(duì)用戶的用電模式進(jìn)行快速、精確的判斷。

        1 用電數(shù)據(jù)分析分布式計(jì)算架構(gòu)

        隨著智能電表的普及應(yīng)用,用戶用電信息采集頻率更加頻繁,15min甚至5min就需要采集一次數(shù)據(jù),且數(shù)據(jù)呈現(xiàn)雙向流動(dòng)特征,規(guī)模和頻率呈指數(shù)級(jí)增長(zhǎng)。以天津生態(tài)城為例,用電信息采集系統(tǒng)目前已經(jīng)覆蓋1 500萬(wàn)用戶,數(shù)據(jù)年增長(zhǎng)量約為12TB左右。因此,傳統(tǒng)基于單機(jī)的分析模式已經(jīng)無(wú)法滿足對(duì)于海量用電數(shù)據(jù)的分析需求。

        對(duì)于海量數(shù)據(jù)進(jìn)行分布式批處理計(jì)算是提高聚類計(jì)算效率的關(guān)鍵,批處理計(jì)算框架的理論基礎(chǔ)是Google的MapReduce計(jì)算框架。MapReduce將復(fù)雜的并行計(jì)算過(guò)程高度抽象到兩個(gè)函數(shù),Map和Reduce,并可運(yùn)行于大規(guī)模計(jì)算集群上。利用MapReduce框架,可以將大規(guī)模計(jì)算任務(wù)分解成許多小的子任務(wù)由Map步驟處理,由于子任務(wù)之間是相互解耦的,因此可以并行處理,Map輸出的結(jié)果將通過(guò)Reduce函數(shù)合并生成最終結(jié)果。MapReduce的開(kāi)源實(shí)現(xiàn)的代表就是Hadoop平臺(tái),目前Hadoop廣泛被互聯(lián)網(wǎng)企業(yè)用于大規(guī)模數(shù)據(jù)分析。

        如圖1所示,基于MapReduce計(jì)算框架的智能用電分析系統(tǒng)分為用電信息采集、數(shù)據(jù)轉(zhuǎn)存、數(shù)據(jù)清洗和分布式計(jì)算這四個(gè)步驟。

        圖1 用電數(shù)據(jù)分析分布式計(jì)算架構(gòu)

        (1)用電信息采集:用電信息采集依托于采集終端,包括雙向智能電表、轉(zhuǎn)變采集終端、負(fù)荷控制終端和分布式能源監(jiān)控終端等,采集終端實(shí)現(xiàn)電能數(shù)據(jù)的采集、數(shù)據(jù)管理、數(shù)據(jù)雙向傳輸以及控制命令執(zhí)行。采集終端從不同類型的用電用戶處以一定頻率采集用電數(shù)據(jù),包括電壓、電流、功率、電能質(zhì)量和異常事件等,并通過(guò)PLC、無(wú)線網(wǎng)絡(luò)等數(shù)據(jù)通道保存在用電信息采集系統(tǒng)中,可作為用電行為分析的基礎(chǔ)數(shù)據(jù)。

        (2)數(shù)據(jù)轉(zhuǎn)存:由于用電信息采集系統(tǒng)是基于關(guān)系型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的,而MapReduce計(jì)算是基于HDFS分布式文件系統(tǒng)的,因此需要通過(guò)數(shù)據(jù)轉(zhuǎn)存將數(shù)據(jù)從用電信息采集系統(tǒng)轉(zhuǎn)移至HDFS中??梢岳没贖adoop平臺(tái)的數(shù)據(jù)傳輸工具完成這一過(guò)程,如Apache項(xiàng)目Sqoop,可以用來(lái)在Hadoop和關(guān)系數(shù)據(jù)庫(kù)中傳遞數(shù)據(jù)。通過(guò)Sqoop,可以方便地將數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)導(dǎo)入到HDFS,或者將數(shù)據(jù)從HDFS導(dǎo)出到關(guān)系數(shù)據(jù)庫(kù)。

        (3)數(shù)據(jù)清洗:在對(duì)用電數(shù)據(jù)進(jìn)行聚類分析之前,為了保證結(jié)果的可靠性,需要使用數(shù)據(jù)清洗等數(shù)據(jù)預(yù)處理手段對(duì)不完整數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行補(bǔ)充、修正和刪除,常見(jiàn)數(shù)據(jù)清洗的方法包括忽略缺失數(shù)據(jù)、刪除負(fù)值、用整體均值填充、用最可能值填充、回歸方法填充等。

        (4)分布式計(jì)算:在分布式計(jì)算階段,將通過(guò)文中提出的基于MapReduce的分布式FCM聚類算法完成對(duì)用電行為數(shù)據(jù)的聚類,從中獲得的聚類中心可以用于刻畫用電用戶群體特征,而每一個(gè)參與聚類的數(shù)據(jù)對(duì)象對(duì)于不同聚類的模糊隸屬度關(guān)系,可以用來(lái)判斷用電用戶所屬的聚類。在完成聚類過(guò)程后,可以將結(jié)果以鍵值對(duì)的形式保存在非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL),如Mongodb中,從而方便對(duì)于聚類結(jié)果的查詢或在聚類結(jié)果基礎(chǔ)上進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘。

        2 基于FCM算法的用電行為特征分析

        2.1 FCM聚類算法

        聚類是一種最常見(jiàn)的對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行檢驗(yàn)和分類的無(wú)監(jiān)督學(xué)習(xí)算法(Unsupervised Learning Algorithm)。在無(wú)監(jiān)督學(xué)習(xí)中,不需要預(yù)先對(duì)群體進(jìn)行分類或設(shè)置輔助聚類過(guò)程的樣本,而是根據(jù)數(shù)據(jù)元素自身特性的自動(dòng)化分組,同一聚類中的數(shù)據(jù)對(duì)象將比來(lái)自于其他聚類中的數(shù)據(jù)對(duì)象實(shí)例更加“接近”。目前,已有很多聚類算法被應(yīng)用于不同的領(lǐng)域,其中,模糊聚類(Fuzzy Clustering)算法考慮到了真實(shí)數(shù)據(jù)的不確定性,并且與硬劃分(Hard Clustering)相比,模糊聚類算法允許一個(gè)數(shù)據(jù)對(duì)象屬于多個(gè)不同的聚類,數(shù)據(jù)對(duì)象與每個(gè)聚類中心的接近程度可以使用隸屬度來(lái)衡量,因此其應(yīng)用方式更為靈活。其中,文中提出使用FCM聚類算法進(jìn)行用電行為分析,基于目標(biāo)函數(shù)的FCM聚類算法適用于處理大量數(shù)據(jù),而且算法過(guò)程簡(jiǎn)單,因此易于在計(jì)算機(jī)上實(shí)現(xiàn),適合對(duì)基于時(shí)間序列的復(fù)雜數(shù)據(jù)集進(jìn)行劃分,這一特性與用電數(shù)據(jù)的特性吻合。FCM算法的核心思想是通過(guò)求解Jm(U,P)的極小值解min{Jm(U,P)},從而獲得最佳的劃分矩陣和聚類中心矩陣。對(duì)于模式空間中包含n個(gè)成員的待分類對(duì)象集合X={x1,x2,…,xn}而言,劃分舉證U可以表示為:

        (1)

        其中,μik=μXi(xk)表示樣本xk與子集Xi(1≤i≤c)之間的隸屬關(guān)系,對(duì)于FCM而言,μik的取值范圍為[0,1],即每個(gè)樣本與子集Xi之間的隸屬關(guān)系可以由一個(gè)0~1之間的實(shí)數(shù)模糊表示。而P={pi,1≤i≤c}表示第i類子集Xi的聚類中心矩陣。

        優(yōu)化目標(biāo)可以表示為:

        (2)

        其中,m為平滑因子,m控制模式在類子集之間的分享程度,m越大,得到的聚類結(jié)果越模糊,一般情況下,為了控制聚類結(jié)果不要太模糊,將m設(shè)為2;dik表示樣本k到第i個(gè)聚類中心pi之間的距離,可以用不同類型的范式距離表示,文中使用歐氏距離表征:

        (3)

        FCM算法通過(guò)迭代不斷更新隸屬度μik和聚類中心pi,當(dāng)?shù)諗繒r(shí),獲得的隸屬度和聚類中心可以用于對(duì)數(shù)據(jù)集進(jìn)行分類并確定數(shù)據(jù)對(duì)象與分類之間的隸屬關(guān)系,迭代過(guò)程通過(guò)在停止域和迭代次數(shù)b的控制下,對(duì)下式進(jìn)行求解進(jìn)行:

        (4)

        (5)

        2.2 基于FCM的用電行為分析

        居民用戶、大用戶安裝的智能電表借助PLC和無(wú)線通信等技術(shù),以一定頻率向用電信息采集系統(tǒng)傳輸用戶用電數(shù)據(jù),從中選取四類特征作為聚類分析的數(shù)據(jù)對(duì)象:

        (1)負(fù)荷量xi1:采集時(shí)刻的用電負(fù)荷;

        (2)負(fù)荷率xi2:平均負(fù)荷/最大負(fù)荷;

        (3)峰電系數(shù)xi3:峰時(shí)用電量/日用電總量;

        (4)谷電系數(shù)xi4:谷時(shí)用電量/日用電總量。

        智能電表的采集頻率是每15min一個(gè)點(diǎn),因此每日采集96個(gè),日用電總量為96點(diǎn)數(shù)據(jù)之和,平均負(fù)荷為日用電總量/96,峰時(shí)用電量和谷時(shí)用電量分別為峰谷時(shí)間內(nèi)的用電總量。因此聚類分析的每一個(gè)樣本xk均為一個(gè)四維向量?;贔CM算法的用電行為分析流程如圖2所示。

        圖2 基于FCM的用電行為分析算法

        在數(shù)據(jù)預(yù)處理階段,需要對(duì)缺失數(shù)據(jù)利用差值算法進(jìn)行補(bǔ)齊處理,對(duì)于超出閾值的數(shù)據(jù)進(jìn)行修正。接下來(lái),對(duì)FCM聚類算法進(jìn)行初始化,包括設(shè)置聚類類別c,迭代停止域ε和迭代步數(shù)b=0,以及隸屬度矩陣U0,可根據(jù)用電歷史數(shù)據(jù)進(jìn)行初始用戶分群并計(jì)算U0。接下來(lái),根據(jù)式(4)和式(5)在迭代過(guò)程中不斷更新隸屬度和聚類中心,直到滿足設(shè)定的停止域條件‖U(b)-U(b+1)‖<ε為止。此時(shí),輸出的聚類中心即為用電行為特征,而隸屬度矩陣決定了每個(gè)樣本與用電行為特征的接近程度。

        2.3 聚類有效性驗(yàn)證

        聚類分析的結(jié)果與數(shù)據(jù)樣本和參數(shù)設(shè)定密切相關(guān),由于聚類是一個(gè)無(wú)監(jiān)督的學(xué)習(xí)過(guò)程,因此無(wú)法獲取數(shù)據(jù)對(duì)象相關(guān)的標(biāo)簽信息。因此,對(duì)于聚類算法對(duì)一個(gè)數(shù)據(jù)集產(chǎn)生某種劃分結(jié)果后,通常難以直觀評(píng)價(jià)一個(gè)特定聚類劃分的優(yōu)劣,因此需要引入聚類有效性驗(yàn)證算法對(duì)聚類結(jié)果進(jìn)行有效評(píng)價(jià)。評(píng)價(jià)的內(nèi)容包括量化聚類的簇內(nèi)緊湊度和簇間分離度。對(duì)于模糊聚類算法而言,代表性的聚類有效性驗(yàn)證方法包括Xie-Beni指標(biāo)Vxie[13]。Vxie基于幾何結(jié)構(gòu),采用“緊湊度”和“分離度”衡量不同劃分的聚類質(zhì)量。對(duì)于文中所應(yīng)用的FCM算法而言,Vxie通過(guò)獲取式(6)的最小值完成對(duì)聚類有效性的驗(yàn)證。

        (6)

        3 FCM的分布式計(jì)算方法

        傳統(tǒng)的用電行為聚類算法需要將樣本數(shù)據(jù)放入計(jì)算機(jī)內(nèi)存再進(jìn)行計(jì)算,受限于計(jì)算機(jī)的內(nèi)存大小和運(yùn)算速度,無(wú)法對(duì)大量的用電歷史數(shù)據(jù)進(jìn)行全局計(jì)算,只能從中抽取樣本,通過(guò)對(duì)抽樣數(shù)據(jù)集的聚類分析用電行為特征,其結(jié)果的準(zhǔn)確性由于樣本缺失而無(wú)法得到保證。而文中所提出的混合計(jì)算架構(gòu)中的批量計(jì)算層,可以使用Hadoop平臺(tái)對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分布式計(jì)算,由于使用了分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)和MapReduce計(jì)算模型,分布式計(jì)算可以對(duì)基于文件的海量歷史用電整體數(shù)據(jù)進(jìn)行直接計(jì)算并獲得用電行為特征。

        為了適應(yīng)MapReduce計(jì)算模型,需要對(duì)基于FCM算法的用電行為特征分析算法進(jìn)行并行化改造,將FCM的迭代過(guò)程分解為Map和Reduce兩個(gè)階段。Map階段在不同的數(shù)據(jù)節(jié)點(diǎn)上將同一個(gè)函數(shù)作用于不同的數(shù)據(jù)集,輸出的數(shù)據(jù)集以形式保存在數(shù)據(jù)節(jié)點(diǎn)上,在Map階段結(jié)束后,計(jì)算模型將傳輸至承擔(dān)Reduce工作的節(jié)點(diǎn),并對(duì)Map階段輸出的鍵值對(duì)進(jìn)行合并等處理,并輸出形式的最終結(jié)果。由于Map和Reduce步驟都是可以在多臺(tái)計(jì)算機(jī)上分布式運(yùn)行的,且對(duì)分布式計(jì)算過(guò)程進(jìn)行了高度抽象,所以MapReduce計(jì)算模型可以方便、高效地對(duì)大規(guī)模數(shù)據(jù)(1 TB以上)進(jìn)行分析計(jì)算。

        通過(guò)對(duì)MapReduce計(jì)算模型的研究,結(jié)合FCM算法的流程,可以發(fā)現(xiàn)相似度計(jì)算,即利用式(3)計(jì)算樣本到當(dāng)前聚類中心的距離是最為頻繁的計(jì)算。對(duì)于n個(gè)樣本對(duì)象在k個(gè)分類中的FCM聚類過(guò)程,每次迭代需要進(jìn)行n*k次距離計(jì)算,且每次計(jì)算都要對(duì)s個(gè)維度的特征進(jìn)行方差運(yùn)算。如果能夠?qū)⒕嚯x計(jì)算并行化處理,將極大地提高FCM的工作效率。根據(jù)這一思路,提出的基于MapReduce的FCM聚類算法流程如圖3所示。

        (1)將用電數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)(如Oracle)拷貝到HDFS中,根據(jù)聚類的需要確定聚類個(gè)數(shù)c和停止域ε;

        (2)根據(jù)上一次的聚類結(jié)果確定初始聚類中心,并將這些數(shù)據(jù)傳輸至參與分布式計(jì)算的數(shù)據(jù)節(jié)點(diǎn);

        (3)對(duì)用電數(shù)據(jù)進(jìn)行預(yù)處理,并產(chǎn)生鍵值對(duì),其中user為用戶的唯一標(biāo)識(shí),profile中包含了數(shù)據(jù)對(duì)象的特征xi1~xi4;

        (4)將所有的鍵值對(duì)劃分為若干個(gè)數(shù)據(jù)子集,并傳輸至Map函數(shù),Map函數(shù)根據(jù)式(4)進(jìn)行隸屬度計(jì)算,產(chǎn)生的結(jié)果保存在中間鍵值對(duì)中,其中i為聚類編號(hào),μi為數(shù)據(jù)子集中所有數(shù)據(jù)對(duì)象對(duì)第i個(gè)聚類的隸屬度;

        圖3 基于MapReduce的FCM并行計(jì)算過(guò)程

        (5)將Map函數(shù)計(jì)算的結(jié)果傳輸至Reduce節(jié)點(diǎn),Reduce將Map產(chǎn)生的中間鍵值根據(jù)聚類編號(hào)進(jìn)行合并后,根據(jù)式(5)進(jìn)行計(jì)算,獲得新的聚類中心;

        (6)重復(fù)步驟(2)~(5),直到隸屬度矩陣滿足停止域條件,分布式FCM算法結(jié)束,輸出聚類結(jié)果,包括聚類編號(hào)、聚類中心和每個(gè)用戶對(duì)于各個(gè)聚類的最終隸屬度。

        通過(guò)上述步驟,可以實(shí)現(xiàn)在Hadoop平臺(tái)上利用MapReduce計(jì)算模型對(duì)用戶用電信息的分布式聚類分析,通過(guò)最終的聚類中心矩陣獲得對(duì)用戶群體的分類,并獲得每一個(gè)樣本數(shù)據(jù)對(duì)于聚類的隸屬度,從而確定其所屬分類[14-18]。

        4 算例分析

        為了驗(yàn)證利用FCM聚類算法在分布式計(jì)算架構(gòu)上實(shí)現(xiàn)用電行為聚類分析,在實(shí)驗(yàn)室環(huán)境中搭建了由五個(gè)節(jié)點(diǎn)組成的分布式計(jì)算環(huán)境。其中一臺(tái)為NameNode,四臺(tái)為DataNode,安裝了CentOS 6.5版32位Linux操作系統(tǒng),以及2.6.0版本Hadoop并行計(jì)算環(huán)境,節(jié)點(diǎn)間采用千兆以太網(wǎng)通信。收集了天津生態(tài)城某小區(qū)及周邊商戶共457戶居民的家庭用電數(shù)據(jù),數(shù)據(jù)覆蓋范圍為2014年7月3日至2014年10月28日,采樣間隔為15 min,即每戶居民每天采樣96點(diǎn)數(shù)據(jù),以此為基礎(chǔ)對(duì)居民用戶類型展開(kāi)研究。

        在聚類分析之前,使用式(7)對(duì)數(shù)據(jù)進(jìn)行了歸一化處理:

        (7)

        利用圖3的算法流程對(duì)所采集的居民用電數(shù)據(jù)進(jìn)行并行聚類分析后,剔除因所包含樣本量過(guò)小而明顯不合理的壞數(shù)據(jù),獲得了四類典型用戶,如圖4所示。

        圖4 居民用電行為聚類結(jié)果

        (1)A類用戶早、晚高峰時(shí)期用電負(fù)荷量大,特別是晚間用電達(dá)到頂峰,其余時(shí)間用電量較小,為典型的上班族家庭用戶,A類用戶共274戶。

        (2)B類用戶白天整體用電量較高,而19:00后用電量開(kāi)始回落,符合在小區(qū)中租用辦公室白天辦公的公司特征,B類用戶共84戶。

        (3)C類用戶全天負(fù)荷處于較為平均的水平,中午和晚間略高,屬于全天都要經(jīng)營(yíng)的商戶特征,C類用戶共67戶。

        (4)D類用戶谷電系數(shù)高而峰電系數(shù)低,且谷時(shí)用電量處于較高水平,應(yīng)為避免峰時(shí)高電價(jià)而選擇谷時(shí)生產(chǎn)的小型生產(chǎn)加工企業(yè),D類用戶共32戶。

        隨著智能電網(wǎng)的發(fā)展以及電網(wǎng)與用戶雙向互動(dòng)業(yè)務(wù)的增加,未來(lái)可針對(duì)上述四種不同類型的用戶提供不同的電價(jià)產(chǎn)品或套餐,或者根據(jù)其用電行為特征進(jìn)行需求側(cè)響應(yīng)方案的設(shè)計(jì),指導(dǎo)最優(yōu)用電策略的制定。

        為了測(cè)試算法的性能,將數(shù)據(jù)復(fù)制后形成10GB數(shù)據(jù)集合,在五節(jié)點(diǎn)的并行計(jì)算平臺(tái)上進(jìn)行聚類計(jì)算的結(jié)果與傳統(tǒng)聚類算法相比獲得了4倍以上的加速比。這證明了隨著數(shù)據(jù)量的增大,聚類問(wèn)題由多個(gè)處理器協(xié)同求解,待分類數(shù)據(jù)被分為若干個(gè)部分分別計(jì)算后再進(jìn)行結(jié)果合并,從而使得聚類效率大大提升。

        5 結(jié)束語(yǔ)

        針對(duì)中新天津生態(tài)城中用戶用電行為聚類分析的應(yīng)用場(chǎng)景,提出利用并行計(jì)算技術(shù)進(jìn)行聚類分析的計(jì)算過(guò)程,并具體實(shí)現(xiàn)了FCM聚類算法的并行化設(shè)計(jì)。實(shí)驗(yàn)結(jié)果表明,該算法能夠較為準(zhǔn)確地完成天津生態(tài)城內(nèi)的用戶分類,挖掘出了海量用電數(shù)據(jù)中潛在的價(jià)值,為用戶參與需求側(cè)響應(yīng)和制定最優(yōu)用電策略提供了有益的參考。

        [1] 曹軍威,萬(wàn)宇鑫,涂國(guó)煜,等.智能電網(wǎng)信息系統(tǒng)體系結(jié)構(gòu)研究[J].計(jì)算機(jī)學(xué)報(bào),2013,36(1):143-167.

        [2] 胡學(xué)浩.智能電網(wǎng)——未來(lái)電網(wǎng)的發(fā)展態(tài)勢(shì)[J].電網(wǎng)技術(shù),2009(14):1-5.

        [3] 尹 倩.中新天津生態(tài)城運(yùn)作模式研究[D].天津:天津理工大學(xué),2009.

        [4] 謝 開(kāi),劉明志,于建成.中新天津生態(tài)城智能電網(wǎng)綜合示范工程[J].電力科學(xué)與技術(shù)學(xué)報(bào),2011,26(1):43-47.

        [5] 李曉詮.智能電力設(shè)備在中新生態(tài)城電網(wǎng)中的應(yīng)用[D].保定:華北電力大學(xué),2013.

        [6] 王春雷,梁小放,章堅(jiān)民,等.基于用電采集系統(tǒng)的負(fù)荷特性曲線聚類分析[J].浙江電力,2014,33(7):6-10.

        [7] 林錦波.聚類融合與深度學(xué)習(xí)在用電負(fù)荷模式識(shí)別的應(yīng)用研究[D].廣州:華南理工大學(xué),2014.

        [8] 李培強(qiáng),李欣然,陳輝華,等.基于模糊聚類的電力負(fù)荷特性的分類與綜合[J].中國(guó)電機(jī)工程學(xué)報(bào),2005,25(24):73-78.

        [9] 彭顯剛,賴家文,陳 奕.基于聚類分析的客戶用電模式智能識(shí)別方法[J].電力系統(tǒng)保護(hù)與控制,2014,42(19):68-73.

        [10]AnchaliaPP.ImprovedMapReducek-meansclusteringalgorithmwithcombiner[C]//2014UKSim-AMSS16thinternationalconferenceoncomputermodellingandsimulation.Cambridge:IEEE,2014:12-17.

        [11] 張素香,劉建明,趙丙鎮(zhèn),等.基于云計(jì)算的居民用電行為分析模型研究[J].電網(wǎng)技術(shù),2013,37(6):1542-1546.

        [12] 趙 莉,候興哲,胡 君,等.基于改進(jìn)k-means算法的海量智能用電數(shù)據(jù)分析[J].電網(wǎng)技術(shù),2014,38(10):2715-2720.

        [13]XieXL,BeniG.Avaliditymeasureforfuzzyclustering[J].IEEETransactionsonPatternAnalysisandmachineIntelligence,1991,13(8):841-847.

        [14]RusitschkaS,EgerK,GerdesC.Smartgriddatacloud:amodelforutilizingcloudcomputinginthesmartgriddomain[C]//FirstIEEEinternationalconferenceonsmartgridcommunications.Gaithersburg,MD:IEEE,2010:483-488.

        [15]SilvaL,MouraR,CanutoAMP,etal.Aninterval-basedframeworkforfuzzyclusteringapplications[J].IEEETransactionsonFuzzySystems,2015,23(6):2174-2187.

        [16]O'MalleyMJ,AbelMF,DamianoDL,etal.Fuzzyclusteringofchildrenwithcerebralpalsybasedontemporal-distancegaitparameters[J].IEEETransactionsonRehabilitationEngineering,1997,5(4):300-309.

        [17]AndersonDT,ZareA,PriceS.Comparingfuzzy,probabilistic,andpossibilisticpartitionsusingtheearthmover’sdistance[J].IEEETransactionsonFuzzySystems,2013,21(4):766-775.

        [18]SuhIH,KimJae-Hyun,RheeFC.Convex-set-basedfuzzyclustering[J].IEEETransactionsonFuzzySystems,1999,7(3):271-285.

        Research on Power Usage Behavior Analysis Based on Distributed Computing

        JIANG Ling1,WANG Xu-dong1,YU Jian-cheng1,YUAN Xiao-dong2

        (1.State Grid Tianjin Electric Power Company,Tianjin 300010,China;2.Jiangsu Electric Power Research Institute,Nanjing 210036,China)

        The power usage behavior analysis technology can be used to acquire costumer power usage pattern,adjust power generation schedule and plan gird development.Thus,it is meaningful to power grid company.Traditional power usage behavior analysis only uses small volume of data.The limited data will draw to inaccurate result.This problem can be solved by using large scale of data.In allusion to the problem about electricity behavior analysis in the low efficiency of dealing with huge amounts of data,the Fuzzy C-Means clustering (FCM) parallel algorithm based on MapReduce is put forward.By decomposing the iterative process of FCM algorithm into two steps of Map and Reduce,it can effectively improve the efficiency of similarity computing between the data objects and the clustering centers.On this basis,the four characteristics of resident electrical data are clustering analyzed by using the proposed FCM parallel algorithm.The experimental results show that the proposed algorithm can improve the efficiency of mass data clustering analysis and also proves the feasibility of the model.

        MapReduce;FCM;analysis of electric behavior;big data

        2015-09-09

        2015-12-23

        時(shí)間:2016-11-21

        國(guó)家自然科學(xué)基金資助項(xiàng)目(51407025);江蘇省科技支撐計(jì)劃(社會(huì)發(fā)展)(BE2013737);天津電力公司科技項(xiàng)目(SGTJDK00 DWJS1500033)

        蔣 菱(1971-),女,高級(jí)工程師,研究方向?yàn)榕溆秒娕c新能源接入。

        http://www.cnki.net/kcms/detail/61.1450.TP.20161121.1633.010.html

        TP39

        A

        1673-629X(2016)12-0176-06

        10.3969/j.issn.1673-629X.2016.12.038

        猜你喜歡
        智能用戶
        智能制造 反思與期望
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來(lái)
        商周刊(2018年18期)2018-09-21 09:14:46
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Camera360:拍出5億用戶
        国产黄色一区二区三区,| 夫妻免费无码v看片| 女人色熟女乱| 亚洲第一se情网站| 91国视频| 国产91在线精品福利| 特级毛片全部免费播放a一级| 暴露的熟女好爽好爽好爽| 欧洲成人一区二区三区| 窝窝午夜看片| 亚洲图区欧美| 国产精品性一区二区三区| 六月婷婷亚洲性色av蜜桃| 黑人巨大精品欧美一区二区免费| 亚洲日本va午夜在线影院| 日韩国产成人精品视频| 中文字幕亚洲视频三区| 老熟妇乱子伦牲交视频| 怡红院免费的全部视频| 亚洲欧美另类精品久久久| 日本在线无乱码中文字幕 | 在线免费观看国产视频不卡| 亚洲av综合av一区| 东北女人毛多水多牲交视频| 四虎精品免费永久在线| 亚洲一区二区三区一区| 久久av粉嫩一区二区| 99精品久久精品一区二区| 在线国产小视频| 日本精品人妻一区二区三区| 色视频网站一区二区三区| 欧美亚洲国产一区二区三区| 亚洲网站地址一地址二| 日本熟女人妻一区二区三区| 少妇一级淫片中文字幕| 久久中文字幕无码专区| 国产啪精品视频网给免丝袜| 91青青草久久| 日韩精品视频免费在线观看网站| 亚洲 卡通 欧美 制服 中文| 欧美a视频在线观看|