亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云計算和改進(jìn)K-means算法的海量用電數(shù)據(jù)分析方法

        2018-03-20 00:43:04張承暢張華譽(yù)羅建昌
        計算機(jī)應(yīng)用 2018年1期
        關(guān)鍵詞:海量用電聚類

        張承暢,張華譽(yù),羅建昌,何 豐

        (1.重慶郵電大學(xué) 光電工程學(xué)院,重慶 400065; 2.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065)(*通信作者電子郵箱15923180953@139.com)

        0 引言

        近年來,隨著化石能源的日益枯竭,社會對環(huán)境保護(hù)、節(jié)能減排和可持續(xù)發(fā)展的要求日益提高,未來的電網(wǎng)必須是“綠色”的電網(wǎng),未來的小區(qū)也必須是“綠色”的小區(qū)。在此背景下,居民用電行為逐步智能化,電網(wǎng)和用戶實現(xiàn)用電信息的雙向交互成為必然趨勢。由于智能小區(qū)在不斷建設(shè)和發(fā)展過程中積累了大量的基礎(chǔ)用電數(shù)據(jù),這些數(shù)據(jù)不僅具有海量、高頻、分散等特點,而且數(shù)據(jù)之間存在關(guān)聯(lián)性和相似性[1-2]。對智能小區(qū)用戶的用電數(shù)據(jù)采用大數(shù)據(jù)分析方法進(jìn)行挖掘并研究用戶類型,可以幫助電網(wǎng)公司了解用戶消費(fèi)習(xí)慣,為用戶提供個性化、差異化的服務(wù)需求,從而幫助電網(wǎng)公司進(jìn)一步拓展服務(wù)的深度和廣度,為未來的電力需求響應(yīng)政策的制定提供數(shù)據(jù)支撐。同時,電網(wǎng)公司將小區(qū)用電數(shù)據(jù)及居民用電情況及時反饋給用戶,讓用戶清楚自身用電信息,規(guī)范用電行為,挖掘節(jié)能潛力,為低碳環(huán)保作貢獻(xiàn)[3-5]。

        聚類分析[6]是數(shù)據(jù)挖掘領(lǐng)域的一種經(jīng)典方法,能夠以較高的效率挖掘出海量數(shù)據(jù)中的隱含信息。聚類分析方法也逐步應(yīng)用到智能電網(wǎng)領(lǐng)域。文獻(xiàn)[7]提出了一種應(yīng)用于電力系統(tǒng)短期負(fù)荷預(yù)測方法,采用雙向比較法對電力數(shù)據(jù)預(yù)處理后,并用K-means算法對數(shù)據(jù)進(jìn)行聚類分析,使具有相似特征屬性的數(shù)據(jù)歸為一類,達(dá)到降低數(shù)據(jù)維度的目的。文獻(xiàn)[8]中提出基于改進(jìn)K-means的電力負(fù)荷曲線聚類方法,采用了基于核方法的聚類算法實現(xiàn)負(fù)荷曲線的聚類分析,提高了聚類的準(zhǔn)確率。文獻(xiàn)[9]提出了一種基于K-means算法臺區(qū)線損率計算方法,通過K-means算法對樣本數(shù)據(jù)的聚類,解決數(shù)據(jù)分散的問題,從而提高了線損率計算的準(zhǔn)確性。文獻(xiàn)[10]中提出了一種基于優(yōu)化K-means算法的電力客戶劃分方法,采用一種將Canopy算法與K-means算法相結(jié)合的方法,解決傳統(tǒng)K-means的初始中心點選擇的問題,提高了聚類的穩(wěn)定性。然而,以上的聚類方法面對海量智能用電數(shù)據(jù)時,存在效率低、計算量大的瓶頸,無法對海量數(shù)據(jù)進(jìn)行高效挖掘。

        圖1 基于云計算的海量用電數(shù)據(jù)分析模型架構(gòu)

        針對智能電網(wǎng)中海量數(shù)據(jù)集的存儲與計算問題,相關(guān)學(xué)者利用云計算技術(shù)進(jìn)行了研究與探索,并且取得了一定的成果。文獻(xiàn)[11]提出了基于聚類算法和云計算的居民用電行為分析模型,通過K-means算法將用電行為相似的用戶進(jìn)行聚類,并分析出用戶的特征,同時基于云計算技術(shù)實現(xiàn)算法的并行化,提高了聚類的效率,然而針對K-means算法中初始中心和K值的確定問題并沒有給出解決方法。文獻(xiàn)[12]中提出了一種基于云計算的智能電網(wǎng)數(shù)據(jù)挖掘的方法,文中針對傳統(tǒng)K-means算法存在的初始中心和K值問題,采用Canopy算法對數(shù)據(jù)進(jìn)行預(yù)聚類,并將結(jié)果作為K-means的輸入?yún)?shù),但Canopy算法中存在閾值T1和T2難確定的問題,并且閾值的選擇對聚類結(jié)果的影響很大。

        本文針對智能電網(wǎng)中海量用電數(shù)據(jù)的處理,提出了一種基于云計算和改進(jìn)K-means算法的用電數(shù)據(jù)分析方法。通過改進(jìn)的K-means算法,提高了算法聚類的準(zhǔn)確度,并基于MapReduce模型實現(xiàn)其并行化,提高了算法的效率。文中以海量的用電數(shù)據(jù)為基礎(chǔ),通過改進(jìn)的算法挖掘出數(shù)據(jù)中潛在的價值信息,實現(xiàn)用戶用電行為的分析,從而為電網(wǎng)公司制定最優(yōu)的用電策略提供了重要的依據(jù)。

        1 海量用電數(shù)據(jù)分析模型架構(gòu)

        本文采用云計算主/從(Master/Slave, M/S)架構(gòu)實現(xiàn)海量用戶用電數(shù)據(jù)的存儲和分布式計算[13],通過數(shù)據(jù)挖掘算法對數(shù)據(jù)進(jìn)行分析,提取數(shù)據(jù)中隱含的有價值的信息。圖1是基于云計算的海量用電數(shù)據(jù)分析模型架構(gòu)。

        基于云計算的海量用電數(shù)據(jù)分析模型架構(gòu)主要由云計算主服務(wù)器(Master)和云計算從服務(wù)器(Slave)組成。數(shù)據(jù)源端將采集到的用電數(shù)據(jù)傳到云計算主服務(wù)器(Master)進(jìn)行數(shù)據(jù)管理和計算任務(wù)。數(shù)據(jù)管理層負(fù)責(zé)對源數(shù)據(jù)進(jìn)行業(yè)務(wù)模型轉(zhuǎn)換和數(shù)據(jù)抽取,建立用電數(shù)據(jù)維度模型;數(shù)據(jù)計算層負(fù)責(zé)對歷史用電數(shù)據(jù)的挖掘分析和業(yè)務(wù)趨勢預(yù)測,建立數(shù)據(jù)挖掘模型。云計算從服務(wù)器(Slave)根據(jù)主服務(wù)器的任務(wù)管理機(jī)制,主要負(fù)責(zé)數(shù)據(jù)存儲和計算任務(wù)的執(zhí)行。主服務(wù)器(Master)將接收到的用電數(shù)據(jù)經(jīng)過處理后分配到各個從服務(wù)器(Slave)分布式存儲,同時管理相應(yīng)任務(wù)的執(zhí)行,實現(xiàn)海量用電數(shù)據(jù)的分析,快速、高效地獲取數(shù)據(jù)中有價值的信息。

        2 海量用電數(shù)據(jù)分析方法

        2.1 Hadoop云計算平臺

        Hadoop是一個使用MapReduce編程模型對大數(shù)據(jù)集進(jìn)行分布式存儲和處理的開源軟件架構(gòu),它是一個更容易開發(fā)和并行處理大數(shù)據(jù)集的云計算平臺,具有擴(kuò)容能力強(qiáng)、成本低、效率高以及高可靠性等優(yōu)點。Hadoop平臺由以下兩個部分組成:Hadoop分布式文件存儲系統(tǒng)和MapReduce計算模型[14]。Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)采用的是主從架構(gòu),一個HDFS集群包含一個管理節(jié)點(NameNode)和若干數(shù)據(jù)節(jié)點(DataNode),每個節(jié)點相當(dāng)于一臺計算機(jī)(Personal Computer,PC)。而MapReduce則完成數(shù)據(jù)的計算和高效分析任務(wù)。

        2.2 改進(jìn)的K-means算法

        2.2.1 傳統(tǒng)K-means算法

        K-means是一種基于劃分的聚類方法[15],具有簡單、高效和可擴(kuò)展性強(qiáng)的特點,在各個領(lǐng)域被廣泛應(yīng)用。K-means算法通常采用兩樣本間的歐氏距離作為衡量相似性的指標(biāo),其基本思想是:在數(shù)據(jù)集D中,隨機(jī)選取K個初始聚類中心,計算余下樣本數(shù)據(jù)到初始中心的歐氏距離,根據(jù)最小距離原則將各個樣本歸入到相應(yīng)的聚類中心所在的類,然后計算每個類的所有樣本的平均距離,并更新為該類的新的聚類中心,直到誤差平方和函數(shù)穩(wěn)定在最小值。

        設(shè)數(shù)據(jù)集集合D={x1,x2,…,xn},xi=(xi1,xi2,…,xir),xj=(xj1,xj2,…,xjr),則樣本xi與樣本xj之間的歐氏距離為:

        d(xi,xj)=

        (1)

        誤差平方和函數(shù)如下:

        (2)

        其中:K為聚類類別數(shù),ri為第i類中樣本的個數(shù),ni是第i類中樣本的平均值。

        2.2.2 對傳統(tǒng)K-means算法的改進(jìn)

        傳統(tǒng)K-means聚類算法中,是隨機(jī)選取初始聚類中心,而這種隨機(jī)性會對結(jié)果造成很大的影響。為了解決最佳K值的確定和初始聚類中心選擇的問題,提出了一種加入密度參數(shù)的改進(jìn)算法。改進(jìn)算法將數(shù)據(jù)集的密度考慮到初始中心點的選取上,在樣本密度更大的數(shù)據(jù)集合中選取聚類中心,相比傳統(tǒng)K-means算法隨機(jī)選取聚類中心的方法,可減少這種隨機(jī)性對聚類結(jié)果帶來的影響。

        按照式(1)計算兩個樣本之間的歐氏距離d(xi,xj);

        按照式(3)計算數(shù)據(jù)集D中所有樣本間的平均距離MeanDis(D):

        (3)

        按照式(4)計算數(shù)據(jù)集中樣本i的密度:

        (4)

        由式(4)可知,ρ(i)為滿足與樣本i的距離小于MeanDis(D)的樣本元素數(shù)目。所有滿足條件的樣本元素構(gòu)成一個簇,定義簇內(nèi)樣本的平均距離為:

        (5)

        (6)

        定義數(shù)據(jù)集的樣本密度ρ(i)、簇內(nèi)樣本平均距離的倒數(shù)1/a(i)和簇間距離s(i)的乘積為權(quán)值積,即:

        (7)

        傳統(tǒng)K-means算法是隨機(jī)選擇初始聚類中心,這種隨機(jī)性會對聚類結(jié)果造成很大的影響。本文提出樣本密度最大權(quán)值法,可以降低這種隨機(jī)性對聚類結(jié)果造成的不穩(wěn)定,同時提升準(zhǔn)確率。最大權(quán)值積法介紹如下。

        首先根據(jù)式(4)計算樣本元素的密度,找出密度值最大元素作為第一個聚類中心,將所有滿足式(3)中樣本與初始聚類中心的距離小于MeanDis(D)條件的樣本元素加入當(dāng)前簇,同時將這些樣本點從集合D中去除;按照式(4)~(7)計算余下元素權(quán)值積w,找出最大值,并選取對應(yīng)樣本元素作為第二個聚類中心,重復(fù)進(jìn)行,直到集合D為空集。其中,ρ(i)越大,代表樣本點i周圍元素點越多,元素越集中;a(i)越小,1/a(i)越大,表示簇中元素越密集;s(i)越大,說明兩簇之間距離越遠(yuǎn),其相異度就越大。因而,通過最大權(quán)值法可以求出最佳聚類中心,同時,密度參數(shù)的引入,使得初始中心的選取更具有客觀性。

        2.3 基于云計算和改進(jìn)K-means算法的海量用電數(shù)據(jù)分析

        2.3.1 用電數(shù)據(jù)預(yù)處理

        在海量的居民用電數(shù)據(jù)挖掘中,為了提高算法的執(zhí)行效率,需要對數(shù)據(jù)進(jìn)行預(yù)處理,如圖2所示。

        圖2 數(shù)據(jù)預(yù)處理步驟

        Fig. 2 Procedure of data preprocessing

        1)數(shù)據(jù)過濾。

        在原始居民用電數(shù)據(jù)中,可能存在某個用戶某一時刻的用電信息數(shù)據(jù)被重復(fù)記錄,或者被分成多條用電信息進(jìn)行記錄。針對重復(fù)記錄的數(shù)據(jù)采用直接過濾刪除的方法,而對于后者,可以提取出用戶編號后,將用電信息進(jìn)行疊加合并,整合成一條數(shù)據(jù)進(jìn)行記錄。此外,用戶的某一條數(shù)據(jù)也可能存在若干缺失值。針對這類情況,可以事先設(shè)定一個缺失值個數(shù)閾值,當(dāng)超過閾值時,直接把該條記錄刪除;反之,則只過濾掉該缺失值。

        2)數(shù)據(jù)填充。

        針對缺失值采取的處理方法是:選取缺失值的相鄰兩負(fù)荷值的平均值作為相應(yīng)的填充值。若鄰值也為空值,則相應(yīng)向前或向后查找下一個非空負(fù)荷值,若不存在非空負(fù)荷值,則以0值填充。

        3)特征提取。

        在負(fù)荷數(shù)據(jù)中,存在一些電壓值、電流值以及一些名稱和時間值,這些數(shù)據(jù)對于用電分析作用不大,因而可以不予考慮。本文選用的特征包括:峰時耗電率、負(fù)荷率、谷電負(fù)荷系數(shù)以及平段用電量百分比。

        ①峰時耗電率。用戶在高峰時段的用電量與總的用電量之間的比值。

        ②負(fù)荷率。用戶在一定時間端內(nèi)的平均負(fù)荷與最大負(fù)荷之間的比值。

        ③谷電負(fù)荷系數(shù)。用戶在低谷時段的用電量與總的用電量之間的比值。

        ④平段用電量百分比。除去高峰和低谷時段之后的用電量與總的用電量之間的比值。

        提取以上用電特征,對用戶對象進(jìn)行評價描述,并將每一個對象寫成一個矩陣:X=[x1x2…xp]。

        4)特征規(guī)范化。

        在原始數(shù)據(jù)中,提取相關(guān)用戶特征后,不同特征值可能具有不同的值域。值域較大的特征值對整體矩陣的影響將大于值域較小的特征值,從而削弱了數(shù)值小的特征的作用,因此需要對特征進(jìn)行規(guī)范化處理。

        文中采用的是區(qū)間規(guī)范化方法對特征值矩陣X=[x1x2…xp]進(jìn)行處理,計算出特征矩陣中特征值的最大值max(xi)和最小值min(xi),根據(jù)式(8)將各個特征值值域規(guī)范化到區(qū)間[0,1],得到一組規(guī)范化的矩陣V=[v1v2…vp]。

        vi=[xi-min(xi)]/[max(xi)-min(xi)]

        (8)

        其中vi∈[0,1],i=1,2,…,p。

        采用規(guī)范化處理后得到矩陣V=[v1v2…vp],最終基于該矩陣完成居民用電數(shù)據(jù)集的聚類任務(wù)。

        2.3.2 基于改進(jìn)K-means算法的用電數(shù)據(jù)并行挖掘

        用電信息數(shù)據(jù)集按行存儲在Hadoop分布式文件系統(tǒng)中,并將數(shù)據(jù)集分成各個切片形成子數(shù)據(jù)集,MapReduce計算架構(gòu)讀取每一個切片數(shù)據(jù)完成計算任務(wù)。首先通過并行模型計算出K-means算法的輸入?yún)?shù):初始聚類中心和最優(yōu)K值,然后將計算任務(wù)再分配給Map任務(wù)節(jié)點,完成數(shù)據(jù)集的并行聚類任務(wù)。

        并行K-means的MapReduce計算任務(wù)執(zhí)行步驟如下。

        步驟1 對存儲在分布式文件系統(tǒng)(HDFS)中的智能用電數(shù)據(jù)集進(jìn)行初始化操作,產(chǎn)生〈Key,Value〉鍵值對,其中Key定義為用戶編號UserID,Value定義為用戶用電信息UserInfo,即〈UserID,UserInfo〉。

        步驟2 Map任務(wù)節(jié)點分別計算每一個數(shù)據(jù)塊中各個樣本密度,并根據(jù)最大權(quán)值積法得到若干個簇集,計算出每一個簇集元素的均值作為該簇的鍵值Key,Reduce節(jié)點根據(jù)鍵值將具有相同Key值的簇集進(jìn)行數(shù)據(jù)合并。

        步驟3 計算出每一個簇集數(shù)據(jù)的均值作為該簇的聚類中心,并將Value更新為該簇的中心向量,同時將Key值依次進(jìn)行編號,即為該簇的簇號。

        步驟4 通過Map函數(shù)計算Value中特征向量與K個初始聚類中心的歐氏距離,根據(jù)距離最小原則,找出其距離最小對應(yīng)簇的簇號,從而得到更新的鍵值對〈Key1,Value1〉,其中Key1為距離最近簇的簇號,Value1為用電信息UserInfo。

        步驟5 為了減少計算過程中的I/O通信代價,Map階段之后,需要對每個分區(qū)具有相同Key值的信息進(jìn)行合并merge。在此過程中,MapReduce模型對其合并后將得到新的鍵值對〈Key2,List1〈Info〉〉,其中Info={UserInfo1,UserInfo2,…,UserInfom},m為歸入同一簇集內(nèi)的用戶數(shù),Key2為該簇的簇號。

        步驟6 定義分區(qū)函數(shù)Partition,將〈Key2,List1〈Info〉〉鍵值對信息按照Key2進(jìn)行哈希分區(qū),劃分成r個不同的分區(qū),并將每個分區(qū)送到相應(yīng)的Reduce函數(shù)。Reduce函數(shù)將每個分區(qū)中具有相同Key值的信息進(jìn)行最后的合并,得到鍵值結(jié)果〈Key3,List〈List1,List2,…,Lists〉〉,同時計算List中各個信息的累加均值作為更新為對應(yīng)簇的中心。

        步驟7 重復(fù)步驟4到步驟6,直到最終聚類結(jié)果的誤差平方和達(dá)到穩(wěn)定狀態(tài),并輸出最終K個簇的相應(yīng)信息。

        改進(jìn)的K-means并行數(shù)據(jù)挖掘算法流程如圖3所示。

        圖3 改進(jìn)的K-means并行數(shù)據(jù)挖掘算法流程

        3 實驗設(shè)計與結(jié)果分析

        3.1 實驗環(huán)境與數(shù)據(jù)來源

        實驗環(huán)境:實驗使用Ubuntu12.04作為系統(tǒng)環(huán)境,搭建了基于Hadoop 1.0.4的6個節(jié)點的集群,包括1個Master節(jié)點和5個Slave節(jié)點。

        數(shù)據(jù)來源:

        1)實驗一的數(shù)據(jù)來源于UCI機(jī)器學(xué)習(xí)網(wǎng)站,選用6類常用的測試數(shù)據(jù)集:Soybean-small、Iris、Wine、Segmentation、Ionoshpere、Pima Indians Diabetes。數(shù)據(jù)集的相關(guān)參數(shù)如表1所示。

        2)實驗二和實驗三數(shù)據(jù)來源于北京某小區(qū)2010年4月至2010年9月400戶居民的用電信息。用電信息包含:用戶編號、用電屬性、行業(yè)分類、電價、用電量以及用電時間等。每戶居民用電情況每15 min按用電時間段被記錄成一條數(shù)據(jù),并按行存儲在文件中,每一行數(shù)據(jù)占10 B。原始用電數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理得到規(guī)范化的特征矩陣,包括用戶編號、峰時耗電率、負(fù)荷率、谷電負(fù)荷系數(shù)以及平段用電量百分比,以此建立用戶用電分析的數(shù)據(jù)維度模型。

        表1 UCI數(shù)據(jù)集的相關(guān)參數(shù)

        3.2 實驗結(jié)果分析

        本文基于Hadoop平臺和改進(jìn)K-means算法的居民用電數(shù)據(jù)的分析,完成以下幾個實驗。

        1)實驗一。為了驗證改進(jìn)的K-means聚類算法的有效性,選用了UCI網(wǎng)站的部分?jǐn)?shù)據(jù)集,分別采用傳統(tǒng)K-means、文獻(xiàn)[12]中的算法以及本文改進(jìn)的算法進(jìn)行對比實驗。聚類結(jié)果通過以下參數(shù)進(jìn)行衡量比較:Adjust Rand Index、聚類準(zhǔn)確率。

        圖4中的聚類結(jié)果的參數(shù)比較表明:本文改進(jìn)算法的Adjust Rand Index參數(shù)是最優(yōu)的,準(zhǔn)確率也最高,且聚類準(zhǔn)確率比傳統(tǒng)K-means算法平均高31個百分點,比文獻(xiàn)[12]中算法高18個百分點。

        圖4 不同算法對UCI數(shù)據(jù)集的聚類結(jié)果

        2)實驗二。選用不同大小的居民用電數(shù)據(jù)量,分別進(jìn)行單機(jī)模型下的數(shù)據(jù)聚類和MapReduce并行模型下的數(shù)據(jù)聚類實驗,并計算出完成聚類的時間。MapReduce并行數(shù)據(jù)聚類模型下設(shè)置1個從節(jié)點、2個從節(jié)點和4個從節(jié)點進(jìn)行對比實驗。

        單機(jī)模型和MapReduce并行模型下的數(shù)據(jù)聚類耗時對比如圖5所示。

        圖5中的聚類時間對比曲線表明:當(dāng)處理小規(guī)模數(shù)據(jù)時(5 000 000、10 000 000),MapReduce模型下多節(jié)點和單機(jī)模型相比,聚類耗時沒有明顯提升。由于在此時的并行模型下,K-means算法聚類時間較短,主要耗時集中在并行節(jié)點的任務(wù)啟動和任務(wù)分配上,因而并沒有體現(xiàn)出并行處理的高效性;當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時(數(shù)據(jù)量大于100 000 000),MapReduce模型下多節(jié)點處理數(shù)據(jù)是的聚類耗時要明顯優(yōu)于單機(jī)模型,并且MapReduce模型下節(jié)點數(shù)越多,其聚類效率越高,說明提出的并行挖掘算法能夠高效處理海量用電數(shù)據(jù)。

        圖5 單機(jī)模型和MapReduce并行模型下的數(shù)據(jù)聚類耗時對比

        3)實驗三。基于Hadoop平臺和改進(jìn)的K-means算法,根據(jù)用電信息完成用戶的聚類任務(wù)。根據(jù)數(shù)據(jù)預(yù)處理后得到的用戶用電信息特征向量,將用電信息相似的用戶進(jìn)行聚類,同時繪出此類用戶的用電負(fù)荷曲線。

        每一類用戶的用電負(fù)荷曲線如圖6所示。

        圖6 各類用戶用電負(fù)荷曲線

        由圖6可知:用戶類型最終分為五類,每一類用戶類型具有不同的行為特征。針對一類用戶:全時段用電量很低,其耗電來源于線損,主要為閑置房居民用戶。二類用戶:全天有兩個高峰用電時段,分別在7:00以及20:00,主要為上班族用戶。三類用戶:全天有三個高峰時段,分別在7:00、12:00以及20:00,主要為退休老人族用戶。四類用戶:與三類用戶相似,具有三個高峰時段,但峰時用電量要高于三類,主要為二類與三類的混合用戶,即上班族+退休老人族用戶。五類用戶:全時段處于高用電量狀態(tài),主要為商業(yè)用戶。

        根據(jù)圖5中分析出的用戶類型,未來電網(wǎng)公司可以針對不同類型的用戶制定相應(yīng)的用電策略,指導(dǎo)居民科學(xué)合理用電。同時,用戶的用電行為分析對于電網(wǎng)公司制定合理的階梯電價也具有一定的指導(dǎo)意義。

        4 結(jié)語

        本文以海量用電數(shù)據(jù)為基礎(chǔ),研究了居民用電數(shù)據(jù)分析模型架構(gòu),并提出了一種基于云計算和改進(jìn)K-means算法的用電數(shù)據(jù)分析方法。具體包括以下幾個方面的工作:

        1)傳統(tǒng)K-means聚類算法中存在初始聚類中心和最優(yōu)K值難確定的問題。本文提出了一種加入密度參數(shù)的改進(jìn)方法,在選取初始聚類中心時考慮數(shù)據(jù)集中樣本密度,定義了樣本密度、簇內(nèi)樣本平均距離的倒數(shù)以及簇間距離三者的乘積為權(quán)值積,通過最大權(quán)值積來依次確定初始中心和K值,提高了聚類的準(zhǔn)確率。

        2)提出了一種基于云計算和改進(jìn)K-means算法的用電數(shù)據(jù)分析方法。首先通過對用戶用電數(shù)據(jù)的預(yù)處理,提取用電數(shù)據(jù)中各個用戶的峰時耗電率、負(fù)荷率、谷電負(fù)荷系數(shù)以及平段用電量百分比等特征,建立數(shù)據(jù)向量維度;然后用改進(jìn)的K-means算法對數(shù)據(jù)進(jìn)行聚類分析,并以MapReduce模型實現(xiàn)算法的并行化;最后根據(jù)聚類結(jié)果對用戶的用電行為進(jìn)行分析,提取每一類用戶的特征。實驗結(jié)果表明,提出的分析方法穩(wěn)定、高效、可靠。

        通過提出的一種基于云計算和改進(jìn)K-means算法的海量用電數(shù)據(jù)分析方法,挖掘出用電數(shù)據(jù)中有價值信息,分析用戶用電行為,對電力調(diào)度以及電價機(jī)制的制定具有重要的指導(dǎo)性意義。下一步,結(jié)合分析模型的用戶聚類結(jié)果,針對每一類用戶進(jìn)行電力短期負(fù)荷預(yù)測方面的研究。

        References)

        [1] 張東霞,苗新,劉麗平,等.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國電機(jī)工程學(xué)報,2015,35(1):2-12.(ZHANG D X, MIAO X, LIU L P, et al. Research on development strategy for smart grid big data [J]. Proceedings of the CSEE, 2015, 35(1): 2-12.)

        [2] 彭小圣,鄧迪元,程時杰,等.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J].中國電機(jī)工程學(xué)報,2015,35(3):503-511.(PENG X S, DENG D Y, CHENG S J, et al. Key technologies of electric power big data and its application prospects in smart grid [J]. Proceedings of the CSEE, 2015, 35(3): 503-511.)

        [3] 沈玉玲,呂燕,陳瑞峰,等.基于大數(shù)據(jù)技術(shù)的電力用戶行為分析及應(yīng)用現(xiàn)狀[J].電氣自動化,2016,38(3):50-52.(SHEN Y J, LYU Y, CHEN R F, et al. Power user behavior analysis and application status based on big data technology [J]. Power System & Automation, 2016, 38(3): 50-52.)

        [4] 王德文,孫志偉.電力用戶側(cè)大數(shù)據(jù)分析與并行負(fù)荷預(yù)測[J].中國電機(jī)工程學(xué)報,2015,35(3):527-537.(WAND D W, SUN Z W. Big data analysis and parallel load forecasting of electric power user side [J]. Proceedings of the CSEE, 2015, 35(3): 527-537.)

        [5] 孫志偉.大數(shù)據(jù)環(huán)境下用電行為分析的研究[D].北京:華北電力大學(xué),2015.(SUN Z W. Study on behavior analysis of electricity in big data environment [D]. Beijing: North China Electric Power University, 2015.)

        [6] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008,19(1):48-61.(SUN J G, LIU J, ZHAO L Y. Clustering algorithms research [J]. Journal of Software, 2008, 19(1): 48-61.)

        [7] 王惠中,劉軻,周佳,等.電力系統(tǒng)短期負(fù)荷預(yù)測建模仿真研究[J].計算機(jī)仿真,2016,33(2):175-179.(WANG H Z, LIU K, ZHOU J, et al. Pretreatment of short-term load forecasting based onK-means clustering algorithm [J]. Computer Simulation, 2016, 33(2): 175-179.)

        [8] 趙文清,龔亞強(qiáng).基于KernelK-means的負(fù)荷曲線聚類[J].電力自動化設(shè)備,2016,36(6):203-207.(ZHAO W Q, GONG Y Q. Load curve clustering based on KernelK-means [J]. Electric Power Automation Equipment, 2016, 36(6): 203-207.)

        [9] 李亞,劉麗平,李柏青,等.基于改進(jìn)K-means聚類和BP神經(jīng)網(wǎng)絡(luò)的臺區(qū)線損率計算方法[J].中國電機(jī)工程學(xué)報,2016,36(17):4543-4551.(LI Y, LIU L P, LI B Q, et al. Calculation of line loss rate in transformer district based on improvedK-means clustering algorithm and BP neural network [J]. Proceedings of the CSEE, 2016, 36(17): 4543-4551.)

        [10] 許元斌,李國輝,郭昆,等.基于改進(jìn)的并行K-means算法的電力負(fù)荷聚類研究[J]. 計算機(jī)工程與應(yīng)用,2017,53(17):260-265.(XU Y B, LI G H, GUO K, et al. Research on parallel clustering of power load based on improvedK-means algorithm [J]. Computer Engineering and Applications, 2017, 53(17): 260-265.)

        [11] 張素香,劉建明,趙丙鎮(zhèn),等.基于云計算的居民用電行為分析模型研究[J].電網(wǎng)技術(shù),2013,37(6):1542-1546.(ZHANG S X, LIU J M, ZHAO B Z, et al. Cloud computing-based analysis on residential electricity consumption behavior [J]. Power System Technology, 2013, 37(6): 1542-1546.)

        [12] 程艷柳.基于云計算的智能電網(wǎng)數(shù)據(jù)挖掘的研究[D].北京:華北電力大學(xué),2013.(CHENG Y L. Research on smart grid data mining based on cloud computing [D]. Beijing: North China Electric Power University, 2013.)

        [13] SHVACHKO K, KUANG H, RADIA S, et al. The Hadoop distributed file system [C]// Proceedings of the 2010 IEEE Symposium on MASS Storage Systems and Technologies. Washington, DC: IEEE Computer Society, 2010: 1-10.

        [14] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters [C]// Proceedings of the 2004 Conference on Symposium on Operating Systems Design & Implementation. Berkeley, CA: USENIX Association, 2004: 10-10.

        [15] 黃韜,劉勝輝,譚艷娜.基于K-means聚類算法的研究[J].計算機(jī)技術(shù)與發(fā)展,2011,21(7):54-57.(HUANG T, LIU S H, TAN Y N. Research of clustering algorithm based onK-means [J]. Computer Technology and Development, 2011, 21(7): 54-57.)

        This work is partially supported by the Technology Foundation of China Electric Power Research Institute (XXB51201603155), the Technology Foundation of State Grid Economic and Technological Research Institute (15JS191).

        ZHANGChengchang, born in 1975, Ph. D., associate professor. His research interests include energy Internet, power big data, data mining, cyber-physical systems.

        ZHANGHuayu, born in 1990, M. S. candidate. His research interests include data mining.

        LUOJianchang, born in 1990, M. S. candidate. His research interests include cyber-physical systems, big data.

        HEFeng, born in 1962, professor. His research interests include big data, communication technology.

        猜你喜歡
        海量用電聚類
        用電安全
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        用煤用電用氣保障工作的通知
        安全用電知識多
        海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
        用電安全要注意
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        一個圖形所蘊(yùn)含的“海量”巧題
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        国产白浆精品一区二区三区| 无码精品人妻一区二区三区人妻斩| 免费av片在线观看网站| av无码一区二区三| 久久精品国产亚洲av四区| 无码中文字幕人妻在线一区| 大陆极品少妇内射aaaaa| 女女同性黄网在线观看| 日韩伦理av一区二区三区| 国产精品天天看天天狠| 亚洲国产日韩欧美一区二区三区 | 91福利国产在线观一区二区| 人妻乱交手机在线播放| 国产玉足榨精视频在线观看| 伊人久久五月丁香综合中文亚洲| 久久精品国产亚洲综合色| 口爆吞精美臀国产在线| 亚洲综合激情另类小说区| 国产精品久久久久国产a级| 国语精品视频在线观看不卡| 国产黑丝美女办公室激情啪啪| 亚洲a∨无码一区二区三区| 亚洲一区二区三区偷拍女厕| 在线视频一区二区在线观看| 中文乱码字字幕在线国语| 亚洲熟女乱色综合亚洲av| 精品无码久久久久久久久粉色| 国产av精品一区二区三区视频| 香港三级午夜理论三级| 欧美国产日韩a在线视频| 亚洲国产不卡av一区二区三区| 亚洲高清一区二区三区在线播放| 四虎影视免费永久在线观看| 极品 在线 视频 大陆 国产| 麻豆国产精品久久天堂| 欧美综合天天夜夜久久| a级毛片免费观看视频| 国产成人精品自拍在线观看| 国产特级毛片aaaaaa高潮流水| 精品国产乱码久久久软件下载| 99热高清亚洲无码|