沈弘 張涌新 張?jiān)? 徐詩(shī)甜 方正 賈科
摘 要:對(duì)用用電大數(shù)據(jù)進(jìn)行用電類型估計(jì)算法不足這一問(wèn)題,設(shè)計(jì)了基于模糊均值(FCM)抽樣劃分聚類的方案。通過(guò)高斯平滑預(yù)處理消除測(cè)量數(shù)據(jù)中的波動(dòng)和噪聲;再改進(jìn)FCM模型,使之適用于用電類型的估計(jì);最后,基于抽樣劃分和均值更新的思想,提高改進(jìn)模型的運(yùn)行性能,以運(yùn)用于用電大數(shù)據(jù)的處理。模型檢驗(yàn)和算例對(duì)比實(shí)驗(yàn),證明了該方案具有速度快,準(zhǔn)確率高的特點(diǎn),適合運(yùn)用于相關(guān)用電大數(shù)據(jù)處理上。
關(guān)鍵詞:FCM聚類;用電數(shù)據(jù)分類;抽樣;大數(shù)據(jù);高斯平滑
0 引言
隨著我國(guó)智能電網(wǎng)建設(shè)加快,電網(wǎng)運(yùn)行和管理會(huì)產(chǎn)生數(shù)量巨大且結(jié)構(gòu)各異的數(shù)據(jù),即電力大數(shù)據(jù)。對(duì)這些數(shù)據(jù)的處理,是值得研究的課題。目前對(duì)電力大數(shù)據(jù)的處理技術(shù)主要是分布式計(jì)算、內(nèi)存計(jì)算、流處理技術(shù),如文獻(xiàn)[1],就從數(shù)據(jù)存儲(chǔ)上,提出了提高處理電力大數(shù)據(jù)的方案及實(shí)現(xiàn),而文獻(xiàn)[2]則給出了實(shí)時(shí)處理電力狀態(tài)檢測(cè)領(lǐng)域大數(shù)據(jù)的方法。但現(xiàn)有電力數(shù)據(jù)分析系統(tǒng),還是難以較好地滿足數(shù)據(jù)量大、處理速度快、數(shù)據(jù)類型多、價(jià)值大、精確性高這五項(xiàng)要求,尤其在提升數(shù)據(jù)處理算法上。
通過(guò)改進(jìn)用于電力大數(shù)據(jù)處理的數(shù)據(jù)挖掘經(jīng)典算法,使其時(shí)間復(fù)雜度、空間復(fù)雜度減少,是從數(shù)據(jù)處理方面解決該問(wèn)題的新思路。本文以電力大數(shù)據(jù)中用戶用電類型估計(jì)為對(duì)象,提出了一套能適用于大數(shù)據(jù)環(huán)境的解決方案:首先,為減少數(shù)據(jù)噪聲和波動(dòng)提出高斯平滑預(yù)處理,提高數(shù)據(jù)的精確度。接著,設(shè)計(jì)改進(jìn)的模糊均值曲線聚類模型,以使其適用于分析用電類型。最后,由抽樣劃分思想,對(duì)該算法在大數(shù)據(jù)環(huán)境下的實(shí)現(xiàn)進(jìn)行了闡述,并完成算例對(duì)比實(shí)驗(yàn)。結(jié)果表明,抽樣劃分的聚類算法比直接聚類節(jié)省更多的運(yùn)算資源,能被有效地用于處理包括用電類型分析在內(nèi)的電力大數(shù)據(jù)問(wèn)題,為最優(yōu)用電策略的制定提供指導(dǎo)。
1 模糊均值曲線聚類模型
客戶用電數(shù)據(jù)的采集,會(huì)受到各種噪聲源的影響。而用電指標(biāo)數(shù)據(jù)的波動(dòng)性,會(huì)使得后續(xù)數(shù)據(jù)的壓縮、復(fù)現(xiàn)、故障診斷等重要功能受到不良影響。故在對(duì)用電大數(shù)據(jù)進(jìn)行處理前,通過(guò)高斯平滑濾波預(yù)處理[3],能較好地為大數(shù)據(jù)挖掘做準(zhǔn)備。對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的數(shù)據(jù),基于模糊C均值聚類,提出適用于用電用戶類型準(zhǔn)確估計(jì)的模糊均值曲線聚類模型。
1.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理采取步驟如下:
設(shè)原始數(shù)據(jù)為n個(gè)用戶的用電量數(shù)據(jù)矩陣,每個(gè)用戶有p個(gè)數(shù)據(jù)點(diǎn);平滑處理后數(shù)據(jù)整理成,其中;方差和窗寬w為可調(diào)參數(shù)。
取高斯核函數(shù),表達(dá)式為:
則系數(shù)矩陣為。
又因?yàn)榭蛻粲秒姅?shù)據(jù)存在相似性,在較長(zhǎng)的時(shí)間內(nèi)呈現(xiàn)較強(qiáng)的周期性,故需要對(duì)原始數(shù)據(jù)X進(jìn)行補(bǔ)位操作,組成新的數(shù)據(jù)矩陣X'。補(bǔ)位處理如下:
將X的1至[w/2]列和m-[w/2]+1至m列分別補(bǔ)到X的最后和最前,得X',X'中行向量。
在X'中每一行向量xj'與K進(jìn)行卷積:
得矩陣。截取W中間的n×p矩陣作為中第i行、第j列數(shù)據(jù)表達(dá)式為。
對(duì)懷化市沅陵縣含兩類(“鎮(zhèn)”“鄉(xiāng)”)用電類型的采樣用電數(shù)據(jù),進(jìn)行繪制。(如圖1)
用Matlab對(duì)上述算法進(jìn)行編程,即對(duì)數(shù)據(jù)進(jìn)行高斯平滑濾波預(yù)處理,結(jié)果如圖2所示。
可以看到,該預(yù)處理算法,能較好地識(shí)別異常與正常數(shù)據(jù)的不一致性,并去除離群點(diǎn),還能使測(cè)量數(shù)據(jù)很好地保留原始數(shù)據(jù)的數(shù)據(jù)特征。
1.2 模型的構(gòu)建
經(jīng)過(guò)預(yù)處理后,所得數(shù)據(jù)準(zhǔn)確地反映實(shí)際情況,更便于聚類工作的實(shí)施。這里,采用改進(jìn)的模糊C均值算法:模糊均值曲線聚類。
模糊C均值(Fuzzy C-means,F(xiàn)CM)聚類方法[4],通過(guò)優(yōu)化目標(biāo)函數(shù)得到每個(gè)樣本點(diǎn)對(duì)所有類中心的隸屬度,從而決定樣本點(diǎn)的類屬以達(dá)到自動(dòng)對(duì)樣本數(shù)據(jù)進(jìn)行分類的目的。
因用戶用電數(shù)據(jù)往往是一段時(shí)間內(nèi),每個(gè)時(shí)間節(jié)點(diǎn)上對(duì)應(yīng)的用電信息。故對(duì)該時(shí)間段每個(gè)時(shí)間節(jié)點(diǎn)進(jìn)行整體考慮,即以用戶用電曲線為最基本樣本單元,對(duì)一定數(shù)量的用戶數(shù)據(jù)樣本單元聚類。給出模糊均值曲線聚類的模型描述如下:
其中n是聚類的樣本數(shù),c是分類后的種類數(shù),μ是每個(gè)樣本對(duì)應(yīng)某個(gè)種類的模糊隸屬度,滿足且。由于針對(duì)的是許多用戶一段時(shí)期的用電量數(shù)據(jù),xi是個(gè)向量,表示第j個(gè)樣本的用電數(shù)據(jù),內(nèi)含p個(gè)數(shù)據(jù)。zi是某個(gè)種類的聚類中心,。m是模糊指數(shù)。
則模糊均值曲線聚類的具體算法步驟:
步驟1:設(shè)置目標(biāo)函數(shù)精度σ,模糊指數(shù)m(通常取2),最大迭代次數(shù)Tm;
步驟2:設(shè)定隸屬度μ的初值:給每個(gè)μ生成一個(gè)隨機(jī)數(shù),再對(duì)同一個(gè)樣本數(shù)據(jù)對(duì)應(yīng)的一組μ進(jìn)行標(biāo)準(zhǔn)化處理,滿足,再由式(6)初始化模糊聚類中心Z;
步驟3:若或迭代次數(shù)結(jié)束聚類;否則,t+1的值賦值給t,并轉(zhuǎn)到步驟5;
步驟4:由式(5)和式(6)更新模糊隸屬度μ和模糊聚類中心Z,返回步驟4。
最后得到的聚類中心Z便是聚類結(jié)果,其可清晰地呈現(xiàn)這些樣本可以分成哪些類型。
1.3 模型的數(shù)據(jù)檢驗(yàn)
對(duì)上述方法利用Matlab編程。對(duì)含兩類用戶類型的樣本聚類,檢驗(yàn)?zāi)P偷目尚行约皽?zhǔn)確性,結(jié)果如圖3。
由圖1和樣本數(shù)據(jù)知,樣本中包含兩類用電特征具有差異的用電用戶:城市用電用戶,鄉(xiāng)村用電用戶。通過(guò)模糊均值曲線聚類,兩類特征用電用戶很明顯地被區(qū)分出來(lái)。101戶城市和101戶農(nóng)村用電用戶被準(zhǔn)確地聚類到兩類:總體用電量較高的城市及較低的農(nóng)村用電用戶類型,可行性和準(zhǔn)確性得到驗(yàn)證。
2 在大數(shù)據(jù)環(huán)境下的實(shí)現(xiàn):抽樣劃分聚類
經(jīng)典算法對(duì)數(shù)據(jù)規(guī)模有不同程度的限制[5]。這里以數(shù)據(jù)抽樣為核心,使其適用于大數(shù)據(jù)。注意到各抽樣之間的關(guān)聯(lián),在使得獨(dú)立處理的各抽樣規(guī)模較小的同時(shí),能反映全局的處理結(jié)果?;诖?,結(jié)合文獻(xiàn)[6],給出模糊均值曲線聚類在大數(shù)據(jù)環(huán)境下的實(shí)現(xiàn)方案。
2.1 抽樣
對(duì)于抽取出來(lái)的小數(shù)據(jù)集,希望它能擁有大數(shù)據(jù)中包含的所有自然簇(共c類),對(duì)應(yīng)實(shí)例,即包含樣本中所有用電用戶類型?;谖墨I(xiàn),我們得出了以下抽樣公式:
其中,S是至少需要抽取的總樣本數(shù),f是抽取到指定數(shù)據(jù)的比例,;n為數(shù)據(jù)規(guī)模;c是所有數(shù)據(jù)包含的自然簇的類數(shù)。
定義總抽樣次數(shù)為,則每次抽樣的樣本容量為。
用電大數(shù)據(jù)的數(shù)據(jù)規(guī)模往往非常大,即。按上述方法對(duì)樣本進(jìn)行抽樣處理。
2.2 自然簇質(zhì)心初步位置的確定方法
在2.1的基礎(chǔ)上,假設(shè)所有抽樣的并集對(duì)所有類別的自然簇具有理想的覆蓋度,抽樣所包含的自然簇具有與原數(shù)據(jù)集近似位置的質(zhì)心。分兩步確定自然簇質(zhì)心的初步位置:
第一步:由于設(shè)定抽樣規(guī)模較小,對(duì)每個(gè)抽樣的聚類可采用經(jīng)典算法,所以在1.2節(jié)中模糊曲線聚類的聚類過(guò)程會(huì)很快。因?yàn)槊總€(gè)抽樣都具有相同的規(guī)模,且聚類過(guò)程都是獨(dú)立進(jìn)行的,故可實(shí)行并行處理,減少大量運(yùn)行時(shí)間。
設(shè)總樣本大數(shù)據(jù)集(類別數(shù)為c)的一個(gè)抽樣覆蓋c'個(gè)類別。由于1≤c'第二步:由第一步得到c×M個(gè)小簇,計(jì)算每小簇的均
nj為該簇ci的數(shù)據(jù)規(guī)模,aij為cj中某一樣本的屬性。用均值代表該簇,得規(guī)模為c×M的數(shù)據(jù)集A。采用模糊均值曲線算法對(duì)A進(jìn)行聚類,得c個(gè)簇,則使得c×M個(gè)小簇合并成c個(gè)大簇。計(jì)算這c個(gè)大簇的均值,即可確定自然簇質(zhì)心的初步位置。
2.3 均值的更新
由于采用數(shù)據(jù)的局部信息,簇質(zhì)心的初步位置通常會(huì)偏離原數(shù)據(jù)集的簇質(zhì)心,需要利用均值更新進(jìn)行初步位置的校正??梢愿鶕?jù)與c個(gè)初始質(zhì)心的遠(yuǎn)近,將未被利用的剩余數(shù)據(jù)樣本按距離,分配至最近的簇中。利用這一分類原則,有:
為未確定類別的樣本屬性,為已經(jīng)確定的類別。
一個(gè)數(shù)據(jù)樣本按上述分類被填入某一簇ci時(shí),該簇的均值發(fā)生更新:
隨剩余數(shù)據(jù)的加入,均值位置也不斷更新,并向自然簇的真實(shí)中心移動(dòng),直至更新完成。
2.4 劃分?jǐn)?shù)據(jù)
解決方案的最關(guān)鍵一步,是利用2.3節(jié)確定好的自然簇質(zhì)心對(duì)數(shù)據(jù)集進(jìn)行劃分,劃分原則仍采用式(8)最小距離法的思想,即通過(guò)離簇質(zhì)心的遠(yuǎn)近,確定數(shù)據(jù)的最終類別歸屬。
2.5 算例對(duì)比實(shí)驗(yàn)
為檢驗(yàn)抽樣劃分聚類算法的可行性,及其較傳統(tǒng)直接聚類的優(yōu)勢(shì),進(jìn)行算例對(duì)比實(shí)驗(yàn)。
在大數(shù)據(jù)條件下,設(shè)用戶個(gè)數(shù)為n(),把所有用戶數(shù)據(jù)都帶入模糊均值曲線聚類算法,直接通過(guò)Matlab的程序運(yùn)行。首先,隸屬度和聚類中心的初始化進(jìn)行了次循環(huán),然后進(jìn)入迭代。設(shè)迭代次數(shù)為T,迭代中更新隸屬度和聚類中心也需要次循環(huán),故總的循環(huán)次數(shù)。
在抽樣劃分聚類中,類似上述步驟,在質(zhì)心位置初步計(jì)算中循環(huán)次數(shù)為,均值更新需要消耗次運(yùn)算,故總循環(huán)次數(shù)。
已知,對(duì)比兩種方法的循環(huán)次數(shù):
即,以抽樣劃分為核心的聚類算法可從時(shí)間、空間上,節(jié)省大量的運(yùn)算資源。
3 結(jié)論
本文首先提出了高斯平滑濾波預(yù)處理,對(duì)用電數(shù)據(jù)中噪聲和波動(dòng)進(jìn)行排除,使測(cè)量數(shù)據(jù)更真實(shí)地反映用電特征。隨后,通過(guò)數(shù)據(jù)檢驗(yàn),證明了改進(jìn)的模糊均值曲線聚類模型的可行性和準(zhǔn)確性。最后,通過(guò)算例對(duì)比實(shí)驗(yàn),得到了抽樣劃分將大大減少模糊均值曲線聚類算法的循環(huán)次數(shù),從而提升其運(yùn)行效率,以適用于大數(shù)據(jù)環(huán)境的結(jié)論。為彌補(bǔ)抽樣帶來(lái)的信息利用率較低的問(wèn)題,本文采用均值更新的方法,使結(jié)果更加精確。利用基于抽樣劃分的FCM聚類方法,處理用電大數(shù)據(jù),能在短時(shí)間內(nèi)完成對(duì)用電用戶類型的劃分,實(shí)現(xiàn)預(yù)測(cè)用電趨勢(shì),便于調(diào)度中心調(diào)度,為客戶用電提供建議等相關(guān)功能,具有重要的研究意義。
參考文獻(xiàn)
[1]毛羽豐.基于云計(jì)算的海量電力數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué),2015.
[2]周國(guó)亮,朱永利,王桂蘭,等.實(shí)時(shí)大數(shù)據(jù)處理技術(shù)在狀態(tài)監(jiān)測(cè)領(lǐng)域中的應(yīng)用[J].電工技術(shù)學(xué)報(bào),2014,29(S1):432-437.
[3]賴家文.客戶用電信息智能化分析系統(tǒng)的研究與開(kāi)發(fā)[D].廣東工業(yè)大學(xué),2014.
[4]李引.聚類算法的研究與應(yīng)用[D].江南大學(xué),2013.
[5]盧志茂,馮進(jìn)玫,范冬梅,楊朋,等.面向大數(shù)據(jù)處理的劃分聚類新方法[J].系統(tǒng)工程與電子技術(shù),2014,36(5):1010-1015.
[6]Sudipto G,Rajeev R,Kyuseok S.Cure:an efficient clustering algorithm for large databases [J].Information Systems,2001,26(1):33-58.
(作者單位:華北電力大學(xué)電氣與電子工程學(xué)院)