韋 雅,張 嵐,王宏民,馬文棟
(國網(wǎng)河南省電力公司電力科學(xué)研究院,河南 鄭州 450000)
目前,電力營銷管理系統(tǒng)大數(shù)據(jù)蘊(yùn)含著龐大的社會(huì)經(jīng)濟(jì)和科學(xué)價(jià)值,隨著云計(jì)算、大數(shù)據(jù)技術(shù)的不斷發(fā)展,逐步出現(xiàn)了基于大數(shù)據(jù)的云計(jì)算基于諸如軟件即服務(wù)(SaaS)、平臺即服務(wù)(PaaS)、基礎(chǔ)設(shè)施即服務(wù)(IaaS)、虛擬化(virtualization)的軟件類型來實(shí)現(xiàn)大數(shù)據(jù)處理[1-2]。用戶通過云計(jì)算能夠快速、準(zhǔn)確地搜索、使用電力營銷管理系統(tǒng)中的大數(shù)據(jù)。隨著電力電網(wǎng)行業(yè)在全球范圍內(nèi)的快速發(fā)展,云計(jì)算軟件平臺也呈增長趨勢,用戶能夠充分使用云計(jì)算,獲得出乎意料的超快數(shù)據(jù)處理能力,大約每秒能夠進(jìn)行10萬億次以上的數(shù)據(jù)處理,比如當(dāng)前在市場上使用比較多的H3C CAS云計(jì)算管理平臺、AbiCloud企業(yè)級開源云計(jì)算平臺、Eucalyptus開源云計(jì)算平臺、Nimbus云計(jì)算平臺等[3-4]。
由于電力營銷管理系統(tǒng)中產(chǎn)生的數(shù)據(jù)量巨大,類型繁多,因此用戶使用起來就極為不便[5],就需要一種新型計(jì)算方法來處理這些問題。傳統(tǒng)的數(shù)理統(tǒng)計(jì)方法難以滿足用戶的需要,需要引用新型的數(shù)據(jù)管理辦法實(shí)現(xiàn)電力營銷管理系統(tǒng)的統(tǒng)一管理、智能存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化等應(yīng)用[5],有助于用戶提高電力營銷管理系統(tǒng)大數(shù)據(jù)的處理能力。
在該系統(tǒng)構(gòu)架中,主要使用戶在面對海量的電力營銷管理系統(tǒng)數(shù)據(jù),能夠妥善地管理、使用,節(jié)約數(shù)據(jù)處理的時(shí)間。在計(jì)算機(jī)(PC機(jī))上安裝云計(jì)算軟件,該文采用的云計(jì)算平臺為云端智能電網(wǎng)大數(shù)據(jù)處理平臺SP-DPP(smart power system big data processing platform in cloud environment)[6],包括數(shù)據(jù)采集層、云存儲單元、云計(jì)算單元和數(shù)據(jù)應(yīng)用層,其架構(gòu)示意圖如圖1所示。
圖1 云計(jì)算架構(gòu)設(shè)計(jì)示意圖
在該系統(tǒng)設(shè)計(jì)中,數(shù)據(jù)采集層主要用于采集電力營銷管理系統(tǒng)中的各種數(shù)據(jù)。電力營銷管理系統(tǒng)是使電力企業(yè)能夠建成一系列服務(wù)于生產(chǎn)、計(jì)量管理、營銷、客戶服務(wù)、數(shù)據(jù)處理、企業(yè)管理、計(jì)量管理、財(cái)務(wù)管理等各個(gè)不同領(lǐng)域的計(jì)算機(jī)信息管理系統(tǒng),該系統(tǒng)是由客戶服務(wù)層、電力營銷工作質(zhì)量管理層、電力營銷管理決策支持層、電力營銷業(yè)務(wù)層等組成,其包含各種不同數(shù)據(jù),諸如大型專變終端、中小型專變終端、單/三相檢定設(shè)備、居民用戶設(shè)備、公用配變考核計(jì)量設(shè)備、變電站設(shè)備等電力設(shè)備產(chǎn)生的管理、計(jì)量用電、監(jiān)控等各種數(shù)據(jù)。數(shù)據(jù)采樣單元還可以包含計(jì)量裝置,采集不同電力設(shè)備信息數(shù)據(jù)的多種傳感器,諸如振動(dòng)傳感器、溫度傳感器、濕度傳感器、磁場傳感器等[7]。
云存儲單元主要負(fù)責(zé)存儲電力營銷管理系統(tǒng)中的各種電力數(shù)據(jù)信息。云存儲單元擁有多個(gè)數(shù)據(jù)服務(wù)器,云存儲類型包括個(gè)人云存儲、私有云存儲、公有云存儲和混合云存儲[8],都具有較大的容量。在個(gè)人云存儲單元中,通常通過網(wǎng)絡(luò)連接電力設(shè)備來啟用,這樣能夠使用戶存儲類型各異的個(gè)人數(shù)據(jù)。諸如Word、文本、圖案、照片、視頻和音樂。用戶通過攜帶該云設(shè)備,可以隨時(shí)擁有數(shù)據(jù)并控制設(shè)備,進(jìn)而訪問云數(shù)據(jù)。在私有云存儲單元中,通過本地局域網(wǎng)絡(luò)控制的云存儲服務(wù)器,充分地利用虛擬機(jī)的性能特點(diǎn),存儲電力營銷管理系統(tǒng)大數(shù)據(jù)。在公有云存儲單元中,其能夠使提供商擁有、管理、構(gòu)架和維護(hù)電力信息營銷管理系統(tǒng)數(shù)據(jù)。在混合云存儲單元中,其是上述各種元存儲單元和數(shù)據(jù)中心的適當(dāng)組合。這種方式能夠?qū)⒂善髽I(yè)擁有和管理的電力營銷管理系統(tǒng)數(shù)據(jù)資源具有與公共云存儲的電力數(shù)據(jù)提供的彈性、可擴(kuò)展性和成本優(yōu)勢。
在云計(jì)算單元中,通過數(shù)據(jù)挖掘算法對接收到的數(shù)據(jù)按照不同的定義屬性進(jìn)行分類、計(jì)算,數(shù)據(jù)挖掘算法包含諸如關(guān)聯(lián)算法、回歸分析、聚類算法、異常檢測等,其中每種算法又包括多個(gè)算法,比如分類算法包括諸如決策樹算法、貝葉斯算法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等多種算法[9-11]。限于篇幅,該文采用BP神經(jīng)網(wǎng)絡(luò)算法。通過BP網(wǎng)絡(luò)算法模型能夠?qū)㈦娏?shù)據(jù)按照誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練多層前饋網(wǎng)絡(luò),繼而學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,及時(shí)映射、處理電力信息樣本中比較復(fù)雜的非線性關(guān)系,這樣能夠提高電力營銷管理系統(tǒng)產(chǎn)生數(shù)據(jù)的精確度。用戶在數(shù)據(jù)應(yīng)用層中能夠進(jìn)行各種應(yīng)用。
由于云計(jì)算平臺SP-DPP具有存儲電力營銷管理系統(tǒng)大數(shù)據(jù)的穩(wěn)定、可靠的中心節(jié)點(diǎn),因此該文用SP-DPP云平臺進(jìn)行云計(jì)算。SP-DPP平臺在處理、分配電力營銷大數(shù)據(jù)處理任務(wù)時(shí),能夠把數(shù)據(jù)處理任務(wù)在營銷管理大數(shù)據(jù)中心節(jié)點(diǎn)上調(diào)度,比如參數(shù)文件、配置文件、代碼文件等[12]。云計(jì)算平臺SP-DPP在邏輯上包括大數(shù)據(jù)存儲與管理模塊、任務(wù)分配與調(diào)度模塊、大數(shù)據(jù)執(zhí)行模塊和客戶端模塊。云計(jì)算平臺SP-DPP能夠?qū)崿F(xiàn)電力營銷管理系統(tǒng)海量數(shù)據(jù)處理的需求,以實(shí)現(xiàn)電力營銷管理系統(tǒng)的運(yùn)行狀態(tài),更好地獲取相關(guān)數(shù)據(jù)。其架構(gòu)如圖2所示。
圖2 SP-DPP平臺架構(gòu)示意圖
在大數(shù)據(jù)的存儲與管理模塊中,設(shè)置有分布式文件系統(tǒng)DFS(distribute file system),主要用于存儲等待處理的大數(shù)據(jù)。DFS能夠自動(dòng)為電力營銷管理系統(tǒng)管理這些TB到PB級的海量電力數(shù)據(jù)[13],在使用時(shí),DFS能夠自動(dòng)獲取電力營銷管理系統(tǒng)的/dfs/tmp/filel的數(shù)據(jù)。在任務(wù)分配與調(diào)度模塊中,因?yàn)樾枰峙?、調(diào)度電力營銷管理系統(tǒng)數(shù)據(jù),該模塊能夠?qū)?shù)據(jù)處理的任務(wù)以及子任務(wù)調(diào)配到空閑工作機(jī)上。在劃分?jǐn)?shù)據(jù)時(shí),可以根據(jù)用戶的需求選擇合適的數(shù)據(jù)屬性和特點(diǎn),因此提高了數(shù)據(jù)調(diào)度的效率。在調(diào)度時(shí),需要綜合考慮工作機(jī)的硬件配置和軟件信息,硬件配置包含有CPU主頻、內(nèi)存、磁盤等,軟件信息包括CPU利用程度、網(wǎng)絡(luò)通暢程度、數(shù)據(jù)傳播速度、可靠性等。使工作單元在各個(gè)物理節(jié)點(diǎn)之間進(jìn)行遷移時(shí)比較自由和靈活。在大數(shù)據(jù)執(zhí)行模塊中,由SP-DPP云平臺為基于虛擬化技術(shù)而實(shí)現(xiàn)各種操作,使得SP-DPP云平臺中的電力營銷管理系統(tǒng)處理、計(jì)算處理均在虛擬機(jī)上運(yùn)行。在客戶端,用戶能夠通過互聯(lián)網(wǎng)訪問SP-DPP云平臺,客戶端可以按照服務(wù)等級協(xié)議(service level agreements,SLA),采用按時(shí)付費(fèi)(pay-per-use,PPU)的模式來管理。在使用上述SP-DPP云平臺時(shí),用戶還需要使用Apache的開源的云計(jì)算平臺Hadoop中的MapReduce規(guī)范,以促進(jìn)數(shù)據(jù)的處理[14]。
由于BP網(wǎng)絡(luò)算法模型本身的學(xué)習(xí)效率高,數(shù)據(jù)診斷速度快,數(shù)據(jù)判斷的準(zhǔn)確率較高,因此在面對電力營銷管理系統(tǒng)各種大型數(shù)據(jù)時(shí),用戶需要分析出各個(gè)不同數(shù)據(jù)內(nèi)在聯(lián)系及關(guān)系,就要用到BP網(wǎng)絡(luò)算法模型。神經(jīng)網(wǎng)絡(luò)算法模型主要類型有前饋神經(jīng)網(wǎng)絡(luò)、回復(fù)式神經(jīng)網(wǎng)絡(luò)、時(shí)序記憶神經(jīng)網(wǎng)絡(luò)等[15]。該文主要采用前饋神經(jīng)網(wǎng)絡(luò)模型,這也是最為高效的網(wǎng)絡(luò)模型。利用BP網(wǎng)絡(luò)算法模型能夠映射、處理電力營銷管理系統(tǒng)內(nèi)存在的各種信息樣本中錯(cuò)綜復(fù)雜的非線性關(guān)系,揭示電力營銷管理系統(tǒng)數(shù)據(jù)之間的邏輯關(guān)系。BP神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu)示意圖如圖3所示。
圖3 BP神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu)示意圖
在利用上述方法時(shí),首先在電力營銷管理系統(tǒng)平臺中選出用戶待分析的不同類型的數(shù)據(jù),通過學(xué)習(xí)、訓(xùn)練,將雜亂無章的數(shù)據(jù)進(jìn)行預(yù)處理,將無關(guān)的電力數(shù)據(jù)剔除掉,過濾出較為純凈的數(shù)據(jù)類型,然后按照數(shù)據(jù)的特征屬性進(jìn)行聚類、歸類等操作[16-17]。由于BP神經(jīng)網(wǎng)絡(luò)模型包括輸入層、隱含層和輸出層。經(jīng)過處理以后的數(shù)據(jù)通過輸入層輸入,這些數(shù)據(jù)包括電力營銷管理平臺中的電能計(jì)量數(shù)據(jù)、電費(fèi)收取費(fèi)用、配電管理費(fèi)用、線損管理費(fèi)用、用電監(jiān)查費(fèi)用等,通過反復(fù)調(diào)整神經(jīng)網(wǎng)絡(luò)中的權(quán)值、閾值,進(jìn)而逐步逼近用戶所需要的結(jié)果,最終使得電力營銷管理數(shù)據(jù)最小化輸出誤差,使得數(shù)據(jù)處理精度比較高,在使用調(diào)整BP神經(jīng)網(wǎng)絡(luò)模型時(shí),按照下述公式來調(diào)整:
調(diào)整輸出層權(quán)系數(shù)的公式為:
(1)
調(diào)整隱含層權(quán)系數(shù)的公式為:
(2)
針對每種電力營銷管理信息樣本數(shù)據(jù)[18]中的輸入模式對的二次型準(zhǔn)確函數(shù)模型為:
(3)
對于N個(gè)電力營銷管理系統(tǒng)數(shù)據(jù)樣本的總準(zhǔn)確函數(shù)表達(dá)式為:
(4)
在輸入層,電力營銷管理系統(tǒng)平臺內(nèi)具有復(fù)雜信息數(shù)據(jù),在利用上述公式計(jì)算之前,首先要對電力樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以便提高學(xué)習(xí)精度。
假設(shè)輸入的電力營銷數(shù)據(jù)的種類為m個(gè),樣本為N,對于輸入數(shù)據(jù)xij的標(biāo)準(zhǔn)化按照下列公式的步驟進(jìn)行:
(5)
(6)
(7)
其中,i=1,2,…,N;j=1,2,…,m,Zij為進(jìn)行標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。
標(biāo)準(zhǔn)化公式為:
(8)
實(shí)驗(yàn)中,選擇具有良好吞吐量和加速比的SP-DPP云平臺。其中云服務(wù)器主機(jī)的硬件配置為:Intel Xeon E3-1220v53.0 GHz四核,內(nèi)存:8GDDR4,硬盤:1*Intel企業(yè)級SSD,1*SATA 1T,網(wǎng)卡:2*千兆網(wǎng)口;工作機(jī)節(jié)點(diǎn)的硬件配置為:CPU型號Intel Xeon E53.0 GHz,內(nèi)存為8 GB。硬盤容量為1 TB;實(shí)驗(yàn)時(shí),將這些節(jié)點(diǎn)通過局域網(wǎng)內(nèi)的1臺千兆交換機(jī)相聯(lián)。其中云服務(wù)器主機(jī)的軟件配置為:將9臺PC機(jī)都安裝RedHatLinux操作系統(tǒng),Hadoop版本為1.0.4,JRE環(huán)境為1.6,用戶只要繼承MapReduce-Base,分別實(shí)現(xiàn)Map和Reduce的兩個(gè)類,即可編寫Map和Reduce的程序。其中通過PC機(jī)組成的SP-DPP平臺的節(jié)點(diǎn)配置信息如表1所示。
表1 SP-DPP平臺的節(jié)點(diǎn)配置信息
在電能計(jì)量數(shù)據(jù)、電費(fèi)收取費(fèi)用數(shù)據(jù)、配電管理費(fèi)用數(shù)據(jù)、線損管理費(fèi)用數(shù)據(jù)、用電監(jiān)查費(fèi)用數(shù)據(jù)中選擇電能計(jì)量數(shù)據(jù)作為示例性實(shí)例進(jìn)行說明。電能計(jì)量數(shù)據(jù)包含有電壓、電流、紋波、負(fù)荷、諧波等。在驗(yàn)證BP神經(jīng)網(wǎng)絡(luò)模型時(shí),選擇F-measure作為評價(jià)標(biāo)準(zhǔn),利用信息檢索中的準(zhǔn)確率(precision)和召回率(recall)評價(jià)聚類分類算法的精確率。測試模型如圖4所示。
圖4 BP神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu)示意圖
下面對驗(yàn)證的公式進(jìn)行介紹:
準(zhǔn)確率計(jì)算公式:
(9)
召回率計(jì)算公式:
(10)
(11)
最終得出F值:
電能計(jì)量數(shù)據(jù)的樣本數(shù)據(jù)如表2所示。
表2 測試樣本數(shù)據(jù)計(jì)算
因此通過上文論述,針對20 000份數(shù)據(jù)樣本,以15秒內(nèi)時(shí)間作為測試時(shí)間,召回率分別為91.2%、91.5%、91.6%、91.4%和91.3%,正確率分別為92.5%、92.4%、92.2%、92.6%和92.3%,整個(gè)模型的準(zhǔn)確率為92.12%,可見設(shè)計(jì)的模型計(jì)算率較高。
由于大數(shù)據(jù)蘊(yùn)含的巨大科學(xué)、經(jīng)濟(jì)價(jià)值,隨著云計(jì)算技術(shù)的發(fā)展,云計(jì)算在大數(shù)據(jù)計(jì)算中發(fā)揮著越來越重要的作用。該文通過建立SP-DPP云平臺進(jìn)行云計(jì)算,在SP-DPP平臺處理、分配電力營銷大數(shù)據(jù)處理任務(wù)時(shí),能夠把數(shù)據(jù)在營銷管理大數(shù)據(jù)中心節(jié)點(diǎn)上調(diào)度,又經(jīng)過BP神經(jīng)網(wǎng)絡(luò)模型算法實(shí)現(xiàn)數(shù)據(jù)的更精確學(xué)習(xí)、訓(xùn)練。通過采用“大數(shù)據(jù)+神經(jīng)網(wǎng)絡(luò)”的深度學(xué)習(xí)算法針對電力營銷管理系統(tǒng)中非結(jié)構(gòu)化、模式多變的電力大數(shù)據(jù)群中的特征提取模式,有效地提高了數(shù)據(jù)的精確度。