徐厚東,李賦欣,劉建華,林茂
(1.國網(wǎng)四川省電力公司,四川 成都 610095;2.國網(wǎng)資陽供電公司,四川 資陽 641300)
隨著中國智慧城市建設(shè)工作的逐步推進(jìn),城市能耗總量和強(qiáng)度“雙控”力度不斷加大,能源數(shù)據(jù)監(jiān)測與管控工作的重要性日益增強(qiáng)[1-2]。中國的部分城市開始建設(shè)能源大數(shù)據(jù)中心(以下簡稱“能源中心”),并按照能源中心的數(shù)據(jù)應(yīng)用程序編程接口(application programming interface,API)規(guī)范,接入水、電、氣、熱等結(jié)構(gòu)化能源數(shù)據(jù)[3]。上述數(shù)據(jù)由不同的能源生產(chǎn)廠商提供[4],數(shù)據(jù)的采集和傳輸過程容易受到噪聲干擾,造成數(shù)據(jù)質(zhì)量不高,不能滿足能源綜合效率評估的需求[5]。因此,亟需開展能源中心的數(shù)據(jù)質(zhì)量評估工作。
國內(nèi)外許多學(xué)者對能源中心的數(shù)據(jù)質(zhì)量評估工作進(jìn)行了大量研究。文獻(xiàn)[6]介紹了生成對抗網(wǎng)絡(luò)的經(jīng)典架構(gòu),并闡述了生成對抗網(wǎng)絡(luò)在新能源數(shù)據(jù)質(zhì)量評估方面的應(yīng)用。文獻(xiàn)[7]提出一種基于模糊綜合評價(jià)法的能源中心數(shù)據(jù)質(zhì)量評估方法,通過設(shè)置層次架構(gòu)和評估權(quán)重,對能源中心的數(shù)據(jù)進(jìn)行評估。文獻(xiàn)[8]提出一種基于大數(shù)據(jù)技術(shù)的能源中心數(shù)據(jù)質(zhì)量評估方法,應(yīng)用粒子群優(yōu)化算法提升數(shù)據(jù)質(zhì)量的評估能力。文獻(xiàn)[9]提出一種基于數(shù)據(jù)質(zhì)控框架的能源中心數(shù)據(jù)質(zhì)量評估方法,采用異常數(shù)據(jù)分析方法評估能源中心數(shù)據(jù)質(zhì)量。文獻(xiàn)[10]提出一種基于懲罰變權(quán)的數(shù)據(jù)質(zhì)量評估方法,采用差異評估和懲罰變權(quán)相結(jié)合的方式進(jìn)行能源中心數(shù)據(jù)質(zhì)量評估。上述研究主要針對單一的能源數(shù)據(jù)類型進(jìn)行評估,并未對單一用能單位的各種用能數(shù)據(jù)進(jìn)行綜合校驗(yàn),缺少對多源異構(gòu)數(shù)據(jù)的分析。為此,本文提出一種基于交叉域分析的能源中心數(shù)據(jù)質(zhì)量評估方法。首先通過主成分分析法(principal components analysis,PCA)提取能源中心多源異構(gòu)的能源數(shù)據(jù),然后通過近鄰傳播聚類對所提取的能源數(shù)據(jù)進(jìn)行分類,并建立評估指標(biāo)集,最后通過數(shù)據(jù)交叉域分析來評估能源數(shù)據(jù)質(zhì)量。
本文所述的基于交叉域分析的能源中心數(shù)據(jù)質(zhì)量評估方法主要包括能源中心數(shù)據(jù)匯聚、能源中心數(shù)據(jù)分類和能源中心數(shù)據(jù)質(zhì)量評估,如圖1所示。
圖1 能源中心數(shù)據(jù)質(zhì)量評估框架Fig.1 Energy center data quality assessment framework
在能源中心數(shù)據(jù)匯聚環(huán)節(jié):首先通過系統(tǒng)接口接入電、水、煤、氣、油等能源數(shù)據(jù),對上述能源數(shù)據(jù)進(jìn)行異常數(shù)據(jù)清洗,對缺失和異常數(shù)據(jù)進(jìn)行分析與補(bǔ)正;然后,對能源數(shù)據(jù)進(jìn)行降維處理,減少海量數(shù)據(jù)計(jì)算的復(fù)雜程度;最后,進(jìn)行數(shù)據(jù)匯集處理,按用戶、街道、市區(qū)匯集能源數(shù)據(jù)。
在能源中心數(shù)據(jù)分類環(huán)節(jié):首先,進(jìn)行能源數(shù)據(jù)聚類,形成能源典型數(shù)據(jù)特征;然后,在此基礎(chǔ)上建立數(shù)據(jù)評估指標(biāo)集;最后,根據(jù)城市的特性調(diào)整評估指標(biāo)的權(quán)重。
在能源中心數(shù)據(jù)質(zhì)量評估環(huán)節(jié):首先,按用戶、街道、市區(qū)建立交叉驗(yàn)證索引;然后,通過能源中心數(shù)據(jù)交叉驗(yàn)證檢測,評估數(shù)據(jù)質(zhì)量;最后,生成能源中心的數(shù)據(jù)質(zhì)量評估報(bào)告。
2.1.1 能源數(shù)據(jù)接入
能源中心匯聚了電、水、煤、氣、油等能源數(shù)據(jù),向政府、供電公司、能源供應(yīng)商、能源聚合商和居民等用戶提供數(shù)據(jù)增值服務(wù)。能源中心數(shù)據(jù)量巨大,服務(wù)用戶眾多,對數(shù)據(jù)質(zhì)量要求較高[11]。
能源中心的數(shù)據(jù)來源于供電公司、供水公司、燃?xì)夤?、供熱公司等能源供?yīng)商的數(shù)據(jù),各能源供應(yīng)商按照能源中心的接口標(biāo)準(zhǔn)制定能源數(shù)據(jù)API,數(shù)據(jù)的接入格式見表1。
表1 能源中心數(shù)據(jù)接入格式Tab.1 Data access format of energy center
2.1.2 異常數(shù)據(jù)清洗
能源企業(yè)的數(shù)據(jù)來源于用電采集、水務(wù)管理、燃?xì)夤芾?、供熱管理等多種量測系統(tǒng),數(shù)據(jù)的采集和傳輸過程容易受到噪聲的影響,導(dǎo)致海量的能源數(shù)據(jù)集存在缺失和錯(cuò)誤數(shù)據(jù)的情況。因此在進(jìn)行數(shù)據(jù)評估前,先對異常類數(shù)據(jù)進(jìn)行分析與清洗[12]。異常數(shù)據(jù)檢查采用拉依達(dá)準(zhǔn)則,詳見文獻(xiàn)[13]。異常數(shù)據(jù)清洗是指從能源生產(chǎn)方的接口數(shù)據(jù)記錄中檢測出不一致、缺失或量測錯(cuò)誤的數(shù)據(jù)。
數(shù)據(jù)的正常率
(1)
式中:na為能源數(shù)據(jù)應(yīng)采集個(gè)數(shù);nb為缺失數(shù)據(jù)個(gè)數(shù);nc為異常數(shù)據(jù)個(gè)數(shù)。
采用數(shù)據(jù)填充法進(jìn)行異常數(shù)據(jù)清洗,區(qū)間[gr,gs]中某缺失采樣點(diǎn)l的數(shù)據(jù)值gl的計(jì)算公式為
(2)
式中:gr和gs為相鄰的第r個(gè)采樣點(diǎn)和第s個(gè)采樣點(diǎn)的已知能源數(shù)據(jù)測量值;m為采樣點(diǎn)總數(shù)。
2.1.3 降維與匯聚
PCA是一種線性降維方法[14],通過對能源中心的多源異構(gòu)數(shù)據(jù)進(jìn)行線性投射,將高維的特征數(shù)據(jù)映射到對應(yīng)的低維空間中,從而減小降維后的能源中心數(shù)據(jù)損失。
通過PCA降維后的數(shù)據(jù)
(3)
式中:nf為數(shù)據(jù)能源中心的數(shù)據(jù)維度數(shù);Canf1,Canf2,…,Canfm為單個(gè)數(shù)據(jù)指標(biāo)的原始特征。本文將nf個(gè)維度降低為a個(gè)維度。
在數(shù)據(jù)降維后,進(jìn)行數(shù)據(jù)匯集處理,按所在城市的用戶、街道、市區(qū)匯集能源數(shù)據(jù)。
2.2.1 能源數(shù)據(jù)聚類
模糊均值聚類(fuzzy C-means,F(xiàn)CM)是一種基于能源中心數(shù)據(jù)目標(biāo)函數(shù)的模糊聚類算法,具有速度快、聚類準(zhǔn)確的特點(diǎn),因此本文采用FCM進(jìn)行聚類。
FCM目標(biāo)函數(shù)的實(shí)質(zhì)是各能源數(shù)據(jù)點(diǎn)的歐氏距離之和,該目標(biāo)函數(shù)通過隸屬度的一級樣本到聚類中心的距離來度量。聚類結(jié)果
(4)
式中:ng為能源中心數(shù)據(jù)指標(biāo)樣本的數(shù)目;cg為FCM聚類的數(shù)目;saij為能源中心不同數(shù)據(jù)之間的隸屬度;dkij為能源中心不同數(shù)據(jù)點(diǎn)之間的歐氏距離。
2.2.2 建立數(shù)據(jù)指標(biāo)集及評估權(quán)重
根據(jù)能源數(shù)據(jù)的特征,依據(jù)能源行業(yè)協(xié)會(huì)公布的典型值建立能源中心評估指標(biāo)集,見表2。
表2 能源中心數(shù)據(jù)評估指標(biāo)集Tab.2 Energy center data evaluation indicator set
對于上述能源中心數(shù)據(jù)評估指標(biāo),首先依據(jù)能源行業(yè)協(xié)會(huì)的典型權(quán)重設(shè)置初始權(quán)重,再通過熵權(quán)法調(diào)整能源中心指標(biāo)權(quán)重。
熵權(quán)法是一種綜合評價(jià)指標(biāo)的方法[15],通過熵值來判斷能源中心指標(biāo)的離散程度,能源中心數(shù)據(jù)指標(biāo)離散程度越大,則信息熵越小,說明權(quán)重越大。
信息熵權(quán)重
(5)
式中:nh為輸入的評價(jià)指標(biāo)個(gè)數(shù);uaq為不同評價(jià)指標(biāo)的貢獻(xiàn)值。
交叉域分析是在單個(gè)維度分析的基礎(chǔ)上,從多個(gè)維度進(jìn)行交叉檢查,驗(yàn)證能源中心數(shù)據(jù)質(zhì)量評估的準(zhǔn)確性,即在單個(gè)指標(biāo)分析的基礎(chǔ)上,按照用戶、街道、市區(qū)等維度進(jìn)行交叉比對分析[16]。該方法雖然較為復(fù)雜,但能有效減小單個(gè)指標(biāo)法分析的誤差。
交叉域分析量
(6)
式中:nl為各指標(biāo)的采樣量;Zk為交叉域分析函數(shù);yi為不同指標(biāo)采樣量的自由度。
能源中心的數(shù)據(jù)質(zhì)量評估值
(7)
式中:no為能源中心的評估指標(biāo)數(shù)量;ki為不同的能源中心評估指標(biāo)值;si為不同的交叉域分析差值。
在完成能源中心數(shù)據(jù)評估后,按照能源中心的格式,從水、電、氣和區(qū)域維度生成能源中心數(shù)據(jù)質(zhì)量評估報(bào)告。
為驗(yàn)證本文所提基于交叉域分析的能源中心數(shù)據(jù)質(zhì)量評估方法的有效性,在某市的能源中心應(yīng)用該方法進(jìn)行評估。采用的服務(wù)器操作系統(tǒng)為windows server2016,中央處理器為英特爾至強(qiáng)系列6254,18核心,運(yùn)行頻率為3.1 GHz,服務(wù)器內(nèi)存為64 GB,服務(wù)器硬盤為10 TB,算法采用python搭建。
本文用于比對的方法是文獻(xiàn)[17]中基于機(jī)理模型的能源中心數(shù)據(jù)評估方法,該方法應(yīng)用廣泛,具有行業(yè)代表性。
3.2.1 異常數(shù)據(jù)分析準(zhǔn)確率
異常數(shù)據(jù)分析準(zhǔn)確率用于衡量本文所提模型對缺失、錯(cuò)誤數(shù)據(jù)的分析準(zhǔn)確性,該指標(biāo)的計(jì)算方式為:人工依據(jù)行業(yè)典型數(shù)據(jù)分析該指標(biāo)數(shù)據(jù)與模型統(tǒng)計(jì)數(shù)據(jù)是否一致,若一致即為準(zhǔn)確;準(zhǔn)確數(shù)據(jù)的數(shù)量與統(tǒng)計(jì)數(shù)量之比即為異常數(shù)據(jù)分析準(zhǔn)確率。
選擇能源數(shù)據(jù)量10 000、20 000、30 000、40 000、50 000、60 000、80 000、90 000,比較本文所提方法與機(jī)理模型方法的異常數(shù)據(jù)分析準(zhǔn)確率,結(jié)果見表3。
表3 異常數(shù)據(jù)分析準(zhǔn)確率Tab.3 Abnormal data analysis accuracy
由表3可見,本文所提基于交叉域分析的能源中心數(shù)據(jù)質(zhì)量評估方法的異常數(shù)據(jù)分析準(zhǔn)確率均值為99.78%,高于機(jī)理模型方法的98.27%。因此,本文所提方法的異常數(shù)據(jù)分析準(zhǔn)確率更高。
3.2.2 指標(biāo)權(quán)重調(diào)整結(jié)果
指標(biāo)權(quán)重為本文所提模型評估分析的關(guān)鍵,合理設(shè)置權(quán)重,可提高能源中心數(shù)據(jù)質(zhì)量評估的準(zhǔn)確性。分別采用本文所提方法和機(jī)理模型方法進(jìn)行指標(biāo)權(quán)重調(diào)整,結(jié)果見表4。
表4 指標(biāo)權(quán)重調(diào)整結(jié)果Tab.4 Index weight adjustment results
3.2.3 能源中心數(shù)據(jù)質(zhì)量評估準(zhǔn)確率
能源中心數(shù)據(jù)質(zhì)量評估準(zhǔn)確率是本文所提方法的核心指標(biāo)。該指標(biāo)的計(jì)算方式為:人工依據(jù)能源行業(yè)協(xié)會(huì)公布的典型指標(biāo)值進(jìn)行分析,若數(shù)據(jù)在該典型指標(biāo)的范圍內(nèi),即為準(zhǔn)確;準(zhǔn)確數(shù)據(jù)的數(shù)量與統(tǒng)計(jì)數(shù)量之比即為數(shù)據(jù)質(zhì)量評估準(zhǔn)確率。
選擇能源數(shù)據(jù)量為10 000、20 000、30 000、40 000、60 000、80 000個(gè),采用本文所提方法與機(jī)理模型方法比較數(shù)據(jù)質(zhì)量評估準(zhǔn)確率,分析結(jié)果見表5。
表5 能源中心數(shù)據(jù)質(zhì)量評估準(zhǔn)確率Tab.5 Accuracy of energy center data quality assessment
由表5可見,本文所提方法的數(shù)據(jù)質(zhì)量評估準(zhǔn)確率均值為99.32%,高于機(jī)理模型的95.87%。因此,本文所提方法數(shù)據(jù)質(zhì)量評估更準(zhǔn)確。
為解決能源大數(shù)據(jù)中心多源異構(gòu)數(shù)據(jù)質(zhì)量評估難的問題,提出了一種基于交叉域分析的能源大數(shù)據(jù)中心數(shù)據(jù)質(zhì)量評估方法。該方法能有效提取電、水、煤、氣、油數(shù)據(jù),建立數(shù)據(jù)特征評估指標(biāo)集,通過能源數(shù)據(jù)交叉域分析來評估能源中心數(shù)據(jù)質(zhì)量?,F(xiàn)場應(yīng)用結(jié)果驗(yàn)證了該方法的有效性。
今后,將結(jié)合城市群的能源中心數(shù)據(jù)質(zhì)量多維分析,進(jìn)一步研究完善本文方法。