竇圣霞,程志強(qiáng)
(國(guó)網(wǎng)寧夏電力有限公司 營(yíng)銷服務(wù)中心(計(jì)量中心),銀川 750001)
在大數(shù)據(jù)智能電網(wǎng)環(huán)境下,電能計(jì)量裝置相關(guān)技術(shù)處于不斷創(chuàng)新階段,使得電能計(jì)量多維數(shù)據(jù)采集量急劇上漲。然而,針對(duì)海量電能計(jì)量多維數(shù)據(jù)的有效管理、計(jì)算機(jī)系統(tǒng)性能優(yōu)化、計(jì)量裝置易發(fā)生故障等成為了新的挑戰(zhàn)[1]。因此,研究出有效的電能計(jì)量多維數(shù)據(jù)分析技術(shù)成為亟待解決的問題。
為了解決上述存在的問題,文獻(xiàn)[2]公開了基于Hadoop 模型的MapReduce 算法配合Hive 數(shù)據(jù)倉庫儲(chǔ)存技術(shù)的計(jì)算分析系統(tǒng),這種方案雖然利用大數(shù)據(jù)技術(shù)對(duì)計(jì)量數(shù)據(jù)進(jìn)行了深徹的挖掘分析,但該算法計(jì)算效率低下,Hive 數(shù)據(jù)倉庫儲(chǔ)存技術(shù)復(fù)雜的讀寫信息會(huì)轉(zhuǎn)換成MapReduce 的計(jì)算過程,降低了分析效率。文獻(xiàn)[3]采用Hbase 數(shù)據(jù)庫分布式存儲(chǔ)數(shù)據(jù),雖然提高了分析效率,但依然存在MapReduce計(jì)算的缺陷。文獻(xiàn)[4]采用基于LaVIEW的大數(shù)據(jù)分析聚類算法,應(yīng)用位置標(biāo)記方法,通過循環(huán)分批讀取,解決了大數(shù)據(jù)塊文本數(shù)據(jù)的快速聚類難題。這種方法雖然聚類過程簡(jiǎn)單迅速,但是需要建立一個(gè)數(shù)據(jù)模型專門進(jìn)行管理,比較復(fù)雜。文獻(xiàn)[5]公開了基于分布式技術(shù)的多維數(shù)據(jù)分析方法,利用云計(jì)算在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理和虛擬化等方面的技術(shù)優(yōu)勢(shì),構(gòu)建了基于云計(jì)算的大數(shù)據(jù)管理和處理模式,對(duì)多維數(shù)據(jù)進(jìn)行分析。該方法雖然具有較好效果,但處理效率仍較為低下。針對(duì)上述存在的缺陷,本文采用一種合適的解決方案,具體內(nèi)容如下。
本研究基于ADE7953 電能計(jì)量芯片配合微處理器,實(shí)現(xiàn)電能計(jì)量多維數(shù)據(jù)的采集,并通過優(yōu)化電能計(jì)量算法提高采集系統(tǒng)的精準(zhǔn)度。本文技術(shù)亮點(diǎn)在于采用混沌關(guān)聯(lián)維聚類分析法對(duì)電能計(jì)量數(shù)據(jù)進(jìn)行多維分析。通過將混沌特征提取與大數(shù)據(jù)聚類算法巧妙結(jié)合在一起,充分發(fā)揮雙方優(yōu)勢(shì),高效且精確地分析電能計(jì)量多維數(shù)據(jù)。分析系統(tǒng)架構(gòu)如圖1所示。
圖1 電能計(jì)量多維數(shù)據(jù)分析系統(tǒng)架構(gòu)圖Fig.1 Architecture diagram of energy metering multidimensional data analysis system
如圖1 所示,采集終端從各個(gè)新型智能電能表中收集電能計(jì)量數(shù)據(jù),并通過優(yōu)化電能計(jì)量算法提高采集系統(tǒng)的精準(zhǔn)度。對(duì)電能計(jì)量數(shù)據(jù)進(jìn)行預(yù)處理,通過新型智能電能表的通信技術(shù)可以實(shí)時(shí)遠(yuǎn)程傳輸數(shù)字信號(hào)至大數(shù)據(jù)云端平臺(tái)。大數(shù)據(jù)平臺(tái)應(yīng)用計(jì)算機(jī)處理相關(guān)技術(shù),對(duì)電能計(jì)量多維數(shù)據(jù)進(jìn)行高效率的處理[6]。接著基于關(guān)聯(lián)維和聚類算法的混沌特征分析法對(duì)電能計(jì)量多維數(shù)據(jù)進(jìn)行多維分析。最后將分析結(jié)果傳輸至管理人員,由管理人員針對(duì)分析結(jié)果進(jìn)行可視化分析,并通過數(shù)據(jù)挖掘出隱藏信息,以便進(jìn)行進(jìn)一步的決策與判斷,還可以將其應(yīng)用到其他系統(tǒng)中。
本研究采用混沌關(guān)聯(lián)維聚類分析法,該方法將混沌特征提取與大數(shù)據(jù)聚類算法糅合,充分進(jìn)行優(yōu)勢(shì)互補(bǔ),合理地分析電能計(jì)量多維數(shù)據(jù)?;煦缋碚摽梢杂霉竭M(jìn)行表達(dá)如下。
存在一個(gè)函數(shù)f(x)和一個(gè)緊性度量空間M,其中x∈M。在x中有一個(gè)領(lǐng)域c(c>0),領(lǐng)域c中存在任意值y,使得
式中:n>0;z為初始值敏感性,z>0。在度量空間M上存在任意兩個(gè)開集A、B,使得
式中:k>0。從式(2)得出函數(shù)f的值在度量空間M中密集,有f(x):M→M,定義f為度量空間M上的混沌[7—9]。
在電能計(jì)量多維數(shù)據(jù)中,混沌特征一般表現(xiàn)為無規(guī)則非周期性,非常復(fù)雜,因此可以利用混沌特征參數(shù)來描述數(shù)據(jù)非周期性無規(guī)則特性,例如Lyapunov 指數(shù)、關(guān)聯(lián)維數(shù)、近似熵、復(fù)雜度等參數(shù)。其中Lyapunov 指數(shù)和關(guān)聯(lián)維數(shù)能直接反映數(shù)據(jù)信號(hào)的周期性或混沌性,是普遍使用的混沌特征參數(shù)[10—11]。本研究采用混沌特征參數(shù)關(guān)聯(lián)維數(shù)來反映電能計(jì)量多維數(shù)據(jù)的混沌程度,下面將闡述具體過程。
電能計(jì)量多維數(shù)據(jù)序列一般是無規(guī)則非周期性序列,相空間重構(gòu)是無規(guī)則非周期性序列的關(guān)鍵。相空間重構(gòu)的原理是在一個(gè)時(shí)間延遲點(diǎn)上進(jìn)行測(cè)量,并構(gòu)成多相空間中的一個(gè)點(diǎn),重復(fù)該過程構(gòu)成若干個(gè)點(diǎn),即重構(gòu)出多相空間。在多相空間中能夠提取電能計(jì)量多維數(shù)據(jù)的混沌關(guān)聯(lián)維特征[12]。關(guān)于相空間重構(gòu)具體步驟如下。
首先假設(shè)原始時(shí)間序列為{a1,a2,…,an} ,則相空間重構(gòu)矩陣A為
式中:k=n-(u-1)r;r為時(shí)間延遲;u為最佳嵌入維數(shù)。
從式(3)可以看出,相空間重構(gòu)矩陣中r和u是兩個(gè)重要參數(shù),關(guān)于參數(shù)r和u的取值是后續(xù)步驟中重點(diǎn)闡述的內(nèi)容[13]。
接著關(guān)于時(shí)間延遲r的最佳選擇,主要方法有線性自相關(guān)函數(shù)法和平均互信息法。本研究采用平均交互信息法,通過原始時(shí)間序列定義出平均交互信息公式,從中選擇第一個(gè)相關(guān)極小值的時(shí)間序列間隔,作為最佳時(shí)間延遲r。關(guān)于延遲時(shí)間中交互信息量O公式為
式中:m和n均為某區(qū)間;mn為區(qū)間m和區(qū)間n共有的分布;P為分布概率。若O(r)為0,則a(t+r)和a(t)相互獨(dú)立導(dǎo)致無法預(yù)測(cè),O(r)越小,a(t+r)和a(r)相互獨(dú)立越明顯。最終,O(r)取極小值,此刻r是最佳時(shí)間延遲。
最后關(guān)于嵌入維數(shù)u的最佳選擇,主要方法有虛假鄰點(diǎn)法和奇異值分解法。本研究選用虛假鄰點(diǎn)法,通過對(duì)隨機(jī)兩個(gè)鄰近的時(shí)間序列點(diǎn)進(jìn)行維數(shù)增加,比較相鄰距離的增大量,以此來確定是否互為虛假鄰點(diǎn)。假設(shè)在u維度空間,兩個(gè)鄰近的時(shí)間序列點(diǎn)處于時(shí)間序列
鄰近點(diǎn)a(n)與a(n+r)之間的距離為B1;當(dāng)維度增加到u+1 時(shí),距離為B2。如果B2遠(yuǎn)遠(yuǎn)大于B1,則說明a(n)與a(n+r)互為虛假鄰點(diǎn)。
然而在時(shí)間序列太小的情況下,不易判定虛假鄰點(diǎn),這種情況下可采用相對(duì)度量法。實(shí)現(xiàn)公式如
若式(6)成立,則說明a(n)與a(n+r)互為虛假鄰點(diǎn)。一般情況下R值為15,通過不斷重復(fù)計(jì)算直到虛假鄰點(diǎn)不再隨著維度u變化而出現(xiàn),此刻維度u是最佳嵌入維數(shù)。
在重構(gòu)相空間后,進(jìn)行下一步提取電能計(jì)量多維數(shù)據(jù)的混沌特征,關(guān)于混沌特征參量選用關(guān)聯(lián)維數(shù)。關(guān)聯(lián)維數(shù)主要是通過關(guān)聯(lián)積分計(jì)算電能計(jì)量多維數(shù)據(jù)的混沌程度,它的原理在于計(jì)算原始時(shí)間序列中給定兩個(gè)中心點(diǎn)之間的距離,并給出一個(gè)距離標(biāo)準(zhǔn)值。計(jì)算任意一點(diǎn)與中心點(diǎn)之間的距離,超過這個(gè)標(biāo)準(zhǔn)值的其他任意一點(diǎn)都與中心點(diǎn)不具有相關(guān)性;小于標(biāo)準(zhǔn)值,且大于中心點(diǎn)之間的距離的點(diǎn)與中心點(diǎn)具有相關(guān)性。這些相關(guān)的點(diǎn)數(shù)目越多,則代表多項(xiàng)空間內(nèi)關(guān)聯(lián)維度越多。下面將通過算法實(shí)現(xiàn)該過程。
在多相空間的重構(gòu)過程后,關(guān)于原始時(shí)間序列矩陣Am可表示為
設(shè)立兩個(gè)中心點(diǎn)am和an,在關(guān)聯(lián)維數(shù)為u的相空間內(nèi)計(jì)算am與an之間的距離,不超過L的點(diǎn)數(shù)集合Q為
式中:H為赫維賽德函數(shù);Li為相空間內(nèi)任意一點(diǎn)i到中心點(diǎn)的距離,大于兩個(gè)中心點(diǎn)之間的距離。關(guān)于關(guān)聯(lián)函數(shù)D(L)的表達(dá)式為
式(9)中含有集合Q的分?jǐn)?shù)主要作用是對(duì)關(guān)聯(lián)函數(shù)的去重。下面計(jì)算給定的距離標(biāo)準(zhǔn)值為
式中:v為符合要求的關(guān)聯(lián)維數(shù),通過這個(gè)關(guān)聯(lián)維數(shù)范圍參數(shù)表示出電能計(jì)量多維數(shù)據(jù)的混沌程度,為下一步大數(shù)據(jù)聚類分析算法提供條件。
在提取出電能計(jì)量多維數(shù)據(jù)混沌特征后,需要實(shí)現(xiàn)聚類分析算法。聚類分析算法指將電能計(jì)量多維數(shù)據(jù)樣本進(jìn)行分類,同一個(gè)類簇中的樣本具有相似性,不同類簇中的樣本之間具有差異性。下面將根據(jù)混沌特征進(jìn)行聚類分析,具體算法流程如下。
(1) 輸入n個(gè)電能計(jì)量多維數(shù)據(jù)樣本集{x1,x2,…,xn} ,從該集合中隨機(jī)選取N個(gè)凝聚點(diǎn),這些凝聚點(diǎn)組成的集合為{z1,z2,…,zN} 。
(2)計(jì)算任意電能計(jì)量多維數(shù)據(jù)樣本點(diǎn)與凝聚點(diǎn)之間的距離
式(11)用于描述x和zn之間的最短距離。同時(shí)假設(shè)電能計(jì)量多維數(shù)據(jù)樣本集合wn中存在Nn個(gè)電能計(jì)量多維數(shù)據(jù)樣本。
(3)根據(jù)關(guān)聯(lián)函數(shù)D(L)求和得到凝聚點(diǎn)zn的表達(dá)式為
(4)分類。假設(shè)x和zn之間的最大距離為
用d1代表分類距離,如果x和zn之間的最大距離大于分類距離,說明wm點(diǎn)并不適合作為凝聚點(diǎn),要在此聚類區(qū)間分成兩個(gè)凝聚點(diǎn),可描述為
式中:λ 為一個(gè)大于0 的常數(shù)。若x和zn之間的最大距離小于分類距離,說明wm點(diǎn)適合作為凝聚點(diǎn),能夠很好的進(jìn)行聚類,則不需要進(jìn)行步驟(5),直接迭代結(jié)束。
(5)合并。假設(shè)zm和zn之間的最小距離為l,關(guān)于l的表達(dá)式為
用d2表示合并距離,若最小距離l小于合并距離,說明分類得到的wm和wn之間具有相似性,將其進(jìn)行合并,得到zm點(diǎn)和zn點(diǎn)的凝聚點(diǎn)zmn為
若最小距離l大于合并距離,則重新進(jìn)行步驟(4)。綜上所述,基于關(guān)聯(lián)維數(shù)混沌特征參量,本研究應(yīng)用了電能計(jì)量多維數(shù)據(jù)的聚類,將相似的混沌特征樣本分成了同一類,成功實(shí)現(xiàn)了混沌特征提取與大數(shù)據(jù)聚類分析法的結(jié)合。
下面將通過仿真實(shí)驗(yàn)進(jìn)行分析,通過對(duì)比驗(yàn)證本文所研究的混沌關(guān)聯(lián)維聚類分析法的優(yōu)勢(shì)。
電能計(jì)量數(shù)據(jù)樣本信息主要通過電能計(jì)量數(shù)據(jù)庫提取,使用大數(shù)據(jù)云端平臺(tái)進(jìn)行數(shù)據(jù)的預(yù)處理,最終得到電能計(jì)量多維數(shù)據(jù)。由于數(shù)據(jù)庫中電能參數(shù)種類過多,因此選擇其中幾個(gè)重要參數(shù)列出,如表1所示。
表1 電能計(jì)量多維數(shù)據(jù)樣本參數(shù)Table 1 Parameters of electric energy metering multidimensional data sample
本研究分別采用LaVIEW算法和混沌關(guān)聯(lián)維聚類分析法(chaos correlation dimension cluster analysis method,CCDCAM),針對(duì)不同數(shù)據(jù)量的電能計(jì)量多維數(shù)據(jù)進(jìn)行聚類,通過實(shí)驗(yàn)統(tǒng)計(jì)出LaVIEW 算法和CCDCAM算法計(jì)算所耗時(shí)間。將統(tǒng)計(jì)得到結(jié)果進(jìn)行對(duì)比如表2所示。
表2 兩種算法聚類耗時(shí)對(duì)比Table 2 Time-consuming comparison of two algorithms for clustering
從表2可以看出,在不同電能計(jì)量多維數(shù)據(jù)量的條件下,本文所研究的混沌關(guān)聯(lián)維聚類分析法所耗時(shí)間更短。在數(shù)據(jù)量為1 024 GB的環(huán)境下,本研究的CCDCAM 算法耗時(shí)少2 倍多,這也直接表明了本研究的混沌關(guān)聯(lián)維聚類分析法更加高效。
在耗時(shí)對(duì)比實(shí)驗(yàn)后,本文又分別采用這兩種算法處理相同的數(shù)據(jù)量統(tǒng)計(jì)系統(tǒng)所損失的能量,并進(jìn)一步統(tǒng)計(jì)兩種算法的關(guān)聯(lián)維數(shù),MATLAB 輸入統(tǒng)計(jì)結(jié)果得出仿真曲線如圖2和圖3所示。
圖2 兩種算法聚類能耗對(duì)比Fig.2 Energy consumption comparison of two algorithms for clustering
圖3 兩種算法聚類關(guān)聯(lián)維數(shù)變化對(duì)比Fig.3 Comparison of correlation dimension changes of two algorithms for clustering
從圖2可以得出,在不同電能計(jì)量數(shù)據(jù)量的環(huán)境下,CCDCAM算法曲線均在LaVIEW算法曲線之下,這體現(xiàn)了本研究的算法系統(tǒng)損耗更低。如圖3所示,本研究所采用的混沌關(guān)聯(lián)維聚類分析法關(guān)聯(lián)維數(shù)更加穩(wěn)定。以此證明了本研究算法穩(wěn)定和性能要求低的優(yōu)點(diǎn)。
為了驗(yàn)證CCDCAM算法比MapReduce算法直接計(jì)算處理效果更好,本文通過對(duì)比來表現(xiàn)這兩種方法處理數(shù)據(jù)的差異。根據(jù)表1數(shù)據(jù)樣本,實(shí)驗(yàn)分別統(tǒng)計(jì)對(duì)同類電能計(jì)量數(shù)據(jù)不同數(shù)據(jù)量分析處理的精準(zhǔn)度,得到對(duì)比結(jié)果如圖4所示。
圖4 不同方法精準(zhǔn)度對(duì)比圖Fig.4 Comparison of the accuracy of different methods
本文所采用的CCDCAM 算法比傳統(tǒng)MapReduce 算法處理數(shù)據(jù)精準(zhǔn)度要更高,隨著電能計(jì)量數(shù)據(jù)量不斷增加,處理電能計(jì)量數(shù)據(jù)的精準(zhǔn)度也會(huì)略微降低,但是相同數(shù)據(jù)量情況下CCDCAM算法比使用MapReduce 算法優(yōu)勢(shì)大。因此,本文所采用的混沌關(guān)聯(lián)維聚類分析法具有更良好的實(shí)用性,適合于電能計(jì)量大數(shù)據(jù)的聚合應(yīng)用。
本研究首先通過在一個(gè)時(shí)間延遲點(diǎn)上進(jìn)行測(cè)量,并構(gòu)成多相空間中的一個(gè)點(diǎn),重復(fù)該過程構(gòu)成若干個(gè)點(diǎn),重構(gòu)出多相空間。其次在重構(gòu)相空間后,進(jìn)行下一步提取電能計(jì)量多維數(shù)據(jù)的混沌特征,通過關(guān)聯(lián)維表現(xiàn)混沌程度。最后將電能計(jì)量多維數(shù)據(jù)樣本進(jìn)行分類,基于混沌特征將相似的樣本分為一類,成功實(shí)現(xiàn)混沌特征提取與大數(shù)據(jù)聚類分析法的結(jié)合。實(shí)驗(yàn)表明,相比傳統(tǒng)的聚類分析算法,本研究所采用的分析算法適用性較高,能有效地提高電能計(jì)量多維數(shù)據(jù)聚類分析效率。D