董君,馬云飛,張婷婷,左琪剛
(國(guó)網(wǎng)天水供電公司,甘肅天水 741000)
隨著近年來配電網(wǎng)投資的增加與配電工程數(shù)據(jù)的快速增長(zhǎng),數(shù)據(jù)的分析及應(yīng)用也面臨著嚴(yán)峻挑戰(zhàn)[1-2]。而數(shù)據(jù)挖掘(Data Mining,DM)、數(shù)據(jù)融合(Data Fusion)與大數(shù)據(jù)分析(Big Data Analysis,BDA)等新一代人工智能技術(shù)(Artificial Intelligence,AI)的更新,給大規(guī)模數(shù)據(jù)的處理及應(yīng)用帶來了新的解決方案。但配電工程數(shù)據(jù)在生產(chǎn)、運(yùn)營(yíng)與管理方面仍存在多源異構(gòu)問題,這也導(dǎo)致數(shù)據(jù)的分析與推廣存在瓶頸[3-4]。針對(duì)上述問題,國(guó)內(nèi)學(xué)者開展了多方面的研究,通過結(jié)合數(shù)據(jù)提取規(guī)則解決多源異構(gòu)數(shù)據(jù)的融合問題,以實(shí)現(xiàn)不同數(shù)據(jù)庫(kù)間的訪問及共享。文獻(xiàn)[5]通過對(duì)比結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的差異,提出適用于海量數(shù)據(jù)的存儲(chǔ)模式,進(jìn)而解決配電數(shù)據(jù)孤島問題。文獻(xiàn)[6]對(duì)不同維度的數(shù)據(jù)均進(jìn)行了分析,且采用深度學(xué)習(xí)(Deep Learning,DL)進(jìn)行特征提取,從而提高了數(shù)據(jù)分類的精度。國(guó)外學(xué)者的研究則較為超前,初期便提出將數(shù)據(jù)融合框架應(yīng)用于礦山、鐵路等工程場(chǎng)景,但該框架無法適用于不同維度的數(shù)據(jù)處理與分析之中[7-8]。由于配電工程數(shù)據(jù)呈現(xiàn)多維度、數(shù)據(jù)量廣等特征,故需采用精度更高的算法進(jìn)行分析與處理。因此,該文采用多源異構(gòu)數(shù)據(jù)融合技術(shù)對(duì)配電工程數(shù)據(jù)的分析展開研究。
數(shù)據(jù)融合算法基于反向傳播(Back Propagation,BP)網(wǎng)絡(luò)進(jìn)行樣本數(shù)據(jù)的訓(xùn)練操作。但由于極值點(diǎn)的確定存在偶然性,因此其易產(chǎn)生數(shù)據(jù)過擬合問題[9-10]。而多源異構(gòu)數(shù)據(jù)融合算法采用正交基前向神經(jīng)網(wǎng)絡(luò)來確定隱含層的數(shù)目,故可提高配電工程數(shù)據(jù)分析的精度與效率。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法的激勵(lì)函數(shù)(Activation Function)為多項(xiàng)式函數(shù),其可通過巧妙設(shè)定權(quán)閾值的方式縮短運(yùn)行時(shí)間。但該種處理方式占據(jù)了較多內(nèi)存,因此對(duì)硬件設(shè)備的處理效率也會(huì)有更高要求。而正交基前向神經(jīng)網(wǎng)絡(luò)處理算法將單個(gè)任務(wù)分解為多個(gè)子任務(wù),且其節(jié)點(diǎn)與所對(duì)應(yīng)的模塊執(zhí)行同一步驟,并確保了多個(gè)數(shù)據(jù)塊可同時(shí)發(fā)送至Reduce節(jié)點(diǎn),進(jìn)而提高了CPU 的處理效率。
在計(jì)算過程中,正交基前向神經(jīng)網(wǎng)絡(luò)加入了多源異構(gòu)數(shù)據(jù)融合算法。通過將配電工程數(shù)據(jù)進(jìn)行分布式處理,以提高處理器的運(yùn)行效率。該算法的并行處理流程,如圖1 所示。
圖1 多源異構(gòu)數(shù)據(jù)融合并行處理流程圖
配電工程數(shù)據(jù)種類繁多,常見的有配電網(wǎng)工程造價(jià)數(shù)據(jù)、架空線路工程數(shù)據(jù)、電纜線路工程數(shù)據(jù)等。通過收集樣本數(shù)據(jù)來對(duì)上述信息進(jìn)行橫向與縱向地對(duì)比與分析,便可得到分析結(jié)果。多源異構(gòu)數(shù)據(jù)融合即是對(duì)數(shù)據(jù)進(jìn)行分類,并從多個(gè)角度完成融合分析,從而得到相應(yīng)的結(jié)果[11]。收集到的配電工程數(shù)據(jù)儲(chǔ)存于Hadoop 平臺(tái),該平臺(tái)可以儲(chǔ)存海量數(shù)據(jù)[12],再以整定值為目標(biāo)實(shí)現(xiàn)數(shù)據(jù)的融合處理。數(shù)據(jù)融合處理步驟如圖2 所示。
圖2 數(shù)據(jù)融合處理
數(shù)據(jù)融合處理的具體步驟如下:
1)將采集到的配電工程數(shù)據(jù)作離散化處理,包括配電網(wǎng)工程造價(jià)數(shù)據(jù)、架空線路工程數(shù)據(jù)與電纜線路工程數(shù)據(jù)等。其中,配電設(shè)備的狀態(tài)用0-1 變量表示。
2)將上述離散化的數(shù)據(jù)進(jìn)行矩陣化處理,用Ni表示時(shí)刻i采集到的配電工程數(shù)據(jù)集合的數(shù)據(jù)矩陣為:
其中,t為與時(shí)間相關(guān)的數(shù)據(jù)參數(shù)。因此,P個(gè)配電工程數(shù)據(jù)矩陣M可表示為:
3)采用正交基前向神經(jīng)網(wǎng)絡(luò)對(duì)配電工程數(shù)據(jù)進(jìn)行訓(xùn)練、預(yù)測(cè)及分析。
常見的配電工程數(shù)據(jù)源有:配電網(wǎng)工程造價(jià)數(shù)據(jù)、架空線路工程數(shù)據(jù)、電纜線路工程數(shù)據(jù)等。這些數(shù)據(jù)都存在著多來源、多維度、冗余等特征,因此需要對(duì)所收集到的樣本數(shù)據(jù)做預(yù)處理,才能進(jìn)行數(shù)據(jù)分析及應(yīng)用。對(duì)于收集到的配電工程異構(gòu)數(shù)據(jù),分析其數(shù)據(jù)間的關(guān)聯(lián)性,且輸入預(yù)處理后的結(jié)果,即可作為數(shù)據(jù)訓(xùn)練與迭代的信號(hào)源。當(dāng)采集到配電網(wǎng)工程的各類數(shù)據(jù)時(shí),需對(duì)上述數(shù)據(jù)進(jìn)行降噪處理,同時(shí)剔除異常數(shù)據(jù),從而提高數(shù)據(jù)的準(zhǔn)確率。假設(shè)數(shù)據(jù)總樣本數(shù)為N,其中子樣本數(shù)據(jù)集A、B、C與關(guān)聯(lián)數(shù)據(jù)集Y分別可表示為:
則樣本數(shù)據(jù)i可表示為:
由于配電工程數(shù)據(jù)分類不明確,因此為有效識(shí)別工程數(shù)據(jù)的種類,采用了無監(jiān)督學(xué)習(xí)、聚類分析特征的稀疏自編碼數(shù)據(jù)融合算法。該算法除了可以還原數(shù)據(jù)本質(zhì)、體現(xiàn)無監(jiān)督特征之外,還能主動(dòng)提取樣本數(shù)據(jù)信息,并根據(jù)數(shù)據(jù)特征將其分為不同的種類,且最終得到數(shù)據(jù)融合結(jié)果。此外與傳統(tǒng)數(shù)據(jù)融合算法不同,該算法的編碼器在損失函數(shù)中增加了稀疏約束(Sparsity Constraint)[13],以限制數(shù)據(jù)的范圍,并增加配網(wǎng)工程數(shù)據(jù)的特征提取能力。稀疏自編碼器數(shù)據(jù)融合算法的流程,如圖3 所示[14-15]。
圖3 稀疏自編碼器數(shù)據(jù)融合算法流程
從圖中可看出,該算法的數(shù)據(jù)分析有三個(gè)關(guān)鍵點(diǎn):1)在對(duì)配電工程數(shù)據(jù)重構(gòu)的過程中采用稀疏自編碼器(Sparse AutoEncoder,SAE);2)采用均方損失函數(shù)以及Adam 數(shù)據(jù)優(yōu)化器優(yōu)化處理配電工程數(shù)據(jù),并初始化網(wǎng)絡(luò)參數(shù);3)通過K-medoid 算法設(shè)置數(shù)據(jù)中心點(diǎn),再進(jìn)行反復(fù)迭代以找到數(shù)據(jù)分類的基數(shù)。
當(dāng)采集到配電工程數(shù)據(jù)之后,為確保整體與局部數(shù)據(jù)的一致性及協(xié)調(diào)性,仍需對(duì)邊緣數(shù)據(jù)進(jìn)行自適應(yīng)增強(qiáng)處理[16]。首先,定義數(shù)據(jù)一致性為:
式中,gout(x,y)、gave(x,y)表示配電工程數(shù)據(jù)在直角坐標(biāo)系中的輸出值與數(shù)據(jù)局部平均值。
為提高數(shù)據(jù)的真實(shí)性,進(jìn)一步定義數(shù)據(jù)的邊緣值為:
隨后再進(jìn)行數(shù)據(jù)還原操作,所采用的還原公式為:
其中,Pin、Pout分別表示配電工程數(shù)據(jù)的輸入與輸出分量;而β(x,y)則表示還原系數(shù),其可通過下式計(jì)算得到:
式中,δ為偏置量。綜上,經(jīng)過數(shù)據(jù)還原及數(shù)據(jù)一致性計(jì)算,通過處理局部與整體數(shù)據(jù)的協(xié)調(diào)性,可對(duì)邊緣數(shù)據(jù)進(jìn)行自適應(yīng)增強(qiáng)處理。
該算例分析的基礎(chǔ)數(shù)據(jù)主要采集于某地區(qū)2020年1 月1 日—2020 年12 月31 日竣工投產(chǎn)的電力公司,新建或整體改造10 kV 及以下配電網(wǎng)工程(包括配電站房、配電變壓器、架空線路、電纜工程)概算和決算的數(shù)據(jù)。其中,配電站房類工程完全覆蓋;架空線路工程10 kV 路徑長(zhǎng)度不小于2 km,0.4 kV 路徑長(zhǎng)度不小于1 km;而電纜線路工程的路徑長(zhǎng)度則為0.5 km 以上。該地區(qū)2020 年共收集配電工程、架空線路工程及電纜線路工程樣本1 147 項(xiàng),總計(jì)靜態(tài)投資32 650.40 萬元。其中配電工程樣本分類統(tǒng)計(jì)情況如表1 所示。
表1 配電工程樣本分類統(tǒng)計(jì)情況
配網(wǎng)工程數(shù)據(jù)分析分別從工程樣本情況、造價(jià)水平、分項(xiàng)費(fèi)用、不同項(xiàng)目管理單位造價(jià)水平等多源異構(gòu)數(shù)據(jù)融合開展分析研究。收集該地區(qū)2020 年農(nóng)網(wǎng)改造升級(jí)工程及高損臺(tái)區(qū)治理工程中完成財(cái)務(wù)決算的項(xiàng)目,并開展投資結(jié)余率研究,以進(jìn)一步掌握配電網(wǎng)工程造價(jià)的規(guī)律。
2020 年配電變臺(tái)工程樣本總計(jì)624 項(xiàng),共667 臺(tái)(套),靜態(tài)投資4 442.34 萬元。技術(shù)方案分為100、200、400 kVA 及100 kVA 以下小成套共四種類型。配電變臺(tái)工程典型技術(shù)方案的分布具體如表2所示。
表2 配電變臺(tái)工程典型技術(shù)方案
根據(jù)圖4 所示的配電網(wǎng)工程總體結(jié)余率散點(diǎn)分布情況,將結(jié)余率劃分為四個(gè)區(qū)間,并統(tǒng)計(jì)配電工程、架空線路工程與電纜線路工程結(jié)余情況。由圖可知,配電網(wǎng)工程結(jié)余率主要分布在0%~10%的范圍內(nèi),總體占比達(dá)到69.35%,其次是10%~20%范圍內(nèi),占比達(dá)到23.26%,而20%以上的結(jié)余率工程占比為7.08%。
圖4 配電網(wǎng)工程總體結(jié)余率散點(diǎn)分布
進(jìn)一步地,使用四種方法對(duì)該地區(qū)的配電網(wǎng)工程數(shù)據(jù)進(jìn)行分析。計(jì)算不同方法的標(biāo)準(zhǔn)誤差與絕對(duì)誤差,統(tǒng)計(jì)結(jié)果如表3 所示。從表中可看出,當(dāng)采用本方法對(duì)配網(wǎng)數(shù)據(jù)進(jìn)行分析時(shí),標(biāo)準(zhǔn)誤差與絕對(duì)誤差均有所降低,且更能反映真實(shí)值。原因在于,該方法采用了正交多項(xiàng)式作為激勵(lì)函數(shù)來實(shí)現(xiàn)不同類型數(shù)據(jù)的融合。因此,其更能反映原始數(shù)據(jù)的特征。
表3 四種方法誤差對(duì)比
為進(jìn)一步分析該文方法在不同數(shù)據(jù)量時(shí)的計(jì)算效率,分別設(shè)置了四組實(shí)驗(yàn),分析當(dāng)配網(wǎng)數(shù)據(jù)集在5、10、15、20 GB 情形下的處理器運(yùn)行時(shí)間。兩種方法的運(yùn)行時(shí)間,如表4 所示。從表中可看出,隨著配網(wǎng)工程數(shù)據(jù)量的增大,兩種方法所用時(shí)長(zhǎng)均在增加。但在數(shù)據(jù)量相同時(shí),所述方法用時(shí)更短。由此證明了該文方法具有高效的運(yùn)行速度,故能適用于大容量配網(wǎng)工程數(shù)據(jù)的場(chǎng)景。
表4 兩種方法消耗時(shí)間對(duì)比
針對(duì)配電工程數(shù)據(jù)量較大、維度多、分析與處理困難等問題,該文開展了基于多源異構(gòu)數(shù)據(jù)融合的配電工程數(shù)據(jù)分析方法研究。在數(shù)據(jù)特征提取時(shí),首先利用正交基前向神經(jīng)網(wǎng)絡(luò)算法有效提高了特征提取精度;然后,采用稀疏自編碼數(shù)據(jù)融合算法來識(shí)別數(shù)據(jù)種類;最終再使用均方損失函數(shù)及Adam 數(shù)據(jù)優(yōu)化器優(yōu)化處理配電工程數(shù)據(jù),并對(duì)邊緣數(shù)據(jù)進(jìn)行自適應(yīng)增強(qiáng)處理。算例分析表明,該方法可從不同的維度體現(xiàn)配電工程數(shù)據(jù)所反映的問題,能更優(yōu)地體現(xiàn)數(shù)據(jù)的真實(shí)值,且運(yùn)行速度也較快。未來將繼續(xù)推進(jìn)智能算法在數(shù)據(jù)提取過程中應(yīng)用的研究,以進(jìn)一步提升數(shù)據(jù)分析的精度。