陸 俊,李 葵,周 明,辛 永,陸 鑫
(1.國網(wǎng)安徽省電力有限公司信息通信分公司,安徽 合肥 230061;2.國網(wǎng)信通億力科技有限責(zé)任公司,福建 福州 350003)
隨著同期線損管理系統(tǒng)建設(shè)的全面推進(jìn),同期線損管理要求日益迫切,運(yùn)檢、調(diào)度、營銷等各專業(yè)數(shù)據(jù)質(zhì)量要求進(jìn)一步提高,同時(shí)降本增效成為經(jīng)濟(jì)新常態(tài)下電網(wǎng)企業(yè)持續(xù)健康發(fā)展的關(guān)鍵支撐[1]。因此,亟需研究設(shè)計(jì)有效的治理方法,實(shí)現(xiàn)營配調(diào)各專業(yè)數(shù)據(jù)特性的自動匹配和識別,進(jìn)而實(shí)現(xiàn)同期線損異常的自動排查,減少拉網(wǎng)式手工排查工作量,挖掘同期線損數(shù)據(jù)價(jià)值,為降損規(guī)劃和專業(yè)管理提升提供有效支撐。
國內(nèi)各級供電公司及研究院在營配調(diào)貫通數(shù)據(jù)治理方面進(jìn)行了大量研究,取得了一定成果。例如,采用數(shù)據(jù)轉(zhuǎn)檔、信息采錄、開啟異動等操作實(shí)現(xiàn)營銷配貫通[2];以營配調(diào)貫通工程為基礎(chǔ),通過獲取覆蓋電生產(chǎn)運(yùn)行到客戶服務(wù)的全生命周期海量數(shù)據(jù),結(jié)合大數(shù)據(jù)分析手段、數(shù)據(jù)挖掘技術(shù),提出了電力公司智能預(yù)測、客服服務(wù)等高級應(yīng)用的實(shí)現(xiàn)方法[3];以GIS平臺為基礎(chǔ),突破了營配調(diào)專業(yè)數(shù)據(jù)壁壘,設(shè)計(jì)了營配調(diào)數(shù)據(jù)融合業(yè)務(wù)應(yīng)用平臺,實(shí)現(xiàn)了電網(wǎng)基礎(chǔ)數(shù)據(jù)質(zhì)量和營配調(diào)協(xié)同工作效率的提升[4];針對配電網(wǎng)信息共享和應(yīng)用繼承需要,構(gòu)建了營配調(diào)一體化平臺[5]。
本文采用相關(guān)性分析算法、BP神經(jīng)網(wǎng)絡(luò)-時(shí)間序列算法和基于分布式計(jì)算的TF-IDF算法組成的數(shù)據(jù)處理模型,自動甄別線變、臺戶關(guān)系錯(cuò)誤數(shù)據(jù),協(xié)助供電單位直接定位線損異常用戶,減少人工核對工作量,有效解決同期線損中的營配調(diào)貫通問題,以真正為基層減負(fù)。
本課題研究的數(shù)據(jù)處理模型由五部分組成:數(shù)據(jù)預(yù)處理、供售電量差值計(jì)算、供售電量相關(guān)性計(jì)算、線損電量預(yù)測以及基于TF-IDF算法篩查異常掛點(diǎn)的設(shè)備,如圖1所示。
數(shù)據(jù)預(yù)處理是在數(shù)據(jù)挖掘前對原始數(shù)據(jù)進(jìn)行清洗、集成、轉(zhuǎn)換、離散、歸約等必要的處理,達(dá)到運(yùn)用挖掘算法進(jìn)行知識獲取研究所要求的最低標(biāo)準(zhǔn)。通過數(shù)據(jù)預(yù)處理可完善殘缺數(shù)據(jù),糾正錯(cuò)誤數(shù)據(jù),去除多余數(shù)據(jù),集成所需數(shù)據(jù),轉(zhuǎn)換合適的數(shù)據(jù)格式,達(dá)到數(shù)據(jù)類型相同化和數(shù)據(jù)格式一致化。總之,經(jīng)過數(shù)據(jù)預(yù)處理可獲取實(shí)驗(yàn)所需的樣本數(shù)據(jù),提高實(shí)驗(yàn)的可靠性和真實(shí)性。
圖1 基于TF-IDF算法的同期線損數(shù)據(jù)治理模型
預(yù)處理后的數(shù)據(jù)通過比較供電量和售電量的差值,初步預(yù)判一個(gè)地區(qū)是否出現(xiàn)線損異常情況。設(shè)定一個(gè)閾值ε0,將之與供、售電量的差值對比。若二者的差值大于閾值,則該地區(qū)存在線損異常,需采用TF-IDF算法查找線損異常的原因;否則,需要對供電量和線損電量進(jìn)行相關(guān)性分析,判斷該地區(qū)是否出現(xiàn)線損異常。
相關(guān)性分析是指分析兩個(gè)或多個(gè)具備相關(guān)性的變量元素,衡量變量因素的相關(guān)密切程度。相關(guān)元素之間需要存在一定的聯(lián)系或者概率可進(jìn)行相關(guān)性分析,通常以元素之間的相關(guān)性系數(shù)來衡量它們之間的相關(guān)性。
相關(guān)性分析常用的相關(guān)性系數(shù)有兩種:Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)。Spearman系數(shù)對處理的樣本數(shù)據(jù)要求低,統(tǒng)計(jì)效能較低。Pearson系數(shù)較Spearman系數(shù)更適用等間距測度的變量間的相關(guān)分析。因此,本文采用Pearson相關(guān)系數(shù)進(jìn)行相關(guān)性分析。
假設(shè)存在兩個(gè)向量X=[x1,x2,…,xn],Y=[y1,y2,…,yn],則兩者的Pearson相關(guān)系數(shù)計(jì)算公式為:
式(1)中,相關(guān)系r的絕對值越大,相關(guān)性越強(qiáng);r的取值范圍和相關(guān)性的對應(yīng)關(guān)系如表1所示。
通過計(jì)算線損電量和供電量的Pearson相關(guān)系數(shù),分析兩者之間的相關(guān)性。若兩者強(qiáng)相關(guān)(r>0.6),則直接校驗(yàn);否則,繼續(xù)進(jìn)行線損電量的預(yù)測。
表1 r的取值范圍和相關(guān)性的對應(yīng)關(guān)系表
當(dāng)線損電量和供電量不存在強(qiáng)相關(guān)關(guān)系時(shí),通過算法獲取預(yù)測售電量計(jì)算得到線損電量,然后將預(yù)測線損電量與實(shí)際線損電量相減。若差值小于設(shè)定的閾值(ε1),則直接校驗(yàn);否則,數(shù)據(jù)處理模型會判定線損電量出現(xiàn)異常,此時(shí)需排查線損異常產(chǎn)生的原因。
售電量有不確定性、復(fù)雜性、條件性及多方案性的特點(diǎn),需綜合考慮多種影響因素從本質(zhì)上提高售電量預(yù)測的精度。本文結(jié)合時(shí)間序列算法和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行售電量預(yù)測。應(yīng)用時(shí)間序列典型分解法提取樣本售電量序列中的趨勢成分和周期性成分,將影響售電量主要因素作為BP神經(jīng)網(wǎng)絡(luò)輸入,根據(jù)預(yù)測售電量計(jì)算線損率實(shí)現(xiàn)對異常線損的修正。算法流程如圖2所示。
圖2 BP神經(jīng)網(wǎng)絡(luò)-時(shí)間序列算法流程圖
通過對樣本數(shù)據(jù)進(jìn)行多次模擬訓(xùn)練,建立日溫度、日類型、歷史售電量與預(yù)測售電量的對應(yīng)關(guān)系,從而達(dá)到預(yù)測售電量的目的。
根據(jù)理論可知,供、售電量關(guān)系為:
由式(2)可知,當(dāng)日供電量已知時(shí),通過預(yù)測日售電量可計(jì)算日線損電量。通過BP神經(jīng)網(wǎng)絡(luò)-時(shí)間序列模型預(yù)測售電量后,根據(jù)式(2)得到預(yù)測線損電量L1。
為快速識別線損計(jì)算結(jié)果異常的原因,采用基于Hadoop框架的TF-IDF算法,并根據(jù)電力設(shè)備地址篩查電力設(shè)備的異常掛載情況,如線路、變壓器的異常掛載,臺區(qū)、用戶關(guān)系的異常掛載,從而智能定位線損異常位置,提高線損異常的治理效率。
TF-IDF(Term Frequency-Inverse Document Frequency)是一種用于咨詢檢索和文本挖掘的常用加權(quán)技術(shù)[6],可評估單詞對一個(gè)文件集或一個(gè)語料庫中的一份文件的重要程度。TF-IDF算法的結(jié)果是詞頻TF和逆向文件頻率IDF的乘積,即單詞的權(quán)重。在某一特定文件內(nèi),高TF和在整個(gè)文件中的低IDF可以產(chǎn)生高權(quán)重。因此,該算法可以過濾常見的詞語,保留重要的詞語。
Hadoop分布式計(jì)算的核心是分割任務(wù),并行運(yùn)行。因此,TF-IDF的計(jì)算公式適合用分布式計(jì)算求解。TF只與它所在文檔的單詞總數(shù)及它在此文檔出現(xiàn)的次數(shù)有關(guān)。通過分割數(shù)據(jù),并行統(tǒng)計(jì)文檔中單詞詞頻TF,加快計(jì)算速度。得到單詞詞頻TF后,確定包含此單詞的文檔個(gè)數(shù),即能以并行計(jì)算的方式實(shí)現(xiàn)TF-IDF的計(jì)算。
實(shí)驗(yàn)測試數(shù)據(jù)來自于山西省陽泉市區(qū)供電公司、國網(wǎng)陽泉供電公司、山西省陽泉郊區(qū)供電公司、山西省陽泉平定供電公司、山西省陽泉大戶所和山西省陽泉盂縣供電公司共6家供電公司,時(shí)間跨度為2015年5月至2017年7月。數(shù)據(jù)類型是包括供電量、售電量、線損電量及線損率數(shù)據(jù)項(xiàng)的電網(wǎng)運(yùn)行狀態(tài)數(shù)據(jù),數(shù)據(jù)采集頻率為1天/次。
應(yīng)用Pearson相關(guān)系數(shù)計(jì)算陽泉市區(qū)及周邊縣城的電網(wǎng)中供電量和線損數(shù)據(jù),結(jié)果如圖3所示。
由圖3可知,前5個(gè)地區(qū)的供電量和線損電量具有極強(qiáng)的相關(guān)性。但是,在盂縣供電公司,其相關(guān)系數(shù)r只有0.154 6,說明該地區(qū)的線損數(shù)據(jù)可能存在異常,需要預(yù)測盂縣的線損電量。
由2.1章節(jié)的介紹可知,本文通過預(yù)測售電量預(yù)測線損電量。因此,預(yù)測模型的樣本數(shù)據(jù)為售電量數(shù)據(jù),預(yù)測盂縣售電量的樣本數(shù)據(jù)見表2。其中,節(jié)假日類型1表示為節(jié)假日,0表示為工作日。
圖3 陽泉周邊地區(qū)供電量與線損電量的相關(guān)性系數(shù)圖示
表2 預(yù)測盂縣售電量樣本數(shù)據(jù)
線損電量預(yù)測模塊將售電量的影響因素作為神經(jīng)網(wǎng)絡(luò)-時(shí)間序列模型的輸入層,反復(fù)訓(xùn)練直至均方差達(dá)到0.002。應(yīng)用訓(xùn)練成熟的模型對盂縣售電量進(jìn)行預(yù)測,結(jié)果如圖4所示。
圖4中,橫軸表示樣本數(shù)據(jù)的數(shù)量,縱軸表示輸出樣本和錯(cuò)誤數(shù)據(jù),黃色線段表示預(yù)測售電量和實(shí)際數(shù)據(jù)之間的差值。由于售電量預(yù)測結(jié)果與實(shí)際數(shù)據(jù)存在很大差距,因此線損電量的預(yù)測值也和實(shí)際值相差較大。因?yàn)椴钪党^了預(yù)設(shè)閾值,所以該區(qū)域存在線損異常,需要對盂縣執(zhí)行TF-IDF算法。篩選分析線損異常的原因,結(jié)果是電力設(shè)備異常掛載。
圖4 線損預(yù)測結(jié)果展示圖
對線損異常區(qū)域陽泉盂縣供電公司所轄區(qū)域2 000多個(gè)臺區(qū)逐一分析,識別臺區(qū)中異常掛載的電力設(shè)備,以三個(gè)臺區(qū)為例說明數(shù)據(jù)處理過程。
2.3.1 電力設(shè)備無異常掛載
以仙人臺區(qū)的所有用戶地址為例進(jìn)行TF-IDF分析,結(jié)果如表3所示。
表3 仙人臺區(qū)用戶地址詞頻分析結(jié)果
由表3可知,“山西省”“陽泉市”“盂縣”“仙人”四個(gè)詞語的TF值相等,說明四個(gè)詞語在該臺區(qū)的所有用戶地址中出現(xiàn)的概率一樣,沒有某個(gè)詞語出現(xiàn)頻率異常低,可判定該臺區(qū)沒有異常用戶。
2.3.2 電力設(shè)備出現(xiàn)異常掛載
以李家莊臺區(qū)的所有用戶地址為例進(jìn)行TF-IDF分析,結(jié)果如表4所示。
表4 李家莊臺區(qū)用戶地址詞頻分析結(jié)果
由表4可知,“潘”的TF值遠(yuǎn)遠(yuǎn)小于其他詞語,說明李家莊臺區(qū)內(nèi)的用戶地址中帶有“潘”的用戶有可能不屬于該臺區(qū),而營配調(diào)系統(tǒng)把這些用戶歸為李家莊臺區(qū)。李家莊臺區(qū)的用戶地址分布如表5所示。
表5 李家莊臺區(qū)用戶地址分布
對該臺區(qū)的46個(gè)用戶地址進(jìn)行統(tǒng)計(jì),帶有“潘”的用戶地址在李家莊臺區(qū)中只有10戶,帶有“李家”的用戶地址有36戶,故地址帶有“盂縣西潘鄉(xiāng)”的用戶可能不屬于該臺區(qū)。把這些用戶的地址反饋給工作人員,經(jīng)現(xiàn)場校驗(yàn),表明這些用戶實(shí)際中確實(shí)掛載在該臺區(qū)內(nèi),無異常掛載情況,無需在營配調(diào)系統(tǒng)中修改其掛載關(guān)系。
為了再次驗(yàn)證TF-IDF算法的準(zhǔn)確性,以東杜臺區(qū)的所有用戶地址為例進(jìn)行TF-IDF分析,結(jié)果如表6所示。
表6 東杜臺區(qū)用戶地址詞頻分析結(jié)果
通過統(tǒng)計(jì)分析東杜臺區(qū)的74個(gè)用戶地址發(fā)現(xiàn),地址中帶有“山西省陽泉市盂縣路家村鎮(zhèn)東杜村”的用戶有73戶,地址中帶有“山西省陽泉市盂縣西潘鄉(xiāng)”的用戶僅有1戶,說明該用戶極大可能出現(xiàn)異常掛載。經(jīng)工作人員現(xiàn)場校驗(yàn)發(fā)現(xiàn),該用戶確實(shí)不屬于該臺區(qū),需在營配調(diào)系統(tǒng)中修改其掛載關(guān)系。
數(shù)據(jù)處理模型通過分析盂縣供電量和線損電量的相關(guān)關(guān)系,判斷盂縣可能出現(xiàn)線損異常,采用TF-IDF算法分析盂縣的所有線變關(guān)系、臺戶關(guān)系,表明有26個(gè)臺區(qū)可能出現(xiàn)異常掛載。經(jīng)工作人員現(xiàn)場校驗(yàn),確定其中的16個(gè)臺區(qū)出現(xiàn)異常掛載情況。通過在營配調(diào)系統(tǒng)中糾正錯(cuò)誤的掛載關(guān)系,該地區(qū)的線損異常情況得到極大改善。
綜上所述,本文建立的基于Hadoop框架的數(shù)據(jù)處理模型提高了解決線損異常原因-電力設(shè)備異常掛載的準(zhǔn)確率,有效減少了人工現(xiàn)場排查的盲目性和工作量,大大節(jié)省了人力、物力。
本文設(shè)計(jì)了基于Hadoop的營配調(diào)數(shù)據(jù)處理模型,研究了Person相關(guān)算法、BP神經(jīng)網(wǎng)絡(luò)-時(shí)間序列算法和基于Hadoop框架的TF-IDF算法,實(shí)現(xiàn)了對供電量、售電量相關(guān)關(guān)系的定量分析,自動篩查了同期線損異常原因,支撐了線損管理的提升。最后,利用實(shí)際環(huán)境下的測試結(jié)果,驗(yàn)證了數(shù)據(jù)模型的實(shí)用性、有效性及準(zhǔn)確性。