摘 要:【目的】新能源設(shè)備某一處故障會使與之關(guān)聯(lián)的元件都生成大量告警信息,導(dǎo)致新能源設(shè)備運維數(shù)據(jù)挖掘查全率與查準(zhǔn)率下降。為此,提出一種基于改進決策樹的新能源設(shè)備運維數(shù)據(jù)挖掘方法。【方法】結(jié)合運維數(shù)據(jù)源分類流程對新能源設(shè)備運維數(shù)據(jù)進行一體化關(guān)聯(lián)處理,解決運維數(shù)據(jù)的分散性問題,獲取新能源設(shè)備運維關(guān)聯(lián)數(shù)據(jù)子集。針對關(guān)聯(lián)數(shù)據(jù)子集在挖掘預(yù)測過程中的特征選擇風(fēng)險,利用改進決策樹對關(guān)聯(lián)數(shù)據(jù)子集展開分裂信息度量,結(jié)合分裂信息度量結(jié)果,實現(xiàn)新能源運維數(shù)據(jù)挖掘?!窘Y(jié)果】實驗結(jié)果表明,該方法對新能源設(shè)備運維數(shù)據(jù)挖掘結(jié)果的查全率與查準(zhǔn)率較高,查全率在94%以上,查準(zhǔn)率在96%以上?!窘Y(jié)論】該方法的數(shù)據(jù)挖掘效果好,可靠性較高,在提高新能源設(shè)備綜合運行質(zhì)量方面具有一定的應(yīng)用價值。
關(guān)鍵詞:改進決策樹;新能源設(shè)備;運維;數(shù)據(jù);挖掘
中圖分類號:TP181 " "文獻(xiàn)標(biāo)志碼:A " " 文章編號:1003-5168(2025)06-0036-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2025.06.006
Research on Data Mining of New Energy Equipment Operation and Maintenance Based on Improved Decision Tree
WANG Haicheng ZHAO Jinglei HU Kun SHAO Meng LIU Mingyue
(PowerChina Renewable Energy Co., Ltd., Beijing 100101, China)
Abstract:[Purposes] A fault in a new energy equipment will generate a large amount of alarm information from the associated components, resulting in a decrease in the recall and precision of data mining for new energy equipment operation and maintenance. Therefore, a new energy equipment operation and maintenance data mining method based on an improved decision tree is proposed. [Methods] Combining the classification process of operation and maintenance data sources,this paper will integrate and correlate the operation and maintenance data of new energy equipment, address the issue of data dispersion, and obtain a subset of operation and maintenance related data for new energy equipment. To address the feature selection risk of association processing subsets in the mining and prediction process, an improved decision tree is used to measure the split information of the association data subset, and the split information measurement results are combined to achieve new energy operation and maintenance data mining. [Findings] The experimental results show that the design method has high recall and precision in the data mining results of new energy equipment operation and maintenance.As a result, the recall rate is above 94%, and the precision rate is above 96%. [Conclusions] This method has good data mining performance, reliability, and certain application value, and can make certain contributions to improving the comprehensive operation quality of new energy equipment.
Keywords: improved decision tree; new energy equipment; operation and maintenance; data; excavation
0 引言
新能源設(shè)備是一種利用可再生能源進行電力輸配存儲的特殊設(shè)備,包括風(fēng)力發(fā)電機、電容器、光伏板等。運維數(shù)據(jù)是新能源設(shè)備性能評估與決策的基礎(chǔ),數(shù)量龐大且復(fù)雜度較高[1]。一般情況下,新能源設(shè)備運維數(shù)據(jù)主要來源于設(shè)備監(jiān)控中心,包括實時采集的各項運行參數(shù)、人工巡檢記錄的設(shè)備故障信息、數(shù)據(jù)分析平臺采集的有價值信息等。新能源設(shè)備運維數(shù)據(jù)類型較多[2],包括實時運行數(shù)據(jù)(如發(fā)電功率、電流電壓等)、歷史數(shù)據(jù)(如過去的運行故障維修記錄等)、外部數(shù)據(jù)源(包括氣象數(shù)據(jù)、市場數(shù)據(jù)等)[3]。為了分析設(shè)備的長期運行趨勢,預(yù)測設(shè)備運行狀態(tài),實時完成設(shè)備故障處理,需要對新能源設(shè)備運維數(shù)據(jù)挖掘進行深入研究。
事實上,新能源設(shè)備運維數(shù)據(jù)挖掘需要明確具體的目標(biāo)與需求,并將不同來源的數(shù)據(jù)進行有效整合,生成統(tǒng)一數(shù)據(jù)集。此外,還要填補數(shù)據(jù)缺失值,進行歸一離散化處理,從原始數(shù)據(jù)中選擇相關(guān)特征,實現(xiàn)數(shù)據(jù)過濾。相關(guān)研究人員針對新能源設(shè)備運行狀態(tài)設(shè)計了幾種常規(guī)的運維數(shù)據(jù)挖掘方法。例如,李軍[4]提出了基于關(guān)聯(lián)規(guī)則的新能源設(shè)備運維數(shù)據(jù)挖掘方法,通過篩選給定事務(wù)庫,結(jié)合頻繁項集實現(xiàn)數(shù)據(jù)挖掘,但該方法易受置信度最小值偏移作用的影響,導(dǎo)致挖掘價值分布不佳;張海濤[5]提出了基于灰色關(guān)聯(lián)分析的運維數(shù)據(jù)挖掘方法,構(gòu)建了運維數(shù)據(jù)提取模型,結(jié)合數(shù)據(jù)映射離散值進行數(shù)據(jù)挖掘,但在實際應(yīng)用中易受數(shù)據(jù)標(biāo)簽集變化影響,導(dǎo)致挖掘價值與預(yù)設(shè)閾擬合程度偏低。為了保證新能源設(shè)備運行質(zhì)量,本研究基于改進決策樹設(shè)計了一種新的運維數(shù)據(jù)挖掘方法。
1 新能源設(shè)備運維數(shù)據(jù)挖掘方法設(shè)計
1.1 新能源設(shè)備運維數(shù)據(jù)一體化關(guān)聯(lián)處理
新能源設(shè)備運維數(shù)據(jù)的分散性較強,在挖掘過程中容易出現(xiàn)丟棄或修改問題,難以保證數(shù)據(jù)挖掘價值。因此,本研究在運維數(shù)據(jù)挖掘過程中進行運維數(shù)據(jù)源分類,完成一體化關(guān)聯(lián)處理。生成的運維數(shù)據(jù)源分類流程如圖1所示。
由圖1可知,按照上述流程可以完成數(shù)據(jù)分類轉(zhuǎn)換,結(jié)合運維數(shù)據(jù)挖掘需求進行數(shù)據(jù)倉庫存儲處理。首先,對待處理的數(shù)據(jù)參數(shù)表進行時間間隔初始化調(diào)整[6],確定挖掘數(shù)據(jù)的類型;其次,實時掃描數(shù)據(jù)源文件夾,按照數(shù)據(jù)清理規(guī)則進行未知參數(shù)匯總,生成合法數(shù)據(jù)文件;最后,調(diào)用轉(zhuǎn)換系數(shù),并根據(jù)不同數(shù)據(jù)文件狀態(tài)進行比較,結(jié)合數(shù)據(jù)特征完成分類處理。
按照數(shù)據(jù)源分類結(jié)果獲取一體化關(guān)聯(lián)處理規(guī)則,將挖掘問題轉(zhuǎn)換為強關(guān)聯(lián)規(guī)則尋找過程,假設(shè)分類完畢的頻繁項目集為I,不同挖掘事物對應(yīng)的強關(guān)聯(lián)屬性子集不同,可以進行數(shù)據(jù)屬性相似度分析[7],奇異值分解處理[Q]的計算見式(1)。
[Q=Kia·ut] "(1)
式中:[Ki]代表挖掘數(shù)據(jù)驗證權(quán)重;[a]代表挖掘特征向量;[u]代表挖掘加權(quán)值;[t]代表挖掘時間序列。
選取異常數(shù)據(jù)特征值進行訓(xùn)練,完成運維數(shù)據(jù)一體化關(guān)聯(lián)處理,處理后輸出的新能源設(shè)備運維關(guān)聯(lián)數(shù)據(jù)子集[G]見式(2)。
[G=Qa(z)/R] (2)
式中:[a(z)]代表挖掘冗余信息向量函數(shù);[R]代表挖掘數(shù)據(jù)聯(lián)合分布概率。使用上述步驟處理可以顯著提高運維挖掘數(shù)據(jù)質(zhì)量,降低冗余噪聲波動風(fēng)險。
1.2 基于改進決策樹的新能源設(shè)備運維數(shù)據(jù)挖掘
上述獲取的運維數(shù)據(jù)關(guān)聯(lián)處理子集[G]在挖掘預(yù)測過程中存在特征選擇風(fēng)險,決策樹可以根據(jù)葉子節(jié)點標(biāo)簽進行特征連接,提高屬性決策的準(zhǔn)確性。因此,本研究基于改進決策樹設(shè)計了新能源設(shè)備運維數(shù)據(jù)挖掘算法,從而保證數(shù)據(jù)挖掘質(zhì)量和效率。輸出子集的挖掘協(xié)方差的計算[Co(x,y)]見式(3)。
[Co(x,y)=1n-1(G-Gi)] "(3)
式中:[n]代表挖掘數(shù)據(jù)屬性維度,[Gi]代表關(guān)聯(lián)展示值。
原始決策樹可能受分類器影響存在挖掘選擇異常問題[8],為了提高挖掘?qū)傩灾捣植季庑?,基于改進決策樹設(shè)計了新能源設(shè)備運維數(shù)據(jù)挖掘算法。按照上述計算的挖掘協(xié)方差比例計算香濃熵值[Ent(p)],見式(4)。
[En(p)=Co(x,y)·log(pi)] (4)
式中:[pi]代表挖掘樣本集合。由此,可以決定不同數(shù)據(jù)屬性的挖掘順序,按照映射信息要求確定挖掘分裂信息度量[Ga],見式(5)。
[Ga(p)=En(p)-piP·En(p)] "(5)
式中:[P]代表挖掘增益系數(shù)?;诖丝梢韵龑傩宰兓瘜?shù)據(jù)挖掘結(jié)果造成的影響,得到的新能源運維數(shù)據(jù)挖掘結(jié)果見式(6)。
[SP(p)=Ga(p)En(p)] (6)
通過上述公式,可以有效掌握多運維數(shù)據(jù)的重要度,在滿足挖掘決策標(biāo)準(zhǔn)化的基礎(chǔ)上,提高挖掘可靠性,保證挖掘價值最高。
2 實驗
為了驗證本研究設(shè)計的基于改進決策樹的新能源設(shè)備運維數(shù)據(jù)挖掘方法的挖掘效果,設(shè)置了有效的實驗環(huán)境,將本研究設(shè)計的方法與基于關(guān)聯(lián)規(guī)則的新能源設(shè)備運維數(shù)據(jù)挖掘方法、基于灰色關(guān)聯(lián)分析的運維數(shù)據(jù)挖掘方法進行了對比實驗。
2.1 實驗準(zhǔn)備
結(jié)合新能源設(shè)備運維數(shù)據(jù)挖掘?qū)嶒炓?,本研究選取SFSTspan作為實驗平臺,該實驗平臺屬增量式經(jīng)典序列挖掘平臺,PC環(huán)境設(shè)置見表1。
由表1可知,該實驗平臺可對原始挖掘數(shù)據(jù)進行有效預(yù)處理,滑動窗口為0.5 h,挖掘序列數(shù)據(jù)集數(shù)據(jù)共12 536條,平均序列長度為14。實驗利用Java11對Prefixpan進行改進,動態(tài)更新Redis數(shù)據(jù)庫,完成等價更新數(shù)據(jù)處理。
針對實驗算法的效度問題,本研究進行min-sup支持度處理,按照prefixpan、Incspan順序?qū)Ω婢隽啃蛄羞M行挖掘,設(shè)置的數(shù)據(jù)頻繁項挖掘參數(shù)為2%。在實驗過程中,需要對獲取的運維數(shù)據(jù)進行溯源,即進行多維模塊轉(zhuǎn)換,結(jié)合增量式序列進行關(guān)聯(lián)冗余過濾處理,生成挖掘關(guān)聯(lián)關(guān)系。實驗數(shù)據(jù)庫是基于Mysql\Redis實現(xiàn)的,按照歷史告警數(shù)據(jù)庫要求實現(xiàn)持久化,為挖掘?qū)由蒳son接口,得到有效的設(shè)備運維數(shù)據(jù)挖掘?qū)嶒灲Y(jié)果。
2.2 實驗結(jié)果與討論
基于上述實驗準(zhǔn)備,進行新能源設(shè)備運維數(shù)據(jù)挖掘?qū)嶒?。即設(shè)置多循環(huán)對應(yīng)反應(yīng)器,按照集中參與單元進行循環(huán)調(diào)整,劃分運維數(shù)據(jù)有價值挖掘閾值。考慮新能源設(shè)備的運行狀態(tài)進行數(shù)據(jù)量篩選,按照測量控制要求完成TEP過程模仿。此時,分別使用基于改進決策樹的新能源設(shè)備運維數(shù)據(jù)挖掘方法、基于關(guān)聯(lián)規(guī)則的新能源設(shè)備運維數(shù)據(jù)挖掘方法及基于灰色關(guān)聯(lián)分析的運維數(shù)據(jù)挖掘方法進行挖掘,三種方法的查全率實驗結(jié)果如圖2所示。
由圖2可知,隨著實驗次數(shù)的增加,上述三種方法的查全率均呈現(xiàn)顯著變化趨勢。其中,基于改進決策樹的新數(shù)據(jù)挖掘方法的查全率在94%以上;基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法和基于灰色關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法的查全率曲線波動較大,且數(shù)值較低。由此說明這兩種方法的數(shù)據(jù)挖掘效果遠(yuǎn)低于本研究設(shè)計的方法。
三種方法的查準(zhǔn)率結(jié)果如圖3所示。由圖3可知,基于改進決策樹的新數(shù)據(jù)挖掘方法的查準(zhǔn)率在96%以上;基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法的查準(zhǔn)率在73%~88%;基于灰色關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法的查準(zhǔn)率在72%~86%,查準(zhǔn)率曲線波動較大。由此可知,本研究設(shè)計的方法挖掘效果較好,可靠性較高,具有一定的應(yīng)用價值。
3 結(jié)語
在全球能源飛速轉(zhuǎn)型背景下,新能源產(chǎn)業(yè)的發(fā)展速度越來越快。新能源設(shè)備的種類較多,涉及的運維數(shù)據(jù)復(fù)雜度較高、分布廣泛,難以收集處理與分析,為了解決新能源設(shè)備的挖掘決策問題,本研究基于改進決策樹設(shè)計了一種有效的新能源設(shè)備數(shù)據(jù)挖掘方法。實驗結(jié)果表明,本研究設(shè)計的基于改進決策樹的數(shù)據(jù)挖掘方法的挖掘效果較好,數(shù)據(jù)挖掘價值分布與預(yù)設(shè)閾擬合,可靠性較高,具有一定的應(yīng)用價值,可為新能源設(shè)備的生產(chǎn)優(yōu)化作出一定的貢獻(xiàn)。
參考文獻(xiàn):
[1]金海勇,吳其樂,劉騰澤.基于模糊控制和大數(shù)據(jù)算法模型的電力運維故障診斷設(shè)備方法[J].計算機測量與控制,2022,30(11):71-76.
[2]姚培福,王建國,譚正洲.基于銅冶煉工廠歷史運維大數(shù)據(jù)挖掘的業(yè)務(wù)流程再造模型研究[J].電子設(shè)計工程,2022,30(10):36-40,45.
[3]王璐,漆志剛,戴倚霞,等.國家高端智庫數(shù)據(jù)體系建設(shè)與應(yīng)用:中國石油集團經(jīng)濟技術(shù)研究院智能化發(fā)展探索實踐[J].國際石油經(jīng)濟,2024,32(S1):16-21.
[4]李軍.基于關(guān)聯(lián)規(guī)則的工業(yè)控制系統(tǒng)運維數(shù)據(jù)挖掘方法[J].微型電腦應(yīng)用,2023,39(9):167-170.
[5]張海濤.基于灰色關(guān)聯(lián)分析的移動終端運維數(shù)據(jù)挖掘研究[J].信息與電腦(理論版),2022,34(18):4-6.
[6]劉金飛,彭旭初,劉四華,等.基于深度數(shù)據(jù)挖掘的水電能源工程數(shù)據(jù)智能分析處理算法[J].電子設(shè)計工程,2023,31(10):44-48.
[7]張衛(wèi)國,宋杰,郭明星,等.考慮電動汽車充電需求的虛擬電廠負(fù)荷均衡管理策略[J].電力系統(tǒng)自動化,2022,46(9):118-126.
[8]張旭東,謝民,黃建平,等.基于數(shù)據(jù)挖掘的電力自動化系統(tǒng)運行數(shù)據(jù)中臺資源檢索技術(shù)研究[J].安徽師范大學(xué)學(xué)報(自然科學(xué)版),2023,46(2):119-125.