劉 巍, 曾 濤, 侯啟方, 盧凌云
(1 中鐵第一勘察設計院集團有限公司, 西安 710043;2 北京南凱自動化系統(tǒng)工程有限公司, 北京 100070)
目前,國內(nèi)外電力行業(yè)對電氣設備的壽命預測研究工作已廣泛開展,國內(nèi)對電氣化鐵路牽引供電設備壽命預測研究工作才剛剛起步。牽引供電系統(tǒng)運行過程中產(chǎn)生的數(shù)據(jù)是復雜多樣的,數(shù)據(jù)建立的重要性不言而喻,數(shù)據(jù)建立之后更為關鍵的是數(shù)據(jù)分析[1]。必須做好這些信息的優(yōu)化,才能用數(shù)據(jù)分析的結(jié)果指導我們更準確的預測設備的生命周期。目前,國內(nèi)高鐵供電系統(tǒng)在自動化、智能化方面也投入了相應的監(jiān)測設備、監(jiān)控和管理平臺。但不同系統(tǒng)間采用不同的平臺,各系統(tǒng)平臺相互獨立,這些系統(tǒng)平臺的數(shù)據(jù)源數(shù)據(jù)采集分散凌亂,缺乏統(tǒng)一的數(shù)據(jù)規(guī)范、標準、功能互動及技術支撐平臺,導致各系統(tǒng)間的信息相互獨立或交互共享困難[2]。另外,沿線各牽引變電站只與調(diào)度所之間進行通信和數(shù)據(jù)交換,缺少各所(亭)之間的實時通信和信息交換,使得各所的開關控制仍然需要通過調(diào)度進行,難以實現(xiàn)所間實時開關聯(lián)動閉鎖,不能實現(xiàn)供電運行方式根據(jù)工況自動切換,發(fā)生故障時,繼電保護的速動性和選擇性及故障定位的準確性也有待于進一步提高,倒閘作業(yè)停電時間較長,無法快速恢復供電[3-4]。雖然,目前國內(nèi)在智能牽引變電所技術、6C技術、接觸網(wǎng)監(jiān)測技術等方面已經(jīng)開展了多項研究,但是還沒有對智能牽引供電系統(tǒng)的平臺技術進行整體的規(guī)劃和研究,因此,開展智能牽引供電系統(tǒng)大數(shù)據(jù)平臺及供電設備壽命預測的研究具有較強的理論和實際意義。
文中給出了智能牽引供電系統(tǒng)的大數(shù)據(jù)平臺,提出了一種綜合維修數(shù)據(jù)收集、維修數(shù)據(jù)存儲、維修數(shù)據(jù)分析處理的綜合性系統(tǒng)的建設方案,通過對海量的運維數(shù)據(jù)做分析,根據(jù)設備的使用、檢修記錄、天氣氣溫、空氣濕度、污染程度、檢修人員素質(zhì)等數(shù)據(jù),通過大數(shù)據(jù)平臺,找到設備的臨界點,有效的預測設備的壽命。設備運行過程中受到周邊環(huán)境的影響,比如溫度、濕度、地域、季節(jié)等,根據(jù)設備的監(jiān)控數(shù)據(jù)以及天氣情況,通過大數(shù)據(jù)平臺計算設備運行情況和天氣的想關性。維護過程中還涉及到給不同的設備提供不同的維修方案,可經(jīng)過對采集到的數(shù)據(jù)進行歷史數(shù)據(jù)統(tǒng)計,可以快速給出問題解決方案。
基于大數(shù)據(jù)平臺的智能牽引供電系統(tǒng)軟件平臺共分為4個技術層,如圖1所示。
第1層是數(shù)據(jù)交換中心,負責數(shù)據(jù)的采集工作。包括但不限于SCADA、一桿一檔、智能巡檢、6C數(shù)據(jù)中心、維調(diào)系統(tǒng)、綜合系統(tǒng)(問題庫,GIS地圖)等牽引供電系統(tǒng)相關的系統(tǒng),收集這些系統(tǒng)的數(shù)據(jù)以及天氣數(shù)據(jù)作為大數(shù)據(jù)的基礎語料,并在這些基礎語料上做數(shù)據(jù)挖掘、做牽引供電系統(tǒng)大數(shù)據(jù)。
第2層是數(shù)據(jù)存儲,負責存儲采集到的數(shù)據(jù)。數(shù)據(jù)采集工具能夠?qū)崿F(xiàn)將不同類型的數(shù)據(jù)采集并傳輸?shù)酱髷?shù)據(jù)應用平臺分布式存儲區(qū)域中,比如HDFS、HBASE等;
第3層是數(shù)據(jù)處理,負責計算存儲在HDFS、HBA-SE中的數(shù)據(jù)。
第4層是數(shù)據(jù)展示,負責對數(shù)據(jù)挖掘好的數(shù)據(jù)進行展示。供電設備的調(diào)度系統(tǒng)、維修系統(tǒng)以及氣象數(shù)據(jù)等諸多易購的數(shù)據(jù)都可以作為大數(shù)據(jù)應用平臺的數(shù)據(jù)源頭,通過大數(shù)據(jù)應用平臺的全量數(shù)據(jù)采集與處理能力,將數(shù)據(jù)采集到大數(shù)據(jù)應用平臺的存儲區(qū)域進行保存,以支持數(shù)據(jù)可視化工具及業(yè)務門戶進行數(shù)據(jù)應用。
圖1 基于大數(shù)據(jù)平臺的牽引供電系統(tǒng)分層結(jié)構(gòu)
內(nèi)部及外部的半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)量會通過大數(shù)據(jù)采集工具Flume、FTP、SysLog、Zookeeper、Sqoop、MR程序(根據(jù)數(shù)據(jù)結(jié)構(gòu)實現(xiàn)情況選擇合適的工具集),進行半結(jié)構(gòu)化及非結(jié)構(gòu)數(shù)據(jù)采集,如:文件、日志、網(wǎng)絡數(shù)據(jù)、視頻、傳感數(shù)據(jù)等。數(shù)據(jù)采集工具能夠?qū)崿F(xiàn)將不同類型的數(shù)據(jù)采集并傳輸?shù)酱髷?shù)據(jù)應用平臺分布式存儲區(qū)域中,比如HDFS、HBASE等。
現(xiàn)有信息系統(tǒng)的關聯(lián)型數(shù)據(jù)庫RDBMS中大量的結(jié)構(gòu)化歷史數(shù)據(jù)將會通過IMPORTER工具同步到分布式數(shù)據(jù)庫中,支持大數(shù)據(jù)的量的查詢,為海量數(shù)據(jù)可視化提供結(jié)構(gòu)化數(shù)據(jù)源支持。
對大數(shù)據(jù)應用平臺分布式存儲區(qū)域中的數(shù)據(jù)進行處理時,可以選擇使用Hadoop、Spark、Hive、 Pig等大數(shù)據(jù)處理工具。然后可采用R語言、Spark MLIB對處理結(jié)果進行數(shù)據(jù)挖掘。
基于牽引供電系統(tǒng)大數(shù)據(jù)應用平臺,各部門可以通過應用商業(yè)智能及數(shù)據(jù)挖掘技術將數(shù)據(jù)進行數(shù)據(jù)建模,在數(shù)據(jù)大量積累的基礎上, 進行業(yè)務分析與潛在業(yè)務價值探索。同時由于平臺集成了不同業(yè)務、不同專業(yè)、不同種類的海量數(shù)據(jù),各部門將能夠進一步發(fā)現(xiàn)數(shù)據(jù)高度集成后產(chǎn)生的新的價值,優(yōu)化現(xiàn)有的生產(chǎn)組織方式,創(chuàng)新管理流程,開發(fā)出更高效、集成的信息系統(tǒng)。
牽引供電系統(tǒng)大數(shù)據(jù)平臺還可以對整個牽引供電系統(tǒng)的壽命做出精準的預測。通過對供電系統(tǒng)內(nèi)各種設備進行監(jiān)控,并對采集到的數(shù)據(jù)進行分析,結(jié)合當?shù)氐臍夂蚯闆r,綜合預測牽引供電系統(tǒng)的實際使用壽命。
傳統(tǒng)的預測設備壽命方式是通過對歷史數(shù)據(jù)進行統(tǒng)計,然后粗略的計算設備的平均使用壽命?,F(xiàn)在可以通過大數(shù)據(jù)平臺,對各個維度的數(shù)據(jù)進行挖掘,給出更精確的使用壽命。
生命周期可以轉(zhuǎn)換為分類問題,比如理論上使用壽命為3年的設備,可以按月為單位分為1月、2月、……、36月等36類。通過提取影響生命周期的因素,轉(zhuǎn)換為特征向量,再通過樸素貝葉斯預測,即可得到答案。樸素貝葉斯分類的流程如圖2所示。
圖2 樸素貝葉斯分類流程示意圖
可以看到,整個樸素貝葉斯分類分為3個階段,分別為準備工作階段、分類器訓練階段、應用階段。
這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據(jù)具體情況確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個過程將有重要影響,分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓練樣本質(zhì)量決定。
在可能影響設備壽命的因素里面有油壓、電壓、電流、氣溫、空氣濕度、PM2.5濃度、風力、設備使用時間、設備連續(xù)工作時間、檢修人信息(工齡、部門)等等。對數(shù)值型的數(shù)據(jù)取整,比如36.5℃,取整后為36℃對枚舉類的數(shù)據(jù),定義數(shù)據(jù)字典,工齡、部門、風力的數(shù)據(jù)字典如表1至表3所示。
表1 油壓定義表
表2 風力定義表
表3 部門定義表
最后根據(jù)每條檢修記錄,提取特征向量(油壓、電壓、電流、溫度、濕度、PM2.5、風力大小、已運行時間、連續(xù)運行時間、檢修人工齡、部門)。比如一個工齡10年的檢修人員,在某天對設備進行檢修時,當天氣溫23℃,空氣濕度40,PM2.5為200,風力四級,設備已經(jīng)使用了12個月,并且連續(xù)運行了10 h,可提取特征向量{23, 40, 200, 4, 12, 10, 1, 30, 2, 70, 1}。
這個階段的任務就是生成預測設備壽命的分類器,主要工作是計算每個類別在訓練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結(jié)果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。
在概率論中,已知某條件概率,如何得到兩個事件交換后的概率,也就是在已知P(A|B)的情況下如何求得P(B|A)。P(A|B)表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的條件概率。
假設A事件是油壓過高,B事件是已知檢修人時。因此:
P(A)代表油壓過高時設備損壞的概率。
P(B)代表已知檢修人的設備損壞的概率。
P(A|B)代表已知檢修人,油壓過高時導致設備損壞的概率。
P(B|A)代表已知油壓過高,已知檢修人時導致設備損壞的概率。
P(AB)代表油壓過高且已知檢修人時導致設備損壞的概率。
貝葉斯定理之所以有用,是因為我們在生活中經(jīng)常遇到這種情況:我們可以很容易直接得出P(A|B),P(B|A)則很難直接得出,但我們更關心P(B|A),貝葉斯定理就為我們打通從P(A|B)獲得P(B|A)的道路。
根據(jù)貝葉斯定理可得:
因此,由上述公式可知,已知P(A)(代表油壓過高時設備損壞的概率)、P(B)(代表已知檢修人時設備損壞的概率)、P(A|B)(代表已知檢修人,油壓過高時導致設備損壞的概率)。可計算出P(B|A)(代表已知油壓過高,已知檢修人時導致設備損壞的概率)。
樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。在沒有其他可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。
使用樸素貝葉斯分類預測設備壽命的方法如下:
(1)設x={a1,a2,…,am}為一個待分類項,而每個a為x的一個特征屬性,x為一個特征向量,比上述提到的例子(一個工齡10年的檢修人員,在某天對設備進行檢修時,當天氣溫23℃,空氣濕度40,PM2.5為200,風力四級,設備已經(jīng)使用了12個月,并且連續(xù)運行了10 h),其單位向量表示為{23,40,200,4,12,10,1,30,2,70,1}
(2)有類別集合C={y1,y2,…,yn},y代表了設備的壽命,其取值范圍{1,2,3,……,36},單位月。
(3)計算P(y1|x),P(y2|x)…,P(yn|x)。即計算特征向量x代表的情況下,設備的壽命是y1、y2,…,yn的概率格是多大。
(4)如果P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則x∈yk。即在特征向量x代表的情況下,設備的壽命最可能是yk。
那么現(xiàn)在的關鍵就是如何計算第3步中的各個條件概率。我們可以這么做:
(a) 找到一個已知分類的待分類項集合,這個集合叫做訓練樣本集。
(b) 統(tǒng)計得到在各類別下各個特征屬性的條件概率估計。即:
P(a1|y1),P(a2|y1),…,P(am|y1);
P(a1|y2),P(a2|y2),…,P(am|y2);…;
P(a1|yn),P(a2|yn),…,P(am|yn)
(c) 如果各個特征屬性是條件獨立的,則根據(jù)貝葉斯定理有如下推導:
因為分母對于所有類別為常數(shù),因為我們只要將分子最大化皆可。又因為各特征屬性是條件獨立的,所以有:
P(x|yi)P(yi)=
P(a1|yi)P(a2|yi)…P(am|yi)P(yi)=
上述所有步驟的編碼實現(xiàn),均采用機器學習工具是Saprk MLlib。
這個階段的任務是使用預測生命周期的分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。
比如對所有的歷史數(shù)據(jù)提取的特征向量如下:
X1={y,a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}
X2={y,a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}
X3={y,a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}
……
其中y的取值范圍是1≤y≤30
對上面提到的例子(一個工齡10年的檢修人員,在某天對設備進行檢修時,當天氣溫23℃,空氣濕度40,PM2.5為200,風力四級,設備已經(jīng)使用了12個月,并且連續(xù)運行了10 h,可提取特征向量{23,40,200,4,12,10,1,30,2,70,1}),其結(jié)果是y=28,即設備的使用壽命是28個月。
這一階段也是機械性階段,由程序完成。采用的機器學習工具是Saprk MLlib實現(xiàn)。
牽引供電系統(tǒng)領域以安全為宗旨,保證各環(huán)節(jié)的安全生產(chǎn)非常重要,而智能牽引供電設備的正常運行更是重中之重。智能牽引供電系統(tǒng)大數(shù)據(jù)平臺通過采集天氣情況、巡檢記錄、維修記錄、設備運行情況以及維修人員的多維數(shù)據(jù),對這些數(shù)據(jù)進行數(shù)據(jù)挖掘,可實現(xiàn)對有可能出現(xiàn)故障的設備進行預測,從而有重點的對突發(fā)情況作出預警準備,從宏觀上把控設備的生命周期。另外,當發(fā)生不可抗力的狀況后,可根據(jù)搶險救災的歷史數(shù)據(jù)、天氣情況等數(shù)據(jù)、維修記錄等各種數(shù)據(jù),通過大數(shù)據(jù)分析系統(tǒng)平臺,在最短的時間內(nèi)給出更合理的搶修方案。