亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向發(fā)電設備預測性維護的傳感數(shù)據(jù)特征抽取方法

        2018-01-22 06:02:46張守利韓燕波
        太原理工大學學報 2018年1期
        關(guān)鍵詞:預測性特征提取傳感器

        張守利,蘇 申,劉 晨,韓燕波

        (1.天津大學 計算機科學與技術(shù)學院,天津 300072;2.北方工業(yè)大學 a.大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點實驗室,b.計算機學院,北京 100144)

        隨著工業(yè)生產(chǎn)數(shù)據(jù)采集技術(shù)的日趨完善,工業(yè)生產(chǎn)設備的預測性維護日漸成為工業(yè)界和學術(shù)界討論的熱門話題。一般的講,工業(yè)生產(chǎn)設備的預測性維護指的是利用實時產(chǎn)生的工業(yè)生產(chǎn)數(shù)據(jù),借鑒數(shù)據(jù)分析技術(shù)分析工業(yè)生產(chǎn)設備的運行狀態(tài),并進一步預測設備潛在的故障和威脅,從而提高工業(yè)設備的可靠性。得益于深度學習近年來的長足發(fā)展,深度學習成為工業(yè)設備預測性維護的主流方向[6-8]。這類方法將工業(yè)生產(chǎn)數(shù)據(jù)作為神經(jīng)網(wǎng)絡輸入,利用設備的經(jīng)驗標簽進行網(wǎng)絡訓練,進而實現(xiàn)在線設備狀態(tài)監(jiān)測,發(fā)現(xiàn)早期故障,為設備的維護提供預警信號。這類方法的缺點在于,工業(yè)生產(chǎn)數(shù)據(jù)是典型的大數(shù)據(jù)體量且價值密度往往很低。基于深度學習建立預測模型時,如果輸入神經(jīng)網(wǎng)絡的數(shù)據(jù)量不足,則預測效果不好,如果輸入神經(jīng)網(wǎng)絡的數(shù)據(jù)量過多,則大大增加學習成本,使得模型的計算開銷難以負擔。

        應用深度學習算法解決發(fā)電廠的設備預測性維護的一個重大挑戰(zhàn)是大量部署的傳感器所引起的數(shù)據(jù)特征維度過高問題。例如,發(fā)電廠中的風煙系統(tǒng)中部署了上千個傳感器測點,那么其所產(chǎn)生的數(shù)據(jù)維度就可達上千個,如此高的數(shù)據(jù)維度大大增加了神經(jīng)網(wǎng)絡的學習成本。大量研究實踐證明,特征降維能夠有效地消除無關(guān)和冗余特征,提高模型的學習效率,改善預測精確性等。近年來,越來越多的研究者應用特征提取技術(shù)對高維數(shù)據(jù)進行降維。主成份分析(PCA)作為常用特征提取方法,被廣泛用在眾多的研究領(lǐng)域中,從高維數(shù)據(jù)集中提取新的特征變量[15]。PCA從觀測變量內(nèi)部的相互關(guān)系來整理信息,將變量加以適當?shù)恼蛔儞Q依次找出相互關(guān)聯(lián)性高的變量組。將可能相關(guān)的原始數(shù)據(jù)集轉(zhuǎn)換成線性不相關(guān)的新的特征集合,實現(xiàn)高維數(shù)據(jù)向低維的壓縮。因此,PCA的提取效果依賴于不同維度數(shù)據(jù)間的相關(guān)性,不同維度的數(shù)據(jù)相關(guān)性越強,降維效果越明顯,反之亦反。然而,對于發(fā)電廠的傳感器而言,由于其天然的特性:不同發(fā)電系統(tǒng)的傳感器時鐘存在差別以及工業(yè)設備的運行原理(例如,對于火力發(fā)電機組,給煤量增大一段時間后,機組功率會隨之提高)導致了數(shù)據(jù)關(guān)聯(lián)的延遲,從而造成傳感器之間的關(guān)聯(lián)性發(fā)生改變。

        現(xiàn)有降維方法[1-5]一般不關(guān)心不同數(shù)據(jù)之間延遲關(guān)聯(lián),因而在發(fā)電廠中無法直接運用這些方法來有效地實現(xiàn)高價值密度的數(shù)據(jù)特征提取。面對上述問題,本文提出了一種面向延遲相關(guān)的傳感數(shù)據(jù)特征提取方法。該方法利用基于皮爾遜相關(guān)系數(shù)的曲線排齊算法,調(diào)整不同傳感器數(shù)據(jù)之間的時間差,使得調(diào)整之后的數(shù)據(jù)相關(guān)性達到最大;然后利用PCA對調(diào)整之后的傳感數(shù)據(jù)進行特征提取,從而得到一個容量較小但仍能反映原始特征的數(shù)據(jù)集;最后,針對電廠設備的預測性維護問題,建立基于深度學習算法的預測性維護模型。利用特征提取之后的新特征數(shù)據(jù)對模型進行訓練。經(jīng)過實驗驗證本文所提出的預測模型相對與傳統(tǒng)的基于包限值的預測方法具有較高的準確性,同時基于曲線排齊的特征提取方法降低了模型的學習成本,提高了模型的性能。

        1 問題定義

        本文的研究動機來自于發(fā)電廠的真實需求:設備預測性維護。一個發(fā)電廠有300多臺發(fā)電設備,每臺發(fā)電設備上部署了約40個傳感器,用來監(jiān)控發(fā)電設備的運行狀態(tài)。這些傳感器不間斷產(chǎn)生了海量的傳感數(shù)據(jù)。發(fā)電設備的預測性維護模型則是建立在對海量傳感數(shù)據(jù)進行分析基礎(chǔ)上。然而在海量數(shù)據(jù)上進行復雜的數(shù)據(jù)分析和挖掘通常需要很長時間,運算量非常巨大。

        特征提取就是從原始的數(shù)據(jù)中提取更加可靠、有效的信息生成新的特征數(shù)據(jù),同時使得數(shù)據(jù)的維度也被壓縮[12]。主成份分析PCA是常用的特征提取的方法。其將高維的數(shù)據(jù)通過線性變換投影到低維空間,從而得到最能夠代表原始數(shù)據(jù)的新特征數(shù)據(jù)。然而由于發(fā)電設備傳感器數(shù)據(jù)之間存在延遲相關(guān),直接使用PCA對傳感數(shù)據(jù)進行特征提取的效果并不明顯。

        在工業(yè)生產(chǎn)領(lǐng)域中,設備之間的相互作用普遍具有先后傳遞性。例如,磨煤機系統(tǒng)中,存在“給煤機”和“磨煤機”兩個設備,給煤機負責將煤塊輸送到磨煤機中進行粉碎。某一時刻工作人員加大了給煤機輸送的煤量,那么當前磨煤機的工作負荷則無法滿足給煤機所輸送的煤量,需要加大磨煤機的工作負荷。而磨煤機的工作負荷增大之后,磨煤機上的電流會隨之變大。根據(jù)磨煤機系統(tǒng)的這種運行原理,可以清楚了解到,給煤機和磨煤機之間的相互作用具有時間上的先后傳遞性。也就是說,在t1時刻增大給煤機的給煤量,磨煤機的電流信號不會立即在t1時刻增加,而是在(t1+Δt|Δt>0)時刻發(fā)生改變。因此,在對發(fā)電設備的傳感數(shù)據(jù)進行分析時,若不考慮數(shù)據(jù)之間的時差,則會造成相關(guān)性的誤判,即認為相關(guān)的數(shù)據(jù)不具有相關(guān)性。本文對某發(fā)電廠磨煤機系統(tǒng)、風煙系統(tǒng)等主要發(fā)電設備上所部署的2123個傳感器進行數(shù)據(jù)采集,采集時間從2014-07-01到2016-01-30,生成了超過30萬條數(shù)據(jù)樣本。本文借鑒文獻[17]給出的時移序列相關(guān)系數(shù)的特征對這些傳感數(shù)據(jù)進行相關(guān)性分析,發(fā)現(xiàn)有1 430個傳感器之間存在相關(guān)性,其中214對之間存在著延遲相關(guān)。這種延遲相關(guān)會降低PCA特征提取的效果,也會造成預測模型的不準確性。

        為了避免傳感數(shù)據(jù)之間的延遲相關(guān)對于特征提取效率的影響,本文提出了一種面向發(fā)電設備預測性維護的傳感數(shù)據(jù)延遲相關(guān)的特征抽取方法。首先利用曲線排齊算法解決數(shù)據(jù)的延遲相關(guān)問題,然后利用PCA對排齊之后的數(shù)據(jù)進行特征提取,提取原始數(shù)據(jù)中的關(guān)鍵特征,降低數(shù)據(jù)特征維度。最后基于深度學習模型中的LSTM神經(jīng)網(wǎng)絡模型建立設備的預測性維護模型,利用提取的新特征數(shù)據(jù)進行模型的訓練,從而實現(xiàn)設備故障的預測。

        2 基于相關(guān)性的特征提取方法

        2.1 面向延遲相關(guān)的曲線排齊

        不同的傳感器產(chǎn)生的數(shù)據(jù)之間存在延遲相關(guān)。為了減少信息的丟失,提高預測模型的準確性,我們必須首先解決這個問題。曲線排齊算法針對延遲相關(guān)的曲線進行排齊,常用的方法主要是期望最大化算法。文獻[17]針對時序數(shù)據(jù)的時差問題,提出了雙序列曲線排齊方法。本文借鑒文獻[17]中所提出的基于相關(guān)系數(shù)最大化的曲線排齊方法S-GEM來對傳感數(shù)據(jù)中的具有延時相關(guān)的數(shù)據(jù)進行排齊。其基本思路是計算兩個序列X1和X2之間的時間錯位函數(shù)d(t)=dk(t),基于這個時間錯位函數(shù)尋找一個時間差Δt=d(ti)使得,X1(t)和X2(t+Δt)的皮爾遜相關(guān)系數(shù)ρ(X1(t),X2(t+Δt))達到最大。

        然而,S-GEM算法面向的是兩個序列的時間錯位問題。對于多個序列,最能想到的“暴力”解決方法是:先選定一個序列作為參照序列,依次計算其他的序列與參照序列的Δt,從而實現(xiàn)對所有傳感器數(shù)據(jù)的排齊。但是,這種方法存在兩個關(guān)鍵難題,一是選擇哪個序列作為參照序列;二是,哪些序列有必要進行排齊,對于一些本身就不存在相關(guān)性的序列,就沒必要進行曲線排齊。

        為了解決上述難題,首先將所有的傳感器劃分到不同的組。假設同一組內(nèi)的數(shù)據(jù)具有一定的相關(guān)性,因此,對于同一組內(nèi)的序列,則可以隨機選擇任何一個作為參照序列而不會影響排齊的效果。

        4) 更新v的值,重復步驟1)直到分組中的元素不再發(fā)生移動。

        算法1實現(xiàn)了曲線排齊的過程。

        算法1 曲線排齊算法SAlinement輸入:原始傳感器數(shù)據(jù)SensorData,K-Means聚類簇個數(shù)k輸出:新的數(shù)據(jù)組成的分組ClusterAssement1.VarDataSet=LoadDataSet(SensorData);//加載傳感數(shù)據(jù),2.VarClusterAssement=Kmeans(DataSet,k);//初始化聚類算法3.For(VarSensorinDataSet){4. VarPearsonSet;//當前傳感器與所有分組的相關(guān)系數(shù)集合5. For(VarClusterinClusterAssement){6. VarR=Cluster.GetReference();//每個分組內(nèi)的參照曲線7. VarΔt=G-SEM(Sensor,R);//計算錯位時間8. If(Δt!=0){9. VarNewSensor=Alinement(Sensor,Δt);//曲線,返回排齊后的曲線10. VarCoefficient=Pearson(NewSensor,R);//計算排齊之后的曲線與參照曲線的相關(guān)系數(shù)11. PearsonSet.put(index,Coefficient,NewSensor);//存放當前分組的索引號,相關(guān)系數(shù)}VarMaxPearson=PearsonSet.GetMax();//獲取最大的皮爾遜相關(guān)系數(shù)12. Varoindex=ClusterAssement.getIndex(sensor);//查詢傳感器初始所在的分組13. VarNcluster=ClusterAssement[Maxperson.index];14. If(oindex!=MaxPearson.index){15. VarOcluster=ClusterAssement[oindex];16. Ocluster.remove(Sensor);17. Ncluster.add(MaxPearson.NewSensor);}18.returnClusterAssement;}

        利用算法1會得到不同的分組,同一組內(nèi)的傳感器數(shù)曲線之間都具有最大相關(guān)性,而且這些分組中的數(shù)據(jù)不再存在延遲相關(guān)的時間錯位問題。

        2.2 基于PCA的特征提取

        主成份分析(PCA)算法是一種典型的統(tǒng)計數(shù)據(jù)分析方法,是在原始數(shù)據(jù)集中抽取最有價值特征的一種有效方法。PCA會對新求出的“主元”向量的重要性進行排序,根據(jù)需求提取前m個“主元”向量,從而達到降維的效果,同時也最大程度保持了原有數(shù)據(jù)的信息。

        定義一個具有n個觀測值的數(shù)據(jù)矩陣X.這個矩陣由p個維度的隨機變量構(gòu)成。每個維度都代表了一個傳感器,如下式。

        X=x1,x2,x3,…xP.

        利用PCA進行特征提取目的是找到一個新的數(shù)據(jù)矩陣Y=Y1,Y2,…,Ym,(m≤p)來代表原始數(shù)據(jù)矩陣。它滿足Cov(Yi,Yj)=0,i≠j,i,j=1,2,…,m和Var(Y1)≥Var(Y2)≥…≥Var(Ym)Cov(Yi,Yj).其中Cov(Yi,Yj)是Y中的成份之間的協(xié)方差,表示Y中的每個成份都是相互獨立的。Var(Yi)是主成份的方差,表示了每個成份的重要性,每個成份的重要性在Y中依次遞減。

        算法2實現(xiàn)了利用PCA進行特征提取的過程。

        算法2 特征提取算法PCAModel.輸入:傳感器數(shù)據(jù)SensorData,數(shù)據(jù)的維度H,特征提取之后的特征維數(shù)信息含有量閾值輸出:新的特征數(shù)據(jù)ReconMat1.VarDataMat=loadDataSet(SensorData);//加載數(shù)據(jù)傳感數(shù)據(jù),生成數(shù)據(jù)矩陣2.For(vari:H){3. VarMeanVals=mean(DataMat[i]);//數(shù)據(jù)矩陣每一列特征均值4. VarMeanRemoved[i]=DataMat[i]-MeanVals;}//數(shù)據(jù)矩陣每一列特征減去該列的特征均值5. VarCovMat=Cov(MeanRemoved[i]);//計算協(xié)方差矩陣6.VarEigVects=linalg.eig(mat(conMat));//計算協(xié)方差矩陣的特征向量7.VarEigVals=linalg.eig(mat(conMat));//計算協(xié)方差矩陣的特征值8.VarExplainedVariance=Argsort(EigVals);//對每個特征向量的貢獻度由大到小排序9.For(VarxinExplainedVariance){10. sum+=x;11. topNfeat++;//記錄特征矩陣的索引的最大值12. if(sum>?)//獲取總貢獻度大于?的13. break;}14.For(Vari=0;i

        2.3 基于深度學習的設備預測性維護模型

        對于給定設備的歷史特征數(shù)據(jù)和標簽,預測模型輸出設備將來會發(fā)生故障的概率。給定概率閾值φ,如果預測模型的輸出數(shù)據(jù)超過閾值φ,那么認為這是一個故障即將發(fā)生的信號。故障發(fā)生的概率計算依賴與相當長的一段時間的歷史記錄與趨勢,傳統(tǒng)的有監(jiān)督學習算法只是簡單的把輸入序列作為獨立的特征,不能捕獲到序列之間的時間依賴性。

        循環(huán)神經(jīng)網(wǎng)絡(RNN)可以被看作一種深度學習的神經(jīng)網(wǎng)絡。不同于前饋神經(jīng)網(wǎng)絡,它的內(nèi)部狀態(tài)不僅僅依賴于當前的輸入,還依賴之前的網(wǎng)絡狀態(tài)。循環(huán)神經(jīng)網(wǎng)絡模型以其更高的非線性能力、更高的精度和收斂速度,非常適合處理帶有時間信息的序列數(shù)據(jù)。但是傳統(tǒng)的RNN是不能長時間的存儲之前的輸入信息,而長短時記憶(LSTM)神經(jīng)網(wǎng)絡引入記憶元,通過控制門可以控制新到的信息對神經(jīng)元已保存信息的擾亂程度,從而使得LSTM模型可以學習長期依賴信息,較長時間的保存并傳遞信息。LSTM 已經(jīng)成功的用在了各種的序列建模任務中[4]。本文使用LSTM的神經(jīng)網(wǎng)絡為發(fā)電設備建立故障預測模型。把設備的故障預測問題定義為一個二分類問題,LSTM所建立的預測模型的輸出yt本質(zhì)上也是一個二進制向量,表示設備的狀態(tài)。也就是說,LSTM輸出目標dt是一個具有2個類別的二進制向量dt∈{0,1},其中用1表示故障標識,0表示正常運行標識。

        本文用LSTM循環(huán)神經(jīng)網(wǎng)絡建立設備的故障預測模型。輸入序列為長度為L的特征向量序列x=(xt-L+1,…,xt),這些特征向量通過加權(quán)連接被傳遞到一堆多個循環(huán)相連的隱藏層,以計算隱藏的向量序列h=(ht-L+1,…,ht).輸出向量為y=(yt-L+1,…,yt).

        3 實驗與評價

        為了驗證上述算法的有效性,筆者基于真實的電廠設備傳感器數(shù)據(jù),對照歷史故障日志記錄,實現(xiàn)本文所描述的算法,確定相應的實驗指標,驗證方法的可行性以及有效性。

        3.1 實驗環(huán)境與數(shù)據(jù)

        本文的Spark集群采用基于Yarn的資源調(diào)度模式,由5臺裝載CentOS release 6.4系統(tǒng),Spark-2.1.0以及Hadoop-2.7.0軟件的服務器搭建而成,內(nèi)存主節(jié)點配置6 GB,從節(jié)點機器配置為3 GB,其他硬件配置均相同。

        實驗中使用的數(shù)據(jù)集來自發(fā)電廠的真實傳感器數(shù)據(jù)。利用發(fā)電機組中的5個重要設備所產(chǎn)生的傳感數(shù)據(jù)進行實驗驗證,具體信息見表1.其中每個傳感器每秒產(chǎn)生2條傳感數(shù)值,對原始數(shù)據(jù)進行頻率為每3 min的采樣,最終生成本文所用的實驗數(shù)據(jù)。數(shù)據(jù)的時間從2014-07-01 00:00:00到2016-01-31 23:59:59.以電廠設備的真實維修檢測記錄,作為實驗結(jié)果的參照對比對象。表1中的故障發(fā)生次數(shù)表示當前設備所發(fā)生故障的次數(shù)。

        表1 實驗數(shù)據(jù)信息表Table 1 Information of data set in experiment

        3.2 實驗指標

        利用上述數(shù)據(jù)利用文本算法進行實驗驗證,通過比對歷史日志記錄分析實驗結(jié)果,使用準確率和召回率對本文算法的有效性和性能進行評價。

        準確率(Precision):準確率代表預測的故障有多少是準確的,準確率越大說明預測的精度越高。

        召回率(Recall):召回率代表有多少正確的故障被預測出。

        3.3 實驗與評價

        本文利用表1中的數(shù)據(jù)作為實驗的數(shù)據(jù)集,其中前80%的數(shù)據(jù)作為訓練數(shù)據(jù),剩下20%的數(shù)據(jù)作為測試數(shù)據(jù)。

        以下4個預測模型作為本文實驗的對照方法。

        T-Method:表示電廠現(xiàn)有的預測模型,是基于傳感器包限值的預測方法。實時監(jiān)控單個傳感器的數(shù)值變化,如果單個傳感器的數(shù)據(jù)超過了初始設置的上限包限值或者低于下限包限值,則認為發(fā)生了故障預警信號。

        LModel:把采集到的原始傳感器數(shù)據(jù)直接輸入到LSTM網(wǎng)絡的設備預測模型中。

        SModel:使用PCA對采集到的原始傳感器數(shù)據(jù)進行特征提取,新生成的特征數(shù)據(jù)輸入到LSTM網(wǎng)絡的設備預測模型中。

        P-LModel:本文所提出的方法。先對原始傳感器數(shù)據(jù)執(zhí)行曲線排齊,再由PCA進行特征提取,最后把生成的新數(shù)據(jù)輸入到LSTM的網(wǎng)絡預測模型中。

        使用電廠現(xiàn)有的故障日志記錄作為正確的結(jié)果集。利用3.2中所定義的實驗指標驗證本文方法的正確性與有效性。共計執(zhí)行了10次訓練預測過程,記錄每次實驗的準確性與召回率,最后求取所有實驗的平均值,實驗結(jié)果如圖1所示。

        從圖1中可以看出,傳統(tǒng)的基于包限值的預警方法的準確率平均為53%,召回率平均為47%.而基于深度學習的方法的準確率平均75%,召回率平均為83%.這說明使用深度學習的預測方法比傳統(tǒng)的基于包限值的預測方法有效。因為基于包限值的預測方法必須是數(shù)據(jù)發(fā)生了明顯的異常之后才會檢測到對應的異常,而基于深度學習的預測方法能夠?qū)W習數(shù)據(jù)本身隱含的數(shù)據(jù)趨勢,在數(shù)據(jù)發(fā)生越線之前就能做到提前預警。

        此外,通過圖1可以看出,LModel由于采用的是原始數(shù)據(jù)集進行的訓練與預測,其準確率與召回率最高,SLModel與P-LModel的準確率和召回率稍低于LModel.主要是由于PCA進行特征提取之后,新生成的數(shù)據(jù)較原始數(shù)據(jù)來說丟失了少量的信息,影響了模型的準確率和召回率。但是本文的P-LModel由于在執(zhí)行PCA之前對延遲相關(guān)的數(shù)據(jù)進行了排齊的處理,使得降維之后的數(shù)據(jù)在相同維度下的信息量得到了提高,所以其準確率和召回率均高于SLModel。且對比LModel來說,二者之間的差距十分微小。證明了本文方法的有效性。

        圖1 不同設備的實驗結(jié)果Fig.1 Precision and recall for different equipment

        圖2展示了使用LModel,SLModel以及P-LModel進行模型訓練的平均時間。其中LModel的平均訓練時間為3.04 h.SLModel的平均訓練時間為2.23 h,而P-LModel為2.1 h.其中包含了對數(shù)據(jù)進行預處理的時間。對比發(fā)現(xiàn),經(jīng)過特征提取之后大大降低了數(shù)據(jù)的維度,大量減少了訓練的數(shù)據(jù)量,使得訓練時間得到減少。比較SLModel和P-LModel,在相同的信息含有量的前提下,利用本文的特征提取方法得到的新的特征數(shù)據(jù)維度要比直接使用PCA進行特征提取之后的數(shù)據(jù)維度小,因此模型的學習時間也稍低于SLModel.以磨煤機A為例,原始的數(shù)據(jù)特征有49維,在保證信息含有量為98%的前提下,經(jīng)過本文的數(shù)據(jù)預處理之后,提取后的特征維數(shù)降為9維,而直接進行PCA計算的特征維數(shù)為14.

        圖2 不同設備的模型訓練時間Fig.2 Training time for different equipment

        實驗表明利用文本的特征提取方法對模型進行預測,大大提高了模型的學習效率,且相對于利用原始數(shù)據(jù)進行預測的方法來說,準確率與召回率之間的細微下降也是位于可接受范圍內(nèi)。

        4 相關(guān)工作分析

        4.1 特征提取技術(shù)

        特征提取是利用機器學習或者人工智能方法進行建模之前常用的數(shù)據(jù)處理步驟。文獻[1]借鑒有監(jiān)督回歸算法,實現(xiàn)了一種監(jiān)督綜合特征提取[2-3]方法,利用功能性的學習范例對時間序列類型的輸入轉(zhuǎn)換為標量的輸入學習問題進行建模。實際上忽略了特征提取的階段。文獻[4]為復雜的IT系統(tǒng)提出了一個日志驅(qū)動的故障預警系統(tǒng),能夠自動的從IT系統(tǒng)的日志中自動提取特征,通過發(fā)現(xiàn)歷史數(shù)據(jù)中的長期結(jié)構(gòu),利用LSTM方法實現(xiàn)早期故障預測。KIMURA et al[6]采用張量分解法,提出了一個網(wǎng)絡日志數(shù)據(jù)建模和事件提取方法。雖然上述的研究方案能夠自動的從日志文件中提取出特征,但是這些方法也不適用與本文的特征提取問題。原因有兩方面,一方面,上述方法中的日志文件中的格式都是預先定義好的,所以相對容易提取到它們的特征和模式。而本文所面臨的傳感數(shù)據(jù)是無組織的,需要深度挖掘數(shù)據(jù)背后隱含的特征與模式;另外一方面,上述研究問題中的故障發(fā)生時間相對清楚,所以用來標簽處理的日志文件是有效的,利用其建模的結(jié)果也是相對準確的。而本文所面臨的故障記錄是人工的,所以無法確保故障發(fā)生時間的準確性,這對于標簽的處理是一個挑戰(zhàn)。

        4.2 預測性維護

        基于機器學習的預測性維護方法是最為流行的設備故障預警手段。一些學者利用常用的機器學習模型,從線性判別分析到更復雜的邏輯回歸分析以及神經(jīng)網(wǎng)絡等被用來進行預測[7]。KIMORA et al[5]采用監(jiān)督機器學習技術(shù),將網(wǎng)絡故障與網(wǎng)絡日志數(shù)據(jù)關(guān)聯(lián),建立基于日志生成模式的在線模板提取方法來表示異常的日志。文獻[8]利用人工智能向后傳遞神經(jīng)網(wǎng)絡為異常的機器建立了一個預測模,從而提高了半導制造業(yè)的整體的產(chǎn)品質(zhì)量與產(chǎn)量。文獻[9]建立一個多分類機器學習方法來處理預測性維護分類問題中數(shù)據(jù)集的不平衡。文獻[10]基于模糊邏輯理論,建立了一個決策系統(tǒng),能夠判定縫紉機針的生命使用期,從而可以為縫紉機針確定一個可預測性維護的方案。數(shù)據(jù)流處理系統(tǒng)上的在線故障預測[11]是基于對系統(tǒng)狀態(tài)的觀測值。這個方法使用了含有三個分類器的決策樹,適用于在線的設置,能夠在必要觸發(fā)。文獻[12]利用短時傅里葉變換(STFT)預處理傳感信號?;谝粋€簡單的頻譜矩陣和深度學習框架,建立了一個大內(nèi)存存儲檢索神經(jīng)網(wǎng)絡來診斷軸承的故障。文獻[13]分析了振動信號來提取軸承的行為模式,利用一些機器學習的模型,例如K-NN,SVM和K-means對故障類型進行分類,然后利用協(xié)同推薦(CRA)來分析所有模型輸出結(jié)果的相似性,從而實現(xiàn)提前建議。上述文獻都在一定的程度上解決了預測性維護的問題,但是他們的方法無法直接應用在發(fā)電廠的設備預測維護中,一方面是因為電廠發(fā)電設備的傳感器數(shù)量超過一萬個,其不斷產(chǎn)生的數(shù)據(jù)屬于“寬”且“高”,此外傳感器的天性使得不同的傳感器數(shù)據(jù)之間存在著時間上的錯位,而上述文獻中所使用的數(shù)據(jù)集維度相對較低,同時沒有考慮到時間錯位;二是上述的解決方案依然主要依賴于專業(yè)的領(lǐng)域知識,而發(fā)電廠的生產(chǎn)環(huán)境十分復雜,對于開發(fā)人員來說,實現(xiàn)對專業(yè)領(lǐng)域知識的學習是一個很大的成本與負擔。

        5 結(jié)束語

        本文針對發(fā)電廠海量傳感器數(shù)據(jù)的特征維度過高對于預測性維護模型的挑戰(zhàn),以及對海量高維數(shù)據(jù)特征過程中遇到的傳感器數(shù)據(jù)延遲相關(guān)性問題,提出了一種基于曲線排齊的特征提取方法,從高維的數(shù)據(jù)特征中提取關(guān)鍵的新特征。首先借鑒基于數(shù)據(jù)相關(guān)性最大的曲線排齊方法對傳感數(shù)據(jù)排齊,從而解決傳感數(shù)據(jù)的延遲相關(guān)。然后利用經(jīng)典的特征提取算法-PCA進行特征提取。提取之后的新特征維度得到降低,同時所包含的信息量并沒有減少依然能夠很好的反映設備的狀態(tài)信息。最后使用深度學習模型:LSTM神經(jīng)網(wǎng)絡,建立設備的預測性模型。實驗表明,相對于傳統(tǒng)的基于包限值的預測方法,本文所提出的方法能夠提高預測的準確度,而基于曲線排齊的特征提取方法在保證了預測準確性的同時降低了模型的訓練時間。

        [1] SUSTO G A,BEGHI A.Dealing with time-series data in Predictive Maintenance problems[C]∥IEEE International Conference on Emerging Technologies and Factory Automation.2016:1-4.

        [2] SCHIRRU A,SUSTO G A,PAMPURI S,et al.Learning from time series:Supervised aggregative feature extraction[C]∥Decision and Control (CDC).2012:5254-5259.

        [3] SUSTO G A,SCHIRRU A,PAMPURI S,et al.Supervised aggregative feature extraction for big data time series regression[J].IEEE Transactions on Industrial Informatics,2016,12(3):1243-1252.

        [4] ZHANG K,XU J,MIN M R,et al.Automated IT system failure prediction:A deep learning approach[C]∥Big Data (Big Data),2016 IEEE International Conference.2016:1291-1300.

        [5] KIMURA T,WATANABE A,TOYONO T,et al.Proactive failure detection learning generation patterns of large-scale network logs[C]∥IEEE Computer Society.International Conference on Network and Service Management.2015:8-14.

        [6] KIMURA T,ISHIBASHI K,MORI T,et al.Spatio-temporal factorization of log data for understanding network events[C]∥INFOCOM.2014:610-618.

        [7] WARRIACH E U,TEI K.Fault detection in wireless sensor networks:A machine learning approach[C]∥Computational Science and Engineering (CSE).2013:758-765.

        [8] LIU Y.Predictive modeling for intelligent maintenance in complex semiconductor manufacturing processes[D].US:The Unversity of Michigao,2008.

        [9] BABAN C F,BABAN M,SUTEU M D.Using a fuzzy logic approach for the predictive maintenance of textile machines[J].Journal of Intelligent & Fuzzy Systems,2016,30(2):999-1006.

        [10] GU X,PAPADIMITRIOU S,PHILIP S Y,et al.Online failure forecast for fault-tolerant data stream processing[C]∥ICDE.2008:1388-1390.

        [11] HE M,HE D.Deep learning based approach for bearing fault diagnosis[J].IEEE Transactions on Industry Applications,2017,53(3):3057-3065.

        [12] CHANG P C,WU J L.A critical feature extraction by kernel PCA in stock trading model[J].Soft Computing-A Fusion of Foundations,Methodologies and Applications,2015,19(5):1393-1408.

        [13] HOCHREITER S,BENGIO Y,FRASCONI P,et al.Gradient flow in recurrent nets:the difficulty of learning long-term dependencies[C]∥KREMER S C,KOLEN J F.A field guide to dynamical recurrent neural networks[S.l.]:Wiley.IEEE press,2001.

        [14] GRAVES A,SCHMIDHUBER J.Offline handwriting recognition with multidimensional recurrent neural networks[J].Advances in Neural Information Processing Systems,2009:545-552.

        [15] JOLLIFFE IT.Principal component analysis,2nd edn[M].New York:Springer series in statisticsSpringer,2002.

        [16] SUSTO G A,BEGHI A.Dealing with time-series data in Predictive Maintenance problems[C]∥IEEE.International Conference on Emerging Technologies and Factory Automation.2016:1-4.

        [17] 姜高霞,王文劍.時序數(shù)據(jù)曲線排齊的相關(guān)性分析方法[J].軟件學報,2014(9):2002-2017.

        JIANG G X,WANG W J.Correlation analysis in curve registration of time series[J].Journal of Software,2014(9):2002-2017.

        猜你喜歡
        預測性特征提取傳感器
        康奈爾大學制造出可拉伸傳感器
        簡述傳感器在物聯(lián)網(wǎng)中的應用
        電子制作(2019年22期)2020-01-14 03:16:52
        “傳感器新聞”會帶來什么
        傳媒評論(2019年5期)2019-08-30 03:50:18
        跟蹤導練(三)2
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        網(wǎng)絡輿情誘因信息及預測性研判探析
        新聞前哨(2015年2期)2015-03-11 19:29:27
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        詞匯量測試對語言水平的預測性的實證研究
        Walsh變換在滾動軸承早期故障特征提取中的應用
        軸承(2010年2期)2010-07-28 02:26:12
        久久久精品久久久国产| 国产 字幕 制服 中文 在线| 亚洲精品成人区在线观看| 9191在线亚洲精品| 亚洲av午夜福利精品一区二区| 曰日本一级二级三级人人| av色综合久久天堂av色综合在| 国产大学生粉嫩无套流白浆| 亚洲一区二区三区久久蜜桃| 中文字幕亚洲中文第一| 色综合久久中文字幕综合网| 欧美另类高清zo欧美| 亚洲AV无码专区一级婬片毛片| 少妇爽到爆视频网站免费| 中文字字幕在线中文乱码解| 亚洲精品乱码久久久久久中文字幕| 国产亚洲av片在线观看18女人 | 欧美精品亚洲精品日韩专区| 中字幕久久久人妻熟女 | 精品日本免费观看一区二区三区| 免费国产自拍在线观看| 欧美天天综合色影久久精品| 老色鬼永久精品网站| 视频一区视频二区亚洲| 国产高清在线精品一区app| 不卡高清av手机在线观看| 欧美日韩a级a| 日本乱熟人妻中文字幕乱码69| 久久久久无码国产精品一区| 亚洲一区中文字幕在线电影网 | 日韩av免费在线不卡一区| 在线a亚洲视频播放在线播放| 免费1级做爰片1000部视频| 免费无遮挡无码视频在线观看| 丰满人妻一区二区三区52| 久久人妻少妇嫩草av| 免费黄色电影在线观看| 日本肥老熟妇在线观看| 国产精品精品国产色婷婷| 高潮又爽又无遮挡又免费| 精品99在线黑丝袜|