尤祺,袁堂曉,汪惠芬
(南京理工大學 機械工程學院,江蘇 南京 210094)
在積累的工業(yè)大數(shù)據(jù)中,時間序列數(shù)據(jù)是最基本和最普遍的數(shù)據(jù)形式。對工業(yè)大數(shù)據(jù)進行信息提取和價值發(fā)現(xiàn),前提是要擁有可靠準確的高質量數(shù)據(jù)。然而,由于數(shù)據(jù)來源的多樣性、機器設備本身的局限性、工業(yè)現(xiàn)場環(huán)境因素的干擾等情況,工業(yè)數(shù)據(jù)可能存在異?;蛉笔?,致使無法滿足進一步分析應用的需要。因此,建立可行的數(shù)據(jù)質量評價、檢測、治理與持續(xù)改善的管理機制,是工業(yè)大數(shù)據(jù)的重要研究方向。
在數(shù)據(jù)質量管理的研究領域,國外學者更關注管理框架和管理流程的研究。WANG R Y[1]提出的全面數(shù)據(jù)質量管理方法,通過定義、測量、分析和改進4個階段實現(xiàn)數(shù)據(jù)質量的循環(huán)管理。JEUSFELD M A等[2]提出的數(shù)據(jù)倉庫質量方法,考慮到質量概念的主觀性,根據(jù)不同的使用群體提供不同類別的質量目標。BATINI C等[3-4]提出完全數(shù)據(jù)質量方法,可以應用于結構化、半結構化和非結構化數(shù)據(jù)。國內對于數(shù)據(jù)質量管理的研究更偏重于實際應用。方幼林等[5]提出了數(shù)據(jù)倉庫中數(shù)據(jù)質量的度量和評價指標,并提出了數(shù)據(jù)質量成熟度模型。楊青云等[6]基于數(shù)據(jù)可信性和可用性提出了一個數(shù)據(jù)質量評估模型。顏宏文等[7]提出了一種基于云模型的電網(wǎng)統(tǒng)計數(shù)據(jù)質量評估方法,以避免傳統(tǒng)方法的主觀隨意性。袁滿等[8]針對數(shù)據(jù)質量維度與框架進行了對比分析,為具體應用提供了科學依據(jù)。周艷紅[9]以數(shù)據(jù)生命周期為研究視角,基于層次分析法和專家打分法建立大數(shù)據(jù)質量評估模型。
雖然國內外研究學者針對數(shù)據(jù)質量管理提出了多種方法論和框架,強調數(shù)據(jù)清洗過程的自動化和一次成功率,但在實際應用中缺乏具體的執(zhí)行手段;不同領域內數(shù)據(jù)質量問題存在差異,對于工業(yè)時序數(shù)據(jù)質量管理缺乏針對性的研究;數(shù)據(jù)清洗過程過于追求通用性,沒有將工業(yè)領域知識與之融合。本文針對工業(yè)時序數(shù)據(jù)特點進行分析,對數(shù)據(jù)質量評價和控制方法進行集成與改進,給出了提升工業(yè)時序數(shù)據(jù)質量的管理方法,最后通過實際數(shù)據(jù)集驗證了質量管理和提升的效果。
工業(yè)時序數(shù)據(jù)主要來自于工業(yè)現(xiàn)場的物聯(lián)網(wǎng)絡、生產制造裝備和各類自動化系統(tǒng)等采集的數(shù)據(jù),具有來源廣泛、體量大、價值密度低等特點。由于器件系統(tǒng)故障、現(xiàn)場惡劣工況等影響,數(shù)據(jù)質量問題廣泛存在,主要表現(xiàn)在以下幾個方面[10]。
1)數(shù)據(jù)失真和失準。由于工業(yè)現(xiàn)場復雜環(huán)境因素的影響以及設備運維保養(yǎng)不當、缺乏有效的管理機制等原因,可能造成各類工業(yè)運行數(shù)據(jù)出現(xiàn)數(shù)據(jù)失真和失準問題。
2)時間序列周期異常。當供電出現(xiàn)故障時,元件功率的變化會影響數(shù)據(jù)采集頻率,造成時間序列周期發(fā)生短暫變化。
3)數(shù)據(jù)錯列。當數(shù)據(jù)采集器出現(xiàn)故障或是控制器發(fā)生收錄錯誤時,會出現(xiàn)部分數(shù)據(jù)與其原本屬性無法對應的錯列問題。
此外,常見的工業(yè)時序數(shù)據(jù)質量問題還包括數(shù)據(jù)冗余、數(shù)據(jù)誤采、數(shù)據(jù)不可識別、數(shù)據(jù)缺失、數(shù)據(jù)一致性差等。
不同的數(shù)據(jù)質量問題具有不同的嚴重性和發(fā)生的可能性,本文為這些數(shù)據(jù)質量問題建立了風險評估矩陣,如圖1所示。該評估矩陣是在綜合分析各類數(shù)據(jù)質量問題的出現(xiàn)頻次、檢測和修正難度以及對后續(xù)數(shù)據(jù)分析應用造成的影響的基礎上設計的。需要指出的是,風險評估矩陣中質量問題的排列順序是基于經驗和判斷,可能會因為案例或應用對象的不同而略有差異。
圖1 工業(yè)時序數(shù)據(jù)質量問題風險評估矩陣
對數(shù)據(jù)質量維度進行定義和分析,是建立數(shù)據(jù)質量評價模型的前提和基礎。根據(jù)工業(yè)時序數(shù)據(jù)的特點和存在的質量問題,結合相關研究[4],本文總結了適用于工業(yè)時序數(shù)據(jù)的數(shù)據(jù)質量維度,如表1所示。其中,時效性和及時性是與時間相關的主要維度,表征了數(shù)據(jù)在有效性、更新頻率和穩(wěn)定性等方面的表現(xiàn);風險性則是依據(jù)風險評估矩陣對數(shù)據(jù)進行評價。
表1 工業(yè)時序數(shù)據(jù)質量維度
1)交互式數(shù)據(jù)清洗。原始數(shù)據(jù)中往往存在多種異常,過于追求并依靠自動分析并不能很好地解決問題,由專業(yè)人員參與決策的交互式數(shù)據(jù)清洗模式才是符合實際的努力方向。
2)持續(xù)性數(shù)據(jù)管理。過于追求完美和一次成功率往往適得其反,原有的數(shù)據(jù)質量問題解決了,還會有新的問題出現(xiàn)。應當把數(shù)據(jù)質量管理視為數(shù)據(jù)生命周期內的一項經常性工作。
3)領域級數(shù)據(jù)修正。在數(shù)據(jù)質量提升環(huán)節(jié),需要將數(shù)理知識與工業(yè)領域知識深度融合,依托工業(yè)知識推理決策進行離群值和異常值的修正。
針對工業(yè)時序數(shù)據(jù)的特點,結合目前的數(shù)據(jù)質量管理架構和方法,本文給出如圖2所示的工業(yè)時序數(shù)據(jù)質量管理方法,從定義、評價、分析、提升和監(jiān)控5個流程環(huán)節(jié)持續(xù)改善數(shù)據(jù)質量。
圖2 工業(yè)時序數(shù)據(jù)質量管理方法
數(shù)據(jù)質量定義通過需求分析和問題定義,明確對數(shù)據(jù)的質量要求和檢測標準,進行風險評估和問題分級,為評價環(huán)節(jié)提供方向和參考。數(shù)據(jù)質量評價對每個質量維度進行定義與分析,從而建立完整的評價模型,通過綜合數(shù)據(jù)質量在各維度的計算值得到評價結果,評價結果是數(shù)據(jù)質量分析和提升的基礎。數(shù)據(jù)質量分析針對不同特點和應用場景的工業(yè)時序數(shù)據(jù)選擇合適的異常數(shù)據(jù)檢測方法,在參考評價結果的基礎上,檢測出數(shù)據(jù)中的重復值、缺失值、離群值和異常值。數(shù)據(jù)質量提升通過與工業(yè)領域知識的深度融合,實現(xiàn)知識與數(shù)據(jù)混合驅動的全方位數(shù)據(jù)清洗。數(shù)據(jù)質量監(jiān)控通過對各個環(huán)節(jié)的可視化呈現(xiàn)和質量問題的示蹤定位,達到輔助決策的目的。在提升數(shù)據(jù)質量的過程中,隨著時間推移和數(shù)據(jù)演化,可能會有新的數(shù)據(jù)質量問題出現(xiàn),因此需要持續(xù)的數(shù)據(jù)質量管理,不斷發(fā)現(xiàn)和解決數(shù)據(jù)中的問題。
在數(shù)據(jù)質量評價過程中,數(shù)據(jù)質量維度權重的計算直接影響到評價模型的準確度以及最終的評價結果。本文提出了一種基于層次分析法和熵值法相結合的主客觀組合賦權法,組合后的權重既能體現(xiàn)數(shù)據(jù)信息,又能反映專家意愿,兼顧了主觀權重和客觀權重的優(yōu)點。計算過程如下。
1)基于熵值法計算客觀權重:
(1)
式中:n為評價維度數(shù);ei表示第i個維度的熵值,計算公式為
(2)
式中:m為待評價樣本數(shù);pij表示第i個維度中第j個樣本值的比重,計算公式為
(3)
式中xij為第i個維度中第j個樣本的數(shù)值。
2)基于層次分析法計算主觀權重:
(4)
式中tij表示維度i對維度j的重要度,使用1~9比率標度法進行定義。
3)對以上兩種方法得出的權重計算綜合權重,對于某一維度i,其綜合權重為
(5)
最后結合數(shù)據(jù)在各維度的得分Si,計算出該數(shù)據(jù)集的總得分:
(6)
目前主流的時間序列異常檢測方法包括:基于統(tǒng)計的方法、基于距離的方法、基于密度的方法、基于約束的方法以及基于機器學習的方法[11-12]?;诮y(tǒng)計的方法根據(jù)數(shù)據(jù)在概率分布模型中的擬合情況來評估和提取時序趨勢,但對于分布特征未知的數(shù)據(jù),這種先驗假設存在較大的局限性?;诰嚯x的方法通過計算數(shù)據(jù)點之間的距離來檢測孤立點,由于使用全局閾值,時間復雜度較高且不能處理不同密度區(qū)域的數(shù)據(jù)集?;诿芏鹊姆椒朔瞬煌芏葏^(qū)域的數(shù)據(jù)集混合造成的檢測錯誤,但也具有較高的時間復雜度?;诩s束的方法根據(jù)數(shù)據(jù)變化的規(guī)則以及序列間的相關性來建立約束,通過約束規(guī)則來檢測和修復異常點,但是對于規(guī)則變化較大的數(shù)據(jù)效果不理想?;跈C器學習的方法將機器學習和深度學習的相關模型與工具應用于異常數(shù)據(jù)檢測,模型復雜度更高,對于數(shù)據(jù)的預處理也有更高的要求。本文根據(jù)數(shù)據(jù)的不同應用場景及其業(yè)務需求,給出推薦的異常數(shù)據(jù)檢測方法及其使用效果,見表2。
本文結合鄭州市的要素稟賦、區(qū)位特點、產業(yè)特征等內部環(huán)境因素及國家戰(zhàn)略、宏觀經濟發(fā)展等外部環(huán)境因素,深入探究鄭州市創(chuàng)新型社會建設的現(xiàn)狀和面臨的問題,并基于投入-產出視角建立一個相對全面的創(chuàng)新型城市建設評價指標監(jiān)測系統(tǒng),從而為鄭州市有關決策部門制定和實施創(chuàng)新戰(zhàn)略與政策提供支持。
表2 工業(yè)時序數(shù)據(jù)異常檢測方法及效果分析
原始數(shù)據(jù)在經過數(shù)據(jù)質量分析之后,除了異常數(shù)據(jù)被檢測出來、正常數(shù)據(jù)被過濾出去以外,可能會出現(xiàn)如表3所示的正常數(shù)據(jù)被誤測為異常的假異常以及異常數(shù)據(jù)被誤測為正常的假正常的情況。此時,在算法提升效果有限的情況下,可以融入領域專家知識對以上兩種情況進行糾正,以免造成數(shù)據(jù)質量的損失。
表3 數(shù)據(jù)質量分析結果混淆矩陣
圖3所示的是知識與數(shù)據(jù)混合驅動的數(shù)據(jù)質量提升過程?;旌向寗幽P桶▋纱蟛糠郑河蓪<抑R的表達與約束規(guī)則界定融合成的領域知識庫以及基于同類型歷史數(shù)據(jù)進行特征抽取得到的數(shù)據(jù)特征庫。當接收來自上游模塊的異常數(shù)據(jù)時,對異常特征進行基于知識庫的模式分析和基于特征庫的查找匹配,然后針對異常數(shù)據(jù)中的重復值、缺失值、離群值和異常值進行相應的處理操作,從而實現(xiàn)修正真異常和假正常、糾正假異常的目標。經過質量提升的數(shù)據(jù)將被抽取補充到該類數(shù)據(jù)的特征庫中,使得混合驅動模型可以不斷學習新的經驗,以增強模型的數(shù)據(jù)處理能力。
圖3 知識與數(shù)據(jù)混合驅動的數(shù)據(jù)質量提升過程
本文基于長短期記憶網(wǎng)絡(long short-term memory network,LSTM)建立了工業(yè)時序數(shù)據(jù)質量分析方法。LSTM具有控制遺忘的結構設計,非常適合處理時序任務[13]。首先基于歷史數(shù)據(jù)對LSTM進行訓練,然后利用LSTM進行時序數(shù)據(jù)預測,最后使用預測結果與實際數(shù)值的差值進行異常區(qū)間的判斷。其中的關鍵步驟主要包括:
1)數(shù)據(jù)預處理。將原始數(shù)據(jù)按照公式(7)進行歸一化,使處理后的數(shù)據(jù)映射到0~1之間。
(7)
式中:Xscaled為歸一化后的數(shù)據(jù);X為待處理數(shù)據(jù);Xmin為樣本的最小值;Xmax為樣本的最大值。
2)確定時間步長。時間步長是LSTM模型的一個關鍵參數(shù),會對模型運算速度和預測精度產生影響,可以結合數(shù)據(jù)量大小和模型表現(xiàn)確定其大小。
3)確定節(jié)點數(shù)。根據(jù)經驗公式(8)和模型實際表現(xiàn)確定輸入層和隱藏層節(jié)點數(shù)。
(8)
式中:m為隱藏層節(jié)點數(shù);n為輸入層節(jié)點數(shù);l為輸出層節(jié)點數(shù);a為1~10之間的常數(shù)。
訓練好模型之后,對數(shù)據(jù)進行預測,并對預測值進行歸一化的還原。最后,在專家知識與約束規(guī)則的界定分析下,確定異常數(shù)據(jù)點并修正。
在對數(shù)據(jù)質量管理效果進行分析驗證的過程中,除了需要比較處理前后的數(shù)據(jù)質量在評價模型中的得分表現(xiàn),還需要考量質量提升后的數(shù)據(jù)是否提高了分析應用的成功率。
本文以某地區(qū)的水泵系統(tǒng)數(shù)據(jù)集為例進行分析。該數(shù)據(jù)集由52組傳感器數(shù)據(jù)和水泵系統(tǒng)狀態(tài)標簽數(shù)據(jù)組成,每分鐘記錄一組數(shù)據(jù),共計141120組數(shù)據(jù)。傳感器數(shù)據(jù)記錄了水泵系統(tǒng)的壓力、溫度、流量等信息,水泵系統(tǒng)狀態(tài)標簽包括正常與不正常兩種狀態(tài)。
選取部分傳感器數(shù)據(jù),依據(jù)領域知識和約束規(guī)則事先進行異常數(shù)據(jù)的甄別和標記,然后采用本文基于LSTM神經網(wǎng)絡的方法對其進行數(shù)據(jù)質量分析與提升。圖4所示為部分數(shù)據(jù)分析過程,圖中實線表示實際值,虛線表示預測值,將二者作差并結合專家知識以確定出異常值。
圖4 數(shù)據(jù)質量分析過程示意圖
將分析結果與傳統(tǒng)的基于密度和基于統(tǒng)計的方法進行對比,并設置對比項為精度(數(shù)據(jù)被正確識別的比例)、查準率(識別為正常數(shù)據(jù)中真正正常數(shù)據(jù)的比例)以及查全率(數(shù)據(jù)中正常數(shù)據(jù)被正確識別的比例)。結合表3對于檢測結果的定義,給出各對比項的計算公式:
(9)
(10)
(11)
式中:A為精度;P為查準率;R為查全率。
實驗結果如表4所示。通過對比可以發(fā)現(xiàn),本文的方法在精度、查準率和查全率等方面都具有不錯的表現(xiàn),特別是精度和查全率,相較于傳統(tǒng)方法有了較大提升。
表4 不同方法對數(shù)據(jù)質量分析結果的對比 單位:%
為了驗證數(shù)據(jù)質量管理的效果,本文基于Keras搭建神經網(wǎng)絡模型,對該水泵系統(tǒng)進行故障預測。如表5所示,經過數(shù)據(jù)質量分析與提升后,模型對于系統(tǒng)故障的預測準確率由80.18%提升至90.38%,模型損失(二元交叉熵)由0.1982下降至0.0206,從而證明了數(shù)據(jù)質量管理的有效性。
表5 數(shù)據(jù)質量管理效果對比驗證
本文梳理了工業(yè)時序數(shù)據(jù)質量問題的主要表現(xiàn),引入風險評估機制以完善數(shù)據(jù)質量評價標準,給出了工業(yè)時序數(shù)據(jù)質量管理方法。提出了一種基于LSTM神經網(wǎng)絡的數(shù)據(jù)質量分析方法,并通過實際數(shù)據(jù)集進行了驗證。后期研究需要將工業(yè)時序數(shù)據(jù)質量管理方法模塊化、系統(tǒng)化,提高實用性,使其真正服務于工業(yè)大數(shù)據(jù)。