鐘成原 和 健
?
基于大數(shù)據(jù)異常分析的運維數(shù)據(jù)分析初探
鐘成原 和 健
民航云南空管分局,云南 昆明 650200
民航云南空管分局自2012年6月28日轉場到新機場運行以來,幾年的運維中產生了大量的設備維護數(shù)據(jù),由于目前采用的正常值范圍的檢測方式不能滿足日益提高的運維要求。因此,嘗試利用大數(shù)據(jù)挖掘中的統(tǒng)計方法對防雷接地電阻的測試進行異常分析,找出在大數(shù)據(jù)條件下的數(shù)據(jù)分析的方法。
異常分析;大數(shù)據(jù);數(shù)據(jù)挖掘;運維
民航云南空管分局自2009年開始使用電子值班系統(tǒng)(即運維系統(tǒng)),電子值班系統(tǒng)的使用,大大方便了數(shù)據(jù)的記錄和查詢。2012年6月28日昆明新機場投入運行以來,系統(tǒng)記錄了數(shù)十萬條設備維護記錄,這些記錄都是寶貴的財富,但它們靜靜的躺在數(shù)據(jù)庫里,沒能為設備的故障預測和更新改造等工作提供更多的幫助。
在現(xiàn)有的維護體系中采用的是取值范圍的檢測方式,例如防雷接地電阻,要求是小于4 Ω,如果測試值在此范圍內都是正常的。但像防雷接地電阻,在工程實施完畢以后,這個值應當穩(wěn)定在一定范圍內,例如1 Ω,如果某次測量發(fā)現(xiàn)突增到3.5 Ω,雖然仍然在規(guī)定范圍內,但仍值得引起注意。
因此,采用目前的數(shù)據(jù)處理方式已經不能滿足數(shù)據(jù)日益增長的需要了,大數(shù)據(jù)處理,數(shù)據(jù)挖掘為民航設備保障提供了新的思路和方法。
2.1 異常值的定義
異常值在統(tǒng)計學上常稱為離群值,對于離群值的定義一般采用統(tǒng)計學家Douglas Hawkins的定義,即異常值是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑他由不同的機制產生的。
大多數(shù)情況下異常點的處理在統(tǒng)計學中是將其視為噪音而丟棄,然而在設備維護中,異常點的檢測比正常值的檢測更具指導意義。這是因為這種變化有可能預示著設備發(fā)生了某些改變,或者運行環(huán)境產生了變化,也有可能是測試人員使用了不同的方法或者工具等等。
2.2 異常分析的基本過程
異常分析的過程大體可以分為以下過程:
(1)獲得和存儲數(shù)據(jù)。這是一切大數(shù)據(jù)處理的基本,沒有數(shù)據(jù)就沒有分析的可能,可喜的是現(xiàn)在民航云南空管分局已經使用運維系統(tǒng)多年,積累了大量的數(shù)據(jù)。
(2)整合數(shù)據(jù)。在大數(shù)據(jù)中數(shù)據(jù)的量是巨大的,但不是所有數(shù)據(jù)都是有用的,也不是一次性要把所有數(shù)據(jù)都分析完。應該按照需要,整合所需的數(shù)據(jù)。例如本次我們只分析防雷接地電阻,我們就只需要提取取感興趣的部分即可。
(3)建立模型。數(shù)據(jù)挖掘技術在異常點的檢測上大體分為三類:統(tǒng)計學方法,基于距離的方法,基于偏移的方法,每種方法中又包含了多種處理模型,因此,在處理前必須建立模型,以方便后續(xù)的處理。本文中由于處理的僅僅是一個維度的防雷接地電阻,因此采用統(tǒng)計學的正態(tài)分布模型可以方便的檢測出異常值。
(4)利用模型進行分析,建立模型后就需要通過模型進行異常點的分析,這也是對模型的驗證。
(5)查找原因和應用,發(fā)現(xiàn)異常點后要查找異常點發(fā)生的原因,以提高維護質量和安全保障裕度。
3.1 基本情況
由于一個設備的同一個參數(shù)在周期維護中測試數(shù)量是有限的,而安裝在同一機房內的設備防雷體系是一致的,如果采用相同的測試方法,應該可以得到較為接近的結果。為保證采樣的樣本量,在本文采用3倍標準差方法對民航云南空管分局技術保障部通信網(wǎng)絡室安裝在長水機場航管樓中心機房內的設備接地電阻測試情況進行分析。自2012年6月28日轉場后共取得了462個測試數(shù)據(jù)。
3.2 檢測過程
3.2.1 對數(shù)據(jù)進行直觀密度分析
我們采用散點圖直觀地反映數(shù)據(jù)的分布情況,散點圖如圖1所示:
圖1 接地電阻分布散點圖
由圖中可以看出,防雷接地電阻主要分布在2.5Ω以下,其中3.5 Ω以上的有4個測試值,最大值為4.3 Ω,已經超出了規(guī)定范圍[1]。
3.2.2 數(shù)據(jù)定量分析
計算結果如表1所示:
表1 接地電阻統(tǒng)計計算結果表
超過3倍標準差的數(shù)據(jù)共有4個,占0.87 %,超過的值如表2所示:
表2 超過3倍標準差的數(shù)據(jù)統(tǒng)計表
對于1號檢測值,當時的測量人員已經辭職,測試日期正好在當事人準備辭職期間。我們認為當事人當時的心態(tài)、工作熱情可能是導致本次測試結果超標的直接原因。
對于2號和4號測試值,由于發(fā)生在轉場初期,防雷接地不完善,在2013年初對防雷接地進行全面的梳理檢查后,一直都相對穩(wěn)定。
對于3號測試結果,維護規(guī)程要求測試時使用環(huán)形地阻儀進行測試,但測試人回憶當時采用的是萬用表進行測試,而且測試值在標準之內,于是當事人便進行了記錄。在之后的測試一直使用環(huán)形地阻儀測試,測試值穩(wěn)定在1.1 Ω左右[2]。
4.1 測量數(shù)據(jù)盡可能的數(shù)據(jù)化
在分析中我們發(fā)現(xiàn)在維護記錄中有很多測試值仍然采用“正常”等定性的測試結果,這些數(shù)據(jù)由于只有“正常”、“不正?!眱蓚€值,無法進行數(shù)據(jù)分析,不利于發(fā)揮大數(shù)據(jù)分析的作用。
4.2 合理安排異常檢測標準
異常數(shù)值的取值是異常分析中最困難的部分,以本例中使用的標準差方法中,通過統(tǒng)計學原理可以知道即使按照3倍標準差分析將有0.3 %的異常值。別小看這0.3 %,如果100萬條數(shù)據(jù)中將有3000條數(shù)據(jù)需要調查。因此在實際中應當根據(jù)實際情況靈活的確定異常的標準[3]。
4.3 不放過任何一個異常點
對檢出的異常值,應盡可能尋找產生異常值的原因,作為處理異常值的依據(jù)。每一個異常都有可能是一個安全隱患,數(shù)據(jù)分析只能找到這些異常點,但無法告訴我們?yōu)槭裁磿l(fā)生異常。本著四不放過的原則,應當組織人員進行排查,徹底消除隱患,對于一時無法找到問題的根源,也應當增加檢測密度,密切關注。
4.4 今后的檢測應該朝著多維度發(fā)展
本文僅對一維數(shù)據(jù)進行了分析,但實際工作中很多指標是相互關聯(lián)的,例如一個100 W的5 V電源,如果電壓允許1 V誤差,那么輸出電壓范圍是4~6 V,電流可以在0~25 A之間,如果單獨測試6 V電壓,25 A電流都是正常的,但如果同時出現(xiàn),電源的功率為150 W,大大超出了額定功率。因此,今后應當提高多維度的檢測,以滿足日益增加的維護需求[4]。
[1]統(tǒng)計學術語:GB/T 3358.1—1993[S].
[2]數(shù)據(jù)的統(tǒng)計處理和解釋正態(tài)樣本異常值的判斷和處理:GB 4883—85[S].
[3]Tan P & M Steinbach.范明,范宏建,譯.數(shù)據(jù)挖掘導論[M].北京:人民郵電出版社,2011:403-418.
[4]張曉,基于密度聚類算法的異常檢測[J].伊犁師范學院學報(自然科學版),2010,2010(4):52-53.
F832.2
A
1009-6434(2016)12-0113-02