王子豪
(徐州工程學(xué)院,江蘇 徐州 221018)
制造廠商需要抽樣檢測流水線上生產(chǎn)的產(chǎn)品,數(shù)據(jù)公司同樣也需要對自己的數(shù)據(jù)產(chǎn)品質(zhì)量進(jìn)行把控。研究數(shù)據(jù)驅(qū)動的異常檢測與預(yù)警問題,對于生產(chǎn)企業(yè)來說可以及時發(fā)現(xiàn)產(chǎn)品或數(shù)據(jù)中的異常,從而修正偏差改善產(chǎn)品質(zhì)量,提高收益。此外,對于任何的分析,在數(shù)據(jù)預(yù)處理的過程中檢測數(shù)據(jù)中的異常值都是非常重要的一步。異常值會大幅度地改變數(shù)據(jù)分析和統(tǒng)計(jì)建模的結(jié)果。數(shù)據(jù)集中異常值有很多不利影響,會增加誤差差異,并降低統(tǒng)計(jì)測試的能力。研究數(shù)據(jù)驅(qū)動的異常檢測與預(yù)警問題,可以降低錯誤率,提高結(jié)果的準(zhǔn)確性。
在數(shù)據(jù)篩選方面通過因子分析的方法對題中所給數(shù)據(jù)進(jìn)行篩選。根據(jù)已篩選的數(shù)據(jù)進(jìn)行高斯分布分析,通過高斯分布進(jìn)行再一次的篩選,將不滿足高斯分布的數(shù)據(jù)進(jìn)行剔除,只保留滿足高斯分布的數(shù)據(jù)。
對篩選結(jié)果而來的數(shù)據(jù),運(yùn)用Spss 軟件對數(shù)據(jù)進(jìn)行可視化處理,本文采取繪制箱線圖的方法,求解得出結(jié)果,根據(jù)箱線圖所給的范圍,找出異常值存在的范圍,即確立離群點(diǎn)。將篩選結(jié)果導(dǎo)入Excel 中,利用Excel 標(biāo)選出離群點(diǎn)。
先考慮風(fēng)險(xiǎn)性異常特點(diǎn),對所篩選出來的離群點(diǎn)通過Excel進(jìn)行縱向分析,以異常值持續(xù)時間為指標(biāo)篩選出異常值具有持續(xù)性特點(diǎn)的離群點(diǎn)。再在此基礎(chǔ)上對數(shù)據(jù)進(jìn)行橫向分析,選取在同一時間出現(xiàn)異常的傳感器數(shù)量作為指標(biāo)篩選聯(lián)動性特點(diǎn)。橫向篩選結(jié)果的集合與縱向篩選結(jié)果的集合取交集,即為風(fēng)險(xiǎn)性異常數(shù)據(jù)波動。
對數(shù)據(jù)進(jìn)行高斯分布處理,根據(jù)高斯分布特點(diǎn),本文發(fā)現(xiàn)不符合高斯分布的數(shù)據(jù)其波動性變化微小,故本題將這些變化微小的數(shù)據(jù)進(jìn)行篩選剔除,保留滿足高斯分布的數(shù)據(jù)。
對篩選結(jié)果而來的數(shù)據(jù),運(yùn)用Spss 軟件對數(shù)據(jù)進(jìn)行可視化處理,本文采取繪制箱線圖的方法,刻畫離群點(diǎn),將這些離群點(diǎn)在Excel 中標(biāo)出。
在此前模型的基礎(chǔ)上對風(fēng)險(xiǎn)性異常數(shù)據(jù)進(jìn)行量化評價方法,本題首先建立評價指標(biāo),指標(biāo)的建立采用窗口分析法,提取窗口中該異常數(shù)據(jù)與平均值的大小,分析出該窗口的方差、數(shù)據(jù)變化幅度并將其作為指標(biāo),然后建立評價模型,由于本題評價類型較為客觀,故選擇熵權(quán)法進(jìn)行評價。
2.1.1 利用熵權(quán)法確定相關(guān)指標(biāo)的權(quán)重
熵權(quán)法是一種客觀賦權(quán)方法。在具體使用過程中,熵權(quán)法根據(jù)各個指標(biāo)的變異程度,利用信息熵計(jì)算出各個指標(biāo)的熵權(quán),再通過熵權(quán)對各個指標(biāo)的權(quán)重進(jìn)行修正,由此得出的結(jié)果為較為客觀的指標(biāo)權(quán)重[2]。
(1)對問題一已篩選得出的風(fēng)險(xiǎn)異常數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,如下式所建立的負(fù)向指標(biāo):
(2)求各個指標(biāo)的信息熵。根據(jù)信息論中信息熵的定義,一組數(shù)據(jù)的信息熵計(jì)算公式如下所示:
(3)確定各個指標(biāo)權(quán)重。根據(jù)信息熵計(jì)算公式,計(jì)算得出各個指標(biāo)的信息熵。通過信息熵計(jì)算各個指標(biāo)的權(quán)重,如下式所示:
2.1.2 對風(fēng)險(xiǎn)性異常數(shù)據(jù)整體量化評價
為了避免權(quán)重計(jì)算時失去實(shí)際意義,采用將某時刻中的某一項(xiàng)指標(biāo)加權(quán)后與全時刻該指標(biāo)加權(quán)后的平均值進(jìn)行比較。首先計(jì)算共計(jì)L 的全時刻指標(biāo)E 量化加權(quán)后的平均值,如下式所示:
由于在量化過程中,本題已經(jīng)確保了量化結(jié)果與風(fēng)險(xiǎn)等級正相關(guān),故只需要將第X 個時刻的指標(biāo)E 與平均值E 作差,并用差值與平均值作比,即可作為該時刻該指標(biāo)的得分,如下式所示:
求出時刻全部指標(biāo)的總得分即為該醫(yī)院最終得分,如下式所示:
最后,用求出的Sx可較為公正且全面的衡量風(fēng)險(xiǎn)異常數(shù)據(jù)時刻的風(fēng)險(xiǎn)等級,將這L 個時刻所得最終得分降序排列,去排名靠前的五個時刻,通過計(jì)算得出具體結(jié)果。
建立在問題一篩選出來的數(shù)據(jù)的基礎(chǔ)上,進(jìn)一步求出這些數(shù)據(jù)所占的權(quán)重。由于這里的權(quán)重需要偏客觀性,本文采用熵權(quán)法求權(quán)重??紤]到這些數(shù)據(jù)均為異常值數(shù)據(jù),所以先對數(shù)據(jù)進(jìn)行逆向化量綱處理。
在模型建立中選取了均值和方差作為指標(biāo),并用Spss 求出該異常編號數(shù)據(jù)的均值和方差,運(yùn)用主成分分析法在均值和方差之間提取了均值作為主要分析的成分,篩選出來的5 個異常時刻編號如下:
1929(8:02:15)、1131(4:42:45)、2470(10:17:30)、3082(12:50:30)、941(3:55:15)
對應(yīng)得機(jī)器編號為:3;69;62、74;54;69、84 對處理好的數(shù)據(jù)進(jìn)行熵權(quán)法求權(quán)重,求得平均值、標(biāo)準(zhǔn)差。求解結(jié)果如表1 所示。
表1 平均值及標(biāo)準(zhǔn)差求解表
在步驟一、步驟二處理好數(shù)據(jù),并求得平均值、標(biāo)準(zhǔn)差之后,本文使用熵權(quán)法求解出相應(yīng)權(quán)重,使用Spss 軟件求出權(quán)重如表2 所示。
表2 熵權(quán)法計(jì)算權(quán)重結(jié)果匯總表
權(quán)重?cái)?shù)據(jù)可視化如圖1 所示。
圖1 權(quán)重?cái)?shù)據(jù)可視化圖
Step4:根據(jù)以上模型,得出最終5 個異常分值最高時刻對應(yīng)的異常傳感器編號排序如下:
62、74>69>3>54>69、84
本文對數(shù)據(jù)進(jìn)行篩選與處理,篩選得出的數(shù)據(jù)通過繪制箱線圖,確定異常點(diǎn)的集合,在此基礎(chǔ)上再對異常點(diǎn)進(jìn)行有無風(fēng)險(xiǎn)性判斷。本題選取時間間隔與持續(xù)時間為異常點(diǎn)滿足風(fēng)險(xiǎn)性條件下的指標(biāo),選取所有傳感器在同一時間出現(xiàn)異常點(diǎn)的個數(shù)為聯(lián)動性指標(biāo)。由此對數(shù)據(jù)進(jìn)行縱向與橫向雙維度篩選分析,當(dāng)持續(xù)時間長且同時出現(xiàn)異常傳感器數(shù)量多時,即為風(fēng)險(xiǎn)異常數(shù)據(jù)。
在前模型的基礎(chǔ)上,對風(fēng)險(xiǎn)性異常數(shù)據(jù)進(jìn)行量化評價,對各個指標(biāo)進(jìn)行量化處理,確定指標(biāo)的權(quán)重,權(quán)重的確立要更加接近于持續(xù)性、聯(lián)動性等特點(diǎn),由于評價目標(biāo)較為客觀,故可以在以上分析的基礎(chǔ)上利用熵權(quán)法確定權(quán)重,再為每一個傳感器計(jì)算出一個風(fēng)險(xiǎn)性異常波動指數(shù)。對每一時刻所有傳感器的風(fēng)險(xiǎn)性異常波動指數(shù)進(jìn)行求和,選取最大的五個時刻,并記錄此時風(fēng)險(xiǎn)性異常波動指數(shù)最大的傳感器。