應(yīng)昊鍵 韋棋鈞 重慶郵電大學(xué)軟件工程學(xué)院 重慶市 400065
ATM即自動柜員機(jī),是銀行在不同地點(diǎn)設(shè)置的一種小型機(jī)器,讓客戶可以透過機(jī)器進(jìn)行提款、存款、轉(zhuǎn)賬等銀行柜臺服務(wù)。這不但提升了銀行的工作效率而且給群眾帶來很大的便利。與此同時,ATM的維護(hù)管理和數(shù)據(jù)安全就顯得十分重要,發(fā)現(xiàn)故障與異常數(shù)據(jù)監(jiān)測就是我們需要研究的首要問題。近幾年來ATM機(jī)的使用越來越普及。由于其運(yùn)行時無人監(jiān)管,一旦出現(xiàn)故障將造成一定的損失,因此對ATM機(jī)交易狀態(tài)特征分析與異常檢驗顯得十分重要。
為了選取合適的特征參數(shù),本文首先做出了交易量、交易成功率、交易響應(yīng)時間分別與月份和一天的分析,得出波動趨勢的變化,再判斷波動較大的地方引起的原因,選取部分指標(biāo),然后再計算這些指標(biāo)均值與方差,最后進(jìn)行假設(shè)檢驗判斷指標(biāo)是否合適。
(1)特征參數(shù)的選擇
通過對月份和交易量分析:1月份的交易量波動較大,2、3、4月份的交易量波動范圍較小、較穩(wěn)定,我們猜測是過春節(jié)這一因素的影響,如果排除春節(jié)期間的交易量,每個月份的曲線形狀相似度很高;
通過對一天的分鐘數(shù)和交易量分析:日交易量存在高峰差異;在早上七點(diǎn)左右交易量大幅度上升,晚上八點(diǎn)左右交易量大幅度下降,交易高峰期在上午十點(diǎn)到晚上八點(diǎn)之間。
通過對每天的分鐘數(shù)和交易成功率分析:較為集中在早上八點(diǎn)到晚上十一點(diǎn)之間,且基本不隨著時間變化而變化,這說明成功率與時間不存在線性關(guān)系;在晚上十一點(diǎn)到早上八點(diǎn)之間,成功率分布波動范圍較廣,離散程度較大,猜測是交易量太少的原因造成的;晚上十一點(diǎn)到早上八點(diǎn)這段時間,嚴(yán)重偏離樣本值的點(diǎn)多,有可能是異常情況。
通過對每天的分鐘數(shù)和交易響應(yīng)時間分析:在白天的時候,交易響應(yīng)時間較短,而夜晚的時候,ATM機(jī)的響應(yīng)時間較長。猜測是由于白天交易量大,銀行開設(shè)的服務(wù)器及處理器較多,響應(yīng)時間得到降低;在白天的時候,響應(yīng)時間數(shù)據(jù)分布集中;夜晚的時候,響應(yīng)時間的數(shù)據(jù)點(diǎn)離散程度大。
(2)特征參數(shù)的特征范圍
本文針對題目提出的高峰期、節(jié)假日、工作日的情況,隨機(jī)選取符合情況的某日交易量、成功率、響應(yīng)時間的數(shù)據(jù)計算平均數(shù)和標(biāo)準(zhǔn)差進(jìn)行提取參數(shù)特征,得到除一月外的交易量受是否為工作日、節(jié)假日影響較大,日交易量平均值在一天內(nèi)波動較大。響應(yīng)時間與成功率受否為工作日、節(jié)假日影響很小,響應(yīng)時間平均值波動幅度較大,成功率趨于穩(wěn)定。
對交易量、成功率、響應(yīng)時間進(jìn)行月定量分析,我們隨機(jī)取了某個時刻的參數(shù)計算平均值和方差,得到某時刻的交易量受節(jié)假日的影響,且波動較大。成功率較為穩(wěn)定。響應(yīng)時間受到的影響較小。
本文首先對一天的交易量、交易成功率、交易響應(yīng)時間進(jìn)行三維的K-means聚類分析;我們發(fā)現(xiàn)存在高峰期交易量波動很大,對一天進(jìn)行時段劃分,再對三個指標(biāo)基于不同時段進(jìn)行三維的K-means聚類分析;為了得到更好的數(shù)據(jù)異常檢測方案,我們對其進(jìn)行降維處理,由于交易量與成功率存在一定的線性關(guān)系,所以對一天不同時段的交易量與交易響應(yīng)時間進(jìn)行K-means聚類分析,進(jìn)行異常檢測。
(1)三指標(biāo)的K-means聚類檢測模型
通過K-means聚類分析,得到聚類分析散點(diǎn)進(jìn)行對比,得到了異常值與正常值得誤警率為0.0028。
(2)不同時段三指標(biāo)的K-means聚類檢測模型
在選取特征參數(shù)時中我們發(fā)現(xiàn)每天不同時段的交易量波動很大:在白天的時段,交易量大、交易成功率高且穩(wěn)定、交易響應(yīng)時間短暫且穩(wěn)定;而在晚上的時段,交易量小、交易成功率與交易響應(yīng)時間的波動性大,離散程度大。為了使模型更具時效性與準(zhǔn)確性,于是我們對一天不同時段的交易量、交易成功率、交易響應(yīng)時間進(jìn)行K-means聚類分析,從而得到異常檢測結(jié)果。通過計算我們得到該模型的誤警率為0.0125.
(3)不同時段交易量與交易響應(yīng)時間的K-means聚類檢測模型
指標(biāo)的選?。簽榱耸鼓P透鼮楹啽?、準(zhǔn)確,于是我們暫且不考慮交易成功率這一指標(biāo),只針對交易量與交易響應(yīng)時間兩個指標(biāo)進(jìn)行K-means聚類分析,來判斷異常結(jié)果。
(4)不同時段交易量與交易響應(yīng)時間的K-means聚類分析結(jié)果
通過聚類分析處理后,我們得到不同時段交易量與交易響應(yīng)時間的K-means聚類分析結(jié)果,通過計算我們得到該模型的誤警率為0.00486.
為減少在對該交易狀態(tài)的應(yīng)用性異常虛警誤報的情況,提升異常檢測方案的性能。所以我們添加內(nèi)存占用率和響應(yīng)率對異常數(shù)據(jù)檢測方案進(jìn)行改進(jìn)。
(1)內(nèi)存占用率
ATM機(jī)數(shù)據(jù)中心后端處理的物理內(nèi)存總量是一定的,然而每個進(jìn)程運(yùn)行都會占用一定的物理內(nèi)存總量。物理內(nèi)存占用越多,進(jìn)程運(yùn)行就越緩慢或者卡頓,大大的影響了響應(yīng)時間。我們定義:
如果內(nèi)存占用率為0,就意味著網(wǎng)絡(luò)屬于空閑狀態(tài),當(dāng)內(nèi)存占用率為100%時,網(wǎng)絡(luò)已經(jīng)滿負(fù)荷運(yùn)行,即傳輸網(wǎng)絡(luò)出現(xiàn)故障。
(2)響應(yīng)率
當(dāng)出現(xiàn)分行側(cè)傳輸節(jié)點(diǎn)故障,前端交易無法上傳請求時,就會導(dǎo)致交易量下降,我們增加響應(yīng)率來進(jìn)行監(jiān)測:
響應(yīng)率越高說明,系統(tǒng)越正常。反之,當(dāng)響應(yīng)率越低,說明出現(xiàn)故障的幾率越大。
我們不難發(fā)現(xiàn)這是一類異常檢測問題,我們建立高維K-means聚類分析算法模型。仔細(xì)分析我們建立的模型不難發(fā)現(xiàn),次模型不單適應(yīng)于ATM異常數(shù)據(jù)檢測,在其他多個領(lǐng)域如:人臉識別、圖像識別用于異常或偏差檢驗均可得到很好的效果。同時本文中采用的定量分析與定性分析具有獨(dú)到之處,相關(guān)時間序列相似的問題均可參考。
[1]K-means算法描述.https://wenku.baidu.com/view/71b2b632a98271fe900ef917.html
[2]何明亮,陳澤茂,黃相靜.基于改進(jìn)K均值聚類的入侵檢測算法研究[J]-計算機(jī)與數(shù)字工程2017(6)
[3]趙曼.基于數(shù)據(jù)相關(guān)性的異常檢測算法研究[J]-北京交通大學(xué)2017(3)