亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學習的動態(tài)基線及其在銀行網(wǎng)絡流量數(shù)據(jù)監(jiān)測中的應用

        2016-12-15 08:48:28左昌盛
        金融經(jīng)濟 2016年20期
        關鍵詞:警告基線閾值

        左昌盛 宋 歌

        (平安銀行股份有限公司,廣東 深圳 518034)

        ?

        基于機器學習的動態(tài)基線及其在銀行網(wǎng)絡流量數(shù)據(jù)監(jiān)測中的應用

        左昌盛 宋 歌

        (平安銀行股份有限公司,廣東 深圳 518034)

        隨著金融科技的快速發(fā)展,基于網(wǎng)絡流量數(shù)據(jù)的性能管理、風險防范,尤其是異常流量檢測逐漸引起人們的重視。然而,傳統(tǒng)基于固定基線的流量檢測方法不能適應逐漸增多的數(shù)據(jù)及日漸復雜的數(shù)據(jù)類型,導致其檢測結(jié)果不準確而產(chǎn)生錯誤警報,同時也大大耗費人力物力。本文提出基于機器學習方法中主成分分析及最小二乘支持向量回歸機的動態(tài)基線預測及檢驗方法,實現(xiàn)了動態(tài)基線的自主構(gòu)造及對異常指標數(shù)據(jù)的自動檢測。實際仿真結(jié)果表明,本文所提方法與基于加權(quán)方法的動態(tài)基線相比,能更好地實現(xiàn)異常檢測與預警。

        動態(tài)基線;流量檢測;分級預警;機器學習

        1.引言

        近年來,隨著銀行業(yè)信息化建設的日趨完善,增強銀行風險防范水平是銀行業(yè)發(fā)展的必然要求。一方面,穩(wěn)定高效的信息系統(tǒng)可以提高銀行交易的便利性和管理的有效性;另一方面,隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等新技術(shù)的發(fā)展和應用,無處不在的數(shù)據(jù)正以前所未所的方式改變著人們的工作和生活。因此,數(shù)據(jù)分析已成為信息管理的重要和有效途徑。特別地,針對網(wǎng)絡流量數(shù)據(jù)的監(jiān)測,由于銀行交易量大,涉及范圍廣,對由此產(chǎn)生的大量原始數(shù)據(jù)進行手工人為檢測將消耗大量的人力物力,并且效率低,不全面。因此,設計基于數(shù)據(jù)挖掘技術(shù)的異常流量自動檢測系統(tǒng)是必要的。

        對此,本文設計基于主成分分析(PCA)[1]及最小二乘支持向量回歸機(LS-SVR)[2]的動態(tài)基線預測模型。具體地,本文利用主成分分析方法對預處理過的原始數(shù)據(jù)構(gòu)造綜合指標以增加可解釋性,并構(gòu)造線性及非線性最小二乘支持向量回歸機模型,實現(xiàn)動態(tài)基線值的預測。同時,設計基于閾值技術(shù)的動態(tài)預警機制,使得流量異常時能夠?qū)崿F(xiàn)實時預警。

        2. 動態(tài)基線模型

        本節(jié)將實現(xiàn)基于網(wǎng)絡流量數(shù)據(jù)的多指標體系的動態(tài)基線預測及預警。假設一天截取數(shù)據(jù)節(jié)點數(shù)有m個,已監(jiān)測l天。每個節(jié)點流量用n個特征指標描述。記xij=(xij1,…,xijn)∈Rn為第j天第i個節(jié)點流量,其中xijk是xij的第k個流量指標值,i=1,2,…,m,j=1,2,…,l,k=1,2,…,n。

        2.1 綜合指標構(gòu)建

        為考慮多個特征指標對基線值的綜合作用,同時為區(qū)分每個特征的貢獻率,本文利用由多個指標構(gòu)成的綜合指標做基線值預測。具體地,將采取主成分分析技術(shù)。

        則主成分分析優(yōu)化問題如下:

        s.t.vTv=1,v∈Rn,

        (1)

        此時,矩陣X變換成一個列向量,綜合指標也得以構(gòu)造。值得注意的是,此時v*是二維向量,其分量分別為兩個特征指標的在綜合指標中的權(quán)重。

        2. 2 動態(tài)基線回歸

        為實現(xiàn)基線值的預測,下面對綜合指標構(gòu)造回歸模型。對固定的i,i=1,2,…,m,考慮數(shù)據(jù)集{(1,xi1),…,(l,xil)}。根據(jù)綜合指標的特點,可選擇線性或非線性LS-SVR。記A=(1,2,…,l)T,Yi=(xi1,xi2,…,xil)T,e=(1,1,…,1)T∈Rl。對線性回歸,設所求解的回歸方程為f(z)=wz+b,其中w,b∈R為欲求系數(shù),z為變量。則該線性回歸問題可由以下最小二乘支持向量回歸機(LS-SVR)實現(xiàn):

        s.t.(Aw+eb)-Y=ζ,

        (2)

        其中C>0是一個調(diào)節(jié)參數(shù)。

        由于模型(2)采用線性等式約束,且考慮平方損失函數(shù),因此求解速度較快。事實上,優(yōu)化問題(2)可通過其對偶問題求解,且本質(zhì)上只相當于求解一個線性方程組。具體地,設α∈Rl為問題(2)的對偶變量,則求解a和b需求解以下線性方程組

        (3)

        由(2)求解得到a和b后,可得預測函數(shù)為

        (4)

        其中zi為A的第i行(第i個樣本點),z為未知預測的樣本點。

        為預測新的一天,即第l+1天的動態(tài)基線值,將z=l+1代入到(4)中,得到的f(z)值記為yi,則yi即為由前l(fā)天歷史數(shù)據(jù)得到的新的一天第i個節(jié)點處的基線值。具體實現(xiàn)中,可采用以下兩種方法。

        (一)全天節(jié)點同時預測:由l天全天數(shù)據(jù)預測l+1天的數(shù)據(jù)。這時,默認一天內(nèi)各節(jié)點間沒有直接關系,因此可以實現(xiàn)批量預測。

        (二)單個節(jié)點逐個預測:前l(fā)天前n小時的數(shù)據(jù)預測第l+1天前n小時的數(shù)據(jù)。l=1時,對于確定的n,可以實現(xiàn)第2天前n個小時的預測。這時,對于第2天第n個小時后的第1個節(jié)點預測,可用第2天前n個小時的數(shù)據(jù)作為歷史數(shù)據(jù)。由于一天之內(nèi)各節(jié)點的數(shù)據(jù)值顯然呈非線性,因此這時需采用非線性回歸。此時,當時間節(jié)點跨越一天時,可不受不同天的限制,但n值需事先取定。相對于方法一,該方法計算量相對較大。

        方法二與方法一相比其所應用技術(shù)相同,而處理的具體數(shù)據(jù)不同。因此,下面本文只考慮方法一。

        2. 3 異常流量預警

        pi=|xi,l+1-yi|.

        理論上,pi的值越小,則實際數(shù)據(jù)xi,l+1與該節(jié)點基線值yi越接近。此時,可根據(jù)具體數(shù)據(jù)特點,確定閾值0≤δ1<δ2<δ3。當pi≤δ1時,斷定流量正常;當δ1δ3時,為嚴重警告。

        為了合理確定閾值警告界線,我們采取添加噪聲法。具體地,其步驟如下:

        (a) 在原始數(shù)據(jù)中添加強度為0的白噪聲數(shù)據(jù),并認為此時的p值的峰值為該模型這次添加白噪聲之后的輕微警告界限。由于一次實驗,存在極大的偶然性,因此將這一過程重復N次,最終取N次p值的峰值的均值(記為δ1)為該模型的輕微警告閾值。實際中,可以根據(jù)數(shù)據(jù)量的大小、數(shù)據(jù)處理速度的要求等確定N值。

        (b) 添加強度為1的白噪聲數(shù)據(jù),重復過程(a),可得該模型的中度警告界限(δ2)。

        (c) 添加強度為2的白噪聲數(shù)據(jù),重復過程(a),可得該模型的嚴重警告界限(δ3)。

        (d) 通過上述三步,可以得到某一模型的警告閾值。對于多組模型,可取所有警告閾值的平均值。

        3.數(shù)值實驗

        為驗證本文所提模型的有效性,本節(jié)將其應用于實際數(shù)據(jù)中,并與文獻[3]所提動態(tài)基線模型比較。

        a) 數(shù)據(jù)預處理

        本次實驗以個人網(wǎng)銀業(yè)務為對象,對其業(yè)務流量數(shù)據(jù)進行采集和處理。首先對原始數(shù)據(jù)進行預處理。為使基線值預測更準確,這里將工作日的數(shù)據(jù)與周末數(shù)據(jù)區(qū)分開。對于缺失數(shù)據(jù),由于可以認為數(shù)據(jù)在同一節(jié)點上的數(shù)值分布基本一致,因此從橫向角度,將某一天固定節(jié)點處的缺失值用前若干天相鄰節(jié)點值均值進行填充。若前若干天數(shù)據(jù)有缺失,則對該天數(shù)據(jù)發(fā)掘縱向分布規(guī)律,根據(jù)分布填補缺失值。

        根據(jù)數(shù)據(jù)特點,我們對原始數(shù)據(jù)選取兩個代表性特征,即交易量和平均響應時間。其次,考慮到這兩個特征的量綱級別差異較大,因此進行最大最小標準化,將特征歸一到[0,1]區(qū)間。對于ml個數(shù)據(jù)樣本集,第i個樣本點zi標準化后的點記為ri,則

        這里,zmax和zmin分別是該特征數(shù)據(jù)的最大值和最小值。類似地,可以對每個指標(共n個)分別進行同樣的標準化。本文中,不妨記標準化的數(shù)據(jù)仍為T={xij}。

        b) 參數(shù)選取

        在實際中,本文所提算法中LS-SVR模型若固定參數(shù)值會降低模型性能。因此,最優(yōu)訓練天數(shù)及模型中參數(shù)需進行選取最優(yōu)值。由于采取全天節(jié)點同時預測,而又可以認為同一節(jié)點數(shù)據(jù)分布基本一致,因此這里只考慮線性回歸,從而模型只需考慮優(yōu)參數(shù)C及最優(yōu)訓練天數(shù)。

        對于訓練天數(shù)的選取,當天數(shù)過少時,將導致預測結(jié)果很不穩(wěn)定;當天數(shù)過多時,由于數(shù)據(jù)流量具有時效性,因此較早數(shù)據(jù)已不具參考價值,從而將影響預測結(jié)果。綜合以上分析及數(shù)值實驗,以絕對誤差為檢驗標準,我們選取7天為實際訓練天數(shù)。

        當選擇模型(2)的參數(shù)C時我們采取網(wǎng)格搜索法。首先,根據(jù)經(jīng)驗,確定兩參數(shù)的范圍為{2-8,2-7,…,27,28}。在此范圍內(nèi),對懲罰參數(shù)尋優(yōu)。

        c) 動態(tài)基線值預測

        文獻[3]中利用線性加權(quán)技術(shù),使得新一天基線值由先前基線值及若干天真實值的加權(quán)而得到。文章中指出,基于加權(quán)方法的動態(tài)基線效果優(yōu)于固定基線。因此,下面將本文所提基于LS-SVR的動態(tài)基線預測與該加權(quán)基線預測方法進行比較。

        圖1(a)、(b)分別給出了兩個不同時間段各節(jié)點處的真實值,以及基于加權(quán)方法和基于LS-SVR方法所得到的動態(tài)基線值。圖中紅色虛線代表真實值,藍色實線代表兩種方法預測所得的基線值,且(a)、(b)圖中左側(cè)子圖均為文獻[3]中基于加權(quán)方法預測的基線值,右側(cè)子圖為基于加權(quán)方法預測的動態(tài)基線值。從圖中可以看出,無論哪個時間段,基于加權(quán)方法所得基線值均與真實值相差較大,而本文所提算法則更接近真實值,同時更符合真實數(shù)據(jù)的曲線趨勢。實驗結(jié)果表明了本文所提算法的有效性。

        圖1 不同時間段節(jié)點處真實值及基于加權(quán)方法、基于LS-SVR方法的動態(tài)基線值

        d) 預警閾值確定

        本節(jié)首先采用絕對對誤差p為確定閾值的指標:p=|xi,l+1-yi|,其中xi,l+1為預測天的真實值,yi為得到的擬合基線值。

        在數(shù)據(jù)處理過程中提取判斷指標的數(shù)據(jù),可以得到各天的判斷指標誤差分布。由于假設已知數(shù)據(jù)皆為真實且無異常的數(shù)據(jù),因此可以根據(jù)誤差分布圖對閾值進行確定。我們將判斷指標數(shù)值歸一到0~1的范圍內(nèi),如圖2所示。

        因為在沒有噪聲的情況下假設所有數(shù)據(jù)均正常,因此不應有警報,此時警告程度應為0。在加入白噪聲且強度為最低的情況下,應有警報產(chǎn)生,由此符合警報的敏感性。由于噪聲強度為最低,所以不應該有非常大的差異。此外,當添加強度為1的噪聲時,警報應該比添加低強度噪聲時更敏感,且應有較大差異。

        圖2 某日判斷指標歸一化后的分布

        基于以上思想,分別加入白噪聲強度為0和強度為1的白噪聲,并如上處理方式,可得此時的判斷指標如圖2所示:

        圖3 加入白噪聲數(shù)據(jù)判斷指標圖

        結(jié)合圖2及圖3的數(shù)據(jù)指標分布可以確定:閾值的判斷指標為小于0.26為正常;大于等于0.26且小于0.36為輕微警告;大于等于0.36且小于0.56為中級警告;大于等于0.56為嚴重警告,具體如表1所示。

        表1 基于相對誤差的警告閾值確定表

        4.結(jié)論

        本文提出一種基于機器學習的新的動態(tài)基線方法。通過結(jié)合無監(jiān)督降維技術(shù)及基于最小二乘支持向量機的回歸技術(shù),本文構(gòu)造了新的確定動態(tài)基線的方法。該方法能實現(xiàn)對每天各個結(jié)點的實時預測,并確定實時基線。實驗表明,該方法較基于加權(quán)方法的動態(tài)基線有很大優(yōu)勢。

        [1] Jolliffe I. Principal component analysis[M]. John Wiley & Sons,Ltd,2002.

        [2] Van Gestel T,De Brabanter J,De Moor B,et al. Least squares support vector machines[M]. Singapore: World Scientific,2002.

        [3] 郭煒. 基于動態(tài)基線的業(yè)務運營支撐網(wǎng)異常流量檢測研究[C]. 中國通信學會學術(shù)年會,2011.

        猜你喜歡
        警告基線閾值
        實驗室警告
        適用于MAUV的變基線定位系統(tǒng)
        航天技術(shù)與甚長基線陣的結(jié)合探索
        科學(2020年5期)2020-11-26 08:19:14
        小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應用
        “毀容”警告:你的“牙齦線”正在后移
        基于自適應閾值和連通域的隧道裂縫提取
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        一種改進的干涉儀測向基線設計方法
        室內(nèi)表面平均氡析出率閾值探討
        銳志車ABS、VSC、防滑警告燈點亮
        国产一品二品三品精品久久| 精彩视频在线观看一区二区三区| 国产av久久在线观看| 亚洲国产成人精品无码区在线秒播| 一本之道高清无码视频| 亚洲AV无码久久精品国产老人| 亚洲国产精品色婷婷久久| 久久午夜一区二区三区| 日韩亚洲中文有码视频| 久久精品国产亚洲av果冻传媒| 无码国产精品一区二区高潮 | 无码国产精品第100页| 手机免费在线观看日韩av| 精品无人区无码乱码毛片国产 | 亚洲中文字幕在线观看| 欧美在线不卡视频 | 国产av无毛无遮挡网站| 一本精品99久久精品77| 精品国产黑色丝袜高跟鞋| 国产一级做a爱视频在线| 日韩人妻精品视频一区二区三区| 少妇人妻精品一区二区三区| 国产在线精品一区二区在线看| 97色噜噜| 蜜桃av一区二区三区久久| 国产日产欧产精品精品蜜芽| 欧美性猛交内射兽交老熟妇| 日本韩国三级aⅴ在线观看| 黄色精品一区二区三区| 久久久久久久波多野结衣高潮| 欧美极品第一页| 亚洲中文字幕乱码免费看| 日本污ww视频网站| 无遮挡边吃摸边吃奶边做| 2022AV一区在线| 亚洲高清中文字幕视频| 中国农村熟妇性视频| 日韩最新在线不卡av| 亚洲成a人一区二区三区久久| 吃奶呻吟打开双腿做受视频| 欧美日韩另类视频|