亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于核密度波動(dòng)的異常檢測算法

        2021-06-23 09:40:32張博文桑國明
        關(guān)鍵詞:密度估計(jì)鄰域波動(dòng)

        張博文,劉 智,桑國明

        大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連116026

        異常檢測的目的是找出那些不同于預(yù)期的數(shù)據(jù)點(diǎn),并嘗試找出與大多數(shù)數(shù)據(jù)表現(xiàn)模式有顯著差異的異常模式。異常檢測應(yīng)用的領(lǐng)域包括:欺詐識(shí)別、故障診斷、異?;驒z測等[1]。

        在實(shí)際檢測任務(wù)中,異常標(biāo)簽的獲取往往需要花費(fèi)極大的成本,異常檢測任務(wù)面對(duì)的待檢測數(shù)據(jù)往往是無標(biāo)簽數(shù)據(jù)。因此設(shè)計(jì)科學(xué)有效的無監(jiān)督異常檢測算法具有重要意義。

        基于密度的方法是一類重要的無監(jiān)督異常檢測算法。它們更注重考慮數(shù)據(jù)分布從緊密到稀疏變化的位置、采用直方圖、k-鄰域等方法完成對(duì)數(shù)據(jù)空間的分割,提高了檢測結(jié)果的可解釋性。Breunig等人提出的LOF算法[2],Papadimitriou提出LOCI算法[3]和Kriegel等人提出的LoOP算法[4]通過考察數(shù)據(jù)點(diǎn)局部密度的稀疏程度判斷該點(diǎn)是否為異常點(diǎn);Tang等人引入鏈?zhǔn)骄嚯x的概念,進(jìn)而提出了COF算法[5];Jin等人提出的INFLO算法[6]在計(jì)算近鄰密度時(shí)考慮了k近鄰和反近鄰。Goldstein等提出的HBOS[7]方法構(gòu)造基于頻率直方圖的概率密度來計(jì)算異常評(píng)分。趙曉永等人[8]提出基于主動(dòng)學(xué)習(xí)的離群點(diǎn)集成挖掘方法,以基于統(tǒng)計(jì)和相似度的方法為基學(xué)習(xí)器。Lin等人[9]成功運(yùn)用三種基于密度的異常檢測算法應(yīng)用于卒中數(shù)據(jù)。

        核密度估計(jì)是一種常用非參數(shù)統(tǒng)計(jì)模型,是從數(shù)據(jù)本身出發(fā),對(duì)數(shù)據(jù)特征和分布進(jìn)行描述。Xu等人[10]運(yùn)用核密度估計(jì)方法獲得對(duì)交通流量數(shù)據(jù)最優(yōu)估計(jì)的概率密度函數(shù),然后建立信念函數(shù)來檢測數(shù)據(jù)中的異常值。Latecki[11]為克服數(shù)據(jù)點(diǎn)間的歐式距離過小導(dǎo)致的密度估計(jì)值較大的情況,運(yùn)用局部密度估計(jì)代替歐氏距離計(jì)算密度估計(jì)值。這些方法的研究與應(yīng)用足以證明核密度估計(jì)方法在異常檢測領(lǐng)域的優(yōu)越性。

        在基于核密度估計(jì)的異常檢測算法中,常常認(rèn)為異常點(diǎn)具有相對(duì)較低的核密度,而這一假設(shè)并不總是正確的。正常點(diǎn)的核密度也可能較低。因此近年來有學(xué)者提出有關(guān)密度波動(dòng)的異常檢測算法,其主要思想是異常點(diǎn)密度變化情況更復(fù)雜,波動(dòng)變化大。Cao等人[12]提出一種基于核鄰域密度變化的異常值檢測算法,該算法運(yùn)用核函數(shù)將數(shù)據(jù)集中的對(duì)象映射到高維空間內(nèi),在單位距離內(nèi)點(diǎn)的個(gè)數(shù)定義數(shù)據(jù)對(duì)象的核鄰域密度。比較一點(diǎn)與其鄰域內(nèi)的數(shù)據(jù)點(diǎn)近鄰核密度的平均密度波動(dòng)情況。Waid等人[13]提出了一種KDOF算法,通過計(jì)算比較數(shù)據(jù)點(diǎn)間的相對(duì)核密度值波動(dòng)來確定數(shù)據(jù)集中的異常點(diǎn)。這些算法采用了一種更通用的特征表達(dá)方式,然而同樣只是專注在局部范圍內(nèi)的檢測,對(duì)全局異常點(diǎn)和集體異常檢測能力較弱。此外近鄰類算法常常敏感于近鄰參數(shù)k的取值。

        針對(duì)上述問題,本文提出一種魯棒的基于核密度波動(dòng)的KDF(Kernel-Density Fluctuation factor)異常檢測算法。充分利用核密度估計(jì)的優(yōu)勢,結(jié)合密度波動(dòng)思想,定義了核密度波動(dòng)因子KDF。在此基礎(chǔ)上進(jìn)一步制定了檢測規(guī)則,在生成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集中均可以提供準(zhǔn)確且穩(wěn)定的異常檢測性能。

        1 KDF異常檢測算法原理

        本文首先運(yùn)用t-SNE算法對(duì)數(shù)據(jù)集進(jìn)行特征提取,降低維數(shù)的同時(shí)保持?jǐn)?shù)據(jù)原有的結(jié)構(gòu)。然后創(chuàng)新性地提出可以綜合考慮鄰域內(nèi)和鄰域外的密度波動(dòng)的核密度波動(dòng)因子KDF,據(jù)此檢測數(shù)據(jù)集中的異常點(diǎn)。

        文中的核密度估計(jì)函數(shù)選取了使用較多的多元高斯核,如公式(1):

        (X1,X2,…,X n)為n個(gè)d維樣本,多元高斯核函數(shù)為:

        對(duì)于任意正整數(shù)k,數(shù)據(jù)點(diǎn)P的k-近鄰距離表示為d k(P)。d k(P)必須同時(shí)滿足以下兩個(gè)條件:

        (1)數(shù)據(jù)集D中至少存在k個(gè)數(shù)據(jù)點(diǎn)Q∈D{P}滿足d(P,Q)≤d k(P)。

        (2)數(shù)據(jù)集D中至多存在k-1個(gè)數(shù)據(jù)點(diǎn)Q∈D{P}滿足d(P,Q)<d k(P)。

        其中{P,Q}∈D,d(P,Q)為數(shù)據(jù)集D中數(shù)據(jù)點(diǎn)P和Q間的直達(dá)距離。這里距離使用Euclidean距離,即有對(duì)于d維空間上的數(shù)據(jù)點(diǎn)P=(p1,p2,…,pd),數(shù)據(jù)點(diǎn)

        數(shù)據(jù)點(diǎn)P的k-近鄰區(qū)域N k(P)={Q|d(P,Q)≤d k(P),Q∈D{P}}。|N k(P)|表示數(shù)據(jù)點(diǎn)P的k-近鄰區(qū)域N k(P)中的元素個(gè)數(shù)。

        定義1絕對(duì)核密度波動(dòng)因子AKDF(Absolute Kernel-Density Fluctuation factor),如公式(2):

        對(duì)于數(shù)據(jù)集合N和數(shù)據(jù)點(diǎn)P的k-近鄰內(nèi)的數(shù)據(jù)點(diǎn)集合N k(P),運(yùn)用集合內(nèi)的點(diǎn)估計(jì)出P點(diǎn)的核密度值ρ(P):

        運(yùn)用k-近鄰以外的數(shù)據(jù)點(diǎn)and,估計(jì)出的P點(diǎn)的核密度值ρ′(P):

        定義的AKDF刻畫了數(shù)據(jù)點(diǎn)的全局特征和集體特征。ρ(P)主要描述了數(shù)據(jù)點(diǎn)P周圍的局部密度特征。核密度估計(jì)過程易受極端值影響,因此在計(jì)算ρ′(P)時(shí),用內(nèi)的點(diǎn)對(duì)其進(jìn)行估算。

        為方便數(shù)據(jù)可視化,本文運(yùn)用二維的生成數(shù)據(jù),分別對(duì)兩個(gè)變量進(jìn)行一維核密度估計(jì)及可視化,其結(jié)果如圖1所示。以數(shù)據(jù)中一異常點(diǎn)的k-近鄰區(qū)域邊界為分界,將數(shù)據(jù)化分為兩部分,分別對(duì)其進(jìn)行核密度估計(jì)。兩部分的核密度估計(jì)曲線如圖2。

        圖1 二維生成數(shù)據(jù)核密度估計(jì)曲線

        圖2 數(shù)據(jù)核密度估計(jì)曲線

        如圖2異常點(diǎn)N k(P)內(nèi)的數(shù)據(jù)點(diǎn)的核密度估計(jì)曲線和中的數(shù)據(jù)點(diǎn)的核密度估計(jì)曲線存在較大差異。因此(ρ(P)-ρ′(P))2越大,P點(diǎn)越可能是異常點(diǎn)。AKDF考慮了數(shù)據(jù)點(diǎn)所在局部區(qū)域與全局的關(guān)系,所以具有較好的區(qū)分能力。同時(shí)這一計(jì)算方法平衡了近鄰參數(shù)k的選擇問題,保證核密度估計(jì)效果的同時(shí)可以識(shí)別局部異常點(diǎn),減少調(diào)優(yōu)空間。

        目前常用異常檢測算法都著重于發(fā)現(xiàn)異常類型中的“點(diǎn)異?!保?dāng)異常點(diǎn)聚集成一個(gè)簇時(shí),這種聚類異常難以被發(fā)現(xiàn)??紤]到已有算法對(duì)集體異常點(diǎn)發(fā)現(xiàn)能力不足的問題,提出的AKDF可以很好地描述集體異常點(diǎn)的特征。若點(diǎn)P及N k(P)內(nèi)的點(diǎn)均為異常點(diǎn),即存在集體異常。此時(shí)ρ(P)較大,ρ′(P)較小,同樣有(ρ(P)-ρ′(P))2較大。

        定義2相對(duì)核密度波動(dòng)因子RKDF(P)(Relative Kernel-Density Fluctuation factor),見公式(5):

        定義的RKDF主要用來度量數(shù)據(jù)點(diǎn)P與其k-近鄰內(nèi)數(shù)據(jù)點(diǎn)的核密度值的差異情況。RKDF(P)越大,P點(diǎn)越可能是異常點(diǎn)。相對(duì)核密度波動(dòng)因子充分考慮了異常點(diǎn)和正常點(diǎn)之間、正常點(diǎn)和正常點(diǎn)之間的關(guān)系。數(shù)據(jù)集內(nèi)常常具有幾個(gè)集群,不同數(shù)據(jù)集群的核密度曲線可能存在差異,所以運(yùn)用數(shù)據(jù)點(diǎn)的k-近鄰內(nèi)的點(diǎn)而不是全部樣本點(diǎn)進(jìn)行核密度估計(jì)。

        定義3核密度波動(dòng)因子KDF(P),如公式(6):

        KDF綜合考慮數(shù)據(jù)點(diǎn)的局部和全局異常特征、點(diǎn)異常特征和集體異常特征,將RKDF和AKDF進(jìn)行線性組合運(yùn)算。λ1和λ2為相應(yīng)權(quán)重,滿足λ1+λ2=1。在實(shí)際應(yīng)用中,可以根據(jù)數(shù)據(jù)特點(diǎn)設(shè)置相應(yīng)的權(quán)值,平衡局部特征、全局特征和集體特征間的關(guān)系,盡可能從多個(gè)角度發(fā)現(xiàn)潛在異常點(diǎn)。計(jì)算所得的KDF值越大,數(shù)據(jù)點(diǎn)為異常點(diǎn)的可能性越大。

        2 KDF算法偽代碼

        算法1 KDF算法

        輸入:待測樣本的數(shù)據(jù)集合D,帶寬h,近鄰參數(shù)k

        輸出:異常因子得分(KDFS),異常點(diǎn)集合O

        1.對(duì)數(shù)據(jù)集D進(jìn)行t-sne降維,D′=t-sne(D)

        2.for each pointPinD′,do

        5.計(jì)算AKDF(P);

        6.end for

        7.for each pointPinD′,do

        8.計(jì)算RKDF(P|ρNk)(ρNk={ρ(Qi|N k(Q i))|Qi?N k(P)});

        9.計(jì)算KDF(P);

        10.end for

        11.for each pointPinD′,do

        13.輸出異常得分KDFS(P)

        14.ifKDFS(P)>1:

        15.點(diǎn)P進(jìn)入異常點(diǎn)集合O;

        16.end if

        17.end for

        18.輸出異常點(diǎn)集合O

        3 算法分析

        3.1 參數(shù)穩(wěn)定性分析

        無監(jiān)督異常檢測算法存在調(diào)優(yōu)困難的問題,因此異常檢測算法的穩(wěn)定性是算法分析中的一個(gè)重要因素。

        3.1.1 近鄰參數(shù)k

        近鄰參數(shù)k是近鄰學(xué)習(xí)的重要參數(shù)。近鄰算法常常敏感于k值的選擇。當(dāng)k取值較小時(shí),近似誤差減小,模型變得復(fù)雜,估計(jì)誤差增大,容易發(fā)生過擬合;選取的k值較大時(shí),模型變得簡單,估計(jì)誤差會(huì)減小,近似誤差會(huì)增大,容易發(fā)生欠擬合。KDF算法同時(shí)考慮了數(shù)據(jù)點(diǎn)鄰域內(nèi)外的核密度值差異,在理論上可以減小算法對(duì)近鄰參數(shù)k的敏感性。

        3.1.2 核密度估計(jì)帶寬h

        核函數(shù)中帶寬參數(shù)h是一個(gè)關(guān)鍵的超參數(shù),用于控制模型的平滑程度。h值越大,則得到的概率密度曲線就越平滑。當(dāng)樣本數(shù)據(jù)已知時(shí),f?h(x)的精度如何取決于核函數(shù)和帶寬h的選擇。f?h(x)依概率收斂于f(x)。多數(shù)情況用核密度估計(jì)偏差和核密度估計(jì)方差來衡量其估計(jì)效果。核密度估計(jì)的偏差(記為和核密度估計(jì)的方差(記為)計(jì)算公式如下:

        由計(jì)算核密度估計(jì)偏差和核密度估計(jì)方差公式可知若h取值過大,則偏差增大,方差降低,導(dǎo)致f?h(x)過于平滑,密度函數(shù)f(x)的某些特征被掩蓋;若h取值過小,則偏差減小,方差增加,導(dǎo)致f?h(x)出現(xiàn)較大波動(dòng),無法選擇相應(yīng)的帶寬h值使偏差和方差同時(shí)減小[14]。

        在KDF算法中,將數(shù)據(jù)點(diǎn)與其鄰域內(nèi)點(diǎn)的KDF進(jìn)行比較計(jì)算,盡可能弱化不同h值對(duì)最終檢測結(jié)果帶來的影響。

        3.2 算法時(shí)間復(fù)雜度分析

        由于涉及對(duì)每個(gè)點(diǎn)k-近鄰區(qū)域的搜索,為提高k-近鄰的搜索效率,可以考慮使用Kd樹的結(jié)構(gòu)存儲(chǔ)訓(xùn)練數(shù)據(jù),以減少計(jì)算距離的次數(shù)。對(duì)于n個(gè)樣本,建立Kd樹后算法的時(shí)間復(fù)雜度達(dá)到O(2nlbn)。

        4 實(shí)驗(yàn)結(jié)果與結(jié)果分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        為驗(yàn)證KDF算法的性能,在生成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。生成數(shù)據(jù)集中正常樣本點(diǎn)服從二維標(biāo)準(zhǔn)正態(tài)分布,異常點(diǎn)數(shù)據(jù)一個(gè)維度服從參數(shù)為(2,0.5)的伽馬分布,另一個(gè)維度為服從參數(shù)為1.5的指數(shù)分布。選取的真實(shí)數(shù)據(jù)集為Wine數(shù)據(jù)集和Banknote數(shù)據(jù)集。Wine數(shù)據(jù)集中,類別3視為異常點(diǎn)類。Banknote數(shù)據(jù)集中,類別1視為異常點(diǎn)類;實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)信息描述如表1所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集信息表

        4.2 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)中的對(duì)比算法包括LOF算法[2]、KNN算法[15]、LOCI算法[3]和KDOF算法[13]。算法中權(quán)重設(shè)置為λ1=λ2=0.5。

        在與其他算法進(jìn)行結(jié)果的比較時(shí),確定KDOF算法和KDF算法中計(jì)算核密度估計(jì)的帶寬h,比較不同近鄰參數(shù)k下不同算法的性能。在對(duì)參數(shù)h的敏感性分析中,固定了近鄰參數(shù)k,考慮帶寬h的變化對(duì)最終實(shí)驗(yàn)結(jié)果的影響。

        4.3 評(píng)價(jià)指標(biāo)

        本文運(yùn)用了兩個(gè)模型性能評(píng)價(jià)指標(biāo)[16],從不同角度評(píng)價(jià)算法的性能。

        4.3.1 基于異常評(píng)分的排序準(zhǔn)確率

        無監(jiān)督異常檢測算法往往對(duì)最為異常的一部分?jǐn)?shù)據(jù)進(jìn)行報(bào)警。對(duì)數(shù)據(jù)點(diǎn)所得的異常評(píng)分KDFS(Kernel-Density Fluctuation factor Score)進(jìn)行降序排序,選擇前5、10、20個(gè)點(diǎn)計(jì)算其檢測準(zhǔn)確率。這一指標(biāo)可以度量算法所得異常評(píng)分的合理性,同時(shí)又減少單純計(jì)算準(zhǔn)確率對(duì)判決閾值的依賴。

        4.3.2 F1值

        在異常檢測任務(wù)中,既要盡可能檢測出全部的異常情況,又要盡可能減少“誤檢”產(chǎn)生的多余成本。因此本文運(yùn)用F1值作為異常檢測算法性能的度量。

        4.4 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)算法中近鄰參數(shù)k=10,KDF算法和KDOF算法中核密度估計(jì)帶寬h=0.5。

        從表2中可以看出,KDF算法在三個(gè)實(shí)驗(yàn)數(shù)據(jù)集均取得了很好的結(jié)果,排序準(zhǔn)確率在大多數(shù)情況下明顯高于其他對(duì)比算法。運(yùn)用定義的KDF來檢測數(shù)據(jù)集中的異常點(diǎn)具有科學(xué)性。

        表2 算法異常得分排序準(zhǔn)確率比較表

        如圖3所示,在三個(gè)實(shí)驗(yàn)數(shù)據(jù)集上,KDF算法的F1值均高于其他對(duì)比算法。實(shí)驗(yàn)結(jié)果說明提出的方法可以更全面準(zhǔn)確地檢測異常點(diǎn)。

        圖3 不同算法的F1值比較

        4.5 參數(shù)的敏感性分析

        4.5.1 近鄰參數(shù)k

        對(duì)算法在不同k值下,在三個(gè)數(shù)據(jù)集中得到的F1值取平均值,與對(duì)比算法結(jié)果進(jìn)行比較。

        由圖4(a)圖中可以看出在k取值較小時(shí),不同取值下的KDF算法F1值均高于其他對(duì)比算法。而且KDF算法選擇不同的近鄰參數(shù)k對(duì)算法檢測結(jié)果影響較小,KDF算法對(duì)于k的選擇表現(xiàn)出了良好的魯棒性。

        4.5.2 帶寬h

        本文通過設(shè)置不同的帶寬h值,對(duì)比KDF算法與KDOF算法在三個(gè)數(shù)據(jù)集上F1的平均值。

        圖4(b)圖中顯示:和KDOF算法相比,KDF算法在數(shù)據(jù)集中計(jì)算得到的F1值未出現(xiàn)明顯波動(dòng)。h值的變動(dòng)并不會(huì)給最終的檢測結(jié)果帶來較大的影響。因此算法可以提供穩(wěn)定的檢測結(jié)果。

        5 結(jié)束語

        圖4 參數(shù)敏感性分析比較圖

        本文提出了一種基于核密度波動(dòng)的異常檢測算法。KDF算法具有很多優(yōu)勢:首先,運(yùn)用核密度波動(dòng)特征代替密度特征識(shí)別異常點(diǎn)。這一特征考慮異常點(diǎn)之間、異常點(diǎn)與正常點(diǎn)之間的特征關(guān)系,可以更好地描述數(shù)據(jù)中的動(dòng)態(tài)特征。其次,定義了核密度波動(dòng)因子概念,充分考慮數(shù)據(jù)點(diǎn)的局部特征和全局特征。經(jīng)過理論分析和實(shí)驗(yàn)結(jié)果分析表明:KDF算法具有更穩(wěn)定和準(zhǔn)確的檢測性能。在無監(jiān)督異常檢測任務(wù)中,有較好的應(yīng)用前景。未來將考慮進(jìn)一步擴(kuò)展KDF算法,使其更適用于高維大規(guī)模數(shù)據(jù)中。

        猜你喜歡
        密度估計(jì)鄰域波動(dòng)
        中國人均可支配收入的空間區(qū)域動(dòng)態(tài)演變與差異分析
        m-NOD樣本最近鄰密度估計(jì)的相合性
        面向魚眼圖像的人群密度估計(jì)
        基于MATLAB 的核密度估計(jì)研究
        科技視界(2021年4期)2021-04-13 06:03:56
        稀疏圖平方圖的染色數(shù)上界
        羊肉價(jià)回穩(wěn) 后期不會(huì)大幅波動(dòng)
        微風(fēng)里優(yōu)美地波動(dòng)
        2019年國內(nèi)外油價(jià)或?qū)⒉▌?dòng)加劇
        基于鄰域競賽的多目標(biāo)優(yōu)化算法
        干濕法SO2排放波動(dòng)對(duì)比及分析
        国产精品乱子伦一区二区三区| 国产猛烈高潮尖叫视频免费| 国产欧美精品aaaaaa片| 男女性爽大片视频| 伊人激情av一区二区三区| 亚洲视频一区| 欧美极品第一页| 国产午夜精品久久久久九九| 中文字幕 在线一区二区| 91色综合久久熟女系列| 国产在线一区二区三区四区| 亚洲综合一区二区三区在线观看| av免费播放网站在线| 亚洲av午夜国产精品无码中文字 | 亚洲av福利天堂一区二区三| 四川老熟妇乱子xx性bbw| 久久这里只精品国产2| av网站韩日在线观看免费| 18禁裸体动漫美女无遮挡网站| 国产99久久精品一区二区| 人妻中出精品久久久一区二| 99久久精品人妻一区二区三区| 人妻激情偷乱视频一区二区三区| 毛片在线播放a| yy111111少妇影院| 男男啪啪激烈高潮无遮挡网站网址| 色欲综合一区二区三区| 熟妇人妻AV中文字幕老熟妇| 99熟妇人妻精品一区五一看片| 男女18视频免费网站| 野外少妇愉情中文字幕| 免费看国产精品久久久久| 美女丝袜诱惑在线播放蜜桃| 国产精品久久久久久福利| chinesefreexxxx国产麻豆| 亚洲av精品一区二区三| 亚洲中文久久精品字幕| 青青草97国产精品免费观看| 91青青草久久| 亚洲无精品一区二区在线观看| 国产又色又爽又刺激在线播放|