亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PCA和改進(jìn)SVDD的異常檢測(cè)算法

        2022-09-01 03:24:34賴思銀
        微型電腦應(yīng)用 2022年8期
        關(guān)鍵詞:特征向量特征提取分量

        賴思銀

        (廣東石油化工學(xué)院,廣東,茂名 525000)

        0 引言

        異常檢測(cè)(anomaly detection, AD)是數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要研究方向,其目的是從模式類或數(shù)據(jù)集中自動(dòng)識(shí)別出與預(yù)期不符的異常模式或有別于大部分?jǐn)?shù)據(jù)的異常數(shù)據(jù)。在工業(yè)入侵檢測(cè)、銀行欺詐、故障缺陷檢測(cè)、醫(yī)療系統(tǒng)健康監(jiān)測(cè)等領(lǐng)域中得到了廣泛應(yīng)用[1]。

        目前,常用的異常檢測(cè)方法可以分為基于統(tǒng)計(jì)的方法、基于鄰近度的方法和基于分類的方法3大類。其中,基于統(tǒng)計(jì)的方法認(rèn)為數(shù)據(jù)集服從某種確定的分布(如高斯分布、均勻分布等)或者概率模型,通過(guò)判斷特定數(shù)據(jù)點(diǎn)是否符合該分布或概率模型從而實(shí)現(xiàn)異常數(shù)據(jù)的檢測(cè)。文獻(xiàn)[2]利用直方圖的方式對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,根據(jù)未知數(shù)據(jù)是否分布在直方圖中實(shí)現(xiàn)異常檢測(cè)判斷?;卩徑鹊姆椒ǜ鶕?jù)度量指標(biāo)的差異又可以分為基于距離的異常檢測(cè)方法[3]和基于密度的異常檢測(cè)方法[4]。其中,基于距離的方法以K-最近鄰(K-nearest neighbor, KNN)為代表[5],作為一種無(wú)監(jiān)督方法,該類方法無(wú)需考慮數(shù)據(jù)的分布特性,適用于高維數(shù)據(jù)的異常檢測(cè),但是由于需要計(jì)算任意2個(gè)數(shù)據(jù)點(diǎn)之間的距離,該類方法普遍存在計(jì)算復(fù)雜度高的問(wèn)題。基于密度的異常檢測(cè)方法以局部離群因子(local outlier factor, LOF)算法為代表[6],通過(guò)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的鄰域LOF值判斷其是否為異常點(diǎn),LOF值越大,說(shuō)明其鄰域數(shù)據(jù)密度越低,越可能是異常數(shù)據(jù)點(diǎn)?;诰垲惖姆椒ㄒ訢BSCAN、k-means為代表,其基本思想是將數(shù)據(jù)集根據(jù)相關(guān)程度劃分為不同的簇,距離簇中心較遠(yuǎn)的數(shù)據(jù)點(diǎn)即為異常點(diǎn),該類方法具有原理簡(jiǎn)單、容易實(shí)現(xiàn)的優(yōu)點(diǎn),但是該類方法在使用過(guò)程中需要預(yù)先設(shè)置聚類個(gè)數(shù),在先驗(yàn)信息缺乏的條件下難以獲得較好的檢測(cè)效果[7]?;诜诸惖姆椒ㄒ灾蜗蛄繑?shù)據(jù)描述(support vector data description, SVDD)為代表,只需要帶標(biāo)簽的正常樣本作為訓(xùn)練集即可構(gòu)建閉合曲面實(shí)現(xiàn)異常檢測(cè),但是檢測(cè)結(jié)果依賴于模型參數(shù)的選擇。目前常用的經(jīng)驗(yàn)試錯(cuò)法存在主觀性強(qiáng)、運(yùn)算量大的問(wèn)題。此外,由于數(shù)據(jù)集中通常會(huì)存在冗余特征,這些特征的存在不僅需要消耗大量的運(yùn)算資源,同時(shí)還會(huì)降低檢測(cè)性能[8]。

        在上述研究的基礎(chǔ)上,針對(duì)SVDD異常檢測(cè)方法的特征提取和參數(shù)設(shè)置問(wèn)題,本文將主分量分析(principal component analysis, PCA)與SVDD相結(jié)合,利用PCA對(duì)數(shù)據(jù)進(jìn)行分析,自動(dòng)提取對(duì)檢測(cè)性能影響較大的主分量構(gòu)成特征向量,然后利用SVDD構(gòu)建一類分類器進(jìn)行分類判決,同時(shí)針對(duì)SVDD核參數(shù)和懲罰因子的設(shè)置問(wèn)題,利用粒子群算法(particle swarm optimization, PSO)進(jìn)行全局尋優(yōu),以提升算法性能。

        1 PSO優(yōu)化SVDD分類算法

        1.1 SVDD一類分類器

        實(shí)際工程實(shí)踐中,導(dǎo)致數(shù)據(jù)出現(xiàn)異常的原因復(fù)雜多樣,異常數(shù)據(jù)表現(xiàn)形式千變?nèi)f化,出現(xiàn)時(shí)機(jī)隨機(jī)變化,通常無(wú)法獲取足夠多的異常數(shù)據(jù)樣本用于模型訓(xùn)練。而SVDD作為一種經(jīng)典的一類分類器,在構(gòu)造最優(yōu)分類面時(shí)只需要正常類數(shù)據(jù)樣本,大大降低了數(shù)據(jù)獲取難度。

        (1)

        其中,c和r分別為超球體的球心和半徑,ξi為每個(gè)訓(xùn)練樣本對(duì)應(yīng)的松弛變量,用于降低異常值對(duì)最優(yōu)分類面的影響,C為懲罰因子,影響著訓(xùn)練樣本集對(duì)應(yīng)的決策邊界。

        為了解決真實(shí)數(shù)據(jù)不符合球狀分布的問(wèn)題,SVDD通常采用高斯核函數(shù)將數(shù)據(jù)映射至高維空間中進(jìn)行分析,高斯核函數(shù)的具體形式為

        (2)

        式中,σ為高斯核參數(shù)。為了對(duì)式(1)進(jìn)行求解,可以將式(1)轉(zhuǎn)化為如下的對(duì)偶形式:

        (3)

        (4)

        對(duì)于任意未知測(cè)試樣本x*,SVDD利用最優(yōu)超球體對(duì)其進(jìn)行判決的決策方程為

        (5)

        若計(jì)算得到f(x*)≤0,表明x*處于超球體內(nèi)部為正常數(shù)據(jù),否則x*為異常數(shù)據(jù)。

        1.2 PSO算法

        從上述分析可知,SVDD最優(yōu)超球體的形狀由核參數(shù)σ和懲罰因子C共同決定,要想得到最優(yōu)分類性能,需要對(duì)σ和C聯(lián)合優(yōu)化。粒子群(particle swarm optimization, PSO)算法由于具備算法簡(jiǎn)單,需要調(diào)整的參數(shù)較少,全局搜索和局部搜索能力均衡等優(yōu)點(diǎn)被廣泛應(yīng)用于數(shù)學(xué)優(yōu)化領(lǐng)域[9]。因此,本文將PSO引入SVDD模型,將SVDD的核參數(shù)和懲罰因子作為PSO的粒子進(jìn)行優(yōu)化,以提升SVDD算法性能。

        (6)

        (7)

        其中,t為當(dāng)前迭代次數(shù),T為總迭代次數(shù),wmax和wmin為w取值的最大和最小值。

        2 基于PCA的特征提取

        主分量分析(principal component analysis, PCA)是當(dāng)前數(shù)據(jù)處理領(lǐng)域最具代表性的一種數(shù)據(jù)降維方法。其基本思想是將數(shù)據(jù)中具備相關(guān)性的指標(biāo)重新進(jìn)行線性組合得到數(shù)量較少且互不相關(guān)的綜合性指標(biāo),這些綜合性指標(biāo)被稱為主分量,主分量能夠最大限度地反應(yīng)原始數(shù)據(jù)中的有用信息。

        步驟1 計(jì)算觀測(cè)數(shù)據(jù)的協(xié)方差矩陣R:

        (8)

        其中,E(·)表示求括號(hào)內(nèi)變量的期望運(yùn)算,U為S的均值。

        步驟2 對(duì)步驟1得到的協(xié)方差矩陣進(jìn)行特征值分解,得到特征向量:

        (9)

        其中,λ和u分別為協(xié)方差矩陣的特征值和特征向量,且λ1≥λ2≥…≥σ2=…=σ2,σ2為噪聲方差。

        從式(9)可以看出,對(duì)協(xié)方差矩陣進(jìn)行特征值分解可以得到兩部分:前K個(gè)特征值較大,對(duì)應(yīng)特征向量為主分量,包含了原始數(shù)據(jù)中的絕大部分有用信息;后D-K個(gè)特征值較小,對(duì)應(yīng)的特征向量為次分量,主要包含數(shù)據(jù)中的隨機(jī)噪聲。

        步驟3 將占特征值譜總能量90%的大特征值個(gè)數(shù)作為主分量個(gè)數(shù)K,即:

        (10)

        步驟4 將原始數(shù)據(jù)投影到K個(gè)主分量張成的空間中實(shí)現(xiàn)數(shù)據(jù)降維,即:

        (11)

        3 算法總結(jié)

        圖1給出了本文所提基于PCA聯(lián)合PSO-SVDD的異常檢測(cè)算法流程圖,可以看出算法包含訓(xùn)練和測(cè)試2個(gè)階段。

        圖1 PCA聯(lián)合PSO-SVDD的異常檢測(cè)算法流程圖

        在訓(xùn)練階段,首先利用PCA對(duì)正常數(shù)據(jù)構(gòu)成的訓(xùn)練集進(jìn)行分析,提取前K個(gè)主分量作為特征從而實(shí)現(xiàn)數(shù)據(jù)降維;然后利用特征向量對(duì)第1章節(jié)所提PSO-SVDD算法進(jìn)行訓(xùn)練,并最終獲得最優(yōu)分類面。

        在測(cè)試階段,對(duì)于輸入的測(cè)試數(shù)據(jù),首先同樣采用PCA進(jìn)行分析,提取前K個(gè)主分量作為特征向量;然后利用訓(xùn)練階段獲得的最優(yōu)分類面進(jìn)行分類判決,并輸出最終的判決結(jié)果。

        4 試驗(yàn)及分析

        本文通過(guò)2部分試驗(yàn)對(duì)所提PCA聯(lián)合PSO-SVDD的異常數(shù)據(jù)檢測(cè)性能進(jìn)行驗(yàn)證。

        4.1節(jié)采用4個(gè)UCI標(biāo)準(zhǔn)數(shù)據(jù)集,即Iris、Wisconsin、Biomed和Wine。其中,只有Biomed的類別數(shù)為2類,其他3個(gè)數(shù)據(jù)集的類別數(shù)都多于2類,因此將其人為的劃分為2個(gè)類別。對(duì)于Iris數(shù)據(jù)集,規(guī)定類別標(biāo)號(hào)為Iris-setosa的數(shù)據(jù)為正常樣本,其余為異常數(shù)據(jù);對(duì)于Wisconsin數(shù)據(jù)集,規(guī)定類別標(biāo)號(hào)為malignant的數(shù)據(jù)為正常樣本,其余為異常數(shù)據(jù);對(duì)于Wine數(shù)據(jù)集,規(guī)定類別標(biāo)號(hào)為1的數(shù)據(jù)為正常樣本,其余為異常數(shù)據(jù)。試驗(yàn)中,分別采用本文所提方法、PCA聯(lián)合SVDD方法和PSO-SVDD方法(不進(jìn)行特征提取)3種方法開(kāi)展試驗(yàn),在相同條件下對(duì)試驗(yàn)結(jié)果進(jìn)行對(duì)比。

        4.2節(jié)采用某市電網(wǎng)用戶連續(xù)用電負(fù)荷數(shù)據(jù)集,采樣頻率為1次/H,數(shù)據(jù)集中包含93個(gè)電力用戶,其中30戶為正常用戶,3戶為異常用戶,異常用戶比例為3.2%。試驗(yàn)中,采用所提方法對(duì)該實(shí)測(cè)數(shù)據(jù)集進(jìn)行異常檢測(cè),驗(yàn)證所提方法在實(shí)際場(chǎng)景下的性能。

        4.1 UCI標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        試驗(yàn)中,首先從每類數(shù)據(jù)集中隨機(jī)選取80%的正常數(shù)據(jù)作為訓(xùn)練樣本集。根據(jù)圖1所示流程,利用PCA對(duì)其進(jìn)行特征提取和降維,每類數(shù)據(jù)集得到的主分量個(gè)數(shù)K如表1所示。其中,#POS和#NEG分別為每類數(shù)據(jù)集中的正常數(shù)據(jù)個(gè)數(shù)以及異常數(shù)據(jù)個(gè)數(shù)。

        表1 UCI試驗(yàn)數(shù)據(jù)集

        初始化PSO算法時(shí),設(shè)置初始種群數(shù)量為10,算法最大迭代次數(shù)為100次,粒子位置信息設(shè)置為2,初始的粒子速度設(shè)置為0.1。利用所提方法(PCA+PSO-SVDD),與PCA-SVDD方法和PSO-SVDD方法(不進(jìn)行特征提取)對(duì)表1中的數(shù)據(jù)進(jìn)行試驗(yàn)得到的異常檢測(cè)準(zhǔn)確率結(jié)果如表2所示。

        表2 三種方法的異常檢測(cè)結(jié)果

        從表2可以看出,所提方法在4種UCI數(shù)據(jù)集上得到的異常檢測(cè)性能均優(yōu)于另外2種對(duì)比方法。其中,所提方法相對(duì)于PCA-SVDD的異常檢測(cè)準(zhǔn)確率更高,說(shuō)明經(jīng)PSO優(yōu)化后,SVDD的性能出現(xiàn)了明顯提升;而所提方法相對(duì)于PSO-SVDD的異常檢測(cè)正確率更高,說(shuō)明了特征提取的必要性。上述結(jié)論有力地支撐了本文所述內(nèi)容。

        4.2 所提方法在電力用戶異常數(shù)據(jù)檢測(cè)中的應(yīng)用

        試驗(yàn)中,隨機(jī)從90個(gè)正常用戶中選取80個(gè)用戶數(shù)據(jù)作為訓(xùn)練樣本集,利用PCA算法對(duì)其進(jìn)行特征提取和降維,最終得到的主分量個(gè)數(shù)K=2,將其構(gòu)建特征向量并對(duì)PSO-SVDD分類器進(jìn)行訓(xùn)練得到最優(yōu)分類面,然后根據(jù)圖1所示流程算法進(jìn)入測(cè)試階段。首先對(duì)10個(gè)正常用戶和3個(gè)異常用戶組成的測(cè)試樣本集進(jìn)行PCA分解;然后利用訓(xùn)練階段獲得的SVDD最優(yōu)分類面對(duì)其進(jìn)行分類判決,從而實(shí)現(xiàn)異常檢測(cè)。從圖2給出的最終判決結(jié)果可以看出,測(cè)試數(shù)據(jù)中的3組異常樣本全部落在最優(yōu)分類面之外,測(cè)試樣本中的15組正常樣本全部落在最優(yōu)分類面以內(nèi),表明測(cè)試數(shù)據(jù)集中的所有樣本均被正確判決,驗(yàn)證了所提方法的有效性。

        圖2 異常檢測(cè)結(jié)果

        5 總結(jié)

        作為一種經(jīng)典的異常檢測(cè)算法,SVDD的性能受核參數(shù)和懲罰因子影響較大,并且在面對(duì)高維復(fù)雜數(shù)據(jù)時(shí)存在運(yùn)算量大、實(shí)時(shí)性差的問(wèn)題。本文將PCA與SVDD相結(jié)合,提出一種改進(jìn)的異常數(shù)據(jù)檢測(cè)方法。首先利用PCA對(duì)高維數(shù)據(jù)進(jìn)行特征提取和降維,從而提升SVDD的運(yùn)算效率;然后針對(duì)SVDD模型參數(shù)選擇問(wèn)題,將PSO算法引入對(duì)其優(yōu)化,自動(dòng)確定最優(yōu)模型參數(shù),基于UCI公共數(shù)據(jù)集和實(shí)際電力用戶異常數(shù)據(jù)檢測(cè)問(wèn)題開(kāi)展試驗(yàn),結(jié)果表明所提方法能夠有效實(shí)現(xiàn)異常數(shù)據(jù)檢測(cè),并且相對(duì)于對(duì)比方法具有更高的異常檢測(cè)性能,具有較好的應(yīng)用前景。

        猜你喜歡
        特征向量特征提取分量
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        帽子的分量
        一物千斤
        智族GQ(2019年9期)2019-10-28 08:16:21
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        論《哈姆雷特》中良心的分量
        一類特殊矩陣特征向量的求法
        分量
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        Bagging RCSP腦電特征提取算法
        麻豆影视视频高清在线观看| 精品人妻伦九区久久AAA片69| 久久久亚洲免费视频网| 胸大美女又黄的网站| 亚洲色www成人永久网址| 毛片毛片免费看| 国产偷拍盗摄一区二区| 亚洲第一黄色免费网站| 中文字幕乱码熟妇五十中出| 国产免费一区二区三区在线观看| 亚洲第一区无码专区| 国产视频在线观看一区二区三区| 国产一区二区三区免费av| 国产精品久久久久久久久绿色| 亚洲国产激情一区二区三区| 欧美三级超在线视频| 国产免费一区二区三区三 | 亚洲av无码乱码国产一区二区| 国产精品免费久久久久影院仙踪林| 亚洲欧美在线视频| 久久婷婷综合色一区二区| 无码a级毛片免费视频内谢| 天天干成人网| 日日噜噜夜夜狠狠久久av| 亚洲免费女女在线视频网站| 少妇被粗大的猛烈进出免费视频| 免费一区二区三区在线视频| 日本黑人人妻一区二区水多多| 免费久久99精品国产| 毛片大全真人在线| 粗大挺进尤物人妻一区二区| 人妻人妇av一区二区三区四区| 欧美综合天天夜夜久久| 亚洲熟妇少妇任你躁在线观看| 亚洲免费成年女性毛视频| 日本久久伊人特级黄色| 国产亚洲av综合人人澡精品| 自慰高潮网站在线观看| 高潮内射主播自拍一区| 曰韩人妻无码一区二区三区综合部| 亚洲中文字幕无码久久2018|