亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于量子C均值聚類(lèi)分析的數(shù)據(jù)異常檢測(cè)方法

        2018-03-31 12:22:42李萍
        電腦知識(shí)與技術(shù) 2018年6期

        李萍

        摘要:數(shù)據(jù)庫(kù)海量數(shù)據(jù)集需要數(shù)據(jù)異常檢測(cè)方法具有高效的數(shù)據(jù)挖掘能力,基于聚類(lèi)的異常數(shù)據(jù)檢測(cè)中聚類(lèi)算法對(duì)初始聚類(lèi)中心較為敏感,算法穩(wěn)定性差.針對(duì)以上問(wèn)題,提出了基于量子c均值聚類(lèi)分析的異常數(shù)據(jù)檢測(cè)方法。算法引入量子機(jī)制的高效并行計(jì)算能力,將其與C-means聚類(lèi)算法相結(jié)合應(yīng)用于數(shù)據(jù)點(diǎn)異常檢測(cè)中,不僅克服了聚類(lèi)算法對(duì)初始聚類(lèi)中心敏感的問(wèn)題,還具有量子模式的高效運(yùn)算能力;仿真實(shí)驗(yàn)表明,算法在檢測(cè)異常數(shù)據(jù)的準(zhǔn)確性和效率上均優(yōu)于傳統(tǒng)基于聚類(lèi)的異常檢測(cè)算法。

        關(guān)鍵詞:量子;C均值;聚類(lèi)分析;數(shù)據(jù)異常檢測(cè)

        中圖分類(lèi)號(hào):TP18;TP301.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)06-0198-02

        大數(shù)據(jù)和云計(jì)算技術(shù)尤其是云存儲(chǔ)發(fā)展,使得數(shù)據(jù)庫(kù)中的信息量成指數(shù)的增長(zhǎng),數(shù)據(jù)庫(kù)的重要性和價(jià)值也日益體現(xiàn)。數(shù)據(jù)庫(kù)海量數(shù)據(jù)中只有部分?jǐn)?shù)據(jù)有意義和價(jià)值,甚至?xí)嬖跇O少數(shù)的異常數(shù)據(jù),這些異常數(shù)據(jù)可能對(duì)所屬數(shù)據(jù)集的價(jià)值造成不可預(yù)估的危害,因此,異常數(shù)據(jù)的挖掘成了數(shù)據(jù)庫(kù)及數(shù)據(jù)挖掘領(lǐng)域的具有重要意義的研究方向,受到了大量的學(xué)者和研究人員的廣泛關(guān)注。

        異常數(shù)據(jù)挖掘發(fā)展至今,出現(xiàn)了許多經(jīng)典方法。Breunig在文獻(xiàn)提出一種基于密度對(duì)異常點(diǎn)進(jìn)行檢測(cè)的LOF(LocalOut-her Factor)算法。算法賦予每一個(gè)數(shù)據(jù)點(diǎn)一個(gè)離群因子,用來(lái)衡量數(shù)據(jù)的偏離水平進(jìn)而表征一個(gè)數(shù)據(jù)對(duì)象偏離度的數(shù)值,缺點(diǎn)是對(duì)序列數(shù)據(jù)和低密度數(shù)據(jù)對(duì)象不能很好的度量。在鄧玉潔等人提出一種基于聚類(lèi)分析的異常點(diǎn)檢測(cè)方法中,存在對(duì)初值敏感并易陷入局部最優(yōu)的缺點(diǎn)。針對(duì)以上問(wèn)題,本文結(jié)合數(shù)據(jù)庫(kù)數(shù)據(jù)規(guī)模大、要求異常數(shù)據(jù)挖掘高效的特點(diǎn),在基于聚類(lèi)的數(shù)據(jù)異常檢測(cè)的基礎(chǔ)上,結(jié)合量子機(jī)制改進(jìn)聚類(lèi)算法的聚類(lèi)性能,提出了基于量子K均值聚類(lèi)分析的數(shù)據(jù)異常發(fā)現(xiàn)方法。仿真實(shí)驗(yàn)表明,算法在異常數(shù)據(jù)挖掘的準(zhǔn)確性和效率上均優(yōu)于傳統(tǒng)的聚類(lèi)異常數(shù)據(jù)檢測(cè)算法。

        1聚類(lèi)數(shù)據(jù)庫(kù)異常檢測(cè)原理

        基于聚類(lèi)分析的異常數(shù)據(jù)檢測(cè)中,要求相同特征的數(shù)據(jù)對(duì)象聚集在一起形成數(shù)據(jù)簇,簇與簇之間盡量不相似。聚類(lèi)的目的是尋找具有相同特征、緊密相關(guān)的數(shù)據(jù),而異常數(shù)據(jù)檢測(cè)則要找到與大多數(shù)據(jù)對(duì)象偏離的數(shù)據(jù),因此將基于聚類(lèi)的異常數(shù)據(jù)檢測(cè)方法定義為:通過(guò)聚類(lèi)將數(shù)據(jù)對(duì)象按特征值分成很多簇,然后將那些偏離任何一個(gè)簇的數(shù)據(jù)對(duì)象定義為異常點(diǎn)。

        基于聚類(lèi)的異常數(shù)據(jù)檢測(cè)的主要思想在于偏離其他簇的小規(guī)模簇的異常點(diǎn)的定義。因此,必須要明確定義異常點(diǎn)簇與其他簇的遠(yuǎn)離程度以及小規(guī)模簇的具體規(guī)模。在這個(gè)過(guò)程中,首先確定一個(gè)最小距離,然后嚴(yán)格按照這個(gè)距離對(duì)數(shù)據(jù)對(duì)象進(jìn)行聚類(lèi),如果當(dāng)前聚類(lèi)中存在大于該距離的數(shù)據(jù),那偏離數(shù)據(jù)簇,即是異常點(diǎn)。其次,再根據(jù)聚類(lèi)結(jié)果構(gòu)造出最小掃描樹(shù),作為森林的一員。當(dāng)聚類(lèi)規(guī)模較少時(shí),生成樹(shù)的節(jié)點(diǎn)也比較少,這部分樹(shù)就稱(chēng)為異常點(diǎn)。

        2量子C均值聚類(lèi)數(shù)據(jù)異常檢測(cè)方法

        算法基本思想:對(duì)大型數(shù)據(jù)集進(jìn)行聚類(lèi),C均值算法能夠進(jìn)行高效分類(lèi),性能明顯優(yōu)于層次聚類(lèi)算法,但是C均值算法具有聚類(lèi)算法的通病,即對(duì)初始聚類(lèi)中心敏感,而且易陷入局部最優(yōu),算法不穩(wěn)健。而量子計(jì)算用于高效并行計(jì)算能力,量子計(jì)算模式在計(jì)算速度上大大超越了圖靈機(jī)模型,適合于海量數(shù)據(jù)的處理。因此,結(jié)合量子計(jì)算的高性能和c均值聚類(lèi)的優(yōu)點(diǎn),提出量子C均值聚類(lèi)算法,并將其應(yīng)用與異常數(shù)據(jù)的檢測(cè)。

        C-means聚類(lèi)算法對(duì)初始聚類(lèi)中心非常敏感,結(jié)合David提出的量子聚類(lèi)算法中量子機(jī)制對(duì)初始數(shù)據(jù)不敏感的特性,將其引入到C-means聚類(lèi)算法中,形成量子C-means聚類(lèi)算法(CQC),并將該算法運(yùn)用到海量數(shù)據(jù)下的異常數(shù)據(jù)挖掘中,基于量子機(jī)制的C均值聚類(lèi)算法描述如下。在傳統(tǒng)聚算法中,與聚類(lèi)中心屬于一簇的數(shù)據(jù)樣本是采用歐式距離來(lái)度量的,為了統(tǒng)一樣本各維的單位,消除量綱的影響,采用馬氏距離(馬氏距離消除了量綱的影響)來(lái)度分類(lèi)。馬氏距離定義如下其中S為數(shù)據(jù)樣本的協(xié)方差矩陣。CQC算法描述如下:

        上述量子C均值聚類(lèi)算法中需要調(diào)節(jié)的參數(shù)有兩個(gè)σ和ε,其中σ是一個(gè)需要多次實(shí)驗(yàn)選取的經(jīng)驗(yàn)值,滿(mǎn)足ε∈[0,2],ε是一個(gè)精度調(diào)節(jié)參數(shù)。

        在得到數(shù)據(jù)的聚類(lèi)結(jié)果后,根據(jù)基于聚類(lèi)的異常數(shù)據(jù)檢測(cè)的主要思想,與實(shí)現(xiàn)定義的異常點(diǎn)簇與其他簇的遠(yuǎn)離程度以及小規(guī)模簇的具體規(guī)模進(jìn)行比較分析,挖掘、檢測(cè)出數(shù)據(jù)異常點(diǎn)。

        3實(shí)驗(yàn)分析

        采用傳統(tǒng)聚類(lèi)挖掘算法和CQC算法對(duì)相同的數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)點(diǎn)挖掘?qū)嶒?yàn),實(shí)驗(yàn)結(jié)果如表2所述。表中實(shí)驗(yàn)a數(shù)據(jù)來(lái)源于Ecoli數(shù)據(jù)集,包含8個(gè)異常數(shù)據(jù)。實(shí)驗(yàn)b數(shù)據(jù)來(lái)源wine數(shù)據(jù)集包含6個(gè)異常數(shù)據(jù)。

        從表2檢測(cè)結(jié)果可以看出,與傳統(tǒng)聚類(lèi)算法檢測(cè)異常數(shù)據(jù)相比,CQC算法對(duì)異常數(shù)據(jù)的檢測(cè)準(zhǔn)確率較高,且挖掘速度較快。

        為了研究CQC算法針對(duì)不同規(guī)模數(shù)據(jù)集時(shí)的異常數(shù)據(jù)的檢測(cè)性能,將傳統(tǒng)聚類(lèi)算法與CQC檢測(cè)算法對(duì)實(shí)驗(yàn)1中包含10000到90000條規(guī)模數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),各算法的執(zhí)行時(shí)間對(duì)比如下:

        從執(zhí)行結(jié)果可以發(fā)現(xiàn),數(shù)據(jù)量較低(少于30000)時(shí),兩種算法的執(zhí)行時(shí)間均不超過(guò)2MS,但是隨著數(shù)據(jù)規(guī)模的增長(zhǎng)(數(shù)據(jù)量達(dá)到90000條時(shí)),CQC算法執(zhí)行效率明顯優(yōu)于傳統(tǒng)聚類(lèi)算法。

        上述實(shí)驗(yàn)數(shù)據(jù)均表明:基于C均值聚類(lèi)分析的數(shù)據(jù)異常檢測(cè)算法挖掘準(zhǔn)確度高,效率性高。

        4結(jié)論

        本文采用量子機(jī)制與C-means聚類(lèi)算法融合形成量子C均值聚類(lèi)算法,并其代替C均值算法用于異常數(shù)據(jù)點(diǎn)的檢測(cè)。該算法利用量子計(jì)算的高效并行計(jì)算能力以及對(duì)數(shù)據(jù)初始聚類(lèi)中心不敏感的特征,解決了C-means聚類(lèi)算法聚類(lèi)時(shí)對(duì)初始數(shù)據(jù)中心敏感、穩(wěn)定性差等問(wèn)題。仿真結(jié)果表明,該算法較基于傳統(tǒng)聚類(lèi)算法的異常數(shù)據(jù)檢測(cè)方法在異常數(shù)據(jù)點(diǎn)挖掘準(zhǔn)確率和效率上均有一定的優(yōu)勢(shì)。

        东京热东京道日韩av| 欧美老熟妇欲乱高清视频| 欧美亚洲综合另类| 女人被躁到高潮嗷嗷叫免费软| 99在线播放视频| 日韩精品精品一区二区三区| 国产精品又湿又黄九九九久久嫩草| 成人麻豆日韩在无码视频| 日韩a无v码在线播放| 精品视频专区| 中文字幕日韩精品人妻久久久| 中国娇小与黑人巨大交| 欧美猛男军警gay自慰| 色窝窝无码一区二区三区2022| 日本视频一区二区这里只有精品| 国产亚洲视频在线播放| 国産精品久久久久久久| 在线观看av手机网址| 亚洲一区二区三区1区2区| 内射白浆一区二区在线观看| 色播久久人人爽人人爽人人片av| 精品91亚洲高清在线观看| 国产日产高清一区二区三区| 国产精品免费看久久久无码| 国产露脸精品产三级国产av| 国产裸体AV久无码无遮挡| 亚洲中文字幕久久精品色老板| 少妇性饥渴无码a区免费| 久久精品无码一区二区乱片子| 91精品国产综合久久久蜜臀九色| 中文字幕无码乱人伦| 伊人久久五月丁香综合中文亚洲| 仙女白丝jk小脚夹得我好爽| 中国亚洲av第一精品| 亚洲国产精品成人综合色| 国产在线手机视频| 日韩人妻av不卡一区二区三区| 91超精品碰国产在线观看| 99香蕉国产精品偷在线观看| 欧美日韩高清一本大道免费| 婷婷丁香开心五月综合|