亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于量子C均值聚類(lèi)分析的數(shù)據(jù)異常檢測(cè)方法

2018-03-31 12:22:42李萍

電腦知識(shí)與技術(shù) 2018年6期

李萍

摘要：數(shù)據(jù)庫(kù)海量數(shù)據(jù)集需要數(shù)據(jù)異常檢測(cè)方法具有高效的數(shù)據(jù)挖掘能力，基于聚類(lèi)的異常數(shù)據(jù)檢測(cè)中聚類(lèi)算法對(duì)初始聚類(lèi)中心較為敏感，算法穩(wěn)定性差.針對(duì)以上問(wèn)題，提出了基于量子c均值聚類(lèi)分析的異常數(shù)據(jù)檢測(cè)方法。算法引入量子機(jī)制的高效并行計(jì)算能力，將其與C-means聚類(lèi)算法相結(jié)合應(yīng)用于數(shù)據(jù)點(diǎn)異常檢測(cè)中，不僅克服了聚類(lèi)算法對(duì)初始聚類(lèi)中心敏感的問(wèn)題，還具有量子模式的高效運(yùn)算能力；仿真實(shí)驗(yàn)表明，算法在檢測(cè)異常數(shù)據(jù)的準(zhǔn)確性和效率上均優(yōu)于傳統(tǒng)基于聚類(lèi)的異常檢測(cè)算法。

關(guān)鍵詞：量子；C均值；聚類(lèi)分析；數(shù)據(jù)異常檢測(cè)

中圖分類(lèi)號(hào)：TP18；TP301.6 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2018）06-0198-02

大數(shù)據(jù)和云計(jì)算技術(shù)尤其是云存儲(chǔ)發(fā)展，使得數(shù)據(jù)庫(kù)中的信息量成指數(shù)的增長(zhǎng)，數(shù)據(jù)庫(kù)的重要性和價(jià)值也日益體現(xiàn)。數(shù)據(jù)庫(kù)海量數(shù)據(jù)中只有部分?jǐn)?shù)據(jù)有意義和價(jià)值，甚至?xí)嬖跇O少數(shù)的異常數(shù)據(jù)，這些異常數(shù)據(jù)可能對(duì)所屬數(shù)據(jù)集的價(jià)值造成不可預(yù)估的危害，因此，異常數(shù)據(jù)的挖掘成了數(shù)據(jù)庫(kù)及數(shù)據(jù)挖掘領(lǐng)域的具有重要意義的研究方向，受到了大量的學(xué)者和研究人員的廣泛關(guān)注。

異常數(shù)據(jù)挖掘發(fā)展至今，出現(xiàn)了許多經(jīng)典方法。Breunig在文獻(xiàn)提出一種基于密度對(duì)異常點(diǎn)進(jìn)行檢測(cè)的LOF（LocalOut-her Factor）算法。算法賦予每一個(gè)數(shù)據(jù)點(diǎn)一個(gè)離群因子，用來(lái)衡量數(shù)據(jù)的偏離水平進(jìn)而表征一個(gè)數(shù)據(jù)對(duì)象偏離度的數(shù)值，缺點(diǎn)是對(duì)序列數(shù)據(jù)和低密度數(shù)據(jù)對(duì)象不能很好的度量。在鄧玉潔等人提出一種基于聚類(lèi)分析的異常點(diǎn)檢測(cè)方法中，存在對(duì)初值敏感并易陷入局部最優(yōu)的缺點(diǎn)。針對(duì)以上問(wèn)題，本文結(jié)合數(shù)據(jù)庫(kù)數(shù)據(jù)規(guī)模大、要求異常數(shù)據(jù)挖掘高效的特點(diǎn)，在基于聚類(lèi)的數(shù)據(jù)異常檢測(cè)的基礎(chǔ)上，結(jié)合量子機(jī)制改進(jìn)聚類(lèi)算法的聚類(lèi)性能，提出了基于量子K均值聚類(lèi)分析的數(shù)據(jù)異常發(fā)現(xiàn)方法。仿真實(shí)驗(yàn)表明，算法在異常數(shù)據(jù)挖掘的準(zhǔn)確性和效率上均優(yōu)于傳統(tǒng)的聚類(lèi)異常數(shù)據(jù)檢測(cè)算法。

1聚類(lèi)數(shù)據(jù)庫(kù)異常檢測(cè)原理

基于聚類(lèi)分析的異常數(shù)據(jù)檢測(cè)中，要求相同特征的數(shù)據(jù)對(duì)象聚集在一起形成數(shù)據(jù)簇，簇與簇之間盡量不相似。聚類(lèi)的目的是尋找具有相同特征、緊密相關(guān)的數(shù)據(jù)，而異常數(shù)據(jù)檢測(cè)則要找到與大多數(shù)據(jù)對(duì)象偏離的數(shù)據(jù)，因此將基于聚類(lèi)的異常數(shù)據(jù)檢測(cè)方法定義為：通過(guò)聚類(lèi)將數(shù)據(jù)對(duì)象按特征值分成很多簇，然后將那些偏離任何一個(gè)簇的數(shù)據(jù)對(duì)象定義為異常點(diǎn)。

基于聚類(lèi)的異常數(shù)據(jù)檢測(cè)的主要思想在于偏離其他簇的小規(guī)模簇的異常點(diǎn)的定義。因此，必須要明確定義異常點(diǎn)簇與其他簇的遠(yuǎn)離程度以及小規(guī)模簇的具體規(guī)模。在這個(gè)過(guò)程中，首先確定一個(gè)最小距離，然后嚴(yán)格按照這個(gè)距離對(duì)數(shù)據(jù)對(duì)象進(jìn)行聚類(lèi)，如果當(dāng)前聚類(lèi)中存在大于該距離的數(shù)據(jù)，那偏離數(shù)據(jù)簇，即是異常點(diǎn)。其次，再根據(jù)聚類(lèi)結(jié)果構(gòu)造出最小掃描樹(shù)，作為森林的一員。當(dāng)聚類(lèi)規(guī)模較少時(shí)，生成樹(shù)的節(jié)點(diǎn)也比較少，這部分樹(shù)就稱(chēng)為異常點(diǎn)。

2量子C均值聚類(lèi)數(shù)據(jù)異常檢測(cè)方法

算法基本思想：對(duì)大型數(shù)據(jù)集進(jìn)行聚類(lèi)，C均值算法能夠進(jìn)行高效分類(lèi)，性能明顯優(yōu)于層次聚類(lèi)算法，但是C均值算法具有聚類(lèi)算法的通病，即對(duì)初始聚類(lèi)中心敏感，而且易陷入局部最優(yōu)，算法不穩(wěn)健。而量子計(jì)算用于高效并行計(jì)算能力，量子計(jì)算模式在計(jì)算速度上大大超越了圖靈機(jī)模型，適合于海量數(shù)據(jù)的處理。因此，結(jié)合量子計(jì)算的高性能和c均值聚類(lèi)的優(yōu)點(diǎn)，提出量子C均值聚類(lèi)算法，并將其應(yīng)用與異常數(shù)據(jù)的檢測(cè)。

C-means聚類(lèi)算法對(duì)初始聚類(lèi)中心非常敏感，結(jié)合David提出的量子聚類(lèi)算法中量子機(jī)制對(duì)初始數(shù)據(jù)不敏感的特性，將其引入到C-means聚類(lèi)算法中，形成量子C-means聚類(lèi)算法（CQC），并將該算法運(yùn)用到海量數(shù)據(jù)下的異常數(shù)據(jù)挖掘中，基于量子機(jī)制的C均值聚類(lèi)算法描述如下。在傳統(tǒng)聚算法中，與聚類(lèi)中心屬于一簇的數(shù)據(jù)樣本是采用歐式距離來(lái)度量的，為了統(tǒng)一樣本各維的單位，消除量綱的影響，采用馬氏距離（馬氏距離消除了量綱的影響）來(lái)度分類(lèi)。馬氏距離定義如下其中S為數(shù)據(jù)樣本的協(xié)方差矩陣。CQC算法描述如下：

上述量子C均值聚類(lèi)算法中需要調(diào)節(jié)的參數(shù)有兩個(gè)σ和ε，其中σ是一個(gè)需要多次實(shí)驗(yàn)選取的經(jīng)驗(yàn)值，滿(mǎn)足ε∈[0，2]，ε是一個(gè)精度調(diào)節(jié)參數(shù)。

在得到數(shù)據(jù)的聚類(lèi)結(jié)果后，根據(jù)基于聚類(lèi)的異常數(shù)據(jù)檢測(cè)的主要思想，與實(shí)現(xiàn)定義的異常點(diǎn)簇與其他簇的遠(yuǎn)離程度以及小規(guī)模簇的具體規(guī)模進(jìn)行比較分析，挖掘、檢測(cè)出數(shù)據(jù)異常點(diǎn)。

3實(shí)驗(yàn)分析

采用傳統(tǒng)聚類(lèi)挖掘算法和CQC算法對(duì)相同的數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)點(diǎn)挖掘?qū)嶒?yàn)，實(shí)驗(yàn)結(jié)果如表2所述。表中實(shí)驗(yàn)a數(shù)據(jù)來(lái)源于Ecoli數(shù)據(jù)集，包含8個(gè)異常數(shù)據(jù)。實(shí)驗(yàn)b數(shù)據(jù)來(lái)源wine數(shù)據(jù)集包含6個(gè)異常數(shù)據(jù)。

從表2檢測(cè)結(jié)果可以看出，與傳統(tǒng)聚類(lèi)算法檢測(cè)異常數(shù)據(jù)相比，CQC算法對(duì)異常數(shù)據(jù)的檢測(cè)準(zhǔn)確率較高，且挖掘速度較快。

為了研究CQC算法針對(duì)不同規(guī)模數(shù)據(jù)集時(shí)的異常數(shù)據(jù)的檢測(cè)性能，將傳統(tǒng)聚類(lèi)算法與CQC檢測(cè)算法對(duì)實(shí)驗(yàn)1中包含10000到90000條規(guī)模數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，各算法的執(zhí)行時(shí)間對(duì)比如下：

從執(zhí)行結(jié)果可以發(fā)現(xiàn)，數(shù)據(jù)量較低（少于30000）時(shí)，兩種算法的執(zhí)行時(shí)間均不超過(guò)2MS，但是隨著數(shù)據(jù)規(guī)模的增長(zhǎng)（數(shù)據(jù)量達(dá)到90000條時(shí)），CQC算法執(zhí)行效率明顯優(yōu)于傳統(tǒng)聚類(lèi)算法。

上述實(shí)驗(yàn)數(shù)據(jù)均表明：基于C均值聚類(lèi)分析的數(shù)據(jù)異常檢測(cè)算法挖掘準(zhǔn)確度高，效率性高。

4結(jié)論

本文采用量子機(jī)制與C-means聚類(lèi)算法融合形成量子C均值聚類(lèi)算法，并其代替C均值算法用于異常數(shù)據(jù)點(diǎn)的檢測(cè)。該算法利用量子計(jì)算的高效并行計(jì)算能力以及對(duì)數(shù)據(jù)初始聚類(lèi)中心不敏感的特征，解決了C-means聚類(lèi)算法聚類(lèi)時(shí)對(duì)初始數(shù)據(jù)中心敏感、穩(wěn)定性差等問(wèn)題。仿真結(jié)果表明，該算法較基于傳統(tǒng)聚類(lèi)算法的異常數(shù)據(jù)檢測(cè)方法在異常數(shù)據(jù)點(diǎn)挖掘準(zhǔn)確率和效率上均有一定的優(yōu)勢(shì)。

電腦知識(shí)與技術(shù)2018年6期

電腦知識(shí)與技術(shù)的其它文章: 徐州地區(qū)農(nóng)產(chǎn)品電子商務(wù)建設(shè)研究; 淺談門(mén)診一卡通; 校園一卡通管理和服務(wù)創(chuàng)新實(shí)踐; 網(wǎng)格化城市管理平臺(tái)商業(yè)運(yùn)作初探; “互聯(lián)網(wǎng)+免費(fèi)”視域下貴州中小型白酒企業(yè)的新型商業(yè)模式研究; Apriori算法在電商網(wǎng)站個(gè)性化推薦中的研究與實(shí)現(xiàn)