亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙倍距離的孤立點(diǎn)檢測算法研究

        2013-10-15 01:20:38張明慧
        制造業(yè)自動化 2013年15期
        關(guān)鍵詞:復(fù)雜度數(shù)據(jù)挖掘對象

        楊 臻,張明慧

        (鄭州師范學(xué)院 信息科學(xué)與技術(shù)學(xué)院,鄭州 450044)

        0 引言

        隨著信息技術(shù)和互聯(lián)網(wǎng)的日益普及,人們在日常工作中積累了大量數(shù)據(jù),如何更有效的利用這些數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)潛在的、更有價值的知識,是人們目前熱熾期待解決的問題。數(shù)據(jù)挖掘技術(shù)為此提供了有力的技術(shù)支持,其中的孤立點(diǎn)檢測技術(shù)更是以挖掘少數(shù)特例的獨(dú)特作用而成為了廣大研究者的興趣焦點(diǎn)。孤立點(diǎn)檢測技術(shù)就是利用一些方法挑選出那些與大部分?jǐn)?shù)據(jù)特征不一致的不同尋常的數(shù)據(jù),從而進(jìn)一步研究這些數(shù)據(jù)意義的一門技術(shù)。在當(dāng)今社會生活中,孤立點(diǎn)檢測技術(shù)有著重要的現(xiàn)實(shí)意義和應(yīng)用價值,被許多行業(yè)比如:冶金、電信、氣象等用來挖掘數(shù)據(jù)背后的深層價值,為決策者決策提供有效的數(shù)據(jù)支撐。

        1 概述現(xiàn)有算法

        不同數(shù)據(jù)領(lǐng)域的孤立點(diǎn)有著不同的定義和相應(yīng)有效的檢測方法,為了檢測出各種假設(shè)情況下存在的孤立點(diǎn),廣大研究者提出了多種方法。早期時候的典型算法有Rastogi和Ramaswamy提出的k-th Nearest Neighbor孤立點(diǎn)檢測方法。Breunig和Kriegel[3]則對孤立點(diǎn)的認(rèn)定提出了局部性這一不同的新穎的看法。Malik Agyemang進(jìn)一步提出了LSC算法。近些年來,國內(nèi)許多研究人員也相繼從不同方面對前者的算法加以改進(jìn)和提高,如文獻(xiàn)[7]中提出了反向K-近鄰的檢測算法;文獻(xiàn)[8]中提出了變異系數(shù)的檢測算法等。

        2 DTKA算法

        本文提出了DTKA算法,具體定義如下:

        定義1 對象p的2k-距離近鄰數(shù)nn2k (p)

        設(shè)數(shù)據(jù)集中的任意一個對象p,則對象p的nn2k (p)值指的是從起點(diǎn)p開始,到2k-距離范圍內(nèi)的所有對象數(shù)。即:

        定義2 對象p的DTKA值DTKA(p)

        設(shè)數(shù)據(jù)集中的任意一個對象p,則對象p的DTKA值就是2k-距離近鄰數(shù)與k-距離近鄰數(shù)的比值。即:

        其中,|nnk(p)|為對象p的k-距離近鄰數(shù)。

        如果DTKA值很小說明對象的鄰域是稀疏的,它的離散度較大,數(shù)據(jù)對象很可能是孤立點(diǎn),相反,如果DTKA值很大說明對象的鄰域是稠密的,它的離散度較小,對象則不可能是孤立點(diǎn)。

        3 算法的流程

        4 實(shí)現(xiàn)算法的主要函數(shù)

        4.1 函數(shù)Getkdistance()

        4.2 函數(shù)Getnn2k()

        4.3 函數(shù)GetDTKA()

        5 實(shí)驗(yàn)與分析

        下面通過運(yùn)行VC++實(shí)現(xiàn)的DTKA算法和LOF算法,在數(shù)據(jù)集上進(jìn)行多個對比實(shí)驗(yàn)來從不同方面檢驗(yàn)算法對孤立點(diǎn)的真實(shí)識別情況。需要實(shí)驗(yàn)的數(shù)據(jù)集由文本文件輸入提供。

        5.1 準(zhǔn)確性對比分析

        準(zhǔn)確性實(shí)驗(yàn)采用的數(shù)據(jù)集是一個已知具有5000個對象的2維數(shù)據(jù)集,其中不僅包含大小不一、形狀各異、密度各不相同的4個類,而且包含任意分布的若干孤立點(diǎn)。參數(shù):k=6。DTKA算法和LOF算法經(jīng)過運(yùn)行以后,獲得的運(yùn)行結(jié)果如圖1、圖2所示,其中DTKA識別的孤立點(diǎn)情況如圖1所示,LOF識別的孤立點(diǎn)情況如圖2所示。

        從圖1和圖2的對比結(jié)果來看,可以充分認(rèn)定DTKA算法對孤立點(diǎn)的識別能力是準(zhǔn)確的,可以正確檢測出需要的孤立點(diǎn)。

        圖1 DTKA實(shí)驗(yàn)結(jié)果圖

        圖2 LOF實(shí)驗(yàn)結(jié)果圖

        5.2 時間復(fù)雜度對比分析

        算法性能高低的一個重要衡量指標(biāo)是時間復(fù)雜度。時間復(fù)雜度的大小是由算法的關(guān)鍵部分來綜合決定的。算法第1個主要的運(yùn)算是在計算每個對象的k-距離過程,因此時間復(fù)雜度為o(kn)。第2個主要的運(yùn)算是在計算每個對象的K-距離近鄰數(shù),因此時間復(fù)雜度是o(n2)。第3個主要的運(yùn)算是在是根據(jù)排過序的DTKA值確定前n個孤立點(diǎn)對象過程,因此時間復(fù)雜度為o(nN),n<<N。總之,經(jīng)過上述分析得出本算法主要時間復(fù)雜度是o(kn2),表明DTKA算法的執(zhí)行時間與k存在一次函數(shù)關(guān)系,與n存在平方關(guān)系,其中k代表每個數(shù)據(jù)對象的最近鄰數(shù),n代表數(shù)據(jù)集中的數(shù)據(jù)對象數(shù)目。

        從以上分析結(jié)果來看,DTKA算法的時間復(fù)雜度不比LOF算法高,可以認(rèn)為是符合要求的,可行的。

        5.3 執(zhí)行時間對比分析

        下面通過測試DTKA算法在隨著數(shù)據(jù)對象數(shù)量增加的情況下的執(zhí)行時間的變化規(guī)律,深入檢驗(yàn)其執(zhí)行效率。該實(shí)驗(yàn)采用的數(shù)據(jù)集是一個具有12000個記錄的集合,數(shù)據(jù)對象增量變化的范圍從2000到12000,每個對象的最近鄰數(shù)為 K=100,則當(dāng)數(shù)據(jù)規(guī)模分別獲取不同值,并且每次加2000個數(shù)據(jù)對象,即N等于2000,4000,…,12000時,算法在隨著數(shù)據(jù)對象數(shù)量增加的情況下執(zhí)行時間的變化情況如圖3所示。

        圖3 不同數(shù)據(jù)規(guī)模的執(zhí)行時間

        從圖3中可以看出: DTKA算法運(yùn)行時所花費(fèi)的時間是受數(shù)據(jù)規(guī)模直接影響的,但是變化是漸進(jìn)增加的,變化趨勢近似拋物線規(guī)律,并且在相同數(shù)據(jù)規(guī)模情況下DTKA算法的運(yùn)行時間少于LOF算法。

        通過以上多方面的深入實(shí)驗(yàn)分析,可以認(rèn)定DTKA算法能夠高效準(zhǔn)確地檢測出數(shù)據(jù)集中的異常數(shù)據(jù)。

        6 結(jié)束語

        本文提出的數(shù)據(jù)挖掘技術(shù)方面的DTKA算法,改進(jìn)了對于孤立點(diǎn)的判定方法,詳細(xì)給出了算法的定義,介紹了算法的主要計算流程,實(shí)現(xiàn)算法的主要函數(shù)。最后進(jìn)行了大量的實(shí)驗(yàn),而且對實(shí)驗(yàn)結(jié)果做了深入系統(tǒng)的分析,并于典型算法LOF對比研究,實(shí)驗(yàn)結(jié)論充分表明DTKA算法能有效進(jìn)行孤立點(diǎn)檢測,并且在執(zhí)行時間上少于LOF,解決了傳統(tǒng)算法檢測的缺陷。該算法的合理性、優(yōu)越性在冶金、天氣預(yù)報等數(shù)據(jù)挖掘技術(shù)研究領(lǐng)域有著廣闊的應(yīng)用前景和實(shí)際的研究價值。

        [1] E.Knorr,R.Ng.A lgorithms for M ining Distance-based Outliers in Large Data Sets[C].Proceedings of the VLDB Conference,1998.392-403.

        [2] MALIK A,EZEIFE CI. LSC-m ine: A lgorithm for M ining Local Outliers[A].Proceedings of the 15th Information Resource Management Association (IRMA) International Conference[C].2004.5-8.

        [3] Breunig M.M.,K riegel H.–P. ,Ng R.T. ,and Sander J.OPTICS -OF:Identifying local outliers[C]1In Proceedings of 3rd European Conference on Principles of Data M ining and Know ledge Discovery ,Prague,1999.

        [4] 薛安榮,鞠時光,何偉華等.局部離群點(diǎn)挖掘算法研究[J].計算機(jī)學(xué)報,2007,30(8):1455-1463.

        [5] 盧啟程,鄒平.數(shù)據(jù)挖掘的研究與應(yīng)用進(jìn)展[J].昆明理工大學(xué)學(xué)報.2002,27(5):62-66.

        [6] 康塔尼克:數(shù)據(jù)挖掘:概念、模型、方法和算法[M].北京:清華大學(xué)出版社,2003.

        [7] 岳峰,聚類的邊界點(diǎn)檢測算法研究,[學(xué)位論文].鄭州大學(xué),2007.

        [8] 薛麗香等.基于變異系數(shù)的邊界點(diǎn)檢測算法[J].模式識別與人工智能.2009.05.

        猜你喜歡
        復(fù)雜度數(shù)據(jù)挖掘對象
        神秘來電
        睿士(2023年2期)2023-03-02 02:01:09
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        攻略對象的心思好難猜
        意林(2018年3期)2018-03-02 15:17:24
        求圖上廣探樹的時間復(fù)雜度
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于熵的快速掃描法的FNEA初始對象的生成方法
        區(qū)間對象族的可鎮(zhèn)定性分析
        某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        国产精品 人妻互换| 18禁国产美女白浆在线| 亚洲AV成人综合五月天在线观看| 久久久久久久尹人综合网亚洲| 久久亚洲成a人片| 亚洲精品综合久久中文字幕| 中文字幕av熟女中文av| 日韩人妻不卡一区二区三区| 麻豆免费观看高清完整视频| 日本道精品一区二区三区| 亚洲综合一区无码精品| 国产精品流白浆喷水| 北岛玲精品一区二区三区| 亚洲一区二区三区精品久久| 日韩一区二区三区久久精品 | 少妇内射兰兰久久| 先锋影音av资源我色资源| 国产目拍亚洲精品一区二区| 亚洲av永久久无久之码精| 亚洲精品中文字幕91| 一本色综合网久久| 永久免费看啪啪网址入口| 国产AV边打电话边出轨| 中文字幕午夜AV福利片| 亚洲一区二区av免费观看| 国产麻豆精品传媒av在线| 国产成人无码综合亚洲日韩| 午夜精品久久99蜜桃| 人妻熟妇乱又伦精品hd| 久久久久人妻一区精品色欧美| 国产在线精品一区二区| 欧美成人久久久| 亚洲最大的av在线观看| 国产精品对白一区二区三区| 狼狼综合久久久久综合网| 欧美激情a∨在线视频播放| 加勒比无码专区中文字幕| 精品蜜桃一区二区三区| 亚洲毛片免费观看视频| 伊人大杳焦在线| 欧美多毛肥胖老妇做爰|