亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于密度的聚類算法實現(xiàn)*

        2013-02-19 01:26:14段明秀唐超琳
        關(guān)鍵詞:吉首鄰域隊列

        段明秀,唐超琳

        (1.吉首大學(xué)信息科學(xué)與工程學(xué)院,湖南吉首 416000;2.吉首大學(xué)信息科學(xué)與工程學(xué)院,湖南吉首 416000)

        一種基于密度的聚類算法實現(xiàn)*

        段明秀1,唐超琳2

        (1.吉首大學(xué)信息科學(xué)與工程學(xué)院,湖南吉首 416000;2.吉首大學(xué)信息科學(xué)與工程學(xué)院,湖南吉首 416000)

        基于密度的聚類算法OPTICS是一種大規(guī)模數(shù)據(jù)庫的聚類算法,它是基于核心對象和可達距離來實現(xiàn)的.對于每一個核心對象將其鄰域內(nèi)的所有對象按到該核心對象的可達距離進行排序,每次都選擇1個到該核心對象具有最小的可達距離的對象進行信息更新.算法實現(xiàn)采用優(yōu)先隊列保存候選對象以加快處理速度,最后用UCI數(shù)據(jù)集對算法進行聚類效果測試,結(jié)果表明OPTICS算法對數(shù)據(jù)集產(chǎn)生一個基于密度的簇排序結(jié)構(gòu).

        數(shù)據(jù)挖掘;聚類算法;OPTICS;聚類;密度

        隨著計算機、網(wǎng)絡(luò)和通訊技術(shù)的快速發(fā)展,大量的數(shù)據(jù)被收集并保存在數(shù)據(jù)庫中,迫切需要一種有效的分析方法從海量的數(shù)據(jù)中收集并提取有用的信息.基于密度的聚類算法OPTICS(Ordering Points to I dentify the Clustering Structure,通過點排序識別聚類結(jié)構(gòu))是一種自動交互式的聚類分析方法,它通過擴展DBSCAN來同時處理一組距離參數(shù),沒有產(chǎn)生顯式的數(shù)據(jù)集聚類,只是用簇次序來代表基于密度的聚類結(jié)構(gòu),該結(jié)構(gòu)包含了從一個寬廣的參數(shù)設(shè)置范圍進行基于密度聚類所需的信息[1].在許多的數(shù)據(jù)挖掘軟件如Weka和ELKI中都實現(xiàn)了該算法,所以研究和實現(xiàn)該算法具有一定的實際意義.

        1 OPTICS算法概述

        OPTICS[1]是DBSCAN算法的擴展.盡管DBSCAN算法能根據(jù)用戶輸入的參數(shù)產(chǎn)生聚類結(jié)果,但是它將產(chǎn)生可接受的聚類結(jié)果的責(zé)任交給用戶,參數(shù)的設(shè)置很難確定,特別是對于現(xiàn)實世界中的高維數(shù)據(jù)集.此外,真實的高維數(shù)據(jù)集常常具有傾斜的分布,全局的密度參數(shù)并不能刻畫其內(nèi)在的聚類結(jié)構(gòu).OPTICS算法就是為了克服這一困難而提出的,它并不顯式地產(chǎn)生數(shù)據(jù)集簇類,只是計算一個基于密度的簇排序,從這個簇排序中可以提取基本的聚類信息.

        基于密度的聚類算法中需要用到的相關(guān)定義(如ε鄰域、密度閥值MinPts、核心對象、直接密度可達、密度可達、密度相連、噪聲等)、OPTICS算法中2個重要的定義(核心距離(core-distance)、可達距離(reachability-distance)),可參見文獻[2-4].

        2 OPTICS算法的基本思想

        假設(shè)對一個給定的數(shù)據(jù)對象集合D[5],作以下操作:

        (i)首先初始化D中每個對象的可達距離和核心距離為未定義狀態(tài),同時標記為未處理狀態(tài).

        (ii)設(shè)有優(yōu)先隊列seed,從D中取出一個對象p,若p是被處理的對象,則取得p的ε鄰域,設(shè)置p為已被處理,將p加入到結(jié)果隊列中.若p是一個核心對象,則更新p的ε鄰域中所有未被處理的對象的可達距離,同時將那些已經(jīng)更新但不在seed中的對象加入到seed中.seed這個優(yōu)先隊列中所保存的對象是按對象的可達距離從小到大排列的.因為每次選擇的候選擴展對象都是到當前核心對象具有最小的可達距離,所以采用優(yōu)先隊列來保存候選對象.

        (iii)對于(ii)中得到的優(yōu)先隊列seed,當這個隊列不為空時取出該隊列的第1個對象q,取得q的ε鄰域,標記q為已被處理,將q加入到結(jié)果隊列中.若q是核心對象,那么更新q的ε鄰域中所有未被處理的對象.若這個需要更新的對象不在seed中,則更新后將這個對象加入到seed中.重復(fù)上述步驟直到seed為空結(jié)束.

        (iv)重復(fù)步驟(ii)和(iii),當D中所有的對象都是被處理的狀態(tài)時算法結(jié)束.

        3 OPTICS算法實驗驗證

        文中的測試數(shù)據(jù)來自UCI中的Iris和Glass,Iris中有150個數(shù)據(jù)對象,每個對象代表一種鳶尾花,150個對象分別來自3類花種.Glass中有214個數(shù)據(jù)對象,每個對象代表一種類型的玻璃,214個對象分別來自7類玻璃.為了方便現(xiàn)實聚類效果,將那些可達距離為未定義的對象的可達距離置為1.8倍的ε.

        測試數(shù)據(jù)Iris聚類效果(ε=0.9,minPts=6,屬性數(shù)5,無噪聲數(shù)據(jù))如圖1所示.

        4 結(jié)語

        OPTICS是一種常見的基于密度的聚類算法.在分析OPTICS算法原理的基礎(chǔ)上,采用C++語言實現(xiàn)該算法.經(jīng)數(shù)據(jù)測試表明,OPTICS算法并沒有產(chǎn)生顯式的數(shù)據(jù)集聚類,它只是產(chǎn)生一個基于密度的簇排序結(jié)構(gòu),從這個結(jié)構(gòu)可以提取出基于密度聚類所需的其他信息.

        [1] MIHAEL ANKERST,MARKUS M BREUNIG,HANS-PETER KRIEGEL,et al.OPTICS:Ordering Points to Identify the Clustering Structure[M].Germany:Institute for Computer Science,University of Munich Oettingenstr,1999:49-60.

        [2] HAN Jia-wei,MICHELINE KAMBER.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007:212-235.

        [3] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003:236-245.

        [4] TAN Pang-ning,MICHAEL STEINBACH VIPIN KUNMAR.數(shù)據(jù)挖掘?qū)д摚跰].北京:人民郵電出版社,2006:226-228.

        [5] 陳燕俐,洪 龍,金達文,等.一種簡單有效的基于密度的聚類分析算法[J].南京郵電學(xué)院學(xué)報,2005,25(4):24-28.

        (責(zé)任編輯 向陽潔)

        Realization of Clustering Algorithm Based on Density

        DUAN Ming-xiu1,TANG Chao-lin2
        (1.College of Mathematics and Statistics,Jishou University,Jishou 416000,Hunan China;2.College of Informtion Science and Engineering,Jishou University,Jishou 416000,Hunan China)

        The OPTICS clustering algorithms is an large database,density-based clustering algorithm.This algorithm is realized based on the core object and reachability-distance.For every core object,all objects in its neighbourhood will be sorted by the reachability-distance from this core object,and the one with the minimum reachability-distance is always chosen to update information.The realization of OPTICS algorithm adopts priority queue to accelerate the speed.The clustering performance is tested by UCI datasets.The results show that the OPTICS algorithm achieves a clustering structure based on density.

        data mining;clustering algorithm;OPTICS;clustering;density

        TP311.1

        A

        10.3969/j.issn.1007-2985.2013.01.007

        1007-2985(2013)01-0026-02

        2012-12-07

        湖南省教育廳科學(xué)研究項目(11C1025);吉首大學(xué)學(xué)生科研項目(11JDX052)

        段明秀(1975-),女,湖南茶陵人,吉首大學(xué)信息科學(xué)與工程學(xué)院講師,碩士,主要從事數(shù)據(jù)挖掘、人工智能研究.

        猜你喜歡
        吉首鄰域隊列
        吉首大學(xué)美術(shù)學(xué)院作品精選
        聲屏世界(2022年15期)2022-11-08 10:58:04
        湘粵專家學(xué)者相聚吉首研討聲樂套曲《四季如歌》
        隊列里的小秘密
        稀疏圖平方圖的染色數(shù)上界
        基于多隊列切換的SDN擁塞控制*
        軟件(2020年3期)2020-04-20 00:58:44
        吉首美術(shù)館
        在隊列里
        基于鄰域競賽的多目標優(yōu)化算法
        豐田加速駛?cè)胱詣玉{駛隊列
        關(guān)于-型鄰域空間
        国产精品一区二区三区卡| 中文无码制服丝袜人妻AV| 久久精品国产亚洲av蜜臀久久| 玖玖色玖玖草玖玖爱在线精品视频 | 国产午夜视频一区二区三区| 无码欧美毛片一区二区三| 国产呦精品系列在线播放| 米奇亚洲国产精品思久久| 日本免费一区二区三区在线播放| 亚洲国产精品国自产拍av| 日韩毛片在线| 国产av一区二区三区国产福利 | 精品在线视频免费在线观看视频| 亚洲av久播在线一区二区| 精品欧洲av无码一区二区| 国产亚洲精久久久久久无码苍井空 | 久热爱精品视频在线观看久爱 | 国产精品女主播在线播放| 免费女人高潮流视频在线观看 | 日本高清一区二区不卡视频| av国产免费在线播放| 久久久噜噜噜久久中文福利 | 色777狠狠狠综合| 免费在线亚洲视频| 日本一级二级三级在线| 一本到在线观看视频| 亚洲av无码一区二区二三区 | 亚洲成av人片在线天堂无| 国产亚洲精品色婷婷97久久久 | 少妇极品熟妇人妻高清| 亚洲中文字幕人妻av在线| 四川老熟妇乱子xx性bbw| 国产成年无码久久久免费| 日本本土精品午夜视频| 少妇被粗大的猛烈进出免费视频| 国产精品欧美日韩在线一区| 丝袜美腿诱惑一二三区| 中文在线中文a| 久久天天躁狠狠躁夜夜爽| 和少妇人妻邻居做爰完整版| 久久日日躁夜夜躁狠狠躁|