亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網格聚類算法研究

        2012-12-31 00:00:00李愛華尹斐斐
        科技致富向導 2012年16期

        【摘 要】聚類分析是數據挖掘中非常重要的方法, 并且在很多領域發(fā)揮了巨大的作用。本文以研究網格聚類算法為目的,介紹了常見的基于網格的聚類算法,并比較分析了各類算法的基本思想和優(yōu)缺點。

        【關鍵詞】網格聚類算法;STING算法;WaveCluster算法;CLIQUE算法

        0.引言

        聚類就是將多個數據對象分成不同的類或者簇,每個類中的對象之間具有較高的相似度,而不同類的對象相似度低。聚類算法是數據挖掘中的重要算法,可以應用于機器學習、統(tǒng)計學、模式識別、圖像處理、考古學、市場營銷和生物學等多個領域。

        聚類是數據挖掘的主要任務之一,目前常見的文獻中主要有以下幾類聚類算法:劃分方法、層次方法、基于密度的算法、基于網格的算法及基于模型的算法等。一些聚類算法集成了多種聚類方法的思想,所以有時不能將某個給定的算法劃分為屬于某一類特定的聚類方法。各類算法各有自己的特點,應用于不同的領域并且發(fā)揮了很大的作用,實現了數據的有效聚類。

        1.基于網格的聚類方法(grid-based method)

        基于網格的方法采用了網格的數據結構,首先將數據空間劃分成為有限個單元(cell),這些單元就形成了網格結構,所有的處理都是以單個的單元為對象的。這種方法的主要優(yōu)點就是處理速度很快,處理時間與目標數據庫中記錄的個數無關的,但是又依賴于數據空間的單元數目。代表算法有:STING[1]、WaveCluster、CLIQUE。

        1.1 STING(Statistical Information Grid,統(tǒng)計信息網格)算法

        STING算法是一種基于網格的多分辨率聚類算法,其基本思想是:先將數據空間區(qū)域劃分成矩形單元。對于不同級別的分辨率,通常存在著不同級別的矩形單元,這些單元形成一個層次結構,高層的每一個單元被劃分為多個低一層的單元。每個網格單元屬性的統(tǒng)計信息如均值等都被預先計算和存儲起來,以方便下一步的查詢操作。

        高層單元的統(tǒng)計參數可以通過計算低層單元獲得,這些參數包括:屬性無關的參數count(計數);屬性相關的參數mean(平均值),stdev(標準偏差),min(最小值),max(最大值),以及該單元中屬性值遵循的分布(distribution)類型,例如一致分布、正態(tài)分布等。當數據被裝載進數據庫時,底層單元的一些參數(如min、max、stdev、mean)可以直接由數據進行計算。如果分布的類型已經確定,distribution的值可以由用戶指定,也可以通過假設檢驗來獲得。高層單元的分布類型的確定可以基于它對應的低層單元多數的分布類型,通過閾值過濾過程的合取計算來得到。如果低層單元的分布彼此不同,閾值檢驗失敗,那么此時高層單元的分布類型就為none。

        當得到上述的統(tǒng)計參數后,就可以根據統(tǒng)計參數來進行查詢處理。統(tǒng)計參數的使用可以按照自頂向下的基于網格的方法來進行查詢。大體過程如下:首先,在層次結構中,選定一層(通常選定含少量單元的層)作為查詢答復過程的開始點。對選定的當前層次的每個單元,估算其概率范圍或者計算置信度區(qū)間,該概率用以反映該單元與給定查詢的相關程度。此時得到一些不相關的單元和相關單元,不相關單元在以后操作中不再考慮。相關單元用于下一層較低單元的處理。反復進行該處理過程,直到達到底層。最后,如果滿足查詢要求,則返回相關單元。否則,檢索和處理落在相關單元中的數據,直到它們滿足查詢要求。

        與其他聚類算法相比,STING算法具有以下優(yōu)點:(1)基于網格的計算是獨立于查詢的。這主要是因為存儲在每個單元中的統(tǒng)計信息提供了單元中的數據不依賴于查詢的匯總信息,所以網格的計算獨立于查詢。(2)STING算法通過掃描數據庫一次來計算單元的統(tǒng)計參數,時間復雜度是O(n),n是對象的數目。在生成層次結構后,一個查詢響應時間是O(g),這里g是最低層網格單元的數目,通常遠遠小于n,這些使該算法的效率非常高。(3)網格結構利于并行處理和增量更新。

        1.2 WaveCluster(利用小波變換聚類)算法

        WaveCluster的基本思想是:首先通過在數據空間上強加一個多維網格結構,這個結構用來匯總數據,然后采用小波變換變換原特征空間,在變換后的空間中找到密集區(qū)域,該算法是一種多分辨率的聚類算法。這種方法中每個網格單元匯總了一組映射到該單元點的信息,它提供給多分辨率小波變換使用以及隨后的聚類分析,可以存放在內存中。

        該算法的優(yōu)點是:(1)速度快,并且可以是并行的。(2)小波變換具有多分辨率的特性,該特性有助于發(fā)現不同精度的聚類。(3)提供了無指導聚類,并且能夠自動排除離群點。

        1.3 CLIQUE(Clustering In Quest,維增長子空間聚類算法)算法

        CLIQUE算法是典型的高維空間的子空間聚類算法,綜合了基于密度和網格的聚類算法,該算法的基本思想是:給定一個多維數據點的數據空間,數據點在數據空間中通常是分布不平衡的。該算法區(qū)分空間中稀疏的和“擁擠的”區(qū)域(空間或單元),找出數據集合的全局分布模式。在CLIQUE算法中,把相連的密集單元的最大集合成為簇。如果一個單元中包含的數據點數超過了某個輸入參數,則該單元是密集的。

        CLIQUE通過以下兩個步驟進行多維聚類:

        第一步,CLIQUE將多維數據空間劃分為互不相交的長方形單元,識別每一維中的密集單元。代表密集單元的子空間取交集形成了一個候選搜索空間。

        第二步,CLIQUE為每個簇生成最小的描述。對每個簇,它確定覆蓋相連的密集單元的最大區(qū)域,然后再為每一個簇確定最小的覆蓋[2]。

        該算法的優(yōu)點:(1)對數據高維有良好的伸縮性,對數據輸入順序不敏感,具有處理噪聲的能力。(2)方法簡化,但是聚類結果的精確可能降低。

        1.4改進的網格聚類算法

        基于上述分析,各類算法有各自的優(yōu)缺點,為了更好的完善聚類算法,國內外出現了很多改進的網格聚類算法,這類算法大多都和其他的聚類算法相結合,如:基于密度和網格的聚類算法:SCI算法、DCLUST算法、MAFIA聚類算法等;基于數據流的網格密度算法(RTCS);基于網格的層次聚類算法;自動化網格聚類算法(GCA)等算法。

        2.結束語

        本文對常見的聚類算法進行了闡述和分析,每一種網格聚類算法都有其自身的優(yōu)缺點,如何將網格聚類算法與實際問題相結合,如何將網格聚類算法更加有效地應用于實踐成為本文作者下一步將要研究的問題。 [科]

        【參考文獻】

        [1]W.Wang,J.Yang,R.Muntz.A statistical information grid approach to spatial data mining[C].In Proc.1997 Int.Conf.Very Large Databases, Athens,reecs ,Aug.1997:186~195.

        [2]韓家煒.數據挖掘—概念與技術[M].

        [3]范明,孟小峰,譯.北京:機械工業(yè)出版社,2001數據挖掘概念與技術.

        极品诱惑一区二区三区| 国产一区二区三区成人av| 激情久久黄色免费网站| 精品国偷自产在线视频九色| 人人爽人人爽人人爽| 91精品久久久久含羞草| 中文乱码字幕人妻熟女人妻| 亚洲乱码中文在线观看| 正在播放东北夫妻内射| 综合网五月| 手机在线看片在线日韩av| 精品人妻一区二区三区久久| 国产成人无码一区二区在线播放| 一区二区无码中出| 国产av一区二区内射| 粗大猛烈进出高潮视频大全| 午夜无码片在线观看影视| 亚洲女同精品一区二区久久| 亚洲一区二区三区精品久久| 4455永久免费视频| 国产亚洲情侣一区二区无| avtt一区| 最新在线观看免费的a站国产| 久久国产加勒比精品无码| 亚洲在AV极品无码天堂手机版| 人妻少妇喷水意淫诱惑| 亚洲av一区二区三区色多多| 青草内射中出高潮| 亚洲毛片在线播放| 色综合久久五十路人妻| 97色伦图片97综合影院| 久久人人爽天天玩人人妻精品| 亚洲精品自拍视频在线观看| 激情五月开心五月啪啪| 精品伊人久久大香线蕉综合| 水蜜桃久久| av免费网站不卡观看| 电影内射视频免费观看| 久久丫精品国产亚洲av| 中文字幕一区二区三区97| 中国一级黄色片久久久|