亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種有效的面向高維數(shù)值型數(shù)據(jù)的聚類方法

        2014-05-10 06:54:28李順勇宋云勝趙興旺
        關(guān)鍵詞:高維區(qū)分相似性

        李順勇,宋云勝,趙興旺

        (1.山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)

        0 引言

        聚類作為數(shù)據(jù)挖掘中的一項重要技術(shù),人們利用對數(shù)據(jù)的分析從中發(fā)掘有用的信息。作為一種無監(jiān)督的學(xué)習(xí)方法,聚類從數(shù)學(xué)分析的角度提供了一種對數(shù)據(jù)進(jìn)行準(zhǔn)確、細(xì)致的分析工具。對一個給定的數(shù)據(jù)(對象、記錄)集,聚類或劃分的目的就是把這些對象歸到相應(yīng)的組或“簇”中,使得類內(nèi)(intra-class)數(shù)據(jù)或?qū)ο蟮南嗨菩宰顝?,以緊致度描述;類間(inter-class)數(shù)據(jù)或?qū)ο蟮南嗨菩宰钊?,以分離度描述。聚類質(zhì)量的高低通常取決于聚類方法所使用的相似性度量方法和實現(xiàn)方式,作為一種無監(jiān)督的學(xué)習(xí)方法(unsupervised learning),能夠從研究對象的特征數(shù)據(jù)中挖掘出有用的模式。因此,聚類是一種強有力的信息處理方法。它在數(shù)據(jù)挖掘、圖像分割、模式識別、空間遙感技術(shù)、特征提取、信號壓縮以及在中醫(yī)醫(yī)藥等諸多領(lǐng)域中有著廣泛的應(yīng)用,并取得了一些令人滿意的效果。

        數(shù)據(jù)挖掘涉及的數(shù)據(jù)可能包括很多屬性,有時可達(dá)成百乃至上千、上萬。聚類方法在處理這樣的高維數(shù)據(jù)時往往會碰到較大的困難。聚類方法的選擇取決于數(shù)據(jù)的類型和聚類應(yīng)用的目的。常用的聚類方法有基于劃分的、基于層次的、基于密度的、基于網(wǎng)格的以及基于模型的等。而相似性常常是用來計算聚類的有效方法。本文提出了一種針對高維數(shù)值型數(shù)據(jù)進(jìn)行聚類的有效方法,利用相關(guān)數(shù)據(jù)進(jìn)行了驗證,實驗結(jié)果證明了其理論和應(yīng)用的有效性。

        UCI Machine Learning Repository中有許多高維數(shù)值型數(shù)據(jù)集,部分?jǐn)?shù)據(jù)集見表1。

        表1 UCI中的部分?jǐn)?shù)值型數(shù)據(jù)集Table 1 Parts of the UCI numeric data set

        我們以SPECTF Heart為例,該數(shù)據(jù)集有267個對象,44個屬性,分為兩類,其數(shù)據(jù)表示如圖1,其中橫坐標(biāo)為維數(shù)個數(shù)(Dimension(a)),縱坐標(biāo)為無量綱化的數(shù)值(Dimensionless Number),圖2類似。

        Fig.1 Discrimination of SPECTF Heart data圖1 SPECTF Heart數(shù)據(jù)區(qū)分

        從圖1中我們很難區(qū)分它們之間的相似度或類別歸屬。為了清楚地表示數(shù)據(jù)之間的區(qū)別,以Anseombe數(shù)據(jù)[1]為例。圖2中顯示Anseombe數(shù)據(jù)中的x1,x2,x3以及y的11個屬性值都比較接近,較難區(qū)分,那么哪個和y更接近(或可歸為一類)?

        Fig.2 Discrimination of Anseombe data圖2 Anseombe數(shù)據(jù)區(qū)分

        實際問題當(dāng)中,有許多這樣的數(shù)據(jù)需要區(qū)分或?qū)λ鼈冞M(jìn)行歸類。一個“好”的方法只有在實際應(yīng)用中才能體現(xiàn)其優(yōu)勢。

        1 三類經(jīng)典的距離度量方法[2]

        設(shè),x=(x1,x2,…,xn),y=(y1,y2,…,yn)為兩個向量。

        1.1 相關(guān)系數(shù)(Pearson correlation coefficient)

        相關(guān)系數(shù)通常用來描述兩個向量的相關(guān)性。

        |ρ|值越大,x,y相似性越好。

        1.2 瑞利熵(Rênyi entropy)[3]

        熵用來度量無序性,熵值越大越好,類的區(qū)分度也越好[4],其中α=2,σ=3。

        1.3 歐氏距離(Euclidean distance)

        dE值越小,x,y相似度越大,dE=0時,表明x,y二者完全一樣。

        以上三種方法都是經(jīng)典的計算相似性的方法,各有優(yōu)劣,還有一些計算相似性的方法見文獻(xiàn)[5-9]。利用1.1、1.2、1.3對Anseombe中的數(shù)據(jù)計算x1,x2,x3和y的相似度,其結(jié)果如表2。

        表2 經(jīng)典方法相似度比較Table 2 Similarity comparison of Classical method

        表2顯示三種經(jīng)典方法對x1,x2,x3和y的整體相似度區(qū)別不大,有的幾乎難于區(qū)分,但圖2顯示x1,x2,x3和y還是有區(qū)別的。

        為了有效地區(qū)別x1,x2,x3和y,本文提出了新的線性相似度(Linear Measure)。

        2 新的線性相似性度(LM)

        3 實驗性分析對比

        為了檢驗文中提出方法的有效性,我們重新對表1中的數(shù)據(jù)進(jìn)行了相似度計算,結(jié)果見表4。

        表3 LM-dnew方法Table 3 LM-dnew method

        由表3我們明顯可以看出x3和y最相似,可以歸為一類(組),x2和y次之,x1和y最差。圖3為LM-dnew和三種經(jīng)典方法的比較演示,圖3中顯示新的線性相似度對該類數(shù)據(jù)有較好的靈敏度。

        在相似性計算和聚類問題上,我們所尋求的方法,一方面希望相似性越精確越好,另一方面,更希望方法越簡單越好。

        文中提出的方法既然能處理兩兩數(shù)據(jù)之間的相似性問題,那么它也就能處理一個數(shù)據(jù)和一個類之間的問題,同時也就能處理類和類之間的問題,這將會是我們以后研究的新方向。

        Fig.3 Comparison of four methods圖3 四種方法比較演示

        4 結(jié)論

        本文提出了一種有效的面向高維數(shù)值型數(shù)據(jù)的聚類方法,通過實驗比較,結(jié)果顯示該方法有較好的靈敏度,能對某些高維數(shù)值型數(shù)據(jù)起到較好的聚類效果,值得進(jìn)一步研究和推廣。

        [1] Suykens J A K.Nonlinear Modeling and Support Vector Machines[J].IEEEInstrumentationandMeasurementTechnologyConference.Budapest,Hungary,2001:21-23.

        [2] 張宇,劉雨東,計釗.向量相似度測度方法[J].聲學(xué)技術(shù),2009,28(4):532-536.

        [3] Renyi A.On Measures of Entropy and Information[C].Proceeding of the 4th Berkeley Symposium on Mathematics of Statistics and Probability,1961:547-561.

        [4] Liang Ji-ye,Zhao Xing-wang,Li De-yu,etal.Determining the Number of Clusters Using Information Entropy for Mixed Data[J].PatternRecognition,2012,45:2251-2265.

        [5] Jiang Qing-shan,Zhang Yan-ping,Chen Li-fei.An Initilization Method for Subspace Clustering Algorithm[J].IJIntelligentSystemsandApplications,2011,3:54-61.

        [6] Christian Borgelt.Accelerating Fuzzy Clustering[J].InformationSciences,2009,179:3985-3997.

        [7] Cheng Victor,Li Chun-hung,Kwokb James T,etal.Dissimilarity Learning for Nominal Data[J].PatternRecognition,2004,37:1471-1477.

        [8] Rudi L.Cilibrasi and Paul M.B.Vitanyi.The Google Similarity Distance[J].IEEETransactionsonKnowledgeandData Engineering,2007,19(3):370-383.

        [9] Nikolaj Tatti.Distances Between Data Sets Based on Summary Statistics[J].JournalofMachineLearningResearch,2007,8:131-154.

        [10] Cao Fu-yuan,Liang Ji-ye,Li De-yu,etal.A Dissimilarity Measure for the k-Modes Clustering Algorithm[J].Knowledge-BasedSystems,2012,26:120-127.

        猜你喜歡
        高維區(qū)分相似性
        區(qū)分“旁”“榜”“傍”
        你能區(qū)分平衡力與相互作用力嗎
        一類上三角算子矩陣的相似性與酉相似性
        淺析當(dāng)代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        教你區(qū)分功和功率
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
        低滲透黏土中氯離子彌散作用離心模擬相似性
        一般非齊次非線性擴(kuò)散方程的等價變換和高維不變子空間
        罪數(shù)區(qū)分的實踐判定
        免费人成视频欧美| 国产精品无码aⅴ嫩草| 日本少妇被黑人xxxxx| 国产精品一区二区在线观看完整版 | 国产亚洲精品美女久久久m| 99re热视频这里只精品| 亚洲AV秘 无码一区二区三区1| 东风日产系列全部车型| 亚洲综合在线观看一区二区三区| 亚洲av日韩av天堂久久| 亚洲人成无码网www| 国产香蕉尹人在线视频你懂的| 亚洲精品国产亚洲av| 男人扒开添女人下部免费视频| 最新亚洲av日韩av二区| 免费观看视频在线播放| 一区二区三区在线视频观看| 中文人妻熟妇乱又伦精品| 亚洲欧美日韩国产色另类| 二区三区视频在线观看| 亚洲色图在线免费观看视频| 好看的欧美熟妇www在线| AV教师一区高清| 亚洲综合国产精品一区二区| 女人张开腿让男人桶爽| 欧美日本国产va高清cabal | 国产三级a三级三级| 老熟妻内射精品一区| 久久久午夜毛片免费| 亚洲天堂av黄色在线观看| 久久午夜无码鲁丝片午夜精品| 在线观看av中文字幕不卡| 亚洲国产成人av第一二三区| 91九色老熟女免费资源 | 免费一区二区三区在线视频| 午夜在线观看一区二区三区四区| 国产精品久久久久久久久久红粉| 久久精品亚洲中文字幕无码网站| 中文字幕高清无码不卡在线| 视频在线观看国产自拍| аⅴ资源天堂资源库在线|