亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種加權(quán)歐氏距離聚類算法的改進(jìn)*

        2016-04-20 00:38:20朱俚治
        關(guān)鍵詞:相似度屬性權(quán)重

        朱俚治

        (南京航空航天大學(xué)信息中心 南京 210016)

        ?

        一種加權(quán)歐氏距離聚類算法的改進(jìn)*

        朱俚治

        (南京航空航天大學(xué)信息中心南京210016)

        摘要聚類算法是一種無(wú)監(jiān)督學(xué)習(xí)的算法,能夠?qū)⑾嗨贫葟?qiáng)的數(shù)據(jù)聚類到一個(gè)族內(nèi),并且能夠?qū)傩韵喈惖臄?shù)據(jù)劃分到不同的族里。當(dāng)今聚類算法可分為傳統(tǒng)的聚類算法和非傳統(tǒng)的聚類算法。傳統(tǒng)的聚算法有:基于劃分聚類算法、基于層次聚類算法等算法。人們?cè)谑褂脛澐址ê蛯哟畏ㄟM(jìn)行聚類時(shí),是通過(guò)計(jì)算聚類對(duì)象之間屬性的距離來(lái)實(shí)現(xiàn)聚類,因此歐氏距離公式和加權(quán)歐氏距離公式在這兩種聚類算法中常用的算法。加權(quán)歐氏距離計(jì)算公式在聚類時(shí)著重聚類對(duì)象屬性權(quán)重的選擇,所以此文從聚類對(duì)象的相似度和對(duì)象屬性對(duì)應(yīng)的權(quán)重,這兩個(gè)方面來(lái)考慮聚類成功的概率。論文作者提出的算法思想是,如果某個(gè)聚類對(duì)象具有若干的屬性,那么首先計(jì)算該聚類對(duì)象屬性的相似度,再根據(jù)該屬性對(duì)應(yīng)的權(quán)重是否為關(guān)鍵權(quán)重,如果是此屬性對(duì)應(yīng)的權(quán)重是關(guān)鍵權(quán)重,那么該對(duì)象聚類的成功率較高。

        關(guān)鍵詞加權(quán)歐氏距離; 相似度; 權(quán)重; 屬性; 聚類

        Improvement of Weighted Euclidean Distance Clustering Algorithm

        ZHU Lizhi

        (Information Center, Nanjing University of Aeronautics & Astronautics, Nanjing210016)

        AbstractClustering algorithm is an unsupervised learning algorithm, which can cluster the data with strong similarity to a family, and can divide the data into different groups. Clustering algorithms can be classified into the traditional clustering algorithm and the non traditional clustering algorithm. The traditional clustering algorithms are based on clustering algorithm and hierarchical clustering algorithm. When clustering is used to cluster by dividing method and hierarchy process, the distance between the attributes of clustering objects is calculated. So the Euclidean distance formula and the weighted Euclidean distance formula are used in the two clustering algorithms. Weighted Euclidean distance formula in the clustering object class attribute weights of reunion, so this paper from the object cluster similarity and the properties of an object corresponding to the weights, the two aspects to consider clustering success probability. The algorithm proposed by this paper is that if a clustering object has a number of attributes, then it first calculates the similarity of the clustering object attributes, and then according to the weight of the attributes corresponding to the weight is the key, then the success rate of the object clustering is higher.

        Key Wordsweighted Euclidean distance, similarity, weight, attribute, clustering

        Class NumberTP391.41

        1引言

        隨著信息技術(shù)的發(fā)展,人們積累的音、視頻數(shù)據(jù),以及文本、圖片等數(shù)據(jù)越來(lái)越多,為了從這些大量的數(shù)據(jù)中提取對(duì)人們有用的信息數(shù)據(jù),必須將不同類的數(shù)據(jù)進(jìn)行分類和聚類,因此就出現(xiàn)聚類技術(shù)[7~9]。分類技術(shù)和聚類技術(shù)是截然不同的兩種技術(shù),分類必須根據(jù)已有的知識(shí)進(jìn)行分類,而聚類是一種無(wú)監(jiān)督學(xué)習(xí)技術(shù)。聚類分析是數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要分支,是人們認(rèn)識(shí)和探索事物之間內(nèi)在聯(lián)系的有效手段,它既可以用作獨(dú)立的數(shù)據(jù)挖掘工具,來(lái)發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)分布的一些深入信息,也可作為其它數(shù)據(jù)挖掘算法中的預(yù)處理步驟[7~9]。

        當(dāng)今聚類算法有基于劃分的聚類算法、基于層次的聚類算法、基于密度的算法等聚類算法。盡管當(dāng)今出現(xiàn)多種新技術(shù)的聚類算法,但傳統(tǒng)的聚類算法仍然有著廣泛的應(yīng)用領(lǐng)域。傳統(tǒng)的聚類算法中的劃分法,是通過(guò)最大距離和最小距離來(lái)完成聚類的。為了改進(jìn)某些聚類算法,有人提出了馬氏距離聚類算法、歐氏距離聚類算法、加權(quán)歐氏距離聚類算法。加權(quán)歐氏距離聚類算法是歐氏距離聚類算法一種改進(jìn)算法,其算法的創(chuàng)新之處是引入權(quán)重的概念。權(quán)重的引入有利于聚類時(shí)成功的概率。本文在加權(quán)歐氏距離聚類算法中,引入了當(dāng)對(duì)象進(jìn)行聚類之時(shí),首先計(jì)算對(duì)象屬性相似度的概率。如果聚類對(duì)象某些屬性的相似程度為強(qiáng)的概率較大,那么這將為聚類是否成功提供重要參考依據(jù)。

        2聚類的算法簡(jiǎn)介

        1) 聚類分析的定義

        聚類是將數(shù)據(jù)劃分成群組的過(guò)程,研究如何在沒(méi)有訓(xùn)練的條件下把對(duì)象劃分為若干類。通過(guò)確定數(shù)據(jù)之間在預(yù)先制定的屬性上的相似性來(lái)完成聚類任務(wù),這樣最相似的數(shù)據(jù)就聚集成族[7~9]。

        2) 聚類算法

        聚類算法主要有以下幾種:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型方法[7~9]。劃分方法的經(jīng)典算法有:K—MEANS算法,K—MEDOIDS算法。層次方法的經(jīng)典算法有:BIRCH算法、CURE算法、CHAMELEON算法等。基于密度的經(jīng)典算法有:DBSCAN算法、OPTICS算法和DENCLUE算法。基于網(wǎng)格的經(jīng)典算法有:STING算法和CLIQUE算法等。

        3) 聚類算法的規(guī)則

        在聚類算法中劃分方法,層次方法和基于網(wǎng)格的聚類算法都是通過(guò)計(jì)算對(duì)象屬性之間的距離來(lái)判斷屬性的相似性[7~9]。應(yīng)用于聚類算法中的對(duì)象屬性的距離計(jì)算的公式有:歐氏距離聚類公式、加權(quán)歐氏距離聚類公式、馬氏距離聚類公式。因此距離計(jì)算公式在聚類算法中有相當(dāng)重要的作用。

        3加權(quán)歐氏距離簡(jiǎn)介

        在傳統(tǒng)的聚類算法中常用的聚類方法是通過(guò)對(duì)象的距離來(lái)完成聚類[2~3]。在很多的聚類算法中都采用歐氏距離公式作為聚類時(shí)的依據(jù)。在歐氏距離聚類方法中有兩種歐氏距離公式:非加權(quán)歐氏距離和加權(quán)歐氏距離,本文將采用加權(quán)歐氏距離作為研究的對(duì)象。

        1) 非加權(quán)歐氏距離計(jì)算公式[2]:

        ------------------------------2) 加權(quán)歐氏距離計(jì)算法公式[2]:

        ------------------------------其中,i=(Xi1,Xi2,…,Xip)和j=(Xj1,Xj2,…,Xjp)是兩個(gè)p維的數(shù)據(jù)對(duì)象,Wp表示每個(gè)變量的權(quán)重值。在進(jìn)行聚類時(shí)合理地運(yùn)用加權(quán)歐氏距離,可以反映出各變量在數(shù)據(jù)中的不同作用,對(duì)改進(jìn)聚類結(jié)果能起到較好的效果。

        4加權(quán)歐氏距離公式中聚類對(duì)象屬性的比較

        需要聚類的對(duì)象A′有若干屬性Xi1,Xi2,…,Xip,聚類對(duì)象A有若干屬性Xj1,Xj2,…,Xjp。

        1) 需要聚類對(duì)象A′的若干屬性與聚類對(duì)象A的若干屬性之間的比較:

        如果對(duì)象A′某些屬性十分接近對(duì)象A某些屬性,那么有:Xi1-Xj1≈0,Xi2-Xj2≈0,…,Xip-Xjp≈0。

        3) 根據(jù)以上的討論和分析有以下的結(jié)論:

        如果對(duì)象A′某些屬性十分接近于對(duì)象A的某些屬性時(shí):

        (1)它們屬性的差值十分接近于0。

        (2)它們屬性的比值十分接近于1。

        5聚類對(duì)象屬性相似度的計(jì)算

        5.1聚類對(duì)象的屬性偏離概率估量

        根據(jù)上一節(jié)的研究有以下的分析和討論:

        本文用A′表示是需要聚類對(duì)象的屬性值,用A表示聚類對(duì)象的屬性值。

        如果A′與A屬于惡意軟件,當(dāng)對(duì)象A′的屬性與對(duì)象A的屬性偏離程度達(dá)到了100%時(shí),這時(shí)它們的屬性完全沒(méi)有相同之處。但是當(dāng)對(duì)象A′的屬性與對(duì)象A的屬性相似程度達(dá)到了100%時(shí),這時(shí)它們的屬性完全相同,相似程度非常強(qiáng)。

        如果A′與A屬于非惡意軟件,當(dāng)對(duì)象A′的屬性與對(duì)象A的屬性偏離程度達(dá)到了100%時(shí),這時(shí)它們的屬性完全沒(méi)有相同之處。但是當(dāng)對(duì)象A′的屬性與對(duì)象A的屬性相似程度達(dá)到了100%時(shí),這時(shí)它們的屬性完全相同,相似程度非常強(qiáng)。

        進(jìn)行對(duì)象聚類的時(shí)候,只有同為惡意軟件的對(duì)象或同為非惡意軟件的對(duì)象之間才有相似之處,才能夠進(jìn)行聚類。惡意軟件的對(duì)象與非惡意軟件是截然不同屬性的兩種軟件,它們之間的聚類是不可能的,不能聚成一個(gè)族。

        以下對(duì)象之間的分析和討論都是基于同屬于惡意軟件或同屬于非惡意軟件相似度概率的計(jì)算。

        1) 在聚類過(guò)程之中,如果需對(duì)象A′的屬性十分接近于已知對(duì)象A的屬性時(shí),那么A′/A的比值將十分逼近1值。當(dāng)A′/A的比值十分逼近1時(shí),函數(shù)f(x)=|1-A′/A|就十分接近于0的值,這時(shí)對(duì)象A′的屬性偏離已知對(duì)象A的屬性的值將趨向于0,因此當(dāng)f(x)=|1-A′/A|的值越小,值的大小趨向于0時(shí),這時(shí)對(duì)象A′的屬性值非常接近于已知對(duì)象A的屬性值,則A′的屬性偏離A的概率就越小。

        2) 在聚類過(guò)程之中,如果需對(duì)象A′的屬性大于已知對(duì)象A的屬性時(shí),那么A′/A的比值將大于1。當(dāng)A′/A的比值越大時(shí),函數(shù)f(x)=|1-A′/A|的值大于0的程度將越明顯。這時(shí)對(duì)象A′的屬性值大于或遠(yuǎn)大于已知對(duì)象A的屬性值時(shí),則A′的屬性偏離A的概率就越大。

        3) 在聚類過(guò)程中,如果需對(duì)象A′的屬性小于已知對(duì)象A的屬性時(shí),那么A′/A的比值將小于1。當(dāng)A′/A的比值越小時(shí),這時(shí)對(duì)象A′的屬性值小于或遠(yuǎn)小于已知對(duì)象A的屬性值時(shí),則A′的屬性偏離A的概率就越大。

        5.2聚類對(duì)象屬性相似度的估計(jì)

        函數(shù):g(x)=1-f(x)

        說(shuō)明:函數(shù)y=g(x)的含義是聚類對(duì)象相似程度的判斷函數(shù)。以下分析和討論是對(duì)函數(shù)g(x)=1-f(x)進(jìn)行討論:

        1) 當(dāng)y=f(x)的值越小,則有對(duì)象A′的屬性偏離A的概率就越小。如果y=f(x)的值越小,那么g(x)=1-f(x)的值就越大,就表示對(duì)象A′的屬性偏離A的概率就越小。這時(shí)對(duì)象A′的屬性與A的相似的概率就越大,則聚類對(duì)象之間的相似度就越強(qiáng)。

        2) 當(dāng)y=f(x)的值越大,則有對(duì)象A′的屬性偏離A的概率就越大。如果y=f(x)的值越大,那么g(x)=1-f(x)的值就越小,就表示對(duì)象A′的屬性偏離A的概率就越大。這時(shí)對(duì)象A′的屬性與A的相似的概率就越小,則聚類對(duì)象之間的相似度就越弱。

        6聚類對(duì)象的屬于與權(quán)重

        1) 聚類對(duì)象的屬性

        (1)A′具有的屬性為Xi1,Xi2,…,Xip。A具有的屬性為Xj1,Xj2,…,Xjp。

        (2)A′的屬性Xi1與A的屬性Xj1相對(duì)應(yīng),A′的屬性Xi2與A的屬性Xj2相對(duì)應(yīng),…,A′的屬性Xip與A的屬性Xjp相對(duì)應(yīng)。

        2) 聚類對(duì)象的屬性與其權(quán)重

        (1)A′的屬性Xip與A的屬性Xjp相對(duì)應(yīng)

        權(quán)重Wi1與Xi1-Xj1對(duì)應(yīng),權(quán)重Wi2與Xi2-Xj2對(duì)應(yīng),…,權(quán)重Wip與Xip-Xjp對(duì)應(yīng)。

        (2)如果Xip-Xjp十分接近于0,那么Xip與Xjp的比值十分接近于1,并且它們的相似概率值十分接近于1。如果此時(shí)與該屬性對(duì)應(yīng)的權(quán)重為關(guān)鍵權(quán)重,那么有以下的結(jié)論:那么在進(jìn)行對(duì)象聚類時(shí)該屬性為重要屬性,能夠作為聚類是否成功的關(guān)鍵性參考條件。

        7結(jié)語(yǔ)

        在進(jìn)行聚類對(duì)象的屬性可能是n維的,因此在進(jìn)行聚類時(shí)對(duì)象之間必須進(jìn)行屬性值的匹配和計(jì)算。在屬性的計(jì)算過(guò)程中,屬性之間的相似程度是不同的,有些屬性相似程度強(qiáng)些,而有些屬性相似程度弱些。加權(quán)歐氏距離的聚類公式能夠計(jì)算多個(gè)屬性的相似度,再根據(jù)該屬性對(duì)應(yīng)的權(quán)重是否為關(guān)鍵權(quán)重來(lái)為這次聚類是否成功提供重要依據(jù)。如果對(duì)象的某些屬性相似的概率較大,并且與該屬性對(duì)應(yīng)的權(quán)重為重要的權(quán)重,那么這些因素同樣是聚類時(shí)是否成功的重要參考條件。

        參 考 文 獻(xiàn)

        [1] 孟海東,張玉英,宋飛燕.一種基于加權(quán)歐氏距離聚類方法的研究[J].計(jì)算機(jī)應(yīng)用,2006,26(12):152-153.

        MENG Haidong, ZHANG Yuying, SONG Feiyan. Research based on euclid distance with weights of clustering method[J]. Journal of Computer Application,2006,26(12):152-153.

        [2] 董旭,魏振軍.一種加權(quán)歐氏距離聚類方法[J],信息工程大學(xué)學(xué)報(bào),2005,6(1):23-25.

        DONG Xu, WEI Zhenjun. A Clustering Method of Euclid Distance with Weights[J]. Journal of Information Engineering,2005,6(1):23-25.

        [3] 吳香華,牛生杰,吳誠(chéng),等.馬氏距離聚類分析中協(xié)方差矩陣估算的改進(jìn)[J].數(shù)理統(tǒng)計(jì)與管理,2011,30(2):240-245.

        WU Xianghua, NIU Shengjie, WU Cheng, et al. An Improvement on Estimating Covariance Matrix during Cluster Analysis Using Mahalanobis Distance[J]. Application of Statistics and Managerment,2011,30(2):240-245.

        [4] 邵峰晶,于忠清,王金龍,等.數(shù)據(jù)挖掘原理與算法[M].北京:科學(xué)出版社,2009.

        SHAO Fengjing, YU Zhongqing, WANG Jinlong, et al. Principle and Algorithm of Data Mining[M]. Science Press,2009.

        [5] 羅森林,馬駿,潘麗敏.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:電子工業(yè)出版社,2013.

        LUO Senglin, MA Jun, PAN Limin. Theory And Technology of Data Mining[M]. Beijing: Electronics Industry Press,2013.

        [6] 吳帆,李石君.一種高效的層次聚類分析算法[J].計(jì)算機(jī)工程,2004,30(9):70-71.

        WU Fan, LI Shijun. An Efficient Hierarchical Clustering Algorithm[J]. Computer Engineering,2004,30(9):70-71.

        [7] 向培素.聚類算法綜述[J].西南名族大學(xué)學(xué)報(bào)·自然科學(xué)版,2011,37(專輯):112-114.

        XIANG Peisu. Survey of Clustering Algorithm[J]. Journal of Southwest University for Nationalities·Natural Science,2011,37(special):112-114.

        [8] 方媛,車啟鳳.數(shù)據(jù)挖掘之聚類算法綜述[J].河西學(xué)院學(xué)報(bào),2012,28(5):72-76.

        FANG Yuan, CHE Qifeng. Summary of Data Mining Clustering Algorithm[J]. Journal of Hexi University,2012,28(5):72-76.

        [9] 賀玲,吳玲達(dá),蔡益朝.數(shù)據(jù)挖掘中的聚類算法綜述[J].計(jì)算機(jī)應(yīng)用,2007:10-13.

        HE Ling, WU Lingda, CAI Yichao. Survey of Clustering Algorithms in Data Mining[J]. Application Research of Computers,2007:10-13.

        [10] 劉瑞元.加權(quán)歐氏距離及其應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2002,21(5):17-19.

        LIU Ruiyuan. Euclid distance with weight and its applications[J]. Application of Statistics and Managerment,2002,21(5):17-19.

        [11] 宋宇辰,張玉英,孟海東.一種基于加權(quán)歐氏距離聚類方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(4):179-180.

        SONG Yuchen, ZHANG Yuying, MENG Haidong. Research based on euclid distance with weights of clustering method[J]. Computer Engineering and Applications,2007,43(4):179-180.

        [12] 陳治平.基于復(fù)雜對(duì)象分解的相似性計(jì)算方法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(34):149-162.

        CHEN Zhiping. Similarity measurement based on decomposition of complex object[J]. Computer Engineering and Applications,2008,44(34):149-162.

        中圖分類號(hào)TP391.41

        DOI:10.3969/j.issn.1672-9722.2016.03.009

        作者簡(jiǎn)介:朱俚治,男,工程師,研究方向:計(jì)算機(jī)技術(shù)、信息安全。

        收稿日期:2015年9月3日,修回日期:2015年10月19日

        猜你喜歡
        相似度屬性權(quán)重
        權(quán)重常思“浮名輕”
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        改進(jìn)的協(xié)同過(guò)濾推薦算法
        模糊Petri網(wǎng)在油田開(kāi)發(fā)設(shè)計(jì)領(lǐng)域的應(yīng)用研究
        對(duì)兩種實(shí)體觀的探析
        青春歲月(2016年22期)2016-12-23 13:59:29
        用好文件“屬性” 解決實(shí)際問(wèn)題
        論集體建設(shè)用地使用權(quán)的用益物權(quán)屬性
        關(guān)于公允價(jià)值本質(zhì)與特性的探析
        相似度算法在源程序比較中的應(yīng)用
        18禁成人免费av大片一区| 亚洲无亚洲人成网站77777| 中国老熟妇自拍hd发布| 国产熟妇搡bbbb搡bbbb搡| 亚洲精品无码久久久久av老牛 | 欧美大片aaaaa免费观看| 亚洲av日韩aⅴ无码色老头| 人妻忍着娇喘被中进中出视频| 在线观看网址你懂的| 一区二区高清视频在线观看| 视频国产自拍在线观看| 久久婷婷五月综合色高清| 人妻丰满熟妇av无码区不卡| 最近高清中文在线字幕观看| 中文字幕精品亚洲无线码二区| 亚洲免费精品一区二区| 国产极品少妇一区二区| 粗大猛烈进出白浆视频| 天天影视色香欲综合久久| 中文字幕亚洲综合久久| 日本一区二区高清视频在线播放| 久久精品久久精品中文字幕| 国产日产韩国级片网站| 九九九免费观看视频| 香蕉人人超人人超碰超国产| 国产成人精品免费久久久久| 欧美精品久久久久久三级| 亚洲一区二区三区中文视频 | 在线精品国产亚洲av麻豆| 久久精品国产99国产精品亚洲| 国产va在线观看免费| 狠狠躁夜夜躁人人爽天天不卡软件| 国产亚洲欧美在线播放网站| 黑人免费一区二区三区| 国产精品一区二区久久久av| 亚洲成av人片女在线观看| 亚洲精品国产美女久久久| 黄 色 人 成 网 站 免 费| 手机av男人天堂免费网址| 亚洲中文字幕九色日本| 无码国产色欲xxxx视频|