亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        分類矩陣對象數(shù)據(jù)的BC-k-modes聚類算法

        2020-11-21 07:45:02李順勇王改變
        河南科學 2020年10期
        關鍵詞:分類

        李順勇, 余 曼, 王改變

        (山西大學數(shù)學科學學院,太原 030006)

        聚類分析[1-3]是常見的多元統(tǒng)計分析方法的一個分支,被廣泛應用于多個領域,如電信、保險、銀行和醫(yī)療數(shù)據(jù)庫中. 聚類的主要目的之一是對數(shù)據(jù)進行分類,使得在同一個簇中對象間的距離盡可能小,在不同簇中對象間的距離盡可能大. 因此,數(shù)據(jù)聚類可以幫助我們深入了解數(shù)據(jù)的分布.

        數(shù)據(jù)一般可以分為數(shù)值型、分類型以及混合型,根據(jù)數(shù)據(jù)類型不同,提出了各種各樣的聚類算法. k-means算法[4-5]是對數(shù)值型數(shù)據(jù)進行聚類的算法之一,該算法是對數(shù)據(jù)計算均值然后將其聚類. 與數(shù)值型數(shù)據(jù)不同,由于分類數(shù)據(jù)的無序性和離散性,若還是計算它的均值,就會顯得牽強,因而k-means聚類過程不能直接用于分類數(shù)據(jù). 基于此,諸多研究人員發(fā)展了分類型數(shù)據(jù)聚類的幾種算法. Huang[6]在1998 年提出了k-modes 算法,對分類對象采用簡單匹配不相似度測量,用modes 代替means 來代表聚類的中心,并且提出了一種基于頻率的更新模式的方法. 這樣的處理使得聚類過程能夠?qū)Ψ诸悢?shù)據(jù)進行聚類,消除了對于數(shù)值的限制.Cao[7]提出了一類時變數(shù)據(jù)的廣義聚類框架. Bai[8]提出了一種對于分類數(shù)據(jù)能同時找到初始聚類中心和聚類數(shù)的初始化方法. Liang[9]提出了一種用于高維分類數(shù)據(jù)聚類的屬性加權算法. Liang[10-14]基于多項度量對分類數(shù)據(jù)提出了多種聚類算法. Cao[15]對分類矩陣對象數(shù)據(jù)提出了一種新的算法:k-mw-modes算法.

        本文利用簇間信息建立新的目標函數(shù);結(jié)合目標函數(shù)提出了一種新的聚類算法;導出了隸屬度矩陣以及聚類原型的更新公式;在真實數(shù)據(jù)集上進行了實驗,驗證了該算法的有效性.

        1 回顧k-modes算法

        2 分類矩陣對象數(shù)據(jù)聚類算法(between-cluster k-modes,BC-k-modes)

        2.1 簇間信息

        2.2 對象間的相異性度量

        2.3 BC-k-modes聚類算法

        Algorithm:BC-k-modes算法

        Input:

        1:-n:每個集群中對象的數(shù)量;

        2:-k:聚類個數(shù);

        3:-ε:閾值;

        4:-X:由m個屬性描述的n個矩陣對象數(shù)據(jù);

        5:-idcenters:k個初始類中心的標簽;

        6:Output:

        7:-cid:聚類后對象標簽;

        8:-num:迭代次數(shù);

        9:Method:

        10:Z按照索引在idcenters中存儲k個初始中心,value=0,num=0;

        11:while num ≤100 do

        12: newvalue=0;

        13: for i=1 to n do

        14: for l=1 to k do

        15: 通過式(7)計算第l個簇與其他簇之間的相似性度量;

        16: 通過式(11)計算第i個對象到第l個聚類中心的距離;

        17: 通過式(18)計算第i個對象到第l個聚類中心的隸屬度;

        18: end for

        19: end for

        21: if |newvalue-value |≤ε,break;else value=newvalue 且num=num+1;

        22: for l=1 to k do

        23: 啟發(fā)式算法更新類中心;

        24: end for

        25:end while.

        3 實驗分析

        在本節(jié)中,我們主要在Market Basket data(Data website下載),Market Basket data數(shù)據(jù)包括1001個用戶的交易記錄,Microsoft web data(UCI數(shù)據(jù)集下載),Microsoft web data記錄了1998年2月的一個星期內(nèi)隨機選擇的32 711個匿名用戶在訪問這些網(wǎng)站的情況,Musk data(UCI數(shù)據(jù)集下載),Musk data記錄由167個屬性描述的92個對象,MovieLens data(MovieLens website 下載),記錄了6040 個用戶對3900 部電影的1 000 209 條評分情況,Alibaba data(competition website 下載)記錄了793名用戶的165 655條的訪問記錄,在五個數(shù)據(jù)集上進行了實驗,來評估所提算法的有效性. 首先對五組數(shù)據(jù)進行了數(shù)據(jù)預處理,接著使用文獻[15]中的五個評價指標,將該算法與其他算法進行比較. 五個真實數(shù)據(jù)集的預處理結(jié)果見表1.

        表1 預處理后的數(shù)據(jù)集Tab.1 Preprocessed data sets

        3.1 評價指標

        3.2 BC-k-modes算法與其他算法的比較

        表2 在五個實驗數(shù)據(jù)集上三種算法比較Tab.2 Three algorithms compared on five experimental data sets

        表2 表明BC-k-modes 算法比SV-k-modes 算法相比在Market Basket data,Microsoft web data 兩個數(shù)據(jù)集AC,PR,RE 的值提高了15%,在ARI,NMI 上的值提高了30%,在Musk data 數(shù)據(jù)集上AC,PR,RE 的值提高了3%,ARI,NMI 上的值也有所提高,在MovieLens data 上AC,RE,ARI 的值提高了12%,最高提高了16%,在PR,NMI 的值提高了3%~5%,與Alibaba data 相比,AC,RE,ARI,NMI 提高了5%~9%,在PR 上也有所提高. 與k-mw-modes 算法相比,BC-k-modes 算法在AC,PR,RE,ARI,NMI 的值提高了2%~3%,說明聚類效果更好.

        圖1~圖5分析了五組數(shù)據(jù)在五個評價指標的箱線圖. 其中中間的黑線表示均值,上下值波動的幅度表示標準差.

        從圖1~圖5可以看出,BC-k-modes算法的均值明顯高于SV-k-modes,k-mw-modes算法,且BC-k-modes算法是在k-mw-modes算法的基礎上增加簇間信息,還可以看出BC-k-modes算法比k-mw-modes算法的波動浮動更小,聚類的效果更穩(wěn)定.

        圖1 五組數(shù)據(jù)在AC上的箱線圖Fig.1 Boxplots of five sets of data on AC

        圖2 五組數(shù)據(jù)在PR上的箱線圖Fig.2 Boxplots of five sets of data on PR

        圖3 五組數(shù)據(jù)在RE上的箱線圖Fig.3 Boxplots of five sets of data on RE

        圖4 五組數(shù)據(jù)在ARI上的箱線圖Fig.4 Boxplots of five sets of data on ARI

        圖5 五組數(shù)據(jù)在NMI上的箱線圖Fig.5 Boxplots of five sets of data on NMI

        4 結(jié)論

        本文對于矩陣對象數(shù)據(jù)提出了一種新的聚類算法:BC-k-modes. 在BC-k-modes算法中,首先給出矩陣對象之間的相異性度量,其次引入了簇間信息,提出了新的目標函數(shù),通過目標函數(shù)解決了矩陣對象數(shù)據(jù)的聚類問題. 最后在五個真實數(shù)據(jù)集上驗證了BC-k-modes算法的有效性.

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準備好了嗎
        學生天地(2019年32期)2019-08-25 08:55:22
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        天天做天天爱夜夜夜爽毛片| 国产一区二区三区在线av| 精品第一页| 日日爽日日操| 国产亚洲高清在线精品不卡| 国产乱老熟视频乱老熟女1| 国产一区二区视频在线看| 精品天堂色吊丝一区二区| 中国无码人妻丰满熟妇啪啪软件| 国产成人一区二区三区| 国产午夜福利在线播放| 丰满少妇被猛烈进入无码| 视频一区精品自拍| 杨幂Av一区二区三区| 久久国产精品免费久久久| 日本一区二区不卡二区| 亚洲中文字幕舔尻av网站| 久久伊人精品一区二区三区| 亚洲va在线∨a天堂va欧美va| 亚洲成人777| 亚洲一区二区情侣| 免费人成网站在线视频| 欧美日韩午夜群交多人轮换| 人妻少妇偷人精品无码| av无码人妻中文字幕| 亚洲另类自拍丝袜第五页| 91精品国产福利尤物免费| 一区二区三区婷婷中文字幕| 国产精品国产三级国产专播| 亚洲国产熟女精品传媒| 女人张开腿让男人桶爽| 三叶草欧洲码在线| 精品久久久久久久无码| 久久成人永久免费播放| 精品视频一区二区杨幂| 午夜免费观看日韩一级片| 亚洲成av人综合在线观看 | 国产成人av免费观看| 综合网在线视频| 亚洲一区二区三区高清视频| 偷拍一区二区三区四区视频|