亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SOM和BP網(wǎng)絡的K均值聚類算法分析

        2020-05-21 05:54:57趙文均
        電腦知識與技術(shù) 2020年9期
        關鍵詞:聚類算法

        摘要:在數(shù)據(jù)挖掘中,K均值聚類算法作為最典型、最常見、實用度最廣的一種聚類算法,具有簡單易操作等優(yōu)點。但K均值聚類算法也存在部分缺點,其在訓練前需要提前設定聚類中心個數(shù),在訓練過程中容易陷入局部最優(yōu),面對多維數(shù)據(jù)樣本其效果不佳,得到的聚類結(jié)果受初始聚類中心個數(shù)的設定影響較大。對k均值聚類算法的優(yōu)化方案較多,本文主要針對前人提出的基于BP神經(jīng)網(wǎng)絡的K均值聚類算法和基于SOM網(wǎng)絡改進的K均值聚類算法效果進行分析,為后續(xù)的進一步改進提供基礎。

        關鍵詞:K-means;SOM;BP;聚類算法

        中圖分類號:TP18 文獻標識碼:A

        文章編號:1009-3044(2020)09-0024-03

        K均值聚類(K-means)算法是一種經(jīng)典的動態(tài)聚類算法,在聚類分析中常被使用的一種迭代求解的無監(jiān)督學習算法,該算法具有簡單、高效的特點,其對大數(shù)據(jù)效率較高、可伸縮性強,因此常常被用于數(shù)據(jù)挖掘的任務中。但其缺點也較為明顯,其在訓練過程中容易陷入局部最優(yōu)解,其初始聚類中心和聚類個數(shù)需要人為確定,初始聚類中心和聚類個數(shù)對整個K均值聚類的結(jié)果影響較大,針對此問題,許多學者提出了較多的優(yōu)化算法。K均值聚類算法的改進方案主要包含以下三類:一是針對如何選取好的初始聚類中心[1-5];二是在算法中如何確定合適的K值[6-8];三是與其他算法相結(jié)合的用于確定聚類中心和K值[9-13],其中BP-K模型和SOM-K模型較為突出。本文主要針對這兩種模型進行分析,為后續(xù)的改進提供基礎。

        1 K均值聚類算法

        K均值聚類(K-means)算法是數(shù)據(jù)挖掘中常用的聚類算法,把N的數(shù)據(jù)對象根據(jù)他們的屬性分為K個簇(K

        (1)從輸入樣本集中任意選擇K個對象作為初始聚類中心;

        (2)根據(jù)每個聚類樣本的均值,計算每個樣本與這些聚類中心的距離,并根據(jù)最小距離重新對相應對象進行劃分;

        (3)對距離較大的重新計算每個聚類的聚類中心;

        (4)計算標準測度函數(shù),當滿足一定條件,如函數(shù)收斂時,則算法終止;如果條件不滿足則回到步驟(2)。

        主要局限于平均值被定義的情況下才能使用,不適合部分分類樣本;必須事先給出要生成的聚類中心數(shù)目K,對初值K的選定敏感,對于不同的初始值,可能會導致不同的聚類結(jié)果;樣本集中的少量數(shù)據(jù)能夠?qū)ψ罱K的聚類效果產(chǎn)生極大影響。

        2 SOM和BP神經(jīng)網(wǎng)絡

        2.1 SOM網(wǎng)絡

        自組織映射神經(jīng)網(wǎng)絡是由1981年芬蘭Helsink大學的T.Kohonen教授提出一種自組織特征映射網(wǎng),縮寫為SOM,又稱Kohonen網(wǎng)。SOM網(wǎng)絡屬于無導師學習網(wǎng)絡,具有良好的自組織性和可視化等特征。SOM神經(jīng)網(wǎng)絡的整體結(jié)構(gòu)由輸入層和競爭層構(gòu)成,輸入層主要負責接受外界信息,將輸入的數(shù)據(jù)向競爭層傳遞,競爭層主要對數(shù)據(jù)進行整理訓練并根據(jù)訓練次數(shù)和鄰域的選擇將數(shù)據(jù)劃分為不同的類。SOM神經(jīng)網(wǎng)絡的典型拓撲結(jié)構(gòu)如圖1所示。

        SOM網(wǎng)絡的訓練過程可以概括為:第一步,確定拓撲結(jié)構(gòu),根據(jù)樣本類型和部分經(jīng)驗確定網(wǎng)絡競爭層維數(shù)、神經(jīng)元個數(shù)和神經(jīng)元的拓撲結(jié)構(gòu)。第二步,樣本歸一化。第三步,初始化網(wǎng)絡參數(shù),初始化學習率、權(quán)向量和鄰域函數(shù)。第四步,輸入樣本競爭學習,據(jù)歐氏距離相似度或余弦相似度規(guī)則尋找獲勝神經(jīng)元,并對鄰域內(nèi)節(jié)點分配一個更新權(quán)重。第五步,根據(jù)一定的規(guī)則更新節(jié)點參數(shù)。第六部,重復訓練直到收斂。

        2.2 BP神經(jīng)網(wǎng)絡

        BP神經(jīng)網(wǎng)絡是1986年由Rumelhart和McCelland為首的科研小組提出,BP神經(jīng)網(wǎng)絡是按照誤差逆向傳播的多層網(wǎng)絡。BP神經(jīng)網(wǎng)絡訓練分為兩個過程:第一步是輸入樣本的正向傳播,從輸入層經(jīng)隱藏層到達輸出層;第二步是誤差的反向傳播,計算期望與實際輸出的誤差,將誤差從輸出層傳回隱藏層,再傳回輸入層,根據(jù)代價函數(shù)調(diào)節(jié)隱藏層到輸出層的權(quán)重和偏置,輸入層到隱藏層的權(quán)重和偏置,因此其又被稱為誤差反向傳播網(wǎng)絡。BP網(wǎng)絡為多層網(wǎng)絡,層數(shù)最小三層,其主要由輸入層、隱含層和輸出層構(gòu)成,隱含層可以包含多層網(wǎng)絡,如圖2所示。

        BP神經(jīng)網(wǎng)絡學習過程主要包含正向傳播和反向傳播兩個階段,在正向傳播的過程中訓練樣本從輸入層逐層處理傳到輸出層,將輸出結(jié)果與期望值比較計算誤差,若誤差較大將誤差按學習規(guī)則反向逐層分攤到各節(jié)點,訓練過程中正向傳播和誤差反向傳播交替進行,層與層之間存在激勵函數(shù)、權(quán)值矩陣、偏置矩陣、代價函數(shù)和損失函數(shù),激勵函數(shù)是控制網(wǎng)絡輸出的重要函數(shù),誤差在反向傳播的過程中,激勵函數(shù)的倒數(shù)是求解誤差梯度的重要參數(shù)。

        3 基于BP網(wǎng)絡改進的K均值聚類算法

        3.1 BP-K模型簡介

        K均值聚類算法的聚類中心和個數(shù)常常結(jié)合其他算法來確定。在文獻[9]中提出了一種基于BP網(wǎng)絡的改進方案,通過對K均值聚類算法初次訓練得到的聚類中心和權(quán)值引入到BP網(wǎng)絡進行訓練從而得到新的聚類中心,由于BP-K模型較為復雜,在結(jié)合實驗后,在這里對該模型的基本步驟整理為:

        (1)輸入樣本集P,確定初始簇的聚類中心數(shù)K(K應為一個較大的值,例如:n/5,n為樣本個數(shù)),并隨即選擇初始聚類中心H={Hl,H2,-HK}。

        (2)利用K-menas聚類。產(chǎn)生K個簇和各個簇的聚類中心H={H1,H2,-HK},l司時將各個聚類中心和樣本點到其聚類中心的距離保存下來,得到距離矩陣dpi(p=l,…,n,i=l,…,K)。其聚類結(jié)果滿足K-Means聚類規(guī)則,當前聚類結(jié)果設為R(t),t=t+l。如果R[t-1]的效果相比于R[t]更好,算法結(jié)束并輸出R[t],衡量聚類效果的標準是所有聚類之間的距離差異概率。

        (3)初始化BP網(wǎng)絡的參數(shù)[9],設置如下:系統(tǒng)誤差為0,學習率為0.01,惰性因子為0.075,訓練次數(shù)為1000,初始化集合S和L為空,循環(huán)次數(shù)為0。

        (4)構(gòu)造BP神經(jīng)網(wǎng)絡,主要結(jié)構(gòu)為三層,以樣本集為輸入層,K個聚類中心作為隱藏層節(jié)點,網(wǎng)絡的期望輸出為K-Means劃分結(jié)果。根據(jù)集合H中的節(jié)點序列給每個隱節(jié)點編號,0=(01,02,…,OH}。選擇雙曲線(

        )作為隱層節(jié)點的激勵函數(shù)。并初始化隱節(jié)點的閾值。

        (5)利用(2)中得到的樣本點到聚類中心的距離初始化網(wǎng)絡的權(quán)值矩陣:

        (6)計算各隱節(jié)點的輸出值。

        (7)如果隱節(jié)點i和i符合刪除規(guī)則,則刪除i,把i的編號存人集合S中,如過節(jié)點i和j符合合并規(guī)則,則將i和j合并為一個節(jié)點,把i的編號存入集合L中。

        (8)重復正向計算、后向傳播、修改權(quán)值直到系統(tǒng)誤差足夠小,如果一次循環(huán)中訓練次數(shù)超過規(guī)定次數(shù)則退出算法并輸出R[t]。

        (9)如果一次循環(huán)后集合L不為空,則修改聚類中心:H=H-L, K=K-ILI,如果S非空,則隨機選擇其他中心點C,修改初始聚類中心:H={H-S}uc,ICI=ISI,K不變,如果S和L都為空,則退出并輸出R[t],否則轉(zhuǎn)向步驟(3)。

        在(7)中所提到的刪除規(guī)則定義如下:

        3.2 BP-K聚類模型分析

        在BP-K-means模型中主要利用BP神經(jīng)網(wǎng)絡對初始聚類中心進行訓練從而得到下一次的聚類中心初始參數(shù)。上述的步驟、相關度和發(fā)散度是在原BP-K模型基礎上結(jié)合實驗f實驗數(shù)據(jù)集為iris數(shù)據(jù)集)的基礎上進行參數(shù)調(diào)整和公式改進的基礎上所得到的。在后面,將會與SOM-K模型進行對比。

        在對BP-k的驗證實驗過程中也發(fā)現(xiàn)其模型對BP網(wǎng)絡的依賴性較高,整個模型效率和K均值算法的初始聚類個數(shù)選擇成正相關,選擇的K值越接近最終聚類個數(shù),模型的時間消耗越低。BP神經(jīng)網(wǎng)絡在BP-K模型中主要對聚類中心進行訓練,BP神經(jīng)網(wǎng)絡的訓練在整個模型中占大部分,其訓練效率較低,在整個BP-K模型中,BP神經(jīng)網(wǎng)絡的誤差反向傳遞過程主要存在于我們的輸入層和隱含層,引入的K均值聚類的初始聚類權(quán)值也主要作用在輸入層和隱含層。BP-K模型在將K均值算法的初步聚類中心和距離矩陣作為BP神經(jīng)網(wǎng)絡輸入和權(quán)值矩陣的做法為后續(xù)的聚類優(yōu)化模型具有一定的啟發(fā)式意義。

        4 基于SOM改進的K均值聚類算法分析

        4.1 SOM-K模型介紹

        在文獻[12-13]中引入SOM網(wǎng)絡對K均值聚類算法進行該進,其思路主要是SOM網(wǎng)絡和K均值聚類算法的串聯(lián)來改進K-means算法。類似的文獻較多,但總體思路如下:第一步,先利用SOM獲得初始聚類中心和中心個數(shù),第二步,將SOM訓練得到的聚類中心帶人K均值聚類算法。其思路是利用SOM網(wǎng)絡的自組織性來獲取K均值聚類算法的初始聚類中心,模型應用范圍較廣,其效率相較于獨立的兩個網(wǎng)絡確有較大的提升,SOM-K模型步驟如圖3所示。

        在圖中可以清楚地看到,SOM-K模型實質(zhì)上是一種利用SOM先聚類,聚類輸出用于K-means二次聚類的串聯(lián)模型。其應用在入侵檢測中可以明顯提高檢測率,降低聚類的誤探率。

        4.2 SOM-K模型分析

        SOM-K模型只是將SOM網(wǎng)絡與K均值聚類算法簡單的串聯(lián)在一起,雖然在一定程度上優(yōu)化了K均值聚類算法,受限于兩個網(wǎng)絡的簡單串聯(lián),其模型仍然存在部分缺陷,特別是SOM網(wǎng)絡容易出現(xiàn)死結(jié)點,進行聚類分析時其效率不是很理想、訓練結(jié)果受訓練次數(shù)的影響較大等。

        在面對類似于網(wǎng)絡入侵這類在同一時間產(chǎn)生的多種數(shù)據(jù)樣本的環(huán)境中,其更容易陷入死結(jié)點,部分可能出現(xiàn)聚類混亂的情況,此時SOM的改進顯得尤為重要,一定程度上,雖然SOM在SOM-k模型中發(fā)揮了巨大作用,但SOM網(wǎng)絡本身的缺陷也為SOM-K模型帶來了隱患。

        5 總結(jié)與展望

        在前文中分別分析了基于SOM和基于BP神經(jīng)網(wǎng)絡的K均值聚類算法??梢园l(fā)現(xiàn),BP-K模型是對K均值聚類算法的內(nèi)部改進,BP神經(jīng)網(wǎng)絡在模型中主要作用于K均值聚類算法的K值變化中去,初始的K值仍需要提前確定,在面對大量數(shù)據(jù)樣本的情況下,其應用效果不理想。SOM-K模型是在傳統(tǒng)的K均值聚類算法前引入SOM網(wǎng)絡,SOM網(wǎng)絡的主要作用是在K均值聚類算法前確定K值,在一定程度上有利于聚類,但SOM-K模型只是對SOM和K均值聚類算法的簡單串聯(lián),其無法避免SOM網(wǎng)絡的部分缺陷。文中的BP-K模型具有一定的啟發(fā)式意義,SOM-K模型多數(shù)應用在其他領域中,但在兩類改進方案中,仍然存在著各自網(wǎng)絡的部分缺陷,這是后續(xù)改進的重點。

        參考文獻:

        [1]邢長征,谷浩,基于平均密度優(yōu)化初始聚類中心的k-means算法[J].計算機工程與應用,2014,50(20):135-138.

        [2]謝娟英,王艷娥.最小方差優(yōu)化初始聚類中心的K-means算法[J].計算機工程,2014,40(8):205-211,223.

        [3]傅德勝,周辰.基于密度的改進K均值算法及實現(xiàn)[J].計算機應用,2011,31(2):432-434.

        [4] Goyal M,Kumar S.Improving the initial centroids of k-meansclustering algorithm to generalize its applicability[J].Journal ofthe Institution of Engineers (lndia): Series B,2014, 95(4):345-350+

        [5] Zhu M, Wang W, Huang J.Improved initial cluster center se-lection in K-means clustering[Jl. Engineering Computations,2014,31(8):1661-1667.

        [6] Dalal M A.Harale N D,Kulkami U L.An iterative improvedK-means clustering[Jl.lnternational Journal of Network Securi-ty,201 1,2(3):25-28.

        [7]劉廣聰,黃婷婷,陳海南,改進的二分K均值聚類算法[J].計算機應用與軟件,2015,32(2):261-263,277.

        [8] 2alik K R.An efficient k'-means clustering algorithm[J].Pat-tern Recognition Letters,2008,29(9):1385-1391.

        [9]王銀輝,熊忠陽,使用BP網(wǎng)絡改進K-means聚類效果[J].計算機科學,2006,33(3):194-196.

        [10]唐哲.一種基于遺傳算法的k均值聚類分析[D].長沙:長沙理工大學,2014.

        [11]寇磊.基于SOM算法改進的K-medoids算法及其研究【Dl.太原:太原理工大學,2017.

        [12]袁正,基于SOM及K均值聚類方法的分布式入侵檢測模型的研究[D].天津:天津理工大學,2009.

        [13]汪海濤,余松森.分布式SOM結(jié)合K-均值聚類的軟件定義網(wǎng)絡泛洪攻擊檢測方法[J].計算機應用研究,2019,36(11):3423-3427.

        [14]回珥婷,夏懿嘉,陳紫荷,等,基于Synonyms、k-means的短文本聚類算法[Jl-電腦知識與技術(shù),2019,15(1):5-6.

        【通聯(lián)編輯:唐一東】

        作者簡介:趙文均(1994-),男,四川南充人,西華師范大學計算機學院2017屆在讀碩士研究生,研究方向:數(shù)據(jù)挖掘、深度學習。

        猜你喜歡
        聚類算法
        一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法
        基于關聯(lián)規(guī)則和復雜系統(tǒng)熵聚類方法分析張學文治療肝熱血瘀證用藥規(guī)律
        數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應用
        K—Means聚類算法在MapReduce框架下的實現(xiàn)
        軟件導刊(2016年12期)2017-01-21 14:51:17
        基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
        數(shù)據(jù)挖掘技術(shù)在識別可疑金融交易中的應用
        基于改進的K_means算法在圖像分割中的應用
        大規(guī)模風電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
        科技視界(2016年8期)2016-04-05 18:39:39
        基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類
        基于MapReduce的DBSCAN聚類算法的并行實現(xiàn)
        邻居少妇张开腿让我爽了一夜| 淫妇日韩中文字幕在线| 在线播放偷拍一区二区| 一本一道久久精品综合| 九色九九九老阿姨| 国产午夜成人久久无码一区二区| 亚洲成AV人久久| 中文日本强暴人妻另类视频| 国模精品一区二区三区| 又黄又爽又色又刺激的视频| 制服无码在线第一页| 日本频道一区二区三区| 国产乱人无码伦av在线a| 免费观看又色又爽又黄的韩国| AV无码免费不卡在线观看| 情头一男一女高冷男女| 野花香社区在线视频观看播放| 全部孕妇毛片| 国产激情一区二区三区成人免费| 亚洲精品中文字幕乱码无线| 日日日日做夜夜夜夜做无码| 午夜福利电影| 国产精品美女久久久久浪潮AVⅤ| 日本亚洲中文字幕一区| 国内女人喷潮完整视频| 美女视频一区| 久久精品国产亚洲av高清蜜臀| 国产精品日韩经典中文字幕| 亚洲av无码国产精品色软件下戴| 国产欧美日韩网站| 饥渴少妇一区二区三区| 2018天天躁夜夜躁狠狠躁| 精品成人乱色一区二区| 亚洲va成无码人在线观看| 国产影片一区二区三区| 18禁真人抽搐一进一出在线| 欧美大片aaaaa免费观看| 亚洲欧洲中文日韩久久av乱码| 中文一区二区三区无码视频| 国产白浆一区二区在线| 国产探花在线精品一区二区|