亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)挖掘中的K?means無監(jiān)督聚類算法的改進

2020-10-13 05:20:56吳海麗

現(xiàn)代電子技術(shù) 2020年19期

關(guān)鍵詞：魯棒性

吳海麗

摘? 要：針對K?means聚類算法簡單，并且收斂速度比較快的問題，提出基于大數(shù)據(jù)挖掘的K?means無監(jiān)督聚類算法。此算法設(shè)置一定范圍，在迭代次數(shù)不斷動態(tài)增加中，交叉算法增加，從而使算法在迭代過程中實現(xiàn)全局搜索，再實現(xiàn)局部搜索，有助于平衡算法全局尋優(yōu)及局部搜索能力，使算法收斂速度加快。對K?means聚類算法和標(biāo)準(zhǔn)差分進化算法進行分析，提出K?means聚類算法的改進，給出算法改進的步驟，利用實驗對算法進行仿真。通過仿真結(jié)果表示，此算法聚類效果良好，聚類劃分精度和穩(wěn)定性高，還具有較高的穩(wěn)定性。

關(guān)鍵詞：大數(shù)據(jù)挖掘; 差分進化算法; K?means聚類算法; 全局尋優(yōu); 魯棒性; 收斂速度

中圖分類號： TN911.1?34; TP391? ? ? ? ? ? ? ? ? 文獻標(biāo)識碼： A? ? ? ? ? ? ? ? ? ? 文章編號： 1004?373X（2020）19?0118?04

Abstract： In view that the K?means clustering algorithm is simple and its convergence speed is fast， an unsupervised K?means clustering algorithm based on big data mining is proposed. In the algorithm， a certain range is set， the crossover algorithm increases when the number of iterations increases dynamically， so that the algorithm can achieve global search and then local search in the iterative process. Therefore， it is helpful to balance the global optimization and local search ability of the algorithm， which accelerates the convergence speed of the algorithm. The K?means clustering algorithm and the standard differential evolution algorithm are analyzed. And then， the K?means clustering algorithm is improved and the steps of algorithm improvement are given. Finally， the algorithm is simulated in experiments. The simulation results show that the algorithm has good clustering effect， high clustering partition accuracy and stability.

Keywords： big data mining; differential evolution algorithm; K?means clustering algorithm; global optimization; robustness; convergence rate

0? 引? 言

優(yōu)化的主要目的就是尋找最優(yōu)方案，雖然目前常規(guī)優(yōu)化方法中存在部分問題，尤其在面臨多峰、高維、函數(shù)結(jié)構(gòu)復(fù)雜等問題時，求解精度和算法時間復(fù)雜度無法滿足設(shè)計需求，所以要更加系統(tǒng)地研究該問題。進化算法編程簡單，利用特殊進化測量能夠使種群質(zhì)量得到提高，從而得到明確的算法尋優(yōu)方向[1]。K?means聚類算法屬于常見聚類方法，使用較為廣泛，比如，對不同客戶群體購物習(xí)慣進行解析，實現(xiàn)客戶細(xì)分;對消費者不同需求特征進行分析，使產(chǎn)品市場按不同消費市場進行細(xì)分。因為傳統(tǒng)K?means算法對于聚類中心敏感，無法有效確定[K]值等問題，所以提出了K?means無監(jiān)督聚類算法。

1? K?means聚類算法和標(biāo)準(zhǔn)差分進化算法

K?means均值聚類思想是以聚合中心距離與數(shù)據(jù)對象作為基礎(chǔ)，將數(shù)據(jù)對象劃分成為和距離比較近的集合。[K]屬于K?means算法參數(shù)，使[m]個對象集合朝著最近子集進行劃分，對比相同子集中的對象，子集數(shù)據(jù)對象的不同也存在一定的差別[2]。此算法步驟為：

1）通過樣本集選擇[k]條數(shù)據(jù)樣本作為初始[k]個集合中心;

2）依據(jù)最近鄰法則，將數(shù)據(jù)樣本被劃分到與其相互接近的集合;

3）計算全新的類簇中心，可利用不同集合樣本數(shù)據(jù)均值計算得出;

4）不改變類簇中心，說明算法終止，到最終的結(jié)果進行返回;否則，跳至步驟2）進行返回計算。

此聚類算法中的主要問題就是對算法初始類簇中心進行選擇，如果初始劃分與全局最優(yōu)劃分出現(xiàn)問題，那么就會導(dǎo)致算法逐漸陷入局部最優(yōu)。

交叉操作、變異操作為標(biāo)準(zhǔn)差分進化算法中的核心，其定義如下。

變異操作：變異操作中全新的個體是通過群體單個或者多個線性進行計算得出，差分進化算法中的變異機制比較多，以下公式中使用大量的變異策略。

交叉操作：利用現(xiàn)代個體[ci]中的分量和目標(biāo)個體進行轉(zhuǎn)變，實現(xiàn)測試個體[ti]的生成。二項交叉與指數(shù)交叉為主要的交叉方式，在執(zhí)行二項交叉過程中，是將每條染色體中的分量作為基礎(chǔ)，從而實現(xiàn)0～1之間隨機數(shù)量[r]的生成。假如[r]比CR小，目標(biāo)個體相應(yīng)分量進行接收;否則，將目前個體分量進行保留[3?4]。

選擇操作：利用貪心實現(xiàn)選擇差分進化（DE）標(biāo)準(zhǔn)，目前[ci]對比測試個體[ti]，利用更好個體實現(xiàn)下一代搜索。

2? 算法的改進

2.1? 改進思路

控制參數(shù)對于DE算法的影響比較大，目前學(xué)術(shù)界對于參數(shù)研究并沒有系統(tǒng)性結(jié)論，對DE算法在現(xiàn)實中的使用具有一定的影響。國內(nèi)外相關(guān)研究人員提出了多種集成算法模型及框架，此算法具備魯棒性與普適性，并且效果良好。目前，也出現(xiàn)了基于靜態(tài)知識的DE集成算法，靜態(tài)知識也稱為經(jīng)驗知識，主要表示知識初級形態(tài)。

使用新變異算法的改進：相關(guān)研究人員受到PSO優(yōu)化算法的影響，通過兩個極值更新個體位置與速度的啟發(fā)，提出全新變異因子，此因子通過兩個位置信息：局部鄰域良好個體位置信息、全局最優(yōu)個體位置信息得到。算法為：

2.2? 算法的具體操作

2.2.1? 種群初始化

因為DE算法在進化初期缺少相應(yīng)的經(jīng)驗知識，只能夠在可行域內(nèi)隨機出現(xiàn)初始種群，從而降低了算法進化初期的收斂速度。如果初始種群個體到全局最優(yōu)距離比較近，能夠有效加快算法收斂速度。所以為了使算法在進化初期的收斂速度得到提高，通過反向?qū)W習(xí)方法及混沌搜索相互結(jié)合的方式實現(xiàn)初始種群的產(chǎn)生，使初始種群質(zhì)量得到提高。先使用Logistis映射生成混沌序列，使算法初始隨機數(shù)質(zhì)量得到提高[4?5]，具體描述為：

式中：[xi]指混沌序列變量在第[i]次迭代過程中的值;[v]為變量控制常數(shù)，在其取值范圍為[3.56，4.0]時，[xi]為混沌變量，這時系統(tǒng)在完全混沌的狀態(tài)中，混沌序列不會重復(fù)。算法根據(jù)反向?qū)W習(xí)方法，能夠?qū)崿F(xiàn)所有混沌序列個體的反向個體生成，之后對反向個體及混沌序列種群進行合并，并且實現(xiàn)以上種群全部個體，根據(jù)適應(yīng)度函數(shù)值大小進行排列，最后使用其中相應(yīng)規(guī)模比較優(yōu)的個體構(gòu)成初始種群。

混沌搜索的反向?qū)W習(xí)過程為：

3）實現(xiàn)種群[P]與[OP]的合并，規(guī)模設(shè)置為2[NP]。根據(jù)適應(yīng)度函數(shù)大小實現(xiàn)排列，從中選擇[NP]規(guī)模的優(yōu)化個體構(gòu)成算法初始種群。

2.2.2? 函數(shù)適應(yīng)度設(shè)計

利用適應(yīng)度函數(shù)、遺傳算法能夠評價種群個體適應(yīng)度，并且區(qū)分種群個體的優(yōu)劣程序。存活概率和個體適應(yīng)度兩者具有正比的關(guān)系，可提高適應(yīng)度和存活的可能性。K?means聚類算法指的是目標(biāo)函數(shù)[G]尋找過程中的最小劃分[5?7]。

在算法操作過程中，劃分染色體編碼的初始種群，對不同聚類點到聚類中心進行聚類計算，使其成為目標(biāo)函數(shù)[G]。通過目標(biāo)函數(shù)對聚類劃分效果進行判斷，目標(biāo)函數(shù)[G]越小，聚類效果越好。

利用標(biāo)準(zhǔn)DE算法搜索目標(biāo)函數(shù)解空間，以此得到目標(biāo)函數(shù)最小值。那么，本文以目標(biāo)函數(shù)實現(xiàn)適應(yīng)度函數(shù)的創(chuàng)建：

2.2.3? 算子選擇

通過模仿生物界實現(xiàn)遺傳算法，在選擇操作時使生物界優(yōu)勝劣汰的規(guī)則得到滿足。操作選擇將種群個體適應(yīng)度值作為基礎(chǔ)，利用父代個體對個體進行選擇，遺傳到下一代。算法設(shè)計與概率選擇具有密切的關(guān)系，個體[xi]的選擇概率為：

2.2.4? 自適應(yīng)交叉與變異算子

通過選擇變異概率和交叉概率，能夠有效實現(xiàn)遺傳操作，對遺傳算法計算結(jié)果造成影響。對于交叉算子來說，隨著交叉概率不斷增加的過程，就會提高個體生成的速度，在交叉概率比較小時，就會降低遺傳搜索的速度;對于變異算子來說，個體在小變異概率中并不新穎，在大變異概率時，會失去遺傳算法的效果，朝著隨機搜索算法轉(zhuǎn)變。

對于上述變異操作與交叉操作存在的問題，本文利用自適應(yīng)交叉實現(xiàn)操作。[Pc]與[Pm]能夠以不同情況實現(xiàn)自我調(diào)節(jié)，公式為：

式中：[fmax]指群體中最大適應(yīng)度值;[favg]指群體平均適應(yīng)度值;[f]指交叉的兩個個體中較大的適應(yīng)度值;[f]指變異個體適應(yīng)度值;[k1]，[k2]，[k3]，[k4]?。?，1）區(qū)間的值。假如沒有定義[k1]，[k2]，[k3]，[k4]的根據(jù)，可以初始確定四者的值，利用[Pc]與[Pm]對比相同優(yōu)化目標(biāo)下的進化代數(shù)，對應(yīng)進化代數(shù)比較少的[Pc]和[Pm]是較優(yōu)的，那么對應(yīng)[k1]，[k2]，[k3]，[k4]也比較合理。

2.2.5? 算法流程

輸入：輸入內(nèi)容主要包括聚類樣本集、種群大小、最大迭代次數(shù)、自適應(yīng)交叉與變異系數(shù)。

輸出：最優(yōu)聚類中心與數(shù)量[9?11]。

算法描述如下：

1）進化參數(shù)的設(shè)置。

2）通過染色體的編碼方案生成初始種群。

3）對個體適應(yīng)度值進行計算。

4）對最好個體計算，對最好適應(yīng)度和平均適應(yīng)度進行記錄。

5）進行交叉、變異、選擇等操作。

6）計算個體適應(yīng)度，尋找最大適應(yīng)度的個體，替代上一次最大的適應(yīng)度個體。

7）對是否為最大迭代次數(shù)進行判斷，假如是，就進行下一步;否則，回到步驟5）。

8）實現(xiàn)最優(yōu)聚類中心的輸出，并且實現(xiàn)聚類操作。

9）聚類結(jié)果的輸出。

算法的具體操作流程如圖1所示。

3? 算法仿真

為了對算法的有效性進行驗證，本文使用常用數(shù)據(jù)集進行實驗。表1給出了數(shù)據(jù)集名稱、數(shù)據(jù)對象數(shù)量與屬性個數(shù)。為了保證對比的有效性，設(shè)置改進K?means算法內(nèi)容為：相關(guān)ACDE函數(shù)保留原本參數(shù)設(shè)置，種群大小[NP]設(shè)置為100，最大迭代次數(shù)[Imax]設(shè)置為[11?13]200，閾值參數(shù)為3。均值與方差對比結(jié)果見表2。

本文使用DB指標(biāo)作為本文算法中函數(shù)的優(yōu)化選擇，將20次最終DB值均值（mean）與方差（std）作為評價標(biāo)準(zhǔn)，并且通過聚類數(shù)均值和方差對算法聚類性能進行評價。通過表2可以看出，本文算法均值與方差比較小，并且接近于數(shù)據(jù)集實際種類，所以，不管是聚類效果或者穩(wěn)定性，本文算法更好。另外，本文算法誤分率也比較小，表示本文算法的聚類劃分精度要高[13?15]。

4? 結(jié)? 語

在本文研究過程中基于DE算法實現(xiàn)動態(tài)交叉算法的設(shè)計，有效結(jié)合K?means算法和遺傳算法，能夠使收斂速度得到提高。通過實驗結(jié)果可知，本文算法聚類效果良好，并且聚類劃分精度較高，還具有較高的穩(wěn)定性，提高了搜索效果。

參考文獻

[1] 王勇臻，陳燕，張金松.一種改進的求解聚類問題的差分進化算法[J].計算機應(yīng)用研究，2016，33（9）：2630?2633.

[2] 申彥，朱玉全.CMP上基于數(shù)據(jù)集劃分的K?means多核優(yōu)化算法[J].智能系統(tǒng)學(xué)報，2015，15（4）：607?614.

[3] 胡先兵，趙國慶.引入時頻聚集交叉項干擾抑制的大數(shù)據(jù)聚類算法[J].計算機科學(xué)，2016，43（4）：197?201.

[4] 王雪梅，李曉峰，高巍巍.一種改進的K?Means聚類算法的研究[J].計算機與數(shù)字工程，2013，41（11）：1717?1719.

[5] 胡春華.基于自適應(yīng)差分進化算法擬合圓的樹干胸徑測量方法[J].農(nóng)業(yè)機械學(xué)報，2018，49（9）：183?188.

[6] 劉莉莉，曹寶香.基于差分進化算法的K?Means算法改進[J].計算機技術(shù)與發(fā)展，2015，21（10）：88?92.

[7] 劉飛，唐雅娟，劉瑤.K?means聚類算法中聚類個數(shù)的方法研究[J].電子設(shè)計工程，2017，25（15）：9?13.

[8] 李運娣，文政穎，于海鵬.基于k?means算法和相關(guān)反饋信息的圖像檢索方法[J].福建電腦，2015（5）：19?20.

[9] 吳雅琴，王曉東.大數(shù)據(jù)挖掘中的混合差分進化K?Means無監(jiān)督聚類算法[J].重慶理工大學(xué)學(xué)報（自然科學(xué)），2019，15（5）：107?112.

[10] 王鳳領(lǐng).一種改進差分進化的自動聚類算法研究[J].數(shù)學(xué)的實踐與認(rèn)識，2018，48（21）：187?194.

[11] 王明威，萬幼川，高賢君，等.紋理影像特征選擇及K?means聚類優(yōu)化方法[J].國防科技大學(xué)學(xué)報，2017，39（6）：152?159.

[12] 樊一康，劉建偉.支持差分隱私保護及離群點消除的并行K?means算法[J].計算機應(yīng)用研究，2019，15（6）：1776?1781.

[13] 周艷平，蔡素，李金鵬.一種粒子群和改進自適應(yīng)差分進化混合算法及在生產(chǎn)調(diào)度中的應(yīng)用[J].計算機測量與控制，2019，27（8）：227?230.

[14] 宋鑫宏，張樂，方光輝.基于Voronoi盲區(qū)的差分進化WSN部署算法[J].軟件導(dǎo)刊，2017，16（4）：59?61.

[15] 胡闖，楊庚，白云璐.面向差分隱私保護的聚類算法[J].計算機科學(xué)，2019，46（2）：120?126.