亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合人工蜂群優(yōu)化的粗糙K-means聚類(lèi)算法

        2022-08-16 12:21:46葉廷宇
        計(jì)算機(jī)與生活 2022年8期

        葉廷宇,葉 軍,2+,王 暉,2,王 磊,2

        1.南昌工程學(xué)院 信息工程學(xué)院,南昌330000

        2.江西省水信息協(xié)同感知與智能處理重點(diǎn)實(shí)驗(yàn)室(南昌工程學(xué)院),南昌330000

        -means 是一種簡(jiǎn)單、實(shí)用、高效并得到廣泛應(yīng)用的聚類(lèi)算法,但該算法在處理模糊、不確定數(shù)據(jù)聚類(lèi)時(shí)有局限性。為此,Lingras等人引入粗糙集理論對(duì)其進(jìn)行改進(jìn),提出了一種粗糙-means 聚類(lèi)算法,該算法把確定屬于某個(gè)簇類(lèi)的數(shù)據(jù)劃分到下近似集,不能確定屬于某個(gè)簇類(lèi)的模糊數(shù)據(jù)歸為邊界集,較好地解決了模糊、不確定數(shù)據(jù)聚類(lèi)問(wèn)題。但粗糙-means 聚類(lèi)算法采用人為設(shè)置固定權(quán)重和閾值方式影響了聚類(lèi)精度,以及初始中心的隨機(jī)選取導(dǎo)致聚類(lèi)結(jié)果穩(wěn)定性降低。研究者從不同角度提出了改進(jìn)算法,文獻(xiàn)[3-4]結(jié)合模糊集,引入了模糊隸屬度,通過(guò)隸屬度計(jì)算下近似和邊界集中對(duì)象的權(quán)重,改變了所有對(duì)象取相同權(quán)重值的問(wèn)題,增強(qiáng)了算法邊界處理能力。文獻(xiàn)[5-6]提出了一種根據(jù)每次迭代的聚類(lèi)結(jié)果動(dòng)態(tài)地確定下一次迭代聚類(lèi)中樣本點(diǎn)的自適應(yīng)權(quán)重方法,改進(jìn)了原算法對(duì)經(jīng)驗(yàn)權(quán)重的依賴。文獻(xiàn)[7]引入粒計(jì)算理論,運(yùn)用組合法尋找初始聚類(lèi)中心,并且通過(guò)動(dòng)態(tài)調(diào)整上近似集和邊界集的權(quán)重,避免了孤立點(diǎn)的影響。文獻(xiàn)[8]提出了一種基于香農(nóng)熵理論熵的加權(quán)多視角協(xié)同劃分模糊聚類(lèi)算法,給出了多視角自適應(yīng)加權(quán)方法,提高了聚類(lèi)性能。文獻(xiàn)[9]用上近似取代了聚類(lèi)中心更新公式中的邊界集,以相對(duì)距離取代絕對(duì)距離作為相異度的判斷標(biāo)準(zhǔn),有效減小了離群點(diǎn)影響。文獻(xiàn)[10]在歐氏距離中引入權(quán)值系數(shù)來(lái)初始化聚類(lèi)中心,給出了一種自適應(yīng)確定值的方法,改變了傳統(tǒng)隨機(jī)給定值的方式,提高了穩(wěn)定性。文獻(xiàn)[11-12]結(jié)合群智能優(yōu)化算法,分別用遺傳算法和蟻群算法改進(jìn)了初始中心點(diǎn)選擇方式,降低了初始中心點(diǎn)的敏感性和數(shù)據(jù)差異性帶來(lái)的不利影響。文獻(xiàn)[13]引入?yún)^(qū)間2-型模糊集度量概念,以此自適應(yīng)調(diào)整邊界區(qū)域的樣本對(duì)交叉簇類(lèi)的影響系數(shù),削弱了邊界區(qū)域?qū)π∫?guī)模類(lèi)簇的中心均值迭代的影響。文獻(xiàn)[14-15]提出了一種以局部密度和距離的混合度量方法來(lái)確定邊界區(qū)域的對(duì)象歸屬,給出了一種魯棒學(xué)習(xí)策略尋找到最佳簇類(lèi)數(shù),提高了交疊類(lèi)簇的聚類(lèi)精度。文獻(xiàn)[16-17]引入了一種對(duì)簇類(lèi)不均衡程度的自適應(yīng)度量方法,提出了以類(lèi)簇不平衡程度作為自適應(yīng)調(diào)整權(quán)值的粗糙模糊均值聚類(lèi)算法,提高了聚類(lèi)效果。文獻(xiàn)[18]提出了一種以維度加權(quán)的歐氏距離計(jì)算樣本的密度和權(quán)重的方法,以此為基礎(chǔ)選擇個(gè)聚類(lèi)中心,降低了初始聚類(lèi)中心選取的敏感性。文獻(xiàn)[19]定義了一種點(diǎn)與集合的計(jì)算方法,通過(guò)不斷找出滿足一定數(shù)量離集合最近點(diǎn)來(lái)得到個(gè)聚類(lèi)中心,提高了初始聚類(lèi)中心的穩(wěn)定性。

        隨著聚類(lèi)的應(yīng)用領(lǐng)域不斷擴(kuò)大,其研究?jī)r(jià)值凸顯,進(jìn)一步提高聚類(lèi)質(zhì)量是廣大研究者一直努力的目標(biāo)。人工蜂群算法(artificial bee colony,ABC)是較晚涌現(xiàn)出的群智能算法。一些研究結(jié)果表明,人工蜂群算法在求解連續(xù)優(yōu)化問(wèn)題時(shí)性能要優(yōu)于蟻群、遺傳算法和粒子群優(yōu)化算法。本文將聚類(lèi)看作一個(gè)組合優(yōu)化的問(wèn)題,引入ABC 算法進(jìn)行了改進(jìn):一是設(shè)計(jì)了更為合理的自適應(yīng)調(diào)整上近似、邊界權(quán)重和閾值方法,并且在此基礎(chǔ)上定義了新的聚類(lèi)中心更新計(jì)算公式;二是構(gòu)造了蜜源適應(yīng)度函數(shù)引導(dǎo)蜂群向最優(yōu)秀的蜜源進(jìn)行全局搜索,且避免搜索中陷入局部最優(yōu);三是以ABC 算法每次迭代求得的最優(yōu)解作為初始聚類(lèi)中心并同時(shí)進(jìn)行聚類(lèi)迭代,克服了原算法對(duì)初始聚類(lèi)中心敏感等問(wèn)題。實(shí)驗(yàn)結(jié)果表明,本文算法提高了聚類(lèi)效果。

        1 粗糙K-means聚類(lèi)及其改進(jìn)算法

        Lingras 等人把粗糙集的上、下近似兩個(gè)算子引入-均值算法中,提出了粗糙-means 聚類(lèi)算法,其主要內(nèi)容如下:

        該算法主要思想是:以是否存在其他聚類(lèi)中心與對(duì)象的距離與最小距離的差小于閾值為依據(jù),把待分類(lèi)對(duì)象分配到上近似或下近似集,并由式(1)更新聚類(lèi)中心的位置,不斷重復(fù)這個(gè)過(guò)程,直到每個(gè)聚類(lèi)中心不變。

        在后續(xù)大量的改進(jìn)算法中,典型的有Mitra等人提出的粗糙模糊-means 算法,該算法在考慮下近似和邊界集中對(duì)象分布不均勻的基礎(chǔ)上引入模糊隸屬度,改進(jìn)了原算法賦予對(duì)象相同的權(quán)重的缺陷,隸屬度定義為:

        其得到的類(lèi)C的聚類(lèi)中心m更新公式為:

        其中,為類(lèi)別數(shù),d為數(shù)據(jù)點(diǎn)x到類(lèi)C中心點(diǎn)的距離,為模糊指數(shù),和分別表示下近似和邊界集的權(quán)重,且+=1。

        隨后,Maji 等人對(duì)上述式(3)隸屬度定義進(jìn)行了修正,定義如下:

        式(4)把屬于下近似集即確定了歸屬關(guān)系的對(duì)象隸屬度設(shè)為1,屬于邊界集即不能確定歸屬關(guān)系的對(duì)象需要計(jì)算隸屬度,其得到聚類(lèi)中心更新公式與式(3)一樣。顯然,式(4)更符合實(shí)際,并且減少了計(jì)算工作量。

        上述這些改進(jìn)方法是以對(duì)象的實(shí)際分布距離為依據(jù),賦予對(duì)象不同的權(quán)重值,修正了下近似和邊界集中所有對(duì)象取相同的權(quán)重的缺陷。但是,上述研究并沒(méi)有改變、和采用固定權(quán)重的方式,其忽視了它們?cè)诘^(guò)程中對(duì)聚類(lèi)中心的影響。

        2 人工蜂群及其改進(jìn)算法

        Karaboga 等人模擬自然界蜂群的采蜜行為提出了人工蜂群算法,該算法將蜜源位置轉(zhuǎn)化成優(yōu)化問(wèn)題的可行解,蜜源的含蜜量對(duì)應(yīng)優(yōu)化問(wèn)題的適應(yīng)度函數(shù),蜂群尋找蜜源的過(guò)程是求最優(yōu)解的過(guò)程。蜂群由引領(lǐng)蜂、跟隨蜂和偵察蜂三種分工不同的個(gè)體構(gòu)成。一般引領(lǐng)蜂個(gè)數(shù)和蜜源個(gè)數(shù)相等,且一個(gè)蜜源只有一只引領(lǐng)蜂開(kāi)采,算法基本步驟如下:

        初始化階段:隨機(jī)產(chǎn)生個(gè)候選解(即蜜源位置){,,…,x},它們是維向量,并計(jì)算每個(gè)候選解的適應(yīng)度,并從大到小排列,前一半為引領(lǐng)蜂,后一半為跟隨蜂和偵察蜂。設(shè)定蜂群總循環(huán)搜索次數(shù)為,每個(gè)蜜源的可重復(fù)開(kāi)采次數(shù)為。

        引領(lǐng)階段:引領(lǐng)蜂在其蜜源周?chē)M(jìn)行搜索,并由式(5)進(jìn)行蜜源位置更新,保留適應(yīng)度值較好的蜜源。

        其中,v表示新蜜源位置,∈{1,2,…,},∈{1,2,…,},、為隨機(jī)數(shù)且≠,φ為[-1,1]內(nèi)的隨機(jī)數(shù),其控制著x鄰域的搜索范圍。

        跟隨階段:跟隨蜂在獲得引領(lǐng)蜂傳達(dá)的蜜源信息后,采用輪盤(pán)賭方法,由式(6)得到的概率選擇引領(lǐng)蜂,然后跟隨蜂依據(jù)式(5)在蜜源的領(lǐng)域產(chǎn)生一個(gè)新的蜜源,并且比較前后兩個(gè)蜜源的適應(yīng)度值,保留函數(shù)適應(yīng)度較好的蜜源。

        其中,p是第個(gè)解的選擇概率;fit是第個(gè)解的適應(yīng)度值;是解的個(gè)數(shù)。當(dāng)引領(lǐng)蜂經(jīng)過(guò)次循環(huán)后,蜜源不再變化,則引領(lǐng)蜂離開(kāi)該蜜源,變?yōu)閭刹旆洌S機(jī)產(chǎn)生新的蜜源。

        人工蜂群算法具有魯棒性強(qiáng)、搜索能力強(qiáng)等優(yōu)點(diǎn)。但存在容易陷入局部最優(yōu)、后期收斂速度慢等問(wèn)題,研究者們提出了多種改進(jìn)方法。如Wang等人針對(duì)不同問(wèn)題設(shè)計(jì)了與之對(duì)應(yīng)的目標(biāo)函數(shù),提出一種多策略蜂群算法;Gao 等將差異進(jìn)化算法與全局最優(yōu)粒子改進(jìn)的蜂群算法相結(jié)合,提出了一種收斂速度更快的算法,該方法將群體最好解的信息引入到候選蜜源的生成中,位置更新公式修改為:

        其中,x為迄今蜂群找到的最好蜜源,α∈[0,1]。本文借鑒Gao 等構(gòu)建的蜜源位置更新式(7)來(lái)優(yōu)化本文算法。

        3 人工蜂群優(yōu)化的粗糙K-means聚類(lèi)算法

        3.1 下近似和邊界權(quán)重的改進(jìn)

        在粗糙-means 算法中,聚類(lèi)中心更新式(1)中的和采用的是固定的權(quán)重值,即在整個(gè)聚類(lèi)過(guò)程中這兩個(gè)值始終保持不變。由于聚類(lèi)中心的尋找是一個(gè)不斷迭代更新的動(dòng)態(tài)過(guò)程,這種固定權(quán)重的方式?jīng)]有客觀反映下近似和邊界集對(duì)聚類(lèi)中心影響的程度。合理度量下近似和邊界區(qū)域?qū)τ诰垲?lèi)中心位置更新影響的重要度,動(dòng)態(tài)分配和的權(quán)值是提高聚類(lèi)精度的有效途徑之一。為此,文獻(xiàn)[5]和文獻(xiàn)[7]提出了改進(jìn)方法,在分析了聚類(lèi)中心初期與后期位置的變化情況下,構(gòu)造了一個(gè)Logistic增長(zhǎng)曲線:

        式中,為聚類(lèi)算法迭代次數(shù),、、為函數(shù)的調(diào)節(jié)參數(shù)。從式(8)可以看出,隨著迭代次數(shù)的增加,權(quán)重值逐漸增大,而逐漸減小,該曲線在一定程度上動(dòng)態(tài)地反映了其對(duì)聚類(lèi)中心作用的重要程度。但該曲線存在不足:一是,曲線中的調(diào)節(jié)參數(shù)、和人為事先給定,主觀性強(qiáng),當(dāng)?shù)螖?shù)不斷增大時(shí),下近似集的權(quán)重幾乎沒(méi)有發(fā)生變化;二是,曲線沒(méi)有體現(xiàn)下近似和邊界集中對(duì)象數(shù)量的變化情況,也沒(méi)有反映不同對(duì)象在上近似和邊界集中分布的差異性。文獻(xiàn)[9]給出了一種以下近似集中對(duì)象個(gè)數(shù)和上近似集中對(duì)象個(gè)數(shù)比值的自適應(yīng)確定權(quán)值公式:

        文獻(xiàn)[12]給出了一種以下近似集中對(duì)象個(gè)數(shù)和邊界集中對(duì)象個(gè)數(shù)比值的自適應(yīng)確定權(quán)值公式:

        式(9)和式(10)以樣本對(duì)象的歸屬變化來(lái)動(dòng)態(tài)確定和的權(quán)重值,客觀上體現(xiàn)了在聚類(lèi)過(guò)程中上、下近似集和邊界集中數(shù)據(jù)對(duì)象數(shù)量的此消彼長(zhǎng)動(dòng)態(tài)變化情況。但是,僅以上、下近似集和邊界集中對(duì)象個(gè)數(shù)來(lái)確定權(quán)重,無(wú)法反映類(lèi)內(nèi)和內(nèi)間樣本對(duì)象分布的差異性。事實(shí)上,同一類(lèi)別內(nèi),數(shù)據(jù)集中的對(duì)象相對(duì)于聚類(lèi)中心的距離分布不盡相同,其對(duì)聚類(lèi)中心的作用不一樣。不同類(lèi)別間,數(shù)據(jù)集中的對(duì)象對(duì)于聚類(lèi)中心的重要度也存在區(qū)別。對(duì)于和權(quán)重值的確定,不僅要考慮下近似和邊界集中對(duì)象數(shù)量變化的影響,也要體現(xiàn)對(duì)象對(duì)于聚類(lèi)中心因距離分布差異性帶來(lái)的影響。綜合這些因素,本文給出一種自適應(yīng)動(dòng)態(tài)調(diào)整下近似和邊界集的權(quán)重方法。

        設(shè)x為任意類(lèi)別C下近似集中的對(duì)象,mC的聚類(lèi)中心,則下近似集中對(duì)象到聚類(lèi)中心的距離分布為:

        設(shè)x為任意類(lèi)別C邊界集中的對(duì)象,mC的聚類(lèi)中心,則邊界集中對(duì)象到聚類(lèi)中心的距離分布為:

        3.2 閾值自適應(yīng)改進(jìn)

        閾值決定了樣本對(duì)象是劃分到類(lèi)別中的上近似還是下近似集中。在經(jīng)典的粗糙-means 算法中是人為給定的一個(gè)定值,這個(gè)值不會(huì)隨迭代而變化,這影響了對(duì)象的精確劃分。文獻(xiàn)[5]給出了一種動(dòng)態(tài)改變的方法:

        其中,為迭代次數(shù),>1。式(15)雖然可以動(dòng)態(tài)調(diào)整,但其沒(méi)有合理將對(duì)象劃分到所屬類(lèi)別的集合中。一個(gè)好的閾值應(yīng)能夠明確區(qū)分出樣本所屬的區(qū)域,得到的劃分中樣本歸屬的不確定性小。從聚類(lèi)過(guò)程對(duì)象變化情況來(lái)看,開(kāi)始時(shí),對(duì)象的歸屬關(guān)系不明確,應(yīng)該大一些,使得對(duì)象大多劃入上近似集;隨著迭代次數(shù)增加,對(duì)象的歸屬關(guān)系變得明朗,越來(lái)越多的對(duì)象劃入類(lèi)的下近似集,應(yīng)該小一些。而式(15)隨著迭代次數(shù)增加反而變大,這會(huì)讓一些本該劃分到下近似集中的對(duì)象劃歸到了邊界集中,使對(duì)象歸屬的不確定性較大,從而導(dǎo)致聚類(lèi)精度顯著下降。

        其中,是迭代次數(shù),>1,其對(duì)應(yīng)的閾值曲線如圖1所示。

        圖1 自適應(yīng)閾值的取值曲線Fig.1 Curve of adaptive threshold

        從圖1 可以看出,隨著迭代次數(shù)增加,逐漸變小,越來(lái)越多的對(duì)象被劃分到下近似集即確定集中,得到劃分中對(duì)象歸屬的不確定性不斷變小。顯然,逐漸變小可以加快對(duì)象被劃歸到下近似集中的步伐,有效減少迭代次數(shù),從而提高算法的收斂速度,這在后續(xù)的實(shí)驗(yàn)中也得到了驗(yàn)證。

        3.3 適應(yīng)度函數(shù)設(shè)計(jì)

        適應(yīng)度函數(shù)直接決定著蜂群的進(jìn)化方向、迭代次數(shù)以及解的優(yōu)劣。在ABC 算法中,吸引蜂群的主要因素取決于蜜源的含蜜量的多少,蜜源含蜜量越多,則代表它所處的位置好,其吸引能力就強(qiáng),由此得到的適應(yīng)度函數(shù)值越優(yōu)。為使同一類(lèi)別集合中的對(duì)象最大程度相似,而不同類(lèi)別集合中的對(duì)象最大程度相異,本文通過(guò)定義類(lèi)別內(nèi)聚集度和類(lèi)別間離散度函數(shù)來(lái)構(gòu)造目標(biāo)函數(shù),并以此來(lái)尋找最優(yōu)的初始聚類(lèi)中心并進(jìn)行聚類(lèi)。

        (類(lèi)內(nèi)聚集度函數(shù))設(shè)對(duì)象集={,,…,x},有個(gè)樣本,個(gè)聚類(lèi)中心C={,,…,m},則內(nèi)聚集度函數(shù)為:

        (類(lèi)間離散度函數(shù))設(shè)對(duì)象集={,,…,x},有個(gè)樣本,個(gè)聚類(lèi)中心C={,,…,m},則聚類(lèi)中心的類(lèi)間離散度函數(shù)為:

        (適應(yīng)度函數(shù))適應(yīng)度計(jì)算如下:

        其中,(C)為類(lèi)內(nèi)聚集度函數(shù)值,(C)為類(lèi)間離散度函數(shù)值。在式(19)中,類(lèi)內(nèi)聚集度距離越小,類(lèi)間離散度距離越大,適應(yīng)度函數(shù)值也就越大,獲得的聚類(lèi)效果越好。

        3.4 算法實(shí)現(xiàn)步驟

        本文算法的核心思想是以蜂群每次迭代得到的蜜源位置作為新的聚類(lèi)中心,并在此基礎(chǔ)上進(jìn)行粗糙-means聚類(lèi),交替進(jìn)行。算法將適應(yīng)度函數(shù)fit的值代表蜜源的質(zhì)量,由式(19)可知,fit值越大,蜜源的含蜜量越高,這樣既保證了每個(gè)類(lèi)別內(nèi)的樣本對(duì)象最大程度聚集,不同類(lèi)別之間的距離盡可能離散,從而可以避免孤立點(diǎn)的影響,提高了算法的魯棒性,并有效減少迭代次數(shù),在尋找到最優(yōu)的聚類(lèi)中心的同時(shí)得到最佳聚類(lèi)結(jié)果。算法的流程步驟如下:

        給定類(lèi)別個(gè)數(shù),初始閾值,引領(lǐng)蜂和跟隨蜂個(gè)數(shù)各為,最大迭代次數(shù),控制循環(huán)上限數(shù);當(dāng)前迭代次數(shù),初始值為1。

        根據(jù)式(19)計(jì)算各個(gè)蜜源的適應(yīng)度值,并按大小排序,將前一半設(shè)置為引領(lǐng)蜂,后一半為跟隨蜂。

        引領(lǐng)蜂按式(7)在鄰域內(nèi)搜索新的蜜源,采用貪婪選擇原則,若新蜜源適應(yīng)度值大于原蜜源值,則更新蜜源位置;否則,保持不變。搜索完成后,由式(6)計(jì)算概率p

        依據(jù)概率p,跟隨蜂基于輪盤(pán)賭規(guī)則選擇引領(lǐng)蜂,完成所有選擇后,按式(7)進(jìn)行鄰域搜索,同樣按照貪婪原則保留適應(yīng)度值高的蜜源。

        若有引領(lǐng)蜂在次迭代后,蜜源位置不改變,則引領(lǐng)蜂變?yōu)閭刹旆?,并隨機(jī)產(chǎn)生一個(gè)新的蜜源位置。

        若達(dá)到最大迭代次數(shù),則算法結(jié)束并輸出個(gè)簇類(lèi),否則轉(zhuǎn)到步驟3,=+1。

        3.5 算法時(shí)間復(fù)雜度分析

        與傳統(tǒng)的粗糙-means 算法時(shí)間復(fù)雜度(×××)相比,本文算法運(yùn)算次數(shù)更多。遺傳算法改進(jìn)的粗糙-means算法時(shí)間復(fù)雜度為(+×××),蟻群算法改進(jìn)的粗糙-means 算法時(shí)間復(fù)雜度約為(××××),其中為蟻群個(gè)數(shù)。顯然,本文算法運(yùn)算次數(shù)比文獻(xiàn)[11]和文獻(xiàn)[12]算法要少。但是,每執(zhí)行一次算法,本文算法的運(yùn)算量稍大一些。

        4 實(shí)驗(yàn)結(jié)果分析

        為驗(yàn)證本文算法的性能和效果,數(shù)據(jù)采用了UCI機(jī)器學(xué)習(xí)庫(kù)中五個(gè)數(shù)據(jù)集,如表1 所示。軟件環(huán)境為Win 7 操作系統(tǒng)及應(yīng)用軟件Matlab9.0,硬件為CPU Intel I5 1040 3.6 GHz,內(nèi)存6 GB。性能比較采用類(lèi)內(nèi)距離、類(lèi)間距離、準(zhǔn)確率、誤差平方、迭代次數(shù)和運(yùn)行時(shí)間等指標(biāo),與文獻(xiàn)[1](傳統(tǒng)的粗糙-means算法)、文獻(xiàn)[11](遺傳算法改進(jìn)的粗糙-means 算法)和文獻(xiàn)[12](蟻群算法改進(jìn)的粗糙-means算法)進(jìn)行比較。

        表1 實(shí)驗(yàn)數(shù)據(jù)集信息Table 1 Experimental dataset information

        實(shí)驗(yàn)中相關(guān)數(shù)據(jù)設(shè)置:文獻(xiàn)[1]和文獻(xiàn)[11]采用的是固權(quán)重方式,對(duì)不同參數(shù)值在Iris 數(shù)據(jù)集上實(shí)驗(yàn)得到的結(jié)果如圖2 所示,在上述其他數(shù)據(jù)集上也得到類(lèi)似結(jié)果。

        圖2 反映了固權(quán)重方式對(duì)和值敏感,不同的取值會(huì)改變聚類(lèi)中心位置,從而導(dǎo)致聚類(lèi)準(zhǔn)確率顯著下降,這說(shuō)明了固權(quán)重方式?jīng)]有準(zhǔn)確反映聚類(lèi)過(guò)程中下近似和邊界集對(duì)聚類(lèi)中心影響的程度。因此,實(shí)驗(yàn)時(shí)文獻(xiàn)[1]和文獻(xiàn)[11]取最佳值,=0.8,=0.2,=0.05;文獻(xiàn)[12]和本文算法采用自適應(yīng)權(quán)重,∈[0.5,0),取各數(shù)據(jù)集對(duì)應(yīng)的類(lèi)別數(shù),蜂群個(gè)數(shù)=60,=300,=20。分別在所選的5 個(gè)UCI 數(shù)據(jù)集上進(jìn)行20次實(shí)驗(yàn)取平均值,實(shí)驗(yàn)結(jié)果如表2~表6所示。

        圖2 Iris上不同權(quán)重取值的分類(lèi)準(zhǔn)確率Fig.2 Accuracy of different weight values on Iris

        表2 Iris數(shù)據(jù)集性能比較Table 2 Performance comparison on Iris dataset

        表3 Wine數(shù)據(jù)集性能比較Table 3 Performance comparison on Wine dataset dataset

        表4 Balance-Scale數(shù)據(jù)集性能比較Table 4 Performance comparison on Balance-Scale dataset

        表5 Segmentation 數(shù)據(jù)集性能比較Table 5 Performance comparison on Segmentation dataset

        表6 Sonar數(shù)據(jù)集性能比較Table 6 Performance comparison on Sonar dataset

        從式(17)和式(18)定義的類(lèi)內(nèi)和類(lèi)間距離可知,類(lèi)內(nèi)距離越小,對(duì)象對(duì)聚類(lèi)中心的分布越緊湊,對(duì)象相似度高;類(lèi)間距離大,則不同類(lèi)別中對(duì)象差異性大,得到的聚類(lèi)結(jié)果誤差就小。從表2~6 對(duì)比可知,本文算法在五個(gè)數(shù)據(jù)集上的類(lèi)內(nèi)距離、類(lèi)間距離、誤差平方和迭代次數(shù)四個(gè)指標(biāo)都明顯好于其他三個(gè)算法。準(zhǔn)確率比較上,本文算法在上述五個(gè)數(shù)據(jù)集上好于其他三個(gè)算法。在大數(shù)據(jù)和高維數(shù)據(jù)集上,傳統(tǒng)粗糙-means 算法聚類(lèi)的準(zhǔn)確率顯著下降,本文算法依然取得了較好的效果。在運(yùn)行時(shí)間上,由于本文算法每迭代一次,要計(jì)算下近似和邊界集中對(duì)象相對(duì)聚類(lèi)中心的距離分布和對(duì)象的隸屬度,計(jì)算量比其他三個(gè)文獻(xiàn)稍大,在Iris和Wine 數(shù)據(jù)集上程序運(yùn)行耗時(shí)稍多一些,在Balance-Scale、Segmentation 和Sonar 數(shù)據(jù)集上與文獻(xiàn)[12]相當(dāng)。

        對(duì)于聚類(lèi)效果比較,本文采用文獻(xiàn)[7]中用各類(lèi)內(nèi)對(duì)象對(duì)于整個(gè)數(shù)據(jù)中心的分布與類(lèi)內(nèi)對(duì)象距離的比值來(lái)衡量聚類(lèi)效果,它是一種有效衡量聚類(lèi)效果優(yōu)劣的指標(biāo)。其公式為:

        由式(20)可知,同一類(lèi)別中的對(duì)象分布越緊湊,距離越??;不同類(lèi)別中的對(duì)象之間越離散,其到整個(gè)數(shù)據(jù)中心的距離越大。顯然,比值的值越大,聚類(lèi)效果就越好。實(shí)驗(yàn)得到的四種算法在三個(gè)數(shù)據(jù)集上距離比值的情況分別如圖3~圖7 所示。

        從圖3~圖7 中的比值可以看出,本文算法得到了較好的聚類(lèi)效果,而且收劍速度明顯快于其他三個(gè)算法。顯然,由人工蜂群優(yōu)化的算法得到的聚類(lèi)結(jié)果更符合數(shù)據(jù)實(shí)際分布特征。

        圖3 Iris數(shù)據(jù)集上距離比值比較Fig.3 Object distance ratio on Iris dataset

        圖4 Wine數(shù)據(jù)集上距離比值比較Fig.4 Object distance ratio on Wine dataset

        圖5 Balance-Scale數(shù)據(jù)集上距離比值比較Fig.5 Object distance ratio on Balance-Scale dataset

        圖6 Segmentation 數(shù)據(jù)集上距離比值比較Fig.6 Object distance ratio on Segmentation dataset

        圖7 Sonar 數(shù)據(jù)集上距離比值比較Fig.7 Object distance ratio on Sonar dataset

        5 結(jié)束語(yǔ)

        本文結(jié)合人工蜂群算法,在借鑒研究者們研究成果的基礎(chǔ)上,對(duì)粗糙-means 聚類(lèi)算法進(jìn)行了改進(jìn)。在下近似和邊界集權(quán)重分配改進(jìn)方面,本文給出的自適應(yīng)動(dòng)態(tài)確定下近似和邊界集的權(quán)重方法,既考慮了下近似和邊界集中對(duì)象數(shù)量變化的影響,也沒(méi)有忽略對(duì)象對(duì)于聚類(lèi)中心因距離分布差異性帶來(lái)的影響,整體上提升了算法的性能。在初始聚類(lèi)中心優(yōu)化方面,每次迭代以蜂群找到的最好蜜源更新聚類(lèi)中心位置并進(jìn)行聚類(lèi),為改善算法因?qū)Τ跏紨?shù)據(jù)的敏感性帶來(lái)的不利影響提供了思路。但是,本文算法中設(shè)計(jì)的自適應(yīng)權(quán)重調(diào)整方式增加了算法的計(jì)算工作量,在高維且樣本數(shù)量多的數(shù)據(jù)集上更為明顯;另外,簇類(lèi)數(shù)值是事先根據(jù)已知簇類(lèi)數(shù)的數(shù)據(jù)集給定好的。事實(shí)上,在實(shí)際應(yīng)用中,很多時(shí)候事先并不知道數(shù)據(jù)集被分成多少簇類(lèi)最合適。因此,簇類(lèi)數(shù)的選取對(duì)算法的聚類(lèi)效果影響較大。后續(xù)將結(jié)合文獻(xiàn)[14]和文獻(xiàn)[15]提出的對(duì)未知簇類(lèi)魯棒學(xué)習(xí)策略,進(jìn)一步研究自適應(yīng)尋找最佳類(lèi)別數(shù)的方法。此外,優(yōu)化本文算法的計(jì)算工作量,降低算法的時(shí)間復(fù)雜度,提升算法的執(zhí)行效率也是今后要繼續(xù)開(kāi)展的研究工作。

        日本人妻免费一区二区三区| 人妻精品久久中文字幕| 亚洲日本一区二区在线观看| 国产草逼视频免费观看| 欧美xxxx做受欧美| 亚洲精品久久久久高潮| 一区二区三区婷婷中文字幕| 日韩午夜免费视频精品一区| 国产三级av在线播放| 色两性网欧美| 国产免费激情小视频在线观看| 丰满少妇被啪啪到高潮迷轩| 亚洲娇小与黑人巨大交| 亚洲日韩专区在线视频| 日本a一区二区三区在线| 97精品一区二区三区| 久久久久国产一区二区| 精品视频在线观看免费无码| 国产av一区二区三区狼人香蕉| 亚洲精品国产精品乱码视色| 国产99视频精品免视看9| 真人在线射美女视频在线观看| 丰满人妻被持续侵犯中出在线| 风流老太婆大bbwbbwhd视频| 在线永久看片免费的视频| 精品亚洲不卡一区二区| 精品亚洲一区二区三区四区五| 无码精品久久久久久人妻中字| 欧洲亚洲第一区久久久| 极品精品视频在线观看| 99在线精品免费视频| 国农村精品国产自线拍| 亚洲国产精品免费一区| 中文乱码字幕精品高清国产| 极品粉嫩小泬无遮挡20p| 少妇的诱惑免费在线观看| 国产内射一级一片内射高清视频1| 国产成人午夜无码电影在线观看| 人人看人人做人人爱精品| av免费在线手机观看| 欧美日韩午夜群交多人轮换|