亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混沌振蕩粒子群優(yōu)化的FCM文本聚類方法

        2015-03-16 07:24:40符保龍
        河池學(xué)院學(xué)報(bào) 2015年2期
        關(guān)鍵詞:適應(yīng)度均值聚類

        符保龍

        (柳州職業(yè)技術(shù)學(xué)院 電子信息工程系,廣西 柳州 545006)

        0 引言

        Internet包含了大量的數(shù)據(jù),如何快速的尋找到用戶關(guān)心的信息是當(dāng)前數(shù)據(jù)挖掘研究的一個(gè)重要問題。模糊聚類分析是一種無(wú)監(jiān)督的方法,它根據(jù)一定的規(guī)則自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分類。特別是模糊C均值聚類(Fuzzy C-Mean,簡(jiǎn)稱FCM)算法,它具有模糊處理能力,算法簡(jiǎn)單、運(yùn)算速度快,在很多領(lǐng)域得到了大量應(yīng)用。FCM算法聚類效果受初始值影響較大,且算法采用梯度下降對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,而目標(biāo)函數(shù)具有多峰值,使得算法易于陷入局部極值。很多專家學(xué)者對(duì)FCM算法進(jìn)行了改進(jìn),文獻(xiàn)[1]提出了一種NSFCM算法,該方法通過(guò)計(jì)算樣本的平均信息熵確定最終的聚類數(shù),使用密度函數(shù)設(shè)定FCM算法的初始聚類中心,具有較高的聚類精度和執(zhí)行效率;文獻(xiàn)[2]提出了一種基于粒子群算法的模糊均值聚類方法,該方法利用粒子群優(yōu)化算法(Particle Swarm Optimization,簡(jiǎn)稱PSO)優(yōu)化模糊均值聚類算法,獲得了較好的文本聚類效果,但PSO算法自身的缺點(diǎn)也影響了FCM算法的聚類效果;文獻(xiàn)[3]提出了一種基于多樣性策略的粒子群算法,該算法設(shè)計(jì)了一種吸引和排斥機(jī)制對(duì)粒子的速度進(jìn)行更新,同時(shí)引入物理學(xué)中的反彈理論設(shè)計(jì)了一種反彈機(jī)制,該機(jī)制能將解空間外的粒子反彈回解空間內(nèi),充實(shí)了群體粒子的多樣性,有利于算法搜索到全局最優(yōu)解。

        在文獻(xiàn)[1-3]的啟發(fā)下,為了解決FCM算法受聚類中心初始值影響大的問題,同時(shí)也為了避免標(biāo)準(zhǔn)PSO算法易于陷入早熟的缺點(diǎn),本文引入混沌思想對(duì)PSO算法進(jìn)行優(yōu)化,在尋優(yōu)的過(guò)程中利用一個(gè)振蕩環(huán)節(jié)來(lái)提升PSO算法的全局收斂性。把改進(jìn)的PSO算法和FCM算法相結(jié)合,提出一種基于混沌振蕩粒子群優(yōu)化的模糊C均值聚類算法(Chaos Concussion Particle Swarm Optimization Fuzzy C-Mean Algorithm,簡(jiǎn)稱CCPSO-FCM)。實(shí)驗(yàn)結(jié)果表明,CCPSO-FCM算法運(yùn)行速度更快,對(duì)大樣本的數(shù)據(jù)具有更好的聚類效果。

        1 FCM算法的基本原理

        FCM算法是在經(jīng)典C均值聚類算法的基礎(chǔ)上發(fā)展而來(lái)的,與C均值聚類算法不同在于FCM引入隸屬度的概念,樣本中的數(shù)據(jù)點(diǎn)通過(guò)隸屬度來(lái)進(jìn)行歸類。設(shè)有樣本集X={x1,x2,…,xn},根據(jù)要求把樣本集X劃分m類,m是常數(shù)且m>1。如果第i個(gè)樣本點(diǎn)屬于第i類的隸屬度用uij表示,且0≤uij≤1,此時(shí)X就可以用模糊矩陣U來(lái)表示,即:U=(uij)。當(dāng)滿足條件0<uij<n,此時(shí)FCM的目標(biāo)函數(shù)就可以定義為:

        其中Aj(j=1,2,…,m)表示樣本的聚類中心,b(b>1)是模糊指數(shù)。

        公式(1)的約束條件為:

        在公式(2)的約束下,通過(guò)引入拉格朗日乘子求解公式(1)可得:

        在公式(3)、(4)中,i=1,2,…,m,j=1,2,…,n。

        FCM算法的思想就是通過(guò)迭代公式(3)和公式(4),使得目標(biāo)函數(shù)j(u,A)最小。FCM每一次迭代都使得目標(biāo)函數(shù)j(u,A)減小,這種梯度下降的方式使算法易于陷入局部極小值,特別是樣本數(shù)量較大的時(shí)候,陷入局部極值的問題更加明顯。而且這種算法的目標(biāo)函數(shù)j(u,A)可能有多個(gè)極值,聚類初始值的選取對(duì)最終聚類的結(jié)果會(huì)產(chǎn)生很大影響。

        2 混沌因子和振蕩因子優(yōu)化的PSO算法基本原理

        PSO算法源于對(duì)鳥群尋找食物行為的觀察研究,它是一種全局尋優(yōu)方法,具有結(jié)構(gòu)簡(jiǎn)單、速度快且具備并行搜索能力,對(duì)問題的求解精度高。但PSO算法也存在學(xué)習(xí)因子不穩(wěn)定的問題,該原因?qū)?dǎo)致群體內(nèi)的個(gè)體在某個(gè)局部過(guò)多的徘徊,此時(shí)群體內(nèi)的其它個(gè)體將會(huì)向同一位置聚集,從而使算法陷入早熟。針對(duì)PSO算法存在的問題,我們引入一個(gè)振蕩環(huán)節(jié)來(lái)提升PSO算法的全局搜索性能[4-5],利用混沌理論來(lái)優(yōu)化PSO算法的局部搜索能力。

        標(biāo)準(zhǔn)PSO算法更新粒子速度和位置的方程如下:

        其中,w稱為慣性權(quán)重,一般其值都是從0.9線性變化到0.4;c1=c2=2,它們稱為加速常數(shù);r1和r2是兩個(gè)隨機(jī)數(shù),且r1∈[0,1]、r2∈[0,1];pbest(t)和gbest(t)分別表示t時(shí)刻粒子群中個(gè)體的最優(yōu)值和全局最優(yōu)值。

        為了解決標(biāo)準(zhǔn)PSO算法易于陷入早熟的問題,引入一個(gè)振蕩環(huán)節(jié),此時(shí)公式(1)可轉(zhuǎn)變?yōu)?

        在公式(7)中,ξ1和ξ2稱為振蕩系數(shù),它們的值隨著進(jìn)化代數(shù)的不同取不同的值,以此來(lái)保證PSO算法能保持種群的收斂性和多樣性,從而保證算法全局搜索和局部搜索的性能。為了能更好的描述問題,我們假定g表示當(dāng)前進(jìn)化代數(shù),Gmax表示算法設(shè)定的最大進(jìn)化代數(shù),ξ1和ξ2的取值分兩種情況:

        為了能進(jìn)一步保證PSO算法的多樣性,我們還引入了混沌理論對(duì)粒子的pbest和gbest進(jìn)行優(yōu)化,具體優(yōu)化步驟如下:

        Step 1:令k=0,將待優(yōu)化的粒子xkj通過(guò)公式(8)轉(zhuǎn)換到區(qū)間[0,1]內(nèi);

        其中i=1,2,…,n,j=1,2,…,m,第j維粒子搜索所能達(dá)到的上、下界分別用xmin,j和xmax,j表示;

        Step 2:把Step1得到的數(shù)據(jù)用Logistic函數(shù)映射成為混沌系列:

        Step 3:利用公式(10)對(duì)混沌變量sk+1j進(jìn)行映射,經(jīng)過(guò)轉(zhuǎn)換后xk+1j稱為決策變量:

        Step 4:對(duì)Step3中得到的序列進(jìn)行評(píng)估,選取適應(yīng)度最高的粒子和當(dāng)前的粒子進(jìn)行比較,如果優(yōu)于當(dāng)前解則進(jìn)行替換,否則保留當(dāng)前粒子并令k=k+1,然后跳轉(zhuǎn)到Step2。

        根據(jù)以上的討論,引入振蕩環(huán)節(jié)和混沌理論的PSO算法的步驟如下:

        Step1:隨機(jī)初始化種群中粒子的位置,利用公式(7)計(jì)算粒子的速度;

        Step2:計(jì)算種群內(nèi)所有粒子的適應(yīng)度,并保存各自的位置和速度,把適應(yīng)度值最高的粒子的位置和適應(yīng)值保存在gbest中;

        Step3:更新所有粒子的速度和位置;

        Step4:再次計(jì)算所有粒子的適應(yīng)度并降序排序,保留前面20%的粒子;

        Step5:按本文所討論的混沌步驟更新粒子的pbest和gbest;

        Step6:如果滿足設(shè)定的閾值或達(dá)到最大進(jìn)化代數(shù),則輸出計(jì)算結(jié)果,算法結(jié)束,否則,跳轉(zhuǎn)到Step2。

        3 基于混沌振蕩粒子群優(yōu)化的FCM算法

        3.1 粒子編碼

        CCPSO-FCM算法的目標(biāo)是確定最優(yōu)的聚類中心,因此算法中的粒子采用實(shí)數(shù)編碼,每一個(gè)粒子分別表示每一個(gè)待確定的聚類中心Aj(j=1,2,…,m),對(duì)于一個(gè)樣本集X={x1,x2,…,xn}來(lái)說(shuō),如果用aij來(lái)表示第i個(gè)粒子的第j個(gè)聚類中心,則樣本集X的聚類中心可以形成一個(gè)集合Zi=(ai1,ai2,…,aim)。

        3.2 適應(yīng)度函數(shù)

        為了簡(jiǎn)化問題,我們使用如下的函數(shù)作為CCPSO-FCM算法的適應(yīng)度函數(shù)。即:

        公式(11)表明,如果J(u,A)的值越小,則粒子群中個(gè)體適應(yīng)度值越大,即CCPSO-FCM算法的聚類效果越好。

        3.3 CCPSO-FCM算法的具體實(shí)現(xiàn)步驟

        CCPSO-FCM算法的具體執(zhí)行步驟如下:

        Step1:初始化算法的各種參數(shù),如:聚類中心類別m、模糊加權(quán)指數(shù)b、粒子群規(guī)模N等;

        Step2:隨機(jī)生成粒子的初始位置Zi并初始化它們的速度vi;

        Step3:根據(jù)公式(3)、(4)計(jì)算各樣本的隸屬度;

        Step4:利用公式(11)計(jì)算所有粒子的適應(yīng)度;

        Step5:執(zhí)行本文設(shè)計(jì)的混沌振蕩環(huán)節(jié)來(lái)更新粒子的速度和位置;

        Step6:如果滿足設(shè)定的閾值或達(dá)到最大進(jìn)化代數(shù),則輸出結(jié)果,算法結(jié)束,否則,跳轉(zhuǎn)到Step2。

        4 實(shí)驗(yàn)及結(jié)果分析

        為了驗(yàn)證CCPSO-FCM算法的有效性,我們從復(fù)旦大學(xué)文本分類語(yǔ)料庫(kù)中隨機(jī)選取了體育、軍事、房地產(chǎn)、經(jīng)濟(jì)以及科技等5個(gè)大類,每一類文章選200篇,共1 000篇文獻(xiàn)進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)前,必須先對(duì)所有的文檔進(jìn)行分詞、詞頻統(tǒng)計(jì)、特征選擇等預(yù)處理,最后得到的文本特征向量維數(shù)為4 165。實(shí)驗(yàn)的硬件配置為酷睿i3CPU 2.8 GHz、4 G內(nèi)存。軟件環(huán)境為64位Win7系統(tǒng),采用Matlab7編程實(shí)現(xiàn)。實(shí)驗(yàn)所采用的相關(guān)參數(shù)的值設(shè)置如下:模糊指數(shù)b=2、最大進(jìn)化代數(shù)Gmax=500,粒子群規(guī)模N=20。由于涉及到5類文檔,因此本實(shí)驗(yàn)中選擇的聚類中心數(shù)m=5,實(shí)驗(yàn)結(jié)果采用準(zhǔn)確率和召回率這兩個(gè)評(píng)價(jià)指標(biāo)。經(jīng)過(guò)多次運(yùn)行,取結(jié)果最好的一次,如表1所示。

        表1 CCPSO-FCM算法的實(shí)驗(yàn)結(jié)果

        從表1可以看到,CCPSO-FCM算法具有較高的準(zhǔn)確率和召回率。為了能進(jìn)一步證明CCPSO-FCM算法的性能,我們把它與PSO-FCM算法和FCM算法在經(jīng)濟(jì)類文檔上進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。

        表2 三種算法的對(duì)比實(shí)驗(yàn)結(jié)果

        從表2中可以看出,沒有經(jīng)過(guò)優(yōu)化的FCM算法性能最差,主要原因在于聚類中心的初始值是隨機(jī)的,對(duì)算法的性能影響很大,經(jīng)過(guò)PSO優(yōu)化的FCM算法相對(duì)FCM算法在性能上有所提升,這主要是因?yàn)樵诰垲愔行牡某跏贾到?jīng)過(guò)PSO算法優(yōu)化后趨于合理。本文提出的CCPSO-FCM算法明顯要優(yōu)于其它兩種算法,這主要得益于改進(jìn)算法設(shè)計(jì)的振蕩環(huán)節(jié)增加了粒子種群的多樣性,同時(shí)引入的混沌搜索環(huán)節(jié)能有效保證粒子群能搜索到局部極值,保證了算法的收斂性。

        5 總結(jié)

        本文提出了基于混沌振蕩粒子群優(yōu)化的模糊C均值聚類方法,該方法在標(biāo)準(zhǔn)PSO算法中設(shè)計(jì)了一個(gè)振蕩環(huán)節(jié),同時(shí)引入混沌理論來(lái)進(jìn)一步增加粒子群的多樣性和收斂性。將改進(jìn)后的PSO算法和FCM算法相互結(jié)合,并應(yīng)用于文本挖掘中。仿真實(shí)驗(yàn)表明,相對(duì)于PSO-FCM算法和FCM算法,CCPSO-FCM算法具有良好的全局搜索能力和收斂速度,有效提升了傳統(tǒng)FCM算法的聚類效果,對(duì)文本挖掘算法是一種有益的補(bǔ)充。

        [1]劉志勇,耿新青.基于模糊聚類的文本挖掘算法[J].計(jì)算機(jī)工程,2009,35(5):45-49.

        [2]葉吉祥,林泉.基于粒子群算法的文檔模糊均值聚類分析[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(6):1 446-1 448.

        [3]徐剛,楊玉群,劉斌斌,等.一種基于多樣性策略的粒子群算法[J].南昌大學(xué)學(xué)報(bào)(理科版),2013,37(1):17-21.

        [4]耿立艷,趙鵬,張占福.基于二階振蕩微粒群最小二乘支持向量機(jī)的物流需求預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2012,29(7):2 558-2 560.

        [5]胥小波,鄭康峰,李丹,等.新的混沌粒子群優(yōu)化算法[J].通信學(xué)報(bào),2012,33(1):24-30.

        猜你喜歡
        適應(yīng)度均值聚類
        改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
        基于DBSACN聚類算法的XML文檔聚類
        均值不等式失效時(shí)的解決方法
        基于空調(diào)導(dǎo)風(fēng)板成型工藝的Kriging模型適應(yīng)度研究
        均值與方差在生活中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        關(guān)于均值有界變差函數(shù)的重要不等式
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        對(duì)偶均值積分的Marcus-Lopes不等式
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        欧美日韩国产色综合一二三四| 少妇私密会所按摩到高潮呻吟 | 国产另类av一区二区三区| 亚洲精品国产av成拍| 中文字幕女同人妖熟女| 激情精品一区二区三区| 性高朝久久久久久久3小时| 粗大的内捧猛烈进出看视频| 99精品国产一区二区三区不卡 | 国产午夜伦鲁鲁| 饥渴的熟妇张开腿呻吟视频| 欧美俄罗斯乱妇| 久久99国产精品尤物| 欧美日韩激情在线一区二区| 一本色道久久综合亚洲精品蜜臀| 精品国产车一区二区三区| av高潮一区二区三区| 日本人妖熟女另类二区| 凹凸在线无码免费视频| 97超在线视频免费| 中文字幕在线久热精品| AV中文字幕在线视| 97久久久一区二区少妇| 91精品啪在线观九色| 久久久久亚洲精品男人的天堂| 精品无码无人网站免费视频| 老熟女毛茸茸浓毛| 国产在视频线精品视频二代| 久久夜色精品国产九色| 日产国产亚洲精品系列| 亚洲悠悠色综合中文字幕| 和外国人做人爱视频| 国产精品成人av在线观看 | 精品亚洲第一区二区三区| 极品老师腿张开粉嫩小泬| 无码av一区二区大桥久未| 性欧美大战久久久久久久久| 国产真实露脸4p视频| 中文字幕日韩一区二区不卡| 精品极品一区二区三区| 好男人社区影院www|