*基金項(xiàng)目:宿州學(xué)院2022年度第二批院級(jí)科研平臺(tái)開放課題項(xiàng)目(編號(hào) 2022ykf26)的成果之一。
收稿日期:2024-5-12
作者簡介:王孟玉(),安徽宿州人,助教,研究方向:機(jī)器學(xué)習(xí)與人工智能。Email:1206611675@qq.com。
摘要:目標(biāo)函數(shù)的模糊聚類算法,是目前實(shí)際應(yīng)用最廣泛的模糊聚類算法,該類算法是將聚類問題轉(zhuǎn)換為帶約束條件的優(yōu)化問題。為了解決將數(shù)據(jù)聚類問題便捷轉(zhuǎn)化為數(shù)學(xué)問題,簡化聚類求解過程,方便對(duì)海量數(shù)據(jù)進(jìn)行聚類分析;該文設(shè)計(jì)了對(duì)目標(biāo)函數(shù)的聚類進(jìn)行轉(zhuǎn)換,將聚類算法的條件優(yōu)化問題轉(zhuǎn)化為線性約束的數(shù)學(xué)問題。通過構(gòu)建相似度函數(shù)的聚類方式,對(duì)數(shù)據(jù)集進(jìn)行相似度目標(biāo)集成。以便將該類算法更好的應(yīng)用于模式識(shí)別和圖像處理等領(lǐng)域中。
關(guān)鍵詞:目標(biāo)函數(shù),聚類算法,相似度
中圖分類號(hào):U495
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1674-9545(2024)02-0000-(00)
DOI:10.19717/j.cnki.jjun.2024.02.013
隨著人工智能技術(shù)的飛速發(fā)展,對(duì)海量數(shù)據(jù)集進(jìn)行聚類分析,越來越多的受到大家的青睞.基于目標(biāo)函數(shù)聚類算法的研究,就有了更加廣泛的應(yīng)用前景.但是當(dāng)處理的數(shù)據(jù)集規(guī)模越來越大,數(shù)據(jù)的維度和字段的設(shè)計(jì)更加復(fù)雜時(shí),采用傳統(tǒng)方式的聚類算法,已經(jīng)無法在短時(shí)間內(nèi)得到理想的結(jié)果.且常見的聚類算法只針對(duì)獨(dú)立的某個(gè)目標(biāo)函數(shù)優(yōu)化,聚類效果不理想;因而研究可將目標(biāo)函數(shù)設(shè)置多個(gè)目標(biāo)進(jìn)化點(diǎn)[1],在聚類算法進(jìn)行實(shí)現(xiàn)的時(shí)候,可將優(yōu)化后的算子重新設(shè)置,使之能夠在目標(biāo)函數(shù)的聚類算法中進(jìn)行快速迭代.此外,傳統(tǒng)的模糊聚類算法存在處理數(shù)據(jù)集不平衡問題.文章還設(shè)計(jì)解決了數(shù)據(jù)集的不平衡問題,使得通過聚類處理后的數(shù)據(jù)集更加平衡和穩(wěn)定[2].
1聚類算法的概述
1.1聚類算法的模型研究
劃分聚類算法[3]根據(jù)一些標(biāo)準(zhǔn),通過指定的數(shù)量將目標(biāo)數(shù)據(jù)進(jìn)行劃分.為了使聚類數(shù)據(jù)對(duì)異常值和噪聲值不產(chǎn)生敏感效益,提出了基于目標(biāo)函數(shù)的模糊聚類算法.通過將字母數(shù)加入修復(fù)部分可以解決聚類異常值,在進(jìn)行引入聯(lián)合式的競爭,就能夠使數(shù)據(jù)集的隸屬度聚類數(shù)降低,以便達(dá)到最佳值[4]-[6].
模糊聚類目標(biāo)函數(shù)模型,先建立關(guān)于目標(biāo)函數(shù)的一些表達(dá)式,通過數(shù)學(xué)規(guī)劃中的迭代優(yōu)化方法,進(jìn)行運(yùn)算可以得到關(guān)于目標(biāo)函數(shù)的最優(yōu)解[7].假設(shè)向量數(shù)據(jù)集K={k1, k2,…, kn},再試圖將n個(gè)樣本向量xi(i=1,2,…,n)進(jìn)行分為m個(gè)組G(i=1,2, …,m),同時(shí)求解每一組的聚類中心值mi,采用平方誤差準(zhǔn)則函數(shù),進(jìn)行改造目標(biāo)函數(shù)的公式如下所示.
P=∑mj=1Pj=∑mj=1∑nki‖xi-ci‖2(1)
1.2分類屬性的多目標(biāo)聚類算法
由于傳統(tǒng)的分類數(shù)據(jù)算法的指標(biāo)單一的原因,所以怎么能夠?qū)㈩惻c類之間的信息同步,進(jìn)行正常的編解碼操作得到聚類函數(shù)的目標(biāo)最優(yōu)解[8],已成為基于分類屬性的目標(biāo)聚類算法所要解決的主要問題.目前探索出的解決辦法是通過推算得到基于中心點(diǎn)的向量值,以中心點(diǎn)對(duì)應(yīng)的數(shù)值得出樣本數(shù)據(jù)的隸屬矩陣值,得到最終的聚類結(jié)果.應(yīng)用最廣泛的數(shù)據(jù)分類算法大多是以fkmd為原型,但由于某些場景下實(shí)驗(yàn)的局限性,得到的結(jié)果不理想[9].因而提出了以nsga-FMC為基礎(chǔ),把NSGA-Ⅱ和Fcentroids相融合的理念,尋求提升算法的性能,主要有算法的遺傳操作改進(jìn)、目標(biāo)函數(shù)改進(jìn)和樣本集中心的選取,最終得出算法的改進(jìn)流程[10].
1.3聚類算法的均衡化處理
聚類算法通常滿足平衡和不平衡的數(shù)據(jù)需要,因而要對(duì)相應(yīng)算法進(jìn)行數(shù)據(jù)集的均衡化處理.數(shù)據(jù)集分為人工智能學(xué)習(xí)分類法的不平衡數(shù)據(jù)集和平衡數(shù)據(jù)集問題.而在實(shí)際應(yīng)用中主要是探究怎么樣在同一不平衡數(shù)據(jù)集上,采用傳統(tǒng)意義上的均衡化處理算法,很少將樣本的差異化因素考慮在內(nèi),這樣做會(huì)在很大程度上偏離現(xiàn)實(shí)結(jié)果.因而需要對(duì)數(shù)據(jù)集分類的不平衡上對(duì)相應(yīng)的模糊聚類的算法進(jìn)行修正和改進(jìn).
2聚類算法的廣義泛化模糊聚類
對(duì)于聚類算法中的數(shù)據(jù)集均衡化處理,首先在設(shè)計(jì)聚類算法時(shí),要考慮信息容量對(duì)聚類結(jié)果的影響.即數(shù)據(jù)集從平衡轉(zhuǎn)為不平衡時(shí),樣本信息可能會(huì)對(duì)判決結(jié)果進(jìn)行干擾.其次要通過聚類算法的自動(dòng)機(jī)制主動(dòng)找尋樣本容量信息,進(jìn)而再根據(jù)數(shù)據(jù)集對(duì)樣本類別進(jìn)行改進(jìn).
2.1均衡聚類算法
對(duì)于處理數(shù)據(jù)集的均衡模糊均值算法,設(shè)計(jì)一般性參數(shù)p指標(biāo),數(shù)值范圍設(shè)為[1,+無窮),在降噪和平衡目標(biāo)參數(shù)2個(gè)方面起作用.當(dāng)p=1時(shí)即轉(zhuǎn)為FCM硬聚類算法,當(dāng)趨向于正的無窮大時(shí),通過算法得到的結(jié)果是類的中心轉(zhuǎn)化成數(shù)據(jù)的重心.算法構(gòu)造的過程是,以目標(biāo)函數(shù)(1)為基礎(chǔ),設(shè)置一般性參數(shù)P為1時(shí),目標(biāo)函數(shù)(2)則簡化為(3);具體過程如下.
J(U,Q)=∑nj=1∑ci=1upij∑ns=1upis‖xj-ci‖2(2)
JEFCM(U,Q)=∑ci=1∑nj=1uij∑nj=1uij‖xj-ci‖2""""""" (3)
在EFCM算法中,參數(shù)值uij和ci 是由迭代算法設(shè)計(jì)得出的預(yù)估值.∑ns=1upis代表第i個(gè)類的樣本容量.EFCM聚類算法中,聚類中心ci和隸屬矩陣U=(uij)×c×n通常用以下步驟確定.
(1)將粒子位置xi(t)的每c維分量構(gòu)成一組進(jìn)行單位化,單位化后的位置分量對(duì)應(yīng)為模糊隸屬度uij,滿足條件∑ni=1uij=2,從而實(shí)現(xiàn)模糊隸屬度矩陣U的初始化.
(2)通過公式:Ci=∑nk=1uikxk∑nk=1uik,i=1,2,3…m,計(jì)算聚類的中心C1,C2,C3…Cm.
(3)計(jì)算迭代次數(shù)超過參數(shù)t,數(shù)據(jù)集的最優(yōu)解所對(duì)應(yīng)的適應(yīng)度函數(shù)值接近于閥值時(shí),則及時(shí)終止算法.
(4)計(jì)算更新最優(yōu)解,最終確定粒子所對(duì)應(yīng)的位置和速度.
2.2 EFCM算法的實(shí)驗(yàn)分析
通過設(shè)置仿真實(shí)驗(yàn),可實(shí)現(xiàn)對(duì)算法可行性的驗(yàn)證.首先設(shè)定一個(gè)已知的類別數(shù)為n=3,第一次實(shí)驗(yàn),設(shè)置為數(shù)據(jù)集平衡的實(shí)驗(yàn),通過matlab實(shí)現(xiàn)正態(tài)分布函數(shù),對(duì)樣本集進(jìn)行高斯分解,設(shè)置分類中心坐標(biāo)值為(8.0,8.0)和(12.0,12.0);第一個(gè)分類的隨機(jī)樣本數(shù)為120,矩陣數(shù)值為[3 0,0 3];第二個(gè)分類的樣本數(shù)為30,協(xié)方差矩陣數(shù)值為[1 0,0 1];照此樣本容量的取值,通過EFCM算法對(duì)樣本值進(jìn)行聚類處理,的搭配的樣本空間分布如圖1所示.
設(shè)置為數(shù)據(jù)集不平衡的實(shí)驗(yàn),一般是先通過matlab設(shè)置正態(tài)分布函數(shù),對(duì)樣本數(shù)據(jù)集進(jìn)行高斯分解.設(shè)置的分類中心坐標(biāo)值為(6.0,6.0)和(10.0,10.0),分類的隨機(jī)樣本數(shù)為100,矩陣數(shù)值為[5 0,0 5];由于不同樣本容量的數(shù)值會(huì)導(dǎo)致樣本方差的不同,所以對(duì)于協(xié)方差的取值要嚴(yán)格參照樣本比例,對(duì)每個(gè)數(shù)據(jù)集在算法處理上進(jìn)行12次測試,算法的計(jì)算處理效果如圖2所示.
2.3均衡性C均值算法的廣義模糊聚類
模糊聚類算法中因素有以下三個(gè)方面,一是模糊隸屬度的表達(dá).模糊隸屬度體現(xiàn)了樣本與聚類中心的關(guān)系,當(dāng)樣本和聚類中心距離較大時(shí),聚類算法賦予樣本較小的模糊隸屬度,所以模糊隸屬度反比例于樣本、聚類中心距離.二是聚類中心的取定.為了聚類目標(biāo)函數(shù)最小化,聚類中心應(yīng)與模糊隸屬度較大的樣本靠近,換言之即聚類中心應(yīng)落入樣本聚集較多的地方.聚類中心主要通過兩種方法計(jì)算得到,一種是樣本模糊隸屬度加權(quán)平均,另外一種是通過生物進(jìn)化算法如遺傳算法尋優(yōu)估計(jì)得到.三是確定聚類目標(biāo)函數(shù).這三部分都包含了模數(shù)指標(biāo),且限制三個(gè)部分所包含的模糊指標(biāo)盡量是相近的關(guān)系.從目標(biāo)函數(shù)本身出發(fā)分析,一般會(huì)得到局部極小值和多個(gè)參數(shù)的求解方法.
GFCM算法的設(shè)計(jì)與構(gòu)造過程如下:
(1)首先通過廣義均衡性C均值算法,對(duì)目標(biāo)函數(shù)、隸屬度等數(shù)據(jù)進(jìn)行獨(dú)立賦值,得到目標(biāo)函數(shù)的最小值為:FGFCM(m,n)=∑px=1∑qy=1un1xy‖My-cx‖2,其中n1 >0,即為算法對(duì)應(yīng)目標(biāo)函數(shù)的指標(biāo)值.
(2)設(shè)定聚類中心計(jì)算公式為:
fi=∑mj=1un2ijxj∑mp=1un2ip,其中n2>0,即為該算法的模糊指標(biāo)值.利用fi計(jì)算p個(gè)聚類中心值p1,p2...pi.
(3)通過步驟(1)中的公式計(jì)算函數(shù)值,直到其數(shù)值小于某個(gè)確定的閥值時(shí)結(jié)束.
(4)通過公式gij=1∑cm=1pijpmj2n-1,其中參數(shù)n為該算法的模糊隸屬度的對(duì)應(yīng)指標(biāo).重新計(jì)算隸屬度矩陣;然后回到步驟(2)繼續(xù)執(zhí)行.
2.4 GFCM算法的仿真實(shí)驗(yàn)結(jié)果及分析結(jié)果分析
通過對(duì)GFCM算法的分析,基于普通數(shù)據(jù)集和UCT數(shù)據(jù)集的數(shù)據(jù)進(jìn)行算法的實(shí)測.次實(shí)驗(yàn)同時(shí)考慮了FCM算法的有效性,對(duì)兩種算法的取值指標(biāo)設(shè)置為n1=n2=n3>2, 隨機(jī)進(jìn)行仿真實(shí)驗(yàn)的比較,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行有效分析.
在實(shí)驗(yàn)中,設(shè)置圖像的合成像素為256x256,樣本集數(shù)據(jù)建立在高斯分布的樣本類之上,兩個(gè)樣本類的中心可設(shè)置為(6,6)和(12,12),樣本基數(shù)為200,對(duì)應(yīng)方差的矩陣值為[6 0,0 6],同時(shí)在FCM和GFCM算法上進(jìn)行20次實(shí)驗(yàn)數(shù)據(jù)集處理,計(jì)算分析實(shí)驗(yàn)精度,取其平均值.得到的樣本仿真實(shí)驗(yàn)的分布情況如表1所示.
3基于相似度的目標(biāo)集成聚類算法及實(shí)驗(yàn)分析
3.1相似度算法描述
首先是對(duì)交叉算子的引入,對(duì)DSCE計(jì)算部分進(jìn)行了改進(jìn),且將改進(jìn)后的算法應(yīng)用在對(duì)目標(biāo)的優(yōu)化過程中.其次在對(duì)改進(jìn)后的算法計(jì)算時(shí),可結(jié)合一般K-means算法進(jìn)行過程搜索.改進(jìn)后的多目標(biāo)集成聚類算法MDSCE的流程圖如圖3所示.
為了便于對(duì)聚類進(jìn)行劃分,可以更換編碼的方式,采取通過標(biāo)簽的方式進(jìn)行編碼.當(dāng)采用此種編碼方式時(shí),設(shè)置一個(gè)位置數(shù)據(jù)代表一個(gè)標(biāo)簽對(duì)應(yīng)每個(gè)被劃分后的數(shù)據(jù)節(jié)點(diǎn),此種劃分方法適應(yīng)于分類間隔性數(shù)據(jù)和連續(xù)性數(shù)據(jù)類型.接著對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),考慮基于DSMOS算法,處理數(shù)據(jù)集會(huì)產(chǎn)生多樣化的數(shù)據(jù)值,因而與多樣化的聚類種群效果相對(duì)應(yīng).預(yù)處理的方法通常使用最佳臨近分配的采樣方法,通過隨機(jī)抽樣,獲取新的樣本數(shù)據(jù);再將樣本中的子樣本數(shù)據(jù)在K-Means、average linkage等算法中生成聚類的結(jié)果,經(jīng)過上述過程處理,同時(shí)完成了對(duì)種群進(jìn)行初始化.
目標(biāo)函數(shù)的計(jì)算是通過歐氏距離和簇內(nèi)距離的累加,極大的提升該算法的適應(yīng)性,且計(jì)算結(jié)果的值越小,說明劃分的效果越好.計(jì)算公式如下所示.
dev(C)=∑Ci∈C∑Pi∈Mkd(Pi,Zk)(4)
其中,Zk代表簇?cái)?shù)據(jù)集Ci的中心,函數(shù)d(Pi,Zk)表示聚類數(shù)據(jù)的歐式距離.對(duì)于面向歐式距離的連通性函數(shù)而言,點(diǎn)到點(diǎn)數(shù)據(jù)分割到同一個(gè)簇的頻率計(jì)算方法如下所示.
f(xm,yij)=1i+1,xm∈Ci∧yij∈Mk0,其他(5)
其中,變量yij表示與數(shù)據(jù)節(jié)點(diǎn)xm相鄰接的第j個(gè)數(shù)據(jù)值.
3.2實(shí)驗(yàn)數(shù)據(jù)及分析
為了更好的測試驗(yàn)證多目標(biāo)聚類算法MDSCE實(shí)驗(yàn)的結(jié)果,可結(jié)合UCI數(shù)據(jù)庫中的數(shù)據(jù)集和,如:spectheart、cmc、Website phishing 、cardiotocography、vehile等,特征描述如表2所示.
在設(shè)計(jì)上述實(shí)驗(yàn)時(shí),首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)先設(shè)置初始數(shù)據(jù)集的處理次數(shù)為20;初始樣本種群數(shù)采用傳統(tǒng)的3種聚類算法生成,獲取的初始種群數(shù)為30.傳統(tǒng)的聚類算法設(shè)置參數(shù)k的取值為[5,20].本次實(shí)驗(yàn)對(duì)交叉算子和聚類算法的搜索步驟,均是基于初始種群數(shù)進(jìn)行,且此實(shí)驗(yàn)通過MDSCE與CSPA、DSCE算法進(jìn)行對(duì)比,對(duì)不同交叉算子計(jì)算時(shí),MDSCE的計(jì)算效果明顯優(yōu)于CSPA、DSCE算法.實(shí)驗(yàn)結(jié)果如表3所示.
通過相似度的聚類算法的設(shè)計(jì),引入新的聚類算法和交叉算子,在合并數(shù)據(jù)簇的時(shí)候不斷進(jìn)行迭代,與MDSCE在新一輪中進(jìn)行合并的次數(shù)始終設(shè)置為1次.此外,利用MDSCE算法在確定簇的數(shù)據(jù)值方面能生成聚類解的特點(diǎn),配合K-Means算法在UCI數(shù)據(jù)集上的使用,可以有效的提升MDSCE的聚類效果.
4總結(jié)
文章設(shè)計(jì)研究的廣義模糊聚類和面向相似度目標(biāo)函數(shù)的聚類算法,均是通過聚類算法,將目標(biāo)函數(shù)的聚類轉(zhuǎn)換成了線性約束的數(shù)學(xué)問題來加以解決.通過在分類監(jiān)督工作中是否考慮樣本容量,有效實(shí)現(xiàn)了數(shù)據(jù)集分類不平衡問題;結(jié)合使用的K-Means聚類搜索過程,對(duì)數(shù)據(jù)集與聚類算法進(jìn)行相似度目標(biāo)集成,很大程度上提升了聚類搜索的質(zhì)量和搜索效率.通過上述研究過程,使得模糊聚類算法還有更大挖掘空間,在以后算法的計(jì)算效率上還會(huì)繼續(xù)提升,使得算法能夠不斷完善.
參考文獻(xiàn):
[1]張世文,李智勇,陳少淼,等.基于生態(tài)策略的動(dòng)態(tài)多目標(biāo)優(yōu)化算法[J].計(jì)算機(jī)研究與發(fā)展,2014,51(6):1313.
[2]陳獻(xiàn),胡麗瑩,林曉煒等.基于核非負(fù)矩陣分解的有向圖聚類算法[J].計(jì)算機(jī)應(yīng)用,2021,41(12):3447.
[3]張鵬. 基于深度學(xué)習(xí)混合模型的商品垃圾評(píng)論識(shí)別研究[D].鎮(zhèn)江:江蘇科技大學(xué),2019.
[4]李智林. 基于混合模型的非均衡數(shù)據(jù)分類研究[D].南京:南京郵電大學(xué),2018.
[5]崔國楠,王立松,康介祥,等.結(jié)合多目標(biāo)優(yōu)化算法的模糊聚類有效性指標(biāo)及應(yīng)用[J].計(jì)算機(jī)科學(xué),2021,48(10):197.
[6]崔國楠,王立松,康介祥,等.結(jié)合多目標(biāo)優(yōu)化算法的模糊聚類有效性指標(biāo)及應(yīng)用[J].計(jì)算機(jī)科學(xué),2021,48(10):197.
[7]祖志文,李秦.基于粒子群優(yōu)化的馬氏距離模糊聚類算法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,31(2):279.
[8]李娜,劉方.基于模糊聚類視區(qū)劃分的SAR目標(biāo)識(shí)別方法[J].電子學(xué)報(bào),2012,51(2):213-228.
[9]王會(huì)舉,李孟萱,黃衛(wèi)衛(wèi),等.基于隱馬爾可夫模型的多真值發(fā)現(xiàn)算法[J].計(jì)算機(jī)工程與科學(xué),2021,43(3):518.
[10]林杰. 基于深度學(xué)習(xí)的目標(biāo)檢測系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2022.
(責(zé)任編輯" 胡安娜)