亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

復(fù)雜數(shù)據(jù)的目標(biāo)函數(shù)聚類算法的研究與應(yīng)用

2024-01-01 00:00:00王孟玉

九江學(xué)院學(xué)報(bào)(自然科學(xué)版) 2024年2期

*基金項(xiàng)目：宿州學(xué)院2022年度第二批院級(jí)科研平臺(tái)開放課題項(xiàng)目（編號(hào) 2022ykf26）的成果之一。

收稿日期：2024-5-12

作者簡介：王孟玉（），安徽宿州人，助教，研究方向：機(jī)器學(xué)習(xí)與人工智能。Email：1206611675@qq.com。

摘要：目標(biāo)函數(shù)的模糊聚類算法，是目前實(shí)際應(yīng)用最廣泛的模糊聚類算法，該類算法是將聚類問題轉(zhuǎn)換為帶約束條件的優(yōu)化問題。為了解決將數(shù)據(jù)聚類問題便捷轉(zhuǎn)化為數(shù)學(xué)問題，簡化聚類求解過程，方便對(duì)海量數(shù)據(jù)進(jìn)行聚類分析；該文設(shè)計(jì)了對(duì)目標(biāo)函數(shù)的聚類進(jìn)行轉(zhuǎn)換，將聚類算法的條件優(yōu)化問題轉(zhuǎn)化為線性約束的數(shù)學(xué)問題。通過構(gòu)建相似度函數(shù)的聚類方式，對(duì)數(shù)據(jù)集進(jìn)行相似度目標(biāo)集成。以便將該類算法更好的應(yīng)用于模式識(shí)別和圖像處理等領(lǐng)域中。

關(guān)鍵詞：目標(biāo)函數(shù)，聚類算法，相似度

中圖分類號(hào)：U495

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1674-9545（2024）02-0000-（00）

DOI：10.19717/j.cnki.jjun.2024.02.013

隨著人工智能技術(shù)的飛速發(fā)展，對(duì)海量數(shù)據(jù)集進(jìn)行聚類分析，越來越多的受到大家的青睞.基于目標(biāo)函數(shù)聚類算法的研究，就有了更加廣泛的應(yīng)用前景.但是當(dāng)處理的數(shù)據(jù)集規(guī)模越來越大，數(shù)據(jù)的維度和字段的設(shè)計(jì)更加復(fù)雜時(shí)，采用傳統(tǒng)方式的聚類算法，已經(jīng)無法在短時(shí)間內(nèi)得到理想的結(jié)果.且常見的聚類算法只針對(duì)獨(dú)立的某個(gè)目標(biāo)函數(shù)優(yōu)化，聚類效果不理想；因而研究可將目標(biāo)函數(shù)設(shè)置多個(gè)目標(biāo)進(jìn)化點(diǎn)［1］，在聚類算法進(jìn)行實(shí)現(xiàn)的時(shí)候，可將優(yōu)化后的算子重新設(shè)置，使之能夠在目標(biāo)函數(shù)的聚類算法中進(jìn)行快速迭代.此外，傳統(tǒng)的模糊聚類算法存在處理數(shù)據(jù)集不平衡問題.文章還設(shè)計(jì)解決了數(shù)據(jù)集的不平衡問題，使得通過聚類處理后的數(shù)據(jù)集更加平衡和穩(wěn)定［2］.

1聚類算法的概述

1.1聚類算法的模型研究

劃分聚類算法［3］根據(jù)一些標(biāo)準(zhǔn)，通過指定的數(shù)量將目標(biāo)數(shù)據(jù)進(jìn)行劃分.為了使聚類數(shù)據(jù)對(duì)異常值和噪聲值不產(chǎn)生敏感效益，提出了基于目標(biāo)函數(shù)的模糊聚類算法.通過將字母數(shù)加入修復(fù)部分可以解決聚類異常值，在進(jìn)行引入聯(lián)合式的競爭，就能夠使數(shù)據(jù)集的隸屬度聚類數(shù)降低，以便達(dá)到最佳值［4］-［6］.

模糊聚類目標(biāo)函數(shù)模型，先建立關(guān)于目標(biāo)函數(shù)的一些表達(dá)式，通過數(shù)學(xué)規(guī)劃中的迭代優(yōu)化方法，進(jìn)行運(yùn)算可以得到關(guān)于目標(biāo)函數(shù)的最優(yōu)解［7］.假設(shè)向量數(shù)據(jù)集K={k1， k2，…， kn}，再試圖將n個(gè)樣本向量xi（i=1，2，…，n）進(jìn)行分為m個(gè)組G（i=1，2， …，m），同時(shí)求解每一組的聚類中心值mi，采用平方誤差準(zhǔn)則函數(shù)，進(jìn)行改造目標(biāo)函數(shù)的公式如下所示.

P=∑mj=1Pj=∑mj=1∑nki‖xi－ci‖2（1）

1.2分類屬性的多目標(biāo)聚類算法

由于傳統(tǒng)的分類數(shù)據(jù)算法的指標(biāo)單一的原因，所以怎么能夠?qū)㈩惻c類之間的信息同步，進(jìn)行正常的編解碼操作得到聚類函數(shù)的目標(biāo)最優(yōu)解［8］，已成為基于分類屬性的目標(biāo)聚類算法所要解決的主要問題.目前探索出的解決辦法是通過推算得到基于中心點(diǎn)的向量值，以中心點(diǎn)對(duì)應(yīng)的數(shù)值得出樣本數(shù)據(jù)的隸屬矩陣值，得到最終的聚類結(jié)果.應(yīng)用最廣泛的數(shù)據(jù)分類算法大多是以fkmd為原型，但由于某些場景下實(shí)驗(yàn)的局限性，得到的結(jié)果不理想［9］.因而提出了以nsga-FMC為基礎(chǔ)，把NSGA-Ⅱ和Fcentroids相融合的理念，尋求提升算法的性能，主要有算法的遺傳操作改進(jìn)、目標(biāo)函數(shù)改進(jìn)和樣本集中心的選取，最終得出算法的改進(jìn)流程［10］.

1.3聚類算法的均衡化處理

聚類算法通常滿足平衡和不平衡的數(shù)據(jù)需要，因而要對(duì)相應(yīng)算法進(jìn)行數(shù)據(jù)集的均衡化處理.數(shù)據(jù)集分為人工智能學(xué)習(xí)分類法的不平衡數(shù)據(jù)集和平衡數(shù)據(jù)集問題.而在實(shí)際應(yīng)用中主要是探究怎么樣在同一不平衡數(shù)據(jù)集上，采用傳統(tǒng)意義上的均衡化處理算法，很少將樣本的差異化因素考慮在內(nèi)，這樣做會(huì)在很大程度上偏離現(xiàn)實(shí)結(jié)果.因而需要對(duì)數(shù)據(jù)集分類的不平衡上對(duì)相應(yīng)的模糊聚類的算法進(jìn)行修正和改進(jìn).

2聚類算法的廣義泛化模糊聚類

對(duì)于聚類算法中的數(shù)據(jù)集均衡化處理，首先在設(shè)計(jì)聚類算法時(shí)，要考慮信息容量對(duì)聚類結(jié)果的影響.即數(shù)據(jù)集從平衡轉(zhuǎn)為不平衡時(shí)，樣本信息可能會(huì)對(duì)判決結(jié)果進(jìn)行干擾.其次要通過聚類算法的自動(dòng)機(jī)制主動(dòng)找尋樣本容量信息，進(jìn)而再根據(jù)數(shù)據(jù)集對(duì)樣本類別進(jìn)行改進(jìn).

2.1均衡聚類算法

對(duì)于處理數(shù)據(jù)集的均衡模糊均值算法，設(shè)計(jì)一般性參數(shù)p指標(biāo)，數(shù)值范圍設(shè)為［1，+無窮），在降噪和平衡目標(biāo)參數(shù)2個(gè)方面起作用.當(dāng)p=1時(shí)即轉(zhuǎn)為FCM硬聚類算法，當(dāng)趨向于正的無窮大時(shí)，通過算法得到的結(jié)果是類的中心轉(zhuǎn)化成數(shù)據(jù)的重心.算法構(gòu)造的過程是，以目標(biāo)函數(shù)（1）為基礎(chǔ)，設(shè)置一般性參數(shù)P為1時(shí)，目標(biāo)函數(shù)（2）則簡化為（3）；具體過程如下.

J（U，Q）=∑nj=1∑ci=1upij∑ns=1upis‖xj－ci‖2（2）

JEFCM（U，Q）=∑ci=1∑nj=1uij∑nj=1uij‖xj－ci‖2""""""" （3）

在EFCM算法中，參數(shù)值uij和ci 是由迭代算法設(shè)計(jì)得出的預(yù)估值.∑ns=1upis代表第i個(gè)類的樣本容量.EFCM聚類算法中，聚類中心ci和隸屬矩陣U=（uij）×c×n通常用以下步驟確定.

（1）將粒子位置xi（t）的每c維分量構(gòu)成一組進(jìn)行單位化，單位化后的位置分量對(duì)應(yīng)為模糊隸屬度uij，滿足條件∑ni=1uij=2，從而實(shí)現(xiàn)模糊隸屬度矩陣U的初始化.

（2）通過公式：Ci=∑nk=1uikxk∑nk=1uik，i=1，2，3…m，計(jì)算聚類的中心C1，C2，C3…Cm.

（3）計(jì)算迭代次數(shù)超過參數(shù)t，數(shù)據(jù)集的最優(yōu)解所對(duì)應(yīng)的適應(yīng)度函數(shù)值接近于閥值時(shí)，則及時(shí)終止算法.

（4）計(jì)算更新最優(yōu)解，最終確定粒子所對(duì)應(yīng)的位置和速度.

2.2 EFCM算法的實(shí)驗(yàn)分析

通過設(shè)置仿真實(shí)驗(yàn)，可實(shí)現(xiàn)對(duì)算法可行性的驗(yàn)證.首先設(shè)定一個(gè)已知的類別數(shù)為n=3，第一次實(shí)驗(yàn)，設(shè)置為數(shù)據(jù)集平衡的實(shí)驗(yàn)，通過matlab實(shí)現(xiàn)正態(tài)分布函數(shù)，對(duì)樣本集進(jìn)行高斯分解，設(shè)置分類中心坐標(biāo)值為（8.0，8.0）和（12.0，12.0）；第一個(gè)分類的隨機(jī)樣本數(shù)為120，矩陣數(shù)值為［3 0，0 3］；第二個(gè)分類的樣本數(shù)為30，協(xié)方差矩陣數(shù)值為［1 0，0 1］；照此樣本容量的取值，通過EFCM算法對(duì)樣本值進(jìn)行聚類處理，的搭配的樣本空間分布如圖1所示.

設(shè)置為數(shù)據(jù)集不平衡的實(shí)驗(yàn)，一般是先通過matlab設(shè)置正態(tài)分布函數(shù)，對(duì)樣本數(shù)據(jù)集進(jìn)行高斯分解.設(shè)置的分類中心坐標(biāo)值為（6.0，6.0）和（10.0，10.0），分類的隨機(jī)樣本數(shù)為100，矩陣數(shù)值為［5 0，0 5］；由于不同樣本容量的數(shù)值會(huì)導(dǎo)致樣本方差的不同，所以對(duì)于協(xié)方差的取值要嚴(yán)格參照樣本比例，對(duì)每個(gè)數(shù)據(jù)集在算法處理上進(jìn)行12次測試，算法的計(jì)算處理效果如圖2所示.

2.3均衡性C均值算法的廣義模糊聚類

模糊聚類算法中因素有以下三個(gè)方面，一是模糊隸屬度的表達(dá).模糊隸屬度體現(xiàn)了樣本與聚類中心的關(guān)系，當(dāng)樣本和聚類中心距離較大時(shí)，聚類算法賦予樣本較小的模糊隸屬度，所以模糊隸屬度反比例于樣本、聚類中心距離.二是聚類中心的取定.為了聚類目標(biāo)函數(shù)最小化，聚類中心應(yīng)與模糊隸屬度較大的樣本靠近，換言之即聚類中心應(yīng)落入樣本聚集較多的地方.聚類中心主要通過兩種方法計(jì)算得到，一種是樣本模糊隸屬度加權(quán)平均，另外一種是通過生物進(jìn)化算法如遺傳算法尋優(yōu)估計(jì)得到.三是確定聚類目標(biāo)函數(shù).這三部分都包含了模數(shù)指標(biāo)，且限制三個(gè)部分所包含的模糊指標(biāo)盡量是相近的關(guān)系.從目標(biāo)函數(shù)本身出發(fā)分析，一般會(huì)得到局部極小值和多個(gè)參數(shù)的求解方法.

GFCM算法的設(shè)計(jì)與構(gòu)造過程如下：

（1）首先通過廣義均衡性C均值算法，對(duì)目標(biāo)函數(shù)、隸屬度等數(shù)據(jù)進(jìn)行獨(dú)立賦值，得到目標(biāo)函數(shù)的最小值為：FGFCM（m，n）=∑px=1∑qy=1un1xy‖My－cx‖2，其中n1 ＞0，即為算法對(duì)應(yīng)目標(biāo)函數(shù)的指標(biāo)值.

（2）設(shè)定聚類中心計(jì)算公式為：

fi=∑mj=1un2ijxj∑mp=1un2ip，其中n2＞0，即為該算法的模糊指標(biāo)值.利用fi計(jì)算p個(gè)聚類中心值p1，p2...pi.

（3）通過步驟（1）中的公式計(jì)算函數(shù)值，直到其數(shù)值小于某個(gè)確定的閥值時(shí)結(jié)束.

（4）通過公式gij=1∑cm=1pijpmj2n－1，其中參數(shù)n為該算法的模糊隸屬度的對(duì)應(yīng)指標(biāo).重新計(jì)算隸屬度矩陣；然后回到步驟（2）繼續(xù)執(zhí)行.

2.4 GFCM算法的仿真實(shí)驗(yàn)結(jié)果及分析結(jié)果分析

通過對(duì)GFCM算法的分析，基于普通數(shù)據(jù)集和UCT數(shù)據(jù)集的數(shù)據(jù)進(jìn)行算法的實(shí)測.次實(shí)驗(yàn)同時(shí)考慮了FCM算法的有效性，對(duì)兩種算法的取值指標(biāo)設(shè)置為n1=n2=n3＞2，隨機(jī)進(jìn)行仿真實(shí)驗(yàn)的比較，對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行有效分析.

在實(shí)驗(yàn)中，設(shè)置圖像的合成像素為256x256，樣本集數(shù)據(jù)建立在高斯分布的樣本類之上，兩個(gè)樣本類的中心可設(shè)置為（6，6）和（12，12），樣本基數(shù)為200，對(duì)應(yīng)方差的矩陣值為［6 0，0 6］，同時(shí)在FCM和GFCM算法上進(jìn)行20次實(shí)驗(yàn)數(shù)據(jù)集處理，計(jì)算分析實(shí)驗(yàn)精度，取其平均值.得到的樣本仿真實(shí)驗(yàn)的分布情況如表1所示.

3基于相似度的目標(biāo)集成聚類算法及實(shí)驗(yàn)分析

3.1相似度算法描述

首先是對(duì)交叉算子的引入，對(duì)DSCE計(jì)算部分進(jìn)行了改進(jìn)，且將改進(jìn)后的算法應(yīng)用在對(duì)目標(biāo)的優(yōu)化過程中.其次在對(duì)改進(jìn)后的算法計(jì)算時(shí)，可結(jié)合一般K-means算法進(jìn)行過程搜索.改進(jìn)后的多目標(biāo)集成聚類算法MDSCE的流程圖如圖3所示.

為了便于對(duì)聚類進(jìn)行劃分，可以更換編碼的方式，采取通過標(biāo)簽的方式進(jìn)行編碼.當(dāng)采用此種編碼方式時(shí)，設(shè)置一個(gè)位置數(shù)據(jù)代表一個(gè)標(biāo)簽對(duì)應(yīng)每個(gè)被劃分后的數(shù)據(jù)節(jié)點(diǎn)，此種劃分方法適應(yīng)于分類間隔性數(shù)據(jù)和連續(xù)性數(shù)據(jù)類型.接著對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí)，考慮基于DSMOS算法，處理數(shù)據(jù)集會(huì)產(chǎn)生多樣化的數(shù)據(jù)值，因而與多樣化的聚類種群效果相對(duì)應(yīng).預(yù)處理的方法通常使用最佳臨近分配的采樣方法，通過隨機(jī)抽樣，獲取新的樣本數(shù)據(jù)；再將樣本中的子樣本數(shù)據(jù)在K-Means、average linkage等算法中生成聚類的結(jié)果，經(jīng)過上述過程處理，同時(shí)完成了對(duì)種群進(jìn)行初始化.

目標(biāo)函數(shù)的計(jì)算是通過歐氏距離和簇內(nèi)距離的累加，極大的提升該算法的適應(yīng)性，且計(jì)算結(jié)果的值越小，說明劃分的效果越好.計(jì)算公式如下所示.

dev（C）=∑Ci∈C∑Pi∈Mkd（Pi，Zk）（4）

其中，Zk代表簇?cái)?shù)據(jù)集Ci的中心，函數(shù)d（Pi，Zk）表示聚類數(shù)據(jù)的歐式距離.對(duì)于面向歐式距離的連通性函數(shù)而言，點(diǎn)到點(diǎn)數(shù)據(jù)分割到同一個(gè)簇的頻率計(jì)算方法如下所示.

f（xm，yij）=1i+1，xm∈Ci∧yij∈Mk0，其他（5）

其中，變量yij表示與數(shù)據(jù)節(jié)點(diǎn)xm相鄰接的第j個(gè)數(shù)據(jù)值.

3.2實(shí)驗(yàn)數(shù)據(jù)及分析

為了更好的測試驗(yàn)證多目標(biāo)聚類算法MDSCE實(shí)驗(yàn)的結(jié)果，可結(jié)合UCI數(shù)據(jù)庫中的數(shù)據(jù)集和，如：spectheart、cmc、Website phishing 、cardiotocography、vehile等，特征描述如表2所示.

在設(shè)計(jì)上述實(shí)驗(yàn)時(shí)，首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，預(yù)先設(shè)置初始數(shù)據(jù)集的處理次數(shù)為20；初始樣本種群數(shù)采用傳統(tǒng)的3種聚類算法生成，獲取的初始種群數(shù)為30.傳統(tǒng)的聚類算法設(shè)置參數(shù)k的取值為［5，20］.本次實(shí)驗(yàn)對(duì)交叉算子和聚類算法的搜索步驟，均是基于初始種群數(shù)進(jìn)行，且此實(shí)驗(yàn)通過MDSCE與CSPA、DSCE算法進(jìn)行對(duì)比，對(duì)不同交叉算子計(jì)算時(shí)，MDSCE的計(jì)算效果明顯優(yōu)于CSPA、DSCE算法.實(shí)驗(yàn)結(jié)果如表3所示.

通過相似度的聚類算法的設(shè)計(jì)，引入新的聚類算法和交叉算子，在合并數(shù)據(jù)簇的時(shí)候不斷進(jìn)行迭代，與MDSCE在新一輪中進(jìn)行合并的次數(shù)始終設(shè)置為1次.此外，利用MDSCE算法在確定簇的數(shù)據(jù)值方面能生成聚類解的特點(diǎn)，配合K-Means算法在UCI數(shù)據(jù)集上的使用，可以有效的提升MDSCE的聚類效果.

4總結(jié)

文章設(shè)計(jì)研究的廣義模糊聚類和面向相似度目標(biāo)函數(shù)的聚類算法，均是通過聚類算法，將目標(biāo)函數(shù)的聚類轉(zhuǎn)換成了線性約束的數(shù)學(xué)問題來加以解決.通過在分類監(jiān)督工作中是否考慮樣本容量，有效實(shí)現(xiàn)了數(shù)據(jù)集分類不平衡問題；結(jié)合使用的K-Means聚類搜索過程，對(duì)數(shù)據(jù)集與聚類算法進(jìn)行相似度目標(biāo)集成，很大程度上提升了聚類搜索的質(zhì)量和搜索效率.通過上述研究過程，使得模糊聚類算法還有更大挖掘空間，在以后算法的計(jì)算效率上還會(huì)繼續(xù)提升，使得算法能夠不斷完善.

參考文獻(xiàn)：

［1］張世文，李智勇，陳少淼，等.基于生態(tài)策略的動(dòng)態(tài)多目標(biāo)優(yōu)化算法［J］.計(jì)算機(jī)研究與發(fā)展，2014，51（6）：1313.

［2］陳獻(xiàn)，胡麗瑩，林曉煒等.基于核非負(fù)矩陣分解的有向圖聚類算法［J］.計(jì)算機(jī)應(yīng)用，2021，41（12）：3447.

［3］張鵬. 基于深度學(xué)習(xí)混合模型的商品垃圾評(píng)論識(shí)別研究［D］.鎮(zhèn)江：江蘇科技大學(xué)，2019.

［4］李智林. 基于混合模型的非均衡數(shù)據(jù)分類研究［D］.南京：南京郵電大學(xué)，2018.

［5］崔國楠，王立松，康介祥，等.結(jié)合多目標(biāo)優(yōu)化算法的模糊聚類有效性指標(biāo)及應(yīng)用［J］.計(jì)算機(jī)科學(xué)，2021，48（10）：197.

［6］崔國楠，王立松，康介祥，等.結(jié)合多目標(biāo)優(yōu)化算法的模糊聚類有效性指標(biāo)及應(yīng)用［J］.計(jì)算機(jī)科學(xué)，2021，48（10）：197.

［7］祖志文，李秦.基于粒子群優(yōu)化的馬氏距離模糊聚類算法［J］.重慶郵電大學(xué)學(xué)報(bào)（自然科學(xué)版），2019，31（2）：279.

［8］李娜，劉方.基于模糊聚類視區(qū)劃分的SAR目標(biāo)識(shí)別方法［J］.電子學(xué)報(bào)，2012，51（2）：213-228.

［9］王會(huì)舉，李孟萱，黃衛(wèi)衛(wèi)，等.基于隱馬爾可夫模型的多真值發(fā)現(xiàn)算法［J］.計(jì)算機(jī)工程與科學(xué)，2021，43（3）：518.

［10］林杰. 基于深度學(xué)習(xí)的目標(biāo)檢測系統(tǒng)的研究與實(shí)現(xiàn)［D］.北京：北京郵電大學(xué)，2022.

（責(zé)任編輯" 胡安娜）

九江學(xué)院學(xué)報(bào)(自然科學(xué)版)2024年2期

九江學(xué)院學(xué)報(bào)(自然科學(xué)版)的其它文章: 多元化臨床路徑護(hù)理對(duì)急性缺血性腦卒中患者負(fù)性情緒及睡眠質(zhì)量的影響分析; 雅安市醫(yī)養(yǎng)結(jié)合需求分析及服務(wù)模式現(xiàn)狀; “一帶一路”背景下我國中藥企業(yè)競爭力提升研究; 姜提取物對(duì)家兔動(dòng)脈粥樣硬化的影響; 中西醫(yī)結(jié)合治療兒童社區(qū)獲得性支氣管肺炎的臨床療效研究; 復(fù)方丹參滴丸抑制活性氧介導(dǎo)的內(nèi)皮細(xì)胞損傷機(jī)制