賈麗麗
文獻(xiàn)[1-9]分別提出了基于核心集的模糊聚類算法、隨機(jī)抽樣的聚類算法、基于平衡樹結(jié)構(gòu)的一種增量式聚類算法、基于單元和密度的GARDENHD聚類算法、增量式的聚類算法、基于譜聚類的增量式聚類算法來(lái)處理海量數(shù)據(jù)問(wèn)題,但上述聚類算法都是使用硬聚類方法,這種算法與現(xiàn)實(shí)問(wèn)題不夠匹配。為克服以上缺陷,文獻(xiàn)[10]提出模糊聚類中的隸屬度表示一個(gè)數(shù)據(jù)屬于所有類的程度解決現(xiàn)實(shí)問(wèn)題更符合。文獻(xiàn)[11-12]分別提出了單通模糊C均值聚類算法、在線模糊C 均值聚類算法,這兩種算法都是將整個(gè)大規(guī)模數(shù)據(jù)分塊后對(duì)每個(gè)塊處理,最后從中獲取到的信息構(gòu)成數(shù)據(jù)集的中心點(diǎn)。文獻(xiàn)[13-15]提出了有效的并行聚類算法,都是處理對(duì)象型的海量數(shù)據(jù),也存在著通信代價(jià)高,總體效率低,算法太過(guò)簡(jiǎn)單、聚類精度受限于原始數(shù)據(jù)的空間分布等問(wèn)題。為了克服以上缺點(diǎn),陳愛(ài)國(guó)等研究使用多個(gè)代表點(diǎn)的適用于海量數(shù)據(jù)處理的聚類算法,提出了基于多代表點(diǎn)的LS-FMMdC 模糊聚類算法應(yīng)用于海量數(shù)據(jù)問(wèn)題,但LS-FMMdC 算法相對(duì)于聚類初始化具有敏感性。
綜上,國(guó)內(nèi)外學(xué)者提出了一些海量數(shù)據(jù)的分析方法,并取得了一定進(jìn)展,但已有的方法主要是采用聚類算法,然而聚類算法存在兩個(gè)缺點(diǎn):1)對(duì)初始值選取非常敏感,會(huì)導(dǎo)致不能聚類的結(jié)果;2)容易陷入局部極值。上述兩個(gè)缺點(diǎn)導(dǎo)致基于聚類算法來(lái)分析海量數(shù)據(jù)具有一定的局限性。隨著物聯(lián)網(wǎng)、“互聯(lián)網(wǎng)+”等技術(shù)的廣泛應(yīng)用,各行業(yè)的數(shù)據(jù)規(guī)模將進(jìn)一步擴(kuò)大,數(shù)據(jù)類型也變得多樣復(fù)雜,基于聚類算法來(lái)處理海量數(shù)據(jù)問(wèn)題的局限性越顯突出。因此,在已有成果基礎(chǔ)上深入開展海量數(shù)據(jù)分析方法的研究具有重要的理論價(jià)值和科學(xué)意義。
圖1 文化-K均值聚類混合算法框架
傳統(tǒng)的K-均值聚類算法存在兩個(gè)固有的缺點(diǎn):1)可能會(huì)導(dǎo)致不同的聚類結(jié)果,主要是由于初始值選取的敏感性;2)該算法很容易陷入局部?jī)?yōu)化,主要原因是該算法采用梯度下降法,搜索方向是沿著能量減少的方向進(jìn)行。這兩個(gè)缺點(diǎn),限制了該算法的范圍。為了克服K-均值聚類算法初始化敏感性和容易陷入局部?jī)?yōu)化兩大缺點(diǎn),引入文化算法加以改進(jìn),以文化算法為框架,K 均值算法為聚類模型的混合聚類算法,針對(duì)聚類問(wèn)題建立文化算法的雙層空間進(jìn)化模型,設(shè)計(jì)適合于聚類問(wèn)題的知識(shí)空間、群體空間、接受函數(shù)和影響函數(shù),并使用多種知識(shí)進(jìn)行指導(dǎo),使得該問(wèn)題在求解過(guò)程中能夠利用經(jīng)驗(yàn)知識(shí)來(lái)指導(dǎo)搜索過(guò)程,對(duì)于獲得全局最優(yōu)解有較好的效果,在聚類中起到了良好的指導(dǎo)作用,從而具有較好的全局尋優(yōu)性能,能夠有效地克服K-均值算法的兩大缺點(diǎn)。適用于求解海量數(shù)據(jù)分析中的聚類問(wèn)題。
圖2 文化-LS-FMMdC新模糊聚類混合算法框架
LS-FMMdC 方法是一種新的能夠有效處理大規(guī)模數(shù)據(jù)的模糊聚類算法,該算法具有更優(yōu)越的聚類性能和參數(shù)的魯棒性,但LS-FMMdC 算法在聚類初始選取時(shí)具有敏感性,需要進(jìn)一步減少其敏感性。引入文化算法加以改進(jìn),以文化算法為框架,LS-FMMdC新模糊聚類算法為聚類模型的混合聚類算法,設(shè)計(jì)適合于LS-FMMdC 新模糊聚類問(wèn)題的知識(shí)空間、群體空間、接受函數(shù)和影響函數(shù),提高LS-FMMdC 方法的全局優(yōu)越性,同時(shí)克服聚類初始化的敏感性。
文化-聚類混合算法可以在云南天文臺(tái)NVST(New Vacuum Solar Telescope)海量數(shù)據(jù)的計(jì)算與推理中,對(duì)NVST 海量數(shù)據(jù)進(jìn)行深度挖掘,提取蘊(yùn)含在異構(gòu)數(shù)據(jù)中的模式和知識(shí),聚合各種時(shí)間、空間模式,分析模式之間的相關(guān)關(guān)系,辨識(shí)各種模式的發(fā)展和演化機(jī)制,建立“由因?qū)Ч奔啊皥?zhí)果溯因”推理模型。
在醫(yī)院圖像灰度密度的研究基礎(chǔ)上,文化算法的LS-FMMdC 新模糊聚類混合算法可以提出基于圖像帶修正的密度構(gòu)造聚類算法,對(duì)現(xiàn)有圖像數(shù)據(jù)挖掘算法加以比較篩選和改進(jìn),深入研究醫(yī)學(xué)圖像數(shù)據(jù)的核密度函數(shù)、數(shù)據(jù)分箱等,使圖像更精確。