亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        局部線性下的函數(shù)型主成分聚類(lèi)算法

        2024-03-26 03:13:04陳海龍胡曉雪
        統(tǒng)計(jì)與決策 2024年5期
        關(guān)鍵詞:降維聚類(lèi)矩陣

        陳海龍,胡曉雪

        (新疆財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,烏魯木齊 830012)

        0 引言

        聚類(lèi)研究既是數(shù)據(jù)劃分的一個(gè)有效方法,也是數(shù)據(jù)挖掘的一項(xiàng)主要技術(shù),它能通過(guò)數(shù)據(jù)中相似的信息將數(shù)據(jù)劃分為不同的簇來(lái)探究其內(nèi)在關(guān)聯(lián)及重點(diǎn)信息。但隨著科技的發(fā)展,數(shù)據(jù)的密集性逐漸加強(qiáng),出現(xiàn)了一種具有連續(xù)特征的數(shù)據(jù),統(tǒng)計(jì)學(xué)上稱(chēng)之為函數(shù)型數(shù)據(jù)[1]。函數(shù)型數(shù)據(jù)可看作隨時(shí)間變化的數(shù)據(jù),如智能手環(huán)檢測(cè)心率的變化情況、股票市場(chǎng)的波動(dòng)情況、氣象數(shù)據(jù)的變化情況等。目前函數(shù)型數(shù)據(jù)聚類(lèi)分析是被廣泛關(guān)注的研究分支,其主要有四種方法[2]:一是依據(jù)原始函數(shù)值直接進(jìn)行聚類(lèi),二是兩步串聯(lián)法聚類(lèi),三是利用函數(shù)間的歐氏距離來(lái)實(shí)現(xiàn)系統(tǒng)聚類(lèi),四是函數(shù)主成分聚類(lèi)。本文將以第四類(lèi)方法為基礎(chǔ)進(jìn)行改進(jìn)與討論。函數(shù)型數(shù)據(jù)本質(zhì)上具有無(wú)限維特征,不能直接運(yùn)用于聚類(lèi)研究中,在一般情況下,函數(shù)型主成分分析法(Functional Principle Component Analysis,F(xiàn)PCA)可通過(guò)尋找恰當(dāng)類(lèi)別信息子空間進(jìn)行聚類(lèi)分析。

        在多元函數(shù)型聚類(lèi)分析中,常通過(guò)多元函數(shù)型主成分分析方法對(duì)多元函數(shù)型數(shù)據(jù)進(jìn)行投影,以達(dá)到降維的目的,從而提高聚類(lèi)效果。例如,Jacques 和Preda(2014)[3]通過(guò)主成分得分構(gòu)建高斯混合模型,提出了首個(gè)基于主成分分析的多元函數(shù)型聚類(lèi)算法;Schmutz 等(2020)[4]通過(guò)多元函數(shù)型主成分分析將數(shù)據(jù)擬合到特定群體的函數(shù)子空間中,提出了一種新的多元函數(shù)型數(shù)據(jù)聚類(lèi)技術(shù);Leva 等(2013)[5]通過(guò)研究心電圖形態(tài)曲線,提出了一種多元函數(shù)型K-均值的聚類(lèi)方法。也有學(xué)者以函數(shù)型主成分分析為主要研究方法,如孟銀鳳等(2022)[6]通過(guò)選擇適當(dāng)?shù)暮瘮?shù)主成分個(gè)數(shù),對(duì)重構(gòu)樣本進(jìn)行分裂式層次聚類(lèi),增強(qiáng)了結(jié)果的可解釋性;武祺然(2022)[7]基于二維主成分分析提出一種新的多元函數(shù)型數(shù)據(jù)聚類(lèi)算法。還有學(xué)者以多元函數(shù)型主成分的聚類(lèi)方法來(lái)探究實(shí)際問(wèn)題,如翟宇申(2018)[8]基于邊際函數(shù)主成分分析,將提出的多元函數(shù)型聚類(lèi)方法運(yùn)用于空氣污染數(shù)據(jù);劉史詩(shī)等(2021)[9]通過(guò)函數(shù)型主成分分析法進(jìn)行層次聚類(lèi),以探究新型冠狀病毒的演變特征。以上的函數(shù)型主成分分析方法是基于高維線性平面空間對(duì)高維數(shù)據(jù)進(jìn)行分析建模而提出的方法模型,其有利于解決線性平面空間中的函數(shù)型聚類(lèi)問(wèn)題。

        統(tǒng)計(jì)研究中的數(shù)據(jù)變量已不只是局限于線性空間,其在線性空間中信息的利用性往往也受到限制。為突破這一限制,考慮將LLE 算法運(yùn)用其中。在現(xiàn)有的聚類(lèi)分析方法中,LLE 算法是一種有效處理流形降維的方法,本質(zhì)上是非線性降維技術(shù),也稱(chēng)作局部線性降維技術(shù)(Locally Linear Embedding,LLE)。目前對(duì)于LLE 算法的研究主要有兩類(lèi):一是通過(guò)降維算法來(lái)提高數(shù)據(jù)集的識(shí)別及預(yù)測(cè)功能,如Yao等(2017)[10]提出了一種基于LLE的濾波器的特征選擇方法,可在圖像識(shí)別中得到應(yīng)用;Shan 等(2015)[11]提出了基于改進(jìn)的局部線性嵌入和支持向量機(jī)(ILLE-SVM)的軟件缺陷預(yù)測(cè)模型。二是通過(guò)LLE算法提高解決實(shí)際問(wèn)題的能力,如Xue和Qian(2010)[12]提出了基于局部線性嵌入(LLE)的語(yǔ)音分析;Singh等(2017)[13]提出了基于LLE-ISOMAP 算法的無(wú)線傳感器網(wǎng)絡(luò)定位等。該算法的優(yōu)勢(shì)主要有兩點(diǎn):一是其符合流形的算法結(jié)構(gòu)能很好地保證數(shù)據(jù)集在空間中不受限制,在保留了原有數(shù)據(jù)特征的情況下又達(dá)到了降維的目的;二是LLE算法能通過(guò)求解權(quán)重矩陣進(jìn)而約束函數(shù)型主成分定義下的求解模型及其數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)。本文以此為突破點(diǎn),將LLE算法和PCA算法結(jié)合,并將LLE 算法的核心要點(diǎn)推廣至FPCA 算法中,提出局部線性下的函數(shù)型主成分分析模型(LLE Function Principle Component Analysis,LFPCA)。LLE 模型和PCA 模型的結(jié)合可以在非線性空間中達(dá)到降維目的,進(jìn)一步提高空間利用率,增強(qiáng)模型的解釋力,提升聚類(lèi)效果。鑒于此,本文先建立新算法下的模型,再結(jié)合函數(shù)型數(shù)據(jù)的特點(diǎn)從多個(gè)視角進(jìn)行聚類(lèi)分析,以展現(xiàn)模型的優(yōu)勢(shì)。

        1 基于LLE算法的新模型構(gòu)建

        在構(gòu)建函數(shù)型主成分分析的聚類(lèi)模型時(shí),需要考慮兩個(gè)部分:一是曲線擬合和函數(shù)型主成分分析;二是融入LLE算法并改進(jìn)函數(shù)型主成分定義,構(gòu)建一個(gè)非線性空間上的函數(shù)型聚類(lèi)新模型。

        1.1 多元函數(shù)型數(shù)據(jù)的主成分分析

        假設(shè)多元函數(shù)型數(shù)據(jù)集[x1(t),x2(t),…,xn(t)]是在連續(xù)集T上獨(dú)立同分布的,t=[0,T],其中,樣本是定義在L2(T) 上的實(shí)值曲線,i=1,2,…,n。由于在實(shí)際中,觀測(cè)曲線的函數(shù)表達(dá)式是不能被直接觀測(cè)到的,只能在有限的時(shí)間集中獲得離散的觀測(cè)結(jié)果,因此,在處理函數(shù)型數(shù)據(jù)時(shí),第一個(gè)任務(wù)就是將這些離散觀測(cè)值轉(zhuǎn)換為函數(shù),則可計(jì)算任何所需的參數(shù)值。若假設(shè)觀測(cè)值是無(wú)誤的,則可使用插值方法。然而,若有一些噪聲需要去除,則需要重構(gòu)函數(shù)形式并假設(shè)函數(shù)曲線,可以將其分解為有限維空間。假設(shè)曲線xi(t)可由既定空間下的一組基函數(shù)表示,有如下形式:

        其中,φi(t)=(φi1(t),φi2(t),…,φip(t))′為一組基函數(shù),ci=(ci1,ci2,…,cip)′為基函數(shù)系數(shù)向量。

        傳統(tǒng)的多元統(tǒng)計(jì)分析方法(如主成分分析)可以有效地將高維空間轉(zhuǎn)換為低維空間,這種方法利用樣本方差-協(xié)方差矩陣的特征值進(jìn)行分解,并以系數(shù)向量的形式表示,從而實(shí)現(xiàn)降維的目的。在函數(shù)型主成分分析中,其特征向量所對(duì)應(yīng)的特征函數(shù)記為β(s),s∈(t1,tT),且β(s)平方可積。

        將樣本函數(shù)xi(t)做歸一化處理,其函數(shù)型主成分得分可定義為:

        特征函數(shù)需符合單位正則化并與其他函數(shù)型主成分相互正交,記xi(s)與xi(t)的協(xié)方差函數(shù)為:

        求解函數(shù)型主成分特征函數(shù)β(s)可等價(jià)于求解式(4)的特征方程:

        其中,λ為特征函數(shù)的特征值。接下來(lái)可得特征函數(shù)β(t)的一個(gè)積分為:

        在式(5)中,Vβ(t)表示通過(guò)對(duì)β(t)進(jìn)行積分變換,并使用協(xié)方差函數(shù)covx(s,t)作為內(nèi)核來(lái)計(jì)算得到的結(jié)果;V表示協(xié)方差算子。因此,可將式(5)表示為:

        在多元函數(shù)型數(shù)據(jù)中,基函數(shù)展開(kāi)的矩陣形式可表示為X=CΦ,則方差-協(xié)方差函數(shù)展開(kāi)的矩陣形式為:

        將特征基函數(shù)展開(kāi)為:

        式(7)中,b∈(b1,b2,…,bk)′。定義K階對(duì)稱(chēng)矩陣H=,其中,H為R×R的矩陣,,將式(4)代入式(6)可得:

        可將式(8)等式兩邊的Φ′(s)消去,通過(guò)矩陣的特征分解求得投影函數(shù)系數(shù)b,最終求得特征函數(shù)。將多元曲線xi的得分定義為lik,轉(zhuǎn)化為多元函數(shù)(fk)的第k個(gè)投影特征。受文獻(xiàn)[4]的啟發(fā),定義多元函數(shù)型主成分為:Li=Ci Hb。

        1.2 局部線性下的函數(shù)型主成分分析模型

        LLE算法的目的與主成分分析一致,都是將高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)。在主成分分析中,降維的本質(zhì)是特征分解;而LLE 模型是在流形領(lǐng)域進(jìn)行研究的,其本質(zhì)是先通過(guò)最近鄰搜索構(gòu)造權(quán)重矩陣,再進(jìn)行部分特征值分解。流形學(xué)習(xí)本質(zhì)上是將高維采樣統(tǒng)計(jì)結(jié)果還原為低維流形結(jié)構(gòu),亦即先找到多維空間上的低維流形,再求出對(duì)應(yīng)的嵌入映射形式,從而達(dá)到維數(shù)約簡(jiǎn)或數(shù)據(jù)可視化的效果[14]。LLE非線性降維技術(shù)(局部線性嵌入)的核心思想在于,在整個(gè)數(shù)據(jù)集的某個(gè)小范圍內(nèi),數(shù)據(jù)是線性的,其中每個(gè)數(shù)據(jù)點(diǎn)xi都可以用其K-近鄰數(shù)據(jù)點(diǎn)的線性組合來(lái)表示:

        式(9)中,X=(x1,x2,…,xn)∈?k×n表示n維列向量的數(shù)據(jù)矩陣,xi為數(shù)據(jù)點(diǎn),ωij為權(quán)重系數(shù),ωi是n×n的權(quán)重系數(shù)矩陣,其中ωij是ωi的第j列。在函數(shù)型數(shù)據(jù)分析中,函數(shù)曲線之間的變化差異信息可由基函數(shù)系數(shù)矩陣C來(lái)表達(dá),因此,基函數(shù)系數(shù)矩陣可分解為如下形式:

        在LLE 算法中,先運(yùn)用KNN 算法得到每個(gè)數(shù)據(jù)xi的k個(gè)近鄰點(diǎn)。由于每條曲線有不同的觀測(cè)值,因此為找到同一時(shí)間相似的觀測(cè)值,可用KNN 算法形成多個(gè)不同種類(lèi)的數(shù)據(jù)集以進(jìn)行分類(lèi),其中Xi表示數(shù)據(jù)點(diǎn)xi形成的數(shù)據(jù)集。有如下形式:

        此時(shí),數(shù)據(jù)集還屬于高維(無(wú)限維)數(shù)據(jù)集。設(shè)置距離參數(shù)i,正則化表達(dá)空間向量矩陣。由于權(quán)重系數(shù)矩陣可以反映數(shù)據(jù)集中的差異化信息,因此,求解權(quán)重系數(shù),并提出約束條件來(lái)優(yōu)化問(wèn)題:

        綜上,結(jié)合式(9)和式(10),函數(shù)型主成分得分可表示為:Li=ωix′Hb。

        2 多元函數(shù)型聚類(lèi)算法

        本文主要通過(guò)新定義的函數(shù)型主成分得分來(lái)建立高斯混合模型(GMM),以近似多元函數(shù)型數(shù)據(jù)的概率密度函數(shù)[15],并運(yùn)用EM算法求解GMM模型的待估參數(shù)。

        在多元函數(shù)型聚類(lèi)算法中,多元函數(shù)型數(shù)據(jù)X的概率密度函數(shù)可通過(guò)前p個(gè)函數(shù)型主成分得分的概率密度函數(shù)近似表示:

        其中,fUj為Uj~N(0,ρj)的概率密度函數(shù),ρj為第j個(gè)特征值,N(·)為正態(tài)分布,Lj(x)為多元函數(shù)型數(shù)據(jù)第j主成分得分。假設(shè)待估樣本有q個(gè)類(lèi)別,則該聚類(lèi)算法的高斯混合模型可表示為:

        其中,ak屬于第k類(lèi)概率(系數(shù)),pk為第l類(lèi)保留的主成分個(gè)數(shù);ρj,k為第k類(lèi)對(duì)應(yīng)的第j個(gè)特征值;Lj,k(x)為第k類(lèi)第j主成分得分;θ為高斯混合模型的待估參數(shù),θ={(ak,ρ1,k,…,ρPk,k),1 ≤k≤K};P=(P1,P2,…,PK)′。

        通過(guò)EM 算法求解高斯混合模型的待估參數(shù),其中,完全數(shù)據(jù)似然函數(shù)為:

        通過(guò)EM 算法,可以用對(duì)數(shù)形式來(lái)估計(jì)參數(shù)θ,這可以通過(guò)式(13)實(shí)現(xiàn):

        接下來(lái),在E步獲得Q函數(shù):

        3 仿真實(shí)驗(yàn)及應(yīng)用

        為驗(yàn)證實(shí)驗(yàn)算法的聚類(lèi)性能,本文進(jìn)行模擬實(shí)證檢驗(yàn),設(shè)置參數(shù)后,將本文的LFPCA模型聚類(lèi)算法與B樣條基函數(shù)的函數(shù)型K-均值聚類(lèi)方法(Skmeans)[16]、基于特定組函數(shù)子空間的多元函數(shù)型聚類(lèi)算法的FunHDDC方法[4]、多元函數(shù)主成分分析下的多元聚類(lèi)算法Funclust方法[3]進(jìn)行比較。聚類(lèi)效果采用聚類(lèi)純度(Purity)、蘭德指數(shù)(Rand Index,RI)和聚類(lèi)精確度(Accuracy)三個(gè)指標(biāo)進(jìn)行評(píng)價(jià)。

        3.1 隨機(jī)模擬實(shí)驗(yàn)

        參照文獻(xiàn)[3]的隨機(jī)模擬實(shí)驗(yàn),模擬生成2種變量、3種類(lèi)別的函數(shù)型數(shù)據(jù),該模型使用三角函數(shù)和多項(xiàng)式函數(shù)構(gòu)建,公式如下:

        其中,Ui是服從N(1,1)的隨機(jī)變量矩陣,i=1,2,3;ε(t)是服從N(0,1)分布的高斯白噪聲;k代表類(lèi)別數(shù),且1 ≤k≤K,本實(shí)驗(yàn)中k分別取1、3、5,表示每個(gè)變量生成3類(lèi)數(shù)據(jù);t∈[0,21],每條曲線等距生成1001 個(gè)觀測(cè)點(diǎn),每類(lèi)隨機(jī)生成50條曲線。圖1中,左邊表示變量X1(t)生成的3類(lèi)數(shù)據(jù),右邊表示變量X2(t)生成的3類(lèi)數(shù)據(jù)。

        圖1 隨機(jī)模擬曲線

        3.2 實(shí)例驗(yàn)證數(shù)據(jù)集來(lái)源

        實(shí)證檢驗(yàn)采用3 個(gè)數(shù)據(jù)集,分別是Growth 數(shù)據(jù)集、Tecator 數(shù)據(jù)集和加拿大氣象(Tem)數(shù)據(jù)集(見(jiàn)下頁(yè)圖2 和圖3)。本文對(duì)選取的數(shù)據(jù)都進(jìn)行了異常值處理,將數(shù)據(jù)集應(yīng)用于算法中以進(jìn)一步說(shuō)明算法的可行性及有效性。

        圖2 Growth和Tecator數(shù)據(jù)集

        圖3 加拿大氣象日平均溫度聚類(lèi)結(jié)果

        Growth數(shù)據(jù)集來(lái)源于Berkeley Growth Study[17],其數(shù)據(jù)是R軟件fda包中的一部分?jǐn)?shù)據(jù)對(duì)象。數(shù)據(jù)集中共有93個(gè)樣本,包含39名男孩和54名女孩在1~18歲不同年齡段的身高。不同的個(gè)體在不同的年齡段會(huì)經(jīng)歷不同的生長(zhǎng)階段,目標(biāo)是通過(guò)聚類(lèi)的方式體現(xiàn)身高增長(zhǎng)曲線是否與性別相關(guān)。圖2(a)中,橫坐標(biāo)表示年齡,縱坐標(biāo)表示身高。Tecator 數(shù)據(jù)集是由UCI 數(shù)據(jù)庫(kù)提供的標(biāo)準(zhǔn)數(shù)據(jù)集,Tecator 數(shù)據(jù)集旨在研究碎肉樣品中的脂肪、水和蛋白質(zhì)含量。該數(shù)據(jù)集共有215 個(gè)吸光度數(shù)據(jù),每個(gè)樣本包括100 個(gè)不同波長(zhǎng)的吸光度數(shù)值,其中吸光率的波長(zhǎng)介于850~1050mm。100 個(gè)肉類(lèi)樣品的吸光度曲線如圖2(b)所示,圖像通過(guò)3次B 樣條對(duì)100 個(gè)樣本數(shù)據(jù)進(jìn)行擬合,其中,橫坐標(biāo)表示波長(zhǎng),縱坐標(biāo)表示含量。加拿大氣象數(shù)據(jù)是R軟件fda包中的“canadian wheather”。數(shù)據(jù)主要記錄加拿大1960—1994年的35 個(gè)氣象站不同地點(diǎn)的日平均溫度和日平均降水量。

        3.3 聚類(lèi)結(jié)果及分析

        在Growth數(shù)據(jù)集中,通過(guò)圖像可以清晰地反映性別差異。聚類(lèi)結(jié)果顯示,男孩和女孩在不同年齡段的生長(zhǎng)速度和生長(zhǎng)巔峰時(shí)期存在差異。此外,還可以觀察到男孩在后期的生長(zhǎng)趨勢(shì)明顯優(yōu)于女孩。

        在Tecator 數(shù)據(jù)集中,標(biāo)簽占比少的類(lèi)代表了脂肪含量低于20%的肉類(lèi)樣品曲線,占比多的類(lèi)代表了脂肪含量高于20%的肉類(lèi)樣品曲線。在一般情況下,脂肪含量低于20%的肉類(lèi)被認(rèn)為是優(yōu)質(zhì)肉類(lèi)。因此,215個(gè)產(chǎn)品中優(yōu)質(zhì)的肉類(lèi)產(chǎn)品占據(jù)了大多數(shù)。

        在Tem數(shù)據(jù)集中,根據(jù)圖3(b)的聚類(lèi)中心結(jié)果,可以將加拿大的35 個(gè)氣象站點(diǎn)分為5 個(gè)不同的類(lèi)別。從中可知,所有地區(qū)的年度溫度都呈現(xiàn)明顯的季節(jié)性變化,并且存在一定的趨勢(shì)。由于地理位置不同,因此不同站點(diǎn)的平均氣溫?cái)?shù)據(jù)會(huì)呈現(xiàn)不同的結(jié)果。

        3.4 聚類(lèi)評(píng)價(jià)準(zhǔn)則

        本文評(píng)價(jià)聚類(lèi)方法的效果主要是基于聚類(lèi)純度(Purity)、蘭德指數(shù)(Rand Index,RI)和聚類(lèi)精確度(Accuracy)3個(gè)指標(biāo)。定義如下:

        在聚類(lèi)純度Purity 的表達(dá)式中,N表示樣本數(shù)量,Ω={w1,w2,…,wk}表示聚類(lèi)后實(shí)際的簇,C={c1,c2,…,cj,}表示真實(shí)類(lèi)別,wk表示聚類(lèi)后第k個(gè)簇中的所有樣本,cj表示第j個(gè)類(lèi)別中的真實(shí)類(lèi)別。在蘭德指數(shù)RI的表達(dá)式中,TP表示同類(lèi)樣本點(diǎn)在同一個(gè)簇中是同一類(lèi)別的情況,F(xiàn)P表示兩個(gè)非同類(lèi)樣本點(diǎn)在同一個(gè)簇中的類(lèi)別關(guān)系,TN表示兩個(gè)非同類(lèi)樣本點(diǎn)在不同簇中的類(lèi)別關(guān)系,F(xiàn)N表示兩個(gè)同類(lèi)樣本點(diǎn)在兩個(gè)不同簇中的類(lèi)別關(guān)系。在聚類(lèi)精確度Accuracy的表達(dá)式中,Ncor表示聚類(lèi)正確的樣本個(gè)數(shù),N表示總樣本個(gè)數(shù)。3 個(gè)聚類(lèi)指標(biāo)的取值范圍均為(0,1),其值越大表示效果越好。

        3.5 參數(shù)設(shè)置

        針對(duì)圖1 的隨機(jī)模擬數(shù)據(jù),在參數(shù)設(shè)置一致的基礎(chǔ)上,將聚類(lèi)算法與SKmeans、FunHDDC 和Funclust 進(jìn)行比較。本文LFPCA 算法的參數(shù)設(shè)定如下:(1)利用兩組隨機(jī)模擬聚類(lèi)數(shù)據(jù)集計(jì)算其聚類(lèi)指標(biāo),選取類(lèi)別數(shù)k=3;(2)聚類(lèi)擬合過(guò)程使用3 次等距節(jié)點(diǎn)的B 樣條基底擬合曲線來(lái)調(diào)節(jié)曲線的平滑程度,同時(shí)設(shè)置為20 個(gè)基底矩陣;(3)權(quán)重系數(shù)依LLE 降維算法的效果而設(shè)定。對(duì)于每個(gè)數(shù)據(jù)集,觀測(cè)值之間的數(shù)據(jù)關(guān)系是直接可用的。針對(duì)圖2,在進(jìn)行聚類(lèi)分析時(shí),算法參數(shù)設(shè)定如下:(1)通過(guò)3次B樣條基底擬合曲線,其中,需要控制基底數(shù)量來(lái)保證曲線的平滑程度,將Growth 數(shù)據(jù)集、Tecator 數(shù)據(jù)集、加拿大氣象數(shù)據(jù)集的基底數(shù)量分別設(shè)置為20、25、20。(2)Growth 數(shù)據(jù)集中共有兩種類(lèi)別(男、女),取映射矩陣列數(shù)k=2;在Tecator數(shù)據(jù)集中,對(duì)于每個(gè)肉類(lèi)樣品,數(shù)據(jù)包括吸光度和水分(水)、脂肪和蛋白質(zhì)的含量,取映射矩陣列數(shù)k=3;在加拿大氣象數(shù)據(jù)集中,加拿大35個(gè)氣象站分布于北極、大西洋、東部?jī)?nèi)陸、西部?jī)?nèi)陸和太平洋,因此,Tem 指標(biāo)將站點(diǎn)分為5類(lèi),取映射矩陣列數(shù)k=5。(3)權(quán)重系數(shù)依據(jù)類(lèi)別數(shù)k而確定。聚類(lèi)評(píng)價(jià)指標(biāo)值越大,代表聚類(lèi)效果越好。

        3.6 實(shí)驗(yàn)結(jié)果

        按照聚類(lèi)方法的模型,結(jié)合模擬實(shí)驗(yàn)及實(shí)例數(shù)據(jù)得到如表1和表2所示的聚類(lèi)評(píng)價(jià)結(jié)果。

        表1 模擬實(shí)驗(yàn)的聚類(lèi)評(píng)價(jià)結(jié)果

        表2 FLPCA模型的聚類(lèi)評(píng)價(jià)指標(biāo)結(jié)果

        從結(jié)果來(lái)看,隨機(jī)模擬實(shí)驗(yàn)和3類(lèi)數(shù)據(jù)集都表現(xiàn)出良好的聚類(lèi)效果,但在實(shí)際中,聚類(lèi)效果與k值的選取和數(shù)據(jù)的變化特征有關(guān)。其中,Tecator 數(shù)據(jù)集函數(shù)的連續(xù)特征最為明顯,展現(xiàn)出了最佳的聚類(lèi)效果;Growth 數(shù)據(jù)集從圖像上看有一定的增長(zhǎng)趨勢(shì),在實(shí)際的聚類(lèi)效果上也較為優(yōu)異;在Tem數(shù)據(jù)集中,由于地域差異,不同地區(qū)的日平均溫度會(huì)存在差異,但經(jīng)過(guò)算法的驗(yàn)證,其聚類(lèi)指標(biāo)展現(xiàn)了不錯(cuò)的聚類(lèi)效果。

        因此,在本文的算法應(yīng)用中,無(wú)論是從聚類(lèi)純度(Purity)、蘭德指數(shù)(RI)還是聚類(lèi)精確度(Accuracy)的角度來(lái)分析,本文所提出的模型都能很好地展現(xiàn)出其聚類(lèi)效果。綜上,LFPCA模型的聚類(lèi)性能得到了驗(yàn)證。

        4 結(jié)束語(yǔ)

        本文在函數(shù)型主成分分析的視角下討論了函數(shù)型聚類(lèi)問(wèn)題。首先,在FPCA模型的基礎(chǔ)上,運(yùn)用LLE算法的核心要義對(duì)其主成分定義進(jìn)行改進(jìn),提出一種LFPCA 的改進(jìn)算法;其次,在求解算法的過(guò)程中,通過(guò)提出函數(shù)型主成分得分并結(jié)合EM 算法構(gòu)造出高斯混合模型來(lái)近似函數(shù)型算法的概率密度函數(shù),并求出待估參數(shù)直至收斂;最后,通過(guò)隨機(jī)模擬實(shí)驗(yàn)和應(yīng)用分析表明,相比于傳統(tǒng)的PCA算法,新模型的算法適用性更強(qiáng)且應(yīng)用更廣泛,能更直接地表現(xiàn)聚類(lèi)結(jié)果。算法模型的主要優(yōu)勢(shì)在于:(1)該算法模型突破了線性空間的限制,提高了數(shù)據(jù)結(jié)構(gòu)的包容性;(2)構(gòu)建了非線性空間上的聚類(lèi)算法模型,實(shí)現(xiàn)了對(duì)函數(shù)型主成分分析中聚類(lèi)問(wèn)題的解決。隨機(jī)模擬實(shí)驗(yàn)及應(yīng)用分析的結(jié)果也驗(yàn)證了該算法聚類(lèi)效果的優(yōu)越性。

        需要說(shuō)明的是,本文僅討論了LLE模型下的函數(shù)型主成分聚類(lèi)問(wèn)題,聚類(lèi)方法也使用較常規(guī)的K-均值聚類(lèi)方法。在后續(xù)的工作中,還有很多值得探討的問(wèn)題,例如,通過(guò)新算法的改進(jìn)可以進(jìn)一步考慮對(duì)函數(shù)型主成分變量個(gè)數(shù)的選擇;再如,對(duì)于無(wú)監(jiān)督學(xué)習(xí)下的聚類(lèi)問(wèn)題,給信息加少量標(biāo)簽,討論半監(jiān)督框架下的函數(shù)型主成分聚類(lèi)問(wèn)題。

        猜你喜歡
        降維聚類(lèi)矩陣
        混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        初等行變換與初等列變換并用求逆矩陣
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年1期)2015-09-10 07:22:44
        一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
        拋物化Navier-Stokes方程的降維仿真模型
        国产最新AV在线播放不卡| 国产精品无码一区二区三区| 国产中文字幕乱人伦在线观看| 国产欧美日韩在线观看| 欧洲乱码伦视频免费| 亚洲av专区一区二区| 精品久久久久久无码中文野结衣| 国外亚洲成av人片在线观看| 国产免费播放一区二区| 一区二区三区av资源网| 白白白在线视频免费播放| 亚洲无亚洲人成网站77777| 亚洲av成人精品一区二区三区| 一夲道无码人妻精品一区二区| 91麻豆精品激情在线观看最新| 亚洲国产日韩综一区二区在性色| 亚洲国产精品国自拍av| 亚洲国产精品无码久久98| 国产又爽又黄的激情精品视频| 激情五月天俺也去综合网| 国产熟人精品一区二区| 亚洲国产成人精品无码一区二区| 人妻少妇精品无码专区二| 国产目拍亚洲精品二区| 一区二区三区国产精品乱码| 欧美成人免费全部| 国产成人8x视频网站入口| 亚洲免费一区二区av| 丰满大爆乳波霸奶| 熟女无套内射线观56| 国产一区曰韩二区欧美三区| 自拍偷拍一区二区三区四区| 偷拍一区二区视频播放器| 中文字幕乱码一区av久久不卡| 婷婷成人亚洲| 中文字幕丰满人妻有码专区| 亚洲国产精品成人天堂| 毛茸茸的中国女bbw| 美女黄频视频免费国产大全| 日本系列有码字幕中文字幕| 免费国产黄网站在线观看可以下载 |