亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于偽柯西類核函數(shù)的主成分降維方法

        2021-10-15 10:38:56劉文博梁盛楠
        關(guān)鍵詞:雙曲柯西降維

        劉文博,梁盛楠

        (1.黔南民族師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,貴州 都勻 558000; 2.黔南民族師范學(xué)院復(fù)雜系統(tǒng)與智能優(yōu)化實(shí)驗(yàn)室,貴州 都勻 558000)

        0 引言

        目前,諸多領(lǐng)域的數(shù)據(jù)呈現(xiàn)出高維度特點(diǎn),即數(shù)據(jù)集包含幾百甚至幾千個(gè)變量,往往這些變量之間存在高度相關(guān)性且有些變量甚至與決策不相關(guān).隨著變量數(shù)目的增加,更會(huì)產(chǎn)生所謂的“維數(shù)災(zāi)難”[1],若直接利用機(jī)器學(xué)習(xí)算法進(jìn)行處理勢(shì)必大量增加時(shí)間開(kāi)銷.對(duì)高維數(shù)據(jù)進(jìn)行降維、有效去除數(shù)據(jù)的冗余特征、降低特征之間的相關(guān)性是十分必要的.變量降維方法在基因表達(dá)數(shù)據(jù)識(shí)別[2]、圖像聚類[3]、機(jī)器學(xué)習(xí)[4-5]等領(lǐng)域起到了數(shù)據(jù)預(yù)處理的關(guān)鍵作用.

        降維技術(shù)主要分為特征選擇[6]與特征提取[7].本文主要從特征提取的角度對(duì)高維基因表達(dá)數(shù)據(jù)進(jìn)行維度約減研究,提高樣本類別的識(shí)別率.特征提取的典型代表為主成分分析法(Principal Component Analysis,PCA),其基本思想是利用較少的主成分(綜合變量)來(lái)替代原來(lái)較多的特征,而這些主成分能夠盡可能多地包含原始特征的信息,并且彼此不相關(guān)[8],PCA擅長(zhǎng)處理線性、高斯型分布數(shù)據(jù).但是,在很多情況下,數(shù)據(jù)往往呈現(xiàn)出非線性分布,若仍采用線性降維,則將丟失原本的低維結(jié)構(gòu).因此,一些非線性降維技術(shù)應(yīng)運(yùn)而生,其中最為典型的代表就是基于核技巧的非線性特征提取方法.如Scholkopf等[9]提出的基于核主成分分析(Kernel Principal Component Analysis,KPCA),該方法通過(guò)非線性映射將低維空間中線性不可分的數(shù)據(jù)映射到高維空間,實(shí)現(xiàn)高維空間中的線性可分.

        核主成分分析的關(guān)鍵之處在于核函數(shù)的選擇,好的核函數(shù)可以更好地實(shí)現(xiàn)高維空間中樣本的線性可分.鑒于此,本文構(gòu)造了一類新的核函數(shù)——偽柯西類核函數(shù),對(duì)高維數(shù)據(jù)進(jìn)行降維.通過(guò)在4個(gè)癌癥基因表達(dá)數(shù)據(jù)集的實(shí)驗(yàn)分析,與全變量、高斯核、多項(xiàng)式核、雙曲正切核相比,在多數(shù)情況下,偽柯西類核函數(shù)的降維效果要優(yōu)于傳統(tǒng)的核函數(shù)以及全變量情形.

        1 核主成分分析

        傳統(tǒng)的主成分分析可以較好地處理變量間的線性關(guān)系,但是當(dāng)處理的數(shù)據(jù)呈現(xiàn)出非線性關(guān)系時(shí),會(huì)導(dǎo)致各主成分貢獻(xiàn)率過(guò)于分散,不能找到有效代表原樣本的綜合變量,處理效果不夠理想[10].基于核技巧的主成分分析是一種較為理想的處理非線性問(wèn)題的方法,其基本原理如下所述.

        令原始樣本數(shù)據(jù)矩陣為

        X=(xij)n×p,i=1,2,…,n;j=1,2,…,p.

        其中:xi=(xi1,xi2,…,xip)′為數(shù)據(jù)集的第i個(gè)樣本,n為樣本容量,p為變量個(gè)數(shù).

        給定非線性映射Φ,將低維空間中的樣本映射到高維空間Y中,即

        xi∈Rp→Φ(xi)∈Y.

        在高維特征空間中利用主成分分析進(jìn)行特征提取,使得原樣本空間中線性不可分?jǐn)?shù)據(jù)在新空間下線性可分,如圖1所示.

        圖1 KPCA樣本分離原理示意圖

        核主成分分析計(jì)算過(guò)程如下:

        令zi=φ(xi)為xi在高維特征空間中的樣本,其協(xié)方差矩陣為

        (1)

        KPCA的求解目標(biāo)為

        (2)

        由于φ(x)形式一般未知,引入形式已知的核函數(shù)

        κ(xi,xj)=φT(xi)φ(xj),

        (3)

        常用的核函數(shù)[11]:

        (4)

        (5)

        把(5)式帶入(4)式可得

        (6)

        將(6)式兩側(cè)同乘φT(X)=(φT(x1),…,φT(xn))T可得

        Kαj=λjαj.

        (7)

        將(5)式帶入(2)式最終得到核主成分解

        (8)

        在進(jìn)行維度約減時(shí),一般取前d(d

        2 偽柯西類核函數(shù)

        核主成分的主要目標(biāo)是基于核函數(shù)對(duì)數(shù)據(jù)進(jìn)行維度約減,那么核函數(shù)選擇是否恰當(dāng)就成為核降維的關(guān)鍵所在,這就需要不斷探尋新的核函數(shù)以提高核降維效果,以提高后續(xù)機(jī)器學(xué)習(xí)分類算法的預(yù)測(cè)性能.受到柯西核函數(shù)的啟發(fā)并依據(jù)如下定理1,本節(jié)構(gòu)造新的偽柯西類核函數(shù).

        定理1[12]設(shè)f:X→R是有界可積連續(xù)函數(shù),則k(x-x′)=f(x-x′)為核函數(shù)的充要條件是f(0)>0,且其傅里葉變換

        定理2 令

        (9)

        則(9)式為核函數(shù).

        令t=-x,有

        所以

        因此

        (10)

        其中c>0,則(10)式為核函數(shù).

        (11)

        其中c>0,0

        (9)—(10)式的表達(dá)形式與柯西密度函數(shù)較為相似,故本節(jié)構(gòu)造的核函數(shù)稱之為偽柯西類核函數(shù),將上述核函數(shù)應(yīng)用于高維數(shù)據(jù)的特征約減,通過(guò)實(shí)驗(yàn)分析將偽柯西類核函數(shù)與傳統(tǒng)核函數(shù)的維度約減效果進(jìn)行對(duì)比.

        3 實(shí)驗(yàn)結(jié)果與分析

        利用本文構(gòu)造的偽柯西核函數(shù)以及已有的高斯核、多項(xiàng)式核、線性核、雙曲正切核對(duì)真實(shí)數(shù)據(jù)集進(jìn)行降維,然后采用目前主流的機(jī)器學(xué)習(xí)方法包括支持向量機(jī)(SVM)[13]、K近鄰[14](KNN)、樸素貝葉斯(NB)[15]在降維后的數(shù)據(jù)集與原始數(shù)據(jù)上進(jìn)行分類預(yù)測(cè),最后將不同核函數(shù)的降維效果進(jìn)行對(duì)比研究.

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)環(huán)境設(shè)置為:Windows10,64位操作系統(tǒng),Intel i7-9 700、3.0 GHz CUP,16 GB內(nèi)存,本文提出的算法和實(shí)驗(yàn)基于R語(yǔ)言(R 3.6.3)編碼實(shí)現(xiàn).使用來(lái)自Broad Institute Genome Data Analysis Center(http:∥portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi)的4個(gè)真實(shí)癌癥基因表達(dá)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,數(shù)據(jù)的基本信息如表1所示.為了評(píng)價(jià)不同維度下機(jī)器學(xué)習(xí)方法的分類性能,使用的性能度量指標(biāo)為分類精度.

        表1 數(shù)據(jù)集信息

        基于核主成分分析的數(shù)據(jù)維度約減與分類識(shí)別步驟如下:

        ① 對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,消除量綱的影響;

        ② 選取核函數(shù)以及設(shè)定核函數(shù)參數(shù);

        ③ 依據(jù)步驟②的核函數(shù)計(jì)算核矩陣;

        ④ 計(jì)算核矩陣的特征值與特征向量并對(duì)特征向量進(jìn)行歸一化處理;

        ⑤ 依據(jù)(8)式,計(jì)算原始數(shù)據(jù)在高維特征空間中的核主成分解yj,j=1,2,…,d;

        ⑥ 依據(jù)yj,j=1,2,…,d,利用機(jī)器學(xué)習(xí)分類方法對(duì)原始數(shù)據(jù)進(jìn)行分類識(shí)別.

        3.2 對(duì)比實(shí)驗(yàn)結(jié)果與分析

        由于本文所使用的核函數(shù)均帶有參數(shù),高斯核參數(shù)σ2,多項(xiàng)式核參數(shù)d,雙曲正切核參數(shù)β和θ,本文構(gòu)造的偽柯西核函數(shù)(10)式中的參數(shù)c,需要對(duì)上述參數(shù)進(jìn)行合理設(shè)定,即經(jīng)過(guò)上述核降維后,使得后續(xù)的機(jī)器學(xué)習(xí)分類性能達(dá)到相對(duì)最優(yōu).由于每個(gè)核函數(shù)至多包含2個(gè)參數(shù),在參數(shù)不多的情況下,采取較為適宜的網(wǎng)格搜索(Grid Search)策略,對(duì)每個(gè)核函數(shù)中的參數(shù)設(shè)定取值范圍并按等步長(zhǎng)取值,使得后續(xù)分類算法達(dá)到精度最高的參數(shù)即為最終選取的參數(shù).最終確定的參數(shù)分別為σ2=50,d=2,β=6,θ=-0.1,c=1.對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表2—4.

        表2 基于全變量、高斯核、多項(xiàng)式核、雙曲正切核與偽柯西核的SVM五折交叉驗(yàn)證精度比較

        表3 基于全變量、高斯核、多項(xiàng)式核、雙曲正切核與偽柯西核的KNN五折交叉驗(yàn)證精度比較

        表4 基于全變量、高斯核、多項(xiàng)式核、雙曲正切核與偽柯西核的NB五折交叉驗(yàn)證精度比較

        根據(jù)表2給出的實(shí)驗(yàn)結(jié)果可以看出,若不對(duì)原始數(shù)據(jù)進(jìn)行降維,而直接應(yīng)用SVM進(jìn)行分類,在4個(gè)數(shù)據(jù)集上的精度僅有52%,31.88%,70%和19.33%,分類精度過(guò)低,這表明SVM對(duì)高維度小樣本數(shù)據(jù)集異常敏感,因此有必要對(duì)數(shù)據(jù)進(jìn)行維度約減.經(jīng)過(guò)核降維后,其分類精度有了明顯提升,與傳統(tǒng)的高斯核、多項(xiàng)式核和雙曲正切核相比,經(jīng)過(guò)本文構(gòu)造的偽柯西核函數(shù)降維后,SVM的分類精度達(dá)到最高分別為91.84%,98.79%,96.41%和98.05%.根據(jù)表3可以看到,偽柯西類核降維使得KNN的分類精度在Leukemia和Muliti-A數(shù)據(jù)集精度達(dá)到最高,在Breast和Lung數(shù)據(jù)集達(dá)到次最優(yōu).根據(jù)表4的結(jié)果,偽柯西類核降維使得NB在3個(gè)數(shù)據(jù)集上的分類精度達(dá)到最大,在1個(gè)數(shù)據(jù)集上精度達(dá)到次最大.

        通過(guò)表2—4的實(shí)驗(yàn)結(jié)果,總體上可以得出,與全變量、高斯核、多項(xiàng)式核以及雙曲正切核相比,經(jīng)過(guò)偽柯西核類函數(shù)降維后可以使目前主流的機(jī)器學(xué)習(xí)方法如SVM、KNN和NB的分類性能有較為顯著的提升.這表明,核降維可以較為充分的提取原始數(shù)據(jù)集的信息.通過(guò)在4個(gè)癌癥基因表達(dá)數(shù)據(jù)上的數(shù)據(jù)分析,與傳統(tǒng)核函數(shù)相比,偽柯西核的降維效果要更為出色.

        4 結(jié)論

        針對(duì)數(shù)據(jù)集高維度、高冗余性特點(diǎn),為了提高后續(xù)機(jī)器學(xué)習(xí)算法的分類性能且能夠降低分類預(yù)測(cè)過(guò)程中的復(fù)雜度,本文提出一種基于偽柯西類核函數(shù)的主成分降維方法,即構(gòu)造新的核函數(shù)對(duì)高維數(shù)據(jù)進(jìn)行維度約減.通過(guò)在4個(gè)癌癥基因表達(dá)數(shù)據(jù)集的實(shí)驗(yàn)分析,與全變量、高斯核、多項(xiàng)式核以及雙曲正切核相比,在多數(shù)情況下,偽柯西類核函數(shù)可更為有效地提高主流機(jī)器學(xué)習(xí)方法的預(yù)測(cè)精度.

        猜你喜歡
        雙曲柯西降維
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        中國(guó)科學(xué)技術(shù)館之“雙曲隧道”
        軍事文摘(2021年22期)2022-01-18 06:22:48
        柯西積分判別法與比較原理的應(yīng)用
        柯西不等式在解題中的應(yīng)用
        柯西不等式的變形及應(yīng)用
        雙曲型交換四元數(shù)的極表示
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        一階雙曲型偏微分方程的模糊邊界控制
        柯西不等式的應(yīng)用
        基于雙曲和代數(shù)多項(xiàng)式的HC-Bézier曲線
        国自产偷精品不卡在线| 亚洲av无码乱码国产麻豆 | 少妇被躁到高潮和人狍大战| 国产一区二区三区毛片| 超碰97资源站| 日韩h网站| 超短裙老师在线观看一区二区| 国产亚洲人成在线观看| 亚洲日产一线二线三线精华液| 夜色阁亚洲一区二区三区| 无码流畅无码福利午夜| 亚洲精品女同一区二区三区| 日韩精品成人无码专区免费| 久久精品亚洲乱码伦伦中文| 无码国产精品一区二区免费式芒果| 久久精品国产亚洲综合av| 真实国产乱子伦精品视频| 内射精品无码中文字幕| 精品三级久久久久久久| 久久伊人精品中文字幕有| 国产亚av手机在线观看| 7878成人国产在线观看| 日本精品一区二区在线看| 在线精品首页中文字幕亚洲| 曰本人做爰又黄又粗视频| 日韩h网站| 精品中文字幕久久久人妻| 草草影院发布页| 国产一线二线三线女| 无码中文字幕av免费放| 粉嫩人妻91精品视色在线看| 日本一本之道高清不卡免费| 大香视频伊人精品75| 青青草最新在线视频观看| 老鸭窝视频在线观看| 欧美第一黄网免费网站| 成年视频网站在线观看777| 亚洲成人精品久久久国产精品| 成人欧美一区二区三区| 精品午夜久久网成年网| 国产av午夜精品一区二区入口 |