亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于結(jié)構(gòu)正則化方法的半監(jiān)督降維研究

        2018-09-20 08:54:36張喜蓮劉新偉樊明宇
        關(guān)鍵詞:精確度數(shù)據(jù)結(jié)構(gòu)降維

        張喜蓮,劉新偉,樊明宇

        (溫州大學(xué)數(shù)理與電子信息工程學(xué)院,浙江溫州 325035)

        隨著信息技術(shù)的快速發(fā)展,許多行業(yè)都會涉及到帶有大量特征的高維數(shù)據(jù),這些高維數(shù)據(jù)經(jīng)常包含冗余特征和噪聲特征等,傳統(tǒng)的機器學(xué)習(xí)方法難以直接對此類數(shù)據(jù)進(jìn)行分析,于是降維就成了機器學(xué)習(xí)與模式識別領(lǐng)域中的一個關(guān)鍵問題.所謂降維,就是指采用某種映射方法,將原高維空間中的數(shù)據(jù)點映射到低維度的空間中,從而挖掘出隱藏在高維觀測數(shù)據(jù)中有意義的低維結(jié)構(gòu),來研究數(shù)據(jù)屬性.在很多模式識別應(yīng)用中,降維是數(shù)據(jù)預(yù)處理的重要組成部分.

        在過去的數(shù)十年里,研究學(xué)者提出了許多經(jīng)典而有效的降維方法,如PCA[1]、LPP[2]、SLPP[3]、CLPP[3]、NPE[4]、GNMF[5]、DUDR[6]等.根據(jù)數(shù)據(jù)的有無標(biāo)簽信息,降維方法可分為有監(jiān)督降維和無監(jiān)督降維.有監(jiān)督降維需要數(shù)據(jù)都有類別標(biāo)簽信息,而標(biāo)記大量的無標(biāo)簽數(shù)據(jù)需要花費大量的人力和物力;無監(jiān)督降維僅利用了無標(biāo)簽數(shù)據(jù)的信息,無法利用少量有標(biāo)簽數(shù)據(jù)的信息.在機器學(xué)習(xí)中,往往會遇到大量無標(biāo)簽的數(shù)據(jù)和少量有標(biāo)簽的數(shù)據(jù),單純的無監(jiān)督降維和有監(jiān)督降維都不能達(dá)到令人滿意的效果.同時利用這些有標(biāo)簽的數(shù)據(jù)和無標(biāo)簽的數(shù)據(jù)可以提高降維的效果,因此,半監(jiān)督降維就成為了近幾年的研究熱點.

        本文提出一種結(jié)構(gòu)正則化半監(jiān)督降維算法,主要貢獻(xiàn)是:

        1)能夠?qū)W到兩種形式的數(shù)據(jù)結(jié)構(gòu)特征,軟數(shù)據(jù)結(jié)構(gòu)和硬數(shù)據(jù)結(jié)構(gòu).成對數(shù)據(jù)點之間以實數(shù)型定義的相似性表達(dá)了軟數(shù)據(jù)結(jié)構(gòu);通過數(shù)據(jù)分割可以學(xué)到數(shù)據(jù)的分類信息,稱為硬數(shù)據(jù)結(jié)構(gòu).

        2)數(shù)據(jù)結(jié)構(gòu)化和降維的結(jié)果交替優(yōu)化,更好的數(shù)據(jù)結(jié)構(gòu)能夠保證得到更優(yōu)的降維結(jié)果,同時,更好的降維結(jié)果能夠幫助得到更好的數(shù)據(jù)結(jié)構(gòu).因此,在本文的框架中,數(shù)據(jù)的結(jié)構(gòu)化學(xué)習(xí)和降維的每個子任務(wù)可以相互促進(jìn)提升.

        3)在降維的回歸框架中,軟數(shù)據(jù)結(jié)構(gòu)和硬數(shù)據(jù)結(jié)構(gòu)被公式化為正則化項,在保證收斂的情況下,這個算法能夠有效地優(yōu)化計算與實現(xiàn).

        1 提出的框架

        1.1數(shù)據(jù)結(jié)構(gòu)化學(xué)習(xí)

        假設(shè)在數(shù)據(jù)子空間的一個聯(lián)合體中,每個數(shù)據(jù)點能夠被其它數(shù)據(jù)點線性表出,公式化如下:

        這里μ是正則化項,其目的是使原始數(shù)據(jù)的先驗條件為均勻分布.顯而易見,樣本較近的數(shù)據(jù)點對應(yīng)該有較大的相似性,相似矩陣S的估計能夠被當(dāng)成一種局部的結(jié)構(gòu)化特點.自表述模型(1)是保持全局和稀疏重構(gòu)數(shù)據(jù)結(jié)構(gòu)化的,而自適應(yīng)的鄰接模型(2)是以數(shù)據(jù)的局部相似性為基礎(chǔ)且針對數(shù)據(jù)局部結(jié)構(gòu)化的,一旦找到Z(或者相似矩陣S),通過引入關(guān)聯(lián)矩陣或者,然后應(yīng)用譜聚類,就能夠?qū)崿F(xiàn)數(shù)據(jù)分割.假設(shè)聚類結(jié)果已經(jīng)給定{t1,t2,… ,tN},ti∈ { 1, 2, … ,C }是xi的類別標(biāo)簽,C是類數(shù),在本文中,使用非負(fù)實值描述點對之間相似性的關(guān)聯(lián)矩陣W,作為軟數(shù)據(jù)結(jié)構(gòu)化;而提供數(shù)據(jù)點類特征的數(shù)據(jù)分割結(jié)果,作為一種硬數(shù)據(jù)結(jié)構(gòu)化[7].

        1.2 線性判別分析

        線性判別分析(LDA)目標(biāo)是尋求一種方向:在同類中,數(shù)據(jù)點之間離得較近,在不同類中數(shù)據(jù)點之間離得較遠(yuǎn).對于已經(jīng)給定的類別標(biāo)簽數(shù)據(jù)集 X = { x1,x2,… ,xn},LDA的主函數(shù)如下:

        Tr(·)指矩陣跡算子, A ∈ Rm×d是映射矩陣,和S=b分別是類內(nèi)離散度矩陣和類間離散度矩陣,nc是樣本在第c類中的樣本數(shù)量,是第c類中的第i個樣本,是第c類中樣本的均值,是所有樣本的均值.定義為全散度矩陣,因此有 St=Sw+Sb.LDA的主函數(shù)等價于:

        A由廣義特征值問題 Sbα =λStα的最大特征值所對應(yīng)的前m個特征向量組成,其中λ是特征值,α是所對應(yīng)的特征向量[8],由于它的簡單有效性,LDA被廣泛應(yīng)用在機器學(xué)習(xí)中.

        1.3 半監(jiān)督降維

        這里我們公式化半監(jiān)督降維[9].對于樣本數(shù)據(jù)集它的前l(fā)個樣本是有標(biāo)簽的,記為第l+1個樣本到n個樣本是無標(biāo)簽的,記為標(biāo)簽矩陣記為這里.通過數(shù)據(jù)結(jié)構(gòu)化學(xué)習(xí)能夠獲得數(shù)據(jù)的軟標(biāo)簽矩陣,然后通過半監(jiān)督學(xué)習(xí)得到硬標(biāo)簽矩陣——硬數(shù)據(jù)結(jié)構(gòu)化.

        此外,我們希望降維后的結(jié)論能夠影響結(jié)構(gòu)化學(xué)習(xí)過程.在降維后,當(dāng)Axi和Axj比較接近時,數(shù)據(jù)xi和xj的相似度是比較大的;yi和yj比較接近時,標(biāo)簽yi和yj的相似度也是比較大的.在半監(jiān)督降維中,目的是使投影數(shù)據(jù)矩陣AX和相似度矩陣W盡可能地相似:

        把(4)和(6)結(jié)合起來,公式化結(jié)構(gòu)正則化半監(jiān)督降維(Sr-SSDR)的優(yōu)化框架如下:

        由(7)式可以看到,當(dāng)Y,A定時,本文的算法學(xué)習(xí)了映射后數(shù)據(jù)特征的數(shù)據(jù)結(jié)構(gòu)(前三項),當(dāng)Z定時,對于降維問題,硬數(shù)據(jù)結(jié)構(gòu)化被轉(zhuǎn)化為正則化項.本文的方法在很大程度上減輕了噪聲對數(shù)據(jù)的影響[10].

        1.4 優(yōu)化算法的步驟

        這一部分,我們提出一種有效的優(yōu)化模型.優(yōu)化算法具體步驟:1)當(dāng)Y和A定時,優(yōu)化Z和E直到收斂;2)當(dāng)Z和E定時,優(yōu)化Y和A.當(dāng)標(biāo)簽矩陣Y和映射矩陣A(初始化為I)給定時,通過優(yōu)化下列結(jié)構(gòu)化問題求解出矩陣Z和E:

        對于問題(8),用ADMM(Alternating Direction Method of Multipliers)算法,通過引入增廣矩陣 Q = Z - d iag(Z),問題(8)就等價于:

        進(jìn)一步,可得到上述優(yōu)化問題的增廣的拉格朗日函數(shù)如下:

        其中Y1,Y2是拉格朗日乘子矩陣,μ>0是一個自適應(yīng)參數(shù).對于(10)中Z的子問題,通過ADMM算法,得到Z的閉式解:

        Z的閉式解可以簡化為:

        為了優(yōu)化(10)中的Q,對(10)關(guān)于Q求導(dǎo),令導(dǎo)函數(shù)為0,得出的Q值就是最優(yōu)解.

        當(dāng)其它的變量都固定時,求解噪聲E:

        求解結(jié)構(gòu)正則化半監(jiān)督降維.

        在自表述矩陣Z和噪聲矩陣E達(dá)到收斂的情況下,優(yōu)化類別標(biāo)簽Y和投影矩陣A.當(dāng)Z和E,A定時,優(yōu)化Y,目標(biāo)函數(shù)如下:

        其中L是拉普拉斯矩陣,L=D+W, D = d iag()(i=1,…,n)是度矩陣且是一個對角線上元素為的對角矩陣.為計算方便,令則優(yōu)化(13)就相當(dāng)于優(yōu)化下式:

        由于在 Y =[Yl, Yu]中,Yl是已知標(biāo)簽,所以求解Y實際只需求解未知標(biāo)簽Yu即可.為了求解這一問題,對(14)式關(guān)于Yu進(jìn)行求導(dǎo),令導(dǎo)函數(shù)為0得的閉式解為:

        給出標(biāo)簽Y,問題(7)化簡為下列問題:

        基于標(biāo)簽Y,可估計出類內(nèi)散度矩陣Sw和類間散度矩陣Sb.由于A存在于分子、分母和條件項中,很難直接去求解(16),這里采用譜回歸把復(fù)雜問題(16)轉(zhuǎn)化為一種等價的回歸形式,使A更容易求解出來.令是中心化的數(shù)據(jù)矩陣,類間散度矩陣

        定理1表明我們并不用解決(17)中的特征值問題,而是通過以下兩步求解LDA問題:

        2 討 論

        本文方法(SSrDR)使用了交替優(yōu)化的算法——同時優(yōu)化Z和E直到收斂,接著優(yōu)化Y和A,交替優(yōu)化,直到Z,E,Y,A都達(dá)到收斂.這里優(yōu)化Z和E是一個內(nèi)循環(huán),優(yōu)化Y和A是外循環(huán).采用本文方法求解投影矩陣A時,把復(fù)雜的特征值求解問題轉(zhuǎn)化為一種等價的回歸問題,其收斂速度更快,更容易求解,大大縮短了計算時間.

        3 實 驗

        用兩個圖像數(shù)據(jù)集(COIL20,Mpeg)做實驗來測試本文所給方法.我們用分類精確度作為性能度量,把最近鄰分類器應(yīng)用在無標(biāo)簽樣本的嵌入中去計算分類精確度,所有的實驗都獨立實驗 50次以上.實驗采用最近鄰分類器的分類精確度作為評價指標(biāo),使用交叉驗證法估計最終的實驗結(jié)果,見圖1、圖2、圖3、圖4.

        由實驗結(jié)果可以看出,在每一種降維算法下,隨著維度的增加,分類精確度都是逐漸上升的,在分類精確度達(dá)到穩(wěn)定時,本文的算法在兩種數(shù)據(jù)集上的分類精確度都是最高的.

        4 結(jié)論與前景展望

        本文提出了一種結(jié)構(gòu)正則化半監(jiān)督降維算法——同時降維和學(xué)習(xí)數(shù)據(jù)的結(jié)構(gòu)特征.在本文的半監(jiān)督降維方法中,通過交替優(yōu)化和半監(jiān)督分類,可以學(xué)到兩種數(shù)據(jù)結(jié)構(gòu)——軟數(shù)據(jù)結(jié)構(gòu)和硬數(shù)據(jù)結(jié)構(gòu),把兩種數(shù)據(jù)結(jié)構(gòu)當(dāng)成正則化項,這種算法是一種高效的算法.大量的實驗驗證了本文算法的有效性.

        圖1 COIL20數(shù)據(jù)集(有標(biāo)簽的數(shù)據(jù)占20%)在各種降維算法中分類精確度的比較Fig 1 The Comparison of Classification Accuracy of COIL20 Data Set (Labeled Data Account for 20%) in Various Dimensionality Reduction Algorithms

        圖2 COIL20數(shù)據(jù)集(有標(biāo)簽的數(shù)據(jù)占25%)在各種降維算法中分類精確度的比較Fig 2 The Comparison of Classification Accuracy of COIL20 Data Set (Labeled Data Account for 25%) in Various Dimensionality Reduction Algorithms

        圖3 Mpeg數(shù)據(jù)集(有標(biāo)簽數(shù)據(jù)占35%)在各種降維算法中分類精確度的比較Fig 3 The Comparison of Classification Accuracy of Mpeg Data Set (Labeled Data Account for 35%) in Various Dimensionality Reduction Algorithms

        圖4 Mpeg數(shù)據(jù)集(有標(biāo)簽數(shù)據(jù)占40%)在各種降維算法中分類精確度的比較Fig 4 The Comparison of Classification Cccuracy of Mpeg Data Set (Labeled Data Account for 40%) in Various Dimensionality Reduction Algorithms

        猜你喜歡
        精確度數(shù)據(jù)結(jié)構(gòu)降維
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
        “硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計算
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        “翻轉(zhuǎn)課堂”教學(xué)模式的探討——以《數(shù)據(jù)結(jié)構(gòu)》課程教學(xué)為例
        高職高專數(shù)據(jù)結(jié)構(gòu)教學(xué)改革探討
        中國市場(2016年45期)2016-05-17 05:15:48
        拋物化Navier-Stokes方程的降維仿真模型
        計算物理(2014年1期)2014-03-11 17:00:18
        基于特征聯(lián)合和偏最小二乘降維的手勢識別
        TRIZ理論在“數(shù)據(jù)結(jié)構(gòu)”多媒體教學(xué)中的應(yīng)用
        《數(shù)據(jù)結(jié)構(gòu)》教學(xué)方法創(chuàng)新探討
        河南科技(2014年5期)2014-02-27 14:08:57
        国产偷国产偷亚洲清高| 国产色xx群视频射精| 男人和女人做爽爽免费视频| 精品久久久久久无码中文字幕| 野外少妇愉情中文字幕| 狠狠色丁香久久婷婷综合蜜芽五月| 四虎成人精品无码永久在线| 久久精品国产99精品国偷 | 欧美性videos高清精品| 久久精品re| 日韩在线精品在线观看| 亚洲一区二区观看网站| 91中文在线九色视频| av中国av一区二区三区av| 男人国产av天堂www麻豆| а√天堂资源官网在线资源| 日韩精品无码视频一区二区蜜桃| 射精情感曰妓女色视频| 国产自产av一区二区三区性色| 精品粉嫩国产一区二区三区| 丝袜美腿一区在线观看| 色婷婷色丁香久久婷婷| 丰满少妇a级毛片| 精品久久久久久久无码| 精品国产迪丽热巴在线| 日韩亚洲精选一区二区三区| 18禁裸体动漫美女无遮挡网站 | 久久亚洲精品成人av| 亚洲精品国产成人AV| 久久福利资源国产精品999| 成美女黄网站18禁免费| 青青草中文字幕在线播放| 日本丰满少妇xxxx| 久久www免费人成—看片| 欧美性videos高清精品| 在线视频一区二区亚洲| 日韩精品免费av一区二区三区| 久久青青草原国产毛片| 久久婷婷人人澡人人喊人人爽| 欧美成人看片黄a免费看| 精品在免费线中文字幕久久|