亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高維數(shù)據(jù)降維中SVD與CUR分解對比分析

        2014-04-02 02:06:36,,,,
        中原工學(xué)院學(xué)報 2014年6期
        關(guān)鍵詞:負(fù)值高維降維

        , , , ,

        (解放軍信息工程大學(xué), 鄭州 450000)

        在高維空間中,由于“維數(shù)災(zāi)難”的存在,作為數(shù)據(jù)之間相似性度量的Lp距離會失去意義。高維數(shù)據(jù)包含許多冗余,其實際的維度比原始的數(shù)據(jù)維度小得多,因此高維數(shù)據(jù)可以通過降維手段轉(zhuǎn)換到低維空間進(jìn)行處理。高維數(shù)據(jù)的處理方法有很多種,常用的方法有SVD分解和CUR分解。SVD分解是大數(shù)據(jù)分析和處理常用的降維方法。但是,由于它線性綜合了全局的信息,因此生成的數(shù)據(jù)往往過于稠密且難以解釋。針對SVD分解的缺點,有人提出了CUR分解的方法[1]。CUR分解是一種從原始數(shù)據(jù)矩陣中依概率選取部分行和列構(gòu)造矩陣的分解方法。CUR分解得到的矩陣由原始數(shù)據(jù)構(gòu)造而來,其得到的矩陣稀疏且物理意義明確。同時,CUR分解的算法較為簡單,避免了對高維矩陣進(jìn)行特征值求解,因此其效率也較高。本文主要對這兩種降維方法進(jìn)行對比分析。

        1 矩陣的SVD分解

        1.1 SVD分解的一般形式

        A=UΣVT

        (1)

        其中,Σ=diag(σ1,…,σρ);Σ∈Rm×n;ρ=min(m,n),σ1≥σ2≥…≥σp≥0,矩陣U稱為A的左奇異矩陣,矩陣VT稱為A的右奇異矩陣,(σ1,σ2,…,σp)稱為A的奇異值。因為矩陣U和V均為正交矩陣,式(1)還可以寫為UTAV=Σ。

        1.2 SVD分解的存在性

        下面討論矩陣A的SVD分解的存在性[2],假設(shè)對于矩陣A∈Rm×n成立,則

        (2)

        當(dāng)m>n時,

        (3)

        當(dāng)m=n時,

        (4)

        當(dāng)m

        (5)

        如果式(1)成立,由式(3)、(4)和(5)得:

        A=UFVT,AT=VFTUT

        (6)

        由上式得:

        ATA=VΣ2VT,VT(ATA)V=Σ2

        (7)

        下面構(gòu)造正交矩陣U、V。

        (8)

        構(gòu)造V={v1,v2,…,vn},V∈Rn×n為正交陣,令

        (9)

        AV=UF或UTAV=F

        (10)

        式(10)說明矩陣A的SVD分解是存在的,且對任意的矩陣總能找到這樣的分解式。

        (11)

        盡管SVD分解的應(yīng)用非常廣泛,但是從原始矩陣的列來看,特征向量ui和vi往往缺乏合理的解釋。例如,個人信息矩陣經(jīng)過SVD分解后,可能得到的特征向量會包括很多極小值和負(fù)值。這對于SVD分解來說是正常的,因為SVD分解是一個數(shù)學(xué)方法,可以適用于任何矩陣。而在實際應(yīng)用中,有著明確物理意義的數(shù)據(jù)經(jīng)過SVD分解會得到負(fù)值,這樣的結(jié)果就很難給出合理的解釋。

        2 矩陣的CUR分解

        2.1 相關(guān)研究

        Stewart G W在線性代數(shù)領(lǐng)域提出了Quasi-Gram-Schmidt方法,這種方法應(yīng)用到矩陣中得到了CUR分解[3-4]。Goreinov S A等提出了CUR分解(pseudoskeleton近似),并討論了怎樣選取行和列滿足最大不相關(guān)理論[5-6]。Frieze A等提出依據(jù)矩陣中列的Euclidean范數(shù)的概率分布隨機(jī)選擇矩陣A中的列[7]。Mahoney M W等結(jié)合上述方法的優(yōu)點,提出效果較好的CUR分解方法[1]。本文主要分析CUR分解過程,并與SVD分解進(jìn)行對比。

        2.2 CUR分解的一般方法

        CUR分解的實質(zhì)是從原始矩陣中直接選取部分行和列,并以此構(gòu)造3個矩陣C、U和R。給定矩陣A,為了構(gòu)造矩陣C(矩陣R的構(gòu)造類似),需要對A中每列計算一個重要程度值,重要程度值越大的列在構(gòu)造過程中被選取的概率越大。按照這種規(guī)則進(jìn)行選擇,就能保證CUR是原始矩陣A的一個近似。

        原始矩陣A的第j列表示為

        (12)

        (13)

        再對前k個右奇異向量計算正則化杠桿效應(yīng)值:

        (14)

        (1)計算并正則化矩陣A的前k個右奇異向量的杠桿效應(yīng)值;

        矩陣R的構(gòu)造與之類似,對AT按相同步驟處理后可得矩陣R。

        定義矩陣W為矩陣C和矩陣R相交元素構(gòu)成的一個k×k矩陣,對矩陣W進(jìn)行如下操作:

        (1)計算矩陣W的SVD分解,W=XΣYT;

        (2)計算Σ的廣義逆矩陣(Moore-Penrose pseudoinverse)Σ+;

        (3)令U=Y(Σ+)2XT;

        這樣就得到了CUR分解的3個矩陣。

        3 SVD與CUR分解對比

        3.1 SVD與CUR分解異同

        對SVD與CUR分解得到的3個矩陣進(jìn)行對比,可以發(fā)現(xiàn)其相似之處:SVD分解得到的矩陣U和V是嚴(yán)格正交的,這是由求解過程和特征向量性質(zhì)決定的。CUR分解中構(gòu)造的矩陣C和R是近似正交的,這是因為在高維矩陣中存在著“維數(shù)災(zāi)難”現(xiàn)象,在高維矩陣中,任意兩個向量之間都是近似正交的。由于相似性,對矩陣U和V的一些處理方法在矩陣C和R上也是適用的。如果矩陣的維數(shù)較小,矩陣C和R沒有近似正交,其應(yīng)用會受到限制。

        與SVD分解相比,CUR分解還有以下優(yōu)點:

        (1)CUR分解非常直觀,矩陣C和R都是直接從原始矩陣中按照概率直接選取的,不會產(chǎn)生難以解釋的數(shù)據(jù),如負(fù)值等;

        (2)CUR分解中矩陣C和R有著明確的物理意義,且與SVD分解的應(yīng)用方法相同;

        (3)CUR分解的效率極高,SVD分解需要分別對矩陣ATA和AAT求特征值,在矩陣A的維數(shù)較高時計算量是非常大的。CUR分解只需要對一個低維的矩陣W進(jìn)行SVD分解,其他兩個矩陣計算量都比較小。

        3.2 CUR與SVD分解實際效果比較

        利用一個具體的實例對CUR分解及SVD分解進(jìn)行比較[8]。圖1是用戶——電影矩陣,矩陣中列代表用戶,行代表電影,矩陣中的元素表示用戶對電影的評分。

        圖1 用戶——電影矩陣

        對這個電影矩陣進(jìn)行SVD分解,由式(1)可以得到:

        (15)

        (16)

        (17)

        (18)

        如果采用截斷奇異值分解法(TSVD),保留最大的兩個奇異值,可以得到如下式子:

        U′ΣVT′=A′

        (19)

        (20)

        (21)

        (22)

        (23)

        可以看到,將TSVD分解得到的矩陣相乘所得的矩陣是原始矩陣的一個近似。

        利用TSVD分解的結(jié)果可以做一個簡單的推薦系統(tǒng),例如某用戶只看過電影Matrix,對其評分為4。將該用戶評分表示成向量形式:

        (24)

        上式表明該用戶可能傾向于科幻類的電影。

        (qV)VT=(1.13 1.13 1.13 -0.13 -0.13)

        (25)

        上式表明該用戶可能對電影Alien和Star Wars也感興趣。

        經(jīng)過SVD分解得到的矩陣包括許多負(fù)值,這在現(xiàn)實意義上難以解釋。雖然還原后的矩陣與原始矩陣近似,但原始矩陣是非常稀疏的,而還原矩陣包含了許多極小值,非常稠密,不便處理。

        對原始矩陣進(jìn)行CUR分解,取k=2。

        CUR=A′

        (26)

        (27)

        (28)

        (29)

        (30)

        CUR分解得到的矩陣也是原始矩陣的一個近似。

        利用CUR分解同樣可以實現(xiàn)一個推薦系統(tǒng),先對矩陣R進(jìn)行正則化,然后按照與TSVD類似的方法進(jìn)行處理:

        (qRT)R=(1.35 1.35 1.35 0 0)

        (31)

        其結(jié)果與利用TSVD分解得到的結(jié)果是非常近似的。

        再對CUR分解得到的矩陣進(jìn)行觀察,發(fā)現(xiàn)其能夠克服TSVD分解的缺點。首先CUR分解中矩陣的構(gòu)造來自原始矩陣,沒有出現(xiàn)類似負(fù)值這樣的異常值;其次,CUR分解得到的矩陣非常稀疏,還原后的矩陣也非常稀疏,這對于高維數(shù)據(jù)的處理是非常有利的。

        4 結(jié) 語

        SVD分解是一種傳統(tǒng)的矩陣分解方法,生成的矩陣中包含很多極小值和負(fù)值,這在工程實際中是不好解釋的。TSVD方法在SVD分解的基礎(chǔ)之上,通過保留若干個較大的奇異值及對應(yīng)的奇異向量實現(xiàn)降維,既在一定程度上保留了矩陣的全局信息,也去掉了大量難以解釋和處理的極小值。CUR分解直接從原始矩陣中依概率選取行和列構(gòu)造矩陣,物理意義明確,處理過程簡單,效率較高,而實際用法與效果與SVD分解類似,優(yōu)勢非常明顯。但是CUR依賴高維矩陣中任意兩個向量正交的性質(zhì),選取行列容易受一些異常數(shù)據(jù)的干擾。

        在一般情況下,SVD分解的準(zhǔn)確性較好,CUR分解穩(wěn)定性較差。在高維數(shù)據(jù)的應(yīng)用場景中,對準(zhǔn)確性并沒有嚴(yán)格的要求,SVD分解生成的矩陣過于稠密且效率低下,而CUR分解構(gòu)造的矩陣稀疏,效率較高。

        參考文獻(xiàn):

        [1] Mahoney M W, Drineas P.CUR Matrix Decompositions for Improved Data Analysis[J].Proceedings of the National Academy of Sciences, 2009, 106(3): 697-702.

        [2] 馬良榮, 張德澄.矩陣 SVD 分解法在工程數(shù)據(jù)計算中的應(yīng)用[J].寧夏大學(xué)學(xué)報(自然科學(xué)版), 1998, 19(2): 125-127.

        [3] Stewart G W.Four Algorithms for the Efficient Computation of Truncated Pivoted QR Approximations to a Sparse Matrix[J].Numerische Mathematik, 1999, 83(2): 313-323.

        [4] Berry M W, Pulatova S A, Stewart G W.Algorithm 844: Computing Sparse Reduced-rank Approximations to Sparse Matrices[J].ACM Transactions on Mathematical Software (TOMS), 2005, 31(2): 252-269.

        [5] Goreinov S A, Tyrtyshnikov E E, Zamarashkin N L.A theory of Pseudoskeleton Approximations[J].Linear Algebra and Its Applications, 1997, 261(1): 1-21.

        [6] Goreinov S A, Tyrtyshnikov E E.The Maximum-volume Concept in Approximation by Low-rank Matrices[J].Contemp.Math., 2001, 280:47-51.

        [7] Frieze A, Kannan R, Vempala S.Fast Monte-carlo Algorithms for Finding Low-rank Approximations[J].Journal of the ACM, 2004, 51(6): 1025-1041.

        [8] Rajaraman A, Ullman J D.Mining of Massive Datasets[M].Cambridge: Cambridge University Press, 2012.

        猜你喜歡
        負(fù)值高維降維
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        石油過剩:一桶油如何突然跌至負(fù)值
        英語文摘(2020年7期)2020-09-21 03:40:56
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        回味暑假生活,看看動物小伙伴們的表現(xiàn)
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
        一般非齊次非線性擴(kuò)散方程的等價變換和高維不變子空間
        高維Kramers系統(tǒng)離出點的分布問題
        拋物化Navier-Stokes方程的降維仿真模型
        計算物理(2014年1期)2014-03-11 17:00:18
        基于特征聯(lián)合和偏最小二乘降維的手勢識別
        国产又色又爽又黄刺激在线视频| 精品国精品自拍自在线| 亚洲av手机在线播放| 亚洲熟妇无码久久精品| 久久久精品456亚洲影院| 无码国内精品久久人妻| 亚洲一区av无码少妇电影| 亚洲国产成人Av毛片大全| 亚洲一区二区三区精品久久av| 国产 高潮 抽搐 正在播放| 天堂8中文在线最新版在线| 国产精品久久久久孕妇| 国产一区精品二区三区四区| 久久精品国产99久久久| 亚洲国产成人久久综合电影| 久久尤物av天堂日日综合| 成人影院羞羞的视频免费观看 | 精品日产一区2区三区| 97成人精品视频在线| 亚洲日本一区二区一本一道| 亚洲最大成av人网站| 亚洲国产免费一区二区| 99re66在线观看精品免费| 青青草97国产精品免费观看| 国产欧美日韩不卡一区二区三区 | 射精专区一区二区朝鲜| 国产精品久久久久久久成人午夜| 夫妻一起自拍内射小视频| 精品亚洲一区二区三区四区五 | 午夜av内射一区二区三区红桃视| 亚洲女人的天堂网av| 激情综合色综合久久综合| 久久精品国产91久久性色tv| 国产成人亚洲精品一区二区三区 | 午夜视频在线观看国产19| 亚洲av永久中文无码精品综合| 国产精品无码精品久久久| 亚洲色图少妇熟女偷拍自拍| 中文字幕无码中文字幕有码| 无尽动漫性视频╳╳╳3d| 亚洲伊人久久综合精品|