亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高維數(shù)據(jù)降維技術(shù)及研究進(jìn)展

        2018-03-08 10:06:23趙逢禹
        電子科技 2018年3期
        關(guān)鍵詞:高維降維研究者

        劉 靖,趙逢禹

        (上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093)

        隨著多媒體技術(shù)和計算機技術(shù)的高速發(fā)展,大規(guī)模的數(shù)據(jù)維度呈爆炸性增長。伴隨著數(shù)據(jù)維數(shù)的增長,使得目標(biāo)函數(shù)優(yōu)化、參數(shù)估計、模型選擇變得越來越困難,這類問題已普遍地影響到諸多領(lǐng)域,如機器學(xué)習(xí)[1]、圖像處理[2]、模式識別[3]、文本分析[4]等,這種現(xiàn)象被稱為維度災(zāi)難[5]。

        維度災(zāi)難帶來的問題主要表現(xiàn)在3個方面:(1)愈加增加的數(shù)據(jù)維數(shù)導(dǎo)致空間數(shù)據(jù)點分布更稀疏,使得空間的參數(shù)優(yōu)化越來越棘手;(2)維數(shù)的升高使得高維數(shù)據(jù)索引組織效果變差,數(shù)據(jù)節(jié)點的重疊性呈指數(shù)級遞增,導(dǎo)致數(shù)據(jù)檢索時,增加過多的訪問路徑,造成檢索效率低下;(3)高維數(shù)據(jù)處理對計算機的運算與存儲能力要求較高,目前計算機的運算與存儲能力仍不能完全滿足其運算與存儲要求。

        上述問題給高維數(shù)據(jù)處理中的數(shù)據(jù)分析帶來了重大挑戰(zhàn),同時維數(shù)的膨脹也給模式識別帶來了較大的困難。為降低、消除維度災(zāi)難的影響,研究者提出了一系列的解決方法。為了準(zhǔn)確把握降維技術(shù)的發(fā)展方向,本文研究了自2010年以來降維技術(shù)相關(guān)的大量國內(nèi)外文獻(xiàn),結(jié)果表明,近年來越來越多的研究者開始致力于降維技術(shù)的研究并取得了可觀的成果。

        1 降維技術(shù)

        降維技術(shù)旨在將高維數(shù)據(jù)映射到更低維的數(shù)據(jù)空間上以尋求數(shù)據(jù)緊湊表示,這種技術(shù)有利于對數(shù)據(jù)做進(jìn)一步處理。例如在基于內(nèi)容的圖像檢索中,將提取的高維圖像特征向量數(shù)據(jù)通過降維處理降低到一定的維度,則可以使用相關(guān)的索引機制組織數(shù)據(jù)以進(jìn)行更高效的檢索。降維技術(shù)可用如下數(shù)學(xué)方式表達(dá),設(shè)

        (1)

        其中,X為D維空間RD的一個數(shù)據(jù)集。通過降維技術(shù)找到一定的映射F:X→Y,使得

        (2)

        其中,Y為一個新的維度為d的數(shù)據(jù)集,且d

        傳統(tǒng)降維技術(shù)通常在處理較低維度的數(shù)據(jù)集時非常有效,而對較高維度的數(shù)據(jù)集則很難得出有意義的分析[6]。近年來,人們對降維技術(shù)的理論研究和技術(shù)應(yīng)用等各個方面都取得了長足的進(jìn)步,新的降維技術(shù)被不斷提出,不同的技術(shù)各有所長,適用于不同的降維場景。

        1.1 常見降維技術(shù)

        目前研究者已陸續(xù)提出了多種降維技術(shù),如線性判別分析法[7]、主成分分析法[8]、多維尺度分析法[9]、等。本文依據(jù)映射形式的分類,將現(xiàn)有的降維技術(shù)分為線性降維和非線性降維,圖1列出了典型的線性降維技術(shù)和非線性降維技術(shù)。

        圖1 降維技術(shù)分類

        1.2 線性降維技術(shù)

        線性降維技術(shù)是出現(xiàn)最早的降維技術(shù),特點是易于實現(xiàn)、快速簡單、不存在局部極值與相對有效性,因此得到了廣泛應(yīng)用,下面介紹幾種典型的線性降維技術(shù)。

        1.2.1 主成分分析

        主成分分析(Principal Components Analysis,PCA)[8]是一種坐標(biāo)變化技術(shù),通過將數(shù)據(jù)集映射到一組新變量(主成分)上,并設(shè)置數(shù)據(jù)方差的閾值以舍棄方差較少的主成分,新得到的維度(主成分)為原維度的線性組合,并盡可能反映數(shù)據(jù)原有的信息,以達(dá)到降維目的。缺點是在降維過程中,需要人工選取主成分個數(shù),如果選取不當(dāng)將導(dǎo)致信息丟失。

        1.2.2 線性判別分析

        線性判別分析(Linear Discriminant Analysis,LDA)[6]也稱為Fisher判別分析,是一種有監(jiān)督降維方法。LDA通過找尋數(shù)據(jù)集中的投影矩陣,可以將高維數(shù)據(jù)投影到低維空間中,并使數(shù)據(jù)集在低維空間中同類數(shù)據(jù)區(qū)別最小化,異類數(shù)據(jù)區(qū)別最大化。目前該方法主要應(yīng)用于高維數(shù)據(jù)的分類工作,由于降維過程中不能靈活的調(diào)整分解矩陣的大小,在分類中心有重疊時會得到較差的分類效果。

        1.3 非線性降維技術(shù)

        線性降維技術(shù)通常不能在真實數(shù)據(jù)集的降維過程中較好地保持?jǐn)?shù)據(jù)集的非線性特性,因此研究者提出了非線性降維技術(shù)。非線性降維技術(shù)通常情況下是基于線性降維技術(shù)進(jìn)行非線性的擴展或采用神經(jīng)網(wǎng)絡(luò)等方法來進(jìn)行優(yōu)化降維,下面介紹幾種典型的非線性降維技術(shù)。

        1.3.1 多維尺度分析

        多維尺度分析(Multi-Dimensional Scaling,MDS)[6]分為度量MDS和非度量MDS。度量MDS確保降維后低維數(shù)據(jù)點之間的距離與原數(shù)據(jù)點之間的相對距離盡量保持一致,以盡可能保留數(shù)據(jù)對象間的相似性,其降維過程中距離函數(shù)的選擇具有靈活性。非度量MDS旨在確保降維前后數(shù)據(jù)對象間順序關(guān)系一致性,而非數(shù)據(jù)對象間的相對距離。

        1.3.2 局部線性嵌入

        局部線性嵌入(Local Linear Embedding,LLE)[10]是一種突破傳統(tǒng)降維方式的非線性降維模式,很多后續(xù)的流形學(xué)習(xí)和降維技術(shù)都與LLE有著緊密的聯(lián)系。LLE的主要思想是將數(shù)據(jù)集視作是由大量相互鄰接的局部線性塊連接形成,這種局部線性塊可以較好的描述原數(shù)據(jù)集的特征屬性,從而實現(xiàn)降維。LLE的提出進(jìn)一步地擴展了研究者關(guān)于降維的認(rèn)識,并提出了一系列的LLE變體。如拉普拉斯特征映射(Laplacian Eigenmaps)[11]的主要思想是先將數(shù)據(jù)集中的數(shù)據(jù)點與其最近鄰居連接構(gòu)建一個鄰居圖,并對圖的每條邊賦予相應(yīng)的權(quán)值,接著尋求數(shù)據(jù)集的嵌入坐標(biāo)表示,保證嵌入坐標(biāo)的平方距離最小,從而得到最優(yōu)的低維表示向量。

        1.4 近年推出的降維技術(shù)

        隨著降維技術(shù)的不斷研究與應(yīng)用,降維技術(shù)的理論框架已逐步形成?,F(xiàn)有的降維技術(shù)已取得了可觀的研究成果,近幾年對于降維技術(shù)的研究,主要集中于原有算法的改進(jìn)和延伸方面。

        1.4.1 自適應(yīng)線性數(shù)據(jù)降維技術(shù)

        YN.Jeng等[12]基于元學(xué)習(xí)(Meta-learning)提出一種自適應(yīng)線性數(shù)據(jù)降維算法。該算法針對數(shù)據(jù)的類型和特點,引入元學(xué)習(xí)和選擇統(tǒng)計的方法作為數(shù)據(jù)集的構(gòu)造和分類規(guī)則,以達(dá)到降維過程中的分類錯誤率。該算法的優(yōu)點是適用于多種數(shù)據(jù)類型,且降維分類過程是是自適應(yīng)的,缺點則是在處理含有較多異常值的數(shù)據(jù)集時性能較差。

        1.4.2 基于統(tǒng)計相關(guān)的數(shù)據(jù)降維技術(shù)

        A.Ramdas等[13]基于統(tǒng)計相關(guān)的方法,提出一種可應(yīng)用最鄰近分類的算法,該算法中提出的內(nèi)在距離是其他擴散距離的概念相似,是變量間相關(guān)統(tǒng)計方法的拓展。該算法已應(yīng)用于真實數(shù)據(jù)集中,相比其他統(tǒng)計相關(guān)算法具有更好的穩(wěn)定性和分類效果。對于該算法中提出用于表示鄰里演變的連接程度的參數(shù)t,其選取和理論解釋不夠明確,仍需要進(jìn)一步進(jìn)行試驗驗證。

        1.4.3 其它降維技術(shù)

        除了上述討論的降維技術(shù)外,近年來還出現(xiàn)了多種降維技術(shù)。如線性降維方面的潛在語義索引(Latent Semantic Index,LSI)[14]、投影尋蹤(Projection Pursuit,PP)[15]、子分析(Factor Analysis,F(xiàn)A)[16]、獨立成分分析(Independent Components Analysis,ICA)[17]等方法。非線性降維方面則有核主成分分析(Kernel PCA,KPCA)[18]、等距映射(Isometric Mapping,Isomap)[19]、形[20]、局部線性協(xié)同(Locally Linear Coordination,LLC)[21]、Manifold Learning[22]等方法。

        2 性能分析

        本文對幾種典型高維數(shù)據(jù)降維技術(shù)的性能進(jìn)行了分析整理,如表1所示。這些算法應(yīng)用廣泛,主要集中在分類和聚類領(lǐng)域。由于各算法的應(yīng)用領(lǐng)域不同,使得性能優(yōu)缺點差異較大,研究者需要根據(jù)實際情況進(jìn)行適當(dāng)?shù)倪x擇,并針對算法不足進(jìn)行性能改進(jìn)。

        表1 典型降維技術(shù)性能

        根據(jù)式(1)降維得到式(2),T(n)為時間復(fù)雜度,S(n)為空間復(fù)雜度,i為迭代次數(shù),k為Isomap近鄰點個數(shù),w與m為Auto-encoder的權(quán)值和網(wǎng)絡(luò)大小。

        3 未來研究方向

        隨著科技的進(jìn)步,出現(xiàn)了越來越多復(fù)雜的真實數(shù)據(jù),呈現(xiàn)給研究者處理分析相關(guān)數(shù)據(jù)及問題的挑戰(zhàn)也愈加巨大?,F(xiàn)有降維技術(shù)的研究為快速有效地處理高維數(shù)據(jù)提供了一定的便利,已經(jīng)取得了較大的成果,但還有很多研究問題的處理效率有待提升。

        3.1 流形學(xué)習(xí)降維

        目前流形學(xué)習(xí)方法[22]難以在應(yīng)用上進(jìn)行推廣,原因在于該類方法并未建立高維流形數(shù)據(jù)與映射后低維數(shù)據(jù)之間的映射關(guān)系,使得無法獲得新輸入的高維數(shù)據(jù)與低維結(jié)果數(shù)據(jù)之間的映射表示。

        3.2 超高維數(shù)據(jù)降維

        目前降維技術(shù)在處理不同領(lǐng)域的較低維度數(shù)據(jù)(維度<50)時效率很好,但是在較高維度(維度>50)的處理效果仍有待提高。

        3.3 自適應(yīng)能力

        目前降維技術(shù)對動態(tài)變化的數(shù)據(jù)集難以實現(xiàn)快速高效的降維,由于真實環(huán)境中數(shù)據(jù)的復(fù)雜性(非線性數(shù)據(jù))與受噪聲影響較大等原因,如何提高算法的魯棒性,降低噪聲和奇異值對數(shù)據(jù)的影響,提高降維算法的自適應(yīng)性與降維結(jié)果的有效性是今后研究的重點。

        4 結(jié)束語

        本文圍繞降維技術(shù)將高維數(shù)據(jù)中的降維問題分為線性降維和非線性降維,進(jìn)行分類描述,介紹了近年來降維技術(shù)的研究成果,為更好的推廣使用這些技術(shù),對經(jīng)典降維技術(shù)進(jìn)行了性能分析,指出其優(yōu)缺點。根據(jù)降維技術(shù)當(dāng)前仍然存在的問題,展望了未來研究的方向。盡管降維技術(shù)原本是伴隨著多媒體數(shù)據(jù)處理和數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理這一領(lǐng)域出現(xiàn)的,但降維技術(shù)獨特的理念給研究者在處理解決各類問題都提供了一個新的思路和方法,所以未來將產(chǎn)生更多的降維技術(shù)研究成果。

        [1] Rosten E,Drummond T.Machine learning for high-speed corner detection[M].Berlin:Computer Vision-ECCV,Springer Heidelberg,2006.

        [2] Stommel M,Herzog O.SIFT-based object recognition with fast alphabet creation and reduced curse of dimensionality[C]. New Zealand: International Conference on Image and Vision Computing,2009.

        [3] Qin H,Tang S.A solution to dimensionality curse of BP network in pattern recognition based on RS theory[C].Sanya:International Joint Conference on Computational Sciences and Optimization,2009.

        [4] Gao M T,Wang Z O.A new algorithm for text clustering based on projection pursuit[C].Beijing:International Conference on Machine Learning and Cybernetics,IEEE,2007.

        [5] Erchtold S,B?hm C,Kriegal H P.The pyramid-technique: towards breaking the curse of dimensionality[J].ACM SIGMOD Record,1998,27(2):142-153.

        [6] Zhu X,Zhang S,Jin Z,et al.Missing value estimation for mixed-attribute data sets[J].IEEE Transactions on Knowledge & Data Engineering,2011,23(1):110-121.

        [7] Alavi A H,Gandomi A H.A robust data mining approach for formulation of eotechnical engineering systems[J]. Engineering Computations,2011,28(3):242-274.

        [8] 黃華盛,楊阿慶.基于PCA算法的人臉識別[J].電子科技,2015,28(8):98-101.

        [9] Rachev B,Smrikarov A.Proceedings of the 9th international conference on computer systems and technologies and workshop for PhD students in computing[C].Russia:International Conference on Computer Systems and Technologies and Workshop for Phd Students in Computing,ACM,2008.

        [10] Li B, Zhang Y. Supervised locally linear embedding projection (SLLEP) for machinery fault diagnosis[J].Mechanical Systems & Signal Processing,2011,25(8):3125-3134.

        [11] Wang J.Geometric structure of high-dimensional data and dimensionality reduction[M].Berlin:Springer Heidelberg,2012.

        [12] Jeng Y N,Lin S Y,Lee Z S. Smoothing of the multiple one-dimensional adaptive grid procedure[J].Aiaa Journal,2015, 38(38):2353-2355.

        [13] Ramdas A, Reddi S J, Poczos B, et al. Adaptivity and computation-statistics tradeoffs for kernel and distance based high dimensional two sample testing[J]. Statistical Applications in Genetics & Molecular Biology,2015,12(6):1-12.

        [14] Zheng W. Dimensionality reduction by combining category information and latent semantic index for text categorization[J].Journal of Information & Computational Science,2013, 10(8):2463-2469.

        [15] Schimek M G.Projection pursuit regression[M].NewYork:John Wiley & Sons,Inc.,2012.

        [16] Cady B, Sedgwick C E, Meissner W A,et al.Risk factor analysis in differentiated thyroid cancer[J].Cancer, 2015,43(43):810-820.

        [17] Lacerda G,Spirtes P L,Ramsey J,et al. Discovering cyclic causal models by independent components analysis[C].Grace:Uncertainty in Artificial Intelligence,2012.

        [18] Alzate C,Suykens J A K.Multiway spectral clustering with out-of-sample extensions through weighted kernel PCA[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2010,32(2):335-347.

        [19] Zhang N,Tian X M.Nonlinear dynamic fault detection method based on isometric mapping[J].Journal of Shanghai Jiaotong University,2011,45(8):1202-1206.

        [20] Zhang Z,Chow T W S,Zhao M. Trace ratio optimization-based semi-supervised nonlinear dimensionality reduction for marginal manifold visualization[J].IEEE Transactions on Knowledge & Data Engineering,2013,25(5):1148-1161.

        [21] Hong Huang,Jianwei Li,Hailiang Feng. Subspaces versus submanifolds:a comparative study in small sample size problem[J].International Journal of Pattern Recognition & Artificial Intelligence,2011,23(3):463-490.

        [22] Saini S,Rambli D R B A,Sulaiman S B,et al.Markerless multi-view human motion tracking using manifold model learning by charting[J].Procedia Engineering,2012(41):664-670.

        猜你喜歡
        高維降維研究者
        混動成為降維打擊的實力 東風(fēng)風(fēng)神皓極
        車主之友(2022年4期)2022-08-27 00:57:12
        高等教育中的學(xué)生成為研究者及其啟示
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        研究者稱,經(jīng)CRISPR技術(shù)編輯過的雙胞胎已出生。科學(xué)將如何回應(yīng)?
        英語文摘(2019年2期)2019-03-30 01:48:40
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        研究者調(diào)查數(shù)據(jù)統(tǒng)計
        中華手工(2018年6期)2018-07-17 10:37:42
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
        醫(yī)生注定是研究者
        一般非齊次非線性擴散方程的等價變換和高維不變子空間
        高維Kramers系統(tǒng)離出點的分布問題
        国产精品福利影院| av人摸人人人澡人人超碰下载| 九九久久自然熟的香蕉图片| 少妇对白露脸打电话系列| 99久久国内精品成人免费| 国产大片在线观看91| 99国产精品久久99久久久| 精品久久欧美熟妇www| 亚洲 国产 哟| 操老熟妇老女人一区二区| 精品一区三区视频在线观看| 国产二级一片内射视频插放| 无码人妻少妇久久中文字幕蜜桃| 美女偷拍一区二区三区| 一区二区三区美女免费视频| 日本公与熄乱理在线播放| 欧美日韩国产在线观看免费| 一区二区三区人妻在线| 亚洲男女内射在线播放| 亚洲av日韩av综合| 加勒比日本东京热1区| 亚洲精品中文字幕乱码无线| 久久亚洲日韩精品一区二区三区| 亚洲乱码国产一区三区| 大胸美女吃奶爽死视频| 久久亚洲精品国产av| 两个人看的www免费视频中文| 日韩在线看片| 亚洲国产天堂av成人在线播放| 欧美激情乱人伦| 久久精品无码中文字幕| 最新永久免费AV网站| 久久精品不卡一区二区三区| 国产成人亚洲精品青草天美| 精品视频在线观看免费无码 | 久久这里只有精品9| 一区二区三区手机看片日本韩国| 亚洲av不卡无码国产| 国产无遮挡a片又黄又爽| 国产小车还是日产的好| 国内久久婷婷六月综合欲色啪|