摘要:在處理和分析高維數(shù)據(jù)時通常會碰到維數(shù)災(zāi)難和傳統(tǒng)的低維數(shù)據(jù)處理方法存在本質(zhì)困難的問題,通過對各種處理高維數(shù)據(jù)的方法、技術(shù)進行比較和分析高維數(shù)據(jù)的統(tǒng)計特性后發(fā)現(xiàn),采用降維處理是處理高維數(shù)據(jù)時的最好的選擇。要實現(xiàn)降維的研究,應(yīng)該從高維數(shù)據(jù)四方面的特征來展開。
關(guān)鍵詞:高維數(shù)據(jù);數(shù)據(jù)處理;統(tǒng)計特性;特征結(jié)構(gòu);降維
中圖分類號:TP274 文獻標(biāo)識碼:A 文章編號:1007-9599 (2012) 16-0000-02
1 引言
隨著科學(xué)技術(shù)的發(fā)展,人們在實際應(yīng)用過程中經(jīng)常會碰到各種類型的海量數(shù)據(jù),如證券市場交易數(shù)據(jù)、多媒體圖形圖像視頻數(shù)據(jù)、航天航空采集數(shù)據(jù)、生物特征數(shù)據(jù)等,這些數(shù)據(jù)在統(tǒng)計處理中通常稱為高維數(shù)據(jù)。
在分析高維數(shù)據(jù)過程中碰到最大的問題就是維數(shù)的膨脹,也就是通常所說的“維數(shù)災(zāi)難”問題。研究表明,當(dāng)維數(shù)越來越多時,分析和處理多維數(shù)據(jù)的復(fù)雜度和成本成指數(shù)級增長。在分析高維數(shù)據(jù)時,所需的空間樣本數(shù)會隨維數(shù)的增加而呈指數(shù)增長。傳統(tǒng)的多元統(tǒng)計分析方法在處理實際數(shù)據(jù)時會碰到數(shù)據(jù)不符合正態(tài)分布或?qū)?shù)據(jù)沒有多少先驗信息的情況,所以,處理時只能用非參數(shù)的方法去解決。處理這類問題的非參數(shù)方法主要依賴大樣本理論,但高維數(shù)據(jù)在空間中通常是非常稀疏的,與空間的維數(shù)相比,樣本量總是顯得非常少,因此,大樣本理論處理高維數(shù)據(jù)不適用。另外,許多經(jīng)典的低維數(shù)據(jù)處理方法,如回歸分析、主成分分析、聚類算法中的劃分方法和層次方法等,在處理高維數(shù)據(jù)時存在著難以解決的困難,例如,維數(shù)的增加會導(dǎo)致數(shù)據(jù)的計算量迅速上升;高維導(dǎo)致空間的樣本數(shù)變少,使得某些統(tǒng)計上的漸近性難以實現(xiàn);傳統(tǒng)的數(shù)據(jù)處理方法在處理高維數(shù)據(jù)時不能滿足穩(wěn)健性要求等。上述問題給高維數(shù)據(jù)處理中的模式識別帶來了極大的困難,同樣,這種維數(shù)的膨脹,給數(shù)學(xué)和數(shù)據(jù)分析帶來了重大的挑戰(zhàn)。
2 高維數(shù)據(jù)的處理和統(tǒng)計分布特性
在分析處理高維數(shù)據(jù)時,從數(shù)據(jù)描中找到感興趣的東西或者在眾多的影響因素中尋找和揭示事物的本質(zhì)規(guī)律便是高維數(shù)據(jù)處理的基本出發(fā)點和關(guān)鍵所在。
2.1 高維數(shù)據(jù)的處理分析
雖然處理的數(shù)據(jù),如搜索,分類,模式識別等方面有了很大的成就,但在高維數(shù)據(jù)處理方面,還沒有形成一個統(tǒng)一的模式。因此,建立一個完整的描述統(tǒng)一為相同的幀的高維數(shù)據(jù)分析的處理框架是必要的。有利于建立一個統(tǒng)一的高維數(shù)據(jù)轉(zhuǎn)換成相同的框架,有利于開展不同的方法之間的比較,有利于建立更具體的數(shù)據(jù)處理方法,度量系統(tǒng)的高維數(shù)據(jù)處理方法。先驗信息的過程中,該數(shù)據(jù)處理方法的結(jié)構(gòu)的高維數(shù)據(jù)集的基礎(chǔ)上,在實際應(yīng)用中,可以充分利用的數(shù)據(jù)集,根據(jù)所選擇的結(jié)構(gòu)的內(nèi)容感興趣,上的數(shù)據(jù),使得高三維數(shù)據(jù)處理方法是比較容易理解,運用和非常合適的。當(dāng)然,由于不同的數(shù)據(jù)集之間的巨大差異和數(shù)據(jù)處理的目的,不同的數(shù)據(jù)處理方法的應(yīng)用效果是不同的,它變得非常困難的問題,使一個完整的解決方案。然而,為了探索適當(dāng)?shù)母呔S數(shù)據(jù)集的高維數(shù)據(jù)處理技術(shù)的目的,所以統(tǒng)一在同一個框架下的低維表示,將其統(tǒng)一到相同的框架是有一定道和理完全可能的。
2.2 高維空間的統(tǒng)計分布特性
統(tǒng)計學(xué)是幾何學(xué)中的一個應(yīng)用領(lǐng)域,在應(yīng)用過程中,許多低維空間中的統(tǒng)計分析方法在高維空間中很難得到比較滿意的結(jié)果。因此,探討高維空間的不同于低維空間的特性是一個值得研究的問題。以下主要介紹一些高維空間的幾何特性,關(guān)于高維空間的統(tǒng)計特性,其主要有如下方面:
(1)比起低維空間,高維空間中的參數(shù)估計需要更多的樣本數(shù)據(jù)。在統(tǒng)計學(xué)中,隨機變量的特征參數(shù)的數(shù)量取決于采集的樣本,樣本數(shù)的多少將直接影響估計的精度,隨著空間維數(shù)的不斷增加,要得到同樣精度的估計值將需要更多的樣本數(shù)。由于空間的體積隨著維數(shù)的增加而急劇膨脹,少量的樣本數(shù)在高維空間中顯得非常稀疏,因而,基于樣本的參數(shù)估計無法進行。另一方面,若要得到比較滿意的分類結(jié)果,在每個類別的樣本數(shù)一定的情況下樣本與空間關(guān)系是不一樣的,對于線性分類器,所需的樣本數(shù)與空間的維數(shù)呈線性關(guān)系;對于非參數(shù)估計分類器,所需的樣本數(shù)與空間的維數(shù)呈指數(shù)關(guān)系;對于基于二次估計量的分類器,所需的樣本數(shù)與空間的維數(shù)呈平方關(guān)系。由此可見,隨著空間維數(shù)的不斷增長,若在原始高維空間中直接對數(shù)據(jù)進行分類操作,將需要大量的訓(xùn)練樣本,然而,在有些情況下,訓(xùn)練樣本的取得并不容易的。因此,從樣本數(shù)量方面考慮,也有必要把高維空間的問題轉(zhuǎn)化到低維空間中加以解決。
(2)高維空間中的線性投影的高維空間中的數(shù)據(jù),將顯示的近似的正態(tài)分布。在許多應(yīng)用中,需要理論和實際應(yīng)用中,通常假定隨機變量呈正態(tài)分布。對于低維的數(shù)據(jù),這是可行的數(shù)據(jù)正態(tài)性假設(shè)可以通過的采樣點的分布圖,以進行驗證,但對于高維的數(shù)據(jù),是否滿足正態(tài)分布是難以確定的,但是,根據(jù)隨機變量中心極限定理,我們可以肯定,與生長的空間維度,高維空間趨向于一個正常的分布或正常的低維空間中的數(shù)據(jù)分布的線性投影的線性組合,這意味著投影到子空間的數(shù)據(jù)往往是比較正常的分布,高維空間的數(shù)據(jù)被假定為正常分布的基礎(chǔ)上的許多特征提取和分類算法。
(3)隨著空間維數(shù)的增加,二階統(tǒng)計量在分類精度的提高和類別可分性兩方面有更重要的作用。統(tǒng)計學(xué)中的隨機向量的均值和方差分別稱為一階統(tǒng)計量和二階統(tǒng)計量。在高維數(shù)據(jù)空間,二階統(tǒng)計量對提高分類精度變得非常重要,但是,隨著空間維數(shù)的增加,二階統(tǒng)計量的估計也會變得越來越困難,直接影響到高維數(shù)據(jù)的處理。究其原因,這是由于方差矩陣中的待估計參數(shù)的個數(shù)隨著空間維數(shù)的增加而迅速增長,這就要求在處理數(shù)據(jù)時需要更多的樣本數(shù)據(jù)。因此,直接在高維空間中處理數(shù)據(jù)會面臨許多困難。
3 高維數(shù)據(jù)的降維分析
從以上高維空間的統(tǒng)計分布特性分析可知,雖然處理高維數(shù)據(jù)的技術(shù)和方法有很多,但對高維數(shù)據(jù)的處理采用降維是最好的選擇,所以,現(xiàn)在許多的領(lǐng)域中都用到降維方法。
那么,什么是降維?不同的角度有不同的定義,降維實際上就是尋找投影一一尋找從高維空間到低維空間的映射,它與坐標(biāo)的變化有關(guān)。從模式識別的觀點看,它等價于特征提?。粡慕y(tǒng)計學(xué)的觀點看,它與多元密度估計、回歸和平滑技術(shù)有著非常密切的聯(lián)系;從信息學(xué)的角度看,它就是數(shù)據(jù)壓縮和編碼。從以上的定義可知,如果算法的復(fù)雜性依賴于輸入數(shù)據(jù)的維數(shù),那么降維可以有效的降低算法的復(fù)雜性。
為了實現(xiàn)對高維數(shù)據(jù)的降維,我們首先要了解高維數(shù)據(jù)的特征。要完整描述高維數(shù)據(jù)必須從本征維數(shù)、稀疏表示、極限結(jié)構(gòu)、隱變量與參數(shù)表示四個方面來進行。
3.1 高維數(shù)據(jù)的本征維數(shù)
一般情況下,高維空間的樣本數(shù)據(jù)是不可能彌漫于整個RD 空間,否則就不會有所謂的信息。所以,高維空間的數(shù)據(jù)實際上可以看昨是處于一個低維流形上,即一個降維的“曲面”上,而該流形的維數(shù)就是數(shù)據(jù)的本征維數(shù),而D只是數(shù)據(jù)的表象維數(shù)。
3.2 高維數(shù)據(jù)的稀疏表示
任何類型的高維數(shù)據(jù)在表示時都有其最本質(zhì)的特征,一個采用稀疏表示式可以用特征化的較少的幾個參數(shù)近似地表示信號。研究高維數(shù)據(jù)的稀疏表示對于高維空間函數(shù)逼近和大規(guī)模計算等有著非常重要的意義。
3.3 高維極限結(jié)構(gòu)
在RD 空間中數(shù)據(jù)的表象維數(shù)D 趨于無窮時,其結(jié)構(gòu)會呈現(xiàn)何種特征是不確定的,研究它們的極限結(jié)構(gòu)對于相當(dāng)大一類數(shù)據(jù)分析問題有著非常重要的意義。
3.4 隱變量和參數(shù)表示
目前,由于在大多數(shù)高維數(shù)據(jù)在獲取過程中并沒有預(yù)先指定的觀測變量,因此從數(shù)據(jù)中尋求最有意義的、盡可能少的數(shù)據(jù)變化過程中獨立依賴的隱變量顯得非常有重要,而隱變量的獲取可通過降維處理來實現(xiàn)。
高維數(shù)據(jù)的內(nèi)在維度,稀疏表示的極限結(jié)構(gòu),隱藏的變量和參數(shù)之間相互接觸的四個方面,可以歸納出的高維數(shù)據(jù)的內(nèi)在結(jié)構(gòu)的本質(zhì)。獨立的四個方面的特性參數(shù),數(shù)據(jù)是稀疏的高維數(shù)據(jù)的參數(shù)少,精度參數(shù)方法的建立要求的研究報告,天維法是一種非常有效的手段解決這個問題正是數(shù)征維數(shù)的數(shù)據(jù)實際上是兼容數(shù)據(jù)維數(shù)降低過程是密切相關(guān)的,并且可以被看作是維數(shù)降低過程的必要準備。
從以上分析可知,高維數(shù)據(jù)的四個方面特征都與數(shù)據(jù)降維過程緊密相關(guān)的,都直接影響到降維方法的發(fā)展,反過來,對數(shù)據(jù)降維過程的研究也會有助于對高維數(shù)據(jù)的精確描述,有助于在高維數(shù)據(jù)處理的其它鄰域取得突破。
4 結(jié)束語
本文研究了高維數(shù)據(jù)在分析處理過程中碰到突出的問題:處理高維數(shù)據(jù)的復(fù)雜度和成本成指數(shù)級增長;傳統(tǒng)的低維數(shù)據(jù)處理方法在處理高維數(shù)據(jù)時存在不滿足穩(wěn)健性本質(zhì)困難。通過比較不同的處理高維數(shù)據(jù)的方法、技術(shù),分析高維數(shù)據(jù)的統(tǒng)計分布特性發(fā)現(xiàn),處理高維數(shù)據(jù)的最好方法就是降維;而高維數(shù)據(jù)的特征為降維提供了依據(jù)。
參考文獻:
[1]譚璐.高維數(shù)據(jù)的降維理論及應(yīng)用[D].國防科技大學(xué)學(xué)位論文,2006
[2]D.L.Donoho , High Dimensional Data Analysis : The Curses and Blessings of Dimensionality , presented at American Mathematics Society Conference : Math Challenges ofthe 21st Century , LosAngeles , USA , 2000
[3]Andros Kourtellos .A Projection Pursuit Approach to Cross Country Growth Data,2002
[4]譚璐,吳詡,易東云.穩(wěn)健局部線性嵌入[J].國防科技大學(xué)學(xué)報,2004
[5]劉卓.高維數(shù)據(jù)分析中的降維方法研究[D].國防科技大學(xué)碩士論文.2002
[6]高惠漩.應(yīng)用多元統(tǒng)計分析.北京大學(xué)出版社.2005
[7]A.Lovrics.etc .TimeScaleandDimensionAnalysisofaBuddingYeastCellCycle Model . BMC Bioinformatics ,2006
[8] Hongyuan Zha and Zhenyue Zhang . Isometric Embedding and Continuum ISOMAP . CSE 一03 一001 , Technical Report , CSE , Peim State Univ ,2003
[9]王立強.基于多元統(tǒng)計圖的高維數(shù)據(jù)降維方法及應(yīng)用研究[D].燕山大學(xué)碩士學(xué)位論文,2006
[10]陸建江,徐寶文,等.基于矩陣降維的典型用戶文件發(fā)現(xiàn)方法[J].東南大學(xué)學(xué)報:英文版,2003