亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高維縱向數(shù)據(jù)分析中的降維方法研究

        2017-10-12 21:23:19潘青
        時(shí)代金融 2017年26期

        潘青

        【摘要】伴隨著計(jì)算機(jī)技術(shù)的不斷更新與發(fā)展,現(xiàn)實(shí)生活中收集到的數(shù)據(jù)種類(lèi)已經(jīng)越來(lái)越多,數(shù)據(jù)結(jié)構(gòu)已經(jīng)越來(lái)越復(fù)雜。其中,對(duì)于高維縱向數(shù)據(jù)的分析已經(jīng)成為統(tǒng)計(jì)界的一個(gè)研究熱點(diǎn)。伴隨著計(jì)算機(jī)技術(shù)的不斷更新與發(fā)展,現(xiàn)實(shí)生活中收集到的數(shù)據(jù)種類(lèi)已經(jīng)越來(lái)越多,數(shù)據(jù)結(jié)構(gòu)已經(jīng)越來(lái)越復(fù)雜。其中,對(duì)于高維縱向數(shù)據(jù)的分析已經(jīng)成為統(tǒng)計(jì)界的一個(gè)研究熱點(diǎn)。

        本文研究了高維縱向數(shù)據(jù)的研究方法及其常見(jiàn)處理模型。

        【關(guān)鍵詞】高維數(shù)據(jù) 縱向數(shù)據(jù) 降維方法

        一、縱向數(shù)據(jù)

        縱向數(shù)據(jù)(Longitudinal data)常出現(xiàn)在醫(yī)學(xué),金融學(xué),心理學(xué),生物學(xué)等領(lǐng)域,在經(jīng)濟(jì)學(xué)中也稱(chēng)為“面板數(shù)據(jù)”(Panel data),常發(fā)生在流行病學(xué)研究,臨床實(shí)驗(yàn),經(jīng)濟(jì)應(yīng)用等背景中,是對(duì)觀測(cè)的個(gè)體在不同時(shí)間下重復(fù)觀測(cè)所得到的數(shù)據(jù),且觀測(cè)得到的數(shù)據(jù)常常帶有缺失,刪失。在實(shí)驗(yàn)中,不同個(gè)體的觀察值可能是相互獨(dú)立的,也可能是相關(guān)的。所研究的響應(yīng)變量觀測(cè)值隨時(shí)間變化而變化,相關(guān)的協(xié)變量也隨時(shí)間變化有一系列的觀察值。由此可知,縱向數(shù)據(jù)既包含同一時(shí)間點(diǎn)上不同樣本的數(shù)據(jù),也包含同一樣本在不同時(shí)間點(diǎn)上的觀測(cè)數(shù)據(jù)。因此,縱向數(shù)據(jù)不僅具有截面數(shù)據(jù)的特點(diǎn),同時(shí)也具備了時(shí)間序列數(shù)據(jù)的特征。縱向數(shù)據(jù)的優(yōu)點(diǎn)是可以區(qū)分個(gè)體間的群體效應(yīng)和個(gè)體內(nèi)部的組內(nèi)效應(yīng),可以有效地描述響應(yīng)變量和協(xié)變量之間的關(guān)系。

        這樣的數(shù)據(jù)常出現(xiàn)在癌癥復(fù)發(fā)、縱向醫(yī)療費(fèi)用、艾滋病感染等事件中。縱向數(shù)據(jù)的研究不僅可以幫助我們了解響應(yīng)變量與相關(guān)協(xié)變量之間隨時(shí)間變化的關(guān)系,還能幫助我們探索響應(yīng)變量隨時(shí)間的動(dòng)態(tài)變化情況??v向數(shù)據(jù)分析的第一個(gè)難點(diǎn)是如何處理數(shù)據(jù)間的相關(guān)性。

        二、高維數(shù)據(jù)

        隨著科學(xué)技術(shù)的不斷發(fā)展,我們收集到的數(shù)據(jù)結(jié)構(gòu)越來(lái)越復(fù)雜,比如說(shuō)氣象學(xué)。為了更準(zhǔn)確的預(yù)測(cè)天氣情況,描述氣象特征的指標(biāo)也越來(lái)越多,例如:溫度,濕度,風(fēng)力,氣壓,降雨量等等,這種用多個(gè)變量描述某一現(xiàn)象的數(shù)據(jù),就是高維數(shù)據(jù)。我們發(fā)現(xiàn),隨著數(shù)據(jù)維數(shù)的增多,數(shù)據(jù)呈現(xiàn)出客觀現(xiàn)象的信息將更加豐富與細(xì)致,與此同時(shí),也會(huì)給數(shù)據(jù)的處理帶來(lái)一些列的困難。這也是高維數(shù)據(jù)兩個(gè)明顯的特點(diǎn):維數(shù)福音(Blessings of Dimensionality)和維數(shù)災(zāi)難(Curses of Dimensionality)。維數(shù)福音是指隨著維數(shù)的提升,數(shù)據(jù)會(huì)提供更加豐富、細(xì)致的信息。所謂“維數(shù)災(zāi)難”是在我們獲取的數(shù)據(jù)無(wú)法最簡(jiǎn)化的情況下,當(dāng)我們對(duì)數(shù)據(jù)進(jìn)行特征提取或者擬合變量時(shí),所需原始數(shù)據(jù)量會(huì)對(duì)著協(xié)變量的增加而呈指數(shù)級(jí)別的增長(zhǎng)。這種情況下處理數(shù)據(jù)會(huì)特別困難。如何從眾多復(fù)雜影響因素中提取最關(guān)鍵的影響因子,找出其最本質(zhì)的內(nèi)在規(guī)律,成為處理高維數(shù)據(jù)的關(guān)鍵。也就是尋找高維數(shù)據(jù)在低維空間的有效表達(dá),同時(shí)又盡可能有效的挖掘出高維原始數(shù)據(jù)背后的自身內(nèi)在結(jié)構(gòu),從而準(zhǔn)確找出高維原始數(shù)據(jù)的有效表達(dá)的低維結(jié)構(gòu)。

        分析縱向數(shù)據(jù)的第二個(gè)難點(diǎn),是在考慮數(shù)據(jù)相依性的前提下,改進(jìn)和創(chuàng)新已有的統(tǒng)計(jì)理論與方法,使其可以處理高維縱向數(shù)據(jù)。

        三、縱向數(shù)據(jù)模型

        對(duì)于解決縱向數(shù)據(jù)的第一個(gè)難點(diǎn),在近幾十年的統(tǒng)計(jì)研究中,學(xué)者們提出了許多不同的解決方案,已有成熟的統(tǒng)計(jì)理論與方法。早期主要的研究方法是參數(shù)回歸分析方法,比如誤差項(xiàng)為時(shí)間序列的多元線(xiàn)性模型以及生長(zhǎng)曲線(xiàn)模型。誤差項(xiàng)往往假定為多元正態(tài)分布的一般線(xiàn)性模型。其中邊際模型和混合效應(yīng)模型的應(yīng)用最為廣泛。由于數(shù)據(jù)的隨機(jī)誤差項(xiàng)結(jié)構(gòu)復(fù)雜,不可避免會(huì)遇到維數(shù)災(zāi)難的問(wèn)題。而收集到的縱向數(shù)據(jù)中又含有缺失、刪失等問(wèn)題,所以對(duì)于數(shù)據(jù)處理又造成進(jìn)一步的困難。

        上個(gè)世紀(jì)80年代,半?yún)?shù)回歸模型得到發(fā)展,這是一種重要的統(tǒng)計(jì)模型,該模型不僅有參數(shù)部分,還有非參數(shù)部分,所以同時(shí)具備了參數(shù)模型解釋性強(qiáng)與非參數(shù)模型適應(yīng)性強(qiáng)的優(yōu)點(diǎn)。該模型在分析數(shù)據(jù)時(shí),更接近真實(shí)模型,可以充分利用數(shù)據(jù)所提供的信息,因此廣受研究人員的喜愛(ài)。

        上個(gè)世紀(jì)90年代,縱向數(shù)據(jù)的非參數(shù)回歸方法得到了廣泛的發(fā)展,比較常見(jiàn)的方法有懲罰樣條法、回歸樣條法、光滑樣條法、局部多項(xiàng)式核光滑法等等。

        以上的方法理論都是基于協(xié)變量是低維時(shí)考慮的,對(duì)于高維的協(xié)變量不再適用。因此,對(duì)于解決高維縱向數(shù)據(jù)的分析,只有先通過(guò)數(shù)據(jù)降維,將協(xié)變量先降至低維,傳統(tǒng)的統(tǒng)計(jì)模型才得以使用。

        四、數(shù)據(jù)降維

        (一)數(shù)據(jù)降維的定義

        在高維空間D中,樣本容量為n的原始數(shù)據(jù)X,記為X={xi},i=1,2,…,n,在d維空間中樣本容量為n的數(shù)據(jù)集Y={yi},i=1,2,…,n,那么我們可以通過(guò)映射f:X→Y,x→y=f(x),其中D為高維空間中的原始數(shù)集的維數(shù),d代表著低維空間中數(shù)據(jù)的維數(shù),且d≤D,于是通過(guò)映射,x是y的高維空間,y是x的高維表示。從本質(zhì)上講,降維就是尋找投影,即高維空間到低維空間的映射,但是在不同的領(lǐng)域內(nèi),專(zhuān)業(yè)術(shù)語(yǔ)會(huì)有所相差別:

        ·在統(tǒng)計(jì)學(xué)中,降維與多元密度估計(jì)、回歸、平滑技術(shù)有關(guān)

        ·在信息論中,降維是數(shù)據(jù)壓縮和編碼

        ·在模式識(shí)別中,降維是特征提取

        因此,數(shù)據(jù)降維不僅在統(tǒng)計(jì)學(xué)中有重要表現(xiàn),在其他領(lǐng)域也有重要應(yīng)用。

        (二)數(shù)據(jù)降維的分類(lèi)

        根據(jù)降維的側(cè)重點(diǎn)不同,可以將降維分為硬降維問(wèn)題,軟降維問(wèn)題,可視化問(wèn)題。

        根據(jù)時(shí)間變量分類(lèi),可將降維分為靜態(tài)降維和依據(jù)時(shí)間的降維。

        根據(jù)降維映射形式的不同,可以將降維分為線(xiàn)性降維與非線(xiàn)性降維。對(duì)于線(xiàn)性降維,存在一個(gè)實(shí)數(shù)集上的d維投影矩陣β∈Rn×d,將高維空間中的原始數(shù)據(jù)投影到低維空間中,同時(shí)有Y=βTX。對(duì)于非線(xiàn)性降維,則不存在這樣的映射。

        線(xiàn)性降維方法主要有主成分分析(Principle Component Analysis,PCA)、投影尋蹤(Projection Pursuit,PP)、線(xiàn)性判決分析(Linear Discriminant Analysis,LDA)、多尺度變換(MultidimensionalScaling,MDS)等,這些方法適用于處理具有線(xiàn)性結(jié)構(gòu)的數(shù)據(jù)集,計(jì)算簡(jiǎn)單,效率高效,是研究人員廣泛使用的方法。endprint

        非線(xiàn)性降維方法有局部線(xiàn)性嵌入(Local Linear Embedding,LLE),拉普拉斯特征映射(LaplacianEigenmaps,LE),局部切空間排列(Local Tangent Space Alignment,LTSA),黑塞特征映射(Hessian Eigenmaps,HE)等基于流行學(xué)習(xí)的算法。與流行學(xué)習(xí)所不同的是另一種非線(xiàn)性降維方法—核方法。其主要思想是將原始數(shù)據(jù)空間中的數(shù)據(jù)通過(guò)隱式的映射到更高維度的特征空間中,然后再利用線(xiàn)性降維方法處理。主要有核主成分分析(Kernel Principle Component Analysis,KPCA),核線(xiàn)性判決分析(Kernel Linear Discriminant Analysis,KLDA),核獨(dú)立成分分析(Kernel Independent Component Analysis,KICA)等方法。

        (三)數(shù)據(jù)降維的應(yīng)用

        對(duì)原始空間的數(shù)據(jù)進(jìn)行數(shù)據(jù)降維可以有效的解決“維數(shù)災(zāi)難”的問(wèn)題,因此數(shù)據(jù)降維技術(shù)廣泛應(yīng)用于數(shù)據(jù)挖掘、模式識(shí)別、機(jī)器學(xué)習(xí)等領(lǐng)域。例如:

        例1 生物基因數(shù)據(jù) DNA芯片技術(shù)自動(dòng)獲取DNA微陣列數(shù)據(jù),每一個(gè)微陣列都對(duì)應(yīng)著所采集到的一個(gè)維度達(dá)上萬(wàn)維的樣本為了提高結(jié)果的準(zhǔn)確性,必須選擇足夠多的基因來(lái)參與分析,于是造成“維數(shù)災(zāi)難”,此時(shí)必須使用數(shù)據(jù)降維。

        例2 數(shù)字圖像數(shù)據(jù) 在數(shù)字圖像處理領(lǐng)域中,處理的圖像數(shù)據(jù)一般情況下為m×n大小的圖像。在整個(gè)圖像空間中,一幅圖像對(duì)應(yīng)著只是整個(gè)圖像空間中的一個(gè)像素點(diǎn),該點(diǎn)的維度為m×n。因此當(dāng)m,n逐漸的增大的時(shí)候,圖像空間中的像素點(diǎn)所對(duì)應(yīng)的維度就會(huì)非常高。所以在圖像數(shù)據(jù)空間的數(shù)據(jù)都是高維數(shù)據(jù),處理數(shù)據(jù)具有一定困難。

        例3 艾滋病群組研究 一組來(lái)自于多中心愛(ài)滋病群組研究的數(shù)據(jù),該數(shù)據(jù)記錄了1984年至1991年,觀測(cè)到的283位HIV呈陽(yáng)性的同性戀病人每半年進(jìn)行的定期檢查,記錄他們感染的情況。對(duì)于這組數(shù)據(jù),響應(yīng)變量是HIV感染后,病人血液內(nèi)CD4所含細(xì)胞的比例,協(xié)變量是病人的年齡、吸煙狀況、HIV感染前細(xì)胞CD4的比例及其交互作用。這是一組高維縱向數(shù)據(jù),為了找出真正對(duì)HIV感染后血液內(nèi)CD4細(xì)胞比例的變化有影響的協(xié)變量,必須使用降維技術(shù)對(duì)協(xié)變量進(jìn)行降維,然后使用統(tǒng)計(jì)模型。

        例4 交叉試驗(yàn) 對(duì)一種用于減輕原發(fā)性痛經(jīng)藥物的一組三階段交叉試驗(yàn)的研究試驗(yàn)中,研究人員將86位女性病人隨機(jī)的分為六組,依照不同的次序,給病人服用安慰劑、低劑量止痛藥和高劑量止痛藥,并對(duì)各個(gè)病人在每個(gè)階段性治療結(jié)束后的病情進(jìn)行評(píng)估。在該組數(shù)據(jù)中,響應(yīng)變量是一個(gè)變量,記錄病人在當(dāng)前階段性治療結(jié)束后疼痛是否緩解表示無(wú)緩解,表示有所緩解,相對(duì)應(yīng)的協(xié)變量是六個(gè)變量,記錄病人當(dāng)前所在的治療階段、服用的藥物和前一階段所服用的藥物。這是一組高維縱向數(shù)據(jù),我們要先對(duì)協(xié)變量進(jìn)行降維,然后使用統(tǒng)計(jì)模型。

        五、總結(jié)

        本文通過(guò)分析縱向數(shù)據(jù)與高維數(shù)據(jù)的處理難點(diǎn),列舉了一系列的數(shù)據(jù)降維方法,論述了通過(guò)數(shù)據(jù)降維后,高維縱向數(shù)據(jù)可適應(yīng)縱向數(shù)據(jù)的統(tǒng)計(jì)模型,并通過(guò)舉例說(shuō)明對(duì)于數(shù)據(jù)降維技術(shù)的應(yīng)用領(lǐng)域的廣泛性。

        參考文獻(xiàn)

        [1]譚璐.高維數(shù)據(jù)的降維理論及應(yīng)用[D].長(zhǎng)沙:國(guó)防科技大學(xué),2005.

        [2]劉卓.高維數(shù)據(jù)分析中的降維方法研究[D].長(zhǎng)沙:國(guó)防科技大學(xué),2002.

        [3]許佩蓉.高維縱向數(shù)據(jù)中邊際模型和混合效應(yīng)模型的若干研究[D].上海:華東師范大學(xué),2013.

        [4]劉建環(huán).面向高維數(shù)據(jù)降維與分類(lèi)的深度模型構(gòu)建方法研究[D].重慶:重慶大學(xué),2016.

        [5]田瑞琴.縱向數(shù)據(jù)下半?yún)?shù)回歸模型的統(tǒng)計(jì)推斷[D].北京:北京工業(yè)大學(xué),2014.

        [6]嚴(yán)國(guó)義.縱向數(shù)據(jù)與生存數(shù)據(jù)的半?yún)?shù)聯(lián)合模型研究[D].武漢:武漢大學(xué),2013.endprint

        最近中文字幕完整版免费 | 国产xxxxx在线观看免费| 国产精品污一区二区三区在线观看| 中文字字幕在线中文乱码解| 国产激情无码一区二区三区| 欧美性猛交xxxx黑人| 无码中文字幕久久久久久| 国产高清一区二区三区三州| 99久久亚洲精品日本无码| 亚洲丁香五月激情综合| 第九色区Aⅴ天堂| 亚洲一区二区三区av资源 | 国产欧美日本亚洲精品一4区 | 中文字幕国产精品一二三四五区| 亚洲七久久之综合七久久| 国产美女在线一区二区三区| 一个人看的在线播放视频| 少妇性俱乐部纵欲狂欢少妇| 日本少妇被黑人xxxxx| 国产一区二区三区4区| 日本一区二区视频免费在线观看| 精品+无码+在线观看| 亚洲经典三级| 97无码人妻一区二区三区蜜臀| 亚洲一区二区三区激情在线观看| 国产xxx69麻豆国语对白| 国产亚洲日韩欧美一区二区三区 | 国内偷拍视频一区二区| 亚洲国产色一区二区三区| 三年片免费观看大全国语| 欧美精品v欧洲高清| 99精品人妻少妇一区二区三区 | 人人妻人人澡人人爽久久av| 精品亚洲少妇一区二区三区| 亚洲av永久一区二区三区| 国产精品无码一区二区三区电影| 少妇人妻偷人精品无码视频| 国产三级三级三级看三级日本| 手机在线观看日韩不卡av| 国产农村乱子伦精品视频| 免费 无码 国产精品|