亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        函數(shù)數(shù)據(jù)聚類及其在金融時序分析中的應(yīng)用

        2010-05-18 08:03:24朱建平王桂明
        統(tǒng)計與決策 2010年9期
        關(guān)鍵詞:方法

        朱建平,王桂明

        (廈門大學(xué) 經(jīng)濟(jì)學(xué)院,福建 廈門 361005)

        0 引言

        隨著現(xiàn)代信息技術(shù)的發(fā)展,許多科研領(lǐng)域不斷涌現(xiàn)出大量形式各異、類型復(fù)雜的數(shù)據(jù)集,如高維數(shù)據(jù),缺失數(shù)據(jù)等等,使得傳統(tǒng)的統(tǒng)計分析方法越來越不適應(yīng)于分析此類數(shù)據(jù),而近年來漸成研究熱點(diǎn)的函數(shù)數(shù)據(jù)分析(Functional data analysis,以下簡稱FDA)是處理這類數(shù)據(jù)的一個有效方法。從函數(shù)的視角進(jìn)行數(shù)據(jù)分析,將觀測到的樣本數(shù)據(jù)看作是一個函數(shù)帶有噪聲的離散實現(xiàn),而不是一個觀測向量,是FDA不同于傳統(tǒng)統(tǒng)計分析的根本所在。

        經(jīng)過近20年的發(fā)展,F(xiàn)DA在理論和應(yīng)用上都取得了長足的發(fā)展,主要從兩個方面展開研究[1]:(1)擴(kuò)展多元統(tǒng)計分析方法在函數(shù)數(shù)據(jù)中的應(yīng)用;(2)在實踐中應(yīng)用隨機(jī)過程的理論研究成果。由J.Ramsay和B.Silverman兩位統(tǒng)計學(xué)家合著的《Functional data analysis》[2]及其應(yīng)用案例《Applied Functional Data Analysisi》[3]堪稱FDA發(fā)展道路上的里程碑,書中總結(jié)了上述兩種研究思路及方法,被視為現(xiàn)代FDA的起點(diǎn),并且從中可以看到,一些傳統(tǒng)的統(tǒng)計分析方法已經(jīng)得到改進(jìn)使之適用于函數(shù)數(shù)據(jù)的分析,如主成分分析,線性回歸分析,典型判別分析等,但是未系統(tǒng)介紹函數(shù)數(shù)據(jù)的聚類分析。近年來不少國外學(xué)者從多方面多角度展開函數(shù)數(shù)據(jù)的聚類分析研究,Heckman和Zamar[4]基于函數(shù)曲線的形態(tài)特征(如曲線的局部極值點(diǎn)),構(gòu)造曲線間的秩相關(guān)系數(shù)作為曲線聚類的相異性(或距離,親疏程度)度量,當(dāng)兩條曲線具有完全一致的形態(tài)時,秩相關(guān)系數(shù)為1;Abraham et al[5]提出利用B樣條基函數(shù)構(gòu)造函數(shù)數(shù)據(jù),再對基函數(shù)系數(shù)進(jìn)行K均值聚類分析;James和Sugar[6]提出基于混合效應(yīng)的混合模型,適用于樣本點(diǎn)分布稀疏的函數(shù)數(shù)據(jù)聚類分析。國內(nèi)方面,嚴(yán)明義[7]首次系統(tǒng)性地介紹了函數(shù)數(shù)據(jù)統(tǒng)計分析的基本思想和方法;有一些學(xué)者提出了基于導(dǎo)數(shù)分析的函數(shù)數(shù)據(jù)區(qū)間聚類分析方法,利用函數(shù)數(shù)據(jù)在不同觀測區(qū)間上的導(dǎo)數(shù)情況進(jìn)行聚類分析,缺點(diǎn)是隨著聚類區(qū)間的不斷劃分,對函數(shù)數(shù)據(jù)導(dǎo)數(shù)階數(shù)的要求也相應(yīng)提高,物理意義的解釋也將變得困難,且聚類結(jié)果隨著劃分區(qū)間的不同而不同,不能從整體上反映函數(shù)數(shù)據(jù)的聚類情況。

        本文嘗試在LP空間探討函數(shù)數(shù)據(jù)之間的相異性度量的基礎(chǔ)上,提出了函數(shù)數(shù)據(jù)的聚類分析方法,并將其應(yīng)用于時間序列的模式挖掘,得到了良好的效果。

        1 函數(shù)數(shù)據(jù)相異性指標(biāo)的構(gòu)造

        函數(shù)數(shù)據(jù)通常為連續(xù)函數(shù),多表現(xiàn)為平滑的曲線。設(shè)ft(t),i=1,…,n為第 i個函數(shù)數(shù)據(jù),此處 t表示時間,當(dāng)然可以代表更一般的實際意義,如觀測樣本的維數(shù)或特征等等。實際操作中,我們常常在某區(qū)間[a,b]上的Ti個觀測點(diǎn)處收集到第i個樣本fi(t)離散的帶有噪聲的yi=(yi1,…,yiTi)'信息。函數(shù)數(shù)據(jù)分析的基本統(tǒng)計模型為:

        其中,tij為第i個樣本的第j個觀測點(diǎn),誤差項εi(tij)滿足經(jīng)典的回歸假設(shè)(獨(dú)立同分布,均值為0,方差為常數(shù)σ2)。由于允許存在 Ti≠Tj(i≠j,i,j=1,2,…,n)的情況,因此,函數(shù)數(shù)據(jù)分析適于處理諸如高維數(shù)據(jù),缺失數(shù)據(jù)以及樣本觀測點(diǎn)不規(guī)則分布等特殊的數(shù)據(jù)類型。本文對文獻(xiàn)[8]中定義的相異性指標(biāo)進(jìn)行推廣,將在LP空間中定義函數(shù)數(shù)據(jù)的相異性指標(biāo)。

        設(shè)T=[a,b]為一可測實值區(qū)間,記Lp(T)為 T上所有p次可積可測函數(shù)組成的完備可分的希爾伯特空間,即:

        對任意 f∈Lp(T),稱:

        為f的Lp范數(shù)或Lp模。

        則對于Lp(T)中的兩個函數(shù)fi和fj,定義

        為函數(shù)fi和fj的Lp距離。

        我們知道,作為距離的度量一般要求滿足三個條件:(1)非負(fù)性,即 dij≥0,且 dij=0 當(dāng)且僅當(dāng) fi=fj;(2)對稱性,即 dij=dji,對所有的 i和 j;(3)三角不等式,即 dij≤dik+dkj,對所有的 i、j和k。對于(3)式定義的距離度量,由Lp范數(shù)的非負(fù)性可知條件(1)成立,條件(2)是顯然成立的,由 Lp范數(shù)的 Minkowski不等式(即三角不等式)可知條件(3)成立,即有如下定理:

        定理 對任意 fi,fj∈Lp[a,b],p≥1,Minkowski不等式:

        成立。

        (4)式可簡寫為:||fi+fj||P≤||fi||P+||fj||P,即為 Lp范數(shù)的三角不等式。

        因此,(3) 式也可定義為函數(shù) fi和 fj的明氏(Minkowski)距離。

        當(dāng)p=1時,

        稱為絕對距離或L1距離。

        當(dāng)p=2時,

        稱為歐氏距離或L2距離。

        當(dāng)p=∞時,

        稱為切比雪夫距離或L∞距離。

        函數(shù)數(shù)據(jù)相異性指標(biāo)的構(gòu)造,以距離的概念來體現(xiàn),在進(jìn)行函數(shù)數(shù)據(jù)聚類分析時,根據(jù)問題研究的實際背景和分析的要求選取適當(dāng)相異性,來描述函數(shù)數(shù)據(jù)之間的相似性。

        2 基于基函數(shù)方法的函數(shù)數(shù)據(jù)聚類分析

        2.1 離散數(shù)據(jù)的函數(shù)化

        函數(shù)數(shù)據(jù)分析的首要工作是要將離散的觀測值轉(zhuǎn)化為平滑的函數(shù)來重構(gòu)隱含在觀測數(shù)據(jù)背后的真實函數(shù),即離散數(shù)據(jù)的函數(shù)化。目前主要利用基函數(shù)方法來解決離散數(shù)據(jù)的函數(shù)化問題,因為利用基函數(shù)方法可以同時達(dá)到降維、減少計算復(fù)雜度、消除數(shù)據(jù)噪聲的目的。

        設(shè)基函數(shù)系為{φk(t),k=1,…,K},利用這 K 個基函數(shù)的線性組合,即

        作為真實函數(shù)fi(t)的估計,其中Ci(ci1,…,ciK)'為基函數(shù)系數(shù)向量,即 fi(t)在基函數(shù)系{φk(t),k=1,…,K}下的坐標(biāo)向量。 常用的具有優(yōu)良性質(zhì)的基函數(shù)有B樣條基、Fourier基、小波基等等。通常使用最小二乘準(zhǔn)則確定系數(shù)cik,即最小化殘差平方和SSEi:

        2.2 基于基函數(shù)的函數(shù)數(shù)據(jù)聚類分析基本思想

        如果已經(jīng)知道fi(t)的具體形式,就可以利用前述定義的函數(shù)數(shù)據(jù)明氏距離進(jìn)行函數(shù)數(shù)據(jù)的聚類分析,而通常情況下我們并不知道fi(t)的具體形式,只是通過基函數(shù)方法得到fi(t)的近似估計 fi(t,Ci)。 事實上,由于是 fi(t)估計,且每個函數(shù)都投影于相同的K個基函數(shù)組成的K維線性空間,則每個函數(shù)數(shù)據(jù)對應(yīng)的坐標(biāo)向量C^i刻畫了函數(shù)數(shù)據(jù)之間的差異性,對于B樣條基函數(shù),附加的條件是所有函數(shù)選取的節(jié)點(diǎn)(knot)相同[5]。因此,對函數(shù)數(shù)據(jù)的聚類轉(zhuǎn)化為對坐標(biāo)向量C^i的聚類。

        特別地,當(dāng)投影于正交基函數(shù)系時,聚類過程具有如下性質(zhì):

        (1)當(dāng)基函數(shù)系標(biāo)準(zhǔn)正交時,坐標(biāo)向量C^i之間的歐氏距離等于函數(shù)數(shù)據(jù)的L2距離:

        (2)對通過最小二乘估計得到的基函數(shù)系數(shù)進(jìn)行聚類的結(jié)果接近于直接對原始數(shù)據(jù)進(jìn)行聚類的結(jié)果[9]。

        在基函數(shù)框架下,(1)式轉(zhuǎn)變?yōu)槿缦滦问剑?/p>

        從(13)式可以看出,經(jīng)過正交變換的原始數(shù)據(jù)中包含兩個部分:正交回歸系數(shù)和一個純誤差項因此,只要 εi的方差足夠小,對聚類的結(jié)果將接近于對yi聚類的結(jié)果,當(dāng)εi的方差也等于0時,兩者聚類的結(jié)果一致。

        3 實證分析

        基于基函數(shù)方法的函數(shù)數(shù)據(jù)聚類操作簡單,只需估計得到每個函數(shù)數(shù)據(jù)的基函數(shù)系數(shù)向量,就可以利用常用的統(tǒng)計軟件針對系數(shù)向量進(jìn)行聚類分析。以下以K均值聚類為例,以R統(tǒng)計軟件為工具,應(yīng)用函數(shù)數(shù)據(jù)的K均值聚類對時間序列模式挖掘進(jìn)行研究。

        時間序列模式挖掘有固定模式挖掘(如證券市場的波浪理論)和數(shù)據(jù)驅(qū)動模式挖掘之分,本文主要探討數(shù)據(jù)驅(qū)動模式挖掘,其主要工作又集中于時間序列的模式識別,傳統(tǒng)的時間序列模式識別算法[10]首先利用滑動窗將時間序列分解為子序列,然后通過某種相似性度量將這些子時間序列聚類,從而得到時間序列中的趨勢或者說結(jié)構(gòu),這種方法適用于短期時序模式識別,然而,隨著滑動窗的增大,子序列的維數(shù)將隨之增加,且對于金融時間序列,如股票數(shù)據(jù),每個子序列也會由于各種原因停牌(如召開股東大會)從而存在不同程度的缺失值,此時傳統(tǒng)方法的應(yīng)用將變得困難。不同于傳統(tǒng)方法,在利用滑動窗得到子序列后,本文從函數(shù)數(shù)據(jù)的角度進(jìn)行子時間序列的聚類分析。

        本文以1996年12月17日(設(shè)置漲跌幅限制)至2008年11月25日的上證日收盤指數(shù)為例,通過函數(shù)數(shù)據(jù)聚類來挖掘指數(shù)變化中的模式,這些模式通常能刻畫出股市的波動性,如小幅震蕩上漲,急劇下跌后小幅反彈,暴漲暴跌等等。以每個聚類中心代表這些模式,通過關(guān)聯(lián)規(guī)則挖掘頻繁模式之間的匹配關(guān)系,為股指趨勢的分析決策提供參考支持。我們知道,在現(xiàn)實中對趨勢的把握,對市場人士的參考意義要遠(yuǎn)大于一個準(zhǔn)確的預(yù)測數(shù)字。

        3.1 時間序列的分解和子序列聚類

        給定一時間序列 s=(x1,x2,…,xn),滑動窗的寬度 w 和窗口的移動步長v,此處設(shè)v=1,則可以將序列s連續(xù)分解為子序列的集合W(s)={si|i=1,…,n-w+1},si=(xi,…,xi+w-1),整個序列s的波動情況可以由子序列依次拼接而成,對于上證指數(shù)時間序列,n=2884,從而得n-w+1=2834到個子序列,假設(shè)進(jìn)行一項中期投資計劃,取w=51個交易日,采用B樣條基函數(shù)通過最小化(8)式將子序列轉(zhuǎn)化為函數(shù)數(shù)據(jù)進(jìn)行K均值聚類,設(shè)WK表示聚類個數(shù)為K時的類內(nèi)離差平方和,以DK=WK-1-WK衡量聚類個數(shù)為K時類內(nèi)離差平方和的縮減情況,通過觀察圖1(DKversusK),當(dāng)K=8時DK呈水平狀況,變化不再明顯,因此取K=8,得到的8種模式如圖2所示。

        圖1 versus

        從圖2可以看出,8種模式各不相同,代表不同的中期發(fā)展趨勢,如shape1可表示橫盤后見頂暴跌,末期出現(xiàn)小的反彈;shape2表示見底后的一波牛市;shape3表示暴跌后的暴漲,與之相反,shape6則表示暴漲后的暴跌;shape4表示單邊下跌而shape5表示單邊上漲;shape7表示下跌后筑底急升,但是不能確定上升的持續(xù)性;shape8表示下跌后出現(xiàn)反彈,但是反彈力度較弱,可能是下跌中繼。

        3.2 模式間的關(guān)聯(lián)規(guī)則挖掘

        將得到的8種模式shape1,…,shape8簡記為s(1),…,s(8),則分解后的序列集合可用D(s)={s1j1,s2j1,…,s2834j2834}表示,其中 siji∈{s(1),…,s(8)},i=1,…,2834,考慮最簡單的模式關(guān)聯(lián)規(guī)則:s(m)→Ts(h),m,h=1,…,8,表示 s(m)發(fā)生后 s(h)將在T時間內(nèi)發(fā)生。設(shè)sup(s(m))表示s(m)在D(s)中的支持度,com(s(m),s(h),T)=sup(s(m),s(h),T)/sup(s(m))表示置信度,其中:

        式中|*|表示基數(shù),之所以從第m+w處開始查找,是因為s(m),s(m+1),…s(m+w-1)之間存在相互重疊的部分,在挖掘過程中必然表現(xiàn)出強(qiáng)的關(guān)聯(lián)性。假設(shè)取T=21,51,給定最小支持度和置信度分別為0.03和0.3,表1顯示了關(guān)聯(lián)規(guī)則挖掘的部分結(jié)果。

        表1中所列規(guī)則的意義表明,以T=21,s(2)→s(2)為例,表示如果指數(shù)遵循模式shape2的走勢,那么在未來3周內(nèi)指數(shù)可能還將呈現(xiàn)出shape2的走勢,這表明趨勢是向上的。

        圖2 8種模式

        表1 模式關(guān)聯(lián)規(guī)則挖掘

        通過上述實證分析可以知道,時間序列模式挖掘所依賴的參數(shù)有:滑動窗口的寬度w,窗口的移動步長v,基函數(shù)的選取,聚類算法的選擇,聚類個數(shù)的選取方法,時間間隔T。不同的參數(shù)組合可以得到不同的結(jié)果。另外,還可以將方法擴(kuò)展至包含更加復(fù)雜的關(guān)聯(lián)規(guī)則,如 s(1)∩s(2)∩…∩s(m)→Ts(n),以及多個時間序列(既多維時間序列)、不同分辨率(既不同的寬度)時間序列之間的模式關(guān)聯(lián)規(guī)則挖掘等等,這些都是值得研究的方向。

        4 結(jié)束語

        本文對函數(shù)數(shù)據(jù)聚類分析作了一些基礎(chǔ)性的研究和實證分析,通過基函數(shù)方法,將傳統(tǒng)聚類分析方法(層次聚類法、K均值聚類法)應(yīng)用于函數(shù)數(shù)據(jù)的聚類分析。本文敘述的方法特別適用于高維、高頻、樣本觀測點(diǎn)不規(guī)則分布的數(shù)據(jù)類型。同時,方法本身也存在一些不足之處,主要表現(xiàn)在:(1)當(dāng)樣本包含過多的缺失數(shù)據(jù),即樣本點(diǎn)分布過于稀疏時,由于所能利用的樣本數(shù)據(jù)太少,必然導(dǎo)致曲線估計結(jié)果的不穩(wěn)定性;(2)層次法和K均值聚類法同屬啟發(fā)式算法,不同的相異性度量方式可能產(chǎn)生不同的結(jié)果,且K均值聚類的聚類結(jié)果與數(shù)據(jù)的加權(quán)方式有關(guān),另外不同的基函數(shù)系對應(yīng)不同的線性變換,得到的基坐標(biāo)向量不同,因此也決定了本文所述方法的啟發(fā)式性質(zhì);(3)目前的研究工作還局限于單指標(biāo)的函數(shù)數(shù)據(jù)聚類分析,而現(xiàn)實的情況是復(fù)雜的,單指標(biāo)包含的信息量太少,不能充分反映現(xiàn)象的本質(zhì)。如何設(shè)計高效的針對稀疏數(shù)據(jù)類型和多指標(biāo)情況的函數(shù)數(shù)據(jù)聚類方法將是本文下一步研究工作的重點(diǎn)。

        [1]Mariano J.Valderrama.An Overview to Modelling functional Data[J].Computational Statistics,2007,22(3).

        [2]Ramsay J.O.,Silverman B.W.Functional Data Analysis[M].New York:Springer,2005.

        [3]Ramsay J.O.,Silverman B.W.Applied Functional Data Analysis:Methods and Case Studies[M].New York:Springer,2002.

        [4]Heckman N E,Zamar R H.Comparing the Shapes of Regression Functions[J].Biometrika,2000,87(1).

        [5]Abraham C.,Cornillion P.A.,Matznerp-Lober E.,Molinari N.Unsupervised Curve Clustering Using B-splines[J].Scandinavian Journal of Statistics,2003,30(3).

        [6]James G.M.,Sugar C.A.Clustering Sparsely Sampled Functional Data[J].Journal of the American Statistical Association,2003,98(1).

        [7]嚴(yán)明義.函數(shù)性數(shù)據(jù)的統(tǒng)計分析:思想、方法和應(yīng)用[J].統(tǒng)計研究,2007,24(2).

        [8]朱建平,陳民懇.面板數(shù)據(jù)的聚類分析及其應(yīng)用[J].統(tǒng)計研究,2007,24(4).

        [9]Thaddeus Tarpey.Linear Transformations and the K-Means Clustering Algorithm:Applications to Clustering Curves[J].The American Statistician,2007,61(1).

        [10]Das G,Mannila H,et al.Rule Discovery from Time Series[A].Proceedings of Fourth Annual Conference on Knowledge Discovery and Data Mining[C].New York:AAAI Press,1998.

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        河北畫報(2021年2期)2021-05-25 02:07:46
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        97超在线视频免费| 少妇bbwbbw高潮| 国产人成无码视频在线1000| 亚洲av国产大片在线观看| 久久精品一区二区三区夜夜| 日韩精品视频免费网站| 在线麻豆精东9制片厂av影现网| 真实夫妻露脸爱视频九色网| 精品国品一二三产品区别在线观看| 在线欧美中文字幕农村电影| 中文字幕无码家庭乱欲| 国产成人无码区免费网站| 福利一区二区三区视频午夜观看| 官网A级毛片| 一区二区三区婷婷中文字幕| 中文字幕综合一区二区| 成人影院在线观看视频免费| 免费女人高潮流视频在线观看| 亚洲乱亚洲乱妇无码麻豆| 亚洲中文无码永久免| 91热视频在线观看| 少妇下面好紧好多水真爽| 那有一级内射黄片可以免费看| 亚洲国产精品成人精品无码区在线| 免费观看的a级毛片的网站| 在线视频 亚洲精品| 国产爆乳美女娇喘呻吟久久| 亚洲一区二区三区新视频| 久草青青91在线播放| 激情综合色五月丁香六月亚洲 | 成在人线av无码免费| 国产精品国产三级国产在线观| 在线观看亚洲视频一区二区| 蜜臀av毛片一区二区三区| 亚洲综合色区另类av| 激情综合欧美| 日本人妻伦理片在线观看| 激情亚洲一区国产精品久久| 国产三级av在线播放| 人人妻人人澡人人爽欧美二区| 亚洲av日韩aⅴ无码电影|