亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于函數(shù)型數(shù)據(jù)分析的數(shù)據(jù)挖掘功能研究

        2011-10-24 06:34:40王凱平
        統(tǒng)計(jì)與決策 2011年4期
        關(guān)鍵詞:數(shù)據(jù)挖掘分類(lèi)方法

        王凱平

        (山東大學(xué) 管理學(xué)院,濟(jì)南 250100)

        基于函數(shù)型數(shù)據(jù)分析的數(shù)據(jù)挖掘功能研究

        王凱平

        (山東大學(xué) 管理學(xué)院,濟(jì)南 250100)

        數(shù)據(jù)挖掘功能是數(shù)據(jù)挖掘研究與應(yīng)用的一個(gè)重要方面。數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類(lèi)型。當(dāng)前,數(shù)據(jù)挖掘的功能所處理的主要是傳統(tǒng)的數(shù)據(jù),對(duì)于函數(shù)型數(shù)據(jù)的研究還不是很多。文章探討了數(shù)據(jù)挖掘中可以挖掘的幾種函數(shù)型數(shù)據(jù)模式,包括數(shù)據(jù)描述、分類(lèi)、聚類(lèi)和回歸。

        函數(shù)型數(shù)據(jù);數(shù)據(jù)挖掘;模式

        0 引言

        近年來(lái),數(shù)據(jù)挖掘的研究與應(yīng)用引起了統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、管理學(xué)、金融學(xué)等學(xué)術(shù)領(lǐng)域以及眾多知名企業(yè)的廣泛關(guān)注。數(shù)據(jù)挖掘在功能模式、方法、應(yīng)用領(lǐng)域和軟件開(kāi)發(fā)等各個(gè)方面都得到了廣泛的研究。數(shù)據(jù)挖掘研究與應(yīng)用的一個(gè)重要方面就是關(guān)于數(shù)據(jù)挖掘功能的研究。數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類(lèi)型。數(shù)據(jù)挖掘的任務(wù)一般可以分為兩類(lèi)[1]:描述和預(yù)測(cè)。描述性任務(wù)刻劃數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性。預(yù)測(cè)性任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。運(yùn)用各式理論技術(shù),數(shù)據(jù)挖掘可以建立的模式包括數(shù)據(jù)描述、分類(lèi)、聚類(lèi)、回歸等[2]。

        當(dāng)前,數(shù)據(jù)挖掘的功能所處理的主要是傳統(tǒng)的數(shù)據(jù),即把數(shù)據(jù)作為離散的數(shù)據(jù)點(diǎn)來(lái)看待,這能夠滿足很多應(yīng)用領(lǐng)域的需要。然而,隨著社會(huì)的進(jìn)步和科學(xué)技術(shù)的發(fā)展,有些領(lǐng)域中出現(xiàn)了一種新的數(shù)據(jù)——函數(shù)型數(shù)據(jù)。當(dāng)觀測(cè)的時(shí)間點(diǎn)十分密集時(shí),這些數(shù)據(jù)就會(huì)呈現(xiàn)出一種函數(shù)特征。函數(shù)型數(shù)據(jù)是一系列的曲線或形狀對(duì)象,更一般地,是一系列的函數(shù)型數(shù)據(jù)值。例如,在線拍賣(mài)數(shù)據(jù)是函數(shù)型數(shù)據(jù)的一個(gè)典型代表。在線拍賣(mài)不是傳統(tǒng)拍賣(mài)在Internet上的簡(jiǎn)單移植,它在商務(wù)模式、買(mǎi)賣(mài)雙方行為特征和拍賣(mài)方式等方面都有自身獨(dú)特的性質(zhì),從而使得在線拍賣(mài)數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)相比具有很大的區(qū)別。文獻(xiàn)[3]詳細(xì)分析了在線拍賣(mài)數(shù)據(jù)的函數(shù)型數(shù)據(jù)特點(diǎn)。

        本文探討了數(shù)據(jù)挖掘功能中可以挖掘的幾種函數(shù)型數(shù)據(jù)模式,包括數(shù)據(jù)描述、分類(lèi)、聚類(lèi)和回歸。

        1 基于傳統(tǒng)數(shù)據(jù)的數(shù)據(jù)挖掘功能模式

        1.1 數(shù)據(jù)描述

        數(shù)據(jù)描述的目的是對(duì)數(shù)據(jù)進(jìn)行概括,以給出它的總體特征。最簡(jiǎn)單的數(shù)據(jù)描述方法是利用統(tǒng)計(jì)學(xué)中的方法,計(jì)算出數(shù)據(jù)庫(kù)中各個(gè)數(shù)據(jù)項(xiàng)的總和、平均值、方差等。

        1.2 分類(lèi)

        分類(lèi)是找出描述并區(qū)分?jǐn)?shù)據(jù)類(lèi)別的模型(或函數(shù)),以便能夠使用該模型(或函數(shù))來(lái)確定未知類(lèi)型的對(duì)象所屬的類(lèi)別。

        目前對(duì)于傳統(tǒng)數(shù)據(jù)的分類(lèi)技術(shù)有很多種,例如Bayes分類(lèi)、決策樹(shù)分類(lèi)、神經(jīng)網(wǎng)絡(luò)分類(lèi)、k-最臨近分類(lèi)、遺傳算法分類(lèi)、粗集分類(lèi)等等,不同的分類(lèi)方法適用于不同特點(diǎn)的數(shù)據(jù)。下面介紹一下貝葉斯分類(lèi)。

        令q-維向量X代表一個(gè)觀測(cè)對(duì)象,它來(lái)自于多個(gè)類(lèi)中的某一個(gè)。假設(shè)第i個(gè)類(lèi)的密度為fi(x),先驗(yàn)概率為πi。由Bayes公式,有后驗(yàn)概率

        Bayes分類(lèi)將X歸于具有最高后驗(yàn)概率的那個(gè)類(lèi)。如果我們進(jìn)一步假設(shè)第i個(gè)類(lèi)具有正態(tài)分布,其均值為μi,協(xié)方差陣為∑,則可以證明以上Bayes分類(lèi)等價(jià)于按下述線性判別函數(shù)進(jìn)行分類(lèi)[4]

        其中,

        1.3 聚類(lèi)

        聚類(lèi)是指按被處理對(duì)象的特征分類(lèi),將有相同特征的對(duì)象歸為一類(lèi),其目的是將類(lèi)間的差異找出來(lái),同時(shí)也將類(lèi)內(nèi)成員的相似性找出來(lái)。例如,對(duì)在一個(gè)商場(chǎng)購(gòu)買(mǎi)力較大的顧客居住地進(jìn)行聚類(lèi)分析,以幫助商場(chǎng)針對(duì)相應(yīng)顧客群采取有針對(duì)性的營(yíng)銷(xiāo)策略。其與分類(lèi)的區(qū)別在于聚類(lèi)前并不知道會(huì)以何種方式或根據(jù)來(lái)分類(lèi)。

        目前的聚類(lèi)算法大體上可以劃分為以下幾類(lèi)[5]:層次的方法、劃分的方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法等。

        基于模型的方法為每一類(lèi)假定了一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬合。假定觀測(cè)xi,…xn來(lái)自于具有G個(gè)分量組成的混合分布。令fk(x|θk)為第k個(gè)類(lèi)的密度,θk為參數(shù),再令zi=(zi1,…,ziG)為第i個(gè)觀測(cè)的類(lèi)成員向量,其中

        所有的zi都是未知的,一般通過(guò)兩種方式處理:分類(lèi)似然法和混合似然法。

        (1)分類(lèi)似然法

        該方法將zi看作參數(shù),模型通過(guò)最大化如下似然函數(shù)來(lái)擬合:

        (2)混合似然法

        該方法將看作是具有參數(shù)(π1,…,πG)的多項(xiàng)分布,其中 πk為觀測(cè)屬于第k個(gè)類(lèi)的概率。參數(shù)由最大化下式來(lái)估計(jì):

        1.4 回歸

        回歸是研究因變量與一系列的自變量之間相關(guān)關(guān)系的一個(gè)有力工具。確定了因變量與自變量的關(guān)系后,就可以通過(guò)回歸模型根據(jù)自變量的觀測(cè)值預(yù)測(cè)因變量的值?;貧w有三種類(lèi)型:參數(shù)回歸(包括線性回歸和非線性回歸)、非參數(shù)回歸和半?yún)?shù)回歸[6]。

        (1)參數(shù)回歸

        參數(shù)回歸包括線性回歸(一元和多元線性回歸)和非線性回歸(如廣義線性模型)。參數(shù)回歸應(yīng)用最為廣泛,其原因在于:第一,對(duì)于某領(lǐng)域的專(zhuān)業(yè)人員來(lái)說(shuō),一個(gè)模型的參數(shù)經(jīng)常會(huì)有重要的實(shí)際含義;第二個(gè)原因在于其統(tǒng)計(jì)上的簡(jiǎn)單性——對(duì)于整個(gè)函數(shù)的估計(jì)歸結(jié)為推斷幾個(gè)參數(shù)值;第三個(gè)原因在于,如果參數(shù)假設(shè)是正確的,那么參數(shù)回歸非常有效。

        (2)非參數(shù)回歸

        非參數(shù)回歸具有很大的靈活性,它并不對(duì)真實(shí)模型作結(jié)構(gòu)方面的假設(shè),或者說(shuō),它不假設(shè)真實(shí)模型可以被有限維參數(shù)所控制。非參數(shù)回歸在降低模型偏差方面非常靈活,然而,在多變量情況下,由于維數(shù)問(wèn)題的影響,它對(duì)真實(shí)函數(shù)的估計(jì)達(dá)不到合理的準(zhǔn)確度。

        (3)半?yún)?shù)回歸

        在參數(shù)回歸和完全的非參數(shù)回歸之間有許多可能的選擇。最為典型的就是假設(shè)所估計(jì)的函數(shù)具有某種形式(如可加形式),然而這種形式并不同于完全的參數(shù)結(jié)構(gòu)。由此產(chǎn)生的模型我們稱(chēng)為半?yún)?shù)回歸模型。與參數(shù)回歸相比,這種半?yún)?shù)模型能夠降低模型錯(cuò)誤所導(dǎo)致的偏差;而與非參數(shù)回歸相比,它又比完全的非參模型要小的多,從而對(duì)于未知參數(shù)及函數(shù)的估計(jì)能夠達(dá)到合理的準(zhǔn)確度。典型的半?yún)?shù)模型,包括可加模型、部分線性模型及其推廣模型。

        2 基于函數(shù)型數(shù)據(jù)的數(shù)據(jù)挖掘功能模式

        函數(shù)型數(shù)據(jù)分析的研究對(duì)象是一系列的函數(shù)型觀測(cè)值x(t)。近年來(lái),許多傳統(tǒng)的統(tǒng)計(jì)方法被推廣到了函數(shù)型數(shù)據(jù)的場(chǎng)合,具體可參見(jiàn)文獻(xiàn)[7]。然而,在數(shù)據(jù)挖掘領(lǐng)域,對(duì)于函數(shù)型數(shù)據(jù)的研究還不是很多。本文從數(shù)據(jù)挖掘的功能出發(fā),探討了數(shù)據(jù)挖掘中可以挖掘的幾種函數(shù)型數(shù)據(jù)模式,包括數(shù)據(jù)描述、分類(lèi)、聚類(lèi)和回歸。

        2.1 函數(shù)型數(shù)據(jù)描述

        傳統(tǒng)的描述統(tǒng)計(jì)量同樣適用于函數(shù)型數(shù)據(jù)。例如,函數(shù)型數(shù)據(jù)的均值函數(shù)可以表示為,而方差函數(shù)為

        2.2 函數(shù)型數(shù)據(jù)分類(lèi)

        由于函數(shù)型數(shù)據(jù)是無(wú)窮維的,因此,傳統(tǒng)的基于有限維數(shù)據(jù)的分類(lèi)方法不能直接應(yīng)用于函數(shù)型數(shù)據(jù)。

        令g(t)為從第i個(gè)類(lèi)中隨機(jī)抽取的個(gè)體曲線。假設(shè)如果g(t)屬于第i個(gè)類(lèi),則其分布為如下的Gauss過(guò)程:

        由于隨機(jī)因素的影響,我們?cè)诓煌臅r(shí)間點(diǎn)t1,…,tn對(duì)于函數(shù)曲線的觀測(cè)向量Y是有誤差的,假設(shè)誤差不相關(guān),且均值為0,方差為σ2。則Y的分布為

        N(μI,Ω+σ2I),其中

        可以將 μi和∑=Ω+σ2I代入(2)式得到 Bayes分類(lèi)。 現(xiàn)有的函數(shù)型數(shù)據(jù)分類(lèi)方法就是通過(guò)估計(jì)μi(t)和ω(t,t'),然后將其估計(jì)值代入(1)中進(jìn)行分類(lèi)。其估計(jì)方法通常有兩種[4]:正則化方法和濾波方法。例如,濾波方法是使用基函數(shù)來(lái)估計(jì)μi(t)和 ω(t,t')。

        2.3 函數(shù)型數(shù)據(jù)聚類(lèi)

        基于模型的函數(shù)型數(shù)據(jù)聚類(lèi)方法與分類(lèi)方法有共通之處。 對(duì)于曲線 g(t),有(2)、(3)兩式,函數(shù)型數(shù)據(jù)聚類(lèi)就是首先估計(jì)μi(t)和ω(t,t'),然后根據(jù)其估計(jì)值進(jìn)行聚類(lèi)。以μi(t)為例,常用的濾波方法是使用基函數(shù) 準(zhǔn)(t)=(準(zhǔn)1(t),…,準(zhǔn)p(t))來(lái)估計(jì) g(t),即g(t)=準(zhǔn)(t)η,使用最小二乘法分別估計(jì)每條曲線的系數(shù)向量η,然后使用基于有限維數(shù)據(jù)的聚類(lèi)方法對(duì)估計(jì)的系數(shù)向量進(jìn)行聚類(lèi),所產(chǎn)生的聚類(lèi)均值乘以準(zhǔn)(t)后就得到了μi(t)的估計(jì)。ω(t,t')的估計(jì)與此類(lèi)似。詳細(xì)的聚類(lèi)過(guò)程可參見(jiàn)文獻(xiàn)[8]。

        分層的聚類(lèi)方法可參見(jiàn)文獻(xiàn)[9]。

        2.4 函數(shù)型數(shù)據(jù)回歸

        與傳統(tǒng)的回歸類(lèi)似,函數(shù)型數(shù)據(jù)回歸也分為參數(shù)、非參數(shù)和半?yún)?shù)三種形式。

        (1)參數(shù)形式

        參數(shù)形式的函數(shù)型數(shù)據(jù)回歸分為線性和非線性?xún)煞N情況,文獻(xiàn)[10]考慮了函數(shù)型數(shù)據(jù)的廣義線性模型,將線性回歸與非線性回歸統(tǒng)一在一個(gè)模型中進(jìn)行研究,并給出了具體的估計(jì)方法。

        (2)非參數(shù)和半?yún)?shù)形式

        關(guān)于非參數(shù)和半?yún)?shù)形式的函數(shù)型數(shù)據(jù)回歸是目前研究的一個(gè)熱點(diǎn)領(lǐng)域,具體可參見(jiàn)文獻(xiàn)[11,12]。

        3 總結(jié)

        當(dāng)前,數(shù)據(jù)挖掘?qū)τ趥鹘y(tǒng)數(shù)據(jù)的各種功能模式已經(jīng)得到了相當(dāng)廣泛的研究和應(yīng)用,而對(duì)于函數(shù)型數(shù)據(jù)的研究還處于起步階段。其原因在于,就函數(shù)型數(shù)據(jù)分析自身來(lái)講,其研究時(shí)間并不長(zhǎng),很多問(wèn)題并沒(méi)得到完善的解決。

        然而,許多學(xué)科其大量的方法和思想都來(lái)源于現(xiàn)實(shí)的需求。隨著數(shù)據(jù)挖掘在各行各業(yè)的廣泛應(yīng)用,必然會(huì)越來(lái)越多的處理函數(shù)型數(shù)據(jù)、挖掘函數(shù)型數(shù)據(jù)的各種模式。這反過(guò)來(lái)也會(huì)促進(jìn)函數(shù)型數(shù)據(jù)分析的不斷深入和完善。

        [1]J.W.Han,M.Kamber.Data Mining:Concepts and Techniques[M].Sinagpore:Elsevier,2006.

        [2]朱世武,崔嵬,張堯庭,謝邦昌.數(shù)據(jù)挖掘運(yùn)用的理論與技術(shù)[J].統(tǒng)計(jì)研究,2003,(8).

        [3]Jank W,Shmueli G.Functional Data Analysis in Electronic Commerce Research[J].Statistical Science,2006,21(2).

        [4]James G M,Hastie T J.Functional Linear Discriminant Analysis for Irregularly Sampled Curves[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2001,63(3).

        [5]中國(guó)人民大學(xué)統(tǒng)計(jì)系數(shù)據(jù)挖掘中心.數(shù)據(jù)挖掘中的聚類(lèi)分析[J].統(tǒng)計(jì)與信息論壇,2002,17(3).

        [6]Hürdle W,Müller M,Sperlich S,Werwatz A.Nonparametric and Semiparametric Models[M].Heidelberg:Springer Verlag,2004,(3).

        [7]Valderrama M J.An Overview to Modelling Functional Data[J].Computational Statistics,2007,22(3).

        [8]James G M,Catherine A.Clustering for Sparsely Sampled Functional[J].Journal of the American Statistical Association,2003,98(462).

        [9]Ferreira L,Hitchcock D B.A Comparison of Hierarchical Methods for Clustering Functional Data[J].Communications in Statistics-Simulation and Computation,2009,38(9).

        [10]James G M.Generalized Linear Models with Functional Predictors[J].Journal of the Royal Statistical Society,Series B (Statistical Methodology),2002,64(3).

        [11]Ferraty F,Mas A,Vieu P.Nonparametric Regression on Functional Data:Inference and Practical Aspects[J].Australian&New Zealand Journal of Statistics,2007,49(3).

        [12]Dabo-Niang S,Guillas S.Functional Semiparametric Partially Linear Model with Autoregressive Errors[J].Journal of Multivariate Analysis,2010,101(SI).

        O212.4

        A

        1002-6487(2011)04-0160-02

        山東省軟科學(xué)研究計(jì)劃項(xiàng)目(2009RKA036);山東大學(xué)自主創(chuàng)新基金資助項(xiàng)目(2010TS073)

        王凱平(1975-),男,山東人,博士,講師,研究方向:數(shù)據(jù)挖掘。

        (責(zé)任編輯/易永生)

        猜你喜歡
        數(shù)據(jù)挖掘分類(lèi)方法
        分類(lèi)算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲熟女少妇精品久久| 亚洲av无码av在线播放| 无码一区二区三区不卡AV| 日本精品啪啪一区二区| 友田真希中文字幕亚洲| 少妇下蹲露大唇无遮挡| 免费毛片在线视频| 国产精品三级国产精品高| 插上翅膀插上科学的翅膀飞| 水蜜桃精品一二三| 国产精品偷伦视频免费手机播放| 精品少妇人妻久久免费| 国产日韩厂亚洲字幕中文| 日日婷婷夜日日天干| 性导航app精品视频| 蜜桃在线观看视频在线观看| 国产亚洲精品熟女国产成人| 伊人久久精品久久亚洲一区| 国产一区二区三区小说| 白白色福利视频在线观看| 香蕉成人伊视频在线观看| 国产精品igao视频网| 骚片av蜜桃精品一区| 亚洲av永久一区二区三区| 国产在线拍91揄自揄视精品91| 手机在线看片国产人妻| 特级毛片a级毛片100免费播放| 欧美成人小视频| 大岛优香中文av在线字幕| 东北女人啪啪对白| 国内精品久久久久久中文字幕 | 在线视频一区二区国产| 国产精久久一区二区三区| 中文幕无线码中文字蜜桃| 日本在线一区二区三区观看| 亚洲国产精品高清一区| 国产在线观看www污污污| 国产亚洲欧美另类久久久| 亚洲天堂亚洲天堂亚洲色图| 免费网站看v片在线18禁无码| 免费一区啪啪视频|