亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于經(jīng)驗(yàn)分布的區(qū)間數(shù)據(jù)分析方法

        2015-12-19 00:56:42王惠文王圣帥黃樂樂王成
        關(guān)鍵詞:樣本容量假設(shè)檢驗(yàn)均勻分布

        王惠文,王圣帥,黃樂樂,王成

        (北京航空航天大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京100191)

        符號數(shù)據(jù)分析(SDA)可以對海量巨維數(shù)據(jù)的分析提供行之有效的解決思路,因而成為目前統(tǒng)計(jì)學(xué)研究的前沿領(lǐng)域,具有眾多的理論研究成果和廣泛的實(shí)際應(yīng)用案例[1-4].區(qū)間數(shù)據(jù)作為一種符號數(shù)據(jù),因其具有廣泛的應(yīng)用價(jià)值而得到關(guān)注[5-6].尤其在面對海量數(shù)據(jù)時(shí),采用區(qū)間數(shù)據(jù)可以極大地約簡原始數(shù)據(jù),進(jìn)而基于區(qū)間數(shù)據(jù)分析的方法進(jìn)行數(shù)據(jù)處理[7-9].

        區(qū)間數(shù)據(jù)分析的眾多研究文獻(xiàn),無論是采用頂點(diǎn)法、均值法還是引入內(nèi)積運(yùn)算、平方范數(shù)等,都是基于數(shù)據(jù)在某一個(gè)閉區(qū)間(或緊致集合)上服從均勻分布的假定,且區(qū)間數(shù)據(jù)分析的理論性質(zhì)均基于此假定.而在實(shí)際數(shù)據(jù)處理中,假設(shè)數(shù)據(jù)來源于某一固定區(qū)間,并且在該區(qū)間上服從均勻分布,通常是難以滿足的.例如在統(tǒng)計(jì)學(xué)處理中,通常會假設(shè)數(shù)據(jù)服從正態(tài)分布而不是均勻分布.一旦均勻分布這一假定不滿足,其良好的理論性質(zhì)均不再成立.因此,均勻分布這一假定在區(qū)間數(shù)據(jù)分析中起著基礎(chǔ)性的重要作用,需要對區(qū)間數(shù)據(jù)分析的這一假定進(jìn)行重新審視,并在數(shù)據(jù)不服從均勻分布時(shí)給出合理化的解決方法[10-11].

        基于以上考慮,僅假定原始數(shù)據(jù)來源于某一連續(xù)分布,本文提出一種基于數(shù)據(jù)驅(qū)動(dòng)的變換,對原始數(shù)據(jù)進(jìn)行該變換后,從理論上證明在樣本容量足夠大時(shí)其服從均勻分布,在實(shí)際數(shù)據(jù)處理操作中可對其是否服從均勻分布進(jìn)行假設(shè)檢驗(yàn),進(jìn)而可采用已有的區(qū)間數(shù)據(jù)分析方法進(jìn)行后續(xù)分析,如主成分分析、回歸分析等.數(shù)據(jù)模擬的結(jié)果可以看出,經(jīng)過變換后的數(shù)據(jù)基本可以通過假設(shè)檢驗(yàn),即使是在樣本量較小的情形下.

        1 基于經(jīng)驗(yàn)分布函數(shù)的變換

        本節(jié)從最簡單的情形出發(fā),基于經(jīng)驗(yàn)分布函數(shù)給出數(shù)據(jù)變換公式.

        設(shè)X為服從某一連續(xù)分布的隨機(jī)變量,(x1,x2,…,xn)是已得到的一組樣本數(shù)據(jù),將其轉(zhuǎn)化為區(qū)間數(shù)據(jù)的方法是取其最大值和最小值作為區(qū)間的兩個(gè)端點(diǎn),假定其他樣本在這個(gè)區(qū)間服從均勻分布[5].這一假定明顯過于嚴(yán)格,如果樣本服從其他分布,會導(dǎo)致這一假定及其后續(xù)分析的結(jié)果失效.

        令X的分布函數(shù)為 F(t),經(jīng)驗(yàn)分布函數(shù)Fn(t)定義為

        其中I為示性函數(shù).注意到,對于任意給定的t,nFn(t)服從二項(xiàng)分布,即 nFn(t)~B(n,F(xiàn)(t)),從而可以計(jì)算Fn(t)的期望和方差為

        ?參見龔?fù)⑻懂?dāng)代法律帝國主義的本質(zhì)及其表征——以列寧〈帝國主義論〉為方法論視角》,《法治現(xiàn)代化研究》2017年第5期。

        從而可知,經(jīng)驗(yàn)分布函數(shù)Fn(t)二階收斂到真實(shí)的分布函數(shù)F(t).

        設(shè)隨機(jī)變量F(X)的分布函數(shù)為H,則有

        由此可知,F(xiàn)(X)服從(0,1)區(qū)間上的均勻分布(U(0,1)),而 Fn(Xi)二階收斂到 F(Xi).因而在樣本量足夠大時(shí)可以近似認(rèn)為Fn(Xi)服從(0,1)上的均勻分布.

        從以上分析可知,對于原始數(shù)據(jù)(x1,x2,…,xn)可以通過式(3)的變換得到(z1,z2,…,zn),轉(zhuǎn)化為理論上服從(0,1)均勻分布的區(qū)間數(shù)據(jù)進(jìn)行后續(xù)的處理和分析.

        這里使用經(jīng)驗(yàn)分布函數(shù)對真實(shí)的分布函數(shù)進(jìn)行估計(jì),但經(jīng)驗(yàn)分布函數(shù)不是可逆的,可以考慮采用其他估計(jì)量.例如在單調(diào)約束下采用核方法等非參數(shù)方法進(jìn)行估計(jì),在一定光滑性條件下保證得到的估計(jì)量具有逆函數(shù),從而保證變換是可逆的.直接對分布函數(shù)F(t)進(jìn)行估計(jì),需要考慮單調(diào)約束;如果轉(zhuǎn)化為估計(jì)密度函數(shù)f(t),則不需要在單調(diào)約束條件下進(jìn)行估計(jì),并且密度估計(jì)具有較多的已有成果可以借鑒,這里考慮核密度估計(jì)方法[12],之后通過積分變換得到分布函數(shù)的估計(jì)量.

        將式(1)換一種表達(dá)形式為其中ωi=1/n可看作是基于離散均勻測度構(gòu)造的權(quán)重,將這一權(quán)重函數(shù)進(jìn)行推廣可以得到核估計(jì),具體過程如下.

        其中,K(·)是核函數(shù);h是窗寬.通常核函數(shù)K(·)是對稱函數(shù),且滿足:

        常見的核函數(shù)有正態(tài)核、Epanechnikov等,具體可參見文獻(xiàn)[13].由于(x)非負(fù),所以估計(jì)得到的F^(t)具有單調(diào)性,因而這是個(gè)可逆變換.在使用核方法進(jìn)行估計(jì)時(shí),核函數(shù)的選擇并不關(guān)鍵,重要的是要對窗寬h進(jìn)行選擇.這里采用基于似然函數(shù)的交叉驗(yàn)證指標(biāo):

        2 變換后的假設(shè)檢驗(yàn)

        第1節(jié)中本文基于經(jīng)驗(yàn)分布函數(shù)構(gòu)造了變換,本節(jié)討論對變換后的數(shù)據(jù)進(jìn)行是否服從均勻分布的假設(shè)檢驗(yàn).

        考慮如下假設(shè)檢驗(yàn)問題:

        針對數(shù)據(jù)是否服從某一給定分布的假設(shè)檢驗(yàn)問題,文獻(xiàn)中有著較多的檢驗(yàn)統(tǒng)計(jì)量,基本上分為基于經(jīng)驗(yàn)分布函數(shù)的、基于次序統(tǒng)計(jì)量的和基于距離的3 種[14],包括常見的 Kolmogorov-Smirnov統(tǒng)計(jì)量[15]、Anderson-Darling 統(tǒng)計(jì)量[16]、Cramér-von Mises統(tǒng)計(jì)量[17]等.文獻(xiàn)[18]提出了式(6)和式(7)的統(tǒng)計(jì)量,與常見的統(tǒng)計(jì)量相比具有較高的功效,因此這里采用該統(tǒng)計(jì)量.

        其中z(i)為第i個(gè)次序統(tǒng)計(jì)量.ZA,ZC的精確分布難以得到,文獻(xiàn)[18]給出了各個(gè)水平下ZA和ZC在不同樣本容量時(shí)的拒絕域.(z1,z2,…,zn)通過均勻分布假設(shè)檢驗(yàn),則可以采用區(qū)間數(shù)據(jù)分析的方法進(jìn)行后續(xù)分析.由于經(jīng)過第1節(jié)中的變換后得到的zn=1,因此筆者對文獻(xiàn)[18]中的統(tǒng)計(jì)量略加改造.

        注意到,經(jīng)過變換后的數(shù)據(jù)均分布在(0,1)上,從而不需要估計(jì)均勻分布所在區(qū)間的端點(diǎn)值.實(shí)際上,文獻(xiàn)中通常是采用最小值和最大值來作為區(qū)間端點(diǎn)的估計(jì)值.在均勻分布情形下可以證明,最小值和最大值并非區(qū)間端點(diǎn)的無偏估計(jì)量.本文的方法避免了這一偏差的存在.

        3 基于變換數(shù)據(jù)的區(qū)間數(shù)據(jù)分析

        本節(jié)將原始數(shù)據(jù)經(jīng)過變換后得到的數(shù)據(jù)整理成區(qū)間數(shù)據(jù)表,以便進(jìn)行后續(xù)分析.

        根據(jù)原始數(shù)據(jù)定義數(shù)據(jù)矩陣如下:

        其中X的每一行為一組觀測數(shù)據(jù),每一列為一個(gè)變量的觀測值.假設(shè)觀測值分為M類,不妨令(x1,…,xn1),(xn1+1,…,xn2),…,(xnM-1+1;xn)分別屬于不同的類別,即樣本本身具有一定的分類結(jié)構(gòu),這種情形在數(shù)據(jù)分析中經(jīng)常會出現(xiàn).因此,可以對變換后的數(shù)據(jù)分組進(jìn)行約簡,將其整理成區(qū)間數(shù)據(jù)表.

        定義

        則可以得到

        進(jìn)一步對每一類內(nèi)部的樣本進(jìn)行整理可以得到這時(shí)得到的數(shù)據(jù)表為Y,是個(gè)典型的區(qū)間數(shù)據(jù)表,基于此可以進(jìn)行主成分、回歸分析等.

        經(jīng)過變換后得到的區(qū)間數(shù)據(jù)所有的取值都落在0~1之間.從數(shù)據(jù)信息的角度考慮,所做變換相當(dāng)于對原始數(shù)據(jù)進(jìn)行了方差壓縮,消除了不同變量量綱不同的影響.

        類似于經(jīng)驗(yàn)分布函數(shù)變換,也可以對數(shù)據(jù)進(jìn)行基于核估計(jì)函數(shù)的變換,然后整理成區(qū)間數(shù)據(jù)表.

        4 數(shù)據(jù)模擬

        4.1 數(shù)據(jù)模擬1

        本節(jié)討論在不同樣本容量下,取自不同分布(正態(tài)分布N(0,1)、指數(shù)分布Exp(2)、柯西分布Cauchy和均勻分布 U(0,1),U(5,10))的樣本,經(jīng)過變換后是否能通過均勻分布檢驗(yàn),采用第2節(jié)中提到的統(tǒng)計(jì)量.表1是模擬的結(jié)果.每組模擬進(jìn)行1000次,計(jì)算原假設(shè)不被拒絕的頻率(在0.05的水平下),采用的統(tǒng)計(jì)量是ZA.

        表1 對不同樣本容量下來自不同分布的樣本進(jìn)行均勻分布檢驗(yàn)的結(jié)果Table1 Test results on unifrom distribution with different sample sizes and distributions

        由表1的結(jié)果可知,如果數(shù)據(jù)本身來源于某些不是均勻分布的常見分布,進(jìn)行假設(shè)檢驗(yàn)時(shí)很難認(rèn)為其服從均勻分布;只有當(dāng)原始數(shù)據(jù)來源于均勻分布時(shí),可以在一定水平下不能拒絕其來自于均勻分布.而采用經(jīng)過變換后的數(shù)據(jù)時(shí),數(shù)據(jù)都成為樣本容量倒數(shù)的整數(shù)倍,因而可以通過檢驗(yàn),是來自均勻分布的.

        4.2 數(shù)據(jù)模擬2

        筆者在不同分布中分別采用經(jīng)驗(yàn)分布函數(shù)和核估計(jì)方法對分布函數(shù)進(jìn)行估計(jì),具體結(jié)果如圖1所示.這里所適用的樣本容量是50.樣本容量為50時(shí),二者都較好地?cái)M合了分布函數(shù).隨著樣本容量增大,二者對分布函數(shù)的擬合都具有較好效果.經(jīng)驗(yàn)分布函數(shù)是階梯函數(shù),比較粗糙,而分布函數(shù)的核估計(jì)則相對光滑.

        表2給出了利用經(jīng)驗(yàn)分布函數(shù)和核方法對分布函數(shù)進(jìn)行估計(jì)的偏差.在模擬中,隨著樣本容量的增大,兩種估計(jì)的偏差都在不斷減小,但核方法在區(qū)間端點(diǎn)處對分布函數(shù)的估計(jì)效果略差.在數(shù)據(jù)來源于重尾分布(表2中所示的Cauchy分布)時(shí),兩種估計(jì)的偏差相對都較大.

        圖1 對不同分布的分布函數(shù)分別采用經(jīng)驗(yàn)分布函數(shù)和核方法進(jìn)行估計(jì)的結(jié)果Fig.1 Simulation results for estimating the cumulative distribution function by empirical distribution and kernel method

        表2 不同分布不同樣本容量下使用經(jīng)驗(yàn)分布和核估計(jì)的偏差Talbe 2 Bias of estimation for distributions by empirical distribution and kernel estimator with different sample sizes

        5 結(jié)論

        本文針對區(qū)間數(shù)據(jù)分析中的均勻分布基本假定在實(shí)際數(shù)據(jù)分析中往往得不到滿足的情況,提出一種利用連續(xù)型隨機(jī)變量的性質(zhì),依賴經(jīng)驗(yàn)分布函數(shù)和核估計(jì)方法對其分布函數(shù)進(jìn)行估計(jì),從而構(gòu)造了兩種數(shù)據(jù)變換,使得經(jīng)過變換后的數(shù)據(jù)滿足均勻分布的假設(shè).因此,在使用區(qū)間數(shù)據(jù)分析方法前,應(yīng)先對數(shù)據(jù)是否服從均勻分布進(jìn)行假設(shè)檢驗(yàn),若無法通過檢驗(yàn)則考慮對數(shù)據(jù)進(jìn)行變換,本文基于經(jīng)驗(yàn)分布函數(shù)給出了這樣的變換.以變換后的數(shù)據(jù)作為分析對象,進(jìn)行后續(xù)的區(qū)間數(shù)據(jù)分析更加合理.所提出的變換可推廣到使用區(qū)間數(shù)據(jù)分析方法的數(shù)據(jù)預(yù)處理中,使得已有的分析方法更加嚴(yán)謹(jǐn).

        進(jìn)行變換后的數(shù)據(jù)滿足均勻分布的假設(shè),可進(jìn)行主成分分析、聚類分析、回歸分析等,這是下一步的研究工作.

        References)

        [1] Sankararaman S,Mahadevan S.Likelihood-based representation of epistemic uncertainty due to sparse point data and/or interval data[J].Reliability Engineering & System Safety,2011,96(7):814-824.

        [2] Diday E,Noirhomme-Fraiture M.Symbolic data analysis and the SODAS software[M].London:Wiley Online Library,2008:81-92.

        [3] Billard L.Symbolic data analysis:what is it?[M].New York:Springer,2006:261-268.

        [4] Diday E,Esposito F.An introduction to symbollic data analysis and the SODAS software[J].Intelligent Data Analysis,2003,7(6):583-601.

        [5] Wang H W,Guan R,Wu J J.CIPCA:complete-informationbased principal component analysis for interval-valued data[J].Neurocomputing,2012,86:158-169.

        [6] Wang H W,Guan R,Wu J J.Linear regression of interval-valued data based on complete information in hypercubes[J].Journal of Systems Science and Systems Engineering,2012,21(4):422-442.

        [7] Yue Z L.A group decision making approach based on aggregating interval data into interval-valued intuitionistic fuzzy information[J].Applied Mathematical Modelling,2014,38(2):683-698.

        [8] Cerny M,Hladík M.The complexity of computation and approximation of the t-ratio over one-dimensional interval data[J].Computational Statistics and Data Analysis,2014,80:26-43.

        [9] Yang X J,Yan L L,Peng H,et al.Encoding words into cloud models from interval-valued data via fuzzy statistics and membership function fitting[J].Knowledge-Based Systems,2014,55:114-124.

        [10] 郭均鵬,陳穎,李汶華.一般分布區(qū)間型符號數(shù)據(jù)的K均值聚類方法[J].管理科學(xué)學(xué)報(bào),2013,16(3):21-28.Guo J P,Chen Y,Li W H.K-means clustering of generally distributed interval symbolic data[J].Journal of Management Sciences in China,2013,16(3):21-28(in Chinese).

        [11] 高颯.一般分布區(qū)間型符號數(shù)據(jù)的聚類分析方法研究[D].天津:天津大學(xué),2009.Gao S.The clustering analysis of generally distributed interval symbolic data[D].Tianjin:Tianjin University,2009(in Chinese).

        [12] Silverman B W.Density estimation for statistics and data analysis[M].London:Chapman and Hall,1986:34-48.

        [13] Fan J Q,Yao Q W.Nonlinear time series:nonparametric and parametric methods[M].New York:Springer Verlag,2003:193-212.

        [14] Marhuenda Y,Morales D,Pardo M C.Power results of tests for the uniform distribution,I-2005-09[R].Spain:Miguel Hernandez University of Elche,2005.

        [15] Kolmogorov A N.Sulla determinazione empirica di una legge di distribuzione[J].G Inst Ital Att,1933,4:83-91.

        [16] Sinclair C D,Spurr B D.Approximations to the distribution function of the anderson:darling test statistic[J].Journal of the American Statistical Association,1988,83(404):1190-1191.

        [17] Conover W J.Practical nonparametric statistics[M].New York:Wiley,1999:63-70.

        [18] Zhang J.Powerful goodness-of-fit tests based on the likelihood ratio[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2002,64(2):281-294.

        猜你喜歡
        樣本容量假設(shè)檢驗(yàn)均勻分布
        采用無核密度儀檢測壓實(shí)度的樣本容量確定方法
        接觸壓力非均勻分布下彎曲孔道摩阻損失分析
        電磁感應(yīng)綜合應(yīng)用檢測題
        統(tǒng)計(jì)推斷的研究
        雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
        Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
        統(tǒng)計(jì)學(xué)教學(xué)中關(guān)于假設(shè)檢驗(yàn)問題探討
        廣義高斯分布參數(shù)估值與樣本容量關(guān)系
        多種檢測目標(biāo)下樣本容量設(shè)計(jì)的比較
        兩類錯(cuò)誤條件下方差檢驗(yàn)中樣本容量的確定
        国内久久婷婷精品人双人| 欧美大片aaaaa免费观看| 成人爽a毛片在线视频| 亚洲一区二区综合色精品| 高清av一区二区三区在线| 亚洲国产精品中文字幕久久| 性无码专区无码| 97se在线| 日本国主产一区二区三区在线观看| 亚洲写真成人午夜亚洲美女| 成人午夜视频精品一区| 国产精品密播放国产免费看| 国产一区二区精品av| 日韩女同精品av在线观看| 日韩亚洲欧美中文在线| 亚洲AV激情一区二区二三区| 日本一区二三区在线中文| 草草影院发布页| 久久久精品人妻一区二区三区蜜桃| 久久国产综合精品欧美| 极品少妇一区二区三区四区视频| 精品无码久久久久久久久水蜜桃 | 日韩少妇人妻中文字幕| 国产sm调教视频在线观看| 亚洲精品国产品国语在线app| 成人免费毛片立即播放| 粗大的内捧猛烈进出少妇| 国产精品99久久免费| 久久熟女乱一区二区三区四区| 亚洲另类丰满熟妇乱xxxx| 777亚洲精品乱码久久久久久| 亚洲小说图区综合在线| 久久精品国产亚洲av沈先生| 五月综合激情婷婷六月| .精品久久久麻豆国产精品| 久久伊人精品只有这里有| 亚洲tv精品一区二区三区| 精品人妻人人做人人爽| A亚洲VA欧美VA国产综合| 黄色一区二区三区大全观看| 日韩欧美人妻一区二区三区|