孫夢哲,包研科
基于樣本協(xié)方差矩陣的多維隨機(jī)數(shù)生成方法
孫夢哲,包研科
(遼寧工程技術(shù)大學(xué)理學(xué)院,遼寧阜新123000)
對于概率模型未知的多維數(shù)據(jù)樣本容量擴(kuò)充問題,根據(jù)主成分分析原理以及多維正態(tài)分布的性質(zhì),討論并給出了與已知多維樣本數(shù)據(jù)有相同協(xié)方差結(jié)構(gòu)的模擬數(shù)據(jù)生成算法,并在此基礎(chǔ)上給出了變量的離散化處理方法.實(shí)現(xiàn)了在小樣本數(shù)據(jù)基礎(chǔ)上不改變變量間協(xié)方差結(jié)構(gòu)的樣本容量擴(kuò)充,為小樣本條件下的數(shù)學(xué)建模、檢驗(yàn)和分析提供樣本數(shù)據(jù)支撐.
多維數(shù)據(jù);樣本協(xié)方差矩陣;模擬;離散化處理
通常,在各方面條件限制的情況下,由觀察或試驗(yàn)得到的樣本容量總是有限的.這些容量有限的樣本有可能不足以支撐試驗(yàn)結(jié)論的驗(yàn)證或數(shù)學(xué)模型的建立.因此,當(dāng)樣本容量不夠所需時(shí),有必要通過模擬樣本數(shù)據(jù)來擴(kuò)充樣本容量.
對于一維樣本數(shù)據(jù)的模擬,大致可分為兩種情形.一種是在概率模型和先驗(yàn)知識(shí)已知的情況下,生成與樣本數(shù)據(jù)同分布的模擬數(shù)據(jù).此類問題屬于經(jīng)典的蒙特卡洛模擬問題,相關(guān)論述與文獻(xiàn)資料[1-5]較為豐富,較為權(quán)威的書籍如參考文獻(xiàn)[6].另一種情形是對動(dòng)態(tài)時(shí)間序列的模擬,此類問題的相關(guān)討論也較為充分.此類問題的共同技術(shù)特征是先提取出時(shí)間序列的趨勢特征、周期性特征等,之后再通過適當(dāng)?shù)募釉爰夹g(shù)生成模擬數(shù)據(jù)[7-8].
然而,多維樣本數(shù)據(jù)的模擬問題就復(fù)雜多了,文獻(xiàn)中偶有討論,且模擬過程多集中在幾種特定類型的概率分布模型下進(jìn)行.同樣,在概率模型和先驗(yàn)知識(shí)未知的情況下,如何模擬出滿足問題所需的樣本數(shù)據(jù),目的或旨意明確的文獻(xiàn)較為匱乏.本文研究在已有樣本數(shù)據(jù)的基礎(chǔ)上生成模擬數(shù)據(jù),使其在容量擴(kuò)充的同時(shí),保證模擬數(shù)據(jù)的協(xié)方差結(jié)構(gòu)與樣本數(shù)據(jù)的協(xié)方差結(jié)構(gòu)一致,即協(xié)方差矩陣統(tǒng)計(jì)相等.
本文借鑒平穩(wěn)隨機(jī)過程研究,以正態(tài)過程為“模特”的思想方法,在確保模擬數(shù)據(jù)與樣本數(shù)據(jù)協(xié)方差結(jié)構(gòu)統(tǒng)計(jì)相等的條件下,賦予模擬數(shù)據(jù)以正態(tài)性,方便進(jìn)一步的統(tǒng)計(jì)分析.
2.1 問題的數(shù)學(xué)描述
設(shè)p維隨機(jī)向量Y=(Y1,Y2,···,Yp),其協(xié)方差矩陣ΣY是非對角陣.通常,模擬生成容量為N的Y的樣本數(shù)據(jù)矩陣時(shí),ΣY一般未知.
本文討論由線性變換Y=AX+μ和Y(0)生成容量為N的Y的模擬數(shù)據(jù)矩陣
的方法,其中N?n,μ=E(Y),X=(X1,X2,···,Xp),
顯然,這一問題的關(guān)鍵是求變換矩陣A,使得其中S1是Y(1)的協(xié)方差矩陣,μ1是Y(1)的均值向量.
2.2 模擬數(shù)據(jù)的生成
由于在Y=AX+μ與Y=AX下,ΣY始終不變(ΣY=AΣXAT).因此,本文的討論在Y=AX下進(jìn)行.
注意到ΣY為非對角陣,而ΣX為對角陣的特征,若令X=BY,則求變換矩陣B的問題可轉(zhuǎn)化為在?ΣY=S0條件下的主成分分析問題.根據(jù)主成分分析原理以及多維正態(tài)分布的性質(zhì)[9],由線性變換Y=AX+μ和Y(0)生成Y(1)的算法如下:
(1)求S0=cov(Y(0))與μ0=E(Y(0));
(2)求S0的特征值與單位正交化特征向量,記S0的特征值λ1,λ2,···,λp對應(yīng)的單位正交化特征向量為β1,β2,···,βp,不妨按λ1≥λ2≥···≥λp≥0排序;
(3)令B=(β1,β2,···,βp);
(4)令A(yù)=B?1;
(5)令ΣX=diag(σ21,σ22,···,σ2p),其中σ2i=λi,i=1,2,···,p;
(6)由計(jì)算機(jī)生成p維正態(tài)隨機(jī)向量X~Np(0,ΣX);
(7)計(jì)算Y(1)=AX+μ0.
在上述算法中由主成分分析原理可證ΣY=BΣYBT,其中B為正交陣,B?1=BT,于是ΣY=BΣXBT,即A=B?1;又由多維正態(tài)分布的線性變換不變性,若X~Np(0,ΣX),則Y(1)=AX+μ0~NN(μ0,AΣXAT).
容易證明,模擬數(shù)據(jù)的生成算法具有如下性質(zhì):
(1)協(xié)方差結(jié)構(gòu)不變,即樣本數(shù)據(jù)矩陣Y(0)與模擬數(shù)據(jù)矩陣Y(1)的協(xié)方差矩陣統(tǒng)計(jì)相等;
(2)樣本數(shù)據(jù)矩陣Y(0)與模擬數(shù)據(jù)矩陣Y(1)的均值統(tǒng)計(jì)相等;
(3)無論樣本數(shù)據(jù)矩陣Y(0)來自怎樣的分布,Y(1)都將被賦予額外的正態(tài)性.
其中,性質(zhì)(1)與性質(zhì)(2)是判定模擬數(shù)據(jù)是否可以實(shí)際應(yīng)用的準(zhǔn)則,判定程序是如下兩個(gè)檢驗(yàn)條件:
(1)檢驗(yàn)假設(shè)H0:S1=S0.
(2)檢驗(yàn)假設(shè)H0:μ1=μ0.
若兩個(gè)檢驗(yàn)均不能拒絕H0,則Y(1)可用.由于算法中μ0=E(Y(0)),X~Np(0,ΣX)且Y(1)=AX+μ0,故(2)即均值向量統(tǒng)計(jì)相等的檢驗(yàn)可以省略.Y(1)額外的正態(tài)性能方便進(jìn)一步計(jì)算誤差或決策風(fēng)險(xiǎn)等問題的定量分析.
由于研究問題的背景不同,樣本數(shù)據(jù)各維度變量的含義也不同.因此,有些變量取連續(xù)值,如長度、深度等;有些變量則取離散值,如等級(jí)、類型等.上節(jié)介紹的方法只適用于生成取連續(xù)值變量的模擬數(shù)據(jù),若要生成取離散值變量的模擬數(shù)據(jù),則需要對這類變量的模擬數(shù)據(jù)進(jìn)行離散化處理.
設(shè)Y中第j個(gè)維度的變量Yj(j的可能取值為1,2,···,p)取m(m≤n)個(gè)不同的離散值,k=1,2,···,m,不妨按<<···<排序.Yj在Y(0)上的經(jīng)驗(yàn)分布為:
對上節(jié)模擬數(shù)據(jù)矩陣Y(1)的第j列可按如下方法進(jìn)行離散化處理:
(1)在Y(0)上統(tǒng)計(jì),k=1,2,···,m的累積頻率:
(3)模擬Yj的離散化取值.
設(shè)Y(1)中第j列的第i個(gè)模擬數(shù)據(jù)為,i=1,2,···,N.令
為方便讀者理解,以下以兩個(gè)實(shí)際問題的采樣數(shù)據(jù)為例,生成各樣本數(shù)據(jù)的模擬數(shù)據(jù),并對需要離散化處理的數(shù)據(jù)進(jìn)行離散化處理,同時(shí)完成模擬數(shù)據(jù)與樣本數(shù)據(jù)的正態(tài)性檢驗(yàn)與協(xié)方差矩陣相等性檢驗(yàn).
4.1正態(tài)分布樣本數(shù)據(jù)的模擬
1.繪制數(shù)據(jù)散點(diǎn)圖
現(xiàn)有平頂山礦區(qū)井下采煤6維瓦斯相關(guān)樣本數(shù)據(jù),見表1.
表1 平頂山礦區(qū)井下采煤瓦斯相關(guān)樣本數(shù)據(jù)
樣本數(shù)據(jù)與模擬數(shù)據(jù)的散點(diǎn)圖見圖1.其中,模擬數(shù)據(jù)容量N=500(模擬數(shù)據(jù)略),已經(jīng)過離散化處理.
圖1 樣本數(shù)據(jù)與模擬數(shù)據(jù)的散點(diǎn)圖
2.正態(tài)性檢驗(yàn)
通常,多維數(shù)據(jù)的正態(tài)性檢驗(yàn)采用χ2圖評估法,χ2圖的繪圖與檢驗(yàn)原理可參見文獻(xiàn)[9].
一般情況下,如果χ2圖中數(shù)據(jù)的χ2點(diǎn)散布在一條直線附近,則認(rèn)為多維數(shù)據(jù)呈正態(tài)分布;如果數(shù)據(jù)的χ2點(diǎn)有明顯的彎曲,則認(rèn)為多維數(shù)據(jù)是非正態(tài)的.有時(shí)在χ2圖末端會(huì)出現(xiàn)個(gè)別點(diǎn)偏離直線的情形,但不影響多維數(shù)據(jù)正態(tài)性的判斷.
樣本數(shù)據(jù)與模擬數(shù)據(jù)的χ2圖見圖2.由圖2可知,樣本數(shù)據(jù)與模擬數(shù)據(jù)都近似為正態(tài)分布.
圖2 樣本數(shù)據(jù)與模擬數(shù)據(jù)的χ2圖
3.協(xié)方差矩陣相等性檢驗(yàn)
通過比較圖1中(a)與(b)可得,樣本數(shù)據(jù)與模擬數(shù)據(jù)協(xié)方差結(jié)構(gòu)相似.樣本數(shù)據(jù)與模擬數(shù)據(jù)的協(xié)方差結(jié)構(gòu)是否統(tǒng)計(jì)相等,通常運(yùn)用Box-M方法[9]進(jìn)行檢驗(yàn).
檢驗(yàn)的原假設(shè)H0與備擇假設(shè)H1分別為:
Box-M檢驗(yàn)以似然比統(tǒng)計(jì)量
為基礎(chǔ)構(gòu)造H0的檢驗(yàn)統(tǒng)計(jì)量:
其中,
本例中,Y(0)與Y(1)的協(xié)方差矩陣分別為:
經(jīng)統(tǒng)計(jì)計(jì)算得到,在α=0.05顯著性水平下,統(tǒng)計(jì)量C=0.47<(21)=32.67,故接受H0,即樣本數(shù)據(jù)與模擬數(shù)據(jù)協(xié)方差矩陣相等.
4.2 非正態(tài)分布樣本數(shù)據(jù)的模擬
1.繪制數(shù)據(jù)散點(diǎn)圖
現(xiàn)有遼東地區(qū)某河流5維水質(zhì)樣本數(shù)據(jù),見表2.
表2 遼東地區(qū)某河流水質(zhì)樣本數(shù)據(jù)
樣本數(shù)據(jù)與模擬數(shù)據(jù)的散點(diǎn)圖見圖3.其中,模擬數(shù)據(jù)容量N=100(模擬數(shù)據(jù)略),無需離散化處理.
圖3 樣本數(shù)據(jù)與模擬數(shù)據(jù)的散點(diǎn)圖
2.正態(tài)性檢驗(yàn)
樣本數(shù)據(jù)與模擬數(shù)據(jù)的χ2圖見圖4.由圖4可知,樣本數(shù)據(jù)為非正態(tài)分布,而模擬數(shù)據(jù)近似為正態(tài)分布.因此,模擬數(shù)據(jù)生成算法的性質(zhì)(3)得到了證明,即無論樣本數(shù)據(jù)矩陣Y(0)來自怎樣的分布,Y(1)都將被賦予額外的正態(tài)性.
圖4 樣本數(shù)據(jù)與模擬數(shù)據(jù)的χ2圖
3.協(xié)方差矩陣相等性檢驗(yàn)
本例中,Y(0)與Y(1)的協(xié)方差矩陣分別為:
經(jīng)統(tǒng)計(jì)計(jì)算得到,在α=0.05顯著性水平下C=0.56<(7)=24.99,故接受H0,即樣本數(shù)據(jù)與模擬數(shù)據(jù)協(xié)方差矩陣相等.
本文根據(jù)主成分分析原理以及多維正態(tài)分布的性質(zhì),構(gòu)造了如何生成同協(xié)方差結(jié)構(gòu)的模擬數(shù)據(jù)的方法,通過上述實(shí)例有效地驗(yàn)證了該方法的正確性及有效性.
[1]趙琪.Gibbs方法在產(chǎn)生多維隨機(jī)數(shù)中的應(yīng)用[J].中國科技信息,2008(3):246.
[2]宋艷.多維聯(lián)合概率的隨機(jī)模擬技術(shù)及其工程應(yīng)用[D].中國海洋大學(xué):圖書館,2004.
[3]崔海蓉,胡小平.高效率多維離散分布隨機(jī)數(shù)生成算法[J].甘肅科學(xué)學(xué)報(bào),2010,22(2):114-116.
[4]張朋,邱振國.基于單純形分布的比例數(shù)據(jù)的回歸分析[J].中國科學(xué):數(shù)學(xué),2014,44(1):89-104.
[5]王萍.一種修正的PS方法及其在產(chǎn)生相關(guān)正態(tài)隨機(jī)數(shù)中的應(yīng)用[D].大連理工大學(xué):圖書館,2005.
[6]劉軍.科學(xué)計(jì)算中的蒙特卡洛策略[M].北京:高等教育出版社,2009.
[7]張熙.含有周期性的時(shí)間序列中連續(xù)型缺失數(shù)據(jù)的填補(bǔ)方法[J].中國衛(wèi)生統(tǒng)計(jì),2012,29(3):318-321.
[8]黃潔.有限非平穩(wěn)時(shí)間序列的模擬方法[D].蘇州大學(xué):圖書館,2012.
[9]包研科.數(shù)據(jù)分析教程[M].北京:清華大學(xué)出版社,2011.
Multidimensional random number generating method based on the sample covariance matrix
Sun Mengzhe,Bao Yanke
(Collage of Science,Liaoning Technical University,Fuxin123000,China)
For multidimensional data probability model of the unknown sample capacity expansion problem, according to the principle of principal component analysis and the properties of multidimensional Gaussian distribution,we discuss and give the multidimensional samples with known data simulation data with the same covariance structure generation algorithm,and we give the discretization processing method on the basis of the variables.We realize the expansion of sample capacity without changing the covariance structure between variables basing on small sample data.Furthermore,the algorithm supports the mathematical modeling,testing and analysis under the condition of small samples.
multidimensional data,sample covariance matrix,simulation,discretization processing
O29
A
1008-5513(2014)06-0610-08
10.3969/j.issn.1008-5513.2014.06.010
2014-07-03.
國家自然科學(xué)基金(71371091).
孫夢哲(1989-),碩士生,研究方向:數(shù)據(jù)分析.
2010 MSC:03G27