亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        最小廣義特征值在多元方差分析中的應(yīng)用探討

        2018-05-22 13:17:28江忠偉
        統(tǒng)計與決策 2018年9期
        關(guān)鍵詞:平方和正態(tài)分布組內(nèi)

        江忠偉

        (中國人民銀行南通市中心支行,江蘇 南通 226007)

        0 引言

        多元方差分析是一元方差分析的推廣,在選擇檢驗統(tǒng)計量方面,通常的做法是:考慮到組內(nèi)差異是由隨機誤差造成的,組間差異可能是由隨機誤差和系統(tǒng)誤差共同引起的,與一元方差分析的基本思想相同。在一元方差分析中,若各個總體之間沒有顯著差異,則組間離差平方和與組內(nèi)離差平方和近似相等。可以證明組間離差平和與組內(nèi)離差平方和的比值服從F分布,給定顯著性水平后,就可以算出臨界值即得出拒絕域。與一元方差分析不同的是:多元統(tǒng)計分析需要將一元方差分析中的組間離差平方和、組內(nèi)離差平方和推廣為組間離差陣以及組內(nèi)離差陣。然后基于組間離差陣與組內(nèi)離差陣的比值構(gòu)建檢驗統(tǒng)計量,可以證明該統(tǒng)計量為wilks統(tǒng)計量,給定顯著性水平后,就可以算出臨界值即得出拒絕域[1]。另外還有一些其他的檢驗統(tǒng)計量,例如Hotelling跡檢驗統(tǒng)計量[2,3]、Pil?lai-Bartlett準則檢驗統(tǒng)計量(Pillai-Bartlett criterion)[4,5]Roy最大特征值檢驗統(tǒng)計量(Roy’s Largest Root)[6],具體表達形式見表1。

        表1 四種檢驗統(tǒng)計量匯總

        通過推導(dǎo)證明,四個檢驗統(tǒng)計量經(jīng)過適當(dāng)?shù)淖冃尉D(zhuǎn)化成服從F分布的檢驗統(tǒng)計量[7]。在進行多元方差分析時選擇哪個檢驗統(tǒng)計量,是一個很有實際意義的問題。Stevens[7]對上述四個檢驗統(tǒng)計量拒絕原假設(shè)能力進行了比較,結(jié)果表明:在相同條件下,Roy最大特征值檢驗統(tǒng)計量拒絕能力最強。Olson[8]對上述四種檢驗統(tǒng)計量的檢驗穩(wěn)健性進行了比較,結(jié)果表明:通常,Pillai-Bartlett準則檢驗統(tǒng)計量的穩(wěn)健性好。

        綜上所述,四個檢驗統(tǒng)計量經(jīng)過適當(dāng)?shù)淖冃尉梢孕纬梢粋€以F分布為漸近分布的隨機變量,據(jù)此可以在給定的顯著性水平下,設(shè)置一個小概率事件:當(dāng)原假設(shè)成立時,檢驗統(tǒng)計量的取值落入構(gòu)建的小概率事件中,則拒絕原假設(shè)。例如,利用wilks檢驗統(tǒng)計量進行檢驗的思路為:首先利用似然比原則導(dǎo)出服從wilks分布的檢驗統(tǒng)計量;由于對wilks檢驗統(tǒng)計量不夠熟悉,通常將wilks檢驗統(tǒng)計量轉(zhuǎn)換成F檢驗統(tǒng)計量;最后結(jié)合一個給定的顯著性水平,就確定了拒絕域,即檢驗法則。其三個檢驗統(tǒng)計量也是按照這種思路:先利用樣本資料導(dǎo)出一個統(tǒng)計量,再將該檢驗統(tǒng)計量轉(zhuǎn)換成F檢驗統(tǒng)計量,最后結(jié)合一個給定的顯著性水平確定拒絕域。有一個很自然的想法是:能否先對樣本資料進行變換,然后再根據(jù)變換后的樣本資料構(gòu)建F檢驗統(tǒng)計量進行方差分析?

        1 基本思路

        多元方差分析的主要任務(wù)是檢驗因子的不同處理(類型變量)對不同處理下得到的樣本觀測值(數(shù)值變量)有無顯著影響,即分類自變量對數(shù)值因變量有無顯著影響。該模型可以表述為:設(shè)分類自變量有K個處理,可以將每個處理看成一個總體,則有總體:

        從這K個總體抽取如下樣本:

        其中是相互獨立的。

        檢驗:

        H0:至少有一組i≠j,使得μi≠μj,H1:μ1=…=μK,可以對m個總體中的所有樣品做同一變換即選擇一個p維行向量與所有的樣品進行線性組合,顯然:若H0:至少有一組i≠j,使得μi≠μj成立,則選取任意一個p維行向量,必有H0:至少有一組i≠j,使得≠成立;反之也是如此。

        另一方面,由于服從p維多元正態(tài)分布的向量的分量的線性組合仍然服從正態(tài)分布,所以變換之后的樣品數(shù)據(jù)仍然服從正態(tài)分布。據(jù)此可以構(gòu)建F檢驗統(tǒng)計量進行一元方差分析。但F檢驗統(tǒng)計量的取值是無法確定的,雖然樣本觀測值是已知的,但p維行向量是未知的。如何求出?假設(shè)檢驗的目的是尋找證據(jù)支持本文的觀點。通常的做法是設(shè)置兩個對立事件,然后尋找一個特例拒絕與本文觀點對立的觀點,這樣可以從一定置信水平上認為本文觀點是正確的。因為拒絕一個觀點只需要找到一個特例就行了,而接受一個觀點需要考慮所有的情況(通常是做不到的),因此只需尋找特例來拒絕原假設(shè)。利用矩陣的譜分解以及向量的線性表出等知識,可以解出上述F檢驗統(tǒng)計量的最小值以及相對應(yīng)l′的具體形式。如何利用這個極端值?一般的,對于假設(shè)檢驗中的原假設(shè)H0,可以認為H0是根據(jù)實際問題提出來的,往往是從過去經(jīng)驗中總結(jié)出來的,沒有充分理由不能拒絕它。所以在多元方差分析中,當(dāng)原假設(shè)為:H0:至少有一組i≠j,使得μi≠μj,若原假設(shè)為真,即各個總體的均值向量有顯著差異,此時各水平的系統(tǒng)誤差不為零,此時F檢驗統(tǒng)計量(為組間離差平方和與組內(nèi)離差平方和的比值)會很大。但若由樣本計算出的F檢驗統(tǒng)計量的值小到可以將其看成一個小概率事件,則可以認為原假設(shè)是不正確的,此時有較大把握拒絕原假設(shè)H0,接受備擇假設(shè)H1。

        2 依據(jù)樣本資料直接構(gòu)造F檢驗統(tǒng)計量

        設(shè)分類自變量有K個處理,可以將每個處理看成一個子總體,則有總體:

        從這K個子總體抽取如下樣本:

        其中是 相 互 獨 立的。按照上文的內(nèi)容,選擇一個p維向量l′與所有樣品相乘,得出線性組合后的樣本:

        樣本數(shù)據(jù)經(jīng)過線性組合后均變成了一維數(shù)據(jù),由上文可知,檢驗H0:至少有一組i≠j,使得μi≠μj與檢驗H0:至少有一組i≠j,使得≠是等價的。這樣就將多元方差分析轉(zhuǎn)換為一元方差分析??梢詷?gòu)造F檢驗統(tǒng)計量進行一元方差分析。這里存在兩個問題:第一個問題是該樣本數(shù)據(jù)經(jīng)歷線性組合之后是否仍然服從正態(tài)分布;第二個問題是變換后的樣本數(shù)據(jù)的組間離差平方和與組內(nèi)離差平方和是否仍然獨立。接下來分別論證這兩個問題。

        2.1 樣本數(shù)據(jù)線性組合后正態(tài)性證明

        在一元正態(tài)分布中,若Z~N(0 ,1) ,則X=μ+σ Z~N(μ,σ2)。類似的在多元正態(tài)分布中,可以類似的定義多元正態(tài)分布。設(shè)相互獨立且有相同的分布N(0 ,1),μ為p維常數(shù)向量,A為p階常數(shù)矩陣,則稱:x=μ+的分布為多元正態(tài)分布,記作

        可以利用上述定義證明樣本數(shù)據(jù)進行線性組合后仍然服從正態(tài)分布。具體過程如下:

        協(xié)差陣∑可以分解為:∑=

        則可以寫成μj+

        故得證。

        2.2 線性組合后的數(shù)據(jù)組間離差與組內(nèi)離差平方和獨立性證明

        由上知樣本數(shù)據(jù)進行線性組合后仍然服從正態(tài)分布,可以計算出變換后的樣本數(shù)據(jù)的總離差平方和SST、組間離差平方SSB和組內(nèi)離差平方和SSE,經(jīng)過適當(dāng)變形之后總離差平方和SST、組間離差平方SSB和組內(nèi)離差平方和SSE均服從卡方分布,若組間離差平方SSB和組內(nèi)離差平方和SSE相互獨立,則可以構(gòu)造出F檢驗統(tǒng)計量進行方差分析。下面證明組間離差平方SSB和組內(nèi)離差平方和SSE相互獨立。

        變換后樣本數(shù)據(jù)的總離差平方和SST、組間離差平方SSB和組內(nèi)離差平方和SSE為:

        p維行向量l′為一個常數(shù)向量,要證明組間離差平方SSB和組內(nèi)離差平方和SSE之間相互獨立,即證明組間離差陣B和組內(nèi)離差陣E相互獨立。隨機矩陣的獨立性可以利用的科克朗(Cochran)定理來證明:設(shè)X~Nn×p(M,In?Σ ),C和D為n階對稱矩陣,X′CX與X′DX獨立,當(dāng)且僅當(dāng)CD=0。另外,若A是投影陣則I-A也是投影陣并且有A(I-A)=0成立。利用科克朗(Cochran)定理以及投影陣的性質(zhì),可以很方便地證明組間離差平方SSB和組內(nèi)離差平方和SSE之間相互獨立。具體證明過程如下:

        資料陣Y~Nn×p(M,In?Σ ),其中M的各行是各個子總體的均值向量的轉(zhuǎn)置按照各個子總體的觀測次數(shù)重復(fù)排列而成。

        可以將總離差陣改寫成:

        其中:

        可以驗證:

        故C為投影陣且rank(C)=n-1;

        類似的有:

        也可以將組內(nèi)離差陣E寫成:E=Y′C*Y

        其中,C*=diag(C2,…,CK)

        顯然C*也是投影陣并且rank(C*)=rank(C1)+rank(C2)+…+rank(CK)=n-K;

        組間離差陣B可以改寫成:

        其中,

        顯然有,C**=C**′, (C**)2=C**,故C**是投影陣并且rank(C**)=trC**=trC+trC*=K-1。

        C,C*,C**均為投影陣,并且有C=C*+C**,所以C*C**=0,由科克朗(Cochran)定理知組間離差陣B和組內(nèi)離差陣E是相互獨立的,故組間離差平方SSB和組內(nèi)離差平方和SSE之間相互獨立。

        綜上所述,本文可以構(gòu)造出F檢驗統(tǒng)計量:

        3 構(gòu)建檢驗法則

        可以將原假設(shè)和備擇假設(shè)設(shè)為:

        H0:H0:存在μi≠μj,i≠j;H1:μ1=…=μK

        由上文知,可以將原假設(shè)和備擇假設(shè)改寫成:

        H0:存在l′μi≠l′μj,i≠j;H1:l′μ1= … =l′μK

        并且這兩組原假設(shè)和備擇假設(shè)的檢驗結(jié)果是等價的。檢驗統(tǒng)計量為:

        是一個已知分布的統(tǒng)計量,只需要給出顯著性水平α就可以確定拒絕域的臨界值Fα即得出檢驗法則。

        該F檢驗統(tǒng)計量與一般的F統(tǒng)計量有所不同,其中的p維行向量l′事先并不知道,所以無法計算出檢驗統(tǒng)計量的具體數(shù)值。但考慮到檢驗的初衷:拒絕與本文觀點對立的觀點,從而證明本文的觀點是正確的。故只需要找到一個特例說明與本文觀點對立的觀點是錯誤的。原假設(shè)H0:存在l′μi≠l′μj,i≠j成立時,即系統(tǒng)誤差不為零。所以組間離差平方和與組內(nèi)離差平方和應(yīng)該相差很大。若將樣本觀測值帶入檢驗統(tǒng)計量F,計算得出的結(jié)果很小,小到可以看成是一個小概率事件,則我們有充分的理由拒絕原假設(shè)。所以上述的假設(shè)檢驗問題就轉(zhuǎn)化為已知樣本數(shù)據(jù)的條件下求解F檢驗統(tǒng)計量的最小值,再與臨界值Fα(下分為數(shù))做出比較。F檢驗統(tǒng)計量的最小值的計算過程如下:

        組內(nèi)離差陣組間離差陣顯然E、B為正定矩陣并且是對稱矩陣,檢驗統(tǒng)計量F可以改寫成:

        其中是p階對稱矩陣,故其特征值是實數(shù);又因為為正定矩陣,故其特征值全部大于零。

        由矩陣的譜分解知:

        其中λ1≥λ2≥…≥λp為B相對于E的廣義特征值,β1,β2,…,βp為B相對于E的廣義特征值λ1≥λ2≥…≥λp所對應(yīng)的標準化特征向量。β2,…,βp為一組線性無關(guān)的p維向量,對β2,…,βp做適當(dāng)變換后,可以將其看成p維向量空間中的一組標準正交基,該正交基仍然記作β2,…,βp。

        由向量的線性表出知:

        其中a2,…,ap為常數(shù)。

        將式(2)、式(3)帶入式(1)得:

        當(dāng)l=βp時,等號成立。

        綜上所述,檢驗法則為:當(dāng)時,有充分理由拒絕原假設(shè),接受備擇假設(shè);當(dāng)時,不拒絕原假設(shè)。

        4 利用投影思想進行多元方差分析的優(yōu)點

        傳統(tǒng)的構(gòu)造檢驗統(tǒng)計量的步驟為:先構(gòu)造出一個統(tǒng)計量,該統(tǒng)計量的分布是不為我們所熟悉的,為此一般的做法是將該統(tǒng)計量做適當(dāng)變換使得變換后的統(tǒng)計量的分布漸近服從一個我們熟悉的分布即F分布。這一過程通常計算量較大,并且理論性強不易理解。若直接從投影后的樣本資料出發(fā)構(gòu)建F分布。首先,從推導(dǎo)過程中可以發(fā)現(xiàn),所使用的都是基本的統(tǒng)計知識以及一些線性代數(shù)知識,推導(dǎo)過程也十分簡單,可以方便大家理解以及運用該分析方法;其次,隨著計算機的普及以及儲存技術(shù)的發(fā)展,所研究的數(shù)據(jù)往往是海量、高維的數(shù)據(jù),這是挖掘數(shù)據(jù)中有價值信息的一個障礙,利用投影思想可以將高維度數(shù)據(jù)變換成低維度,這種思想的應(yīng)用無疑帶來了巨大的便利。

        5 模擬

        為了證實方法的正確性,分兩步進行模擬。

        第一步利用R軟件產(chǎn)生9個子總體,每個子總體有20個樣品,這9個子總體的均值向量和協(xié)方差陣相同,所有樣品均為5維向量(見表2),其中均值向量和協(xié)方差陣是隨機選取的,在此基礎(chǔ)上進行多元方差分析,驗證檢驗結(jié)果是否能夠拒絕原假設(shè)。

        表2 第一個子總體前十個樣品的5維向量

        利用計算出的組間離差陣相對于組內(nèi)離差陣最小廣義特征值為λp=0.0129,故F檢驗統(tǒng)計量的取值為F=,該分位點對應(yīng)的p=0.02703,非常接近0,因此有充分理由拒絕原假設(shè)。

        第二步繼續(xù)利用R軟件產(chǎn)生9個子總體,每個子總體有20個樣品,與第一步不同的是,這9個子總體的均值向量不相同,所有樣品均為5維向量(見表3),其中均值向量和協(xié)差陣是隨機選取的,在此基礎(chǔ)上進行多元方差分析,驗證檢驗結(jié)果是否為不能拒絕原假設(shè)。

        表3 第一個子總體前十個樣品的5維向量

        利用計算出的組間離差陣相對于組內(nèi)離差陣最小廣義特征值為λp=0.0228,故F檢驗統(tǒng)計量的取值為F=,該分位點對應(yīng)的p=0.136,不是一個非常小的數(shù)值,因此沒有充分理由拒絕原假設(shè)。

        6 結(jié)論

        本文首先利用投影思想構(gòu)建的F檢驗統(tǒng)計量在模擬試驗中,當(dāng)各個子總體均值向量之間不存在差異時,檢驗結(jié)果拒絕原假設(shè),接受備擇假設(shè);當(dāng)各個子總體均值向量之間確實存在差異,F(xiàn)檢驗統(tǒng)計量的取值不能夠拒絕原假設(shè),故可以達到多元方差分析的目的。在假設(shè)檢驗過程中,當(dāng)沒有充分理由拒絕原假設(shè)時,這時很多人便認為原假設(shè)是正確的。贊同這個觀點的人并沒有考慮原假設(shè)錯誤但檢驗統(tǒng)計量取值沒有落入拒絕域中的概率的大小(即納偽的概率),若原假設(shè)錯誤時建議統(tǒng)計量取值沒有落入拒絕域中的概率很大,這時認為原假設(shè)是正確的顯然是不可信的。此時可以認為檢驗工作并沒有取得實質(zhì)進展。如何有效克服這個問題有待更進一步的探討。

        參考文獻:

        [1] Finch H.Comparison of the Performance of Nonparametric and Para?metric MANOVA Test Statistics When Assumptions Are Violated[J].Methodology,2005,1(1).

        [2] Kapstad H,Hanestad B R,Langeland N,et al.Cutpoints for Mild,Moderate and Severe Pain in Patients With Osteoarthritis of the Hip or Knee Ready for Joint Replacement Surgery[J].BMC Musculoskele?tal Disorders,2008,9(1).

        [3] Hatlen M A,Arora K,Vacic V,et al.Integrative Genetic Analysis of Mouse and Human AML Identifies Cooperating Disease Alleles[J].The Journal of Experimental Medicine,2016,213(1).

        [4] Ullah I,Jones B.Regularised Manova for High-Dimensional Data[J].Australian&New Zealand Journal of Statistics,2015,57(3).

        [5] Chiani M.Distribution of the Largest Root of a Matrix for Roy’s Test in Multivariate Analysis of Variance[J].Journal of Multivariate Analy?sis,2016,(143).

        [6] Haase R F,Ellis M V.Multivariate Analysis of Variance[J].Journal of Counseling Psychology,1987,34(4).

        [7] Stevens J P.Power of the Multivariate Analysis of Variance Tests[J].Psychological Bulletin,1980,88(3).

        [8] Olson C L.On Choosing a Test Statistic in Multivariate Analysis of Variance[J].Psychological Bulletin,1976,83(4).

        猜你喜歡
        平方和正態(tài)分布組內(nèi)
        用心說題 提高效率 培養(yǎng)能力
        費馬—歐拉兩平方和定理
        利用平方和方法證明不等式賽題
        基于對數(shù)正態(tài)分布的出行時長可靠性計算
        勾股定理的擴展
        正態(tài)分布及其應(yīng)用
        關(guān)于四奇數(shù)平方和問題
        正態(tài)分布題型剖析
        χ2分布、t 分布、F 分布與正態(tài)分布間的關(guān)系
        合作學(xué)習(xí)組內(nèi)交流討論時間的遵循原則
        日韩极品免费在线观看| 国产精品无套内射迪丽热巴| 97视频在线播放| 亚洲av乱码一区二区三区女同| 久久这里都是精品99| 手机福利视频| 亚洲人成网站在线观看播放 | 久久国产av在线观看| 亚洲女同av在线观看| 亚洲人交乣女bbw| 品色堂永远的免费论坛| 中文字幕亚洲区第一页| 国产成人一区二区三区影院| 欧美激情一区二区三区| 久久久久久av无码免费看大片| 色偷偷亚洲第一综合网| 午夜免费观看国产视频| 人妻体内射精一区二区三四| 国产精品嫩草影院AV| 日本二区视频在线观看| 青青草免费手机视频在线观看| 亚洲av无码国产精品色软件下戴 | 精品亚洲一区二区在线观看| 无套内内射视频网站| 看曰本女人大战黑人视频| 国内精品久久久久久久久蜜桃| 精品亚洲一区二区三洲| 先锋中文字幕在线资源| 宅男噜噜噜| 国内精品熟女一区二区| 亚洲麻豆视频免费观看| 强行无套内谢大学生初次| 国产精品18久久久久网站| 偷拍偷窥在线精品视频| 玩弄放荡人妇系列av在线网站| 无码人妻丰满熟妇精品区| 国产丝袜高跟美腿一区在线| 国偷自拍av一区二区三区| 国产高清在线精品一区| 国产一级淫片a免费播放口| 中文字幕亚洲在线第一页|