王格格,魯鈺,吳劉倉
(昆明理工大學(xué)理學(xué)院,云南昆明650504)
在我們的現(xiàn)實(shí)生活中收集到的數(shù)據(jù)大多數(shù)都不具有嚴(yán)格的對(duì)稱性,而是具有一定的偏斜,如果我們繼續(xù)用對(duì)稱分布比如:正態(tài)分布、t分布、Laplace分布等進(jìn)行統(tǒng)計(jì)推斷可能會(huì)得到不合理甚至錯(cuò)誤的結(jié)論.因此,對(duì)偏態(tài)數(shù)據(jù)的統(tǒng)計(jì)推斷成為統(tǒng)計(jì)學(xué)研究的一個(gè)熱點(diǎn)問題.在偏態(tài)數(shù)據(jù)中,眾數(shù)比均值、中位數(shù)應(yīng)用更為廣泛,在總體中,眾數(shù)標(biāo)志著出現(xiàn)次數(shù)最多,它刻畫了總體數(shù)據(jù)集中趨勢的大多數(shù)水平.為了更好地?cái)M合偏態(tài)數(shù)據(jù),捕捉到更全面、更準(zhǔn)確、更及時(shí)有效的信息,本文針對(duì)偏正態(tài)分布建立了眾數(shù)回歸模型,進(jìn)一步拓展了偏正態(tài)分布下眾數(shù)混合專家回歸模型.
偏正態(tài)分布作為正態(tài)分布的推廣,不僅具有正態(tài)分布的良好統(tǒng)計(jì)特性,同時(shí)也有具有偏態(tài)分布的特征,適用性更廣泛,所以國內(nèi)外許多學(xué)者研究了偏正態(tài)分布問題.Azzalini[1]首先研究了偏正態(tài)分布及其累積分布函數(shù)和概率密度函數(shù)的性質(zhì);萬文等[2]研究了偏正態(tài)分布下聯(lián)合位置與尺度模型的統(tǒng)計(jì)診斷;馬婷等[3]研究了基于偏正態(tài)分布聯(lián)合位置,尺度與偏度模型的極大似然估計(jì);朱志娥等[4]在未對(duì)混合比例建模的情況下,研究了偏t正態(tài)數(shù)據(jù)下混合線性聯(lián)合位置與尺度模型的參數(shù)估計(jì);Lachos等[5]在多元偏正態(tài)回歸模型上,基于EM算法構(gòu)建多元偏正態(tài)回歸模型的極大似然估計(jì);在變量選擇方面,吳劉倉等[6]基于偏正態(tài)分布研究了聯(lián)合位置與尺度模型的變量選擇問題;LI和WU等[7?8]分別基于SN、StN分布,對(duì)聯(lián)合位置、尺度和偏度模型的參數(shù)估計(jì)和變量選擇做了研究.但上述研究僅對(duì)偏正態(tài)分布或偏正態(tài)分布的位置和尺度進(jìn)行建模,沒有考慮數(shù)據(jù)來自異質(zhì)性群體.
在經(jīng)濟(jì)金融、環(huán)境工程、生物醫(yī)學(xué)等領(lǐng)域的實(shí)際問題中,經(jīng)常遇到異質(zhì)總體數(shù)據(jù).數(shù)據(jù)越來越復(fù)雜對(duì)統(tǒng)計(jì)建模有更高要求,傳統(tǒng)的單一模型難以對(duì)異質(zhì)總體數(shù)據(jù)得到較好的擬合效果,因此發(fā)展了混合回歸模型.在異質(zhì)總體中,混合專家回歸模型是最重要的統(tǒng)計(jì)分析工具之一,用來對(duì)異質(zhì)總體數(shù)據(jù)進(jìn)行分類及回歸分析,在統(tǒng)計(jì)機(jī)器學(xué)習(xí)方面應(yīng)用廣泛.混合專家回歸模型首先由Jacobs等[9]提出,對(duì)部分密度函數(shù)建模的同時(shí),還對(duì)混合比例進(jìn)行建模;隨后,Yuksel[10]對(duì)混合專家模型及其性質(zhì)進(jìn)行了詳細(xì)的描述;最近,Chamroukhi等[11]針對(duì)混合回歸專家模型提出了一種基于t分布的穩(wěn)健模型;吳劉倉等[12]研究了基于偏正態(tài)分布下聯(lián)合位置與尺度混合專家回歸模型的參數(shù)估計(jì).
目前,基于偏態(tài)數(shù)據(jù)和混合專家回歸模型的研究現(xiàn)狀可以發(fā)現(xiàn),雖然偏正態(tài)分布和混合專家回歸模型都已經(jīng)有了很多的研究成果,但在混合專家回歸模型的框架下對(duì)偏態(tài)數(shù)據(jù)下眾數(shù)建模涉及較少.考慮到混合專家回歸模型在實(shí)際問題應(yīng)用中的重要性,本文建立了偏正態(tài)分布下眾數(shù)混合專家回歸模型,并對(duì)該模型進(jìn)行參數(shù)估計(jì),通過隨機(jī)模擬和實(shí)例結(jié)果表明本文提出的模型是具有可行之處的.
本文的組織結(jié)構(gòu)安排如下:第二部分分別介紹了偏正態(tài)分布、偏正態(tài)分布下眾數(shù)回歸模型及其混合專家回歸模型;第三部利用MM算法和基于梯度下降法的EM算法分別對(duì)各個(gè)模型的參數(shù)進(jìn)行估計(jì);第四部分通過MonteCarlo模擬證實(shí)本文提出方法的有效性;第五部分使用了澳大利亞身體質(zhì)量指數(shù)(BMI)數(shù)據(jù)中的一個(gè)實(shí)際例子來說明本文提出的模型和方法的效果;最后是本文的小結(jié)部分.
圖1.混合數(shù)目為2的混合專家回歸模型
III 確定混合數(shù)目
在上面的討論中,我們假設(shè)m是已知的,處理方法要么是基于先驗(yàn)信息,要么是對(duì)數(shù)據(jù)進(jìn)行預(yù)分析.可逆跳躍馬爾科夫鏈蒙特卡羅(RJMCMC)(見文[20])是一種可行的算法,由于增加了偏度使算法變得復(fù)雜,我們沒有繼續(xù)使用RJMCMC.此外,貝葉斯推斷混合建模中評(píng)估的成分后驗(yàn)概率可以用作一種軟聚類方案.另外,可以使用對(duì)數(shù)似然估計(jì)和兩個(gè)基于信息的準(zhǔn)則,AIC[21]和BIC[22]來確定混合數(shù)目.眾所周知,模型選擇標(biāo)準(zhǔn)方面已經(jīng)取得了一些成功,但為混合模型選擇正確的混合數(shù)目是有一定困難的.
為了提高本文選擇混合數(shù)目的效率,采用了一種通過眾數(shù)識(shí)別的生產(chǎn)性聚類方法[23].這種方法在高維空間和數(shù)據(jù)的分布偏離高斯分布的情況下是穩(wěn)健的.具體來說,這些樣本點(diǎn)上升到密度函數(shù)的同一局部最大值形成一個(gè)聚類,并利用兩個(gè)聚類密度凸點(diǎn)之間的脊線定義了聚類的兩兩可分性測度.在此過程中,采用模態(tài)EM(MEM)算法和脊線EM(REM)算法.水平5時(shí)集群數(shù)量依次為37、10、4、2、1.我們在第5節(jié)中演示了水平2和水平4時(shí)的聚類結(jié)果.
表1.模擬估計(jì)結(jié)果
從表1可以得出結(jié)論,隨著樣本量n增大,參數(shù)估計(jì)值均越來越接近真值,且估計(jì)的均方誤差MSE均逐漸減小,說明樣本量越大估計(jì)效果越好.
現(xiàn)實(shí)生活中,我們通常要根據(jù)研究對(duì)象的特征對(duì)其進(jìn)行聚類分析,如果只是對(duì)樣本進(jìn)行總體上的分析,得到的結(jié)果可能是不準(zhǔn)確的,如果能將總體分成具有相似特征的若干個(gè)子聚類,對(duì)每個(gè)子聚類進(jìn)行分析,得到的結(jié)果可能比僅對(duì)總體分析更接近實(shí)際.在本節(jié)中,我們利用澳大利亞體育研究所收集的100名女性和102名男性運(yùn)動(dòng)員的體質(zhì)指數(shù)(BMI)數(shù)據(jù)來說明本文提出模型和方法的實(shí)際應(yīng)用.
人體體質(zhì)指數(shù)由身高和體重計(jì)算得到的,但跟身體其它機(jī)能有密切關(guān)系,該數(shù)據(jù)包含一個(gè)響應(yīng)變量Y ?體質(zhì)指數(shù)(BMI)和四個(gè)解釋變量:X1?白細(xì)胞計(jì)數(shù);X2?血漿鐵蛋白濃度;X3?皮膚褶皺總和;X4?體脂百分比.總數(shù)據(jù)的BMI直方圖(見圖2)是右偏的,如果我們用正態(tài)分布來擬合,會(huì)有一些樣本點(diǎn)被視為異常值,因此,我們使用本文所提出的模型和方法進(jìn)行深入分析.我們通過3.3節(jié)的方法來確定混合的數(shù)目,結(jié)果如圖3所示.當(dāng)處于水平2時(shí),形成了10個(gè)集群,如圖3(a)所示.圖3(b)和(d)為水平2時(shí)的10個(gè)集群在水平3時(shí)合并為4個(gè)集群.與水平4時(shí)相比,水平3的第1類和第2類中排除了兩個(gè)有影響的觀察結(jié)果.這里,水平2時(shí)的10個(gè)集群其對(duì)應(yīng)的大小(包含的點(diǎn)的數(shù)量)分別是95、48、33、18、3、1、1、1、1、1.為簡單起見,我們考慮以下模型:
其中,μij由(2.7)定義.xi是一個(gè)4×1 向量,由所有4個(gè)潛在變量組成.
我們采用本文介紹的梯度下降法輔助的EM算法得到參數(shù)估計(jì)的最大值,結(jié)果見表2.顯然,含四個(gè)成分的模型的對(duì)數(shù)似然估計(jì)最大,AIC和BIC值最小,所以這個(gè)模型是最優(yōu)的.模型在水平2時(shí),體脂百分比(x4)在第2組和第4組中更易獲得較高的BMI指數(shù),血漿鐵蛋白濃度(x2)只在第1組中有助于達(dá)到較高的BMI指數(shù).
圖2.總體數(shù)據(jù)的BMI直方圖
圖3.對(duì)獲得的BMI數(shù)據(jù)聚類;(a)為水平2時(shí)聚成10類;(b)為從水平2到水平3時(shí)的上升路徑;(c)為水平3時(shí)聚成5類;(d)為水平3到水平4時(shí)的上升路徑;(e)為水平4時(shí)聚成2類;(f)為水平4到水平5時(shí)的上升路徑
本文建立偏正態(tài)分布下眾數(shù)混合專家回歸模型,目的是估計(jì)異質(zhì)總體的不同回歸參數(shù),而不是對(duì)總體參數(shù)的單一估計(jì).并且對(duì)混合比例建模,對(duì)影響混合比例的解釋變量有一定了解,在實(shí)例中有很好的體現(xiàn).
Monte Carlo模擬表明本文提出的MM算法和梯度下降法輔助的EM算法對(duì)偏正態(tài)分布下眾數(shù)混合專家回歸模型未知參數(shù)進(jìn)行了較好的估計(jì).與現(xiàn)有的模型和估計(jì)方法相比較,提出模型有較好的靈活性,不僅把各異質(zhì)總體所占比例估計(jì)出來,同時(shí)也能估計(jì)異質(zhì)總體的回歸參數(shù).此外,為確定混合數(shù)目,我們采用文[23]提出的方法來聚類,取得了良好的性能.表明,本文提出的模型和方法是有效可行的.