楊語(yǔ)蒙 李興東 王善培
(蘭州交通大學(xué)數(shù)理學(xué)院 甘肅 蘭州 730070)
傳統(tǒng)意義下的相關(guān)關(guān)系就是線性相依關(guān)系,但隨機(jī)數(shù)據(jù)或隨機(jī)變量間往往存在更為復(fù)雜的非線性相依關(guān)系,因此對(duì)隨機(jī)數(shù)據(jù)或隨機(jī)變量進(jìn)行相依性分析具有更重要的應(yīng)用價(jià)值.目前為止,相依性分析廣泛應(yīng)用于股票市場(chǎng)的隨機(jī)波動(dòng)、銀行貸款、醫(yī)療診斷分析等領(lǐng)域.在早期的研究中,陳睿君首次提出了相依違約的違約風(fēng)險(xiǎn)度量[1];張金清,李徐等人運(yùn)用連接函數(shù)研究流動(dòng)性風(fēng)險(xiǎn)與市場(chǎng)風(fēng)險(xiǎn)[2].后期也有很多學(xué)者對(duì)變量間的相依性分析進(jìn)行研究,主要借助Sklar定理進(jìn)行探討[3][4],如張堯庭借助Copula函數(shù)刻畫(huà)股市間的相依性[5];韓思遠(yuǎn)基于熵對(duì)相依程度度量[6];張亞文基于相對(duì)距離研究變量間的相依性[7].筆者認(rèn)為,條件概率是相依性分析的概率基礎(chǔ)與重要工具,克服了前面度量指標(biāo)的局限性.目前相關(guān)研究較少,該文基于條件概率、條件分布、條件期望等不同角度探討事件、隨機(jī)變量間的相依性,并闡述相依性分析的應(yīng)用實(shí)例,以拋磚引玉.
(一)借助條件概率刻畫(huà)事件之間的相依性關(guān)系
由條件概率公式,進(jìn)一步得到:事件A與事件B正相依,當(dāng)且僅當(dāng)P(AB)>P(A)P(B);事件A與事件B負(fù)相依,當(dāng)且僅當(dāng)P(AB)
(二)借助貝葉斯公式刻畫(huà)事件之間的相依性關(guān)系
(三)借助似然度刻畫(huà)任意隨機(jī)事件之間的相依性關(guān)系
定義2.設(shè)A,B是任意兩事件,則稱λ(A,B)為A與B的似然度.特別的,若P(A)與P(B)中至少有一個(gè)為0,則規(guī)定λ(A,B)=1.
可見(jiàn),任意兩事件A與B的似然度λ,實(shí)質(zhì)是集合A與B的二元集函數(shù),且函數(shù)值是非負(fù)實(shí)數(shù).無(wú)論似然度λ取任何非負(fù)值,A與B彼此間的作用是相互的、同向的,且作用程度是等量的,任何一個(gè)后驗(yàn)概率都等于對(duì)應(yīng)先驗(yàn)概率的λ倍,這就是任意兩事件間的相依原理.
至此,分別從條件概率、乘法公式與似然度的角度,可得到兩隨機(jī)事件之間負(fù)相依、不相依、正相依的等價(jià)條件.
(四)隨機(jī)事件之間相依性的等價(jià)條件
性質(zhì)1.設(shè)A,B是隨機(jī)試驗(yàn)E的任意兩事件,則有以下結(jié)論.
4.任意兩隨機(jī)事件之間或負(fù)相依、或不相依、或正相依,三者必具其一且只具其一.
事件可看作靜態(tài)的隨機(jī)變量,研究動(dòng)態(tài)隨機(jī)變量之間的相依性更具有廣泛的意義.正如條件概率是研究事件之間相依關(guān)系的工具,條件分布是研究隨機(jī)變量之間相依關(guān)系的有力工具.
類似地,設(shè)連續(xù)型隨機(jī)向量(X,Y)的聯(lián)合分布函數(shù)H(x,y)=P(X≤x,Y≤y),
則邊緣分布函數(shù)分別是:F(x)=P(X≤x)=H(x,+∞),G(y)=P(Y≤y)=H(+∞,y)
(一)由分布函數(shù)刻畫(huà)變量之間的相依性關(guān)系
(X,Y)獨(dú)立當(dāng)且僅當(dāng)H(x,y)-F(x)G(y)=0;
(X,Y)正象限相依當(dāng)且僅當(dāng)H(x,y)-F(x)G(y)≥0;
(X,Y)負(fù)象限相依當(dāng)且僅當(dāng)H(x,y)-F(x)G(y)≤0.
(二)由密度函數(shù)刻畫(huà)變量之間的相依性關(guān)系
(X,Y)獨(dú)立當(dāng)且僅當(dāng)h(x,y)-f(x)g(y)=0;
(X,Y)正象限相依當(dāng)且僅當(dāng)h(x,y)-f(x)g(y)≥0;
(X,Y)負(fù)象限相依當(dāng)且僅當(dāng)h(x,y)-f(x)g(y)≤0.
(三)由條件分布函數(shù)刻畫(huà)變量之間的相依性關(guān)系
(X,Y)獨(dú)立當(dāng)且僅當(dāng)F(x|y)-F(x)=0;
(X,Y)正象限相依當(dāng)且僅當(dāng)F(x|y)-F(x)≥0;
(X,Y)負(fù)象限相依當(dāng)且僅當(dāng)F(x|y)-F(x)≤0.
(四)由條件密度函數(shù)刻畫(huà)變量之間的相依性關(guān)系
(X,Y)獨(dú)立當(dāng)且僅當(dāng)f(x|y)-f(x)=0;
(X,Y)正象限相依當(dāng)且僅當(dāng)f(x|y)-f(x)≥0;
(X,Y)負(fù)象限相依當(dāng)且僅當(dāng)f(x|y)-f(x)≤0.
(五)由條件期望刻畫(huà)變量之間的相依性關(guān)系
(X,Y)獨(dú)立當(dāng)且僅當(dāng)E(Y|X=x)=E(Y);
(X,Y)正象限相依當(dāng)且僅當(dāng)E(Y|X=x)≥E(Y);
(X,Y)負(fù)象限相依當(dāng)且僅當(dāng)E(Y|X=x)≤E(Y).
可知,一般地,條件期望E(Y|X=x)=α(x)是x的函數(shù).若(X,Y)獨(dú)立,則α(x)是一個(gè)常數(shù)E(Y);若(X,Y)正象限相依,則函數(shù)α(x)在直線x=E(Y)的上方;若(X,Y)負(fù)象限相依,則函數(shù)α(x)在直線x=E(Y)的下方.進(jìn)一步,將條件期望E(Y|X)看成隨機(jī)變量X的函數(shù),記為E(Y|X)=α(X),稱為隨機(jī)變量Y對(duì)X的回歸函數(shù)[11],或稱為Y對(duì)X的均值回歸函數(shù),從平均的意義上刻畫(huà)了變量X與Y之間的統(tǒng)計(jì)相依關(guān)系.
定理1.設(shè)任意二維隨機(jī)向量(X,Y),q(X)是任意的可測(cè)函數(shù),則E(Y-E(Y|X))2≤E(Y-q(X))2.
證E[Y-q(X)]2=E[(Y-E(Y|X)+(E(Y|X)-q(X))]2=E[Y-E(Y|X)]2+E[E(Y|X)-q(X)]2
+2E[(Y-E(Y|X))E(Y|X)-q(X)]
而E[(Y-E(Y|X))E(Y|X)-q(X)]=E{E[(Y-E(Y|X))(E(Y|X)-q(X))]|X}=0
故E[Y-q(X)]2=E[Y-E(Y|X)]2+E[E(Y|X)-q(X)]2≥E[Y-E(Y|X)]2
(一)貝葉斯公式中的相依性分析
分析(1)由貝葉斯公式,小孩第一次說(shuō)謊后村民對(duì)小孩的信任度為
(2)因經(jīng)過(guò)小孩第一次說(shuō)謊后,村民對(duì)小孩的信任度由起初的先驗(yàn)概率P(B)=0.85修正下降為后驗(yàn)概率P(B|A1)=0.5313,故用P(B|A1)代替P(B),由貝葉斯公式,小孩第二次說(shuō)謊后村民對(duì)小孩的信任度又降為
(二)二維正態(tài)分布中隨機(jī)變量間僅存在線性相依關(guān)系
對(duì)于多維隨機(jī)變量,條件分布是研究變量之間相依關(guān)系的工具,邊緣分布與條件分布、邊緣期望與條件期望之間的關(guān)系等都刻畫(huà)了變量間的相依關(guān)系.
關(guān)于二維正態(tài)分布的邊緣分布、條件分布及其變量之間的相依關(guān)系,有以下重要結(jié)論:
(3)X與Y的相依性關(guān)系僅是線性關(guān)系;
(4)X與Y獨(dú)立當(dāng)且僅當(dāng)ρ=0.
證明(1)因X與Y的聯(lián)合密度函數(shù)為
故關(guān)于X的邊緣密度函數(shù)為
其中:
(2)因?yàn)閄|Y的條件密度函數(shù)為
同理,Y|X的條件密度函數(shù)為
反之,當(dāng)ρ=0時(shí),因
故X與Y獨(dú)立.進(jìn)一步表明對(duì)于二維正態(tài)分布,若變量間線性不相關(guān)時(shí),則沒(méi)有任何相依關(guān)系,即獨(dú)立.
該定理表明,邊緣分布和條件分布都依賴于聯(lián)合分布;反之,僅僅由邊緣分布不一定得到聯(lián)合分布,因?yàn)樽兞块g的相依結(jié)構(gòu)是未知的,但是對(duì)于正態(tài)分布來(lái)講,若變量間的相關(guān)系數(shù)已知,則聯(lián)合分布是確定的,變量間也是確定的線性相依結(jié)構(gòu).
在實(shí)際問(wèn)題中,變量的分布往往是未知的,需要通過(guò)回歸分析方法來(lái)確定變量間的相依性關(guān)系.
(三)回歸分析中的相依性
例2.為了研究某一化學(xué)反應(yīng)過(guò)程中溫度X對(duì)產(chǎn)品得率Y的影響,測(cè)得數(shù)據(jù)如下:
Xi100110120130140150160170180190Yi45515461667074788589
討論隨機(jī)變量X與Y的相依性關(guān)系.
分析 一般地,E(Y|X)=α(X)是隨機(jī)變量Y的最佳估計(jì),是X的函數(shù)但未必是線性函數(shù).在回歸分析中,E(Y|X)=α(X)就是變量Y對(duì)X的回歸函數(shù).實(shí)踐中,往往通過(guò)觀察隨機(jī)變量X與Y的樣本散點(diǎn)圖來(lái)判斷回歸函數(shù)是線性還是非線性.在本例中,由所給X與Y的樣本散點(diǎn)圖發(fā)現(xiàn)這些點(diǎn)大致在一條直線上,因此考慮選用線性回歸來(lái)討論X與Y之間的相依性關(guān)系.
根據(jù)表中數(shù)據(jù)得,
從而,
故得出產(chǎn)品得率Y與溫度X的回歸函數(shù)為:
可知,當(dāng)溫度X達(dá)到165°時(shí),產(chǎn)品得率Y的最佳預(yù)測(cè)值為:
在一元線性回歸方程中,由于斜率項(xiàng)k=0.483>0,故溫度X每增大一個(gè)單位,產(chǎn)品得率平均增大0.483個(gè)單位,說(shuō)明變量X與Y之間存在正的線性相依關(guān)系。
在統(tǒng)計(jì)建模過(guò)程中,探究數(shù)據(jù)間的相依性關(guān)系顯得尤為重要.本文主要通過(guò)由條件概率、貝葉斯公式以及似然度等方式刻畫(huà)事件間的相依性關(guān)系;通過(guò)分布函數(shù)、密度函數(shù)、條件分布函數(shù)、條件密度函數(shù)以及條件期望等方式刻畫(huà)隨機(jī)變量間的相依性關(guān)系.討論相依性分析的應(yīng)用將事件與變量間的相依性淋漓盡致的展現(xiàn)出來(lái).意義之處在于:這些指標(biāo)能夠較準(zhǔn)確地刻畫(huà)事件或隨機(jī)變量間的相依程度,它們基本上可以克服其他度量指標(biāo)的不足之處,也可以適應(yīng)于各種相依類型,較準(zhǔn)確地對(duì)復(fù)雜的相依性給出宏觀或整體的度量.在概率統(tǒng)計(jì)的理論與應(yīng)用中,往往要考察事件、隨機(jī)變量間的相互依賴關(guān)系及其依賴程度,將這種相互依賴關(guān)系稱為相依關(guān)系[12].直觀來(lái)說(shuō),事件或變量間存在著三種不確定性相依關(guān)系:一是彼此促進(jìn)關(guān)系,稱為正相依關(guān)系;二是彼此抑制關(guān)系,稱為負(fù)相依關(guān)系;三是彼此互不影響、互不干擾關(guān)系,稱為獨(dú)立關(guān)系.變量間的不確定性相依關(guān)系,按是否為線性相依,可分為線性相依關(guān)系與非線性相依關(guān)系.