丁 勇
(南京醫(yī)科大學(xué)康達(dá)學(xué)院 理學(xué)部,江蘇 連云港 222000)
相關(guān)和回歸是統(tǒng)計(jì)學(xué)研究的重要內(nèi)容。在實(shí)際工作中,受各種因素的影響,原始數(shù)據(jù)不可避免地存在一定的誤差,這些誤差對(duì)計(jì)算的結(jié)果會(huì)產(chǎn)生一定的干擾,因此需要對(duì)誤差的影響進(jìn)行分析和研究。查閱文獻(xiàn)發(fā)現(xiàn),關(guān)注誤差對(duì)回歸分析影響的研究非常多,例如經(jīng)典的最小二乘法、最小一乘法都是針對(duì)誤差對(duì)回歸的影響[1-5];而關(guān)注誤差對(duì)相關(guān)分析影響的研究則很少[6,7]。
相關(guān)系數(shù)是研究變量之間相關(guān)程度的重要指標(biāo),在理論研究和實(shí)際工作中得到了大量的應(yīng)用[1,2,8],例如,相關(guān)系數(shù)作為變量之間的距離,在多元統(tǒng)計(jì)分析中,廣泛應(yīng)用于聚類分析、主成分分析等。因此,研究數(shù)據(jù)誤差對(duì)相關(guān)系數(shù)的影響有重要意義。本文在一個(gè)變量有相對(duì)誤差的情況下,探討相對(duì)誤差對(duì)簡(jiǎn)單相關(guān)系數(shù)(又稱pearson積差相關(guān)系數(shù),以下簡(jiǎn)稱相關(guān)系數(shù))的影響。
記 r 為 x=(x1,x2,…,xn)和 y=(y1,y2,…,yn)的相關(guān)系數(shù),則[1,2]:
考慮x、y兩個(gè)變量其中之一有誤差,由于對(duì)稱性,不妨設(shè) y有相對(duì)誤差:;這里εi~N(0,σ2) 且相互獨(dú)立。記 ε=(ε1,ε2,…, εn) ,則由樣本標(biāo)準(zhǔn)差和總體標(biāo)準(zhǔn)差的關(guān)系可知:
從而可以把σ近似看成是y的平均相對(duì)誤差(以下簡(jiǎn)稱相對(duì)誤差)。
記r*為x=(x1,x2,…,xn)和的相關(guān)系數(shù),則:
由此可知,r*是由ε確定的隨機(jī)變量,上式比較復(fù)雜。為了較簡(jiǎn)單明了地分析相對(duì)誤差對(duì)相關(guān)系數(shù)的影響,本文從總體特性的角度進(jìn)行分析。從理論上獲悉r*的統(tǒng)計(jì)分布再推導(dǎo)總體均數(shù)E(r*)比較困難,為簡(jiǎn)單起見,考慮如下的近似公式:
由 數(shù) 理 統(tǒng) 計(jì) 知 識(shí) 可 知[1]:E(εi)=0 ,E(εiεj)=E(εi)E(εj)=0(i≠j) ,且,所 以,從 而,故有。這里E(X)為隨機(jī)變量X的數(shù)學(xué)期望,χ2(1)為自由度為1的卡方分布。由數(shù)學(xué)期望的 性 質(zhì) 可 知[1]E[(xi-ˉ)yiεi]=(xi-ˉ)yiE(εi)=0 ,E[(yi-ˉ),又因?yàn)椋詮亩?,因此?/p>
式(1)為有相對(duì)誤差數(shù)據(jù)的相關(guān)系數(shù)的總體均數(shù)的近似公式,與數(shù)據(jù)有相對(duì)誤差相對(duì)應(yīng),考慮相關(guān)系數(shù)的相對(duì)總體均數(shù):
當(dāng)ˉ=0,且σ2較小時(shí),式(2)為:
當(dāng)n≥2、σ≤20%時(shí):
由式(2)可得如下相對(duì)誤差對(duì)相關(guān)系數(shù)的影響的3個(gè)統(tǒng)計(jì)特性:
性質(zhì)2:相對(duì)誤差σ值越小,對(duì)相關(guān)系數(shù)的影響也越小;當(dāng)σ=0 時(shí),|=|r|;
性質(zhì)3:相對(duì)與性質(zhì)1誤差對(duì)相關(guān)系數(shù)的影響和有誤差數(shù)據(jù)的二階原點(diǎn)矩與二階中心矩的比值有關(guān),其值越小,影響越小;因?yàn)椋十?dāng)yˉ=0 時(shí),,此時(shí),y的大小對(duì)相關(guān)系數(shù)沒(méi)有影響。
式(1)、式(2)是近似公式,其精度如何?由近似公式得到的性質(zhì)是否和實(shí)際情況相符?下面通過(guò)一組數(shù)據(jù)進(jìn)行計(jì)算機(jī)模擬考察和驗(yàn)證。在實(shí)際應(yīng)用中,考慮到相對(duì)誤差不會(huì)太大,故設(shè)相對(duì)誤差界為20%。
表1 某交通點(diǎn)大氣污染情況的測(cè)定數(shù)據(jù)
表1是某交通點(diǎn)大氣污染情況的16個(gè)測(cè)定數(shù)據(jù)[9],第1列為汽車流量(輛/小時(shí))數(shù)據(jù),第3列為大氣中NO2含量(毫克/立方米)數(shù)據(jù),這兩者的相關(guān)系數(shù)為r=0.8304,第2列為汽車流量減去它的平均值得到的中心化數(shù)據(jù),由數(shù)理統(tǒng)計(jì)知識(shí)可知,兩個(gè)變量或其中之一做線性變換時(shí),它們的相關(guān)系數(shù)不變[1],所以它與大氣中NO2含量(毫克/立方米)數(shù)據(jù)的相關(guān)系數(shù)也為r=0.8304。由于本例的相關(guān)系數(shù)大于0,故在以下的討論中,省去相關(guān)系數(shù)的絕對(duì)值。
本文將汽車流量作為x,大氣中NO2含量作為y,此時(shí)取相對(duì)誤差σ分別為0.05、0.10、0.15和0.20(表2第1列),再由εi~N(0,σ2)產(chǎn)生有相對(duì)誤差的隨機(jī)數(shù),分別進(jìn)行了10000次模擬,得到10000個(gè)x和y*的相關(guān)系數(shù)r*,統(tǒng)計(jì)其中r*>r的個(gè)數(shù)(表2第2列,記為m),計(jì)算r*的均值和標(biāo)準(zhǔn)差(表2第4列)以及r*與r比值的均數(shù)與標(biāo)準(zhǔn)差(表2第7列),為便于和近似公式比較,表2第3列和第6列給出了公式(1)和公式(2)的結(jié)果。
表2 大氣中NO2含量數(shù)據(jù)有相對(duì)誤差時(shí)10000次模擬結(jié)果
顯然,當(dāng)沒(méi)有誤差時(shí),r*=r,從而=r*=r,式(2)也表明,當(dāng)相對(duì)誤差σ為0時(shí),=r;當(dāng)數(shù)據(jù)有相對(duì)誤差時(shí),由式(2)可知,要小于r,表2第3列結(jié)果驗(yàn)證了這一點(diǎn),<r=0.8304 ,且當(dāng)σ增大時(shí),變得更小。是r*的平均值,<r的一個(gè)可能原因是當(dāng)相對(duì)誤差σ存在時(shí),r*>r的個(gè)數(shù)會(huì)減少,表2第2列的結(jié)果驗(yàn)證了這一點(diǎn)。以上結(jié)果與前述的性質(zhì)1和性質(zhì)2的結(jié)論是一致的。
為比較y值的影響,取大氣中NO2含量數(shù)據(jù)為x,汽車流量數(shù)據(jù)為y,此時(shí)=19.7638,比表2的要大的多。類似上述的模擬方法,可得表3的各模擬結(jié)果。表3第2列與表2第2列欄類似,隨著誤差σ增大,r*>r的個(gè)數(shù)越來(lái)越少,相比表2的個(gè)數(shù)還要少;表3第3列與表2第3列欄類似,隨著誤差σ增大而變小,相比表2的數(shù)值還要小。
表3 汽車流量數(shù)據(jù)有相對(duì)誤差時(shí)10000次模擬結(jié)果
表4 汽車流量中心化數(shù)據(jù)有相對(duì)誤差時(shí)10000次模擬結(jié)果
圖1
由表2、表3和表4的第3列、第4列和第6列、第7列可知,與r*的均數(shù)的均數(shù)都比較接近,且標(biāo)準(zhǔn)差較小,說(shuō)明近似公式有較好的精度,本文進(jìn)一步以均方根誤差(root-mean-square error)為精度評(píng)價(jià)的量化標(biāo)準(zhǔn),由于與僅差一個(gè)常數(shù),為簡(jiǎn)便起見,只對(duì)進(jìn)行比較,記顯然,當(dāng)σ=0 時(shí),r*=r,從而=r,所以此時(shí)RMSE=0 ;另外4種σ的情況,計(jì)算機(jī)模擬的計(jì)算結(jié)果列于表2、表3和表4中第5列,一個(gè)有趣的現(xiàn)象是,RMSE與σ成正比關(guān)系(下頁(yè)圖2,圖中R2為決定系數(shù)),表4的RMSE小于σ的3.6%(圖2中☆數(shù)據(jù)),表2的RMSE小于σ的6%(圖2中*數(shù)據(jù)),表3的RMSE小于σ的21.5%(圖2中o數(shù)據(jù))的值越小,RMSE與σ比值就越小;三種情況都表明,RMSE遠(yuǎn)遠(yuǎn)小于誤差σ,這進(jìn)一步說(shuō)明近似公式有較高的精度。由于的精度與的精度是一致的。由于近似公式有較好的精度,由此得到的3個(gè)性質(zhì)與實(shí)際情況相符也就順理成章了。與僅相差一個(gè)常數(shù),因此
圖2 均方根誤差RMSE與相對(duì)誤差σ的關(guān)系圖
從復(fù)雜的現(xiàn)象中,排除次要因素的干擾,梳理出重要線索,抓住主要矛盾,有助于分析事物間的本質(zhì)聯(lián)系。本文從總體特性的統(tǒng)計(jì)規(guī)律出發(fā),利用簡(jiǎn)單的近似公式,較好地找到了相對(duì)誤差對(duì)相關(guān)系數(shù)影響的主要因素。
從變量數(shù)據(jù)散點(diǎn)圖的幾何直觀來(lái)看,數(shù)據(jù)點(diǎn)越分布在回歸直線附近,變量的相關(guān)性越好。眾所周知,數(shù)據(jù)的誤差會(huì)對(duì)相關(guān)系數(shù)產(chǎn)生影響。一般來(lái)說(shuō),當(dāng)誤差使數(shù)據(jù)點(diǎn)靠近(遠(yuǎn)離)回歸直線時(shí),相關(guān)系數(shù)會(huì)增加(減少)。由于誤差是隨機(jī)的,因此,誤差有可能使相關(guān)系數(shù)(絕對(duì)值)增加,也可能使相關(guān)系數(shù)(絕對(duì)值)減少。本文研究表明,從統(tǒng)計(jì)規(guī)律來(lái)看,誤差的影響大多數(shù)情況是不利的,會(huì)使變量的相關(guān)性變差。
對(duì)于相對(duì)誤差,一般會(huì)認(rèn)為數(shù)據(jù)變量的絕對(duì)值越大,誤差會(huì)越大,從而對(duì)相關(guān)系數(shù)的影響也越大。本文研究得到一個(gè)重要的結(jié)論是:數(shù)據(jù)的二階原點(diǎn)矩的與二階中心矩的比值對(duì)相關(guān)系數(shù)有較大的影響。誤差會(huì)對(duì)相關(guān)系數(shù)產(chǎn)生影響,但僅有誤差,影響的作用并不大,公式(3)說(shuō)明了這一點(diǎn),誤差和二階矩比值的共同作用,特別是二階矩的比值較大時(shí),會(huì)對(duì)相關(guān)系數(shù)產(chǎn)生較大的影響,圖1給出了直觀的說(shuō)明。數(shù)據(jù)均值為0時(shí),二階矩的比值達(dá)到最小值1,此時(shí)數(shù)據(jù)大小對(duì)相關(guān)系數(shù)沒(méi)有影響。因此,數(shù)據(jù)相對(duì)誤差對(duì)相關(guān)系數(shù)的影響,除了誤差和數(shù)據(jù)的大小,還要考慮數(shù)據(jù)是否對(duì)稱分布、均值為0。在實(shí)際問(wèn)題中,可以把二階矩的比值作為一個(gè)評(píng)價(jià)指標(biāo),當(dāng)該指標(biāo)數(shù)值較小時(shí),相關(guān)系數(shù)的值比較穩(wěn)定,受誤差的影響較小。