羅 盛 張 錦 陳景武
對(duì)應(yīng)分析(correspondence analysis),又稱相應(yīng)分析,其基本思想首先由理查森(Richardson)和庫(kù)德(Kuder)在1933年提出,后來(lái)法國(guó)統(tǒng)計(jì)學(xué)家Jean-Paul Benzecri和日本統(tǒng)計(jì)學(xué)家Hayashi Chikio對(duì)該方法進(jìn)行了發(fā)展,主要用于分析二維數(shù)據(jù)陣中行因素和列因素間的關(guān)系。對(duì)應(yīng)分析把R型和Q型因子分析結(jié)合起來(lái),同時(shí)得到兩方面的結(jié)果——在同一因子平面上對(duì)變量和樣品進(jìn)行分類,從而揭示所研究的樣品和變量間的內(nèi)在聯(lián)系。目前對(duì)應(yīng)分析已被廣泛地應(yīng)用于自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域,取得了可喜的成果〔1-3〕。比如在研究不同地區(qū),不同種類的惡性腫瘤死亡率時(shí),我們既關(guān)心不同種類惡性腫瘤間的關(guān)系、不同地區(qū)間的關(guān)系,又想了解不同惡性腫瘤與地區(qū)間的關(guān)系。此時(shí)需要對(duì)惡性腫瘤(列因素)和地區(qū)(行因素)同時(shí)進(jìn)行因子分析,即對(duì)應(yīng)分析。這樣可以探討腫瘤類別間、不同地區(qū)間死亡率的關(guān)系以及各地區(qū)與不同惡性腫瘤間的關(guān)系。
對(duì)應(yīng)分析缺點(diǎn)是不能用于相關(guān)關(guān)系的假設(shè)檢驗(yàn)。對(duì)應(yīng)分析雖然能揭示行因素和列因素間的關(guān)系,不能說(shuō)明兩個(gè)變量之間存在的聯(lián)系是否有統(tǒng)計(jì)學(xué)意義。針對(duì)對(duì)應(yīng)分析在應(yīng)用時(shí)的不足,本文探討將因子分析和多元回歸分析結(jié)合應(yīng)用來(lái)進(jìn)行彌補(bǔ)。
對(duì)山東省某縣2000~2002年17個(gè)鄉(xiāng)鎮(zhèn)(用字母表示)惡性腫瘤標(biāo)化死亡資料進(jìn)行分析,探討該縣惡性腫瘤死亡率的影響因素,為研究惡性腫瘤的病因提供線索。其中(x,y)為研究區(qū)域內(nèi)各調(diào)查點(diǎn)的坐標(biāo)。
表1 2000~2002年各鄉(xiāng)鎮(zhèn)惡性腫瘤標(biāo)化死亡率(1/10萬(wàn))
作者曾對(duì)資料做過(guò)對(duì)應(yīng)分析〔4,5〕,發(fā)現(xiàn)胃癌(X1)、食管癌(X2)和結(jié)腸癌(X5)有比較強(qiáng)的聚集性,該縣的全部鄉(xiāng)鎮(zhèn)(i鎮(zhèn)除外)都與這3種癌比較靠近,并且全縣這3種惡性腫瘤的死亡率都比較高。同時(shí)提示這3種癌可能有某些共同的致病因素。白血病(x3)和乳腺癌(x4)在第一因子上有較大的正負(fù)荷,鼻咽癌(X6)在第一因子上有較大的負(fù)負(fù)荷,提示白血病和乳腺癌的共同致病因素有可能是鼻咽癌的保護(hù)因素。結(jié)果見圖1。
分別以胃癌和鼻咽癌死亡率為因變量,以地理位置坐標(biāo)(x,y)和同一組內(nèi)的其他惡性腫瘤死亡率為自變量,進(jìn)行多元逐步回歸分析。
(1)以胃癌為因變量,以地理坐標(biāo)(x,y)、食管癌、結(jié)腸癌、白血病、乳腺癌和鼻咽癌為自變量做逐步回歸。經(jīng)多重共線性診斷和擬合優(yōu)度檢驗(yàn),按進(jìn)入標(biāo)準(zhǔn)sle=0.15,剔除標(biāo)準(zhǔn)sls=0.16選出的方程為最優(yōu)回歸方程,擬合優(yōu)度R2=0.716,有意義的自變量是地理位置橫坐標(biāo)x、食管癌、乳腺癌,且回歸系數(shù)都為正(表2),說(shuō)明自變量是危險(xiǎn)因素,胃癌死亡率除了與地理位置橫坐標(biāo)有聯(lián)系外還與食管癌、乳腺癌的死亡率有很大關(guān)系,這與對(duì)應(yīng)分析結(jié)果基本一致〔4〕。隨著地理橫坐標(biāo)x和食管癌、乳腺癌死亡率的增大,胃癌死亡率呈逐漸升高趨勢(shì),胃癌的死亡率由西向東逐漸升高,這一結(jié)論與之前做過(guò)的趨勢(shì)面分析結(jié)果一致〔6〕。
圖1 地區(qū)與腫瘤種類的的對(duì)應(yīng)分析因子負(fù)荷圖
表2 多元逐步回歸分析結(jié)果(sle=0.15,sls=0.16)
(2)以鼻咽癌死亡率為因變量,以地理坐標(biāo)(x,y)、乳腺癌、白血病、食管癌、結(jié)腸癌和胃癌為自變量做逐步回歸。經(jīng)檢驗(yàn)按進(jìn)入標(biāo)準(zhǔn)sle=0.10,剔除標(biāo)準(zhǔn)sls=0.11選出的方程為最優(yōu)回歸方程,擬合優(yōu)度R2=0.475,有意義的自變量是地理位置橫坐標(biāo)x和白血病。且回歸系數(shù)都為負(fù)(表3),說(shuō)明自變量是保護(hù)因素,鼻咽癌死亡率除了與地理位置橫坐標(biāo)x有聯(lián)系外還與白血病死亡率有很大關(guān)系,這與對(duì)應(yīng)分析結(jié)果完全一致〔4〕。隨著地理橫坐標(biāo)x和白血病死亡率的增大,鼻咽癌死亡率呈逐漸降低趨勢(shì),鼻咽癌的死亡率由西向東逐漸降低,這一結(jié)論與之前的趨勢(shì)面分析結(jié)果一致〔6〕。
表3 多元逐步回歸分析結(jié)果(sle=0.10,sls=0.11)
在流行病研究中,為了解惡性腫瘤的地區(qū)分布和腫瘤類型分布特征,我們可以對(duì)資料進(jìn)行對(duì)應(yīng)分析,從而發(fā)現(xiàn)不同惡性腫瘤死亡率的高發(fā)地和低發(fā)地,為進(jìn)一步做流行病學(xué)病因調(diào)查及制定相應(yīng)的防癌規(guī)劃提供理論依據(jù),但是遺憾的是對(duì)應(yīng)分析不能用于相關(guān)關(guān)系的假設(shè)檢驗(yàn)。本研究探討將因子分析和多元回歸分析結(jié)合應(yīng)用來(lái)完善對(duì)應(yīng)分析,一方面可以驗(yàn)證對(duì)應(yīng)分析的結(jié)果,一方面又可以對(duì)腫瘤間的相關(guān)關(guān)系進(jìn)行假設(shè)檢驗(yàn)。
本研究將因子分析和多元回歸分析結(jié)合應(yīng)用,先通過(guò)R型因子分析將10大惡性腫瘤進(jìn)行了分組,然后分別以胃癌和鼻咽癌死亡率為因變量,以地理位置坐標(biāo)(x,y)和同一組的其他惡性腫瘤死亡率為自變量,進(jìn)行多元逐步回歸分析。不但能對(duì)對(duì)應(yīng)分析的結(jié)果進(jìn)行驗(yàn)證,而且可以彌補(bǔ)對(duì)應(yīng)分析不能用于相關(guān)關(guān)系假設(shè)檢驗(yàn)的局限性。從而可以發(fā)現(xiàn)惡性腫瘤死亡率與地區(qū)的對(duì)應(yīng)關(guān)系、不同惡性腫瘤間的聚集性和相關(guān)性以及腫瘤死亡率的地域變化規(guī)律性,這不僅為臨床“早發(fā)現(xiàn)、早診斷、早治療”提供了理論依據(jù),而且對(duì)該地區(qū)惡性腫瘤病因的確定以及今后的發(fā)病趨勢(shì)預(yù)測(cè)有十分重要的意義。
1.Alain F.Canonical correspondence analysis of lowland pasture vegetation in the humid tropics of Mexico.Statistics for Biology and Health,2007:561-547.
2.Mao DQ.Correspondence analysis on images of Jiangxi Province as a tourist destination.Chinese Geographical Science,2005,15(3):275-280.
3.Ken Reed.The use of correspondence analysis to develop a scale to measure workplace morale from multi-level data.Social Indicators Research,2002,3:339-351.
4.羅盛,馬峻嶺,陳景武.地區(qū)惡性腫瘤死亡率的對(duì)應(yīng)分析.?dāng)?shù)理統(tǒng)計(jì)與管理,2009,28(3):566-570.
5.羅盛,馬峻嶺,陳景武.分組對(duì)應(yīng)分析在流行病學(xué)研究中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(3):280-282.
6.羅盛,馬峻嶺,陳景武.惡性腫瘤死亡率地域分布的趨勢(shì)面分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(4):359-362.