貴州省疾病預(yù)防控制中心慢性病防治研究所(550001) 趙否曦 劉 濤
偏相關(guān)分析在脈壓相關(guān)因素研究中的運(yùn)用*
貴州省疾病預(yù)防控制中心慢性病防治研究所(550001) 趙否曦 劉 濤△
直線相關(guān)分析是數(shù)理統(tǒng)計(jì)中處理變量與變量之間關(guān)系的一種統(tǒng)計(jì)方法[1]。在多數(shù)情況下,變量之間是否存在因果關(guān)系并不被調(diào)查者所知的情況下,僅想了解兩變量是否有相關(guān)變化關(guān)系,且這種依存關(guān)系的密切程度如何,這就是相關(guān)分析研究的范疇。從所處理的變量數(shù)目來(lái)看,兩個(gè)變量間的相關(guān)稱為簡(jiǎn)單相關(guān);兩個(gè)以上變量間的相關(guān)稱為多元相關(guān)。從變量之間的關(guān)系形式上看,有線性相關(guān)分析及非線性相關(guān)分析。從統(tǒng)計(jì)思想和方法來(lái)看,線性相關(guān)是描述變量基本關(guān)系的統(tǒng)計(jì)方法。
在分析兩個(gè)變量間相關(guān)關(guān)系時(shí),必須將其他變量因素的影響考慮其中,這就需要運(yùn)用偏相關(guān)系數(shù)進(jìn)行變量間的相關(guān)性分析[2]。偏相關(guān)分析也稱凈相關(guān)分析,它在控制其他變量的影響下分析兩變量間的線性相關(guān)性,所采用的工具是偏相關(guān)系數(shù)(凈相關(guān)系數(shù))。控制變量個(gè)數(shù)為一時(shí),偏相關(guān)系數(shù)稱為一階偏相關(guān)系數(shù);控制變量個(gè)數(shù)為二時(shí),偏相關(guān)系數(shù)稱為二階相關(guān)系數(shù);控制變量個(gè)數(shù)為零時(shí),偏相關(guān)系數(shù)稱為零階偏相關(guān)系數(shù),也就是簡(jiǎn)單相關(guān)系數(shù)。
本研究擬通過(guò)貴州省成人慢性病及其危險(xiǎn)因素監(jiān)測(cè)的調(diào)查數(shù)據(jù),從運(yùn)用的角度對(duì)簡(jiǎn)單相關(guān)分析與偏相關(guān)系數(shù)的結(jié)果進(jìn)行解釋,以說(shuō)明偏相關(guān)分析在結(jié)果解釋上的可靠性。
簡(jiǎn)單相關(guān)分析是對(duì)兩個(gè)變量之間的相關(guān)性進(jìn)行分析,分析過(guò)程比較簡(jiǎn)單,用直線相關(guān)系數(shù)來(lái)展現(xiàn)變量之間的相關(guān)性強(qiáng)弱,直線相關(guān)系數(shù)也稱Pearson積矩相關(guān)系數(shù),用 r表示,計(jì)算式為[1]:
偏相關(guān)分析是控制了其他變量影響的條件,僅分析兩個(gè)變量之間相關(guān)程度的過(guò)程,分析所得相關(guān)量為偏相關(guān)系數(shù)(或凈相關(guān)系數(shù))。偏相關(guān)系數(shù)可以利用簡(jiǎn)單相關(guān)系數(shù)進(jìn)行表示,簡(jiǎn)單相關(guān)系數(shù)可以用式(2)計(jì)算而得。假設(shè)我們需要計(jì)算X和Y之間的相關(guān)性,Z代表其他所有的變量,X和Y的偏相關(guān)系數(shù)可以認(rèn)為是X和Z線性回歸得到的殘差Rx與Y和Z線性回歸得到的殘差Ry之間的簡(jiǎn)單相關(guān)系數(shù),即Pearson相關(guān)系數(shù)記為rxy·x1x2…xn
對(duì)于N階偏相關(guān)系數(shù)的計(jì)算方法為:
一階偏相關(guān)系數(shù)公式為rx·yx1=在控制x變量的情況下,分析x與y之間的相關(guān)關(guān)系。
二階偏相關(guān)系數(shù)公式為rxy·x1x2=,通過(guò)公式可以看出,是在控制了x1和x2變量后,對(duì)x與y之間的相關(guān)關(guān)系進(jìn)行分析。
通過(guò)以上公式可以看出對(duì)于一階偏相關(guān)系數(shù)可以利用三個(gè)變量之間每?jī)蓚€(gè)變量的零階偏相關(guān)系數(shù)進(jìn)行計(jì)算,二階偏相關(guān)系數(shù)可用四個(gè)變量間的一階偏相關(guān)系數(shù)進(jìn)行計(jì)算。以此類推,N階偏相關(guān)系數(shù)都可以通過(guò)N-1階偏相關(guān)系數(shù)計(jì)算得出,對(duì)于有N個(gè)變量的偏相關(guān)系數(shù)可以利用進(jìn)行兩兩組合得到零階偏相關(guān)系數(shù)計(jì)算得出。
近年來(lái)大量流行病學(xué)及臨床研究表明脈壓是心腦血管事件及不良預(yù)后的強(qiáng)烈預(yù)測(cè)及獨(dú)立危險(xiǎn)因素。脈壓和大動(dòng)脈順應(yīng)性對(duì)高血壓預(yù)后及治療的重要性越來(lái)越受到重視。對(duì)于老年人而言,脈壓過(guò)寬對(duì)心腦血管的危害高于高血壓對(duì)老年人的損害[3],而脈壓相關(guān)的因素與身體各項(xiàng)指標(biāo)均有關(guān),為探討簡(jiǎn)單相關(guān)分析和偏相關(guān)分析在解釋多個(gè)變量上的可靠性,本文以脈壓及機(jī)體其他指標(biāo)的相關(guān)性來(lái)解釋變量之間的本質(zhì)聯(lián)系。
資料來(lái)源于貴州省成人慢性病及其危險(xiǎn)因素調(diào)查,調(diào)查采用多階段隨機(jī)整群抽樣,共在貴州省范圍內(nèi)抽取12個(gè)縣(區(qū))開展,每個(gè)縣(區(qū))隨機(jī)抽取4個(gè)鄉(xiāng)鎮(zhèn)(街道),每個(gè)鄉(xiāng)鎮(zhèn)(街道)隨機(jī)抽取3個(gè)行政村(居委會(huì)),最終村與居委會(huì)隨機(jī)抽取60戶,每戶按照KISH表抽取一位居民作為調(diào)查對(duì)象,考慮10%的無(wú)應(yīng)答率,共計(jì)抽取9600例調(diào)查對(duì)象,經(jīng)過(guò)數(shù)據(jù)整理并剔除無(wú)效問(wèn)卷,最終調(diào)查對(duì)象共有9280例,調(diào)查內(nèi)容包括基本情況,體格檢查、實(shí)驗(yàn)室檢查等。指標(biāo)包括:脈壓、收縮壓、舒張壓、體質(zhì)指數(shù)、空腹血糖、餐后血糖、甘油三酯、高密度脂蛋白、低密度脂蛋白、膽固醇、腰圍與睡眠時(shí)間。
運(yùn)用SPSS 22.0軟件進(jìn)行分析,將上述所有指標(biāo)兩兩組合通過(guò)簡(jiǎn)單相關(guān)分析得出相關(guān)系數(shù)矩陣,在矩陣中可觀測(cè)到脈壓與所有變量均有相關(guān)性,然而值得注意的是,在多元統(tǒng)計(jì)分析中,由于變量間相關(guān)關(guān)系會(huì)受到更多復(fù)雜的因素影響,其相關(guān)程度并不能真實(shí)的反應(yīng)脈壓與其他指標(biāo)的關(guān)聯(lián),(見表1)。通過(guò)矩陣可以看出,除脈壓,其他變量間同樣具有相關(guān)關(guān)系,甚至部分變量之間相關(guān)性超過(guò)了脈壓,這就對(duì)評(píng)價(jià)脈壓與其他變量之間的相關(guān)性造成影響。例如,脈壓與舒張壓的相關(guān)系數(shù)為0.269,而舒張壓與收縮壓的相關(guān)系數(shù)卻為0.736,舒張壓與脈壓的相關(guān)性程度低于收縮壓與舒張壓的相關(guān)程度,但是脈壓與收縮壓的相關(guān)系數(shù)為0.830,這就可能說(shuō)明,脈壓與舒張壓的相關(guān)程度是由于它們與收縮壓的相關(guān)程度都比較高,但是兩者本身可能并不存在相關(guān)性,或者是負(fù)相關(guān)關(guān)系。因?yàn)檫@種相關(guān)性被其他變量的強(qiáng)相關(guān)性所影響。因此,從這個(gè)例子可以看出,在多元統(tǒng)計(jì)分析時(shí),簡(jiǎn)單相關(guān)系數(shù)常常無(wú)法反映變量之間的本質(zhì)關(guān)系,這種解釋并不可靠。
表1 脈壓與各因素之間的簡(jiǎn)單相關(guān)系數(shù)矩陣
為了更加準(zhǔn)確地描述脈壓與其他變量之間的相關(guān)程度,我們運(yùn)用偏相關(guān)系數(shù)在控制比較的兩個(gè)變量之外的其他變量對(duì)它們的影響之后,計(jì)算脈壓與各個(gè)變量之間的相關(guān)程度。
對(duì)比表2的數(shù)據(jù),可以得到與表1一些不同的結(jié)論:收縮壓、體質(zhì)指數(shù)、低密度脂蛋白、膽固醇、睡眠時(shí)間與脈壓的相關(guān)性較之簡(jiǎn)單相關(guān)系數(shù)有較大的提升,而空腹血糖、餐后血糖等指標(biāo)相關(guān)性無(wú)統(tǒng)計(jì)學(xué)意義,而舒張壓已由原來(lái)正相關(guān)變?yōu)榱素?fù)相關(guān)。事實(shí)表明,在多元統(tǒng)計(jì)中,由于變量之間存在錯(cuò)綜復(fù)雜的關(guān)系,偏相關(guān)系數(shù)與簡(jiǎn)單相關(guān)系數(shù)在數(shù)值上可能會(huì)存在很大差異,甚至?xí)霈F(xiàn)相關(guān)性相反的情況。
表2 脈壓與其他因素的偏相關(guān)分析結(jié)果
歷史上對(duì)于相關(guān)性這一概念的首次提出,可追溯至Francis Galton對(duì)豌豆苗母代與子代的特性關(guān)系研究中。隨后,Karl Pearson提出了Pearson相關(guān)系數(shù),通過(guò)該系數(shù)來(lái)說(shuō)明兩個(gè)觀察變量相關(guān)性的大?。?]。而隨著回歸分析與相關(guān)分析的不斷深入,原來(lái)單變量之間的相關(guān)與回歸已不能滿足社會(huì)多元性發(fā)展的需要,因此多元統(tǒng)計(jì)分析得到了極大地發(fā)展,關(guān)于偏回歸、偏相關(guān)的計(jì)算和運(yùn)用正日益受到重視[5]。
本研究以脈壓與其他因素的相關(guān)性作為研究切入點(diǎn),運(yùn)用簡(jiǎn)單相關(guān)系數(shù)與偏相關(guān)系數(shù)來(lái)分析脈壓的相關(guān)因素,說(shuō)明了偏相關(guān)系數(shù)對(duì)于解釋具有多因素特點(diǎn)的調(diào)查數(shù)據(jù)在統(tǒng)計(jì)分析結(jié)果上的可靠性,但簡(jiǎn)單相關(guān)分析也并不是一無(wú)用處。通過(guò)計(jì)算簡(jiǎn)單相關(guān)系數(shù)的矩陣,不但可以直接得到任意兩個(gè)變量的相關(guān)性大小,還可以挖掘其他變量之間各種復(fù)雜的偏相關(guān)關(guān)系,這對(duì)于解釋和分析偏相關(guān)系數(shù)提供了更多的隱含信息。
本文的例子顯示:脈壓與舒張壓之間的相關(guān)性,在控制了其他因素的影響后,其相關(guān)性變?yōu)樨?fù)相關(guān)。這也提示兩個(gè)變量之間的高度相關(guān),有時(shí)并不是這兩個(gè)變量本身的內(nèi)在聯(lián)系所決定,它完全可能由另外一個(gè)變量的媒介作用而形成高度相關(guān)。所以絕不能只根據(jù)相關(guān)系數(shù)很高,就認(rèn)為兩變量之間有直接內(nèi)在的線性聯(lián)系。此時(shí)要準(zhǔn)確地反映兩變量之間的內(nèi)在聯(lián)系需要考慮偏相關(guān)系數(shù)來(lái)進(jìn)行解釋。在多變量相關(guān)的場(chǎng)合,由于變量之間存在錯(cuò)綜復(fù)雜的關(guān)系,因此偏相關(guān)系數(shù)與簡(jiǎn)單相關(guān)系數(shù)在數(shù)值上可能相差很大,甚至呈現(xiàn)負(fù)相關(guān)。
由脈壓的計(jì)算公式可知,脈壓的增高可由于兩種情況導(dǎo)致,其一,收縮壓增高,舒張壓降低;其二收縮壓、舒張壓同時(shí)增高,但收縮壓增幅高于舒張壓。而在控制了其他因素的影響后,脈壓與舒張壓之間呈現(xiàn)負(fù)相關(guān)關(guān)系,也相比簡(jiǎn)單相關(guān)分析的結(jié)果更為可靠,這是因?yàn)?其一,脈壓是收縮壓與舒張壓之差,是由兩測(cè)量值得出數(shù)學(xué)差值。如果我們認(rèn)同簡(jiǎn)單相關(guān)分析的結(jié)果,認(rèn)為脈壓的升高與收縮壓和舒張壓呈現(xiàn)正相關(guān)。就有可能提出“控制脈壓的手段,在于有效地控制收縮壓與舒張壓的升高”的錯(cuò)誤結(jié)論。其次,根據(jù)簡(jiǎn)單相關(guān)分析的結(jié)果,舒張壓與脈壓的正相關(guān)關(guān)系是建立在收縮壓不斷升高的基礎(chǔ)上,然而通過(guò)研究我們發(fā)現(xiàn),收縮壓、舒張壓與脈壓隨著年齡的增長(zhǎng)均呈現(xiàn)了逐漸升高的趨勢(shì),如果不控制包括收縮壓在內(nèi)的因素對(duì)脈壓的影響,就會(huì)得出舒張壓越高,脈壓就會(huì)越高的錯(cuò)誤結(jié)論。而與脈壓相關(guān)的其他因素中例如體質(zhì)指數(shù)、低密度脂蛋白等在偏相關(guān)分析呈現(xiàn)的相關(guān)性也是通過(guò)控制了其他變量對(duì)其影響后的關(guān)聯(lián)程度,其結(jié)果的真實(shí)性也較簡(jiǎn)單相關(guān)分析中所呈現(xiàn)的所有因素均相關(guān)要更加可靠。并且其中的關(guān)系也可在其他臨床研究中得到證實(shí)[6-9]。
綜上所述,在相關(guān)研究分析中,切忌根據(jù)簡(jiǎn)單相關(guān)的結(jié)果就武斷認(rèn)定研究的兩因素具有相關(guān)性,盡管相關(guān)系數(shù)呈現(xiàn)的數(shù)值說(shuō)明了他們之間的共同變化關(guān)系,并且這種關(guān)系在數(shù)學(xué)的體現(xiàn)上是計(jì)算正確的結(jié)果,但在很多情況下,這種共同變化關(guān)系很有可能是由某個(gè)或者多個(gè)因素的影響而引起的。因此,應(yīng)引起重視的是當(dāng)兩個(gè)變量的相關(guān)性十分大時(shí),尤其要注意他們之間的相關(guān)性是否符合邏輯關(guān)系,如果不符,就需要研究引起他們相關(guān)性的因素,通過(guò)去掉這些影響性后,計(jì)算“純”的相關(guān)系數(shù),從而發(fā)現(xiàn)其內(nèi)在的線性關(guān)系。
[1]倪宗贊.醫(yī)學(xué)統(tǒng)計(jì)學(xué).北京.高等教育出版社,2003:138.
[2]李支元.數(shù)據(jù)挖掘系統(tǒng)中偏相關(guān)分析技術(shù)的應(yīng)用研究.連云港師范高等??茖W(xué)校學(xué)報(bào),2012(4):83-85.
[3]張大鵬,路方紅,吳虹,等.脈壓歲中老年急性心肌梗死價(jià)值的分析研究.中華心血管病雜志,2004,32(34):368-369.
[4]JAldrich karl Pearson′s Biometrika:1901-36.Biometrika,2013,100:3-15.
[5]盧珊,王惠文,關(guān)蓉.相關(guān)系數(shù)矩陣的逆矩陣與行列式的內(nèi)涵分析.數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2015,45(6):180-185.
[6]李抒云.身體質(zhì)量指數(shù)與年齡對(duì)血壓的影響.中國(guó)老年學(xué)雜志,2010,30:2439-2441.
[7]MR Garcia-palmicri,CJCrespo,DM Gee.Wide pulse pressure is an independent of cardiovascular mortality in Puerto Ricanmen.Nutritiony Metabolism&Cardiovase Disease,2005,15(1):71-78.
[8]鄧光瑞,黃光勝.高血壓心血管事件的脈壓預(yù)測(cè)研究.吉林醫(yī)學(xué),2010,22(8):921-922.
[9]馬松.脈壓對(duì)高血壓心血管事件預(yù)測(cè)的臨床價(jià)值.航空航天醫(yī)學(xué)雜志,2010,22(8):658-660.
(責(zé)任編輯:郭海強(qiáng))